Esta investigación de IA presenta una nueva destilación de poses en dos etapas para la estimación de la pose de todo el cuerpo’.

Esta investigación de IA propone una nueva destilación de poses en dos etapas para estimar la pose completa del cuerpo.

Numerosas tareas de percepción, comprensión y creación centradas en el ser humano dependen de la estimación de la postura del cuerpo completo, incluyendo la recuperación de mallas del cuerpo completo en 3D, la interacción humano-objeto y la producción de imágenes y movimientos humanos condicionados por la postura. Además, el uso de algoritmos sencillos de usar como OpenPose y MediaPipe para grabar posturas humanas para el desarrollo de contenido virtual y VR/AR ha aumentado significativamente en popularidad. Aunque estas herramientas son convenientes, su rendimiento aún necesita mejorar, lo que limita su potencial. Por lo tanto, es esencial desarrollar más tecnologías de evaluación de la postura humana para hacer realidad la promesa de la producción de contenido impulsada por el usuario.

Comparativamente hablando, la estimación de la postura del cuerpo completo presenta más dificultades que la estimación de la postura humana con detección de puntos clave del cuerpo solamente debido a los siguientes factores:

  1. Las estructuras jerárquicas del cuerpo humano para la localización de puntos clave de alta resolución.
  2. Las resoluciones pequeñas de la mano y la cara.
  3. Las partes del cuerpo complejas se ajustan a múltiples personas en una imagen, especialmente en casos de oclusión y poses de manos difíciles.
  4. Limitación de datos, especialmente para la diversidad de poses de manos y poses de cabeza en las imágenes de cuerpo completo.

Además, un modelo debe comprimirse en una red delgada antes de su implementación. La destilación, el recorte y la cuantización son las técnicas fundamentales de compresión.

La destilación del conocimiento (KD) puede mejorar la efectividad de un modelo compacto sin agregar gastos innecesarios al proceso de inferencia. Este método, que se utiliza ampliamente en diversas tareas como la categorización, la detección y la segmentación, permite a los estudiantes adquirir conocimientos de un profesor más experimentado. Como resultado de la investigación de la destilación del conocimiento para la estimación de la postura del cuerpo completo, se producen un conjunto de estimadores de postura en tiempo real con buen rendimiento y eficiencia. Investigadores de la Escuela Internacional de Graduados de Tsinghua Shenzhen y la Academia Internacional de Economía Digital sugieren específicamente una arquitectura revolucionaria de destilación de postura en dos etapas llamada DWPose, que, como se muestra en la Figura 1, proporciona un rendimiento de vanguardia. Utilizan el modelo de postura más reciente, RTMPose, entrenado en COCO-WholeBody, como su modelo fundamental.

Figura 1 muestra una comparación entre su modelo y modelos comparables para la estimación de la postura del cuerpo completo de COCO-WholeBody.

En la primera etapa de destilación, utilizan nativamente la capa intermedia del profesor (por ejemplo, RTMPose-x) y los logits finales para dirigir al modelo estudiante (por ejemplo, RTMPose-l). Los puntos clave pueden distinguirse en el entrenamiento de postura previo por su visibilidad y solo se utilizan los puntos clave visibles para el monitoreo. En cambio, utilizan las salidas completas del profesor que incluyen tanto los puntos clave visibles como los invisibles, como logits finales, lo que puede transmitir valores precisos y completos para ayudar en el proceso de aprendizaje de los estudiantes. También utilizan un enfoque de decaimiento de peso para aumentar la efectividad, lo que reduce progresivamente el peso del dispositivo durante toda la sesión de entrenamiento. La segunda etapa de destilación sugiere una auto-KD consciente de la cabeza para aumentar la capacidad de la cabeza, ya que una mejor cabeza decidiría una localización más precisa.

Construyen dos modelos idénticos, eligiendo uno como el estudiante a actualizar y el otro como el instructor. Solo se actualiza la cabeza del estudiante mediante la destilación basada en los logit, dejando el resto del cuerpo congelado. Es importante destacar que esta estrategia plug-and-play funciona con cabezas de predicción densa y permite que el estudiante obtenga mejores resultados con un 20% menos de tiempo de entrenamiento, ya sea que se haya entrenado desde el principio con destilación o sin ella. El volumen y la variedad de datos que abordan diferentes tamaños de partes del cuerpo humano afectarán el rendimiento del modelo. Debido a la necesidad de conjuntos de datos que anoten de manera exhaustiva los puntos clave, los estimadores existentes deben ayudar a localizar de manera precisa los landmarks delicados de los dedos y la cara.

Por lo tanto, incorporan un conjunto de datos adicional llamado UBody que incluye numerosos puntos clave de la cara y la mano fotografiados en diversos entornos de la vida real para examinar el efecto de los datos. Así, se puede decir lo siguiente acerca de sus contribuciones:

• Para superar la limitación de los datos de todo el cuerpo, exploran datos de entrenamiento más completos, especialmente en gestos de mano y expresiones faciales diversas y expresivas, lo que lo hace aplicable a aplicaciones de la vida real.

• Introducen un método de destilación de conocimiento de poses en dos etapas, persiguiendo una estimación eficiente y precisa de la pose de todo el cuerpo.

• Sus técnicas de destilación y datos sugeridas pueden mejorar en gran medida RTMPose-l de 64.8% a 66.5% AP, incluso superando al instructor RTMPose-x con 65.3% AP, utilizando el modelo base más reciente de RTMPose. Además, confirman la eficacia y eficiencia de DWPose en la generación de trabajo.