¿Pueden los sistemas de visión por computadora inferir tu actividad muscular a partir de videos? Conoce Músculos en Acción (MIA) un nuevo conjunto de datos para aprender a incorporar la actividad muscular en las representaciones del movimiento humano.

¿Puede la visión por computadora inferir la actividad muscular desde videos? Descubre Músculos en Acción (MIA), un nuevo conjunto de datos para incorporar la actividad muscular en el movimiento humano.

En tiempos recientes, el campo de la Inteligencia Artificial ha sido tema de discusión. Ya sea el Modelo de Lenguaje Grande que imita a los humanos como GPT 3.5 basado en Procesamiento de Lenguaje Natural y Comprensión de Lenguaje Natural, o el modelo de texto a imagen llamado DALL-E basado en visión por computadora, la IA está abriendo camino hacia el éxito. La visión por computadora, la subcampo de la IA, está mejorando con el lanzamiento de cada nueva aplicación. Se ha vuelto capaz de analizar el movimiento humano a partir de videos y, de esta manera, abordar diversas tareas como la estimación de posturas, el reconocimiento de acciones y la transferencia de movimiento.

Aunque la visión por computadora ha avanzado en la determinación del movimiento humano, no se trata solo de la apariencia externa. Cada acción es consecuencia de nuestro cerebro transmitiendo impulsos eléctricos a nuestros nervios, los cuales a su vez hacen que nuestros músculos se contraigan, resultando finalmente en el movimiento de las articulaciones. Los investigadores han estado dedicando mucho esfuerzo en desarrollar un enfoque con el cual se pueda simular la actividad muscular intrínseca que impulsa la movilidad humana. Para avanzar en esta investigación, dos investigadores de la Universidad de Columbia han presentado un nuevo y único conjunto de datos llamado “Músculos en Acción” (MIA). Este conjunto de datos incluye 12.5 horas de video sincronizado y datos de electromiografía de superficie (sEMG) y captura a diez sujetos realizando varios ejercicios.

Los sensores de electromiografía de superficie (sEMG), disponibles en versiones invasivas y no invasivas, son la herramienta tradicional para determinar la actividad muscular. Los investigadores han desarrollado una representación que puede predecir la activación muscular a partir de videos y, en la otra dirección, reconstruir el movimiento humano a partir de los datos de activación muscular utilizando el conjunto de datos MIA. El objetivo principal es comprender la compleja conexión entre la actividad muscular subyacente y la información visual. Al modelar conjuntamente ambas modalidades, el modelo se ha condicionado para generar movimientos consistentes con la activación muscular.

La parte principal de este proyecto es el marco para modelar la conexión entre el movimiento humano visto en el video y la actividad muscular interna reflejada por las señales de sEMG. El artículo de investigación compartido por el equipo brinda una breve descripción de trabajos relevantes en el análisis de actividades humanas, generación condicional de movimientos, aprendizaje multimodal, electromiografía y generación de movimientos humanos basada en la física. A esto le sigue una descripción y análisis detallados del conjunto de datos multimodal.

Para la evaluación, los investigadores han experimentado tanto con participantes y ejercicios dentro de la distribución como con sujetos y entrenamientos fuera de la distribución para determinar qué tan bien funciona su modelo. Han probado el modelo con datos diferentes a los de la distribución de entrenamiento y datos similares a los datos en los que se entrenó. Esta evaluación ayuda a validar la generalización de la metodología.

En conclusión, el uso de los músculos en los sistemas de visión por computadora tiene numerosos usos potenciales. Se pueden producir modelos virtuales de humanos más ricos al comprender y simular la acción muscular interna. Estos modelos se pueden utilizar en una variedad de entornos del mundo real, incluidos los relacionados con deportes, fitness y realidad aumentada y virtual.