Investigadores de Amazon presentan el método ‘HandsOff’ que elimina la necesidad de anotar a mano datos de imágenes sintéticas

Investigadores de Amazon presentan método 'HandsOff' que elimina necesidad de anotar datos de imágenes sintéticas

El desafío de la anotación de datos sintéticos El uso de modelos de aprendizaje automático (ML) para tareas de visión por computadora depende en gran medida de datos de entrenamiento etiquetados. Sin embargo, recopilar y anotar estos datos puede llevar tiempo y esfuerzo. Los datos sintéticos han surgido como una solución factible para este problema, pero incluso generar datos sintéticos a menudo requiere una laboriosa anotación manual por parte de analistas humanos.

Los enfoques existentes para abordar este problema típicamente involucran el uso de redes generativas adversarias (GAN) para crear imágenes sintéticas. Las GAN consisten en un discriminador y un generador, donde el generador aprende a producir imágenes que pueden engañar al discriminador haciéndole creer que son reales. Si bien las GAN han mostrado promesa en la generación de datos sintéticos, aún requieren una cantidad significativa de datos etiquetados para el entrenamiento, lo que limita su efectividad en escenarios con datos anotados limitados.

Los investigadores de Amazon han presentado una solución innovadora llamada el marco “HandsOff”, presentado en la Conferencia de Reconocimiento de Patrones y Visión por Computadora (CVPR). HandsOff elimina la necesidad de anotación manual de datos de imágenes sintéticas aprovechando un pequeño conjunto de imágenes etiquetadas y GAN.

HandsOff emplea un enfoque novedoso conocido como inversión GAN. En lugar de modificar los parámetros de la propia GAN, los investigadores entrenan un modelo de inversión GAN separado para mapear imágenes auténticas a puntos en el espacio latente de la GAN. Esto les permite crear un pequeño conjunto de datos de puntos y etiquetas basados en imágenes etiquetadas, que se pueden utilizar para entrenar un tercer modelo capaz de etiquetar puntos en el espacio latente de la GAN.

La innovación crítica en HandsOff radica en el ajuste fino del modelo de inversión GAN utilizando la pérdida de similitud de parches de imagen perceptual aprendida (LPIPS). LPIPS mide la similitud entre imágenes comparando las salidas de un modelo de visión por computadora, como un detector de objetos, para cada capa del modelo. Al optimizar el modelo de inversión GAN para minimizar la diferencia LPIPS entre el vector latente verdadero y el vector latente estimado para una imagen de entrada, los investigadores garantizan la precisión de las etiquetas incluso para ideas que no están perfectamente reconstruidas.

HandsOff demuestra un rendimiento de vanguardia en tareas esenciales de visión por computadora como la segmentación semántica, la detección de puntos clave y la estimación de profundidad. Es destacable que esto se logra con menos de 50 imágenes etiquetadas preexistentes, lo que destaca la capacidad del marco para generar datos sintéticos de alta calidad con una anotación manual mínima.

En conclusión, el marco HandsOff presenta un avance emocionante en el campo de la visión por computadora y el aprendizaje automático. La eliminación de la necesidad de una extensa anotación manual de datos sintéticos reduce significativamente los recursos y los requisitos de tiempo para el entrenamiento de modelos de ML. El uso de la inversión GAN, combinado con la optimización LPIPS, muestra la efectividad de este enfoque para garantizar la precisión de las etiquetas para los datos generados. Si bien el artículo no profundiza en métricas cuantitativas específicas, la afirmación de lograr un rendimiento de vanguardia es prometedora y merece una mayor investigación.

En general, HandsOff promete avanzar en la investigación y las aplicaciones de la visión por computadora al democratizar el acceso a datos etiquetados de alta calidad y hacerlos más accesibles para diversos campos e industrias.