Conozca a DreamTeacher un marco de IA de aprendizaje de representación de características autodirigido que utiliza redes generativas para la preentrenamiento de espinas dorsales de imágenes aguas abajo.

DreamTeacher es un marco de IA de aprendizaje de representación de características autodirigido que utiliza redes generativas para la preentrenamiento de espinas dorsales de imágenes aguas abajo.

El aprendizaje de representaciones auto-supervisado es un método exitoso para desarrollar habilidades fundamentales de visión. Esta línea de investigación se basa en la idea de que el uso de grandes conjuntos de datos no etiquetados como fuentes de entrenamiento complementarias mejoraría el rendimiento de la red en tareas posteriores y reduciría la necesidad de grandes conjuntos de datos etiquetados. Estudios recientes han demostrado que la pre-entrenamiento auto-supervisado en ImageNet puede igualar o superar el pre-entrenamiento supervisado en varios conjuntos de datos y tareas posteriores, incluyendo segmentación semántica y segmentación de instancias a nivel de píxel.

Las variantes del aprendizaje por contraste, donde se entrena la red objetivo para mapear vistas modificadas de una imagen más cerca en el espacio latente que imágenes seleccionadas al azar del conjunto de datos, son uno de los métodos más populares para el aprendizaje de representaciones auto-supervisado. Este paradigma puede mejorarse añadiendo pérdidas espaciales y fortaleciendo la estabilidad del entrenamiento con menos o sin instancias negativas. Otra área de investigación se centra en las pérdidas de reconstrucción para la supervisión, o Modelado de Imágenes enmascaradas (MIM), que implica enmascarar ciertas regiones de una imagen de entrada y entrenar las redes para reconstruir esas partes. Este trabajo se considera generalmente determinista, lo que significa que supervisa una única teoría para la región oculta.

Típicamente, esta área de trabajo examina el diseño arquitectónico, las técnicas de entrenamiento y las tácticas de enmascaramiento para entrenar mejores redes. Cuando se utilizan con redes basadas en Vision Transformer, estas técnicas han alcanzado un rendimiento de última generación; sin embargo, se ha demostrado recientemente que las redes basadas en CNN esparcidas son igualmente eficaces. En este estudio, los autores defienden el uso de modelos generativos como aprendices de representación, citando la simplicidad del objetivo -producir datos- y el poder representacional intuitivo -producir muestras de alta calidad como signo de aprendizaje de representaciones internas semánticamente adecuadas.

Es una idea familiar utilizar redes generativas como aprendices de representación. Se sugirió que las características de StyleGAN o de un modelo de difusión se complementaran con cabezas dependientes de la tarea en DatasetGAN y sus derivados, que luego emplearon estas redes mejoradas como fuentes de datos etiquetados para entrenar redes posteriores. En cambio, SemanticGAN utilizó StyleGAN con un decodificador de tarea adicional como la propia red de tarea, codificando imágenes en el espacio latente del modelo generativo y utilizando la cabeza de tarea para crear una salida perceptual. En este estudio, investigadores de NVIDIA, la Universidad de Toronto, el Vector Institute y el MIT presentan DreamTeacher, un marco para el aprendizaje de representaciones que utiliza modelos generativos para pre-entrenar modelos de percepción posteriores basados en destilación.

Se examinan dos procesos de destilación diferentes: 1) Como procedimiento de pre-entrenamiento universal sin etiquetas, proporcionan técnicas para la destilación de características, que implican reducir las características generadoras a las redes objetivo. 2) Destilación de etiquetas: En un entorno semi-supervisado, se destila el conocimiento de un conjunto de datos etiquetado a las redes objetivo utilizando cabezas de tarea sobre las redes generativas. Los modelos de difusión y las GAN son los modelos generativos elegidos en su trabajo.

Se centran en las redes CNN para las redes objetivo por dos razones principales. 1) Se ha demostrado que las redes basadas en CNN pueden llevar a cabo un aprendizaje de representación de última generación para las técnicas de contraste y MIM, y 2) Los modelos generativos de última generación (como las GAN y los modelos de difusión) todavía dependen en gran medida de las redes CNN. También investigaron las redes basadas en Vision Transformer en pruebas iniciales, pero encontraron difícil extraer características de los modelos generativos basados en CNN en los Vision Transformers. Dado que los modelos generativos creados utilizando arquitecturas de Vision Transformer todavía están en sus primeras etapas, aún se necesita más investigación sobre DreamTeacher utilizando estos diseños.

Demuestran empíricamente que DreamTeacher supera a los sistemas de aprendizaje auto-supervisado actualmente disponibles en numerosas pruebas y condiciones. En varios conjuntos de datos y tareas de predicción densa, incluyendo segmentación semántica en ADE20K, segmentación de instancias en MSCOCO y el conjunto de datos de conducción autónoma BDD100K, su método supera significativamente a los métodos pre-entrenados en ImageNet con supervisión completa cuando se pre-entrena en ImageNet sin etiquetas. Cuando se entrena solo en el dominio objetivo, su técnica supera significativamente a las variantes pre-entrenadas en ImageNet con supervisión de etiquetas. Alcanza nuevos rendimientos de última generación en conjuntos de datos centrados en objetos con millones de imágenes no etiquetadas. Estos hallazgos demuestran la potencia de los modelos generativos, especialmente los modelos generativos basados en difusión, como aprendices de representación que aprovechan eficientemente una amplia gama de información no etiquetada.