Conoce ImageReward Un modelo revolucionario de texto a imagen que acorta la brecha entre las capacidades generativas de la IA y los valores humanos.

ImageReward un modelo revolucionario que acorta la brecha entre la IA y los valores humanos.

En el aprendizaje automático, los modelos generativos que pueden producir imágenes basadas en entradas de texto han avanzado significativamente en los últimos años, con diversos enfoques que muestran resultados prometedores. Si bien estos modelos han atraído considerable atención y aplicaciones potenciales, alinearlos con las preferencias humanas sigue siendo un desafío principal debido a las diferencias entre las distribuciones de preentrenamiento y las distribuciones de las solicitudes de los usuarios, lo que resulta en problemas conocidos con las imágenes generadas.

Surgen varios desafíos al generar imágenes a partir de indicaciones de texto. Estos incluyen dificultades para alinear con precisión el texto y las imágenes, representar con precisión el cuerpo humano, adherirse a las preferencias estéticas humanas y evitar la toxicidad potencial y los sesgos en el contenido generado. Abordar estos desafíos requiere más que mejorar la arquitectura del modelo y los datos de preentrenamiento. Un enfoque explorado en el procesamiento del lenguaje natural es el aprendizaje por refuerzo a partir del feedback humano, donde se crea un modelo de recompensa a través de comparaciones anotadas por expertos para guiar al modelo hacia las preferencias y valores humanos. Sin embargo, este proceso de anotación puede llevar tiempo y esfuerzo.

Para hacer frente a estos desafíos, un equipo de investigación de China ha presentado una solución novedosa para generar imágenes a partir de indicaciones de texto. Introducen ImageReward, el primer modelo de recompensa de preferencia humana de texto a imagen de propósito general, entrenado en 137k pares de comparaciones de expertos basadas en indicaciones de usuarios del mundo real y salidas del modelo.

Para construir ImageReward, los autores utilizaron un algoritmo basado en grafos para seleccionar varias indicaciones y proporcionaron a los anotadores un sistema que consiste en anotación de indicaciones, clasificación de texto-imagen y clasificación de imágenes. También reclutaron a anotadores con al menos educación universitaria para garantizar un consenso en las calificaciones y clasificaciones de las imágenes generadas. Los autores analizaron el rendimiento de un modelo de texto a imagen en diferentes tipos de indicaciones. Recopilaron un conjunto de datos de 8,878 indicaciones útiles y calificaron las imágenes generadas en función de tres dimensiones. También identificaron problemas comunes en las imágenes generadas y encontraron que los problemas con el cuerpo y la generación repetida eran los más graves. Estudiaron la influencia de las “palabras funcionales” en las indicaciones en el rendimiento del modelo y encontraron que las frases funcionales adecuadas mejoran la alineación texto-imagen.

El paso experimental implicó entrenar ImageReward, un modelo de preferencia para imágenes generadas, utilizando anotaciones para modelar las preferencias humanas. Se utilizó BLIP como base y se congelaron algunas capas del transformador para evitar el sobreajuste. Los hiperparámetros óptimos se determinaron mediante una búsqueda en cuadrícula utilizando un conjunto de validación. La función de pérdida se formuló en función de las imágenes clasificadas para cada indicación, y el objetivo era seleccionar automáticamente las imágenes que prefieren los humanos.

En el paso experimental, el modelo se entrenó en un conjunto de datos de más de 136,000 pares de comparaciones de imágenes y se comparó con otros modelos utilizando la precisión de preferencia, la recuperación y las puntuaciones de filtro. ImageReward supera a otros modelos, con una precisión de preferencia del 65.14%. El documento también incluye un análisis de acuerdo entre los anotadores, los investigadores, el conjunto de anotadores y los modelos. Se demuestra que el modelo tiene un mejor rendimiento que otros modelos en cuanto a fidelidad de imagen, que es más compleja que la estética, y maximiza la diferencia entre imágenes superiores e inferiores. Además, se realizó un estudio de ablación para analizar el impacto de eliminar componentes o características específicas del modelo ImageReward propuesto. El principal resultado del estudio de ablación es que eliminar cualquiera de las tres ramas, incluida la base del transformador, el codificador de imagen y el codificador de texto, provocaría una caída significativa en la precisión de preferencia del modelo. En particular, eliminar la base del transformador causaría la caída de rendimiento más significativa, lo que indica el papel crítico del transformador en el modelo.

En este artículo, presentamos una nueva investigación realizada por un equipo chino que introdujo ImageReward. Este modelo de recompensa de preferencia humana de texto a imagen de propósito general aborda problemas en los modelos generativos al alinearse con los valores humanos. Crearon un flujo de trabajo de anotación y un conjunto de datos de 137k comparaciones y 8,878 indicaciones. Los experimentos mostraron que ImageReward superó a los métodos existentes y podría ser una métrica de evaluación ideal. El equipo analizó las evaluaciones humanas y planeó refinar el proceso de anotación, ampliar el modelo para cubrir más categorías y explorar el aprendizaje por refuerzo para ampliar los límites de la síntesis de texto a imagen.