Un nuevo estudio de investigación de IA de China propone SHIP un enfoque de IA generativa plug-and-play para mejorar los métodos existentes de ajuste fino
Nuevo estudio chino propone SHIP, enfoque generativo de IA para mejorar ajuste fino.
Este artículo aborda un enfoque novedoso llamado SyntHesIzed Prompts (SHIP) para mejorar los métodos de ajuste fino existentes.
Ajuste fino: Después del preentrenamiento, el modelo se ajusta finamente en un conjunto de datos más pequeño y específico de la tarea. Esto implica continuar el proceso de entrenamiento con los nuevos datos, a menudo con una tasa de aprendizaje más baja. La idea es ajustar el conocimiento generalizado que el modelo ha adquirido del preentrenamiento para hacerlo más aplicable a la tarea específica.
El problema que los investigadores están abordando es el escenario en el que algunas clases no tienen datos. Su objetivo era entrenar un modelo generativo que pueda sintetizar características proporcionando nombres de clase, lo que les permite generar características para categorías sin datos.
- Chatbot para tus documentos de Google utilizando Langchain y OpenAI
- Investigadores de ETH Zurich presentan LMQL Un lenguaje de programa...
- Conoce Advanced Reasoning Benchmark (ARB) Un nuevo benchmark para e...
Generar características para categorías sin datos se refiere al proceso de sintetizar representaciones para clases o categorías que no están presentes en el conjunto de datos de entrenamiento. Esto es particularmente útil en escenarios donde recolectar datos reales para ciertas clases puede ser desafiante o imposible.
Luego, los investigadores ajustaron finamente CLIP utilizando tanto las características etiquetadas originales como las características sintetizadas recién generadas con métodos listos para usar. Sin embargo, un obstáculo importante es que los modelos generativos típicamente requieren una cantidad sustancial de datos para entrenar, lo cual contradice su objetivo de eficiencia de datos. Propusieron utilizar un autoencoder variacional (VAE) como marco, que es más fácil de entrenar y más efectivo en escenarios de pocos datos en comparación con los modelos que requieren entrenamiento adversarial.
Mientras que tanto las GAN como las VAE son modelos generativos capaces de crear nuevas muestras de datos, difieren significativamente en su arquitectura, objetivos y métodos de entrenamiento. Las GAN son conocidas por su capacidad para generar muestras de alta calidad y realistas, pero pueden ser difíciles de entrenar. Las VAE, por otro lado, proporcionan un marco probabilístico que puede ser más fácil de trabajar, especialmente en escenarios con datos limitados, pero es posible que no produzcan muestras tan nítidas o realistas como las GAN.
CLIP (Contrastive Language–Image Pretraining) es un modelo desarrollado por OpenAI que aprende a comprender y generar imágenes a partir de descripciones textuales y viceversa. Se ha preentrenado en un conjunto de datos a gran escala y tiene representaciones visuales y de lenguaje alineadas. El codificador de lenguaje preentrenado ayuda a generar características más realistas. El artículo tiene como objetivo mejorar el rendimiento de los métodos de ajuste fino de CLIP utilizando datos sintetizados. Se realizaron experimentos exhaustivos sobre generalización de base a nueva, transferencia de aprendizaje entre conjuntos de datos y aprendizaje de cero disparado generalizado, lo que resultó en un rendimiento de vanguardia.
La arquitectura del modelo propuesto aprovecha el marco VAE para codificar y generar características, integrándose con CLIP para extraer características de imágenes y reconstruirlas. Durante el entrenamiento, el modelo aprende a codificar las características en un espacio latente y luego a reconstruirlas. Durante la etapa de generación, utiliza esta codificación aprendida para sintetizar características para nuevas clases, lo que permite el ajuste fino de CLIP incluso cuando algunas clases no tienen datos. El generador basado en CLIP, que comprende una MLP ligera y un codificador de texto CLIP congelado, juega un papel clave en transformar el código latente y construir las indicaciones finales para la reconstrucción de características.
Resultados experimentales observados por los investigadores:
Generalización de base a nueva: Los experimentos se realizaron en 11 conjuntos de datos diversos de clasificación de imágenes, que incluyen ImageNet, Caltech101, OxfordPets, StanfordCars, Flowers102, Food101, FGVCAircraft, SUN397, DTD, EuroSAT y UCF101. Los conjuntos de datos se dividieron en clases base y clases nuevas, y se realizaron entrenamientos en las clases base con 16 muestras por clase. La evaluación se realizó tanto en las clases base como en las nuevas.
Ajuste fino generalizado de cero disparado: El artículo también evaluó la generalización de base a nueva en un escenario de ajuste fino generalizado de cero disparado más realista, donde los datos base y nuevos se mezclan en el conjunto de datos de prueba. Los resultados indicaron una disminución significativa en el rendimiento para los métodos anteriores, pero el método propuesto, SHIP, continuó mejorando el rendimiento en las nuevas clases.
Comparación con otros métodos: Los resultados se compararon con otros métodos, incluyendo CLIP, CoOp, CLIP-Adapter y Tip-Adapter. El método propuesto, SHIP, mostró un mejor rendimiento en las nuevas clases en varios conjuntos de datos.
Conclusión:
El artículo propuso un enfoque novedoso de Prompts Sintetizados (SHIP, por sus siglas en inglés) para mejorar los métodos de ajuste fino existentes, especialmente en escenarios donde algunas clases no tienen datos. El método logró un rendimiento de vanguardia en diversas tareas al sintetizar características para categorías sin datos y ajustar fino a CLIP utilizando tanto características etiquetadas originales como características sintetizadas recién creadas. El artículo reconoció los costos adicionales de entrenamiento como una limitación y expresó la intención de explorar la aplicabilidad de SHIP en tareas de predicción densa en futuras investigaciones.
En general, el artículo presenta una contribución significativa al campo al abordar el desafío de la escasez de datos para ciertas clases y mejorar el rendimiento de los métodos de ajuste fino de CLIP utilizando datos sintetizados.