Investigadores del MIT proponen el algoritmo de edición de pseudoetiquetas simples (SimPLE) para mejorar la calidad de la pseudoetiquetado en el auto-entrenamiento.
MIT researchers propose SimPLE algorithm to improve pseudo-labeling quality in self-training.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado un enfoque novedoso para abordar los desafíos asociados con los modelos de lenguaje grande (LLMs) en la comprensión del lenguaje natural. Si bien los LLM han demostrado capacidades impresionantes en la generación de lenguaje, arte y código, sus requisitos computacionales y las preocupaciones de privacidad de los datos han sido obstáculos. El equipo del MIT cree que los modelos más pequeños no deben ser pasados por alto y ha ideado un modelo consciente de la lógica que supera a modelos mucho más grandes en ciertas tareas de comprensión del lenguaje sin anotaciones generadas por humanos.
Los investigadores atribuyen el éxito de estos modelos más pequeños al concepto de “implicación textual”. La implicación textual se refiere a la relación entre dos oraciones, donde si una oración es verdadera (la premisa), es probable que la otra oración también sea verdadera (la hipótesis). Al entrenar un “modelo de implicación” utilizando este concepto, el equipo creó comandos que permiten a los modelos determinar si cierta información está implicada por una oración o frase dada en diferentes tareas sin entrenamiento adicional (adaptación sin disparo).
La comprensión del lenguaje natural abarca diversas aplicaciones que dependen de establecer relaciones entre fragmentos de texto. El equipo del MIT se dio cuenta de que muchas de estas tareas podrían reformularse como tareas de implicación, donde la inferencia lógica en el lenguaje natural desempeña un papel central. Por ejemplo, la clasificación de sentimientos implica inferir el sentimiento expresado en una declaración basada en otro texto. Los investigadores desarrollaron modelos de implicación autoentrenados con 350 millones de parámetros, superando a modelos supervisados con 137 a 175 mil millones de parámetros y demostrando su potencial para soluciones de modelado de lenguaje escalables, confiables y rentables.
Para mejorar aún más el rendimiento del modelo, los investigadores emplearon una técnica de autoentrenamiento, donde el modelo utiliza sus predicciones para aprender sin supervisión humana ni datos anotados adicionales. Este método mejoró significativamente el rendimiento en tareas de análisis de sentimientos, preguntas y respuestas, y clasificación de noticias, superando a otros modelos como LaMDA y FLAN de Google en capacidades sin disparo y modelos GPT. Sin embargo, el desafío del autoentrenamiento radica en la posible generación de etiquetas incorrectas o ruidosas que pueden afectar el rendimiento. Para superar esto, el equipo desarrolló SimPLE (Simple Pseudo-Label Editing), un algoritmo que revisa y modifica las pseudoetiquetas generadas durante las rondas de aprendizaje inicial. Este enfoque mejoró la comprensión del lenguaje y mejoró la robustez del modelo contra datos adversarios.
- OpenAI y DeepMind colaboran con el Gobierno del Reino Unido para av...
- Investigadores de Princeton presentan MeZO un optimizador de orden ...
- Editor Mágico en Google Fotos Nuevas funciones de edición con intel...
Si bien la investigación demostró la eficacia de los modelos de autoentrenamiento e implicación, también destacó algunas limitaciones. Las tareas de clasificación multiclase no se beneficiaron tanto como las tareas de comprensión del lenguaje natural binarias del autoentrenamiento, lo que enfatiza la dificultad de aplicar modelos de implicación a tareas de elección múltiple.
Los hallazgos de esta investigación ofrecen una metodología de entrenamiento eficiente y efectiva para los modelos de lenguaje grande. Al formular las tareas de comprensión del lenguaje natural como problemas de implicación contextual y incorporar la pseudoetiquetado y el autoentrenamiento con datos de texto no etiquetados, se vuelve posible desarrollar modelos de lenguaje compactos que superen a modelos más grandes en tareas de comprensión de referencia. El trabajo del equipo del MIT contribuye al panorama en evolución de los LLM, proporcionando tecnologías de inteligencia artificial más sostenibles y que preservan la privacidad para el procesamiento y la comprensión del lenguaje.