Investigadores del MIT y Microsoft presentan DoLa una nueva estrategia de decodificación de IA destinada a reducir las alucinaciones en los modelos de lenguaje de aprendizaje profundo (LLMs).

Investigadores del MIT y Microsoft presentan DoLa, una estrategia de decodificación de IA para reducir alucinaciones en LLMs.

Las numerosas aplicaciones de procesamiento del lenguaje natural (NLP) se han beneficiado enormemente del uso de grandes modelos de lenguaje (LLM). Si bien los LLM han mejorado en rendimiento y han adquirido capacidades adicionales debido a su escala, aún tienen un problema de “alucinación” o producción de información inconsistente con los hechos del mundo real detectados durante el preentrenamiento. Esto representa una barrera significativa para la adopción en aplicaciones de alto riesgo (como las que se encuentran en entornos clínicos y legales), donde la generación de texto confiable es esencial.

El objetivo del modelado del lenguaje de máxima verosimilitud, que busca minimizar la divergencia KL hacia adelante entre las distribuciones de datos y modelos, puede ser el responsable de las alucinaciones de los LLM. Sin embargo, esto está lejos de ser cierto. Si se persigue este objetivo, el LLM puede asignar una probabilidad distinta de cero a frases que no son completamente consistentes con el conocimiento codificado en los datos de entrenamiento.

Desde la perspectiva de la interpretabilidad del modelo, los estudios han demostrado que las capas anteriores de los LLMs de transformer codifican información “de nivel inferior” (como etiquetas de partes del discurso). En cambio, las capas posteriores codifican información más “semántica”.

Un grupo de investigadores del MIT y Microsoft sugiere utilizar esta codificación modular del conocimiento para aumentar el conocimiento factual del LLM a través de una estrategia de decodificación contrastiva, donde se calcula la probabilidad de la salida de la siguiente palabra utilizando la diferencia de logits de una capa superior. Con esto, es posible hacer que los LLM estén más fundamentados en la realidad y reducir las alucinaciones al priorizar la información de niveles más profundos y restar importancia a la de niveles intermedios o más superficiales.

Su trabajo reciente presenta Decoding by Contrasting Layers (DoLa), un enfoque novedoso de decodificación. El método propuesto se basa en mejorar la exposición del conocimiento factual codificado en un LLM sin recuperar conocimiento externo o realizar un ajuste adicional.

Se ha demostrado experimentalmente que DoLa mejora la integridad de los modelos de la familia LLaMA tanto en TruthfulQA como en FACTOR. Tanto para StrategyQA como para GSM8K cc, experimentos adicionales sobre razonamiento en cadena de pensamiento demuestran su potencial para mejorar el razonamiento factual. Por último, los resultados experimentales sobre producción de texto abierto (evaluados con GPT-4) revelan que DoLa puede generar respuestas informativas y significativamente más factuales que conducen a calificaciones superiores en comparación con el enfoque de decodificación original. DoLa es un enfoque de decodificación que se puede utilizar para aumentar la honestidad de los LLM, y los hallazgos muestran que solo agrega una pequeña cantidad de tiempo al proceso de decodificación.

Los investigadores no investigaron el rendimiento del modelo en otros dominios, como seguir instrucciones o captar retroalimentación humana. Además, en lugar de aprovechar etiquetas humanas o fuentes de información factual para el ajuste fino, el equipo se basa en la arquitectura y los parámetros preexistentes, lo que restringe el alcance de posibles mejoras. A diferencia de ciertos LMs con recuperación aumentada, esta técnica depende completamente del conocimiento preexistente del modelo en lugar de agregar nueva información a través de módulos de recuperación externos. El equipo espera que el trabajo futuro incorpore los componentes anteriores con su técnica de decodificación para ayudar a superar las restricciones.