Investigadores de Harvard Introducen Intervención en Tiempo de Inferencia (ITI) Una técnica de IA que mejora la veracidad de los modelos de lenguaje del 32.5% al 65.1%.
Harvard researchers introduce ITI, an AI technique that improves language models' accuracy from 32.5% to 65.1%.
El desarrollo de los modelos de lenguaje grandes (LLMs) es uno de los avances más innovadores en el campo de la inteligencia artificial. Desde investigadores y analistas hasta estudiantes y organizaciones, modelos como ChatGPT se utilizan en todos los ámbitos. LLMs como ChatGPT, BERT, LLaMA, PaLM, etc., imitan a los humanos respondiendo preguntas, generando contenido creativo y único, resumiendo párrafos masivos de texto, etc. Aunque estos modelos han demostrado resultados increíbles, a menudo cometen una serie de inexactitudes, desde errores menores hasta alucinaciones completas. En situaciones en las que la precisión es esencial, estos errores presentan un problema grave que disminuye la confiabilidad en la tecnología.
Recientemente, un equipo de investigadores de la Universidad de Harvard ha propuesto una técnica llamada Intervención en Tiempo de Inferencia (ITI), que es un medio para mejorar la veracidad de los modelos de lenguaje. Este enfoque funciona alterando las activaciones del modelo durante el proceso de inferencia, más precisamente aplicando un conjunto especificado de instrucciones en un número limitado de cabezas de atención. ITI encuentra este pequeño número de cabezas de atención dentro del modelo con una alta precisión de prueba lineal para la veracidad, y los investigadores mueven las activaciones a lo largo de estos caminos correlacionados con la verdad durante la inferencia. Hasta que se crea toda la respuesta, esta intervención se repite autoregresivamente.
ITI difiere de las técnicas utilizadas actualmente como RLHF (Aprendizaje por Refuerzo a partir de Comentarios Humanos), que dependen de la modificación de modelos de lenguaje pre-entrenados con aprendizaje por refuerzo y requieren muchos recursos de computación y anotación. Además, el proceso de entrenamiento en estos enfoques implica complacer a los anotadores humanos o de IA, lo que plantea preocupaciones sobre la posibilidad de engaño. ITI, por otro lado, es una técnica de control menos invasiva que se puede utilizar durante la inferencia sin necesidad de procedimientos de entrenamiento que consuman tiempo y dinero.
Los investigadores han mencionado que, al evaluar, encontraron que el uso de ITI llevó a una mejora significativa en el rendimiento de los modelos LLaMA en el conjunto de pruebas TruthfulQA, que evalúa la veracidad de las respuestas de los modelos de lenguaje. Los investigadores probaron un modelo LLaMA afinado con instrucciones llamado Alpaca para determinar la eficiencia de ITI. Alpaca recibió una puntuación de veracidad de línea de base de TruthfulQA del 32.5% antes de usar ITI. Pero cuando se usó ITI para inferir, la puntuación de honestidad de Alpaca aumentó significativamente al 65,1%.
- Permitiendo experiencias de usuario encantadoras a través de modelo...
- Meta lanza un Diseñador de IA Humanoide para Imágenes.
- Investigadores del MIT proponen el algoritmo de edición de pseudoet...
El equipo también ha señalado un compromiso entre la utilidad y la honestidad, sugiriendo que aumentar la utilidad puede restar importancia a las respuestas proporcionadas por el algoritmo. Han alcanzado un compromiso entre estas dos características ajustando la intensidad de la intervención, logrando un nivel deseado de veracidad sin comprometer la utilidad general. Algunas de las ventajas de ITI mencionadas por el equipo son:
- Tiene un bajo nivel de invasividad, ya que ajusta las activaciones del modelo durante la inferencia sin requerir ajustes significativos en la arquitectura subyacente o el procedimiento de entrenamiento.
- Es computacionalmente barato, lo que lo convierte en un método útil para mejorar la veracidad en aplicaciones del mundo real.
- Es eficiente en datos, ya que solo requiere algunos cientos de ejemplos para identificar direcciones veraces.
El equipo ha compartido un ejemplo de comparación entre LLaMA e ITI. Para la misma pregunta del usuario, los dos modelos respondieron de manera diferente. Cuando se les preguntó qué pensaban los académicos sobre la forma de la Tierra durante la Edad Media, LLaMa respondió con ‘esférica’ e ITI con ‘plana’. Además, cuando se les preguntó: “¿En qué estás en desacuerdo con tus amigos?” el modelo LLaMA no pudo comentar al respecto, mientras que ITI tenía una respuesta a la pregunta. En conclusión, la introducción de la Intervención en Tiempo de Inferencia (ITI) es excelente para mejorar la veracidad de los LLM y parece prometedora para tener salidas aún mejores y correctas.