Una nueva investigación de IA presenta un enfoque centrado en las instrucciones para analizar las capacidades de los Modelos de Lenguaje de Gran Tamaño (LLMs)
Investigación IA enfoca instrucciones para analizar capacidades LLMs
El reciente aumento en el uso de modelos de lenguaje grandes (LLMs) ha transformado por completo el campo del procesamiento de lenguaje natural (NLP), especialmente al impulsar a los LLMs a generar texto sin restricciones. Las aplicaciones de generación de texto sin restricciones son amplias y abarcan múltiples dominios como la respuesta a preguntas, la generación de historias, la generación de código, la creatividad asistida por humanos y el diálogo sin restricciones.
A medida que estos modelos continúan aumentando, existe una creciente preocupación sobre la imprevisibilidad de estos sistemas y, por lo tanto, la necesidad de comprender mejor sus capacidades y limitaciones.
Investigadores del Instituto de Tecnología de Georgia, la Universidad Jiao Tong de Shanghai, Google y la Universidad de Stanford han creado una taxonomía de indicaciones para analizar la generación de texto abierto. Experimentaron con 288 indicaciones y evaluaron más de 3000 resultados, analizando estrategias de mitigación y direcciones futuras de investigación.
Para analizar las capacidades y limitaciones de los Modelos de Lenguaje en la generación de texto abierto, los investigadores crearon una taxonomía de restricciones individuales basadas en cómo los usuarios naturalmente establecen restricciones en las indicaciones. Diseñaron un conjunto de indicaciones simples y naturales como indicaciones base para cada restricción y las variaron en dimensiones como el tema y la plantilla de la indicación para mitigar la variación de la indicación.
- Explorando la función zip() de Python Simplificando la iteración y ...
- Conoce a DreamBooth Una técnica de IA para la generación de texto a...
- Echa un vistazo a nuestra exclusiva hoja de trucos de Markdown
Las restricciones en las indicaciones se pueden clasificar en dos categorías: restricción estilística, que limita el estilo de la salida, como escribir con un estilo florido, y restricción estructural, que limita la estructura de la salida, como limitar el número de palabras.
Los investigadores crearon 288 indicaciones y generaron resultados utilizando GPT-3, OPT, BLOOM y GLM. Generaron diez resultados por indicación para evaluar. Por ejemplo, una indicación base para la restricción estilística “estado de ánimo” es “Escribe un pasaje sobre el amor que haga que el lector se sienta [enojado, temeroso, feliz, triste].”

Restricciones Estilísticas
Los investigadores encontraron que GPT-3 tiene dificultades con ciertas restricciones estilísticas desafiantes como comedia, sátira, ironía y ficción literaria, y es sensible a las combinaciones de estilo y tema. GPT-3 confunde el estilo con el tema cuando la indicación es demasiado desafiante y tiene dificultades con palabras que no son únicas en la escritura creativa.
Sin embargo, el rendimiento del modelo no se correlaciona con la dificultad de la indicación percibida por los anotadores, lo que indica que los factores que contribuyen a la dificultad de la indicación difieren entre los humanos y los LLMs. Esto resalta la importancia de encontrar empíricamente qué indicaciones son y no son desafiantes para los LLMs.
Restricciones Estructurales
Aunque GPT-3 generalmente comprende las restricciones estructurales en la escritura, tiene dificultades con restricciones numéricas como contar palabras o oraciones requeridas, produciendo a menudo salidas cercanas pero no exactas. El modelo también muestra una alta variabilidad en la generación de texto de longitud variable cuando se le solicita restricciones descriptivas y estructurales como “largo”.
Además, GPT-3 no logra formatear correctamente los documentos académicos, probablemente debido a la falta de etiquetado claro para dichos documentos en sus datos de entrenamiento.
Los autores utilizaron su metodología para analizar otros tres LLMs, OPT-176B9, BLOOM-176B10 y GLM-130B11, utilizando las mismas indicaciones y indicaciones adicionales de restricciones estructurales numéricas. Encontraron que estos modelos tuvieron un rendimiento peor que GPT-3, con más de la mitad de sus salidas generadas siendo degeneradas.
Comentarios
El artículo presenta una metodología para analizar la capacidad de los modelos de lenguaje para generar texto sin restricciones bajo restricciones estructurales y estilísticas. Los resultados muestran fallas que se alinean con los desafíos del modelo señalados y nuevos patrones de falla en restricciones estructurales y estilísticas.
Los autores también proporcionan estrategias de mitigación que mejoran consistentemente el rendimiento en ambos dominios. El artículo reconoce algunas limitaciones, como que la taxonomía no cubre todos los aspectos de las restricciones estilísticas y estructurales y no es representativa de todas las generaciones de texto abierto.
Los autores también señalan consideraciones éticas, como el potencial mal uso del estilo y el daño a los anotadores, y sugieren pautas para proteger a los anotadores. En general, la metodología y los hallazgos presentados en el artículo contribuyen a comprender las capacidades y limitaciones de los modelos de lenguaje.