¿Cómo se desempeñan los grandes modelos de lenguaje en la respuesta a preguntas de larga extensión? Un estudio en profundidad realizado por investigadores de Salesforce sobre la robustez y capacidades de los LLM.

Un estudio de Salesforce evalúa el rendimiento de los grandes modelos de lenguaje en la respuesta a preguntas largas.

Mientras que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como ChatGPT y GPT-4 han demostrado un mejor rendimiento en varios benchmarks, proyectos de código abierto como MMLU y OpenLLMBoard han progresado rápidamente en alcanzarlos en múltiples aplicaciones y benchmarks. Comprender sus capacidades, limitaciones y diferencias se vuelve más crucial a medida que ingresan a la nueva era de los LLMs con avances rápidos en nuevos modelos y metodologías. Aunque los LLMs han demostrado su capacidad para generar texto coherente en tareas como la sumarización, se necesita más información sobre cómo lo hacen en LFQA.

Uno de los problemas significativos que aún necesita ser resuelto es el de responder preguntas de forma extensa (LFQA, por sus siglas en inglés), el cual tiene numerosas y significativas aplicaciones en el mundo real (como foros de soporte, resolución de problemas, servicio al cliente, etc.). Responder este tipo de consultas a menudo requiere habilidades de pensamiento complicado para comprender la pregunta y dar sentido al material que está disperso en el documento original. Los puntos principales de los artículos se condensan en resúmenes abstractos. Se asume que las preguntas de seguimiento a partir de estos resúmenes requerirían una mejor comprensión de los temas que conectan varias secciones del material fuente. Además, otros investigadores muestran que las respuestas que requieren comprender más de un tercio de un material extenso a menudo se evalúan como “DIFÍCILES” por las personas.

Investigadores de Salesforce proponen un enfoque de evaluación escalable para comparar y contrastar las diferencias entre los LLMs grandes y los LLMs básicos más pequeños pero exitosos (como Llama-7B, 13B) y sus contrapartes destilados (como Alpaca-7B, 13B). Para hacer esto, indican que ChatGPT debe ser instruido explícitamente para construir preguntas complicadas a partir de resúmenes de documentos. Su estudio empírico revela que las preguntas de seguimiento creadas a partir de resúmenes presentan una configuración difícil pero más realista para evaluar las habilidades de razonamiento de los LLMs en dos aspectos (complejidad de las preguntas generadas y calidad de las respuestas de los LLMs de código abierto). Utilizan GPT-4 para determinar la calidad de las respuestas en cuanto a coherencia, relevancia, consistencia factual y corrección según trabajos anteriores, ya que depender completamente de la revisión humana para el QA de larga duración es costoso y difícil de escalar. También realizan una evaluación humana a menor escala, demostrando que GPT-4 correlaciona fuertemente con la evaluación humana, lo que hace que su evaluación sea creíble.

A continuación, se presentan sus conclusiones principales de este estudio:

• Recomiendan inferir de contextos más extensos realizando múltiples pasadas por el contexto durante más del 20% del tiempo para generar preguntas a partir de resúmenes abstractivos.

• Los LLMs destilados (Alpaca-7B, 13B) a menudo dependen menos del contexto al generar preguntas a partir del material original, pero su capacidad para crear preguntas a partir de resúmenes de documentos se reduce en gran medida.

• Para preguntas derivadas de resúmenes (más del 16.8%), las respuestas producidas por los LLMs destilados pueden ser consistentes en diferentes contextos, pero con frecuencia se desvían del tema, producen respuestas redundantes y solo son parcialmente precisas.

• Alpaca-7B y 13B son más sensibles a contextos más extensos (más de 1024 tokens) que los LLMs base (Llama), aunque suelen producir respuestas sensatas.