Conoce ToolQA Un Nuevo Conjunto de Datos que Evalúa la Capacidad de los Modelos de Lenguaje Grandes (LLMs) para Utilizar Herramientas Externas para la Respuesta a Preguntas.
ToolQA es un nuevo conjunto de datos que evalúa cómo los modelos de lenguaje grandes (LLMs) utilizan herramientas externas para responder preguntas.
Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han demostrado ser muy efectivos en los campos de Procesamiento de Lenguaje Natural (NLP, por sus siglas en inglés) y Comprensión de Lenguaje Natural (NLU, por sus siglas en inglés). Famosos LLMs como GPT, BERT, PaLM, etc., están siendo utilizados por investigadores para proporcionar soluciones en todos los ámbitos, desde educación y redes sociales hasta finanzas y atención médica. Al ser entrenados con grandes cantidades de conjuntos de datos, estos LLMs capturan una gran cantidad de conocimiento. Los LLMs han demostrado habilidad en la respuesta a preguntas a través de ajustes, generación de contenido, resumen de textos, traducción de idiomas, etc. Aunque los LLMs han mostrado capacidades impresionantes últimamente, ha habido dificultades para producir información plausible y sin fundamentos sin alucinaciones y debilidad en el razonamiento numérico.
Investigaciones recientes han demostrado que la incorporación de herramientas externas, incluyendo herramientas de recuperación, herramientas matemáticas e intérpretes de código, es un enfoque mejor para superar los desafíos mencionados anteriormente. Evaluar la efectividad de estas herramientas externas presenta dificultades, ya que las metodologías de evaluación actuales necesitan ayuda para determinar si el modelo simplemente está recordando información pre-entrenada o está utilizando genuinamente herramientas externas para resolver problemas. Para superar estas limitaciones, un equipo de investigadores del College of Computing, Georgia Institute of Technology, y Atlanta, GA, han presentado ToolQA, un punto de referencia para la respuesta a preguntas que evalúa la capacidad de los LLMs en el uso de recursos externos.
ToolQA consta de datos de ocho dominios y define 13 tipos de herramientas que pueden adquirir información de corpora de referencia externos. Cada instancia de ToolQA incluye una pregunta, una respuesta, corpora de referencia y una lista de herramientas disponibles. La singularidad de ToolQA radica en el hecho de que todas las preguntas solo se pueden responder utilizando herramientas apropiadas para extraer información del corpus de referencia, lo que minimiza la posibilidad de que los LLMs respondan preguntas basándose únicamente en conocimientos internos y permite una evaluación fiel de sus habilidades de utilización de herramientas.
ToolQA involucra tres fases automatizadas: Recopilación de Datos de Referencia, Generación de Preguntas Guiadas por Humanos y Generación de Respuestas Programáticas. En la primera fase, se recopilan diversos tipos de corpora públicos, incluyendo texto, tablas y gráficos, de diferentes dominios y sirven como corpora de referencia para la respuesta a preguntas basada en herramientas. En la segunda fase, se crean preguntas que solo pueden resolverse con la ayuda de las herramientas en lugar de los corpora de referencia. Esto se logra mediante un método de generación de preguntas basado en plantillas, que también implica la instanciación de preguntas con atributos de herramientas y la producción y validación de plantillas guiadas por humanos. La tercera fase produce respuestas precisas para las preguntas generadas, se implementan operadores correspondientes a las herramientas y se obtienen respuestas programáticamente a partir de los corpora de referencia.
- Educando a los líderes de seguridad nacional sobre la inteligencia ...
- Modelo de Computadora Predice los Rendimientos de los Cultivos
- El Asistente de Visualización Definitivo
El equipo realizó experimentos utilizando tanto LLMs estándar como LLMs con herramientas para responder preguntas en ToolQA. Los resultados mostraron que los LLMs que dependen únicamente del conocimiento interno, como ChatGPT y la generación de pensamientos en cadena, tienen tasas de éxito bajas, alrededor del 5% para preguntas fáciles y el 2% para preguntas difíciles. Por otro lado, los LLMs con herramientas como Chameleon y ReAct tuvieron un mejor desempeño al utilizar herramientas externas, siendo el mejor desempeño alcanzado por los LLMs con herramientas del 43.15% para preguntas fáciles y el 8.2% para preguntas difíciles.
Los resultados y el análisis de errores muestran que ToolQA es un punto de referencia difícil para los enfoques actuales de LLM con herramientas, especialmente para problemas difíciles que requieren un razonamiento de composición de herramientas más intrincado. Es una adición prometedora a los avances en IA.