Conoce a AgentBench Un banco de pruebas multidimensional que ha sido desarrollado para evaluar modelos de lenguaje grandes como agentes en una variedad de entornos.

Conoce a AgentBench, un banco de pruebas multidimensional para evaluar modelos de lenguaje grandes en diferentes entornos.

Los Modelos de Lenguaje Grande (LLMs) han surgido y avanzado, añadiendo un nuevo nivel de complejidad al campo de la Inteligencia Artificial. A través de métodos de entrenamiento intensivos, estos modelos han dominado algunas tareas sorprendentes de Procesamiento de Lenguaje Natural, Comprensión de Lenguaje Natural y Generación de Lenguaje Natural, como responder preguntas, comprender la inferencia del lenguaje natural y resumir material. También han realizado actividades que no están comúnmente asociadas con el NLP, como comprender la intención humana y ejecutar instrucciones.

Aplicaciones como AutoGPT, BabyAGI y AgentGPT, que utilizan LLMs para alcanzar objetivos autónomos, han sido posibles gracias a todos los avances en NLP. Aunque estos enfoques han generado mucho interés por parte del público, la falta de una línea de base estandarizada para evaluar LLMs-como-Agentes sigue siendo un obstáculo significativo. Aunque en el pasado se han utilizado entornos de juegos basados en texto para evaluar agentes de lenguaje, a menudo tienen limitaciones debido a sus espacios de acción confinados y discretos. Además, evalúan principalmente las capacidades de los modelos para el razonamiento basado en el sentido común.

La mayoría de los benchmarks existentes para agentes se centran en un entorno particular, lo que limita su capacidad para ofrecer una evaluación exhaustiva de LLMs en diversos contextos de aplicación. Para abordar estos problemas, un equipo de investigadores de la Universidad Tsinghua, la Universidad Estatal de Ohio y UC Berkeley ha presentado AgentBench, que es un benchmark multidimensional creado para evaluar LLMs-como-Agentes en una variedad de entornos.

AgentBench incluye ocho entornos diferentes, cinco de los cuales son completamente nuevos: acertijos de pensamiento lateral (LTP), grafos de conocimiento (KG), juegos de cartas digitales (DCG), sistemas operativos (OS), bases de datos (DB) y grafos de conocimiento. Los tres entornos finales: tareas domésticas (Alfworld), compras en línea (WebShop) y navegación web (Mind2Web), se adaptan de conjuntos de datos preexistentes. Estos entornos han sido cuidadosamente diseñados para representar situaciones interactivas en las que los LLMs basados en texto pueden actuar como agentes autónomos. Evalúan rigurosamente habilidades clave de los LLMs como codificación, adquisición de conocimiento, razonamiento lógico y seguimiento de instrucciones, por lo que AgentBench sirve como una plataforma de pruebas exhaustiva para evaluar tanto agentes como LLMs.

Utilizando AgentBench, los investigadores han analizado y evaluado minuciosamente 25 LLMs distintos, incluyendo modelos basados en API y de código abierto. Los resultados han demostrado que los modelos de primera categoría como GPT-4 son hábiles en el manejo de una amplia gama de tareas del mundo real, lo que sugiere la posibilidad de crear agentes altamente competentes y en constante adaptación. Sin embargo, estos modelos de API de primera categoría tienen un rendimiento notablemente peor que sus equivalentes de código abierto. Los LLMs de código abierto tienen buen desempeño en otros benchmarks, pero cuando se les presentan las tareas difíciles de AgentBench, sufren mucho. Esto destaca la necesidad de iniciativas adicionales para mejorar la capacidad de aprendizaje de los LLMs de código abierto.

Las contribuciones se pueden resumir de la siguiente manera:

  1. AgentBench es un benchmark exhaustivo que define procedimientos de evaluación estandarizados e introduce el innovador concepto de evaluar LLMs como agentes. Proporciona una plataforma útil para evaluar las diversas capacidades de los LLMs al integrar ocho entornos auténticos que simulan circunstancias del mundo real.
  2. El estudio evalúa minuciosamente 25 LLMs diferentes utilizando AgentBench, revelando una brecha significativa de rendimiento entre los principales LLMs comerciales basados en API y las alternativas de código abierto. Esta evaluación destaca la situación actual de LLM-como-Agente e identifica áreas que podrían mejorar.
  3. El estudio también proporciona un conjunto de herramientas integradas basadas en el paradigma de interacción “API y Docker” que facilita la personalización del procedimiento de evaluación de AgentBench. La disponibilidad de este conjunto de herramientas para la comunidad de investigación más amplia, junto con conjuntos de datos y entornos pertinentes, fomenta la investigación y el desarrollo cooperativo en el campo de los LLMs.