Conoce Advanced Reasoning Benchmark (ARB) Un nuevo benchmark para evaluar grandes modelos de lenguaje.

Nuevo benchmark para evaluar modelos de lenguaje Advanced Reasoning Benchmark (ARB).

El Procesamiento del Lenguaje Natural ha evolucionado significativamente en los últimos años, especialmente con la creación de modelos de lenguaje sofisticados. Casi todas las tareas de lenguaje natural, incluyendo la traducción y el razonamiento, han experimentado avances notables en el rendimiento de modelos conocidos como GPT 3.5, GPT 4, BERT, PaLM, etc. Se utilizan varios benchmarks para evaluar y evaluar estos desarrollos en el campo de la Inteligencia Artificial. Un benchmark es básicamente una colección de tareas estandarizadas diseñadas para probar las habilidades de los modelos de lenguaje (LLM).

Teniendo en cuenta los benchmarks GLUE y SuperGLUE, que fueron unos de los primeros benchmarks de comprensión del lenguaje, modelos como BERT y GPT-2 fueron más desafiantes, ya que los modelos de lenguaje han logrado superar estos benchmarks, generando una competencia entre el desarrollo de los modelos y la dificultad de los benchmarks. Escalar los modelos, haciéndolos más grandes y entrenándolos en conjuntos de datos más grandes, es la clave para mejorar el rendimiento. Los LLM han demostrado un rendimiento sobresaliente en una variedad de benchmarks que evalúan su capacidad para el conocimiento y el razonamiento cuantitativo, pero cuando estos modelos obtienen puntajes más altos en los estándares actuales, está claro que estos benchmarks ya no son útiles para evaluar las capacidades de los modelos.

Para abordar las limitaciones, un equipo de investigadores ha propuesto un nuevo y único benchmark llamado ARB (Advanced Reasoning Benchmark). ARB se creó para presentar problemas más difíciles en una variedad de áreas temáticas, como matemáticas, física, biología, química y derecho. ARB, a diferencia de los benchmarks anteriores, se centra en problemas de razonamiento complejo con el objetivo de mejorar el rendimiento de los LLM. El equipo también ha introducido un conjunto de preguntas de matemáticas y física como parte de ARB, que requieren un pensamiento simbólico sofisticado y un conocimiento profundo de la materia. Estos problemas son excepcionalmente difíciles y están fuera del alcance de los LLM tal como existen hoy en día.

El equipo ha evaluado estos nuevos modelos en el benchmark ARB, incluyendo GPT-4 y Claude. Estos modelos han tenido dificultades para manejar la complejidad de estos problemas, como lo demuestran los resultados, que muestran que obtienen puntajes significativamente por debajo del 50% en las tareas más difíciles contenidas en ARB. El equipo también ha demostrado un enfoque de evaluación basado en una rúbrica para mejorar el proceso de evaluación. Mediante el uso de esta estrategia, GPT-4 puede evaluar sus propios procesos de razonamiento intermedios mientras intenta resolver los problemas de ARB. Esto amplía el alcance del proceso de revisión y arroja luz sobre la estrategia de resolución de problemas del modelo.

El conjunto simbólico de ARB también ha sido sometido a revisión humana. Se les ha pedido a los anotadores humanos que resuelvan los problemas y proporcionen sus propias evaluaciones. Ha habido un acuerdo prometedor entre los evaluadores humanos y los puntajes de evaluación basados en la rúbrica de GPT-4, lo que sugiere que la autoevaluación del modelo se alinea razonablemente bien con el juicio humano. Con cientos de problemas que requieren razonamiento experto en campos cuantitativos, donde los LLM generalmente han tenido dificultades, el nuevo conjunto de datos supera significativamente a los benchmarks anteriores.

En contraste con las preguntas de opción múltiple en los benchmarks anteriores, un número considerable de los problemas está compuesto por preguntas de respuesta corta y de respuesta abierta, lo que dificulta la evaluación de los LLM. La combinación de tareas de razonamiento a nivel de experto y formatos de pregunta más realistas permite una evaluación más precisa de las capacidades de los modelos para manejar problemas complicados del mundo real.