Un nuevo estudio de investigación de IA responde si los modelos de lenguaje grandes son sensibles al orden de las opciones en preguntas de opción múltiple

Nuevo estudio de IA responde a la sensibilidad de modelos de lenguaje grandes al orden de opciones en preguntas de opción múltiple.

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han captado una gran cantidad de atención debido a su destacado rendimiento en una variedad de tareas. Han sido desarrollados de tal manera que frecuentemente superan a los modelos supervisados e incluso a los humanos en algunas circunstancias. Aunque sus capacidades son asombrosas, investigaciones previas han mostrado una serie de limitaciones funcionales que pueden afectar su utilidad en el mundo real. La sensibilidad de estos modelos a las sutilezas en el lenguaje de las indicaciones, las demostraciones de pocos ejemplos y la organización de estas demostraciones plantea un problema considerable de rendimiento. Esta sensibilidad dificulta la evaluación objetiva de la capacidad de los LLMs.

En una investigación reciente realizada por Megagon Labs, un grupo de investigadores ha estudiado la robustez de los LLMs en el manejo de preguntas de opción múltiple, que es una tarea popular para probar su capacidad de inferencia y recuperación de hechos. El enfoque principal de la investigación es cómo los LLMs responden a la reorganización de las opciones en los exámenes de opción múltiple. Después de un estudio exhaustivo, se observa una discrepancia significativa en el rendimiento que va desde aproximadamente un 13% hasta un 75% en varios puntos de referencia.

Se ha presentado una hipótesis después de un análisis exhaustivo, que indica que la sensibilidad observada ocurre cuando los LLMs no están seguros entre las 2 o 3 mejores opciones para una predicción. Debido a un sesgo posicional causado por la redacción de la pregunta, el orden de algunas opciones puede favorecer algunas predicciones entre estas selecciones principales. Se pueden observar patrones interesantes que enfatizan o disminuyen la propensión del modelo por ciertas ubicaciones de opciones en las dos mejores opciones.

Con el fin de acentuar el sesgo, el equipo ha utilizado una estrategia óptima, que consiste en colocar la primera y última opción de las dos listas principales para enfatizar la parcialidad. Por otro lado, se ha sugerido dispersar estas selecciones entre las opciones circundantes para combatir el sesgo. Se han realizado una variedad de estudios para validar la hipótesis de sensibilidad. Además, se han utilizado dos técnicas de calibración diferentes para mejorar las predicciones realizadas por los LLMs. Se observaron mejoras de rendimiento de hasta 8 puntos porcentuales en varios modelos y puntos de referencia, lo que se traduce en una mejora notable.

La investigación ha planteado ciertas preguntas, incluyendo el alcance de la sensibilidad, es decir, en qué medida los LLMs se ven afectados por el orden de las opciones en las preguntas de opción múltiple, los factores que contribuyen a la sensibilidad de los LLMs y cómo se puede mejorar la robustez de los LLMs ante el orden de las opciones. Se realizaron experimentos en cinco puntos de referencia de opción múltiple utilizando GPT-4 e InstructGPT para responder a la primera pregunta. Se encontró una brecha de sensibilidad considerable de hasta un 75% en la situación de cero-shot. En cuanto a la segunda pregunta, los datos sugieren que el sesgo posicional es lo que causa la sensibilidad de los LLMs, ya que estos tienen tendencia a favorecer ubicaciones particulares cuando no están seguros de la mejor decisión entre las opciones principales. Para responder a la pregunta final, el estudio mostró que el uso de dos técnicas de calibración distintas aumentó considerablemente el rendimiento de los LLMs hasta en un 8%.

En conclusión, este estudio enfatiza la necesidad de enfrentar la sensibilidad de los LLMs a los aspectos y disposición de las indicaciones. Ha arrojado luz sobre los procedimientos de toma de decisiones de los LLMs al examinar las sutilezas de sus respuestas a las opciones reordenadas en las preguntas de opción múltiple. Esto definitivamente puede llevar a una mejora en la usabilidad y confiabilidad de los LLMs en circunstancias del mundo real.