Esta investigación de IA evalúa la corrección y fidelidad de los modelos de seguimiento de instrucciones para su capacidad de realizar preguntas y respuestas

Esta investigación de IA evalúa la corrección y fidelidad de los modelos de seguimiento de instrucciones.

Los recientemente introducidos Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han causado sensación en la comunidad de Inteligencia Artificial (IA). Estos modelos han logrado imitar exitosamente a los seres humanos utilizando un procesamiento de lenguaje natural (NLP, por sus siglas en inglés) super bueno, generación de lenguaje natural (NLG, por sus siglas en inglés) y comprensión de lenguaje natural (NLU, por sus siglas en inglés). Los LLMs se han vuelto famosos por imitar a los humanos al tener conversaciones realistas y son capaces de responder preguntas simples y complejas, generar contenido, completar código, traducción de máquina y resumen de texto. El objetivo de NLP es hacer posible que los sistemas informáticos comprendan y reaccionen a comandos dados en lenguaje natural, permitiendo a las personas interactuar con ellos de una manera más natural y flexible, el mejor ejemplo de esto son los modelos de seguimiento de instrucciones.

Estos modelos se entrenan utilizando LLMs, ejemplos supervisados u otros tipos de supervisión y exposición a miles de tareas escritas como instrucciones en lenguaje natural. En una investigación reciente, un equipo del Instituto de IA Mila Quebec, la Universidad McGill y el CIFAR AI Chair de Facebook ha investigado la evaluación del rendimiento de modelos de seguimiento de instrucciones para su capacidad de realizar preguntas y respuestas (QA, por sus siglas en inglés) en un conjunto dado de pasajes de texto. Estos modelos pueden responder preguntas cuando se les proporciona una indicación que describe la tarea, la pregunta y los pasajes de texto relevantes recuperados por un buscador, y se sabe que las respuestas producidas por estos modelos son naturales e informativas, lo que ayuda a generar confianza y compromiso de los usuarios.

Estos modelos pueden responder a consultas de usuarios de manera natural y fluida simplemente agregando documentos y instrucciones recuperadas a su entrada. Sin embargo, esta verbosidad adicional dificulta que las métricas de evaluación de QA convencionales, como la coincidencia exacta (EM, por sus siglas en inglés) y la puntuación F1, cuantifiquen de manera efectiva el rendimiento del modelo. Esto se debe a la posibilidad de que la respuesta del modelo pueda incluir más detalles que la respuesta de referencia omite, pero aún así sea precisa. El equipo ha proporcionado dos criterios para medir modelos de seguimiento de instrucciones en QA con recuperación mejorada (QA) con el fin de superar este problema.

  1. En cuanto a la necesidad de información, precisión: Esta dimensión evalúa qué tan bien satisface el modelo los requisitos informativos de un usuario. Se trata de si la respuesta generada incluye información pertinente, incluso si va más allá de lo mencionado directamente en la respuesta de referencia.
  1. Fidelidad en relación con la información proporcionada: Esta dimensión evalúa qué tan bien el modelo fundamenta las respuestas en el conocimiento presentado. Un modelo verdadero debería abstenerse de responder cuando se presenta información irrelevante, además de dar respuestas precisas cuando es accesible.

Los autores han evaluado varios modelos de seguimiento de instrucciones recientes en tres conjuntos de datos de QA diversos: Natural Questions para QA de dominio abierto, HotpotQA para QA de múltiples pasos y TopiOCQA para QA conversacional. Analizaron manualmente 900 respuestas de modelos y compararon los resultados con diferentes métricas automáticas de precisión y fidelidad. Su investigación ha sugerido que la recuperación, que mide el porcentaje de tokens de la respuesta de referencia que también están presentes en la respuesta del modelo, se correlaciona de manera más fuerte con la corrección que las métricas de superposición léxica como EM o puntuación F1. En comparación con otras métricas de superposición de tokens para la fidelidad, la K-Precisión, que es el porcentaje de tokens de respuesta del modelo que existen en el fragmento de conocimiento, tiene una correlación más fuerte con las opiniones humanas.

En conclusión, este estudio busca avanzar en una evaluación más exhaustiva de los modelos de seguimiento de instrucciones para tareas de QA, teniendo en cuenta tanto sus ventajas como sus desventajas. El equipo ha promovido un avance adicional en esta área al poner su código y datos a disposición en su repositorio de GitHub.