Meta AI lanza BELEBELE el primer punto de referencia de evaluación de comprensión de lectura paralela para 122 idiomas.

Meta AI lanza BELEBELE, el primer punto de referencia para evaluar la comprensión de lectura paralela en 122 idiomas.

Un desafío significativo en la evaluación de las habilidades de comprensión de texto de los modelos multilingües es la falta de estándares de evaluación simultánea de alta calidad. Existen conjuntos de datos de procesamiento de lenguaje natural de alta cobertura, como FLORES-200, aunque se utilizan principalmente para la traducción automática. Aunque más de 100 idiomas utilizan servicios de comprensión y generación de texto, la falta de datos etiquetados presenta una barrera significativa para la construcción de sistemas efectivos en la mayoría de los idiomas.

Se necesita una investigación científica significativa más allá de los LLM para permitir el desarrollo eficiente y exitoso de sistemas de procesamiento de lenguaje natural para idiomas con pocos recursos. Si bien muchos enfoques de modelado afirman ser independientes del idioma, su aplicabilidad a una amplia gama de tipos de fenómenos a menudo solo se prueba en un pequeño subconjunto de idiomas.

Un nuevo estudio realizado por Meta AI, Abridge AI y Reka AI presenta BELEBELE, un punto de referencia clave para evaluar los sistemas de comprensión del lenguaje natural en 122 variantes de idioma diferentes. Cada uno de los 488 párrafos en el conjunto de datos tiene preguntas de opción múltiple correspondientes en las 900 preguntas totales del conjunto de datos. Las preguntas distinguen entre modelos con diferentes niveles de competencia en comprensión del lenguaje y han sido creadas con cuidado. Las preguntas están diseñadas para premiar a los modelos de NLU generalizables y penalizar deliberadamente a los modelos sesgados, aunque no requieren conocimientos o razonamiento superiores. Las preguntas formuladas en inglés pueden ser respondidas con una precisión casi perfecta por los seres humanos. Las diversas salidas del modelo indican que este es un desafío de NLU discriminatorio, similar a los conocidos puntos de referencia de LLM como MMLU.

El sistema BELEBELE es el primero de su tipo y es paralelo en todos los idiomas. Esto permite la primera comparación directa del rendimiento del modelo en diferentes idiomas. El conjunto de datos incluye 29 sistemas de escritura y 27 familias de idiomas, que representan diversas disponibilidades de recursos y diversidad lingüística. Uno de los primeros puntos de referencia de procesamiento de lenguaje natural (NLP) para la versión romanizada de hindi, urdu, bengalí, nepalí y sinhala se basa en estos siete idiomas escritos en dos escrituras diferentes.

La naturaleza paralela del conjunto de datos permite la evaluación de representaciones textuales interlingüísticas en varios escenarios interlingüísticos, y se puede utilizar para evaluar tanto modelos monolingües como multilingües. La tarea se puede evaluar utilizando un ajuste fino completo al reunir un conjunto de entrenamiento a partir de conjuntos de datos de preguntas y respuestas comparables. Los investigadores utilizan numerosos modelos de lenguaje enmascarados (MLMs) para el ajuste fino de las traducciones entre idiomas y entre inglés y otros idiomas. Se utilizan aprendizaje contextual en cinco disparos y evaluaciones de cero disparos (en el mismo idioma y traducción-prueba) para comparar diferentes modelos para LLMs.

Los hallazgos muestran que si bien los LLM centrados en el inglés pueden llegar lejos y generalizarse a más de 30 idiomas, los modelos entrenados en idiomas VoAGI y de pocos recursos se benefician más de un gran tamaño de vocabulario y datos de preentrenamiento equilibrados.

El equipo espera que su estudio contribuya a mejorar las arquitecturas y métodos de entrenamiento de modelos existentes al arrojar luz sobre cómo manejan los datos multilingües.