Modelos de Lenguaje Muy Grandes y Cómo Evaluarlos
'Modelos de Lenguaje Grandes y su Evaluación'
¡Los grandes modelos de lenguaje ahora pueden ser evaluados en tareas de clasificación sin etiquetas con Evaluación en el Hub!
La evaluación sin etiquetas es una forma popular para que los investigadores midan el rendimiento de los grandes modelos de lenguaje, ya que se ha demostrado que aprenden capacidades durante el entrenamiento sin mostrar explícitamente ejemplos etiquetados. El Premio de Escala Inversa es un ejemplo de un esfuerzo comunitario reciente para llevar a cabo una evaluación sin etiquetas a gran escala en diferentes tamaños y familias de modelos para descubrir tareas en las que los modelos más grandes pueden tener un rendimiento peor que sus contrapartes más pequeñas.
Habilitando la evaluación sin etiquetas de los modelos de lenguaje en el Hub
La Evaluación en el Hub te ayuda a evaluar cualquier modelo en el Hub sin necesidad de escribir código, y está impulsada por AutoTrain. Ahora, cualquier modelo de lenguaje causal en el Hub puede ser evaluado de manera sin etiquetas. La evaluación sin etiquetas mide la probabilidad de que un modelo entrenado produzca un conjunto dado de tokens y no requiere ningún dato de entrenamiento etiquetado, lo que permite a los investigadores evitar esfuerzos costosos de etiquetado.
Hemos mejorado la infraestructura de AutoTrain para este proyecto para que los modelos grandes puedan ser evaluados de forma gratuita 🤯! Es costoso y consume mucho tiempo para los usuarios descubrir cómo escribir código personalizado para evaluar modelos grandes en GPUs. Por ejemplo, un modelo de lenguaje con 66 mil millones de parámetros puede tardar 35 minutos solo en cargar y compilar, lo que hace que la evaluación de modelos grandes solo sea accesible para aquellos con una infraestructura costosa y una amplia experiencia técnica. Con estos cambios, evaluar un modelo con 66 mil millones de parámetros en una tarea de clasificación sin etiquetas con 2000 ejemplos de oraciones de longitud lleva 3.5 horas y puede ser realizado por cualquier persona de la comunidad. Actualmente, la Evaluación en el Hub admite la evaluación de modelos de hasta 66 mil millones de parámetros, y se espera el soporte para modelos más grandes.
- Comenzando con los Puntos de Extremo de Inferencia de Hugging Face
- Ajuste fino de Whisper para ASR multilingüe con 🤗 Transformers.
- Entrenamiento de difusión estable con Dreambooth utilizando difusores
La tarea de clasificación de texto sin etiquetas recibe un conjunto de datos que contiene un conjunto de indicaciones y posibles completados. En el fondo, los completados se concatenan con la indicación y se suman las log-probabilidades de cada token, luego se normalizan y se comparan con el completado correcto para informar la precisión de la tarea.
En esta publicación del blog, utilizaremos la tarea de clasificación de texto sin etiquetas para evaluar varios modelos OPT en WinoBias, una tarea de coreferencia que mide el sesgo de género relacionado con las ocupaciones. WinoBias mide si un modelo es más propenso a seleccionar un pronombre estereotípico para completar una oración que menciona una ocupación, y observamos que los resultados sugieren una tendencia de escala inversa en relación al tamaño del modelo.
Estudio de caso: Evaluación sin etiquetas en la tarea de WinoBias
El conjunto de datos de WinoBias se ha formateado como una tarea sin etiquetas donde las opciones de clasificación son los completados. Cada completado difiere por el pronombre, y el objetivo corresponde al completado no estereotípico para la ocupación (por ejemplo, “desarrollador” es estereotípicamente una ocupación dominada por hombres, por lo que “ella” sería el pronombre no estereotípico). Ver aquí un ejemplo:
A continuación, podemos seleccionar este conjunto de datos recién subido en la interfaz de Evaluación en el Hub utilizando la tarea text_zero_shot_classification
, seleccionar los modelos que deseamos evaluar ¡y enviar nuestros trabajos de evaluación! Cuando se haya completado el trabajo, recibirás una notificación por correo electrónico de que el bot autoevaluador ha abierto una nueva solicitud de extracción con los resultados en el repositorio del modelo en el Hub.
Al graficar los resultados de la tarea de WinoBias, encontramos que los modelos más pequeños tienen más probabilidades de seleccionar el pronombre no estereotípico para una oración, mientras que los modelos más grandes tienen más probabilidades de aprender asociaciones estereotípicas entre género y ocupación en texto. Esto corrobora los resultados de otros puntos de referencia (por ejemplo, BIG-Bench) que muestran que los modelos más grandes y capaces tienen más probabilidades de tener sesgos en cuanto a género, raza, etnia y nacionalidad, y trabajos anteriores que muestran que los modelos más grandes tienen más probabilidades de generar texto tóxico.
Habilitando mejores herramientas de investigación para todos
La ciencia abierta ha dado grandes pasos con el desarrollo impulsado por la comunidad de herramientas como el Harness de Evaluación de Modelos de Lenguaje de EleutherAI y el proyecto BIG-bench, que facilitan a los investigadores comprender el comportamiento de modelos de vanguardia.
La Evaluación en el Hub es una herramienta de bajo código que permite comparar fácilmente el rendimiento sin etiquetas de un conjunto de modelos a lo largo de un eje como FLOPS o tamaño del modelo, y comparar el rendimiento de un conjunto de modelos entrenados en un corpus específico con un conjunto diferente de modelos. La tarea de clasificación de texto sin etiquetas es extremadamente flexible: cualquier conjunto de datos que se pueda permutar en un esquema Winograd donde los ejemplos a comparar solo difieren en algunas palabras se puede utilizar con esta tarea y evaluar en muchos modelos a la vez. Nuestro objetivo es facilitar la carga de un nuevo conjunto de datos para su evaluación y permitir a los investigadores comparar fácilmente muchos modelos en él.
Un ejemplo de pregunta de investigación que se puede abordar con herramientas como esta es el problema de escala inversa: si bien los modelos más grandes son generalmente más capaces en la mayoría de las tareas de lenguaje, hay tareas donde los modelos más grandes funcionan peor. El Premio de Escala Inversa es una competencia que desafía a los investigadores a construir tareas en las que los modelos más grandes funcionen peor que sus contrapartes más pequeñas. ¡Te animamos a probar la evaluación sin entrenamiento en modelos de todos los tamaños con tus propias tareas! Si encuentras una tendencia interesante en función de los tamaños de los modelos, considera enviar tus hallazgos a la segunda ronda del Premio de Escala Inversa.
¡Envíanos tus comentarios!
En Hugging Face, estamos emocionados de continuar democratizando el acceso a modelos de aprendizaje automático de última generación, y eso incluye el desarrollo de herramientas para facilitar a todos la evaluación y análisis de su comportamiento. Anteriormente, hemos hablado sobre lo importante que es estandarizar los métodos de evaluación de modelos para que sean consistentes y reproducibles, y para que las herramientas de evaluación sean accesibles para todos. Los planes futuros para la Evaluación en el Hub incluyen el soporte para la evaluación sin entrenamiento de tareas de lenguaje que quizás no se presten al formato de concatenar completados a las indicaciones, y agregar soporte para modelos aún más grandes.
Una de las cosas más útiles que puedes contribuir como parte de la comunidad es enviarnos tus comentarios. Nos encantaría conocer tus principales prioridades para la evaluación de modelos. Haznos saber tus comentarios y solicitudes de funciones publicando en la pestaña de Comunidad de Evaluación en el Hub, ¡o en los foros!