¿Realmente los modelos de lenguaje grandes necesitan todas esas capas? Esta investigación de IA revela la eficiencia del modelo en busca de los componentes esenciales en los modelos de lenguaje grandes
¿Los modelos de lenguaje grandes necesitan todas esas capas? Esta investigación de IA revela la eficiencia del modelo al buscar los componentes esenciales en ellos.
La aparición de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) ha despertado un gran interés entre el público, especialmente con la aparición de ChatGPT. Estos modelos, que se entrenan con grandes cantidades de datos, pueden aprender en contexto, incluso con ejemplos mínimos. Este año, un artículo presentado en la reunión de la Asociación de Lingüística Computacional (ACL, por sus siglas en inglés) profundiza en la importancia de la escala del modelo para el aprendizaje en contexto y examina la interpretabilidad de las arquitecturas de LLM.
El estudio se centra en el modelo OPT-66B, un LLM de 66 mil millones de parámetros desarrollado por Meta como una réplica abierta de GPT-3. Al analizar OPT-66B, los investigadores buscaron determinar si todos los componentes de los LLM son esenciales para el aprendizaje en contexto, con el objetivo de proporcionar conocimientos sobre posibles áreas de mejora en el entrenamiento.
Los LLM se construyen utilizando la arquitectura Transformer, que se basa en un mecanismo de atención. Este mecanismo permite que el modelo prediga en qué tokens previos de una secuencia debe enfocarse al generar el token actual. Estos LLM utilizan atención de múltiples cabezas, empleando múltiples mecanismos de atención en paralelo. OPT-66B consta de 64 capas, cada una de las cuales contiene 72 cabezas de atención. La salida de la atención de múltiples cabezas pasa luego a través de una red de alimentación directa (FFN, por sus siglas en inglés) separada en cada capa.
Para investigar el modelo OPT-66B, los investigadores emplearon dos métodos. En primer lugar, asignaron puntuaciones a cada cabeza de atención y FFN para determinar su importancia para una tarea determinada. Utilizando estas puntuaciones, podaron el modelo, descartando ciertos componentes. Sorprendentemente, descubrieron que se podía eliminar una parte significativa del modelo sin afectar su rendimiento. Esto sugiere que OPT-66B, y potencialmente otros LLM destacados, estaban subentrenados.
- Una nueva investigación en IA presenta REV un cambio de juego en la...
- ¿Cómo está perturbando la inteligencia artificial la gobernanza de ...
- Transformaciones de características Un tutorial sobre PCA y LDA
Los investigadores descubrieron que las cabezas de atención importantes residían predominantemente en las capas intermedias del modelo, mientras que los FFN importantes se encontraban principalmente en las capas posteriores. Sorprendentemente, incluso después de eliminar hasta el 70% (alrededor de 15.7 mil millones de parámetros) de las cabezas de atención, la capacidad para realizar aprendizaje en contexto con cero o pocos ejemplos en 14 conjuntos de datos/tareas de procesamiento de lenguaje natural (NLP, por sus siglas en inglés) diferentes se mantuvo en gran medida sin cambios. Además, identificaron un subconjunto común de cabezas de atención responsables del aprendizaje en contexto en varias tareas y ejemplos, lo que indica su funcionalidad independiente de la tarea. Además, observaron que aproximadamente el 20% de los FFN (alrededor de 8.5 mil millones de parámetros) se podrían eliminar con un impacto mínimo en el aprendizaje en contexto con cero o pocos ejemplos.
Para su segundo método analítico, los investigadores evaluaron la capacidad de todas las cabezas de atención en OPT-66B para realizar operaciones primitivas independientes de la tarea asociadas con el aprendizaje en contexto. Estas operaciones incluían la coincidencia de prefijos y la copia, que implican buscar una ocurrencia previa del token actual y copiar el token siguiente. Descubrieron que un pequeño conjunto de cabezas de atención mostraba puntuaciones no triviales para ambas operaciones. Curiosamente, estas cabezas también se superponían con las cabezas de atención identificadas como importantes para tareas específicas, lo que sugiere su participación en comportamientos más sofisticados de aprendizaje en contexto, como la coincidencia de conceptos latentes.
El estudio concluyó que solo un grupo central de cabezas de atención y FFN parecían ser cruciales para el aprendizaje en contexto, lo que implica que OPT-66B, y potencialmente otros LLM líderes, estaban subentrenados. Esta observación coincide con investigaciones recientes que cuestionan la efectividad de cantidades fijas de datos de preentrenamiento al escalar los modelos. Los hallazgos sugieren que tanto los modelos como la cantidad de datos de preentrenamiento deben escalarse de manera conjunta para lograr un rendimiento óptimo. Futuras investigaciones podrían explorar cómo se desempeñan en análisis similares las variantes más nuevas de LLM, incluidas aquellas diseñadas para seguir instrucciones.