Una nueva investigación de IA introduce el Ajuste de Tareas Múltiples de Solicitud (MPT) para el Aprendizaje por Transferencia
Nueva investigación de IA Ajuste de Tareas Múltiples de Solicitud (MPT) para Aprendizaje por Transferencia.
Los modelos de lenguaje pre-entrenados (PLMs) han mejorado significativamente en muchas tareas de Procesamiento del Lenguaje Natural (NLP) debido al ajuste fino. Si bien los PLMs actuales pueden incluir cientos de millones de parámetros, el paradigma tradicional de ajuste fino específico de la tarea completa es difícil de expandir a numerosas tareas. La necesidad de aprender menos parámetros por tarea de los necesarios para el ajuste fino completo ha llevado a un aumento en la investigación sobre métodos “eficientes en parámetros” para el ajuste del modelo.
Para el aprendizaje de transferencia eficiente en parámetros con PLMs, el ajuste del prompt (PT) ha surgido recientemente como una opción potencial. El PT funciona agregando vectores de prompt continuos ajustables a la entrada antes del entrenamiento. La configuración del PLM se mantiene bloqueada en su lugar, y el PT solo aprende un número limitado de vectores de prompt para cada tarea. Sin embargo, todavía existe una brecha significativa entre el ajuste instantáneo y el ajuste fino completo a pesar de su rendimiento notable. Este método también es muy sensible a la inicialización, lo que requiere tiempos de entrenamiento más largos que los procedimientos de ajuste fino típicos.
Estudios recientes han propuesto solucionar estos problemas reutilizando vectores de prompt de otros trabajos. Estas estrategias comienzan entrenando prompts suaves en varias tareas fuente. Luego, utilizan estos prompts preentrenados como punto de partida para ajustar finamente el prompt en una tarea objetivo utilizando una medida de similitud (posiblemente aprendida).
Investigadores de la Ohio State University, MIT-IBM Watson AI Lab y Massachusetts Institute of Technology desarrollan aún más esta línea de investigación al introducir el ajuste de prompt multitarea (MPT), que utiliza datos multitarea para aprender un solo prompt que se puede transmitir eficientemente a actividades objetivo.
- Explorando el poder de la Ciencia de Datos en Ingeniería Civil
- Investigadores de la Universidad Ben-Gurion del Negev han diseñado ...
- Web Scraping en el punto de mira ¿Están los modelos de lenguaje yen...
Aunque la idea de aprender un espacio de prompt compartido es sencilla, en la práctica puede ser bastante difícil de dominar. Esto se debe a que se necesita adquirir conocimiento de las similitudes entre diversas tareas fuente al mismo tiempo que se reduce su interferencia. En lugar de simplemente compartir la matriz de prompt en todas las tareas, los investigadores encuentran que descomponer el prompt suave de cada tarea fuente en una multiplicación de una matriz compartida y una matriz específica de tarea de rango bajo es más exitoso. La descomposición se enseña destilando información de prompts suaves adquiridos a través de ajuste de prompt consistente. Realizan modificaciones multiplicativas de rango bajo a la matriz de prompt común para alternar entre tareas.
Pruebas exhaustivas en 23 conjuntos de datos de NLP para diversas tareas muestran que la metodología sugerida supera a las técnicas de transferencia de prompt de estado del arte. Al ajustar muchos menos parámetros de prompt específicos de la tarea que la línea de base de transferencia de prompt multitarea más competitiva, MPT con T5-Base logra una mejora del 16,3% en el benchmark SuperGLUE en comparación con la línea de base de ajuste de prompt básico. Ciertas métricas de rendimiento muestran que MPT supera al ajuste fino completo, a pesar de utilizar solo el 0,035 por ciento de los parámetros configurables por tarea. Con 4-32 etiquetas por tarea objetivo, el equipo también encuentra que MPT es bastante exitoso para el aprendizaje de pocos ejemplos.