Una nueva investigación de IA introduce el Estímulo Direccional de Promoción (DSP) Un nuevo marco de promoción para guiar mejor al LLM en la generación del resumen deseado.
Nueva investigación de IA introduce DSP, un marco de promoción para guiar al LLM en la generación de resúmenes deseados.
El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) ha experimentado un cambio de paradigma en los últimos años, con la llegada de los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) que superan a los Modelos de Lenguaje relativamente pequeños (LM, por sus siglas en inglés) como GPT-2 y T5 Raffel et al. en una variedad de tareas de NLP. El prompting es el método de facto para utilizar LLMs para realizar diversas tareas mediante el uso de instrucciones en lenguaje natural en el contexto para guiar a los LLMs a producir resultados deseados sin actualizaciones de parámetros, en contraste con el paradigma convencional de ajuste fino donde los parámetros de los LM pueden actualizarse para cada tarea secundaria.
Aunque este esquema de prompting ha permitido que los LLMs funcionen bastante bien en diversas tareas en un entorno de cero o pocos ejemplos de entrenamiento, su rendimiento en algunas tareas específicas aún necesita mejorar y requiere un refinamiento adicional, especialmente cuando se dispone de datos de entrenamiento. Sin embargo, debido a que la mayoría de los LLMs solo ofrecen APIs de inferencia de caja negra y son costosos de ajustar fino, la mayoría de los usuarios y académicos no pueden optimizar directamente estos LLMs. Por lo tanto, un tema difícil que se debe resolver es cómo mejorar de manera efectiva el rendimiento de los LLMs en ciertas tareas secundarias, a veces con instancias de entrenamiento limitadas. Un nuevo estudio de la Universidad de California, Santa Bárbara y Microsoft propone la arquitectura de Directional Stimulus Prompting (DSP) que mejora el LLM de caja negra congelado en tareas secundarias utilizando un LM sintonizable (RL) pequeño.
Para ser más precisos, para cada texto de entrada, un LM pequeño (llamado LM de política) aprende a proporcionar una serie de tokens discretos como un estímulo dirigido, que puede ofrecer cierta información o instrucción sobre la muestra de entrada en lugar de una pista genérica para el trabajo. Para dirigir la creación del LLM hacia el objetivo deseado, como mayores puntajes de medida de rendimiento, el estímulo creado se combina luego con la entrada original y se suministra al LLM. Inicialmente utilizan ajuste fino supervisado (SFT, por sus siglas en inglés) con un LM pre-entrenado que utiliza un pequeño número de muestras de entrenamiento recopiladas. El entrenamiento tiene como objetivo maximizar la recompensa, definida como los puntajes en las medidas de rendimiento secundarias de la generación del LLM dependiendo del estímulo producido por el LM de política. Después de una optimización adicional para explorar mejores estímulos, el LM refinado inicializa el LM de política en RL.
La Figura 1 muestra un ejemplo de la tarea de resumen. Para ayudar al LLM a producir el resumen requerido basado en las palabras clave, las palabras clave actúan como estímulos (pistas). El LM de política puede ser optimizado utilizando puntajes de métricas de evaluación como ROUGE como incentivo, lo que lo motiva a proporcionar palabras clave que dirijan al LLM a producir mejores resúmenes. Si bien los LLMs tienen excelentes habilidades de generación, a menudo muestran comportamientos no deseados, lo que requiere una guía detallada sobre la característica de generación y dirección deseada para ciertas tareas secundarias. Esta es la base de su enfoque propuesto. El pequeño LM de política puede producir una serie de tokens como estímulo dirigido para brindar una guía detallada a nivel de muestra al LLM hacia el objetivo deseado, pero no puede producir textos que se asemejen al habla humana.
- Investigadores de Stanford y DeepMind proponen la idea de utilizar ...
- Una nueva investigación presenta Tensegridad Táctil Tridimensional ...
- Cómo los desarrolladores pueden trabajar de forma segura con la IA ...
RL ofrece una solución natural para cerrar la brecha entre el objeto optimizado (por ejemplo, el pequeño LM de política que genera el estímulo) y el objetivo de optimización definido por la generación del LLM, a diferencia de estudios anteriores que encuentran estímulos óptimos mediante ingeniería/optimización de prompts, que intenta explicar la “pregunta” de manera más clara. Su enfoque intenta proporcionar “pistas” o “indicaciones” para cada “pregunta”. También difiere del prompting de cadena de pensamiento que alienta al LLM a generar pasos intermedios de razonamiento al resolver tareas de razonamiento. Su enfoque utiliza un modelo pequeño sintonizable para controlar y guiar al LLM y se enfoca en las tareas de generación donde no hay una única “respuesta” correcta. Evalúan su marco en tareas de resumen y generación de respuestas de diálogo.
El pequeño LM de política que crea estimulación, por ejemplo, es un objeto optimizado, pero la producción del LLM determina el objetivo de optimización. RL proporciona una forma sencilla de cerrar esta brecha. A diferencia de investigaciones anteriores, esta trata de aclarar la “pregunta” mediante ingeniería o optimización de la entrada. Su estrategia hace un esfuerzo por ofrecer “pistas” o “indicios” para cada “pregunta”. Además, se diferencia de la promoción basada en la cadena de pensamiento, que anima a la Mente a producir pasos intermedios de razonamiento por sí misma mientras completa tareas que requieren lógica. Su método se dirige a los trabajos de generación con más de una “respuesta” válida y emplea un modelo sencillo ajustable para regular y dirigir el LLM. Para las tareas que requieren el desarrollo de respuestas y resúmenes de discusión, evalúan su marco de trabajo. Realizan pruebas utilizando el modelo 750M Flan-T5-large para establecer el LM de política y el modelo 175B Codex como el LLM. Según los resultados de las pruebas, cuando Codex depende de las indicaciones producidas por el T5 ajustado, su rendimiento en las tareas posteriores aumenta notablemente. Las palabras clave que el resumen debe contener se utilizan como estímulos de dirección para la tarea de resumen. El rendimiento de Codex ya puede mejorarse en un 7.2% utilizando T5, que se entrenó utilizando 2000 muestras del conjunto de datos de CNN/Daily Mail.
Para desarrollar actos de conversación que especifiquen el significado deseado detrás de las respuestas objetivo para 500 diálogos del conjunto de datos MultiWOZ, entrenan el LM de política. El rendimiento de Codex aumentó en un 52.5% en puntajes totales gracias a las acciones de diálogo producidas por el LM de política. Rinde tan bien o mejor que los sistemas anteriores entrenados con datos de entrenamiento completos (8438 diálogos).