Investigadores de Google DeepMind proponen Optimización mediante PROmpting (OPRO) Modelos de Lenguaje Grandes como Optimizadores

Google DeepMind propone OPRO (Optimización mediante PROmpting) como Optimizadores de Modelos de Lenguaje Grandes.

Con los constantes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento del Lenguaje Natural, Generación del Lenguaje Natural, Comprensión del Lenguaje Natural y Visión por Computadora, se están volviendo cada vez más populares. Los modelos de lenguaje grandes (LLMs por sus siglas en inglés) que recientemente han ganado mucha atención se están utilizando como optimizadores. Su capacidad se está utilizando para la comprensión del lenguaje natural con el fin de mejorar los procedimientos de optimización. La optimización tiene implicaciones prácticas en una variedad de industrias y contextos. Los métodos de optimización basados en derivadas históricamente han demostrado ser buenos para manejar una variedad de problemas.

Esto conlleva ciertos desafíos ya que los gradientes solo están disponibles en algunas ocasiones en circunstancias del mundo real, lo que presenta problemas difíciles. Para abordar estos problemas, un equipo de investigadores de Google DeepMind ha introducido un enfoque único llamado Optimización mediante PROmpting (OPRO) como solución a este problema. A través del uso de LLMs como optimizadores, OPRO proporciona una técnica sencilla pero increíblemente poderosa. En este caso, la principal novedad es el uso del lenguaje cotidiano para expresar tareas de optimización, lo que hace que el proceso sea más sencillo y accesible.

OPRO comienza proporcionando una descripción en lenguaje natural del problema de optimización. Esto indica que el problema se expresa utilizando un lenguaje sencillo en lugar de fórmulas matemáticas complicadas, lo que facilita su comprensión. En segundo lugar, proporciona una Generación Iterativa de Soluciones. El LLM crea nuevas soluciones candidatas para cada paso de optimización en función del indicador de lenguaje natural proporcionado. Este indicador, que es significativo, contiene detalles sobre las soluciones creadas previamente y sus valores asociados. Estas opciones tradicionales sirven como punto de partida para un mayor desarrollo.

Se desarrollan soluciones actualizadas y evaluadas, y se evalúa su rendimiento o calidad. El indicador para el siguiente paso de optimización incluye estas soluciones después de haber sido examinadas. Las soluciones se mejoran progresivamente a medida que avanza el proceso iterativo. Se han utilizado algunos ejemplos prácticos para ilustrar la eficacia de OPRO. Al principio, OPRO se utilizó para abordar dos problemas de optimización bien conocidos: el problema de regresión lineal y el problema del viajante de comercio. Estos problemas son prominentes y sirven como estándar para evaluar la eficacia del método. OPRO demostró su capacidad para identificar excelentes soluciones a estos problemas.

En segundo lugar, se ha utilizado para la optimización de indicadores. OPRO va más allá de abordar problemas de optimización particulares. También se abordó el problema de optimizar los propios indicadores. El objetivo era encontrar instrucciones que incrementen la precisión de una tarea. Esto es especialmente cierto para tareas que involucran el procesamiento del lenguaje natural, donde la estructura y el contenido del indicador tienen una gran influencia en el resultado.

El equipo ha demostrado que los indicadores optimizados por OPRO superan rutinariamente a aquellos creados por humanos. En un caso, mejoraron el rendimiento en cargas de trabajo difíciles de Big-Bench en hasta un asombroso 50% y hasta un 8% en la prueba GSM8K. Esto demuestra el potencial sustancial de OPRO para mejorar los resultados de optimización.

En conclusión, OPRO presenta un método revolucionario de optimización que utiliza grandes modelos de lenguaje. OPRO muestra su eficiencia al resolver problemas comunes de optimización y mejorar los indicadores al explicar tareas de optimización en lenguaje normal y producir y refinar soluciones de manera repetida. Los resultados indican mejoras significativas en el rendimiento en comparación con enfoques convencionales, especialmente cuando la información del gradiente no está disponible o es difícil de recopilar.