Google AI propone una Política Universal (UniPi) que aborda la diversidad ambiental y los desafíos de especificación de recompensas
Google AI propone la Política Universal (UniPi) para abordar la diversidad ambiental y los desafíos de especificación de recompensas.
Sin importar la industria en la que se empleen, la inteligencia artificial (IA) y el aprendizaje automático (ML) siempre han intentado mejorar la calidad de vida de las personas. Una de las principales aplicaciones de la IA en los últimos tiempos es diseñar y crear agentes capaces de realizar tareas de toma de decisiones en diversos ámbitos. Por ejemplo, modelos de lenguaje grandes como GPT-3 y PaLM y modelos de visión como CLIP y Flamingo han demostrado ser excepcionalmente buenos en el aprendizaje sin ejemplos en sus respectivos campos. Sin embargo, existe una desventaja principal asociada con el entrenamiento de dichos agentes. Esto se debe a que dichos agentes exhiben la propiedad inherente de la diversidad ambiental durante el entrenamiento. En términos simples, el entrenamiento para diferentes tareas o entornos requiere el uso de diversos espacios de estado, lo que ocasionalmente puede dificultar el aprendizaje, la transferencia de conocimientos y la capacidad de generalización de los modelos en distintos dominios. Además, para tareas basadas en el aprendizaje por refuerzo (RL), se vuelve difícil crear funciones de recompensa para tareas específicas en diferentes entornos.
Trabajando en este problema, un equipo de Google Research investigó si se pueden utilizar dichas herramientas para construir agentes más versátiles. Para su investigación, el equipo se enfocó específicamente en la síntesis de imágenes guiadas por texto, en la cual el objetivo deseado en forma de texto se alimenta a un planificador, que crea una secuencia de cuadros que representan el curso de acción previsto, luego se extraen las acciones de control del video generado. El equipo de Google propuso una Política Universal (UniPi) que aborda los desafíos de diversidad ambiental y especificación de recompensa en su reciente artículo titulado “Aprendizaje de políticas universales mediante generación de video guiada por texto”. La política UniPi utiliza el texto como una interfaz universal para descripciones de tareas y el video como una interfaz universal para comunicar el comportamiento de acción y observación en diversas situaciones. Específicamente, el equipo diseñó un generador de video como un planificador que acepta el cuadro de imagen actual y una indicación de texto que establece la meta actual como entrada para generar una trayectoria en forma de secuencia de imágenes o video. El video generado luego se alimenta a un modelo de dinámica inversa que extrae las acciones subyacentes ejecutadas. Este enfoque se destaca porque permite aprovechar la naturaleza universal del lenguaje y el video en la generalización de metas y tareas novedosas en diversos entornos.
En los últimos años, se ha logrado un progreso significativo en el dominio de la síntesis de imágenes guiadas por texto, lo que ha producido modelos con una capacidad excepcional para generar imágenes sofisticadas. Esto motivó aún más al equipo a elegir esto como su tarea de toma de decisiones. El enfoque UniPi propuesto por los investigadores de Google consiste principalmente en cuatro componentes: consistencia de trayectoria a través de enrejado, planificación jerárquica, modulación de comportamiento flexible y adaptación de acción específica de tarea, que se describen en detalle a continuación:
1. Consistencia de trayectoria a través de enrejado:
- 150+ Sugerencias de logotipos para mediados de viaje
- Introducción a Weaviate Guía para principiantes sobre la búsqueda c...
- Una Oda a mi Doctorado en Física
Los métodos existentes de texto a video a menudo producen videos con un estado ambiental subyacente que cambia considerablemente. Sin embargo, garantizar que el entorno sea constante en todos los momentos es esencial para construir un planificador de trayectorias preciso. Por lo tanto, para imponer la consistencia del entorno en la síntesis condicional de video, los investigadores proporcionan adicionalmente la imagen observada al desruidizar cada cuadro en el video sintetizado. Con el fin de mantener el estado ambiental subyacente a lo largo del tiempo, UniPi concatena directamente cada cuadro intermedio ruidoso con la imagen observada condicionada a través de los pasos de muestreo.
2. Planificación jerárquica:
Es difícil generar todas las acciones necesarias al planificar en entornos complejos y sofisticados que requieren mucho tiempo y medidas. Los métodos de planificación superan este problema aprovechando una jerarquía natural al crear planes aproximados en un espacio más pequeño y refinarlos en planes más detallados. De manera similar, en el proceso de generación de video, UniPi primero crea videos a nivel grueso que demuestran el comportamiento deseado del agente y luego los mejora para hacerlos más realistas completando los cuadros faltantes y haciéndolos más suaves. Esto se logra utilizando una jerarquía de pasos, donde cada paso mejora la calidad del video hasta alcanzar el nivel de detalle deseado.
3. Modulación de comportamiento flexible:
Al planificar una secuencia de acciones para una meta más pequeña, se pueden incluir fácilmente restricciones externas para modificar el plan generado. Esto se puede hacer incorporando una prioridad probabilística que refleje las limitaciones deseadas en función de las propiedades del plan. La prioridad se puede describir utilizando un clasificador aprendido o una distribución delta de Dirac en una imagen específica para guiar el plan hacia estados específicos. Este enfoque también es compatible con UniPi. Los investigadores utilizaron el algoritmo de difusión de video para entrenar el modelo de generación de video condicionado por texto. Este algoritmo consta de características de lenguaje preentrenadas codificadas del Transfer Transformer de Texto a Texto (T5).
4. Adaptación de acciones específicas de tareas:
Se entrena un pequeño modelo de dinámica inversa para traducir los fotogramas de video en acciones de control de bajo nivel utilizando un conjunto de videos sintetizados. Este modelo es independiente del planificador y puede entrenarse en un conjunto de datos más pequeño generado por un simulador. El modelo de dinámica inversa toma los fotogramas de entrada y las descripciones en texto de las metas actuales, sintetiza los fotogramas de imagen y genera una secuencia de acciones para predecir los pasos futuros. Luego, un agente ejecuta estas acciones de control de bajo nivel utilizando control en bucle cerrado.
En resumen, los investigadores de Google han realizado una impresionante contribución al demostrar el valor de utilizar la generación de video basada en texto para representar políticas capaces de permitir la generalización combinatoria, el aprendizaje multi-tarea y la transferencia del mundo real. Los investigadores evaluaron su enfoque en una serie de tareas novedosas basadas en el lenguaje y se concluyó que UniPi se generaliza bien tanto a combinaciones de comandos de lenguaje conocidas como desconocidas, en comparación con otras líneas de base como Transformer BC, Trajectory Transformer y Diffuser. Estos hallazgos alentadores resaltan el potencial de utilizar modelos generativos y los vastos datos disponibles como recursos valiosos para crear sistemas de toma de decisiones versátiles.