Conoce Powderworld Un entorno de simulación ligero para entender la generalización de la IA.
Powderworld un simulador ligero para entender la generalización de la IA.
A pesar de los avances recientes en la investigación de RL, la capacidad de generalizar a nuevas tareas sigue siendo uno de los principales problemas tanto en el aprendizaje por refuerzo (RL) como en la toma de decisiones. Los agentes de RL se desempeñan notablemente en un entorno de una sola tarea, pero con frecuencia cometen errores cuando se enfrentan a obstáculos imprevistos. Además, los agentes de RL de una sola tarea pueden sobreajustarse en gran medida a las tareas en las que se entrenan, lo que los hace inadecuados para aplicaciones del mundo real. Aquí es donde un agente general que pueda manejar con éxito varias tareas inéditas y dificultades imprevistas puede ser útil.
La gran mayoría de los agentes generales se entrenan utilizando una variedad de tareas diversas. La investigación reciente de aprendizaje profundo ha demostrado que la capacidad de generalización de un modelo se correlaciona estrechamente con la cantidad de datos de entrenamiento utilizados. El problema principal, sin embargo, es que el desarrollo de tareas de entrenamiento es costoso y difícil. Como resultado, la mayoría de los entornos típicos son inherentemente demasiado específicos y estrechos en su enfoque en un solo tipo de tarea. La mayoría de las investigaciones previas en este campo se han centrado en distribuciones de tareas especializadas para el entrenamiento multitarea, con especial atención a un problema particular de toma de decisiones. La comunidad de RL se beneficiaría significativamente de un “entorno base” que permita una variedad de tareas que se originen en las mismas reglas básicas, ya que hay una necesidad cada vez mayor de investigar los vínculos entre las tareas de entrenamiento y la generalización. Además, sería ventajoso tener un entorno que facilite la comparación de diferentes variaciones de tareas de entrenamiento.
Dando un paso hacia el apoyo al aprendizaje de agentes y la generalización de múltiples tareas, dos investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT desarrollaron Powderworld, un entorno de simulación. Este entorno de simulación simple se ejecuta directamente en la GPU para ofrecer de manera efectiva dinámicas de entorno. Además, Powderworld incluye dos marcos para especificar tareas de modelado del mundo y aprendizaje por refuerzo. Si bien se encontró en el caso de aprendizaje por refuerzo que un aumento en la complejidad de la tarea promueve la generalización hasta un punto de inflexión específico, después del cual el rendimiento empeora, los modelos del mundo entrenados en entornos cada vez más complejos demuestran un mejor rendimiento de transferencia. El equipo cree que estos resultados pueden servir como un excelente punto de partida para futuras investigaciones comunitarias que utilicen Powderworld como un modelo inicial para investigar la generalización.
Powderworld fue desarrollado con la intención de ser modular y de apoyar interacciones emergentes sin sacrificar su capacidad de diseño expresivo. Los principios fundamentales que especifican cómo deben interactuar dos elementos cercanos son el núcleo de Powderworld. La consistencia de estas normas proporciona la base para la generalización del agente. Además, estas interacciones locales pueden expandirse para crear fenómenos emergentes a mayor escala. Por lo tanto, los agentes pueden generalizar utilizando estos fundamentos previos de Powderworld.
- Mejores herramientas de control de versiones de datos para la inves...
- Conoce FathomNet una base de datos de imágenes de código abierto qu...
- 16 Herramientas de IA para Acelerar tu Trabajo
Otro obstáculo importante para la generalización de RL es que las tareas con frecuencia no son ajustables. Un entorno ideal debería ofrecer un espacio para tareas que se puedan explorar y que representen objetivos y desafíos interesantes. Cada tarea se representa en Powderworld como una matriz 2D de elementos, lo que permite diversas técnicas de creación procedural. Un agente es más probable que se enfrente a estos obstáculos porque hay muchas formas diferentes de evaluar las capacidades de un agente en particular. Powerworld permite una ejecución eficiente en tiempo de ejecución al ejecutar grandes lotes de simulación en paralelo, ya que está diseñado para funcionar en la GPU. Este beneficio se vuelve esencial porque el aprendizaje multitarea puede ser bastante costoso en términos de recursos computacionales. Además, Powderworld utiliza una forma matricial compatible con redes neuronales para el diseño de tareas y las observaciones de agentes.
En su versión más reciente, el equipo ha proporcionado una base preliminar para entrenar modelos del mundo dentro de Powderworld. El objetivo del modelo del mundo es predecir el estado después de un número determinado de pasos de simulación. El rendimiento del modelo del mundo se informa sobre una colección de estados de prueba excluidos, ya que los experimentos de Powderworld deben considerar la generalización. Basándose en varios estudios, el equipo también encontró que los modelos con datos de entrenamiento más complejos tuvieron un mejor rendimiento en términos de generalización. Cuantos más elementos se expongan a los modelos durante el entrenamiento, mayor será el rendimiento, lo que demuestra que la simulación realista de Powderworld es lo suficientemente rica como para que los modelos del mundo desarrollen representaciones que se pueden modificar.
El equipo se centró en explorar tareas estocásticamente diversas para el aprendizaje por refuerzo, donde los agentes tenían que superar obstáculos desconocidos durante las pruebas. Las evaluaciones de los experimentos mostraron que aumentar la complejidad de la tarea de entrenamiento ayuda en la generalización hasta un punto de inflexión específico de la tarea, después del cual las tareas de entrenamiento demasiado complejas crean inestabilidad durante el aprendizaje por refuerzo. Esta distinción entre el impacto de la complejidad en el entrenamiento en las tareas de modelado del mundo y aprendizaje por refuerzo de Powderworld llama la atención sobre un interesante problema de investigación para el futuro.
Uno de los principales problemas del aprendizaje por refuerzo es la generalización a nuevas tareas no probadas. Para abordar este problema, los investigadores del MIT desarrollaron Powderworld, un entorno de simulación que puede generar distribuciones de tareas tanto para el aprendizaje supervisado como para el aprendizaje por refuerzo. Los creadores de Powderworld esperan que su entorno de simulación ligero estimule una mayor investigación para desarrollar un marco robusto pero computacionalmente eficiente para la complejidad de las tareas y la generalización de agentes. Anticipan que investigaciones futuras utilizarán Powderworld para investigar estrategias de diseño de entornos no supervisados y aprendizaje de agentes de final abierto, entre otros temas diversos.