Melting Pot una suite de evaluación para el aprendizaje por refuerzo multiagente
'Melting Pot una suite de evaluación para el aprendizaje por refuerzo multiagente.'
La tecnología implementada en el mundo real inevitablemente enfrenta desafíos imprevistos. Estos desafíos surgen porque el entorno donde se desarrolló la tecnología difiere del entorno donde se implementará. Cuando una tecnología se transfiere con éxito, decimos que generaliza. En un sistema de múltiples agentes, como la tecnología de vehículos autónomos, hay dos posibles fuentes de dificultad de generalización: (1) variación del entorno físico, como cambios en el clima o la iluminación, y (2) variación del entorno social: cambios en el comportamiento de otros individuos interactivos. Manejar la variación del entorno social es al menos tan importante como manejar la variación del entorno físico, sin embargo, se ha estudiado mucho menos.
Como ejemplo de un entorno social, consideremos cómo interactúan los autos autónomos en la carretera con otros autos. Cada automóvil tiene un incentivo para transportar a su propio pasajero lo más rápido posible. Sin embargo, esta competencia puede llevar a una mala coordinación (congestión vial) que afecta negativamente a todos. Si los autos trabajan de manera cooperativa, es posible que más pasajeros lleguen a su destino más rápidamente. Este conflicto se llama dilema social.
Sin embargo, no todas las interacciones son dilemas sociales. Por ejemplo, hay interacciones sinérgicas en el software de código abierto, hay interacciones de suma cero en los deportes y los problemas de coordinación son fundamentales en las cadenas de suministro. Navegar cada una de estas situaciones requiere un enfoque muy diferente.
El aprendizaje por refuerzo multiagente proporciona herramientas que nos permiten explorar cómo los agentes artificiales pueden interactuar entre sí y con individuos desconocidos (como usuarios humanos). Se espera que esta clase de algoritmos funcione mejor cuando se prueben en sus habilidades de generalización social en comparación con otros. Sin embargo, hasta ahora, no ha habido una evaluación sistemática de referencia para evaluar esto.

Aquí presentamos Melting Pot, una suite de evaluación escalable para el aprendizaje por refuerzo multiagente. Melting Pot evalúa la generalización a situaciones sociales novedosas que involucran tanto individuos familiares como desconocidos, y ha sido diseñado para probar una amplia gama de interacciones sociales como: cooperación, competencia, engaño, reciprocidad, confianza, terquedad, entre otros. Melting Pot ofrece a los investigadores un conjunto de 21 “sustratos” de MARL (juegos multiagente) en los que entrenar a los agentes y más de 85 escenarios de prueba únicos en los que evaluar a estos agentes entrenados. El rendimiento de los agentes en estos escenarios de prueba retenidos cuantifica si los agentes:
- Poniendo el poder de AlphaFold en las manos del mundo.
- Generalmente, los agentes capaces emergen de un juego sin fin.
- Construyendo arquitecturas que puedan manejar los datos del mundo.
- Se desempeñan bien en una variedad de situaciones sociales en las que los individuos son interdependientes,
- Interactúan de manera efectiva con individuos desconocidos no vistos durante el entrenamiento,
- Aprueban una prueba de universalización: respondiendo positivamente a la pregunta “¿qué pasaría si todos se comportaran así?”
La puntuación resultante se puede utilizar para clasificar diferentes algoritmos de RL multiagente según su capacidad para generalizar a situaciones sociales novedosas.
Esperamos que Melting Pot se convierta en un punto de referencia estándar para el aprendizaje por refuerzo multiagente. Planeamos mantenerlo y ampliarlo en los próximos años para cubrir más interacciones sociales y escenarios de generalización.
Obtenga más información en nuestra página de GitHub.