Aprendiendo la transmisión cultural en tiempo real robusta sin datos humanos.

Aprendizaje de transmisión cultural en tiempo real sin datos humanos.

A lo largo de milenios, la humanidad ha descubierto, evolucionado y acumulado una gran cantidad de conocimientos culturales, desde rutas de navegación hasta matemáticas, normas sociales y obras de arte. La transmisión cultural, definida como el proceso de pasar eficientemente información de un individuo a otro, es el proceso de herencia que subyace a este aumento exponencial en las capacidades humanas.

Nuestro agente, en azul, imita y recuerda la demostración tanto de los bots (izquierda) como de los humanos (derecha), en rojo.

Para ver más videos de nuestros agentes en acción, visita nuestro sitio web.

En este trabajo, utilizamos el aprendizaje profundo por refuerzo para generar agentes artificiales capaces de transmitir culturalmente en tiempo de prueba. Una vez entrenados, nuestros agentes pueden inferir y recordar conocimientos de navegación demostrados por expertos. Esta transferencia de conocimiento ocurre en tiempo real y se generaliza en una amplia variedad de tareas no vistas anteriormente. Por ejemplo, nuestros agentes pueden aprender rápidamente nuevos comportamientos al observar una sola demostración humana, sin necesidad de entrenar con datos humanos.

Un resumen de nuestro entorno de aprendizaje por refuerzo. Las tareas son representativas de habilidades humanas en navegación, que requieren secuencias particulares de decisiones estratégicas, como cocinar, encontrar el camino y resolver problemas.

Entrenamos y probamos nuestros agentes en mundos 3D generados de forma procedural, que contienen metas esféricas y coloridas incrustadas en un terreno ruidoso lleno de obstáculos. Un jugador debe navegar las metas en el orden correcto, que cambia aleatoriamente en cada episodio. Dado que el orden es imposible de adivinar, una estrategia de exploración ingenua incurre en una gran penalización. Como fuente de información transmitida culturalmente, proporcionamos un “bot” privilegiado que siempre entra en las metas en la secuencia correcta.

Nuestro agente MEDAL(-ADR) supera las ablaciones en tareas desconocidas, en mundos sin obstáculos (arriba) y con obstáculos (abajo).

A través de ablaciones, identificamos un “kit de inicio” mínimo y suficiente de ingredientes de entrenamiento necesarios para que surja la transmisión cultural, denominado MEDAL-ADR. Estos componentes incluyen memoria (M), eliminación de expertos (ED), sesgo de atención hacia el experto (AL) y aleatorización automática de dominio (ADR). Nuestro agente supera las ablaciones, incluido el método de vanguardia (ME-AL), en una variedad de tareas desafiantes desconocidas. La transmisión cultural se generaliza sorprendentemente bien incluso fuera de la distribución, y el agente recuerda las demostraciones mucho tiempo después de que el experto haya partido. Al analizar el cerebro del agente, encontramos neuronas notablemente interpretables responsables de codificar información social y estados de objetivo.

Nuestro agente se generaliza fuera de la distribución de entrenamiento (arriba) y posee neuronas individuales que codifican información social (abajo).

En resumen, proporcionamos un procedimiento para entrenar a un agente capaz de una transmisión cultural flexible, con alta capacidad de recuerdo y en tiempo real, sin utilizar datos humanos en el proceso de entrenamiento. Esto allana el camino para la evolución cultural como un algoritmo para el desarrollo de agentes artificiales más inteligentes en general.

Este artículo de los autores se basa en un trabajo conjunto realizado por el Equipo de Inteligencia General Cultural: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl y Lei M. Zhang.

Lee el artículo completo aquí .