Imitando Inteligencia Interactiva

'Imitación de Inteligencia Interactiva'

Al comienzo de cualquier investigación en inteligencia artificial, se deben responder dos preguntas. ¿Qué queremos que hagan los sistemas de IA? ¿Y cómo evaluaremos si estamos avanzando hacia este objetivo? Alan Turing, en su influyente artículo que describe la Prueba de Turing, que modestamente llamó el juego de imitación, argumentó que para cierto tipo de IA, estas preguntas pueden ser una misma. En términos generales, si el comportamiento de una IA se asemeja a la inteligencia humana cuando una persona interactúa con ella, entonces la IA ha pasado la prueba y puede considerarse inteligente. Una IA diseñada para interactuar con humanos debe ser evaluada a través de la interacción con humanos.

Al mismo tiempo, la interacción no es solo una prueba de inteligencia, sino también el propósito. Para que los agentes de IA sean generalmente útiles, deberían ayudarnos en diversas actividades y comunicarse con nosotros de forma natural. En la ciencia ficción, la visión de robots con los que podemos hablar es común. Y los agentes digitales inteligentes que pueden ayudarnos a realizar numerosas tareas serían sumamente útiles. Para convertir estos dispositivos en realidad, debemos estudiar el problema de cómo crear agentes que puedan interactuar de manera competente con los humanos y llevar a cabo acciones en un mundo complejo.

La construcción de agentes que puedan interactuar con los humanos y el mundo plantea una serie de desafíos importantes. ¿Cómo podemos proporcionar señales de aprendizaje adecuadas para enseñar a los agentes artificiales estas habilidades? ¿Cómo podemos evaluar el desempeño de los agentes que desarrollamos cuando el lenguaje en sí mismo es ambiguo y abstracto? Como la cámara de viento lo es para el diseño de un avión, hemos creado un entorno virtual para investigar cómo hacer que los agentes interactúen.

Primero creamos un entorno simulado, el Cuarto de Juego, en el que los robots virtuales pueden participar en una variedad de interacciones interesantes al moverse, manipular objetos y hablar entre sí. Las dimensiones del Cuarto de Juego pueden ser aleatorias, al igual que la disposición de estantes, muebles, puntos de referencia como ventanas y puertas, y una variedad de juguetes infantiles y objetos domésticos. La diversidad del entorno permite interacciones que implican razonamiento espacial y relaciones entre objetos, ambigüedad de referencias, contención, construcción, soporte, ocultamiento y observabilidad parcial. Incorporamos dos agentes en el Cuarto de Juego para proporcionar una dimensión social y estudiar la intencionalidad conjunta, la cooperación, la comunicación de conocimiento privado, entre otros aspectos.

Agentes interactuando en el Cuarto de Juego. El agente azul instruye al agente amarillo a 'Colocar el helicóptero en la caja'.
La configuración del Cuarto de Juego se aleatoriza para crear diversidad en la recolección de datos.

Utilizamos una variedad de paradigmas de aprendizaje para construir agentes que puedan interactuar con humanos, incluyendo aprendizaje por imitación, aprendizaje por refuerzo, aprendizaje supervisado y aprendizaje no supervisado. Como Turing pudo haber anticipado al nombrar “el juego de imitación”, quizás el camino más directo para crear agentes que puedan interactuar con humanos sea a través de la imitación del comportamiento humano. Los grandes conjuntos de datos de comportamiento humano, junto con los algoritmos para el aprendizaje por imitación a partir de esos datos, han sido fundamentales para crear agentes que pueden interactuar con lenguaje textual o jugar juegos. Para las interacciones con lenguaje concreto, no tenemos una fuente de datos de comportamiento preexistente disponible, por lo que creamos un sistema para obtener interacciones de participantes humanos que interactúan entre sí. Estas interacciones se obtuvieron principalmente al darle indicaciones a uno de los jugadores para que improvisara una instrucción, por ejemplo, “Pídele al otro jugador que posicione algo en relación a algo más”. Algunas de las indicaciones de interacción también incluyen preguntas, así como instrucciones, como “Pregunta al otro jugador dónde está algo”. En total, recopilamos más de un año de interacciones humanas en tiempo real en este entorno.

Nuestros agentes reciben imágenes y lenguaje como entradas y producen acciones físicas y acciones de lenguaje como salidas. Creamos modelos de recompensa con las mismas especificaciones de entrada.
Izquierda: A lo largo de una interacción de 2 minutos, los dos jugadores (configurador y resolutor) se mueven, miran alrededor, agarran y sueltan objetos, y hablan. Derecha: Se le pide al configurador que 'Pida al otro jugador que levante algo'. El configurador instruye al agente resolutor a 'Levantar el avión que está frente a la mesa del comedor'. El agente resolutor encuentra el objeto correcto y completa la tarea.

El aprendizaje por imitación, el aprendizaje por refuerzo y el aprendizaje auxiliar (que consiste en el aprendizaje supervisado y no supervisado de representaciones) se integran en una forma de autocompetencia interactiva que es crucial para crear nuestros mejores agentes. Estos agentes pueden seguir comandos y responder preguntas. Los llamamos “solvers”. Pero nuestros agentes también pueden proporcionar comandos y hacer preguntas. Los llamamos “setters”. Los setters plantean problemas de forma interactiva a los solvers para producir solvers mejores. Sin embargo, una vez que los agentes están entrenados, los humanos pueden actuar como setters e interactuar con los agentes solvers.

Entrenamos políticas a partir de demostraciones humanas utilizando una combinación de aprendizaje supervisado (clonación del comportamiento), RL inverso para inferir modelos de recompensa y RL directo para optimizar políticas utilizando el modelo de recompensa inferido. Utilizamos tareas auxiliares semi-supervisadas para ayudar a dar forma a las representaciones tanto de la política como de los modelos de recompensa.
El agente setter le pide al agente solver que 'Tome el robot blanco y colóquelo en la cama'. El agente solver encuentra el robot y completa la tarea. La función de recompensa aprendida a partir de las demostraciones captura aspectos clave de la tarea (azul) y otorga menos recompensa (gris) cuando las mismas observaciones se combinan con la instrucción contrafáctica 'Tome el robot rojo y colóquelo en la cama'.

Nuestras interacciones no se pueden evaluar de la misma manera que la mayoría de los problemas simples de aprendizaje por refuerzo. Por ejemplo, no hay noción de ganar o perder. De hecho, comunicarse con lenguaje mientras se comparte un entorno físico introduce un número sorprendente de nociones abstractas y ambiguas. Por ejemplo, si un setter le pide a un solver que ponga algo cerca de otra cosa, ¿qué significa exactamente “cerca”? Pero la evaluación precisa de los modelos entrenados en entornos estandarizados es un pilar fundamental del aprendizaje automático y la inteligencia artificial moderna. Para hacer frente a esta configuración, hemos desarrollado una variedad de métodos de evaluación para ayudar a diagnosticar problemas y puntuar agentes, incluso simplemente haciendo que los humanos interactúen con los agentes en grandes pruebas.

Los humanos evaluaron el rendimiento de los agentes y otros humanos al completar instrucciones en la sala de juegos tanto en tareas de seguimiento de instrucciones como de respuesta a preguntas. Los agentes inicializados al azar tuvieron éxito ~0% de las veces. Un agente entrenado solo con clonación de comportamiento supervisada (B) tuvo un rendimiento algo mejor, alrededor del ~10-20% del tiempo. Los agentes entrenados con tareas auxiliares semi-supervisadas también (B·A) tuvieron un mejor rendimiento. Aquellos entrenados con aprendizaje supervisado, semi-supervisado y por refuerzo utilizando autocompetencia interactiva fueron considerados los de mejor rendimiento (BG·A & BGR·A).

Una ventaja distintiva de nuestra configuración es que los operadores humanos pueden establecer un conjunto virtualmente infinito de nuevas tareas a través del lenguaje y comprender rápidamente las competencias de nuestros agentes. Hay muchas tareas con las que no pueden lidiar, pero nuestro enfoque para construir AIs ofrece un camino claro para mejorar en un conjunto creciente de competencias. Nuestros métodos son generales y se pueden aplicar donde sea que necesitemos agentes que interactúen con entornos complejos y personas.