Imitando Inteligencia Interactiva
'Imitación de Inteligencia Interactiva'
Al comienzo de cualquier investigación en inteligencia artificial, se deben responder dos preguntas. ¿Qué queremos que hagan los sistemas de IA? ¿Y cómo evaluaremos si estamos avanzando hacia este objetivo? Alan Turing, en su influyente artículo que describe la Prueba de Turing, que modestamente llamó el juego de imitación, argumentó que para cierto tipo de IA, estas preguntas pueden ser una misma. En términos generales, si el comportamiento de una IA se asemeja a la inteligencia humana cuando una persona interactúa con ella, entonces la IA ha pasado la prueba y puede considerarse inteligente. Una IA diseñada para interactuar con humanos debe ser evaluada a través de la interacción con humanos.
Al mismo tiempo, la interacción no es solo una prueba de inteligencia, sino también el propósito. Para que los agentes de IA sean generalmente útiles, deberían ayudarnos en diversas actividades y comunicarse con nosotros de forma natural. En la ciencia ficción, la visión de robots con los que podemos hablar es común. Y los agentes digitales inteligentes que pueden ayudarnos a realizar numerosas tareas serían sumamente útiles. Para convertir estos dispositivos en realidad, debemos estudiar el problema de cómo crear agentes que puedan interactuar de manera competente con los humanos y llevar a cabo acciones en un mundo complejo.
La construcción de agentes que puedan interactuar con los humanos y el mundo plantea una serie de desafíos importantes. ¿Cómo podemos proporcionar señales de aprendizaje adecuadas para enseñar a los agentes artificiales estas habilidades? ¿Cómo podemos evaluar el desempeño de los agentes que desarrollamos cuando el lenguaje en sí mismo es ambiguo y abstracto? Como la cámara de viento lo es para el diseño de un avión, hemos creado un entorno virtual para investigar cómo hacer que los agentes interactúen.
Primero creamos un entorno simulado, el Cuarto de Juego, en el que los robots virtuales pueden participar en una variedad de interacciones interesantes al moverse, manipular objetos y hablar entre sí. Las dimensiones del Cuarto de Juego pueden ser aleatorias, al igual que la disposición de estantes, muebles, puntos de referencia como ventanas y puertas, y una variedad de juguetes infantiles y objetos domésticos. La diversidad del entorno permite interacciones que implican razonamiento espacial y relaciones entre objetos, ambigüedad de referencias, contención, construcción, soporte, ocultamiento y observabilidad parcial. Incorporamos dos agentes en el Cuarto de Juego para proporcionar una dimensión social y estudiar la intencionalidad conjunta, la cooperación, la comunicación de conocimiento privado, entre otros aspectos.


Utilizamos una variedad de paradigmas de aprendizaje para construir agentes que puedan interactuar con humanos, incluyendo aprendizaje por imitación, aprendizaje por refuerzo, aprendizaje supervisado y aprendizaje no supervisado. Como Turing pudo haber anticipado al nombrar “el juego de imitación”, quizás el camino más directo para crear agentes que puedan interactuar con humanos sea a través de la imitación del comportamiento humano. Los grandes conjuntos de datos de comportamiento humano, junto con los algoritmos para el aprendizaje por imitación a partir de esos datos, han sido fundamentales para crear agentes que pueden interactuar con lenguaje textual o jugar juegos. Para las interacciones con lenguaje concreto, no tenemos una fuente de datos de comportamiento preexistente disponible, por lo que creamos un sistema para obtener interacciones de participantes humanos que interactúan entre sí. Estas interacciones se obtuvieron principalmente al darle indicaciones a uno de los jugadores para que improvisara una instrucción, por ejemplo, “Pídele al otro jugador que posicione algo en relación a algo más”. Algunas de las indicaciones de interacción también incluyen preguntas, así como instrucciones, como “Pregunta al otro jugador dónde está algo”. En total, recopilamos más de un año de interacciones humanas en tiempo real en este entorno.
- Datos, Arquitectura o Pérdidas ¿Qué Contribuye Más al Éxito del Tra...
- Teoría de juegos como motor para el análisis de datos a gran escala
- Melting Pot una suite de evaluación para el aprendizaje por refuerz...


El aprendizaje por imitación, el aprendizaje por refuerzo y el aprendizaje auxiliar (que consiste en el aprendizaje supervisado y no supervisado de representaciones) se integran en una forma de autocompetencia interactiva que es crucial para crear nuestros mejores agentes. Estos agentes pueden seguir comandos y responder preguntas. Los llamamos “solvers”. Pero nuestros agentes también pueden proporcionar comandos y hacer preguntas. Los llamamos “setters”. Los setters plantean problemas de forma interactiva a los solvers para producir solvers mejores. Sin embargo, una vez que los agentes están entrenados, los humanos pueden actuar como setters e interactuar con los agentes solvers.


Nuestras interacciones no se pueden evaluar de la misma manera que la mayoría de los problemas simples de aprendizaje por refuerzo. Por ejemplo, no hay noción de ganar o perder. De hecho, comunicarse con lenguaje mientras se comparte un entorno físico introduce un número sorprendente de nociones abstractas y ambiguas. Por ejemplo, si un setter le pide a un solver que ponga algo cerca de otra cosa, ¿qué significa exactamente “cerca”? Pero la evaluación precisa de los modelos entrenados en entornos estandarizados es un pilar fundamental del aprendizaje automático y la inteligencia artificial moderna. Para hacer frente a esta configuración, hemos desarrollado una variedad de métodos de evaluación para ayudar a diagnosticar problemas y puntuar agentes, incluso simplemente haciendo que los humanos interactúen con los agentes en grandes pruebas.

Una ventaja distintiva de nuestra configuración es que los operadores humanos pueden establecer un conjunto virtualmente infinito de nuevas tareas a través del lenguaje y comprender rápidamente las competencias de nuestros agentes. Hay muchas tareas con las que no pueden lidiar, pero nuestro enfoque para construir AIs ofrece un camino claro para mejorar en un conjunto creciente de competencias. Nuestros métodos son generales y se pueden aplicar donde sea que necesitemos agentes que interactúen con entornos complejos y personas.