Diseño de mecanismos centrado en el ser humano con IA democrática

'Diseño de mecanismos centrado en IA democrática'

En nuestro reciente artículo, publicado en Nature Human Behaviour, proporcionamos una demostración de concepto de que el aprendizaje por refuerzo profundo (RL) puede utilizarse para encontrar políticas económicas por las que la mayoría de las personas votará en un juego simple. El artículo aborda así un desafío clave en la investigación de IA: cómo entrenar sistemas de IA que se alineen con los valores humanos.

Imagina que un grupo de personas decide unir fondos para realizar una inversión. La inversión tiene éxito y se obtiene un beneficio. ¿Cómo se deben distribuir las ganancias? Una estrategia simple es dividir el retorno por igual entre los inversores. Pero eso podría ser injusto, porque algunas personas contribuyeron más que otras. Alternativamente, podríamos devolver a cada uno una proporción de su inversión inicial. Eso suena justo, pero ¿qué sucede si las personas tenían diferentes niveles de activos al comenzar? Si dos personas contribuyen la misma cantidad, pero una está dando una fracción de sus fondos disponibles y la otra está dando todo, ¿deben recibir la misma parte de las ganancias?

Esta pregunta sobre cómo redistribuir los recursos en nuestras economías y sociedades ha generado controversia entre filósofos, economistas y científicos políticos durante mucho tiempo. Aquí, utilizamos el RL profundo como un banco de pruebas para explorar formas de abordar este problema.

Para enfrentar este desafío, creamos un juego simple que involucraba a cuatro jugadores. Cada instancia del juego se jugó durante 10 rondas. En cada ronda, a cada jugador se le asignaban fondos, con el tamaño de la dotación variando entre los jugadores. Cada jugador tomaba una decisión: podían quedarse con esos fondos para ellos mismos o invertirlos en un fondo común. Los fondos invertidos estaban garantizados para crecer, pero había un riesgo, porque los jugadores no sabían cómo se repartirían las ganancias. En cambio, se les dijo que durante las primeras 10 rondas había un árbitro (A) que tomaría las decisiones de redistribución, y durante las siguientes 10 rondas otro árbitro (B) se haría cargo. Al final del juego, votaron por A o B y jugaron otro juego con ese árbitro. A los jugadores humanos del juego se les permitió quedarse con las ganancias de este juego final, por lo que tenían incentivos para informar con precisión sus preferencias.

En realidad, uno de los árbitros era una política de redistribución predefinida y el otro fue diseñado por nuestro agente de RL profundo. Para entrenar al agente, primero registramos datos de un gran número de grupos humanos y enseñamos a una red neuronal a copiar cómo la gente jugaba el juego. Esta población simulada podía generar datos ilimitados, lo que nos permitió utilizar métodos de aprendizaje automático intensivos en datos para entrenar al agente de RL a maximizar los votos de estos jugadores “virtuales”. Habiendo hecho esto, reclutamos nuevos jugadores humanos y enfrentamos al mecanismo diseñado por la IA contra baselines conocidos, como una política libertaria que devuelve los fondos a las personas en proporción a sus contribuciones.

Cuando estudiamos los votos de estos nuevos jugadores, descubrimos que la política diseñada por RL profundo era más popular que los baselines. De hecho, cuando realizamos un nuevo experimento pidiéndole a un quinto jugador humano que asumiera el papel de árbitro y lo capacitamos para tratar de maximizar los votos, la política implementada por este “árbitro humano” fue aún menos popular que la de nuestro agente.

Los sistemas de IA han sido a veces criticados por aprender políticas que pueden ser incompatibles con los valores humanos, y este problema de “alineación de valores” se ha convertido en una preocupación importante en la investigación de IA. Un mérito de nuestro enfoque es que la IA aprende directamente a maximizar las preferencias declaradas (o votos) de un grupo de personas. Este enfoque puede ayudar a garantizar que los sistemas de IA tengan menos probabilidades de aprender políticas que sean inseguras o injustas. De hecho, cuando analizamos la política que descubrió la IA, incorporaba una mezcla de ideas que previamente habían sido propuestas por pensadores humanos y expertos para resolver el problema de la redistribución.

En primer lugar, la IA eligió redistribuir los fondos a las personas en proporción a su contribución relativa en lugar de absoluta. Esto significa que al redistribuir los fondos, el agente tuvo en cuenta los medios iniciales de cada jugador, así como su disposición a contribuir. En segundo lugar, el sistema de IA especialmente recompensó a los jugadores cuya contribución relativa fue más generosa, tal vez alentando a otros a hacer lo mismo. Es importante destacar que la IA solo descubrió estas políticas al aprender a maximizar los votos humanos. Por lo tanto, el método garantiza que los humanos sigan “en el circuito” y que la IA produzca soluciones compatibles con los humanos.

Al pedir a las personas que voten, aprovechamos el principio de la democracia mayoritaria para decidir lo que las personas desean. A pesar de su amplio atractivo, se reconoce ampliamente que la democracia viene con la advertencia de que las preferencias de la mayoría se tienen en cuenta sobre las de la minoría. En nuestro estudio, nos aseguramos de que, al igual que en la mayoría de las sociedades, esa minoría estuviera compuesta por jugadores más generosamente dotados. Pero se necesita más trabajo para comprender cómo equilibrar las preferencias relativas de los grupos mayoritarios y minoritarios, diseñando sistemas democráticos que permitan que todas las voces sean escuchadas.