¿Los modelos como GPT-4 se comportan de manera segura cuando se les da la capacidad de actuar? Este artículo de IA presenta el benchmark MACHIAVELLI para mejorar la ética de las máquinas y construir agentes adaptativos más seguros

¿GPT-4 es seguro cuando actúa? Este artículo presenta el benchmark MACHIAVELLI para mejorar la ética y seguridad de las máquinas.

El procesamiento del lenguaje natural es una área en la que los sistemas de inteligencia artificial están avanzando rápidamente, y es importante que los modelos sean rigurosamente probados y dirigidos hacia un comportamiento más seguro para reducir los riesgos de implementación. Las métricas de evaluación previas para estos sistemas sofisticados se centraban en medir la comprensión del lenguaje o el razonamiento de manera aislada. Pero ahora, los modelos se están enseñando para realizar trabajos interactivos reales. Esto significa que los puntos de referencia deben evaluar cómo se desempeñan los modelos en entornos sociales.

Los agentes interactivos pueden ser sometidos a pruebas en juegos basados en texto. Los agentes necesitan habilidades de planificación y la capacidad de comprender el lenguaje natural para progresar en estos juegos. Las tendencias inmorales de los agentes deben ser consideradas junto con sus habilidades técnicas al establecer puntos de referencia.

Un nuevo trabajo realizado por la Universidad de California, el Centro de Seguridad de IA, la Universidad Carnegie Mellon y la Universidad de Yale propone el punto de referencia MACHIAVELLI (Medición de la Competencia y Daño de los Agentes en un Vasto Entorno de Interacciones de Lenguaje a Largo Plazo). MACHIAVELLI es un avance en la evaluación de la capacidad de un agente para planificar en entornos sociales naturalistas. El entorno está inspirado en juegos de aventuras de “elige tu propia aventura” disponibles en choiceofgames.com, que fueron desarrollados por humanos reales. Estos juegos presentan decisiones de alto nivel al tiempo que proporcionan objetivos realistas a los agentes, al abstraer las interacciones con el entorno a un nivel más bajo.

El entorno informa el grado en que las acciones del agente son deshonestas, de menor utilidad y buscan el poder, entre otras cualidades de comportamiento, para vigilar el comportamiento no ético. El equipo logra esto siguiendo los siguientes pasos:

  1. Operacionalizar estos comportamientos como fórmulas matemáticas
  2. Anotar densamente las nociones sociales en los juegos, como el bienestar de los personajes
  3. Utilizar las anotaciones y fórmulas para producir una puntuación numérica para cada comportamiento.

Demuestran empíricamente que GPT-4 (OpenAI, 2023) es más eficaz para recopilar anotaciones que los anotadores humanos.

Los agentes de inteligencia artificial enfrentan el mismo conflicto interno que los seres humanos. Al igual que los modelos de lenguaje entrenados para predecir el siguiente token a menudo producen texto tóxico, los agentes artificiales entrenados para la optimización de objetivos a menudo exhiben comportamientos inmorales y en busca de poder. Los agentes entrenados de manera amorral pueden desarrollar estrategias maquiavélicas para maximizar sus recompensas a expensas de los demás y del entorno. Al fomentar que los agentes actúen de manera ética, se puede mejorar este compromiso.

El equipo descubre que el entrenamiento moral (incentivar al agente a ser más ético) disminuye la incidencia de actividades dañinas para los agentes de modelos de lenguaje. Además, la regulación del comportamiento restringe el comportamiento indeseable en ambos agentes sin disminuir sustancialmente la recompensa. Este trabajo contribuye al desarrollo de tomadores de decisiones secuenciales confiables.

Los investigadores prueban técnicas como una conciencia artificial y sugerencias éticas para controlar a los agentes. Los agentes pueden ser guiados para mostrar menos comportamiento maquiavélico, aunque aún se pueden lograr avances significativos. Abogan por más investigación sobre estos compromisos y enfatizan en expandir la frontera de Pareto en lugar de perseguir recompensas limitadas.