Construyendo agentes de diálogo más seguros

'Construyendo agentes de diálogo seguros'

Entrenando a una IA para comunicarse de una manera más útil, correcta e inofensiva

En los últimos años, los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés) han logrado éxito en una variedad de tareas como responder preguntas, resumir y dialogar. El diálogo es una tarea particularmente interesante porque involucra una comunicación flexible e interactiva. Sin embargo, los agentes de diálogo impulsados por LLMs pueden expresar información inexacta o inventada, utilizar un lenguaje discriminatorio o fomentar comportamientos inseguros.

Para crear agentes de diálogo más seguros, necesitamos ser capaces de aprender a partir del feedback humano. Aplicando aprendizaje por refuerzo basado en las opiniones de los participantes de la investigación, exploramos nuevos métodos para entrenar agentes de diálogo que muestran promesa para un sistema más seguro.

En nuestro último artículo, presentamos a Sparrow, un agente de diálogo que es útil y reduce el riesgo de respuestas inseguras e inapropiadas. Nuestro agente está diseñado para hablar con un usuario, responder preguntas y buscar en Internet utilizando Google cuando es útil buscar evidencia para informar sus respuestas.

Nuestro nuevo modelo de IA conversacional responde de manera autónoma a una indicación inicial de un humano:

Sparrow es un modelo de investigación y un concepto de prueba, diseñado con el objetivo de entrenar agentes de diálogo para ser más útiles, correctos e inofensivos. Al aprender estas cualidades en un entorno de diálogo general, Sparrow avanza nuestra comprensión de cómo podemos entrenar agentes para que sean más seguros y útiles, y en última instancia, para ayudar a construir una inteligencia artificial general (AGI) más segura y útil.

Sparrow se niega a responder a una pregunta potencialmente dañina:

Cómo funciona Sparrow

Entrenar una IA conversacional es un problema especialmente desafiante porque es difícil determinar qué hace que un diálogo sea exitoso. Para abordar este problema, recurrimos a una forma de aprendizaje por refuerzo (RL) basado en el feedback de las personas, utilizando el feedback de preferencia de los participantes del estudio para entrenar un modelo de qué tan útil es una respuesta.

Para obtener estos datos, mostramos a nuestros participantes múltiples respuestas de modelo a la misma pregunta y les preguntamos cuál respuesta les gusta más. Debido a que mostramos respuestas con y sin evidencia obtenida de Internet, este modelo también puede determinar cuándo una respuesta debe ser respaldada con evidencia.

Pedimos a los participantes del estudio que evalúen e interactúen con Sparrow de manera natural o adversarial, expandiendo continuamente el conjunto de datos utilizado para entrenar a Sparrow.

Pero aumentar la utilidad es solo parte de la historia. Para asegurarnos de que el comportamiento del modelo sea seguro, debemos limitar su comportamiento. Por lo tanto, establecemos un conjunto inicial de reglas simples para el modelo, como “no hacer declaraciones amenazantes” y “no hacer comentarios odiosos o insultantes”.

También establecemos reglas relacionadas con consejos potencialmente dañinos y no pretender ser una persona. Estas reglas se basaron en el estudio de trabajos existentes sobre daños en el lenguaje y consultas con expertos. Luego pedimos a los participantes del estudio que hablen con nuestro sistema, con el objetivo de engañarlo para que rompa las reglas. Estas conversaciones nos permiten entrenar un ‘modelo de reglas’ separado que indica cuándo el comportamiento de Sparrow rompe alguna de las reglas.

Hacia una IA mejor y mejores juicios

Verificar las respuestas de Sparrow en cuanto a su corrección es difícil incluso para los expertos. En cambio, pedimos a nuestros participantes que determinen si las respuestas de Sparrow son plausibles y si la evidencia que Sparrow proporciona realmente respalda la respuesta. Según nuestros participantes, Sparrow proporciona una respuesta plausible y la respalda con evidencia en un 78% de las ocasiones cuando se le hace una pregunta de hecho. Esto representa una gran mejora en comparación con nuestros modelos de referencia. Sin embargo, Sparrow no es inmune a cometer errores, como alucinar hechos y dar respuestas que a veces están fuera de tema.

Sparrow también tiene margen para mejorar su cumplimiento de las reglas. Después del entrenamiento, los participantes aún pudieron engañarlo para que rompiera nuestras reglas en un 8% de las ocasiones, pero en comparación con enfoques más simples, Sparrow es mejor para cumplir nuestras reglas bajo un sondeo adversarial. Por ejemplo, nuestro modelo de diálogo original rompía las reglas aproximadamente 3 veces más a menudo que Sparrow cuando nuestros participantes intentaban engañarlo para que lo hiciera.

Sparrow responde una pregunta y una pregunta de seguimiento utilizando evidencia, y luego cumple la regla “No pretender tener una identidad humana” cuando se le hace una pregunta personal (muestra del 9 de septiembre de 2022).

Nuestro objetivo con Sparrow era construir maquinaria flexible para hacer cumplir reglas y normas en agentes de diálogo, pero las reglas particulares que usamos son preliminares. Desarrollar un conjunto de reglas mejor y más completo requerirá la aportación de expertos en muchos temas (incluyendo formuladores de políticas, científicos sociales y éticos) y la participación de una amplia gama de usuarios y grupos afectados. Creemos que nuestros métodos seguirán siendo aplicables para un conjunto de reglas más riguroso.

Sparrow es un paso significativo hacia la comprensión de cómo entrenar a los agentes de diálogo para que sean más útiles y seguros. Sin embargo, la comunicación exitosa entre las personas y los agentes de diálogo no solo debe evitar daños, sino también estar alineada con los valores humanos para una comunicación efectiva y beneficiosa, como se discute en trabajos recientes sobre la alineación de modelos de lenguaje con valores humanos.

También enfatizamos que un buen agente seguirá negándose a responder preguntas en contextos donde sea apropiado recurrir a los seres humanos o donde esto pueda evitar comportamientos dañinos. Finalmente, nuestra investigación inicial se centró en un agente que habla inglés, y se necesita más trabajo para garantizar resultados similares en otros idiomas y contextos culturales.

En el futuro, esperamos que las conversaciones entre humanos y máquinas puedan llevar a una mejor evaluación del comportamiento de la IA, permitiendo a las personas alinear y mejorar sistemas que podrían ser demasiado complejos para entender sin la ayuda de las máquinas.

¿Interesado en explorar un camino conversacional hacia una AGI segura? Actualmente estamos contratando científicos de investigación para nuestro equipo de Alineación Escalable.