Investigadores de CMU proponen un método de ataque simple y efectivo que provoca que los modelos de lenguaje alineados generen comportamientos objetables con una alta tasa de éxito.
Investigadores de CMU proponen un método de ataque efectivo que induce comportamientos objetables en modelos de lenguaje alineados con alta tasa de éxito.
Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) son avances recientes en modelos de aprendizaje profundo para trabajar con lenguajes humanos. Estos modelos entrenados en aprendizaje profundo comprenden y generan texto de manera similar a los humanos. Estos modelos se entrenan en un gran conjunto de datos recopilados de internet, tomados de libros, artículos, sitios web y otras fuentes de información. Pueden traducir idiomas, resumir texto, responder preguntas y realizar una amplia gama de tareas de procesamiento del lenguaje natural.
Recientemente, ha habido una creciente preocupación por su capacidad para generar contenido objetable y las consecuencias resultantes. Por lo tanto, se han realizado importantes estudios en esta área.
Posteriormente, investigadores de la School of Computer Science (SCS) de la Universidad Carnegie Mellon, el Instituto de Seguridad y Privacidad CyLab y el Centro de Seguridad de IA en San Francisco han estudiado la generación de comportamientos objetables en modelos de lenguaje. En su investigación, propusieron un nuevo método de ataque que implica agregar un sufijo a una amplia gama de consultas, lo que resulta en un aumento sustancial en la probabilidad de que tanto los modelos de lenguaje de código abierto como los de código cerrado generen respuestas afirmativas a preguntas que normalmente rechazarían.
- Principales publicaciones de VoAGI para junio de 2023 ¡GPT4All es e...
- Midiendo la creatividad de la IA
- Cigna acusado de rechazar incorrectamente miles de reclamaciones de...
Durante su investigación, los investigadores aplicaron con éxito el sufijo de ataque a varios modelos de lenguaje, incluidas interfaces públicas como ChatGPT, Bard y Claude, y LLM de código abierto como LLaMA-2-Chat, Pythia, Falcon y otros. En consecuencia, el sufijo de ataque indujo de manera efectiva contenido objetable en las salidas de estos modelos de lenguaje.
Este método generó con éxito comportamientos dañinos en 99 de cada 100 instancias en Vicuna. Además, produjo 88 de cada 100 coincidencias exactas con una cadena dañina objetivo en la salida de Vicuna. Los investigadores también probaron su método de ataque contra otros modelos de lenguaje, como GPT-3.5 y GPT-4, logrando tasas de éxito de hasta el 84%. Para PaLM-2, la tasa de éxito fue del 66%.
Los investigadores dijeron que, por el momento, el daño directo a las personas que podría provocar que un chatbot produzca contenido objetable o tóxico puede no ser especialmente grave. La preocupación radica en que estos modelos desempeñen un papel más importante en sistemas autónomos sin supervisión humana. Además, enfatizaron que, a medida que los sistemas autónomos se vuelvan más reales, será muy importante asegurarse de tener una forma confiable de evitar que sean secuestrados por ataques como estos.
Los investigadores dijeron que no tenían la intención de atacar modelos de lenguaje grandes y chatbots propietarios. Pero su investigación muestra que incluso si tenemos un modelo cerrado de billones de parámetros, las personas aún pueden atacarlo al examinar modelos de código abierto más pequeños y simples disponibles de forma gratuita y aprender cómo atacarlos.
En su investigación, los investigadores ampliaron su método de ataque entrenando el sufijo de ataque en múltiples indicaciones y modelos. Como resultado, indujeron contenido objetable en varias interfaces públicas, incluidas Google Bard y Claud. El ataque también afectó a modelos de lenguaje de código abierto como Llama 2 Chat, Pythia, Falcon y otros, exhibiendo comportamientos objetables.
El estudio demostró que su enfoque de ataque tenía una amplia aplicabilidad y podría afectar a varios modelos de lenguaje, incluidos aquellos con interfaces públicas e implementaciones de código abierto. Además, enfatizaron que actualmente no tenemos un método para detener tales ataques adversarios, por lo que el siguiente paso es encontrar la manera de solucionar estos problemas en los modelos.
Consulte el Artículo y el Blog. Todo el crédito de esta investigación va a los investigadores de este proyecto. Además, no olvides unirte a nuestra comunidad de más de 27,000 suscriptores en ML SubReddit, más de 40,000 seguidores en nuestra comunidad de Facebook, nuestro canal de Discord y nuestro boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos interesantes de IA y más.
El artículo CMU Researchers Propose a Simple and Effective Attack Method that Causes Aligned Language Models to Generate Objectionable Behaviors at a High Success Rate apareció primero en MarkTechPost.