Este artículo de IA propone un nuevo método para ajustar finamente los pesos del modelo para borrar conceptos de los modelos de difusión utilizando su propio conocimiento’.

Este artículo propone un nuevo método de IA para ajustar los pesos del modelo y borrar conceptos en los modelos de difusión utilizando su propio conocimiento'.

Los modelos generativos de texto a imagen modernos han despertado interés debido a la calidad excepcional de las imágenes y al potencial ilimitado de generación de su salida. Estos modelos pueden imitar una variedad de conceptos porque fueron entrenados con grandes conjuntos de datos de internet. Sin embargo, tratan de evitar la incorporación de pornografía y otros conceptos que el modelo ha aprendido que son negativos en su salida. Esta investigación realizada por investigadores de NEU y MIT proporciona un método para seleccionar y eliminar un solo concepto de los pesos de un modelo preentrenado condicionado por texto. Estrategias anteriores se han centrado en la guía de inferencia, la posgeneración y la filtración de conjuntos de datos.

Aunque se pueden evadir fácilmente, los enfoques basados en inferencia pueden filtrar o dirigir con éxito la salida lejos de conceptos indeseables. Su sistema no requiere el reentrenamiento, que es costoso para los modelos grandes y difiere de las técnicas de filtrado de datos. En cambio, su método elimina inmediatamente el concepto de las entradas del modelo, permitiendo la distribución de los pesos del modelo. El modelo de difusión de texto a imagen Stable Diffusion se ha publicado como software de código abierto, lo que permite que una gran audiencia acceda a la tecnología de creación de imágenes. La versión inicial del software tenía un filtro básico NSFW para evitar la creación de fotos peligrosas, pero debido a que el código y los pesos del modelo están disponibles para el público, es fácil desactivar el filtro.

El modelo SD 2.0 subsiguiente está entrenado con datos que han sido filtrados para excluir fotos explícitas y evitar la creación de contenido sensible. Este experimento llevó 150,000 horas de GPU para completarse en el conjunto de datos LAION con 5 mil millones de imágenes. Debido al alto costo del proceso, es difícil establecer una relación causal entre ciertos cambios en los datos y las capacidades que surgen. Sin embargo, los usuarios han informado que la eliminación de imágenes explícitas y otros temas de los datos de entrenamiento puede haber afectado la calidad de la salida. Los investigadores descubrieron que el modelo SD 1.4 popular produce 796 imágenes con partes del cuerpo expuestas identificadas por un detector de desnudos, mientras que el nuevo modelo SD 2.0 restringido al conjunto de datos de entrenamiento solo produce 417. Esto demuestra que a pesar de sus esfuerzos, la salida del modelo todavía contiene contenido explícito significativo.

La capacidad de los algoritmos de texto a imagen para imitar información potencialmente con derechos de autor también es una preocupación seria. La calidad del arte generado por IA es comparable a la del arte generado por humanos, y también puede imitar con precisión las preferencias estéticas de los verdaderos artistas. Los usuarios de sistemas de síntesis de texto a imagen a gran escala como Stable Diffusion han descubierto que sugerencias como “arte al estilo de” pueden imitar los estilos de ciertos artistas, lo que podría socavar el trabajo original. Debido a las quejas de varios artistas, los creadores de Stable Diffusion están siendo demandados por supuestamente robar sus ideas. La investigación actual intenta proteger al artista agregando una perturbación adversarial a la obra de arte antes de publicarla en línea para evitar que el modelo la copie.

Sin embargo, el uso de ese método dejará un modelo entrenado con un estilo artístico aprendido. Proporcionan una técnica para eliminar un concepto de un modelo de texto a imagen en respuesta a preocupaciones de seguridad y violación de derechos de autor. Utilizan solo descripciones de conceptos indeseables y no requieren datos de entrenamiento adicionales para ajustar los parámetros del modelo utilizando su técnica de Erased Stable Diffusion (ESD). Su metodología es rápida y solo requiere entrenar todo el sistema desde cero, a diferencia de los enfoques de censura de conjuntos de entrenamiento. Además, su política no requiere cambiar las fotos de entrada que se utilizarán con los modelos actuales. La eliminación es más difícil de derrotar que simplemente incluir en una lista negra o filtrar después, incluso por parte de usuarios con acceso a los parámetros.

Para investigar los efectos de la eliminación en la percepción de los usuarios sobre el estilo del artista eliminado en las fotos de salida y la interferencia con otros tipos artísticos y su impacto en la calidad de las imágenes, los investigadores realizaron estudios de usuarios. Al comparar su enfoque con Safe Latent Diffusion para eliminar imágenes objetables, descubren que es igual de efectivo. También examinan la capacidad del método para eliminar el estilo creativo del modelo. Por último, prueban su enfoque borrando clases completas de objetos. El artículo se basa en la preimpresión del documento. Han abierto el código del modelo y los pesos del modelo al público.

Consulta el PrePrint, Código y Proyecto. Todo el crédito de esta investigación corresponde a los investigadores de este proyecto. Además, no olvides unirte a nuestro SubReddit de ML de más de 16k, canal de Discord y boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos de IA interesantes y más.

El artículo fue publicado en MarkTechPost.