Boletín de Ética y Sociedad #4 Sesgo en los Modelos de Texto a Imagen

'Ética y Sociedad #4 Sesgo en Modelos de Texto a Imagen'

TL;DR: Necesitamos mejores formas de evaluar el sesgo en los modelos de texto a imagen

Introducción

La generación de texto a imagen (TTI, por sus siglas en inglés) está muy de moda en estos días, y se están subiendo miles de modelos de TTI al Hugging Face Hub. Cada modalidad es potencialmente susceptible a fuentes separadas de sesgo, lo que plantea la pregunta: ¿cómo descubrimos los sesgos en estos modelos? En la presente publicación de blog, compartimos nuestros pensamientos sobre las fuentes de sesgo en los sistemas TTI, así como herramientas y posibles soluciones para abordarlos, mostrando tanto nuestros propios proyectos como los de la comunidad en general.

Valores y sesgo codificados en las generaciones de imágenes

Existe una relación muy estrecha entre el sesgo y los valores, especialmente cuando estos están incorporados en el lenguaje o las imágenes utilizadas para entrenar y consultar un determinado modelo de texto a imagen; este fenómeno influye en gran medida en los resultados que vemos en las imágenes generadas. Aunque esta relación es conocida en el campo de investigación de IA en general y se están realizando esfuerzos considerables para abordarla, la complejidad de tratar de representar la naturaleza evolutiva de los valores de una determinada población en un solo modelo aún persiste. Esto plantea un desafío ético duradero para descubrirlo y abordarlo adecuadamente.

Por ejemplo, si los datos de entrenamiento están principalmente en inglés, probablemente transmitan valores más occidentales. Como resultado, obtenemos representaciones estereotipadas de culturas diferentes o distantes. Este fenómeno se hace evidente cuando comparamos los resultados de ERNIE ViLG (izquierda) y Stable Diffusion v 2.1 (derecha) para la misma indicación, “una casa en Beijing”:

Fuentes de sesgo

En los últimos años, se ha realizado una importante investigación sobre la detección de sesgos en los sistemas de IA con modalidades individuales tanto en Procesamiento del Lenguaje Natural (Abid et al., 2021) como en Visión por Computadora (Buolamwini y Gebru, 2018). En la medida en que los modelos de ML son construidos por personas, los sesgos están presentes en todos los modelos de ML (y, en efecto, en la tecnología en general). Esto puede manifestarse mediante una sobre y subrepresentación de ciertas características visuales en las imágenes (por ejemplo, todas las imágenes de trabajadores de oficina con corbatas), o la presencia de estereotipos culturales y geográficos (por ejemplo, todas las imágenes de novias vistiendo vestidos y velos blancos, en contraposición a imágenes más representativas de novias alrededor del mundo, como novias con saris rojos). Dado que los sistemas de IA se implementan en contextos sociotécnicos que se están desplegando ampliamente en diferentes sectores y herramientas (por ejemplo, Firefly, Shutterstock), es especialmente probable que amplifiquen los sesgos y desigualdades sociales existentes. A continuación, pretendemos proporcionar una lista no exhaustiva de fuentes de sesgo:

Sesgos en los datos de entrenamiento: Conjuntos de datos multimodales populares como LAION-5B para texto a imagen, MS-COCO para subtitulación de imágenes y VQA v2.0 para respuesta a preguntas visuales han demostrado contener numerosos sesgos y asociaciones perjudiciales (Zhao et al., 2017, Prabhu y Birhane, 2021, Hirota et al., 2022), que pueden permear en los modelos entrenados con estos conjuntos de datos. Por ejemplo, los resultados iniciales del proyecto Hugging Face Stable Bias muestran una falta de diversidad en las generaciones de imágenes, así como la perpetuación de estereotipos comunes de culturas y grupos de identidad. Al comparar las generaciones de Dall-E 2 de CEOs (derecha) y gerentes (izquierda), podemos ver que ambos carecen de diversidad:

Sesgos en el filtrado de datos de preentrenamiento: A menudo se realiza algún tipo de filtrado en los conjuntos de datos antes de usarlos para entrenar modelos; esto introduce diferentes sesgos. Por ejemplo, en su publicación de blog, los creadores de Dall-E 2 encontraron que el filtrado de los datos de entrenamiento puede amplificar los sesgos, y plantean la hipótesis de que esto puede deberse al sesgo existente en el conjunto de datos hacia la representación de mujeres en contextos más sexualizados o a los sesgos inherentes de los enfoques de filtrado que utilizan.

Sesgos en la inferencia: El modelo CLIP utilizado para guiar el entrenamiento y la inferencia de modelos de texto a imagen como Stable Diffusion y Dall-E 2 tiene varios sesgos bien documentados en relación a la edad, el género y la raza o etnia, tratando, por ejemplo, las imágenes etiquetadas como white, middle-aged y male como el valor predeterminado. Esto puede afectar a las generaciones de modelos que lo utilizan para la codificación de indicaciones, interpretando, por ejemplo, grupos de género e identidad no especificados o subespecificados como significativos de personas blancas y hombres.

Prejuicios en el espacio latente de los modelos: Se ha realizado trabajo inicial en términos de explorar el espacio latente del modelo y guiar la generación de imágenes a lo largo de diferentes ejes, como el género, para hacer que las generaciones sean más representativas (ver las imágenes a continuación). Sin embargo, se necesita más trabajo para comprender mejor la estructura del espacio latente de diferentes tipos de modelos de difusión y los factores que pueden influir en el sesgo reflejado en las imágenes generadas.

Prejuicios en el filtrado posterior: Muchos modelos de generación de imágenes vienen con filtros de seguridad incorporados que buscan identificar contenido problemático. Sin embargo, aún se debe determinar hasta qué punto funcionan estos filtros y qué tan robustos son frente a diferentes tipos de contenido, por ejemplo, los esfuerzos para poner a prueba el filtro de seguridad de Stable Diffusion han mostrado que principalmente identifica contenido sexual y no logra identificar otros tipos de contenido violento, sangriento o perturbador.

Detección de sesgos

La mayoría de los problemas descritos anteriormente no se pueden resolver con una sola solución, de hecho, el sesgo es un tema complejo que no se puede abordar de manera significativa solo con tecnología. El sesgo está profundamente entrelazado con el contexto social, cultural e histórico más amplio en el que existe. Por lo tanto, abordar el sesgo en los sistemas de IA no solo es un desafío tecnológico, sino también socio-técnico que requiere atención multidisciplinaria. Sin embargo, una combinación de enfoques que incluya herramientas, pruebas y evaluaciones puede ayudar a obtener ideas importantes que puedan informar tanto a los creadores de modelos como a los usuarios finales sobre los sesgos contenidos en los modelos TTI y otros modelos multimodales.

A continuación, presentamos algunos de estos enfoques:

Herramientas para explorar el sesgo: Como parte del proyecto Stable Bias, creamos una serie de herramientas para explorar y comparar la manifestación visual de los sesgos en diferentes modelos de texto a imagen. Por ejemplo, la herramienta Caras de Difusión Promedio permite comparar las representaciones promedio para diferentes profesiones y diferentes modelos, como ‘conserje’, que se muestra a continuación para Stable Diffusion v1.4, v2 y Dall-E 2:

Otras herramientas, como la herramienta de Agrupación de Caras y la herramienta Explorador de Profesiones Coloridas, permiten a los usuarios explorar patrones en los datos e identificar similitudes y estereotipos sin asignar etiquetas o características de identidad. De hecho, es importante recordar que las imágenes generadas de personas no son personas reales, sino creaciones artificiales, por lo que es importante no tratarlas como si fueran seres humanos reales. Dependiendo del contexto y el caso de uso, herramientas como estas se pueden utilizar tanto para contar historias como para auditar.

Pruebas de estrés: Las ‘pruebas de estrés’ consisten en evaluar los modelos de IA en busca de posibles vulnerabilidades, sesgos y debilidades al provocarlos y analizar los resultados. Si bien se ha utilizado en la práctica para evaluar modelos de lenguaje (incluido el próximo evento de Generative AI Red Teaming en DEFCON, en el que participamos), no existen formas establecidas y sistemáticas de realizar pruebas de estrés a los modelos de IA y sigue siendo relativamente ad hoc. De hecho, hay tantos posibles tipos de modos de falla y sesgos en los modelos de IA que es difícil anticiparlos todos, y la naturaleza estocástica de los modelos generativos dificulta la reproducción de casos de falla. Las pruebas de estrés brindan ideas prácticas sobre las limitaciones del modelo y se pueden utilizar para agregar salvaguardias y documentar las limitaciones del modelo. Actualmente no hay referencias o clasificaciones de pruebas de estrés que destaquen la necesidad de más trabajo en recursos de pruebas de estrés de código abierto. El conjunto de datos de pruebas de estrés de Anthropic es el único recurso de pruebas de estrés de código abierto, pero se limita solo a texto en lenguaje natural en inglés.

Evaluación y documentación del sesgo: En Hugging Face, somos grandes defensores de las fichas de modelo y otras formas de documentación (por ejemplo, hojas de datos, README, etc.). En el caso de los modelos de texto a imagen (y otros modelos multimodales), el resultado de las exploraciones realizadas utilizando herramientas de exploración y los esfuerzos de pruebas de estrés, como los descritos anteriormente, se pueden compartir junto con los puntos de control y los pesos del modelo. Uno de los problemas es que actualmente no tenemos puntos de referencia o conjuntos de datos estándar para medir el sesgo en los modelos multimodales (y de hecho, en los sistemas de generación de texto a imagen específicamente), pero a medida que la comunidad realice más trabajo en esta dirección, se pueden informar diferentes métricas de sesgo en paralelo en la documentación del modelo.

Valores y sesgo

Todos los enfoques enumerados anteriormente forman parte de la detección y comprensión de los sesgos incorporados en los modelos de generación de imágenes. Pero, ¿cómo nos involucramos activamente con ellos?

Un enfoque es desarrollar nuevos modelos que representen la sociedad como queremos que sea. Esto sugiere crear sistemas de IA que no solo imiten los patrones en nuestros datos, sino que promuevan activamente perspectivas más equitativas y justas. Sin embargo, este enfoque plantea una pregunta crucial: ¿qué valores estamos programando en estos modelos? Los valores difieren entre culturas, sociedades e individuos, lo que hace que sea una tarea compleja definir cómo debería ser una sociedad “ideal” dentro de un modelo de IA. La pregunta es realmente compleja y multifacética. Si evitamos reproducir los sesgos existentes en nuestra sociedad en nuestros modelos de IA, nos enfrentamos al desafío de definir una representación “ideal” de la sociedad. La sociedad no es una entidad estática, sino un constructo dinámico y en constante cambio. ¿Deberían, entonces, los modelos de IA adaptarse a los cambios en las normas y valores sociales a lo largo del tiempo? Si es así, ¿cómo aseguramos que estos cambios representen genuinamente a todos los grupos dentro de la sociedad, especialmente aquellos que a menudo están subrepresentados?

Además, como mencionamos en un boletín anterior, no hay una sola forma de desarrollar sistemas de aprendizaje automático, y cualquiera de los pasos en el proceso de desarrollo y implementación puede presentar oportunidades para abordar el sesgo, desde quién se incluye al principio, hasta definir la tarea, curar el conjunto de datos, entrenar el modelo y más. Esto también se aplica a los modelos multimodales y las formas en que se implementan o se producen en la sociedad, ya que las consecuencias del sesgo en los modelos multimodales dependerán de su uso posterior. Por ejemplo, si se utiliza un modelo en una configuración en la que intervienen seres humanos para el diseño gráfico (como los creados por RunwayML), el usuario tiene numerosas oportunidades para detectar y corregir el sesgo, por ejemplo, cambiando la solicitud o las opciones de generación. Sin embargo, si se utiliza un modelo como parte de una herramienta para ayudar a los artistas forenses a crear bocetos policiales de posibles sospechosos (ver imagen a continuación), entonces las apuestas son mucho más altas, ya que esto puede reforzar estereotipos y sesgos raciales en un entorno de alto riesgo.

Otras actualizaciones

También estamos trabajando en otros frentes de ética y sociedad, que incluyen:

  • Moderación de contenido:
    • Hicimos una importante actualización de nuestra Política de Contenido. Ha pasado casi un año desde nuestra última actualización y la comunidad de Hugging Face ha crecido enormemente desde entonces, por lo que sentimos que era el momento adecuado. En esta actualización, enfatizamos el consentimiento como uno de los valores fundamentales de Hugging Face. Para obtener más información sobre nuestro proceso de pensamiento, consulta el blog de anuncios .
  • Política de responsabilidad de IA:
    • Enviamos una respuesta a la solicitud de comentarios sobre la política de responsabilidad de IA del NTIA, donde destacamos la importancia de la documentación y los mecanismos de transparencia, así como la necesidad de aprovechar la colaboración abierta y promover el acceso a las partes interesadas externas. ¡Puedes encontrar un resumen de nuestra respuesta y un enlace al documento completo en nuestra publicación de blog!

Observaciones finales

Como se puede deducir de nuestra discusión anterior, el problema de detectar y abordar el sesgo y los valores en los modelos multimodales, como los modelos de texto a imagen, es una cuestión abierta. Además del trabajo citado anteriormente, también estamos colaborando con la comunidad en general en estos temas: recientemente co-lideramos una sesión CRAFT en la conferencia FAccT sobre el tema y seguimos investigando sobre datos y modelos en relación con este tema. Una dirección particular en la que estamos entusiasmados por explorar es un análisis más profundo de los valores inculcados en los modelos de texto a imagen y lo que representan (¡mantente atento!).