Superando los videos Deepfake
Overcoming Deepfake videos

En marzo de 2022, apareció un video sintetizado del presidente ucraniano Volodymyr Zelenskyy en varias plataformas de redes sociales y un sitio web de noticias nacionales. En el video, Zelenskyy insta a su pueblo a rendirse en su lucha contra Rusia; sin embargo, el hablante no es Zelenskyy en absoluto. El clip de un minuto de duración era un deepfake, un video sintetizado producido a través de modelos de aprendizaje profundo, y el presidente pronto publicó un mensaje legítimo reafirmando el compromiso de su nación de defender su tierra y su pueblo.
El gobierno ucraniano ya había estado advirtiendo al público que los deepfakes patrocinados por el estado podrían ser utilizados como parte de la guerra de información de Rusia. El video en sí no era particularmente realista o convincente, pero la calidad de los deepfakes ha estado mejorando rápidamente. “Tienes que estar un poco impresionado por los medios sintéticos”, dice Hany Farid, científico informático de la Universidad de California, Berkeley y experto en forenses digitales. “En cinco años, hemos pasado de videos bastante malos y de baja resolución a deepfakes de ‘Tom Cruise TikTok’ plenamente desarrollados, de alta resolución y muy sofisticados. Está evolucionando a la velocidad de la luz. Estamos entrando en una etapa en la que se está volviendo sorprendentemente fácil distorsionar la realidad”.
En algunos casos, como el ejemplo mencionado de TikTok, en el que una empresa generó un conjunto de videos que se parecen mucho al famoso actor, el resultado puede ser entretenido. Las nuevas empresas están desarrollando tecnología deepfake para que las empresas la usen en videos de marketing, y los estudios de Hollywood están insertando personajes digitales hiperrealistas en las películas junto a actores humanos. Sin embargo, el uso malintencionado de esta tecnología para la desinformación, el chantaje y otros fines poco éticos es preocupante, según los investigadores. Si el deepfake de Zelenskyy hubiera sido tan realista como uno de esos clips de Tom Cruise, el video sintetizado podría haber tenido terribles consecuencias.
El potencial para aplicaciones nefastas, y el ritmo al que las técnicas de deepfake están evolucionando, ha desencadenado una carrera entre los grupos que generan medios sintéticos y los científicos que trabajan para encontrar formas más efectivas y resistentes de detectarlos. “Estamos jugando este juego de ajedrez en el que la detección está tratando de mantener el ritmo o avanzar más rápido que la creación”, dice Siwei Lyu, científico informático de la Universidad en Buffalo, Universidad Estatal de Nueva York. “Una vez que conocen los trucos que usamos para detectarlos, pueden arreglar sus modelos para hacer que los algoritmos de detección sean menos efectivos. Así que cada vez que arreglan uno, tenemos que desarrollar uno mejor”.
Las raíces de la tecnología deepfake se remontan al desarrollo de las redes generativas adversarias (GAN) en 2014. El enfoque de GAN enfrenta dos modelos entre sí. En su artículo que presenta el concepto, Ian Goodfellow y sus colegas describieron los dos modelos como análogos al “juego” entre los falsificadores y la policía; el primero trata de engañar al segundo, y la competencia los lleva a un punto en el que las falsificaciones se acercan a lo real. Con los deepfakes, el primer modelo genera una imagen sintética y el segundo intenta detectarla como falsa. A medida que la pareja itera, el modelo generativo corrige sus fallas, lo que resulta en imágenes cada vez mejores.
- El Auge de los Chatbots
- Acelerando las Comunicaciones Ópticas con IA
- 3 formas de incrustar un gráfico de Matplotlib en una página HTML
Figura. Un video deepfake de lo que parece ser el presidente de Ucrania, Volodymyr Zelenskyy, diciéndole a su pueblo que dejen sus armas y se rindan a Rusia.
En los primeros días, era relativamente fácil para las personas reconocer un video falso; eran comunes las inconsistencias en el tono de piel o las irregularidades en la estructura y el movimiento facial. Sin embargo, a medida que los motores de síntesis han mejorado, la detección se ha vuelto cada vez más difícil. “La gente a menudo piensa que son mejores de lo que son para detectar contenido falso. Estamos cayendo en cosas, pero no lo sabemos”, dice Sophie Nightingale, una psicóloga que estudia el reconocimiento de deepfakes en la Universidad de Lancaster en el Reino Unido. “Estamos en el punto en el que el sistema perceptual humano no puede decir si algo es real o falso”.
Para mantener el ritmo de la evolución de la tecnología, los investigadores han estado desarrollando herramientas para detectar signos reveladores de falsificación digital. En 2018, Siwei Lyu, miembro distinguido de ACM, y uno de sus estudiantes en la Universidad de Buffalo estaban estudiando videos deepfake con la esperanza de construir mejores modelos de detección. Después de ver innumerables ejemplos y usar tecnología pública disponible para generar videos propios, notaron algo extraño. “¡Las caras no parpadeaban!” recuerda Lyu. “No tenían ojos parpadeantes realistas y, en algunos casos, no parpadeaban en absoluto”.
Eventualmente, se dieron cuenta de que la falta de parpadeo en los videos era el resultado lógico de los datos de entrenamiento. Los modelos que generan videos sintéticos se entrenan con imágenes fijas de un sujeto dado. Por lo general, los fotógrafos no publican imágenes en las que los ojos de sus sujetos estén cerrados. “Solo subimos imágenes con los ojos abiertos”, explica Lyu, “y ese sesgo se aprende y reproduce”.
Lyu y su estudiante crearon un modelo que detectaba deepfakes basados en la falta de parpadeo o patrones irregulares en el parpadeo de los ojos, pero poco después de que publicaron sus resultados, la siguiente ola de videos sintéticos evolucionó. El video de Zelenskyy, aunque de mala calidad, sí muestra al presidente ucraniano parpadeando.
El trabajo de parpadeo de ojos refleja el enfoque predominante para detectar deepfakes: buscar evidencia o artefactos del proceso generativo o sintético. “Estos modelos generativos aprenden sobre los sujetos que recrean a partir de los datos de entrenamiento”, dice Lyu. “Les das muchos datos y pueden crear medios sintéticos realistas, pero esta es una forma ineficiente de aprender sobre el mundo real, porque cualquier cosa que suceda en el mundo real tiene que seguir las leyes del mundo físico real, e indirectamente se incorpora esa información en los datos de entrenamiento”. De manera similar, Lyu ha señalado inconsistencias entre los reflejos en las córneas de los ojos de los sujetos sintetizados y diferencias casi imperceptibles en las retinas.
El investigador de deep learning Yuval Nirkin, actualmente científico investigador en CommonGround-AI, desarrolló un método de detección que compara la parte interna de la cara en un video con el contexto circundante, incluyendo las regiones de la cabeza, el cuello y el cabello. “Los métodos conocidos de deepfake en video no cambian toda la cabeza”, dice Nirkin. “Se enfocan solo en la parte interna de la cara porque, si bien la cara humana tiene una geometría simple que es fácil de modelar, toda la cabeza es muy irregular y contiene muchos detalles muy finos que son difíciles de reconstruir”. Nirkin desarrolló un modelo que segmenta la cara de un sujeto en partes internas y externas y extrae una señal de identidad de cada una. “Si encontramos una discrepancia entre las señales de las dos partes”, explica, “entonces podemos decir que alguien alteró la identidad del sujeto”. La ventaja de este enfoque, agrega Nirkin, es que no se enfoca en las fallas o artefactos asociados con un modelo de generación de deepfake particular y, por lo tanto, se puede aplicar a técnicas no vistas anteriormente.
Eventualmente, se dieron cuenta de que la falta de parpadeo en los videos era el resultado lógico de los datos de entrenamiento.
En la Universidad de California, Berkeley, Farid está desarrollando un método de detección que se aleja aún más del enfoque en artefactos específicos. En lugar de buscar señales irreales, Farid y sus estudiantes cambiaron la tarea y diseñaron una herramienta que estudia imágenes de video reales y verificadas de una persona. La solución del grupo busca correlaciones entre 780 características faciales, gestuales y vocales diferentes dentro de esas imágenes para construir un modelo mejor de una persona en particular y los patrones faciales, de habla y gestuales de ese sujeto. Girar la cabeza mientras habla, por ejemplo, cambiará su vía vocal y generará pequeños cambios en el sonido de su voz, y el modelo identifica esos vínculos. En cuanto a Zelinskyy, entre otras cosas, tiene un tipo específico de asimetría en su sonrisa y ciertos hábitos de mover sus brazos mientras habla.
Los investigadores agregan todas estas observaciones y correlaciones para crear un modelo o clasificador de la persona famosa, como Zelinskyy. La precisión del clasificador aumenta a medida que se incorporan más correlaciones, alcanzando una tasa de éxito del 100% cuando el grupo considera las 780. Cuando el clasificador estudia un video, y múltiples características están fuera del modelo, entonces la tecnología concluye que la muestra no es realmente del sujeto. “De alguna manera, no estamos construyendo un detector de deepfake”, explica Farid. “Estamos construyendo un detector de Zelinskyy”.
Farid reconoce que los motores de síntesis están mejorando constantemente; su grupo no está publicando públicamente el código detrás de su clasificador con la esperanza de frenar esa evolución. Actualmente, están ampliando su base de datos y creando detectores para más líderes mundiales.
A medida que los generadores de deepfake mejoran, y la línea entre los medios reales y sintéticos se vuelve cada vez más difícil de discernir, desarrollar nuevos medios para detectarlos rápidamente se vuelve cada vez más importante. “Lograr ese equilibrio correcto y asegurarse de que las personas confíen en las cosas en las que deberían confiar y desconfíen de las cosas en las que no deberían hacerlo, eso es algo difícil pero crítico de hacer”, explica Nightingale, el psicólogo e investigador de deepfake. “De lo contrario, podríamos terminar en una situación en la que no confiemos en nada”.
Lecturas adicionales
Goodfellow, I. et al. “Generative adversarial networks”, Communications, Volumen 63, número 11, noviembre de 2020.
Nightingale, S. y Farid, H. “Los rostros sintetizados por inteligencia artificial son indistinguibles de los rostros reales y más confiables”, PNAS, 14 de febrero de 2022.
Boháček, M. y Farid, H. “Protegiendo a los líderes mundiales contra deep fakes mediante gestos faciales, gestuales y vocales”, PNAS, 23 de noviembre de 2022.
Nirkin, Y. et al. “Detección de deepfakes basada en discrepancias entre rostros y su contexto”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 10, octubre de 2022.
Li, Y., Chang, M. y Lyu, S. “In Ictu Oculi: Exponiendo videos falsos creados por IA mediante la detección de parpadeos”, IEEE Workshop on Information Forensics and Security (WIFS), Hong Kong, 2018.
Volver arriba
Autor
Gregory Mone es el coautor, junto a Daniela Rus, del próximo libro The Heart and the Chip.
©2023 ACM 0001-0782 / 23/7
Se concede permiso para hacer copias digitales o en papel de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre y cuando las copias no se hagan o distribuyan con fines de lucro o ventaja comercial y que las copias lleven esta notificación y la cita completa en la primera página. Se debe honrar el derecho de autor de los componentes de este trabajo que pertenezcan a otros que ACM. Se permite la abstracción con crédito. Para copiar de otra manera, republicar, publicar en servidores o redistribuir en listas, se requiere permiso previo específico y / o tarifa. Solicite permiso para publicar a través de [email protected] o por fax al (212) 869-0481.
La Biblioteca Digital es publicada por la Asociación para la Maquinaria Computacional (ACM). Copyright © 2023 ACM, Inc.