Permitiendo experiencias de usuario encantadoras a través de modelos predictivos de atención humana.
Enabling delightful user experiences through predictive models of human attention.
Publicado por Junfeng He, Investigador Senior, y Kai Kohlhoff, Investigador Principal, Investigación de Google
Las personas tienen la capacidad notable de procesar una cantidad enorme de información (estimada en ~10 10 bits/s que entran en la retina) y seleccionar selectivamente algunas regiones interesantes y relevantes para la tarea para su posterior procesamiento (por ejemplo, memoria, comprensión, acción). Modelar la atención humana (cuyo resultado se llama a menudo un modelo de saliencia) ha sido, por lo tanto, de interés en los campos de la neurociencia, la psicología, la interacción humano-computadora (HCI) y la visión por computadora. La capacidad de predecir qué regiones son susceptibles de atraer la atención tiene numerosas aplicaciones importantes en áreas como la gráfica, la fotografía, la compresión y el procesamiento de imágenes, y la medición de la calidad visual.
Anteriormente, hemos discutido la posibilidad de acelerar la investigación sobre el movimiento ocular utilizando aprendizaje automático y estimación de mirada basada en teléfonos inteligentes, que anteriormente requería hardware especializado que costaba hasta $30,000 por unidad. La investigación relacionada incluye “Look to Speak”, que ayuda a los usuarios con necesidades de accesibilidad (por ejemplo, personas con ELA) a comunicarse con sus ojos, y la técnica “Mapas de calor diferencialmente privados” recientemente publicada para calcular mapas de calor, como los de atención, protegiendo la privacidad de los usuarios.
En este blog, presentamos dos artículos (uno de CVPR 2022 y otro recién aceptado para CVPR 2023) que destacan nuestra investigación reciente en el área de la modelización de la atención humana: “Prioridad de saliencia profunda para reducir la distracción visual” y “Aprendizaje de perspectivas únicas: modelado de saliencia consciente del usuario”, junto con investigaciones recientes sobre carga progresiva impulsada por la saliencia para la compresión de imágenes (1, 2). Mostramos cómo los modelos predictivos de atención humana pueden permitir experiencias de usuario agradables, como la edición de imágenes para minimizar el desorden visual, la distracción o los artefactos, la compresión de imágenes para una carga más rápida de páginas web o aplicaciones, y guiar los modelos de aprendizaje automático hacia una interpretación y rendimiento más intuitivos y similares a los humanos. Nos enfocamos en la edición y compresión de imágenes, y discutimos avances recientes en la modelización en el contexto de estas aplicaciones.
Edición de imágenes guiada por la atención
Los modelos de atención humana suelen tomar una imagen como entrada (por ejemplo, una imagen natural o una captura de pantalla de una página web) y predicen un mapa de calor como salida. El mapa de calor predicho en la imagen se evalúa con respecto a los datos de atención de referencia, que se recopilan típicamente con un rastreador ocular o se aproximan mediante el desplazamiento/clic del ratón. Los modelos anteriores aprovecharon características hechas a mano para pistas visuales, como el contraste de color/brillo, los bordes y la forma, mientras que enfoques más recientes aprenden automáticamente características discriminativas basadas en redes neuronales profundas, desde redes neuronales convolucionales y recurrentes hasta redes transformadoras de visión más recientes.
- Meta lanza un Diseñador de IA Humanoide para Imágenes.
- Investigadores del MIT proponen el algoritmo de edición de pseudoet...
- OpenAI y DeepMind colaboran con el Gobierno del Reino Unido para av...
En “Prioridad de saliencia profunda para reducir la distracción visual” (más información en este sitio del proyecto), aprovechamos los modelos de saliencia profunda para ediciones dramáticas pero visualmente realistas, que pueden cambiar significativamente la atención del observador a diferentes regiones de la imagen. Por ejemplo, eliminar objetos distractivos en el fondo puede reducir el desorden en las fotos, lo que lleva a una mayor satisfacción del usuario. Del mismo modo, en la videoconferencia, reducir el desorden en el fondo puede aumentar el enfoque en el orador principal (demostración de ejemplo aquí).
Para explorar qué tipos de efectos de edición se pueden lograr y cómo afectan la atención de los espectadores, desarrollamos un marco de optimización para guiar la atención visual en imágenes utilizando un modelo de saliencia predictivo y diferenciable. Nuestro método utiliza un modelo de saliencia profunda de última generación. Dada una imagen de entrada y una máscara binaria que representa las regiones distractoras, los píxeles dentro de la máscara se editarán bajo la guía del modelo de saliencia predictivo de modo que la saliencia dentro de la región enmascarada se reduzca. Para asegurarnos de que la imagen editada sea natural y realista, elegimos cuidadosamente cuatro operadores de edición de imágenes: dos operaciones de edición de imágenes estándar, a saber, recoloración y deformación de imágenes (desplazamiento); y dos operadores aprendidos (no definimos explícitamente la operación de edición), a saber, un filtro de convolución de varias capas y un modelo generativo (GAN).
Con esos operadores, nuestro marco puede producir una variedad de efectos potentes, con ejemplos en la figura a continuación, que incluyen recoloración, inpainting, camuflaje, edición o inserción de objetos y edición de atributos faciales. Es importante destacar que todos estos efectos son impulsados únicamente por el modelo de saliencia único y preentrenado, sin ninguna supervisión o entrenamiento adicional. Tenga en cuenta que nuestro objetivo no es competir con métodos dedicados para producir cada efecto, sino demostrar cómo la guía de múltiples operaciones de edición puede estar impulsada por el conocimiento incorporado dentro de los modelos de saliencia profunda.
![]() |
Ejemplos de reducción de distracciones visuales, guiados por el modelo de saliencia con varios operadores. La región distractora está marcada en la parte superior del mapa de saliencia (borde rojo) en cada ejemplo. |
Enriqueciendo experiencias con la modelización de saliencia consciente del usuario
La investigación previa supone un único modelo de saliencia para toda la población. Sin embargo, la atención humana varía entre individuos, mientras que la detección de pistas salientes es bastante consistente, su orden, interpretación y distribuciones de mirada pueden diferir sustancialmente. Esto ofrece oportunidades para crear experiencias personalizadas para individuos o grupos. En “Aprendiendo desde perspectivas únicas: Modelización de saliencia consciente del usuario”, presentamos un modelo de saliencia consciente del usuario, el primero que puede predecir la atención para un usuario, un grupo de usuarios y la población en general, con un solo modelo.
Como se muestra en la figura a continuación, el núcleo del modelo es la combinación de las preferencias visuales de cada participante con un mapa de atención por usuario y máscaras de usuario adaptativas. Esto requiere que las anotaciones de atención por usuario estén disponibles en los datos de entrenamiento, por ejemplo, el conjunto de datos de miradas móviles OSIE para imágenes naturales; conjuntos de datos de FiWI y WebSaliency para páginas web. En lugar de predecir un solo mapa de saliencia que represente la atención de todos los usuarios, este modelo predice mapas de atención por usuario para codificar los patrones de atención de los individuos. Además, el modelo adopta una máscara de usuario (un vector binario con el tamaño igual al número de participantes) para indicar la presencia de participantes en la muestra actual, lo que hace posible seleccionar un grupo de participantes y combinar sus preferencias en un solo mapa de calor.
![]() |
Una descripción general del marco del modelo de saliencia consciente del usuario. La imagen de ejemplo es del conjunto de imágenes OSIE. |
Durante la inferencia, la máscara de usuario permite hacer predicciones para cualquier combinación de participantes. En la siguiente figura, las dos primeras filas son predicciones de atención para dos grupos diferentes de participantes (con tres personas en cada grupo) en una imagen. Un modelo de predicción de atención convencional predecirá mapas de calor de atención idénticos. Nuestro modelo puede distinguir los dos grupos (por ejemplo, el segundo grupo presta menos atención al rostro y más atención a la comida que el primero). De manera similar, las últimas dos filas son predicciones en una página web para dos participantes distintos, con nuestro modelo mostrando diferentes preferencias (por ejemplo, el segundo participante presta más atención a la región izquierda que el primero).
![]() |
Predicción de atención versus verdad fundamental (GT). EML-Net: predicciones de un modelo de vanguardia, que tendrá las mismas predicciones para los dos participantes/grupos. La nuestra: predicciones de nuestro modelo propuesto de saliencia consciente del usuario, que puede predecir correctamente la preferencia única de cada participante/grupo. La primera imagen es del conjunto de imágenes OSIE, y la segunda es de FiWI. |
Decodificación de imagen progresiva centrada en características salientes
Además de la edición de imágenes, los modelos de atención humana también pueden mejorar la experiencia de navegación de los usuarios. Una de las experiencias de usuario más frustrantes y molestas al navegar por la web es esperar a que se carguen las páginas web con imágenes, especialmente en condiciones de baja conectividad de red. Una forma de mejorar la experiencia del usuario en estos casos es mediante la decodificación progresiva de imágenes, que decodifica y muestra secciones de imagen de resolución cada vez más alta a medida que se descargan los datos, hasta que la imagen de resolución completa está lista. La decodificación progresiva suele proceder en orden secuencial (por ejemplo, de izquierda a derecha, de arriba a abajo). Con un modelo de atención predictivo (1, 2), en su lugar podemos decodificar imágenes en función de la saliencia, lo que hace posible enviar los datos necesarios para mostrar detalles de las regiones más salientes primero. Por ejemplo, en un retrato, los bytes para la cara pueden tener prioridad sobre los del fondo desenfocado. En consecuencia, los usuarios perciben una mejor calidad de imagen antes y experimentan tiempos de espera significativamente reducidos. Se pueden encontrar más detalles en nuestras publicaciones de blog de código abierto (publicación 1, publicación 2). Por lo tanto, los modelos de atención predictiva pueden ayudar con la compresión de imágenes y la carga más rápida de páginas web con imágenes, mejorar la representación para imágenes grandes y aplicaciones de transmisión/VR.
Conclusión
Hemos demostrado cómo los modelos predictivos de atención humana pueden permitir experiencias de usuario encantadoras a través de aplicaciones como la edición de imágenes que pueden reducir el desorden, las distracciones o los artefactos en imágenes o fotos para los usuarios y la decodificación progresiva de imágenes que pueden reducir en gran medida el tiempo de espera percibido por los usuarios mientras las imágenes se renderizan por completo. Nuestro modelo de saliencia consciente del usuario puede personalizar aún más las aplicaciones anteriores para usuarios individuales o grupos, permitiendo experiencias más ricas y únicas.
Otra dirección interesante para los modelos predictivos de atención es si pueden ayudar a mejorar la robustez de los modelos de visión por computadora en tareas como la clasificación o detección de objetos. Por ejemplo, en “Las etiquetas de atención espacial generadas por el maestro mejoran la robustez y la precisión de los modelos contrastivos”, mostramos que un modelo de atención humana predictivo puede guiar a los modelos de aprendizaje contrastivo para lograr una mejor representación y mejorar la precisión/robustez de las tareas de clasificación (en los conjuntos de datos ImageNet e ImageNet-C). Investigaciones adicionales en esta dirección podrían permitir aplicaciones como utilizar la atención del radiólogo en imágenes médicas para mejorar la detección o diagnóstico de enfermedades, o utilizar la atención humana en escenarios de conducción complejos para guiar los sistemas de conducción autónoma.
Agradecimientos
Este trabajo involucró esfuerzos colaborativos de un equipo multidisciplinario de ingenieros de software, investigadores y colaboradores interfuncionales. Nos gustaría agradecer a todos los coautores de los artículos/investigaciones, incluyendo a Kfir Aberman, Gamaleldin F. Elsayed, Moritz Firsching, Shi Chen, Nachiappan Valliappan, Yushi Yao, Chang Ye, Yossi Gandelsman, Inbar Mosseri, David E. Jacobes, Yael Pritch, Shaolei Shen y Xinyu Ye. También queremos agradecer a los miembros del equipo Oscar Ramírez, Venky Ramachandran y Tim Fujita por su ayuda. Finalmente, agradecemos a Vidhya Navalpakkam por su liderazgo técnico en la iniciación y supervisión de este cuerpo de trabajo.