¿Adivina qué vi hoy? Este modelo de IA decodifica las señales de tu cerebro para reconstruir las cosas que viste

Este modelo de IA decodifica señales cerebrales para reconstruir lo que viste

Cerebro . El órgano más fascinante del cuerpo humano. Comprender cómo funciona es la clave para desvelar los secretos de la vida. ¿Cómo pensamos, sentimos, olemos, percibimos, actuamos? La respuesta a todas estas preguntas se encuentra en comprender cómo funciona el cerebro.

Comprender cómo el cerebro responde a lo que vemos es un tema de investigación muy interesante, ya que este conocimiento podría llevar al desarrollo de sistemas cognitivos computacionales avanzados. Dado que contamos con herramientas sofisticadas como la resonancia magnética funcional (fMRI) y el electroencefalograma (EEG), los científicos ahora pueden registrar la actividad cerebral desencadenada por estímulos visuales. Esto ha generado un creciente interés en decodificar y reconstruir el contenido real que provoca estas respuestas en el cerebro humano.

Un enfoque común para estudiar la percepción visual humana es reconstruir las imágenes o videos que los sujetos observaron durante los experimentos. Esto se realiza utilizando métodos computacionales, particularmente redes neuronales profundas, y se basa principalmente en datos de fMRI. Sin embargo, recopilar datos de fMRI es costoso e incómodo para su uso práctico. Quiero decir, si alguna vez has estado en un dispositivo de resonancia magnética, probablemente sabrías lo incómodo que es estar allí. Nadie aceptaría voluntariamente participar en un experimento con eso.

Aquí es donde entra en juego el EEG. El EEG es una forma más eficiente de registrar y analizar las señales cerebrales mientras los sujetos observan diversos estímulos, pero también tiene sus propios desafíos. Las señales de EEG son datos de series temporales, lo cual es muy diferente de las imágenes estáticas. Esto dificulta la correspondencia de los estímulos con las piezas correspondientes de la señal cerebral. Además, problemas como la colocación incorrecta de electrodos y el movimiento del cuerpo pueden introducir ruido significativo en los datos. Simplemente mapear las entradas de EEG a píxeles para la reconstrucción de imágenes produce resultados de baja calidad.

Por otro lado, los modelos de difusión han surgido como enfoques de vanguardia en la generación de modelos. Se han aplicado con éxito a diversas tareas, incluyendo la síntesis de imágenes y la generación de videos. Al operar en el espacio latente de autoencoders pre-entrenados potentes, los investigadores superan las limitaciones de la evaluación en el espacio de píxeles, lo que permite una inferencia más rápida y reduce los costos de entrenamiento.

Vamos a conocer a NeuroImageGen, que aborda este problema utilizando el poder de los modelos de difusión.

NeuroImageGen es un conjunto de herramientas para la generación de imágenes neuronales utilizando señales de EEG. Aborda los desafíos asociados con la reconstrucción de imágenes basada en EEG al incorporar un módulo de extracción de semántica de múltiples niveles. Este módulo decodifica diferentes niveles de información semántica a partir de las señales de EEG, desde semántica a nivel de muestra hasta detalles a nivel de píxel como mapas de saliencia. Estas salidas de múltiples niveles se introducen luego en modelos de difusión pre-entrenados, controlando eficazmente el proceso de generación en varios niveles semánticos.

Las señales de EEG son datos de series temporales complejos propensos a ruido, lo que dificulta su manejo. NeuroImageGen supera esto extrayendo semántica de múltiples niveles, que incluye información tanto a nivel de píxel como a nivel de muestra. La semántica a nivel de píxel implica capturar detalles de color, posición y forma de los estímulos visuales a través de mapas de saliencia. Por otro lado, la semántica a nivel de muestra proporciona una comprensión más general, como reconocer categorías de imágenes o subtítulos de texto. Este enfoque de múltiples niveles permite que NeuroImageGen maneje eficazmente los datos de EEG ruidosos, facilitando la reconstrucción de estímulos visuales de alta calidad.

Visión general de NeuroImageGen. Fuente: https://arxiv.org/abs/2308.02510

NeuroImageGen integra esta semántica de múltiples niveles en un modelo de difusión latente para la reconstrucción de imágenes. La semántica a nivel de píxel, representada como mapas de saliencia generados a partir de características de EEG, se utiliza como una imagen inicial. La semántica a nivel de muestra, derivada de las incrustaciones del modelo CLIP de subtítulos de imagen, guía el proceso de eliminación de ruido en el modelo de difusión. Esta integración permite un control flexible de la información semántica en diferentes niveles durante el proceso de reconstrucción. El resultado es el estímulo visual reconstruido, que combina eficazmente información detallada y general para producir imágenes de alta calidad.

Los resultados de este enfoque son prometedores, superando a los métodos tradicionales de reconstrucción de imágenes en datos de EEG. NEUROIMAGEN mejora significativamente la similitud estructural y la precisión semántica de las imágenes reconstruidas, mejorando nuestra comprensión del impacto de los estímulos visuales en el cerebro humano.