El aprendizaje profundo no supervisado identifica la disentangulación semántica en las neuronas individuales de la región inferotemporal facial.

El aprendizaje profundo no supervisado identifica la disentangulación semántica en las neuronas de la región inferotemporal facial.

Nuestro cerebro tiene una capacidad asombrosa para procesar información visual. Podemos echar un vistazo a una escena compleja y, en cuestión de milisegundos, ser capaces de analizarla en objetos y sus atributos, como el color o el tamaño, y utilizar esta información para describir la escena en un lenguaje sencillo. Detrás de esta habilidad aparentemente sin esfuerzo se encuentra un cálculo complejo realizado por nuestra corteza visual, que implica tomar millones de impulsos neuronales transmitidos desde la retina y transformarlos en una forma más significativa que pueda ser mapeada a la descripción en lenguaje sencillo. Para entender completamente cómo funciona este proceso en el cerebro, necesitamos descubrir cómo se representa la información semánticamente significativa en la activación de las neuronas al final de la jerarquía de procesamiento visual, y cómo se puede aprender dicha representación a partir de una experiencia en gran medida no enseñada.

Figura 1. La desentrelazación se refiere a la capacidad de las redes neuronales de descubrir atributos semánticamente significativos de las imágenes sin que se les enseñe explícitamente cuáles son estos atributos. Estos modelos aprenden mapeando las imágenes en una representación de menor dimensión a través de una red neuronal de inferencia, y tratando de reconstruir la imagen utilizando una red neuronal generadora. Cada unidad latente individual en una representación desentrelazada aprende a codificar un atributo interpretable único, como el color o el tamaño de un objeto. Manipular estas unidades latentes una a la vez produce cambios interpretables en la reconstrucción de la imagen generada. Animación crédito Chris Burgess.

Para responder a estas preguntas en el contexto de la percepción facial, unimos nuestras fuerzas con nuestros colaboradores en Caltech (Doris Tsao) y la Academia China de Ciencias (Le Chang). Elegimos las caras porque son bien estudiadas en la comunidad de neurociencia y a menudo se consideran un “microcosmos del reconocimiento de objetos”. En particular, queríamos comparar las respuestas de las neuronas corticales individuales en las áreas de las caras al final de la jerarquía de procesamiento visual, registradas por nuestros colaboradores, con una clase recientemente emergida de redes neuronales profundas llamadas “desentrelazantes”, que a diferencia de los sistemas habituales de “caja negra”, tienen como objetivo explícito ser interpretables para los humanos. Una red neuronal “desentrelazante” aprende a mapear imágenes complejas en un número reducido de neuronas internas (llamadas unidades latentes), cada una de las cuales representa un atributo semánticamente significativo único de la escena, como el color o el tamaño de un objeto (ver Figura 1). A diferencia de los clasificadores profundos de “caja negra” entrenados para reconocer objetos visuales a través de una cantidad biológicamente irrealista de supervisión externa, estos modelos desentrelazantes se entrenan sin una señal de enseñanza externa, utilizando un objetivo auto-supervisado de reconstruir imágenes de entrada (generación en la Figura 1) a partir de su representación latente aprendida (obtenida a través de la inferencia en la Figura 1).

Hace casi diez años, la desentrelazación se planteó como un componente integral para construir sistemas de inteligencia artificial más eficientes en el uso de datos, transferibles, justos e imaginativos en la comunidad de aprendizaje automático. Sin embargo, durante años, la construcción de un modelo capaz de desentrelazar en la práctica ha eludido al campo. El primer modelo capaz de hacer esto de manera exitosa y robusta, llamado β-VAE, fue desarrollado tomando inspiración de la neurociencia: β-VAE aprende prediciendo sus propias entradas; requiere una experiencia visual similar para un aprendizaje exitoso, como la experimentada por los bebés; y su representación latente aprendida refleja las propiedades conocidas del cerebro visual.

En nuestro nuevo artículo, medimos hasta qué punto las unidades desentrelazadas descubiertas por un β-VAE entrenado con un conjunto de datos de imágenes faciales son similares a las respuestas de las neuronas individuales al final del procesamiento visual registradas en primates al mirar las mismas caras. Los datos neuronales fueron recopilados por nuestros colaboradores bajo la supervisión rigurosa del Comité Institucional de Cuidado y Uso de Animales de Caltech. Cuando hicimos la comparación, encontramos algo sorprendente: parecía que el puñado de unidades desentrelazadas descubiertas por el β-VAE se comportaban como si fueran equivalentes a un subconjunto de tamaño similar de las neuronas reales. Cuando miramos más de cerca, encontramos una fuerte correspondencia uno a uno entre las neuronas reales y las artificiales (ver Figura 2). Esta correspondencia era mucho más fuerte que la de los modelos alternativos, incluyendo los clasificadores profundos considerados previamente como los modelos computacionales de procesamiento visual más avanzados, o un modelo hecho a mano de percepción facial considerado como el “estándar de oro” en la comunidad de neurociencia. Además, las unidades β-VAE estaban codificando información semánticamente significativa como la edad, el género, el tamaño de los ojos o la presencia de una sonrisa, lo que nos permitió comprender qué atributos utilizan las neuronas individuales en el cerebro para representar las caras.

Figura 2. Neuronas individuales en las áreas de la cara de los primates al final de la jerarquía de procesamiento visual representan atributos de la cara interpretables, como la forma de los ojos o la presencia de una sonrisa, y son equivalentes a las neuronas artificiales individuales en β-VAE descubiertas a través del aprendizaje de representación desentrelazada. Crédito de la imagen: Marta Garnelo.

Si β-VAE realmente pudo descubrir automáticamente unidades latentes artificiales equivalentes a las neuronas reales en términos de cómo responden a las imágenes de la cara, entonces debería ser posible traducir la actividad de las neuronas reales en sus contrapartes artificiales correspondientes y utilizar el generador (ver Figura 1) del β-VAE entrenado para visualizar qué caras representan las neuronas reales. Para probar esto, presentamos a los primates nuevas imágenes de caras que el modelo nunca había experimentado y verificamos si podíamos representarlas utilizando el generador del β-VAE (ver Figura 3). Descubrimos que esto era posible. Utilizando la actividad de tan solo 12 neuronas, pudimos generar imágenes de caras que eran reconstrucciones más precisas de las originales y de mejor calidad visual que las producidas por otros modelos generativos profundos. Esto a pesar de que se sabe que los modelos alternativos son mejores generadores de imágenes que el β-VAE en general.

Figura 3. El generador del β-VAE entrenado reconstruyó con precisión las imágenes de las caras a partir de la actividad de 12 neuronas emparejadas uno a uno en la corteza visual de los primates mientras observaban caras nuevas. Imágenes de caras nuevas reproducidas con permiso de Ma et al. y Phillips et al.

Nuestros hallazgos resumidos en el nuevo artículo sugieren que el cerebro visual se puede entender a nivel de una sola neurona, incluso al final de su jerarquía de procesamiento. Esto va en contra de la creencia común de que la información semánticamente significativa está multiplexada entre un gran número de neuronas, siendo cada una de ellas en su mayoría ininterpretable individualmente, de manera similar a cómo se codifica la información en capas completas de neuronas artificiales en clasificadores profundos. No solo eso, nuestros hallazgos sugieren que es posible que el cerebro aprenda a respaldar nuestra capacidad sin esfuerzo para hacer percepción visual optimizando el objetivo de desentrelazamiento. Si bien β-VAE fue desarrollado originalmente con inspiración en principios de neurociencia de alto nivel, la utilidad de las representaciones desentrelazadas para el comportamiento inteligente hasta ahora ha sido demostrada principalmente en la comunidad de aprendizaje automático. Siguiendo la rica historia de interacciones mutuamente beneficiosas entre la neurociencia y el aprendizaje automático, esperamos que las últimas ideas del aprendizaje automático puedan retroalimentar a la comunidad de neurociencia para investigar el mérito de las representaciones desentrelazadas para respaldar la inteligencia en sistemas biológicos, en particular como base para el razonamiento abstracto o el aprendizaje de tareas generalizables y eficientes.