Solucionando el mayor problema de SimCLR explicación del artículo BYOL
Solucionando el problema principal de SimCLR - explicación de BYOL
Cómo BYOL introdujo la nueva idea SOTA de todos los marcos de aprendizaje no supervisado modernos.
SimCLR implementó con éxito la idea del aprendizaje por contraste y, en ese momento, ¡logró un nuevo rendimiento de vanguardia! Sin embargo, la idea tiene debilidades fundamentales. Su sensibilidad a las aumentaciones específicas y su necesidad de lotes muy grandes para proporcionar un gran conjunto de ejemplos negativos. En otras palabras, la dependencia de esas muestras negativas es molesta. Bootstrap Your Own Latent – Un nuevo enfoque para el aprendizaje no supervisado, abreviado como BYOL, desarrollado por investigadores de DeepMind, implementa un enfoque completamente nuevo para entrenar modelos auto-supervisados, ¡que esperemos evite el colapso de la representación! Y es completamente extraño que funcione en primer lugar…
Entonces, volvamos a nuestro pipeline de vista dual y pensemos en otra idea, cómo evitar el colapso.

El problema es que en ambos caminos, estamos entrenando la misma red, que puede aprender a predecir el mismo vector constante para cada entrada. A esto se le llama colapso de la representación.
¡Aquí hay una idea loca! ¿Qué pasa si solo entrenamos una red y simplemente inicializamos aleatoriamente la segunda y congelamos sus pesos?
- El acceso a los datos es severamente deficiente en la mayoría de la...
- Explorando el contenido de archivos DLIS con Python
- Cómo utilizar el intérprete de código de OpenAI para analizar datos

Esta es prácticamente la misma idea que en los modelos de estudiante-profesor, o destilación de conocimiento, donde la red entrenable se llama red en línea y aquí la red fija, red objetivo. De esta manera, la red en línea aprende a aproximar las etiquetas predichas producidas por la red objetivo fija.
Pero, ¿qué demonios está sucediendo aquí? ¡Esto no tiene sentido! Sí, esto evita el colapso, ¡pero la red en línea ahora solo está aprendiendo a copiar las predicciones de una red inicializada aleatoriamente! ¡Las representaciones producidas no pueden ser buenas! ¡Lo cual es cierto! Los autores de BYOL probaron esto y lograron una precisión del 18.8% en el protocolo de evaluación lineal en ImageNet con la red en línea, pero aquí viene la parte loca, ¡la red objetivo inicializada aleatoriamente solo logra un 1.4% por sí misma! Eso significa que, por poco sentido que tenga todo esto, a partir de una representación dada, denominada objetivo, podemos entrenar una nueva representación potencialmente mejorada, denominada en línea, simplemente prediciendo la representación objetivo.
Este hallazgo experimental fue la motivación principal para BYOL, y fue un nuevo enfoque para el aprendizaje no supervisado que forma parte de la llamada “Familia de Auto-Destilación”. Nuevamente, BYOL entrena la red en línea para predecir la representación de la red objetivo de la misma imagen bajo una vista aumentada diferente.
Dicho esto, por supuesto, necesitamos construir sobre este hallazgo experimental para obtener mejores resultados que el mencionado 18.8% de precisión top-1. Está claro que necesitamos hacer algo contra esta red objetivo simplemente inicializada aleatoriamente. Los autores proponen que la red objetivo sea la misma arquitectura que la red en línea pero con un conjunto diferente de pesos. Los parámetros objetivo ahora son un promedio móvil exponencial de los parámetros en línea. Sin embargo, si miramos de cerca, ¡no hay nada que evite el colapso! Y los autores lo admiten en el artículo. ¡Las redes en línea y objetivo aún podrían converger con el tiempo a una representación colapsada!
“Si bien este objetivo admite soluciones colapsadas, por ejemplo, producir el mismo vector para todas las imágenes, mostramos empíricamente que BYOL no converge a tales soluciones”.
La Arquitectura
Demos un paso atrás desde esta magia negra, pongamos todo junto y veamos los esquemas exactos utilizados en BYOL.

Aquí podemos ver la idea exacta que hemos discutido hasta ahora. Tenemos una imagen de entrada y nuevamente producimos dos vistas diferentes aplicando dos conjuntos diferentes de aumentos aleatorios. Utilizamos dos rutas de predicción diferentes, la ruta en línea y la ruta objetivo, que utilizan la misma arquitectura de red, pero diferentes conjuntos de parámetros. Los parámetros de la red objetivo son un promedio móvil exponencial de la red en línea. Lo que esto significa con más concreción es que actualizamos los parámetros objetivo escalando sus parámetros anteriores por τ y añadiendo los parámetros de la red en línea escalados por 1 – τ.

Los autores, por ejemplo, establecen τ=0.99, lo que significa que solo cambian ligeramente los parámetros objetivo, añadiendo los parámetros en línea escalados por 0.01.
La Pérdida
Dado que finalmente ya no tenemos ejemplos contrastantes, tampoco necesitamos una pérdida contrastiva. La pérdida para BYOL es simplemente el Error Cuadrático Medio entre las predicciones normalizadas y las proyecciones objetivo normalizadas.

Bueno, eso es casi toda la pérdida. Como puedes ver, estamos tomando la pérdida entre las salidas de dos niveles diferentes en cada rama. Cada canal, en línea y objetivo, consiste en las siguientes redes. La red de representación f, que utilizaremos en tareas posteriores, y una red de proyección g, ¡como ya se vio en SimCLR! La rama en línea ahora incluye además una cabeza de predicción q, lo que hace que toda la arquitectura sea asimétrica entre la rama en línea y objetivo. Lo que esto significa para la pérdida es que los autores la simetrizan alimentando una vez la vista v a través de la red en línea y la vista v’ a través de la red objetivo y una segunda vez intercambiando las dos vistas.

¡Y eso es todo el enfoque propuesto en BYOL!
Resultados e Intuición
Al entrenar un ResNet50 utilizando BYOL y evaluar en ImageNet, por supuesto, supera a todos los otros baselines no supervisados, incluido el SimCLR que hemos discutido anteriormente, ¡y se acerca sorprendentemente a los modelos completamente supervisados!
Esto no significa que BYOL siempre supere a otros modelos.
Cuando se preentrena en ImageNet y se observan los resultados de transferencia de aprendizaje en diferentes benchmarks, ¡se puede ver que BYOL no siempre tiene el mejor rendimiento! Además, es interesante ver que el informe de los autores reproduce resultados de SimCLR que tienen un mejor rendimiento que los simplemente tomados del artículo original. Los autores no profundizan en esos hallazgos y no son muy consistentes con cuándo utilizan resultados reproducidos de SimCLR y simplemente hacen referencia a los resultados de SimCLR.
Pero dejando eso de lado, ¡realizan una comparación más profunda con SimCLR! Argumentablemente, la razón más importante por la que queríamos una alternativa a los enfoques contrastantes como SimCLR era reducir la sensibilidad que viene con la dependencia de las muestras negativas.
Cuando se trata de los efectos del tamaño del lote, ¡la superioridad de BYOL sobre SimCLR es obvia! BYOL es mucho menos sensible a tamaños de lote más pequeños que SimCLR. ¡Lo cual tiene sentido! Cuando se reduce el tamaño del lote a solo 256 muestras, la precisión top-1 de BYOL solo disminuye un 0,6%, mientras que para SimCLR disminuye un 3,4%. La gran caída que se produce al reducir el tamaño del lote a 128 muestras se debe a su efecto en la capa de normalización por lotes.
También hemos discutido cómo de sensible es SimCLR al conjunto de aumentos aplicados.
Podemos ver nuevamente que BYOL es mucho menos sensible a la eliminación de aumentos importantes. Al final, al realizar solo recorte, la precisión top-1 de BYOL disminuye aproximadamente un 13%, mientras que para SimCLR disminuye aproximadamente un 28%. Como ya se mencionó en mi publicación sobre SimCLR, esta dependencia significativa en la combinación de recorte con cambio de color en el caso de SimCLR se debe a que, sin los aumentos de color, el modelo aprende a diferenciar simplemente histogramas. En cambio, BYOL tiene incentivos para mantener cualquier información capturada por la representación objetivo en su red en línea para mejorar sus predicciones. En otras palabras, incluso si las vistas aumentadas de la misma imagen comparten el mismo histograma de color, BYOL todavía tiene incentivos para retener características adicionales en su representación. Por esa razón, los autores al menos creen que BYOL es más robusto a la elección de aumentos de imagen que los métodos de contraste.
¿Los autores lo creen? Eso es realmente genial y obviamente funciona fenomenalmente de manera empírica. Pero ¿por qué funciona? ¿Por qué no colapsa? Como se mencionó, los autores no tienen una prueba matemática de que este enfoque evite el colapso, pero han realizado algunas observaciones empíricas sobre lo que funciona y lo que no y han formulado algunas ideas sobre por qué BYOL funciona.
Argumentablemente, el más importante es la adición del predictor y asegurarse de que sea casi óptimo. De hecho, los autores plantean la hipótesis de que el papel principal de la red objetivo de BYOL es garantizar la casi optimalidad del predictor durante el entrenamiento. Incluso han descubierto que pueden eliminar por completo la funcionalidad de la red objetivo sin colapso al hacer que el predictor sea casi óptimo utilizando otros métodos.
¡Intentemos construir algo de intuición! Recuerda, BYOL utiliza la representación proyectada z de esta red objetivo, cuyos pesos son un promedio móvil exponencial de los pesos de la red en línea, como objetivo para sus predicciones en línea utilizando el predictor adicional. De esta manera, los pesos de la red objetivo representan una versión retrasada y más estable de los pesos de la red en línea. Los autores realizan varios estudios de ablación para desarrollar una intuición sobre la importancia de la combinación correcta de la red objetivo EMA y el predictor.
En la tabla izquierda, podemos ver cómo se desempeña el modelo bajo diferentes cálculos de EMA. El primer caso, τ = 1, es el experimento exacto que describí al principio, donde la red objetivo es una red inicializada al azar que nunca se actualiza. El último caso, con τ = 0, describe el caso en el que el modelo objetivo es una copia exacta de la red en línea, lo que lleva directamente a una representación colapsada. Los otros casos simplemente describen la búsqueda del parámetro τ óptimo. Dicho esto, posteriormente se confirmó que el promedio móvil exponencial no es necesario. Puedes tener la red objetivo como una copia directa de la red en línea. Es decir, si el predictor se actualiza con mayor frecuencia o tiene una tasa de aprendizaje más alta en comparación con el espinazo. Pero aún proporciona estabilidad de entrenamiento que incluso de alguna manera se puede utilizar en SimCLR y realmente mejora su rendimiento. Vale, la tabla derecha muestra los efectos de agregar muestras negativas (segunda fila), lo cual afecta el rendimiento (!), y eliminar el predictor (tercera fila), calculando así directamente la pérdida entre las representaciones proyectadas de las redes en línea y objetivo. Sin embargo, todo esto, en teoría, aún no evita por completo el colapso. Simplemente lo hace “super difícil” e “inestable para llegar allí”.
Pero bueno, volvamos al negocio. Casi hemos terminado. Ahora hemos comprendido cómo funciona esta nueva familia de Aprendizaje Auto Supervisado. Hemos echado un vistazo a BYOL, que es parte de la familia de Auto-Destilación que utiliza dos redes neuronales, denominadas redes en línea y objetivo, que interactúan y aprenden entre sí. ¡La gran ventaja de este enfoque es que logra un gran rendimiento sin depender de pares negativos!
Entonces, ¿cómo podemos mejorar aún más esta idea? ¿Qué tecnología ha estado dominando todos los ámbitos de ML y está dando resultados sorprendentes?
[PAUSA]
Correcto. Transformers.
¡Finalmente hemos llegado al punto donde podemos entender el enfoque detrás de esta visualización!

Si deseas saber cómo funciona uno de los modelos más recientes de vanguardia y qué conocimientos podemos obtener de él, ¡echa un vistazo al próximo artículo! ¡Cubriremos el famoso documento DINO de Mathilde Caron et. al., de Facebook AI Research!
Y si aún no está disponible, ¡no olvides seguirme para no perderte la publicación!
P.D.: Si te gusta este contenido y las visualizaciones, también puedes echar un vistazo a mi canal de YouTube, donde publico contenido similar pero con animaciones más atractivas.
Todas las imágenes se obtienen del documento BYOL, creado por el autor con imágenes a las que el autor tiene los derechos de uso, o por la fuente referenciada.