Investigación de Google DeepMind explora el desconcertante fenómeno de Grokking en redes neuronales Revelando la interacción entre memorización y generalización

Investigación de Google DeepMind sobre Grokking en redes neuronales interacción entre memorización y generalización

La teoría tradicional de cómo aprenden y generalizan las redes neuronales se pone a prueba por la ocurrencia de grokking en las redes neuronales. Cuando se entrena una red neuronal, la expectativa es que el rendimiento de la red en los datos de prueba también mejore a medida que la pérdida de entrenamiento disminuye y converge a un valor bajo, pero eventualmente, el comportamiento de la red se estabiliza. Aunque al principio la red parece memorizar los datos de entrenamiento, el grokking agrega un comportamiento extraño que resulta en una pérdida de entrenamiento baja y constante pero una pobre generalización. Sorprendentemente, la red evoluciona hacia una generalización perfecta con más entrenamiento.

Con esto, surge una pregunta: ¿Por qué, incluso después de obtener un rendimiento de entrenamiento prácticamente perfecto, el rendimiento de prueba de la red mejora drásticamente con más entrenamiento? Una red primero logra una precisión de entrenamiento perfecta pero muestra una mala generalización, y luego, con más entrenamiento, se convierte en una generalización perfecta. Este comportamiento es básicamente el grokking en las redes neuronales. En un reciente artículo de investigación, un equipo de investigadores propuso una explicación para el grokking basada en la coexistencia de dos tipos de soluciones dentro de la tarea que la red está tratando de aprender. Las soluciones son las siguientes.

  1. Solución de generalización: Con este enfoque, la red neuronal es adecuada para generalizar a nuevos datos. Con la misma cantidad de norma de parámetro, es decir, la magnitud de los parámetros de la red, puede crear logits o valores de salida mayores, que se caracterizan por un aprendizaje más lento pero una mayor eficiencia.
  1. Solución de memorización: La red memoriza los datos de entrenamiento en este enfoque, lo que resulta en una precisión de entrenamiento perfecta pero una generalización ineficaz. Los circuitos de memoria captan nueva información rápidamente, pero son menos efectivos ya que necesitan más entradas para generar los mismos valores de logit.

El equipo ha compartido que los circuitos de memorización se vuelven menos efectivos a medida que aumenta el tamaño del conjunto de datos de entrenamiento, pero los circuitos de generalización se ven afectados en menor medida. Esto implica que hay un tamaño crítico de conjunto de datos, es decir, un tamaño en el que tanto los circuitos de generalización como los de memorización son igualmente efectivos. El equipo ha validado las siguientes cuatro hipótesis innovadoras, con evidencia sólida para respaldar su explicación.

  1. Los autores han predicho y demostrado que el grokking ocurre cuando una red pasa de memorizar la entrada al principio a enfatizar progresivamente la generalización. La precisión de prueba aumenta como resultado de este cambio.
  1. Han sugerido la idea de un tamaño crítico de conjunto de datos, en el que los circuitos de memorización y generalización son igualmente efectivos. Este tamaño crítico representa una etapa vital en el proceso de aprendizaje.
  1. Ungrokking: Uno de los hallazgos más inesperados ha sido la ocurrencia de “ungrokking”. Si la red se entrena posteriormente en un conjunto de datos que es significativamente más pequeño que el tamaño crítico de conjunto de datos después de haber comprendido correctamente, regresa de una precisión perfecta a una precisión de prueba baja.
  1. Semi-Grokking: La investigación introduce el semi-grokking, en el cual una red pasa por una transición de fase después de ser entrenada en un tamaño de conjunto de datos que equilibra la efectividad de los circuitos de memorización y generalización, pero solo logra una precisión de prueba parcial, en lugar de perfecta. Este comportamiento demuestra la sutil interacción entre varios mecanismos de aprendizaje en las redes neuronales.

En conclusión, esta investigación ha ofrecido una explicación exhaustiva y original del fenómeno del grokking. Muestra que un factor clave que influye en el comportamiento de la red durante el entrenamiento es la convivencia de las soluciones de memoria y generalización, así como la efectividad de estas soluciones. Por lo tanto, con las predicciones y datos empíricos ofrecidos, la generalización de las redes neuronales y su dinámica pueden ser mejor comprendidas.