Investigadores de Stanford presentan a Sophia un optimizador escalable de segundo orden para el pre-entrenamiento de modelos de lenguaje
Investigadores de Stanford presentan a Sophia un optimizador de segundo orden para pre-entrenamiento de modelos de lenguaje.
Dado el alto costo inicial de entrenar un modelo de lenguaje, cualquier mejora no trivial en el proceso de optimización reduciría drásticamente el tiempo y el dinero necesarios para completar el proceso de entrenamiento. Adam y sus variantes eran el estado del arte durante mucho tiempo, mientras que los optimizadores de segundo orden (basados en Hessiano) rara vez se utilizaban debido a su mayor sobrecarga por paso.
Se propone una estimación ligera del Hessiano diagonal como precondicionador para el optimizador de segundo orden Sophia, Optimización Estocástica Recortada de Segundo Orden, propuesto por los investigadores. Sophia es un optimizador novedoso que puede resolver LLMs el doble de rápido que Adam. Se realiza un recorte elemento por elemento después de la actualización, que se encuentra tomando la media de los gradientes y dividiéndola por la media del Hessiano estimado. El recorte limita el tamaño de la actualización en el peor caso y mitiga el efecto de la no convexidad y los cambios rápidos del Hessiano en la trayectoria. Agregar algunas líneas de código nuevas podría reducir el presupuesto de $2M al rango de $1M (asumiendo que se aplican leyes de escala).
El costo promedio por paso y la sobrecarga de memoria son bajos porque Sophia solo estima el Hessiano diagonal cada pocas iteraciones. Sophia duplica la velocidad de Adam en términos del número de pasos, cómputo total y tiempo de reloj mientras modela el lenguaje con modelos GPT-2 que varían en tamaño desde 125 millones hasta 770 millones. Los investigadores demuestran que Sophia puede acomodar grandes variaciones de parámetros que subyacen a las tareas de modelado de lenguaje. El límite de tiempo de ejecución es independiente del número de condición de la pérdida.
Características clave
- Este artículo de IA muestra una vía para crear grandes cantidades d...
- El jefe de Confianza y Seguridad de OpenAI renuncia ¿Cuál es el imp...
- ¿Cómo obtener un plan de estudios personalizado para Ciencia de Datos?
- Sophia es fácil de implementar con PyTorch, ya que requiere una estimación ligera del Hessiano diagonal como precondición en el gradiente (ver pseudocódigo en la primera imagen) antes de recortar individualmente los elementos.
- Sophia también ayuda con la estabilidad previa al entrenamiento. Con menos frecuencia que en Adam y Lion, se induce el recorte de gradientes. El truco de reparametrización, donde la temperatura focalizada varía con el índice de la capa, no es necesario.
- Sophia garantiza una reducción de pérdida consistente en todas las dimensiones de los parámetros al penalizar las actualizaciones de manera más intensa en tamaños agudos (con Hessiano grande) que en dimensiones planas (con Hessiano pequeño). En un espacio bidimensional, Adam converge más lentamente.
Aspectos importantes de este proyecto
- Esto demuestra que incluso con recursos limitados, los académicos pueden examinar la preentrenamiento de LLM y desarrollar algoritmos novedosos y efectivos.
- Además de revisar material de cursos de optimización anteriores, los investigadores utilizaron extensivamente el razonamiento teórico durante todo el proceso de estudio.
En el código programado para su lanzamiento mañana, los investigadores utilizaron una versión ligeramente modificada de la definición comúnmente aceptada de LR. Si bien es más ordenado para escribir, la definición de LR del artículo podría ser mejor para el código de computadora.