Este artículo de IA propone Soft MoE un Transformador Espacial Totalmente Diferenciable y Escaso que aborda estos desafíos mientras mantiene los beneficios de los MoEs.

Este artículo propone Soft MoE, un Transformador Espacial Diferenciable y Escaso que aborda los desafíos y mantiene los beneficios de los MoEs.

Se requiere un mayor costo computacional para que los Transformadores más grandes funcionen bien. Investigaciones recientes sugieren que el tamaño del modelo y los datos de entrenamiento deben escalarse simultáneamente para utilizar de manera óptima cualquier recurso de cómputo de entrenamiento. Las mezclas dispersas de expertos son una posible alternativa que permite la escalabilidad del modelo sin incurrir en su costo computacional completo. Los modelos de lenguaje, visión y multimodales han desarrollado recientemente métodos para activar de manera dispersa las vías de tokens en toda la red. La elección de qué módulos aplicar a cada token de entrada es el desafío de optimización discreta en el corazón de los Transformadores MoE dispersos.

Estos módulos suelen ser MLP y se conocen como expertos. Los programas lineales, el aprendizaje por refuerzo, las reglas fijas determinísticas, el transporte óptimo, los mejores k expertos por token y los mejores k tokens por experto son solo algunos de los métodos utilizados para identificar las combinaciones adecuadas de tokens y expertos. A menudo se necesitan pérdidas auxiliares heurísticas para equilibrar la utilización de los expertos y reducir los tokens no asignados. Tamaños de lote de inferencia pequeños, entradas únicas o aprendizaje de transferencia pueden empeorar estos problemas en entornos fuera de la distribución. Investigadores de Google DeepMind proporcionan una estrategia novedosa llamada Soft MoE que aborda varios de estos problemas.

Los Soft MoE llevan a cabo una asignación suave combinando tokens en lugar de utilizar un enrutador disperso y discreto que busca una buena asignación entre tokens y expertos. Construyen específicamente varios promedios ponderados de todos los tokens, cuyos pesos dependen tanto de los tokens como de los expertos, y luego procesan cada promedio ponderado a través del experto relevante. La mayoría de los problemas mencionados anteriormente, causados por el proceso discreto en el centro de los MoE dispersos, están ausentes en los modelos Soft MoE. Las pérdidas auxiliares que imponen algún comportamiento deseable y dependen de las puntuaciones de enrutamiento son una fuente común de gradientes para los métodos populares de MoE dispersos, que aprenden los parámetros del enrutador mediante la post-multiplicación de las salidas del experto con las puntuaciones de enrutamiento elegidas.

Estos algoritmos a menudo tienen un rendimiento similar a la asignación fija aleatoria, según las observaciones. Soft MoE evita este problema actualizando inmediatamente cada parámetro de enrutamiento en función de cada token de entrada. Observaron que grandes porcentajes de tokens de entrada podrían alterar simultáneamente las rutas discretas a través de la red, creando problemas de entrenamiento durante el entrenamiento. El enrutamiento suave puede proporcionar estabilidad al entrenar un enrutador. El enrutamiento duro también puede ser difícil con numerosos especialistas, ya que la mayoría de los trabajos solo se preparan con un número pequeño. Demuestran que Soft MoE es escalable a miles de expertos y está construido para ser equilibrado.

Por último, pero no menos importante, no hay efectos de lote durante la inferencia, donde una sola entrada puede influir en el enrutamiento y la predicción de múltiples entradas. Si bien tarda aproximadamente la mitad de tiempo en entrenar, Soft MoE L/16 supera a ViT H/14 en medidas anteriores, de pocos disparos y de ajuste fino, y es más rápido en la inferencia. Además, después de una cantidad comparable de entrenamiento, Soft MoE B/16 supera a ViT H/14 en medidas anteriores y coincide con ViT H/14 en pocos disparos y ajuste fino. Aunque Soft MoE B/16 tiene 5.5 veces más parámetros que ViT H/14, realiza la inferencia 5.7 veces más rápido.