Aprendizaje automático con modelos expertos Una introducción
Aprendizaje automático con modelos expertos
Cómo una idea de hace décadas permite entrenar redes neuronales extremadamente grandes hoy en día

Los modelos expertos son una de las invenciones más útiles en Aprendizaje Automático (Machine Learning), sin embargo, apenas reciben la atención que merecen. De hecho, el modelado experto no solo nos permite entrenar redes neuronales “extremadamente grandes” (más sobre eso más adelante), sino que también nos permite construir modelos que aprenden de manera más similar al cerebro humano, es decir, diferentes regiones se especializan en diferentes tipos de entrada.
En este artículo, haremos un recorrido por las principales innovaciones en el modelado experto que finalmente llevaron a avances recientes como el Switch Transformer y el algoritmo de Enrutamiento de Elección del Experto. Pero primero volvamos al artículo que lo inició todo: “Mezclas de Expertos”.
Mezclas de Expertos (1991)

La idea de las mezclas de expertos (MoE) se remonta a más de 3 décadas, a un artículo de 1991 coescrito por nada menos que el padrino de la IA, Geoffrey Hinton. La idea clave en MoE es modelar una salida “y” combinando varios “expertos” E, cuyo peso es controlado por una “red de enrutamiento” G:
Un experto en este contexto puede ser cualquier tipo de modelo, pero generalmente se elige que sea una red neuronal multicapa, y la red de enrutamiento es
donde W es una matriz aprendible que asigna ejemplos de entrenamiento a expertos. Al entrenar modelos MoE, el objetivo de aprendizaje es, por lo tanto, doble:
- Balanceo de carga efectivo con Ray en Amazon SageMaker
- ¿Qué es Langchain y los modelos de lenguaje grandes?
- Conversa con tus requisitos Mi viaje aplicando IA generativa (LLM) ...
- los expertos aprenderán a procesar la salida que se les proporciona para obtener la mejor salida posible (es decir, una predicción), y
- la red de enrutamiento aprenderá a “dirigir” los ejemplos de entrenamiento correctos a los expertos correctos, aprendiendo conjuntamente la matriz de enrutamiento W.
¿Por qué deberíamos hacer esto? ¿Y por qué funciona? A grandes rasgos, hay tres motivaciones principales para usar este enfoque:
Primero, MoE permite escalar redes neuronales a tamaños muy grandes debido a la dispersión del modelo resultante, es decir, aunque el modelo general sea grande, solo una pequeña parte…