¿Cómo funcionan 8 modelos más pequeños en GPT4?

¿Cómo funcionan los 8 modelos más pequeños en GPT4?

¡El secreto del “Modelo de Expertos” está revelado; vamos a entender por qué GPT4 es tan bueno!

En los últimos años, los modelos de aprendizaje profundo han sido el tema de moda. Cada empresa está desarrollándolos. ¡Y con eso llegó la carrera por el modelo más grande y malo! Todos hemos visto gráficos que muestran los tamaños de los modelos como estos —

Fuente: Ref

Comparamos a los Chinchillas, GPT-3, PaLM y muchos más. Durante todo este tiempo, Microsoft y OpenAI trabajaron en el GPT-4. Crearon todo el suspenso alrededor del desarrollo del GPT-4. Todos especulaban que el GPT-4 sería el primer modelo de parámetros trillones. Aunque la capacidad de mejorar el rendimiento del modelo GPT-3 era bastante baja, esperábamos mucho del GPT-4. Y luego las noticias/rumores se hicieron realidad. Que el GPT-4 no es realmente un solo modelo, sino que son 8 modelos más pequeños de 220 mil millones de parámetros, que trabajan juntos para producir un modelo gigantesco de 1.6 a 1.7 billones de parámetros.

GPT-4: 8 Modelos en Uno; El Secreto está Revelado

GPT4 mantuvo el modelo en secreto para evitar competencia, ¡ahora el secreto está revelado!

pub.towardsai.net

¿Cómo funcionan 8 modelos trabajando juntos?

Para responder a esta pregunta, debemos retroceder en el pasado. Hace 33 años, en 1991, Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan y el Padrino de la IA, Geoffrey Hinton, escribieron un artículo titulado “Mezclas Adaptativas de Expertos Locales”.

Escribieron:

“Presentamos un nuevo procedimiento de aprendizaje supervisado para un sistema compuesto por muchas redes separadas, cada una de las cuales aprende a manejar un subconjunto del conjunto completo de casos de entrenamiento. El nuevo procedimiento se puede ver tanto como una versión modular de una red supervisada multicapa como una versión asociativa de aprendizaje competitivo. Por lo tanto, proporciona un nuevo vínculo entre estos dos enfoques aparentemente diferentes. Demostramos que el procedimiento de aprendizaje divide una tarea de discriminación de vocales en sub tareas apropiadas, cada una de las cuales puede resolverse mediante una red experta muy simple”.

¿Qué significa eso? Vamos a verlo —