Aprendizaje profundo eficiente liberando el poder de la compresión del modelo
Compresión del modelo para un aprendizaje profundo eficiente

Acelerar la velocidad de inferencia del modelo en producción
Introducción
Cuando un modelo de Aprendizaje Automático se despliega en producción, a menudo hay requisitos que deben cumplirse y que no se tienen en cuenta en la fase de prototipado del modelo. Por ejemplo, el modelo en producción tendrá que manejar muchas solicitudes de diferentes usuarios que ejecutan el producto. Por lo tanto, querrás optimizar la latencia y/o el rendimiento.
- Latencia: es el tiempo que tarda en completarse una tarea, como el tiempo que tarda en cargar una página web después de hacer clic en un enlace. Es el tiempo de espera entre comenzar algo y ver el resultado.
- Rendimiento: es la cantidad de solicitudes que un sistema puede manejar en un determinado tiempo.
Esto significa que el modelo de Aprendizaje Automático debe ser muy rápido para realizar sus predicciones, y para esto hay varias técnicas que sirven para aumentar la velocidad de inferencia del modelo. Veamos las más importantes en este artículo.
Compresión del modelo
Existen técnicas que buscan hacer que los modelos sean más pequeños, por eso se llaman técnicas de compresión del modelo, mientras que otras se centran en hacer que los modelos sean más rápidos en la inferencia y, por lo tanto, se incluyen en el campo de la optimización del modelo. Pero a menudo, hacer que los modelos sean más pequeños también ayuda con la velocidad de inferencia, por lo que hay una línea muy difusa que separa estos dos campos de estudio.
Factorización de baja rango
Este es el primer método que veremos, y se está estudiando mucho, de hecho, han salido muchos artículos recientemente al respecto.
La idea básica es reemplazar las matrices de una red neuronal (las matrices que representan las capas de la red) por matrices de menor dimensionalidad, aunque sería más correcto hablar de tensores, porque a menudo podemos tener matrices de más de 2 dimensiones. De esta manera, tendremos menos parámetros de red y una inferencia más rápida.
- Herramientas principales de videoconferencia 2023
- El panorama actual del liderazgo en datos y tecnología ¿reemplazará...
- Este artículo de IA presenta el Puntaje de Razonamiento Impactado p...
Un caso trivial es en una red CNN, donde se reemplazan las convoluciones de 3×3 por convoluciones de 1×1. Técnicas como estas son utilizadas por redes como SqueezeNet.