Convertir Transformers a ONNX con Hugging Face Optimum
Convert Transformers to ONNX with Hugging Face Optimum.
Cientos de experimentos y modelos de Transformers se cargan en el Hugging Face Hub todos los días. Los ingenieros y estudiantes de aprendizaje automático que realizan estos experimentos utilizan una variedad de frameworks como PyTorch, TensorFlow/Keras, u otros. Estos modelos ya son utilizados por miles de empresas y forman la base de productos impulsados por IA.
Si despliegas modelos de Transformers en entornos de producción, recomendamos exportarlos primero a un formato serializado que pueda cargarse, optimizarse y ejecutarse en entornos y hardware especializados.
En esta guía, aprenderás sobre:
- ¿Qué es ONNX?
- ¿Qué es Hugging Face Optimum?
- ¿Qué arquitecturas de Transformers se admiten?
- ¿Cómo puedo convertir un modelo de Transformers (BERT) a ONNX?
- ¿Qué sigue?
¡Comencemos! 🚀
Si estás interesado en optimizar tus modelos para funcionar con la máxima eficiencia, echa un vistazo a la biblioteca 🤗 Optimum.
- ¡Despegue! Cómo comenzar con tu primer proyecto de ML 🚀
- Comenzando con el Análisis de Sentimientos en Twitter
- Presentando el modelo de lenguaje multilingüe abierto más grande de...
5. ¿Qué sigue?
Dado que has convertido con éxito tu modelo de Transformers a ONNX, ahora tienes acceso a todo el conjunto de herramientas de optimización y cuantización. Los posibles siguientes pasos pueden ser:
- Utilizar el modelo ONNX para Inferencia Acelerada con Optimum y Pipelines de Transformers
- Aplicar cuantización estática a tu modelo para mejorar la latencia en un ~3x
- Utilizar ONNX runtime para entrenamiento
- Convertir tu modelo ONNX a TensorRT para mejorar el rendimiento de la GPU
- …
Si estás interesado en optimizar tus modelos para funcionar con la máxima eficiencia, echa un vistazo a la biblioteca 🤗 Optimum.
¡Gracias por leer! Si tienes alguna pregunta, no dudes en contactarme a través de Github o en el foro. También puedes conectarte conmigo en Twitter o LinkedIn.