Convertir Transformers a ONNX con Hugging Face Optimum

Convert Transformers to ONNX with Hugging Face Optimum.

Cientos de experimentos y modelos de Transformers se cargan en el Hugging Face Hub todos los días. Los ingenieros y estudiantes de aprendizaje automático que realizan estos experimentos utilizan una variedad de frameworks como PyTorch, TensorFlow/Keras, u otros. Estos modelos ya son utilizados por miles de empresas y forman la base de productos impulsados por IA.

Si despliegas modelos de Transformers en entornos de producción, recomendamos exportarlos primero a un formato serializado que pueda cargarse, optimizarse y ejecutarse en entornos y hardware especializados.

En esta guía, aprenderás sobre:

  1. ¿Qué es ONNX?
  2. ¿Qué es Hugging Face Optimum?
  3. ¿Qué arquitecturas de Transformers se admiten?
  4. ¿Cómo puedo convertir un modelo de Transformers (BERT) a ONNX?
  5. ¿Qué sigue?

¡Comencemos! 🚀


Si estás interesado en optimizar tus modelos para funcionar con la máxima eficiencia, echa un vistazo a la biblioteca 🤗 Optimum.

5. ¿Qué sigue?

Dado que has convertido con éxito tu modelo de Transformers a ONNX, ahora tienes acceso a todo el conjunto de herramientas de optimización y cuantización. Los posibles siguientes pasos pueden ser:

  • Utilizar el modelo ONNX para Inferencia Acelerada con Optimum y Pipelines de Transformers
  • Aplicar cuantización estática a tu modelo para mejorar la latencia en un ~3x
  • Utilizar ONNX runtime para entrenamiento
  • Convertir tu modelo ONNX a TensorRT para mejorar el rendimiento de la GPU

Si estás interesado en optimizar tus modelos para funcionar con la máxima eficiencia, echa un vistazo a la biblioteca 🤗 Optimum.


¡Gracias por leer! Si tienes alguna pregunta, no dudes en contactarme a través de Github o en el foro. También puedes conectarte conmigo en Twitter o LinkedIn.