Una visión general de las soluciones de inferencia en Hugging Face

Visión general de las soluciones de inferencia en Hugging Face.

Todos los días, los desarrolladores y las organizaciones adoptan modelos alojados en Hugging Face para convertir ideas en demos de prueba de concepto y demos en aplicaciones de producción. Por ejemplo, los modelos de Transformer se han convertido en una arquitectura popular para una amplia gama de aplicaciones de aprendizaje automático (ML), incluyendo el procesamiento del lenguaje natural, la visión por computadora, el habla y más. Recientemente, los difusores se han convertido en una arquitectura popular para la generación de texto a imagen o imagen a imagen. ¡Otras arquitecturas son populares para otras tareas, y las alojamos todas en el HF Hub!

En Hugging Face, estamos obsesionados con simplificar el desarrollo y las operaciones de ML sin comprometer la calidad de vanguardia. En este sentido, la capacidad de probar e implementar los últimos modelos con fricción mínima es fundamental, a lo largo de todo el ciclo de vida de un proyecto de ML. Optimizar la relación costo-rendimiento también es importante, y nos gustaría agradecer a nuestros amigos de Intel por patrocinar nuestras soluciones gratuitas de inferencia basadas en CPU. Este es otro paso importante en nuestra colaboración. También es una gran noticia para nuestra comunidad de usuarios, que ahora pueden disfrutar de la aceleración proporcionada por la arquitectura Intel Xeon Ice Lake sin costo alguno.

Ahora, repasemos tus opciones de inferencia con Hugging Face.

Widget de Inferencia Gratuito

Una de mis características favoritas en el hub de Hugging Face es el Widget de Inferencia. Situado en la página del modelo, el Widget de Inferencia te permite cargar datos de muestra y predecirlos con un solo clic.

Aquí tienes un ejemplo de similitud de oraciones con el modelo sentence-transformers/all-MiniLM-L6-v2:

Es la mejor manera de obtener rápidamente una idea de lo que hace un modelo, su salida y cómo se desempeña en algunas muestras de tu conjunto de datos. El modelo se carga bajo demanda en nuestros servidores y se descarga cuando ya no es necesario. No tienes que escribir ningún código y la función es gratuita. ¿Qué más se puede pedir?

API de Inferencia Gratuita

La API de Inferencia es lo que impulsa el Widget de Inferencia en segundo plano. Con una simple solicitud HTTP, puedes cargar cualquier modelo del hub y predecir tus datos en cuestión de segundos. La URL del modelo y un token válido del hub son todo lo que necesitas.

Así es como puedo cargar y predecir con el modelo xlm-roberta-base en una sola línea:

curl https://api-inference.huggingface.co/models/xlm-roberta-base \
    -X POST \
    -d '{"inputs": "La respuesta al universo es <mask>."}' \
    -H "Authorization: Bearer HF_TOKEN"

La API de Inferencia es la forma más sencilla de crear un servicio de predicción al que puedes llamar inmediatamente desde tu aplicación durante el desarrollo y las pruebas. No necesitas una API personalizada ni un servidor de modelos. Además, puedes cambiar instantáneamente de un modelo a otro y comparar su rendimiento en tu aplicación. ¿Y sabes qué? La API de Inferencia es gratuita.

Como se aplica un límite de velocidad, no recomendamos utilizar la API de Inferencia en producción. En su lugar, deberías considerar los Puntos Finales de Inferencia.

Producción con Puntos Finales de Inferencia

Una vez que estés satisfecho con el rendimiento de tu modelo de ML, es hora de implementarlo para producción. Desafortunadamente, al salir del entorno controlado, todo se convierte en una preocupación: seguridad, escalabilidad, monitorización, etc. Aquí es donde muchos proyectos de ML se tropiezan y, a veces, fracasan. Construimos los Puntos Finales de Inferencia para resolver este problema.

En solo unos clics, los Puntos Finales de Inferencia te permiten implementar cualquier modelo del hub en una infraestructura segura y escalable, alojada en la región de AWS o Azure que elijas. Las configuraciones adicionales incluyen alojamiento en CPU y GPU, escalado automático incorporado y más. Esto facilita encontrar la relación costo/rendimiento adecuada, con precios a partir de tan solo $0.06 por hora.

Los Puntos Finales de Inferencia admiten tres niveles de seguridad:

  • Público: el punto final se ejecuta en una subred pública de Hugging Face y cualquier persona en Internet puede acceder a él sin autenticación.

  • Protegido: el punto final se ejecuta en una subred pública de Hugging Face y cualquier persona en Internet con el token adecuado de Hugging Face puede acceder a él.

  • Privado: el punto final se ejecuta en una subred privada de Hugging Face y no es accesible en Internet. Solo está disponible a través de una conexión privada en tu cuenta de AWS o Azure. Esto cumple con los requisitos de cumplimiento más estrictos.

Para obtener más información sobre los puntos finales de inferencia, por favor lee este tutorial y la documentación.

Espacios

Finalmente, Spaces es otra opción lista para producción para implementar tu modelo para inferencia sobre un marco de trabajo de interfaz de usuario simple (como Gradio), y también admitimos mejoras de hardware como CPUs Intel avanzadas y GPUs NVIDIA. ¡No hay mejor manera de demostrar tus modelos!

Para obtener más información sobre Spaces, por favor echa un vistazo a la documentación y no dudes en buscar publicaciones o hacer preguntas en nuestro foro.

Empezando

No podría ser más sencillo. Solo inicia sesión en el hub de Hugging Face y navega por nuestros modelos. Una vez que hayas encontrado uno que te guste, puedes probar el Widget de Inferencia directamente en la página. Al hacer clic en el botón “Implementar”, obtendrás código generado automáticamente para implementar el modelo en la API de Inferencia gratuita para evaluación, y un enlace directo para implementarlo en producción con puntos finales de inferencia o Spaces.

Por favor, pruébalo y déjanos saber qué piensas. Nos encantaría leer tus comentarios en el foro de Hugging Face.

¡Gracias por leer!