Desplegando modelos de lenguaje grandes con HuggingFace TGI
Desplegando modelos de lenguaje con HuggingFace TGI
Otra manera de alojar y escalar de manera eficiente tus LLMs con Amazon SageMaker
Los Modelos de Lenguaje Grandes (LLMs) continúan siendo cada vez más populares, ya que se lanza uno nuevo casi todas las semanas. Con el número de estos modelos en aumento, también aumentan las opciones de cómo podemos alojarlos. En mi artículo anterior, exploramos cómo podríamos utilizar DJL Serving dentro de Amazon SageMaker para alojar eficientemente LLMs. En este artículo, exploramos otro servidor de modelos optimizado y solución en HuggingFace Text Generation Inference (TGI).
NOTA: Para aquellos de ustedes que son nuevos en AWS, asegúrense de crear una cuenta en el siguiente enlace si desean seguir el proceso. El artículo también asume un conocimiento intermedio de la implementación de SageMaker, sugiero seguir este artículo para comprender mejor la implementación/inferencia.
DESCARGO DE RESPONSABILIDAD: Soy un Arquitecto de Aprendizaje Automático en AWS y mis opiniones son propias.
¿Por qué HuggingFace Text Generation Inference? ¿Cómo funciona con Amazon SageMaker?
TGI es un servidor de modelos en Rust, Python, gRPC creado por HuggingFace que se puede utilizar para alojar modelos de lenguaje grandes específicos. HuggingFace ha sido durante mucho tiempo el centro central de NLP y contiene un conjunto amplio de optimizaciones en lo que respecta a LLMs específicamente, vea a continuación algunas de ellas y la documentación para una lista completa.
- Paralelismo de tensores para alojamiento eficiente en múltiples GPUs
- Transmisión de tokens con SSE
- Cuantificación con bitsandbytes
- Envoltura de logits (diferentes parámetros como temperatura, top-k, top-n, etc)
Una gran ventaja de esta solución que he notado es la simplicidad de uso. TGI en este momento admite las siguientes arquitecturas de modelos optimizados que puedes implementar directamente utilizando los contenedores de TGI.
- Construyendo un Chatbot Conformal en Julia
- Langchain x OpenAI x Streamlit — Generador de canciones de rap🎙️
- Mejores herramientas de mejora y aumento de imágenes con IA (2023)
- BLOOM
- FLAN-T5
- Galactica
- GPT-Neox
- Llama
- OPT
- SantaCoder
- Starcoder
- Falcon 7B
- Falcon 40B