Conoce TensorRT-LLM una biblioteca de código abierto que acelera y optimiza el rendimiento de inferencia en las últimas LLMs en las GPUs NVIDIA Tensor Core.
TensorRT-LLM es una biblioteca de código abierto que optimiza la inferencia en LLMs en GPUs NVIDIA Tensor Core.
Los modelos de lenguaje grandes de inteligencia artificial (IA) pueden generar texto, traducir idiomas, escribir diversos tipos de material creativo y proporcionar respuestas útiles a tus preguntas. Sin embargo, estos modelos tienen algunos problemas, como el hecho de que están entrenados en grandes conjuntos de datos de texto y código que pueden contener sesgos. Los resultados producidos por estos modelos pueden reflejar estos prejuicios, reforzando estereotipos negativos y difundiendo información falsa. A veces, estos modelos producirán escritos que no tienen base en la realidad. Estas experiencias se conocen como alucinaciones. La interpretación errónea y las inferencias erróneas pueden resultar de leer textos alucinatorios. Comprender cómo funcionan estos modelos por dentro requiere trabajo. Debido a esto, es difícil entender el razonamiento detrás de las acciones de los modelos. Esto puede causar problemas en contextos donde la transparencia y la responsabilidad son cruciales, como los sectores médicos y financieros. El entrenamiento y la implementación de estos modelos requieren una gran cantidad de potencia informática. Pueden volverse inaccesibles para muchas empresas y organizaciones sin fines de lucro más pequeñas. El spam, los correos electrónicos de phishing y las noticias falsas son ejemplos de información incorrecta que se puede generar utilizando estos modelos. Los usuarios y las empresas pueden estar en peligro debido a esto.
Investigadores de NVIDIA han colaborado con líderes de la industria como Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (ahora parte de Databricks), OctoML, Tabnine y Together AI para acelerar y perfeccionar la inferencia de estos modelos de lenguaje grandes. Estas mejoras se incluirán en la próxima versión de software de código abierto NVIDIA TensorRT-LLM. TensorRT-LLM es un compilador de aprendizaje profundo que utiliza las GPU de NVIDIA para proporcionar un rendimiento de vanguardia gracias a sus núcleos optimizados, fases de pre y post-procesamiento y primitivas de comunicación de múltiples GPU/multi-nodo. Los desarrolladores pueden experimentar con nuevos modelos de lenguaje grandes sin necesidad de tener un conocimiento profundo de C++ o NVIDIA CUDA, lo que proporciona un rendimiento de primera categoría y opciones de personalización rápidas. Con su API de Python modular de código abierto, TensorRT-LLM facilita la definición, optimización y ejecución de nuevas arquitecturas y mejoras a medida que se desarrollan estos modelos de lenguaje grandes.
Aprovechando las últimas GPU de centros de datos de NVIDIA, TensorRT-LLM espera aumentar considerablemente el rendimiento de estos modelos de lenguaje grandes al tiempo que reduce los gastos. Para crear, optimizar y ejecutar estos modelos para la inferencia en producción, proporciona una API de Python de código abierto sencilla que encapsula el compilador de aprendizaje profundo TensorRT, los núcleos optimizados de FasterTransformer, el pre y post-procesamiento y la comunicación multi-GPU/multi-nodo.
TensorRT-LLM permite una mayor variedad de aplicaciones de modelos de lenguaje grandes. Ahora que tenemos modelos de 70 mil millones de parámetros como Llama 2 de Meta y Falcon 180B, un enfoque estándar ya no es práctico. El rendimiento en tiempo real de estos modelos generalmente depende de configuraciones de múltiples GPU y coordinación compleja. Al proporcionar paralelismo de tensor que distribuye matrices de peso entre dispositivos, TensorRT-LLM simplifica este proceso y elimina la necesidad de fragmentación y reorganización manual por parte de los desarrolladores.
- Investigadores de Microsoft presentan InstructDiffusion un marco de...
- A. Michael West Avanzando las interacciones humano-robot en el cuid...
- Ayudando a los modelos de visión por computadora y lenguaje a enten...
La optimización de agrupación en vuelo es otra característica notable diseñada para gestionar eficazmente las cargas de trabajo extremadamente fluctuantes típicas de las aplicaciones de modelos de lenguaje grandes. Esta función permite una ejecución paralela dinámica, que maximiza el uso de la GPU para tareas como interacciones de preguntas y respuestas en chatbots y resumen de documentos. Dado el tamaño y alcance cada vez mayores de las implementaciones de IA, las empresas pueden anticipar una reducción en el costo total de propiedad (TCO).
Los resultados en términos de rendimiento son asombrosos. El rendimiento en las pruebas muestra un aumento de 8 veces en tareas como la resumen de artículos al utilizar TensorRT-LLM con las GPU NVIDIA H100 en comparación con la A100.
TensorRT-LLM puede aumentar el rendimiento de inferencia en 4.6 veces en comparación con las GPUs A100 en Llama 2, un modelo de lenguaje ampliamente utilizado lanzado recientemente por Meta y utilizado por muchas empresas que desean implementar IA generativa.
En resumen, los LLM (modelos de lenguaje largo) se están desarrollando rápidamente. Cada día se añade una nueva adición al ecosistema en constante expansión de diseños de modelos. Como resultado, los modelos más grandes abren nuevas posibilidades y casos de uso, aumentando su adopción en todos los sectores. El centro de datos está evolucionando debido a la inferencia de LLM. El TCO se mejora para las empresas debido al mayor rendimiento con mayor precisión. Mejores experiencias para los clientes, posibles gracias a cambios en el modelo, conducen a un aumento en las ventas y ganancias. Hay numerosos factores adicionales a considerar al planificar iniciativas de implementación de inferencia para aprovechar al máximo los LLM de última generación. Rara vez la optimización ocurre por sí sola. Los usuarios deben pensar en el paralelismo, en las canalizaciones de extremo a extremo y en los métodos sofisticados de programación mientras realizan el ajuste fino. Necesitan un sistema informático que pueda manejar datos de diferentes grados de precisión sin sacrificar la exactitud. TensorRT-LLM es una API de Python sencilla y de código abierto para crear, optimizar y ejecutar LLMs en producción. Cuenta con el Compilador de Aprendizaje Profundo de TensorRT, núcleos optimizados, pre y post-procesamiento, y comunicación multi-GPU/multi-nodo.