El superchip NVIDIA Grace Hopper arrasa en las pruebas de inferencia de MLPerf

Superchip NVIDIA Grace Hopper triunfa en pruebas de inferencia de MLPerf

En su debut en los benchmarks de la industria MLPerf, el superchip NVIDIA GH200 Grace Hopper ejecutó todas las pruebas de inferencia en el centro de datos, ampliando el rendimiento líder de las GPUs NVIDIA H100 Tensor Core.

Los resultados generales mostraron el rendimiento excepcional y la versatilidad de la plataforma de IA de NVIDIA desde la nube hasta el borde de la red.

Por separado, NVIDIA anunció un software de inferencia que proporcionará a los usuarios mejoras en rendimiento, eficiencia energética y costo total de propiedad.

Los superchips GH200 brillan en MLPerf

El GH200 combina una GPU Hopper con una CPU Grace en un superchip. La combinación proporciona más memoria, ancho de banda y la capacidad de cambiar automáticamente la potencia entre la CPU y la GPU para optimizar el rendimiento.

Por separado, los sistemas NVIDIA HGX H100 que incluyen ocho GPUs H100 obtuvieron el mayor rendimiento en todas las pruebas de inferencia de MLPerf en esta ronda.

Los superchips Grace Hopper y las GPUs H100 lideraron en todas las pruebas de centro de datos de MLPerf, incluida la inferencia para visión por computadora, reconocimiento de voz e imágenes médicas, además de casos de uso más exigentes como sistemas de recomendación y modelos de lenguaje grandes (LLMs) utilizados en IA generativa.

En general, los resultados continúan la trayectoria de liderazgo en rendimiento de NVIDIA en entrenamiento e inferencia de IA en cada ronda desde el lanzamiento de los benchmarks de MLPerf en 2018.

La última ronda de MLPerf incluyó una prueba actualizada de sistemas de recomendación, así como la primera prueba de inferencia en GPT-J, un LLM con seis mil millones de parámetros, una medida aproximada del tamaño de un modelo de IA.

TensorRT-LLM potencia la inferencia

Para enfrentar cargas de trabajo complejas de todos los tamaños, NVIDIA desarrolló TensorRT-LLM, un software de IA generativa que optimiza la inferencia. La biblioteca de código abierto, que no estaba lista a tiempo para la presentación de agosto a MLPerf, permite a los clientes más que duplicar el rendimiento de inferencia de sus GPUs H100 ya adquiridas sin costo adicional.

Las pruebas internas de NVIDIA muestran que el uso de TensorRT-LLM en las GPUs H100 proporciona hasta 8 veces más rendimiento en comparación con las GPUs de generaciones anteriores ejecutando GPT-J 6B sin el software.

El software comenzó con el trabajo de NVIDIA en la aceleración y optimización de la inferencia en LLM con empresas líderes como Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (ahora parte de Databricks), OctoML, Tabnine y Together AI.

MosaicML agregó características que necesita sobre TensorRT-LLM e las integró en su pila de servicios existente. “Ha sido muy fácil”, dijo Naveen Rao, vicepresidente de ingeniería de Databricks.

“TensorRT-LLM es fácil de usar, está lleno de características y es eficiente”, dijo Rao. “Ofrece un rendimiento de última generación para el servicio de LLM utilizando GPUs de NVIDIA y nos permite ahorrar costos para nuestros clientes”.

TensorRT-LLM es el ejemplo más reciente de la innovación continua en la plataforma de IA de NVIDIA. Estos avances continuos en software brindan a los usuarios un rendimiento que aumenta con el tiempo sin costo adicional y es versátil en diversos cargas de trabajo de IA.

L4 impulsa la inferencia en servidores convencionales

En los últimos benchmarks de MLPerf, las GPUs L4 de NVIDIA ejecutaron una amplia gama de cargas de trabajo y ofrecieron un excelente rendimiento en general.

Por ejemplo, las GPUs L4 que se ejecutan en aceleradores compactos PCIe de 72 W ofrecieron hasta 6 veces más rendimiento que las CPUs con un consumo de energía casi 5 veces mayor.

Además, las GPUs L4 cuentan con motores multimedia dedicados que, en combinación con el software CUDA, brindan hasta 120 veces más aceleración para la visión por computadora en las pruebas de NVIDIA.

Las GPUs L4 están disponibles en Google Cloud y en muchos fabricantes de sistemas, atendiendo a clientes en industrias desde servicios de internet para consumidores hasta descubrimiento de medicamentos.

Mejoras de rendimiento en el borde

Por separado, NVIDIA aplicó una nueva tecnología de compresión de modelos para demostrar hasta un aumento de rendimiento de 4.7 veces al ejecutar el LLM BERT en una GPU L4. El resultado se obtuvo en la denominada “división abierta” de MLPerf, una categoría para mostrar nuevas capacidades.

Se espera que la técnica se utilice en todas las cargas de trabajo de IA. Puede ser especialmente valiosa al ejecutar modelos en dispositivos de borde limitados por tamaño y consumo de energía.

En otro ejemplo de liderazgo en la informática de borde, el módulo de sistema NVIDIA Jetson Orin mostró incrementos de rendimiento de hasta un 84% en comparación con la ronda anterior en la detección de objetos, un caso de uso de visión por computadora común en la IA de borde y escenarios de robótica.

El avance de Jetson Orin proviene del software que aprovecha la última versión de los núcleos del chip, como un acelerador de visión programable, una GPU de arquitectura NVIDIA Ampere y un acelerador dedicado de aprendizaje profundo.

Rendimiento versátil, ecosistema amplio

Las pruebas de referencia de MLPerf son transparentes y objetivas, por lo que los usuarios pueden confiar en sus resultados para tomar decisiones de compra informadas. También cubren una amplia gama de casos de uso y escenarios, por lo que los usuarios saben que pueden obtener un rendimiento confiable y flexible para implementar.

Los socios que participaron en esta ronda incluyeron proveedores de servicios en la nube como Microsoft Azure y Oracle Cloud Infrastructure, y fabricantes de sistemas como ASUS, Connect Tech, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo, QCT y Supermicro.

En general, MLPerf cuenta con el respaldo de más de 70 organizaciones, incluidas Alibaba, Arm, Cisco, Google, Universidad de Harvard, Intel, Meta, Microsoft y la Universidad de Toronto.

Lea un blog técnico para obtener más detalles sobre cómo NVIDIA logró los últimos resultados.

Todo el software utilizado en las pruebas de referencia de NVIDIA está disponible en el repositorio de MLPerf, para que todos puedan obtener los mismos resultados de clase mundial. Las optimizaciones se incorporan continuamente en contenedores disponibles en el centro de software NVIDIA NGC para aplicaciones de GPU.