Cómo aproveché los LLM de código abierto para lograr ahorros masivos en un proyecto de computación grande

Aprovechando LLM de código abierto para ahorrar en proyecto de computación

Desbloqueando la Eficiencia de Costos en Proyectos de Cálculo Grande con LLMs de Código Abierto y Alquiler de GPU.

Foto de Alexander Grey en Unsplash

Introducción

En el mundo de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), el costo de la computación puede ser una barrera significativa, especialmente para proyectos extensos. Recientemente me embarqué en un proyecto que requería ejecutar 4,000,000 de promts con una longitud de entrada promedio de 1000 tokens y una longitud de salida promedio de 200 tokens. ¡Eso es casi 5 mil millones de tokens! El enfoque tradicional de pagar por token, como es común en modelos como GPT-3.5 y GPT-4, habría resultado en una factura considerable. Sin embargo, descubrí que al aprovechar LLMs de código abierto, podría cambiar el modelo de precios a pagar por hora de tiempo de cálculo, lo que conduce a ahorros sustanciales. Este artículo detallará los enfoques que tomé y los comparará y contrastará. Ten en cuenta que aunque comparto mi experiencia con los precios, estos están sujetos a cambios y pueden variar según tu región y circunstancias específicas. El punto clave aquí es el potencial de ahorro de costos al aprovechar LLMs de código abierto y alquilar una GPU por hora, en lugar de los precios específicos citados. Si planeas utilizar mis soluciones recomendadas para tu proyecto, he dejado un par de enlaces de afiliados al final de este artículo.

API de ChatGPT

Realicé una prueba inicial utilizando GPT-3.5 y GPT-4 en un pequeño subconjunto de mis datos de entrada de promts. Ambos modelos demostraron un rendimiento encomiable, pero GPT-4 superó consistentemente a GPT-3.5 en la mayoría de los casos. Para darte una idea del costo, ejecutar los 4 millones de promts utilizando la API de Open AI se vería algo así:

Costo total de ejecutar 4mm de promts con una longitud de entrada de 1000 tokens y una longitud de salida de 200 tokens

Aunque GPT-4 ofrecía algunos beneficios de rendimiento, el costo era desproporcionadamente alto en comparación con el rendimiento incremental que agregaba a mis resultados. Por otro lado, GPT-3.5 Turbo, aunque más asequible, quedaba corto en términos de rendimiento, cometiendo errores perceptibles en el 2-3% de mis entradas de promts. Dados estos factores, no estaba dispuesto a invertir $7,600 en un proyecto que…