Stability AI presenta Stable Audio un nuevo modelo de inteligencia artificial que puede generar clips de audio a partir de indicaciones de texto.

Stability AI presenta Stable Audio, un modelo de IA que genera clips de audio a partir de texto.

Stability AI ha presentado una tecnología revolucionaria, Stable Audio, marcando un gran paso adelante en la generación de audio. Esta solución innovadora aborda el desafío de crear clips de audio personalizados a partir de simples indicaciones de texto. Mientras que Stability AI se hizo famoso por su tecnología de generación de texto a imagen, Stable Diffusion, ahora ha extendido su experiencia a la música y el audio. Este desarrollo se produce después de su exitosa incursión en la composición de imágenes al introducir el modelo base SDXL para Stable Diffusion.

Hasta ahora, generar pistas de audio base ha sido posible a través de técnicas de “generación simbólica”, que a menudo involucran archivos MIDI. Sin embargo, Stable Audio trasciende esto al permitir a los usuarios crear composiciones musicales completamente nuevas, liberándose de las limitaciones de notas repetitivas comúnmente asociadas con MIDI y la generación simbólica. Este logro se atribuye a la interacción directa del modelo con muestras de audio sin procesar, lo que resulta en una calidad de salida superior. El entrenamiento del modelo, que abarca más de 800,000 piezas de música con licencia de la biblioteca AudioSparks, contribuye a su rendimiento robusto. Este rico conjunto de datos garantiza un audio de alta calidad y proporciona metadatos completos, un factor crítico en los modelos basados en texto.

A diferencia de los modelos de generación de imágenes que pueden emular el estilo de artistas específicos, Stable Audio no intenta imitar a bandas icónicas como The Beatles. Esta elección deliberada surge del entendimiento de que los músicos buscan embarcarse en su viaje creativo sin restricciones estilísticas rígidas. En cambio, Stable Audio capacita a los usuarios para explorar sus expresiones musicales únicas.

El modelo Stable Audio, un modelo de difusión con aproximadamente 1.2 mil millones de parámetros, rivaliza con el modelo original Stable Diffusion para la generación de imágenes. Las indicaciones de texto, fundamentales para generar audio, fueron desarrolladas y entrenadas meticulosamente por Stability AI utilizando la técnica de preentrenamiento del lenguaje de audio contrastivo (CLAP). Para ayudar a los usuarios a crear indicaciones efectivas, Stability AI lanzará una guía de indicaciones simultáneamente con el lanzamiento de Stable Audio.

Stable Audio estará disponible en una versión gratuita y un plan Pro con un precio de $12 mensuales. La versión gratuita permite hasta 20 generaciones mensuales, cada una produciendo pistas de hasta 20 segundos. En contraste, la versión Pro eleva estos límites, permitiendo 500 generaciones y extendiendo la duración de la pista a 90 segundos.

En conclusión, el lanzamiento de Stable Audio por parte de Stability AI marca una nueva era en la tecnología de generación de audio. La compañía ha proporcionado una plataforma perfecta para transformar indicaciones de texto en clips de audio originales mediante el aprovechamiento de técnicas de IA avanzadas. Esta innovación amplía los horizontes de la expresión creativa y demuestra el potencial de las soluciones de producción musical y de audio impulsadas por IA. Con sus niveles de precios accesibles, Stable Audio está listo para convertirse en una herramienta valiosa para creadores de audio aspirantes y profesionales.