Conoce a JEN-1 Un Marco de Inteligencia Artificial Universal que Combina Modos Bi-Direccionales y Uni-Direccionales para Generar Música de Alta Calidad Condicionada tanto por Texto como por Representaciones Musicales.

JEN-1 es un marco de IA universal que combina modos bi-direccionales y uni-direccionales para generar música de alta calidad basada en texto y representaciones musicales.

La música, a menudo aclamada como el lenguaje universal de la humanidad por Henry Wadsworth Longfellow, lleva en sí misma la esencia de la armonía, la melodía y el ritmo, tejiendo una tela de significado cultural que resuena profundamente en las personas de todo el mundo. Los avances recientes en modelos generativos profundos han impulsado el progreso en la generación de música. Sin embargo, el desafío de generar música de alta calidad y realista que capture su complejidad y matices, especialmente cuando se condiciona a descripciones textuales, sigue siendo formidable.

Los métodos existentes para generar música han avanzado significativamente, pero todavía es necesario mejorar el desarrollo de música intrincada y realista que se ajuste a las indicaciones textuales de forma libre. La naturaleza multifacética de la música, que abarca diversos instrumentos y armonías, requiere abordar desafíos específicos:

  1. La música abarca un amplio espectro de frecuencias, lo que requiere altas tasas de muestreo como 44.1KHz estéreo para capturar detalles intrincados. Esto contrasta con el habla, que opera a tasas de muestreo más bajas.
  2. La interacción intrincada de los instrumentos y la disposición de las melodías y armonías resultan en estructuras musicales complicadas y complejas. La precisión es crucial, ya que la música es altamente sensible a la disonancia.
  3. Mantener el control sobre atributos como la tonalidad, el género y la melodía es fundamental para realizar la visión artística deseada.

Para abordar estos desafíos de la generación de música a partir de texto, el equipo de investigación de Futureverse diseñó JEN-1. JEN-1 aprovecha un modelo de difusión omnidireccional único que combina los paradigmas autoregresivo (AR) y no autoregresivo (NAR), lo que le permite capturar dependencias secuenciales mientras acelera la generación. A diferencia de los métodos anteriores que a menudo convierten los datos de audio en melodías espectrográficas, JEN-1 modela directamente las formas de onda de audio en bruto, manteniendo una mayor fidelidad y calidad. Esto es posible a través de un autoencoder enmascarado robusto al ruido que comprime el audio original en representaciones latentes, preservando detalles de alta frecuencia. Los investigadores introducen un paso de normalización que reduce la anisotropía en las incrustaciones latentes para mejorar aún más el rendimiento del modelo.

La arquitectura principal de JEN-1 es un modelo de difusión omnidireccional de 1D que combina modos bidireccionales y unidireccionales. El modelo utiliza un U-Net eficiente de 1D temporal inspirado en la arquitectura Efficient U-Net. Esta arquitectura está diseñada para modelar de manera efectiva las formas de onda e incluye capas convolucionales y de autoatención para capturar dependencias secuenciales e información contextual. El modo unidireccional, crucial para la generación de música debido a su naturaleza de series temporales, se incorpora mediante relleno causal y autoatención enmascarada, asegurando que las incrustaciones latentes generadas a la derecha dependan de sus contrapartes izquierdas.

Una de las fortalezas únicas de JEN-1 radica en su enfoque de entrenamiento unificado de múltiples tareas musicales. Admite tres tareas principales de generación de música:

  • Generación de música guiada por texto bidireccional
  • Inpainting de música bidireccional (restauración de segmentos faltantes)
  • Continuación de música unidireccional (extrapolación)

A través del entrenamiento de múltiples tareas, JEN-1 comparte parámetros entre tareas, lo que le permite generalizar mejor y manejar dependencias secuenciales de manera más efectiva. Esta flexibilidad hace de JEN-1 una herramienta versátil que se puede aplicar a diversos escenarios de generación de música.

La configuración del experimento implica entrenar JEN-1 con 5,000 horas de datos de música de alta calidad. El modelo utiliza un autoencoder de música enmascarado y FLAN-T5 para las incrustaciones de texto. Durante el entrenamiento, se equilibran los objetivos de múltiples tareas y se emplea una guía libre de clasificadores. JEN-1 se entrena durante 200k pasos utilizando el optimizador AdamW en 8 GPU A100.

El rendimiento de JEN-1 se compara con varios métodos de vanguardia utilizando métricas objetivas y subjetivas. Supera a otros métodos en términos de plausibilidad (FAD), alineación de audio-texto (CLAP) y calidad de texto a música evaluada por humanos (T2M-QLT), y alineación (T2M-ALI). A pesar de su eficiencia computacional, JEN-1 supera a modelos competidores en la síntesis de texto a música.

Los estudios de ablación demuestran la efectividad de los diferentes componentes en JEN-1. La incorporación del modo auto-regresivo y el uso de objetivos de múltiples tareas mejoran la calidad musical y la generalización. El método propuesto logra de manera consistente la generación de música de alta fidelidad sin aumentar la complejidad del entrenamiento.

En general, JEN-1 presenta una solución potente para la generación de texto a música, avanzando significativamente en el campo. Genera música de alta calidad modelando directamente las formas de onda y combinando entrenamiento auto-regresivo y no auto-regresivo. Los modelos de difusión integrados y los codificadores automáticos enmascarados mejoran la modelización de secuencias. JEN-1 demuestra superioridad en calidad subjetiva, diversidad y controlabilidad en comparación con baselines sólidos, resaltando su efectividad para la síntesis musical.