Conoce a MeLoDy un modelo de difusión de texto a audio eficiente para la síntesis de música.
Meet MeLoDy, an efficient text-to-audio dissemination model for music synthesis.
La música es un arte compuesto por armonía, melodía y ritmo que impregna todos los aspectos de la vida humana. Con el florecimiento de los modelos generativos profundos, la generación de música ha atraído mucha atención en los últimos años. Como clase prominente de modelos generativos, los modelos de lenguaje (LMs) mostraron una capacidad de modelado extraordinaria en la modelización de relaciones complejas en contextos a largo plazo. A la luz de esto, AudioLM y muchos trabajos posteriores aplicaron con éxito los LMs a la síntesis de audio. En paralelo con los enfoques basados en LM, los modelos probabilísticos de difusión (DPMs), como otra clase competitiva de modelos generativos, también han demostrado habilidades excepcionales en la síntesis de habla, sonidos y música.
Sin embargo, generar música a partir de texto libre sigue siendo un desafío, ya que las descripciones de música permitidas pueden ser diversas y relacionarse con géneros, instrumentos, tempo, escenarios o incluso algunos sentimientos subjetivos. Los modelos de generación de texto a música tradicionales a menudo se centran en propiedades específicas como la continuación de audio o el muestreo rápido, mientras que algunos modelos priorizan las pruebas robustas, que ocasionalmente son realizadas por expertos en el campo, como los productores de música. Además, la mayoría se entrena en conjuntos de datos de música a gran escala y demuestra un rendimiento generativo de vanguardia con alta fidelidad y adherencia a varios aspectos de los estímulos de texto.
Sin embargo, el éxito de estos métodos, como MusicLM o Noise2Music, conlleva altos costos computacionales que impedirían gravemente su practicidad. En comparación, otros enfoques basados en DPMs hicieron posibles muestreos eficientes de música de alta calidad. Sin embargo, sus casos demostrados fueron comparativamente pequeños y mostraron dinámicas limitadas dentro de la muestra. Con el objetivo de crear una herramienta de creación de música factible, una alta eficiencia del modelo generativo es esencial ya que facilita la creación interactiva teniendo en cuenta la retroalimentación humana, como en un estudio anterior.
Mientras que LMs y DPMs mostraron resultados prometedores, la pregunta relevante no es si se debe preferir uno sobre otro, sino si es posible aprovechar las ventajas de ambos enfoques de manera concurrente.
- ¿Cómo funciona el diagnóstico médico con IA?
- El Aprendizaje Profundo se adentra en lo profundo la IA revela nuev...
- DeepMind RoboCat Un modelo de IA robótica autodidacta.
De acuerdo con la motivación mencionada, se ha desarrollado un enfoque denominado MeLoDy. La visión general de la estrategia se presenta en la figura a continuación.
Después de analizar el éxito de MusicLM, los autores aprovechan el LM de nivel más alto en MusicLM, llamado LM semántico, para modelar la estructura semántica de la música, determinando el arreglo general de melodía, ritmo, dinámica, timbre y tempo. Condicionado a este LM semántico, explotan la naturaleza no autoregresiva de los DPMs para modelar la acústica de manera eficiente y efectiva con la ayuda de una exitosa técnica de aceleración de muestreo.
Además, los autores proponen el llamado modelo de difusión de doble trayecto (DPD) en lugar de adoptar el proceso de difusión clásico. De hecho, trabajar en los datos crudos aumentaría exponencialmente los gastos computacionales. La solución propuesta es reducir los datos crudos a una representación latente de baja dimensionalidad. Reducir la dimensionalidad de los datos obstaculiza su impacto en las operaciones y, por lo tanto, disminuye el tiempo de ejecución del modelo. Posteriormente, los datos crudos pueden ser reconstruidos a partir de la representación latente mediante un autoencoder pre-entrenado.
Algunas muestras de salida producidas por el modelo están disponibles en el siguiente enlace: https://efficient-melody.github.io/. El código aún no está disponible, lo que significa que, por el momento, no es posible probarlo en línea o localmente.
Este fue el resumen de MeLoDy, un modelo de difusión LM eficiente que genera audios de música de calidad de vanguardia. Si está interesado, puede obtener más información sobre esta técnica en los siguientes enlaces.