Conoce VampNet Un enfoque de modelado de tokens acústicos enmascarados para la síntesis, compresión, rellenado y variación de música

Conoce VampNet un enfoque de modelado de tokens acústicos enmascarados para música

Recientemente se han realizado mejoras significativas en la creación autoregresiva de habla y música debido al desarrollo de modelos de tokens acústicos discretos. Para la creación efectiva de imágenes, se han ideado métodos de decodificación iterativa paralela no autoregresiva. Los trabajos de relleno como estos, que requieren condicionar tanto los componentes de la secuencia pasada como los futuros, son más adecuados para la decodificación iterativa paralela que para los enfoques autoregresivos. En este estudio, utilizan el modelado de tokens acústicos y la decodificación iterativa simultánea para la síntesis de audio de música. Hasta donde ellos saben, este es el primer uso de la decodificación iterativa paralela para la síntesis de música de audio neuronal.

Utilizan la asistencia basada en tokens para adaptar su modelo, conocido como VampNet, a una amplia gama de aplicaciones. Con secuencias de tokens de música deliberadamente ocultos, demuestran su capacidad para dirigir la creación de VampNet e instruirlo para llenar los espacios en blanco. Los resultados de este proceso pueden ser desde un método de compresión de audio de alta calidad hasta variantes de la música de entrada original que se asemejan estrechamente en estilo, género, ritmo e instrumentación mientras cambian algunos matices de timbre y ritmo. Su método permite colocar las indicaciones en cualquier lugar, a diferencia de los modelos de música auto-regresivos, que solo pueden ejecutar continuaciones de música utilizando un audio de prefijo como indicación y hacer que el modelo produzca música que pueda seguirlo.

Figura 1: Descripción general de VampNet. Primero, utilizan un tokenizador de audio para descomponer el audio en una serie de tokens distintos. Los tokens se enmascaran primero antes de enviarse a un modelo generativo enmascarado, que utiliza una técnica efectiva de muestreo de decodificación paralela iterativa en dos niveles para predecir los valores de los tokens enmascarados. Luego, la salida se decodifica en audio.

Investigan varios diseños de indicaciones, como periódicas, de compresión y aquellas inspiradas en la música (como el enmascaramiento en el ritmo). Descubren que su modelo funciona admirablemente cuando se le instruye para crear bucles y variaciones, de ahí el nombre VampNet. Ofrecen su código para su descarga y recomiendan encarecidamente que las personas revisen sus muestras de audio. Investigadores de Descript Inc. y Northwestern University presentaron VampNet, un método para generar música utilizando el modelado de tokens acústicos enmascarados. Un archivo de audio de entrada puede indicar a VampNet de varias formas, ya que es bidireccional. VampNet es una excelente herramienta para crear variantes de una pieza musical, ya que puede funcionar en un continuo entre la compresión y la producción de música a través de varios enfoques de indicación.

Un músico podría usar VampNet para grabar un breve bucle, ingresarlo en el sistema y hacer que VampNet genere variantes musicales de la idea cada vez que se repita el área en bucle. Tienen la intención de estudiar el potencial de VampNet y sus enfoques de indicación para la co-creación de música interactiva en trabajos futuros, así como las capacidades de aprendizaje de representación del modelado de tokens acústicos enmascarados.