Conoce GETMusic un marco unificado de representación y difusión que puede generar cualquier pista de música con un marco unificado de representación y difusión.

GETMusic es un marco unificado para la representación y difusión de pistas de música.

En los últimos años, se ha logrado un progreso significativo en la generación de música utilizando modelos de Aprendizaje Automático. Sin embargo, todavía existen desafíos para lograr eficiencia y control sustancial sobre los resultados. Los intentos anteriores han encontrado dificultades principalmente debido a limitaciones en las representaciones musicales y las arquitecturas de los modelos.

Dado que puede haber vastas combinaciones de pistas de origen y destino, se necesita un modelo unificado capaz de manejar tareas de generación de pistas completas y producir resultados deseados. La investigación actual en generación de música simbólica se puede generalizar en dos categorías basadas en las representaciones musicales adoptadas. Estas son la basada en secuencias y la basada en imágenes. El enfoque basado en secuencias representa la música como una secuencia de tokens discretos, mientras que el enfoque basado en imágenes representa la música como imágenes 2D que tienen los rollos de piano como la opción ideal. Los rollos de piano representan las notas musicales como líneas horizontales, donde la posición vertical representa la altura y la longitud de la línea representa la duración.

Para abordar la necesidad de un modelo unificado capaz de generar pistas arbitrarias, un equipo de investigadores de China ha desarrollado un marco llamado GETMusic (GET significa GEnerate music Tracks). GETMusic comprende muy bien la entrada y puede producir música por pistas. Este marco permite a los usuarios crear ritmos y agregar elementos adicionales para crear pistas deseadas. Este marco es capaz de crear música desde cero y puede producir pistas guiadas y mezcladas.

GETMusic utiliza una representación llamada GETScore y un modelo de difusión discreta llamado GETDiff. GETScore representa las pistas en una estructura 2D donde las pistas se apilan verticalmente y progresan horizontalmente con el tiempo. Los investigadores representaron las notas musicales con un token de altura y duración. El trabajo de GETDiff es seleccionar pistas como objetivos o fuentes de manera aleatoria. GETDiff realiza dos procesos: el proceso directo y el proceso de eliminación de ruido. En el proceso directo, GETDiff corrompe la pista objetivo al enmascarar tokens, dejando las pistas de origen preservadas como verdad absoluta. Mientras tanto, en el proceso de eliminación de ruido, GETDiff aprende a predecir los tokens objetivo enmascarados en función de las fuentes proporcionadas.

Los investigadores destacan que este marco innovador brinda un control explícito sobre la generación de pistas objetivo deseadas, ya sea desde cero o basadas en pistas de origen proporcionadas por el usuario. Además, GETScore se destaca como una representación musical concisa y multi-pista, agilizando el proceso de aprendizaje del modelo y permitiendo la generación de música armónica. Además, los tokens de altura utilizados en esta representación retienen de manera efectiva las dependencias polifónicas, fomentando la creación de composiciones musicales armónicamente ricas.

Además de sus capacidades de generación de pistas, el mecanismo avanzado de enmascaramiento y eliminación de ruido de GETDiff proporciona un relleno sin ajuste. Esta característica notable permite eliminar sin problemas los tokens enmascarados en cualquier posición arbitraria dentro de GETScore, ampliando los límites de la creatividad y mejorando la versatilidad general del marco.

En general, GETMusic tiene un buen rendimiento, superando a muchos otros modelos similares, demostrando una coincidencia melódica, rítmica y estructural superior entre las pistas objetivo y las pistas de origen proporcionadas. En el futuro, los investigadores esperan explorar el potencial de este marco, con un enfoque particular en la incorporación de letras como una pista adicional. Esta integración tiene como objetivo permitir impresionantes capacidades de generación de letra a melodía, avanzando aún más en la versatilidad y poder expresivo del modelo. La combinación perfecta de elementos textuales y musicales podría abrir nuevas posibilidades creativas y mejorar la experiencia musical en general.