SoundStorm Generación de audio paralelo eficiente
Efficient parallel audio generation with SoundStorm.
Publicado por Zalán Borsos, Ingeniero de Software de Investigación, y Marco Tagliasacchi, Científico de Investigación Senior, Google Research
El reciente progreso en inteligencia artificial generativa desbloqueó la posibilidad de crear nuevo contenido en varios dominios diferentes, incluyendo texto, visión y audio. Estos modelos a menudo se basan en el hecho de que los datos en bruto se convierten primero en un formato comprimido como una secuencia de tokens. En el caso del audio, los códecs de audio neuronales (por ejemplo, SoundStream o EnCodec) pueden comprimir eficientemente las formas de onda a una representación compacta, que se puede invertir para reconstruir una aproximación de la señal de audio original. Dicha representación consiste en una secuencia de tokens de audio discretos, que capturan las propiedades locales de los sonidos (por ejemplo, fonemas) y su estructura temporal (por ejemplo, prosodia). Al representar el audio como una secuencia de tokens discretos, la generación de audio se puede realizar con modelos secuenciales basados en Transformer – esto ha desbloqueado un rápido progreso en la continuación del habla (por ejemplo, con AudioLM), texto a voz (por ejemplo, con SPEAR-TTS) y generación general de audio y música (por ejemplo, AudioGen y MusicLM). Muchos modelos de audio generativos, incluido AudioLM, se basan en la decodificación autorregresiva, que produce tokens uno por uno. Si bien este método logra una alta calidad acústica, la inferencia (es decir, el cálculo de una salida) puede ser lenta, especialmente al decodificar secuencias largas.
Para abordar este problema, en “SoundStorm: Efficient Parallel Audio Generation”, proponemos un nuevo método para generar audio eficiente y de alta calidad. SoundStorm aborda el problema de generar secuencias largas de tokens de audio al depender de dos elementos novedosos: 1) una arquitectura adaptada a la naturaleza específica de los tokens de audio producidos por el códec neuronal SoundStream, y 2) un esquema de decodificación inspirado en MaskGIT, un método recientemente propuesto para la generación de imágenes, que está diseñado para operar en tokens de audio. En comparación con el enfoque de decodificación autorregresivo de AudioLM, SoundStorm puede generar tokens en paralelo, disminuyendo así el tiempo de inferencia en 100 veces para secuencias largas, y produce audio de la misma calidad y con mayor consistencia en las condiciones de voz y acústicas. Además, mostramos que SoundStorm, junto con la etapa de modelado de texto a semántico de SPEAR-TTS, puede sintetizar diálogos naturales de alta calidad, lo que permite controlar el contenido hablado (a través de transcripciones), las voces de los hablantes (a través de breves indicaciones de voz) y los turnos de los hablantes (a través de anotaciones de transcripción), como se muestra en los ejemplos a continuación:
Entrada: Texto (transcripción utilizada para impulsar la generación de audio en negrita) | Algo realmente divertido me sucedió esta mañana. | Oh, vaya ¿Qué? | Bueno, me desperté como de costumbre. | Ajá | Bajé las escaleras para desayunar. | Sí | Empecé a comer. Luego, 10 minutos después, me di cuenta de que era el medio de la noche. | ¡Oh, no me digas, eso es tan gracioso! | No dormí bien anoche. | Oh, no. ¿Qué pasó? | No lo sé. Simplemente no podía dormirme de ninguna manera, estuve dando vueltas toda la noche. | Qué lástima. Tal vez deberías intentar acostarte más temprano esta noche o leer un libro. | Sí, gracias por las sugerencias, espero que tengas razón. | No hay problema. Espero que tengas una buena noche de sueño | ||
Entrada: Indicación de audio | ||||
Salida: Indicación de audio + audio generado |
Diseño de SoundStorm
En nuestro trabajo anterior en AudioLM, mostramos que la generación de audio se puede descomponer en dos pasos: 1) modelado semántico, que genera tokens semánticos a partir de tokens semánticos previos o una señal de condicionamiento (por ejemplo, una transcripción como en SPEAR-TTS, o una indicación de texto como en MusicLM), y 2) modelado acústico, que genera tokens acústicos a partir de tokens semánticos. Con SoundStorm abordamos específicamente este segundo paso de modelado acústico, reemplazando la decodificación autorregresiva más lenta por una decodificación paralela más rápida.
SoundStorm se basa en un Conformer con atención bidireccional, una arquitectura de modelo que combina un Transformer con convoluciones para capturar tanto la estructura local como global de una secuencia de tokens. Específicamente, el modelo está entrenado para predecir tokens de audio producidos por SoundStream dado una secuencia de tokens semánticos generados por AudioLM como entrada. Al hacer esto, es importante tener en cuenta el hecho de que, en cada paso de tiempo t, SoundStream utiliza hasta Q tokens para representar el audio utilizando un método conocido como cuantificación de vector residual (RVQ), como se ilustra a continuación a la derecha. La clave es que la calidad del audio reconstruido aumenta progresivamente a medida que el número de tokens generados en cada paso va desde 1 hasta Q.
- Una Edad de Oro ‘Age of Empires III’ se une a GeForce NOW.
- Nuestro apoyo a los sistemas de alerta temprana.
- Entendiendo los Mecanismos de Atención Utilizando Atención Multi-Ca...
En el momento de la inferencia, dada la señal de condicionamiento de entrada de los tokens semánticos, SoundStorm comienza con todos los tokens de audio enmascarados y completa los tokens enmascarados en varias iteraciones, comenzando desde los tokens más gruesos en el nivel RVQ q = 1 y procediendo nivel por nivel con tokens más finos hasta llegar al nivel q = Q.
Hay dos aspectos cruciales de SoundStorm que permiten una generación rápida: 1) los tokens se predicen en paralelo durante una sola iteración dentro de un nivel RVQ y, 2) la arquitectura del modelo está diseñada de tal manera que la complejidad solo se ve ligeramente afectada por el número de niveles Q. Para admitir este esquema de inferencia, durante el entrenamiento se utiliza un esquema de enmascaramiento cuidadosamente diseñado para imitar el proceso iterativo utilizado en la inferencia.
![]() |
Arquitectura del modelo SoundStorm. T denota el número de pasos de tiempo y Q el número de niveles RVQ utilizados por SoundStream. Los tokens semánticos utilizados como condicionantes están alineados en el tiempo con los frames de SoundStream. |
Medición del rendimiento de SoundStorm
Demostramos que SoundStorm iguala la calidad del generador acústico de AudioLM, reemplazando tanto la etapa dos (modelo acústico grueso) como la etapa tres (modelo acústico fino) de AudioLM. Además, SoundStorm produce audio 100 veces más rápido que el generador acústico autoregresivo jerárquico de AudioLM (parte superior a continuación) con una calidad igual y una identidad de hablante y condiciones acústicas mejoradas (parte inferior a continuación).
![]() |
Tiempos de ejecución de la decodificación de SoundStream, SoundStorm y diferentes etapas de AudioLM en un TPU-v4. |
![]() |
Consistencia acústica entre la indicación y el audio generado. El área sombreada representa el rango intercuartil. |
Seguridad y mitigación de riesgos
Reconocemos que las muestras de audio producidas por el modelo pueden verse influenciadas por los sesgos injustos presentes en los datos de entrenamiento, por ejemplo en términos de acentos representados y características de voz. En nuestras muestras generadas, demostramos que podemos controlar de manera confiable y responsable las características del hablante a través de indicaciones, con el objetivo de evitar sesgos injustos. Un análisis exhaustivo de cualquier dato de entrenamiento y sus limitaciones es un área de trabajo futuro de acuerdo con nuestros Principios de IA responsables.
A su vez, la capacidad de imitar una voz puede tener numerosas aplicaciones maliciosas, incluyendo eludir la identificación biométrica y usar el modelo con fines de suplantación. Por lo tanto, es crucial establecer medidas de seguridad contra posibles mal usos: con este fin, hemos verificado que el audio generado por SoundStorm sigue siendo detectable por un clasificador dedicado que utiliza el mismo clasificador que se describe en nuestro artículo original AudioLM. Por lo tanto, como componente de un sistema más grande, creemos que es poco probable que SoundStorm introduzca riesgos adicionales a los discutidos en nuestros artículos anteriores sobre AudioLM y SPEAR-TTS. Al mismo tiempo, relajar los requisitos de memoria y computacionales de AudioLM haría que la investigación en el dominio de la generación de audio sea más accesible para una comunidad más amplia. En el futuro, planeamos explorar otros enfoques para detectar el habla sintetizada, por ejemplo, con la ayuda de marcas de agua de audio, para que cualquier uso potencial del producto de esta tecnología siga estrictamente nuestros Principios de IA responsables.
Conclusión
Hemos presentado SoundStorm, un modelo que puede sintetizar de manera eficiente audio de alta calidad a partir de tokens de condicionamiento discretos. Cuando se compara con el generador acústico de AudioLM, SoundStorm es dos órdenes de magnitud más rápido y logra una mayor consistencia temporal al generar muestras de audio largas. Al combinar un modelo de token de texto-semántica similar a SPEAR-TTS con SoundStorm, podemos escalar la síntesis de texto a voz a contextos más largos y generar diálogos naturales con múltiples turnos de hablantes, controlando tanto las voces de los hablantes como el contenido generado. SoundStorm no se limita a generar habla. Por ejemplo, MusicLM utiliza SoundStorm para sintetizar salidas más largas de manera eficiente (como se ve en I/O).
Agradecimientos
El trabajo descrito aquí fue realizado por Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour y Marco Tagliasacchi. Agradecemos todas las discusiones y comentarios sobre este trabajo que recibimos de nuestros colegas en Google.