Investigadores de Microsoft presentan SpeechX un modelo versátil de generación de voz capaz de TTS sin necesidad de entrenamiento y diversas tareas de transformación del habla

Investigadores de Microsoft presentan SpeechX, un modelo versátil de generación de voz y transformación del habla sin necesidad de entrenamiento.

Varias aplicaciones de aprendizaje automático, incluyendo texto, visión y audio, han experimentado desarrollos rápidos y significativos en la tecnología de modelos generativos. La industria y la sociedad han sentido efectos significativos de estos desarrollos. Específicamente, los modelos generativos con entrada multimodal se han convertido en un verdadero desarrollo innovador. El texto a voz sin contacto (TTS, por sus siglas en inglés) es un problema conocido de generación de voz en el dominio del habla que utiliza entrada de audio-texto. Usando solo un pequeño fragmento de audio del hablante deseado, el TTS sin contacto incluye convertir una fuente de texto en habla con las cualidades de voz y manera de hablar de ese hablante. Las incrustaciones de altavoz de dimensión fija se utilizaron en investigaciones tempranas de TTS sin contacto. Este método no apoyaba de manera efectiva las capacidades de clonación de altavoces y restringía su uso solo al TTS. 

Estrategias recientes, sin embargo, han incluido conceptos más amplios como la predicción de habla enmascarada y el modelado de lenguaje de códec neuronal. Estos métodos de vanguardia utilizan el audio del hablante objetivo sin comprimirlo en una representación unidimensional. Como resultado, estos modelos han mostrado nuevas características, como la conversión de voz y la edición de habla, además de su excepcional rendimiento en TTS sin contacto. Esta mayor adaptabilidad puede expandir enormemente el potencial de los modelos generadores de habla. A pesar de sus logros asombrosos, estos modelos generativos actuales todavía tienen varias limitaciones, especialmente al manejar tareas de generación de habla basadas en audio-texto diversos que incluyen la conversión de habla de entrada. 

Por ejemplo, los algoritmos actuales de edición de voz están limitados a procesar solo señales limpias y no pueden cambiar el contenido hablado mientras mantienen el ruido de fondo. Además, el enfoque discutido impone limitaciones importantes en su aplicabilidad práctica al requerir que la señal ruidosa esté rodeada de segmentos de habla limpia para completar la eliminación de ruido. La extracción de hablante objetivo es un trabajo que es particularmente útil en el contexto de cambiar el habla no limpia. La extracción de hablante objetivo es el proceso de eliminar la voz de un hablante objetivo de una mezcla de habla que contiene varios hablantes. Puedes especificar el hablante que deseas reproduciendo un pequeño fragmento de su habla. Como se mencionó, la generación actual de modelos de habla generativos no puede manejar esta tarea a pesar de su importancia potencial. 

Los modelos de regresión históricamente se han utilizado para la recuperación de señales confiable en métodos clásicos para tareas de mejora de habla como la eliminación de ruido y la extracción de hablantes objetivo. Sin embargo, estas técnicas anteriores a veces requieren diferentes modelos expertos para cada tarea, lo cual no es óptimo dada la variedad de interrupciones acústicas que pueden ocurrir. Aparte de pequeños estudios que se centran principalmente en ciertas tareas de mejora de habla, aún queda mucho por investigar en modelos completos de mejora de habla basados en audio-texto que utilizan transcripciones de referencia para producir habla comprensible. El desarrollo de modelos generativos de habla basados en audio-texto que integren capacidades de generación y transformación adquiere una relevancia crítica en la investigación a la luz de los factores anteriores y los precedentes exitosos en otras disciplinas. 

Fig. 1: Diseño general de SpeechX. SpeechX utiliza un modelo de lenguaje de códec neuronal que ha sido entrenado en el flujo de tokens de texto y acústicos para realizar una variedad de tareas de generación de habla basadas en audio-texto, como supresión de ruido, eliminación de habla, extracción de hablante objetivo, TTS sin contacto, edición de habla limpia y edición de habla ruidosa. Para ciertas tareas, no se requiere entrada de texto.

Estos modelos tienen la capacidad de manejar diversos trabajos de generación de voz. Sugieren que dichos modelos deben incluir las siguientes características cruciales: 

• Versatilidad: Los modelos generativos de habla basados en audio-texto unificados deben ser capaces de realizar diversas tareas que requieran generación de voz a partir de entradas de audio y texto, similar a los modelos unificados o fundamentales producidos en otros dominios de aprendizaje automático. No solo el TTS sin contacto, sino también muchos tipos de alteración de habla, como por ejemplo, la ampliación de habla y la edición de habla, deberían estar incluidos en estas actividades.

• Tolerancia: Dado que es probable que los modelos unificados se utilicen en contextos acústicamente difíciles, deben demostrar tolerancia a diversas distorsiones acústicas. Estos modelos pueden ser útiles en situaciones del mundo real donde el ruido de fondo es común, ya que proporcionan un rendimiento confiable. 

• Extensibilidad: Los modelos unificados deben utilizar arquitecturas flexibles para permitir expansiones suaves de soporte de tareas. Una forma de hacer esto es proporcionando espacio para nuevos componentes, como módulos adicionales o tokens de entrada. Debido a esta flexibilidad, los modelos serán capaces de adaptarse de manera más eficiente a nuevos trabajos de generación de voz. En este documento, los investigadores de Microsoft Corporation presentan un modelo flexible de generación de voz para lograr este objetivo. Es capaz de realizar múltiples tareas, como TTS de cero disparos, supresión de ruido utilizando una entrada de transcripción opcional, eliminación de voz, extracción de altavoz objetivo utilizando una entrada de transcripción opcional y edición de voz tanto para entornos acústicos silenciosos como ruidosos (Fig. 1). Designan a SpeechX1 como su modelo recomendado.

Al igual que VALL-E, SpeechX adopta un enfoque de modelado del lenguaje que genera códigos de un modelo de códec neural, o tokens acústicos, basados en entradas textuales y acústicas. Para permitir el manejo de tareas diversas, incorporan tokens adicionales en una configuración de aprendizaje multi-tarea, donde los tokens especifican colectivamente la tarea a ejecutar. Los resultados experimentales, utilizando 60K horas de datos de voz de LibriLight como conjunto de entrenamiento, demuestran la eficacia de SpeechX, mostrando un rendimiento comparable o superior en todas las tareas mencionadas en comparación con modelos expertos. Especialmente, SpeechX exhibe capacidades novedosas o expandidas, como la preservación de sonidos de fondo durante la edición de voz y el aprovechamiento de transcripciones de referencia para la supresión de ruido y la extracción de altavoz objetivo. Se pueden encontrar muestras de audio que muestran las capacidades del modelo propuesto SpeechX en https://aka.ms/speechx.