Investigadores de Microsoft presentan PromptTTS 2 Revolucionando la síntesis de voz a partir de texto con mayor variabilidad vocal y generación de indicaciones rentable
Investigadores de Microsoft presentan PromptTTS 2, revolucionando la síntesis de voz con mayor variabilidad vocal y generación de indicaciones rentable.
La inteligibilidad y naturalidad del habla sintetizada han mejorado debido a los avances recientes en los sistemas de texto a voz (TTS). Se han creado sistemas de TTS a gran escala para entornos de múltiples hablantes, y algunos sistemas de TTS han alcanzado una calidad equivalente a las grabaciones de un solo hablante. A pesar de estos avances, modelar la variabilidad de la voz sigue siendo difícil ya que diferentes formas de expresar la misma frase pueden comunicar información adicional, como la emoción y el tono. Las técnicas tradicionales de TTS suelen depender de la información del hablante o de las indicaciones de voz para simular la variabilidad en la voz. Sin embargo, estas técnicas no son amigables para el usuario porque la identificación del hablante está predefinida y la indicación de voz adecuada es difícil de descubrir o no existe.
Un enfoque más prometedor para modelar la variabilidad de la voz es utilizar indicaciones de texto que especifiquen características de la voz, ya que el lenguaje natural es una interfaz práctica para que los usuarios transmitan su intención en la producción de voz. Esta estrategia facilita la creación de voces utilizando indicaciones de texto. Los sistemas de TTS basados en indicaciones de texto suelen entrenarse utilizando un conjunto de datos de habla y la indicación de texto correspondiente. La indicación de texto que describe la variabilidad o el estilo de la voz se utiliza para condicionar cómo el modelo genera la voz.
Los sistemas de TTS basados en indicaciones de texto siguen enfrentando dos dificultades principales:
• Desafío de uno a muchos: Debido a que la calidad de la voz varía de una persona a otra, es difícil que las instrucciones escritas representen con precisión todos los aspectos del habla. Diferentes ejemplos de voz pueden correlacionarse inevitablemente con la misma indicación. El fenómeno de uno a muchos hace que el entrenamiento del modelo de TTS sea más desafiante y puede dar lugar a sobreajuste o colapso del modo. Hasta donde se sabe, no se han creado procedimientos expresamente para abordar el problema de uno a muchos en los sistemas de TTS basados en indicaciones de texto.
- El modelo de IA acelera la visión por computadora de alta resolución
- Los directores Guillermo del Toro y Tim Burton tienen dos visiones ...
- El modelo base Falcon 180B de TII ahora está disponible a través de...
• Desafío de escala de datos: Dado que las indicaciones de texto son poco comunes en Internet, recopilar un conjunto de datos de indicaciones de texto que definan la voz no es fácil.
Como resultado, se contrata a proveedores para crear indicaciones, lo cual es costoso y consume mucho tiempo. Los conjuntos de datos de indicaciones suelen ser pequeños o privados, lo que dificulta la investigación adicional sobre los sistemas de TTS basados en indicaciones de texto. En su trabajo, proporcionan PromptTTS 2, que hace una propuesta de red de variación para modelar la información de variabilidad de voz del habla que no se captura mediante las indicaciones. Utiliza el gran modelo de lenguaje para producir indicaciones de alta calidad para superar los desafíos mencionados anteriormente. Sugieren una red de variación para anticipar la información faltante sobre la variabilidad de la voz a partir de la indicación de texto para el desafío de uno a muchos. El habla de referencia, que se cree que incluye toda la información sobre la variabilidad de la voz, se utiliza para entrenar la red de variación.
Un codificador de indicaciones de texto para las indicaciones de texto, un codificador de habla de referencia para el habla de referencia y un módulo de TTS para sintetizar el habla basándose en las representaciones obtenidas por el codificador de indicaciones de texto y el codificador de habla de referencia conforman el modelo de TTS en PromptTTS 2. Basándose en la representación inmediata del codificador de indicaciones de texto 3, se entrena una red de variación para predecir la representación de referencia a partir del codificador de voz de referencia. Pueden modificar las cualidades del habla sintetizada utilizando el modelo de difusión en la red de variación para seleccionar información diversa sobre la variabilidad de la voz a partir de ruido gaussiano condicionado por las indicaciones de texto, lo que brinda a los usuarios más libertad al producir voces.
Investigadores de Microsoft sugieren un proceso para crear automáticamente indicaciones de texto para el habla utilizando un modelo de comprensión del habla para reconocer características de voz a partir del habla y un gran modelo de lenguaje para construir indicaciones de texto según los resultados del reconocimiento para abordar la dificultad de escala de datos. En particular, utilizan un modelo de comprensión del habla para identificar los valores de atributo para cada muestra de habla dentro de un conjunto de datos de habla para describir la voz a partir de diversas características. A continuación, se crea la indicación de texto juntando estas frases, con la descripción de cada atributo dada en su oración. A diferencia de estudios anteriores, que dependían de proveedores para construir y combinar frases, PromptTTS 2 utiliza modelos de lenguaje masivos que han demostrado ser capaces de realizar una variedad de tareas a un nivel comparable al de una persona.
Proporcionan instrucciones de LLM para escribir indicaciones excelentes que incluyan las cualidades y conecten las frases en una indicación completa. Gracias a este flujo de trabajo completamente automatizado, ya no es necesario la intervención humana en la redacción de indicaciones. A continuación se presenta un resumen de las contribuciones de este artículo:
• Para resolver el problema de uno a muchos en los sistemas de TTS basados en indicaciones de texto, construyen una red de variación basada en un modelo de difusión para describir la variabilidad de la voz no cubierta por la indicación de texto. La variabilidad de la voz puede ser gestionada seleccionando muestras de diversos ruidos gaussianos condicionados por la indicación de texto durante la inferencia.
• Construyen y publican un conjunto de datos de indicaciones de texto producidas por un proceso para la creación de indicaciones de texto y un gran modelo de lenguaje. El proceso reduce la dependencia de los proveedores al producir indicaciones de alta calidad.
• Utilizando 44.000 horas de datos de habla, prueban PromptTTS 2 en un conjunto de datos de habla considerable. Según los hallazgos experimentales, PromptTTS 2 supera estudios anteriores en la producción de voces que se ajustan más de cerca a la indicación de texto al mismo tiempo que limita la variabilidad vocal al muestrear de ruido gaussiano.