Este documento de inteligencia artificial propone un método de síntesis de voz personalizado sin disparador llamado Lip2Speech un modelo de discurso sintético para igualar los movimientos de los labios.

This AI document proposes a personalized voice synthesis method called Lip2Speech, a synthetic speech model that matches lip movements without a trigger.

Un equipo de investigadores de la Universidad de Ciencia y Tecnología de China ha desarrollado un nuevo modelo de aprendizaje automático para la síntesis de habla a partir de los labios (Lip2Speech). El modelo es capaz de generar habla sintetizada personalizada en condiciones de cero disparo, lo que significa que puede hacer predicciones relacionadas con clases de datos que no encontró durante el entrenamiento. Los investigadores presentaron su enfoque aprovechando un autoencoder variacional, un modelo generativo basado en redes neuronales que codifica y decodifica datos.

La síntesis Lip2Speech implica predecir palabras habladas basadas en los movimientos de los labios de una persona, y tiene diversas aplicaciones en el mundo real. Por ejemplo, puede ayudar a pacientes que no pueden producir sonidos del habla a comunicarse con otros, agregar sonido a películas silenciosas, restaurar el habla en videos ruidosos o dañados e incluso determinar conversaciones en imágenes de CCTV sin voz. Si bien algunos modelos de aprendizaje automático han mostrado promesas en aplicaciones Lip2Speech, a menudo tienen dificultades con el rendimiento en tiempo real y no se entrenan utilizando enfoques de aprendizaje de cero disparo.

Típicamente, para lograr la síntesis de Lip2Speech de cero disparo, los modelos de aprendizaje automático requieren grabaciones de video confiables de los altavoces para extraer información adicional sobre sus patrones de habla. Sin embargo, en casos en los que solo están disponibles videos silenciosos o incomprensibles de la cara del hablante, esta información no se puede acceder. El modelo de los investigadores tiene como objetivo abordar esta limitación generando habla que coincida con la apariencia e identidad de un hablante determinado sin depender de grabaciones de su habla real.

El equipo propuso un método de síntesis Lip2Speech personalizado de cero disparo que utiliza imágenes faciales para controlar las identidades de los altavoces. Utilizaron un autoencoder variacional para desenredar la identidad del hablante y las representaciones del contenido lingüístico, permitiendo que los incrustaciones del hablante controlen las características de la voz del habla sintética para los hablantes que no se han visto. Además, introdujeron el aprendizaje de representación cruzada asociada para mejorar la capacidad de las incrustaciones del hablante basadas en la cara (FSE) en el control de la voz.

Para evaluar el rendimiento de su modelo, los investigadores llevaron a cabo una serie de pruebas. Los resultados fueron notables, ya que el modelo generó habla sintetizada que coincidió con precisión con los movimientos de los labios de un hablante y su edad, género y apariencia general. Las posibles aplicaciones de este modelo son extensas, desde herramientas de ayuda para personas con discapacidades del habla hasta software de edición de video y ayuda para investigaciones policiales. Los investigadores destacaron la efectividad de su método propuesto a través de experimentos extensos, demostrando que las emisiones sintéticas eran más naturales y estaban alineadas con la personalidad del video de entrada en comparación con otros métodos. Es importante destacar que este trabajo representa el primer intento de síntesis Lip2Speech personalizada de cero disparo utilizando una imagen facial en lugar de audio de referencia para controlar las características de la voz.

En conclusión, los investigadores han desarrollado un modelo de aprendizaje automático para la síntesis de Lip2Speech que sobresale en condiciones de cero disparo. El modelo puede generar habla sintetizada personalizada que se alinea con la apariencia e identidad de un hablante aprovechando un autoencoder variacional e imágenes faciales. El rendimiento exitoso de este modelo abre posibilidades para varias aplicaciones prácticas, como ayudar a personas con discapacidades del habla, mejorar herramientas de edición de video y ayudar en investigaciones policiales.

Consulte el artículo y el artículo de referencia. No olvide unirse a nuestro subreddit de ML de 24k+, canal de Discord y boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación de IA, proyectos interesantes de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]

Consulte 100 Herramientas de IA en el Club de Herramientas de IA

El artículo Este documento de IA propone un método de síntesis de Lip2Speech personalizado de cero disparo: un modelo de habla sintética para coincidir con los movimientos de los labios apareció primero en MarkTechPost.