El efecto Lombard y cómo puede ayudar con la discapacidad auditiva
Efecto Lombard y su ayuda para la discapacidad auditiva
TL;DR: El efecto Lombard se puede aplicar a la Conversión de Voz y a la Texto a Voz para hacer la voz sintética más comprensible en ambientes ruidosos.

¿Alguna vez te has preguntado por qué tendemos a hablar más fuerte en una habitación ruidosa? Bueno, los investigadores del habla y la lingüística también han tenido curiosidad al respecto, y han explorado un concepto llamado el Efecto Lombard (descubierto por Étienne Lombard).
💬 El Efecto Lombard en pocas palabras
Imagínate en una fiesta, donde la música está sonando y todos están charlando y riendo. ¡Pasándola bien! Para hacerte escuchar por tu amigo, tu cerebro automáticamente aumenta el volumen de tu voz, ajusta tu tono e incluso modifica la velocidad de tu habla. Lo interesante es que también tendemos a adaptar nuestra voz de acuerdo a la retroalimentación que recibimos de la persona frente a nosotros y del ruido alrededor para asegurarnos de que comprendan el mensaje.
Ahora, imagina este efecto aplicado a la tecnología, como los sistemas de Texto a Voz (TTS). ¿Qué pasaría si Alexa o Google Home pudieran hablar con el efecto Lombard? (Una situación ya imaginada por SNL).
- Revolucionando la Generación de Modelos 3D con MVDream
- Principales documentos importantes de Visión por Computadora de la ...
- 10 Conceptos de Matemáticas para Programadores
🔊 Efecto Lombard y Texto a Voz
Varios trabajos (Ver [1], [2]) han explorado cómo se puede aplicar el estilo Lombard al Texto a Voz para mejorar la inteligibilidad. Su objetivo era ver si podían entrenar una voz con grabaciones en estilo Lombard y mejorar la inteligibilidad y naturalidad. Descubrieron que era una forma más natural de mejorar la inteligibilidad que el procesamiento de señales.
▴ Por qué esto es importante
En lugar de simplemente aumentar el volumen o procesar la señal en el receptor (como la mayoría de los audífonos hacen), ¡podemos hacer que el habla suene más clara desde la fuente misma!
Los audífonos son increíbles piezas de ingeniería, pero también presentan desafíos. No siempre son cómodos, pueden ser costosos e incluso algunas personas optan por no usarlos regularmente. Pero con el TTS en estilo Lombard, el habla se ajusta automáticamente para ser más distinta y fácil de entender. Esto podría ser un cambio de juego, no solo para aquellos con audífonos, sino también para los hablantes no nativos (Ver [3]) y cualquier persona en un entorno ruidoso.
🚩 Problema actual
Los trabajos mencionados anteriormente utilizaron conjuntos de datos con muchas muestras de audio para una voz específica. ¿Qué sucede cuando no tienes eso? ¿Cómo podemos sintetizar voz en estilo Lombard sin tener que grabar (lo cual es agotador, consume mucho tiempo y es costoso para los talentos de voz)?
🔍 ¿Una solución?
La conversión de voz, el proceso de transferir la voz de alguien a grabaciones del habla de otra persona, se puede utilizar como enfoque de aumento de datos. La idea es crear grabaciones de la voz de una persona en estilo Lombard transfiriendo la identidad del hablante a las grabaciones de habla Lombard.
📚 Nuestro estudio
En un artículo que presentamos recientemente en el taller Clarity en Interspeech 23′, decidimos investigar cómo podríamos preservar el efecto Lombard al hacer la conversión de voz. De hecho, la información del hablante objetivo podría superponer las características del efecto Lombard y no darnos los resultados esperados. Queremos responder a la siguiente pregunta: ¿Podemos preservar el estilo de habla Lombard responsable de la inteligibilidad durante la Conversión de Voz, al mismo tiempo que transferimos la identidad del hablante?
Dado un modelo de conversión de voz (VC), investigamos diferentes formas de condicionarlo. Aquí en los gráficos a continuación puedes encontrar los tres sistemas que probamos en nuestros experimentos.

- VC+features (Condicionamiento explícito): Primero decidimos aislar tres elementos clave de la voz: tono, volumen e inclinación. Luego, proporcionamos directamente las características extraídas al codificador del modelo. Luego las extraemos de las grabaciones Lombard y se las damos al modelo de conversión de voz para que las mantenga en la grabación final, al mismo tiempo que transferimos la voz que queremos transferir.
- VC+CLS (Condicionamiento implícito): ¿Qué pasa si queremos que el modelo aprenda las características por sí mismo? Probamos esto agregando un clasificador de estilo que obliga al modelo a mantener el estilo de origen después de la conversión de voz. Esta configuración ayuda a preservar el estilo Lombard sin tener que seleccionar minuciosamente las características.
- Fusión: Este sistema combina ambos enfoques con las características cuidadosamente seleccionadas y el clasificador que obliga al modelo a mantener el estilo de habla original.
¿Qué encontramos? Como se muestra en el gráfico de barras a continuación que muestra la inteligibilidad en niveles altos de ruido, encontramos que

- De hecho, se pierde el efecto Lombard durante la conversión
- Tanto el condicionamiento explícito como el implícito ayudan a mejorar la inteligibilidad final
- La fusión funciona aún mejor pero pierde la información del hablante objetivo, lo que la hace menos útil
- Diferentes características funcionaron mejor para voces femeninas y masculinas
👉 ¿Cuál es la conclusión?
Estudios pasados y nuestro trabajo demuestran que el TTS (Text-to-Speech) estilo Lombard efectivamente aumenta la inteligibilidad del habla en entornos ruidosos. Si bien la naturalidad puede verse afectada, es menos notable en el ruido y la identidad de los hablantes no se ve tan afectada. En nuestro estudio, encontramos que el efecto de inteligibilidad Lombard se pierde con la Conversión de Voz básica, pero al usar el condicionamiento de manera implícita o explícita, ¡podemos transferirlos de manera más efectiva!
Echa un vistazo a nuestro artículo aquí para obtener más detalles.
🚀 El Futuro del Habla Inteligible
Imagínese un mundo en el que la síntesis del habla imite nuestros ajustes naturales, haciendo que la comunicación sea más fluida en lugares ruidosos. Con más investigación e innovación, el TTS estilo Lombard podría ayudar en las actividades diarias de las personas con discapacidad auditiva, como escuchar música, ver videos de YouTube, ver películas, etc.,… ¡y mejorar nuestras interacciones con asistentes inteligentes y dispositivos activados por voz!
Referencias
– [1] Bollepalli, Bajibabu, et al. “Adaptación normal a Lombard de la síntesis del habla utilizando redes neuronales recurrentes de memoria a corto y largo plazo”. Speech Communication 110 (2019)
– [2] Paul, Dipjyoti, et al. “Mejora de la inteligibilidad del habla en la síntesis de texto a voz mediante conversión de estilo de habla”. Proc. Interspeech (2020).
– [3] Marcoux, Katherine, et al. “El beneficio de inteligibilidad Lombard del habla nativa y no nativa para oyentes nativos y no nativos”. Speech Communication 136 (2022)