Nueva investigación alinea el texto con el habla sin esfuerzo | Google

Investigación alinea texto con habla | Google

Superar la discrepancia de longitud de secuencia sin especificarla explícitamente.

TLDR

Entrenar un modelo multimodal de texto-voz tiene sus propios problemas. Dado que la frecuencia de muestreo del audio es alta, la longitud de secuencia para el audio es mucho más larga que la del texto correspondiente. Para entrenar tanto el texto como el audio simultáneamente, necesitamos superar esta disparidad (perezosamente sin tener que generar datos de entrenamiento explícitamente anotados). Este documento resuelve ese problema.

Resumen

El último año ha visto un progreso asombroso en la generación de imágenes a partir de texto mediante la idea de un espacio de representación multimodal en el que los dominios de texto e imagen se representan conjuntamente.

En el Reconocimiento Automático de Voz (ASR), esta idea se ha aplicado como codificadores de voz-texto conjuntos que pueden adaptarse a las capacidades de modelos de parámetros muy grandes al ser entrenados tanto en voz como en texto no emparejados. Si bien estos métodos muestran promesa, han requerido un tratamiento especial de la discrepancia de longitud de secuencia inherente en la voz y el texto, ya sea mediante heurísticas de aumento de muestreo o un modelo de alineación explícita.

En este trabajo, ofrecemos evidencia de que los codificadores de voz-texto conjuntos logran naturalmente representaciones consistentes en todas las modalidades al ignorar la longitud de secuencia, y argumentamos que las pérdidas de consistencia podrían perdonar las diferencias de longitud y simplemente asumir la mejor alineación. Mostramos que dicha pérdida mejora la tasa de error de palabras (WER) en un sistema monolingüe y multilingüe de gran parámetro.

Visualizaciones de las distancias de incrustación (a) y la mejor alineación (b) entre una incrustación de audio en el eje horizontal y la incrustación de texto correspondiente en el eje vertical. Los puntos más oscuros en (a) representan pares de tramas de audio y texto con incrustaciones cercanas, y los puntos amarillos en (b) representan pares en la mejor alineación recuperada

Teoría de la solución

Entrenar un gran codificador en ambas modalidades (en este caso, audio y texto) por separado. De esta manera, cada modalidad proporciona un ejemplo no emparejado, y el meta-modelo aprende a mapear ejemplos emparejados en la dimensión temporal. Esta representación puede ofrecer un rendimiento de última generación en la modalidad de imagen+texto. Sin embargo, no funciona tan bien en la combinación de modalidades de audio + texto.

El reconocimiento de voz presenta el desafío particular de tener dos modalidades de secuencia, una de…