Conoce AudioSR Una solución de IA Plug & Play y One-for-All para mejorar la calidad del audio a increíbles 48kHz.
AudioSR es una solución de IA Plug & Play y One-for-All que mejora la calidad del audio a 48kHz.
Uno de los desafíos clave en el campo del procesamiento de audio digital es la superresolución de audio. Su objetivo es mejorar la calidad de las señales de audio anticipando e incorporando componentes de alta frecuencia faltantes en datos de audio de baja resolución. El objetivo principal es ofrecer una experiencia auditiva más inmersiva y superior, es decir, alta fidelidad. La superresolución de audio es una tecnología crucial con numerosos usos, como la restauración de grabaciones antiguas. Sin embargo, los enfoques pasados en este campo tienen varias desventajas, como su restricción a un rango estrecho de configuraciones de ancho de banda, que generalmente está limitado a 4 kHz a 8 kHz, y su estrecha concentración en géneros de audio particulares, como música o voz.
Para superar los desafíos, un equipo de investigadores ha propuesto recientemente un método innovador llamado AudioSR (Audio Super Resolution), que se basa en modelos generativos basados en la difusión. AudioSR proporciona fuertes capacidades de superresolución de audio para una variedad de sonidos, incluyendo voz, música y efectos de sonido. La adaptabilidad de AudioSR para manejar diversos formatos de audio es una de sus cualidades destacadas. Puede procesar superresolución para proporcionar una salida de audio de alta calidad con un ancho de banda constante de 24 kHz y una frecuencia de muestreo de 48 kHz a partir de una variedad de fuentes que producen señales de audio con anchos de banda que van desde 2 kHz a 16 kHz como entrada.
Dado que AudioSR puede aumentar eficientemente las señales de audio en diversos formatos y configuraciones de ancho de banda, es altamente adaptable a diversos escenarios y aplicaciones del mundo real. AudioSR se basa en investigaciones anteriores que demuestran que los vocoders neuronales tienen conocimientos previos útiles para reconstruir componentes de frecuencia más alta en tareas de superresolución de audio. Aplica superresolución de audio en el espectrograma mel y crea la señal de audio utilizando un vocoder neuronal. Se entrena un modelo de difusión latente para aprender la creación condicional de espectrogramas mel de alta resolución a partir de sus contrapartes de baja resolución para que AudioSR pueda estimar el espectrograma mel de alta resolución.
Los resultados de los experimentos han demostrado que AudioSR, al admitir diversas configuraciones de velocidad de muestreo de entrada, proporciona resultados prometedores de superresolución para una variedad de formatos de audio, incluyendo voz, música y efectos de sonido. Los análisis subjetivos han demostrado que la salida de modelos de texto a audio como AudioLDM, modelos de texto a música como MusicGen y modelos de texto a voz como Fastspeech2 ha mejorado significativamente mediante el uso de AudioSR. Esto significa que AudioSR se puede incluir fácilmente como un módulo plug-and-play en la mayoría de los modelos de generación de audio, mejorando la calidad auditiva para diversas aplicaciones.
- LLMs y Grafos de Conocimiento
- ¿Cuál es el futuro de la asistencia conversacional en la era de Cha...
- AccelData adquiere Bewgle un gran avance en la visibilidad de la ca...
El equipo ha resumido sus contribuciones de la siguiente manera:
- Superresolución de audio audible general: El equipo ha introducido AudioSR, que logra la superresolución de audio en el dominio de todos los sonidos audibles. A diferencia de enfoques anteriores, que frecuentemente estaban especializados en categorías de audio específicas, AudioSR ofrece una solución más flexible y completa para mejorar la calidad del audio.
- Manejo flexible del ancho de banda de audio: AudioSR proporciona una increíble versatilidad, ya que puede procesar eficientemente señales de audio con un espectro de ancho de banda que abarca desde 2 kHz hasta 16 kHz. Incluso puede mantener una frecuencia de muestreo de alta calidad de 48 kHz al extender este ancho de banda a un confiable 24 kHz.
- Integración plug-and-play con modelos de generación de audio: AudioSR ha demostrado su valor como un módulo plug-and-play para mejorar la calidad de audio de múltiples modelos de generación de audio y sus habilidades en superresolución de audio. Agregar AudioSR a modelos como AudioLDM, MusicGen y FastSpeech2 mejora la calidad de la salida de audio.