WavJourney Un viaje al mundo de la generación de historias de audio
WavJourney Un viaje al mundo de las historias de audio
Introducción
El reciente advenimiento de los Modelos de Lenguaje Grande ha causado sensación en el mundo. Ahora, la imaginación es el límite. Hoy, WavJourney puede automatizar el arte de contar historias. Dado un solo estímulo, WavJourney aprovecha el poder de los Modelos de Lenguaje Grande para generar guiones de audio cautivadores, completos con una trama precisa, voces humanas realistas y música de fondo atractiva.
Para poder apreciar adecuadamente las capacidades de generación de audio, consideremos el siguiente escenario. Solo necesitamos proporcionar una instrucción simple, describiendo un escenario y ajuste de escena, y el modelo generará un guion de audio cautivador que destaca la relevancia del contexto supremo para la instrucción original.
INSTRUCCIÓN: Generar audio en temática de Ciencia Ficción: Noticias de Marte informando que los humanos envían una sonda a la velocidad de la luz a Alpha Centauri. Comienza con un presentador de noticias, seguido de un reportero entrevistando a un ingeniero jefe de una organización que construyó esta sonda, fundada por United Earth y el Gobierno de Marte, y termina nuevamente con el presentador de noticias.
- Investigadores de Amazon presentan el método ‘HandsOff’...
- Construyendo una matriz de correlación con valores de p en Python
- Nueva técnica de ingeniería de ChatGPT Simulación de programas
AUDIO GENERADO: https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4
Para comprender realmente el funcionamiento interno de esta maravilla, sumerjámonos en la metodología y los detalles de implementación del proceso de generación.
Proceso de Generación
La imagen a continuación resume el proceso completo en un diagrama de flujo simple.
El proceso de generación de audio de extremo a extremo se compone de múltiples submódulos, que se ejecutan en secuencia para un modelo de Texto-a-Audio completo.
Generación de Guion de Audio
WavJourney utiliza el modelo GPT-4 con una plantilla de estímulo predefinida para generar el guion. Las plantillas de estímulo restringen la salida a un formato JSON simple, que puede ser fácilmente analizado posteriormente por un programa informático. Cada guion tiene 3 tipos diferentes de audio como se muestra en la imagen de arriba: Discurso, efectos de sonido y música. Cada tipo de audio luego se puede ejecutar como audio de primer plano o superponerse como un efecto de sonido de fondo sobre otro audio. Otros atributos como la descripción del contenido, la duración y el personaje son atributos suficientes para definir formalmente un entorno de audio para la generación del guion.
Análisis del Guion
El guion resultante se pasa a través de un programa informático, que analiza la información relevante del formato de guion JSON predefinido. Asocia cada descripción y personaje a un audio de habla predefinido. Este proceso ayuda a descomponer el proceso de generación de audio en pasos separados, que incluyen texto a voz, música y agregado de sonido.
Generación de Audio
El guion analizado se ejecuta como un programa de Python. Primero se genera el discurso de primer plano que se superpone con la música de fondo y los efectos de sonido. Para la generación de discurso, el modelo utiliza el modelo Bark pre-entrenado y un modelo de restauración VoiceFixer para mejorar la calidad del audio. Se utilizan los modelos AudioLDM y MusicGen para los efectos de sonido y las superposiciones de música. Las salidas de los tres modelos se combinan para obtener el resultado final del audio.
Creación Humano-Máquina
El proceso mantiene el contexto de los guiones generados y se puede provocar de manera similar a los modelos GPT. Puedes modificar fácilmente el guion generado utilizando la retroalimentación humana y las capacidades de chat de los modelos GPT.
Agregar detalles específicos y efectos de sonido nunca ha sido tan fácil como esto. El diagrama de flujo a continuación muestra lo simple que es agregar o modificar detalles específicos del guion generado.
Conclusión
El modelo de generación de audio puede ser un cambio de juego para la industria del entretenimiento. El proceso tiene la capacidad de generar narrativas e historias cautivadoras, que se pueden utilizar con fines educativos y de entretenimiento, automatizando los tediosos procesos de locución y generación de videos.
Para una comprensión detallada, consulta el artículo aquí. El código estará disponible próximamente en GitHub. Muhammad Arham es un ingeniero de aprendizaje profundo que trabaja en Visión por Computadora y Procesamiento del Lenguaje Natural. Ha trabajado en la implementación y optimización de varias aplicaciones de IA generativa que alcanzaron los primeros puestos a nivel mundial en Vyro.AI. Le interesa construir y optimizar modelos de aprendizaje automático para sistemas inteligentes y cree en la mejora continua.