El equipo de PlayHT presenta un modelo de IA con el concepto de emociones para la IA de voz generativa esto te permitirá controlar y dirigir la generación de voz con una emoción particular.

PlayHT presenta un modelo de IA con emociones para controlar y dirigir la generación de voz con una emoción particular.

El reconocimiento de voz es una de las técnicas recientemente desarrolladas en el ámbito del PLN. Los científicos de investigación también desarrollaron modelos de lenguaje grandes para el desarrollo de modelos de IA generativos de texto a voz. Era muy claro que la IA puede lograr resultados como los humanos en términos de calidad de voz, expresiones, comportamiento humano y muchos más. Pero a pesar de todo esto, había problemas asociados con estos modelos. Estos modelos tenían menos diversidad en el lenguaje. Había algunos problemas con el reconocimiento de voz, las emociones y muchos más. Muchos investigadores reconocieron estos problemas y descubrieron que se debían al pequeño conjunto de datos utilizado para el modelo.

Las mejoras comenzaron y el equipo de PlayHT presentó PlayHT2.0 como solución para este estudio de caso. La principal ventaja de este modelo era que utilizaba múltiples idiomas y procesaba un gran número de conjuntos de datos. El tamaño del modelo también se incrementó utilizando este modelo. Los Transformers en PLN también desempeñaron un papel importante en la implementación de este modelo. El modelo procesa las transcripciones dadas y predice el sonido. Esto pasa por un proceso de conversión de texto a voz llamado tokenización. Esto implica transformar códigos simplificados en ondas de sonido para la generación de voz humana.

El modelo tiene inmensas habilidades conversacionales y puede mantener una conversación como los seres humanos normales con algunas emociones. Estas técnicas a través de chatbots de IA son ampliamente utilizadas por muchas empresas multinacionales para llamadas y seminarios en línea. El modelo PlayHT2.0 también ha mejorado la calidad de la voz mediante técnicas de optimización utilizadas en él. También puede replicar la voz exacta. Como el conjunto de datos utilizado para el modelo es extremadamente grande, el modelo también puede hablar otro idioma mientras conserva el original. El proceso de entrenamiento del modelo se llevó a cabo mediante un gran número de épocas y hiperparámetros variables. Esto resultó en que el modelo actuara en una variedad de emociones en las técnicas de reconocimiento de voz.

El modelo aún está en progreso y seguirá mejorando. Los científicos de investigación siguen trabajando en la mejora de las emociones. Los ingenieros de instrucciones y muchos investigadores también descubrieron que el modelo podría actualizarse en las próximas semanas en cuanto a velocidad, precisión y buen puntaje F1.