Cómo construí un sistema de recomendación de videos utilizando modelos de lenguaje grandes y una base de datos de vectores
Construcción de un sistema de recomendación de videos con modelos de lenguaje grandes y base de datos de vectores.
Aproveche los modelos de lenguaje grandes, las herramientas de análisis de texto y voz de última generación, y las bases de datos vectoriales para construir una solución de recomendación de audio de principio a fin.
Introducción
Nuestra generación tiene la suerte de tener servicios de transmisión de cualquier tipo a nuestra disposición, desde contenido de audio hasta video.
Desde nuestros teléfonos, computadoras portátiles y otros dispositivos digitales, podemos sentirnos fácilmente abrumados debido a la rapidez con la que se generan esos servicios.
Al final del día, solo estaremos interesados en un tipo específico de contenido, no en las canciones o podcasts generados por todo el universo 🌏.
En este artículo, aprenderás cómo aprovechar los modelos de lenguaje grandes y las bases de datos vectoriales para crear un sistema de recomendación de audio, que sugiera los mejores videos basados en los intereses de los usuarios.
Flujo de trabajo y componentes principales de la recomendación
Antes de sumergirnos en la implementación técnica, veamos el flujo de trabajo general del sistema de recomendación que estamos tratando de construir.
- Simplificando Transformers NLP de última generación utilizando pala...
- Aprende de los mejores 10 blogs de empresas de tecnología que debes...
- Las ondas de giro más rápidas pueden permitir sistemas de computaci...

- Primero, recopilamos videos y los transformamos en audio utilizando Python.
- Luego, se utiliza el modelo
whisper
de OpenAI para transcribir el audio a texto. - Después de eso, utilizamos el modelo
text-embedding-ada-002
para generar incrustaciones de transcripción. - Estas incrustaciones se utilizan para poblar una base de datos vectorial, que se utiliza para realizar consultas.
Una breve descripción general del modelo whisper
El modelo whisper
es un potente modelo de texto a voz y fue desarrollado para estudiar la capacidad de los sistemas de procesamiento de voz para tareas como reconocimiento y traducción de voz.
El modelo fue entrenado con 680,000 horas de datos de audio etiquetados, que según los autores es uno de los más grandes jamás creados en reconocimiento de voz supervisado.