¿Tendremos pronto nuestro propio compañero de cine de IA personal?
¿Pronto tendremos nuestro propio compañero de cine de IA?
Video-LLaMA 🦙 explicado en papel.
Tanto si chateamos durante o después de una película, tú y yo sabemos que nos gusta hablar sobre las películas que amamos. Pero, ¿qué tan lejos estamos de hacerlo con IA? Aprovechando poderosos LLMs como LLaMA [1], Video-LLaMA [2] nos acerca un paso más a la realidad de chatear sobre contenido de video. Al final de esta publicación de blog, sabrás cómo Video-LLaMa maneja el contenido visual y auditivo de los videos y qué trucos utilizaron los autores para entrenar el modelo. Pero también aprenderás sobre los desafíos de tratar con datos de video.
Resultados
Entonces, ¿qué logra específicamente Video-LLaMA?
![Fuente: [2]](https://miro.medium.com/v2/resize:fit:640/1*BINhs5KEPcs6-WmdU9jP3g.gif)
¡Te permite ingresar un video y preguntar no solo sobre su contenido visual, sino también sobre lo que el modelo puede escuchar en el video!
![Fuente: [2]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*2OtwjkFhqKYl0bbaE2q7fQ.png)
Debido a su arquitectura, el modelo también puede manejar imágenes estáticas, por ejemplo, describirlas con gran detalle o entender el concepto de “inusual” y describir qué es específicamente inusual en la escena respectiva. Esta capacidad se ve realmente mejorada por las capacidades de razonamiento ya existentes de los modernos LLMs utilizados, como LLaMA.
- 3 Mejores (A menudo mejores) Alternativas a los Histogramas
- Un pequeño paso para los artistas, un gran salto para la creatividad
- La creciente sed de la IA puede causar escasez global de agua
Arquitectura
El subtitulado de imágenes, o más generalmente, modelos de imagen a texto como Flamingo [3], LLaVa [4], BLIP2 [5], Kosmos-1 [6], y -2 [7], generalmente utilizan un codificador de visión como un ViT para incrustar una sola imagen en una secuencia de incrustaciones y luego intentar alinearlas con un LLM. Pero con el video, no tenemos una sola imagen, sino una secuencia de imágenes y tenemos una secuencia de audio correspondiente. Entonces, ¿cómo podemos incrustar un video completo? Bueno, honestamente, de la misma manera.
![Arquitectura general de Video-LLaMA. Fuente: [2]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*ANl5_qohxSdIOg21ooHEeg.png)