¿Tendremos pronto nuestro propio compañero de cine de IA personal?

¿Pronto tendremos nuestro propio compañero de cine de IA?

Video-LLaMA 🦙 explicado en papel.

Tanto si chateamos durante o después de una película, tú y yo sabemos que nos gusta hablar sobre las películas que amamos. Pero, ¿qué tan lejos estamos de hacerlo con IA? Aprovechando poderosos LLMs como LLaMA [1], Video-LLaMA [2] nos acerca un paso más a la realidad de chatear sobre contenido de video. Al final de esta publicación de blog, sabrás cómo Video-LLaMa maneja el contenido visual y auditivo de los videos y qué trucos utilizaron los autores para entrenar el modelo. Pero también aprenderás sobre los desafíos de tratar con datos de video.

Resultados

Entonces, ¿qué logra específicamente Video-LLaMA?

Fuente: [2]

¡Te permite ingresar un video y preguntar no solo sobre su contenido visual, sino también sobre lo que el modelo puede escuchar en el video!

Fuente: [2]

Debido a su arquitectura, el modelo también puede manejar imágenes estáticas, por ejemplo, describirlas con gran detalle o entender el concepto de “inusual” y describir qué es específicamente inusual en la escena respectiva. Esta capacidad se ve realmente mejorada por las capacidades de razonamiento ya existentes de los modernos LLMs utilizados, como LLaMA.

Arquitectura

El subtitulado de imágenes, o más generalmente, modelos de imagen a texto como Flamingo [3], LLaVa [4], BLIP2 [5], Kosmos-1 [6], y -2 [7], generalmente utilizan un codificador de visión como un ViT para incrustar una sola imagen en una secuencia de incrustaciones y luego intentar alinearlas con un LLM. Pero con el video, no tenemos una sola imagen, sino una secuencia de imágenes y tenemos una secuencia de audio correspondiente. Entonces, ¿cómo podemos incrustar un video completo? Bueno, honestamente, de la misma manera.

Arquitectura general de Video-LLaMA. Fuente: [2]