Investigación de Inteligencia Artificial de Google propone VidLNs un procedimiento de anotación que obtiene descripciones de video enriquecidas que son semánticamente correctas y densamente fundamentadas con localizaciones espaciotemporales precisas.
La investigación de IA de Google propone VidLNs, un método de anotación que genera descripciones de video precisas y fundamentadas en localizaciones espaciotemporales.
La investigación en visión y lenguaje es un campo en constante evolución que ha presenciado avances notables recientemente, especialmente en conjuntos de datos que establecen conexiones entre imágenes estáticas y sus correspondientes leyendas. Estos conjuntos de datos también implican asociar ciertas palabras dentro de las leyendas con regiones específicas dentro de las imágenes, utilizando diversas metodologías. Un enfoque intrigante es presentado por las últimas Narrativas Localizadas (ImLNs), que ofrecen una solución atractiva: los anotadores describen verbalmente una imagen mientras mueven simultáneamente el cursor del ratón sobre las regiones de las que están hablando. Este proceso dual de lenguaje y movimiento del cursor refleja la comunicación natural y proporciona una fundamentación visual exhaustiva para cada palabra. Sin embargo, cabe destacar que las imágenes estáticas solo capturan un único momento en el tiempo. La perspectiva de anotar videos resulta aún más fascinante, ya que los videos representan narrativas completas, mostrando eventos con múltiples entidades y objetos interactuando de manera dinámica.
Para abordar esta tarea compleja y que consume mucho tiempo, se ha presentado un enfoque de anotación mejorado para extender las ImLNs a videos.
A continuación se presenta el flujo de trabajo de la técnica propuesta.
Este nuevo protocolo permite a los anotadores crear la narrativa del video en un entorno controlado. Los anotadores comienzan observando cuidadosamente el video, identificando los personajes principales (como “hombre” u “avestruz”) y seleccionando cuadros clave fundamentales que representan momentos significativos para cada personaje.
- Investigadores de ETH Zurich presentan la Mano Faive impulsada por ...
- 3 Formas Sencillas de Comparar Dos DataFrames de Pandas
- AI médica multimodal
A continuación, se construye la narrativa para cada personaje de forma individual. Los anotadores articulan la participación del personaje en diversos eventos utilizando descripciones verbales al tiempo que guían el cursor sobre los cuadros clave para resaltar objetos y acciones relevantes. Estas descripciones verbales abarcan el nombre del personaje, sus atributos y, especialmente, las acciones que realiza, incluyendo interacciones con otros personajes (por ejemplo, “jugando con el avestruz”) y objetos inanimados (por ejemplo, “agarrando la taza de comida”). Para proporcionar un contexto comprensivo, los anotadores también proporcionan una descripción breve del fondo en una fase separada.
El uso efectivo de cuadros clave elimina la limitación de tiempo, mientras que la creación de narraciones distintas para cada personaje permite desentrañar situaciones complejas. Este desentrañamiento facilita la representación completa de eventos multifacéticos que involucran a múltiples personajes interactuando entre sí y con numerosos objetos pasivos. Al igual que ImLN, este protocolo aprovecha segmentos de rastreo del cursor para localizar cada palabra. El estudio también implementa varias medidas adicionales para garantizar localizaciones precisas, superando los logros del trabajo anterior.
Los investigadores realizaron anotaciones en diferentes conjuntos de datos utilizando Narrativas Localizadas en Video (VidLNs). Los videos considerados representan escenarios complejos con interacciones entre diversos personajes y objetos inanimados, lo que da lugar a narrativas cautivadoras descritas a través de anotaciones detalladas. A continuación se muestra un ejemplo.
La profundidad del conjunto de datos VidLNs establece una base sólida para diversas tareas, como la Fundamentación Narrativa en Video (VNG) y la Respuesta a Preguntas en Video (VideoQA). El desafío VNG recientemente introducido requiere el desarrollo de una técnica capaz de localizar sustantivos en una narrativa de entrada mediante la generación de máscaras de segmentación en los fotogramas del video. Esta tarea presenta un desafío significativo, ya que el texto frecuentemente incluye sustantivos idénticos que requieren desambiguación, un proceso que aprovecha pistas contextuales de palabras circundantes. Aunque estos nuevos puntos de referencia siguen siendo desafíos complejos lejos de estar completamente resueltos, el enfoque propuesto revela avances significativos en la dirección correcta (consulte el artículo publicado para obtener más información).
Este fue el resumen de Video Localized Narratives, una nueva forma de anotaciones multimodales de video que conecta la visión y el lenguaje. Si estás interesado/a y quieres aprender más al respecto, por favor no dudes en consultar los enlaces citados a continuación.