Investigadores de CMU presentan BUTD-DETR un modelo de Inteligencia Artificial (IA) que se condiciona directamente a una expresión de lenguaje y detecta todos los objetos que menciona la expresión.
Investigadores de CMU presentan BUTD-DETR, un modelo de IA que se condiciona a una expresión de lenguaje y detecta los objetos mencionados.
Encontrar todos los “objetos” en una imagen dada es la base de la visión por computadora. Al crear un vocabulario de categorías y entrenar un modelo para reconocer instancias de este vocabulario, se puede evitar la pregunta, “¿Qué es un objeto?” La situación empeora cuando se intenta utilizar estos detectores de objetos como agentes domésticos prácticos. Los modelos a menudo aprenden a seleccionar el artículo referenciado de un conjunto de sugerencias de objetos que ofrece un detector preentrenado cuando se les solicita fundamentar enunciados referenciales en entornos 2D o 3D. Como resultado, el detector puede pasar por alto enunciados que se relacionan con cosas visuales más detalladas, como la silla, la pata de la silla o la punta frontal de la pata de la silla.
El equipo de investigación presenta un Detector de Transformación de Detección (BUTD-DETR, pronunciado Beauty-DETER) de abajo hacia arriba y de arriba hacia abajo como un modelo que se condiciona directamente a una expresión hablada y encuentra todos los elementos mencionados. BUTD-DETR funciona como un detector de objetos normal cuando la expresión es una lista de categorías de objetos. Se entrena en pares de imágenes y lenguaje etiquetados con las cajas delimitadoras de todos los elementos mencionados en el discurso, así como en conjuntos de datos de detección de objetos con vocabulario fijo. Sin embargo, con algunos ajustes, BUTD-DETR también puede anclar frases de lenguaje en nubes de puntos 3D e imágenes 2D.
En lugar de seleccionarlos al azar de un conjunto, BUTD-DETR decodifica las cajas de objetos prestando atención a la entrada verbal y visual. La atención de abajo hacia arriba, agnóstica de la tarea, puede pasar por alto algunos detalles al localizar un elemento, pero la atención dirigida por el lenguaje completa los vacíos. Una escena y una expresión hablada se utilizan como entrada para el modelo. Se extraen sugerencias de cajas utilizando un detector que ya ha sido entrenado. A continuación, se extraen tokens visuales, de caja y lingüísticos de la escena, las cajas y el discurso utilizando codificadores específicos de cada modalidad. Estos tokens adquieren significado dentro de su contexto al prestar atención unos a otros. Las entradas visuales refinadas inician las consultas de objetos que decodifican cajas y se extienden sobre muchas secuencias.
La práctica de la detección de objetos es un ejemplo de lenguaje referencial fundamentado, donde la expresión es la etiqueta de categoría para la cosa que se está detectando. Los investigadores utilizan la detección de objetos como el fundamento referencial de las indicaciones de detección seleccionando al azar ciertas categorías de objetos del vocabulario del detector y generando expresiones sintéticas al secuenciarlas (por ejemplo, “Sofá. Persona. Silla.”). Estas señales de detección se utilizan como información de supervisión complementaria, con el objetivo de encontrar todas las apariciones de las etiquetas de categoría especificadas en la señal dentro de la escena. Se instruye al modelo que evite hacer asociaciones de caja para las etiquetas de categoría para las cuales no hay ejemplos de entrada visual (como “persona” en el ejemplo anterior). Con este enfoque, un solo modelo puede fundamentar el lenguaje y reconocer objetos al compartir los mismos datos de entrenamiento para ambas tareas.
- ByteDance AI Research propone un nuevo marco de aprendizaje auto-su...
- Meta AI presenta IMAGEBIND El primer proyecto de IA de código abier...
- Un nuevo marco teórico de IA para analizar y limitar la fuga de inf...
Resultados
El MDETR-3D desarrollado tiene un rendimiento deficiente en comparación con modelos anteriores, mientras que BUTD-DETR logra un rendimiento de vanguardia en la fundamentación del lenguaje 3D.
BUTD-DETR también funciona en el dominio 2D y, con mejoras arquitectónicas como la atención deformable, logra un rendimiento comparable a MDETR mientras converge el doble de rápido. El enfoque da un paso hacia la unificación de modelos de fundamentación para 2D y 3D, ya que se puede adaptar fácilmente para funcionar en ambas dimensiones con ajustes menores.
Para todos los puntos de referencia de fundamentación del lenguaje 3D, BUTD-DETR demuestra mejoras significativas en comparación con los métodos de vanguardia (SR3D, NR3D, ScanRefer). Además, fue la mejor contribución en el taller ECCV sobre Lenguaje para Escenas 3D, donde se llevó a cabo la competencia ReferIt3D. Sin embargo, cuando se entrena con grandes cantidades de datos, BUTD-DETR puede competir con los mejores enfoques existentes para los puntos de referencia de fundamentación del lenguaje 2D. Específicamente, la atención deformable eficiente de los investigadores en el modelo 2D permite que el modelo converja el doble de rápido que MDETR de vanguardia.
El video a continuación describe el flujo de trabajo completo.