Meta AI presenta IMAGEBIND El primer proyecto de IA de código abierto capaz de unir datos de seis modalidades a la vez, sin necesidad de supervisión explícita.
Meta AI presenta IMAGEBIND, el primer proyecto de IA de código abierto para unir datos de seis modalidades simultáneamente sin supervisión explícita.
Los humanos pueden comprender ideas complejas después de haber sido expuestos a solo unos pocos ejemplos. La mayoría de las veces, podemos identificar un animal basados en una descripción escrita y adivinar el sonido del motor de un automóvil desconocido basados en una imagen. Esto se debe en parte a que una sola imagen puede “unir” una experiencia sensorial de otra manera dispar. Basado en datos emparejados, el aprendizaje multimodal estándar tiene limitaciones en la inteligencia artificial a medida que aumenta el número de modalidades.
Alinear texto, audio, etc., con imágenes ha sido el enfoque de varias metodologías recientes. Estas estrategias solo hacen uso de dos sentidos como máximo. Sin embargo, las incrustaciones finales solo pueden representar las modalidades de entrenamiento y sus pares correspondientes. Por esta razón, no es posible transferir directamente las incrustaciones de video-audio a actividades de imagen-texto o viceversa. La falta de grandes cantidades de datos multimodales en los que todas las modalidades estén presentes juntas es una barrera significativa para el aprendizaje de una incrustación conjunta real.
La nueva investigación de Meta presenta IMAGEBIND, un sistema que utiliza varias formas de datos de pares de imágenes para aprender un espacio de representación compartido único. No es necesario utilizar conjuntos de datos en los que todas las modalidades ocurran simultáneamente. En su lugar, este trabajo aprovecha la propiedad de unión de las imágenes y demuestra cómo alinear la incrustación de cada modalidad con las incrustaciones de la imagen resulta en una alineación emergente en todas las modalidades.
La gran cantidad de imágenes y texto acompañante en la web ha llevado a una investigación sustancial en el entrenamiento de modelos de imagen-texto. ImageBind aprovecha el hecho de que las imágenes frecuentemente se coocurren con otras modalidades y pueden servir como un puente para conectarlas, como vincular texto a imagen con datos en línea o vincular movimiento a video con datos de video adquiridos de cámaras portátiles con sensores IMU.
- Un nuevo marco teórico de IA para analizar y limitar la fuga de inf...
- PaLM AI | IA Generativa de creación propia de Google
- Conoce a P+ Un Espacio de Incrustaciones Rico para la Inversión Tex...
Los objetivos para el aprendizaje de características entre modalidades pueden ser las representaciones visuales aprendidas a partir de grandes cantidades de datos web. Esto significa que ImageBind también puede alinear cualquier otra modalidad que frecuentemente aparezca junto a las imágenes. La alineación es más simple para las modalidades como calor y profundidad que se correlacionan altamente con las imágenes.
ImageBind demuestra que solo usando imágenes emparejadas se pueden integrar las seis modalidades. El modelo puede proporcionar una interpretación más holística de la información al permitir que las diversas modalidades “hablen” entre sí y descubran conexiones sin observación directa. Por ejemplo, ImageBind puede vincular sonido y texto incluso si no puede verlos juntos. Al hacerlo, otros modelos pueden “entender” nuevas modalidades sin requerir un entrenamiento extenso en tiempo y energía. El comportamiento de escalado robusto de ImageBind permite utilizar el modelo en lugar o además de muchos modelos de IA que previamente no podían usar modalidades adicionales.
Se demuestra un fuerte rendimiento de clasificación y recuperación de cero disparos en tareas para cada nueva modalidad combinando datos emparejados de imagen-texto a gran escala con datos auto-supervisados naturalmente emparejados en cuatro nuevas modalidades: audio, profundidad, térmica y lecturas de la Unidad de Medición Inercial (IMU). El equipo muestra que al fortalecer la representación subyacente de la imagen se mejoran estas características emergentes.
Los hallazgos sugieren que la clasificación de cero disparos emergente de IMAGEBIND en clasificación y recuperación de audio en benchmarks como ESC, Clotho y AudioCaps está a la par o supera a los modelos expertos entrenados con supervisión directa de audio-texto. En benchmarks de evaluación de pocos disparos, las representaciones de IMAGEBIND también funcionan mejor que los modelos supervisados por expertos. Por último, se demuestra la versatilidad de las incrustaciones conjuntas de IMAGEBIND en varias tareas de composición, incluyendo recuperación cruzada de modalidades, una combinación aritmética de incrustaciones, detección de fuente de audio en imágenes y generación de imágenes a partir de la entrada de audio.
Dado que estas incrustaciones no se entrenan para una aplicación particular, se quedan atrás en eficiencia en comparación con los modelos específicos del dominio. El equipo cree que sería útil aprender más sobre cómo adaptar las incrustaciones de propósito general a objetivos específicos, como tareas de predicción estructurada como la detección.