Investigadores de Google presentan RO-ViT un método sencillo de IA para preentrenar Transformadores de Visión de manera consciente de la región para mejorar la detección de vocabulario abierto.
Los investigadores de Google presentan RO-ViT, un método de IA para preentrenar Transformadores de Visión consciente de la región y mejorar la detección de vocabulario abierto.
Los avances recientes han permitido a las computadoras interpretar y comprender información visual del mundo, de manera similar a la visión humana. Esto implica procesar, analizar y extraer información significativa de imágenes y videos. La Visión por Computadora permite la automatización de tareas que requieren interpretación visual, reduciendo la necesidad de intervención manual. La detección de objetos es una tarea de visión por computadora que implica identificar y localizar múltiples objetos de interés dentro de una imagen o un cuadro de video.
La detección de objetos tiene como objetivo determinar qué objetos están presentes en la escena y proporcionar información sobre dónde se encuentran dentro de la imagen. La mayoría de los detectores de objetos modernos se basan en anotaciones manuales de regiones y etiquetas de clase, lo que limita su tamaño de vocabulario y dificulta su escalabilidad.
En su lugar, se pueden utilizar modelos de visión y lenguaje (VLM) para cerrar la brecha entre el preentrenamiento a nivel de imagen y la puesta a punto a nivel de objeto. Sin embargo, la noción de objetos/regiones debe ser adecuadamente utilizada en el proceso de preentrenamiento en dichos modelos.
Investigadores de Google Brain presentan un modelo simple para cerrar la brecha entre el preentrenamiento a nivel de imagen y la puesta a punto a nivel de objeto. Presentan los Transformadores de Visión Conscientes de Regiones (RO-ViT) para completar la tarea.
- Cómo aproveché los LLM de código abierto para lograr ahorros masivo...
- Los 12 mejores generadores de música de IA en 2023
- Desequilibrio de Clases Desde el Sobremuestreo Aleatorio hasta ROSE
RO-ViT es una forma sencilla de preentrenar transformadores de visión de manera consciente de regiones para la detección de objetos de vocabulario abierto. El preentrenamiento estándar requiere incrustaciones posicionales de imagen completas. En su lugar, los investigadores recortan y redimensionan aleatoriamente regiones de las incrustaciones posicionales en lugar de utilizar las incrustaciones posicionales de la imagen completa. Llaman a este método “Incrustación Posicional Recortada”.
El equipo ha demostrado que el preentrenamiento de imágenes y texto con pérdida focal es más efectivo que la pérdida de entropía cruzada de softmax existente. También han propuesto diversas técnicas novedosas de detección de objetos. Argumentan que los enfoques existentes a menudo pasan por alto objetos novedosos en la etapa de propuesta de objetos debido a que las propuestas necesitan ser más equilibradas.
El equipo afirma que su modelo RO-ViT logra el mejor rendimiento en el benchmark de detección de vocabulario abierto LVIS. Sus estadísticas indican que lo logra en 9 de las 12 métricas de los benchmarks de recuperación de imágenes y texto. Esto refleja que la representación aprendida es beneficiosa a nivel regional y altamente efectiva en la detección de vocabulario abierto.
A medida que avanza la tecnología de detección de objetos, será crucial el desarrollo, implementación y regulación responsables para garantizar que se maximicen sus impactos positivos y se mitiguen los posibles riesgos. En general, se espera que el progreso continuo en la tecnología de detección de objetos contribuya a un futuro más brillante al revolucionar industrias, mejorar la seguridad y la calidad de vida y permitir innovaciones que antes se consideraban ciencia ficción.
Echa un vistazo al Paper y al Blog de Google. Todo el crédito de esta investigación va para los investigadores de este proyecto. Además, no olvides unirte a nuestro SubReddit de ML con más de 29k seguidores, nuestra comunidad de Facebook con más de 40k miembros, nuestro canal de Discord y nuestro boletín de correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos interesantes de IA y más.
Si te gusta nuestro trabajo, te encantará nuestro boletín de noticias.
La entrada Google Researchers Introduce RO-ViT: A Simple AI Method to Pre-Train Vision Transformers in a Region-Aware Manner to Improve Open-Vocabulary Detection apareció primero en MarkTechPost.