Entrenamiento a escala web liberado Deepmind presenta OWLv2 y OWL-ST, las herramientas revolucionarias para la detección de objetos de vocabulario abierto, impulsadas por técnicas de autoentrenamiento sin precedentes.
Deepmind ha lanzado OWLv2 y OWL-ST, herramientas innovadoras para la detección de objetos de vocabulario abierto, basadas en técnicas de autoentrenamiento sin igual.
La detección de objetos de vocabulario abierto es un aspecto crítico de diversas tareas de visión por computadora en el mundo real. Sin embargo, la disponibilidad limitada de datos de entrenamiento de detección y la fragilidad de los modelos pre-entrenados a menudo resultan en un rendimiento deficiente y problemas de escalabilidad.
Para enfrentar este desafío, el equipo de investigación de DeepMind presenta el modelo OWLv2 en su último artículo, “Scaling Open-Vocabulary Object Detection”. Esta arquitectura optimizada mejora la eficiencia de entrenamiento e incorpora la receta de autoentrenamiento OWL-ST, mejorando sustancialmente el rendimiento de detección y logrando resultados de vanguardia en la tarea de detección de vocabulario abierto.
El objetivo principal de este trabajo es optimizar el espacio de etiquetas, el filtrado de anotaciones y la eficiencia de entrenamiento para el enfoque de autoentrenamiento de detección de vocabulario abierto, logrando en última instancia un rendimiento de vocabulario abierto robusto y escalable con datos etiquetados limitados.
El enfoque de autoentrenamiento propuesto consta de tres pasos clave:
- Democratiza la detección de defectos de visión por computadora para...
- Construir Tuberías de Aprendizaje Automático Desplegables
- ¿Qué es la IA empresarial?
- El equipo utiliza un detector de vocabulario abierto existente para realizar detección de cajas abiertas en WebLI, un conjunto de datos a gran escala de pares de imágenes y texto web.
- Utilizan OWL-ViT CLIP-L/14 para anotar todas las imágenes de WebLI con pseudoanotaciones de cuadros delimitadores.
- Ajustan el modelo entrenado utilizando datos de detección anotados por humanos, refinando aún más su rendimiento.
Es importante destacar que los investigadores emplean una variante de la arquitectura OWL-ViT para entrenar detectores más efectivos. Esta arquitectura aprovecha modelos de imágenes y texto entrenados de manera contrastiva para inicializar los codificadores de imágenes y texto, mientras que las cabezas de detección se inicializan aleatoriamente.
Durante la etapa de entrenamiento, el equipo utiliza las mismas pérdidas y aumenta las consultas con “pseudo-negativos” de la arquitectura OWL-ViT, optimizando la eficiencia de entrenamiento para maximizar la utilización de las imágenes etiquetadas disponibles.
También incorporan prácticas propuestas anteriormente para el entrenamiento de Transformadores a gran escala para mejorar aún más la eficiencia de entrenamiento. Como resultado, el modelo OWLv2 reduce el número de operaciones de punto flotante en coma (FLOPS) en aproximadamente un 50% y acelera la velocidad de entrenamiento en un 2× en comparación con el modelo OWL-ViT original.
El equipo compara su enfoque propuesto con detectores de vocabulario abierto de vanguardia anteriores en su estudio empírico. La técnica OWL-ST mejora la Precisión Promedio (AP) en clases raras de LVIS del 31.2% al 44.6%. Además, al combinar la receta OWL-ST con la arquitectura OWLv2 se logra un nuevo rendimiento de vanguardia.
En general, la receta OWL-ST presentada en este artículo mejora significativamente el rendimiento de detección aprovechando la supervisión débil de datos web a gran escala, lo que permite el entrenamiento a escala web para la localización en un mundo abierto. Este enfoque aborda las limitaciones planteadas por la escasez de datos de detección etiquetados y demuestra el potencial de lograr una detección de objetos de vocabulario abierto robusta de manera escalable.