¿Qué pueden hacer los esbozos humanos para la detección de objetos? Ideas sobre la recuperación de imágenes basada en esbozos

Esbozos humanos en detección de objetos ideas de recuperación de imágenes basadas en esbozos

Desde tiempos prehistóricos, los seres humanos han utilizado bocetos para transmitir y documentar ideas. Incluso en presencia del lenguaje, su capacidad de expresividad sigue siendo inigualable. Considera los momentos en los que sientes la necesidad de recurrir a un lápiz y papel (o a un pizarrón de Zoom) para esbozar una idea.

En la última década, la investigación sobre bocetos ha experimentado un crecimiento significativo. Una amplia gama de estudios ha abarcado varios aspectos, incluyendo tareas tradicionales como clasificación y síntesis, así como temas más específicos de los bocetos, como modelado de abstracción visual, transferencia de estilo y ajuste continuo de trazos. Además, ha habido aplicaciones divertidas y prácticas, como convertir bocetos en clasificadores de fotos.

Sin embargo, la exploración de la expresividad de los bocetos se ha centrado principalmente en la recuperación de imágenes basada en bocetos (SBIR, por sus siglas en inglés), particularmente en su variante de granularidad fina (FGSBIR). Por ejemplo, supongamos que estás buscando una foto específica de un perro en tu colección, el hecho de esbozar su imagen en tu mente puede ayudarte a encontrarlo más rápido.

Se ha logrado un progreso notable y los sistemas recientes han alcanzado un nivel de madurez adecuado para su uso comercial.

En el artículo de investigación reportado en este artículo, los autores exploran el potencial de los bocetos humanos para mejorar tareas fundamentales de visión, centrándose particularmente en la detección de objetos. La descripción general del enfoque propuesto se presenta en la siguiente figura.

https://arxiv.org/abs/2303.15149

El objetivo es desarrollar un marco de detección de objetos habilitado para bocetos que detecte objetos basándose en el contenido del boceto, permitiendo a los usuarios expresarse visualmente. Por ejemplo, cuando una persona dibuja una escena como “una cebra comiendo hierba”, el marco propuesto debería ser capaz de detectar esa cebra específica entre un grupo de cebras, utilizando la detección consciente de instancias. Además, permitirá a los usuarios ser específicos acerca de las partes del objeto, lo que permite la detección consciente de partes. Por lo tanto, si alguien desea enfocarse únicamente en la “cabeza” de la “cebra”, puede dibujar la cabeza de la cebra para lograr este resultado deseado.

En lugar de desarrollar un modelo de detección de objetos habilitado para bocetos desde cero, los investigadores demuestran una integración perfecta entre modelos fundamentales, como CLIP, y modelos disponibles de SBIR, lo que aborda elegantemente el problema. Este enfoque aprovecha las fortalezas de CLIP para la generalización del modelo y SBIR para cerrar la brecha entre bocetos y fotos.

Para lograr esto, los autores adaptan CLIP para crear codificadores de bocetos y fotos (ramas dentro de un modelo compartido de SBIR) mediante el entrenamiento de vectores de instrucción independientes por separado para cada modalidad. Durante el entrenamiento, estos vectores de instrucción se agregan a la secuencia de entrada de la primera capa transformadora de la columna vertebral ViT de CLIP, mientras que los demás parámetros se mantienen congelados. Esta integración introduce la generalización del modelo a las distribuciones aprendidas de bocetos y fotos.

A continuación, se presentan algunos resultados específicos para la tarea de recuperación de la FGSBIR entre categorías cruzadas.

https://arxiv.org/abs/2303.15149

Esto fue un resumen de una nueva técnica de IA para la recuperación de imágenes basada en bocetos. Si estás interesado y deseas obtener más información sobre este trabajo, puedes encontrar información adicional haciendo clic en los enlaces a continuación.