Investigadores del MIT presentan una nueva atención ligera a múltiples escalas para la segmentación semántica en dispositivos
Investigadores del MIT presentan atención ligera para segmentación semántica en dispositivos
El objetivo de la segmentación semántica, un problema fundamental en la visión por computadora, es clasificar cada píxel en la imagen de entrada con una determinada clase. La conducción autónoma, el procesamiento de imágenes médicas, la fotografía computacional, etc., son solo algunos contextos del mundo real donde la segmentación semántica puede ser útil. Por lo tanto, existe una gran demanda de instalar modelos de segmentación semántica SOTA en dispositivos periféricos para beneficiar a varios consumidores. Sin embargo, los modelos de segmentación semántica SOTA tienen altos requisitos de procesamiento que los dispositivos periféricos no pueden cumplir. Esto impide que estos modelos se utilicen en dispositivos periféricos. La segmentación semántica, en particular, es un ejemplo de una tarea de predicción densa que requiere imágenes de alta resolución y una capacidad robusta de extracción de información de contexto. Por lo tanto, transferir la arquitectura de modelo efectiva utilizada en la clasificación de imágenes y aplicarla a la segmentación semántica es inapropiado.
Cuando se le pide que clasifique los millones de píxeles individuales en una imagen de alta resolución, los modelos de aprendizaje automático enfrentan un desafío formidable. Recientemente, ha surgido un uso altamente efectivo de un nuevo tipo de modelo llamado transformador de visión.
La intención original de los transformadores era mejorar la eficiencia del procesamiento del lenguaje natural para idiomas. En este tipo de configuración, tokenizan las palabras en una oración y crean un diagrama de red que muestra cómo se conectan esas palabras. El mapa de atención mejora la capacidad del modelo para comprender el contexto.
Para generar un mapa de atención, un transformador de visión utiliza la misma idea, dividiendo una imagen en fragmentos de píxeles y codificando cada pequeño fragmento en un token. El modelo utiliza una función de similitud que aprende la interacción directa entre cada par de píxeles para generar este mapa de atención. Al hacerlo, el modelo crea un “campo receptivo global”, lo que le permite percibir todos los detalles importantes en la imagen.
- Rackspace lanza ICE un sistema de IA generativa para acelerar tarea...
- Conoce a NExT-GPT Modelos de Lenguaje Grandes Multimodales de Cualq...
- Cómo usar ChatGPT con Python
El mapa de atención pronto se vuelve muy grande, ya que una imagen de alta resolución puede incluir millones de píxeles divididos en miles de fragmentos. Como resultado, el cálculo necesario para procesar una imagen con una resolución creciente aumenta a una tasa cuadrática.
El equipo del MIT reemplazó la función de similitud no lineal con una lineal para simplificar el método utilizado para construir el mapa de atención en su nueva serie de modelos, denominada EfficientViT. Debido a esto, se puede cambiar el orden en que se realizan las operaciones para reducir la cantidad de cálculos necesarios sin comprometer la funcionalidad o el campo receptivo global, y con su enfoque, la cantidad de tiempo de procesamiento necesario para hacer una predicción escala linealmente con el número de píxeles de la imagen de entrada.
Los nuevos modelos de la familia EfficientViT realizan la segmentación semántica localmente en el dispositivo. EfficientViT se basa en un novedoso módulo de atención multi-escala ligero para un campo receptivo global y aprendizaje multi-escala eficiente en hardware. Enfoques anteriores para la segmentación semántica en SOTA inspiraron este componente.
El módulo se creó para proporcionar acceso a estas dos funcionalidades esenciales minimizando la necesidad de operaciones de hardware ineficientes. Específicamente, proponemos reemplazar la atención propia ineficiente con una atención global ligera basada en ReLU para lograr un campo receptivo internacional. La complejidad computacional de la atención global basada en ReLU se puede reducir de cuadrática a lineal al aprovechar la propiedad asociativa de la multiplicación de matrices. Y debido a que no utiliza algoritmos intensivos en hardware como softmax, se adapta mejor a la segmentación semántica en el dispositivo.
Se han utilizado conjuntos de datos de referencia populares para la segmentación semántica, como Cityscapes y ADE20K, para realizar evaluaciones en profundidad de EfficientViT. En comparación con los modelos de segmentación semántica SOTA anteriores, EfficientViT ofrece mejoras de rendimiento sustanciales.
A continuación se presenta un resumen de las contribuciones:
- Los investigadores han desarrollado una revolucionaria atención multi-escala ligera para realizar la segmentación semántica localmente en el dispositivo. Funciona bien en dispositivos periféricos mientras implementa un campo receptivo global y aprendizaje multi-escala.
- Los investigadores desarrollaron una nueva familia de modelos llamada EfficientViT basada en el módulo de atención multi-escala ligero propuesto.
- El modelo muestra una aceleración significativa en dispositivos móviles en comparación con los modelos de segmentación semántica SOTA anteriores en conjuntos de datos de referencia de segmentación semántica prominentes como ImageNet.
En conclusión, los investigadores del MIT introdujeron un módulo de atención multi-escala ligero que logra un campo receptivo global y aprendizaje multi-escala con operaciones ligeras y eficientes en hardware, lo que proporciona una aceleración significativa en dispositivos periféricos sin pérdida de rendimiento en comparación con los modelos de segmentación semántica SOTA. Los modelos EfficientViT se ampliarán aún más y se investigará su potencial para su uso en otras tareas de visión en futuras investigaciones.