Conoce a Seal Un marco de trabajo de IA que persigue Segmentar cualquier secuencia de nube de puntos aprovechando modelos de fundación de visión 2D para el aprendizaje auto-supervisado en nubes de puntos 3D a gran escala.
Conoce a Seal Marco IA para Segmentar secuencias de nube de puntos 3D mediante modelos de visión 2D auto-supervisados a gran escala.
Los modelos de lenguaje grandes (LLMs) han causado furor en la comunidad de Inteligencia Artificial. Su reciente impacto y su increíble rendimiento han contribuido a una amplia gama de industrias como la salud, las finanzas, el entretenimiento, etc. Los conocidos LLMs como GPT-3.5, GPT 4, DALLE 2 y BERT, también conocidos como modelos fundamentales, realizan tareas extraordinarias y facilitan nuestras vidas al generar contenido único dado solo un breve estímulo en lenguaje natural.
Los recientes modelos fundamentales de visión (VFMs) como SAM, X-Decoder y SEEM han avanzado mucho en la visión por computadora. Aunque los VFMs han hecho un tremendo progreso en las tareas de percepción 2D, todavía hay que mejorar la investigación en VFMs 3D. Los investigadores han sugerido que se requiere expandir los actuales VFMs 2D para tareas de percepción 3D. Una tarea crucial de percepción 3D es la segmentación de nubes de puntos capturadas por sensores LiDAR, que es esencial para la operación segura de vehículos autónomos.
Las técnicas existentes de segmentación de nubes de puntos dependen principalmente de conjuntos de datos de gran tamaño que han sido anotados para el entrenamiento; sin embargo, la etiquetación de nubes de puntos es un proceso que consume mucho tiempo y es difícil. Para superar todos los desafíos, un equipo de investigadores ha presentado Seal, un marco que utiliza modelos fundamentales de visión para segmentar diversas secuencias de nubes de puntos de automoción. Inspirado en el aprendizaje de representación multimodal, Seal recopila conocimientos semánticamente ricos de VFMs para respaldar el aprendizaje de representación auto-supervisado en nubes de puntos de automoción. La idea principal es desarrollar muestras contrastantes de alta calidad para el aprendizaje de representación multimodal utilizando una relación 2D-3D entre los sensores LiDAR y de cámara.
Seal posee tres propiedades clave: escalabilidad, consistencia y generalizabilidad.
- Percepción BEV en la conducción autónoma en producción masiva
- Análisis de rendimiento y optimización de modelos PyTorch – P...
- Una Guía Práctica para el Aprendizaje por Transferencia utilizando ...
- Escalabilidad – Seal utiliza VFMs simplemente convirtiéndolos en nubes de puntos, prescindiendo de la necesidad de anotaciones 2D o 3D durante la fase de preentrenamiento. Debido a su escalabilidad, maneja grandes cantidades de datos, lo que incluso ayuda a eliminar la necesidad de anotación humana que consume tiempo.
- Consistencia: La arquitectura impone vínculos espaciales y temporales tanto en la etapa de cámara a LiDAR como en la etapa de punto a segmento. Seal permite un aprendizaje de representación multimodal eficiente capturando las interacciones multimodales entre la visión, es decir, los sensores de cámara y LiDAR que ayudan a asegurar que las representaciones aprendidas incorporen datos pertinentes y coherentes de ambas modalidades.
- Generalizabilidad: Seal permite la transferencia de conocimiento a aplicaciones descendentes que involucren diversos conjuntos de datos de nubes de puntos. Generaliza y maneja conjuntos de datos con diferentes resoluciones, tamaños, grados de limpieza, niveles de contaminación, datos reales y artificiales.
Algunas de las principales contribuciones mencionadas por el equipo son –
- El marco propuesto Seal es un marco escalable, confiable y generalizable creado para capturar la consistencia espacial y temporal consciente de la semántica.
- Permite la extracción de características útiles de las secuencias de nubes de puntos de automóviles.
- Los autores han declarado que este estudio es el primero en utilizar modelos fundamentales de visión 2D para el aprendizaje de representación auto-supervisado a gran escala en nubes de puntos 3D.
- En once conjuntos de datos de nubes de puntos diferentes con diversas configuraciones de datos, SEAL ha tenido un mejor desempeño que los métodos anteriores tanto en la sonda lineal como en la sintonización fina para aplicaciones descendentes.
Para la evaluación, el equipo ha realizado pruebas en once conjuntos de datos de nubes de puntos distintos para evaluar el rendimiento de Seal. Los resultados demostraron la superioridad de Seal sobre los enfoques existentes. En el conjunto de datos de nuScenes, Seal logró una notable Intersección sobre la Unión (mIoU) media del 45,0% después de la sonda lineal. Este rendimiento superó la inicialización aleatoria en un 36,9% de mIoU y superó a los métodos SOTA anteriores en un 6,1% de mIoU. Seal también mostró ganancias significativas de rendimiento en veinte diferentes tareas de sintonización fina de pocos disparos en todos los once conjuntos de datos de nubes de puntos probados.