Este artículo de investigación de IA presenta una encuesta exhaustiva del aprendizaje profundo para la localización y mapeo visual

Este artículo presenta una encuesta del aprendizaje profundo para la localización y mapeo visual.

Si te pregunto: “¿Dónde estás ahora?” o “¿Cómo es tu entorno?”, podrás responder de inmediato gracias a una habilidad única conocida como percepción multisensorial en los humanos que te permite percibir tu movimiento y el entorno que te rodea, asegurando que tengas una conciencia espacial completa. Pero piensa en cómo abordaría el mismo desafío un robot:

El problema es que si este robot no tiene un mapa, no puede saber dónde está, y si no sabe cómo es su entorno, tampoco puede crear un mapa. Básicamente, esto se convierte en un problema de “¿qué fue primero, el huevo o la gallina?” que en el mundo del aprendizaje automático en este contexto se conoce como un problema de localización y mapeo.

“La localización” es la capacidad de adquirir información interna del sistema relacionada con el movimiento de un robot, incluyendo su posición, orientación y velocidad. Por otro lado, “el mapeo” se refiere a la capacidad de percibir las condiciones ambientales externas, abarcando aspectos como la forma del entorno, sus características visuales y atributos semánticos. Estas funciones pueden operar de forma independiente, con una enfocada en los estados internos y la otra en las condiciones externas, o pueden trabajar juntas como un sistema único conocido como Localización y Mapeo Simultáneos (SLAM, por sus siglas en inglés).

Los desafíos existentes con algoritmos como la relocalización basada en imágenes, la odometría visual y SLAM incluyen mediciones imperfectas de los sensores, escenas dinámicas, condiciones de iluminación adversas y limitaciones del mundo real que dificultan en cierta medida su implementación práctica. La imagen anterior muestra cómo se pueden integrar módulos individuales en un sistema SLAM basado en el aprendizaje profundo. Este estudio presenta una encuesta exhaustiva sobre cómo los enfoques basados en el aprendizaje profundo y los enfoques tradicionales responden simultáneamente a dos preguntas esenciales:

  1. ¿Es prometedor el aprendizaje profundo para la localización y el mapeo visual?

Los investigadores creen que las tres propiedades enumeradas a continuación podrían convertir al aprendizaje profundo en una dirección única para un sistema SLAM de propósito general en el futuro.

  • En primer lugar, el aprendizaje profundo ofrece herramientas poderosas de percepción que se pueden integrar en la parte frontal visual de SLAM para extraer características en áreas desafiantes para la estimación de la odometría o la relocalización y proporcionar una profundidad densa para el mapeo.
  • En segundo lugar, el aprendizaje profundo capacita a los robots con capacidades avanzadas de comprensión e interacción. Las redes neuronales son excelentes para vincular conceptos abstractos con términos comprensibles para los humanos, como etiquetar la semántica de la escena dentro de un sistema de mapeo o SLAM, que suelen ser difíciles de describir utilizando métodos matemáticos formales.
  • Finalmente, los métodos de aprendizaje permiten que los sistemas SLAM o los algoritmos de localización/mapeo individual aprendan de la experiencia y aprovechen activamente nueva información para el autoaprendizaje.
  1. ¿Cómo se puede aplicar el aprendizaje profundo para resolver el problema de la localización y el mapeo visual?
  • El aprendizaje profundo es una herramienta versátil para modelar diversos aspectos de SLAM y algoritmos de localización/mapeo individual. Por ejemplo, se puede utilizar para crear modelos de redes neuronales de extremo a extremo que estimen directamente la pose a partir de imágenes. Es particularmente beneficioso para manejar condiciones desafiantes como áreas sin características, iluminación dinámica y desenfoque de movimiento, donde los métodos de modelado convencionales pueden tener dificultades.
  • El aprendizaje profundo se utiliza para resolver problemas de asociación en SLAM. Ayuda en la relocalización, el mapeo semántico y la detección de cierre de bucle, conectando imágenes con mapas, etiquetando píxeles de manera semántica y reconociendo escenas relevantes de visitas anteriores.
  • El aprendizaje profundo se aprovecha para descubrir características relevantes para la tarea de interés automáticamente. Al explotar el conocimiento previo, por ejemplo, las restricciones geométricas, se puede establecer automáticamente un marco de trabajo de autoaprendizaje para SLAM para actualizar los parámetros en función de las imágenes de entrada.

Cabe señalar que las técnicas de aprendizaje profundo dependen de conjuntos de datos grandes y correctamente etiquetados para extraer patrones significativos, pero pueden tener dificultades para generalizar a entornos desconocidos. Estos modelos carecen de interpretabilidad, a menudo funcionando como cajas negras. Además, los sistemas de localización y mapeo pueden ser intensivos en cómputo aunque altamente paralelizables a menos que se apliquen técnicas de compresión del modelo.