Este artículo de IA propone un paradigma efectivo para el entrenamiento y evaluación cuantitativa de la influencia de cada componente en el proceso de navegación visión y lenguaje a gran escala (VLN).
Este artículo de IA propone un paradigma efectivo para la evaluación cuantitativa de la influencia de cada componente en el proceso de VLN a gran escala.
Se han recopilado varias demostraciones humanas para el aprendizaje de la navegación visual, y los recientes conjuntos de datos masivos contienen cientos de escenarios interactivos, lo que ha llevado a mejoras significativas en el rendimiento del agente. Sin embargo, llegar a un entrenamiento tan masivo requiere resolver varios subproblemas clave, como cómo construir grafos de navegación, restaurar imágenes renderizadas corruptas y generar instrucciones de navegación. Todo esto tiene un impacto importante en la calidad de los datos recopilados y, por lo tanto, debe ser explorado en profundidad.
Es necesario investigar cómo utilizar de manera eficiente los datos a gran escala para beneficiar el entrenamiento de agentes de navegación de manera adecuada, y un agente que pueda entender el lenguaje natural humano y navegar en entornos fotorrealistas es un sistema sofisticado y modularizado.
Para entrenar redes de navegación visión-lenguaje a gran escala (VLNs), investigadores de la Australian National University, OpenGVLab, Shanghai AI Laboratory, UNC, Chapel Hill, University of Adelaide y Adobe Research ofrecen un nuevo paradigma evaluando estadísticamente el impacto de cada componente en el proceso. Utilizando el simulador Habitat, utilizan entornos de los conjuntos de datos HM3D y Gibson y construyen grafos de navegación para los entornos. Muestran nuevas trayectorias, crean instrucciones y entrenan agentes para resolver problemas de navegación posteriores.
En contraste con los métodos anteriores como AutoVLN y MARVAL, estos grafos de navegación se construyen con un procedimiento de muestreo y agregación de puntos de vista excesivo, utilizando la heurística de creación de gráficos introducida en. Este enfoque produce redes completamente conectadas con una amplia cobertura al aire libre.
- Excalidraw Cómo expresarte de manera más clara en Ciencia de Datos ...
- Rompiendo la barrera de los datos Cómo el aprendizaje sin datos, el...
- Diez casos comunes de datos incorrectos que debes conocer y sus sol...
Los investigadores también entrenan la Co-Modulated GAN para generar imágenes fotorrealistas a partir de secciones rotas, deformadas o faltantes en imágenes generadas corruptas de la configuración de HM3D y Gibson, reduciendo el impacto del ruido visual en los datos. En contraste con MARVAL, este régimen de entrenamiento a gran escala es totalmente reproducible y fácil de ejecutar, al tiempo que mejora significativamente el rendimiento del agente.
Los experimentos extensivos muestran que si el agente debe desempeñarse mejor en tareas posteriores con instrucciones específicas, como R2R, el grafo de navegación debe ser totalmente transitable. Además, demuestran los beneficios de recuperar imágenes fotorrealistas de imágenes generadas, especialmente para los escaneos 3D de baja calidad de los hábitats de Gibson. Los hallazgos también indican que los agentes pueden utilizar generalmente datos visuales más diversos y pueden mejorar su generalización a contextos nuevos al aprender de nuevas escenas en lugar de simplemente más datos.
Además, el equipo verifica que un agente entrenado con instrucciones aumentadas proporcionadas por un modelo básico basado en LSTM puede desempeñarse bien en diversas tareas de navegación. Concluyen que la capacidad de generalización del agente se puede mejorar al integrar los datos aumentados con los datos originales durante el preentrenamiento y el ajuste fino.
Sorprendentemente, utilizando el análisis anterior como pautas para la ampliación de datos y el entrenamiento del agente, el modelo VLN propuesto puede lograr un 80% de SR en la división de prueba de R2R a través del aprendizaje simple por imitación sin exploración previa, búsqueda de haz o combinación de modelos y eliminar la brecha de navegación entre entornos vistos y no vistos. Este resultado es una gran mejora sobre el enfoque anterior más efectivo (73%), reduciendo la brecha de rendimiento a solo 6 puntos porcentuales de los niveles humanos. El enfoque en varios desafíos de navegación visual guiados por el lenguaje, como CVDN y REVERIE, ha impulsado el estado del arte. El rendimiento de VLN se mejora en un 5% de SR en entornos continuos (R2R-CE), un escenario más realista pero desafiante, a pesar de que los datos mejorados son discretos.