Investigadores de UC Santa Cruz y Samsung presentan ESC un agente de navegación de objetos sin disparos que aprovecha el sentido común en LLMs como ChatGPT para tomar decisiones de navegación.

Investigadores de UC Santa Cruz y Samsung presentan ESC, un agente de navegación de objetos sin disparos que utiliza el sentido común en LLMs como ChatGPT para tomar decisiones de navegación.

La navegación de objetos (ObjNav) guía a un agente físico hacia un objeto de destino preestablecido en un entorno desconocido. Navegar hasta un objeto objetivo es un requisito previo para que el agente interactúe, lo que hace que esta actividad sea crucial para otras tareas de navegación basadas en la encarnación.

Identificar habitaciones y objetos en el entorno (comprensión semántica de la escena) y utilizar el razonamiento del sentido común para inferir la ubicación del objeto objetivo (inferencia del sentido común) son dos habilidades esenciales para una navegación exitosa. Sin embargo, los enfoques actuales de navegación de objetos sin entrenamiento frecuentemente carecen de habilidades de razonamiento del sentido común y no han abordado adecuadamente este requisito. Las técnicas existentes se basan en heurísticas simples para la exploración o requieren entrenamiento en otras tareas de navegación orientadas a objetivos y entornos.

Investigaciones recientes han demostrado que los modelos preentrenados masivos destacan en el aprendizaje y la resolución de problemas sin entrenamiento. Inspirados en esto, la Universidad de California, Santa Cruz, y Samsung Research propusieron un marco de navegación de objetos sin entrenamiento llamado Escalada con restricciones suaves del sentido común (ESC). El marco utiliza modelos preentrenados para adaptarse automáticamente a entornos y tipos de objetos desconocidos.

El equipo primero emplea GLIP, un modelo de vinculación de visión y lenguaje que puede inferir información sobre objetos y habitaciones de las vistas actuales del agente, como un método basado en indicaciones para la vinculación y comprensión de objetos de un mundo abierto. Debido a su extenso preentrenamiento en pares de imágenes y texto, GLIP puede generalizar fácilmente a objetos nuevos con una indicación mínima. Luego, utilizan un modelo de lenguaje de razonamiento del sentido común preentrenado que utiliza los datos de la habitación y el objeto como contexto para inferir la asociación entre ambos.

Sin embargo, todavía hay una carencia en la traducción del conocimiento del sentido común deducido de los LLM en pasos concretos. También es común que exista cierto grado de indeterminación en las conexiones entre las cosas. Utilizando Probabilistic Soft Logic (PSL), un lenguaje de plantillas declarativo que define un subconjunto de campos aleatorios de Markov que se adhieren a los principios lógicos de primer orden, el enfoque ESC modela restricciones de sentido común “suaves” para superar estos obstáculos. La exploración basada en fronteras (FBE) es una estrategia tradicional que utiliza estas suaves limitaciones del sentido común para centrarse en la próxima frontera a investigar. Mientras que los enfoques anteriores se han basado en el entrenamiento de redes neuronales para inculcar implícitamente el sentido común, el método propuesto en su lugar utiliza predicados de lógica suave para expresar conocimiento en un espacio continuo de valores, que luego se proporciona a cada frontera para facilitar una exploración más eficiente.

Para probar la efectividad del sistema, los investigadores utilizan tres puntos de referencia de navegación de objetivos (MP3D, HM3D y RoboTHOR) con tamaños de hogar variables, estilos arquitectónicos, características de textura y tipos de objetos. Los resultados muestran que el enfoque supera a CoW en una configuración similar en aproximadamente un 285% en SPL ponderado por longitud (SPL) y SR (tasa de éxito) en MP3D, y en aproximadamente un 35% y SR (tasa de éxito) en RoboTHOR, respectivamente. La técnica logra un SPL relativo 196% mejor en MP3D y un SPL relativo 85% mejor en HM3D que ZSON, que requiere entrenamiento en el conjunto de datos HM3D. En el conjunto de datos MP3D, el enfoque de cero entrenamiento propuesto logra el SPL más alto en comparación con otros algoritmos supervisados de vanguardia.