Google DeepMind y los investigadores de la Universidad de Tokio presentan WebAgent un agente impulsado por LLM que puede completar tareas en sitios web reales siguiendo instrucciones en lenguaje natural.
Google DeepMind y la Universidad de Tokio presentan WebAgent, un agente impulsado por LLM que completa tareas en sitios web reales según instrucciones en lenguaje natural.
Varias actividades de lenguaje natural, incluyendo aritmética, sentido común, razonamiento lógico, tareas de preguntas y respuestas, producción de texto e incluso tareas de toma de decisiones interactivas, pueden resolverse utilizando grandes modelos de lenguaje (LLM). Al utilizar la capacidad de comprensión de HTML y el razonamiento de múltiples pasos, los LLM han demostrado recientemente un excelente éxito en la navegación web autónoma, donde los agentes controlan computadoras o navegan por Internet para satisfacer las instrucciones dadas en lenguaje natural a través de una secuencia de acciones informáticas. La falta de un espacio de acciones predefinido, las observaciones HTML más largas en comparación con los simuladores y la falta de conocimiento del dominio HTML en los LLM han afectado negativamente la navegación web en sitios web del mundo real (Figura 1).
Dada la complejidad de las instrucciones y los sitios web del mundo real de final abierto, no puede ser fácil elegir el espacio de acciones correcto de antemano. Los últimos LLM solo a veces tienen diseños óptimos para procesar textos HTML, aunque diversos estudios de investigación han afirmado que el ajuste de instrucciones o el aprendizaje por refuerzo a partir de la entrada humana aumenta la comprensión de HTML y la precisión de la navegación en línea. La mayoría de los LLM priorizan la generalización de tareas amplias y la escalabilidad del tamaño del modelo al priorizar duraciones de contexto más cortas en comparación con los tokens HTML típicos que se encuentran en las páginas web reales y al no adoptar enfoques anteriores para documentos estructurados, incluida la alineación de texto-XPath y la separación de tokens texto-HTML.
Incluso aplicar alineaciones a nivel de token a esos textos largos sería relativamente económico. Al agrupar operaciones web canónicas en el espacio del programa, ofrecen WebAgent, un agente autónomo impulsado por LLM que puede realizar tareas de navegación en sitios web reales siguiendo comandos humanos. Al descomponer las instrucciones en lenguaje natural en pasos más pequeños, WebAgent:
- Planea sub-instrucciones para cada paso.
- Resume páginas HTML largas en fragmentos relevantes para la tarea según las sub-instrucciones.
- Ejecuta sub-instrucciones y fragmentos HTML en sitios web reales.
- Las 8 mejores mezcladoras de fotos de IA en 2023
- MLOps abarcando todo el ciclo de vida del aprendizaje automático Re...
- Explorando NLP – Iniciando NLP (Paso #4)
En este estudio, investigadores de Google DeepMind y la Universidad de Tokio combinan dos LLM para crear WebAgent: el recientemente creado HTML-T5, un modelo de lenguaje preentrenado por expertos en el dominio, se utiliza para la planificación del trabajo y la sumarización condicional de HTML. Se utiliza Flan-U-PaLM para la generación de código fundamentado. Al incluir métodos de atención local y global en el codificador, HTML-T5 se especializa en capturar mejor la sintaxis y la semántica de la estructura de las páginas HTML largas. Es auto-supervisado, preentrenado en un corpus HTML considerable creado por CommonCrawl1 utilizando una combinación de objetivos de eliminación de ruido de largo alcance. Los agentes impulsados por LLM existentes completan con frecuencia tareas de toma de decisiones utilizando un solo LLM para generar varios ejemplos para cada tarea. Sin embargo, esto es insuficiente para tareas del mundo real porque su complejidad supera la de los simuladores.
De acuerdo con evaluaciones exhaustivas, su estrategia integrada con modelos de lenguaje plugin aumenta la comprensión y el fundamento de HTML y proporciona una mayor generalización. Las investigaciones exhaustivas demuestran que vincular la planificación de tareas con el resumen de HTML en modelos de lenguaje especializados es crucial para el rendimiento de las tareas, aumentando la tasa de éxito en la navegación en línea del mundo real en más del 50%. WebAgent supera a los LLM individuales en tareas de comprensión de sitios web estáticos en cuanto a precisión de preguntas y respuestas y tiene un rendimiento comparable a baselines sólidos. Además, HTML-T5 funciona como un plugin clave para WebAgent y produce resultados de vanguardia de forma independiente en trabajos basados en la web. En la prueba MiniWoB++, HTML-T5 supera a los modelos de atención local-global ingenuos y a sus variaciones ajustadas a instrucciones, logrando un 14,9% más de éxito que la mejor técnica anterior.
Principalmente, han contribuido a:
• Proporcionan WebAgent, que combina dos LLMs para la navegación web práctica. El modelo de lenguaje generalista produce programas ejecutables, mientras que el modelo de lenguaje experto en el dominio se encarga de la planificación y los resúmenes HTML.
• Mediante la adopción de atenciones local-globales y el preentrenamiento utilizando una combinación de eliminación de ruido a largo plazo en corpus HTML a gran escala, proporcionan HTML-T5, nuevos modelos de lenguaje específicos para HTML.
• En el sitio web real, HTML-T5 aumenta significativamente las tasas de éxito en más del 50%, y en MiniWoB++, supera a los agentes LLM anteriores en un 14.9%.