Un grupo de investigadores de China desarrolló WebGLM un sistema de respuesta a preguntas mejorado para la web basado en el Modelo de Lenguaje General (GLM).

Chinese researchers developed WebGLM, an improved web-based question answering system based on the General Language Model (GLM).

Los modelos de lenguaje grandes (LLM), incluyendo GPT-3, PaLM, OPT, BLOOM y GLM-130B, han empujado significativamente los límites de lo que es posible para las computadoras comprender y producir en términos de lenguaje. Una de las aplicaciones de lenguaje más fundamentales, la respuesta a preguntas, se ha mejorado significativamente gracias a los avances recientes de LLM. Según estudios existentes, el rendimiento de la QA de libro cerrado y la QA de aprendizaje en contexto de LLM está a la par con el de los modelos supervisados, lo que contribuye a nuestra comprensión de la capacidad de los LLM para la memorización. Pero incluso los LLM tienen una capacidad finita, y quedan cortos en las expectativas humanas cuando se enfrentan a problemas que requieren un conocimiento excepcional considerable. Por lo tanto, los intentos recientes se han concentrado en la construcción de LLM mejorados con conocimiento externo, incluyendo la recuperación y la búsqueda en línea. 

Por ejemplo, WebGPT es capaz de navegación en línea, respuestas extensas a consultas complicadas y referencias igualmente útiles. A pesar de su popularidad, el enfoque original de WebGPT aún no se ha adoptado ampliamente. En primer lugar, se basa en muchas anotaciones de nivel experto de trayectorias de navegación, respuestas bien escritas y etiquetado de preferencias de respuesta, todo lo cual requiere recursos costosos, mucho tiempo y una formación extensa. En segundo lugar, al indicarle al sistema que interactúe con un navegador web, dar instrucciones de operación (como “Buscar”, “Leer” y “Citar”), y luego recopilar material pertinente de fuentes en línea, el enfoque de clonación de comportamiento (es decir, aprendizaje por imitación) requiere que su modelo básico, GPT-3, se parezca a los expertos humanos. 

Finalmente, la estructura de múltiples vueltas de navegación web requiere recursos computacionales extensos y puede ser excesivamente lenta para la experiencia del usuario, por ejemplo, WebGPT-13B tarda alrededor de 31 segundos en responder a una consulta de 500 tokens. En este estudio, los investigadores de la Universidad de Tsinghua, la Universidad de Beihang y Zhipu.AI presentan WebGLM, un sólido sistema de aseguramiento de calidad mejorado para la web construido sobre el modelo de lenguaje general de 10 mil millones de parámetros (GLM-10B). La Figura 1 muestra una ilustración de uno de ellos. Es efectivo, asequible, sensible a las preferencias humanas y, lo más importante, tiene una calidad que está a la par con WebGPT. Para lograr un buen rendimiento, el sistema utiliza varios enfoques y diseños novedosos, incluido un recuperador aumentado por LLM, un recuperador de dos etapas que combina la recuperación destilada fina-granulada de LLM con una búsqueda web gruesa. 

La capacidad de los LLM como GPT-3 para aceptar espontáneamente las referencias correctas es la fuente de inspiración de esta técnica, que podría perfeccionarse para mejorar los recuperadores densos más pequeños. Un generador de respuestas basado en GLM-10B, iniciado por LLM en aprendizaje en contexto y capacitado en muestras de QA largas citadas, se conoce como un generador iniciado. Los LLM pueden prepararse para proporcionar datos de alta calidad utilizando un filtrado adecuado basado en citas en lugar de depender de expertos humanos costosos para escribir en WebGPT. Un puntuador que se enseña utilizando señales de pulgar arriba de los usuarios de los foros de QA en línea puede comprender las preferencias de la mayoría humana en cuanto a diversas respuestas. 

Figura 1 muestra una captura de pantalla de la respuesta de WebGLM a una muestra de consulta con enlaces a recursos en línea.

Demuestran que una arquitectura de conjunto de datos adecuada puede producir un puntuador de alta calidad en comparación con la etiquetación de expertos de WebGPT. Los resultados de sus pruebas de ablación cuantitativas y la evaluación humana en profundidad muestran la eficiencia y efectividad del sistema WebGLM. En particular, WebGLM (10B) supera a WebGPT (175B) en su prueba de Turing y supera al tamaño similar de WebGPT (13B). WebGLM es uno de los mejores sistemas de QA mejorados para la web públicamente disponibles en el momento de esta presentación, gracias a su mejora sobre el único sistema públicamente accesible, Perplexity.ai. En conclusión, proporcionan lo siguiente en este documento: • Construyen WebGLM, un eficaz sistema de aseguramiento de calidad mejorado para la web con preferencias humanas. Se desempeña de manera similar a WebGPT (175B) y sustancialmente mejor que WebGPT (13B), de tamaño similar. 

También supera a Perplexity.ai, un sistema popular impulsado por LLMs y motores de búsqueda. • Identifican las limitaciones de WebGPT en implementaciones del mundo real. Proponen un conjunto de nuevos diseños y estrategias para permitir la alta precisión de WebGLM mientras se logran ventajas eficientes y rentables sobre los sistemas de referencia. • Formulan las métricas de evaluación humana para evaluar los sistemas de preguntas y respuestas mejorados para la web. Una amplia evaluación humana y experimentos demuestran la gran capacidad de WebGLM y generan información sobre los futuros desarrollos del sistema. La implementación del código está disponible en GitHub.