Conoce LLM-AUGMENTER la arquitectura de Microsoft Research para mejorar LLMs con memoria, conocimiento y retroalimentación externa

LLM-AUGMENTER Microsoft Research's architecture to enhance LLMs with memory, knowledge, and external feedback.

El nuevo marco puede servir como referencia para soluciones de LLM listas para producción.

Creado usando Midjourney

Recientemente comencé un boletín educativo centrado en la IA, que ya cuenta con más de 160.000 suscriptores. TheSequence es un boletín orientado al ML (sin exageraciones, sin noticias, etc.) que se lee en 5 minutos. El objetivo es mantenerte actualizado sobre proyectos de aprendizaje automático, artículos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:

TheSequence | Jesus Rodriguez | Substack

La mejor fuente para mantenerte actualizado sobre los avances en aprendizaje automático, inteligencia artificial y datos…

thesequence.substack.com

Se ha reconocido ampliamente las impresionantes capacidades de los Modelos de Lenguaje Grande (LLMs), como ChatGPT. Estos modelos destacan en la generación de textos en lenguaje natural que son fluidos, coherentes e informativos. Su rendimiento excepcional se debe a la abundancia de conocimientos del mundo codificados y a su capacidad para generalizar a partir de ellos. Sin embargo, la codificación de conocimientos en los LLMs es propensa a pérdidas, y el proceso de generalización puede llevar a una “distorsión de la memoria”. En consecuencia, estos modelos a menudo exhiben alucinaciones, lo que puede ser problemático cuando se implementan en tareas críticas. Además, a pesar del crecimiento exponencial en el tamaño de los modelos, los LLMs son incapaces de codificar toda la información necesaria para muchas aplicaciones. Por ejemplo, la naturaleza dinámica de los entornos del mundo real hace que los LLMs se vuelvan rápidamente obsoletos para tareas sensibles al tiempo, como responder preguntas de noticias. Además, numerosos conjuntos de datos propietarios son inaccesibles para el entrenamiento de LLMs debido a preocupaciones de privacidad. Recientemente, Microsoft Research publicó un artículo presentando LLM-AUGMENTER, un marco diseñado para mejorar los LLMs con conocimiento externo y retroalimentación automatizada.

Funcionalmente, LLM-AUGMENTER combina la ampliación de conocimientos y la memoria en una arquitectura coherente. La siguiente figura ilustra LLM-AUGMENTER en el contexto de un escenario de fútbol. Cuando se presenta con una consulta del usuario, como una pregunta sobre una transferencia de jugadores que involucra al Los Angeles Galaxy de 2013, LLM-AUGMENTER recupera evidencia de…