Consultar un corpus de documentos en modo GPT con Azure Prompt Flow

Consultar corpus de documentos con Azure Prompt Flow en modo GPT

Cómo vectorizar automáticamente contenido y crear mecanismos similares a LangChain para consultar de manera eficiente un corpus de documentos

Foto de Kenny Eliason en Unsplash

La fiebre de GPT

Todas las personas con conocimientos tecnológicos de todo el mundo han estado jugando por un tiempo con ChatGPT…

  • Muchos de ellos lo utilizaron como una base de conocimientos muy inteligente 🔎,
  • Algunos exploraron la “Arte de la Inducción” (o “Ingeniería de Inducción”) para obtener resultados más relevantes, a veces utilizando sus propios datos 🤖,
  • Pero solo unos pocos fueron más allá y aprovecharon soluciones como LangChain para construir flujos de trabajo complejos y crear aplicaciones de la vida real 📚.

Y es cierto que dominar conceptos como “incrustaciones” o “almacenes de vectores”, combinados con requisitos de programación, puede parecer complejo para muchos y evitar que realmente aprovechen el poder de los LLMs.

¡Aquí es donde “Prompt Flow” viene al rescate!

¡Descubramos cómo construir una poderosa herramienta de preguntas y respuestas en bajo código ahora es posible en Azure!

Prerrequisitos

Supondré que tienes los permisos necesarios para crear los recursos necesarios para este tutorial, el más importante es tener un “Espacio de trabajo de Azure Machine Learning Studio”.

Página de inicio de Azure Machine Learning Studio (Imagen del autor)

La funcionalidad de “Prompt Flow”, así como el “Catálogo de Modelos” (que te permite implementar LLMs seleccionados por Azure, Hugging Face, Meta, etc.), actualmente están en versión preliminar privada o pública, por lo que tendrás que unirte a la lista de espera antes de poder activarlos y usarlos.

Catálogo de Modelos y Prompt Flow en Azure Machine Learning Studio (Imagen del autor)

Construyendo un índice vectorial

Entendiendo las incrustaciones

Para procesar de manera eficiente un gran corpus y superar la limitación de tokens de los modelos actuales, necesitas dividir cada documento en fragmentos (por ejemplo, cada página) y convertir…