Más allá de ChatGPT; Agente de IA Un nuevo mundo de trabajadores

Más allá de ChatGPT Agente IA en un nuevo mundo laboral

Con los avances en el aprendizaje profundo, el procesamiento del lenguaje natural (NLP) y la inteligencia artificial (IA), nos encontramos en un período en el que los agentes de IA podrían formar una parte significativa de la fuerza laboral global. Estos agentes de IA, que trascienden los chatbots y los asistentes de voz, están dando forma a un nuevo paradigma tanto para las industrias como para nuestra vida diaria. Pero, ¿qué significa realmente vivir en un mundo aumentado por estos “trabajadores”? Este artículo profundiza en este paisaje en evolución, evaluando las implicaciones, el potencial y los desafíos que nos esperan.

Una breve recapitulación: La evolución de los trabajadores de IA

Antes de comprender la revolución inminente, es crucial reconocer la evolución impulsada por la IA que ya ha ocurrido.

  • Sistemas de computación tradicionales: El viaje comenzó desde algoritmos de computación básicos. Estos sistemas podían resolver tareas predefinidas utilizando un conjunto fijo de reglas.
  • Chatbots y asistentes de voz tempranos: A medida que la tecnología evolucionaba, también lo hacían nuestras interfaces. Herramientas como Siri, Cortana y los primeros chatbots simplificaron la interacción usuario-IA pero tenían una comprensión y capacidad limitadas.
  • Redes neuronales y aprendizaje profundo: Las redes neuronales marcaron un punto de inflexión, imitando las funciones del cerebro humano y evolucionando a través de la experiencia. Las técnicas de aprendizaje profundo mejoraron aún más esto, permitiendo un reconocimiento sofisticado de imágenes y voz.
  • Transformers y modelos avanzados de NLP: La introducción de arquitecturas de transformadores revolucionó el panorama de NLP. Sistemas como ChatGPT de OpenAI, BERT y T5 han permitido avances en la comunicación humano-IA. Con su profundo entendimiento del lenguaje y el contexto, estos modelos pueden mantener conversaciones significativas, escribir contenido y responder preguntas complejas con una precisión sin precedentes.

Entra el agente de IA: Más que una simple conversación

El panorama actual de la IA apunta a algo más amplio que las herramientas de conversación. Los agentes de IA, más allá de las simples funciones de chat, ahora pueden realizar tareas, aprender de su entorno, tomar decisiones e incluso exhibir creatividad. No solo están respondiendo preguntas; están resolviendo problemas.

Los modelos de software tradicionales funcionaban en un camino claro. Los interesados expresaban un objetivo a los gerentes de software, quienes luego diseñaban un plan específico. Los ingenieros ejecutaban este plan a través de líneas de código. Este “paradigma heredado” de funcionalidad de software era claro y requería una gran cantidad de intervenciones humanas.

Los agentes de IA, sin embargo, operan de manera diferente. Un agente:

  1. Tiene objetivos que busca alcanzar.
  2. Puede interactuar con su entorno.
  3. Formula un plan basado en estas observaciones para alcanzar su objetivo.
  4. Toma las acciones necesarias, ajustando su enfoque según cambia el estado del entorno.

Lo que realmente distingue a los agentes de IA de los modelos tradicionales es su capacidad para crear autonomamente un plan paso a paso para lograr un objetivo. En esencia, mientras que antes el programador proporcionaba el plan, los agentes de IA de hoy trazan su propio curso.

Consideremos un ejemplo cotidiano. En el diseño de software tradicional, un programa notificaría a los usuarios sobre tareas vencidas basándose en condiciones predefinidas. Los desarrolladores establecerían estas condiciones en función de las especificaciones proporcionadas por el gerente de producto.

En el paradigma del agente de IA, el agente mismo determina cuándo y cómo notificar al usuario. Evalúa el entorno (hábitos del usuario, estado de la aplicación) y decide la mejor acción a tomar. El proceso se vuelve así más dinámico, más en el momento.

ChatGPT marcó una salida de su uso tradicional con la integración de complementos, lo que le permitió aprovechar herramientas externas para realizar múltiples solicitudes. Se convirtió en una manifestación temprana del concepto de agente. Si consideramos un ejemplo simple: un usuario que pregunta sobre el clima de la ciudad de Nueva York, ChatGPT, aprovechando los complementos, podría interactuar con una API de clima externa, interpretar los datos e incluso corregir su curso en función de las respuestas recibidas.

Panorama actual de los agentes de IA

Los agentes de IA, incluyendo Auto-GPT, AgentGPT y BabyAGI, están anunciando una nueva era en el vasto universo de la IA. Si bien ChatGPT popularizó la IA generativa al requerir la entrada humana, la visión detrás de los agentes de IA es permitir que los AIs funcionen de manera independiente, avanzando hacia objetivos con poca o ninguna interferencia humana. Este potencial transformador ha sido subrayado por el ascenso meteórico de Auto-GPT, obteniendo más de 107,000 estrellas en GitHub en tan solo seis semanas desde su creación, un crecimiento sin precedentes en comparación con proyectos establecidos como el paquete de ciencia de datos ‘pandas’.

Agentes de IA vs. ChatGPT

Muchos agentes de IA avanzados, como Auto-GPT y BabyAGI, utilizan la arquitectura GPT. Su enfoque principal es minimizar la necesidad de intervención humana en la finalización de tareas de IA. Términos descriptivos como “GPT en un bucle” caracterizan el funcionamiento de modelos como AgentGPT y BabyAGI. Operan en ciclos iterativos para comprender mejor las solicitudes de los usuarios y refinar sus resultados. Mientras tanto, Auto-GPT empuja aún más los límites al incorporar acceso a internet y capacidades de ejecución de código, ampliando significativamente su alcance para resolver problemas.

Innovaciones en Agentes de IA

  1. Memoria a largo plazo: Los LLM tradicionales tienen una memoria limitada, retienen solo los segmentos recientes de las interacciones. Para tareas exhaustivas, recordar toda la conversación o incluso las anteriores se vuelve crucial. Para superar esto, los agentes de IA han adoptado flujos de trabajo de incrustación, convirtiendo las conversaciones textuales en matrices numéricas, ofreciendo una solución a las limitaciones de memoria.
  2. Capacidad de navegación web: Para mantenerse actualizado con eventos recientes, Auto-GPT ha sido equipado con capacidades de navegación utilizando la API de búsqueda de Google. Esto ha generado debates dentro de la comunidad de IA en cuanto al alcance del conocimiento de una IA.
  3. Ejecución de código: Más allá de generar código, Auto-GPT puede ejecutar tanto código de shell como de Python. Esta capacidad sin precedentes le permite interactuar con otros software, ampliando así su dominio operativo.

El diagrama visualiza la arquitectura de un sistema de IA impulsado por un Modelo de Lenguaje Grande y Agentes.

  • Entradas: El sistema recibe datos de diversas fuentes: comandos directos del usuario, bases de datos estructuradas, contenido web y sensores ambientales en tiempo real.
  • LLM y Agentes: En el núcleo, el LLM procesa estas entradas, colaborando con agentes especializados como Auto-GPT para encadenamiento de pensamiento, AgentGPT para tareas específicas de la web, BabyAGI para acciones específicas de tareas y HuggingGPT para procesamiento basado en equipos.
  • Salidas: Una vez procesada la información, se transforma en un formato fácil de usar y luego se transmite a dispositivos que pueden actuar o influir en el entorno externo.
  • Componentes de Memoria: El sistema retiene información, tanto de manera temporal como permanente, a través de cachés de corto plazo y bases de datos de largo plazo.
  • Entorno: Este es el reino externo, que afecta a los sensores y es impactado por las acciones del sistema.

Agentes de IA Avanzados: Auto-GPT, BabyAGI y más

AutoGPT y AgentGPT

AutoGPT, una creación lanzada en GitHub en marzo de 2023, es una ingeniosa aplicación basada en Python que aprovecha el poder de GPT, el modelo generativo transformador de OpenAI. Lo que distingue a Auto-GPT de sus predecesores es su autonomía: está diseñado para realizar tareas con una guía humana mínima y tiene la capacidad única de iniciar por sí mismo las solicitudes. Los usuarios simplemente necesitan definir un objetivo general y Auto-GPT crea las solicitudes necesarias para lograr ese objetivo, lo que lo convierte en un salto potencialmente revolucionario hacia una inteligencia artificial general verdadera (AGI).

Con características que abarcan la conectividad a internet, la gestión de memoria y las capacidades de almacenamiento de archivos utilizando GPT-3.5, esta herramienta es experta en manejar un amplio espectro de tareas, desde las convencionales como la composición de correos electrónicos hasta tareas intrincadas que normalmente requerirían mucha más participación humana.

Por otro lado, AgentGPT, también construido sobre la estructura GPT, es una interfaz centrada en el usuario que no requiere una amplia experiencia en programación para configurar y usar. AgentGPT permite a los usuarios definir objetivos de IA, que luego descompone en tareas manejables.

Interfaz de AgenteGPT

Además, AgentGPT se destaca por su versatilidad. No se limita a crear chatbots. La plataforma extiende sus capacidades para crear diversas aplicaciones como bots de Discord e incluso se integra sin problemas con Auto-GPT. Este enfoque garantiza que incluso aquellos sin un amplio conocimiento de programación puedan realizar tareas como codificación completamente autónoma, generación de texto, traducción de idiomas y resolución de problemas.

LangChain es un marco de trabajo que conecta Modelos de Lenguaje Grande (LLMs) con varias herramientas y utiliza agentes, a menudo percibidos como ‘Bots’, para determinar y ejecutar tareas específicas eligiendo la herramienta apropiada. Estos agentes se integran sin problemas con recursos externos, mientras que una base de datos de vectores en LangChain almacena datos no estructurados, facilitando la recuperación rápida de información para LLMs.

BabyAGI

Luego, está BabyAGI, un agente simplificado pero poderoso. Para entender las capacidades de BabyAGI, imagina un gerente de proyectos digital que crea, organiza y ejecuta tareas de forma autónoma, con un enfoque preciso en los objetivos establecidos. Si bien la mayoría de las plataformas impulsadas por IA están limitadas por su conocimiento preentrenado, BabyAGI se destaca por su capacidad de adaptarse y aprender de las experiencias. Tiene una capacidad profunda para discernir comentarios y, al igual que los humanos, tomar decisiones basadas en prueba y error.

Cabe destacar que la fortaleza subyacente de BabyAGI no es solo su adaptabilidad, sino también su competencia en la ejecución de código para objetivos específicos. Sobresale en dominios complejos, como el comercio de criptomonedas, la robótica y la conducción autónoma, lo que lo convierte en una herramienta versátil en una multitud de aplicaciones.

Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications

El proceso se puede categorizar en tres agentes:

  1. Agente de Ejecución: El corazón del sistema, este agente aprovecha la API de OpenAI para el procesamiento de tareas. Dado un objetivo y una tarea, solicita a la API de OpenAI y obtiene los resultados de la tarea.
  2. Agente de Creación de Tareas: Esta función crea tareas nuevas basadas en los resultados anteriores y los objetivos actuales. Se envía una solicitud a la API de OpenAI, que devuelve posibles tareas organizadas como una lista de diccionarios.
  3. Agente de Priorización de Tareas: La fase final implica la secuenciación de las tareas según su prioridad. Este agente utiliza la API de OpenAI para reordenar las tareas, asegurando que se ejecuten primero las más críticas.

En colaboración con el modelo de lenguaje de OpenAI, BabyAGI aprovecha las capacidades de Pinecone para el almacenamiento y recuperación de resultados de tareas centrados en el contexto.

A continuación se muestra una demostración de BabyAGI utilizando este enlace.

Para comenzar, necesitarás una clave válida de OpenAPI. Para facilitar el acceso, la interfaz de usuario tiene una sección de configuración donde se puede ingresar la clave de OpenAPI. Además, si deseas controlar los costos, recuerda establecer un límite en el número de iteraciones.

Una vez que configuré la aplicación, hice un pequeño experimento. Envié una solicitud a BabyAGI: “Elabora un hilo de tweets conciso centrado en el viaje del crecimiento personal, abordando hitos, desafíos y el poder transformador del aprendizaje continuo”.

BabyAGI respondió con un plan bien pensado. No fue solo una plantilla genérica, sino una hoja de ruta integral que indicaba que la IA subyacente había entendido los matices de la solicitud.

Deepnote AI Copilot

Deepnote AI Copilot redefine la dinámica de la exploración de datos en cuadernos. ¿Pero qué lo distingue?

En su esencia, Deepnote AI tiene como objetivo aumentar el flujo de trabajo de los científicos de datos. En el momento en que proporcionas una instrucción rudimentaria, la IA entra en acción, ideando estrategias, ejecutando consultas SQL, visualizando datos usando Python y presentando sus hallazgos de manera articulada.

Una de las fortalezas de Deepnote AI es su comprensión exhaustiva de tu espacio de trabajo. Al comprender los esquemas de integración y los sistemas de archivos, alinea perfectamente sus planes de ejecución con el contexto organizativo, asegurando que sus ideas siempre sean relevantes.

La integración de la IA con los Cuadernos-VoAGI crea un bucle de retroalimentación único. Evalúa activamente las salidas de código, lo que le permite corregirse a sí misma y garantizar que los resultados sean consistentes con los objetivos establecidos.

Deepnote AI se destaca por sus operaciones transparentes, proporcionando ideas claras sobre sus procesos. La interrelación de código y resultados asegura que sus acciones siempre sean responsables y reproducibles.

CAMEL

CAMEL es un marco que busca fomentar la colaboración entre agentes de IA, con el objetivo de completar tareas de manera eficiente con una supervisión humana mínima.

https://github.com/camel-ai/camel

Divide sus operaciones en dos tipos principales de agentes:

  • El Agente de Usuario de IA establece instrucciones.
  • El Agente Asistente de IA ejecuta tareas basadas en las directivas proporcionadas.

Una de las aspiraciones de CAMEL es desentrañar las complejidades de los procesos de pensamiento de la IA, con el objetivo de optimizar las sinergias entre múltiples agentes. Con características como el juego de roles y las indicaciones de inicio, asegura que las tareas de IA se alineen perfectamente con los objetivos humanos.

Simulación de Westworld: Vida en la IA

Derivada de inspiraciones como el software Unity y adaptada en Python, la simulación de Westworld es un salto hacia la simulación y optimización de entornos donde múltiples agentes de IA interactúan, casi como una sociedad digital.

Agentes Generativos

Estos agentes no son solo entidades digitales. Simulan comportamientos humanos creíbles, desde rutinas diarias hasta interacciones sociales complejas. Su arquitectura extiende un modelo de lenguaje grande para almacenar experiencias, reflexionar sobre ellas y emplearlas para la planificación de comportamientos dinámicos.

El entorno de sandbox interactivo de Westworld, reminiscente de Los Sims, da vida a una ciudad poblada por agentes generativos. Aquí, los usuarios pueden interactuar, observar y guiar a estos agentes a través de su día, observando comportamientos emergentes y dinámicas sociales complejas.

La simulación de Westworld ejemplifica la fusión armoniosa de la destreza computacional y las complejidades similares a las de los humanos. Al combinar modelos de lenguaje vastos con simulaciones de agentes dinámicos, traza un camino hacia la creación de experiencias de IA que son sorprendentemente indistinguibles de la realidad.

Conclusión

Los agentes de IA pueden ser increíblemente versátiles y están dando forma a industrias, alterando flujos de trabajo y permitiendo hazañas que antes parecían imposibles. Pero al igual que todas las innovaciones revolucionarias, no están exentos de sus imperfecciones.

Aunque tienen el poder de remodelar la propia estructura de nuestra existencia digital, estos agentes todavía luchan con ciertos desafíos, algunos de los cuales son inherentemente humanos, como comprender el contexto en escenarios sutiles o abordar problemas que están más allá de sus conjuntos de datos entrenados.

En el próximo artículo, profundizaremos en AutoGPT y GPT Engineer, examinando cómo configurarlos y utilizarlos. Además, exploraremos las razones por las cuales estos agentes de IA a veces fallan, como quedar atrapados en bucles, entre otros problemas. ¡Así que manténganse atentos!