Lecciones de una década de Inteligencia Artificial Generativa

Lecciones de 10 años de IA Generativa

Con el reciente revuelo en torno a la IA generativa, liderada por ChatGPT y Bard, las empresas están buscando cada vez más entender los casos de uso de esta tecnología. Es un buen momento para iniciar conversaciones sobre el poder de la IA, pero la IA generativa no es algo nuevo. La modelización generativa (es decir, la IA generativa) ha estado creciendo detrás de escena durante más de una década, impulsada por tres factores principales: el desarrollo de bibliotecas de software de código abierto como Tensorflow en 2015 y PyTorch en 2016; innovaciones en arquitecturas y entrenamiento de redes neuronales; y mejoras en hardware como unidades de procesamiento gráfico (GPUs) y unidades de procesamiento tensorial (TPUs) para facilitar el entrenamiento e inferencia en redes neuronales masivas.

En este artículo, mi objetivo es explicar qué son los modelos generativos, cómo han llegado a donde están hoy y cómo se deben utilizar, pero también explorar sus limitaciones.

¿Qué son los modelos generativos y de dónde vienen?

Los modelos generativos aprenden la distribución de los datos de entrenamiento con el fin de poder muestrear o producir datos sintéticos que sean estadísticamente similares a los datos originales. Esto requiere un proceso de dos pasos: en primer lugar, el modelo se entrena con un gran conjunto de datos estáticos, y en segundo lugar, el modelo se muestrea para obtener un nuevo punto de datos. La ventaja de este proceso de dos pasos es que una vez que el modelo está entrenado, los nuevos datos se pueden generar de forma económica a gran escala.

Mientras que los primeros modelos generativos eran relativamente simples, como los modelos ocultos de Markov, Naïve Bayes o mezclas gaussianas, la introducción de GPUs en el aprendizaje automático convencional alrededor de 2010 permitió modelos generativos más flexibles basados en redes neuronales profundas. También en esta época comenzaron a abrirse nuevos laboratorios de investigación bien equipados, como Deepmind (2010), Google Brain (2011) y Facebook AI Research (2013), y más tarde se unió OpenAI a finales de 2015, lo que impulsó aún más el desarrollo del aprendizaje profundo y, por lo tanto, de la modelización generativa. Durante este tiempo, surgieron muchas nuevas arquitecturas, como los autoencoders variacionales (VAEs, 2013) y las redes generativas adversarias (GANs, 2014), que produjeron resultados de vanguardia en la generación de imágenes.

Para facilitar tanto el desarrollo como la implementación de estos modelos más complejos, Google lanzó la biblioteca de código abierto Tensorflow en 2015, seguida poco después por PyTorch de Facebook en 2016. Estas bibliotecas hicieron que el aprendizaje profundo fuera accesible para una amplia gama de profesionales e investigadores, lo que llevó al rápido desarrollo de nuevos modelos y nuevas aplicaciones.

Uno de estos modelos revolucionarios fue el Transformer, un modelo de aprendizaje profundo que apareció en 2017 y ahora es la base de todos los modelos de lenguaje de vanguardia actuales, como GPT-4. Dos modelos basados en Transformer que surgieron al año siguiente, en 2018, fueron BERT (Representaciones de Codificador Bidireccional a partir de Transformers) de Google y GPT (Transformer Generativo Preentrenado) de OpenAI. Ambos fueron diseñados como modelos de lenguaje de propósito general para realizar una variedad de tareas, desde clasificación de texto y análisis de sentimiento hasta traducción de idiomas. Otro modelo revolucionario, que apareció en 2019 y se inspiró en la termodinámica, fue el modelo de difusión para generar imágenes.

A día de hoy, los modelos de difusión y los modelos Transformer son los enfoques dominantes para la generación de texto-imagen y los modelos de lenguaje, respectivamente, logrando resultados de vanguardia. Por ejemplo, ChatGPT se lanzó en 2022, y el modelo más avanzado GPT-4 lanzado este año (2023) utiliza una arquitectura Transformer, mientras que modelos como Stable Diffusion y Midjourney son modelos basados en difusión. En los últimos años, la tendencia en la IA generativa ha sido entrenar modelos cada vez más grandes con más parámetros para obtener resultados cada vez mejores. Estos logros de ingeniería, como GPT-4 y Midjourney v5, se basaron en una combinación de hardware mejorado, bibliotecas de software bien desarrolladas y arquitecturas eficientes de redes neuronales profundas (es decir, transformers) y se han vuelto tan populares en parte porque son fáciles de usar y accesibles para el público en general.

Aplicaciones de los modelos generativos

A medida que los modelos generativos comienzan a producir resultados más convincentes y se vuelven cada vez más disponibles para el público a través de APIs fáciles de usar, se vuelven más adecuados para una variedad de aplicaciones. En el caso de las imágenes, la mayoría de estas aplicaciones giran en torno a alguna forma de creación de contenido y diseño. Un ejemplo notorio de cómo se han aplicado los modelos generativos es el surgimiento de los deepfakes. Si bien esto tiene usos potencialmente buenos en la industria cinematográfica y publicitaria, los deepfakes también pueden ser utilizados de manera malintencionada para difundir desinformación. Para modelos de lenguaje como ChatGPT, Bard y GPT-4, las aplicaciones incluyen resúmenes de texto, traducción y completado de texto, que son particularmente útiles para contenido de marketing y comunicaciones internas.

En el aspecto más técnico, se ha utilizado con éxito modelos de lenguaje como Codex y GitHub Copilot para generar código que puede acelerar el desarrollo y ayudar a los programadores. Aunque, por supuesto, instruir efectivamente a los modelos es el arte de la ingeniería de instrucciones.

Desafíos y riesgos a considerar

El riesgo fundamental de los modelos generativos actuales es que son modelos de caja negra con una salida incontrolable. Este problema puede manifestarse de varias formas diferentes, como:

  1. No hay forma de evitar explícitamente que estos modelos produzcan texto e imágenes ofensivas o gráficas. Aún se necesita la intervención humana para filtrar material inapropiado.
  2. Los modelos generativos pueden devolver porciones sustanciales de los datos de entrenamiento, lo que plantea preocupaciones tanto de privacidad como de derechos de autor. Este problema se ha destacado en la reciente demanda presentada por Getty Images contra Stability AI.
  3. La información devuelta por los modelos de lenguaje puede ser incorrecta o engañosa, ya que el modelo no tiene forma de verificar la veracidad de su propia salida. Por lo tanto, no se debe confiar en estos modelos para producir contenido en situaciones de alto riesgo, como asuntos médicos, financieros o legales. Además, para herramientas de generación de código como GitHub Copilot, se debe tener cuidado antes de poner el código en producción, ya que puede haber casos límite o errores que pueden romper un flujo de producción.

Estos son solo algunos ejemplos de los riesgos de trabajar con modelos generativos. Para mitigarlos, se deben utilizar modelos generativos efectivos en colaboración con humanos para monitorear su salida y corregir los resultados cuando sea necesario.

El futuro de la IA generativa

Es seguro decir que el futuro de la IA generativa seguirá siendo impulsado por las mismas fuerzas que lo han llevado hasta aquí. Las mejoras en hardware y software aumentarán la capacidad de los modelos que podemos entrenar. Inevitablemente aparecerán nuevas innovaciones en arquitectura y entrenamiento, lo que dará lugar a avances en el rendimiento con nuevos modelos de vanguardia. Además, con nuevas oportunidades surgen nuevos desafíos. Las leyes de derechos de autor y propiedad intelectual deberán adaptarse, y es probable que haya más preocupaciones sobre la privacidad en cuanto a qué datos se utilizan para entrenar estos modelos a medida que evolucionen las regulaciones de IA y datos. La tecnología Deepfake también seguirá madurando, lo que permitirá métodos más avanzados de propagación de desinformación y contenido falso. A pesar de estos desafíos, el futuro de la IA generativa sigue siendo prometedor, con el potencial de revolucionar industrias desde la atención médica hasta el cine y las finanzas.