Lista de modelos de IA conversacional innovadores y de código abierto en el ámbito del lenguaje

Lista de modelos de IA conversacional innovadores y de código abierto en lenguaje

La IA conversacional se refiere a tecnologías como un agente virtual o un chatbot que utilizan grandes cantidades de datos y procesamiento de lenguaje natural para imitar interacciones humanas y reconocer el habla y el texto. En los últimos años, el panorama de la IA conversacional ha evolucionado drásticamente, especialmente con el lanzamiento de ChatGPT. Aquí hay algunos otros modelos de lenguaje grandes de código abierto (LLMs) que están revolucionando la IA conversacional.

LLaMA

  • Fecha de lanzamiento: 24 de febrero de 2023

LLaMa es un LLM fundamental desarrollado por Meta AI. Está diseñado para ser más versátil y responsable que otros modelos. El lanzamiento de LLaMA tiene como objetivo democratizar el acceso a la comunidad de investigación y promover prácticas de IA responsables.

LLaMa está disponible en varios tamaños, con el número de parámetros que varía de 7B a 65B. Se otorgará permiso para acceder al modelo caso por caso a laboratorios de investigación de la industria, investigadores académicos, etc.

OpenAssistiant

  • Fecha de lanzamiento: 8 de marzo de 2023

Open Assistant es un proyecto desarrollado por LAION-AI para proporcionar a todos un gran modelo de lenguaje grande basado en chat. A través de un entrenamiento exhaustivo en grandes cantidades de texto y código, ha adquirido la capacidad de realizar diversas tareas, incluyendo responder consultas, generar texto, traducir idiomas y producir contenido creativo.

Aunque OpenAssistant aún está en etapa de desarrollo, ya ha adquirido varias habilidades, como interactuar con sistemas externos como la Búsqueda de Google para recopilar información. Además, es una iniciativa de código abierto, lo que significa que cualquiera puede contribuir a su progreso.

Dolly

  • Fecha de lanzamiento: 8 de marzo de 2023

Dolly es un LLM de seguimiento de instrucciones desarrollado por Databricks. Está entrenado en la plataforma de aprendizaje automático de Databricks con licencia para uso comercial. Dolly está impulsado por el modelo Pythia 12B y ha sido entrenado en una amplia gama de registros de instrucción/respuesta que totalizan aproximadamente 15k en número. Aunque no es de vanguardia, el rendimiento de Dolly en el seguimiento de instrucciones es impresionantemente de alta calidad.

Alpaca

  • Fecha de lanzamiento: 13 de marzo de 2023

Alpaca es un modelo pequeño de seguimiento de instrucciones desarrollado por la Universidad de Stanford. Está basado en el modelo LLaMa de Meta (7B parámetros). Está diseñado para tener un buen rendimiento en numerosas tareas de seguimiento de instrucciones al mismo tiempo que es fácil y económico de reproducir.

Aunque se parece al modelo text-davinci-003 de OpenAI, es significativamente más barato (<$600) de producir. El modelo es de código abierto y ha sido entrenado en un conjunto de datos de 52,000 demostraciones de seguimiento de instrucciones.

Vicuna

  • Fecha de lanzamiento: abril de 2023

Vicuna ha sido desarrollado por un equipo de UC Berkeley, CMU, Stanford y UC San Diego. Es un chatbot que ha sido entrenado mediante el ajuste fino del modelo LLaMa en conversaciones compartidas por usuarios y recopiladas de ShareGPT.

Basado en la arquitectura de transformadores, Vicuna es un modelo de lenguaje auto-regresivo y ofrece capacidades de conversación naturales y atractivas. Con 13B parámetros, produce respuestas más detalladas y bien estructuradas que Alpaca, y su calidad es comparable a la de ChatGPT.

Koala

  • Fecha de lanzamiento: 3 de abril de 2023

El Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR) ha desarrollado Koala, que es un modelo de diálogo basado en el modelo LLaMa 13B. Está destinado a ser más seguro y más fácil de interpretar que otros LLMs. Koala ha sido ajustado finamente en datos de interacción disponibles libremente, centrándose en datos que incluyen interacción con modelos cerrados altamente capaces.

Koala es útil para estudiar la seguridad y el sesgo de los modelos de lenguaje y comprender el funcionamiento interno de los modelos de lenguaje de diálogo. Además, Koala es una alternativa de código abierto a ChatGPT que incluye EasyLM, un marco para entrenar y ajustar finamente LLMs.

Pythia

  • Fecha de lanzamiento: Abril de 2023

Eleuther AI ha creado un conjunto de modelos de lenguaje autoregresivos llamados Pythia, diseñados para apoyar la investigación científica. Pythia consta de 16 modelos diferentes que van desde 70M hasta 12B de parámetros. Todos los modelos se entrenan utilizando los mismos datos y arquitectura, lo que permite realizar comparaciones y explorar cómo evolucionan con la escala.

OpenChatKit

  • Fecha de lanzamiento: 5 de abril de 2023

Together ha desarrollado OpenChatKit, un marco de desarrollo de chatbots de código abierto que tiene como objetivo simplificar y agilizar el proceso de construcción de aplicaciones de IA conversacional. El chatbot está diseñado para la conversación y la instrucción, y destaca en la generación de resúmenes, la generación de tablas, la clasificación y el diálogo.

Con OpenChatKit, los desarrolladores pueden acceder a una base sólida y de código abierto para crear chatbots especializados y de propósito general para diversas aplicaciones. El marco se basa en la arquitectura GPT-4 y está disponible en tres tamaños de modelo diferentes: 3B, 6B y 12B de parámetros, para adaptarse a diversos recursos computacionales y requisitos de aplicación.

RedPajama

  • Fecha de lanzamiento: 13 de abril de 2023

RedPajama es un proyecto creado por un equipo de Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute. Su objetivo es desarrollar modelos de código abierto de primera calidad, comenzando por la reproducción del conjunto de datos de entrenamiento LLaMA, que contiene más de 1,2 billones de tokens.

Este proyecto tiene como objetivo crear un modelo de lenguaje completamente abierto, replicable y de vanguardia, con tres elementos esenciales: datos de preentrenamiento, modelos base y datos y modelos de ajuste de instrucciones. Actualmente, el conjunto de datos está disponible a través de Hugging Face, y los usuarios tienen la opción de replicar los resultados utilizando scripts de Apache 2.0, que están disponibles en GitHub.

StableLM

  • Fecha de lanzamiento: 19 de abril de 2023

StableLM es un modelo de lenguaje de código abierto desarrollado por Stability AI. El modelo se entrena con un conjunto de datos experimentales tres veces más grande que el conjunto de datos The Pile y es eficaz en tareas de conversación y programación a pesar de su tamaño reducido. El modelo está disponible en 3B y 7B de parámetros, y próximamente se lanzarán modelos más grandes.

StableLM puede generar tanto texto como código, lo que lo hace adecuado para diversas aplicaciones posteriores. Stability AI también está poniendo a disposición una serie de modelos de investigación ajustados a través de instrucciones, utilizando una combinación de cinco conjuntos de datos de código abierto actualizados específicamente diseñados para agentes conversacionales. Estos modelos ajustados están exclusivamente destinados a la investigación y están disponibles bajo una licencia CC BY-NC-SA 4.0 no comercial.