Modelos de Lenguaje Pequeños Efectivos Microsoft’s phi-1.5 con 1.3 Mil Millones de Parámetros
Modelos de Lenguaje Pequeños Efectivos Microsoft's phi-1.5 con 1.3 Mil Millones de Parámetros' -> 'Modelos de Lenguaje Microsoft phi-1.5 con 1.3 Mil Millones de Parámetros
Cuando pensabas que habías escuchado suficientes noticias sobre los Modelos de Lenguaje Grande (LLMs), Microsoft Research ha vuelto a perturbar el mercado. En junio de 2023, Microsoft Research lanzó un artículo llamado “Los libros de texto son todo lo que necesitas”, donde presentaron phi-1, un nuevo modelo de lenguaje grande para código. phi-1 es un modelo basado en transformadores con 1.3B de parámetros, que fue entrenado durante 4 días en 8 GPUs A100, utilizando una selección de datos de “calidad de libro de texto” de la web.
Parece que los LLMs se están volviendo cada vez más pequeños.
¿Qué es phi-1.5?
Ahora Microsoft Research te presenta phi-1.5, un Transformador con 1.3B de parámetros, que fue entrenado utilizando las mismas fuentes de datos que phi-1. Como se mencionó anteriormente, phi-1 fue entrenado con datos de alta calidad de libros de texto, mientras que phi-1.5 fue entrenado solo con datos sintéticos. phi-1.5 utilizó 32 GPUs A100-40G y fue entrenado con éxito en 8 días. El objetivo detrás de phi-1.5 era crear un modelo de código abierto que pueda desempeñar un papel en la comunidad de investigación utilizando un modelo pequeño no restringido que te permita explorar los diferentes desafíos de seguridad con los LLMs, como la reducción de toxicidad, la mejora de la controlabilidad y más.
- 3 formas en las que la inteligencia artificial puede ayudar a las c...
- Explorando Redes Neuronales
- Cómo construir un LLM desde cero
Utilizando el enfoque de “Generación de Datos Sintéticos”, el rendimiento de phi-1.5 es equivalente a modelos que son 5 veces más grandes en pruebas de lenguaje natural y ha demostrado superar a la mayoría de los LLMs en tareas de razonamiento más difíciles.
Bastante impresionante, ¿verdad?
El viaje de aprendizaje del modelo es muy interesante. Extrae datos de diversas fuentes, incluidos fragmentos de código Python de StackOverflow, libros de texto sintéticos de Python y ejercicios generados por GPT-3.5-turbo-0301.
Abordando la toxicidad y los sesgos
Uno de los principales desafíos de los LLMs es la toxicidad y el contenido sesgado. Microsoft Research buscó superar este desafío continuo de contenido dañino/ofensivo y contenido que promueva una ideología específica.
Los datos sintéticos utilizados para entrenar el modelo generaron respuestas con una menor propensidad a generar contenido tóxico en comparación con otros LLMs como Falcon-7B y Llama 2-7B, como se muestra en la imagen a continuación:
Puntos de referencia
La imagen a continuación muestra cómo phi-1.5 tuvo un rendimiento ligeramente mejor que los modelos de última generación, como Llama 2-7B, Llama-7B y Falcon-RW-1.3B) en 3 puntos de referencia: razonamiento de sentido común, habilidades lingüísticas y razonamiento de múltiples pasos.
¿Cómo se logró esto?
El uso de datos similares a los de los libros de texto diferenció el uso de dichos datos en los LLMs en comparación con los datos extraídos de Internet. Para evaluar aún más cómo el modelo maneja el contenido tóxico, también se utilizó ToxiGen y se diseñaron y etiquetaron manualmente 86 indicaciones como “aprobadas”, “reprobadas” o “no se entendió” para tener una mejor comprensión de las limitaciones del modelo.
Dicho esto, phi-1.5 aprobó 47 indicaciones, reprobó 34 indicaciones y no entendió 4 indicaciones. El enfoque HumanEval para evaluar los modelos generó respuestas que muestran que phi-1.5 obtuvo una puntuación más alta en comparación con otros modelos conocidos.
Aspectos clave:
Estos son los puntos principales que debes tener en cuenta con respecto a phi-1.5:
- Es un modelo basado en transformadores
- Es un LLM que se enfoca en objetivos de predicción de la siguiente palabra
- Fue entrenado con 30 mil millones de tokens
- Se utilizaron 32 GPUs A100-40G
- Fue entrenado con éxito en 8 días
Nisha Arya es una científica de datos, escritora técnica independiente y gestora de comunidades en VoAGI. Le interesa especialmente brindar consejos de carrera o tutoriales sobre Ciencia de Datos y conocimientos teóricos sobre Ciencia de Datos. También desea explorar las diferentes formas en que la Inteligencia Artificial puede beneficiar la longevidad de la vida humana. Una aprendiz entusiasta que busca ampliar sus conocimientos tecnológicos y habilidades de escritura, al tiempo que ayuda a guiar a los demás.