Esta investigación de IA presenta AstroLLaMA un modelo de 7B parámetros ajustado a partir de LLaMA-2 utilizando más de 300K resúmenes de astronomía de ArXiv.

Esta investigación de IA presenta AstroLLaMA, un modelo de 7B parámetros ajustado a partir de LLaMA-2 con más de 300K resúmenes de astronomía de ArXiv.

La llegada de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha llamado la atención de muchos campos debido a varios factores importantes que se han unido. Estos factores incluyen la disponibilidad de grandes cantidades de datos, mejoras en la potencia informática y avances en el diseño de redes neuronales. Modelos prominentes como GPT-4, PaLM y LLaMA han demostrado que pueden realizar muchas tareas diferentes de manera excelente. Estas tareas a menudo utilizan métodos como darles indicaciones, afinar sus habilidades y obtener comentarios de los humanos para ayudarles a aprender y mejorar. La disciplina de la astronomía presenta un desafío único y un terreno fértil para la aplicación de los LLMs.

En la imagen anterior, podemos observar que cada modelo se le presenta el mismo fragmento de texto corto, resaltado en sus respectivas casillas. GPT-4 tiende a producir declaraciones más genéricas, careciendo de matices específicos del dominio. AstroLLaMA demuestra la completitud más robusta, ofreciendo conceptos más relevantes y conocimientos más profundos específicos del campo de la astronomía, superando significativamente a LLaMA-2 y GPT-4.

Sin embargo, AstroLLaMA tiene algunas limitaciones que deben ser reconocidas. Una limitación significativa es la falta de conocimiento del modelo en áreas específicas de la astronomía, donde la capacidad de AstroLLaMA para estimar posibles candidatos estelares a partir de datos de Gaia-ESO es notablemente inexacta. Para abordar estos problemas, los investigadores están trabajando actualmente en mejorar el conjunto de datos de entrenamiento de AstroLLaMA. En lugar de utilizar solo resúmenes, los investigadores planean incorporar las fuentes completas de LaTeX de los artículos de astronomía existentes. Esta expansión aumentará sustancialmente el número de tokens que el modelo puede aprender.

AstroLLaMA sirve como un impresionante prototipo de Modelos de Lenguaje Grandes (LLMs) especializados diseñados para la astronomía. Exhibe notables habilidades de comprensión del contexto, superando a GPT-4 incluso a pesar de tener significativamente menos parámetros. Este avance no solo abre puertas para un rendimiento mejorado en diversas tareas como responder preguntas, resumir contenido científico y generar hipótesis, sino que también tiene implicaciones para modelos multimodales.