6 Ejemplos de Modelos de Lenguaje Específicos de Dominio
6 Ejemplos de Modelos de Lenguaje Específicos
La mayoría de las personas que tienen experiencia trabajando con grandes modelos de lenguaje, como Bard de Google o ChatGPT de OpenAI, han trabajado con un MLG que es general y no específico de la industria. Pero a medida que ha pasado el tiempo, muchas industrias han comprendido el poder de estos modelos. A su vez, han llegado a entender que si se ajustaran a su industria, estos modelos podrían ser invaluables. Es por eso que en los últimos meses se han puesto en marcha varios ejemplos de MLG específicos de dominio/industria.
Echemos un vistazo a algunos ejemplos diferentes de grandes modelos de lenguaje específicos de dominio, cómo los utiliza dicha industria y por qué están marcando la diferencia.
Derecho
Imagina un MLG que puede absorber la enorme cantidad de documentos legales producidos hasta ahora por nuestro sistema de justicia, y luego ayuda a los abogados a citar casos y más. Bueno, eso es lo que hace CaseHOLD. CaseHOLD es un nuevo conjunto de datos para tareas de NLP legales. Consta de más de 53.000 preguntas de opción múltiple, cada una de las cuales pide identificar el holding relevante de un caso citado, que es el principio legal que establece el caso citado. CaseHOLD es una tarea desafiante, ya que la respuesta correcta a menudo no se establece explícitamente en el caso citado.
El conjunto de datos de CaseHOLD se creó para abordar la falta de conjuntos de datos específicos de dominio a gran escala para NLP legal. El conjunto de datos es un recurso valioso para los investigadores que trabajan en NLP legal, ya que es el primer conjunto de datos específico de dominio a gran escala para esta tarea. El conjunto de datos también es desafiante, lo que lo convierte en una buena manera de evaluar el rendimiento de los nuevos modelos de NLP.
- ¿Qué es MetaGPT? Agentes LLM colaborando para resolver tareas compl...
- Visualización para Métodos de Agrupamiento
- Las 3 habilidades de SQL más importantes para pasar a la siguiente ...
Biomedicina
La minería de texto biomédico está cobrando cada vez más importancia a medida que aumenta rápidamente el número de documentos biomédicos. El uso de modelos de NLP estándar para la minería de texto biomédico a menudo produce resultados insatisfactorios debido a las diferentes distribuciones de palabras entre los corpus generales y los biomédicos.
Aquí es donde entra en juego BioBERT. BioBERT es un modelo de representación de lenguaje específico de dominio que se preentrena en un gran corpus de texto biomédico. Basado en el modelo BERT, se ha ajustado en un conjunto de datos de texto biomédico. Esto permite que BioBERT aprenda las características únicas del texto biomédico, lo que le ayuda a obtener mejores resultados en tareas de minería de texto biomédico.
Finanzas
Si hay una industria que la mayoría consideraría como beneficiaria de un MLG específico de dominio, las finanzas estarían en la parte superior de la lista. Y ya, BloombergGPT está causando revuelo en la industria. Entonces, ¿qué hace? Bueno, este MLG está específicamente entrenado en una amplia gama de datos financieros. Es un modelo de 50 mil millones de parámetros, lo que significa que se ha entrenado en un conjunto de datos masivo de texto y código; lo que permite a BloombergGPT aprender las características únicas del lenguaje financiero, lo que le ayuda a obtener mejores resultados en tareas financieras que los MLG que no están especializados en este dominio.
BloombergGPT puede realizar una variedad de tareas financieras, incluido el análisis de sentimientos, el reconocimiento de entidades nombradas y la respuesta a preguntas. También se ha demostrado que tiene un buen rendimiento en pruebas generales de MLG, lo que sugiere que es un modelo de lenguaje potente que se puede utilizar para una variedad de tareas.
Código
A medida que los modelos de MLG se han vuelto más populares, ha surgido una nueva comunidad comprometida con la investigación y el desarrollo de código abierto, y con ella, nació StarCoder. StarCoder es un MLG que busca automatizar algunas de las tareas más repetitivas asociadas con la codificación. StarCoder se entrenó con un conjunto de datos de 1 billón de tokens obtenidos de The Stack, que es una gran colección de repositorios de GitHub con licencia permisiva. El conjunto de datos de The Stack incluye código de una variedad de lenguajes de programación, lo que permite que StarCoder aprenda las características únicas de cada lenguaje. StarCoder también se ajustó en un conjunto de datos de 35B de tokens de Python, lo que le ayuda a obtener buenos resultados en tareas de Python.
Por eso, StarCoder es masivo, por decir lo menos. Con 15.5B de parámetros y una longitud de contexto de 8K, lo que significa que se ha entrenado en un conjunto de datos masivo de texto y código. Esto permite que StarCoder aprenda las características únicas del lenguaje de código, lo que le ayuda a obtener mejores resultados en tareas relacionadas con el código que los MLG que no están especializados en este dominio.
Medicina
Al igual que el derecho, el campo de la medicina está inundado de papeleo y datos. Aquí es donde entra Med-PaLM de Google AI. Lo que hace que Med-PaLM sea especial es que se entrena en un conjunto de datos masivo de texto y código médico, lo que le permite aprender las características únicas del lenguaje médico. Debido a esto, se ha demostrado que supera a los modelos existentes en una variedad de tareas médicas, incluyendo responder preguntas médicas, resumir texto médico, generar informes médicos, identificar entidades médicas y predecir resultados clínicos.
Aunque aún no se ha lanzado oficialmente, las pruebas han demostrado que Med-PaLM se puede utilizar para ayudar a los médicos a diagnosticar enfermedades, desarrollar nuevos tratamientos, atención personalizada para los pacientes, mejorar la educación de los pacientes y hacer que la atención médica sea más eficiente. Med-PaLM todavía está en desarrollo, pero tiene el potencial de revolucionar la forma en que se brinda la atención médica.
Clima
Pero si hay un ámbito en el que muchos pueden no pensar cuando se trata de LLMs, es el clima. Pero si hemos aprendido algo, la ciencia del clima y todos los datos producidos por los investigadores también podrían beneficiarse de los LLMs. Parte de la familia de modelos BERT, ClimateBERT se entrena específicamente en texto relacionado con el clima. Es un modelo basado en transformadores que se preentrena en más de 2 millones de párrafos de textos relacionados con el clima, obtenidos de diversas fuentes como noticias comunes, artículos de investigación e informes climáticos de empresas.
Actualmente, se ha demostrado que ClimateBERT supera a los modelos existentes en una variedad de tareas relacionadas con el clima, como la clasificación de texto, el análisis de sentimientos y la verificación de hechos. También se ha demostrado que mejora el rendimiento de otros modelos de procesamiento del lenguaje natural cuando se ajustan a ClimateBERT.
Conclusión
Claramente, los grandes modelos de lenguaje, cuando se orientan hacia industrias o ámbitos específicos, pueden desbloquear aún más beneficios para aquellos que estén dispuestos a invertir tiempo y aprender esta nueva tecnología. Sin embargo, debido a que los LLMs son parte del ecosistema de procesamiento del lenguaje natural en constante evolución, los estándares, ideas e incluso métodos están cambiando rápidamente.
Por lo tanto, es importante mantenerse al día con todos los cambios asociados con los LLMs. Y el mejor lugar para hacerlo es en ODSC West 2023, del 30 de octubre al 2 de noviembre. Con una pista completa dedicada a NLP y LLMs, disfrutarás de charlas, sesiones, eventos y más que se centran en este campo de rápido desarrollo.
Las sesiones confirmadas incluyen:
- Personalización de LLMs con un Feature Store
- Comprendiendo el panorama de los modelos grandes
- Construcción de trabajadores de conocimiento impulsados por LLMs sobre tus datos con LlamaIndex
- Aprendizaje auto-supervisado general y eficiente con data2vec
- Hacia LLMs explicables y agnósticos del lenguaje
- Ajuste fino de LLMs en mensajes de Slack
- Más allá de las demos y los prototipos: Cómo construir aplicaciones listas para producción utilizando LLMs de código abierto
- Automatización de procesos empresariales utilizando LangChain
- Conexión de grandes modelos de lenguaje: desafíos y problemas comunes
¿Qué estás esperando? ¡Obtén tu pase hoy mismo!