Esta investigación de IA propone DISC-MedLLM una solución integral que aprovecha los Modelos de Lenguaje Amplio (LLMs) para proporcionar respuestas médicas precisas.
DISC-MedLLM es una investigación de IA que propone una solución integral utilizando Modelos de Lenguaje Amplio (LLMs) para ofrecer respuestas médicas precisas.
El auge de la telemedicina ha cambiado la forma en que se proporciona atención médica, abriendo redes profesionales, reduciendo precios y permitiendo consultas médicas a distancia. Además, los sistemas médicos inteligentes han mejorado los servicios médicos en línea al agregar capacidades como la extracción de información médica, recomendaciones de medicamentos, diagnóstico automatizado y respuestas a preguntas de salud. Si bien ha habido avances en la construcción de sistemas de atención médica inteligentes, las investigaciones anteriores se han concentrado en problemas o enfermedades particulares con aplicaciones limitadas, lo que ha dejado una brecha entre los desarrollos experimentales y el uso en el mundo real. Para cerrar esta brecha, se requieren soluciones completas para una amplia gama de escenarios médicos y servicios de atención médica conversacional de principio a fin de la más alta calidad para los consumidores.
Los modelos de lenguaje grandes han demostrado recientemente una capacidad asombrosa para conversar de manera significativa y seguir instrucciones de los humanos. Estos avances han creado nuevas oportunidades para desarrollar sistemas de consulta médica. Sin embargo, las circunstancias que involucran consultas médicas suelen ser complejas y están fuera del alcance de los modelos de lenguaje grandes del área general. La Figura 1 muestra una ilustración de una consulta médica en el mundo real. Muestra dos cualidades. En primer lugar, se necesita un conocimiento médico exhaustivo y confiable para comprender la conversación y responder adecuadamente en cada etapa. Los modelos de lenguaje de dominio general proporcionan resultados no relacionados con el caso particular, lo que plantea importantes preocupaciones de alucinación.
En segundo lugar, a menudo se necesitan varias rondas de conversación para obtener suficiente información sobre el paciente y brindar una consulta médica, y cada ronda de conversación tiene un objetivo definido. Sin embargo, los modelos de lenguaje de dominio amplio a menudo tienen habilidades limitadas para realizar consultas de varias rondas sobre los detalles del estado de salud de un usuario y son agentes de una sola vuelta. Basados en estos dos hallazgos, los investigadores de la Universidad de Fudan, la Universidad Politécnica del Noroeste y la Universidad de Toronto sostienen que los modelos de lenguaje médico deben codificar un conocimiento médico exhaustivo y confiable al tiempo que se ajustan a la distribución de la conversación médica en el mundo real. Inspirados en el éxito de la Afinación de Instrucciones, investigan cómo construir conjuntos de datos de Afinación Supervisada de alta calidad para entrenar modelos de lenguaje médico e incluir conocimiento de medicina y patrones de comportamiento de consulta.
En la práctica real, crean muestras utilizando tres métodos diferentes:
- ¿Cómo pueden los robots tomar mejores decisiones? Investigadores de...
- Adept AI Labs hace de código abierto Persimmon-8B un potente modelo...
- ¿Cómo podemos medir la incertidumbre en los campos de radiación neu...
• Desarrollo de muestras impulsadas por gráficos de conocimiento médico. Siguiendo una distribución de consulta de pacientes recopilada de un conjunto de datos de consulta en el mundo real, eligen triples de conocimiento de una red de conocimiento médico utilizando un enfoque orientado a departamentos. GPT-3.5 se utiliza para crear emparejamientos de preguntas y respuestas para cada triple. Como resultado, hay 50.000 muestras.
• Reconstrucción de diálogos del mundo real. Para mejorar los modelos de lenguaje, los registros de consulta recopilados de foros médicos son fuentes adecuadas. El lenguaje utilizado en estos documentos es informal, la terminología se presenta de manera inconsistente y los diversos profesionales de la salud tienen estilos expresivos variados. Como resultado, utilizan GPT-3.5 para recrear la discusión utilizando casos reales. Hay 420.000 muestras como resultado.
• Después de la recopilación de muestras, preferencia humana. Se elige manualmente un grupo limitado de entradas de los registros de conversación médica del mundo real que abarcan diversos entornos de consulta y se reescriben ciertos ejemplos para alinearlos con la intención humana. Además, se garantiza la calidad general de cada discusión después de la reconstrucción guiada por humanos. Hay 2.000 muestras como resultado. Luego se entrena DISC-MedLLM utilizando los nuevos conjuntos de datos de Afinación Supervisada mediante un proceso de entrenamiento de dos etapas sobre un modelo de lenguaje chino de dominio general con 13B de parámetros 1. Evalúan el rendimiento del modelo desde dos perspectivas para determinar su capacidad de ofrecer consultas sistemáticas en discusiones de varias rondas y respuestas precisas en diálogos de una sola vuelta.
Construyen un conjunto de referencia de preguntas de opción múltiple recopiladas de tres conjuntos de datos médicos públicos y evalúan la precisión del modelo utilizando este conjunto de referencia para la evaluación de una sola intervención. Para una revisión de múltiples intervenciones, primero crean una pequeña colección de casos de consulta excelentes, utilizando GPT-3.5 para simular a un paciente y conversar con el modelo. Evalúan la proactividad, precisión, utilidad y calidad lingüística del modelo utilizando GPT-4. Los hallazgos experimentales muestran que, aunque no alcanza a GPT-3.5, DISCMedLLM supera al HuatuoGPT a gran escala en términos médicos con parámetros idénticos en un promedio de más del 10%.
Además, DISC-MedLLM tiene un mejor rendimiento en general en entornos de consulta médica simulada que los modelos de referencia como GPT-3.5, HuatuoGPT y BianQue. DISC-MedLLM supera a otros LLM médicos chinos, especialmente en casos que involucran departamentos médicos e intenciones del paciente.