Acortando la brecha entre los clínicos y los modelos de lenguaje en el campo de la salud Conozca MedAlign, un conjunto de datos generado por clínicos para seguir instrucciones en registros médicos electrónicos.

Conozca MedAlign, un conjunto de datos generado por clínicos para seguir instrucciones en registros médicos electrónicos.

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han utilizado las capacidades del Procesamiento de Lenguaje Natural de una gran manera. Desde la producción y razonamiento del lenguaje hasta la comprensión de lectura, los LLMs pueden hacerlo todo. El potencial de estos modelos para ayudar a los médicos en su trabajo ha atraído la atención en varios campos, incluyendo la atención médica. Los LLMs recientes, incluyendo Med-PaLM y GPT-4, han demostrado su competencia en tareas que involucran preguntas y respuestas médicas, especialmente aquellas que involucran bases de datos y exámenes médicos.

Una limitación constante ha sido la dificultad para determinar si el rendimiento sobresaliente de los LLMs en pruebas controladas se traduce en contextos clínicos reales. Los clínicos realizan una variedad de tareas relacionadas con la información en la industria de la atención médica, y estos trabajos a menudo requieren datos complicados y no estructurados de los Registros de Salud Electrónicos (EHRs, por sus siglas en inglés). La complejidad y las complejidades con las que los profesionales de la salud lidian no se representan adecuadamente en los conjuntos de datos de preguntas y respuestas para datos de EHR que están disponibles actualmente. Cuando los médicos dependen de los LLMs para ayudarlos, carecen de la sutileza necesaria para evaluar qué tan bien estos modelos pueden ofrecer respuestas precisas y contextualmente conscientes.

Para superar estas limitaciones, un equipo de investigadores ha desarrollado MedAlign, un conjunto de datos de referencia que incluye un total de 983 preguntas e instrucciones enviadas por 15 médicos especializados en 7 especialidades médicas diferentes. MedAlign se centra en la combinación de instrucciones y respuestas basadas en EHR en lugar de simplemente preguntas y respuestas, lo que lo diferencia de otros conjuntos de datos. El equipo ha incluido respuestas de referencia escritas por los clínicos para 303 de estas instrucciones y las ha vinculado con datos de EHR para ofrecer contexto y base para las indicaciones. Cada médico evaluó y clasificó las respuestas generadas por seis LLMs diferentes en estas 303 instrucciones para confirmar la confiabilidad y calidad del conjunto de datos.

Los clínicos también han proporcionado sus propias soluciones estándar de oro. Al reunir un conjunto de datos que incluye instrucciones proporcionadas por los clínicos, evaluaciones de expertos de las respuestas generadas por los LLMs y el contexto relacionado con EHR, MedAlign ha marcado un esfuerzo pionero. Este conjunto de datos difiere de otros porque proporciona una herramienta útil para evaluar cómo funcionan los LLMs en situaciones clínicas.

La segunda contribución demuestra la viabilidad de un método automatizado y basado en recuperación para vincular registros electrónicos de salud pertinentes de los pacientes con instrucciones clínicas. Para hacer esto, el equipo ha creado un procedimiento que haría que solicitar instrucciones a los clínicos sea más efectivo y escalable. Podrían buscar contribuciones de un conjunto más amplio y variado de clínicos mediante el aislamiento de este método de solicitud de instrucciones.

Incluso han evaluado qué tan bien su método automatizado emparejó las instrucciones con los EHR pertinentes. Los resultados revelaron que, en comparación con las combinaciones aleatorias de instrucciones con EHRs, este procedimiento de emparejamiento automatizado proporcionó emparejamientos relevantes en el 74% de las situaciones. Este resultado destaca la oportunidad de la automatización para aumentar la efectividad y precisión de la conexión de datos clínicos.

La contribución final examina la relación entre los parámetros de Generación de Lenguaje Natural (NLG, por sus siglas en inglés) automatizados y las calificaciones de los médicos a las respuestas generadas por los LLMs. Esta investigación busca determinar si se pueden utilizar medidas automatizadas y escalables para clasificar las respuestas de los LLMs en lugar de las evaluaciones de los clínicos profesionales. El equipo tiene como objetivo reducir la necesidad de que los médicos identifiquen y califiquen manualmente las respuestas de los LLMs en estudios futuros mediante la medición del grado de acuerdo entre las clasificaciones de expertos humanos y los criterios automatizados. La creación y mejora de los LLMs para aplicaciones de atención médica pueden acelerarse como resultado de este esfuerzo para hacer que el proceso de revisión sea más efectivo y menos dependiente de los recursos humanos.