Investigadores de Microsoft proponen BioViL-T un nuevo marco auto-supervisado que introduce un rendimiento predictivo mejorado y una mayor eficiencia de datos en aplicaciones biomédicas.

Microsoft researchers propose BioViL-T, a new self-supervised framework for improved predictive performance and greater data efficiency in biomedical applications.

La Inteligencia Artificial (IA) ha surgido como una fuerza disruptiva significativa en numerosas industrias, desde cómo operan las empresas tecnológicas hasta cómo se desbloquea la innovación en diferentes subdominios en el sector de la salud. En particular, el campo biomédico ha presenciado avances y transformaciones significativos con la introducción de la IA. Uno de estos progresos destacados se puede reducir a la utilización de modelos de auto-supervisión visión-lenguaje en radiología. Los radiólogos dependen en gran medida de los informes de radiología para transmitir observaciones de imágenes y proporcionar diagnósticos clínicos. Es notable que los estudios de imágenes previas juegan con frecuencia un papel clave en este proceso de toma de decisiones, porque proporcionan un contexto crucial para evaluar el curso de las enfermedades y establecer opciones de medicación adecuadas. Sin embargo, las soluciones de IA actuales en el mercado no pueden alinear con éxito imágenes con datos de informes debido al acceso limitado a escaneos anteriores. Además, estos métodos con frecuencia no consideran el desarrollo cronológico de enfermedades o hallazgos de imágenes típicamente presentes en conjuntos de datos biológicos. Esta falta de información contextual plantea riesgos en aplicaciones downstream como la generación automatizada de informes, donde los modelos pueden generar contenido temporal inexacto sin acceso a escaneos médicos anteriores.

Con la introducción de modelos visión-lenguaje, los investigadores tienen como objetivo generar señales de entrenamiento informativas utilizando pares de imagen-texto, eliminando así la necesidad de etiquetas manuales. Este enfoque permite que los modelos aprendan a identificar y precisar descubrimientos en las imágenes y establecer conexiones con la información presentada en los informes de radiología. Microsoft Research ha trabajado continuamente para mejorar la IA en informes y radiografías. Su investigación anterior sobre el aprendizaje auto-supervisado multimodal de informes e imágenes de radiología ha producido resultados alentadores en la identificación de problemas médicos y la localización de estos hallazgos dentro de las imágenes. Como contribución a esta ola de investigación, Microsoft lanzó BioViL-T, un marco de entrenamiento auto-supervisado que considera imágenes y informes anteriores cuando están disponibles durante la capacitación y el ajuste fino. BioViL-T logra resultados innovadores en varios benchmarks downstream, como la clasificación de progresión y la creación de informes, utilizando la estructura temporal existente presente en los conjuntos de datos. El estudio se presentará en la prestigiosa Conferencia de Reconocimiento de Patrones y Visión por Computadora (CVPR) en 2023.

La característica distintiva de BioViL-T radica en su consideración explícita de imágenes y informes anteriores durante los procesos de capacitación y ajuste fino en lugar de tratar cada par de imagen-informe como una entidad separada. La razón detrás de incorporar imágenes e informes anteriores por parte de los investigadores fue principalmente maximizar la utilización de datos disponibles, lo que resulta en representaciones más completas y un rendimiento mejorado en un rango más amplio de tareas. BioViL-T introduce un codificador multi-imagen único CNN-Transformer que se entrena conjuntamente con un modelo de texto. Este novedoso codificador multi-imagen sirve como el bloque de construcción fundamental del marco de pre-entrenamiento, abordando desafíos como la ausencia de imágenes anteriores y variaciones de postura en las imágenes a lo largo del tiempo.

Se eligieron un modelo CNN y un modelo transformer para crear el codificador híbrido multi-imagen y extraer características espacio-temporales de secuencias de imágenes. Cuando están disponibles imágenes anteriores, el modelo transformer se encarga de capturar interacciones de incrustación de parches a través del tiempo. Por otro lado, el modelo CNN se encarga de dar propiedades de token visual de imágenes individuales. Este codificador híbrido de imagen mejora la eficiencia de los datos, haciéndolo adecuado para conjuntos de datos de tamaños incluso más pequeños. Captura eficazmente las características de imagen estáticas y temporales, lo que es esencial para aplicaciones como la decodificación de informes que requieren un razonamiento visual denso en el tiempo. El procedimiento de pre-entrenamiento del modelo BioViL-T se puede dividir en dos componentes principales: un codificador multi-imagen para extraer características espacio-temporales y un codificador de texto que incorpora atención cruzada opcional con características de imagen. Estos modelos se entrenan conjuntamente utilizando objetivos de contraste globales y locales cruzados. El modelo también utiliza representaciones fusionadas multimodales obtenidas a través de atención cruzada para el modelado del lenguaje con máscaras de guía de imagen, aprovechando efectivamente la información visual y textual. Esto juega un papel central en la resolución de ambigüedades y el mejoramiento de la comprensión del lenguaje, que es de suma importancia para una amplia gama de tareas downstream.

El éxito de la estrategia de los investigadores de Microsoft fue ayudado por una variedad de evaluaciones experimentales que llevaron a cabo. El modelo logra un rendimiento de vanguardia para una variedad de tareas downstream como la categorización de progresión, el anclaje de frases y la generación de informes en configuraciones de una y varias imágenes. Además, mejora los modelos anteriores y produce resultados apreciables en tareas como la clasificación de enfermedades y la similitud de oraciones. Microsoft Research ha puesto el modelo y el código fuente a disposición del público para fomentar que la comunidad investigue su trabajo más a fondo. Los investigadores también están haciendo público un nuevo conjunto de datos de referencia temporal multimodal llamado MS-CXR-T para estimular investigación adicional sobre cómo las representaciones de visión-lenguaje pueden capturar semántica temporal.