Captura rápidamente información sobre salud pública utilizando aprendizaje automático sin código con Amazon SageMaker Canvas.
Quickly capture public health information using no-code machine learning with Amazon SageMaker Canvas.
Las organizaciones de salud pública cuentan con una gran cantidad de datos sobre diferentes tipos de enfermedades, tendencias de salud y factores de riesgo. Su personal ha utilizado durante mucho tiempo modelos estadísticos y análisis de regresión para tomar decisiones importantes, como dirigirse a las poblaciones con los factores de riesgo más altos para una enfermedad con terapéuticos, o pronosticar la progresión de brotes preocupantes.
Cuando surgen amenazas para la salud pública, la velocidad de los datos aumenta, los conjuntos de datos entrantes pueden crecer más y la gestión de datos se vuelve más desafiante. Esto dificulta el análisis holístico de los datos y la captura de información a partir de ellos. Y cuando el tiempo es esencial, la velocidad y agilidad en el análisis de datos y la obtención de información son obstáculos clave para formar respuestas de salud rápidas y sólidas.
Las preguntas típicas a las que se enfrentan las organizaciones de salud pública en momentos de estrés incluyen:
- ¿Habrá suficientes terapéuticos en una determinada ubicación?
- ¿Qué factores de riesgo están impulsando los resultados de salud?
- ¿Qué poblaciones tienen un mayor riesgo de reinfección?
Porque responder a estas preguntas requiere comprender las complejas relaciones entre muchos factores diferentes, que a menudo cambian y son dinámicos, una poderosa herramienta que tenemos a nuestra disposición es el aprendizaje automático (ML), que se puede utilizar para analizar, predecir y resolver estos complejos problemas cuantitativos. Cada vez más, hemos visto el ML aplicado para abordar problemas de salud difíciles, como clasificar tumores cerebrales con análisis de imágenes y predecir la necesidad de salud mental para implementar programas de intervención temprana.
Pero, ¿qué sucede si las organizaciones de salud pública carecen de las habilidades necesarias para aplicar ML a estas preguntas? La aplicación de ML a problemas de salud pública se ve obstaculizada y las organizaciones de salud pública pierden la capacidad de aplicar herramientas cuantitativas poderosas para abordar sus desafíos.
- TaatikNet Aprendizaje de secuencia a secuencia para transliteración...
- Transformando la capacitación especializada en IA Conoce LMFlow una...
- Aprendizaje de preferencias con retroalimentación automatizada para...
Entonces, ¿cómo eliminamos estos obstáculos? La respuesta es democratizar el ML y permitir que un mayor número de profesionales de la salud con un profundo conocimiento en su campo lo utilicen y lo apliquen a las preguntas que deseen resolver.
Amazon SageMaker Canvas es una herramienta de ML sin código que permite a profesionales de la salud pública, como epidemiólogos, informáticos y bioestadísticos, aplicar ML a sus preguntas sin necesidad de tener experiencia en ciencia de datos o conocimientos en ML. Pueden dedicar su tiempo a los datos, aplicar su experiencia en el campo, probar rápidamente hipótesis y cuantificar información. Canvas ayuda a hacer que la salud pública sea más equitativa democratizando el ML, permitiendo que los expertos en salud evalúen grandes conjuntos de datos y dándoles poder con información avanzada utilizando ML.
En esta publicación, mostramos cómo los expertos en salud pública pueden predecir la demanda de un determinado terapéutico para los próximos 30 días utilizando Canvas. Canvas te proporciona una interfaz visual que te permite generar predicciones precisas de ML por ti mismo sin necesidad de tener experiencia en ML o de escribir una sola línea de código.
Resumen de la solución
Supongamos que estamos trabajando con datos que recopilamos de estados en todo Estados Unidos. Podemos formular la hipótesis de que cierto municipio o ubicación no tiene suficientes terapéuticos en las próximas semanas. ¿Cómo podemos probar esto rápidamente y con un alto grado de precisión?
Para esta publicación, utilizamos un conjunto de datos disponible públicamente del Departamento de Salud y Servicios Humanos de Estados Unidos, que contiene datos de series temporales agregados por estado relacionados con COVID-19, incluida la utilización de hospitales, disponibilidad de ciertos terapéuticos y mucho más. El conjunto de datos (COVID-19 Impacto informado por el paciente y capacidad hospitalaria por serie temporal del estado (RAW)) se puede descargar desde healthdata.gov, y tiene 135 columnas y más de 60,000 filas. El conjunto de datos se actualiza periódicamente.
En las siguientes secciones, demostramos cómo realizar un análisis exploratorio de datos y preparación, construir el modelo de pronóstico de ML y generar predicciones utilizando Canvas.
Realizar análisis exploratorio de datos y preparación
Cuando hacemos un pronóstico de series temporales en Canvas, debemos reducir el número de características o columnas según las cuotas del servicio. Inicialmente, reducimos el número de columnas a las 12 que probablemente sean las más relevantes. Por ejemplo, eliminamos las columnas específicas de edad porque buscamos pronosticar la demanda total. También eliminamos las columnas cuyos datos eran similares a otras columnas que conservamos. En futuras iteraciones, es razonable experimentar con la retención de otras columnas y utilizar la explicabilidad de características en Canvas para cuantificar la importancia de estas características y cuáles queremos conservar. También renombramos la columna state
a location
.
Al observar el conjunto de datos, también decidimos eliminar todas las filas del 2020, porque en ese momento había terapéuticos limitados disponibles. Esto nos permite reducir el ruido y mejorar la calidad de los datos para que el modelo de ML pueda aprender de ellos.
La reducción del número de columnas se puede hacer de diferentes maneras. Puedes editar el conjunto de datos en una hoja de cálculo, o directamente dentro de Canvas utilizando la interfaz de usuario.
Puedes importar datos en Canvas desde diversas fuentes, incluyendo archivos locales de tu computadora, buckets de Amazon Simple Storage Service (Amazon S3), Amazon Athena, Snowflake (ver Prepara el conjunto de datos de entrenamiento y validación para la clasificación de facies utilizando la integración con Snowflake y entrena usando Amazon SageMaker Canvas) y más de 40 fuentes adicionales de datos.
Una vez que nuestros datos han sido importados, podemos explorar y visualizarlos para obtener información adicional, como gráficos de dispersión o gráficos de barras. También analizamos la correlación entre diferentes características para asegurarnos de haber seleccionado las mejores. La siguiente captura de pantalla muestra un ejemplo de visualización.
Construir el modelo de pronóstico de ML
Ahora estamos listos para crear nuestro modelo, lo cual podemos hacer con solo unos pocos clics. Elegimos la columna que identifica las terapias disponibles como nuestro objetivo. Canvas identifica automáticamente nuestro problema como un pronóstico de series temporales basado en la columna objetivo que acabamos de seleccionar, y podemos configurar los parámetros necesarios.
Configuramos el item_id
, el identificador único, como ubicación porque nuestro conjunto de datos se proporciona por ubicación (estados de EE. UU.). Como estamos creando un pronóstico de series temporales, necesitamos seleccionar una marca de tiempo, que en nuestro conjunto de datos es date
. Finalmente, especificamos cuántos días en el futuro queremos pronosticar (para este ejemplo, elegimos 30 días). Canvas también ofrece la capacidad de incluir un calendario de días festivos para mejorar la precisión. En este caso, usamos los días festivos de EE. UU. porque este es un conjunto de datos basado en EE. UU.
Con Canvas, puedes obtener información de tus datos antes de construir un modelo seleccionando Vista previa del modelo. Esto te ahorra tiempo y costos al no construir un modelo si los resultados no son satisfactorios. Al previsualizar nuestro modelo, nos damos cuenta de que el impacto de algunas columnas es bajo, lo que significa que el valor esperado de la columna para el modelo es bajo. Eliminamos columnas deseleccionándolas en Canvas (flechas rojas en la siguiente captura de pantalla) y observamos una mejora en una métrica de calidad estimada (flecha verde).
Continuando con la construcción de nuestro modelo, tenemos dos opciones: Construcción rápida y Construcción estándar. La construcción rápida produce un modelo entrenado en menos de 20 minutos, priorizando la velocidad sobre la precisión. Esto es ideal para experimentar y es un modelo más completo que el modelo de vista previa. La construcción estándar produce un modelo entrenado en menos de 4 horas, priorizando la precisión sobre la latencia, iterando a través de varias configuraciones de modelo para seleccionar automáticamente el mejor modelo.
Primero, experimentamos con la construcción rápida para validar nuestra vista previa del modelo. Luego, como estamos satisfechos con el modelo, elegimos la construcción estándar para que Canvas nos ayude a construir el mejor modelo posible para nuestro conjunto de datos. Si el modelo de construcción rápida hubiera producido resultados insatisfactorios, entonces volveríamos atrás y ajustaríamos los datos de entrada para capturar un mayor nivel de precisión. Podríamos lograr esto, por ejemplo, agregando o eliminando columnas o filas en nuestro conjunto de datos original. El modelo de construcción rápida permite experimentación rápida sin tener que depender de recursos escasos de ciencia de datos o esperar a que se complete un modelo completo.
Generar pronósticos
Una vez que se ha construido el modelo, podemos predecir la disponibilidad de terapias por ubicación
. Veamos cómo se ve nuestro inventario estimado en mano para los próximos 30 días, en este caso para Washington, DC.
Canvas produce pronósticos probabilísticos para la demanda terapéutica, lo que nos permite comprender tanto el valor mediano como los límites superior e inferior. En la siguiente captura de pantalla, puedes ver el final de los datos históricos (los datos del conjunto de datos original). Luego puedes ver tres nuevas líneas: el pronóstico mediano (percentil 50) en morado, el límite inferior (percentil 10) en azul claro y el límite superior (percentil 90) en azul oscuro.
Examinar los límites superiores e inferiores proporciona información sobre la distribución de probabilidad del pronóstico y nos permite tomar decisiones informadas sobre los niveles deseados de inventario local para este tratamiento. Podemos agregar esta información a otros datos (por ejemplo, pronósticos de progresión de enfermedades o eficacia y adopción terapéuticas) para tomar decisiones informadas sobre pedidos futuros y niveles de inventario.
Conclusión
Las herramientas de ML sin código empoderan a los expertos en salud pública para aplicar rápidamente y de manera efectiva el ML a las amenazas de salud pública. Esta democratización del ML hace que las organizaciones de salud pública sean más ágiles y eficientes en su misión de proteger la salud pública. Los análisis ad hoc que pueden identificar tendencias importantes o puntos de inflexión en las preocupaciones de salud pública ahora pueden ser realizados directamente por especialistas, sin tener que competir por recursos limitados de expertos en ML y ralentizar los tiempos de respuesta y toma de decisiones.
En esta publicación, mostramos cómo alguien sin ningún conocimiento de ML puede usar Canvas para pronosticar el inventario disponible de un cierto tratamiento. Este análisis puede ser realizado por cualquier analista en el campo, a través del poder de las tecnologías en la nube y ML sin código. Hacerlo distribuye las capacidades ampliamente y permite a las agencias de salud pública ser más receptivas y utilizar de manera más eficiente los recursos centralizados y de oficina de campo para ofrecer mejores resultados de salud pública.
¿Cuáles son algunas de las preguntas que podrías estar haciendo y cómo pueden ayudarte las herramientas de bajo/no código a responderlas? Si estás interesado en aprender más sobre Canvas, consulta Amazon SageMaker Canvas y comienza a aplicar ML a tus propias preguntas cuantitativas de salud.