Cómo Carrier predice fallas en HVAC utilizando AWS Glue y Amazon SageMaker
Cómo Carrier predice fallas en HVAC con AWS Glue y Amazon SageMaker
En sus propias palabras, “En 1902, Willis Carrier resolvió uno de los desafíos más esquivos de la humanidad, controlar el ambiente interior a través de la moderna climatización. Hoy en día, los productos de Carrier crean ambientes confortables, salvaguardan el suministro global de alimentos y permiten el transporte seguro de suministros médicos vitales en condiciones exigentes”.
En Carrier, la base de nuestro éxito es fabricar productos en los que nuestros clientes puedan confiar para mantenerse cómodos y seguros durante todo el año. La alta confiabilidad y el bajo tiempo de inactividad del equipo son cada vez más importantes a medida que las temperaturas extremas se vuelven más comunes debido al cambio climático. Históricamente, nos hemos basado en sistemas basados en umbrales que nos alertan sobre el comportamiento anormal del equipo, utilizando parámetros definidos por nuestro equipo de ingeniería. Aunque dichos sistemas son efectivos, están destinados a identificar y diagnosticar problemas del equipo en lugar de predecirlos. Predecir fallas antes de que ocurran permite a nuestros distribuidores de HVAC abordar proactivamente los problemas y mejorar la experiencia del cliente.
Con el fin de mejorar la confiabilidad de nuestro equipo, nos asociamos con el Laboratorio de Soluciones de Aprendizaje Automático de Amazon para desarrollar un modelo de aprendizaje automático (ML) personalizado capaz de predecir problemas del equipo antes de que ocurran fallas. Nuestros equipos desarrollaron un marco para procesar más de 50 TB de datos históricos de sensores y predecir fallas con un 91% de precisión. Ahora podemos notificar a los distribuidores sobre la falla inminente del equipo, para que puedan programar inspecciones y minimizar el tiempo de inactividad de la unidad. El marco de la solución es escalable a medida que se instala más equipo y se puede reutilizar para una variedad de tareas de modelado posteriores.
En esta publicación, mostramos cómo los equipos de Carrier y AWS aplicaron ML para predecir fallas en grandes flotas de equipos utilizando un solo modelo. Primero destacamos cómo usamos AWS Glue para el procesamiento de datos altamente paralelo. Luego discutimos cómo Amazon SageMaker nos ayuda con la ingeniería de características y la construcción de un modelo de aprendizaje profundo supervisado y escalable.
Descripción general del caso de uso, objetivos y riesgos
El objetivo principal de este proyecto es reducir el tiempo de inactividad al predecir fallas inminentes del equipo y notificar a los distribuidores. Esto permite a los distribuidores programar el mantenimiento de manera proactiva y brindar un servicio al cliente excepcional. Enfrentamos tres desafíos principales al trabajar en esta solución:
- Crea una solución de moderación de contenido basada en IA generativ...
- MLOps Monitoreo y Gestión de Desviaciones
- Simplificando el Análisis de Series Temporales para Científicos de ...
- Escalabilidad de datos: el procesamiento de datos y la extracción de características deben escalarse a medida que crecen los grandes datos históricos de los sensores.
- Escalabilidad del modelo: el enfoque de modelado debe ser capaz de escalar a más de 10,000 unidades.
- Precisión del modelo: se necesitan bajos índices de falsos positivos para evitar inspecciones de mantenimiento innecesarias.
La escalabilidad, tanto desde una perspectiva de datos como de modelado, es un requisito clave para esta solución. Tenemos más de 50 TB de datos históricos de equipos y esperamos que estos datos crezcan rápidamente a medida que más unidades de HVAC se conecten a la nube. El procesamiento de datos y la inferencia del modelo deben escalar a medida que nuestros datos crecen. Para que nuestro enfoque de modelado se pueda escalar a más de 10,000 unidades, necesitamos un modelo que pueda aprender de una flota de equipos en lugar de depender de lecturas anómalas de una sola unidad. Esto permitirá la generalización entre unidades y reducirá el costo de la inferencia al alojar un solo modelo.
Otra preocupación para este caso de uso es generar falsas alarmas. Esto significa que un distribuidor o técnico acudirá al lugar para inspeccionar el equipo del cliente y encontrará que todo funciona adecuadamente. La solución requiere un modelo de alta precisión para garantizar que cuando se alerte a un distribuidor, es probable que el equipo falle. Esto ayuda a ganar la confianza de distribuidores, técnicos y propietarios por igual, y reduce los costos asociados con inspecciones innecesarias en el lugar.
Nos asociamos con los expertos en IA / ML en el Laboratorio de Soluciones de ML de Amazon para un esfuerzo de desarrollo de 14 semanas. Al final, nuestra solución incluye dos componentes principales. El primero es un módulo de procesamiento de datos construido con AWS Glue que resume el comportamiento del equipo y reduce el tamaño de nuestros datos de entrenamiento para un procesamiento eficiente posterior. El segundo es una interfaz de entrenamiento de modelos gestionada a través de SageMaker, que nos permite entrenar, ajustar y evaluar nuestro modelo antes de implementarlo en un punto final de producción.
Procesamiento de datos
Cada unidad de HVAC que instalamos genera datos de 90 sensores diferentes con lecturas de RPM, temperatura y presiones en todo el sistema. Esto equivale aproximadamente a 8 millones de puntos de datos generados por unidad por día, con decenas de miles de unidades instaladas. A medida que más sistemas de HVAC se conectan a la nube, anticipamos que el volumen de datos crecerá rápidamente, por lo que es fundamental que gestionemos su tamaño y complejidad para su uso en tareas posteriores. La longitud del historial de datos del sensor también presenta un desafío de modelado. Una unidad puede comenzar a mostrar signos de una falla inminente meses antes de que se active una falla. Esto crea un retraso significativo entre la señal predictiva y la falla real. Un método para comprimir la longitud de los datos de entrada se vuelve fundamental para el modelado de ML.
Para abordar el tamaño y la complejidad de los datos del sensor, los comprimimos en características cíclicas como se muestra en la Figura 1. Esto reduce drásticamente el tamaño de los datos al capturar características que caracterizan el comportamiento del equipo.
Figura 1: Muestra de datos de sensores de HVAC
AWS Glue es un servicio de integración de datos sin servidor para procesar grandes cantidades de datos a escala. AWS Glue nos permitió ejecutar fácilmente la preprocesamiento de datos y la extracción de características en paralelo. Utilizamos AWS Glue para detectar ciclos y resumir el comportamiento de las unidades utilizando características clave identificadas por nuestro equipo de ingeniería. Esto redujo drásticamente el tamaño de nuestro conjunto de datos de más de 8 millones de puntos de datos por día por unidad a aproximadamente 1,200. Crucialmente, este enfoque preserva la información predictiva sobre el comportamiento de la unidad con una huella de datos mucho más pequeña.
La salida del trabajo de AWS Glue es un resumen del comportamiento de la unidad para cada ciclo. Luego, utilizamos un trabajo de procesamiento de Amazon SageMaker para calcular características a lo largo de los ciclos y etiquetar nuestros datos. Formulamos el problema de aprendizaje automático como una tarea de clasificación binaria con el objetivo de predecir fallas en el equipo en los próximos 60 días. Esto permite a nuestra red de distribuidores abordar posibles fallas del equipo de manera oportuna. Es importante tener en cuenta que no todas las unidades fallan dentro de los 60 días. Una unidad que experimenta una degradación lenta en el rendimiento podría tomar más tiempo en fallar. Abordamos esto durante el paso de evaluación del modelo. Nos enfocamos en modelar los meses de verano porque esos son los meses en los que la mayoría de los sistemas de HVAC en los Estados Unidos están en funcionamiento constante y bajo condiciones más extremas.
Modelado
Las arquitecturas de transformadores se han convertido en el enfoque de vanguardia para el manejo de datos temporales. Pueden utilizar secuencias largas de datos históricos en cada paso de tiempo sin sufrir de gradientes que desaparecen. La entrada a nuestro modelo en un momento dado está compuesta por las características de los 128 ciclos anteriores del equipo, que es aproximadamente una semana de operación de la unidad. Esto es procesado por un codificador de tres capas cuya salida se promedia y se alimenta a un clasificador de perceptrón multicapa (MLP). El clasificador MLP está compuesto por tres capas lineales con funciones de activación ReLU y una capa final con activación LogSoftMax. Utilizamos una pérdida ponderada de registro de verosimilitud negativa con un peso diferente en la clase positiva para nuestra función de pérdida. Esto sesga nuestro modelo hacia una alta precisión y evita alarmas falsas costosas. También incorpora nuestros objetivos comerciales directamente en el proceso de entrenamiento del modelo. La Figura 2 ilustra la arquitectura del transformador.
Figura 2: Arquitectura del transformador temporal
Entrenamiento
Un desafío al entrenar este modelo de aprendizaje temporal es el desequilibrio de datos. Algunas unidades tienen un historial operativo más largo que otras y, por lo tanto, tienen más ciclos en nuestro conjunto de datos. Debido a que están sobre-representadas en el conjunto de datos, estas unidades tendrán más influencia en nuestro modelo. Resolvemos esto muestreando aleatoriamente 100 ciclos en el historial de una unidad, donde evaluamos la probabilidad de una falla en ese momento. Esto asegura que cada unidad esté representada de manera equitativa durante el proceso de entrenamiento. Si bien se soluciona el problema de datos desequilibrados, este enfoque tiene el beneficio adicional de replicar un enfoque de procesamiento por lotes que se utilizará en producción. Este enfoque de muestreo se aplicó a los conjuntos de entrenamiento, validación y prueba.
El entrenamiento se realizó utilizando una instancia acelerada por GPU en SageMaker. Monitoreando la pérdida, se muestra que se obtienen los mejores resultados después de 180 épocas de entrenamiento, como se muestra en la Figura 3. La Figura 4 muestra que el área bajo la curva ROC para el modelo de clasificación temporal resultante es del 81%.
Figura 3: Pérdida de entrenamiento en épocas |
Figura 4: ROC-AUC para bloqueo de 60 días |
Evaluación
Aunque nuestro modelo está entrenado a nivel de ciclo, la evaluación debe realizarse a nivel de unidad. De esta manera, una unidad con múltiples detecciones verdaderas positivas se cuenta solo como una verdadera positiva a nivel de unidad. Para hacer esto, analizamos la superposición entre los resultados predichos y la ventana de 60 días anterior a una falla. Esto se ilustra en la siguiente figura, que muestra cuatro casos de predicción de resultados:
- Falso negativo – Todos los resultados de predicción son negativos (morado) (Figura 5)
- Falso positivo – Las predicciones positivas son falsas alarmas (Figura 6)
- Verdadero negativo – Aunque las predicciones son todas negativas, las etiquetas reales podrían ser positivas (verde) (Figura 7)
- Verdadero positivo – Algunas de las predicciones podrían ser negativas (verde), y al menos una predicción es positiva (amarillo) (Figura 8)
Figura 5.1: Caso de verdadero negativo |
Figura 5.2: Caso de falso positivo |
Figura 5.3: Caso de falso negativo |
Figura 5.4: Caso de verdadero positivo |
Después del entrenamiento, utilizamos el conjunto de evaluación para ajustar el umbral para enviar una alerta. Establecer el umbral de confianza del modelo en 0.99 produce una precisión de aproximadamente el 81%. Esto no cumple con nuestro criterio inicial del 90% para el éxito. Sin embargo, encontramos que una buena parte de las unidades fallaron justo fuera de la ventana de evaluación de 60 días. Esto tiene sentido, ya que una unidad puede mostrar un comportamiento defectuoso pero tardar más de 60 días en fallar. Para manejar esto, definimos una métrica llamada precisión efectiva, que combina la precisión verdadera positiva (81%) con la precisión adicional de los bloqueos que ocurrieron en los 30 días más allá de nuestra ventana objetivo de 60 días.
Para un distribuidor de HVAC, lo más importante es que una inspección en el lugar ayuda a prevenir futuros problemas de HVAC para el cliente. Utilizando este modelo, estimamos que el 81.2% del tiempo la inspección evitará que ocurra un bloqueo en los próximos 60 días. Además, el 10.4% del tiempo el bloqueo habría ocurrido en los próximos 90 días después de la inspección. El 8.4% restante será una falsa alarma. La precisión efectiva del modelo entrenado es del 91.6%.
Conclusión
En este artículo, mostramos cómo nuestro equipo utilizó AWS Glue y SageMaker para crear una solución escalable de aprendizaje supervisado para el mantenimiento predictivo. Nuestro modelo es capaz de capturar tendencias en historias a largo plazo de datos de sensores y detectar con precisión cientos de fallas en equipos semanas antes. Predecir fallas con anticipación reducirá el tiempo de borde a borde, permitiendo que nuestros distribuidores brinden asistencia técnica más oportuna y mejoren la experiencia general del cliente. Los impactos de este enfoque aumentarán con el tiempo a medida que se instalen más unidades de HVAC conectadas a la nube cada año.
Nuestro próximo paso es integrar estos conocimientos en la próxima versión del Portal del Distribuidor Conectado de Carrier. El portal combina estas alertas predictivas con otros conocimientos que obtenemos de nuestro lago de datos basado en AWS para brindar a nuestros distribuidores una mayor claridad sobre la salud del equipo en toda su base de clientes. Continuaremos mejorando nuestro modelo integrando datos de fuentes adicionales y extrayendo características más avanzadas de nuestros datos de sensores. Los métodos utilizados en este proyecto proporcionan una base sólida para que nuestro equipo comience a responder otras preguntas clave que pueden ayudarnos a reducir reclamos de garantía y mejorar la eficiencia del equipo en el campo.
Si desea ayuda para acelerar el uso de ML en sus productos y servicios, comuníquese con el Laboratorio de Soluciones de ML de Amazon. Para obtener más información sobre los servicios utilizados en este proyecto, consulte la Guía del Desarrollador de AWS Glue y la Guía del Desarrollador de Amazon SageMaker.