Investigadores de Airbnb desarrollan Chronon un marco para desarrollar características de calidad de producción para modelos de aprendizaje automático

Investigadores de Airbnb desarrollan Chronon, un marco para características de calidad de producción en modelos de aprendizaje automático.

En el siempre cambiante panorama del aprendizaje automático, la gestión de características ha surgido como un punto clave de dolor para los ingenieros de ML en Airbnb. Mientras se esfuerzan por crear modelos innovadores para diversos productos, a menudo se encuentran dedicando una cantidad significativa de tiempo a lidiar con complejidades de infraestructura en lugar de centrarse únicamente en sus modelos. Airbnb reconoció la necesidad de una solución que pudiera simplificar la gestión de datos de características, proporcionar actualizaciones en tiempo real y garantizar la coherencia entre los entornos de entrenamiento y producción.

Ingresa a Chronon, una poderosa API diseñada por el equipo de Airbnb para enfrentar estos desafíos de frente. Chronon capacita a los profesionales de ML para definir características y centralizar la computación de datos para el entrenamiento de modelos y la inferencia de producción, garantizando precisión y coherencia en todo el proceso.

Ingestión de datos de diversas fuentes

Chronon puede recibir datos de diversas fuentes, incluyendo flujos de eventos, tablas de hechos/dimensiones en el almacén de datos, instantáneas de tablas, flujos de datos de cambio y más. Ya sean datos de eventos en tiempo real o instantáneas históricas, Chronon los maneja de manera impecable.

Transformación de datos con flexibilidad

Con las transformaciones y agregaciones basadas en tiempo de Chronon, los profesionales de ML tienen la libertad de procesar datos con facilidad. Ya sea una agregación estándar o técnicas sofisticadas de ventaneo, la API de Python de Chronon capacita a los usuarios para realizar cálculos complejos asegurando total flexibilidad y componibilidad.

Generación de resultados en línea y fuera de línea

Chronon cubre tanto los requisitos de generación de datos en línea como fuera de línea. Chronon tiene todo cubierto para puntos finales de baja latencia que sirven datos de características o tablas Hive para datos de entrenamiento. El parámetro de “Precisión” permite a los usuarios decidir la frecuencia de actualización, lo que lo hace adecuado para una variedad de casos de uso, desde actualizaciones en tiempo real hasta actualizaciones diarias.

Comprensión de precisión y fuentes de datos

El enfoque único de Chronon hacia la precisión permite a los usuarios expresar la frecuencia de actualización deseada para los datos derivados. Ya sea en tiempo casi real o intervalos diarios, los modelos de precisión “Temporal” o “Instantánea” de Chronon aseguran que los cálculos se alineen con los requisitos específicos de cada caso de uso.

Las fuentes de datos son componentes esenciales en el ecosistema de Chronon. Admite tres patrones principales de ingestión de datos:

  • Fuentes de datos de eventos para actividades con marca de tiempo
  • Fuentes de datos de entidades para metadatos de atributos relacionados con entidades comerciales
  • Fuentes de datos de eventos acumulativos para rastrear cambios históricos en dimensiones de cambio lento

Contextos y tipos de cálculo

Chronon opera en dos contextos distintos: en línea y fuera de línea. Los cálculos en línea atienden aplicaciones con baja latencia, mientras que los cálculos fuera de línea se realizan en conjuntos de datos del almacén utilizando trabajos por lotes. Todas las definiciones de Chronon se dividen en tres categorías: GroupBy para agregación, Join para combinar datos de varias computaciones GroupBy y StagingQuery para cálculos personalizados de Spark SQL.

Comprensión de las agregaciones para obtener información poderosa

Las agregaciones GroupBy de Chronon ofrecen varias extensiones a las funcionalidades tradicionales de agrupamiento de SQL. Los usuarios pueden aprovechar las ventanas para agregaciones limitadas en el tiempo, el agrupamiento para una granularidad adicional y el desempaquetado automático para manejar datos anidados dentro de una matriz. Además, las agregaciones basadas en el tiempo ofrecen aún más flexibilidad para crear características informativas para los modelos de ML.

Una integración fluida para los profesionales de ML de Airbnb

Chronon ha demostrado ser un cambio de juego para los profesionales de ML de Airbnb. Chronon permite a los usuarios generar miles de características para alimentar modelos de ML sin esfuerzo al simplificar la ingeniería de características. Esta solución revolucionaria ha liberado a los ingenieros de ML de la carga de implementación manual de canalizaciones, lo que les permite centrarse en la creación de modelos innovadores que se adapten a los comportamientos y demandas cambiantes de los usuarios.

En conclusión, Chronon se ha convertido en una herramienta indispensable en el arsenal de aprendizaje automático de Airbnb. Proporcionar una solución integral de gestión de características ha elevado la productividad y escalabilidad de la ingeniería de características, capacitando a los profesionales de ML para ofrecer modelos de vanguardia y mejorar la experiencia de Airbnb para millones de usuarios.