Doble Aprendizaje Automático Simplificado Parte 2 – Orientación y el CATE
Doble Aprendizaje Automático Simplificado Parte 2' - Double Simplified Machine Learning Part 2 'Orientación y el CATE' - Guidance and the CATE
Aprende cómo utilizar DML para estimar los efectos del tratamiento a nivel individual para permitir una orientación basada en datos
Este artículo es el segundo de una serie de 2 partes sobre la simplificación y democratización del Double Machine Learning. En la primera parte, cubrimos los fundamentos de Double Machine Learning, junto con dos aplicaciones básicas de inferencia causal. Ahora, en la parte 2, ampliaremos este conocimiento para convertir nuestro problema de inferencia causal en una tarea de predicción, en la que predeciremos los efectos del tratamiento a nivel individual para ayudar en la toma de decisiones y en la orientación basada en datos.
Double Machine Learning, como aprendimos en la primera parte de esta serie, es un método de inferencia causal parcialmente lineal altamente flexible para estimar el efecto promedio del tratamiento (ATE) de un tratamiento. Específicamente, se puede utilizar para modelar relaciones de confusión altamente no lineales en datos observacionales y/o para reducir la variación en nuestro resultado clave en configuraciones experimentales. Estimar el ATE es particularmente útil para comprender el impacto promedio de un tratamiento específico, lo cual puede ser extremadamente útil para la toma de decisiones futuras. Sin embargo, la extrapolación de este efecto del tratamiento asume un grado de homogeneidad en el efecto; es decir, independientemente de la población a la que apliquemos el tratamiento, anticipamos que el efecto será similar al ATE. ¿Qué sucede si estamos limitados en el número de individuos a los que podemos dirigirnos para una implementación futura y, por lo tanto, queremos entender en qué subpoblaciones el tratamiento fue más efectivo para impulsar una implementación altamente efectiva?
El problema descrito anteriormente se refiere a la estimación de la heterogeneidad del efecto del tratamiento. Es decir, ¿cómo afecta nuestro efecto del tratamiento a diferentes subconjuntos de la población? Afortunadamente para nosotros, DML proporciona un marco poderoso para hacer exactamente esto. Específicamente, podemos utilizar DML para estimar el Efecto Promedio del Tratamiento Condicional (CATE, por sus siglas en inglés). Primero, repasemos nuestra definición del ATE:

Ahora, con el CATE, estimamos el ATE condicionado a un conjunto de valores para nuestras covariables, X: