Cointegración vs Correlación espuria Comprender la diferencia para un análisis preciso
Cointegración vs Correlación espuria Diferencia clave para un análisis preciso
Por qué la correlación no implica causalidad para series de tiempo
Antecedentes
En el análisis de series de tiempo, es importante entender si una serie influye en otra. Por ejemplo, es útil para los comerciantes de materias primas saber si un aumento en la materia prima A lleva a un aumento en la materia prima B. Originalmente, esta relación se medía utilizando la regresión lineal, sin embargo, en la década de 1980, Clive Granger y Paul Newbold demostraron que este enfoque produce resultados incorrectos, especialmente para series de tiempo no estacionarias. Como resultado, concibieron el concepto de cointegración, por el cual Granger ganó un premio Nobel. En esta publicación, quiero discutir la necesidad y aplicación de la cointegración y por qué es un concepto importante que los científicos de datos deben entender.
Correlación espuria
Resumen
Antes de discutir la cointegración, hablemos de la necesidad de la misma. Históricamente, los estadísticos y los economistas utilizaban la regresión lineal para determinar la relación entre diferentes series de tiempo. Sin embargo, Granger y Newbold demostraron que este enfoque es incorrecto y lleva a algo llamado correlación espuria.
Una correlación espuria es aquella en la que dos series de tiempo pueden parecer correlacionadas, pero en realidad carecen de una relación causal. Es la clásica afirmación de “la correlación no implica causalidad”. Es peligroso, ya que incluso las pruebas estadísticas pueden indicar que hay una relación causal.
Ejemplo
Un ejemplo de una relación espuria se muestra en los gráficos a continuación:

Aquí tenemos dos series de tiempo A(t) y B(t) graficadas como una función del tiempo (izquierda) y graficadas una contra la otra (derecha). Observamos desde el gráfico de la derecha que hay cierta correlación entre las series, como se muestra por la línea de regresión. Sin embargo, al observar el gráfico de la izquierda, vemos que esta correlación es espuria porque B(t) aumenta constantemente mientras que A(t) fluctúa erráticamente. Además, la distancia promedio entre las dos series de tiempo también está aumentando…