Estimación de coeficientes variables en el tiempo con regresión en movimiento

'Estimación de coeficientes variables en regresión en movimiento'

Caminata aleatoria gaussiana como priors para coeficientes de regresión

Foto de Myriam Jessier en Unsplash

Uno de los desafíos en el análisis de regresión es tener en cuenta la posibilidad de que la relación entre las variables predictoras y la variable de respuesta pueda cambiar con el tiempo.

De la ciencia de datos a la econometría

Una y otra vez, los científicos de datos se encuentran con escenarios en los que las empresas tienen suposiciones y nuestros modelos deben incorporar la posibilidad de que estén en lo correcto.

Los modelos de regresión estándar son excelentes para estimar E[Y|X]. El coeficiente de Xᵢ (o βᵢ) se puede interpretar como el cambio incremental en Y cuando Xᵢ aumenta en 1. En econometría, a menudo se hipotetiza que βᵢ varía con el tiempo y podríamos llamarlo βᵢₜ. Lo que realmente estamos tratando de estimar es entonces, E[Y|X,Tiempo]. Aquí hay un gráfico de los ingresos de una empresa en 2 años: es un negocio estacional y no hay razón para creer que los β también sean dependientes del tiempo.

Imagen de Autor

En esta publicación, presentaremos el concepto de coeficientes variables en el tiempo en la regresión y mostraremos cómo se puede aplicar a un modelo de mezcla de marketing. Si aún no lo has hecho, echa un vistazo a mi serie VoAGI sobre cómo construir un MMM desde cero y todos los elementos que entran en él. Solo para recapitular, un Modelo de Mezcla de Marketing es una herramienta estadística que ayuda a los especialistas en marketing a medir el impacto de diferentes actividades de marketing (como publicidad, precios, promociones, etc.) en las ventas u otros resultados. Un modelo de mezcla de marketing típico se puede expresar como:

donde yₜ es la variable de resultado (como las ventas) en el tiempo t, xᵢₜ son las variables predictoras (como el gasto en publicidad, el precio, etc.) en el tiempo t, βᵢ son los coeficientes que miden el efecto de cada variable predictora en la variable de resultado, y Ɛₜ es el término de error.

Sin embargo, este modelo asume que los coeficientes son constantes en el tiempo, lo cual puede no ser realista en algunos casos. Por ejemplo, el efecto de la publicidad en las ventas puede variar según la estacionalidad, el ciclo de vida del producto, el entorno competitivo, etc. Para capturar esta variación, podemos usar coeficientes variables en el tiempo en la regresión, lo que permite que los coeficientes cambien a lo largo del tiempo como función de otras variables. Por ejemplo, podemos escribir:

donde βᵢ(t) ahora son funciones del tiempo u otras variables que capturan la dinámica de los coeficientes. Hay diferentes formas de especificar estas funciones, como el uso de splines, polinomios, efectos aleatorios, etc. La elección de la función depende de la naturaleza de los datos y la pregunta de investigación.

Caminata aleatoria gaussiana

Cuando la efectividad de los medios de comunicación cambia con el tiempo, se puede capturar mediante una función variable en el tiempo como coeficiente. Una de las opciones más populares es una Caminata Aleatoria Gaussiana.

Le interesará saber que este proceso se utiliza para modelar muchos datos en finanzas, como acciones o oro.

Una caminata aleatoria gaussiana es un proceso estocástico que modela el efecto acumulativo de variables aleatorias independientes e idénticamente distribuidas. También se conoce como una caminata aleatoria normal o un proceso de Wiener. Una caminata aleatoria gaussiana se puede representar mediante una secuencia de variables aleatorias X₁, X₂, …, Xₙ, donde cada Xᵢ sigue una distribución normal con media 0 y varianza 1, y la suma de las primeras 3 variables

es la posición del caminante aleatorio en el tiempo n. Un caminante aleatorio gaussiano tiene algunas propiedades importantes, como ser un proceso de Markov, tener incrementos estacionarios y ser continuo en probabilidad.

Código para el Modelo de Media Móvil Bayesiano que Varía en el Tiempo

Aquí hay una versión mejorada del modelo PyMC que construí en esta publicación. He agregado código para variar los coeficientes por semana, por trimestre, por semestre o por año. Esta forma de regresión también se llama comúnmente regresión rodante.

Veamos qué ha cambiado en el código.

En primer lugar, notarás que este modelo ahora está envuelto en una función llamada BayesianMMM. Esto es para mayor comodidad, para que podamos ejecutarlo con diferentes argumentos. Este ejemplo toma un argumento llamado splits, que decide qué tan granular es tu definición de tiempo: semanal (S), trimestral (T), semestral (S) o año tras año (Año).

También notarás que el modelo PyMC en sí toma un argumento llamado coords que es básicamente tu variable de tiempo. Si eliges variar los coeficientes cada semana, la variable de tiempo sería 1…104. Si eliges trimestralmente, sería 1,1,1…,2,2,2…,3,3,3…,4,4,4…,1,1,1… (recuerda, estos son datos de 2 años).

A continuación, nuestro coeficiente ahora es una variable de Caminata Aleatoria Gaussiana en lugar de una TruncatedNormal. Al igual que antes, lo inicializamos en la media de la distribución previa (si no recuerdas esto, vuelve aquí). En esta configuración, cada período de tiempo tiene su propio coeficiente, pero los coeficientes comparten información entre períodos de tiempo consecutivos. Esta es la mayor fortaleza de una regresión rodante.

Ahora veamos tres estudios de caso.

Estudio de caso 1 — ¿Cómo ha cambiado la estrategia de medios a lo largo del tiempo para el embudo superior?

El marketing del embudo superior se refiere a las actividades que buscan generar conciencia e interés entre los clientes potenciales que aún no están listos para comprar. A menudo es difícil de medir porque no conduce directamente a conversiones o ventas, sino que influye en el viaje del cliente de una manera sutil y a largo plazo. Sin embargo, es útil saber qué canal es más efectivo y las tendencias a lo largo del tiempo.

Imagen de Autor

Se ha obtenido conocimiento muy útil. Alrededor del comienzo del período de tiempo, el correo directo fue el canal menos efectivo durante mucho tiempo antes de superar a la televisión. La evidencia anecdótica confirma que con la llegada de la televisión conectada (CTV), la efectividad de la televisión ha disminuido con el tiempo.

Otra observación sería que CTV ha superado a Correo electrónico con el tiempo. Estas son observaciones interesantes, pero no podemos sacar conclusiones sin pruebas A/B.

Estudio de caso 2 — Mi negocio es estacional y obtiene la mayor parte de los ingresos en temporada de vacaciones.

Los especialistas en marketing no deben asumir que la efectividad de la búsqueda pagada es constante durante todo el año, sino ajustar sus campañas de acuerdo con las fluctuaciones y oportunidades trimestrales. Sin embargo, se pueden observar algunas tendencias generales, especialmente en el comercio minorista y el comercio electrónico.

La efectividad de la búsqueda pagada tiende a ser mayor en el cuarto trimestre, especialmente durante la temporada de vacaciones, cuando aumenta la actividad de compras en línea y los consumidores son más propensos a hacer clic en anuncios que ofrecen descuentos, ofertas o ideas de regalos. Por el contrario, la efectividad de la búsqueda pagada puede disminuir en el primer trimestre, cuando la demanda del consumidor disminuye y los anunciantes enfrentan tasas de conversión más bajas y costos por clic más altos. El segundo y tercer trimestre pueden mostrar resultados más estables o moderados, dependiendo de la industria específica y las condiciones del mercado.

Imagen de Autor

Encontramos que la efectividad de la búsqueda pagada es esperadamente mayor en el cuarto trimestre.

Estudio de caso 3 — Quiero medir la tendencia año tras año en la efectividad de los medios.

Las tendencias interanuales son cambios en los indicadores clave de rendimiento (KPI) que ocurren de un año a otro. Pueden ayudar a los especialistas en marketing a establecer metas realistas, ajustar sus presupuestos y optimizar sus tácticas en función de lo que funciona y lo que no.

Al analizar datos históricos, realizar investigaciones de mercado y probar diferentes estrategias, los especialistas en marketing pueden optimizar la efectividad de su búsqueda pagada y alcanzar sus metas en cada trimestre. La orientación de los editores y las pruebas A/B internas también pueden identificar momentos en los que el retorno de la inversión es más alto. Por último, todo esto ayuda a calibrar nuestro MMM.

Imagen del autor

Vemos que la efectividad de la búsqueda pagada en comparación con el año anterior ha mejorado aproximadamente un 2%. Estas tendencias se informan con bastante frecuencia y se atribuyen al éxito de los departamentos de marketing.

Conclusión

Si has seguido mi serie de MMM, he destacado la importancia de que tu MMM (o cualquier otra medida) sea comprensible para las partes interesadas. Los coeficientes variables en el tiempo ayudan a responder muchas preguntas que pueden surgir en un MMM básico. Con técnicas de optimización bayesiana, podemos hacer pequeños ajustes en nuestro código de modelo para que pueda responder automáticamente a esas preguntas.

Una de las ventajas de utilizar coeficientes variables en el tiempo en la regresión es que puede proporcionar estimaciones más precisas y flexibles de los efectos de las variables predictoras sobre la variable de resultado a lo largo del tiempo. También puede ayudar a identificar cuándo y cómo cambian estos efectos y qué factores impulsan estos cambios. Esto puede ayudar a los especialistas en marketing a diseñar estrategias de marketing más efectivas y eficientes y optimizar su mezcla de marketing.

Gracias por leer 😊