Aprovechando el Aprendizaje Automático para el Desarrollo de Estrategias de Marketing Efectivas
Aprendizaje Automático para Estrategias de Marketing Efectivas
Consejos y trucos para construir con éxito una estrategia de marketing utilizando ML

Los modelos de atribución de marketing se utilizan ampliamente hoy en día para construir estrategias de marketing. Las estrategias se basan en asignar crédito a cada punto de contacto a lo largo de los viajes de todos los clientes. Hay muchos tipos diferentes de modelos, aunque se pueden clasificar en 2 grupos: modelos de atribución de un solo toque y modelos de atribución de múltiples toques. Por lo general, se pueden interpretar e implementar fácilmente estos modelos. Incluso pueden ser útiles en casos raros. Sin embargo, la mayoría de ellos son incapaces de construir por sí solos una estrategia de marketing sólida. El problema radica en el hecho de que todos estos modelos operan en base a reglas que pueden no ser aplicables a ciertos datos/industrias, o se basan en una cantidad limitada de datos, lo que conduce a una pérdida de información valiosa. Para obtener más información sobre los tipos de modelos de atribución de marketing, consulta mi artículo anterior.
Hoy, me gustaría discutir cómo utilizamos el aprendizaje automático para desarrollar una estrategia de marketing, los datos que utilizamos y los resultados que obtuvimos. En este artículo, abordaremos las siguientes preguntas:
- ¿Dónde es mejor obtener los datos?
- ¿Cómo preparar los datos para el entrenamiento del modelo?
- ¿Cómo utilizar eficazmente las predicciones del modelo y sacar conclusiones significativas?
Presentaré todo esto utilizando los datos de uno de nuestros clientes, con algunas partes modificadas. Estas modificaciones no afectarán los resultados generales. Nos referiremos a esta empresa como XYZ. El cliente permitió la publicación de estos datos.
Datos
Existen varias formas de obtener registros de tráfico de sitios web. Estos métodos no siempre proporcionan una información completa que pueda requerir para el análisis. Sin embargo, a veces está disponible la integración de una fuente en otra, y otras veces puede acumular y combinar manualmente datos de múltiples fuentes. También puede escribir scripts usted mismo para recopilar la información necesaria. Ahora, hablemos un poco sobre las fuentes más solicitadas actualmente y los datos que se pueden obtener de ellas:
Google Analytics
- Entrada de voz y lenguaje natural para tu aplicación móvil utilizan...
- La incrustación de oraciones de AI, desmitificada
- Ajusta tu LLM sin sobrecargar tu GPU
Google Analytics (GA4) es una plataforma potente que te brinda acceso a diferentes herramientas de análisis de sitios web y te permite medir la participación y el tráfico en tus aplicaciones y sitios web. Por lo general, utiliza la atribución de último clic, sin embargo, puedes construir tu propio modelo de atribución de ML personalizado recopilando los siguientes datos de GA4, como:
- eventos automáticos (como ad_click, ad_impression, app_exception, file_download, first_visit, page_view, etc.);
- mediciones mejoradas (scroll, click, video_start, video_progress, etc.);
- eventos recomendados (add_to_cart, begin_checkout, add_payment_info, purchase, add_to_wishlist, etc.);
- eventos personalizados.
Google Analytics te ofrece diferentes eventos para diferentes industrias.
Meta Pixel
Meta Pixel es una herramienta que te permite rastrear promociones de anuncios y la actividad de los visitantes en tu sitio web. Te brinda información sobre cómo interactúa tu audiencia con tus anuncios de Facebook e Instagram, y datos sobre cómo se comportan estos usuarios en tu sitio web después de hacer clic en un anuncio. En general, obtendrás los mismos datos que cuando usas Google Analytics. Sin embargo, Meta Pixel está más enfocado en el remarketing, por lo tanto, obtendrás más herramientas para eso en comparación con Google Analytics.
Yandex Metrika
Yandex Metrika tiene características similares a los servicios mencionados anteriormente. Sin embargo, tiene sus ventajas y desventajas. Como desventaja, Yandex Metrika tiene un límite de solicitudes procesadas desde una cuenta (5.000 solicitudes / día). Al mismo tiempo, Google Analytics tiene un límite de 200.000 solicitudes / día. Y la ventaja es que Yandex Metrika tiene Webvisor que te ayuda a obtener todos los movimientos del ratón.
No están todos los servicios disponibles que puedes utilizar para obtener datos de usuario. Aunque muchos tipos de datos están representados en cada fuente de datos, por lo que al elegir una fuente de datos, puedes prestar atención a factores como la facilidad de configuración de informes e integración con otros productos. Hemos elegido Google Analytics (GA4) porque proporciona datos completos y herramientas convenientes. Además, los datos se integran fácilmente con BigQuery y utilizamos la infraestructura de Google Cloud. Por lo tanto, los datos sin procesar se ven de la siguiente manera:
Preparación de datos
Volviendo a la tarea en cuestión, nuestro objetivo es determinar qué campañas publicitarias son más atractivas para invertir con el fin de reducir los gastos en la asignación de presupuesto, al mismo tiempo que se mantienen o aumentan los niveles de ingresos. Por lo tanto, la representación de los datos de GA4 nos resulta conveniente porque contiene información sobre cada acción o punto de contacto del usuario, como:
- Clics en botones
- Desplazamientos
- Visualización de fotos
- Búsquedas, etc.
A su vez, todas estas acciones se pueden transformar aún más en microconversiones, que es exactamente lo que necesitamos. Utilizaremos este conjunto de microconversiones para predecir la probabilidad de que un usuario realice una compra en cada sesión.
Al resolver una tarea como esta, las siguientes microconversiones pueden resultar de interés:
- Visitar la página de ventas
- Ver productos populares o clave
- Buscar un tamaño específico
- Ver fotos del producto
- Ver todas las fotos del producto
- Revisar información sobre el cuidado del producto
- Agregar un producto al carrito de compras, etc.
De hecho, puedes inventar cualquier cantidad de microconversiones por tu cuenta. La elección de las microconversiones depende en gran medida de las características específicas de tu tienda/negocio.
Al final, nos decidimos por las siguientes características y microconversiones para nuestro modelo. El número total de todas nuestras características es 97. Este es el subconjunto de nuestras características:
Puedes ver muchas características relacionadas con UTM, que significan lo siguiente:
- utm_source es el nombre de la plataforma o herramienta que se utiliza para crear el VoAGI;
- utm_VoAGI identifica el tipo o canal de alto nivel del tráfico;
- utm_campaign es el nombre de la campaña de marketing;
- las otras características de utm se refieren al primer punto de contacto dentro del recorrido del usuario o la sesión.
Volvamos a la discusión sobre otras características. Algunas de las columnas están disponibles en los datos sin procesar, por lo que no tienes que hacer nada con ellas. Sin embargo, algunas columnas no están listas para su uso y debes hacer algunas manipulaciones primero. Aquí tienes un ejemplo de cómo obtuvimos una microconversión, como agregar un producto al carrito de compras:
Modelo
Me gustaría recordarte que, utilizando el modelo, queremos obtener la probabilidad de que un usuario realice una compra en cada punto de contacto. Luego, convertiremos esto en la probabilidad de realizar una compra dentro de una sesión. Por lo tanto, utilizamos un modelo de clasificación donde utilizamos predict_proba
para obtener la probabilidad de compra en cada interacción del usuario. Después de probar varios modelos, desde lineales hasta de refuerzo, nos decidimos por utilizar CatBoostClassifier. Antes de implementar y volver a entrenar el modelo diariamente, se realizó una sintonización de hiperparámetros. No entraremos en los detalles de la creación del modelo, ya que seguimos un enfoque clásico de sintonización de hiperparámetros, entrenamiento del modelo subsiguiente y cálculo de las métricas relevantes.
Ahora el modelo se está entrenando utilizando datos de un mes, ya que cambiar esta duración a un período más largo o más corto no mostró una mejora significativa. Además, utilizamos un umbral 0.1 para determinar una compra. Específicamente utilizamos este valor porque es 10 veces mayor que la probabilidad de compra base de nuestro cliente. Esto nos sirve como un disparador para considerar estos eventos e investigar si se ha realizado una compra y, si no, por qué. En otras palabras, cualquier acción donde la probabilidad del modelo > 0.1 se clasifica como una compra. Como resultado, obtuvimos los siguientes valores para las métricas de recall y precisión:
Recall en el TEST: 0.947Precisión en el TEST: 0.999
Basándonos en las métricas obtenidas, podemos ver que aún nos faltan algunas compras. Es posible que los caminos hacia estas compras sean diferentes al recorrido típico del usuario.
Entonces, tenemos todas las características y las probabilidades del modelo, y ahora queremos construir un informe y comprender qué campañas publicitarias están subvaloradas y cuáles están sobrevaloradas. Para obtener la ad_campaign, combinamos las características utm_source, utm_VoAGI y utm_campaign. Luego, tomaremos la probabilidad máxima dentro de cada sesión de usuario y la multiplicaremos por el valor promedio del pedido dentro del mismo período de tiempo que el conjunto de datos de prueba. Después, generamos un informe calculando la suma para cada campaña publicitaria.
Nos proporciona el siguiente informe:
Ahora tenemos que pasar a las métricas de marketing. Dado que queremos medir el éxito de las campañas de marketing, podemos considerar las siguientes métricas que los especialistas en marketing suelen utilizar:
- ROAS (Retorno de la inversión en publicidad) es una métrica de marketing que mide la eficacia de una campaña de publicidad digital;
- CRR (Ratio costo-ingresos) mide la relación entre los gastos operativos y los ingresos generados por un negocio.
Las calcularemos utilizando nuestros datos y los compararemos con los valores de ROAS y CRR que los especialistas en marketing suelen obtener utilizando la atribución de último clic.
Dado que solo vemos tres campañas de pago en el período analizado, encontraremos las métricas para estas campañas en GA4. Y agregaremos los valores de ROAS y CRR basados en la atribución de último clic. Discutimos por qué la atribución de último clic no es un enfoque exacto para evaluar la contribución de las campañas publicitarias en el artículo anterior.
Y utilizando las fórmulas mencionadas anteriormente, calcularemos el informe final con el ROAS y CRR predichos:
Ahora tenemos todos los datos para sacar conclusiones sobre las campañas publicitarias:
- Podemos ver que la campaña “google/cpc/mg_ga_brand_all_categories_every_usa_0_rem_s_bas” está sobrevalorada, ya que su ROAS predicho es 2 veces más bajo que el ROAS basado en la atribución de último clic. Es muy probable que los usuarios realicen compras después de hacer clic en esta campaña publicitaria, pero ya sean clientes potenciales.
- La campaña publicitaria “instagram / cpc / 010323_main” está subestimada, ya que su ROAS predicho es 4 veces más alto que el ROAS real.
- Y la campaña “google / cpc / mg_ga_brand_all_categories_every_latvia_0_rem_s_bas” tiene un ROAS predicho similar al ROAS real.
Con estos datos, puedes desarrollar estrategias de marketing de forma independiente para el próximo período. Además, no debes olvidar que las estrategias de marketing requieren pruebas. Sin embargo, esto está fuera del alcance de nuestro artículo.
En este artículo, discutimos cómo se puede utilizar el aprendizaje automático para construir una estrategia de marketing. Abordamos el tema de la selección de datos, el preprocesamiento de datos para el modelado, el proceso de modelado en sí y la obtención de información a partir de los resultados obtenidos. Si también estás trabajando en una tarea similar, los enfoques que hayas utilizado también serían de interés para mí.
¡Gracias por leer!
Espero que las ideas compartidas hoy te hayan sido valiosas. Si deseas ponerte en contacto conmigo, no dudes en agregarme en LinkedIn.