De los Datos a los Dólares Utilizando la Regresión Lineal
From Data to Dollars Using Linear Regression
Descifrando la magia detrás del análisis predictivo
La toma de decisiones basada en datos se ha convertido en un cambio de juego para las empresas en todas las industrias. Desde optimizar estrategias de marketing hasta predecir el comportamiento del cliente, los datos son la clave para desbloquear oportunidades inexploradas. En este artículo, exploraremos el increíble potencial de utilizar la Regresión Lineal como una poderosa herramienta para convertir información en datos en ganancias financieras tangibles y las matemáticas detrás de ella.
La Regresión Lineal es un método de aprendizaje automático supervisado para predecir la relación entre la variable dependiente (Y) y las variables independientes (X). Por ejemplo, predicción del precio de las acciones.
Tipos de Regresión Lineal
- Regresión Lineal Simple: Aquí tienes una columna de entrada y una columna de salida.
- Regresión Lineal Múltiple: Aquí tienes varias columnas de entrada y una columna de salida.
- Regresión Lineal Polinómica: Se utiliza cuando los datos no son lineales.
Suposiciones en la Regresión Lineal
- La relación entre la variable dependiente y las variables independientes es lineal.
- No hay o poca multicolinealidad entre las variables.
- Se asume que sigue una distribución normal.

El objetivo principal es encontrar la línea de mejor ajuste que describa la relación entre la variable independiente y la variable dependiente, obteniendo la línea que tenga el error mínimo.
Línea de mejor ajuste: Es la línea que atraviesa la mayor cantidad de puntos y la distancia entre los puntos reales y la línea es mínima.
Pero, ¿cómo encontraremos cuál es la mejor línea a usar?
Comenzamos con una línea horizontal que atraviesa el promedio de los valores de los datos, lo cual probablemente sea el peor ajuste de todos, pero nos da un punto de partida para hablar sobre cómo encontrar una línea óptima para los datos. Para esta línea horizontal, x = 0. Dado que y = mx + c y x = 0, entonces y = c (el peor caso porque aquí y no depende de nuestra variable dependiente). En el próximo paso, encontraremos la suma de los residuos al cuadrado (SSR) para esta línea.
- Un jueves de GFN definitivo 41 nuevos juegos, además del lanzamient...
- Dr. Sam Zheng, CEO y Co-Fundador de DeepHow – Serie de Entrev...
- Las afirmaciones sobre superconductores podrían conducir a avances,...
Suma de los Residuos al Cuadrado (SSR): Es la distancia desde la línea hasta los datos, la cual se eleva al cuadrado y luego se suma para obtener el valor de SSR. Residuo es otra palabra para error.
Nuestro objetivo es encontrar el SSR mínimo. Por lo tanto, rotaremos nuestra línea horizontal y, en relación con la nueva línea, encontraremos el SSR. Y seguiremos haciéndolo para diferentes rotaciones.
De todos estos SSR que obtuvimos, consideraremos el mínimo y utilizaremos esa línea para ajustar nuestros datos. Por lo tanto, la línea con el menor cuadrado se impone en los datos, por lo que este método se conoce como mínimos cuadrados.
Diferentes algoritmos de Regresión Lineal
- Mínimos cuadrados ordinarios (OLS)
- Descenso de gradiente: Esta es una técnica de optimización.
Métricas de evaluación para la Regresión Lineal
- Error Absoluto Medio (MAE): No es diferenciable. Mantiene la misma unidad al intentar encontrar el MAE, lo que facilita interpretar los datos y es robusto a los valores atípicos.
- Error Cuadrático Medio (MSE): Es diferenciable pero la interpretación se ve afectada por el cambio de unidad debido a que estamos elevando al cuadrado la unidad aquí.
- Error Cuadrático Medio Raíz (RMSE):
Interpretabilidad: MAE>RMSE>MSESensible a valores atípicos: MSE>RMSE>MAE
- R-cuadrado (R2): Es el coeficiente de determinación o bondad del ajuste. Verifica qué tan buena es nuestra línea de mejor ajuste en comparación con la peor línea. El valor de R2 varía de 0 a 1. Cuanto más se acerque su modelo a la perfección, más se acercará el valor de R2 a 1 y cuanto más se acerque al peor, más se acercará el valor de R2 a 0. Indica cuánta variación en la variable y puede ser explicada por la variable x.
R2 = Variación Explicada / Variación TotalR2 = (Variación Total – Variación No Explicada) / Variación Total R2 = 1 – (variación no explicada / variación total)Aquí, Variación Total = Variación (media): (datos-media)²/nVariación no explicada = Variación (ajuste): (datos-línea)²/n
Por ejemplo, quieres predecir la pérdida de peso y tienes la variable de ingesta de calorías. Si obtienes un R2 del 70%, significa que el 70% de la variación en la variable de calificaciones puede ser explicada con la ayuda de la variable de horas estudiadas. Tiene una precisión del 70%, que es la bondad del ajuste.Ahora, si agregamos una nueva característica, como las horas de sueño, y esta no tiene mucho impacto en la variable objetivo, es decir, no está correlacionada con la pérdida de peso. Pero si calculamos R2 nuevamente, aumentará incluso si la nueva característica que agregamos no está relacionada. Pero esto no es correcto porque está aumentando la precisión del modelo cuando en realidad no lo está haciendo y también estamos aumentando la potencia de cálculo ya que tenemos que entrenar una columna adicional que ni siquiera es necesaria.
Problema con R2: Aunque las características involucradas en el modelo no sean tan importantes, el valor de R2 aumentará incluso si lo hace en un número pequeño, nunca disminuirá. Entonces, aunque R2 no debería haber aumentado porque la característica agregada no es importante, debemos entrenar el modelo innecesariamente. Por lo tanto, necesitamos penalizar esto y por eso tenemos el ‘R2 ajustado’
- R2 ajustado: Ahora imagina que estás aumentando más características en tu modelo, por lo que el valor de R2 aumentará porque el valor de SS(res) siempre disminuirá. Por lo tanto, el R2 ajustado entra en juego y básicamente penaliza las características que no están correlacionadas. Por lo tanto, si mis atributos no están correlacionados, solo disminuirá el valor de R2, de lo contrario, aumentará.
R2 ajustado = 1 – ((1-R2)(N-1)/N-P-1)N = número de puntos de datos P = número de características independientes
Por lo tanto, el R2 ajustado aumenta solo cuando la variable independiente es significativa y afecta a la variable dependiente. Además, no ocurrirá sobreajuste porque estamos penalizando el valor aquí.
¡Gracias por leer! Si disfrutaste de este artículo y te gustaría leer más de mi trabajo, considera seguirme en VoAGI. Espero compartir más contigo en el futuro.