Aprendizaje automático Comprender los propósitos de centrado y escalamiento

Propósitos de centrado y escalamiento en aprendizaje automático

Usando Transformadores (MinMaxScaler, StandardScaler, RobustScaler)

Escalado, Imagen de Flo en OpenSea

Introducción

Este artículo introduce los conceptos de centrado y escala. Con un caso de uso del mundo real, explico las ventajas de centrar y escalar los datos.

Profundizamos en cálculos y explicaciones simples al observar los métodos predefinidos de Scikit-Learn.

Técnicamente, comparamos MinMaxScaler, StandardScaler y RobustScaler. Son parte de los métodos de transformadores que facilitan la preprocesamiento.

Al final, comprenderás el propósito de centrar y escalar datos y estarás listo para usar los transformadores predefinidos de Scikit-Learn.

¿Qué es el Centrado y Escalado?

Comprender los conceptos

La escala transforma los datos a un rango o escala específica, mientras que el centrado implica desplazar los puntos de datos para que su media sea cero. Un ejemplo a continuación.

Imagen de Flo

Puedes ver el efecto de escalar y centrar los datos. Ahora, a la derecha, los datos están centrados alrededor de 0 y aparecen en una escala más corta (ejes X e Y).

Ventajas

Hay varias ventajas de centrar y escalar los datos, las más importantes para el escalado:

  • Mejorar el rendimiento de los algoritmos: Los algoritmos que utilizan distancias, como K-Nearest Neighbors (KNN) y K-Means, son sensibles a la distancia entre los datos. Reducir la escala de los datos mejora su rendimiento.
  • Normalizar características: Cuando un conjunto de datos contiene características con diferentes escalas, escalar los datos evita dar demasiada importancia a las características con magnitudes más grandes.
  • Mejorar la comparación de datos: Facilita la comparación de datos debido a su misma escala.
  • Prevenir problemas numéricos: Escalar los datos puede prevenir problemas como desbordamiento y subdesbordamiento (cuando los números son muy pequeños o grandes).
  • Reducir la influencia de valores atípicos