Aprendizaje en conjunto con Scikit-Learn Una introducción amigable
Aprendizaje conjunto con Scikit-Learn Introducción amigable
Los algoritmos de aprendizaje en conjunto como XGBoost o Random Forests están entre los modelos de mejor rendimiento en las competiciones de Kaggle. ¿Cómo funcionan?

Los algoritmos de aprendizaje fundamentales como la regresión logística o la regresión lineal suelen ser demasiado simples para obtener resultados adecuados en un problema de aprendizaje automático. Si bien una solución posible es utilizar redes neuronales, estas requieren una gran cantidad de datos de entrenamiento, los cuales rara vez están disponibles. Las técnicas de aprendizaje en conjunto pueden mejorar el rendimiento de los modelos simples incluso con una cantidad limitada de datos.
Imagina pedirle a una persona que adivine cuántos caramelos hay dentro de un frasco grande. Es poco probable que la respuesta de una persona sea una estimación precisa del número correcto. En cambio, si le preguntamos a mil personas la misma pregunta, es probable que la respuesta promedio se acerque al número real. Este fenómeno se llama sabiduría de la multitud [1]. Cuando se trata de tareas de estimación complejas, la multitud puede ser considerablemente más precisa que un individuo.
Los algoritmos de aprendizaje en conjunto aprovechan este principio simple al agregar las predicciones de un grupo de modelos, como clasificadores o regresores. Para una agregación de clasificadores, el modelo en conjunto podría seleccionar simplemente la clase más común entre las predicciones de los clasificadores de nivel inferior. En cambio, el conjunto puede utilizar la media o la mediana de todas las predicciones para una tarea de regresión.

Al agregar un gran número de aprendices débiles, es decir, clasificadores o regresores que son solo ligeramente mejores que una suposición aleatoria, podemos lograr resultados impensables. Considera una tarea de clasificación binaria. Al agregar 1000 clasificadores independientes con una precisión individual del 51%, podemos crear un conjunto que logre una precisión del 75% [2].
¡Esta es la razón por la cual los algoritmos de conjunto suelen ser las soluciones ganadoras en muchas competiciones de aprendizaje automático!
- ¿Cómo vaciar la bandeja de entrada de Gmail con IA?
- Introducción a PCA en Python con Sklearn, Pandas y Matplotlib
- El problema de dispersión de instalaciones modelos de programación ...
Existen varias técnicas para construir un algoritmo de aprendizaje en conjunto. Las principales son el bagging, el boosting y el stacking. En los siguientes…