PHASE 1 VIVIANA ANDREA GARCÍA MEZA GRUPO: 3 PRESENTADO A: RAFAEL GAITAN ENSEMBLE METHODS AND KERNELS UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESPECIALIZACIÓN EN CIENCIA DE DATOS Y ANALÍTICA 2024 1.Definitions, importance, and differences between the concepts of Bias, Variance, and Trade-Off. (Bias): En el aprendizaje automático se hace referencia al sesgo cuando existe diferencia sistemática entre las predicciones de un modelo y los valores reales que se pretenden predecir. Un modelo con alto sesgo tiene suposiciones fuertes sobre la forma de los datos subyacentes y puede no capturar la complejidad necesaria, lo que resulta en un rendimiento deficiente. Esto se conoce como subajuste. Por ejemplo, si intentamos modelar una relación no lineal (como una función seno) con un modelo lineal simple, el modelo no podrá capturar la verdadera relación y tendrá un alto sesgo. (Kyriakides y Margaritis, 2019) Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Sesgo] [Gráfico]. En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras. (p. 35) La ecuación usada para cálculo del sesgo es: (Variance): esta hace referencia a la cantidad que las predicciones del modelo cambiarían si se entrenara con un conjunto de datos de entrenamiento diferente. Un modelo con alta varianza es muy sensible a los cambios en los datos de entrenamiento y puede capturar demasiado ruido o detalles finos, lo que resulta en un rendimiento deficiente en los datos no vistos. Esto se conoce como sobreajuste. Por ejemplo, un árbol de decisión que crea una regla para cada instancia individual en el conjunto de datos de entrenamiento tendría una alta varianza. (Kyriakides y Margaritis, 2019) Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Varianza] [Gráfico]. En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras. (p. 36) La fórmula matemática para su respectivo cálculo es: Compensación (Trade-off): La complejidad de un modelo es un problema donde se presentan tanto la varianza como el sesgo. Un modelo demasiado simple puede tener un alto sesgo (subajuste), mientras que un modelo demasiado complejo puede tener una alta varianza (sobreajuste). La compensación se refiere a encontrar un equilibrio entre el sesgo y la varianza para minimizar el error total del modelo. (Kyriakides y Margaritis, 2019) Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Compensación] [Gráfico]. En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras. (p. 37) Compensación (Trade-off) Sesgo-Varianza: El sesgo y la varianza están interrelacionados y provienen de la misma fuente: la complejidad del modelo. Un modelo demasiado simple puede tener un alto sesgo (subajuste), mientras que un modelo demasiado complejo puede tener una alta varianza (sobreajuste). La compensación entre sesgo y varianza se refiere a encontrar un equilibrio entre estos dos errores para minimizar el error total del modelo. Idealmente, queremos un modelo que tenga tanto un sesgo bajo como una varianza baja, pero en la práctica, reducir uno a menudo aumentará el otro. Por lo tanto, el objetivo es encontrar un punto óptimo de complejidad del modelo donde tanto el sesgo como la varianza sean mínimos. Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Modelo Perfecto] [Gráfico]. En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras. (p. 38) Ahora, Kane, F. (2017) enmarca la definición de error total, cuyo (…) “objetivo es minimizar el error total, que se puede expresar como una función del sesgo y la varianza”. Técnicas como la validación cruzada, la regularización y los métodos de conjunto pueden ayudar a encontrar este equilibrio. k-vecinos más cercanos (KNN): Al aumentar el valor de K, se disminuye la varianza pero puede aumentar el sesgo, ya que se incluyen más puntos que pueden ser menos relevantes para el punto de partida. Kane, F. (2017) Árboles de decisión y bosques aleatorios: Un solo árbol de decisión es propenso al sobreajuste (alta varianza), pero los bosques aleatorios buscan compensar parte de esa varianza para reducir el sesgo, al tener múltiples árboles que varían aleatoriamente y promedian todas sus soluciones juntas. Kane, F. (2017) El error se puede expresar como una función de sesgo y varianza: El sesgo y la varianza son dos conceptos fundamentales en el campo de las predicciones. El sesgo se refiere a la distancia entre las predicciones y los valores correctos. Si los errores tienden a inclinarse en una dirección específica, entonces las predicciones están sesgadas en esa dirección. Por otro lado, la varianza es una indicación de la dispersión de las predicciones. Una alta varianza significa que las predicciones están muy dispersas. Kane, F. (2017) Para ilustrar estos conceptos, podemos pensar en un juego de dardos. El centro del tablero de dardos representa el valor real que estamos tratando de predecir. Si los dardos están dispersos alrededor del centro, esto indica un sesgo bajo y una alta varianza. Si los dardos están agrupados pero lejos del centro, esto indica un alto sesgo y una baja varianza. Si los dardos están dispersos y lejos del centro, esto indica un alto sesgo y una alta varianza. Si los dardos están agrupados en el centro, esto indica un bajo sesgo y una baja varianza. Kane, F. (2017) En la práctica, a menudo hay que hacer un equilibrio entre el sesgo y la varianza. Esto se manifiesta en el sobreajuste y el subajuste de los datos. Por ejemplo, en un gráfico, una línea recta puede tener una varianza baja, pero un alto sesgo, ya que el error de cada punto individual es alto. Por otro lado, una línea que se ajusta a las observaciones tiene una alta varianza pero un bajo sesgo, ya que cada punto individual está cerca de donde debería estar. Este es un ejemplo de cómo se intercambia la varianza por el sesgo. Kane, F. (2017) . 2.What are Ensemble Methods in Machine Learning? Los métodos de conjunto son una técnica común en el aprendizaje automático que busca mejorar la precisión predictiva al combinar las predicciones de varios modelos. Estos modelos individuales se denominan aprendices base. Según Bonaccorso (2018), los métodos de conjunto se dividen en dos clases principales: generativos y no generativos. Los métodos no generativos se centran en combinar las predicciones de un conjunto de modelos preentrenados. Estos modelos suelen entrenarse de forma independiente entre sí, y el algoritmo de conjunto dicta cómo se combinarán sus predicciones. Los clasificadores base no se ven afectados por el hecho de que existen en un conjunto. Entre los métodos no generativos principales, se encuentra el método de votación y el método de apilamiento. La votación, hace referencia a técnicas que permiten a los modelos votar para producir una única respuesta, similar a cómo las personas votan en las elecciones nacionales. La respuesta más popular (la más votada) se selecciona como ganadora. El apilamiento, por otro lado, se refiere a métodos que utilizan un modelo (el meta-aprendiz) que aprende cómo combinar mejor las predicciones del aprendiz base. Aunque el apilamiento implica la generación de un nuevo modelo, no afecta a los aprendices base, por lo que es un método no generativo. 3.Why are the ensemble methods important and used? En el aprendizaje automático, existen tres técnicas principales de ensamblado: El Bagging implica la construcción de un conjunto completo, donde cada modelo se entrena de forma independiente con un subconjunto de los datos originales, introduciendo un nivel de aleatoriedad para evitar la especialización en el mismo subconjunto. Un ejemplo de esto es el algoritmo Random Forest. (Bonaccorso, G., 2018). El Boosting construye el conjunto de forma secuencial, poniendo énfasis en las muestras que han sido mal clasificadas anteriormente, ajustando la distribución de las muestras para dar más importancia a las que requieren más especialización, como se ve en AdaBoost y Gradient Tree Boosting. (Bonaccorso, G., 2018). El Stacking se basa en un conjunto heterogéneo de modelos débiles, donde cada modelo se entrena de forma autónoma y la decisión final se toma mediante votación mayoritaria, promediando los resultados o utilizando otro modelo que toma todas las predicciones y emite una final (Bonaccorso, G., 2018) Referencias Bonaccorso, G. (2018). Machine Learning Algorithms: Popular Algorithms for Data Science and Machine Learning (2da ed.). Kane, F. (2017). Hands-On Data Science and Python Machine Learning. Packt Publishing. Kyriakides, G., & Margaritis, K. G. (2019). Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras.