Uploaded by vivandrea1

G03 Viviana Andrea Garcia Meza Phase1

advertisement
PHASE 1
VIVIANA ANDREA GARCÍA MEZA
GRUPO: 3
PRESENTADO A:
RAFAEL GAITAN
ENSEMBLE METHODS AND KERNELS
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESPECIALIZACIÓN EN CIENCIA DE DATOS Y ANALÍTICA
2024
1.Definitions, importance, and differences between the concepts of Bias, Variance, and Trade-Off.
(Bias): En el aprendizaje automático se hace referencia al sesgo cuando existe diferencia
sistemática entre las predicciones de un modelo y los valores reales que se pretenden predecir. Un
modelo con alto sesgo tiene suposiciones fuertes sobre la forma de los datos subyacentes y puede
no capturar la complejidad necesaria, lo que resulta en un rendimiento deficiente. Esto se conoce
como subajuste. Por ejemplo, si intentamos modelar una relación no lineal (como una función
seno) con un modelo lineal simple, el modelo no podrá capturar la verdadera relación y tendrá un
alto sesgo. (Kyriakides y Margaritis, 2019)
Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Sesgo] [Gráfico]. En Hands-On
Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models
Using Scikit-learn and Keras. (p. 35)
La ecuación usada para cálculo del sesgo es:
(Variance): esta hace referencia a la cantidad que las predicciones del modelo cambiarían
si se entrenara con un conjunto de datos de entrenamiento diferente. Un modelo con alta varianza
es muy sensible a los cambios en los datos de entrenamiento y puede capturar demasiado ruido o
detalles finos, lo que resulta en un rendimiento deficiente en los datos no vistos. Esto se conoce
como sobreajuste. Por ejemplo, un árbol de decisión que crea una regla para cada instancia
individual en el conjunto de datos de entrenamiento tendría una alta varianza. (Kyriakides y
Margaritis, 2019)
Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Varianza] [Gráfico]. En Hands-On
Ensemble Learning with Python: Build Highly Optimized Ensemble Machine Learning Models
Using Scikit-learn and Keras. (p. 36)
La fórmula matemática para su respectivo cálculo es:
Compensación (Trade-off): La complejidad de un modelo es un problema donde se
presentan tanto la varianza como el sesgo. Un modelo demasiado simple puede tener un alto
sesgo (subajuste), mientras que un modelo demasiado complejo puede tener una alta varianza
(sobreajuste). La compensación se refiere a encontrar un equilibrio entre el sesgo y la varianza
para minimizar el error total del modelo. (Kyriakides y Margaritis, 2019)
Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Compensación] [Gráfico].
En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine
Learning Models Using Scikit-learn and Keras. (p. 37)
Compensación (Trade-off) Sesgo-Varianza: El sesgo y la varianza están
interrelacionados y provienen de la misma fuente: la complejidad del modelo. Un modelo
demasiado simple puede tener un alto sesgo (subajuste), mientras que un modelo demasiado
complejo puede tener una alta varianza (sobreajuste). La compensación entre sesgo y varianza se
refiere a encontrar un equilibrio entre estos dos errores para minimizar el error total del modelo.
Idealmente, queremos un modelo que tenga tanto un sesgo bajo como una varianza baja, pero en
la práctica, reducir uno a menudo aumentará el otro. Por lo tanto, el objetivo es encontrar un
punto óptimo de complejidad del modelo donde tanto el sesgo como la varianza sean mínimos.
Kyriakides, G., & Margaritis, K. G. (2019). [Ejemplo Modelo Perfecto] [Gráfico].
En Hands-On Ensemble Learning with Python: Build Highly Optimized Ensemble Machine
Learning Models Using Scikit-learn and Keras. (p. 38)
Ahora, Kane, F. (2017) enmarca la definición de error total, cuyo (…) “objetivo es
minimizar el error total, que se puede expresar como una función del sesgo y la varianza”.
Técnicas como la validación cruzada, la regularización y los métodos de conjunto pueden ayudar
a encontrar este equilibrio.
k-vecinos más cercanos (KNN): Al aumentar el valor de K, se disminuye la varianza pero
puede aumentar el sesgo, ya que se incluyen más puntos que pueden ser menos relevantes para el
punto de partida. Kane, F. (2017)
Árboles de decisión y bosques aleatorios: Un solo árbol de decisión es propenso al
sobreajuste (alta varianza), pero los bosques aleatorios buscan compensar parte de esa varianza
para reducir el sesgo, al tener múltiples árboles que varían aleatoriamente y promedian todas sus
soluciones juntas. Kane, F. (2017)
El error se puede expresar como una función de sesgo y varianza:
El sesgo y la varianza son dos conceptos fundamentales en el campo de las predicciones.
El sesgo se refiere a la distancia entre las predicciones y los valores correctos. Si los errores
tienden a inclinarse en una dirección específica, entonces las predicciones están sesgadas en esa
dirección. Por otro lado, la varianza es una indicación de la dispersión de las predicciones. Una
alta varianza significa que las predicciones están muy dispersas. Kane, F. (2017)
Para ilustrar estos conceptos, podemos pensar en un juego de dardos. El centro del tablero
de dardos representa el valor real que estamos tratando de predecir. Si los dardos están dispersos
alrededor del centro, esto indica un sesgo bajo y una alta varianza. Si los dardos están agrupados
pero lejos del centro, esto indica un alto sesgo y una baja varianza. Si los dardos están dispersos y
lejos del centro, esto indica un alto sesgo y una alta varianza. Si los dardos están agrupados en el
centro, esto indica un bajo sesgo y una baja varianza. Kane, F. (2017)
En la práctica, a menudo hay que hacer un equilibrio entre el sesgo y la varianza. Esto se
manifiesta en el sobreajuste y el subajuste de los datos. Por ejemplo, en un gráfico, una línea
recta puede tener una varianza baja, pero un alto sesgo, ya que el error de cada punto individual
es alto. Por otro lado, una línea que se ajusta a las observaciones tiene una alta varianza pero un
bajo sesgo, ya que cada punto individual está cerca de donde debería estar. Este es un ejemplo de
cómo se intercambia la varianza por el sesgo. Kane, F. (2017)
.
2.What are Ensemble Methods in Machine Learning?
Los métodos de conjunto son una técnica común en el aprendizaje automático que busca
mejorar la precisión predictiva al combinar las predicciones de varios modelos. Estos modelos
individuales se denominan aprendices base.
Según Bonaccorso (2018), los métodos de conjunto se dividen en dos clases principales:
generativos y no generativos. Los métodos no generativos se centran en combinar las
predicciones de un conjunto de modelos preentrenados. Estos modelos suelen entrenarse de
forma independiente entre sí, y el algoritmo de conjunto dicta cómo se combinarán sus
predicciones. Los clasificadores base no se ven afectados por el hecho de que existen en un
conjunto.
Entre los métodos no generativos principales, se encuentra el método de votación y el
método de apilamiento. La votación, hace referencia a técnicas que permiten a los modelos votar
para producir una única respuesta, similar a cómo las personas votan en las elecciones nacionales.
La respuesta más popular (la más votada) se selecciona como ganadora. El apilamiento, por otro
lado, se refiere a métodos que utilizan un modelo (el meta-aprendiz) que aprende cómo combinar
mejor las predicciones del aprendiz base. Aunque el apilamiento implica la generación de un
nuevo modelo, no afecta a los aprendices base, por lo que es un método no generativo.
3.Why are the ensemble methods important and used?
En el aprendizaje automático, existen tres técnicas principales de ensamblado:
El Bagging implica la construcción de un conjunto completo, donde cada modelo se entrena
de forma independiente con un subconjunto de los datos originales, introduciendo un nivel de
aleatoriedad para evitar la especialización en el mismo subconjunto. Un ejemplo de esto es el
algoritmo Random Forest. (Bonaccorso, G., 2018).
El Boosting construye el conjunto de forma secuencial, poniendo énfasis en las muestras que
han sido mal clasificadas anteriormente, ajustando la distribución de las muestras para dar más
importancia a las que requieren más especialización, como se ve en AdaBoost y Gradient Tree
Boosting. (Bonaccorso, G., 2018).
El Stacking se basa en un conjunto heterogéneo de modelos débiles, donde cada modelo se
entrena de forma autónoma y la decisión final se toma mediante votación mayoritaria,
promediando los resultados o utilizando otro modelo que toma todas las predicciones y emite una
final (Bonaccorso, G., 2018)
Referencias
Bonaccorso, G. (2018). Machine Learning Algorithms: Popular Algorithms for Data
Science and Machine Learning (2da ed.).
Kane, F. (2017). Hands-On Data Science and Python Machine Learning. Packt
Publishing.
Kyriakides, G., & Margaritis, K. G. (2019). Hands-On Ensemble Learning with Python:
Build Highly Optimized Ensemble Machine Learning Models Using Scikit-learn and Keras.
Download