Tareas del curso de minería de datos. Curso 2022-2023 Tarea 4 1. Naive Bayes con estimación de función de densidad suma de gaussianas En este apartado se llevará a cabo la clasificación de datos a partir del método de redes bayesianas distinguiendo a su vez en 8 diferentes ejemplos de entrenamiento y realizando una comparación entre estos. En primer lugar, cabe destacar que este es un método de clasificación consistente en un gráfico en el que las variables (renta, age,etc) representan nodos cuya dependencia es reflejada por los diferentes arcos, tratando de explicar así relaciones causales que expliquen el fenómeno principal, en nuestro caso la renta > o < 50k. En este estudio se ha decidido aplicar el algoritmo BayesNet. Primero utilizaremos el k2: Tras la realización de la muestra de entrenamiento 5%, podemos ver que el porcentaje de errores es 20,334% mientras que el de aciertos sería 79,656% Pasando al análisis de la muestra de entrenamiento 10%, podemos ver que el porcentaje de errores aumenta de forma casi insignificante siendo 20,372% mientras que el de aciertos se reduce a 79,628% Al igual que en el caso anterior, al aumentar la muestra de entrenamiento el porcentaje de instancias incorrectas siguen aumentando llegando ahora al valor de 20,5514% por lo que por el momento no sería favorable el aumento al 15%. Encontramos gran similitud ahora de los datos obtenidos, consiguiendo prácticamente el mismo porcentaje de aciertos y errores lo que indica que a partir de este punto → 20% de muestra de entrenamiento, los resultados mejoraran como se ve a continuación. Como observamos en la siguiente imagen, al aumentar la muestra de entrenamiento 30% el porcentaje de instancias correctas sufre un pequeño aumento (79,656%), disminuyendo así las incorrectas, por lo que el aumento sería favorable. Pasando a la muestra de entrenamiento 40%, observamos que el porcentaje de errores es menor que en el anterior caso, siendo éste de 20,218%, por lo que a pesar de que el aumento en los aciertos es pequeño, el aumento en la muestra sería favorable. En la siguiente imagen se muestra el porcentaje de instancias correctas y erróneas al pasar la muestra de entrenamiento 60%. Como viene pasando en los casos anteriores, el porcentaje de instancias erróneas sigue disminuyendo, sufriendo un cambio más grande este caso, con un porcentaje de instancias erróneas del 19,7789%. Al pasar la muestra de entrenamiento 80%, podemos ver como el porcentaje de instancias incorrectas aumenta hasta el 20,1628%, disminuyendo así los aciertos. Por ello, el aumento en la muestra no sería favorable. Analizando el árbol, observamos que es condicionado ya que la renta se verá condicionada por las diferentes variables que la definen en el modelo. Además, el porcentaje de instancias correctas es del 80,0037%, y el de las incorrectas del 19,9963%, por lo que el modelo es bueno ya que el porcentaje de aciertos es bastante grande. Tras analizar las diferentes muestras de entrenamiento a partir del método de redes bayesianas, concluimos que la mejor muestra de entrenamiento es del 60% ya que cuenta un el menor porcentaje de instancias erróneas (19,7789%), y el mayor de instancias correctas(80,2211%). 2. Redes neuronales La base de datos cuenta con 32561 observaciones, hay 5 variables que describen la renta, los parámetros relevantes son: - LearningRate: las medidas van de desde 0,1 a 0,5 Momentum: las medidas van desde 0,1 a 0,5 TrainingTime: las medidas van desde 500 a 10.000 Primero vamos a seleccionar los parámetros más apropiados, para ello hemos realizado un ranking de las variables que menos influyen en la clasificación de animales. Para ello, se seleccionará en Attribute Evaluator el método que permitirá realizar la selección de estas. Se selecciona el método de correlación entre las variables y la clase (“correlationAttribueEval”). Con estos resultados hacemos de nuevo la red neuronal: Los parámetros óptimos escogidos son: • Learning Rate = 0.2 • Momentum = 0.2 • Training Time = 500 • Número de neuronas ocultas = 4 Variables = edad, workclass, educación, raza y sexo, son las variables más relevantes a la hora de explicar la renta Una de las maneras para disminuir el sesgo o la baja capacidad de clasificar de un modelo debido a su simplicidad, es aumentar de manera prudente el número de neuronas en la capa oculta, de forma que el error es mejorado al proveer más pesos y una función más de procesamiento, lo que ayuda al proceso de optimización del error cuadrático medio Utilizado un ejemplo de entrenamiento del 5% se obtienen los siguientes resultados: Tras la realización de la muestra de entrenamiento 5%, podemos ver que el porcentaje de errores es 22,661% mientras que el de aciertos sería 77,3349% Utilizado un ejemplo de entrenamiento del 10% se obtienen los siguientes resultados: Pasando al análisis de la muestra de entrenamiento del 10%, podemos ver que el porcentaje de errores disminuye de forma casi insignificante siendo 20,446% mientras que el de aciertos se reduce a 79,556% Utilizado un ejemplo de entrenamiento del 15% se obtienen los siguientes resultados: Al igual que en el caso anterior, al aumentar la muestra de entrenamiento el porcentaje de instancias incorrectas siguen disminuyendo llegando ahora al valor de 20,0491% En este caso al aumentar la muestra de entrenamiento(20%) disminuye levemente el número de instancias correctas, (79,92%) Aquí vemos cómo al aumentar a 30 el porcentaje disminuye significativamente el número de instancias incorrectas (19,86%) Al pasar al 40% de muestra de entrenamiento se encuentran más instancias incorrectas, siendo preferible la opción anterior. Al pasar al 60% vemos como tampoco es la mejor opción posible, siendo mejor la del 30%. Esta es de las mejores opciones dentro de la red neuronal al tener el mejor porcentaje de instancias acertadas, un kappa de 0,34 y un relative absolute error del 74,07%.