Uploaded by Alejandro Yagüe

Practica 4

advertisement
Tareas del curso de minería de datos.
Curso 2022-2023
Tarea 4
1. Naive Bayes con estimación de función de densidad suma de gaussianas
En este apartado se llevará a cabo la clasificación de datos a partir del método de redes
bayesianas distinguiendo a su vez en 8 diferentes ejemplos de entrenamiento y realizando
una comparación entre estos.
En primer lugar, cabe destacar que este es un método de clasificación consistente en un
gráfico en el que las variables (renta, age,etc) representan nodos cuya dependencia es
reflejada por los diferentes arcos, tratando de explicar así relaciones causales que
expliquen el fenómeno principal, en nuestro caso la renta > o < 50k.
En este estudio se ha decidido aplicar el algoritmo BayesNet.
Primero utilizaremos el k2:
Tras la realización de la muestra de entrenamiento 5%, podemos ver que el porcentaje
de errores es 20,334% mientras que el de aciertos sería 79,656%
Pasando al análisis de la muestra de entrenamiento 10%, podemos ver que el
porcentaje de errores aumenta de forma casi insignificante siendo 20,372% mientras
que el de aciertos se reduce a 79,628%
Al igual que en el caso anterior, al aumentar la muestra de entrenamiento el porcentaje
de instancias incorrectas siguen aumentando llegando ahora al valor de 20,5514% por
lo que por el momento no sería favorable el aumento al 15%.
Encontramos gran similitud ahora de los datos obtenidos, consiguiendo prácticamente
el mismo porcentaje de aciertos y errores lo que indica que a partir de este punto →
20% de muestra de entrenamiento, los resultados mejoraran como se ve a
continuación.
Como observamos en la siguiente imagen, al aumentar la muestra de entrenamiento
30% el porcentaje de instancias correctas sufre un pequeño aumento (79,656%),
disminuyendo así las incorrectas, por lo que el aumento sería favorable.
Pasando a la muestra de entrenamiento 40%, observamos que el porcentaje de errores
es menor que en el anterior caso, siendo éste de 20,218%, por lo que a pesar de que el
aumento en los aciertos es pequeño, el aumento en la muestra sería favorable.
En la siguiente imagen se muestra el porcentaje de instancias correctas y erróneas al
pasar la muestra de entrenamiento 60%. Como viene pasando en los casos anteriores,
el porcentaje de instancias erróneas sigue disminuyendo, sufriendo un cambio más
grande este caso, con un porcentaje de instancias erróneas del 19,7789%.
Al pasar la muestra de entrenamiento 80%, podemos ver como el porcentaje de
instancias incorrectas aumenta hasta el 20,1628%, disminuyendo así los aciertos. Por
ello, el aumento en la muestra no sería favorable.
Analizando el árbol, observamos que es condicionado ya que la renta se verá
condicionada por las diferentes variables que la definen en el modelo. Además, el
porcentaje de instancias correctas es del 80,0037%, y el de las incorrectas del
19,9963%, por lo que el modelo es bueno ya que el porcentaje de aciertos es bastante
grande.
Tras analizar las diferentes muestras de entrenamiento a partir del método de
redes bayesianas, concluimos que la mejor muestra de entrenamiento es del
60% ya que cuenta un el menor porcentaje de instancias erróneas (19,7789%), y
el mayor de instancias correctas(80,2211%).
2. Redes neuronales
La base de datos cuenta con 32561 observaciones, hay 5 variables que describen la renta, los
parámetros relevantes son:
-
LearningRate: las medidas van de desde 0,1 a 0,5
Momentum: las medidas van desde 0,1 a 0,5
TrainingTime: las medidas van desde 500 a 10.000
Primero vamos a seleccionar los parámetros más apropiados, para ello hemos realizado un
ranking de las variables que menos influyen en la clasificación de animales. Para ello, se
seleccionará en Attribute Evaluator el método que permitirá realizar la selección de estas. Se
selecciona el método de correlación entre las variables y la clase (“correlationAttribueEval”).
Con estos resultados hacemos de nuevo la red neuronal:
Los parámetros óptimos escogidos son:
• Learning Rate = 0.2
• Momentum = 0.2
• Training Time = 500
• Número de neuronas ocultas = 4
Variables = edad, workclass, educación, raza y sexo, son las variables más relevantes a
la hora de explicar la renta
Una de las maneras para disminuir el sesgo o la baja capacidad de clasificar de un
modelo debido a su simplicidad, es aumentar de manera prudente el número de
neuronas en la capa oculta, de forma que el error es mejorado al proveer más pesos y
una función más de procesamiento, lo que ayuda al proceso de optimización del error
cuadrático medio
Utilizado un ejemplo de entrenamiento del 5% se obtienen los siguientes resultados:
Tras la realización de la muestra de entrenamiento 5%, podemos ver que el porcentaje
de errores es 22,661% mientras que el de aciertos sería 77,3349%
Utilizado un ejemplo de entrenamiento del 10% se obtienen los siguientes resultados:
Pasando al análisis de la muestra de entrenamiento del 10%, podemos ver que el
porcentaje de errores disminuye de forma casi insignificante siendo 20,446% mientras
que el de aciertos se reduce a 79,556%
Utilizado un ejemplo de entrenamiento del 15% se obtienen los siguientes resultados:
Al igual que en el caso anterior, al aumentar la muestra de entrenamiento el porcentaje
de instancias incorrectas siguen disminuyendo llegando ahora al valor de 20,0491%
En este caso al aumentar la muestra de entrenamiento(20%) disminuye
levemente el número de instancias correctas, (79,92%)
Aquí vemos cómo al aumentar a 30 el porcentaje disminuye significativamente
el número de instancias incorrectas (19,86%)
Al pasar al 40% de muestra de entrenamiento se encuentran más instancias
incorrectas, siendo preferible la opción anterior.
Al pasar al 60% vemos como tampoco es la mejor opción posible, siendo mejor
la del 30%.
Esta es de las mejores opciones dentro de la red neuronal al tener el mejor
porcentaje de instancias acertadas, un kappa de 0,34 y un relative absolute
error del 74,07%.
Download