Uploaded by francisco.oliveira.ext

Extracção

advertisement
DISCRETIZAÇÃO E ÁRVORES DE DECISÃO EM J4.8
Alberto André Gonçalves
Francisco Oliveira
Miguel Pires
Curso de Especialização em Informática
Universidade do Minho
2007
Introdução
O Objectivo deste trabalho é comparar os vários algoritmos de discretização
(supervisionados e não supervisionados) e relacionar com os resultados obtidos nas
várias séries de dados em estudo.
Abordagem ao problema
Para cada um dos datasets propostos, waveform, segment e sat-total, foram realizadas
discretizações na ferramenta Caren:
FID
FI2
ChiMerge:
PKI
Width
Depth
J4.8
Posteriormente à discretização foi implementada a classificação (em árvore) J48
(ferramenta WEKA) com a opção de validação cruzada em 10 fólios separados. Uma
vez que esta metodologia "afasta" significativamente as possibilidades de
sobreajustamento do modelo ao conjunto de treino, utilizou-se como medida a
percentagem de "aceitos" com base no conjunto de treino.
O quadro resumo abaixo mostra a percentagem de valores correctamente classificados
resultante dessa classificação (com pré-discretização).
Descrição dos Datasets
Para a realização dos testes foram utilizados três datasets diferentes. O SAT-TOTAL,
o SEGMENT e o WAVEFORM.
Dataset SAT-TOTAL
Este dataset caracteriza-se pela grande similaridade dos atributos, quer em termos de
grandezas quer em termos de distribuição.
Figura 1 - Distribuição de cada atributo do dataset SAT-TOTAL
Pela análise dos gráficos acima, embora semelhantes, são facilmente identificáveis
quatro tipos distintos de distribuições.
A distribuição da classe não é completamente uniforme, existindo três classes com
sensivelmente o dobro das instancias das restantes classes.
Figura 2 – Distribuição das classes do dataset SAT-TOTAL
Nº Instâncias: 6435
Atributos: 37 (Incluindo Classe)
Nº Classes: 6
Atributo
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
A13
A14
A15
A16
A17
A18
A19
A20
A21
A22
A23
A24
A25
A26
A27
A28
A29
A30
A31
A32
A33
A34
A35
A36
Mínimo
39
27
53
33
39
27
50
29
40
27
50
29
39
27
50
29
40
27
50
29
39
27
50
29
39
27
50
29
39
27
50
29
39
27
50
29
Máximo
104
137
140
154
104
137
145
157
104
130
145
157
104
137
145
154
104
130
145
157
104
130
145
157
104
131
140
154
104
130
145
157
104
130
145
157
Média
69.4
83.595
99.291
82.593
69.15
83.244
99.111
82.497
68.912
82.893
98.853
82.388
69.29
83.477
99.311
82.645
69.046
83.171
99.15
82.603
68.839
82.861
98.95
82.469
69.162
83.373
99.215
82.661
68.944
83.146
99.112
82.618
68.728
82.859
98.926
82.505
Tabela 1 – Quadro resumo dos atributos do dataset SAT-TOTAL
Desvio Padrão
13.606
22.882
16.646
18.898
13.561
22.886
16.664
18.941
13.471
22.862
16.637
18.981
13.603
22.85
16.668
18.932
13.538
22.905
16.718
19.036
13.459
22.884
16.73
19.071
13.581
22.803
16.613
18.991
13.493
22.847
16.704
19.044
13.403
22.817
16.695
19.054
Dataset SEGMENT
Este dataset apresenta atributos com distribuições muito heterogéneas.
Figura 3 – Distribuições dos atributos e classe para o dataset SEGMENT
No que respeita à distribuição das classes, como se pode verificar, é perfeitamente
uniforme. Existem o mesmo número de instâncias para cada classe.
Nº Instâncias: 2310
Atributos: 20 (Incluindo Classe)
Nº Classes: 7
Atributo
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
A13
A14
A15
A16
A17
A18
A19
Mínimo
1
11
9
0
0
0
0
0
0
0
0
0
0
-49.667
-12.444
-33.889
0
0
-3.044
Máximo
254
251
9
0.333
0.222
29.222
991.718
44.722
1386.329
143.444
137.111
150.889
142.556
9.889
82
24.667
150.889
1
2.912
Média
124.914
123.417
9
0.014
0.005
1.894
5.709
2.425
8.244
37.052
32.821
44.188
34.146
-12.691
21.409
-8.718
45.137
0.427
-1.363
Desvio Padrão
72.957
57.484
0
0.04
0.024
2.699
44.846
3.61
58.812
38.176
35.037
43.527
36.365
11.584
19.572
11.552
42.922
0.228
1.545
Tabela 2 - Quadro resumo dos atributos do dataset SEGMENT
Dataset WAVEFORM
Este dataset é o que apresenta distribuições semelhantes à distribuição normal. As
distribuições para todos os atributos são todas muito homogéneas, embora algumas
delas apresentem um ligeiro enviesamento.
Figura 4 - Distribuições dos atributos e classe para o dataset WAVEFORM
Como se pode verificar, também neste caso a distribuição das classes é perfeitamente
uniforme.
Nº Instâncias: 5000
Atributos: 22 (Incluindo Classe)
Nº Classes: 3
Atributo
X00
X01
X02
X03
X04
X05
X06
X07
X08
X09
X10
X11
X12
X13
Mínimo
-3.94
-3.25
-4.2
-3.84
-3.48
-2.76
-3.32
-3.52
-3.38
-1.79
-1.48
-1.69
-2.61
-2.82
Máximo
3.94
3.88
4.72
5.75
6.5
7.62
8.76
7.84
7.9
7.63
9.06
7.4
7.5
7.75
Média
0.005
0.339
0.672
0.992
1.311
1.997
2.662
2.659
2.672
2.989
3.337
3.014
2.679
2.649
Desvio Padrão
1.01
1.054
1.188
1.415
1.678
1.814
2.016
1.746
1.663
1.532
1.689
1.512
1.652
1.76
X14
X15
X16
X17
X18
X19
X20
-2.56
-2.99
-3.56
-4.08
-3.5
-3.57
-3.88
8.72
7.86
6.74
6.2
5.28
4.65
4.01
2.648
2.001
1.335
1.001
0.661
0.357
-0.021
2.019
1.811
1.67
1.413
1.197
1.081
0.997
Tabela 3 - Quadro resumo dos atributos do dataset WAVEFORM
Apresentação de Resultados Comparativos
Gráfico comparativo
Hipóteses
H1. O discretizador do J4.8 (classificação directa) é o que apresenta melhores
resultados em todos os datasets.
H2. Os discretizadores não supervisionados são os que apresentam piores resultados.
H3. O FID/FI2 apresenta em todos os casos resultados muito próximos do J4.8.
O FID é uma implementação clássica do Método Supervisionado MDL Fayyad &
Irani em que os "pontos de corte" são aqueles onde as classes mudam de valor (ponto
médio). Corta-se os intervalos no ponto médio entre mudanças de classe.
O FI2 implementado pelo Caren apresenta uma variação ao modelo anterior pois se
para um mesmo atributo existem diversas classes adapta-se a dominante (sistema de
votação) o que na prática reduz o número de intervalos do modelo. Esta diferença de
implementação gerou diferenças de -0,22%, -0,22% e +1,11% de FID para FI2. Sendo
o F&I (Genéricamente) um método supervisionado permite usar os dados da classe do
conjunto de treino para determinar o ponto de quebra do intervalo, e assim optimizar a
capacidade preditiva do modelo (minimiza o erro no conjunto de treino), mas em
outros casos, não é possível saber quais são as classes nos processo de discretização.
H4. Definindo um máximo de intervalos (razoável) em ChiMerge essa é a limitação
mais restritiva, i.e. o Alfa (razoável) torna-se um dado redundante.
O Chi Merge como método supervisionado que é utiliza as classes para efectuar a
separação dos intervalos. Este algoritmo pressupõe que as frequências de classe
devem ser consistentes num mesmo intervalo, caso contrário deve separar-se o
intervalo e ainda que dois intervalos adjacentes não devem ter frequências de classe
semelhantes, caso contrário devem ser considerados como apenas im intervalo.
De todas experiências efectuadas, apenas se obteve variações da percentagem de
acertos no Dataset Segment sem especificação do parâmetro MAX - Max= Default.
Com efeito, uma variação no coeficiente de significancia (para testar a independência
dos intervalos) de 0,9 (valor por defeito) para 0,95 e 0,99 traduziu-se numa melhoria
na percentagem de acerto do modelo de 35,15%, 58,96% e 62,54% respectivamente.
A explicação reside no facto de ao aumentar "exigência" do teste de independência, o
corte é mais "afinado" e por isso a probabilidade de obter intervalos independentes é
maior. Se analisarmos os erros por classe, verificamos que o aumento do Alfa leva a
aceitação mais "selectiva" e consequentemente à redução de de True Positives, mas
também (e essencialmente) de False Negatives (curva ROC).
A comprovar a hipótese de redundância do Alfa face ao parâmetro MAX (máximo
número de intervalos) estão as várias experiências efectuadas com o algoritmo Chi
Merge.
Conclusões
Após a análise das experiências levadas a cabo para este trabalho, e ao contrário dos
resultados obtidos noutros trabalhos referenciados na Bibliografia, verificou-se que a
discretização embebida no J48 apresenta melhores resultados do que qualquer outra
discretização prévia. Dentro destas, verificamos que as supervisionadas (as que usam
a informação das classes para determinação dos intervalos) apresentam resultados
normalmente superiores. As experiências demonstraram que a discretização Chi
Merge apresentou percentagem de acertos relativamente modestos
(comparativamente) e sempre inferiores quando não era especificado o número de
intervalos. A "afinação" do Alfa revelou-se crítica, sobretudo para reduzir a
percentagem de Falsos positivos na classe C6 e assim aumentar a eficácia da
classificação.
A distribuição mais aproximada da normal dos atributos do dataset Waveform podem
estar na origem dos piores resultados globais obtidos pelo classificador J4.8 depois de
discretizado.
Uma hipótese de trabalho que não foi explorada é a de os bons resultados obtidos pelo
J4.8 quando a discretização é efectuada no mesmo J4.8 serem devidos à discretização
ser efectuada localmente e após indução da árvore do J4.8. Para melhor compreender
o problema na sua extensão, poder-se-ia ainda utilizar outros classificadores
possivelmente mais "afinados" para os outros discretizadores.
Bibliografia
[1] Error-based and Entropy-based Discretization of Continous Features, Ron Kohavi,
Mehran Sahami.
[2] Supervised and Unsupervised Discretization of Continous Features, James
Dougherty, Ron Kohavi, Mehran Sahami, Computer Science Department, Stanford
University.
[3] Multi-interval Discretization Methods for Decision Tree Learning, Petra Perner
and Sascha Trautzsch, Institute of Computer Vision and Applied Computer Sciences,
Leipzig, Germany.
[4] An Empirical Investigation of the Impact of Discretization on Common Data
Distributions, Michael K. Ismail, RMIT University.
Download