Uploaded by francisco.oliveira.ext

Discretiz Final

advertisement
Discretização
QuickTime™
and a
para classificação
em C4.5
TIFF (Uncompressed) decompressor
are needed to see this picture.
Sumário
•
•
•
•
•
•
•
Objectivo
Metodologia
Caracterização dos DataSets
Resultados das experiencias
Conclusões
Trabalhos futuros
Bibliografia
Objectivo
• comparar os vários algoritmos
de discretização
(supervisionados ou não) e
• relacionar com os resultados
obtidos nas várias séries de
dados em estudo
Metodologia
•
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Dataset
Discretizaçao
Dsdsda
Algoritmo
Modelo
Caren
Pré processamento
Decisão
Novo
caso
Metodologia
•
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Classificaç ão
Dataset
WEKA
C4.5
Discretizaçao
Dsdsda
Dados
Contínuos
Caren
Pré processamento
Modelo
Dados
Discretos
10 folder
cross
validation
Evita o
Sobreajustamento
Metodologia
•
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Classificaç ão
Dataset
WEKA
C4.5
Discretizaçao
Dsdsda
Dados
Contínuos
Caren
Modelo
Dados
Discretos
10 folder
cross
validation
Pré processamento
Performance
Metodologia
•
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Classificaç ão
Dataset
WEKA
C4.5
Discretizaçao
Dsdsda
Dados
Contínuos
Caren
Modelo
Dados
Discretos
10 folder
cross
validation
Pré processamento
Performance
Caracterização dos DataSets
Sat-Total
• atributos semelhantes em
grandeza e distribuição.
• Nº Instâncias: 6435
• Atributos: 37 (Incluindo Classe)
• Nº Classes: 6
Atributos “Sat-Total”
– quatro tipos distintos de distribuições.
Classes “Sat-Total”
A distribuição da classe não é
completamente uniforme, existindo três
classes com sensivelmente o dobro das
instancias das restantes classes.
Segment
• Grande heterogeneidade de atributos.
• Nº Instâncias: 2310
• Atributos: 20 (Incluindo Classe)
• Nº Classes: 7
Classes “Segment”
A distribuição da classe é
completamente uniforme.
Waveform
• Atributos: aproximados
à Distribuição Normal.
• Nº Instâncias: 5000
• Atributos: 22 (Incluindo Classe)
• Nº Classes: 3
Análise Gráfica “Waveform”
A distribuição da classe é uniforme.
Discretizadores
Discretizadores
• Supervisionados
Os intervalos são determinados em ordem às classes
– FID (Implementação do Caren)
– FI2 (Implementação do Caren)
– C4.5 - Discretização embebida na classificação
(Implementação Weka J4.8)
– ChiMerge (Implementação do Caren)
• Não Supervisionados
– PKI (Implementação do Caren)
– Width (Implementação do Caren)
– Depth (Implementação do Caren)
Discretizadores - FID e FI2
• Método Supervisionado Fayyad & Irani
• "pontos de corte" - onde as classes
mudam de valor (corte no ponto médio)
• Método por Entropia - Ganho
informativo
• Minimal Discription Length
FI2
• implementado pelo Caren
• variação ao modelo FID
• Intervalo multi-classe:adopta a
classe dominante (sistema de
votação)
C4.5
• Calculo Local (em cada nó)
• Discretização Binária (por “cut point”)
• Pós-Pruning da árvore
Chi Merge
• Calcula independência da classe por
X^2
• têm frequências de classe semelhantes,
devem ser considerados como apenas
um intervalo (Merge)
Não Supervisionados
• Width - Intervalos de igual comprimento
• Depth - Intervalos com igual numero de
valores
Resultados Comparativos
Sat-Total
Segment
Chi Merge e Δ Alfa
• Δ no parametro Alfa apenas alterou o
“Accuracy”
–No Dataset Segment
–Quando Max=Default
Chi Merge Δ Alfa e erro
Resultados
QuickTime™ and a
TIFF (LZW) decompressor
are needed to see this picture.
Chi Merge Δ Alfa e
erro p/ classe
True Positive
False Positive
0,8
0,8
0,7
Resultados
0,99
0,99
0,95
0,95
0,99
0,99
0,95
0,95
QuickTime™ and a
0,6 (LZW) decompressor
TIFF
c6
are needed to see this picture.
0,5
0,4
0,3
0,2
c2
c7
c1
c4
0,99
0,950,99
0,95
0,8
c5
0,8
c2
c7
c1
c4
0,8
c6
c3
c5
0,99
0
0,99
c3
0,1
0,8
0,99
0,95
0,8
0,8
0,8
0,8
1
0,9
0,8
0,7
0,6
c6
0,5
c3
0,4
c2
0,3
c7
0,2
c1
0,1
c4
0
c5
Discretizadores - Chi Merge
• Aumento do α (alfa)
=> aumentar a "exigência" do teste de
independência
Logo, o corte é mais "afinado”
=> menos intervalos independentes
Discretizadores - Chi Merge
• Erros por classe, verificamos que o
aumento do Alfa leva
– a aceitação mais "selectiva" de intervalos
e consequentemente à redução de de True
Positives (do modelo gerado pelo C4.5),
– mas também (e essencialmente) de
“False Negatives”.
Discretizadores - Chi Merge
Pára de “juntar” intervalos quando:
• A) Chegou ao numero de intervalos
MAX, ou
• B) Já não gera mais classes com o grau
de independência α
WaveForm
Resultados
Resultados por Classe
(SAT-TOTAL)
FI
1
C4.5
FI2
0.8
0.6
D
ChiD
c
d
e
0.4
g
b
W
Chi5
PKI
Chi10
Chi20
a
Resultados por Classe
(Waveform)
FI
1
C4.5
FI2
0.75
0.5
D
ChiD
0.25
2c
0
1c
0c
W
Chi5
PKI
Chi10
Chi20
Resultados por Classe
(Segment)
FI
1
C4.5
FI2
0.75
0.5
D
ChiD
0.25
c6
c3
c2
c7
0
c1
c4
W
Chi5
PKI
Chi10
Chi20
c5
Conclusões
a) O discretizador do J4.8 (classificação
directa) é o que apresenta melhores
resultados em todos os datasets.
b) Os não supervisionados são os que
apresentam piores resultados.
Conclusões
c) Chi Merge sem limitação de Max
origina resultados modestos
d) O parâmetro MAX do ChiMerge é
normalmente a limitação mais
restritiva => Alfa redundante
Conclusões
e) A discretização C4.5 (para os datasets
apresentados) proporcionou sempre
as árvores mais compactas.
f) O FID/FI2 apresenta em todos os
casos resultados muito próximos do
C4.5.
Conclusões
g. A distribuição mais aproximada da
normal dos atributos do dataset
Waveform podem estar na origem dos
piores resultados globais obtidos pelo
classificador J48 depois de
discretizado [4].
Crítica/Trabalhos futuros
Não foram seleccionados atributos
antes do processamento
P. Ex. No dataset Waveform existem
dois atributos que não têm ganho
informativo (WekaInfoGainAttributeEval)
Limitações/Trabalhos futuros
Será que o facto de a discretização ser
efectuada localmente e após a indução da
árvore explica os bons resultados do C4.5?
Trabalhos futuros: utilizar outros
classificadores possivelmente mais
"afinados" para os outros discretizadores.
Bibliografia
• [1] Error-based and Entropy-based Discretization of Continous
Features, Ron Kohavi, Mehran Sahami.
• [2] Supervised and Unsupervised Discretization of Continous
Features, James Dougherty, Ron Kohavi, Mehran Sahami,
Computer Science Department, Stanford University.
• [3] Multi-interval Discretization Methods for Decision Tree
Learning, Petra Perner and Sascha Trautzsch, Institute of
Computer Vision and Applied Computer Sciences, Leipzig,
Germany.
• [4] An Empirical Investigation of the Impact of Discretization on
Common Data Distributions, Michael K. Ismail, RMIT University.
Fim
Obrigado!
Questões?
André Gonçalves
Francisco Oliveira
Miguel Pires
Download