Discretização QuickTime™ and a para classificação em C4.5 TIFF (Uncompressed) decompressor are needed to see this picture. Sumário • • • • • • • Objectivo Metodologia Caracterização dos DataSets Resultados das experiencias Conclusões Trabalhos futuros Bibliografia Objectivo • comparar os vários algoritmos de discretização (supervisionados ou não) e • relacionar com os resultados obtidos nas várias séries de dados em estudo Metodologia • QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Dataset Discretizaçao Dsdsda Algoritmo Modelo Caren Pré processamento Decisão Novo caso Metodologia • QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Classificaç ão Dataset WEKA C4.5 Discretizaçao Dsdsda Dados Contínuos Caren Pré processamento Modelo Dados Discretos 10 folder cross validation Evita o Sobreajustamento Metodologia • QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Classificaç ão Dataset WEKA C4.5 Discretizaçao Dsdsda Dados Contínuos Caren Modelo Dados Discretos 10 folder cross validation Pré processamento Performance Metodologia • QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Classificaç ão Dataset WEKA C4.5 Discretizaçao Dsdsda Dados Contínuos Caren Modelo Dados Discretos 10 folder cross validation Pré processamento Performance Caracterização dos DataSets Sat-Total • atributos semelhantes em grandeza e distribuição. • Nº Instâncias: 6435 • Atributos: 37 (Incluindo Classe) • Nº Classes: 6 Atributos “Sat-Total” – quatro tipos distintos de distribuições. Classes “Sat-Total” A distribuição da classe não é completamente uniforme, existindo três classes com sensivelmente o dobro das instancias das restantes classes. Segment • Grande heterogeneidade de atributos. • Nº Instâncias: 2310 • Atributos: 20 (Incluindo Classe) • Nº Classes: 7 Classes “Segment” A distribuição da classe é completamente uniforme. Waveform • Atributos: aproximados à Distribuição Normal. • Nº Instâncias: 5000 • Atributos: 22 (Incluindo Classe) • Nº Classes: 3 Análise Gráfica “Waveform” A distribuição da classe é uniforme. Discretizadores Discretizadores • Supervisionados Os intervalos são determinados em ordem às classes – FID (Implementação do Caren) – FI2 (Implementação do Caren) – C4.5 - Discretização embebida na classificação (Implementação Weka J4.8) – ChiMerge (Implementação do Caren) • Não Supervisionados – PKI (Implementação do Caren) – Width (Implementação do Caren) – Depth (Implementação do Caren) Discretizadores - FID e FI2 • Método Supervisionado Fayyad & Irani • "pontos de corte" - onde as classes mudam de valor (corte no ponto médio) • Método por Entropia - Ganho informativo • Minimal Discription Length FI2 • implementado pelo Caren • variação ao modelo FID • Intervalo multi-classe:adopta a classe dominante (sistema de votação) C4.5 • Calculo Local (em cada nó) • Discretização Binária (por “cut point”) • Pós-Pruning da árvore Chi Merge • Calcula independência da classe por X^2 • têm frequências de classe semelhantes, devem ser considerados como apenas um intervalo (Merge) Não Supervisionados • Width - Intervalos de igual comprimento • Depth - Intervalos com igual numero de valores Resultados Comparativos Sat-Total Segment Chi Merge e Δ Alfa • Δ no parametro Alfa apenas alterou o “Accuracy” –No Dataset Segment –Quando Max=Default Chi Merge Δ Alfa e erro Resultados QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture. Chi Merge Δ Alfa e erro p/ classe True Positive False Positive 0,8 0,8 0,7 Resultados 0,99 0,99 0,95 0,95 0,99 0,99 0,95 0,95 QuickTime™ and a 0,6 (LZW) decompressor TIFF c6 are needed to see this picture. 0,5 0,4 0,3 0,2 c2 c7 c1 c4 0,99 0,950,99 0,95 0,8 c5 0,8 c2 c7 c1 c4 0,8 c6 c3 c5 0,99 0 0,99 c3 0,1 0,8 0,99 0,95 0,8 0,8 0,8 0,8 1 0,9 0,8 0,7 0,6 c6 0,5 c3 0,4 c2 0,3 c7 0,2 c1 0,1 c4 0 c5 Discretizadores - Chi Merge • Aumento do α (alfa) => aumentar a "exigência" do teste de independência Logo, o corte é mais "afinado” => menos intervalos independentes Discretizadores - Chi Merge • Erros por classe, verificamos que o aumento do Alfa leva – a aceitação mais "selectiva" de intervalos e consequentemente à redução de de True Positives (do modelo gerado pelo C4.5), – mas também (e essencialmente) de “False Negatives”. Discretizadores - Chi Merge Pára de “juntar” intervalos quando: • A) Chegou ao numero de intervalos MAX, ou • B) Já não gera mais classes com o grau de independência α WaveForm Resultados Resultados por Classe (SAT-TOTAL) FI 1 C4.5 FI2 0.8 0.6 D ChiD c d e 0.4 g b W Chi5 PKI Chi10 Chi20 a Resultados por Classe (Waveform) FI 1 C4.5 FI2 0.75 0.5 D ChiD 0.25 2c 0 1c 0c W Chi5 PKI Chi10 Chi20 Resultados por Classe (Segment) FI 1 C4.5 FI2 0.75 0.5 D ChiD 0.25 c6 c3 c2 c7 0 c1 c4 W Chi5 PKI Chi10 Chi20 c5 Conclusões a) O discretizador do J4.8 (classificação directa) é o que apresenta melhores resultados em todos os datasets. b) Os não supervisionados são os que apresentam piores resultados. Conclusões c) Chi Merge sem limitação de Max origina resultados modestos d) O parâmetro MAX do ChiMerge é normalmente a limitação mais restritiva => Alfa redundante Conclusões e) A discretização C4.5 (para os datasets apresentados) proporcionou sempre as árvores mais compactas. f) O FID/FI2 apresenta em todos os casos resultados muito próximos do C4.5. Conclusões g. A distribuição mais aproximada da normal dos atributos do dataset Waveform podem estar na origem dos piores resultados globais obtidos pelo classificador J48 depois de discretizado [4]. Crítica/Trabalhos futuros Não foram seleccionados atributos antes do processamento P. Ex. No dataset Waveform existem dois atributos que não têm ganho informativo (WekaInfoGainAttributeEval) Limitações/Trabalhos futuros Será que o facto de a discretização ser efectuada localmente e após a indução da árvore explica os bons resultados do C4.5? Trabalhos futuros: utilizar outros classificadores possivelmente mais "afinados" para os outros discretizadores. Bibliografia • [1] Error-based and Entropy-based Discretization of Continous Features, Ron Kohavi, Mehran Sahami. • [2] Supervised and Unsupervised Discretization of Continous Features, James Dougherty, Ron Kohavi, Mehran Sahami, Computer Science Department, Stanford University. • [3] Multi-interval Discretization Methods for Decision Tree Learning, Petra Perner and Sascha Trautzsch, Institute of Computer Vision and Applied Computer Sciences, Leipzig, Germany. • [4] An Empirical Investigation of the Impact of Discretization on Common Data Distributions, Michael K. Ismail, RMIT University. Fim Obrigado! Questões? André Gonçalves Francisco Oliveira Miguel Pires