DISCRETIZAÇÃO E ÁRVORES DE DECISÃO EM J4.8 Alberto André Gonçalves Francisco Oliveira Miguel Pires Curso de Especialização em Informática Universidade do Minho 2007 Introdução O Objectivo deste trabalho é comparar os vários algoritmos de discretização (supervisionados e não supervisionados) e relacionar com os resultados obtidos nas várias séries de dados em estudo. Abordagem ao problema Para cada um dos datasets propostos, waveform, segment e sat-total, foram realizadas discretizações na ferramenta Caren: FID FI2 ChiMerge: PKI Width Depth J4.8 Posteriormente à discretização foi implementada a classificação (em árvore) J48 (ferramenta WEKA) com a opção de validação cruzada em 10 fólios separados. Uma vez que esta metodologia "afasta" significativamente as possibilidades de sobreajustamento do modelo ao conjunto de treino, utilizou-se como medida a percentagem de "aceitos" com base no conjunto de treino. O quadro resumo abaixo mostra a percentagem de valores correctamente classificados resultante dessa classificação (com pré-discretização). Descrição dos Datasets Para a realização dos testes foram utilizados três datasets diferentes. O SAT-TOTAL, o SEGMENT e o WAVEFORM. Dataset SAT-TOTAL Este dataset caracteriza-se pela grande similaridade dos atributos, quer em termos de grandezas quer em termos de distribuição. Figura 1 - Distribuição de cada atributo do dataset SAT-TOTAL Pela análise dos gráficos acima, embora semelhantes, são facilmente identificáveis quatro tipos distintos de distribuições. A distribuição da classe não é completamente uniforme, existindo três classes com sensivelmente o dobro das instancias das restantes classes. Figura 2 – Distribuição das classes do dataset SAT-TOTAL Nº Instâncias: 6435 Atributos: 37 (Incluindo Classe) Nº Classes: 6 Atributo A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27 A28 A29 A30 A31 A32 A33 A34 A35 A36 Mínimo 39 27 53 33 39 27 50 29 40 27 50 29 39 27 50 29 40 27 50 29 39 27 50 29 39 27 50 29 39 27 50 29 39 27 50 29 Máximo 104 137 140 154 104 137 145 157 104 130 145 157 104 137 145 154 104 130 145 157 104 130 145 157 104 131 140 154 104 130 145 157 104 130 145 157 Média 69.4 83.595 99.291 82.593 69.15 83.244 99.111 82.497 68.912 82.893 98.853 82.388 69.29 83.477 99.311 82.645 69.046 83.171 99.15 82.603 68.839 82.861 98.95 82.469 69.162 83.373 99.215 82.661 68.944 83.146 99.112 82.618 68.728 82.859 98.926 82.505 Tabela 1 – Quadro resumo dos atributos do dataset SAT-TOTAL Desvio Padrão 13.606 22.882 16.646 18.898 13.561 22.886 16.664 18.941 13.471 22.862 16.637 18.981 13.603 22.85 16.668 18.932 13.538 22.905 16.718 19.036 13.459 22.884 16.73 19.071 13.581 22.803 16.613 18.991 13.493 22.847 16.704 19.044 13.403 22.817 16.695 19.054 Dataset SEGMENT Este dataset apresenta atributos com distribuições muito heterogéneas. Figura 3 – Distribuições dos atributos e classe para o dataset SEGMENT No que respeita à distribuição das classes, como se pode verificar, é perfeitamente uniforme. Existem o mesmo número de instâncias para cada classe. Nº Instâncias: 2310 Atributos: 20 (Incluindo Classe) Nº Classes: 7 Atributo A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 Mínimo 1 11 9 0 0 0 0 0 0 0 0 0 0 -49.667 -12.444 -33.889 0 0 -3.044 Máximo 254 251 9 0.333 0.222 29.222 991.718 44.722 1386.329 143.444 137.111 150.889 142.556 9.889 82 24.667 150.889 1 2.912 Média 124.914 123.417 9 0.014 0.005 1.894 5.709 2.425 8.244 37.052 32.821 44.188 34.146 -12.691 21.409 -8.718 45.137 0.427 -1.363 Desvio Padrão 72.957 57.484 0 0.04 0.024 2.699 44.846 3.61 58.812 38.176 35.037 43.527 36.365 11.584 19.572 11.552 42.922 0.228 1.545 Tabela 2 - Quadro resumo dos atributos do dataset SEGMENT Dataset WAVEFORM Este dataset é o que apresenta distribuições semelhantes à distribuição normal. As distribuições para todos os atributos são todas muito homogéneas, embora algumas delas apresentem um ligeiro enviesamento. Figura 4 - Distribuições dos atributos e classe para o dataset WAVEFORM Como se pode verificar, também neste caso a distribuição das classes é perfeitamente uniforme. Nº Instâncias: 5000 Atributos: 22 (Incluindo Classe) Nº Classes: 3 Atributo X00 X01 X02 X03 X04 X05 X06 X07 X08 X09 X10 X11 X12 X13 Mínimo -3.94 -3.25 -4.2 -3.84 -3.48 -2.76 -3.32 -3.52 -3.38 -1.79 -1.48 -1.69 -2.61 -2.82 Máximo 3.94 3.88 4.72 5.75 6.5 7.62 8.76 7.84 7.9 7.63 9.06 7.4 7.5 7.75 Média 0.005 0.339 0.672 0.992 1.311 1.997 2.662 2.659 2.672 2.989 3.337 3.014 2.679 2.649 Desvio Padrão 1.01 1.054 1.188 1.415 1.678 1.814 2.016 1.746 1.663 1.532 1.689 1.512 1.652 1.76 X14 X15 X16 X17 X18 X19 X20 -2.56 -2.99 -3.56 -4.08 -3.5 -3.57 -3.88 8.72 7.86 6.74 6.2 5.28 4.65 4.01 2.648 2.001 1.335 1.001 0.661 0.357 -0.021 2.019 1.811 1.67 1.413 1.197 1.081 0.997 Tabela 3 - Quadro resumo dos atributos do dataset WAVEFORM Apresentação de Resultados Comparativos Gráfico comparativo Hipóteses H1. O discretizador do J4.8 (classificação directa) é o que apresenta melhores resultados em todos os datasets. H2. Os discretizadores não supervisionados são os que apresentam piores resultados. H3. O FID/FI2 apresenta em todos os casos resultados muito próximos do J4.8. O FID é uma implementação clássica do Método Supervisionado MDL Fayyad & Irani em que os "pontos de corte" são aqueles onde as classes mudam de valor (ponto médio). Corta-se os intervalos no ponto médio entre mudanças de classe. O FI2 implementado pelo Caren apresenta uma variação ao modelo anterior pois se para um mesmo atributo existem diversas classes adapta-se a dominante (sistema de votação) o que na prática reduz o número de intervalos do modelo. Esta diferença de implementação gerou diferenças de -0,22%, -0,22% e +1,11% de FID para FI2. Sendo o F&I (Genéricamente) um método supervisionado permite usar os dados da classe do conjunto de treino para determinar o ponto de quebra do intervalo, e assim optimizar a capacidade preditiva do modelo (minimiza o erro no conjunto de treino), mas em outros casos, não é possível saber quais são as classes nos processo de discretização. H4. Definindo um máximo de intervalos (razoável) em ChiMerge essa é a limitação mais restritiva, i.e. o Alfa (razoável) torna-se um dado redundante. O Chi Merge como método supervisionado que é utiliza as classes para efectuar a separação dos intervalos. Este algoritmo pressupõe que as frequências de classe devem ser consistentes num mesmo intervalo, caso contrário deve separar-se o intervalo e ainda que dois intervalos adjacentes não devem ter frequências de classe semelhantes, caso contrário devem ser considerados como apenas im intervalo. De todas experiências efectuadas, apenas se obteve variações da percentagem de acertos no Dataset Segment sem especificação do parâmetro MAX - Max= Default. Com efeito, uma variação no coeficiente de significancia (para testar a independência dos intervalos) de 0,9 (valor por defeito) para 0,95 e 0,99 traduziu-se numa melhoria na percentagem de acerto do modelo de 35,15%, 58,96% e 62,54% respectivamente. A explicação reside no facto de ao aumentar "exigência" do teste de independência, o corte é mais "afinado" e por isso a probabilidade de obter intervalos independentes é maior. Se analisarmos os erros por classe, verificamos que o aumento do Alfa leva a aceitação mais "selectiva" e consequentemente à redução de de True Positives, mas também (e essencialmente) de False Negatives (curva ROC). A comprovar a hipótese de redundância do Alfa face ao parâmetro MAX (máximo número de intervalos) estão as várias experiências efectuadas com o algoritmo Chi Merge. Conclusões Após a análise das experiências levadas a cabo para este trabalho, e ao contrário dos resultados obtidos noutros trabalhos referenciados na Bibliografia, verificou-se que a discretização embebida no J48 apresenta melhores resultados do que qualquer outra discretização prévia. Dentro destas, verificamos que as supervisionadas (as que usam a informação das classes para determinação dos intervalos) apresentam resultados normalmente superiores. As experiências demonstraram que a discretização Chi Merge apresentou percentagem de acertos relativamente modestos (comparativamente) e sempre inferiores quando não era especificado o número de intervalos. A "afinação" do Alfa revelou-se crítica, sobretudo para reduzir a percentagem de Falsos positivos na classe C6 e assim aumentar a eficácia da classificação. A distribuição mais aproximada da normal dos atributos do dataset Waveform podem estar na origem dos piores resultados globais obtidos pelo classificador J4.8 depois de discretizado. Uma hipótese de trabalho que não foi explorada é a de os bons resultados obtidos pelo J4.8 quando a discretização é efectuada no mesmo J4.8 serem devidos à discretização ser efectuada localmente e após indução da árvore do J4.8. Para melhor compreender o problema na sua extensão, poder-se-ia ainda utilizar outros classificadores possivelmente mais "afinados" para os outros discretizadores. Bibliografia [1] Error-based and Entropy-based Discretization of Continous Features, Ron Kohavi, Mehran Sahami. [2] Supervised and Unsupervised Discretization of Continous Features, James Dougherty, Ron Kohavi, Mehran Sahami, Computer Science Department, Stanford University. [3] Multi-interval Discretization Methods for Decision Tree Learning, Petra Perner and Sascha Trautzsch, Institute of Computer Vision and Applied Computer Sciences, Leipzig, Germany. [4] An Empirical Investigation of the Impact of Discretization on Common Data Distributions, Michael K. Ismail, RMIT University.