Universidade Estadual Paulista – Júlio de Mesquita Filho Instituto de Biociências – Câmpus do Litoral Paulista Análise Exploratória de Dados I: Organização e Representação dos Dados Licenciatura em Ciências Biológicas Bioestatística Prof. Yoannis Domínguez São Vicente – SP 19:16 Interação entre a Estatística e a pesquisa científica Análise descritiva Observação e coleta de dados Apresentação dos dados: - Tabelas - Gráficos Definição de objetivos Análise inferencial Interpretação de resultados Formulação de novos objetivos 19:16 Sumário Análise Exploratória de Dados I 1. Organização dos dados - Distribuição de frequências - Tabelas de frequência 2. Representações gráficas - Gráficos estatísticos - Programas para construção de gráficos 19:16 Ex.: Morfometria de caracteres florais em Pinguicula spp. 31 variáveis quantitativas contínuas x 308 indivíduos = 9.548 valores A primeira vizualização objetiva que teremos desses dados, e que podem nos ajudar a identificar padrões, é a través da Análise Exploratória de Dados! 19:16 O que é uma AED? Análise Exploratória de Dados (AED): Consiste em organizar e resumir os dados coletados utilizando tabelas, gráficos ou medidas numéricas e, a partir dos dados resumidos procurar alguma regularidade ou padrão nas observações (interpretação dos dados). Etapas da AED: 1. Tabular os dados em tabelas de frequências; 2. Representar graficamente os dados; 3. Sintetizar os dados numéricos utilizando medidas. 19:16 Organização dos dados: tabelas Ex.: Ao estudar a quantidade de albumina no plasma de pessoas com determinada doença, um pesquisador obteve, em 25 indivíduos, os seguintes valores (em g/100 mL): Conclusões: (1) Valores variam de indivíduos para indivíduos, (2) Alguns indivíduos apresentam valores iguais, (3) Valores variam entre 4,5 e 5,5. 19:16 Organização dos dados: tabelas As duas primeiras conclusões são obtidas de forma imediata. Mas a terceira exige paciência e atenção, especialmente se a amostra for grande. Para facilitar esta tarefa e diminuir a margem de erro utilizam-se tabelas de frequência para organizar os dados. 19:16 Distribuição de frequências Distribuição de frequências de uma variável é uma lista de valores individuais ou intervalos de valores que a variável pode assumir, com suas respectivas frequências de ocorrência. Tipos de frequências - Frequência absoluta, - Frequência relativa, - Frequência acumulada (absoluta e relativa). Estas frequências são organizadas em tabelas de frequências: - Tabelas de agrupamento simples, - Tabelas de agrupamento por intervalo de classe. Distribuição de frequências Frequência de uma variável: quantidade de vezes que a variável ocorre (evento). Frequência em que a variável assume um certo valor. Frequência de variáveis contínuas: é obtida dividindo o conjunto de valores em intervalos de classe e indicando a frequência dos valores observados para cada intervalo. Intervalo de classe: intervalo entre o valor máximo e mínimo de uma variável. A cada intervalo estão associados os limítes de classe (valores extremos) e o ponto médio. 19:16 Distribuição de frequências Frequência absoluta (f ): quantidade de vezes que a variável ocorre (evento). Frequência em que a variável assume um certo valor. Frequência relativa (fr ): é obtida dividindo a frequência absoluta pelo total de observações e representa a porcentagem em que a variável ocorre. Frequência acumulada (F ): é a somatória da frequência de todas as observações menores ou iguais que um determinado valor. 19:16 Tabelas de frequências Tabela de agrupamento simples: Usada para dados que apresentam valores não muito variáveis; Mostra os valores obtidos e o número de vezes que cada valor foi observado. 19:16 Tabelas de frequências Passos para construir uma tabela de agrupamento simples: 1. Procura-se o menor valor obtido; 2. A partir dele, organiza-se uma lista por ordem crescente dos valores que podem ocorrer; 3. Volta-se aos valores anotados de forma desorganizada e, lendo um a um, marca-se um traço vertical ao lado do valor correspondente na tabela (contagem). 19:16 Tabelas de frequências Passos para construir uma tabela de agrupamento simples: 4. x =: valores da variável quantitativa em estudo; 5. f = frequência absoluta simples: número de vezes que cada valor foi encontrado; 6. Σ = somatória; 7. fr = frequência relativa simples (f/Σf ) → proporção com que cada valor ocorre, pode ser representada em porcentagem. 19:16 Tabelas de frequências Passos para construir uma tabela de agrupamento simples: 8. F = frequências acumuladas → indicam quantos indivíduos têm taxa de albumina menor ou igual que um determinado valor. 10. Fr = frequência acumulada relativa → proporção de pessoas com taxa de albumina menor ou igual a determinado valor. Ex: 5,0 (F/Σf=12/25=0,48=48%). Pode ser representada em porcentagem: 48% dos pacientes tem taxa de albubina ≤ 5,0. 19:16 Tabelas de frequências Tabela de agrupamento por intervalo de classe: Usada para variáveis contínuas com muitos valores; Ex.: altura, peso, DAP de árvores, comprimento da folha... Agrupam-se os dados por intervalo de classe 19:16 Tabelas de frequências Tabela de agrupamento por intervalo de classe: Cada intervalo apresenta um limite inferior e um superior; |─: intervalo aberto à direita (o limite inferior está incluído no intervalo, mas o superior não); Também pode se incluir o ponto médio de cada intervalo que é calculado utilizando os limítes inferior e superior. (Lim. Inf.) + (Lim. Sup.) 2 19:16 Normas para a produção de tabelas Nas publicações não se apresenta a tabulação dos dados nem informações redundantes; Se for indicada f , não se apresenta fr ou a porcentagem. 19:16 Normas para a produção de tabelas Estrutura da Tabela - Deve ser precedida de um título claro; - Deve apresentar uma linha limitante superior e outra inferior que indica seu final; - O cabeçalho deve ser separado do resto do texto por uma linha; - Não se usam linhas verticais; - Abreviaturas e símbolos devem ser explicados no rodapé, assim como fontes dos dados quando necessário. 19:16 O que é um gráfico? São representações pictóricas dos dados cujo objetivo é produzir uma interpretação imediata do fenômeno em estudo. - Permitem a síntese dos resultados; - Auxiliam o pesquisador na análise dos dados e; - Facilitam a compreensão das conclusões do autor. 19:16 Origem dos gráficos O diagrama cartesiano é a figura geométrica que deu origem à técnica de construção de gráficos estatísticos. Utiliza-se o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Ordenadas (eixo y) 1o Quadrante Eixo y Frequências Eixo x Valores da variável Abscissas (eixo x) 19:16 Normas para a produção de gráficos A escolha do tipo de gráfico fica a critério do analista, porém alguns elementos devem ser considerados na elaboração: - Simplicidade, - Clareza, Deve facilitar a interpretação dos dados para um “leigo” - Veracidade. Gráficos enganosos 19:16 Normas para a produção de gráficos Contudo, existem algumas normas nacionais para a produção de gráficos, ditadas pelo IBGE. Apresentar título e escala; O título pode ser colocado acima ou abaixo; As legendas devem ser colocadas, de preferência, à direita; As colunas, barras, linhas e áreas gráficas devem ser ordenadas crescente ou decrescentemente, exceto para ordem cronológica. 19:16 Como construir gráficos? - Manualmente; - Utilizando recursos informáticos. PAGOS GRATIS PAST 19:16 Alguns tipos de gráficos Variáveis qualitativas Variáveis quantitativas 12 25000 10 20000 8 15000 6 10000 4 2 5000 0 0a2 0 Hemat Bioq Imunol 4a6 6a8 8 a 10 Histograma Gráfico de barras ou bastões Parasit 2a4 Parasit 35 31,4 Hemat 30 28,6 25 20 Imunol 20 15 14,3 10 5,7 5 Bioq 0 0 Gráfico de setores (pizza) 0a2 2a4 4a6 6a8 8 a 10 11 Polígono de frequência 19:16 Gráfico de barras ou bastões Utilizado para representar variáveis qualitativas ou ordinais; Informa a distribuição de categorias observados em n casos amostrados. 35 30 25 20 Frequência relativa Series1 15 10 5 0 1 Clínica médica 2 Ginecologia e Obstetrícia 3 Cirurgia 4 Pediatria 5 Outras Internações em estabelecimentos de saúde, por espécie de clínica. (IBGE 1992) 19:16 Gráfico de barras ou bastões Internações em estabelecimentos de saúde, por espécie de clínica. Espécie de clínica Frequência (f ) Frequência relativa (fr ) Clínica médica 6 453 923 32,51 Ginecologia e Obstetrícia 3 918 308 19,73 Cirurgia 3 031 075 15,26 Pediatria 2 943 939 14,82 Outras 3 513 186 17,69 Fonte: IBGE, Diretoria de Pesquisas, Pesquisa de Assistência Médico-Sanitária. Como construir o gráfico anterior baseado nos dados da tabela? 1. Traça-se um sistema de eixos cartesianos, 2. Colocam-se sobre um dos eixos as categorias da variável, 3. Constroem-se barras retangurales com base em um eixo e altura (ou comprimento) igual à frequência (f ). 19:16 Gráfico de barras ou bastões 35 30 Clínica Ginecol. e médica Obstet. Cirurgia Pediat. Outras 25 20 Frequência Series1 relativa 15 10 5 0 1 Clínica médica 2 Ginecologia e Obstetrícia 3 Cirurgia 4 Pediatria 5 Outras 19:16 Gráfico de setores (piechart) Também é utilizado para representar variáveis qualitativas ou ordinais; Representa, usualmente em porcentagem, as partes de um todo; Consiste em um círculo de raio arbitrário, representando o todo, dividido em setores, que corresponde as partes de maneira proporcional. Clínica médica Ginecologia e 3 4 Obstetrícia 5 Cirurgia Pedriatria Outras 19:16 1 2 Internações em estabelecimentos de saúde, por espécie de clínica. (IBGE 1992) Gráfico de setores (piechart) Como construir o gráfico anterior baseado nos dados da tabela? 1. Traça-se uma circunferência (360° = 100%), 2. Dentro da circunferência são representadas as categorias da variável em estudo, 3. Para isso, toma-se a frequência relativa (fr ) de cada categoria e calcula-se o ângulo central da seguinte forma: x =360 fr 100 Uma vez que: 100 360 fr x 4. Marcam-se na circunferência os ângulos calculados para cada categoria delimitando os setores. 19:16 Gráfico de linha Utilizado para representar variáveis quantitativas como séries geográficas, temporais, específicas ou medidas repetidas; Os valores são representados por pontos e estos unidos por segmentos de retas; A través deste gráfico é possível constatar tendências ou identificar eventos. Matrículas iniciais do Colégio Naval, Rio de Janeiro, Brasil. 19:16 Gráfico de linha Matrículas iniciais do Colégio Naval, Rio de Janeiro, Brasil. Período N° de matrículas (f ) 1990 816 1991 904 1992 1203 1993 1147 1994 1239 1995 1565 1996 1620 1997 1833 1998 1910 1999 1890 2000 1903 2500 2000 1500 Series1 1000 500 0 1 2 3 4 5 6 7 8 9 10 11 19:16 Histograma É uma representação gráfica da distribuição de frequências, Representa a forma, posição e dispersão ou variabilidad de um conjunto de dados, Mais utilizado para representar variáveis quantitativas contínuas, Utiliza o sistema de coordernadas cartesianas onde: 12 Eixo x Intervalo de classes, Eixo y frequência de cada classe. 10 8 6 4 2 0 0a2 2a4 4a6 6a8 8 a 10 19:16 Histograma Outras características Classes: são as barras, Limites de classe: valores máximo e mínimo de cada classe, Amplitude: intervalo entre os limites de cada classe, Frequência: número de observações pertencentes a uma dada classe. 19:16 Histograma Como construir um histograma? 1. Ter uma tabela de frequência que mostra classes ou intervalos de dados com uma contagem do número de entradas em cada classe, 2. Determina-se o ponto médio de cada classe: (Limite inferior) + (Limite superior) 2 3. Quando os intervalos de classes são diferentes calculam-se as densidades de frequência relativa. Nascidos vivos segundo peso ao nascer, em quilogramas. Classes Ponto médio Frequência (f ) 1,5 |— 2,0 1,75 3 2,0 |—2,5 2,25 16 2,5 |— 3,0 2,75 31 3,0 |— 3,5 3,25 34 3,5 |— 4,0 3,75 11 4,0 |— 4,5 4,25 4 4,5 |— |5,0 4,75 1 19:16 Histograma 40 Frequência Frequency 35 30 25 20 Frequency 15 10 5 0 1.5 2 2.5 3 3.5 Bin Classes 4 4.5 More A área de cada barra é proporcional à frequência da classe que ela representa, Assim, a soma de todas as áreas representa a frequência total. 19:16 Histograma Outras informações nos histogramas: Mostra forma, variabilidade e medidas de tendência central. Simétrico 100 80 60 40 20 0 Média=mediana=moda 100 80 Ilhas 60 40 20 0 Assimétrico 90 80 70 60 50 40 30 20 10 0 Média>mediana; média>moda Erros de medição, erros de registro ou transcrição dos dados ou anormalidades. 19:16 Polígono de frequência É tambem um gráfico de distribuição de frequência, mediante uma linha, representam-se variáveis quantitativas contínuas; As frequências são marcadas sobre linhas perpendiculares ao eixo horizontal, levantadas a partir dos pontos médios dos intervalos de classe. 40 35 Frequency 30 25 20 Frequency 15 Frequency 10 5 0 1.5 2 2.5 3 3.5 4 4.5 More Bin Nascidos vivos segundo peso ao nascer, em quilogramas. 19:16 Polígono de frequência Como construir um polígono de frequência? 1. A partir de uma tabela de frequência segue-se a mesma metodologia utilizada para obter um histograma; 2. Neste caso, sobre um sistema de eixos cartesianos, marcamse pontos no ponto médio de cada intervalo de classe; 3. Para fechar o polígono unem-se os pontos mediante segmentos de retas e com o eixo das abscissas. 19:16 Histograma + Polígono de frequência Gráficos sobrepostos basseados no mesmo conjunto de dados. Histogram 40 Histograma + Polígono de Frequência 35 Frequência Frequency 30 1.5 25 2 2.5 20 3 Frequency 3.5 15 4 4.5 10 More 5 0 1.5 2 2.5 33 3.5 3.5 44 4.5 4.5 More More Bin Bin Classes A área abaixo da linha representa a frequência total. 19:16 Polígono de frequências acumuladas Também chamado de Ogiva de Galton Sir Francis Galton (1822-1911) Frequência acumulada percentual (%) Representa uma distribuição de frequências cumulativas. 97,22% 100 100% 80,56% 61,11% 50 27,78% 0 4.0 7.9 11.8 15.7 19.6 23.5 Salario 19:16 Caixa de fio de bigode (Boxplot and wisker) Caixa e Fio de Bigode (Boxplot and wisker) Representação gráfica de algumas medidas de posição: Md Min Q1 Max Q3 outliers e extremos 19:16 Representações gráficas VARIÁVEIS QUALITATIVAS QUANTITATIVAS DISCRETA CONTÍNUA GRÁFICO DE BARRAS HISTOGRAMA ou GRÁFICO DE SETORES POLÍGONO DE FREQUÊNCIAS LINHA OGIVA 19:16 Síntese ANÁLISE EXPLORATÓRIA DE DADOS I 1. Tabulação dos dados: Organização e cálculo de frequências (tabelas de frequência); 2. Representação gráfica: Seleção e construção do melhor gráfico de acordo com a natureza dos dados; 19:16