Uploaded by Yoannis Domínguez

03. Análise Exploratória de Dados I - Tabelas & Gráficos REVISAR

advertisement
Universidade Estadual Paulista – Júlio de Mesquita Filho
Instituto de Biociências – Câmpus do Litoral Paulista
Análise Exploratória de Dados I:
Organização e Representação dos
Dados
Licenciatura em Ciências Biológicas
Bioestatística
Prof. Yoannis Domínguez
São Vicente – SP
19:16
Interação entre a Estatística e a pesquisa científica
Análise
descritiva

Observação e
coleta de dados

Apresentação
dos dados:
- Tabelas
- Gráficos
Definição de
objetivos
Análise
inferencial
Interpretação
de resultados
Formulação de
novos objetivos
19:16
Sumário
Análise Exploratória de Dados I
1. Organização dos dados
- Distribuição de frequências
- Tabelas de frequência
2. Representações gráficas
- Gráficos estatísticos
- Programas para construção de gráficos
19:16
Ex.: Morfometria de caracteres florais em Pinguicula spp.
31 variáveis quantitativas contínuas x 308 indivíduos = 9.548 valores
A primeira vizualização objetiva que teremos
desses dados, e que podem nos ajudar a
identificar padrões, é a través da
Análise Exploratória de Dados!
19:16
O que é uma AED?
Análise Exploratória de Dados (AED):
Consiste em organizar e resumir os dados coletados utilizando
tabelas, gráficos ou medidas numéricas e, a partir dos dados
resumidos procurar alguma regularidade ou padrão nas
observações (interpretação dos dados).
Etapas da AED:
1. Tabular os dados em tabelas de frequências;
2. Representar graficamente os dados;
3. Sintetizar os dados numéricos utilizando medidas.
19:16
Organização dos dados: tabelas
Ex.: Ao estudar a quantidade de albumina no plasma de pessoas
com determinada doença, um pesquisador obteve, em 25
indivíduos, os seguintes valores (em g/100 mL):
Conclusões:
(1) Valores variam de indivíduos para indivíduos,
(2) Alguns indivíduos apresentam valores iguais,
(3) Valores variam entre 4,5 e 5,5.
19:16
Organização dos dados: tabelas
 As duas primeiras conclusões são obtidas de forma imediata.
 Mas a terceira exige paciência e atenção, especialmente se a
amostra for grande.
Para facilitar esta tarefa e diminuir a margem de erro utilizam-se
tabelas de frequência para organizar os dados.
19:16
Distribuição de frequências
 Distribuição de frequências de uma variável é uma lista de valores
individuais ou intervalos de valores que a variável pode assumir,
com suas respectivas frequências de ocorrência.
Tipos de frequências
- Frequência absoluta,
- Frequência relativa,
- Frequência acumulada (absoluta e relativa).
Estas frequências são organizadas em tabelas de frequências:
- Tabelas de agrupamento simples,
- Tabelas de agrupamento por intervalo de classe.
Distribuição de frequências

Frequência de uma variável: quantidade de vezes que a
variável ocorre (evento). Frequência em que a variável assume
um certo valor.

Frequência de variáveis contínuas: é obtida dividindo o
conjunto de valores em intervalos de classe e indicando a
frequência dos valores observados para cada intervalo.

Intervalo de classe: intervalo entre o valor máximo e mínimo
de uma variável. A cada intervalo estão associados os limítes
de classe (valores extremos) e o ponto médio.
19:16
Distribuição de frequências

Frequência absoluta (f ): quantidade de vezes que a variável
ocorre (evento). Frequência em que a variável assume um certo
valor.

Frequência relativa (fr ): é obtida dividindo a frequência
absoluta pelo total de observações e representa a
porcentagem em que a variável ocorre.

Frequência acumulada (F ): é a somatória da frequência de
todas as observações menores ou iguais que um determinado
valor.
19:16
Tabelas de frequências
Tabela de agrupamento simples:

Usada para dados que apresentam valores não muito variáveis;

Mostra os valores obtidos e o número de vezes que cada valor
foi observado.
19:16
Tabelas de frequências
Passos para construir uma tabela de agrupamento simples:
1. Procura-se o menor valor obtido;
2. A partir dele, organiza-se uma lista por ordem crescente dos
valores que podem ocorrer;
3. Volta-se aos valores anotados de forma desorganizada e, lendo
um a um, marca-se um traço vertical ao lado do valor
correspondente na tabela (contagem).
19:16
Tabelas de frequências
Passos para construir uma tabela de agrupamento simples:
4. x =: valores da variável quantitativa em estudo;
5. f = frequência absoluta simples: número de vezes que cada valor
foi encontrado;
6. Σ = somatória;
7. fr = frequência relativa simples (f/Σf ) → proporção com que cada
valor ocorre, pode ser representada em porcentagem.
19:16
Tabelas de frequências
Passos para construir uma tabela de agrupamento simples:
8. F = frequências acumuladas → indicam quantos indivíduos têm
taxa de albumina menor ou igual que um determinado valor.
10. Fr = frequência acumulada relativa → proporção de pessoas
com taxa de albumina menor ou igual a determinado valor.
Ex: 5,0 (F/Σf=12/25=0,48=48%).
Pode ser representada em
porcentagem: 48% dos
pacientes tem taxa
de albubina ≤ 5,0.
19:16
Tabelas de frequências
Tabela de agrupamento por intervalo de classe:

Usada para variáveis contínuas com muitos valores;

Ex.: altura, peso, DAP de árvores, comprimento da folha...
Agrupam-se os dados por intervalo de classe
19:16
Tabelas de frequências
Tabela de agrupamento por intervalo de classe:
 Cada intervalo apresenta um limite inferior e um superior;
 |─: intervalo aberto à direita (o limite inferior está incluído no
intervalo, mas o superior não);
 Também pode se incluir o ponto médio de cada intervalo que é
calculado utilizando os limítes inferior e superior.
(Lim. Inf.) + (Lim. Sup.)
2
19:16
Normas para a produção de tabelas
 Nas publicações não se apresenta a tabulação dos dados nem
informações redundantes;
 Se for indicada f , não se apresenta fr ou a porcentagem.
19:16
Normas para a produção de tabelas
Estrutura da Tabela
- Deve ser precedida de um título claro;
- Deve apresentar uma linha limitante
superior e outra inferior que indica
seu final;
- O cabeçalho deve ser separado do
resto do texto por uma linha;
- Não se usam linhas verticais;
- Abreviaturas e símbolos devem ser
explicados no rodapé, assim como
fontes dos dados quando necessário.
19:16
O que é um gráfico?
São representações pictóricas dos dados cujo objetivo é
produzir uma interpretação imediata do fenômeno em estudo.
- Permitem a síntese dos resultados;
- Auxiliam o pesquisador na análise dos dados e;
- Facilitam a compreensão das conclusões do autor.
19:16
Origem dos gráficos
O diagrama cartesiano é a figura geométrica que deu origem à
técnica de construção de gráficos estatísticos.
Utiliza-se o primeiro quadrante do sistema de eixos coordenados
cartesianos ortogonais.
Ordenadas
(eixo y)
1o Quadrante
Eixo y
Frequências
Eixo x
Valores da variável
Abscissas (eixo x)
19:16
Normas para a produção de gráficos
A escolha do tipo de gráfico fica a critério do analista, porém
alguns elementos devem ser considerados na elaboração:
- Simplicidade,
- Clareza,
Deve facilitar a interpretação dos
dados para um “leigo”
- Veracidade.
Gráficos
enganosos
19:16
Normas para a produção de gráficos
Contudo, existem algumas normas nacionais para a produção de
gráficos, ditadas pelo IBGE.
 Apresentar título e escala;
 O título pode ser colocado acima ou abaixo;
 As legendas devem ser colocadas, de preferência, à direita;
 As colunas, barras, linhas
e áreas gráficas devem ser
ordenadas crescente ou
decrescentemente, exceto
para ordem cronológica.
19:16
Como construir gráficos?
- Manualmente;
- Utilizando recursos informáticos.
PAGOS
GRATIS
PAST
19:16
Alguns tipos de gráficos
Variáveis qualitativas
Variáveis quantitativas
12
25000
10
20000
8
15000
6
10000
4
2
5000
0
0a2
0
Hemat
Bioq
Imunol
4a6
6a8
8 a 10
Histograma
Gráfico de barras ou bastões
Parasit
2a4
Parasit
35
31,4
Hemat
30
28,6
25
20
Imunol
20
15
14,3
10
5,7
5
Bioq
0
0
Gráfico de setores (pizza)
0a2
2a4
4a6
6a8
8 a 10
11
Polígono de frequência
19:16
Gráfico de barras ou bastões
 Utilizado para representar variáveis qualitativas ou ordinais;
 Informa a distribuição de categorias observados em n casos
amostrados.
35
30
25
20
Frequência relativa
Series1
15
10
5
0
1
Clínica
médica
2
Ginecologia e
Obstetrícia
3
Cirurgia
4
Pediatria
5
Outras
Internações em estabelecimentos de saúde, por espécie de clínica.
(IBGE 1992)
19:16
Gráfico de barras ou bastões
Internações em estabelecimentos de saúde, por espécie de clínica.
Espécie de clínica
Frequência (f )
Frequência relativa (fr )
Clínica médica
6 453 923
32,51
Ginecologia e Obstetrícia
3 918 308
19,73
Cirurgia
3 031 075
15,26
Pediatria
2 943 939
14,82
Outras
3 513 186
17,69
Fonte: IBGE, Diretoria de Pesquisas, Pesquisa de Assistência Médico-Sanitária.
Como construir o gráfico anterior baseado nos dados da tabela?
1. Traça-se um sistema de eixos cartesianos,
2. Colocam-se sobre um dos eixos as categorias da variável,
3. Constroem-se barras retangurales com base em um eixo e
altura (ou comprimento) igual à frequência (f ).
19:16
Gráfico de barras ou bastões
35
30
Clínica Ginecol. e
médica Obstet.
Cirurgia Pediat.
Outras
25
20
Frequência
Series1
relativa
15
10
5
0
1
Clínica
médica
2
Ginecologia e
Obstetrícia
3
Cirurgia
4
Pediatria
5
Outras
19:16
Gráfico de setores (piechart)
 Também é utilizado para representar variáveis qualitativas ou
ordinais;
 Representa, usualmente em porcentagem, as partes de um
todo;
 Consiste em um círculo de raio arbitrário, representando o
todo, dividido em setores, que corresponde as partes de
maneira proporcional.
Clínica médica
Ginecologia e
3
4 Obstetrícia
5 Cirurgia
Pedriatria
Outras
19:16
1
2
Internações em estabelecimentos
de saúde, por espécie de clínica.
(IBGE 1992)
Gráfico de setores (piechart)
Como construir o gráfico anterior baseado nos dados da tabela?
1. Traça-se uma circunferência (360° = 100%),
2. Dentro da circunferência são representadas as categorias da
variável em estudo,
3. Para isso, toma-se a frequência relativa (fr ) de cada categoria e
calcula-se o ângulo central da seguinte forma:
x =360 fr
100
Uma vez que:
100  360
fr  x
4. Marcam-se na circunferência os ângulos calculados para cada
categoria delimitando os setores.
19:16
Gráfico de linha
 Utilizado para representar variáveis quantitativas como séries
geográficas, temporais, específicas ou medidas repetidas;
 Os valores são representados por pontos e estos unidos por
segmentos de retas;
 A través deste gráfico é
possível constatar tendências
ou identificar eventos.
Matrículas iniciais do Colégio Naval,
Rio de Janeiro, Brasil.
19:16
Gráfico de linha
Matrículas iniciais do Colégio Naval, Rio de Janeiro, Brasil.
Período
N° de
matrículas (f )
1990
816
1991
904
1992
1203
1993
1147
1994
1239
1995
1565
1996
1620
1997
1833
1998
1910
1999
1890
2000
1903
2500
2000
1500
Series1
1000
500
0
1
2
3
4
5
6
7
8
9
10
11
19:16
Histograma
 É uma representação gráfica da distribuição de frequências,
 Representa a forma, posição e dispersão ou variabilidad de um
conjunto de dados,
 Mais utilizado para representar variáveis quantitativas contínuas,
 Utiliza o sistema de coordernadas cartesianas onde:
12
Eixo x  Intervalo de classes,
Eixo y  frequência de cada classe.
10
8
6
4
2
0
0a2
2a4
4a6
6a8
8 a 10
19:16
Histograma
Outras características
Classes: são as barras,
Limites de classe: valores máximo e mínimo de cada classe,
Amplitude: intervalo entre os limites de cada classe,
Frequência: número de observações pertencentes a uma dada
classe.
19:16
Histograma
Como construir um histograma?
1. Ter uma tabela de frequência que
mostra classes ou intervalos de
dados com uma contagem do
número de entradas em cada
classe,
2. Determina-se o ponto médio de
cada classe:
(Limite inferior) + (Limite superior)
2
3. Quando os intervalos de classes
são diferentes calculam-se as
densidades
de
frequência
relativa.
Nascidos vivos segundo peso
ao nascer, em quilogramas.
Classes
Ponto
médio
Frequência
(f )
1,5 |— 2,0
1,75
3
2,0 |—2,5
2,25
16
2,5 |— 3,0
2,75
31
3,0 |— 3,5
3,25
34
3,5 |— 4,0
3,75
11
4,0 |— 4,5
4,25
4
4,5 |— |5,0
4,75
1
19:16
Histograma
40
Frequência
Frequency
35
30
25
20
Frequency
15
10
5
0
1.5
2
2.5
3
3.5
Bin
Classes
4
4.5
More
A área de cada barra é proporcional à frequência da classe que ela
representa,
Assim, a soma de todas as áreas representa a frequência total.
19:16
Histograma
Outras informações nos histogramas:
Mostra forma, variabilidade e medidas de tendência central.
Simétrico
100
80
60
40
20
0
Média=mediana=moda
100
80
Ilhas
60
40
20
0
Assimétrico
90
80
70
60
50
40
30
20
10
0
Média>mediana;
média>moda
Erros de medição, erros de
registro ou transcrição dos
dados ou anormalidades.
19:16
Polígono de frequência
 É tambem um gráfico de distribuição de frequência, mediante
uma linha, representam-se variáveis quantitativas contínuas;
 As frequências são marcadas sobre linhas perpendiculares ao
eixo horizontal, levantadas a partir dos pontos médios dos
intervalos de classe.
40
35
Frequency
30
25
20
Frequency
15
Frequency
10
5
0
1.5
2
2.5
3
3.5
4
4.5
More
Bin
Nascidos vivos segundo peso ao nascer, em quilogramas.
19:16
Polígono de frequência
Como construir um polígono de frequência?
1. A partir de uma tabela de frequência segue-se a mesma
metodologia utilizada para obter um histograma;
2. Neste caso, sobre um sistema de eixos cartesianos, marcamse pontos no ponto médio de cada intervalo de classe;
3. Para fechar o polígono unem-se os pontos mediante
segmentos de retas e com o eixo das abscissas.
19:16
Histograma + Polígono de frequência
Gráficos sobrepostos basseados no mesmo conjunto de dados.
Histogram
40
Histograma + Polígono de Frequência
35
Frequência
Frequency
30
1.5
25
2
2.5
20
3
Frequency
3.5
15
4
4.5
10
More
5
0
1.5
2
2.5
33
3.5
3.5
44
4.5
4.5
More
More
Bin
Bin
Classes
A área abaixo da linha representa a frequência total.
19:16
Polígono de frequências acumuladas
Também chamado de Ogiva de Galton
Sir Francis Galton
(1822-1911)
Frequência acumulada percentual (%)
Representa uma distribuição de frequências cumulativas.
97,22%
100
100%
80,56%
61,11%
50
27,78%
0
4.0
7.9
11.8
15.7
19.6
23.5
Salario
19:16
Caixa de fio de bigode (Boxplot and wisker)
Caixa e Fio de Bigode (Boxplot and wisker)
Representação gráfica de algumas medidas de posição:
Md
Min
Q1
Max
Q3
outliers e extremos
19:16
Representações gráficas
VARIÁVEIS
QUALITATIVAS
QUANTITATIVAS
DISCRETA
CONTÍNUA
GRÁFICO DE
BARRAS
HISTOGRAMA
ou
GRÁFICO DE
SETORES
POLÍGONO DE
FREQUÊNCIAS
LINHA
OGIVA
19:16
Síntese
ANÁLISE EXPLORATÓRIA DE DADOS I
1. Tabulação dos dados: Organização e cálculo de frequências
(tabelas de frequência);
2. Representação gráfica: Seleção e construção do melhor
gráfico de acordo com a natureza dos dados;
19:16
Download