Uploaded by sfs

Técnicas Estatísticas: Estatística Descritiva

advertisement
TÉCNICAS ESTATÍSTICAS
ANO LETIVO 2022/2023
Estatística Descritiva – Cálculo de Estatísticas
Estatísticas de localização
Estatísticas de dispersão
Outras estatísticas
Estatísticas
As estatísticas são medidas calculadas com base nos dados e a partir das
quais é possível descrever globalmente o conjunto de valores que tais
dados tomam.
Ao calcular estatísticas pretende-se traduzir em números a informação
que se apreende a partir da observação de uma tabela de frequências,
de um gráfico de barras ou de um histograma.
• Estatísticas de localização
• Estatísticas de dispersão
• Outras estatísticas
O cálculo das estatísticas vai depender do tipo de dados de que se
dispõe:
• dados não agrupados
• dados discretos agrupados
• dados contínuos agrupados
2
Estatísticas de Localização
As medidas de localização servem para localizar o centro da amostra:
• Média
• Moda
• Mediana
3
Média
• A média amostral ou simplesmente média, é uma medida de
localização do centro da amostra, e obtém-se a partir da seguinte
expressão:
1 N
x =  xn
(dados não agrupados)
N n =1
onde x1, x2, ..., xn representam os elementos da amostra e N a sua dimensão.
• A média goza da seguinte particularidade:
(x 1 − x) + (x 2 − x) + ... + (x n − x) = 0
se se calcularem os desvios de todas as observações relativamente à média e se
somarem esses desvios o resultado obtido é igual a zero
4
Média
• Se os dados são discretos e se encontram agrupados, então o valor da
média é dado pela seguinte expressão:
K
x =  fk x k
(dados discretos agrupados)
k =1
onde K representa o número de classes e fk a frequência relativa da k-ésima classe.
• Se os dados são contínuos e se encontram agrupados, então um valor
aproximado para a média é dado pela seguinte expressão:
K
x   fk  Mk
(dados contínuos agrupados)
k =1
onde K representa o número de classes, fk a frequência relativa da k-ésima classe e
Mk o ponto central da k-ésima classe.
Nota: Com dados de tipo qualitativo não tem sentido calcular a média, mesmo
que os dados sejam números.
5
Exemplo
Observações - nº de acidentes ao longo de 16 semanas:
Semana
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Nº de acidentes
16
15
19
16
17
18
15
16
17
16
17
15
16
17
16
18
Nº de
acidentes
Freq. Simples
Freq. Acumulada
Absoluta
Relativa
Absoluta
Relativa
15
3
0,1875
3
0,1875
16
6
0,375
9
0,56
17
4
0,25
13
0,81
18
2
0,125
15
0,9375
19
1
0,0625
16
1,00
X = (16 + 15 + 19 + 16 + 17 + 18 + 15 + 16 + 17 + 16 + 17 + 15 + 16 + 17 + 16 + 18 ) / 16 = 16,5
X = (3  15 + 6  16 + 4  17 + 2  18 + 1  19 ) / 16 = 16,5
X = (0,1875  15 + 0,375  16 + 0,25  17 + 0,125  18 + 0,0625  19 ) = 16,5
6
Mediana (Med)
A mediana é uma medida de localização do centro da distribuição dos
dados, definida do seguinte modo:
• Ordenadas as observações da amostra, do menor para o maior
valor, a mediana é o valor que a divide ao meio. Isto é, 50% dos
elementos da amostra são menores ou iguais à mediana e os
outros 50% são maiores ou iguais à mediana.
Para a sua determinação utiliza-se a seguinte regra:
◦ Se n é ímpar, a mediana toma o valor do dado que ocupa a posição
central (med=x*(N+1)/2).
◦ Se n é par, a mediana toma o valor médio dos dois dados que mais se
aproximam da posição central (med=(x*N/2+x*N/2+1)/2).
7
Mediana (Med)
Med  LI +
−
0.5 − fa

+
−
fa − fa
FREQ. REL. ACUMULADA
No caso de os dados serem contínuos e caracterizados pelas frequências
associadas a diferentes classes, a mediana só pode ser definida de uma
forma aproximada.
1.0
POLÍG. DE FREQ.S ACUMULADAS
fa +
0.5
fa -
0
LI
Md

VARIÁVEL CONTÍNUA
CÉLULA M EDIANA
8
Mediana (Med)
Num histograma, a mediana é abcissa do ponto onde, traçada uma linha
vertical, o gráfico fica dividido em duas partes com áreas iguais:
Nota:
◦ Quando a distribuição é simétrica, a média e a mediana coincidem.
◦ A mediana não é tão sensível como a média às observações que são
muito maiores ou muito menores do que as restantes (outliers).
9
Moda (Mod)
Para um conjunto de dados, define-se moda como sendo o valor, ou a
gama de valores, nos quais a concentração de dados é máxima.
◦ Dados discretos – a moda é o valor que surge com mais frequência (se houver
dois ou mais valores adjacentes para os quais a frequência é máxima a moda é
dada pela média desses valores).
◦ Dados contínuos – a moda é o ponto central da classe com maior frequência
(classe modal) ou do conjunto das classes com maior frequência se estas forem
adjacentes.
◦ Nota: Pode haver mais do que uma moda ou classe modal.
10
Moda (Mod)
FREQUÊNCIA RELATIVA (%)
No caso dos dados serem contínuos a definição de
moda (e a forma de a calcular) pode ser refinada,
tendo em consideração as frequências (absolutas ou
relativas) da classe modal (NMod, fMod) e das classes
que lhe são adjacentes (N1, f1 – classe à esquerda da
classe modal; N2, f2 – classe à direita da classe modal)
40
f 'Mo = 28 %
30
d1 = 7
d2 = 13
20
10
0
297 298
299
300
301
302
303
304
305
306
d1
Mod  LI +

d1 + d2
LI - Limite Inferior da classe modal
 - Amplitude da classe modal
NMOD - Frequência absoluta da classe
modal
N1/N2 - Frequência absoluta da célula
à esquerda/à direita da célula
modal
d1- NMOD–N1
d2 - NMOD–N2
PESO (GRAMAS)
Mo = 299.35 g
11
Média, Mediana e Moda
As posições relativas da média, mediana e moda dependem da forma do
histograma:
Histograma Simétrico Unimodal
Moda  Mediana  Média
Histograma assimétrico à direita
Média
Mediana
Moda
12
Estatísticas de Dispersão
Um aspeto importante no estudo descritivo de um conjunto de dados, é
o da determinação da variabilidade ou dispersão desses dados,
relativamente à medida de localização do centro da amostra.
X
⬧
⬧⬧ ⬧
⬧
⬧ ⬧⬧
⬧
4
11
21
27
40
12
14
⬧⬧
⬧⬧ ⬧⬧ ⬧⬧
14
18
15
19
21
22
24
25
29
30
⬧
30
13
Estatísticas de Dispersão
Como medir a variabilidade presente num conjunto de dados? Existem
diferentes estatísticas:
◦ Amplitude (A)
◦ Intervalo Interquartis (IIQ)
◦ Amplitude Interquartis (AIQ)
◦ Desvio Absoluto Médio (DAM) e Desvio Quadrático Médio (DQM)
◦ Variância (s2) e Desvio Padrão (s)
O cálculo destas estatísticas depende uma vez mais do tipo de dados de que
se dispõe: não agrupados, discretos agrupados ou contínuos agrupados.
14
Amplitude, Intervalo Interquartis e Amplitude
Interquartis
A forma mais elementar de caracterizar a variabilidade dos dados que integram
uma amostra é a Amplitude (A): diferença entre o valor máximo e mínimo dos
dados.
A = (x n )max − (x n )min
A Amplitude tem a desvantagem de ser muito sensível à existência, na amostra,
de observações cujo valor seja muito elevado ou muito baixo em comparação
com a maioria dos valores.
A Amplitude Interquartis (AIQ) não é afetada, de um modo geral, pela existência
de um número pequeno de observações com valores demasiado elevados ou
demasiado baixos. Define-se como sendo a amplitude do Intervalo Interquartis
(IIQ), ou seja, do intervalo cujos extremos são os 1º e 3º quartis.
IIQ  º quartil (Q 1 ) , 3º quartil (Q 3 )
AIQ = Q 3 − Q 1
15
Quartil?
Frequentemente é desejável dividir os dados em quatro partes, cada
parte contendo um quarto, ou 25%, das observações.
25%
25%
Q1
Primeiro
Quartil
ou
Percentil 25%
25%
25%
Q2
Segundo quartil
Q3
Terceiro Quartil
ou
Percentil 50%
ou
Ou
Percentil 75%
Mediana
16
Exemplo
Os dados sobre o número de acidentes, por ano, em determinado
cruzamento são, ordenados de forma crescente:
Nº de acidentes
15
15
15
16
16
16 * 1/4 = 4
1º Quartil = [16+16] / 2= 16
16
16
16
16
17
17
17
17
18
18
19
3º Quartil = [17+17]/2= 17
2º Quartil = [16+16]/2= 16
17
Desvio Absoluto Médio
Obtém-se calculando a média dos desvios absolutos dos dados em
relação à média amostral.
1 N
DAM =   x n − x
N n=1
Dados não agrupados (DNA)
K
1 K '
DAM =  fk  x k − x =
  fk  x k − x
100
k =1
k =1
Dados discretos agrupados (DDA)
K
1 K '
DAM   fk  Mk − x =
  fk  Mk − x
100 k =1
k =1
Dados contínuos agrupados (DCA)
DAM – Medida intuitiva de dispersão, mas… manipulação matemática
complicada!
18
Desvio Quadrático Médio
Obtém-se calculando a média dos quadrados dos desvios dos diferentes
dados em relação à média amostral.
1 N
(DNA)
DQM =   (x n − x )2
N n=1
K
1 K '
DQM =  fk  (x k − x ) =
  fk  (x k − x )2
100 k =1
k =1
K
2
1 K '
DQM   fk  (Mk − x ) =
  fk  (Mk − x )2
100 k =1
k =1
2
(DDA)
(DCA)
DCA - Correção de Sheppard (para evitar a sobrevalorização do DQM)
• Células com a mesma amplitude
• Histogramas unimodais, com forma de sino
2
1 K '
2
2
DQM   fk  (Mk − x ) − =
  fk  (Mk − x ) −
12 100 k =1
12
k =1
K
2
19
Variância e Desvio Padrão
DQM – é a medida adequada para descrever a dispersão de uma
amostra (ou de uma população)
Mas… se se pretenderem fazer inferências para uma população a partir
de uma amostra aleatória limitada é preferível recorrer à variância, s2
Nesta estatística a soma dos desvios quadráticos é dividida por (N-1)
N
1
2
s =
  (x n − x )2
N − 1 n=1
(DNA)
K
N
N
1 K '
2
s =
  fk  (x k − x ) =

  fk  (x k − x )2
N − 1 k =1
N − 1 100 k =1
(DDA)
N K
2 
N  1 K '
2 
2
2
s 
  fk  (Mk − x ) −  =

  fk  (Mk − x ) − 
N − 1  k =1
12  N − 1  100 k =1
12 
(DCA)
2
2
20
Variância e Desvio Padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em
que se exprime não é a mesma do que a dos dados. Assim, para obter
uma medida da variabilidade ou dispersão com as mesmas unidades que
os dados, toma-se a raiz quadrada da variância, obtendo-se o desvio
padrão, s.
Desvio padrão amostral é diferente do desvio absoluto médio amostral.
21
Desvio Padrão
É uma medida que só pode assumir valores não negativos e quanto
maior for, maior será a dispersão dos dados:
◦ o desvio padrão é sempre não negativo e será tanto maior
quanto maior for a variabilidade dos dados.
◦ se s = 0, então não existe variabilidade, isto é, os dados são
todos iguais.
22
Outras Estatísticas
Momentos Amostrais:
◦ Momentos ordinários (em relação à origem) de ordem i – m’i
◦ Momentos centrados (em relação à média) de ordem i – mi
1 N
m =   (x n )i
N n=1
'
i
Momentos
Ordinários
(m = x )
'
1
K
(DNA)
K
1
m'i =  fk  (x k ) =
  fk'  (x k )i
100 k =1
k =1
K
i
1 K '
m   fk  (Mk ) =
  fk  (Mk )i
100 k =1
k =1
'
i
i
(DDA)
(DCA)
• A Média Amostral é o momento ordinário de primeira ordem.
23
Outras Estatísticas
Momentos
Centrados
(m1 = 0 )
(m2 = DQM)
1 N
mi =   (x n − x )i
N n=1
K
1 K '
mi =  fk  (x k − x ) =
  fk  (x k − x )i
100 k =1
k =1
K
i
1 K '
mi   fk  (Mk − x ) =
  fk  (Mk − x )i
100 k =1
k =1
i
(DNA)
(DDA)
(DCA)
• O Desvio Quadrático Médio Amostral é o momento centrado de 2ª ordem.
• Interdependência entre os momentos: qualquer momento centrado de ordem
i pode ser expresso em função dos momentos ordinários de ordem não
superior a i.
• Os momentos podem ser calculados para ordens tão elevadas quanto se deseje
– na prática só se calculam para ordens até 4.
24
Coeficiente de Assimetria
• Momento centrado de 3ª ordem – desvio cúbico médio: mede a
assimetria com que os dados de uma amostra se distribuem em torno
da média amostral.
• Quando se pretende fazer inferência o desvio cúbico médio deve ser
substituído por k3.
• Em vez de se adotar a estatística k3 como medida de assimetria é
preferível padronizá-la, tornando-a adimensional – coeficiente de
assimetria, g1.
k3
N2
g 1 = 3 , com k 3 =
 m3
(N − 1)  (N − 2)
s
O coeficiente de assimetria será nulo,
positivo ou negativo consoante os dados
forem simétricos, assimétricos à direita ou
assimétricos à esquerda, respetivamente.
25
Coeficiente de Kurtose (g2)
k
g 2 = 44
s
, COM k 4

N2
=
 (N + 1)  m4 − 3  (N − 1)  m22
(N − 1)  (N − 2)  (N − 3)
N2  (N + 1)
3  (N − 1)2
=
 m4 −
 s4
(N − 1)  (N − 2)  (N − 3)
(N − 2)  (N − 3)

• Nas amostras com g2 mais elevado existe maior concentração de dados
no centro e nas caudas e menor concentração nas zonas intermédias.
• O valor da kurtose deve ser interpretado tomando como referência a
população normal, cujo g2=0.
26
Representação gráfica de estatísticas
• O objetivo é simplificar a interpretação das
estatísticas calculadas.
• Diagrama mais utilizado: diagrama do tipo caixa
(box plot ou box and wisker plot)
• Existem fundamentalmente 3 características
que nos dão ideia da simetria ou enviesamento
e da sua maior ou menor concentração:
◦ distância entre a linha indicadora da mediana e os lados
do retângulo;
◦ comprimento das linhas que saem dos lados dos
retângulos;
◦ comprimento da caixa.
Valor máximo
Terceiro quartil
Mediana
Primeiro quartil
Valor mínimo
27
Download