TÉCNICAS ESTATÍSTICAS ANO LETIVO 2022/2023 Estatística Descritiva – Cálculo de Estatísticas Estatísticas de localização Estatísticas de dispersão Outras estatísticas Estatísticas As estatísticas são medidas calculadas com base nos dados e a partir das quais é possível descrever globalmente o conjunto de valores que tais dados tomam. Ao calcular estatísticas pretende-se traduzir em números a informação que se apreende a partir da observação de uma tabela de frequências, de um gráfico de barras ou de um histograma. • Estatísticas de localização • Estatísticas de dispersão • Outras estatísticas O cálculo das estatísticas vai depender do tipo de dados de que se dispõe: • dados não agrupados • dados discretos agrupados • dados contínuos agrupados 2 Estatísticas de Localização As medidas de localização servem para localizar o centro da amostra: • Média • Moda • Mediana 3 Média • A média amostral ou simplesmente média, é uma medida de localização do centro da amostra, e obtém-se a partir da seguinte expressão: 1 N x = xn (dados não agrupados) N n =1 onde x1, x2, ..., xn representam os elementos da amostra e N a sua dimensão. • A média goza da seguinte particularidade: (x 1 − x) + (x 2 − x) + ... + (x n − x) = 0 se se calcularem os desvios de todas as observações relativamente à média e se somarem esses desvios o resultado obtido é igual a zero 4 Média • Se os dados são discretos e se encontram agrupados, então o valor da média é dado pela seguinte expressão: K x = fk x k (dados discretos agrupados) k =1 onde K representa o número de classes e fk a frequência relativa da k-ésima classe. • Se os dados são contínuos e se encontram agrupados, então um valor aproximado para a média é dado pela seguinte expressão: K x fk Mk (dados contínuos agrupados) k =1 onde K representa o número de classes, fk a frequência relativa da k-ésima classe e Mk o ponto central da k-ésima classe. Nota: Com dados de tipo qualitativo não tem sentido calcular a média, mesmo que os dados sejam números. 5 Exemplo Observações - nº de acidentes ao longo de 16 semanas: Semana 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Nº de acidentes 16 15 19 16 17 18 15 16 17 16 17 15 16 17 16 18 Nº de acidentes Freq. Simples Freq. Acumulada Absoluta Relativa Absoluta Relativa 15 3 0,1875 3 0,1875 16 6 0,375 9 0,56 17 4 0,25 13 0,81 18 2 0,125 15 0,9375 19 1 0,0625 16 1,00 X = (16 + 15 + 19 + 16 + 17 + 18 + 15 + 16 + 17 + 16 + 17 + 15 + 16 + 17 + 16 + 18 ) / 16 = 16,5 X = (3 15 + 6 16 + 4 17 + 2 18 + 1 19 ) / 16 = 16,5 X = (0,1875 15 + 0,375 16 + 0,25 17 + 0,125 18 + 0,0625 19 ) = 16,5 6 Mediana (Med) A mediana é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo: • Ordenadas as observações da amostra, do menor para o maior valor, a mediana é o valor que a divide ao meio. Isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. Para a sua determinação utiliza-se a seguinte regra: ◦ Se n é ímpar, a mediana toma o valor do dado que ocupa a posição central (med=x*(N+1)/2). ◦ Se n é par, a mediana toma o valor médio dos dois dados que mais se aproximam da posição central (med=(x*N/2+x*N/2+1)/2). 7 Mediana (Med) Med LI + − 0.5 − fa + − fa − fa FREQ. REL. ACUMULADA No caso de os dados serem contínuos e caracterizados pelas frequências associadas a diferentes classes, a mediana só pode ser definida de uma forma aproximada. 1.0 POLÍG. DE FREQ.S ACUMULADAS fa + 0.5 fa - 0 LI Md VARIÁVEL CONTÍNUA CÉLULA M EDIANA 8 Mediana (Med) Num histograma, a mediana é abcissa do ponto onde, traçada uma linha vertical, o gráfico fica dividido em duas partes com áreas iguais: Nota: ◦ Quando a distribuição é simétrica, a média e a mediana coincidem. ◦ A mediana não é tão sensível como a média às observações que são muito maiores ou muito menores do que as restantes (outliers). 9 Moda (Mod) Para um conjunto de dados, define-se moda como sendo o valor, ou a gama de valores, nos quais a concentração de dados é máxima. ◦ Dados discretos – a moda é o valor que surge com mais frequência (se houver dois ou mais valores adjacentes para os quais a frequência é máxima a moda é dada pela média desses valores). ◦ Dados contínuos – a moda é o ponto central da classe com maior frequência (classe modal) ou do conjunto das classes com maior frequência se estas forem adjacentes. ◦ Nota: Pode haver mais do que uma moda ou classe modal. 10 Moda (Mod) FREQUÊNCIA RELATIVA (%) No caso dos dados serem contínuos a definição de moda (e a forma de a calcular) pode ser refinada, tendo em consideração as frequências (absolutas ou relativas) da classe modal (NMod, fMod) e das classes que lhe são adjacentes (N1, f1 – classe à esquerda da classe modal; N2, f2 – classe à direita da classe modal) 40 f 'Mo = 28 % 30 d1 = 7 d2 = 13 20 10 0 297 298 299 300 301 302 303 304 305 306 d1 Mod LI + d1 + d2 LI - Limite Inferior da classe modal - Amplitude da classe modal NMOD - Frequência absoluta da classe modal N1/N2 - Frequência absoluta da célula à esquerda/à direita da célula modal d1- NMOD–N1 d2 - NMOD–N2 PESO (GRAMAS) Mo = 299.35 g 11 Média, Mediana e Moda As posições relativas da média, mediana e moda dependem da forma do histograma: Histograma Simétrico Unimodal Moda Mediana Média Histograma assimétrico à direita Média Mediana Moda 12 Estatísticas de Dispersão Um aspeto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra. X ⬧ ⬧⬧ ⬧ ⬧ ⬧ ⬧⬧ ⬧ 4 11 21 27 40 12 14 ⬧⬧ ⬧⬧ ⬧⬧ ⬧⬧ 14 18 15 19 21 22 24 25 29 30 ⬧ 30 13 Estatísticas de Dispersão Como medir a variabilidade presente num conjunto de dados? Existem diferentes estatísticas: ◦ Amplitude (A) ◦ Intervalo Interquartis (IIQ) ◦ Amplitude Interquartis (AIQ) ◦ Desvio Absoluto Médio (DAM) e Desvio Quadrático Médio (DQM) ◦ Variância (s2) e Desvio Padrão (s) O cálculo destas estatísticas depende uma vez mais do tipo de dados de que se dispõe: não agrupados, discretos agrupados ou contínuos agrupados. 14 Amplitude, Intervalo Interquartis e Amplitude Interquartis A forma mais elementar de caracterizar a variabilidade dos dados que integram uma amostra é a Amplitude (A): diferença entre o valor máximo e mínimo dos dados. A = (x n )max − (x n )min A Amplitude tem a desvantagem de ser muito sensível à existência, na amostra, de observações cujo valor seja muito elevado ou muito baixo em comparação com a maioria dos valores. A Amplitude Interquartis (AIQ) não é afetada, de um modo geral, pela existência de um número pequeno de observações com valores demasiado elevados ou demasiado baixos. Define-se como sendo a amplitude do Intervalo Interquartis (IIQ), ou seja, do intervalo cujos extremos são os 1º e 3º quartis. IIQ º quartil (Q 1 ) , 3º quartil (Q 3 ) AIQ = Q 3 − Q 1 15 Quartil? Frequentemente é desejável dividir os dados em quatro partes, cada parte contendo um quarto, ou 25%, das observações. 25% 25% Q1 Primeiro Quartil ou Percentil 25% 25% 25% Q2 Segundo quartil Q3 Terceiro Quartil ou Percentil 50% ou Ou Percentil 75% Mediana 16 Exemplo Os dados sobre o número de acidentes, por ano, em determinado cruzamento são, ordenados de forma crescente: Nº de acidentes 15 15 15 16 16 16 * 1/4 = 4 1º Quartil = [16+16] / 2= 16 16 16 16 16 17 17 17 17 18 18 19 3º Quartil = [17+17]/2= 17 2º Quartil = [16+16]/2= 16 17 Desvio Absoluto Médio Obtém-se calculando a média dos desvios absolutos dos dados em relação à média amostral. 1 N DAM = x n − x N n=1 Dados não agrupados (DNA) K 1 K ' DAM = fk x k − x = fk x k − x 100 k =1 k =1 Dados discretos agrupados (DDA) K 1 K ' DAM fk Mk − x = fk Mk − x 100 k =1 k =1 Dados contínuos agrupados (DCA) DAM – Medida intuitiva de dispersão, mas… manipulação matemática complicada! 18 Desvio Quadrático Médio Obtém-se calculando a média dos quadrados dos desvios dos diferentes dados em relação à média amostral. 1 N (DNA) DQM = (x n − x )2 N n=1 K 1 K ' DQM = fk (x k − x ) = fk (x k − x )2 100 k =1 k =1 K 2 1 K ' DQM fk (Mk − x ) = fk (Mk − x )2 100 k =1 k =1 2 (DDA) (DCA) DCA - Correção de Sheppard (para evitar a sobrevalorização do DQM) • Células com a mesma amplitude • Histogramas unimodais, com forma de sino 2 1 K ' 2 2 DQM fk (Mk − x ) − = fk (Mk − x ) − 12 100 k =1 12 k =1 K 2 19 Variância e Desvio Padrão DQM – é a medida adequada para descrever a dispersão de uma amostra (ou de uma população) Mas… se se pretenderem fazer inferências para uma população a partir de uma amostra aleatória limitada é preferível recorrer à variância, s2 Nesta estatística a soma dos desvios quadráticos é dividida por (N-1) N 1 2 s = (x n − x )2 N − 1 n=1 (DNA) K N N 1 K ' 2 s = fk (x k − x ) = fk (x k − x )2 N − 1 k =1 N − 1 100 k =1 (DDA) N K 2 N 1 K ' 2 2 2 s fk (Mk − x ) − = fk (Mk − x ) − N − 1 k =1 12 N − 1 100 k =1 12 (DCA) 2 2 20 Variância e Desvio Padrão Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma do que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, toma-se a raiz quadrada da variância, obtendo-se o desvio padrão, s. Desvio padrão amostral é diferente do desvio absoluto médio amostral. 21 Desvio Padrão É uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados: ◦ o desvio padrão é sempre não negativo e será tanto maior quanto maior for a variabilidade dos dados. ◦ se s = 0, então não existe variabilidade, isto é, os dados são todos iguais. 22 Outras Estatísticas Momentos Amostrais: ◦ Momentos ordinários (em relação à origem) de ordem i – m’i ◦ Momentos centrados (em relação à média) de ordem i – mi 1 N m = (x n )i N n=1 ' i Momentos Ordinários (m = x ) ' 1 K (DNA) K 1 m'i = fk (x k ) = fk' (x k )i 100 k =1 k =1 K i 1 K ' m fk (Mk ) = fk (Mk )i 100 k =1 k =1 ' i i (DDA) (DCA) • A Média Amostral é o momento ordinário de primeira ordem. 23 Outras Estatísticas Momentos Centrados (m1 = 0 ) (m2 = DQM) 1 N mi = (x n − x )i N n=1 K 1 K ' mi = fk (x k − x ) = fk (x k − x )i 100 k =1 k =1 K i 1 K ' mi fk (Mk − x ) = fk (Mk − x )i 100 k =1 k =1 i (DNA) (DDA) (DCA) • O Desvio Quadrático Médio Amostral é o momento centrado de 2ª ordem. • Interdependência entre os momentos: qualquer momento centrado de ordem i pode ser expresso em função dos momentos ordinários de ordem não superior a i. • Os momentos podem ser calculados para ordens tão elevadas quanto se deseje – na prática só se calculam para ordens até 4. 24 Coeficiente de Assimetria • Momento centrado de 3ª ordem – desvio cúbico médio: mede a assimetria com que os dados de uma amostra se distribuem em torno da média amostral. • Quando se pretende fazer inferência o desvio cúbico médio deve ser substituído por k3. • Em vez de se adotar a estatística k3 como medida de assimetria é preferível padronizá-la, tornando-a adimensional – coeficiente de assimetria, g1. k3 N2 g 1 = 3 , com k 3 = m3 (N − 1) (N − 2) s O coeficiente de assimetria será nulo, positivo ou negativo consoante os dados forem simétricos, assimétricos à direita ou assimétricos à esquerda, respetivamente. 25 Coeficiente de Kurtose (g2) k g 2 = 44 s , COM k 4 N2 = (N + 1) m4 − 3 (N − 1) m22 (N − 1) (N − 2) (N − 3) N2 (N + 1) 3 (N − 1)2 = m4 − s4 (N − 1) (N − 2) (N − 3) (N − 2) (N − 3) • Nas amostras com g2 mais elevado existe maior concentração de dados no centro e nas caudas e menor concentração nas zonas intermédias. • O valor da kurtose deve ser interpretado tomando como referência a população normal, cujo g2=0. 26 Representação gráfica de estatísticas • O objetivo é simplificar a interpretação das estatísticas calculadas. • Diagrama mais utilizado: diagrama do tipo caixa (box plot ou box and wisker plot) • Existem fundamentalmente 3 características que nos dão ideia da simetria ou enviesamento e da sua maior ou menor concentração: ◦ distância entre a linha indicadora da mediana e os lados do retângulo; ◦ comprimento das linhas que saem dos lados dos retângulos; ◦ comprimento da caixa. Valor máximo Terceiro quartil Mediana Primeiro quartil Valor mínimo 27