Sumário Introdução ......................................................................................................................................................................... 3 Pilares da teoria ............................................................................................................................................................ 3 Amostragem...................................................................................................................................................................... 4 Técnicas de Amostragem .............................................................................................................................................. 5 Estatística Descritiva ......................................................................................................................................................... 6 Ordenação de Dados ..................................................................................................................................................... 7 Medidas de Posição Central ........................................................................................................................................ 10 Medidas de Dispersão ................................................................................................................................................. 12 Dados Agrupados ........................................................................................................................................................ 15 Estatísticas....................................................................................................................................................................... 20 Estimadores................................................................................................................................................................. 21 Distribuições Amostrais .............................................................................................................................................. 25 Estimação de Parâmetros ............................................................................................................................................... 29 Estimação por Ponto ................................................................................................................................................... 29 Estimação por Intervalo de Confiança ........................................................................................................................ 30 Estimação por Intervalo de Confiança para Duas Populações.................................................................................... 40 Teste de Hipótese ........................................................................................................................................................... 48 Teste para a Média Populacional ................................................................................................................................ 50 Teste para a Variância Populacional ........................................................................................................................... 56 Teste para a Proporção Populacional ......................................................................................................................... 58 Teste para Duas Populações ....................................................................................................................................... 59 Anova .............................................................................................................................................................................. 69 Anova com Uma Classificação..................................................................................................................................... 71 Anova com Duas Classificações................................................................................................................................... 81 Anova com Repetições ................................................................................................................................................ 87 Correlação e Regressão ................................................................................................................................................... 95 Correlação Linear ........................................................................................................................................................ 95 Regressão Linear ......................................................................................................................................................... 99 Linearização de Funções ........................................................................................................................................... 107 Análise de Melhoria .................................................................................................................................................. 108 Outros Testes ................................................................................................................................................................ 110 Teste de Tukey e Scheffé .......................................................................................................................................... 110 Teste de Cochran ...................................................................................................................................................... 110 Teste de Aderência ................................................................................................................................................... 111 www.thmestatistica.com educacional@thmestatistica.com 2 Introdução Pilares da teoria Para começarmos, é bom termos uma ideia do que vem pela frente neste curso. Nosso objetivo é, a partir de dados coletados de uma população, poder inferir certos parâmetros e comportamentos da mesma. Chamamos o ramo da estatística que cuida disso de estatística inferencial (ou dedutiva). Para estarmos aptos a utilizá-la, precisamos entender um pouco sobre três grandes assuntos: Teoria de Probabilidades, Estatística Descritiva e Técnicas de Amostragem. Atenção! A Teoria de Probabilidades não será aqui abordada. Em nosso site, você encontra o material gratuito e completo que aborda toda teoria probabilística. Ademais, em nosso canal do YouTube está disponível a playlist Curso de Probabilidade, que dispõe de 30 videoaulas! Seguiremos o estudo estatístico sob a base da Teoria de Probabilidades, então, não avance com dúvidas! www.thmestatistica.com educacional@thmestatistica.com 3 Amostragem Aqui em estatística estamos interessados em inferir características de uma população a partir de uma parte do todo. Na população, essas características se chamam parâmetros. Já na parte do todo, chamada de amostra, os estimadores dos parâmetros são as chamadas estatísticas. Vale frisar que essas estatísticas são variáveis aleatórias. Podemos ter amostragens determinísticas e probabilísticas, a depender do setup da mesma. Nos exercícios de prova, sempre que alguma configuração enviesar seu experimento, ele deixará de ser probabilístico. Por exemplo: o Amostragem Probabilística: sortear um prêmio entre 10 funcionários de uma empresa, com uma urna contendo os nomes; o Amostragem Determinística: sortear um prêmio entre 10 funcionários de uma empresa, com uma urna contendo os nomes, porém os nomes foram colocados em ordem alfabética. Ou seja, ao colocarmos alguma condição que faça com que os elementos não tenham a mesma probabilidade de serem escolhidos, ou possuam alguma dependência, tornamos a amostragem enviesada e, portanto, não probabilística. Dessa forma, definimos amostras probabilísticas como aquelas que resultam de um processo de sorteio onde todos os elementos da população têm chance de participar da amostra, ao passo que esse processo deve ser equiparável e independente. Essas são amostras representativas da população de origem e, portanto, são o objeto de estudo da estatística inferencial. www.thmestatistica.com educacional@thmestatistica.com 4 Técnicas de Amostragem Amostragem Aleatória Simples Corresponde a um sorteio equiparável e independente (análogo a uma loteria). Amostragem Sistemática Consiste em escolher um indivíduo aleatório na população, e posteriormente escolher os próximos a cada enésimo indivíduo. Amostragem Estratificada Consiste em dividir a população em subgrupos (estratos) e, a partir disso, retirar elementos deles. Se levar em conta não só a proporção, como também o desvio padrão, é chamada de estratificada ótima. Amostragem por Conglomerados Consiste em estimar os parâmetros a partir de estatísticas já conhecidas. Como por exemplo, o estudo da renda média da região norte do estado, baseado em estudos existentes de renda de cidades da região. www.thmestatistica.com educacional@thmestatistica.com 5 Estatística Descritiva Esse capítulo, mesmo que relativamente mais simples, é o mais importante em problemas reais, pois através dele podemos descobrir valores importantes como médias, desvios, distribuições e suas formas. Como você pode imaginar, iremos descrever os dados. Para isso, veremos algumas métricas para tendência central e de dispersão, e também organizaremos os dados por meio de diagramas, tabelas e gráficos. Vamos começar analisandos os dados em si. Dentro de um conjunto de dados cada indivíduo da população possui diversas características (variáveis), sendo elas classificadas da seguinte forma: Dessa forma, podemos separar nossas variáveis em dois grupos gerais: as variáveis qualitativas, definidas por categorias ou atributos (por exemplo: bom, regular, ruim, péssimo); e as variáveis quantitativas, definidas por valores numéricos (por exemplo: 10, 8, 6, 4, 2, 0). Essas últimas serão o foco da estatística. As variáveis quantitativas são subdivididas entre variáveis discretas e contínuas. As variáveis discretas são aquelas que assumem valores enumeráveis. Já as variáveis contínuas são aquelas que assumem valores num intervalo da reta real. Podemos ainda lembrar o conceito de variáveis aleatórias. Uma variável aleatória é a função que associa a cada ponto do espaço amostral um número real, pois como os eventos que ocorrem em experimentos aleatórios variam, também variarão os valores numéricos que lhes são associados. Caso haja alguma dúvida remanescente quanto a este conceito, reveja o capítulo a ele dedicado no livro Teoria de Probabilidades. www.thmestatistica.com educacional@thmestatistica.com 6 Ordenação de Dados Suponhamos que nossa variável aleatória retorne a seguinte sequência: ๐๐ : 1, 10, 3, 7, 15, 2, 32, 43, 5, 63, 8, 11 A primeira coisa que devemos fazer é ordenar os dados! Para um exemplo didático, uma ordenação possível é via ordem crescente (dependendo do problema, outros tipos de ordenação podem fazer mais sentido), ficando da seguinte forma: ๐๐ : 1, 2, 3, 5, 8, 10, 11, 15, 32, 43, 63 Como essa sequência possui um número ímpar de elementos (๐ = 11), podemos elencar um elemento que divide a amostra em duas metades com a mesma quantidade de elementos. Esse valor que representa o meio de uma fila ordenada é chamado de mediana de sua distribuição de dados, e que no nosso caso é o valor 10. Em casos de ๐ sendo par, utilizamos a média simples dos dois elementos centrais para descobrir a mediana. Após a ordenação vamos representar os dados. Para esse exemplo, vamos dispersar os valores na reta real: Podemos perceber, via representação, uma certa aglomeração de valores abaixo de 10. Nesse caso, os primeiros 50% dos valores obtidos estão compreendidos na faixa de 0 ๐ 10, enquanto o restante está na faixa de 10 ๐ 65 (aproximadamente). www.thmestatistica.com educacional@thmestatistica.com 7 Da mesma maneira que encontramos uma medida que divide o conjunto de dados em 50%, podemos encontrar uma medida para 25% (que seria a metade da metade). Chamamos isso de quartil. Não veremos aqui, mas podemos fazer isso para qualquer porcentagem de interesse, por exemplo: 10% → ๐ท๐๐๐๐ , … , ๐% → ๐ − ๐๐ข๐๐๐ก๐๐ Os quartis serão abordados para introduzir uma representação chamada box-plot (ou diagrama de caixa). Para o exemplo dado, os quartis saem quase que de maneira direta, pois as metades tem número ímpar de elementos: Até o 1º quartil você tem 25% dos dados, até o 2º quartil, conhecido também como mediana, 50% dos dados, e até o 3º quartil 75% dos dados. Caso o número de elementos das metades seja par, há algumas maneiras de calcular os quartis. Como por exemplo, incluindo a mediana nas metades; excluindo a mediana nas metades ou até com fórmulas com ponderações. Não veremos aqui isso, uma vez que há diferentes maneiras de definir os quartis e nosso foco é na representação dos dados! www.thmestatistica.com educacional@thmestatistica.com 8 Para aproveitar a digressão feita, vamos fazer um breve aprofundamento no conceito de box-plot, a fim de concretizar os conceitos vistos até aqui. Porém, não se preocupe se achar superficial, iremos discorrer esse conceito melhor mais adiante. O box-plot é uma maneira de representar os dados dando ideia de posição central (via ๐๐) e de dispersão. Entre Q1 e Q2 desenhamos uma caixa. Nela estão contidos 50% dos dados. No resto fazemos linhas até as extremidades. Alguns softwares já incluem condições de definição de outliers (valores atípicos da amostra), não veremos isso aqui também. Essa representação nos dá ideia de assimetria, em relação à posição central e espalhamento dos dados. A parte de análise crítica via box-plots, possíveis tendências e comparações será abordada posteriormente. Mesmo que no âmbito da disciplina isso não seja cobrado, guarde no coração essas ferramentas da parte descritiva. Na prática elas são as que costumam resolver boa parte das incertezas iniciais ou qualquer projeto que envolva análise de dados. Ainda se tratando de representação de dados, podemos elencar as tabelas de frequências, histogramas e gráficos de barra e de pizza como representações usuais interessantes, que podem aparecer em problemas práticos. www.thmestatistica.com educacional@thmestatistica.com 9 Medidas de Posição Central As medidas de posição central servem para estimar o valor do meio da sua base de dados. Sendo elas: • Moda (๐ด๐): É o valor que ocorre com maior frequência no seu conjunto de dados. • Mediana (๐ด๐ ): Também conhecida como 2º quartil, é o valor do elemento do centro de uma fila, dividindo os dados pela metade. • ฬ ): É o centro de gravidade de um conjunto de dados. Média (๐ É calculada da seguinte forma, onde ๐ฅ๐ = ๐๐๐๐๐ ๐๐ ๐๐๐๐ ๐ก๐๐ e ๐ = ๐ก๐๐๐๐โ๐ ๐๐ ๐๐๐๐ ๐ก๐๐: ∑ni xi xฬ = n Porém, é importante já explicitarmos a diferença de notação que pode vir a causar dúvidas. Utilizamos ๐ฅฬ para representar a média amostral dos dados, enquanto µ é utilizado para representar a média populacional dos dados (notação usada em probabilidade). Vamos a um exemplo prático de aplicação desse conceito. Considere o seguinte conjunto de dados, já em ordem crescente: ๐๐ : 1, 3, 5, 10, 15, 21, 35, 40, 50, 1.000.000 Note que 1.000.000 é um valor discrepante em relação aos demais. A ele atribuímos o nome outlier. Dito isso, vamos calcular a média e a mediana segundo suas definições: ๐ฅฬ = 1.000.180 15 + 21 = 100.180 ๐ ๐๐ = = 18 10 2 www.thmestatistica.com educacional@thmestatistica.com 10 Nesse caso ๐ฅฬ não representa bem o conjunto de dados, uma vez que não há valores na vizinhança dele. Utilizaremos ๐ฅฬ para a parte inferencial da estatística, porém é bom se atentar para o caso de outliers, ao passo que um valor discrepante não afeta a mediana. Para evitar o problema comentado sobre a vizinhança de ๐ฅฬ deve-se avaliar as medidas de posição e dispersão apenas após de fazer o histograma (gráfico de barras com as frequências em função dos valores da variável aleatória). Por exemplo: Para o exemplo acima, note que os dados provêm de duas populações diferentes com distribuições aproximadamente normais, então seria interessante tratá-las separadamente, cada uma com sua média. Caso contrário, a análise seira mal feita pelo uso não representativo de ๐ฅฬ . www.thmestatistica.com educacional@thmestatistica.com 11 Medidas de Dispersão No estudo das medidas de posição central, percebemos que é necessário sabermos também a dispersão associada ao nosso conjunto de dados. Para isso, existem medidas de dispersão que nos auxiliam nesse contexto. São elas: • Amplitude (๐จ): É a diferença entre o valor máximo e o valor mínimo dos seus dados. ๐ด = ๐ฅ๐á๐ฅ − ๐ฅ๐๐๐ Apesar de dar a ideia de espalhamento dos dados, não é um bom parâmetro devido a existência de outliers, já que podem existir conjuntos com mesma amplitude, porém com um deles acumulando mais elementos perto de um mesmo valor, como indica a imagem abaixo. • Desvio Médio (๐ซ๐ด): É a soma dos desvios (๐๐ ), ponderado pelo número de dados. É calculado pela expressão abaixo, onde ๐๐ = ๐๐๐ ๐ฃ๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐, ๐ = ๐ก๐๐๐๐โ๐ ๐๐ ๐๐๐๐ ๐ก๐๐, ๐ฅ๐ = ๐๐๐๐๐ ๐๐ ๐๐๐๐ ๐ก๐๐ e ๐ฅฬ = ๐é๐๐๐ ๐๐๐ ๐๐๐๐๐ . ∑๐๐ ๐๐ ๐ท๐ = ๐ ๐ก๐๐ ๐๐ข๐ ๐๐ = |๐ฅ๐ − ๐ฅฬ | Não é um parâmetro tão bom de se trabalhar e fazer contas devido ao uso do módulo para o cálculo de cada desvio, por isso damos preferência para a variância. www.thmestatistica.com educacional@thmestatistica.com 12 • Variância Amostral (๐บ๐ ): É a soma dos desvios (๐๐ ) quadráticos, ponderado pelo número de dado menos 1. Pode ser calculada pela expressão abaixo, onde ๐ฅ๐ = ๐๐๐๐๐ ๐๐ ๐๐๐๐ ๐ก๐๐, ๐ฅฬ = ๐é๐๐๐ ๐๐๐ ๐๐๐๐๐ e ๐ = ๐ก๐๐๐๐โ๐ ๐๐ ๐๐๐๐ ๐ก๐๐. ∑๐๐(๐ฅ๐ − ๐ฅฬ )2 ๐ = ๐−1 2 É interessante utilizar uma formula de ๐ 2 alternativa, onde não é necessário o cálculo de ๐ฅฬ , e é mais utilizada na prática. ๐2 = (∑๐๐ ๐ฅ๐ )2 ๐ ๐−1 ∑๐๐ ๐ฅ๐ 2 − Para um mesmo conjunto de dados, note a relação entre a variância amostral e o desvio médio: Assim como a média, a variância pode vir a causar dúvidas quanto a sua notação. Porém o raciocínio é análogo ao visto para o conceito de média. Utilizamos ๐² para representar a variância amostral dos dados, enquanto ๐ 2 é usado para representar a variância populacional dos dados. Essa última, vista no estudo de probabilidades, tem fórmula parecida com a variância amostral, ao passo que difere apenas no denominador ๐. Percebe-se que a unidade da variância vai estar elevado ao quadrado da unidade que você estiver trabalhando, o que não faz muito sentido para uma análise, e para isso existe o desvio padrão. www.thmestatistica.com educacional@thmestatistica.com 13 • Desvio Padrão Amostral (๐บ): É a raiz da variância. ๐ = √๐ 2 Trabalhar com a unidade original do que se está medindo pode vir a ser vantajoso, para isso, utilizamos o desvio padrão amostral. Porém, cuidado! O desvio padrão deve ser calculado sempre como consequência da raiz da variância. Não é para se fazer operações utilizando o desvio padrão. Vamos sempre calcular a variância e, posteriormente, o desvio padrão, a partir da operação de raiz quadrada. Para o desvio padrão populacional (๐) a ideia é a mesma. • Coeficiente de Variação (๐ช๐ฝ): É o desvio padrão ponderado pela média, dado em porcentagem. ๐ ๐ถ๐ = 100 ( ) ๐ฅฬ É um parâmetro interessante por ser adimensional e dar uma ideia do quanto seus dados variam em relação a sua média. • Distância Interquartil (๐ซ๐ฐ๐ธ): É a diferença entre o terceiro quartil (Q3 ) e o primeiro quartil (Q1 ). Graficamente, podemos visualizar como sendo o tamanho da caixa do box-plot, que representa a amplitude entre 50% dos dados. ๐ท๐ผ๐ = ๐3 − ๐1 www.thmestatistica.com educacional@thmestatistica.com 14 Dados Agrupados Veremos agora como definir essas medidas em dados agrupados. Assim, a partir de tabelas de frequência chegaremos em ๐ฅฬ , ๐ 2 , ๐๐ ๐ ๐๐. E para cada uma dessas grandezas, iremos explorar tanto o caso discreto quanto o caso contínuo. • ฬ ) e Variância (๐บ๐ ): Média (๐ o Variável Discreta: Considere a tabela de frequências abaixo. ๐๐ ๐๐ 0 5 1 8 2 15 3 13 4 6 Calculamos a média e a variância segundo a definição vista anteriormente, tal que: xฬ = ∑n i xi n = ∑๐ ๐ ๐ฅ๐ ๐ ๐ ∑๐ ๐ ๐๐ e ๐2 = 2 ∑๐ ๐ ๐ฅ๐ (∑๐ ๐ฅ )2 − ๐๐๐ ๐−1 2 ∑๐ ๐ ๐ฅ๐ ๐ ๐ − = 2 (∑๐ ๐ ๐ฅ๐ ๐๐ ) ∑๐ ๐๐ ๐ ∑๐ ๐ ๐๐ −1 Eu sei que podem parecer fórmulas assustadoras, mas vamos explorar o problema com calma! Vamos, então, alongar nossa tabela, considerando operações interessantes no cálculo das grandezas requisitadas, tal que: ๐๐ ๐๐ ๐๐ ๐๐ ๐๐ ๐ ๐๐ 0 5 0 0 1 8 8 8 2 15 30 60 3 13 39 117 4 6 24 96 ∑ ๐๐ = 47 ∑ ๐ฅ๐ ๐๐ = 101 ∑ ๐ฅ๐ 2 ๐๐ = 281 Assim, a média e a variância podem ser dimensionadas de maneira mais prática: ๐ฅฬ = 101 47 = 2,149 e ๐ 2 = www.thmestatistica.com 281− (101)2 47 46 = 1,390 educacional@thmestatistica.com 15 o Variável Contínua: Considere a tabela de frequências abaixo. ๐ฐ๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐๐๐๐๐๐ ๐๐ 0 ๐ 10 5 10 ๐ 20 8 20 ๐ 30 13 30 ๐ 40 8 40 ๐ 50 2 Para esse caso, definiremos arbitrariamente ๐ฅ๐ como o valor do meio do intervalo, assim teremos uma tabela semelhante à de variáveis discretas. ๐ฐ๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐๐๐๐๐๐ ๐๐ ๐๐ ๐๐ ๐๐ ๐๐ ๐ ๐๐ 0 ๐ 10 5 5 25 125 10 ๐ 20 8 15 120 1800 20 ๐ 30 13 25 325 8125 30 ๐ 40 8 35 280 9800 40 ๐ 50 2 45 90 4050 ∑ ๐ฅ๐ ๐๐ = 840 ∑ ๐ฅ๐ 2 ๐๐ = 23900 ∑ ๐๐ = 36 Assim, a média e a variância podem ser dimensionadas como vimos para o caso discreto: 840 ๐ฅฬ = 36 ๐ ๐2 = 23900 − (840)2 36 35 ๐ฅฬ = 23,33 ๐ ๐ 2 = 122,85 www.thmestatistica.com educacional@thmestatistica.com 16 • Mediana (๐ด๐ ): o Variável Discreta: Considere a tabela de frequências abaixo. ๐๐ ๐๐ 0 7 1 15 2 20 3 6 4 2 5 1 ∑ ๐๐ = 51 Com ๐ = 51, ๐๐ é o 26º termo. Para identificarmos ele, iremos construir uma terceira coluna com as frequências acumuladas. ๐๐ ๐๐ ๐ญ๐๐๐๐ 0 7 7 1 15 22 2 20 42 3 6 48 4 2 50 5 1 51 ∑ ๐๐ = 51 ∑ ๐น๐๐๐ข๐ = 51 A partir da frequência acumulada, podemos perceber que que o 26º termo está em ๐ฅ๐ = 2. Logo, ๐๐ = 2. www.thmestatistica.com educacional@thmestatistica.com 17 o Variável Contínua: Nesse caso, plotamos um gráfico com os valores de ๐น๐๐๐ข๐ por ๐ฅ, supondo arbitrariamente crescimento linear. ๐ฐ๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐๐๐๐๐๐ ๐๐ ๐ญ๐๐๐๐ 0 ๐ 10 7 7 10 ๐ 20 15 22 20 ๐ 30 20 42 30 ๐ 40 6 48 40 ๐ 50 2 50 50 ๐ 60 1 51 ∑ ๐๐ = 51 ∑ ๐น๐๐๐ข๐ = 51 Com o gráfico feito, para variável contínua, pegamos o valor em ๐ฅ para que: ๐น๐๐๐ข๐ = ๐ 51 = = 25,5 2 2 ๐๐ = 25,5 Em variáveis discretas pegamos o termo central, aqui o valor correspondente à metade da frequência total. www.thmestatistica.com educacional@thmestatistica.com 18 • Moda (๐ด๐): o Variável Discreta: Para uma tabela de frequências, o resultado sai direto, pois é apenas o termo com maior frequência. ๐๐ ๐๐ 0 7 1 18 2 23 3 15 4 2 5 1 Assim, concluímos que ๐๐ = 2. o Variável Contínua: Nesse caso a moda estará, por convenção, dentro da classe modal. Não é o valor do meio da classe! ๐ฐ๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐๐๐๐๐๐ ๐๐ 0 ๐ 10 7 10 ๐ 20 18 20 ๐ 30 23 30 ๐ 40 15 40 ๐ 50 2 50 ๐ 60 1 Assim, concluímos que ๐ถ๐๐๐ ๐ ๐ ๐๐๐๐๐ = 20 ๐ 30. Podemos visualizar essa relação segundo o histograma abaixo. Isso não equivale a pegar o valor do meio do intervalo. Deve haver a ponderação das frequências da classe modal com a anterior e a próxima. www.thmestatistica.com educacional@thmestatistica.com 19 Estatísticas Veremos agora o estudo acerca de estimadores. Para isso, vamos começar entendendo a diferença entre um parâmetro, um estimador e uma estimativa. Parâmetros são genéricos, isto é, são dados de uma população ou de uma amostra. Já os estimadores se referem a parâmetros amostrais, os quais são utilizados como aproximação de um parâmetro populacional, como por exemplo, ๐ฅฬ é um estimador para ๐. Por fim, estimativas são os valores assumidos por um estimador, como por exemplo, se em nossa amostra a média amostral resultou um valor de 10, então esse valor é uma estimativa para a média populacional. www.thmestatistica.com educacional@thmestatistica.com 20 Estimadores Vamos, então, ver quais critérios os estimadores que usamos em estatística devem cumprir para serem os melhores estimadores dos parâmetros. Por exemplo, justificaremos o uso da média amostral (๐ฅฬ ) para estimar µ e não, por exemplo, a amplitude dividida por 2 (A⁄2) para estimar esse parâmetro. Imaginemos um parâmetro θ. Seu estimador é representado por θฬ (a notação chapéu é usada para indicar o estimador de um parâmetro) e deve atender os seguintes critérios: • Justeza: Dizemos que ๐ฬ é estimador justo de ๐, se a média do estimador for igual ao valor do parâmetro, isto é: ๐(๐ฬ) = ๐ Por exemplo, vamos ver se ๐ฅฬ é um estimador justo de µ: ∑๐๐ ๐ฅ๐ ๐ฅฬ = ๐ ๐ ๐๐๐๐ก๐๐๐ก๐ ๐ฅฬ = ๐ฅ1 + ๐ฅ2 + ๐ฅ3 + โฏ + ๐ฅ๐ ๐ Assim: ๐ฅ1 + ๐ฅ2 + ๐ฅ3 + โฏ + ๐ฅ๐ ) ๐(๐ฅฬ ) = ๐ ( ๐ ๐(๐ฅฬ ) = ๐(๐ฅฬ ) = 1 ๐(๐ฅ1 + ๐ฅ2 + ๐ฅ3 + โฏ + ๐ฅ๐ ) ๐ 1 [ ๐(๐ฅ1 ) + ๐(๐ฅ2 ) + ๐(๐ฅ3 ) + โฏ + ๐(๐ฅ๐ ) ] ๐ ๐(๐ฅฬ ) = 1 . ๐ . ๐(๐ฅ) ๐ ๐(๐ฅฬ ) = ๐(๐ฅ) www.thmestatistica.com ∴ ๐ฝ๐ข๐ ๐ก๐! educacional@thmestatistica.com 21 • Consistência: Dizemos que ๐ฬ é um estimador consistente de ๐, se: lim ๐ 2 (๐ฬ) = 0 ๐ → +∞ Por exemplo, vamos ver se ๐ฅฬ é um estimador consistente de µ: ๐ฅฬ = ∑๐๐ ๐ฅ๐ ๐ ๐ ๐๐๐๐ก๐๐๐ก๐ ๐ฅฬ = ๐ฅ1 + ๐ฅ2 + ๐ฅ3 + โฏ + ๐ฅ๐ ๐ Assim: ๐ 2 (๐ฅฬ ) = ๐ 2 [ ๐ 2 (๐ฅฬ ) = ๐ฅ1 + ๐ฅ2 + ๐ฅ3 + โฏ + ๐ฅ๐ ] ๐ 1 [ ๐ 2 (๐ฅ1 ) + ๐ 2 (๐ฅ2 ) + ๐ 2 (๐ฅ3 ) + โฏ + ๐ 2 (๐ฅ๐ ) ] 2 ๐ ๐ 2 (๐ฅฬ ) = 1 2 ๐ (๐ฅ) ๐ O que implica: lim ๐ 2 (๐ฅฬ ) = 0 ๐ → +∞ ∴ www.thmestatistica.com ๐ถ๐๐๐ ๐๐ ๐ก๐๐๐ก๐ ! educacional@thmestatistica.com 22 • Eficiência: No caso de dois estimadores (ambos justos e consistentes) para o mesmo parâmetro, o estimador com menor desvio padrão (๐(๐ฬ)), para um mesmo ๐, será o mais eficiente. Veja a tabela e a imagem que explicita essa relação entre dois estimadores. ๐๐๐๐๐ ๐๐๐๐๐๐๐๐ก๐ ๐๐๐๐ ๐๐๐๐๐๐๐๐ก๐ ๐ธ๐๐ฃ๐๐๐ ๐๐๐๐ ๐ฐ ๐ฐ๐ฐ ๐ฝ๐ข๐ ๐ก๐๐ ๐ฐ๐ฐ๐ฐ ๐ฐ๐ฝ ๐ธ๐ ๐ก๐๐๐๐๐๐๐๐ www.thmestatistica.com educacional@thmestatistica.com 23 Exercício 1: Verifique qual o melhor estimador de ๐(๐ฅ): ๐ฅ๐ : ๐ฅ1 , ๐ฅ2 , ๐ฅ3 , ๐ฅ4 , ๐ฅ5 ๐ผ. ๐ฬ1 = ๐ฅ1 ๐ผ๐ผ. ๐ฬ2 = 1 (๐ฅ + ๐ฅ5 ) 2 1 ๐ผ๐ผ๐ผ. ๐ฬ3 = 1 (๐ฅ + ๐ฅ2 + ๐ฅ3 + ๐ฅ4 + ๐ฅ5 ) 5 1 ๐ผ๐. ๐ฬ4 = 1 (๐ฅ + 2๐ฅ5 ) 2 1 Resolução: Justeza ๐ผ. ๐(๐ฬ1 ) = ๐(๐ฅ1 ) = ๐(๐ฅ) ∴ ๐ฝ๐ข๐ ๐ก๐ 1 1 1 ๐ผ๐ผ. ๐(๐ฬ2 ) = ๐ ( (๐ฅ1 + ๐ฅ5 )) = ๐(๐ฅ1 + ๐ฅ5 ) = . 2 . ๐(๐ฅ) = ๐(๐ฅ) ∴ ๐ฝ๐ข๐ ๐ก๐ 2 2 2 1 1 ๐ผ๐ผ๐ผ. ๐(๐ฬ3 ) = ๐ ( (๐ฅ1 + ๐ฅ2 + ๐ฅ3 + ๐ฅ4 + ๐ฅ5 )) = . 5 . ๐(๐ฅ) = ๐(๐ฅ) ∴ ๐ฝ๐ข๐ ๐ก๐ 5 5 1 1 1 3 [ ๐(๐ฅ) + 2๐(๐ฅ) ] = โฏ = ๐(๐ฅ) ∴ ๐ã๐ ๐๐ข๐ ๐ก๐ ๐ผ๐. ๐(๐ฬ4 ) = ๐ ( (๐ฅ1 + 2๐ฅ5 )) = ๐(๐ฅ1 + 2๐ฅ5 ) = 2 2 2 2 Consistência ๐ผ. ๐ 2 (๐ฬ1 ) = ๐ 2 (๐ฅ1 ) = ๐ 2 (๐ฅ) 1 1 2 1 2 ๐ผ๐ผ. ๐ 2 (๐ฬ2 ) = ๐ 2 ( (๐ฅ1 + ๐ฅ5 )) = ๐ 2 (๐ฅ1 + ๐ฅ5 ) = ๐ 2 (๐ฅ) = โฏ = ๐ (๐ฅ) 2 4 4 2 1 1 ๐ผ๐ผ๐ผ. ๐ 2 (๐ฬ3 ) = ๐ 2 ( (๐ฅ1 + ๐ฅ2 + ๐ฅ3 + ๐ฅ4 + ๐ฅ5 )) = ๐ 2 (๐ฅ) 5 5 ฬ ๐ , sendo ele o melhor estimador O estimador, dentre os justos, com menor desvio padrão foi ๐ฝ de ๐(๐ฅ), dentre os fornecidos. www.thmestatistica.com educacional@thmestatistica.com 24 Distribuições Amostrais Após estudarmos os critérios relacionados à escolha de estimadores, vamos nos aprofundar agora em como as estatísticas se distribuem, ou seja, qual é a cara da função densidade de probabilidade dos principais estimadores, assim como suas respectivas médias e variâncias. Vale lembrar que a ๐. ๐. ๐. é aquela na qual sua integral definida em um intervalo da variável ๐ retorna a probabilidade associada a esse evento, como indica a imagem abaixo. www.thmestatistica.com educacional@thmestatistica.com 25 • ฬ : Distribuição de ๐ A média amostral possui uma distribuição normal. E, para definirmos uma distribuição desse tipo, precisamos de ๐(๐ฅฬ ) e ๐ 2 (๐ฅฬ ). Nesse caso, já havíamos calculado: ๐(๐ฅฬ ) = ๐(๐ฅ) ๐ 2 (๐ฅฬ ) = ๐ 2 (๐ฅ) ๐ Se a amostragem é sem reposição e a população é infinita, então: ๐ 2 (๐ฅฬ ) = ๐ 2 (๐ฅ) ๐ .( ๐−๐ ๐−1 ) , com ๐ = ๐ú๐๐๐๐ ๐๐ ๐๐ฅ๐ก๐๐çõ๐๐ e ๐ = ๐ก๐๐๐๐โ๐ ๐๐ ๐๐๐๐ข๐๐çã๐. • ฬ: Distribuição de ๐ A proporção possui distribuição binomial. Sua média e variância, calculadas a partir de sua definição, são dadas por: ๐(๐ฬ ) = ๐ ๐ 2 (๐ฬ ) = ๐(1 − ๐) ๐ Quando ๐๐ > 5 ๐ ๐(1 − ๐) > 5, a distribuição binomial se aproxima de uma distribuição normal. Validade essa demonstrada a partir do Teorema do Limite Central. Essa aproximação pode ser otimizada através do conceito de Correção de Continuidade, o qual não será abordado por aqui. www.thmestatistica.com educacional@thmestatistica.com 26 • Distribuição de ๐บ² : Reescreveremos ๐ 2 de maneira conveniente para enxergarmos sua distribuição: ๐2 = ∑๐๐(๐ฅ๐ − ๐ฅฬ )2 ๐−1 ๐2 = → ๐ ๐ 2 ∑๐๐(๐ฅ๐ − ๐ฅฬ )2 ๐2 ๐−1 ๐ ๐2 ๐ฅ๐ − ๐ฅฬ 2 ๐ = ∑[ ] ๐−1 ๐ 2 → ๐ ๐2 ๐ = ∑ ๐ง๐ 2 ๐−1 2 ๐ Como ๐ 2 e (๐ – 1) são constantes, ๐ 2 tem distribuição qui-quadrado multiplicada pelo escalar ๐2 . A distribuição qui-quadrado (๐๐ ) é calculada como uma soma de variáveis normais ๐−1 padrão ao quadrado, e depende do número de graus de liberdade (๐). ๐(๐๐2 ) = ๐ ๐ ๐2 (๐๐2 ) = 2๐ www.thmestatistica.com educacional@thmestatistica.com 27 Assim, temos que: ๐ 2 ๐2 = ๐2 ๐ − 1 ๐−1 Vamos checar a justeza e a consistência de ๐ 2 . Sua justeza é dada por: ๐(๐ 2 ) = ๐ [ ๐(๐ 2 ) = ๐2 2 ๐ ] ๐ − 1 ๐−1 ๐2 ๐ ๐−1 ๐(๐ 2 ) = → ๐(๐ 2 ) = → ๐2 2 ) ๐(๐๐−1 ๐−1 ๐2 (๐ − 1) (๐ − 1) ๐(๐ 2 ) = ๐ 2 Já sua consistência é dada por: ๐2 ๐ 2 (๐ 2 ) = ๐ 2 [ ๐2 ] ๐ − 1 ๐−1 ๐ 2 (๐ 2 ) → ๐ 2 (๐ 2 ) = ๐4 2 ) ๐ 2 (๐๐−1 (๐ − 1)2 ๐4 ๐4 (2๐) [2(๐ − 1)] = = โฏ= (๐ − 1)2 (๐ − 1)2 ๐ 2 (๐ 2 ) = www.thmestatistica.com 2๐ 4 ๐−1 educacional@thmestatistica.com 28 Estimação de Parâmetros Para nos ajudar na inferência de dados, os parâmetros da população são necessários. Porém, em muitos casos, esses parâmetros são desconhecidos e, assim, precisamos estimá-los a partir das estatísticas fornecidas pelas amostras. Veremos aqui duas maneiras de estimar parâmetros a partir dos estimadores selecionados: a estimação por ponto e a estimação por intervalo de confiança. Estimação por Ponto Essa estimação consiste em substituir/utilizar o valor obtido de um estimador justo, isto é, a estimativa, no lugar do parâmetro. Portanto: ๐ธ๐ ๐ก๐๐๐ ๐ฅฬ → ๐ธ๐ ๐ก๐๐๐ ๐2 → ๐(๐ฅ) ๐ 2 (๐ฅ) ๐ธ๐ ๐ก๐๐๐ ๐ฬ → www.thmestatistica.com ๐ educacional@thmestatistica.com 29 Estimação por Intervalo de Confiança Apesar de prática, a estimação por ponto está sempre associada a um certo erro, visto que, embora próximas, as estimativas são diferentes do valor do parâmetro. Assim, para termos uma ideia melhor acerca do erro de estimação, construímos um intervalo de confiança em torno da estimativa, ou seja, a ideia é definir um intervalo que contenha o parâmetro desejado com uma confiança associada. Todo intervalo de confiança conta com dois parâmetros importantes, são eles: ๐ผ = ๐ ๐๐๐๐๐๐๐â๐๐๐๐ & 1 − ๐ผ = ๐๐๐๐๐๐๐ç๐ Dessa forma, vamos agora estudar os métodos de determinação dos intervalos de confiança para cada parâmetro sob determinadas condições. www.thmestatistica.com educacional@thmestatistica.com 30 Intervalo de Confiança para a Média Populacional ๐ • Com desvio padrão ๐ conhecido: Dada a significância de ๐ผ% e a semi-amplitude ๐0 do intervalo de confiança temos que: ฬ − ๐๐ ≤ ๐ ≤ ๐ ฬ + ๐๐ ) = ๐ − ๐ถ ๐(๐ Portanto, podemos dizer que o intervalo ๐ฅฬ − ๐๐ ≤ ๐ ≤ ๐ฅฬ + ๐๐ contém ๐, com (1 − ๐ผ)% de confiança. Para descobrirmos ๐๐ vamos associar um ponto (por exemplo (๐ + ๐๐ )) com um ponto da normal padrão: www.thmestatistica.com educacional@thmestatistica.com 31 Para transformar o ponto em ๐ฅฬ para normal padrão ๐๐ , devemos subtrair a média de ๐ฅฬ e dividir o valor pelo desvio de ๐ฅฬ : ๐๐ผ = 2 (๐ + ๐๐ ) − ๐(๐ฅฬ ) ๐(๐ฅฬ ) ๐๐ผ = 2 (๐ + ๐๐ ) − ๐ ๐ ⁄ ๐ √ ๐๐ = ๐๐ผ 2 ๐ √๐ Dessa forma, o intervalo de (1 − ๐ผ)% de confiança de ๐, é: ฬ − ๐๐ถ ๐ ๐ ๐ √๐ ฬ + ๐๐ถ ≤ ๐ ≤ ๐ ๐ ๐ √๐ Até aqui, já conhecemos as principais técnicas de amostragem e sabemos estimar a média populacional. Assim, podemos nos aprofundar em como determinar o número de elementos de uma amostra para uma determinada especificação. Por exemplo, seja uma pesquisa que busca obter o parâmetro média populacional sob um determinado contexto, com uma precisão de ๐0 e confiança (1 − ๐ผ)% . Podemos determinar o tamanho necessário da amostra para cumprir os requisitos, com base nos conceitos já vistos. ๐๐ผ 2 O intervalo de confiança para ๐ é dado por P(๐ฅฬ − ๐๐ ≤ ๐ ≤ ๐ฅฬ + ๐๐ ) = 1 − ๐ผ, onde ๐๐ = . Assim, se isolarmos ๐, temos: ๐ ๐ √ ๐๐ = ๐๐ผ 2 ๐ √๐ 2 ๐๐ผ ๐ ๐= ( 2 ๐๐ ) Tamanho da amostra www.thmestatistica.com educacional@thmestatistica.com 32 Exercício 2: Uma amostra de 25 elementos uma população, cujo desvio padrão de altura é 10 ๐๐, apresentou altura média de 1,63 ๐. Estime a altura média desta população através de um intervalo com 95% de confiança. Resolução: Do enunciado, temos: ๐ = 25; ๐ = 10. 10−2 ๐; ๐ฅฬ = 1,63 ๐ (1 − ๐ผ) = 0,95 ๐ผ = 0,05 ๐ผ = 0,025 2 ๐2,5% = 1,96 Portanto: ๐ฅฬ − ๐๐ ≤ ๐ ≤ ๐ฅฬ + ๐๐ 1,63 − 1,96 (0,1) √25 ≤ ๐(๐ฅ) ≤ 1,63 + 1,96 (0,1) √25 ๐, ๐๐ ≤ ๐(๐) ≤ ๐, ๐๐ O intervalo é variável aleatória. Pegando outra amostra o parâmetro ๐ continua fixo, o intervalo muda. Este intervalo contém certeza/confiança/probabilidade. a altura média www.thmestatistica.com da população com 95% de educacional@thmestatistica.com 33 Exercício 3: Dimensione o tamanho da amostra necessária para estimar a média de uma população cujo desvio padrão é 5 com 95% de confiança e precisão de 0,5. Resolução: Basta fazermos: ๐๐ = ๐๐ผ 2 ๐ √๐ 2 ๐๐ผ ๐ ๐= ( 2 ๐๐ ) Como 95% de confiança implica ๐2,5% , tal que ๐2,5% = 1,96, temos: 1,96 . 5 2 ) ๐= ( 0,5 ๐ = 384,16 Em casos que o valor não sai um número inteiro, sempre arredonde para cima, para assim o tamanho da amostra não implicar em um erro menor do que o proposto. Então, nossa resposta será: ๐ = ๐๐๐ www.thmestatistica.com educacional@thmestatistica.com 34 • Com desvio padrão ๐ desconhecido: Podemos estimar pontualmente ๐(๐ฅ) por ๐ 2 , porém ao fazermos isso alteramos a distribuição resultante, uma vez que ๐ é assintoticamente justo. Por causa desse comportamento, quanto maior o tamanho da amostra ๐, menor será o efeito causado na distribuição. Ao fazermos ๐ → ๐, a distribuição de ๐ฅฬ deixa de ser normal e se torna tStudent com (๐ − 1) graus de liberdade, calculada por: ๐ฅฬ − ๐ ๐ √๐ ๐ก๐ฃ = ๐ก๐−1 = Dessa forma, o intervalo de confiança com (1 − ๐ผ)% de confiança para ๐, fica: ๐บ ๐บ ฬ − ๐๐−๐; ๐ถ ฬ + ๐๐−๐; ๐ถ ๐ ≤ ๐ ≤ ๐ ๐ √๐ ๐ √๐ Dessa forma, o dimensionamento também muda: ๐= ( ๐ก๐−1;๐ผ ๐ 2 ๐๐ www.thmestatistica.com 2 ) educacional@thmestatistica.com 35 Intervalo de Confiança para a Proporção Populacional ๐ Como ๐ฬ tem distribuição normal, a dedução é similar à de ๐ฅฬ , porém conhecemos o desvio padrão ๐ = ๐(1 − ๐). Sim, vimos que a distribuição é binomial, mas lembre-se das condições que a aproximam de uma normal! Para uma confiança de (1 − ๐ผ)%, o intervalo que contém o parâmetro ๐, é dado por: ๐ฬ − ๐๐ผ √ 2 ๐(1 − ๐) ๐(1 − ๐) ≤ ๐ ≤ ๐ฬ + ๐๐ผ √ ๐ ๐ 2 Note que o parâmetro aparece nas extremidades da inequação. Dessa forma, não conseguiremos resolver nossa estimação. Para tanto, vamos utilizar nas extremidades a estimação pontual, uma vez que ๐ฬ é justo, ficando com o seguinte intervalo: ฬ − ๐๐ถ √ ๐ ๐ ฬ(๐ − ๐ ฬ) ฬ(๐ − ๐ ฬ) ๐ ๐ ฬ + ๐๐ถ √ ≤ ๐ ≤ ๐ ๐ ๐ ๐ www.thmestatistica.com educacional@thmestatistica.com 36 Exercício 4: Uma moeda foi lançada 150 vezes e apresentou 90 resultados cara. (a) Determine o intervalo com 90% de confiança para a probabilidade de dar cara. (b) Com base no resultado encontrado, pode-se afirmar que a moeda é honesta? Resolução: Do enunciado, temos: ๐ = 150 ๐ฬ = 90 = 0,6 ๐ (1 − ๐ฬ ) = 0,4 150 Obtemos também: (1 − ๐ผ) = 0,9 ๐ผ = 0,10 ๐ผ = 0,05 2 ๐5% = 1,64 Portanto: ๐ฬ − ๐๐ผ √ 2 0,6 − 1,64√ ๐ฬ (1 − ๐ฬ ) ๐ฬ (1 − ๐ฬ ) ≤ ๐ ≤ ๐ฬ + ๐๐ผ √ ๐ ๐ 2 (0,6)(0,4) (0,6)(0,4) ≤ ๐ ≤ 0,6 + 1,64√ 150 150 0,53 ≤ ๐ ≤ 0,67 (a) Este intervalo de 56% ๐ 64% contém a probabilidade de dar cara com 90% de confiança. (b) Como 50% está fora do intervalo encontrado, pode-se afirmar que a moeda não é honesta com 90% de confiança. www.thmestatistica.com educacional@thmestatistica.com 37 Intervalo de Confiança para a Variância Populacional ๐๐ Dado significância de ๐ผ%, temos que: ๐(๐บ๐๐ ≤ ๐บ๐ ≤ ๐บ๐๐ ) = ๐ − ๐ถ Como ๐ 2 = ๐2 ๐−1 ๐2๐−1 , temos que: ๐2 ๐2 2 2 ๐๐−1; ๐ผ ≤ ๐ ≤ ๐2๐−1; ๐−1 ๐−1 2 ๐ผ 1− 2 E através de manipulações algébricas podemos chegar no seguinte intervalo para ๐ 2 : (๐ − ๐) ๐บ๐ ๐๐๐−๐; ๐−๐ถ ≤ ๐๐ ≤ ๐ (๐ − ๐) ๐บ๐ ๐๐๐−๐; ๐ถ ๐ Como a distribuição qui-quadrado não é simétrica, temos 2 valores para pegar na tabela da ๐ 2 ๐ . www.thmestatistica.com educacional@thmestatistica.com 38 Exercício 5: Determine o intervalo de 95% de confiança para a variância de uma população normal cuja amostra colhida foi: ๐ฅ1 = 110 ; ๐ฅ2 = 105 ; ๐ฅ3 = 114 ; ๐ฅ4 = 118 ; ๐ฅ5 = 102 ; ๐ฅ6 = 103 Resolução: Comecemos com o cálculo da média amostral: xฬ = ∑6i=1 xi 6 xฬ = 108,6 Dessa forma, a variância amostral é dada por: ∑6๐=1(๐ฅ๐ − 108,6)2 ๐ = 6−1 2 ๐ 2 = 41,47 Com ๐ = 5 graus de confiança, temos então: ๐5;2 97,5% = 0,832 ๐ ๐5;2 2,5% = 12,833 O intervalo com 95% de confiança fica: (๐ − 1) ๐ 2 (๐ − 1) ๐ 2 2 ≤ ๐ ≤ 2 ๐ 2 ๐−1; ๐ผ ๐ ๐−1; 1−๐ผ 2 2 5. (41,47) 5. (41,47) ≤ ๐2 ≤ 12,833 0,832 ๐๐, ๐ ≤ ๐๐ ≤ ๐๐๐, ๐ Para teste de hipótese ou I.C. envolvendo desvio padrão (๐), é necessário fazer o teste para a variância (๐ 2 ), e somente ao final extrair a raiz do resultado. Isso porque S não é estimador justo de ๐, portanto só podemos trabalhar com ๐ 2 . www.thmestatistica.com educacional@thmestatistica.com 39 Estimação por Intervalo de Confiança para Duas Populações Intervalo de Confiança para a Média Populacional (๐๐ − ๐๐ ) • Com desvios ๐๐ e ๐๐ conhecidos: O intervalo de confiança para média ๐ era: ๐ฅฬ ± ๐๐ผ ๐(๐ฅ) 2 √๐ Agora ๐(๐ฅฬ ) é calculado da seguinte forma: ๐ 2 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = ๐ 2 (๐ฅฬ ๐ด ) + ๐ 2 (๐ฅฬ ๐ต ) ๐²(๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = ๐๐ด2 (๐ฅ) ๐๐ต2 (๐ฅ) + ๐๐ด ๐๐ต ๐(๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = √ ๐๐ด2 (๐ฅ) ๐๐ต2 (๐ฅ) + ๐๐ด ๐๐ต Portanto, o intervalo de confiança para as duas populações será: (๐ ฬ ๐จ − ๐ ฬ ๐ฉ ) ± ๐๐ถ √ ๐ ๐๐๐จ (๐) ๐๐๐ฉ (๐) + ๐๐จ ๐๐ฉ Se perguntarem se as médias são iguais, temos que ver se zero está dentro do I.C.; se estiver, consideramos que as médias são iguais. www.thmestatistica.com educacional@thmestatistica.com 40 • Com desvios ๐๐ e ๐๐ desconhecidos, porém iguais: O intervalo de confiança para média ๐ era: ๐ฅฬ ± ๐ก๐−1; ๐ผ 2 ๐ √๐ Utilizaremos o estimador ๐๐ para estimar ๐(๐ฅฬ ), de tal forma que: 2 ∑๐๐(๐ฅ๐ด ๐ − ๐ฅฬ ๐ด ) + ∑๐๐(๐ฅ๐ต ๐ − ๐ฅฬ ๐ต ) √ ๐๐ = ๐๐ด + ๐๐ต − 2 2 Portanto, o intervalo de confiança para as duas populações será: (๐ ฬ ๐จ − ๐ ฬ ๐ฉ ) ± ๐ ๐−๐ธ √๐บ๐ท ๐๐จ +๐๐ฉ −๐; ( ) ๐ ๐ ( ๐ ๐ + ) ๐๐จ ๐๐ฉ 1−๐พ Onde ๐ผ ≡ ๐๐๐๐ข ๐๐ ๐ ๐๐๐๐๐๐๐â๐๐๐๐ e ๐พ ≡ ๐๐๐๐ข ๐๐ ๐๐๐๐๐๐๐ç๐. Logo, ๐พ = 1 − ๐ผ, e assim ( www.thmestatistica.com 2 ๐ผ ) = ( 2 ). educacional@thmestatistica.com 41 • Com desvios ๐๐ e ๐๐ desconhecidos e desiguais: O intervalo de confiança para média ๐ era: ๐ฅฬ ± ๐ก๐−1; ๐ผ 2 ๐ √๐ Utilizaremos as expressões abaixo de forma a simplificar nossa escrita: ๐= (๐๐ด + ๐๐ต )2 ๐ค๐ด2 ๐๐ต2 + ๐๐ด + 1 ๐๐ต + 1 ๐๐ด2 ๐๐ด = ๐๐ด ๐๐ต = ๐๐ต2 ๐๐ต Com certa aritmética, podemos concluir que o intervalo de confiança para as duas populações será: ๐บ๐๐จ ๐บ๐๐ฉ √ (๐ ฬ ๐จ − ๐ ฬ ๐ฉ ) ± ๐ ๐−๐ธ + ๐; ( ) ๐๐จ ๐๐ฉ ๐ 1−๐พ Onde ๐ผ ≡ ๐๐๐๐ข ๐๐ ๐ ๐๐๐๐๐๐๐â๐๐๐๐ e ๐พ ≡ ๐๐๐๐ข ๐๐ ๐๐๐๐๐๐๐ç๐. Logo, ๐พ = 1 − ๐ผ, e assim ( www.thmestatistica.com 2 ๐ผ ) = ( 2 ). educacional@thmestatistica.com 42 Intervalo de Confiança para a Proporção Populacional (๐๐ − ๐๐ ) Supondo que a aproximação da binomial pela normal seja válida, temos que o intervalo de confiança para esse caso é dado por: (๐ ฬ๐จ − ๐ ฬ๐ฉ ) ± ๐๐ถ √ ๐ ฬ๐จ (๐ − ๐ ฬ๐จ ) ๐ ฬ๐ฉ (๐ − ๐ ฬ๐ฉ ) ๐ + ๐๐จ ๐๐ฉ www.thmestatistica.com educacional@thmestatistica.com 43 ๐๐ Intervalo de Confiança para a Variância Populacional ( ๐๐ ) ๐๐ A variância populacional ( ๐๐2 ๐๐2 ) possui uma distribuição diferentes daquelas que vimos até aqui. Essa possui distribuição F-Snedecor. Dessa forma, nosso intervalo de confiança será da forma: ๐บ๐ ( ๐๐ ) ๐บ๐ ๐ญ๐ ๐ ; ๐๐ ; ๐− ( ๐ถ ๐ ๐บ๐๐ ) ๐บ๐๐ ๐๐๐ ≤ ๐ ≤ ๐ญ๐ ; ๐ ; ๐ถ ๐๐ ๐ ๐ ๐ Onde ๐๐ = ๐๐ − 1 ; ๐๐ = ๐๐ − 1 www.thmestatistica.com educacional@thmestatistica.com 44 Exercício 6 Os dados abaixo foram coletados em duas empresas diferentes e referem-se ao tempo (em minutos) que profissionais gastam com pesquisas na internet em um determinado dia. Empresa A 12,2 13 11,5 12,6 10,5 8,4 9,7 8,1 12,3 Empresa B 11,2 23,1 12,4 10,4 12,1 19,3 17,5 11,1 12,4 16,6 Suponha que ๐๐ด = 2,3 e ๐๐ต = 3. Construa um intervalo de confiança para a diferença de médias com 95% de confiança e interprete os resultados. Resolução: Para a empresa A, temos ๐๐ด = 9 e média amostral ๐ฅฬ ๐ด = 10,92. Já para a empresa B, temos ๐๐ต = 10 e média amostral ๐ฅฬ ๐ต = 14,62. Dessa forma, a diferença de médias é dada por: (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = −3,69 E, por ser uma diferença de médias com desvios conhecidos, sabemos que o I.C. é da forma (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) ± ๐๐ผ √ ๐2๐ด (๐ฅ) 2 ๐๐ด + ๐2๐ต (๐ฅ) ๐๐ต Assim, calculamos: ๐๐ด2 = 0,59 ๐๐ด ๐ ๐๐ต2 = 0,9 ๐ ๐๐ต ๐๐ผ = ๐2,5% = 1,96 2 Com as devidas substituições, chegamos em: −3,69 − 1,96√0,59 + 0,9 ≤ (๐๐ด − ๐๐ต ) ≤ −3,69 + 1,96√0,59 + 0,9 −๐, ๐๐ ≤ (๐๐จ − ๐๐ฉ ) ≤ −๐, ๐๐ Como o zero não pertence ao ๐ผ. ๐ถ., podemos dizer, ao nível de 5% de significância, que as médias são diferentes. www.thmestatistica.com educacional@thmestatistica.com 45 Exercício 7 Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. Os dados estão a seguir: Corretora A Corretora B 45 60 54 62 55 38 48 57 55 58 52 59 55 59 64 Supondo-se que as variâncias sejam iguais para as duas corretoras, pede-se para verificar se elas possuem desempenhos diferentes, com significância de 5%. Resolução: Para a corretora A, temos ๐๐ด = 8, média amostral ๐ฅฬ ๐ด = 53,25 e variância amostral ๐ 2 = 81,357. Já para a corretora B, temos ๐๐ต = 7, ๐ฅฬ ๐ต = 56,42 e ๐ 2 = 6,619. Assim, temos (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = −3,17. Utilizamos o estimador ๐๐ para estimar ๐(๐ฅฬ ), de tal forma que: 2 2 ∑๐๐(๐ฅ๐ด ๐ − ๐ฅฬ ๐ด ) + ∑๐๐(๐ฅ๐ต ๐ − ๐ฅฬ ๐ต ) ๐๐ = √ = √46,863 ๐๐ด + ๐๐ต − 2 E, por ser uma diferença de médias com desvios desconhecidos e iguais, sabemos que o I.C. é da forma (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) ± ๐ก ๐ ๐ด +๐๐ต −2; ( 1−๐พ √๐๐ ) 2 2 1 1 ( + ) ๐๐ด ๐๐ต Assim, calculamos: 1 1 + ≅ 0,2678 ๐๐ด ๐๐ต ๐ ๐ก๐ ๐ด +๐๐ต −2; ( 1−๐พ ) 2 = ๐ก13; (2,5) = 2,160 Com as devidas substituições, chegamos em: −3,17 − 2,16√(46,863)(0,2678) ≤ (๐๐ด − ๐๐ต ) ≤ −3,17 + 2,16√(46,863)(0,2678) −๐, ๐๐ ≤ (๐๐จ − ๐๐ฉ ) ≤ ๐, ๐๐ Como o zero está contido no I.C., não podemos dizer, ao nível de 5% de significância, que ๐๐ด ≠ ๐๐ต . www.thmestatistica.com educacional@thmestatistica.com 46 Exercício 8 Em uma pesquisa de intenção de voto para presidente conduzida em dois estados brasileiros, revelaram-se os seguintes dados: Entrevistados Favoráveis ao candidato X Estado A 2000 850 Estado B 1500 650 Pede para determinar um intervalo de confiança (๐พ = 98%) para a diferença (๐๐ด − ๐๐ต ) de intenção de voto no candidato X entre os dois estados. Resolução: 850 650 Para o estado A, temos ๐ฬ๐ด = 2000 = 0,425. Já para o estado B, temos ๐ฬ ๐ต = 1500 = 0,433. Assim, temos (๐ฬ๐ด − ๐ฬ๐ต ) = −0,008. Sabemos que o I.C. é da forma (pฬA − pฬB ) ± Zα √ 2 pฬA (1 − pฬA ) pฬB (1 − pฬB ) + nA nB Assim, calculamos: ๐๐ผ = ๐1% = 2,33 2 Com as devidas substituições, chegamos em: −0,008 − 2,33√ (0,425)(0,575) 2000 + (0,433)(0,567) 1500 (0,425)(0,575) ≤ (๐๐ด − ๐๐ต ) ≤ −0,008 + 2,33√ 2000 + (0,433)(0,567) 1500 −๐, ๐๐๐ ≤ (๐๐จ − ๐๐ฉ ) ≤ ๐, ๐๐๐ Como o zero está contido no I.C., não podemos dizer, ao nível de 2% de significância, que as intenções de voto do candidato X sejam diferentes. www.thmestatistica.com educacional@thmestatistica.com 47 Teste de Hipótese Com base nos resultados da amostra, queremos testar uma hipótese, considerada como válida até prova contrária, a respeito de um parâmetro da população. O teste é constituído de duas hipóteses: { ๐ฏ๐ : ๐ป๐๐ó๐ก๐๐ ๐ ๐๐๐๐๐ก๐ ๐๐ก๐ข๐๐๐๐๐๐ก๐ ๐ฏ๐ : ๐ป๐๐ó๐ก๐๐ ๐ ๐๐๐ก๐๐๐๐๐ก๐๐ฃ๐ Aceitando a hipótese alternativa (๐ป1 ), com confiança de (1 − ๐ผ)%, você sabe o quanto erra, pois você rejeita a hipótese nula (๐ป0 ) com um nível de significância de ๐ผ%. Dessa forma, há dois tipos de erros que podem ser cometidos nos testes, erro tipo I e erro tipo II, e para cada tipo há uma certa probabilidade de ocorrência, ๐ผ e ๐ฝ respectivamente. Realidade ๐ป0 verdadeira ๐ป0 falsa Não Rejeitar ๐ป0 Decisão correta Erro tipo II ๐ท Rejeitar ๐ป0 Erro tipo I ๐ถ Decisão correta Decisão Dito isso, vamos entender melhor o roteiro de ação que seguiremos em nossos testes de hipótese. Para cada teste vamos usar a distribuição pertinente, calcular um valor crítico e comparálos a um valor obtido na amostra. Vamos a um exercício para entender melhor esse tema. www.thmestatistica.com educacional@thmestatistica.com 48 Exercício 9: Uma moeda foi lançada 200 vezes e foi obtido 127 coroas. Suspeita-se que a moeda seja desonesta para coroa, ou seja, o resultado coroa tem maior probabilidade de ocorrer. Faça um teste de hipótese para verificar a desonestidade da moeda com no máximo 5% de chance de a conclusão ser errada. Resolução: Vamos começar construindo as hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐ด ๐๐๐๐๐ é โ๐๐๐๐ ๐ก๐ ∴ ๐ = 0,5 ๐ด ๐๐๐๐๐ ๐ã๐ é โ๐๐๐๐ ๐ก๐ ∴ ๐ > 0,5 127 O estimador de ๐ é ๐ฬ , tal que ๐ฬ = 200 = 0,635, que possui média e desvio padrão segundo as expressões abaixo: ๐(๐ฬ ) = ๐0 = 0,5 ๐ ๐(๐ฬ ) = √ ๐0 (1 − ๐0 ) = 0,035 ๐ Onde ๐0 é a proporção aceita atualmente Sabemos que esse estimador tem distribuição normal. Sabemos também que ๐ผ = 5%, assim podemos determinar o valor de ๐ฬ ๐๐í๐ก๐๐๐ : ๐๐ผ = ๐ฬ − ๐(๐ฬ ) ๐(๐ฬ ) → ๐5% = ๐ฬ ๐๐í๐ก๐๐๐ – 0,5 0,035 ๐ฬ ๐๐í๐ก๐๐๐ = 0,557 Como o valor calculado é maior que o crítico, isto é, (๐ฬ > ๐ฬ ๐๐í๐ก๐๐๐ ), rejeitamos ๐ฏ๐ , ou seja, podemos afirmar que a moeda é desonesta, ao nível de 5% de confiança. www.thmestatistica.com educacional@thmestatistica.com 49 Teste para a Média Populacional • Com desvio padrão ๐ conhecido: A média populacional ๐ é estimada pela média amostral ๐ฅฬ , conforme já visto. Essa possui distribuição normal, média ๐(๐ฅฬ ) = ๐(๐ฅ) e desvio padrão ๐(๐ฅฬ ) = ๐(๐ฅ) ๐ . Como vimos no exercício anterior, quando buscamos um valor maior que o valor de ๐ป0 usamos a cauda da direita da distribuição. Já quando buscamos um valor menor, usaremos a cauda da esquerda da distribuição. E em casos em que buscamos um valor diferente, usaremos ambas as caudas e dividiremos a significância ๐ผ para as duas. Dessa forma, de maneira geral, temos: Em que ๐๐ผ é dado por: 2 ๐๐ผ = 2 ๐ฅฬ ๐๐í๐ก − ๐0 ๐(๐ฅ) ๐ Portanto: ๐ฅฬ ๐๐í๐ก = ๐0 ± ๐๐ผ 2 ๐(๐ฅ) ๐ Dessa forma, para cada caso, temos: { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ > ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 + ๐๐ผ { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ < ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 − ๐๐ผ ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ ≠ ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 ± ๐๐ผ { 2 www.thmestatistica.com ๐(๐ฅ) ๐ ๐(๐ฅ) ๐ ๐(๐ฅ) ๐ educacional@thmestatistica.com 50 • Com desvio padrão ๐ desconhecido: A média populacional ๐ é estimada pela média amostral ๐ฅฬ . Para esse caso, o estimador possui ๐ distribuição t-student, média ๐(๐ฅฬ ) = ๐(๐ฅ) e desvio padrão ๐(๐ฅฬ ) = ๐ . Note que trataremos o teste da mesma forma vista anteriormente. Porém, apenas trocaremos a distribuição normal pela distribuição t-student e o desvio padrão populacional ๐ pelo desvio padrão amostral ๐. Sendo assim, temos: ๐ฅฬ ๐๐í๐ก = ๐0 ± ๐ก๐−1; ๐ผ 2 ๐(๐ฅ) ๐ E, portanto: { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ > ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 + ๐ก๐−1; ๐ผ { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ < ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 − ๐ก๐−1; ๐ผ ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ ≠ ๐0 → Comparar ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐๐í๐ก = ๐0 ± ๐ก๐−1; ๐ผ { 2 www.thmestatistica.com ๐(๐ฅ) ๐ ๐(๐ฅ) ๐ ๐(๐ฅ) ๐ educacional@thmestatistica.com 51 Exercício 10: Na ausência de um treinamento, os escores de um exame de admissão em um MBA variam normalmente com média 475 e desvio padrão 100. Suponhamos que o treinamento possa melhorar a média, mas não altere o desvio padrão. Uma equipe treina 100 estudantes. Suas notas acusam ๐ฅฬ = 478. (a) Para um nível de significância de 5% é possível afirmar que as notas aumentaram? (b) O que ocorreria se a amostra tivesse 1000 e não 100 alunos? Resolução: (a) Podemos inferir do enunciado que ๐0 = 475 ; ๐ = 100 ; ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ = 478 E também que nossas hipóteses são: { ๐ฏ๐ : ๐ฏ๐ : ๐ = 475 ๐ > 475 Dessa forma, vamos calcular a normal padrão para uma significância de 5%, de forma a encontrar o valor crítico do estimador: ๐ฅฬ ๐๐í๐ก = ๐0 + ๐๐ผ 2 ๐(๐ฅ) ๐ ๐ฅฬ ๐๐í๐ก = 475 ± 1,64 100 √100 ๐ฅฬ ๐๐í๐ก = 491,4 Como ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ < ๐ฅฬ ๐๐í๐ก , não rejeitamos ๐ฏ๐ , pois não há evidências estatísticas para aferir que a média aumentou com o treinamento, ao nível de 5% de confiança. www.thmestatistica.com educacional@thmestatistica.com 52 (b) Se a amostra tivesse 1000 alunos, ao invés de 100, teríamos: ๐ฅฬ ๐๐í๐ก = ๐0 + ๐๐ผ 2 ๐(๐ฅ) ๐ ๐ฅฬ ๐๐í๐ก = 475 ± 1,64 100 √1000 ๐ฅฬ ๐๐í๐ก = 480,2 E, assim a conclusão é a mesma, isto é, como ๐ฅฬ ๐๐๐๐ ๐ก๐๐๐ < ๐ฅฬ ๐๐í๐ก , não rejeitamos ๐ฏ๐ , pois não há evidências estatísticas para aferir que a média aumentou com o treinamento, ao nível de 5% de confiança. www.thmestatistica.com educacional@thmestatistica.com 53 Exercício 11: Um estudo pretende identificar se um grupo de indígenas pertence a uma determinada tribo. Sabese que os índios da tribo A possuem altura média de 120 ๐๐, enquanto os da tribo B possuem altura média de 145 ๐๐. O desvio padrão nos dois casos é 40 ๐๐. O critério de decisão é o seguinte: se para uma amostra de 100 pessoas for observada média amostral superior a 130, considera-se que é da tribo B o grupo, caso contrário, da tribo A. Você desconfia que os indivíduos são da tribo A. (a) Qual é o erro tipo I? (b) Determine a probabilidade do erro tipo I (๐ผ). (c) Qual deve ser o critério de decisão para que ๐ผ = 5%? (d) Para o critério do enunciado, qual a probabilidade do erro tipo II (๐ฝ)? Resolução: (a) O erro do tipo I é rejeitar ๐ป0 quando ๐ป0 é verdadeiro. Dessa forma, para o contexto em questão, seria afirmar que os indivíduos são da tribo A, quando na verdade são da tribo B, conforme previamente desconfiado. Para visualizar graficamente o erro, podemos construir os seguintes gráficos: Erro do tipo I Erro do tipo II (b) Comecemos construindo nossas hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐ = 145 ๐ = 120 Do enunciado, temos que ๐ฅฬ ๐๐í๐ก = 130 ; ๐0 = 145 ; ๐ = 40 ; ๐ = 100. Então: ๐๐ผ = 130 − 145 = −3,75 40 √100 ๐ถ = ๐, ๐๐๐% A chance de se cometer um erro do tipo I é muito baixa. www.thmestatistica.com educacional@thmestatistica.com 54 (c) Devemos calcular o novo ๐ฅฬ ๐๐í๐ก para ๐ผ = 5%. Assim, fazemos: ๐ฅฬ ๐๐í๐ก = ๐0 − ๐5% ๐(๐ฅ) ๐ ๐ฅฬ ๐๐í๐ก = 145 − 1,64 40 √100 ฬ ๐๐í๐ = ๐๐๐, ๐๐ ๐ (d) Comecemos construindo nossas hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐ = 120 ๐ = 145 Do enunciado, temos que ๐ฅฬ ๐๐í๐ก = 130 ; ๐0 = 120 ; ๐ = 40 ; ๐ = 100. Então: ๐๐ฝ = 130 − 120 = 2,5 40 √100 ๐ถ = ๐, ๐๐๐% A chance de se cometer um erro do tipo II é bem maior. www.thmestatistica.com educacional@thmestatistica.com 55 Teste para a Variância Populacional A variância populacional ๐² é estimada pela variância amostral ๐². Essa possui distribuição qui2 quadrado, e é calculada por ๐๐๐๐๐ ๐ก๐๐๐ = ฬ )2 ∑๐ ๐ (๐ฅ๐ −๐ฅ ๐−1 . Dessa forma, por se tratar de uma distribuição assimétrica, seus valores críticos são dados por: 2 ๐๐๐í๐ก = 2 ๐๐๐í๐ก = ๐02 2 ๐ ๐ − 1 ๐−1; ๐ผ ๐02 2 ๐ ๐ − 1 ๐−1; 1−๐ผ E, portanto: { { { ๐ป0 : ๐ 2 = ๐02 ๐ป1 : ๐ 2 > ๐02 ๐ป0 : ๐ 2 = ๐02 ๐ป1 : ๐ 2 < ๐02 ๐ป0 : ๐ 2 = ๐02 ๐ป1 : ๐ 2 ≠ ๐02 → → → 2 2 Comparar ๐๐๐๐๐ ๐ก๐๐๐ com ๐๐๐í๐ก = www.thmestatistica.com ๐−1 ๐02 2 2 Comparar ๐๐๐๐๐ ๐ก๐๐๐ com ๐๐๐í๐ก = 2 2 Comparar ๐๐๐๐๐ ๐ก๐๐๐ com ๐๐๐í๐ก = ๐02 ๐−1 ๐02 2 ๐๐−1; ๐ผ 2 ๐๐−1; 1−๐ผ 2 ๐ 2 ๐ผ e ๐๐๐í๐ก = ๐−1 ๐−1; 2 ๐02 ๐−1 2 ๐๐−1; 1−๐ผ 2 educacional@thmestatistica.com 56 Exercício 12: A companhia telefônica está estudando a duração de chamadas telefônicas, bem como sua variabilidade. Admite ๐ = 4 ๐๐๐ (variabilidade nacional). A companhia pretende verificar se uma certa cidade tem variabilidade de tempo diferente do padrão nacional. A duração das chamadas tem distribuição normal. (a) Determine ๐ป0 e ๐ป1 . (b) A partir de quais valores você rejeitaria ๐ป0 (๐ = 25; ๐ผ = 0,05)? (c) Qual seria sua decisão se uma amostra de chamadas obtivesse ๐ 2 = 15? Resolução: (a) Nossas hipóteses são: { ๐ฏ๐ : ๐ฏ๐ : ๐² = 16 ๐² ≠ 16 2 (b) Rejeitaríamos valores fora do intervalo determinado pelos ๐๐ถ๐í๐ก , dados por: 2 ๐๐ถ๐í๐ก = 16 2 ๐ 24 24;97,5% 2 ๐๐ถ๐í๐ก = 8,27 2 ๐๐ถ๐í๐ก = 16 2 ๐ 24 24;2,5% 2 ๐๐ถ๐í๐ก = 28,67 Portanto, rejeitaríamos ๐ป0 para valores de ๐² fora do intervalo 8,27 ≤ ๐ 2 ≤ 28,67. (c) Como ๐² está dentro no intervalo estimado anteriormente, não rejeito ๐ป0 . www.thmestatistica.com educacional@thmestatistica.com 57 Teste para a Proporção Populacional A proporção populacional ๐ é estimada pela proporção amostral ๐ฬ . Esse possui distribuição ๐(1−๐) normal, média ๐(๐ฬ ) = ๐ e desvio padrão ๐(๐ฬ ) = √ ๐ , conforme já visto no exercício 9. Dessa forma, para cada caso, temos: { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ > ๐0 → Comparar ๐ฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฬ๐๐í๐ก = ๐0 + ๐๐ผ √ { ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ < ๐0 → Comparar ๐ฬ ๐๐๐๐ ๐ก๐๐๐ com ๐ฬ๐๐í๐ก = ๐0 − ๐๐ผ √ ๐ป0 : ๐ = ๐0 ๐ป1 : ๐ ≠ ๐0 → Comparar ๐ฬ๐๐๐๐ ๐ก๐๐๐ com ๐ฬ ๐๐í๐ก = ๐0 ± ๐๐ผ √ { ๐(1−๐) ๐ ๐(1−๐) ๐ ๐(1−๐) 2 www.thmestatistica.com ๐ educacional@thmestatistica.com 58 Teste para Duas Populações Teste de Comparação de Duas Médias ๐๐จ e ๐๐ฉ • Com desvios-padrão ๐๐จ e ๐๐ฉ conhecidos: Para duas populações o teste de hipóteses não muda. O que muda é a estatística que usamos, similar ao que vimos nos intervalos de confiança. Nossas hipóteses são: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด = ๐๐ต ๐ฏ๐ : ↔ { ๐๐ด > ๐๐ต ๐ฏ๐ : ๐๐ด − ๐๐ต = 0 ๐๐ด − ๐๐ต > 0 Aqui podemos usar os sinais de > , < ๐๐ข ≠ Nossa variável de teste é, então, (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ), que tem distribuição normal. Variável essa que tem ๐2 ๐2 ๐ด ๐ต média ๐(๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = ๐๐ด − ๐๐ต = 0 e desvio padrão ๐(๐ฅฬ ๐ด − ๐ฅฬ ๐ต ) = √ ๐๐ด + ๐๐ต . Assim temos: ๐๐ผ = (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก ± (๐๐ด − ๐๐ต ) 2 √ ๐๐ด2 ๐๐ต2 + ๐๐ด ๐๐ต Portanto: (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐๐ผ √ 2 ๐๐ด2 ๐๐ต2 + ๐๐ด ๐๐ต Dessa forma, devemos comparar (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก com (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐๐๐ ๐ก๐๐๐ www.thmestatistica.com educacional@thmestatistica.com 59 • Com desvios-padrão ๐๐จ e ๐๐ฉ desconhecidos, porém iguais: Denominada hipótese homocedástica, é o caso mais comum. Nesse caso, nossa variável teste é igual a anterior, porém possui distribuição t-student. Assim temos: ๐๐๐๐๐ = (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก 1 1 ๐√๐ + ๐ ๐ด ๐ต ๐ก๐๐ด+๐๐ต −2 ; ๐ผ = (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก 1 1 ๐๐ √๐ + ๐ ๐ด ๐ต Onde: 2 ∑๐๐(๐ฅ๐ด ๐ − ๐ฅฬ ๐ด ) + ∑๐๐(๐ฅ๐ต ๐ − ๐ฅฬ ๐ต ) √ ๐๐ = ๐๐ด + ๐๐ต − 2 2 Portanto: (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐ก๐๐ด +๐๐ต −2 ; ๐ผ ๐๐ √ www.thmestatistica.com 1 1 + ๐๐ด ๐๐ต educacional@thmestatistica.com 60 • Com desvios-padrão ๐๐จ e ๐๐ฉ desconhecidos e desiguais: Esse caso segue também distribuição t-student, como o caso anterior. Assim, temos expressão similar a anterior, com a modificação persistente aos desvios: ๐ก๐;๐ผ = (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก √ ๐๐ด2 ๐๐ต2 + ๐๐ด ๐๐ต Onde: (๐๐ด + ๐๐ต )2 ๐= ๐ค๐ด2 ๐๐ต2 + ๐๐ด + 1 ๐๐ต + 1 ๐๐ด = ๐๐ด2 ๐๐ด ๐๐ต2 ๐๐ต = ๐๐ต E, portanto: (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก ๐๐ด2 ๐๐ต2 = ๐ก๐;๐ผ √ + ๐๐ด ๐๐ต www.thmestatistica.com educacional@thmestatistica.com 61 Por fim, vale mencionar o caso em que os dados estão emparelhados, ou seja, quando os dados podem ser analisados juntos de alguma forma. Assim, fazemos: ๐ฅ๐ท = ๐ฅ๐ด − ๐ฅ๐ต ๐๐๐๐๐ ๐๐จ ๐๐ฉ ๐๐ซ 1 ๐ฅ๐ด1 ๐ฅ๐ต 1 ๐ฅ๐ท 1 2 ๐ฅ๐ด 2 ๐ฅ๐ต 2 ๐ฅ๐ท 2 3 ๐ฅ๐ด 3 ๐ฅ๐ต 3 ๐ฅ๐ท 3 โฎ โฎ โฎ โฎ Dessa forma, a média e a variância são dados por: ๐(๐ฅ๐ท ) = ๐๐ด − ๐๐ต = ๐๐ท ๐ ๐ท2 = ∑๐๐(๐ฅ๐ท ๐ − ๐ฅฬ ๐ท ) 2 ๐−1 E, portanto: ๐ก๐−1; ๐ผ = ๐ฅฬ ๐ท ๐๐í๐ก − 0 ๐๐ท √๐ ๐ฅฬ ๐ท ๐๐í๐ก = ๐ก๐−1; ๐ผ ๐๐ท √๐ E novamente, como todos os testes anteriores, devemos comparar ๐ฅฬ ๐ท ๐๐๐๐ ๐ก๐๐๐ com ๐ฅฬ ๐ท ๐๐í๐ก๐๐๐ . www.thmestatistica.com educacional@thmestatistica.com 62 Exercício 13: Afim de comparar a eficiência de dois operários, foram tomados, para cada um, 8 medidas de tempo gasto para realizar certa operação. Os resultados são os dados a seguir. Pergunta-se, ao nível de 5% de significância, se os operários devem ser considerados igualmente eficientes ou não (considere ๐ 2๐ด = ๐ 2 ๐ต ). Operário A 35 32 40 36 35 32 33 37 Operário B 29 35 36 34 30 33 31 34 Resolução: Vamos começar explicitando nossas hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด − ๐๐ต = 0 ๐๐ด − ๐๐ต > 0 Nossa variável teste (๐ฅฬ ๐ด − ๐ฅฬ ๐ต ), quando incorporada aos dados do enunciado, devolve (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐๐๐ ๐ก๐๐๐ = 2,25 . Como não possuímos o valor dos desvios, que são iguais, fazemos: (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐ก๐๐ด+๐๐ต −2 ; ๐ผ 1 1 ๐๐ √ + ๐๐ด ๐๐ต 2 ๐ ๐๐ = √ ∑๐๐(๐ฅ๐ด ๐ − ๐ฅฬ ๐ด ) + ∑๐๐(๐ฅ๐ต ๐ − ๐ฅฬ ๐ต ) ๐๐ด + ๐๐ต − 2 2 1 1 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐ก14 ; 2,5% 2,61√ + 8 8 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก ≅ 2,8 Portanto, não rejeitamos ๐ฏ๐ , não há evidências estatísticas para afirmar que a eficiência dos funcionários seja diferente, ao nível de 5% de significância. Perceba que, nesse caso, a ordem das medidas de tempo (do enunciado) para os funcionários não influência na análise, ou seja, para esse exemplo as medidas de um funcionário e outro estavam ligadas a uma operação. No próximo exercício teremos outra análise. www.thmestatistica.com educacional@thmestatistica.com 63 Exercício 14: Dois candidatos A e B foram submetidos a um conjunto de 8 questões, sendo anotados os tempos que cada um gastou nas soluções (dados em minutos). Podemos, ao nível de 5% de significância, concluir que B seja mais rápido que A, em termos de tempo médio gasto para resolver as questões do tipo das formuladas? Questão 1 2 3 4 5 6 7 8 Candidato A 11 8 15 2 7 18 9 10 Candidato B 5 7 13 6 4 10 13 12 ๐ฅ๐ท 6 1 2 −4 3 8 6 −2 Resolução: Nesse exercício, cada medida relaciona os candidatos de acordo com uma questão, enquanto no exercício anterior tínhamos oito tempos diferentes para uma única operação de cada operário. A partir disso, concluímos que os dados são emparelhados. Vamos explicitar nossas hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ท = 0 μD > 0 Nossa variável teste ๐ฅฬ ๐ท , quando incorporada aos dados do enunciado, devolve ๐ฅฬ ๐ท = 2,50 . Como não possuímos o valor dos desvios, temos: ๐ฅฬ ๐ท ๐๐í๐ก = ๐ก๐−1; ๐ผ ๐ฅฬ ๐ท ๐๐í๐ก = ๐ก7; 5% ๐๐ท √๐ 4,14 √8 ๐ฅฬ ๐ท ๐๐í๐ก = 2,77 Não rejeitamos ๐ฏ๐ , pois não podemos afirmar que as velocidades dos candidatos são diferentes, ao nível de 5% de significância. www.thmestatistica.com educacional@thmestatistica.com 64 Teste de Comparação de Duas Variâncias ๐๐๐จ e ๐๐๐ฉ Vale reforçar que para duas populações o teste de hipóteses não muda. O que muda é a estatística que usamos. Nesse caso, não trabalharemos com a subtração entre variâncias, mas sim com o quociente entre essas. Nossas hipóteses são: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด2 = ๐๐ต2 ๐๐ด2 > ๐๐ต2 ๐2 2 ๐๐ด ,que tem distribuição F-Snedecor: ๐น๐๐ด ; ๐๐ต ; ๐ผ = ๐ด2 . Por 2 ๐๐ต ๐๐ต convenção, utilizamos no numerador a variância maior e, portanto, no denominador a variância menor. A variável teste utilizada é Isso serve para resultar em um teste monocaudal à direita. Montando dessa forma, sempre ๐ผ desprezamos o lado esquerdo (ainda que ele contenha 2 %), vide próximo exercício. Portanto, se ๐น๐๐๐๐ ๐ก๐๐๐ > ๐น๐๐í๐ก๐๐๐ , rejeitamos ๐ป0 . www.thmestatistica.com educacional@thmestatistica.com 65 Exercício 15: Teste, ao nível de 5% de significância, se as populações A e B possuem variâncias diferentes. ๐ 7 12 Amostra A B ๐2 15,8 6,2 Resolução: Vamos começar construindo nossas hipóteses: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด2 = ๐๐ต2 ๐๐ด2 ≠ ๐๐ต2 Não precisamos olhar a cauda com 2,5% à esquerda, pois o teste foi montado para direita. Dessa forma, vamos aos cálculos: ๐๐ด2 15,8 ๐น๐๐๐๐ ๐ก๐๐๐ = ( 2 ) = = 2,55 6,2 ๐๐ต ๐๐๐๐ ๐ก๐๐๐ ๐น๐๐í๐ก = ๐น6; 11; 2,5% = 3,88 Logo, não rejeitamos ๐ป0 , pois não podemos afirmar que as duas variâncias são diferentes, ao nível de 5% de significância. A tabela F vai conter 3 informações: ๐๐ด , ๐๐ต e ๐ผ. Certifique-se de escolher corretamente o primeiro grau de liberdade. Por exemplo: ๐น6 ; 11 ; 2,5% ≠ ๐น11 ; 6 ; 2,5% www.thmestatistica.com educacional@thmestatistica.com 66 Exercício 16: A qualidade de rebites é tanto maior quanto maior a resistência média e sua homogeneidade. Seis rebites foram ensaiados ao cisalhamento, tendo obtido as seguintes rupturas (cargas de ruptura). Rebite ๐ Marca A Marca B 1 34,9 38,5 3 38,8 40,7 2 35,5 39,0 4 39,2 42,9 5 33,7 37,8 6 37,6 41,4 Esses resultados ratificam a afirmação do produtor da marca B de que seus rebites são melhores em pelo menos 1 aspecto? Resolução: Vamos testar tanto a resistência (via teste para médias) quanto a homogeneidade, ou seja, sua dispersão (via teste para variâncias). Nosso primeiro passo é realizar o teste para variância, pois, além de descobrirmos se a marca B é mais homogênea ou não, vamos descobrir também em que situação estamos no teste da média. Assim, comecemos calculando os estimadores necessários: Marca A: ๐ฅฬ ๐ด = 36,6 e ๐๐ด2 = 5,02 Marca B: ๐ฅฬ ๐ต = 40,05 e ๐๐ต2 = 3,79 Dessa forma, vamos expor nossas hipóteses para o teste de variâncias: ๐ฏ : { ๐ ๐ฏ๐ : ๐๐ด2 = ๐๐ต2 ๐๐ด2 > ๐๐ต2 Nossa variável teste e seu respectivo valor crítico são: ๐๐ด2 5,02 ๐น๐๐๐๐ ๐ก๐๐๐ = ( 2 ) = = 1,33 ๐๐ต ๐๐๐๐ ๐ก๐๐๐ 3,79 ๐น๐๐í๐ก = ๐น5; 5; 5% = 5,05 Portanto, não rejeitamos ๐ป0 , ao nível de 5% de significância, pois não podemos afirmar que há diferença de homogeneidade entre as marcas. Dessa forma, descartamos um aspecto do enunciado, e descobrimos que para o teste da média ๐๐ด2 = ๐๐ต2 . www.thmestatistica.com educacional@thmestatistica.com 67 Nosso segundo passo é realizar o teste para a média, sabendo que os desvios-padrão são iguais, conforme deduzido no passo anterior. Nossas hipóteses são: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด = ๐๐ต ๐ฏ๐ : ↔ { ๐๐ด < ๐๐ต ๐ฏ๐ : ๐๐ต − ๐๐ด = 0 ๐๐ต − ๐๐ด > 0 Nossa variável teste e seu respectivo valor crítico são: (๐ฅฬ ๐ต − ๐ฅฬ ๐ด )๐๐๐๐ ๐ก๐๐๐ = 3,45 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐ก๐๐ด +๐๐ต −2 ; ๐ผ ๐๐ √ 1 1 + ๐๐ด ๐๐ต 1 1 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = ๐ก10 ; 5% 2,1√ + 6 6 (๐ฅฬ ๐ด − ๐ฅฬ ๐ต )๐๐í๐ก = 2,22 Portanto, rejeitamos ๐ป0 , ao nível de 5% de significância. Logo, podemos afirmar que a resistência de B é maior do que a de A. Dessa forma, os resultados ratificam a afirmação do produtor da marca B de que seus rebites são melhores em pelo menos 1 aspecto. www.thmestatistica.com educacional@thmestatistica.com 68 Anova Nosso problema agora se trata em resolver comparações entre mais de duas médias. Até aqui vimos testes de hipótese para comparar duas médias, como segue o exemplo abaixo para duas populações A e B: { ๐ฏ๐ : ๐ฏ๐ : ๐๐ด − ๐๐ต = 0 ๐๐ด − ๐๐ต ≠ 0 Imagine agora usar essa ferramenta para calcular três médias. Teríamos que fazer testes entre as populações A, B e C, totalizando três testes de hipótese. Com quatro médias, o problema ainda é executável nos mesmos moldes, ainda que muito trabalhoso. Porém, para comparar 15, 30, 50, โฏ , ๐พ médias faz-se necessária uma ferramenta mais robusta. Dessa forma, primeiramente aceitaremos uma hipótese homocedástica sobre os desvios das populações, isto é, ๐๐ด = ๐๐ต = โฏ = ๐๐พ . Imaginemos agora um teste do tipo que se segue: { ๐ฏ๐ : ๐๐ด = ๐๐ต = ๐๐ถ = ๐๐ท โฏ = ๐๐พ ๐ฏ๐ : ๐ปá ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐é๐๐๐ ๐๐๐๐๐๐๐๐ก๐ Para analisar várias médias esse teste é adequado, uma vez que, ao rejeitar ๐ป0 , a conclusão é de que pelo menos uma população está esquisita (nunca use esse termo formalmente!). Para realizar o teste, calculamos as médias amostrais (๐ฅฬ ๐ ) para cada população ๐. Assim, para uma amostra de ๐ elementos, temos: www.thmestatistica.com educacional@thmestatistica.com 69 Elemento ๐ ๐ ๐ โฏ ๐ ฬ ๐ ๐ ๐ฅ11 ๐ฅ12 ๐ฅ13 โฏ ๐ฅ1๐ ๐ฅฬ 1 ๐ ๐ฅ21 ๐ฅ22 ๐ฅ23 โฏ ๐ฅ2๐ ๐ฅฬ 2 ๐ ๐ฅ31 ๐ฅ32 ๐ฅ33 โฏ ๐ฅ3๐ ๐ฅฬ 3 โฎ โฎ โฎ โฎ ⋅โฎ⋅ โฎ โฎ ๐ฒ ๐ฅ๐พ1 ๐ฅ๐พ2 ๐ฅ๐พ3 โฏ ๐ฅ๐พ๐ ๐ฅฬ ๐พ Amostra Calcularemos estimadores da variância um pouco diferentes dos conhecidos até aqui e, assim, conseguiremos exprimir um teste de comparação de médias em função das variâncias. Como usaremos variâncias no processo de cálculo, dá-se o nome desse teste de Análise de Variância, do inglês Analysis of Variance (ANOVA). Por mais que apareçam variâncias populacionais ๐ e variâncias amostrais ๐, temos que lembrar que se trata de uma comparação de médias! www.thmestatistica.com educacional@thmestatistica.com 70 Anova com Uma Classificação A Anova com uma classificação se refere àquela na qual se dá a comparação entre amostras, através de estimadores da variância. Essas são denominados estimador total, estimador entre amostras e estimador residual. • Estimador Total (๐บ๐๐ป ) : ๐ ๐ฒ ๐ ฬ ∑ ∑ − ๐ (๐ ) ๐๐ ๐ ๐ ๐บ๐๐ป = (๐๐ฒ − ๐) Onde: ∑๐ ๐ ๐ฅฬ ๐ ๐ฅฬ ฬ = • ๐ ๐ ∑๐พ ๐ ∑๐ผ ๐ฅฬ ๐๐ ๐๐พ Estimador entre Amostras (๐บ๐๐ฌ ) : ๐บ๐๐ฌ • ou ๐ฅฬ ฬ = ∑๐ฒ ฬ )๐ ๐ (๐๐ − ๐ = ๐[ ] ๐ฒ−๐ Estimador Residual (๐บ๐๐น ) : ๐บ๐๐น ๐ ∑๐ฒ ๐ ๐บ๐ = ๐ฒ Onde: ๐๐2 = ∑ ๐ (๐ฅ ๐๐ ๐ − ๐ฅฬ ๐ ) ๐−1 2 Não se preocupe agora em decifrar essas fórmulas, teremos mais a frente um jeito mais automático de calcular esses estimadores. www.thmestatistica.com educacional@thmestatistica.com 71 Iremos trocar o formato do teste para os cálculos com variâncias. Assim, utilizaremos a variável de teste Fisher-Snedecor, ou simplesmente, a variável de teste ๐น. Ao aceitarmos uma significância de ๐ผ%, iremos calcular ๐น๐๐๐๐ ๐ก๐๐๐ e ๐น๐๐í๐ก;๐ผ . { ๐ฏ๐ : ๐๐ด = ๐๐ต = ๐๐ถ = ๐๐ท โฏ = ๐๐พ ๐ฏ : ๐ 2 = ๐๐ 2 → { ๐ ๐ธ2 ๐ฏ๐ : ๐ปá ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐é๐๐๐ ๐๐๐๐๐๐๐๐ก๐ ๐ฏ๐ : ๐๐ธ > ๐๐ 2 Nossa variável de teste, então, será dada por: ๐น๐๐๐๐ ๐ก๐๐๐ ๐๐ธ2 = 2 ; ๐น๐๐í๐ก = ๐น(๐พ−1) ; ๐พ(๐−1) ; ๐ผ ๐๐ www.thmestatistica.com educacional@thmestatistica.com 72 Exercício 17: Pneus de três marcas foram testados quanto sua durabilidade. Os resultados obtidos, em milhões de ๐๐, estão expressos na tabela abaixo. Marca Durabilidade A 34 38 31 35 B 32 34 31 29 C 30 25 28 23 Ao nível de 1% de significância, há evidências de que os pneus tenham diferentes durabilidades médias? Resolução: De início, vamos calcular as médias amostrais de cada marca e, posteriormente, a média de todas as médias: ๐ฅฬ 1 = ๐ฅฬ ๐ด = 34,5 ; ๐ฅฬ 2 = ๐ฅฬ ๐ต = 31,5 ; ๐ฅฬ 3 = ๐ฅฬ ๐ถ = 26,5 ๐ฅฬฟ = 30,833 Em posse dessa, podemos calcular o estimador entre amostras, dado por: ฬ 2 ∑๐พ ๐ (๐ฅ๐ − ๐ฅฬ ) ๐๐ธ2 = ๐ [ ] ๐พ−1 → ๐๐ธ2 ≅ 65,33 Sendo ๐12 = 8,33 ; ๐22 = 4,33 ; ๐32 = 9,66 ; o cálculo do estimador residual resulta: ๐๐ 2 = 2 ∑๐พ ๐ ๐๐ ๐พ → www.thmestatistica.com ๐๐ 2 = 7,4 educacional@thmestatistica.com 73 Agora, calculemos nossa variável teste ๐น, tal que: ๐น๐๐๐๐ ๐ก๐๐๐ ๐๐ธ2 = 2 ๐๐ ๐น๐๐í๐ก = ๐น2 ; 9 ; 1% → ๐น๐๐๐๐ ๐ก๐๐๐ = 8,78 → ๐น๐๐í๐ก = 8,02 Portanto, rejeito ๐ฏ๐ , pois tenho evidências estatísticas para afirmar que há diferenças nas marcas quanto à durabilidade, ao nível de 1% de significância. Essa conclusão identifica que há pelo menos uma média diferente das demais, mas não diz qual. Podemos suspeitar da marca C, a menos durável, e podemos confirmar ou não isso com um teste entre a marca B e C. www.thmestatistica.com educacional@thmestatistica.com 74 Para facilitar nosso estudo, a partir daqui usaremos a seguinte notação para os dados vistos até o momento: ๐ ๐๐ = ∑ ๐ฅ๐๐ → ๐๐๐๐ ๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐๐ ๐๐๐โ๐ ๐ ๐ ๐ 2 ๐๐ = ∑ ๐ฅ๐๐ → ๐๐๐๐ ๐๐๐ ๐๐ข๐๐๐๐๐๐๐ ๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐๐ ๐๐๐โ๐ ๐ ๐ ๐พ ๐พ ๐ ๐ = ∑ ๐๐ = ∑ ∑ ๐ฅ๐๐ → ๐ ๐ ๐พ ๐พ ๐ ๐ ๐ ๐ 2 ๐ = ∑ ๐๐ = ∑ ∑ ๐ฅ๐๐ → ๐ฅฬ ๐ = ๐ฅฬฟ = ๐๐ → ๐ ๐ → ๐๐พ ๐๐๐๐ ๐ก๐๐ก๐๐ ๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐ ๐๐๐๐ ๐ก๐๐ก๐๐ ๐๐๐ ๐๐ข๐๐๐๐๐๐๐ ๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐é๐๐๐ ๐๐ ๐๐๐๐ ๐ก๐๐ ๐ ๐é๐๐๐ ๐๐ ๐ก๐๐๐๐ ๐๐ ๐ฃ๐๐๐๐๐๐ Com o auxílio dessa nova notação, podemos reescrever a expressão dos estimadores da variância, como segue abaixo: www.thmestatistica.com educacional@thmestatistica.com 75 • Estimador Total (๐บ๐๐ป ) : ๐บ๐๐ป = ๐บ๐ธ๐ป (๐๐ฒ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Total (๐๐๐), é dado por: ๐๐๐ = ๐ − • ๐2 ๐๐พ Estimador entre Amostras (๐บ๐๐ฌ ) : ๐บ๐๐ฌ = ๐บ๐ธ๐ฌ ๐ฒ−๐ Onde o numerador desse quociente, Soma dos Quadrados Entre amostras (๐๐๐ธ), é dado por: ๐๐2 ๐2 ๐๐๐ธ = ∑ ( ) − ๐๐ ๐๐พ ๐ ๐พ • Estimador Residual (๐บ๐๐น ) : ๐บ๐๐น = ๐บ๐ธ๐น ๐(๐ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Residual (๐๐๐ ), é dado por: ๐พ ๐2 ๐ ๐๐๐ = ๐ − ∑ ( ) ๐ ๐ Na prática não calcularemos SQR pela fórmula, e sim pela diferença ๐๐๐ – ๐๐๐ธ www.thmestatistica.com educacional@thmestatistica.com 76 TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Entre linhas ๐๐๐ธ (๐พ − 1) ๐๐ธ2 Residual ๐๐๐ ๐พ(๐ − 1) ๐๐ 2 = Total ๐๐๐ ๐พ๐ − 1 www.thmestatistica.com Quadrado Médio ๐๐๐ธ = ๐พ−1 ๐ญ๐๐๐๐๐๐๐๐ ๐๐ธ2 ๐๐ 2 ๐๐๐ ๐พ(๐ − 1) ๐๐2 = ๐๐๐ ๐พ๐ − 1 educacional@thmestatistica.com 77 Exercício 18: Compare as três médias e veja se há alguma diferente das demais, ao nível de 5% de significância. Amostra Valores 1 64 66 59 65 62 2 71 73 66 70 68 3 52 57 53 56 53 Resolução: Nossas hipóteses são: { ๐ฏ๐ : ๐๐ด = ๐๐ต = ๐๐ถ ๐ฏ : ๐ 2 = ๐๐ 2 → { ๐ ๐ธ2 ๐ฏ๐ : ๐ปá ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐é๐๐๐ ๐๐๐๐๐๐๐๐ก๐ ๐ฏ๐ : ๐๐ธ > ๐๐ 2 Da tabela dada, infere-se que ๐พ = 3. Vamos agora calcular a soma de valores de cada linha, o seu quadrado e a soma total de valores: ๐1 = 316 → ๐12 = 99.856 ๐2 = 348 → ๐22 = 121.104 ๐3 = 271 → ๐32 = 73.441 ๐ = 935 → ∑ ๐๐2 = 58.880,20 ๐๐ Aqui o ๐๐ refere-se ao tamanho de cada amostra que, no caso, é igual a 5 Em seguida, calculemos o ๐๐๐ธ, tal que: ๐พ ๐2 ๐2 ๐ ๐๐๐ธ = ∑ ( ) − ๐๐ ๐๐พ ๐ ๐๐๐ธ = 58.880,20 − 58.281,67 ๐๐๐ธ = 598,53 www.thmestatistica.com educacional@thmestatistica.com 78 Vamos agora calcular a soma dos quadrados dos valores de cada linha e a soma total dos quadrados dos valores: ๐1 = 20.002 ๐2 = 24.250 ๐3 = 14.707 ๐ = 58.959 Em seguida, calculemos o ๐๐๐, tal que: ๐2 ๐๐๐ = ๐ − ๐๐พ ๐๐๐ = 58.959 − 58.281,67 ๐๐๐ = 677,33 Dessa forma, vamos montar nossa tabela de análise de variância, na qual os valores em laranja referentes à parcela residual foram encontrados pelas diferenças das parcelas entre linhas e total: TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio ๐ญ๐๐๐๐๐๐๐๐ Entre linhas 598,53 2 299,3 ๐๐ธ2 299,3 = 6,6 ๐๐ 2 Residual ๐บ๐ธ๐น = ๐๐, ๐ ๐ฒ(๐ − ๐) = ๐๐ ๐๐, ๐ = ๐, ๐ ๐๐ ๐บ๐๐ฌ = ๐๐, ๐๐ ๐บ๐๐น Total 677,73 14 www.thmestatistica.com ๐บ๐๐น = 48,4 educacional@thmestatistica.com 79 Já o ๐น๐๐í๐ก é dado por: ๐น๐๐í๐ก = ๐น(๐พ−1); ๐พ(๐−1); ๐ผ ๐น๐๐í๐ก = ๐น2; 12; 5% ๐น๐๐í๐ก = 3,89 Logo, rejeito ๐ฏ๐ , ou seja, tenho evidências estatísticas para afirmar que há pelo menos uma média diferente das demais, ao nível de 5% de significância. www.thmestatistica.com educacional@thmestatistica.com 80 Anova com Duas Classificações Nosso próximo passo é expandir esse método de análise para poder comparar tanto linhas quanto colunas. Com dois critérios, podemos comparar tanto amostras quanto os elementos ๐ de todos os dados. ๐ช๐๐๐๐๐๐ (๐๐๐๐๐๐ ๐ ๐๐๐๐é๐๐๐) ๐ฅ11 ๐ฅ12 ๐ฅ13 โฏ ๐ฅ1๐ ๐ฅ21 ๐ฅ22 ๐ฅ23 โฏ ๐ฅ2๐ ๐ฅ31 ๐ฅ32 ๐ฅ33 โฏ ๐ฅ3๐ โฎ โฎ โฎ ⋅โฎ⋅ โฎ ๐ฅ๐พ1 ๐ฅ๐พ2 ๐ฅ๐พ3 โฏ ๐ฅ๐พ๐ ๐ณ๐๐๐๐๐ (๐๐๐๐๐๐๐๐ ๐๐๐๐é๐๐๐) Nesse caso, os estimadores de variância utilizados são denominados estimador total, estimador entre linhas, estimador entre colunas e estimador residual. • Estimador Total (๐บ๐๐ป ) : ๐บ๐๐ป = ๐บ๐ธ๐ป (๐๐ฒ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Total (๐๐๐), é dado por: ๐๐๐ = ๐ − ๐2 ๐๐พ Da Anova com uma classificação para a Anova com duas classificações o estimador total não muda! www.thmestatistica.com educacional@thmestatistica.com 81 • Estimador entre Linhas (๐บ๐๐ณ ) : ๐บ๐๐ณ = ๐บ๐ธ๐ณ ๐ฒ−๐ Onde o numerador desse quociente, Soma dos Quadrados entre Linhas (๐๐๐ฟ), é dado por: ๐พ ๐2 ๐2 ๐ ๐๐๐ฟ = ∑ ( ) − ๐๐ ๐๐พ ๐ • Estimador entre Colunas (๐บ๐๐ณ ) : ๐บ๐๐ช = ๐บ๐ธ๐ช ๐−๐ Onde o numerador desse quociente, Soma dos Quadrados entre Colunas (๐๐๐ถ), é dado por: ๐พ ๐2 ๐2 ๐ ๐๐๐ถ = ∑ ( ) − ๐๐พ ๐ ๐พ๐ • Estimador Residual (๐บ๐๐น ) : ๐บ๐๐น = ๐บ๐ธ๐น (๐ฒ − ๐)(๐ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Residual (๐๐๐ ), é dado por: ๐๐๐ = ๐๐๐ − ๐๐๐ฟ − ๐๐๐ถ www.thmestatistica.com educacional@thmestatistica.com 82 Pelo fato de nossa análise possuir duas classificações, nossas hipóteses são dadas por: ๐ฏ๐ ๐ โถ ๐1 = ๐2 = โฏ = ๐๐พ , ๐๐ ๐ก๐ é, ๐é๐๐๐ ๐๐๐ข๐๐ ๐๐ ๐ก๐๐๐๐ ๐๐ ๐๐๐โ๐๐ ๐ฏ๐ ๐ โถ ๐ด ๐é๐๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐๐๐โ๐ é ๐๐๐๐๐๐๐๐ก๐ ๐ฏ๐ ๐ โถ ๐1 = ๐2 = โฏ = ๐๐ , ๐๐ ๐ก๐ é, ๐é๐๐๐ ๐๐๐ข๐๐ ๐๐ ๐ก๐๐๐๐ ๐๐ ๐๐๐๐ข๐๐๐ { ๐ฏ๐ ๐ โถ ๐ด ๐é๐๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐๐๐๐ข๐๐ é ๐๐๐๐๐๐๐๐ก๐ Dessa forma, nosso teste de hipóteses assume a seguinte forma: ๐ฏ๐ ๐ โถ ๐๐ฟ2 = ๐๐ 2 ๐ฏ๐ ๐ โถ ๐๐ฟ2 > ๐๐ 2 ๐ฏ๐ ๐ โถ ๐๐ถ2 = ๐๐ 2 2 2 { ๐ฏ๐ ๐ โถ ๐๐ถ > ๐๐ E, portanto, nossa tabela de análise de variância se dá por: TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Entre linhas ๐๐๐ฟ (๐พ − 1) ๐๐ฟ2 ๐๐๐ฟ = ๐พ−1 ๐๐ฟ2 ๐๐ 2 Entre colunas ๐๐๐ถ (๐ − 1) ๐๐ถ2 ๐๐๐ถ = ๐−1 ๐๐ถ2 ๐๐ 2 Residual ๐๐๐ (๐พ − 1)(๐ − 1) Total ๐๐๐ ๐พ๐ − 1 Quadrado Médio ๐๐ 2 = ๐ญ๐๐๐๐๐๐๐๐ ๐๐๐ (๐พ − 1)(๐ − 1) ๐๐2 = ๐๐๐ ๐พ๐ − 1 Nesse caso, possuímos dois valores críticos, o ๐น๐๐í๐ก referente à linha, dado por ๐ญ๐ฒ−๐ ; (๐ฒ−๐)(๐−๐) ; ๐ถ , e o ๐น๐๐í๐ก referente à coluna, dado por ๐ญ๐−๐ ; (๐ฒ−๐)(๐−๐) ; ๐ถ . www.thmestatistica.com educacional@thmestatistica.com 83 Exercício 19: Em uma experiência agrícola, foram usados seis diferentes fertilizantes em duas variedades de milho, tendo sido obtido as colheitas dadas a seguir em sacas, para os vários canteiros de mesma área que foram plantados. Fertilizantes A B C D E F Variedade 1 5,4 3,2 3,8 4,6 5,0 4,4 Variedade 2 5,7 4,0 4,2 4,5 5,3 5,0 Utilizar análise de variância para avaliar se existem diferenças significativas entre os fertilizantes e as variedades (๐ผ = 1%). Resolução: Nossas hipóteses são: ๐ฏ๐ ๐ โถ ๐๐ฟ2 = ๐๐ 2 ๐ฏ๐ ๐ โถ ๐๐ฟ2 > ๐๐ 2 ๐ฏ๐ ๐ โถ ๐๐ถ2 = ๐๐ 2 2 2 { ๐ฏ๐ ๐ โถ ๐๐ถ > ๐๐ Vamos calcular a soma de valores de cada linha, o seu quadrado e a soma total de valores: ๐1 = 26,4 → ๐12 = 696,96 ๐2 = 28,7 → ๐22 = 823,69 ๐ = 55,1 → ∑ ๐๐2 = 253,44 ๐๐ www.thmestatistica.com educacional@thmestatistica.com 84 Agora a soma de valores de cada coluna, o seu quadrado e a soma total de valores: ๐1 = 11,1 → ๐12 = 123,21 ๐2 = 7,2 → ๐22 = 51,84 ๐3 = 8,0 → ๐32 = 64,0 ๐4 = 9,1 → ๐42 = 82,81 ๐5 = 10,3 → ๐52 = 106,09 ๐6 = 9,4 → ๐62 = 88,36 ๐ = 55,1 → ∑ ๐๐2 ๐พ๐ = 258,155 Agora vamos calcular a soma dos quadrados de cada um dos valores: ๐ = 258,83 Em seguida, calculemos o ๐๐๐, ๐๐๐ฟ e o ๐๐๐ถ, tal que: ๐๐๐ = ๐ − ๐พ ๐๐๐ฟ = ∑ ( ๐ ๐2 → ๐๐๐ = 5,83 ๐๐พ ๐๐2 ๐2 )− → ๐๐๐ฟ = 0,44 ๐๐ ๐๐พ ๐๐2 ๐2 ๐๐๐ถ = ∑ ( ) − → ๐๐๐ถ = 5,155 ๐พ๐ ๐๐พ ๐ ๐พ O que implica: ๐๐๐ = ๐๐๐ − ๐๐๐ฟ − ๐๐๐ถ → ๐๐๐ = 0,253 www.thmestatistica.com educacional@thmestatistica.com 85 Dessa forma, vamos montar nossa tabela de análise de variância, na qual os valores em laranja referentes à parcela residual foram encontrados pelas diferenças das demais parcelas: TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio ๐ญ๐๐๐๐๐๐๐๐ Entre linhas 0,44 1 0,44 ๐๐ฟ2 = 9,36 ๐๐ 2 Entre colunas 5,155 5 1,031 ๐๐ถ2 = 21,94 ๐๐ 2 Residual ๐, ๐๐๐ ๐ Total 5,83 11 ๐บ๐๐น = ๐, ๐๐๐ = ๐, ๐๐๐ ๐ 0,53 Já os ๐น๐๐í๐ก são dados por: ๐น๐๐í๐ก = ๐น๐พ−1 ; (๐พ−1)(๐−1) ; ๐ผ , ๐๐๐๐ ๐ ๐๐๐โ๐ ๐น๐๐í๐ก = ๐น1 ; 5 ; 1% , ๐๐๐๐ ๐ ๐๐๐โ๐ ๐น๐๐í๐ก = 16,26 , ๐๐๐๐ ๐ ๐๐๐โ๐ ๐น๐๐í๐ก = ๐น๐−1 ; (๐พ−1)(๐−1) ; ๐ผ , ๐๐๐๐ ๐ ๐๐๐๐ข๐๐ ๐น๐๐í๐ก = ๐น5 ; 5 ; 1% , ๐๐๐๐ ๐ ๐๐๐๐ข๐๐ ๐น๐๐í๐ก = 10,97 , ๐๐๐๐ ๐ ๐๐๐๐ข๐๐ Logo, ao nível de 1% de significância, pode-se afirmar que não há diferenças entre variedades de milhos (linhas) e há diferença entre fertilizantes (colunas), isto é, não rejeito ๐ฏ๐ ๐ e rejeito ๐ฏ๐ ๐ , respectivamente. www.thmestatistica.com educacional@thmestatistica.com 86 Anova com Repetições Agora vamos expandir ainda mais os critérios, ao passo que teremos repetições para os elementos de cada amostra. Dessa forma, analisaremos as linhas, colunas, repetições, chamadas de tratamento, e se há alguma combinação entre linha e coluna melhor que as outras, chamadas de interação. Caso não haja interação, excluiremos a linha referente e somaremos seus valores aos residuais, e então a conta toda pode ser refeita. Nossos dados aparecem normalmente sob a seguinte forma: Elemento ๐ ๐ ๐ โฏ ๐ Amostra ๐ ๐ฅ111 ๐ฅ113 ๐ฅ11 2 ๐ฅ114 ๐ฅ121 ๐ฅ123 ๐ฅ12 2 ๐ฅ124 ๐ฅ131 ๐ฅ133 ๐ฅ13 2 ๐ฅ134 โฏ ๐ฅ1๐1 ๐ฅ1๐3 ๐ฅ1๐ 2 ๐ฅ1๐4 ๐ ๐ฅ211 ๐ฅ213 ๐ฅ21 2 ๐ฅ214 ๐ฅ221 ๐ฅ223 ๐ฅ22 2 ๐ฅ224 ๐ฅ231 ๐ฅ233 ๐ฅ23 2 ๐ฅ234 โฏ ๐ฅ2๐1 ๐ฅ2๐3 ๐ฅ2๐ 2 ๐ฅ2๐4 ๐ ๐ฅ311 ๐ฅ313 ๐ฅ31 2 ๐ฅ314 ๐ฅ321 ๐ฅ323 ๐ฅ32 2 ๐ฅ324 ๐ฅ331 ๐ฅ333 ๐ฅ33 2 ๐ฅ334 โฏ ๐ฅ3๐1 ๐ฅ3๐3 ๐ฅ3๐ 2 ๐ฅ3๐4 โฎ ๐ฒ โฎ ๐ฅ๐พ11 ๐ฅ๐พ13 โฎ ๐ฅ๐พ1 2 ๐ฅ๐พ14 ๐ฅ๐พ21 ๐ฅ๐พ23 โฎ ๐ฅ๐พ31 ๐ฅ๐พ33 ๐ฅ๐พ2 2 ๐ฅ๐พ24 www.thmestatistica.com ⋅โฎ⋅ ๐ฅ๐พ3 2 ๐ฅ๐พ34 โฏ โฎ ๐ฅ๐พ๐1 ๐ฅ๐พ๐3 ๐ฅ๐พ๐ 2 ๐ฅ๐พ๐4 educacional@thmestatistica.com 87 Nesse caso, os estimadores de variância utilizados são denominados estimador total, estimador entre linhas, estimador entre colunas, estimador entre tratamentos, estimador de interações e estimador residual. • Estimador Total (๐บ๐๐ป ) : ๐บ๐๐ป = ๐บ๐ธ๐ป (๐๐ฒ๐ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Total (๐๐๐), é dado por: ๐๐๐ = ๐ − • ๐2 ๐๐พ๐ Estimador entre Linhas (๐บ๐๐ณ ) : ๐บ๐๐ณ = ๐บ๐ธ๐ณ ๐ฒ−๐ Onde o numerador desse quociente, Soma dos Quadrados entre Linhas (๐๐๐ฟ), é dado por: ๐พ ๐2 ๐2 ๐ ๐๐๐ฟ = ∑ ( ) − ๐๐พ๐ ๐ ๐๐ ๐ • Estimador entre Colunas (๐บ๐๐ณ ) : ๐บ๐๐ช = ๐บ๐ธ๐ช ๐−๐ Onde o numerador desse quociente, Soma dos Quadrados entre Colunas (๐๐๐ถ), é dado por: ๐๐2 ๐2 ๐๐๐ถ = ∑ ( ) − ๐๐พ๐ ๐ ๐พ๐ ๐ ๐ www.thmestatistica.com educacional@thmestatistica.com 88 • Estimador entre Tratamentos (๐บ๐๐ป๐ ) : ๐บ๐๐ป๐ = ๐บ๐ธ๐ป๐ (๐๐ฒ − ๐) Onde o numerador desse quociente, Soma dos Quadrados entre Tratamentos (๐๐๐๐ ), é dado por: ๐พ ๐ ๐๐๐๐ = ∑ ∑ ( ๐ • ๐ ๐๐๐2 ๐2 )− ๐ ๐๐พ๐ Estimador de Interações (๐บ๐๐ฐ ) : ๐บ๐๐ฐ = ๐บ๐ธ๐ฐ (๐ฒ − ๐)(๐ − ๐) Onde o numerador desse quociente, Soma dos Quadrados das Interações (๐๐๐ผ), é dado por: ๐๐๐ผ = ๐๐๐๐ − ๐๐๐ฟ − ๐๐๐ถ • Estimador Residual (๐บ๐๐น ) : ๐บ๐๐น = ๐บ๐ธ๐น ๐๐ฒ(๐ − ๐) Onde o numerador desse quociente, Soma dos Quadrados Residual (๐๐๐ ), é dado por: ๐๐๐ = ๐๐๐ − ๐๐๐๐ www.thmestatistica.com educacional@thmestatistica.com 89 E, portanto, nossa tabela de análise de variância se dá por: TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Entre linhas ๐๐๐ฟ (๐พ − 1) ๐๐ฟ2 ๐๐๐ฟ = ๐พ−1 ๐๐ฟ2 ๐๐ 2 Entre colunas ๐๐๐ถ (๐ − 1) ๐๐ถ2 ๐๐๐ถ = ๐−1 ๐๐ถ2 ๐๐ 2 Entre tratamentos ๐๐๐๐ (๐๐พ − 1) ๐๐๐๐ = ๐๐พ − 1 ๐๐2๐ Interação ๐๐๐ผ (๐พ − 1)(๐ − 1) Residual ๐๐๐ ๐๐พ(๐ − 1) Total ๐๐๐ ๐พ๐๐ − 1 Quadrado Médio ๐๐2๐ ๐๐ผ2 = ๐๐๐ผ (๐พ − 1)(๐ − 1) ๐๐ 2 = ๐ญ๐๐๐๐๐๐๐๐ ๐๐ 2 ๐๐ผ2 ๐๐ 2 ๐๐๐ ๐๐พ(๐ − 1) ๐๐2 = ๐๐๐ ๐พ๐๐ − 1 Nesse caso, possuímos quatro valores críticos, o ๐น๐๐í๐ก referente à linha, dado por ๐ญ๐ฒ−๐ ; ๐๐ฒ(๐−๐) ; ๐ถ, o referente à coluna, dado por ๐ญ๐−๐ ; ๐๐ฒ(๐−๐) ; ๐ถ , o referente ao tratamento, dado por ๐ญ๐๐ฒ−๐ ; ๐๐ฒ(๐−๐) ; ๐ถ e o referente à interação, dado por ๐ญ(๐ฒ−๐)(๐−๐) ; ๐๐ฒ(๐−๐) ; ๐ถ . Para a interação, formulamos as seguintes hipóteses: { ๐ฏ๐ : ๐ã๐ โá ๐๐๐ก๐๐๐çã๐ ๐ฏ๐ : ๐ปá ๐๐๐ก๐๐๐çã๐ Logo, caso não se rejeito ๐ป0 , excluímos a linha tratada e adicionamos seu valor ao resíduo e então refazemos as contas. www.thmestatistica.com educacional@thmestatistica.com 90 Exercício 20: Foram observados os tempos, em segundos, gastos por 4 operários para montar certa peça, por três métodos diferentes. Cada operário montou duas peças por cada método, sendo obtidos os resultados assinalados na tabela abaixo. É considerada admissível a existência de interação entre operários e métodos. Verificar pela análise de variância se existe diferença significativa entre os métodos, operários, tratamentos, etc; com ๐ผ = 5% . Operário ๐ ๐ ๐ ๐ ๐ฐ 54 52 46 47 55 54 51 60 ๐ฐ๐ฐ 54 57 61 55 59 61 56 57 ๐ฐ๐ฐ๐ฐ 59 62 63 58 63 61 59 60 Método Resolução: Para facilitar nossos cálculos, vamos começar usando uma propriedade associada à variância, dada por: ๐ 2 (๐ฅ + ๐) = ๐ 2 (๐ฅ) Propriedade exposta no Curso de Teoria das Probabilidades Dessa forma, podemos reescrever nossa tabela, segundo ๐ = 45: Operário ๐ ๐ ๐ ๐ ๐ฐ 9 7 1 2 10 9 6 15 ๐ฐ๐ฐ 9 12 16 10 14 16 11 12 ๐ฐ๐ฐ๐ฐ 14 17 18 13 18 16 14 15 Método www.thmestatistica.com educacional@thmestatistica.com 91 Sendo assim, vamos calcular a soma de valores de método e operário: ๐๐ผ = 59 ๐1 = 68 ; ; ๐๐ผ๐ผ = 100 ๐2 = 60 ; ; ๐๐ผ๐ผ๐ผ = 125 ๐3 = 83 ; ๐4 = 73 O que implica: ๐ = (92 + 72 + 12 + โฏ + 142 + 155 ) = 3854 ๐พ ∑ ๐ ๐๐2 592 1002 1252 = + + = 3638,5 ๐๐ (4)(2) (4)(2) (4)(2) ๐ ๐๐2 682 602 832 732 ∑ = + + + = 3407 ๐พ๐ (3)(2) (3)(2) (3)(2) (3)(2) ๐ ๐พ ๐ ๐ ๐ ๐๐๐2 [(9 + 7)2 + (1 + 2)2 + โฏ + (14 + 15)2 ] ∑∑ = = 3766 ๐ 2 (100 + 125 + 59)2 ๐2 = = 3360,67 (4)(3)(2) ๐๐พ๐ Dessa forma, temos: ๐๐๐ฟ = 3638,5 − 3360,67 → ๐๐๐ฟ = 277,58 ๐๐๐ถ = 3407 − 3360,67 → ๐๐๐ถ = 43,33 ๐๐๐๐ = 3766 − 3360,67 → ๐๐๐๐ = 405,33 ๐๐๐ผ = 405,33 − 43,33 − 277,58 ๐๐๐ = 493,33 − 405,33 ๐๐๐ = 3854 − 3360,67 www.thmestatistica.com → → → ๐๐๐ผ = 81,42 ๐๐๐ = 88 ๐๐๐ = 493,33 educacional@thmestatistica.com 92 Dessa forma, vamos montar nossa tabela de análise de variância: TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio ๐ญ๐๐๐๐๐๐๐๐ Entre linhas 277,58 2 138,79 18,93 Entre colunas 46,33 3 15,44 2,11 Entre tratamentos 405,33 11 36,85 5,03 Interação 81,42 6 13,57 1,85 Residual 88 12 7,33 Total 493,33 23 21,45 Já os ๐น๐๐í๐ก são dados por: ๐น๐๐í๐ก = 3,89 , ๐๐๐๐ ๐ ๐๐๐โ๐ ๐น๐๐í๐ก = 3,49 , ๐๐๐๐ ๐ ๐๐๐๐ข๐๐ ๐น๐๐í๐ก = 2,72 , ๐๐๐๐ ๐๐ ๐ก๐๐๐ก๐๐๐๐๐ก๐๐ ๐น๐๐í๐ก ≈ 3 , ๐๐๐๐ ๐๐ ๐๐๐ก๐๐๐çõ๐๐ Perceba que, para a perspectiva da interação, não rejeito ๐ฏ๐ , pois o valor amostral é menor que o valor crítico. Dessa forma, deve-se excluir essa linha e adicioná-la ao resíduo, visto que não há interação. www.thmestatistica.com educacional@thmestatistica.com 93 TABELA DE ANÁLISE DE VARIÂNCIA Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio ๐ญ๐๐๐๐๐๐๐๐ Entre linhas 277,58 2 138,79 ๐, ๐๐ Entre colunas 46,33 3 15,44 ๐, ๐๐๐ Entre tratamentos 405,33 11 36,85 ๐, ๐๐ Residual ๐๐๐, ๐๐ 12 ๐๐, ๐๐ Total 493,33 23 21,45 Logo, podemos concluir, ao nível de 5% de significância, que há diferença entre métodos, porém não há diferenças entre operários e nem tratamentos. Conforme o conteúdo avança, é normal os exercícios evoluírem, portanto tenha calma! Resoluções grandes como essa costumam assustar, porém veja que a teoria por trás disso não passa de um teste de hipóteses! www.thmestatistica.com educacional@thmestatistica.com 94 Correlação e Regressão Correlação Linear Quando duas ou mais variáveis apresentam tendência de variação conjunta, dizemos que estas se correlacionam. Na prática, utilizamos o diagrama de dispersão para verificar de maneira rápida e eficiente a existência de correlação. Considere uma amostra com ๐ pares de variáveis (๐ฅ๐ , ๐ฆ๐ ) e um coeficiente de correlação ๐, o qual correlaciona ๐ฅ com ๐ฆ linearmente, com −1 ≤ ๐ ≤ 1. Ao representar essa amostra em um gráfico de dispersão, as seguintes configurações podem surgir: ๐ ≈ 0,6 ๐ ≈ 0,8 ๐=1 Para os casos acima, há correlação linear positiva, sendo ๐ = 1 uma correlação linear positiva perfeita. ๐ ≈ − 0,6 ๐ ≈ − 0,9 ๐ =−1 Para os casos acima, há correlação linear negativa, sendo ๐ = 1 uma correlação linear negativa perfeita. www.thmestatistica.com educacional@thmestatistica.com 95 E vale mencionar os seguintes exemplos de caso: Não há correlação linear, ๐ ≈ 0 Não há correlação linear, ๐ ≈ 0 Perceba que ๐ ≈ 0 não significa que não há correlação, mas apenas que não há correlação linear. O coeficiente de correlação linear ๐ é calculado através de três somas de quadrados: ๐ฅ em relação à ๐ฅ, ๐ฆ em relação à ๐ฆ e ๐ฅ em relação à ๐ฆ; sendo ๐ฅ a variável referente à abscissa e ๐ฆ a variável referente à ordenada. www.thmestatistica.com educacional@thmestatistica.com 96 Para ๐ฅ em relação à ๐ฅ, temos: ๐ ๐๐ฅ๐ฅ = ∑(๐ฅ๐ − ๐ฅฬ )2 ๐ ๐ ๐๐ฅ๐ฅ = ∑๐๐ ๐ฅ๐ −( ) √๐ ∑ ๐ฅ๐2 ๐ ๐ ∑ ๐๐๐ ๐ ๐บ๐๐ = 2 (∑๐๐ ๐๐ )๐ − ๐ Para ๐ฆ em relação à ๐ฆ, de maneira análoga, temos: ๐ ∑ ๐๐๐ ๐ ๐บ๐๐ = (∑๐๐ ๐๐ )๐ − ๐ E, por fim, para ๐ฅ em relação à ๐ฆ, temos: ๐ ๐บ๐๐ ∑๐๐ ๐๐ ∑๐๐ ๐๐ = ∑ ๐๐ ๐๐ − ๐ ๐ Dessa forma, temos que o coeficiente de correlação linear é dado por: ๐= ๐บ๐๐ √๐บ๐๐ ๐บ๐๐ ; −๐ ≤ ๐ ≤ ๐ Se todos os pontos se encaixam em uma reta, temos ๐ 2 = 1, ou seja, dado ๐ฅ sabemos ๐ฆ com certeza. www.thmestatistica.com educacional@thmestatistica.com 97 Exercício 21: Dada a tabela abaixo, ache o valor do coeficiente de correlação linear ๐. ๐๐ 0 1 2 3 4 5 6 ๐๐ 3 4 7 15 11 14 17 Resolução: Para facilitar nosso trabalho braçal na realização das contas, vamos verticalizar nossa tabela e adicionar as seguintes colunas: ๐๐ ๐๐ ๐๐๐ ๐๐๐ ๐ ๐ ๐๐ 0 3 0 9 0 1 4 1 16 4 2 7 4 49 14 3 15 9 225 45 4 11 16 121 44 5 14 25 196 70 6 17 36 289 102 Assim, podemos calcular as seguintes somatórias: ๐ ๐ ๐ ∑ ๐ฅ๐ = 21 ; ∑ ๐ฆ๐ = 71 ; ๐ ๐ ๐ ∑ ๐ฅ๐2 ๐ = 91 ; ∑ ๐ฆ๐2 ๐ ๐ = 905 ; ∑ ๐ฅ๐ ๐ฆ๐ = 279 ๐ E então, para as três somas de quadrados, temos: ๐๐ฅ๐ฅ = 28 ; ๐๐ฆ๐ฆ = 184,86 ; ๐๐ฅ๐ฆ = 66 Logo, o coeficiente de correlação linear será: ๐= ๐๐ฅ๐ฆ √๐๐ฅ๐ฅ ๐๐ฆ๐ฆ = 66 √(184,86)(28) ๐ = ๐, ๐๐๐ Portanto, podemos concluir que há correlação linear entre as variáveis, sendo essa elevada. Para enxergar isso de uma maneira mais pictográfica, faz-se necessária a construção de um gráfico de dispersão. www.thmestatistica.com educacional@thmestatistica.com 98 Regressão Linear Quando temos vários pontos do tipo (๐ฅ๐ , ๐ฆ๐ ), podemos criar uma reta de regressão linear do tipo ๐ฆฬ = ๐ + ๐๐ฅ, na qual ๐ฆฬ tem distribuição normal de ocorrência. 2 A reta de regressão é uma função do tipo ๐(๐, ๐) = ∑(๐ฆ๐ − ๐ฆฬ) ๐ . Dessa forma, temos que: ๐๐(๐, ๐) =0 ๐๐ ๐๐(๐, ๐) { ๐๐ = 0 Com um certo manejo algébrico, o qual não será abordado devido o nível avançado de detalhes, é possível chegar em uma expressão que determine os coeficientes ๐ e ๐, tal que: ๐= ๐บ๐๐ ๐บ๐๐ & ฬ − ๐๐ ฬ ๐= ๐ www.thmestatistica.com educacional@thmestatistica.com 99 Exercício 22: Dada a tabela abaixo, ache o valor dos coeficientes ๐ e ๐ da reta de regressão linear. ๐๐ 0 1 2 3 4 5 6 ๐๐ 3 4 7 15 11 14 17 Resolução: Vimos no exercício anterior, de tabela igual, que as três somas de quadrados são dadas por: ๐๐ฅ๐ฅ = 28 ; ๐๐ฆ๐ฆ = 184,86 ; ๐๐ฅ๐ฆ = 66 Dessa forma, podemos calcular o coeficiente ๐ primeiro: ๐= ๐๐ฅ๐ฆ ๐๐ฅ๐ฅ ๐= 66 28 ๐ ≅ ๐, ๐๐ Note que a média da variável ๐ฅ e da variável ๐ฆ são, respectivamente: ๐ฅฬ = 3 ๐ ๐ฆฬ ≅ 10,14 E assim, podemos encontrar também o coeficiente ๐: ๐ = ๐ฆฬ − ๐๐ฅฬ ๐ ≅ 10,14 − (2,36)(3) ๐ ≅ ๐, ๐๐ ฬ = ๐, ๐๐ + ๐, ๐๐๐ . Portanto, a reta formada pela regressão linear é equivalente à ๐ www.thmestatistica.com educacional@thmestatistica.com 100 Para a regressão linear, iremos manter o modo operacional visto na análise de variância, ao passo que calcularemos três variâncias amostrais: uma sobre a regressão, uma residual e uma total. Nosso teste será realizado nos mesmos moldes já vistos, isto é, comparando o valor de uma ๐น๐๐๐๐ ๐ก๐๐๐ com o valor de uma ๐น๐๐í๐ก . Nossas hipóteses são: { ๐ฏ๐ : ๐ ๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐ ã๐ ๐ã๐ é ๐ ๐๐๐๐๐๐๐๐๐ก๐๐ฃ๐ ๐๐๐๐ ๐๐ฅ๐๐๐๐๐๐ ๐ฆ ๐ฏ๐ : ๐ ๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐ ã๐ é ๐ ๐๐๐๐๐๐๐๐๐ก๐๐ฃ๐ ๐๐๐๐ ๐๐ฅ๐๐๐๐๐๐ ๐ฆ Intuitivamente, tudo o que o modelo não capta se transforma em resíduo. Assim, uma boa medição do quanto o modelo capta é o coeficiente de correlação linear, também chamado de coeficiente de Pearson, elevado ao quadrado, tal que: ๐2 = ๐๐๐๐๐çã๐ ๐๐ฅ๐๐๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐ ๐ก๐๐๐ ๐๐๐๐๐çã๐ ๐ก๐๐ก๐๐ ๐๐ = ๐บ๐ธ๐น๐๐ ๐บ๐ธ๐ป O ๐ 2 é a parte da aleatoriedade total de ๐ฆ explicada pelo modelo de regressão, sendo também expresso em percentagem. Já as somas de quadrados utilizadas para nossa tabela de análise de variância da regressão são definidas por: • Soma dos Quadrados Total: ๐ ๐๐๐ = ∑(๐ฆ๐ − ๐ฆฬ )2 → ๐๐๐ = ๐๐ฆ๐ฆ ๐ • Soma dos Quadrados de Regressão: ๐ ๐๐๐ ๐๐ = ∑(๐ฆฬ๐ − ๐ฆฬ )2 → ๐๐๐ ๐๐ = ๐ ๐๐ฅ๐ฆ ๐ • Soma dos Quadrados Residual: ๐ 2 ๐๐๐ = ∑(๐ฆ๐ − ๐ฆฬ) ๐ ๐ Calculado pela diferença dos demais ou por ๐๐ฆ๐ฆ − ๐ ๐๐ฅ๐ฆ www.thmestatistica.com educacional@thmestatistica.com 101 Logo, a Tabela de Análise de Variância da Regressão é dada por: TABELA DE ANÁLISE DE VARIÂNCIA DA REGRESSÃO Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio Regressão ๐๐๐ ๐๐ 1 Residual ๐๐๐ (๐ − 2) ๐๐ 2 = ๐๐๐ (๐ − 2) Total ๐๐๐ (๐ − 1) ๐๐2 = ๐๐๐ (๐ − 1) 2 ๐๐ ๐๐ ๐๐๐ ๐๐ = 1 ๐ญ๐๐๐๐๐๐๐๐ 2 ๐๐ ๐๐ ๐๐ 2 Ao passo que nosso valor crítico é dado por uma ๐น de Snedecor dada por ๐ญ๐ ; ๐−๐ ; ๐ถ . www.thmestatistica.com educacional@thmestatistica.com 102 Exercício 23: Dada a tabela abaixo, fazer a análise de regressão, dado ๐ผ = 5%. ๐๐ 0 1 2 3 4 5 6 ๐๐ 3 4 7 15 11 14 17 Resolução: Vimos nos dois exercícios anteriores que a soma de quadrados, assim como os coeficientes da reta de regressão são dados por: ๐๐ฅ๐ฅ = 28 ; ๐๐ฆ๐ฆ = 184,86 ; ๐๐ฅ๐ฆ = 66 ๐ = 3,06 ; ๐ = 2,36 Dessa forma, podemos construir a tabela de análise de variância da regressão, tal que: TABELA DE ANÁLISE DE VARIÂNCIA DA REGRESSÃO Fonte da Variação Soma de Quadrados Graus de Liberdade Quadrado Médio ๐ญ๐๐๐๐๐๐๐๐ Regressão 155,571 1 155,571 26,561 Residual 29,2857 5 5,85714 Total 184,857 6 30,8095 Já o ๐น๐๐๐๐ก é dado por ๐น1 ;5 ;5% = 6,61 . Dessa forma, rejeito ๐ฏ๐ , ou seja, tenho evidências estatísticas para afrimar que o modelo de regressão é significativo da correlação entre as variáveis ๐ฅ e ๐ฆ, ao nível de 5% de significância. www.thmestatistica.com educacional@thmestatistica.com 103 Podemos ainda testar alguns parâmetros para a reta de regressão feita, ao passo que: ๐ฆฬ = ๐ + ๐๐ฅ ๐๐ ๐ก๐๐๐ ๐ ๐๐๐๐๐๐๐çã๐ ๐๐๐๐ ๐ฆ = ๐ผ + ๐ฝ๐ฅ Portanto, ๐ é estimador de ๐ผ, ๐ é estimador de ๐ฝ e ๐ é estimador do parâmetro ๐. Dessa forma, podemos realizar o teste do parâmetro ๐ฝ, coeficiente angular, e o teste do parâmetro ๐, coeficiente de correlação. Teste do Parâmetro ๐ท Temos as seguintes hipóteses: { ๐ฏ๐ : ๐ฝ = 0 ๐ฏ๐ : ๐ฝ ≠ 0 Ao se rejeitar ๐ป0 , estamos afirmando que a reta de regressão é significativa para explicar a variável ๐ฆ a partir da variável ๐ฅ. Nossa variável de teste é dada por uma ๐ก − ๐ ๐ก๐ข๐๐๐๐ก, tal que: ๐ก๐๐๐๐ ๐ก๐๐๐ = ๐ ๐ ๐๐ /√๐๐ฅ๐ฅ ๐ก๐๐í๐ก = ๐ก๐−2 ;๐ผ Teste do Parâmetro ๐ Temos as seguintes hipóteses: { ๐ฏ๐ : ๐ = 0 ๐ฏ๐ : ๐ ≠ 0 Nossa variável de teste é dada por uma ๐ก − ๐ ๐ก๐ข๐๐๐๐ก, tal que: ๐ก๐๐๐๐ ๐ก๐๐๐ = ๐ √ ๐−2 1 − ๐2 ๐ www.thmestatistica.com ๐ก๐๐í๐ก = ๐ก๐−2 ;๐ผ educacional@thmestatistica.com 104 Exercício 24: Dada a tabela abaixo, fazer os dois testes apresentados para verificar se a reta é significativa, dado ๐ผ = 5%. ๐๐ 0 1 2 3 4 5 6 ๐๐ 3 4 7 15 11 14 17 Resolução: Nos exercícios anteriores, vimos que: ๐๐ฅ๐ฅ = 28 ; ๐๐ฆ๐ฆ = 184,86 ; ๐๐ฅ๐ฆ = 66 ๐ = 3,06 ๐ = 0,917 ; ; ๐ = 2,36 ๐๐ 2 = 5,85714 Dessa forma, para o teste de ๐ฝ temos: { ๐ฏ๐ : ๐ฝ = 0 ๐ฏ๐ : ๐ฝ ≠ 0 Ao passo que: ๐ก๐๐๐๐ ๐ก๐๐๐ = 2,36 √5,85714/√28 = 5,16 ๐ ๐ก๐๐í๐ก = 2,571 E para o teste de ๐ temos: { ๐ฏ๐ : ๐ = 0 ๐ฏ๐ : ๐ ≠ 0 Ao passo que: ๐ก๐๐๐๐ ๐ก๐๐๐ = 0,917 √ 5 = 5,14 1 − (0,917)2 ๐ ๐ก๐๐í๐ก = 2,571 Portanto, para ambos parâmetros rejeito ๐ฏ๐ , ou seja, afirmo ao nível de 5% de significância que a reta é significativa. www.thmestatistica.com educacional@thmestatistica.com 105 Ademais, para cada ๐ฅ๐ determinado, podemos construir um intervalo de confiança de ๐ฆ = ๐ผ + ๐ฝ๐ฅ, isto é, um intervalo de confiança do valor médio de ๐ฆ para aquele ๐ฅ๐ . Intervalo de Confiança para Regressão O intervalo de confiança de ๐ฆ dado ๐ฅ๐ que contém o valor de ๐ฆ = ๐ผ + ๐ฝ๐ฅ com (1 − ๐ผ)% de confiança, é construído conforme o procedimento visto nos capítulos anteriores e é dado por: (๐ + ๐๐ฅ๐ ) ± ๐ก๐−2 ; ๐ผ ๐๐ √1 + 2 1 (๐ฅ๐ − ๐ฅฬ )2 + ๐ ๐๐ฅ๐ฅ Intervalo de Confiança de ๐ท O intervalo de confiança de ๐ฝ é dado por: ๐ ± ๐ก๐−2 ; ๐ผ 2 ๐๐ √๐๐ฅ๐ฅ Intervalo de Confiança de ๐ถ O intervalo de confiança de ๐ผ é dado por: ๐ ± ๐ก๐−2 ; ๐ผ 2 www.thmestatistica.com ∑๐๐ ๐ฅ๐ ๐๐ √ ๐๐๐ฅ๐ฅ educacional@thmestatistica.com 106 Linearização de Funções Um procedimento útil quando não temos uma função linear e queremos testar se as variáveis são bem explicadas pelo modelo proposto é linearizar a função, ou seja, transformá-las em retas, fazer análises de correlação linear e depois regressar à forma original do modelo proposto. • Função Exponencial: A função exponencial, do tipo ๐ฆฬ = ๐๐ ๐๐ฅ , pode ser linearizada com o seguinte procedimento: ๐ฆฬ = ๐๐ ๐๐ฅ ๐๐ ๐ฆฬ = ๐๐ ๐๐ ๐๐ฅ ๐๐ ๐ฆฬ = ๐๐ ๐ + ๐๐ฅ Chamando ๐๐ ๐ฆฬ = ๐ฬ e ln ๐ = ๐ด, temos: ๐ฬ = ๐ด + ๐๐ฅ Com isso, descobrimos o coeficiente de correlação ๐, ๐ด e ๐. Em tendo uma boa correlação, isto é, ๐ elevado, podemos assumir que o modelo é significativo. Dessa forma, com ๐ด = ln ๐, podemos dimensionar ๐, assim como com ๐ฬ = ๐๐ ๐ฆฬ podemos encontrar ๐ฆฬ e, logo, podemos voltar a ๐ฆฬ = ๐๐ ๐๐ฅ já com os parâmetros conhecidos e com precisão dos erros associados ao assumir o modelo significativo. • Função Potência: A função potência, do tipo ๐ฆฬ = ๐๐ฅ ๐ , pode ser linearizada com o seguinte procedimento: ๐ฆฬ = ๐๐ฅ ๐ ๐๐ ๐ฆฬ = ๐๐ ๐ + ๐ ๐๐ ๐ฅ Chamando ๐๐ ๐ฆฬ = ๐ฬ, ln ๐ = ๐ด e ln ๐ฅ = ๐ temos: ๐ฬ = ๐ด + ๐๐ Para polinômios é muito comum fazer a chamada Análise de Regressão Múltipla (ou multidimensional), a qual não será tratada aqui! www.thmestatistica.com educacional@thmestatistica.com 107 Análise de Melhoria Quando temos um conjunto de dados e, após feita a regressão linear, obtivermos um ๐ não tão elevado, podemos verificar se há uma melhoria no modelo de regressão se utilizarmos uma parábola ๐ฆฬ = ๐ + ๐๐ฅ + ๐๐ฅ 2 no lugar de uma reta ๐ฆฬ = ๐ + ๐๐ฅ inicialmente proposta. Calcularemos, então, a soma dos quadrados de melhoria, o resíduo da parábola e também o resíduo da reta, tal que: • Soma dos Quadrados Residual da Reta: ๐๐๐ ๐ ๐๐ก๐ = ๐๐ฆ๐ฆ − ๐ ๐๐ฅ๐ฆ ๐. ๐.๐ ๐๐ก๐ = ๐ − 2 • Soma dos Quadrados Residual da Parábola: ๐๐๐ ๐๐๐á๐๐๐๐ = ∑(๐ฆ๐ − ๐ฆ๐´ ) 2 ๐. ๐.๐๐๐á๐๐๐๐ = ๐ − 3 • Soma dos Quadrados da Melhoria: ๐ท = ๐๐๐ ๐ ๐๐ก๐ − ๐๐๐ ๐๐๐á๐๐๐๐ ๐. ๐.๐ท = 1 www.thmestatistica.com educacional@thmestatistica.com 108 Dessa forma, nossas hipóteses para essa análise são: { ๐ฏ๐ : ๐ã๐ โá ๐๐๐โ๐๐ ๐๐๐ข๐ ๐ก๐ ๐๐๐ ๐๐๐๐๐ ๐๐๐๐ ๐๐๐á๐๐๐๐ ๐ฏ๐ : ๐ปá ๐๐๐โ๐๐ ๐๐๐ข๐ ๐ก๐ ๐๐๐ ๐๐๐๐๐ ๐๐๐๐ ๐๐๐á๐๐๐๐ Logo, podemos construir nossa Tabela de Análise de Melhoria, como segue abaixo: TABELA DE ANÁLISE DE MELHORIA Fonte da Variação Soma de Quadrados Graus de Liberdade Melhoria ๐ท 1 Residual da Parábola ๐๐๐ ๐๐๐á๐๐๐๐ (๐ − 3) Residual da Reta ๐๐๐ ๐ ๐๐ก๐ (๐ − 2) Quadrado Médio ๐๐ท2 = ๐๐2 = ๐ญ๐๐๐๐๐๐๐๐ ๐ท ๐๐2 ๐ท 1 ๐๐๐ ๐๐๐á๐๐๐๐ (๐ − 3) ๐๐ 2 = ๐๐๐ ๐ ๐๐ก๐ (๐ − 2) Já o valor de ๐น๐๐๐๐ก é dado por ๐ญ๐ ; ๐−๐ ; ๐ถ . Assim, ao rejeitarmos ๐ป0 podemos dizer que há melhor ajuste dos dados pela parábola. www.thmestatistica.com educacional@thmestatistica.com 109 Outros Testes Teste de Tukey e Scheffé Quando se deseja conhecer qual média ou quais médias são as divergentes acusadas pela análise de o Teste variância, ANOVA, podemos utilizar de Tukey e Scheffé. Na ANOVA, nossas hipóteses eram do tipo: { ๐ฏ๐ : ๐๐ด = ๐๐ต = ๐๐ถ = ๐ ๐ท โฏ = ๐๐พ ๐ฏ๐ : ๐ปá ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐é๐๐๐ ๐๐๐๐๐๐๐๐ก๐ Para cada duas médias comparadas ๐๐ด e ๐๐ต , analisa-se: |๐ฅฬ ๐ด − ๐ฅฬ ๐ต | > ๐๐พ ,๐ ,๐ผ √ ๐๐ 2 ๐ Onde ๐พ se refere ao número de amostras, ๐ aos graus de liberdades ๐พ(๐ − 1) e ๐ผ à significância. Já ๐ se refere ao valor da amplitude total studentizada, e seu valor é tabelado, assim como já trabalhamos até aqui. ๐2 Caso |๐ฅฬ ๐ด − ๐ฅฬ ๐ต | der maior que ๐๐พ ,๐ ,๐ผ √ ๐๐ , então ๐๐ด ≠ ๐๐ต . Do contrário, as médias são iguais. Teste de Cochran Quando se deseja comparar várias variâncias, podemos utilizar o Teste de Cochram. Nesse, nossas hipóteses são do tipo: { ๐ฏ๐ โถ ๐๐ด2 = ๐๐ต2 = ๐๐ถ2 = ๐๐ท2 โฏ = ๐๐พ2 ๐ฏ๐ โถ ๐ปá ๐๐๐๐ ๐๐๐๐๐ ๐ข๐๐ ๐ฃ๐๐๐â๐๐๐๐ ๐๐๐๐๐๐๐๐ก๐ Nossa variável de teste é uma ๐, também tabelada, dada por: ๐๐๐๐๐ ๐ก๐๐๐ ๐á๐ฅ (๐๐2 ) = 2 ∑๐พ ๐ ๐๐ ๐ ๐๐๐๐๐ก = ๐๐พ ; ๐ ; ๐ผ Onde ๐พ se refere ao número de amostras, ๐ ao número de elementos por amostra e ๐ผ à significância. www.thmestatistica.com educacional@thmestatistica.com 110 Teste de Aderência Trata-se de um teste não-paramétrico, isto é, um teste que se refere a outros aspectos que não os parâmetros em si. No teste de aderência, a hipótese testada refere-se à distribuição da população. Assim, admitimos que a distribuição da variável de interesse seja explicada por determinado modelo de distribuição de probabilidade e testamos esse modelo, verificando se há boa ou má aderência dos dados da amostra ao modelo testado. Para sua resolução, podemos adotar três métodos: o teste pelo qui-quadrado, o método de Kolmogorov-Smirnov ou a verificação gráfica da aderência. Aqui, analisaremos o teste de aderência pelo ๐ 2 . 2 2 Dessa forma, teremos um ๐๐๐๐๐ ๐ก๐๐๐ e um ๐๐๐í๐ก . O primeiro faz uso de dois valores: ๐๐๐ → ๐๐๐๐๐ ๐๐๐ ๐๐๐ฃ๐๐๐ ๐๐๐๐ ๐๐๐โ๐ ๐, ๐๐๐๐ข๐๐ ๐ ๐ธ๐๐ → ๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐๐๐๐ ๐๐๐โ๐ ๐, ๐๐๐๐ข๐๐ ๐ O valor amostral leva em conta o quadrado da diferença dos valores de ๐๐ e ๐ธ๐ , de forma a eliminar problemas com módulo e ponderar o cálculo pelo valor esperado para cada ๐ฅ๐ : ๐ 2 ๐๐๐๐๐ ๐ก๐๐๐ =∑ ๐ (๐๐ − ๐ธ๐ )2 ๐ธ๐ Já o valor crítico, no caso de uma coluna de dados, é dado por: 2 ๐๐๐í๐ก = ๐ 2๐−1 ,๐ผ www.thmestatistica.com educacional@thmestatistica.com 111 Exercício 25: Considere que um dado é lançado 600 vezes. Os resultados são expostos na tabela abaixo: ๐๐ ๐ถ๐ 1 92 2 121 3 95 4 89 5 101 6 102 Deseja-se saber, ao nível de 5% de significância, se o dado pode ser considerado honesto ou não, a partir dos resultados observados. Resolução: 1 Nesse exemplo, um dado honesto teria probabilidade igual a ๐ = 6 , para cada face. Como foram 600 lançamentos, temos: ๐๐ ๐ถ๐ ๐ฌ๐ (๐ถ๐ − ๐ฌ๐ )๐ ๐ฌ๐ 1 92 100 0,64 2 121 100 4,41 3 95 100 0,25 4 89 100 1,21 5 101 100 0,01 6 102 100 0,04 O teste tem as seguintes hipóteses: ๐ฏ : ๐ ๐๐๐๐ é โ๐๐๐๐ ๐ก๐ { ๐ ๐ฏ๐ : ๐ ๐๐๐๐ ๐ã๐ é โ๐๐๐๐ ๐ก๐ 2 2 Da tabela, inferimos que ๐๐๐๐๐ ๐ก๐๐๐ = 6,56 e sabemos que ๐๐๐í๐ก = 11,07. Portanto, não rejeito ๐ฏ๐ , ou seja, tenho evidências estatísticas para afirmar que o dado não é honesto, ao nível de 5% de significância. www.thmestatistica.com educacional@thmestatistica.com 112 Exercício 26: Um problema comum ao teste de aderência é testar a efetividade de certos medicamentos em pacientes. Seja um ensaio medicinal, no qual são testados o princípio ativo de um medicamento e um placebo, obtém-se a seguinte tabela: Placebo Princípio Ativo Melhoram 35 73 Não melhoram 28 32 Faça um teste de independência em tabela contingência. Ao nível de 5% de significância, e com base nos dados obtidos, podemos dizer que o remédio funciona? Resolução: A primeira coisa a se fazer em um teste desses é calcular a soma de cada linha, de cada coluna e a soma total de indivíduos: Placebo Princípio Ativo ∑ ๐๐๐โ๐๐ Melhoram 35 73 108 Não melhoram 28 32 60 ∑ ๐๐๐๐ข๐๐๐ 63 105 168 O cálculo do valor esperado de cada célula se dá da seguinte maneira: ๐ธ๐๐ = ๐ . ๐๐ ๐๐ . ๐ ๐ Assim: ๐ธ11 = (108)(63) = 40,5 168 ๐ธ12 = (108)(105) = 67,5 168 (60)(63) = 22,5 168 ๐ธ22 = (60)(105) = 37,5 168 ๐ธ21 = www.thmestatistica.com educacional@thmestatistica.com 113 Colocando agora o valor observado e esperado na mesma tabela: Placebo Princípio Ativo ∑ ๐๐๐โ๐๐ ๐๐ ๐ธ๐ ๐๐ ๐ธ๐ Melhoram 35 40,5 73 67,5 108 Não melhoram 28 22,5 32 37,5 60 ∑ ๐๐๐๐ข๐๐๐ 63 105 168 Dessa forma, podemos calcular nosso valor amostral: 2 ๐๐๐๐๐ ๐ก๐๐๐ (30 − 40,5)2 (73 − 67,5)2 (28 − 22,5)2 (32 − 37,5)2 = + + + 40,5 67,5 22,5 37,5 2 ๐๐๐๐๐ ๐ก๐๐๐ = 3,346 Já nosso valor crítico é, via tabela: 2 ๐๐๐í๐ก = ๐ 21 ,5% 2 ๐๐๐í๐ก = 3,84 Portanto, não rejeito ๐ฏ๐ , ou seja, não temos evidência estatística de que o princípio ativo é eficaz, isto é, diferente do placebo, ao nível de 5% de significância. www.thmestatistica.com educacional@thmestatistica.com 114