Uploaded by Davi Naves

Estatística THM-1 (1)

advertisement
Sumário
Introdução ......................................................................................................................................................................... 3
Pilares da teoria ............................................................................................................................................................ 3
Amostragem...................................................................................................................................................................... 4
Técnicas de Amostragem .............................................................................................................................................. 5
Estatística Descritiva ......................................................................................................................................................... 6
Ordenação de Dados ..................................................................................................................................................... 7
Medidas de Posição Central ........................................................................................................................................ 10
Medidas de Dispersão ................................................................................................................................................. 12
Dados Agrupados ........................................................................................................................................................ 15
Estatísticas....................................................................................................................................................................... 20
Estimadores................................................................................................................................................................. 21
Distribuições Amostrais .............................................................................................................................................. 25
Estimação de Parâmetros ............................................................................................................................................... 29
Estimação por Ponto ................................................................................................................................................... 29
Estimação por Intervalo de Confiança ........................................................................................................................ 30
Estimação por Intervalo de Confiança para Duas Populações.................................................................................... 40
Teste de Hipótese ........................................................................................................................................................... 48
Teste para a Média Populacional ................................................................................................................................ 50
Teste para a Variância Populacional ........................................................................................................................... 56
Teste para a Proporção Populacional ......................................................................................................................... 58
Teste para Duas Populações ....................................................................................................................................... 59
Anova .............................................................................................................................................................................. 69
Anova com Uma Classificação..................................................................................................................................... 71
Anova com Duas Classificações................................................................................................................................... 81
Anova com Repetições ................................................................................................................................................ 87
Correlação e Regressão ................................................................................................................................................... 95
Correlação Linear ........................................................................................................................................................ 95
Regressão Linear ......................................................................................................................................................... 99
Linearização de Funções ........................................................................................................................................... 107
Análise de Melhoria .................................................................................................................................................. 108
Outros Testes ................................................................................................................................................................ 110
Teste de Tukey e Scheffé .......................................................................................................................................... 110
Teste de Cochran ...................................................................................................................................................... 110
Teste de Aderência ................................................................................................................................................... 111
www.thmestatistica.com
educacional@thmestatistica.com
2
Introdução
Pilares da teoria
Para começarmos, é bom termos uma ideia do que vem pela frente neste curso. Nosso
objetivo é, a partir de dados coletados de uma população, poder inferir certos parâmetros e
comportamentos da mesma.
Chamamos o ramo da estatística que cuida disso de estatística inferencial (ou dedutiva).
Para estarmos aptos a utilizá-la, precisamos entender um pouco sobre três grandes assuntos:
Teoria de Probabilidades, Estatística Descritiva e Técnicas de Amostragem.
Atenção!
A Teoria de Probabilidades não será aqui abordada. Em nosso site, você encontra o material gratuito e
completo que aborda toda teoria probabilística. Ademais, em nosso canal do YouTube está disponível a
playlist Curso de Probabilidade, que dispõe de 30 videoaulas!
Seguiremos o estudo estatístico sob a base da Teoria de Probabilidades, então, não avance com dúvidas!
www.thmestatistica.com
educacional@thmestatistica.com
3
Amostragem
Aqui em estatística estamos interessados em inferir características de uma população a
partir de uma parte do todo. Na população, essas características se chamam parâmetros. Já na
parte do todo, chamada de amostra, os estimadores dos parâmetros são as chamadas estatísticas.
Vale frisar que essas estatísticas são variáveis aleatórias.
Podemos ter amostragens determinísticas e probabilísticas, a depender do setup da mesma.
Nos exercícios de prova, sempre que alguma configuração enviesar seu experimento, ele deixará
de ser probabilístico. Por exemplo:
o Amostragem Probabilística: sortear um prêmio entre 10 funcionários de uma empresa,
com uma urna contendo os nomes;
o Amostragem Determinística: sortear um prêmio entre 10 funcionários de uma empresa,
com uma urna contendo os nomes, porém os nomes foram colocados em ordem
alfabética.
Ou seja, ao colocarmos alguma condição que faça com que os elementos não tenham a
mesma probabilidade de serem escolhidos, ou possuam alguma dependência, tornamos a
amostragem enviesada e, portanto, não probabilística.
Dessa forma, definimos amostras probabilísticas como aquelas que resultam de um
processo de sorteio onde todos os elementos da população têm chance de participar da amostra,
ao passo que esse processo deve ser equiparável e independente. Essas são amostras
representativas da população de origem e, portanto, são o objeto de estudo da estatística
inferencial.
www.thmestatistica.com
educacional@thmestatistica.com
4
Técnicas de Amostragem
Amostragem Aleatória Simples
Corresponde a um sorteio equiparável e independente (análogo a uma loteria).
Amostragem Sistemática
Consiste em escolher um indivíduo aleatório na população, e posteriormente escolher os
próximos a cada enésimo indivíduo.
Amostragem Estratificada
Consiste em dividir a população em subgrupos (estratos) e, a partir disso, retirar elementos deles.
Se levar em conta não só a proporção, como também o desvio padrão, é chamada de
estratificada ótima.
Amostragem por Conglomerados
Consiste em estimar os parâmetros a partir de estatísticas já conhecidas. Como por exemplo, o
estudo da renda média da região norte do estado, baseado em estudos existentes de renda de
cidades da região.
www.thmestatistica.com
educacional@thmestatistica.com
5
Estatística Descritiva
Esse capítulo, mesmo que relativamente mais simples, é o mais importante em problemas
reais, pois através dele podemos descobrir valores importantes como médias, desvios, distribuições
e suas formas. Como você pode imaginar, iremos descrever os dados. Para isso, veremos algumas
métricas para tendência central e de dispersão, e também organizaremos os dados por meio de
diagramas, tabelas e gráficos.
Vamos começar analisandos os dados em si. Dentro de um conjunto de dados cada
indivíduo da população possui diversas características (variáveis), sendo elas classificadas da
seguinte forma:
Dessa forma, podemos separar nossas variáveis em dois grupos gerais: as variáveis
qualitativas, definidas por categorias ou atributos (por exemplo: bom, regular, ruim, péssimo); e as
variáveis quantitativas, definidas por valores numéricos (por exemplo: 10, 8, 6, 4, 2, 0). Essas
últimas serão o foco da estatística.
As variáveis quantitativas são subdivididas entre variáveis discretas e contínuas. As variáveis
discretas são aquelas que assumem valores enumeráveis. Já as variáveis contínuas são aquelas
que assumem valores num intervalo da reta real.
Podemos ainda lembrar o conceito de variáveis aleatórias. Uma variável aleatória é a função
que associa a cada ponto do espaço amostral um número real, pois como os eventos que ocorrem
em experimentos aleatórios variam, também variarão os valores numéricos que lhes são
associados. Caso haja alguma dúvida remanescente quanto a este conceito, reveja o capítulo a ele
dedicado no livro Teoria de Probabilidades.
www.thmestatistica.com
educacional@thmestatistica.com
6
Ordenação de Dados
Suponhamos que nossa variável aleatória retorne a seguinte sequência:
๐‘‹๐‘– : 1, 10, 3, 7, 15, 2, 32, 43, 5, 63, 8, 11
A primeira coisa que devemos fazer é ordenar os dados! Para um exemplo didático, uma
ordenação possível é via ordem crescente (dependendo do problema, outros tipos de ordenação
podem fazer mais sentido), ficando da seguinte forma:
๐‘‹๐‘– : 1, 2, 3, 5, 8, 10, 11, 15, 32, 43, 63
Como essa sequência possui um número ímpar de elementos (๐‘› = 11), podemos elencar
um elemento que divide a amostra em duas metades com a mesma quantidade de elementos. Esse
valor que representa o meio de uma fila ordenada é chamado de mediana de sua distribuição de
dados, e que no nosso caso é o valor 10. Em casos de ๐‘› sendo par, utilizamos a média simples
dos dois elementos centrais para descobrir a mediana.
Após a ordenação vamos representar os dados. Para esse exemplo, vamos dispersar os valores
na reta real:
Podemos perceber, via representação, uma certa aglomeração de valores abaixo de 10.
Nesse caso, os primeiros 50% dos valores obtidos estão compreendidos na faixa de 0 ๐‘Ž 10,
enquanto o restante está na faixa de 10 ๐‘Ž 65 (aproximadamente).
www.thmestatistica.com
educacional@thmestatistica.com
7
Da mesma maneira que encontramos uma medida que divide o conjunto de dados em 50%,
podemos encontrar uma medida para 25% (que seria a metade da metade). Chamamos isso de
quartil. Não veremos aqui, mas podemos fazer isso para qualquer porcentagem de interesse, por
exemplo:
10% → ๐ท๐‘’๐‘๐‘–๐‘™ , … ,
๐‘% → ๐‘ − ๐‘ž๐‘ข๐‘Ž๐‘Ÿ๐‘ก๐‘–๐‘™
Os quartis serão abordados para introduzir uma representação chamada box-plot (ou diagrama de caixa).
Para o exemplo dado, os quartis saem quase que de maneira direta, pois as metades tem
número ímpar de elementos:
Até o 1º quartil você tem 25% dos dados, até o 2º quartil, conhecido também como mediana,
50% dos dados, e até o 3º quartil 75% dos dados.
Caso o número de elementos das metades seja par, há algumas maneiras de calcular os
quartis. Como por exemplo, incluindo a mediana nas metades; excluindo a mediana nas metades
ou até com fórmulas com ponderações.
Não veremos aqui isso, uma vez que há diferentes maneiras de definir os quartis e nosso foco é na representação
dos dados!
www.thmestatistica.com
educacional@thmestatistica.com
8
Para aproveitar a digressão feita, vamos fazer um breve aprofundamento no conceito de
box-plot, a fim de concretizar os conceitos vistos até aqui. Porém, não se preocupe se achar
superficial, iremos discorrer esse conceito melhor mais adiante.
O box-plot é uma maneira de representar os dados dando ideia de posição central (via ๐‘€๐‘‘)
e de dispersão. Entre Q1 e Q2 desenhamos uma caixa. Nela estão contidos 50% dos dados. No
resto fazemos linhas até as extremidades.
Alguns softwares já incluem condições de definição de outliers (valores atípicos da amostra), não veremos isso aqui
também.
Essa representação nos dá ideia de assimetria, em relação à posição central e espalhamento
dos dados. A parte de análise crítica via box-plots, possíveis tendências e comparações será
abordada posteriormente. Mesmo que no âmbito da disciplina isso não seja cobrado, guarde no
coração essas ferramentas da parte descritiva. Na prática elas são as que costumam resolver boa
parte das incertezas iniciais ou qualquer projeto que envolva análise de dados.
Ainda se tratando de representação de dados, podemos elencar as tabelas de frequências,
histogramas e gráficos de barra e de pizza como representações usuais interessantes, que podem
aparecer em problemas práticos.
www.thmestatistica.com
educacional@thmestatistica.com
9
Medidas de Posição Central
As medidas de posição central servem para estimar o valor do meio da sua base de dados.
Sendo elas:
•
Moda (๐‘ด๐’): É o valor que ocorre com maior frequência no seu conjunto de dados.
•
Mediana (๐‘ด๐’…): Também conhecida como 2º quartil, é o valor do elemento do centro de uma
fila, dividindo os dados pela metade.
•
ฬ…): É o centro de gravidade de um conjunto de dados.
Média (๐’™
É calculada da seguinte forma, onde ๐‘ฅ๐‘– = ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž e ๐‘› = ๐‘ก๐‘Ž๐‘š๐‘Ž๐‘›โ„Ž๐‘œ ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž:
∑ni xi
xฬ… =
n
Porém, é importante já explicitarmos a diferença de notação que pode vir a causar dúvidas.
Utilizamos ๐‘ฅฬ… para representar a média amostral dos dados, enquanto µ é utilizado para representar
a média populacional dos dados (notação usada em probabilidade).
Vamos a um exemplo prático de aplicação desse conceito. Considere o seguinte conjunto
de dados, já em ordem crescente:
๐‘‹๐‘– : 1, 3, 5, 10, 15, 21, 35, 40, 50, 1.000.000
Note que 1.000.000 é um valor discrepante em relação aos demais. A ele atribuímos o nome
outlier. Dito isso, vamos calcular a média e a mediana segundo suas definições:
๐‘ฅฬ… =
1.000.180
15 + 21
= 100.180 ๐‘’ ๐‘€๐‘‘ =
= 18
10
2
www.thmestatistica.com
educacional@thmestatistica.com
10
Nesse caso ๐‘ฅฬ… não representa bem o conjunto de dados, uma vez que não há valores na
vizinhança dele. Utilizaremos ๐‘ฅฬ… para a parte inferencial da estatística, porém é bom se atentar para
o caso de outliers, ao passo que um valor discrepante não afeta a mediana.
Para evitar o problema comentado sobre a vizinhança de ๐‘ฅฬ… deve-se avaliar as medidas de
posição e dispersão apenas após de fazer o histograma (gráfico de barras com as frequências em
função dos valores da variável aleatória). Por exemplo:
Para o exemplo acima, note que os dados provêm de duas populações diferentes com
distribuições aproximadamente normais, então seria interessante tratá-las separadamente, cada
uma com sua média. Caso contrário, a análise seira mal feita pelo uso não representativo de ๐‘ฅฬ… .
www.thmestatistica.com
educacional@thmestatistica.com
11
Medidas de Dispersão
No estudo das medidas de posição central, percebemos que é necessário sabermos também
a dispersão associada ao nosso conjunto de dados. Para isso, existem medidas de dispersão que
nos auxiliam nesse contexto. São elas:
•
Amplitude (๐‘จ): É a diferença entre o valor máximo e o valor mínimo dos seus dados.
๐ด = ๐‘ฅ๐‘šá๐‘ฅ − ๐‘ฅ๐‘š๐‘–๐‘›
Apesar de dar a ideia de espalhamento dos dados, não é um bom parâmetro devido a
existência de outliers, já que podem existir conjuntos com mesma amplitude, porém com um deles
acumulando mais elementos perto de um mesmo valor, como indica a imagem abaixo.
•
Desvio Médio (๐‘ซ๐‘ด): É a soma dos desvios (๐‘‘๐‘– ), ponderado pelo número de dados. É calculado
pela expressão abaixo, onde ๐‘‘๐‘– = ๐‘‘๐‘’๐‘ ๐‘ฃ๐‘–๐‘œ ๐‘‘๐‘’ ๐‘๐‘Ž๐‘‘๐‘Ž ๐‘‘๐‘Ž๐‘‘๐‘œ, ๐‘› = ๐‘ก๐‘Ž๐‘š๐‘Ž๐‘›โ„Ž๐‘œ ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž, ๐‘ฅ๐‘– =
๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž e ๐‘ฅฬ… = ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘ .
∑๐‘›๐‘– ๐‘‘๐‘–
๐ท๐‘€ =
๐‘›
๐‘ก๐‘Ž๐‘™ ๐‘ž๐‘ข๐‘’ ๐‘‘๐‘– = |๐‘ฅ๐‘– − ๐‘ฅฬ… |
Não é um parâmetro tão bom de se trabalhar e fazer contas devido ao uso do módulo para o cálculo de cada
desvio, por isso damos preferência para a variância.
www.thmestatistica.com
educacional@thmestatistica.com
12
•
Variância Amostral (๐‘บ๐Ÿ ): É a soma dos desvios (๐‘‘๐‘– ) quadráticos, ponderado pelo número de
dado menos 1. Pode ser calculada pela expressão abaixo, onde ๐‘ฅ๐‘– = ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž, ๐‘ฅฬ… =
๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  e ๐‘› = ๐‘ก๐‘Ž๐‘š๐‘Ž๐‘›โ„Ž๐‘œ ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž.
∑๐‘›๐‘–(๐‘ฅ๐‘– − ๐‘ฅฬ… )2
๐‘† =
๐‘›−1
2
É interessante utilizar uma formula de ๐‘† 2 alternativa, onde não é necessário o cálculo de ๐‘ฅฬ… , e é mais utilizada na
prática.
๐‘†2 =
(∑๐‘›๐‘– ๐‘ฅ๐‘– )2
๐‘›
๐‘›−1
∑๐‘›๐‘– ๐‘ฅ๐‘– 2 −
Para um mesmo conjunto de dados, note a relação entre a variância amostral e o desvio médio:
Assim como a média, a variância pode vir a causar dúvidas quanto a sua notação. Porém o
raciocínio é análogo ao visto para o conceito de média. Utilizamos ๐‘†² para representar a variância
amostral dos dados, enquanto ๐œŽ 2 é usado para representar a variância populacional dos dados.
Essa última, vista no estudo de probabilidades, tem fórmula parecida com a variância amostral, ao
passo que difere apenas no denominador ๐‘›.
Percebe-se que a unidade da variância vai estar elevado ao quadrado da unidade que você
estiver trabalhando, o que não faz muito sentido para uma análise, e para isso existe o desvio
padrão.
www.thmestatistica.com
educacional@thmestatistica.com
13
•
Desvio Padrão Amostral (๐‘บ): É a raiz da variância.
๐‘† = √๐‘† 2
Trabalhar com a unidade original do que se está medindo pode vir a ser vantajoso, para isso,
utilizamos o desvio padrão amostral. Porém, cuidado! O desvio padrão deve ser calculado sempre
como consequência da raiz da variância. Não é para se fazer operações utilizando o desvio padrão.
Vamos sempre calcular a variância e, posteriormente, o desvio padrão, a partir da operação de raiz
quadrada.
Para o desvio padrão populacional (๐œŽ) a ideia é a mesma.
•
Coeficiente de Variação (๐‘ช๐‘ฝ): É o desvio padrão ponderado pela média, dado em
porcentagem.
๐‘†
๐ถ๐‘‰ = 100 ( )
๐‘ฅฬ…
É um parâmetro interessante por ser adimensional e dar uma ideia do quanto seus dados
variam em relação a sua média.
•
Distância Interquartil (๐‘ซ๐‘ฐ๐‘ธ): É a diferença entre o terceiro quartil (Q3 ) e o primeiro quartil (Q1 ).
Graficamente, podemos visualizar como sendo o tamanho da caixa do box-plot, que representa
a amplitude entre 50% dos dados.
๐ท๐ผ๐‘„ = ๐‘„3 − ๐‘„1
www.thmestatistica.com
educacional@thmestatistica.com
14
Dados Agrupados
Veremos agora como definir essas medidas em dados agrupados. Assim, a partir de tabelas
de frequência chegaremos em ๐‘ฅฬ… , ๐‘† 2 , ๐‘€๐‘‘ ๐‘’ ๐‘€๐‘œ. E para cada uma dessas grandezas, iremos explorar
tanto o caso discreto quanto o caso contínuo.
•
ฬ…) e Variância (๐‘บ๐Ÿ ):
Média (๐’™
o Variável Discreta: Considere a tabela de frequências abaixo.
๐’™๐’Š
๐’‡๐’Š
0
5
1
8
2
15
3
13
4
6
Calculamos a média e a variância segundo a definição vista anteriormente, tal que:
xฬ… =
∑n
i xi
n
=
∑๐‘›
๐‘– ๐‘ฅ๐‘– ๐‘“ ๐‘–
∑๐‘›
๐‘– ๐‘“๐‘–
e
๐‘†2 =
2
∑๐‘›
๐‘– ๐‘ฅ๐‘–
(∑๐‘› ๐‘ฅ )2
− ๐‘–๐‘›๐‘–
๐‘›−1
2
∑๐‘›
๐‘– ๐‘ฅ๐‘– ๐‘“ ๐‘– −
=
2
(∑๐‘›
๐‘– ๐‘ฅ๐‘– ๐‘“๐‘– )
∑๐‘› ๐‘“๐‘–
๐‘–
∑๐‘›
๐‘– ๐‘“๐‘– −1
Eu sei que podem parecer fórmulas assustadoras, mas vamos explorar o problema com calma!
Vamos, então, alongar nossa tabela, considerando operações interessantes no cálculo das
grandezas requisitadas, tal que:
๐’™๐’Š
๐’‡๐’Š
๐’™๐’Š ๐’‡๐’Š
๐’™๐’Š ๐Ÿ ๐’‡๐’Š
0
5
0
0
1
8
8
8
2
15
30
60
3
13
39
117
4
6
24
96
∑ ๐‘“๐‘– = 47
∑ ๐‘ฅ๐‘– ๐‘“๐‘– = 101
∑ ๐‘ฅ๐‘– 2 ๐‘“๐‘– = 281
Assim, a média e a variância podem ser dimensionadas de maneira mais prática:
๐‘ฅฬ… =
101
47
= 2,149 e ๐‘† 2 =
www.thmestatistica.com
281−
(101)2
47
46
= 1,390
educacional@thmestatistica.com
15
o
Variável Contínua: Considere a tabela de frequências abaixo.
๐‘ฐ๐’๐’•๐’†๐’“๐’—๐’‚๐’๐’๐’” ๐’…๐’† ๐’„๐’๐’‚๐’”๐’”๐’†
๐’‡๐’Š
0 ๐‘Ž 10
5
10 ๐‘Ž 20
8
20 ๐‘Ž 30
13
30 ๐‘Ž 40
8
40 ๐‘Ž 50
2
Para esse caso, definiremos arbitrariamente ๐‘ฅ๐‘– como o valor do meio do intervalo, assim
teremos uma tabela semelhante à de variáveis discretas.
๐‘ฐ๐’๐’•๐’†๐’“๐’—๐’‚๐’๐’๐’” ๐’…๐’† ๐’„๐’๐’‚๐’”๐’”๐’†
๐’‡๐’Š
๐’™๐’Š
๐’™๐’Š ๐’‡๐’Š
๐’™๐’Š ๐Ÿ ๐’‡๐’Š
0 ๐‘Ž 10
5
5
25
125
10 ๐‘Ž 20
8
15
120
1800
20 ๐‘Ž 30
13
25
325
8125
30 ๐‘Ž 40
8
35
280
9800
40 ๐‘Ž 50
2
45
90
4050
∑ ๐‘ฅ๐‘– ๐‘“๐‘– = 840
∑ ๐‘ฅ๐‘– 2 ๐‘“๐‘– = 23900
∑ ๐‘“๐‘– = 36
Assim, a média e a variância podem ser dimensionadas como vimos para o caso discreto:
840
๐‘ฅฬ… =
36
๐‘’ ๐‘†2 =
23900 −
(840)2
36
35
๐‘ฅฬ… = 23,33 ๐‘’ ๐‘† 2 = 122,85
www.thmestatistica.com
educacional@thmestatistica.com
16
•
Mediana (๐‘ด๐’…):
o Variável Discreta: Considere a tabela de frequências abaixo.
๐’™๐’Š
๐’‡๐’Š
0
7
1
15
2
20
3
6
4
2
5
1
∑ ๐‘“๐‘– = 51
Com ๐‘› = 51, ๐‘€๐‘‘ é o 26º termo. Para identificarmos ele, iremos construir uma terceira
coluna com as frequências acumuladas.
๐’™๐’Š
๐’‡๐’Š
๐‘ญ๐’‚๐’„๐’–๐’Ž
0
7
7
1
15
22
2
20
42
3
6
48
4
2
50
5
1
51
∑ ๐‘“๐‘– = 51
∑ ๐น๐‘Ž๐‘๐‘ข๐‘š = 51
A partir da frequência acumulada, podemos perceber que que o 26º termo está em ๐‘ฅ๐‘– = 2.
Logo, ๐‘€๐‘‘ = 2.
www.thmestatistica.com
educacional@thmestatistica.com
17
o Variável Contínua: Nesse caso, plotamos um gráfico com os valores de ๐น๐‘Ž๐‘๐‘ข๐‘š por ๐‘ฅ,
supondo arbitrariamente crescimento linear.
๐‘ฐ๐’๐’•๐’†๐’“๐’—๐’‚๐’๐’๐’” ๐’…๐’† ๐’„๐’๐’‚๐’”๐’”๐’†
๐’‡๐’Š
๐‘ญ๐’‚๐’„๐’–๐’Ž
0 ๐‘Ž 10
7
7
10 ๐‘Ž 20
15
22
20 ๐‘Ž 30
20
42
30 ๐‘Ž 40
6
48
40 ๐‘Ž 50
2
50
50 ๐‘Ž 60
1
51
∑ ๐‘“๐‘– = 51
∑ ๐น๐‘Ž๐‘๐‘ข๐‘š = 51
Com o gráfico feito, para variável contínua, pegamos o valor em ๐‘ฅ para que:
๐น๐‘Ž๐‘๐‘ข๐‘š =
๐‘›
51
=
= 25,5
2
2
๐‘€๐‘‘ = 25,5
Em variáveis discretas pegamos o termo central, aqui o valor correspondente à metade da frequência total.
www.thmestatistica.com
educacional@thmestatistica.com
18
•
Moda (๐‘ด๐’):
o Variável Discreta: Para uma tabela de frequências, o resultado sai direto, pois é apenas
o termo com maior frequência.
๐’™๐’Š
๐’‡๐’Š
0
7
1
18
2
23
3
15
4
2
5
1
Assim, concluímos que ๐‘€๐‘œ = 2.
o Variável Contínua: Nesse caso a moda estará, por convenção, dentro da classe modal.
Não é o valor do meio da classe!
๐‘ฐ๐’๐’•๐’†๐’“๐’—๐’‚๐’๐’๐’” ๐’…๐’† ๐’„๐’๐’‚๐’”๐’”๐’†
๐’‡๐’Š
0 ๐‘Ž 10
7
10 ๐‘Ž 20
18
20 ๐‘Ž 30
23
30 ๐‘Ž 40
15
40 ๐‘Ž 50
2
50 ๐‘Ž 60
1
Assim, concluímos que ๐ถ๐‘™๐‘Ž๐‘ ๐‘ ๐‘’ ๐‘€๐‘œ๐‘‘๐‘Ž๐‘™ = 20 ๐‘Ž 30. Podemos visualizar essa relação segundo
o histograma abaixo.
Isso não equivale a pegar o valor do meio do intervalo. Deve haver a ponderação das frequências da classe
modal com a anterior e a próxima.
www.thmestatistica.com
educacional@thmestatistica.com
19
Estatísticas
Veremos agora o estudo acerca de estimadores. Para isso, vamos começar entendendo a
diferença entre um parâmetro, um estimador e uma estimativa. Parâmetros são genéricos, isto é,
são dados de uma população ou de uma amostra. Já os estimadores se referem a parâmetros
amostrais, os quais são utilizados como aproximação de um parâmetro populacional, como por
exemplo, ๐‘ฅฬ… é um estimador para ๐œ‡. Por fim, estimativas são os valores assumidos por um estimador,
como por exemplo, se em nossa amostra a média amostral resultou um valor de 10, então esse
valor é uma estimativa para a média populacional.
www.thmestatistica.com
educacional@thmestatistica.com
20
Estimadores
Vamos, então, ver quais critérios os estimadores que usamos em estatística devem cumprir
para serem os melhores estimadores dos parâmetros. Por exemplo, justificaremos o uso da média
amostral (๐‘ฅฬ… ) para estimar µ e não, por exemplo, a amplitude dividida por 2 (A⁄2) para estimar esse
parâmetro.
Imaginemos um parâmetro θ. Seu estimador é representado por θฬ‚ (a notação chapéu é
usada para indicar o estimador de um parâmetro) e deve atender os seguintes critérios:
•
Justeza:
Dizemos que ๐œƒฬ‚ é estimador justo de ๐œƒ, se a média do estimador for igual ao valor do
parâmetro, isto é:
๐œ‡(๐œƒฬ‚) = ๐œƒ
Por exemplo, vamos ver se ๐‘ฅฬ… é um estimador justo de µ:
∑๐‘›๐‘– ๐‘ฅ๐‘–
๐‘ฅฬ… =
๐‘›
๐‘’ ๐‘๐‘œ๐‘Ÿ๐‘ก๐‘Ž๐‘›๐‘ก๐‘œ ๐‘ฅฬ… =
๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + โ‹ฏ + ๐‘ฅ๐‘›
๐‘›
Assim:
๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + โ‹ฏ + ๐‘ฅ๐‘›
)
๐œ‡(๐‘ฅฬ… ) = ๐œ‡ (
๐‘›
๐œ‡(๐‘ฅฬ… ) =
๐œ‡(๐‘ฅฬ… ) =
1
๐œ‡(๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + โ‹ฏ + ๐‘ฅ๐‘› )
๐‘›
1
[ ๐œ‡(๐‘ฅ1 ) + ๐œ‡(๐‘ฅ2 ) + ๐œ‡(๐‘ฅ3 ) + โ‹ฏ + ๐œ‡(๐‘ฅ๐‘› ) ]
๐‘›
๐œ‡(๐‘ฅฬ… ) =
1
. ๐‘› . ๐œ‡(๐‘ฅ)
๐‘›
๐œ‡(๐‘ฅฬ… ) = ๐œ‡(๐‘ฅ)
www.thmestatistica.com
∴
๐ฝ๐‘ข๐‘ ๐‘ก๐‘œ!
educacional@thmestatistica.com
21
•
Consistência:
Dizemos que ๐œƒฬ‚ é um estimador consistente de ๐œƒ, se:
lim ๐œŽ 2 (๐œƒฬ‚) = 0
๐‘› → +∞
Por exemplo, vamos ver se ๐‘ฅฬ… é um estimador consistente de µ:
๐‘ฅฬ… =
∑๐‘›๐‘– ๐‘ฅ๐‘–
๐‘›
๐‘’ ๐‘๐‘œ๐‘Ÿ๐‘ก๐‘Ž๐‘›๐‘ก๐‘œ
๐‘ฅฬ… =
๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + โ‹ฏ + ๐‘ฅ๐‘›
๐‘›
Assim:
๐œŽ 2 (๐‘ฅฬ… ) = ๐œŽ 2 [
๐œŽ 2 (๐‘ฅฬ… ) =
๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + โ‹ฏ + ๐‘ฅ๐‘›
]
๐‘›
1
[ ๐œŽ 2 (๐‘ฅ1 ) + ๐œŽ 2 (๐‘ฅ2 ) + ๐œŽ 2 (๐‘ฅ3 ) + โ‹ฏ + ๐œŽ 2 (๐‘ฅ๐‘› ) ]
2
๐‘›
๐œŽ 2 (๐‘ฅฬ… ) =
1 2
๐œŽ (๐‘ฅ)
๐‘›
O que implica:
lim ๐œŽ 2 (๐‘ฅฬ… ) = 0
๐‘› → +∞
∴
www.thmestatistica.com
๐ถ๐‘œ๐‘›๐‘ ๐‘–๐‘ ๐‘ก๐‘’๐‘›๐‘ก๐‘’ !
educacional@thmestatistica.com
22
•
Eficiência:
No caso de dois estimadores (ambos justos e consistentes) para o mesmo parâmetro, o
estimador com menor desvio padrão (๐œŽ(๐œƒฬ‚)), para um mesmo ๐‘›, será o mais eficiente. Veja a tabela
e a imagem que explicita essa relação entre dois estimadores.
๐‘€๐‘’๐‘›๐‘œ๐‘  ๐‘’๐‘“๐‘–๐‘๐‘–๐‘’๐‘›๐‘ก๐‘’
๐‘€๐‘Ž๐‘–๐‘  ๐‘’๐‘“๐‘–๐‘๐‘–๐‘’๐‘›๐‘ก๐‘’
๐ธ๐‘›๐‘ฃ๐‘–๐‘’๐‘ ๐‘Ž๐‘‘๐‘œ๐‘ 
๐‘ฐ
๐‘ฐ๐‘ฐ
๐ฝ๐‘ข๐‘ ๐‘ก๐‘œ๐‘ 
๐‘ฐ๐‘ฐ๐‘ฐ
๐‘ฐ๐‘ฝ
๐ธ๐‘ ๐‘ก๐‘–๐‘š๐‘Ž๐‘‘๐‘œ๐‘Ÿ๐‘’๐‘ 
www.thmestatistica.com
educacional@thmestatistica.com
23
Exercício 1:
Verifique qual o melhor estimador de ๐œ‡(๐‘ฅ):
๐‘ฅ๐‘– : ๐‘ฅ1 , ๐‘ฅ2 , ๐‘ฅ3 , ๐‘ฅ4 , ๐‘ฅ5
๐ผ. ๐œƒฬ‚1 = ๐‘ฅ1
๐ผ๐ผ. ๐œƒฬ‚2 =
1
(๐‘ฅ + ๐‘ฅ5 )
2 1
๐ผ๐ผ๐ผ. ๐œƒฬ‚3 =
1
(๐‘ฅ + ๐‘ฅ2 + ๐‘ฅ3 + ๐‘ฅ4 + ๐‘ฅ5 )
5 1
๐ผ๐‘‰. ๐œƒฬ‚4 =
1
(๐‘ฅ + 2๐‘ฅ5 )
2 1
Resolução:
Justeza
๐ผ. ๐œ‡(๐œƒฬ‚1 ) = ๐œ‡(๐‘ฅ1 ) = ๐œ‡(๐‘ฅ) ∴ ๐ฝ๐‘ข๐‘ ๐‘ก๐‘œ
1
1
1
๐ผ๐ผ. ๐œ‡(๐œƒฬ‚2 ) = ๐œ‡ ( (๐‘ฅ1 + ๐‘ฅ5 )) = ๐œ‡(๐‘ฅ1 + ๐‘ฅ5 ) = . 2 . ๐œ‡(๐‘ฅ) = ๐œ‡(๐‘ฅ) ∴ ๐ฝ๐‘ข๐‘ ๐‘ก๐‘œ
2
2
2
1
1
๐ผ๐ผ๐ผ. ๐œ‡(๐œƒฬ‚3 ) = ๐œ‡ ( (๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + ๐‘ฅ4 + ๐‘ฅ5 )) = . 5 . ๐œ‡(๐‘ฅ) = ๐œ‡(๐‘ฅ) ∴ ๐ฝ๐‘ข๐‘ ๐‘ก๐‘œ
5
5
1
1
1
3
[ ๐œ‡(๐‘ฅ) + 2๐œ‡(๐‘ฅ) ] = โ‹ฏ = ๐œ‡(๐‘ฅ) ∴ ๐‘ã๐‘œ ๐‘—๐‘ข๐‘ ๐‘ก๐‘œ
๐ผ๐‘‰. ๐œ‡(๐œƒฬ‚4 ) = ๐œ‡ ( (๐‘ฅ1 + 2๐‘ฅ5 )) = ๐œ‡(๐‘ฅ1 + 2๐‘ฅ5 ) =
2
2
2
2
Consistência
๐ผ. ๐œŽ 2 (๐œƒฬ‚1 ) = ๐œŽ 2 (๐‘ฅ1 ) = ๐œŽ 2 (๐‘ฅ)
1
1
2
1 2
๐ผ๐ผ. ๐œŽ 2 (๐œƒฬ‚2 ) = ๐œŽ 2 ( (๐‘ฅ1 + ๐‘ฅ5 )) = ๐œŽ 2 (๐‘ฅ1 + ๐‘ฅ5 ) = ๐œŽ 2 (๐‘ฅ) = โ‹ฏ =
๐œŽ (๐‘ฅ)
2
4
4
2
1
1
๐ผ๐ผ๐ผ. ๐œŽ 2 (๐œƒฬ‚3 ) = ๐œŽ 2 ( (๐‘ฅ1 + ๐‘ฅ2 + ๐‘ฅ3 + ๐‘ฅ4 + ๐‘ฅ5 )) = ๐œŽ 2 (๐‘ฅ)
5
5
ฬ‚ ๐Ÿ‘ , sendo ele o melhor estimador
O estimador, dentre os justos, com menor desvio padrão foi ๐œฝ
de ๐œ‡(๐‘ฅ), dentre os fornecidos.
www.thmestatistica.com
educacional@thmestatistica.com
24
Distribuições Amostrais
Após estudarmos os critérios relacionados à escolha de estimadores, vamos nos aprofundar
agora em como as estatísticas se distribuem, ou seja, qual é a cara da função densidade de
probabilidade dos principais estimadores, assim como suas respectivas médias e variâncias.
Vale lembrar que a ๐‘“. ๐‘‘. ๐‘. é aquela na qual sua integral definida em um intervalo da variável
๐‘‹ retorna a probabilidade associada a esse evento, como indica a imagem abaixo.
www.thmestatistica.com
educacional@thmestatistica.com
25
•
ฬ…:
Distribuição de ๐’™
A média amostral possui uma distribuição normal. E, para definirmos uma distribuição desse
tipo, precisamos de ๐œ‡(๐‘ฅฬ… ) e ๐œŽ 2 (๐‘ฅฬ… ). Nesse caso, já havíamos calculado:
๐œ‡(๐‘ฅฬ… ) = ๐œ‡(๐‘ฅ)
๐œŽ 2 (๐‘ฅฬ… ) =
๐œŽ 2 (๐‘ฅ)
๐‘›
Se a amostragem é sem reposição e a população é infinita, então: ๐œŽ 2 (๐‘ฅฬ… ) =
๐œŽ 2 (๐‘ฅ)
๐‘›
.(
๐‘−๐‘›
๐‘−1
) , com ๐‘› =
๐‘›ú๐‘š๐‘’๐‘Ÿ๐‘œ ๐‘‘๐‘’ ๐‘’๐‘ฅ๐‘ก๐‘Ÿ๐‘Žçõ๐‘’๐‘  e ๐‘ = ๐‘ก๐‘Ž๐‘š๐‘Ž๐‘›โ„Ž๐‘œ ๐‘‘๐‘Ž ๐‘๐‘œ๐‘๐‘ข๐‘™๐‘Žçã๐‘œ.
•
ฬ‚:
Distribuição de ๐’‘
A proporção possui distribuição binomial. Sua média e variância, calculadas a partir de sua
definição, são dadas por:
๐œ‡(๐‘ฬ‚ ) = ๐‘
๐œŽ 2 (๐‘ฬ‚ ) =
๐‘(1 − ๐‘)
๐‘›
Quando ๐‘›๐‘ > 5 ๐‘’ ๐‘›(1 − ๐‘) > 5, a distribuição binomial se aproxima de uma distribuição normal. Validade essa
demonstrada a partir do Teorema do Limite Central. Essa aproximação pode ser otimizada através do conceito de
Correção de Continuidade, o qual não será abordado por aqui.
www.thmestatistica.com
educacional@thmestatistica.com
26
•
Distribuição de ๐‘บ² :
Reescreveremos ๐‘† 2 de maneira conveniente para enxergarmos sua distribuição:
๐‘†2 =
∑๐‘›๐‘–(๐‘ฅ๐‘– − ๐‘ฅฬ… )2
๐‘›−1
๐‘†2 =
→
๐‘›
๐œŽ 2 ∑๐‘›๐‘–(๐‘ฅ๐‘– − ๐‘ฅฬ… )2
๐œŽ2
๐‘›−1
๐‘›
๐œŽ2
๐‘ฅ๐‘– − ๐‘ฅฬ… 2
๐‘† =
∑[
]
๐‘›−1
๐œŽ
2
→
๐‘–
๐œŽ2
๐‘† =
∑ ๐‘ง๐‘– 2
๐‘›−1
2
๐‘–
Como ๐œŽ 2 e (๐‘› – 1) são constantes, ๐‘† 2 tem distribuição qui-quadrado multiplicada pelo
escalar
๐œŽ2
. A distribuição qui-quadrado (๐›˜๐Ÿ ) é calculada como uma soma de variáveis normais
๐‘›−1
padrão ao quadrado, e depende do número de graus de liberdade (๐œˆ).
๐œ‡(๐œ’๐œˆ2 ) = ๐œˆ ๐‘’ ๐œŽ2 (๐œ’๐œˆ2 ) = 2๐œˆ
www.thmestatistica.com
educacional@thmestatistica.com
27
Assim, temos que:
๐‘†
2
๐œŽ2
=
๐œ’2
๐‘› − 1 ๐‘›−1
Vamos checar a justeza e a consistência de ๐‘† 2 . Sua justeza é dada por:
๐œ‡(๐‘† 2 ) = ๐œ‡ [
๐œ‡(๐‘† 2 ) =
๐œŽ2 2
๐œ’ ]
๐‘› − 1 ๐‘›−1
๐œŽ2
๐œˆ
๐‘›−1
๐œ‡(๐‘† 2 ) =
→
๐œ‡(๐‘† 2 ) =
→
๐œŽ2
2 )
๐œ‡(๐œ’๐‘›−1
๐‘›−1
๐œŽ2
(๐‘› − 1)
(๐‘› − 1)
๐œ‡(๐‘† 2 ) = ๐œŽ 2
Já sua consistência é dada por:
๐œŽ2
๐œŽ 2 (๐‘† 2 ) = ๐œŽ 2 [
๐œ’2 ]
๐‘› − 1 ๐‘›−1
๐œŽ
2 (๐‘† 2 )
→
๐œŽ 2 (๐‘† 2 ) =
๐œŽ4
2 )
๐œŽ 2 (๐œ’๐‘›−1
(๐‘› − 1)2
๐œŽ4
๐œŽ4
(2๐œˆ)
[2(๐‘› − 1)]
=
= โ‹ฏ=
(๐‘› − 1)2
(๐‘› − 1)2
๐œŽ 2 (๐‘† 2 ) =
www.thmestatistica.com
2๐œŽ 4
๐‘›−1
educacional@thmestatistica.com
28
Estimação de Parâmetros
Para nos ajudar na inferência de dados, os parâmetros da população são necessários.
Porém, em muitos casos, esses parâmetros são desconhecidos e, assim, precisamos estimá-los a
partir das estatísticas fornecidas pelas amostras.
Veremos aqui duas maneiras de estimar parâmetros a partir dos estimadores selecionados:
a estimação por ponto e a estimação por intervalo de confiança.
Estimação por Ponto
Essa estimação consiste em substituir/utilizar o valor obtido de um estimador justo, isto é, a
estimativa, no lugar do parâmetro. Portanto:
๐ธ๐‘ ๐‘ก๐‘–๐‘š๐‘Ž
๐‘ฅฬ… →
๐ธ๐‘ ๐‘ก๐‘–๐‘š๐‘Ž
๐‘†2 →
๐œ‡(๐‘ฅ)
๐œŽ 2 (๐‘ฅ)
๐ธ๐‘ ๐‘ก๐‘–๐‘š๐‘Ž
๐‘ฬ‚ →
www.thmestatistica.com
๐‘
educacional@thmestatistica.com
29
Estimação por Intervalo de Confiança
Apesar de prática, a estimação por ponto está sempre associada a um certo erro, visto que,
embora próximas, as estimativas são diferentes do valor do parâmetro. Assim, para termos uma
ideia melhor acerca do erro de estimação, construímos um intervalo de confiança em torno da
estimativa, ou seja, a ideia é definir um intervalo que contenha o parâmetro desejado com uma
confiança associada.
Todo intervalo de confiança conta com dois parâmetros importantes, são eles:
๐›ผ = ๐‘ ๐‘–๐‘”๐‘›๐‘–๐‘“๐‘–๐‘â๐‘›๐‘๐‘–๐‘Ž
&
1 − ๐›ผ = ๐‘๐‘œ๐‘›๐‘“๐‘–๐‘Ž๐‘›ç๐‘Ž
Dessa forma, vamos agora estudar os métodos de determinação dos intervalos de
confiança para cada parâmetro sob determinadas condições.
www.thmestatistica.com
educacional@thmestatistica.com
30
Intervalo de Confiança para a Média Populacional ๐
•
Com desvio padrão ๐ˆ conhecido:
Dada a significância de ๐›ผ% e a semi-amplitude ๐‘’0 do intervalo de confiança temos que:
ฬ… − ๐’†๐’ ≤ ๐ ≤ ๐’™
ฬ… + ๐’†๐’ ) = ๐Ÿ − ๐œถ
๐(๐’™
Portanto, podemos dizer que o intervalo ๐‘ฅฬ… − ๐‘’๐‘œ ≤ ๐œ‡ ≤ ๐‘ฅฬ… + ๐‘’๐‘œ contém ๐œ‡, com (1 − ๐›ผ)% de
confiança. Para descobrirmos ๐‘’๐‘œ vamos associar um ponto (por exemplo (๐œ‡ + ๐‘’๐‘œ )) com um ponto
da normal padrão:
www.thmestatistica.com
educacional@thmestatistica.com
31
Para transformar o ponto em ๐‘ฅฬ… para normal padrão ๐‘๐‘– , devemos subtrair a média de ๐‘ฅฬ… e
dividir o valor pelo desvio de ๐‘ฅฬ… :
๐‘๐›ผ =
2
(๐œ‡ + ๐‘’๐‘œ ) − ๐œ‡(๐‘ฅฬ… )
๐œŽ(๐‘ฅฬ… )
๐‘๐›ผ =
2
(๐œ‡ + ๐‘’๐‘œ ) − ๐œ‡
๐œŽ
⁄ ๐‘›
√
๐‘’๐‘œ = ๐‘๐›ผ
2
๐œŽ
√๐‘›
Dessa forma, o intervalo de (1 − ๐›ผ)% de confiança de ๐œ‡, é:
ฬ… − ๐’๐œถ
๐’™
๐Ÿ
๐ˆ
√๐’
ฬ… + ๐’๐œถ
≤ ๐ ≤ ๐’™
๐Ÿ
๐ˆ
√๐’
Até aqui, já conhecemos as principais técnicas de amostragem e sabemos estimar a média
populacional. Assim, podemos nos aprofundar em como determinar o número de elementos de
uma amostra para uma determinada especificação.
Por exemplo, seja uma pesquisa que busca obter o parâmetro média populacional sob um
determinado contexto, com uma precisão de ๐‘’0 e confiança (1 − ๐›ผ)% . Podemos determinar o
tamanho necessário da amostra para cumprir os requisitos, com base nos conceitos já vistos.
๐‘๐›ผ
2
O intervalo de confiança para ๐œ‡ é dado por P(๐‘ฅฬ… − ๐‘’๐‘œ ≤ ๐œ‡ ≤ ๐‘ฅฬ… + ๐‘’๐‘œ ) = 1 − ๐›ผ, onde ๐‘’๐‘œ =
. Assim, se isolarmos ๐‘›, temos:
๐‘›
๐œŽ
√
๐‘’๐‘œ = ๐‘๐›ผ
2
๐œŽ
√๐‘›
2
๐‘๐›ผ ๐œŽ
๐‘›= (
2
๐‘’๐‘œ
)
Tamanho da amostra
www.thmestatistica.com
educacional@thmestatistica.com
32
Exercício 2:
Uma amostra de 25 elementos uma população, cujo desvio padrão de altura é 10 ๐‘๐‘š, apresentou
altura média de 1,63 ๐‘š. Estime a altura média desta população através de um intervalo com 95%
de confiança.
Resolução:
Do enunciado, temos: ๐‘› = 25; ๐œŽ = 10. 10−2 ๐‘š; ๐‘ฅฬ… = 1,63 ๐‘š
(1 − ๐›ผ) = 0,95
๐›ผ = 0,05
๐›ผ
= 0,025
2
๐‘2,5% = 1,96
Portanto:
๐‘ฅฬ… − ๐‘’๐‘œ ≤ ๐œ‡ ≤ ๐‘ฅฬ… + ๐‘’๐‘œ
1,63 − 1,96
(0,1)
√25
≤ ๐œ‡(๐‘ฅ) ≤ 1,63 + 1,96
(0,1)
√25
๐Ÿ, ๐Ÿ“๐Ÿ— ≤ ๐(๐’™) ≤ ๐Ÿ, ๐Ÿ”๐Ÿ•
O intervalo é variável aleatória. Pegando outra amostra o parâmetro ๐œ‡ continua fixo, o intervalo muda.
Este
intervalo
contém
certeza/confiança/probabilidade.
a
altura
média
www.thmestatistica.com
da
população
com
95%
de
educacional@thmestatistica.com
33
Exercício 3:
Dimensione o tamanho da amostra necessária para estimar a média de uma população cujo desvio
padrão é 5 com 95% de confiança e precisão de 0,5.
Resolução:
Basta fazermos:
๐‘’๐‘œ = ๐‘๐›ผ
2
๐œŽ
√๐‘›
2
๐‘๐›ผ ๐œŽ
๐‘›= (
2
๐‘’๐‘œ
)
Como 95% de confiança implica ๐‘2,5% , tal que ๐‘2,5% = 1,96, temos:
1,96 . 5 2
)
๐‘›= (
0,5
๐‘› = 384,16
Em casos que o valor não sai um número inteiro, sempre arredonde para cima, para assim
o tamanho da amostra não implicar em um erro menor do que o proposto. Então, nossa resposta
será:
๐’ = ๐Ÿ‘๐Ÿ–๐Ÿ“
www.thmestatistica.com
educacional@thmestatistica.com
34
•
Com desvio padrão ๐ˆ desconhecido:
Podemos estimar pontualmente ๐œŽ(๐‘ฅ) por ๐‘† 2 , porém ao fazermos isso alteramos a distribuição
resultante, uma vez que ๐‘† é assintoticamente justo.
Por causa desse comportamento, quanto maior o tamanho da amostra ๐‘›, menor será o efeito
causado na distribuição. Ao fazermos ๐œŽ → ๐‘†, a distribuição de ๐‘ฅฬ… deixa de ser normal e se torna tStudent com (๐‘› − 1) graus de liberdade, calculada por:
๐‘ฅฬ… − ๐œ‡
๐‘ 
√๐‘›
๐‘ก๐‘ฃ = ๐‘ก๐‘›−1 =
Dessa forma, o intervalo de confiança com (1 − ๐›ผ)% de confiança para ๐œ‡, fica:
๐‘บ
๐‘บ
ฬ… − ๐’•๐’−๐Ÿ; ๐œถ
ฬ… + ๐’•๐’−๐Ÿ; ๐œถ
๐’™
≤ ๐ ≤ ๐’™
๐Ÿ √๐’
๐Ÿ √๐’
Dessa forma, o dimensionamento também muda:
๐‘›= (
๐‘ก๐‘›−1;๐›ผ ๐‘†
2
๐‘’๐‘œ
www.thmestatistica.com
2
)
educacional@thmestatistica.com
35
Intervalo de Confiança para a Proporção Populacional ๐’‘
Como ๐‘ฬ‚ tem distribuição normal, a dedução é similar à de ๐‘ฅฬ… , porém conhecemos o desvio
padrão ๐œŽ = ๐‘(1 − ๐‘).
Sim, vimos que a distribuição é binomial, mas lembre-se das condições que a aproximam de uma normal!
Para uma confiança de (1 − ๐›ผ)%, o intervalo que contém o parâmetro ๐‘, é dado por:
๐‘ฬ‚ − ๐‘๐›ผ √
2
๐‘(1 − ๐‘)
๐‘(1 − ๐‘)
≤ ๐‘ ≤ ๐‘ฬ‚ + ๐‘๐›ผ √
๐‘›
๐‘›
2
Note que o parâmetro aparece nas extremidades da inequação. Dessa forma, não
conseguiremos resolver nossa estimação. Para tanto, vamos utilizar nas extremidades a estimação
pontual, uma vez que ๐‘ฬ‚ é justo, ficando com o seguinte intervalo:
ฬ‚ − ๐’๐œถ √
๐’‘
๐Ÿ
ฬ‚(๐Ÿ − ๐’‘
ฬ‚)
ฬ‚(๐Ÿ − ๐’‘
ฬ‚)
๐’‘
๐’‘
ฬ‚ + ๐’๐œถ √
≤ ๐’‘ ≤ ๐’‘
๐’
๐’
๐Ÿ
www.thmestatistica.com
educacional@thmestatistica.com
36
Exercício 4:
Uma moeda foi lançada 150 vezes e apresentou 90 resultados cara.
(a) Determine o intervalo com 90% de confiança para a probabilidade de dar cara.
(b) Com base no resultado encontrado, pode-se afirmar que a moeda é honesta?
Resolução:
Do enunciado, temos:
๐‘› = 150
๐‘ฬ‚ =
90
= 0,6 ๐‘’ (1 − ๐‘ฬ‚ ) = 0,4
150
Obtemos também:
(1 − ๐›ผ) = 0,9
๐›ผ = 0,10
๐›ผ
= 0,05
2
๐‘5% = 1,64
Portanto:
๐‘ฬ‚ − ๐‘๐›ผ √
2
0,6 − 1,64√
๐‘ฬ‚ (1 − ๐‘ฬ‚ )
๐‘ฬ‚ (1 − ๐‘ฬ‚ )
≤ ๐‘ ≤ ๐‘ฬ‚ + ๐‘๐›ผ √
๐‘›
๐‘›
2
(0,6)(0,4)
(0,6)(0,4)
≤ ๐‘ ≤ 0,6 + 1,64√
150
150
0,53 ≤ ๐‘ ≤ 0,67
(a) Este intervalo de 56% ๐‘Ž 64% contém a probabilidade de dar cara com 90% de confiança.
(b) Como 50% está fora do intervalo encontrado, pode-se afirmar que a moeda não é honesta com
90% de confiança.
www.thmestatistica.com
educacional@thmestatistica.com
37
Intervalo de Confiança para a Variância Populacional ๐ˆ๐Ÿ
Dado significância de ๐›ผ%, temos que:
๐(๐‘บ๐Ÿ๐Ÿ ≤ ๐‘บ๐Ÿ ≤ ๐‘บ๐Ÿ๐Ÿ ) = ๐Ÿ − ๐œถ
Como ๐‘† 2 =
๐œŽ2
๐‘›−1
๐œ’2๐‘›−1 , temos que:
๐œŽ2
๐œŽ2
2
2
๐œ’๐‘›−1; ๐›ผ ≤ ๐‘† ≤
๐œ’2๐‘›−1;
๐‘›−1
๐‘›−1
2
๐›ผ
1−
2
E através de manipulações algébricas podemos chegar no seguinte intervalo para ๐œŽ 2 :
(๐’ − ๐Ÿ) ๐‘บ๐Ÿ
๐Œ๐Ÿ๐’−๐Ÿ; ๐Ÿ−๐œถ
≤ ๐ˆ๐Ÿ ≤
๐Ÿ
(๐’ − ๐Ÿ) ๐‘บ๐Ÿ
๐Œ๐Ÿ๐’−๐Ÿ; ๐œถ
๐Ÿ
Como a distribuição qui-quadrado não é simétrica, temos 2 valores para pegar na tabela da ๐œ’ 2 ๐œˆ .
www.thmestatistica.com
educacional@thmestatistica.com
38
Exercício 5:
Determine o intervalo de 95% de confiança para a variância de uma população normal cuja amostra
colhida foi:
๐‘ฅ1 = 110 ; ๐‘ฅ2 = 105 ; ๐‘ฅ3 = 114 ; ๐‘ฅ4 = 118 ; ๐‘ฅ5 = 102 ; ๐‘ฅ6 = 103
Resolução:
Comecemos com o cálculo da média amostral:
xฬ… =
∑6i=1 xi
6
xฬ… = 108,6
Dessa forma, a variância amostral é dada por:
∑6๐‘–=1(๐‘ฅ๐‘– − 108,6)2
๐‘† =
6−1
2
๐‘† 2 = 41,47
Com ๐œˆ = 5 graus de confiança, temos então:
๐œ’5;2 97,5% = 0,832 ๐‘’ ๐œ’5;2 2,5% = 12,833
O intervalo com 95% de confiança fica:
(๐‘› − 1) ๐‘† 2
(๐‘› − 1) ๐‘† 2
2
≤ ๐œŽ ≤ 2
๐œ’ 2 ๐‘›−1; ๐›ผ
๐œ’ ๐‘›−1; 1−๐›ผ
2
2
5. (41,47)
5. (41,47)
≤ ๐œŽ2 ≤
12,833
0,832
๐Ÿ๐Ÿ”, ๐Ÿ ≤ ๐ˆ๐Ÿ ≤ ๐Ÿ๐Ÿ’๐Ÿ—, ๐Ÿ“
Para teste de hipótese ou I.C. envolvendo desvio padrão (๐œŽ), é necessário fazer o teste para a variância (๐œŽ 2 ), e
somente ao final extrair a raiz do resultado. Isso porque S não é estimador justo de ๐œŽ, portanto só podemos trabalhar
com ๐‘† 2 .
www.thmestatistica.com
educacional@thmestatistica.com
39
Estimação por Intervalo de Confiança para Duas Populações
Intervalo de Confiança para a Média Populacional (๐๐’‚ − ๐๐’ƒ )
•
Com desvios ๐ˆ๐Ÿ e ๐ˆ๐Ÿ conhecidos:
O intervalo de confiança para média ๐œ‡ era:
๐‘ฅฬ… ± ๐‘๐›ผ
๐œŽ(๐‘ฅ)
2
√๐‘›
Agora ๐œŽ(๐‘ฅฬ… ) é calculado da seguinte forma:
๐œŽ 2 (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = ๐œŽ 2 (๐‘ฅฬ…๐ด ) + ๐œŽ 2 (๐‘ฅฬ…๐ต )
๐œŽ²(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) =
๐œŽ๐ด2 (๐‘ฅ) ๐œŽ๐ต2 (๐‘ฅ)
+
๐‘›๐ด
๐‘›๐ต
๐œŽ(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = √
๐œŽ๐ด2 (๐‘ฅ) ๐œŽ๐ต2 (๐‘ฅ)
+
๐‘›๐ด
๐‘›๐ต
Portanto, o intervalo de confiança para as duas populações será:
(๐’™
ฬ…๐‘จ − ๐’™
ฬ…๐‘ฉ ) ± ๐’๐œถ √
๐Ÿ
๐ˆ๐Ÿ๐‘จ (๐’™) ๐ˆ๐Ÿ๐‘ฉ (๐’™)
+
๐’๐‘จ
๐’๐‘ฉ
Se perguntarem se as médias são iguais, temos que ver se zero está dentro do I.C.; se estiver, consideramos que as
médias são iguais.
www.thmestatistica.com
educacional@thmestatistica.com
40
•
Com desvios ๐ˆ๐Ÿ e ๐ˆ๐Ÿ desconhecidos, porém iguais:
O intervalo de confiança para média ๐œ‡ era:
๐‘ฅฬ… ± ๐‘ก๐‘›−1; ๐›ผ
2
๐‘†
√๐‘›
Utilizaremos o estimador ๐‘†๐‘ para estimar ๐œŽ(๐‘ฅฬ… ), de tal forma que:
2
∑๐‘›๐‘–(๐‘ฅ๐ด ๐‘– − ๐‘ฅฬ…๐ด ) + ∑๐‘›๐‘–(๐‘ฅ๐ต ๐‘– − ๐‘ฅฬ…๐ต )
√
๐‘†๐‘ =
๐‘›๐ด + ๐‘›๐ต − 2
2
Portanto, o intervalo de confiança para as duas populações será:
(๐’™
ฬ…๐‘จ − ๐’™
ฬ…๐‘ฉ ) ± ๐’•
๐Ÿ−๐œธ √๐‘บ๐‘ท
๐’๐‘จ +๐’๐‘ฉ −๐Ÿ; (
)
๐Ÿ
๐Ÿ
(
๐Ÿ
๐Ÿ
+ )
๐’๐‘จ ๐’๐‘ฉ
1−๐›พ
Onde ๐›ผ ≡ ๐‘”๐‘Ÿ๐‘Ž๐‘ข ๐‘‘๐‘’ ๐‘ ๐‘–๐‘”๐‘›๐‘–๐‘“๐‘–๐‘â๐‘›๐‘๐‘–๐‘Ž e ๐›พ ≡ ๐‘”๐‘Ÿ๐‘Ž๐‘ข ๐‘‘๐‘’ ๐‘๐‘œ๐‘›๐‘“๐‘–๐‘Ž๐‘›ç๐‘Ž. Logo, ๐›พ = 1 − ๐›ผ, e assim (
www.thmestatistica.com
2
๐›ผ
) = ( 2 ).
educacional@thmestatistica.com
41
•
Com desvios ๐ˆ๐Ÿ e ๐ˆ๐Ÿ desconhecidos e desiguais:
O intervalo de confiança para média ๐œ‡ era:
๐‘ฅฬ… ± ๐‘ก๐‘›−1; ๐›ผ
2
๐‘†
√๐‘›
Utilizaremos as expressões abaixo de forma a simplificar nossa escrita:
๐œˆ=
(๐‘Š๐ด + ๐‘Š๐ต )2
๐‘ค๐ด2
๐‘Š๐ต2
+
๐‘›๐ด + 1
๐‘›๐ต + 1
๐œŽ๐ด2
๐‘Š๐ด =
๐‘›๐ด
๐‘Š๐ต =
๐œŽ๐ต2
๐‘›๐ต
Com certa aritmética, podemos concluir que o intervalo de confiança para as duas populações será:
๐‘บ๐Ÿ๐‘จ ๐‘บ๐Ÿ๐‘ฉ
√
(๐’™
ฬ…๐‘จ − ๐’™
ฬ…๐‘ฉ ) ± ๐’• ๐Ÿ−๐œธ
+
๐‚; (
) ๐’๐‘จ
๐’๐‘ฉ
๐Ÿ
1−๐›พ
Onde ๐›ผ ≡ ๐‘”๐‘Ÿ๐‘Ž๐‘ข ๐‘‘๐‘’ ๐‘ ๐‘–๐‘”๐‘›๐‘–๐‘“๐‘–๐‘â๐‘›๐‘๐‘–๐‘Ž e ๐›พ ≡ ๐‘”๐‘Ÿ๐‘Ž๐‘ข ๐‘‘๐‘’ ๐‘๐‘œ๐‘›๐‘“๐‘–๐‘Ž๐‘›ç๐‘Ž. Logo, ๐›พ = 1 − ๐›ผ, e assim (
www.thmestatistica.com
2
๐›ผ
) = ( 2 ).
educacional@thmestatistica.com
42
Intervalo de Confiança para a Proporção Populacional (๐’‘๐’‚ − ๐’‘๐’ƒ )
Supondo que a aproximação da binomial pela normal seja válida, temos que o intervalo de
confiança para esse caso é dado por:
(๐’‘
ฬ‚๐‘จ − ๐’‘
ฬ‚๐‘ฉ ) ± ๐’๐œถ √
๐Ÿ
ฬ‚๐‘จ (๐Ÿ − ๐’‘
ฬ‚๐‘จ ) ๐’‘
ฬ‚๐‘ฉ (๐Ÿ − ๐’‘
ฬ‚๐‘ฉ )
๐’‘
+
๐’๐‘จ
๐’๐‘ฉ
www.thmestatistica.com
educacional@thmestatistica.com
43
๐ˆ๐Ÿ
Intervalo de Confiança para a Variância Populacional ( ๐’‚๐Ÿ )
๐ˆ๐’ƒ
A variância populacional (
๐œŽ๐‘Ž2
๐œŽ๐‘2
) possui uma distribuição diferentes daquelas que vimos até
aqui. Essa possui distribuição F-Snedecor.
Dessa forma, nosso intervalo de confiança será da forma:
๐‘บ๐Ÿ
( ๐’‚๐Ÿ )
๐‘บ๐’ƒ
๐‘ญ๐‚
๐’‚
; ๐‚๐’ƒ ; ๐Ÿ−
(
๐œถ
๐Ÿ
๐‘บ๐Ÿ๐’‚
)
๐‘บ๐Ÿ๐’ƒ
๐ˆ๐Ÿ๐’‚
≤ ๐Ÿ ≤
๐‘ญ๐‚ ; ๐‚ ; ๐œถ
๐ˆ๐’ƒ
๐’‚
๐’ƒ
๐Ÿ
Onde ๐œˆ๐‘Ž = ๐‘›๐‘Ž − 1 ; ๐œˆ๐‘ = ๐‘›๐‘ − 1
www.thmestatistica.com
educacional@thmestatistica.com
44
Exercício 6
Os dados abaixo foram coletados em duas empresas diferentes e referem-se ao tempo (em
minutos) que profissionais gastam com pesquisas na internet em um determinado dia.
Empresa
A
12,2
13
11,5
12,6
10,5
8,4
9,7
8,1
12,3
Empresa
B
11,2
23,1
12,4
10,4
12,1
19,3
17,5
11,1
12,4
16,6
Suponha que ๐œŽ๐ด = 2,3 e ๐œŽ๐ต = 3. Construa um intervalo de confiança para a diferença de médias
com 95% de confiança e interprete os resultados.
Resolução:
Para a empresa A, temos ๐‘›๐ด = 9 e média amostral ๐‘ฅฬ…๐ด = 10,92. Já para a empresa B, temos ๐‘›๐ต =
10 e média amostral ๐‘ฅฬ…๐ต = 14,62.
Dessa forma, a diferença de médias é dada por:
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = −3,69
E, por ser uma diferença de médias com desvios conhecidos, sabemos que o I.C. é da forma
(๐‘ฅฬ… ๐ด − ๐‘ฅฬ… ๐ต ) ± ๐‘๐›ผ √
๐œŽ2๐ด (๐‘ฅ)
2
๐‘›๐ด
+
๐œŽ2๐ต (๐‘ฅ)
๐‘›๐ต
Assim, calculamos:
๐œŽ๐ด2
= 0,59
๐‘›๐ด
๐‘’
๐œŽ๐ต2
= 0,9 ๐‘’
๐‘›๐ต
๐‘๐›ผ = ๐‘2,5% = 1,96
2
Com as devidas substituições, chegamos em:
−3,69 − 1,96√0,59 + 0,9 ≤ (๐œ‡๐ด − ๐œ‡๐ต ) ≤ −3,69 + 1,96√0,59 + 0,9
−๐Ÿ”, ๐ŸŽ๐Ÿ– ≤ (๐๐‘จ − ๐๐‘ฉ ) ≤ −๐Ÿ, ๐Ÿ‘๐ŸŽ
Como o zero não pertence ao ๐ผ. ๐ถ., podemos dizer, ao nível de 5% de significância, que as médias
são diferentes.
www.thmestatistica.com
educacional@thmestatistica.com
45
Exercício 7
Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas
amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a
porcentagem de lucro apresentada durante um período fixado de tempo. Os dados estão a seguir:
Corretora
A
Corretora
B
45
60
54
62
55
38
48
57
55
58
52
59
55
59
64
Supondo-se que as variâncias sejam iguais para as duas corretoras, pede-se para verificar se elas
possuem desempenhos diferentes, com significância de 5%.
Resolução:
Para a corretora A, temos ๐‘›๐ด = 8, média amostral ๐‘ฅฬ…๐ด = 53,25 e variância amostral ๐‘† 2 = 81,357. Já
para a corretora B, temos ๐‘›๐ต = 7, ๐‘ฅฬ… ๐ต = 56,42 e ๐‘† 2 = 6,619. Assim, temos (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = −3,17.
Utilizamos o estimador ๐‘†๐‘ para estimar ๐œŽ(๐‘ฅฬ… ), de tal forma que:
2
2
∑๐‘›๐‘–(๐‘ฅ๐ด ๐‘– − ๐‘ฅฬ…๐ด ) + ∑๐‘›๐‘–(๐‘ฅ๐ต ๐‘– − ๐‘ฅฬ…๐ต )
๐‘†๐‘ = √
= √46,863
๐‘›๐ด + ๐‘›๐ต − 2
E, por ser uma diferença de médias com desvios desconhecidos e iguais, sabemos que o I.C. é da
forma
(๐‘ฅฬ…๐ด − ๐‘ฅฬ… ๐ต ) ± ๐‘ก
๐‘›
๐ด +๐‘›๐ต −2; (
1−๐›พ √๐‘†๐‘ƒ
)
2
2
1
1
( + )
๐‘›๐ด ๐‘›๐ต
Assim, calculamos:
1
1
+
≅ 0,2678
๐‘›๐ด ๐‘›๐ต
๐‘’
๐‘ก๐‘›
๐ด +๐‘›๐ต −2; (
1−๐›พ
)
2
= ๐‘ก13; (2,5) = 2,160
Com as devidas substituições, chegamos em:
−3,17 − 2,16√(46,863)(0,2678) ≤ (๐œ‡๐ด − ๐œ‡๐ต ) ≤ −3,17 + 2,16√(46,863)(0,2678)
−๐Ÿ”, ๐Ÿ•๐Ÿ ≤ (๐๐‘จ − ๐๐‘ฉ ) ≤ ๐ŸŽ, ๐Ÿ‘๐Ÿ•
Como o zero está contido no I.C., não podemos dizer, ao nível de 5% de significância, que ๐œ‡๐ด ≠
๐œ‡๐ต .
www.thmestatistica.com
educacional@thmestatistica.com
46
Exercício 8
Em uma pesquisa de intenção de voto para presidente conduzida em dois estados brasileiros,
revelaram-se os seguintes dados:
Entrevistados
Favoráveis ao
candidato X
Estado A
2000
850
Estado B
1500
650
Pede para determinar um intervalo de confiança (๐›พ = 98%) para a diferença (๐‘๐ด − ๐‘๐ต ) de intenção
de voto no candidato X entre os dois estados.
Resolução:
850
650
Para o estado A, temos ๐‘ฬ‚๐ด = 2000 = 0,425. Já para o estado B, temos ๐‘ฬ‚ ๐ต = 1500 = 0,433. Assim,
temos (๐‘ฬ‚๐ด − ๐‘ฬ‚๐ต ) = −0,008.
Sabemos que o I.C. é da forma
(pฬ‚A − pฬ‚B ) ± Zα √
2
pฬ‚A (1 − pฬ‚A ) pฬ‚B (1 − pฬ‚B )
+
nA
nB
Assim, calculamos:
๐‘๐›ผ = ๐‘1% = 2,33
2
Com as devidas substituições, chegamos em:
−0,008 − 2,33√
(0,425)(0,575)
2000
+
(0,433)(0,567)
1500
(0,425)(0,575)
≤ (๐‘๐ด − ๐‘๐ต ) ≤ −0,008 + 2,33√
2000
+
(0,433)(0,567)
1500
−๐ŸŽ, ๐ŸŽ๐Ÿ’๐Ÿ• ≤ (๐’‘๐‘จ − ๐’‘๐‘ฉ ) ≤ ๐ŸŽ, ๐ŸŽ๐Ÿ‘๐Ÿ
Como o zero está contido no I.C., não podemos dizer, ao nível de 2% de significância, que as
intenções de voto do candidato X sejam diferentes.
www.thmestatistica.com
educacional@thmestatistica.com
47
Teste de Hipótese
Com base nos resultados da amostra, queremos testar uma hipótese, considerada como
válida até prova contrária, a respeito de um parâmetro da população. O teste é constituído de duas
hipóteses:
{
๐‘ฏ๐ŸŽ : ๐ป๐‘–๐‘ó๐‘ก๐‘’๐‘ ๐‘’ ๐‘Ž๐‘๐‘’๐‘–๐‘ก๐‘Ž ๐‘Ž๐‘ก๐‘ข๐‘Ž๐‘™๐‘š๐‘’๐‘›๐‘ก๐‘’
๐‘ฏ๐Ÿ : ๐ป๐‘–๐‘ó๐‘ก๐‘’๐‘ ๐‘’ ๐‘Ž๐‘™๐‘ก๐‘’๐‘Ÿ๐‘›๐‘Ž๐‘ก๐‘–๐‘ฃ๐‘Ž
Aceitando a hipótese alternativa (๐ป1 ), com confiança de (1 − ๐›ผ)%, você sabe o quanto erra,
pois você rejeita a hipótese nula (๐ป0 ) com um nível de significância de ๐›ผ%.
Dessa forma, há dois tipos de erros que podem ser cometidos nos testes, erro tipo I e erro
tipo II, e para cada tipo há uma certa probabilidade de ocorrência, ๐›ผ e ๐›ฝ respectivamente.
Realidade
๐ป0 verdadeira
๐ป0 falsa
Não Rejeitar ๐ป0
Decisão correta
Erro tipo II
๐œท
Rejeitar ๐ป0
Erro tipo I
๐œถ
Decisão correta
Decisão
Dito isso, vamos entender melhor o roteiro de ação que seguiremos em nossos testes de
hipótese. Para cada teste vamos usar a distribuição pertinente, calcular um valor crítico e comparálos a um valor obtido na amostra.
Vamos a um exercício para entender melhor esse tema.
www.thmestatistica.com
educacional@thmestatistica.com
48
Exercício 9:
Uma moeda foi lançada 200 vezes e foi obtido 127 coroas. Suspeita-se que a moeda seja
desonesta para coroa, ou seja, o resultado coroa tem maior probabilidade de ocorrer. Faça um
teste de hipótese para verificar a desonestidade da moeda com no máximo 5% de chance de a
conclusão ser errada.
Resolução:
Vamos começar construindo as hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐ด ๐‘š๐‘œ๐‘’๐‘‘๐‘Ž é โ„Ž๐‘œ๐‘›๐‘’๐‘ ๐‘ก๐‘Ž ∴ ๐‘ = 0,5
๐ด ๐‘š๐‘œ๐‘’๐‘‘๐‘Ž ๐‘›ã๐‘œ é โ„Ž๐‘œ๐‘›๐‘’๐‘ ๐‘ก๐‘Ž ∴ ๐‘ > 0,5
127
O estimador de ๐‘ é ๐‘ฬ‚ , tal que ๐‘ฬ‚ = 200 = 0,635, que possui média e desvio padrão segundo as
expressões abaixo:
๐œ‡(๐‘ฬ‚ ) = ๐‘0 = 0,5
๐‘’
๐œŽ(๐‘ฬ‚ ) = √
๐‘0 (1 − ๐‘0 )
= 0,035
๐‘›
Onde ๐‘0 é a proporção aceita atualmente
Sabemos que esse estimador tem distribuição normal. Sabemos também que ๐›ผ = 5%, assim
podemos determinar o valor de ๐‘ฬ‚ ๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ :
๐‘๐›ผ =
๐‘ฬ‚ − ๐œ‡(๐‘ฬ‚ )
๐œŽ(๐‘ฬ‚ )
→
๐‘5% =
๐‘ฬ‚ ๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ – 0,5
0,035
๐‘ฬ‚ ๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ = 0,557
Como o valor calculado é maior que o crítico, isto é, (๐‘ฬ‚ > ๐‘ฬ‚ ๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ ), rejeitamos ๐‘ฏ๐ŸŽ , ou seja, podemos
afirmar que a moeda é desonesta, ao nível de 5% de confiança.
www.thmestatistica.com
educacional@thmestatistica.com
49
Teste para a Média Populacional
•
Com desvio padrão ๐ˆ conhecido:
A média populacional ๐œ‡ é estimada pela média amostral ๐‘ฅฬ… , conforme já visto. Essa possui
distribuição normal, média ๐œ‡(๐‘ฅฬ… ) = ๐œ‡(๐‘ฅ) e desvio padrão ๐œŽ(๐‘ฅฬ… ) =
๐œŽ(๐‘ฅ)
๐‘›
.
Como vimos no exercício anterior, quando buscamos um valor maior que o valor de ๐ป0 usamos
a cauda da direita da distribuição. Já quando buscamos um valor menor, usaremos a cauda da
esquerda da distribuição. E em casos em que buscamos um valor diferente, usaremos ambas as
caudas e dividiremos a significância ๐›ผ para as duas. Dessa forma, de maneira geral, temos:
Em que ๐‘๐›ผ é dado por:
2
๐‘๐›ผ =
2
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก − ๐œ‡0
๐œŽ(๐‘ฅ)
๐‘›
Portanto:
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 ± ๐‘๐›ผ
2
๐œŽ(๐‘ฅ)
๐‘›
Dessa forma, para cada caso, temos:
{
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ > ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 + ๐‘๐›ผ
{
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ < ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 − ๐‘๐›ผ
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ ≠ ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 ± ๐‘๐›ผ
{
2
www.thmestatistica.com
๐œŽ(๐‘ฅ)
๐‘›
๐œŽ(๐‘ฅ)
๐‘›
๐œŽ(๐‘ฅ)
๐‘›
educacional@thmestatistica.com
50
•
Com desvio padrão ๐ˆ desconhecido:
A média populacional ๐œ‡ é estimada pela média amostral ๐‘ฅฬ… . Para esse caso, o estimador possui
๐‘†
distribuição t-student, média ๐œ‡(๐‘ฅฬ… ) = ๐œ‡(๐‘ฅ) e desvio padrão ๐œŽ(๐‘ฅฬ… ) = ๐‘› .
Note que trataremos o teste da mesma forma vista anteriormente. Porém, apenas trocaremos
a distribuição normal pela distribuição t-student e o desvio padrão populacional ๐œŽ pelo desvio
padrão amostral ๐‘†.
Sendo assim, temos:
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 ± ๐‘ก๐‘›−1; ๐›ผ
2
๐œŽ(๐‘ฅ)
๐‘›
E, portanto:
{
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ > ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 + ๐‘ก๐‘›−1; ๐›ผ
{
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ < ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 − ๐‘ก๐‘›−1; ๐›ผ
๐ป0 : ๐œ‡ = ๐œ‡0
๐ป1 : ๐œ‡ ≠ ๐œ‡0
→
Comparar ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 ± ๐‘ก๐‘›−1; ๐›ผ
{
2
www.thmestatistica.com
๐œŽ(๐‘ฅ)
๐‘›
๐œŽ(๐‘ฅ)
๐‘›
๐œŽ(๐‘ฅ)
๐‘›
educacional@thmestatistica.com
51
Exercício 10:
Na ausência de um treinamento, os escores de um exame de admissão em um MBA variam
normalmente com média 475 e desvio padrão 100. Suponhamos que o treinamento possa melhorar
a média, mas não altere o desvio padrão. Uma equipe treina 100 estudantes. Suas notas acusam
๐‘ฅฬ… = 478.
(a) Para um nível de significância de 5% é possível afirmar que as notas aumentaram?
(b) O que ocorreria se a amostra tivesse 1000 e não 100 alunos?
Resolução:
(a) Podemos inferir do enunciado que
๐œ‡0 = 475
;
๐œŽ = 100
;
๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = 478
E também que nossas hipóteses são:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡ = 475
๐œ‡ > 475
Dessa forma, vamos calcular a normal padrão para uma significância de 5%, de forma a encontrar
o valor crítico do estimador:
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 + ๐‘๐›ผ
2
๐œŽ(๐‘ฅ)
๐‘›
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 475 ± 1,64
100
√100
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 491,4
Como ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ < ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก , não rejeitamos ๐‘ฏ๐ŸŽ , pois não há evidências estatísticas para aferir que
a média aumentou com o treinamento, ao nível de 5% de confiança.
www.thmestatistica.com
educacional@thmestatistica.com
52
(b) Se a amostra tivesse 1000 alunos, ao invés de 100, teríamos:
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 + ๐‘๐›ผ
2
๐œŽ(๐‘ฅ)
๐‘›
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 475 ± 1,64
100
√1000
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 480,2
E, assim a conclusão é a mesma, isto é, como ๐‘ฅฬ…๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ < ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก , não rejeitamos ๐‘ฏ๐ŸŽ , pois não há
evidências estatísticas para aferir que a média aumentou com o treinamento, ao nível de 5% de
confiança.
www.thmestatistica.com
educacional@thmestatistica.com
53
Exercício 11:
Um estudo pretende identificar se um grupo de indígenas pertence a uma determinada tribo. Sabese que os índios da tribo A possuem altura média de 120 ๐‘๐‘š, enquanto os da tribo B possuem altura
média de 145 ๐‘๐‘š. O desvio padrão nos dois casos é 40 ๐‘๐‘š. O critério de decisão é o seguinte: se
para uma amostra de 100 pessoas for observada média amostral superior a 130, considera-se que
é da tribo B o grupo, caso contrário, da tribo A. Você desconfia que os indivíduos são da tribo A.
(a) Qual é o erro tipo I?
(b) Determine a probabilidade do erro tipo I (๐›ผ).
(c) Qual deve ser o critério de decisão para que ๐›ผ = 5%?
(d) Para o critério do enunciado, qual a probabilidade do erro tipo II (๐›ฝ)?
Resolução:
(a) O erro do tipo I é rejeitar ๐ป0 quando ๐ป0 é verdadeiro. Dessa forma, para o contexto em questão,
seria afirmar que os indivíduos são da tribo A, quando na verdade são da tribo B, conforme
previamente desconfiado.
Para visualizar graficamente o erro, podemos construir os seguintes gráficos:
Erro do tipo I
Erro do tipo II
(b) Comecemos construindo nossas hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡ = 145
๐œ‡ = 120
Do enunciado, temos que ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 130 ; ๐œ‡0 = 145 ; ๐œŽ = 40 ; ๐‘› = 100. Então:
๐‘๐›ผ =
130 − 145
= −3,75
40
√100
๐œถ = ๐ŸŽ, ๐ŸŽ๐ŸŽ๐Ÿ—%
A chance de se cometer um erro do tipo I é muito baixa.
www.thmestatistica.com
educacional@thmestatistica.com
54
(c) Devemos calcular o novo ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก para ๐›ผ = 5%. Assim, fazemos:
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = ๐œ‡0 − ๐‘5%
๐œŽ(๐‘ฅ)
๐‘›
๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 145 − 1,64
40
√100
ฬ…๐’„๐’“í๐’• = ๐Ÿ๐Ÿ‘๐Ÿ–, ๐Ÿ’๐Ÿ’
๐’™
(d) Comecemos construindo nossas hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡ = 120
๐œ‡ = 145
Do enunciado, temos que ๐‘ฅฬ…๐‘๐‘Ÿí๐‘ก = 130 ; ๐œ‡0 = 120 ; ๐œŽ = 40 ; ๐‘› = 100. Então:
๐‘๐›ฝ =
130 − 120
= 2,5
40
√100
๐œถ = ๐ŸŽ, ๐Ÿ”๐Ÿ๐Ÿ’%
A chance de se cometer um erro do tipo II é bem maior.
www.thmestatistica.com
educacional@thmestatistica.com
55
Teste para a Variância Populacional
A variância populacional ๐œŽ² é estimada pela variância amostral ๐‘†². Essa possui distribuição qui2
quadrado, e é calculada por ๐‘†๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
=
ฬ… )2
∑๐‘›
๐‘– (๐‘ฅ๐‘– −๐‘ฅ
๐‘›−1
.
Dessa forma, por se tratar de uma distribuição assimétrica, seus valores críticos são dados
por:
2
๐‘†๐‘๐‘Ÿí๐‘ก
=
2
๐‘†๐‘๐‘Ÿí๐‘ก
=
๐œŽ02 2
๐œ’
๐‘› − 1 ๐‘›−1; ๐›ผ
๐œŽ02 2
๐œ’
๐‘› − 1 ๐‘›−1; 1−๐›ผ
E, portanto:
{
{
{
๐ป0 : ๐œŽ 2 = ๐œŽ02
๐ป1 : ๐œŽ 2 > ๐œŽ02
๐ป0 : ๐œŽ 2 = ๐œŽ02
๐ป1 : ๐œŽ 2 < ๐œŽ02
๐ป0 : ๐œŽ 2 = ๐œŽ02
๐ป1 : ๐œŽ 2 ≠ ๐œŽ02
→
→
→
2
2
Comparar ๐‘†๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
com ๐‘†๐‘๐‘Ÿí๐‘ก
=
www.thmestatistica.com
๐‘›−1
๐œŽ02
2
2
Comparar ๐‘†๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
com ๐‘†๐‘๐‘Ÿí๐‘ก
=
2
2
Comparar ๐‘†๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
com ๐‘†๐‘๐‘Ÿí๐‘ก
=
๐œŽ02
๐‘›−1
๐œŽ02
2
๐œ’๐‘›−1;
๐›ผ
2
๐œ’๐‘›−1;
1−๐›ผ
2
๐œ’ 2 ๐›ผ e ๐‘†๐‘๐‘Ÿí๐‘ก
=
๐‘›−1 ๐‘›−1;
2
๐œŽ02
๐‘›−1
2
๐œ’๐‘›−1;
1−๐›ผ
2
educacional@thmestatistica.com
56
Exercício 12:
A companhia telefônica está estudando a duração de chamadas telefônicas, bem como sua
variabilidade. Admite ๐œŽ = 4 ๐‘š๐‘–๐‘› (variabilidade nacional). A companhia pretende verificar se uma
certa cidade tem variabilidade de tempo diferente do padrão nacional. A duração das chamadas
tem distribuição normal.
(a) Determine ๐ป0 e ๐ป1 .
(b) A partir de quais valores você rejeitaria ๐ป0 (๐‘› = 25; ๐›ผ = 0,05)?
(c) Qual seria sua decisão se uma amostra de chamadas obtivesse ๐‘† 2 = 15?
Resolução:
(a) Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œŽ² = 16
๐œŽ² ≠ 16
2
(b) Rejeitaríamos valores fora do intervalo determinado pelos ๐‘†๐ถ๐‘Ÿí๐‘ก
, dados por:
2
๐‘†๐ถ๐‘Ÿí๐‘ก
=
16 2
๐œ’
24 24;97,5%
2
๐‘†๐ถ๐‘Ÿí๐‘ก
= 8,27
2
๐‘†๐ถ๐‘Ÿí๐‘ก
=
16 2
๐œ’
24 24;2,5%
2
๐‘†๐ถ๐‘Ÿí๐‘ก
= 28,67
Portanto, rejeitaríamos ๐ป0 para valores de ๐‘†² fora do intervalo 8,27 ≤ ๐‘† 2 ≤ 28,67.
(c) Como ๐‘†² está dentro no intervalo estimado anteriormente, não rejeito ๐ป0 .
www.thmestatistica.com
educacional@thmestatistica.com
57
Teste para a Proporção Populacional
A proporção populacional ๐‘ é estimada pela proporção amostral ๐‘ฬ‚ . Esse possui distribuição
๐‘(1−๐‘)
normal, média ๐œ‡(๐‘ฬ‚ ) = ๐‘ e desvio padrão ๐œŽ(๐‘ฬ‚ ) = √
๐‘›
, conforme já visto no exercício 9.
Dessa forma, para cada caso, temos:
{
๐ป0 : ๐‘ = ๐‘0
๐ป1 : ๐‘ > ๐‘0
→
Comparar ๐‘ฬ‚ ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฬ‚๐‘๐‘Ÿí๐‘ก = ๐‘0 + ๐‘๐›ผ √
{
๐ป0 : ๐‘ = ๐‘0
๐ป1 : ๐‘ < ๐‘0
→
Comparar ๐‘ฬ‚ ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฬ‚๐‘๐‘Ÿí๐‘ก = ๐‘0 − ๐‘๐›ผ √
๐ป0 : ๐‘ = ๐‘0
๐ป1 : ๐‘ ≠ ๐‘0
→
Comparar ๐‘ฬ‚๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฬ‚ ๐‘๐‘Ÿí๐‘ก = ๐‘0 ± ๐‘๐›ผ √
{
๐‘(1−๐‘)
๐‘›
๐‘(1−๐‘)
๐‘›
๐‘(1−๐‘)
2
www.thmestatistica.com
๐‘›
educacional@thmestatistica.com
58
Teste para Duas Populações
Teste de Comparação de Duas Médias ๐๐‘จ e ๐๐‘ฉ
•
Com desvios-padrão ๐ˆ๐‘จ e ๐ˆ๐‘ฉ conhecidos:
Para duas populações o teste de hipóteses não muda. O que muda é a estatística que
usamos, similar ao que vimos nos intervalos de confiança.
Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡๐ด = ๐œ‡๐ต
๐‘ฏ๐ŸŽ :
↔ {
๐œ‡๐ด > ๐œ‡๐ต
๐‘ฏ๐Ÿ :
๐œ‡๐ด − ๐œ‡๐ต = 0
๐œ‡๐ด − ๐œ‡๐ต > 0
Aqui podemos usar os sinais de > , < ๐‘œ๐‘ข ≠
Nossa variável de teste é, então, (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ), que tem distribuição normal. Variável essa que tem
๐œŽ2
๐œŽ2
๐ด
๐ต
média ๐œ‡(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = ๐œ‡๐ด − ๐œ‡๐ต = 0 e desvio padrão ๐œŽ(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ) = √ ๐‘›๐ด + ๐‘›๐ต .
Assim temos:
๐‘๐›ผ =
(๐‘ฅฬ…๐ด − ๐‘ฅฬ… ๐ต )๐‘๐‘Ÿí๐‘ก ± (๐œ‡๐ด − ๐œ‡๐ต )
2
√
๐œŽ๐ด2
๐œŽ๐ต2
+
๐‘›๐ด
๐‘›๐ต
Portanto:
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก
= ๐‘๐›ผ √
2
๐œŽ๐ด2
๐œŽ๐ต2
+
๐‘›๐ด
๐‘›๐ต
Dessa forma, devemos comparar (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก com (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
www.thmestatistica.com
educacional@thmestatistica.com
59
•
Com desvios-padrão ๐ˆ๐‘จ e ๐ˆ๐‘ฉ desconhecidos, porém iguais:
Denominada hipótese homocedástica, é o caso mais comum. Nesse caso, nossa variável
teste é igual a anterior, porém possui distribuição t-student.
Assim temos:
๐‘๐‘๐‘Ž๐‘™๐‘ =
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก
1
1
๐œŽ√๐‘› + ๐‘›
๐ด
๐ต
๐‘ก๐‘›๐ด+๐‘›๐ต −2 ; ๐›ผ =
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก
1
1
๐‘†๐‘ƒ √๐‘› + ๐‘›
๐ด
๐ต
Onde:
2
∑๐‘›๐‘–(๐‘ฅ๐ด ๐‘– − ๐‘ฅฬ…๐ด ) + ∑๐‘›๐‘–(๐‘ฅ๐ต ๐‘– − ๐‘ฅฬ…๐ต )
√
๐‘†๐‘ =
๐‘›๐ด + ๐‘›๐ต − 2
2
Portanto:
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›๐ด +๐‘›๐ต −2 ; ๐›ผ ๐‘†๐‘ƒ √
www.thmestatistica.com
1
1
+
๐‘›๐ด
๐‘›๐ต
educacional@thmestatistica.com
60
•
Com desvios-padrão ๐ˆ๐‘จ e ๐ˆ๐‘ฉ desconhecidos e desiguais:
Esse caso segue também distribuição t-student, como o caso anterior.
Assim, temos expressão similar a anterior, com a modificação persistente aos desvios:
๐‘ก๐œˆ;๐›ผ =
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก
√
๐œŽ๐ด2
๐œŽ๐ต2
+
๐‘›๐ด
๐‘›๐ต
Onde:
(๐‘Š๐ด + ๐‘Š๐ต )2
๐œˆ=
๐‘ค๐ด2
๐‘Š๐ต2
+
๐‘›๐ด + 1
๐‘›๐ต + 1
๐‘Š๐ด =
๐œŽ๐ด2
๐‘›๐ด
๐œŽ๐ต2
๐‘Š๐ต =
๐‘›๐ต
E, portanto:
(๐‘ฅฬ…๐ด − ๐‘ฅฬ… ๐ต )๐‘๐‘Ÿí๐‘ก
๐œŽ๐ด2
๐œŽ๐ต2
= ๐‘ก๐œˆ;๐›ผ √
+
๐‘›๐ด
๐‘›๐ต
www.thmestatistica.com
educacional@thmestatistica.com
61
Por fim, vale mencionar o caso em que os dados estão emparelhados, ou seja, quando os
dados podem ser analisados juntos de alguma forma. Assim, fazemos:
๐‘ฅ๐ท = ๐‘ฅ๐ด − ๐‘ฅ๐ต
๐‘‚๐‘Ÿ๐‘‘๐‘’๐‘š
๐’™๐‘จ
๐’™๐‘ฉ
๐’™๐‘ซ
1
๐‘ฅ๐ด1
๐‘ฅ๐ต 1
๐‘ฅ๐ท 1
2
๐‘ฅ๐ด 2
๐‘ฅ๐ต 2
๐‘ฅ๐ท 2
3
๐‘ฅ๐ด 3
๐‘ฅ๐ต 3
๐‘ฅ๐ท 3
โ‹ฎ
โ‹ฎ
โ‹ฎ
โ‹ฎ
Dessa forma, a média e a variância são dados por:
๐œ‡(๐‘ฅ๐ท ) = ๐œ‡๐ด − ๐œ‡๐ต = ๐œ‡๐ท
๐‘ ๐ท2 =
∑๐‘›๐‘–(๐‘ฅ๐ท ๐‘– − ๐‘ฅฬ… ๐ท )
2
๐‘›−1
E, portanto:
๐‘ก๐‘›−1; ๐›ผ =
๐‘ฅฬ… ๐ท ๐‘๐‘Ÿí๐‘ก − 0
๐‘†๐ท
√๐‘›
๐‘ฅฬ…๐ท ๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›−1; ๐›ผ
๐‘†๐ท
√๐‘›
E novamente, como todos os testes anteriores, devemos comparar ๐‘ฅฬ… ๐ท ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com ๐‘ฅฬ…๐ท ๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ .
www.thmestatistica.com
educacional@thmestatistica.com
62
Exercício 13:
Afim de comparar a eficiência de dois operários, foram tomados, para cada um, 8 medidas de tempo
gasto para realizar certa operação. Os resultados são os dados a seguir. Pergunta-se, ao nível de
5% de significância, se os operários devem ser considerados igualmente eficientes ou não
(considere ๐œŽ 2๐ด = ๐œŽ 2 ๐ต ).
Operário
A
35
32
40
36
35
32
33
37
Operário
B
29
35
36
34
30
33
31
34
Resolução:
Vamos começar explicitando nossas hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡๐ด − ๐œ‡๐ต = 0
๐œ‡๐ด − ๐œ‡๐ต > 0
Nossa variável teste (๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต ), quando incorporada aos dados do enunciado, devolve
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = 2,25 .
Como não possuímos o valor dos desvios, que são iguais, fazemos:
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›๐ด+๐‘›๐ต −2 ; ๐›ผ
1
1
๐‘†๐‘ƒ √ +
๐‘›๐ด
๐‘›๐ต
2
๐‘’
๐‘†๐‘ = √
∑๐‘›๐‘–(๐‘ฅ๐ด ๐‘– − ๐‘ฅฬ…๐ด ) + ∑๐‘›๐‘–(๐‘ฅ๐ต ๐‘– − ๐‘ฅฬ…๐ต )
๐‘›๐ด + ๐‘›๐ต − 2
2
1
1
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก = ๐‘ก14 ; 2,5% 2,61√ +
8
8
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก ≅ 2,8
Portanto, não rejeitamos ๐‘ฏ๐ŸŽ , não há evidências estatísticas para afirmar que a eficiência dos
funcionários seja diferente, ao nível de 5% de significância.
Perceba que, nesse caso, a ordem das medidas de tempo (do enunciado) para os funcionários não influência na
análise, ou seja, para esse exemplo as medidas de um funcionário e outro estavam ligadas a uma operação. No
próximo exercício teremos outra análise.
www.thmestatistica.com
educacional@thmestatistica.com
63
Exercício 14:
Dois candidatos A e B foram submetidos a um conjunto de 8 questões, sendo anotados os tempos
que cada um gastou nas soluções (dados em minutos). Podemos, ao nível de 5% de significância,
concluir que B seja mais rápido que A, em termos de tempo médio gasto para resolver as questões
do tipo das formuladas?
Questão
1
2
3
4
5
6
7
8
Candidato
A
11
8
15
2
7
18
9
10
Candidato
B
5
7
13
6
4
10
13
12
๐‘ฅ๐ท
6
1
2
−4
3
8
6
−2
Resolução:
Nesse exercício, cada medida relaciona os candidatos de acordo com uma questão, enquanto no
exercício anterior tínhamos oito tempos diferentes para uma única operação de cada operário. A
partir disso, concluímos que os dados são emparelhados.
Vamos explicitar nossas hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡๐ท = 0
μD > 0
Nossa variável teste ๐‘ฅฬ…๐ท , quando incorporada aos dados do enunciado, devolve ๐‘ฅฬ…๐ท = 2,50 .
Como não possuímos o valor dos desvios, temos:
๐‘ฅฬ…๐ท ๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›−1; ๐›ผ
๐‘ฅฬ…๐ท ๐‘๐‘Ÿí๐‘ก = ๐‘ก7; 5%
๐‘†๐ท
√๐‘›
4,14
√8
๐‘ฅฬ… ๐ท ๐‘๐‘Ÿí๐‘ก = 2,77
Não rejeitamos ๐‘ฏ๐ŸŽ , pois não podemos afirmar que as velocidades dos candidatos são diferentes,
ao nível de 5% de significância.
www.thmestatistica.com
educacional@thmestatistica.com
64
Teste de Comparação de Duas Variâncias ๐ˆ๐Ÿ๐‘จ e ๐ˆ๐Ÿ๐‘ฉ
Vale reforçar que para duas populações o teste de hipóteses não muda. O que muda é a
estatística que usamos. Nesse caso, não trabalharemos com a subtração entre variâncias, mas sim
com o quociente entre essas.
Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œŽ๐ด2 = ๐œŽ๐ต2
๐œŽ๐ด2 > ๐œŽ๐ต2
๐‘†2
2
๐‘†๐ด
,que tem distribuição F-Snedecor: ๐น๐œˆ๐ด ; ๐œˆ๐ต ; ๐›ผ = ๐ด2 . Por
2
๐‘†๐ต
๐‘†๐ต
convenção, utilizamos no numerador a variância maior e, portanto, no denominador a variância
menor.
A variável teste utilizada é
Isso serve para resultar em um teste monocaudal à direita. Montando dessa forma, sempre
๐›ผ
desprezamos o lado esquerdo (ainda que ele contenha 2 %), vide próximo exercício.
Portanto, se ๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ > ๐น๐‘๐‘Ÿí๐‘ก๐‘–๐‘๐‘œ , rejeitamos ๐ป0 .
www.thmestatistica.com
educacional@thmestatistica.com
65
Exercício 15:
Teste, ao nível de 5% de significância, se as populações A e B possuem variâncias diferentes.
๐‘›
7
12
Amostra
A
B
๐‘†2
15,8
6,2
Resolução:
Vamos começar construindo nossas hipóteses:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œŽ๐ด2 = ๐œŽ๐ต2
๐œŽ๐ด2 ≠ ๐œŽ๐ต2
Não precisamos olhar a cauda com 2,5% à esquerda, pois o teste foi montado para direita. Dessa
forma, vamos aos cálculos:
๐‘†๐ด2
15,8
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = ( 2 )
=
= 2,55
6,2
๐‘†๐ต ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
๐น๐‘๐‘Ÿí๐‘ก = ๐น6; 11; 2,5% = 3,88
Logo, não rejeitamos ๐ป0 , pois não podemos afirmar que as duas variâncias são diferentes, ao nível
de 5% de significância.
A tabela F vai conter 3 informações: ๐œˆ๐ด , ๐œˆ๐ต e ๐›ผ. Certifique-se de escolher corretamente o primeiro grau de liberdade.
Por exemplo: ๐น6 ; 11 ; 2,5% ≠ ๐น11 ; 6 ; 2,5%
www.thmestatistica.com
educacional@thmestatistica.com
66
Exercício 16:
A qualidade de rebites é tanto maior quanto maior a resistência média e sua homogeneidade.
Seis rebites foram ensaiados ao cisalhamento, tendo obtido as seguintes rupturas (cargas de
ruptura).
Rebite ๐‘›
Marca A
Marca B
1
34,9
38,5
3
38,8
40,7
2
35,5
39,0
4
39,2
42,9
5
33,7
37,8
6
37,6
41,4
Esses resultados ratificam a afirmação do produtor da marca B de que seus rebites são melhores
em pelo menos 1 aspecto?
Resolução:
Vamos testar tanto a resistência (via teste para médias) quanto a homogeneidade, ou seja, sua
dispersão (via teste para variâncias).
Nosso primeiro passo é realizar o teste para variância, pois, além de descobrirmos se a marca B é
mais homogênea ou não, vamos descobrir também em que situação estamos no teste da média.
Assim, comecemos calculando os estimadores necessários:
Marca A: ๐‘ฅฬ…๐ด = 36,6 e ๐‘†๐ด2 = 5,02
Marca B: ๐‘ฅฬ…๐ต = 40,05 e ๐‘†๐ต2 = 3,79
Dessa forma, vamos expor nossas hipóteses para o teste de variâncias:
๐‘ฏ :
{ ๐ŸŽ
๐‘ฏ๐Ÿ :
๐œŽ๐ด2 = ๐œŽ๐ต2
๐œŽ๐ด2 > ๐œŽ๐ต2
Nossa variável teste e seu respectivo valor crítico são:
๐‘†๐ด2
5,02
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = ( 2 )
=
= 1,33
๐‘†๐ต ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ 3,79
๐น๐‘๐‘Ÿí๐‘ก = ๐น5; 5; 5% = 5,05
Portanto, não rejeitamos ๐ป0 , ao nível de 5% de significância, pois não podemos afirmar que há
diferença de homogeneidade entre as marcas. Dessa forma, descartamos um aspecto do
enunciado, e descobrimos que para o teste da média ๐œŽ๐ด2 = ๐œŽ๐ต2 .
www.thmestatistica.com
educacional@thmestatistica.com
67
Nosso segundo passo é realizar o teste para a média, sabendo que os desvios-padrão são iguais,
conforme deduzido no passo anterior.
Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡๐ด = ๐œ‡๐ต
๐‘ฏ๐ŸŽ :
↔ {
๐œ‡๐ด < ๐œ‡๐ต
๐‘ฏ๐Ÿ :
๐œ‡๐ต − ๐œ‡๐ด = 0
๐œ‡๐ต − ๐œ‡๐ด > 0
Nossa variável teste e seu respectivo valor crítico são:
(๐‘ฅฬ…๐ต − ๐‘ฅฬ…๐ด )๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = 3,45
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›๐ด +๐‘›๐ต −2 ; ๐›ผ ๐‘†๐‘ƒ √
1
1
+
๐‘›๐ด
๐‘›๐ต
1
1
(๐‘ฅฬ…๐ด − ๐‘ฅฬ… ๐ต )๐‘๐‘Ÿí๐‘ก = ๐‘ก10 ; 5% 2,1√ +
6
6
(๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต )๐‘๐‘Ÿí๐‘ก = 2,22
Portanto, rejeitamos ๐ป0 , ao nível de 5% de significância. Logo, podemos afirmar que a resistência
de B é maior do que a de A.
Dessa forma, os resultados ratificam a afirmação do produtor da marca B de que seus rebites são
melhores em pelo menos 1 aspecto.
www.thmestatistica.com
educacional@thmestatistica.com
68
Anova
Nosso problema agora se trata em resolver comparações entre mais de duas médias. Até
aqui vimos testes de hipótese para comparar duas médias, como segue o exemplo abaixo para
duas populações A e B:
{
๐‘ฏ๐ŸŽ :
๐‘ฏ๐Ÿ :
๐œ‡๐ด − ๐œ‡๐ต = 0
๐œ‡๐ด − ๐œ‡๐ต ≠ 0
Imagine agora usar essa ferramenta para calcular três médias. Teríamos que fazer testes
entre as populações A, B e C, totalizando três testes de hipótese. Com quatro médias, o problema
ainda é executável nos mesmos moldes, ainda que muito trabalhoso. Porém, para comparar
15, 30, 50, โ‹ฏ , ๐พ médias faz-se necessária uma ferramenta mais robusta.
Dessa forma, primeiramente aceitaremos uma hipótese homocedástica sobre os desvios das
populações, isto é, ๐œŽ๐ด = ๐œŽ๐ต = โ‹ฏ = ๐œŽ๐พ . Imaginemos agora um teste do tipo que se segue:
{
๐‘ฏ๐ŸŽ : ๐œ‡๐ด = ๐œ‡๐ต = ๐œ‡๐ถ = ๐œ‡๐ท โ‹ฏ = ๐œ‡๐พ
๐‘ฏ๐Ÿ : ๐ปá ๐‘๐‘’๐‘™๐‘’ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
Para analisar várias médias esse teste é adequado, uma vez que, ao rejeitar ๐ป0 , a conclusão
é de que pelo menos uma população está esquisita (nunca use esse termo formalmente!).
Para realizar o teste, calculamos as médias amostrais (๐‘ฅฬ… ๐‘– ) para cada população ๐‘–. Assim,
para uma amostra de ๐‘› elementos, temos:
www.thmestatistica.com
educacional@thmestatistica.com
69
Elemento
๐Ÿ
๐Ÿ
๐Ÿ‘
โ‹ฏ
๐’
ฬ…
๐’™
๐Ÿ
๐‘ฅ11
๐‘ฅ12
๐‘ฅ13
โ‹ฏ
๐‘ฅ1๐‘›
๐‘ฅฬ…1
๐Ÿ
๐‘ฅ21
๐‘ฅ22
๐‘ฅ23
โ‹ฏ
๐‘ฅ2๐‘›
๐‘ฅฬ… 2
๐Ÿ‘
๐‘ฅ31
๐‘ฅ32
๐‘ฅ33
โ‹ฏ
๐‘ฅ3๐‘›
๐‘ฅฬ… 3
โ‹ฎ
โ‹ฎ
โ‹ฎ
โ‹ฎ
⋅โ‹ฎ⋅
โ‹ฎ
โ‹ฎ
๐‘ฒ
๐‘ฅ๐พ1
๐‘ฅ๐พ2
๐‘ฅ๐พ3
โ‹ฏ
๐‘ฅ๐พ๐‘›
๐‘ฅฬ… ๐พ
Amostra
Calcularemos estimadores da variância um pouco diferentes dos conhecidos até aqui e,
assim, conseguiremos exprimir um teste de comparação de médias em função das variâncias.
Como usaremos variâncias no processo de cálculo, dá-se o nome desse teste de Análise
de Variância, do inglês Analysis of Variance (ANOVA).
Por mais que apareçam variâncias populacionais ๐œŽ e variâncias amostrais ๐‘†, temos que lembrar que se trata de uma
comparação de médias!
www.thmestatistica.com
educacional@thmestatistica.com
70
Anova com Uma Classificação
A Anova com uma classificação se refere àquela na qual se dá a comparação entre amostras,
através de estimadores da variância. Essas são denominados estimador total, estimador entre
amostras e estimador residual.
•
Estimador Total (๐‘บ๐Ÿ๐‘ป ) :
๐Ÿ
๐‘ฒ ๐’
ฬ…
∑
∑
−
๐’™
(๐’™
)
๐’Š๐’‹
๐’Š
๐’‹
๐‘บ๐Ÿ๐‘ป =
(๐’๐‘ฒ − ๐Ÿ)
Onde:
∑๐‘˜
๐‘– ๐‘ฅฬ… ๐‘–
๐‘ฅฬ…ฬ… =
•
๐‘˜
๐‘›
∑๐พ
๐‘– ∑๐ผ ๐‘ฅฬ… ๐‘–๐‘—
๐‘›๐พ
Estimador entre Amostras (๐‘บ๐Ÿ๐‘ฌ ) :
๐‘บ๐Ÿ๐‘ฌ
•
ou ๐‘ฅฬ…ฬ… =
∑๐‘ฒ
ฬ… )๐Ÿ
๐’Š (๐’™๐’Š − ๐’™
= ๐’[
]
๐‘ฒ−๐Ÿ
Estimador Residual (๐‘บ๐Ÿ๐‘น ) :
๐‘บ๐Ÿ๐‘น
๐Ÿ
∑๐‘ฒ
๐’Š ๐‘บ๐’Š
=
๐‘ฒ
Onde:
๐‘†๐‘–2
= ∑
๐‘› (๐‘ฅ
๐‘–๐‘—
๐‘—
− ๐‘ฅฬ…๐‘– )
๐‘›−1
2
Não se preocupe agora em decifrar essas fórmulas, teremos mais a frente um jeito mais automático de calcular esses
estimadores.
www.thmestatistica.com
educacional@thmestatistica.com
71
Iremos trocar o formato do teste para os cálculos com variâncias. Assim, utilizaremos a
variável de teste Fisher-Snedecor, ou simplesmente, a variável de teste ๐น. Ao aceitarmos uma
significância de ๐›ผ%, iremos calcular ๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ e ๐น๐‘๐‘Ÿí๐‘ก;๐›ผ .
{
๐‘ฏ๐ŸŽ : ๐œ‡๐ด = ๐œ‡๐ต = ๐œ‡๐ถ = ๐œ‡๐ท โ‹ฏ = ๐œ‡๐พ
๐‘ฏ : ๐œŽ 2 = ๐œŽ๐‘…2
→ { ๐ŸŽ ๐ธ2
๐‘ฏ๐Ÿ : ๐ปá ๐‘๐‘’๐‘™๐‘’ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
๐‘ฏ๐Ÿ : ๐œŽ๐ธ > ๐œŽ๐‘…2
Nossa variável de teste, então, será dada por:
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
๐‘†๐ธ2
= 2 ; ๐น๐‘๐‘Ÿí๐‘ก = ๐น(๐พ−1) ; ๐พ(๐‘›−1) ; ๐›ผ
๐‘†๐‘…
www.thmestatistica.com
educacional@thmestatistica.com
72
Exercício 17:
Pneus de três marcas foram testados quanto sua durabilidade. Os resultados obtidos, em milhões
de ๐‘˜๐‘š, estão expressos na tabela abaixo.
Marca
Durabilidade
A
34
38
31
35
B
32
34
31
29
C
30
25
28
23
Ao nível de 1% de significância, há evidências de que os pneus tenham diferentes durabilidades
médias?
Resolução:
De início, vamos calcular as médias amostrais de cada marca e, posteriormente, a média de todas
as médias:
๐‘ฅฬ…1 = ๐‘ฅฬ…๐ด = 34,5
;
๐‘ฅฬ…2 = ๐‘ฅฬ…๐ต = 31,5
;
๐‘ฅฬ…3 = ๐‘ฅฬ…๐ถ = 26,5
๐‘ฅฬฟ = 30,833
Em posse dessa, podemos calcular o estimador entre amostras, dado por:
ฬ… 2
∑๐พ
๐‘– (๐‘ฅ๐‘– − ๐‘ฅฬ… )
๐‘†๐ธ2 = ๐‘› [
]
๐พ−1
→
๐‘†๐ธ2 ≅ 65,33
Sendo ๐‘†12 = 8,33 ; ๐‘†22 = 4,33 ; ๐‘†32 = 9,66 ; o cálculo do estimador residual resulta:
๐‘†๐‘…2 =
2
∑๐พ
๐‘– ๐‘†๐‘–
๐พ
→
www.thmestatistica.com
๐‘†๐‘…2 = 7,4
educacional@thmestatistica.com
73
Agora, calculemos nossa variável teste ๐น, tal que:
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
๐‘†๐ธ2
= 2
๐‘†๐‘…
๐น๐‘๐‘Ÿí๐‘ก = ๐น2 ; 9 ; 1%
→
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = 8,78
→
๐น๐‘๐‘Ÿí๐‘ก = 8,02
Portanto, rejeito ๐‘ฏ๐ŸŽ , pois tenho evidências estatísticas para afirmar que há diferenças nas marcas
quanto à durabilidade, ao nível de 1% de significância.
Essa conclusão identifica que há pelo menos uma média diferente das demais, mas não diz qual. Podemos suspeitar
da marca C, a menos durável, e podemos confirmar ou não isso com um teste entre a marca B e C.
www.thmestatistica.com
educacional@thmestatistica.com
74
Para facilitar nosso estudo, a partir daqui usaremos a seguinte notação para os dados vistos
até o momento:
๐‘›
๐‘‡๐‘– = ∑ ๐‘ฅ๐‘–๐‘— →
๐‘†๐‘œ๐‘š๐‘Ž ๐‘‘๐‘œ๐‘  ๐‘ฃ๐‘Ž๐‘™๐‘œ๐‘Ÿ๐‘’๐‘  ๐‘‘๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž ๐‘–
๐‘—
๐‘›
2
๐‘„๐‘– = ∑ ๐‘ฅ๐‘–๐‘—
→
๐‘†๐‘œ๐‘š๐‘Ž ๐‘‘๐‘œ๐‘  ๐‘ž๐‘ข๐‘Ž๐‘‘๐‘Ÿ๐‘Ž๐‘‘๐‘œ๐‘  ๐‘‘๐‘œ๐‘  ๐‘ฃ๐‘Ž๐‘™๐‘œ๐‘Ÿ๐‘’๐‘  ๐‘‘๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž ๐‘–
๐‘—
๐พ
๐พ
๐‘›
๐‘‡ = ∑ ๐‘‡๐‘– = ∑ ∑ ๐‘ฅ๐‘–๐‘— →
๐‘–
๐‘–
๐พ
๐พ
๐‘›
๐‘–
๐‘–
๐‘—
2
๐‘„ = ∑ ๐‘„๐‘– = ∑ ∑ ๐‘ฅ๐‘–๐‘—
→
๐‘ฅฬ…๐‘– =
๐‘ฅฬฟ =
๐‘‡๐‘–
→
๐‘›
๐‘‡
→
๐‘›๐พ
๐‘†๐‘œ๐‘š๐‘Ž ๐‘ก๐‘œ๐‘ก๐‘Ž๐‘™ ๐‘‘๐‘œ๐‘  ๐‘ฃ๐‘Ž๐‘™๐‘œ๐‘Ÿ๐‘’๐‘ 
๐‘—
๐‘†๐‘œ๐‘š๐‘Ž ๐‘ก๐‘œ๐‘ก๐‘Ž๐‘™ ๐‘‘๐‘œ๐‘  ๐‘ž๐‘ข๐‘Ž๐‘‘๐‘Ÿ๐‘Ž๐‘‘๐‘œ๐‘  ๐‘‘๐‘œ๐‘  ๐‘ฃ๐‘Ž๐‘™๐‘œ๐‘Ÿ๐‘’๐‘ 
๐‘€é๐‘‘๐‘–๐‘Ž ๐‘‘๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž ๐‘–
๐‘€é๐‘‘๐‘–๐‘Ž ๐‘‘๐‘’ ๐‘ก๐‘œ๐‘‘๐‘œ๐‘  ๐‘œ๐‘  ๐‘ฃ๐‘Ž๐‘™๐‘œ๐‘Ÿ๐‘’๐‘ 
Com o auxílio dessa nova notação, podemos reescrever a expressão dos estimadores da
variância, como segue abaixo:
www.thmestatistica.com
educacional@thmestatistica.com
75
•
Estimador Total (๐‘บ๐Ÿ๐‘ป ) :
๐‘บ๐Ÿ๐‘ป =
๐‘บ๐‘ธ๐‘ป
(๐’๐‘ฒ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Total (๐‘†๐‘„๐‘‡), é dado por:
๐‘†๐‘„๐‘‡ = ๐‘„ −
•
๐‘‡2
๐‘›๐พ
Estimador entre Amostras (๐‘บ๐Ÿ๐‘ฌ ) :
๐‘บ๐Ÿ๐‘ฌ =
๐‘บ๐‘ธ๐‘ฌ
๐‘ฒ−๐Ÿ
Onde o numerador desse quociente, Soma dos Quadrados Entre amostras (๐‘†๐‘„๐ธ), é dado
por:
๐‘‡๐‘–2
๐‘‡2
๐‘†๐‘„๐ธ = ∑ ( ) −
๐‘›๐‘–
๐‘›๐พ
๐‘–
๐พ
•
Estimador Residual (๐‘บ๐Ÿ๐‘น ) :
๐‘บ๐Ÿ๐‘น =
๐‘บ๐‘ธ๐‘น
๐’Œ(๐’ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Residual (๐‘†๐‘„๐‘…), é dado por:
๐พ ๐‘‡2
๐‘–
๐‘†๐‘„๐‘… = ๐‘„ − ∑ ( )
๐‘›
๐‘–
Na prática não calcularemos SQR pela fórmula, e sim pela diferença ๐‘†๐‘„๐‘‡ – ๐‘†๐‘„๐ธ
www.thmestatistica.com
educacional@thmestatistica.com
76
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Entre linhas
๐‘†๐‘„๐ธ
(๐พ − 1)
๐‘†๐ธ2
Residual
๐‘†๐‘„๐‘…
๐พ(๐‘› − 1)
๐‘†๐‘…2 =
Total
๐‘†๐‘„๐‘‡
๐พ๐‘› − 1
www.thmestatistica.com
Quadrado
Médio
๐‘†๐‘„๐ธ
=
๐พ−1
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
๐‘†๐ธ2
๐‘†๐‘…2
๐‘†๐‘„๐‘…
๐พ(๐‘› − 1)
๐‘†๐‘‡2 =
๐‘†๐‘„๐‘‡
๐พ๐‘› − 1
educacional@thmestatistica.com
77
Exercício 18:
Compare as três médias e veja se há alguma diferente das demais, ao nível de 5% de
significância.
Amostra
Valores
1
64
66
59
65
62
2
71
73
66
70
68
3
52
57
53
56
53
Resolução:
Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ : ๐œ‡๐ด = ๐œ‡๐ต = ๐œ‡๐ถ
๐‘ฏ : ๐œŽ 2 = ๐œŽ๐‘…2
→ { ๐ŸŽ ๐ธ2
๐‘ฏ๐Ÿ : ๐ปá ๐‘๐‘’๐‘™๐‘’ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
๐‘ฏ๐Ÿ : ๐œŽ๐ธ > ๐œŽ๐‘…2
Da tabela dada, infere-se que ๐พ = 3.
Vamos agora calcular a soma de valores de cada linha, o seu quadrado e a soma total de valores:
๐‘‡1 = 316 →
๐‘‡12 = 99.856
๐‘‡2 = 348 →
๐‘‡22 = 121.104
๐‘‡3 = 271 →
๐‘‡32 = 73.441
๐‘‡ = 935 →
∑ ๐‘‡๐‘–2
= 58.880,20
๐‘›๐‘–
Aqui o ๐‘›๐‘– refere-se ao tamanho de cada amostra que, no caso, é igual a 5
Em seguida, calculemos o ๐‘†๐‘„๐ธ, tal que:
๐พ ๐‘‡2
๐‘‡2
๐‘–
๐‘†๐‘„๐ธ = ∑ ( ) −
๐‘›๐‘–
๐‘›๐พ
๐‘–
๐‘†๐‘„๐ธ = 58.880,20 − 58.281,67
๐‘†๐‘„๐ธ = 598,53
www.thmestatistica.com
educacional@thmestatistica.com
78
Vamos agora calcular a soma dos quadrados dos valores de cada linha e a soma total dos
quadrados dos valores:
๐‘„1 = 20.002
๐‘„2 = 24.250
๐‘„3 = 14.707
๐‘„ = 58.959
Em seguida, calculemos o ๐‘†๐‘„๐‘‡, tal que:
๐‘‡2
๐‘†๐‘„๐‘‡ = ๐‘„ −
๐‘›๐พ
๐‘†๐‘„๐‘‡ = 58.959 − 58.281,67
๐‘†๐‘„๐‘‡ = 677,33
Dessa forma, vamos montar nossa tabela de análise de variância, na qual os valores em laranja
referentes à parcela residual foram encontrados pelas diferenças das parcelas entre linhas e total:
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado Médio
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
Entre linhas
598,53
2
299,3
๐‘†๐ธ2 299,3
=
6,6
๐‘†๐‘…2
Residual
๐‘บ๐‘ธ๐‘น = ๐Ÿ•๐Ÿ–, ๐Ÿ–
๐‘ฒ(๐’ − ๐Ÿ) = ๐Ÿ๐Ÿ
๐Ÿ•๐Ÿ–, ๐Ÿ–
= ๐Ÿ”, ๐Ÿ”
๐Ÿ๐Ÿ
๐‘บ๐Ÿ๐‘ฌ
= ๐Ÿ’๐Ÿ“, ๐Ÿ‘๐Ÿ’
๐‘บ๐Ÿ๐‘น
Total
677,73
14
www.thmestatistica.com
๐‘บ๐Ÿ๐‘น =
48,4
educacional@thmestatistica.com
79
Já o ๐น๐‘๐‘Ÿí๐‘ก é dado por:
๐น๐‘๐‘Ÿí๐‘ก = ๐น(๐พ−1); ๐พ(๐‘›−1); ๐›ผ
๐น๐‘๐‘Ÿí๐‘ก = ๐น2; 12; 5%
๐น๐‘๐‘Ÿí๐‘ก = 3,89
Logo, rejeito ๐‘ฏ๐ŸŽ , ou seja, tenho evidências estatísticas para afirmar que há pelo menos uma média
diferente das demais, ao nível de 5% de significância.
www.thmestatistica.com
educacional@thmestatistica.com
80
Anova com Duas Classificações
Nosso próximo passo é expandir esse método de análise para poder comparar tanto linhas
quanto colunas. Com dois critérios, podemos comparar tanto amostras quanto os elementos ๐‘– de
todos os dados.
๐‘ช๐’๐’๐’–๐’๐’‚๐’” (๐’”๐’†๐’ˆ๐’–๐’๐’…๐’ ๐’„๐’“๐’Š๐’•é๐’“๐’Š๐’)
๐‘ฅ11
๐‘ฅ12
๐‘ฅ13
โ‹ฏ
๐‘ฅ1๐‘›
๐‘ฅ21
๐‘ฅ22
๐‘ฅ23
โ‹ฏ
๐‘ฅ2๐‘›
๐‘ฅ31
๐‘ฅ32
๐‘ฅ33
โ‹ฏ
๐‘ฅ3๐‘›
โ‹ฎ
โ‹ฎ
โ‹ฎ
⋅โ‹ฎ⋅
โ‹ฎ
๐‘ฅ๐พ1
๐‘ฅ๐พ2
๐‘ฅ๐พ3
โ‹ฏ
๐‘ฅ๐พ๐‘›
๐‘ณ๐’Š๐’๐’‰๐’‚๐’”
(๐’‘๐’“๐’Š๐’Ž๐’†๐’Š๐’“๐’
๐’„๐’“๐’Š๐’•é๐’“๐’Š๐’)
Nesse caso, os estimadores de variância utilizados são denominados estimador total, estimador
entre linhas, estimador entre colunas e estimador residual.
•
Estimador Total (๐‘บ๐Ÿ๐‘ป ) :
๐‘บ๐Ÿ๐‘ป =
๐‘บ๐‘ธ๐‘ป
(๐’๐‘ฒ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Total (๐‘†๐‘„๐‘‡), é dado por:
๐‘†๐‘„๐‘‡ = ๐‘„ −
๐‘‡2
๐‘›๐พ
Da Anova com uma classificação para a Anova com duas classificações o estimador total não muda!
www.thmestatistica.com
educacional@thmestatistica.com
81
•
Estimador entre Linhas (๐‘บ๐Ÿ๐‘ณ ) :
๐‘บ๐Ÿ๐‘ณ =
๐‘บ๐‘ธ๐‘ณ
๐‘ฒ−๐Ÿ
Onde o numerador desse quociente, Soma dos Quadrados entre Linhas (๐‘†๐‘„๐ฟ), é dado por:
๐พ ๐‘‡2
๐‘‡2
๐‘–
๐‘†๐‘„๐ฟ = ∑ ( ) −
๐‘›๐‘–
๐‘›๐พ
๐‘–
•
Estimador entre Colunas (๐‘บ๐Ÿ๐‘ณ ) :
๐‘บ๐Ÿ๐‘ช =
๐‘บ๐‘ธ๐‘ช
๐’−๐Ÿ
Onde o numerador desse quociente, Soma dos Quadrados entre Colunas (๐‘†๐‘„๐ถ), é dado por:
๐พ ๐‘‡2
๐‘‡2
๐‘—
๐‘†๐‘„๐ถ = ∑ ( ) −
๐‘›๐พ
๐‘— ๐พ๐‘—
•
Estimador Residual (๐‘บ๐Ÿ๐‘น ) :
๐‘บ๐Ÿ๐‘น =
๐‘บ๐‘ธ๐‘น
(๐‘ฒ − ๐Ÿ)(๐’ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Residual (๐‘†๐‘„๐‘…), é dado por:
๐‘†๐‘„๐‘… = ๐‘†๐‘„๐‘‡ − ๐‘†๐‘„๐ฟ − ๐‘†๐‘„๐ถ
www.thmestatistica.com
educacional@thmestatistica.com
82
Pelo fato de nossa análise possuir duas classificações, nossas hipóteses são dadas por:
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œ‡1 = ๐œ‡2 = โ‹ฏ = ๐œ‡๐พ ,
๐‘–๐‘ ๐‘ก๐‘œ é,
๐‘šé๐‘‘๐‘–๐‘Ž ๐‘–๐‘”๐‘ข๐‘Ž๐‘™ ๐‘’๐‘š ๐‘ก๐‘œ๐‘‘๐‘Ž๐‘  ๐‘Ž๐‘  ๐‘™๐‘–๐‘›โ„Ž๐‘Ž๐‘ 
๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐ด ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘’ ๐‘๐‘’๐‘™๐‘œ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž é ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œ‡1 = ๐œ‡2 = โ‹ฏ = ๐œ‡๐‘› ,
๐‘–๐‘ ๐‘ก๐‘œ é,
๐‘šé๐‘‘๐‘–๐‘Ž ๐‘–๐‘”๐‘ข๐‘Ž๐‘™ ๐‘’๐‘š ๐‘ก๐‘œ๐‘‘๐‘Ž๐‘  ๐‘Ž๐‘  ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž๐‘ 
{ ๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐ด ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘’ ๐‘๐‘’๐‘™๐‘œ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž é ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
Dessa forma, nosso teste de hipóteses assume a seguinte forma:
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œŽ๐ฟ2 = ๐œŽ๐‘…2
๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐œŽ๐ฟ2 > ๐œŽ๐‘…2
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œŽ๐ถ2 = ๐œŽ๐‘…2
2
2
{ ๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐œŽ๐ถ > ๐œŽ๐‘…
E, portanto, nossa tabela de análise de variância se dá por:
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Entre linhas
๐‘†๐‘„๐ฟ
(๐พ − 1)
๐‘†๐ฟ2
๐‘†๐‘„๐ฟ
=
๐พ−1
๐‘†๐ฟ2
๐‘†๐‘…2
Entre colunas
๐‘†๐‘„๐ถ
(๐‘› − 1)
๐‘†๐ถ2
๐‘†๐‘„๐ถ
=
๐‘›−1
๐‘†๐ถ2
๐‘†๐‘…2
Residual
๐‘†๐‘„๐‘…
(๐พ − 1)(๐‘› − 1)
Total
๐‘†๐‘„๐‘‡
๐พ๐‘› − 1
Quadrado Médio
๐‘†๐‘…2 =
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
๐‘†๐‘„๐‘…
(๐พ − 1)(๐‘› − 1)
๐‘†๐‘‡2 =
๐‘†๐‘„๐‘‡
๐พ๐‘› − 1
Nesse caso, possuímos dois valores críticos, o ๐น๐‘๐‘Ÿí๐‘ก referente à linha, dado por
๐‘ญ๐‘ฒ−๐Ÿ ; (๐‘ฒ−๐Ÿ)(๐’−๐Ÿ) ; ๐œถ , e o ๐น๐‘๐‘Ÿí๐‘ก referente à coluna, dado por ๐‘ญ๐’−๐Ÿ ; (๐‘ฒ−๐Ÿ)(๐’−๐Ÿ) ; ๐œถ .
www.thmestatistica.com
educacional@thmestatistica.com
83
Exercício 19:
Em uma experiência agrícola, foram usados seis diferentes fertilizantes em duas variedades de
milho, tendo sido obtido as colheitas dadas a seguir em sacas, para os vários canteiros de mesma
área que foram plantados.
Fertilizantes
A
B
C
D
E
F
Variedade 1
5,4
3,2
3,8
4,6
5,0
4,4
Variedade 2
5,7
4,0
4,2
4,5
5,3
5,0
Utilizar análise de variância para avaliar se existem diferenças significativas entre os fertilizantes e
as variedades (๐›ผ = 1%).
Resolução:
Nossas hipóteses são:
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œŽ๐ฟ2 = ๐œŽ๐‘…2
๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐œŽ๐ฟ2 > ๐œŽ๐‘…2
๐‘ฏ๐ŸŽ ๐Ÿ โˆถ ๐œŽ๐ถ2 = ๐œŽ๐‘…2
2
2
{ ๐‘ฏ๐Ÿ ๐Ÿ โˆถ ๐œŽ๐ถ > ๐œŽ๐‘…
Vamos calcular a soma de valores de cada linha, o seu quadrado e a soma total de valores:
๐‘‡1 = 26,4 →
๐‘‡12 = 696,96
๐‘‡2 = 28,7 →
๐‘‡22 = 823,69
๐‘‡ = 55,1 →
∑ ๐‘‡๐‘–2
= 253,44
๐‘›๐‘–
www.thmestatistica.com
educacional@thmestatistica.com
84
Agora a soma de valores de cada coluna, o seu quadrado e a soma total de valores:
๐‘‡1 = 11,1 →
๐‘‡12 = 123,21
๐‘‡2 = 7,2 →
๐‘‡22 = 51,84
๐‘‡3 = 8,0 →
๐‘‡32 = 64,0
๐‘‡4 = 9,1 →
๐‘‡42 = 82,81
๐‘‡5 = 10,3 →
๐‘‡52 = 106,09
๐‘‡6 = 9,4 →
๐‘‡62 = 88,36
๐‘‡ = 55,1 →
∑ ๐‘‡๐‘—2
๐พ๐‘—
= 258,155
Agora vamos calcular a soma dos quadrados de cada um dos valores:
๐‘„ = 258,83
Em seguida, calculemos o ๐‘†๐‘„๐‘‡, ๐‘†๐‘„๐ฟ e o ๐‘†๐‘„๐ถ, tal que:
๐‘†๐‘„๐‘‡ = ๐‘„ −
๐พ
๐‘†๐‘„๐ฟ = ∑ (
๐‘–
๐‘‡2
→ ๐‘†๐‘„๐‘‡ = 5,83
๐‘›๐พ
๐‘‡๐‘–2
๐‘‡2
)−
→ ๐‘†๐‘„๐ฟ = 0,44
๐‘›๐‘–
๐‘›๐พ
๐‘‡๐‘—2
๐‘‡2
๐‘†๐‘„๐ถ = ∑ ( ) −
→ ๐‘†๐‘„๐ถ = 5,155
๐พ๐‘—
๐‘›๐พ
๐‘–
๐พ
O que implica:
๐‘†๐‘„๐‘… = ๐‘†๐‘„๐‘‡ − ๐‘†๐‘„๐ฟ − ๐‘†๐‘„๐ถ → ๐‘†๐‘„๐‘… = 0,253
www.thmestatistica.com
educacional@thmestatistica.com
85
Dessa forma, vamos montar nossa tabela de análise de variância, na qual os valores em laranja
referentes à parcela residual foram encontrados pelas diferenças das demais parcelas:
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado Médio
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
Entre linhas
0,44
1
0,44
๐‘†๐ฟ2
= 9,36
๐‘†๐‘…2
Entre colunas
5,155
5
1,031
๐‘†๐ถ2
= 21,94
๐‘†๐‘…2
Residual
๐ŸŽ, ๐Ÿ๐Ÿ‘๐Ÿ“
๐Ÿ“
Total
5,83
11
๐‘บ๐Ÿ๐‘น =
๐ŸŽ, ๐Ÿ๐Ÿ‘๐Ÿ“
= ๐ŸŽ, ๐ŸŽ๐Ÿ’๐Ÿ•
๐Ÿ“
0,53
Já os ๐น๐‘๐‘Ÿí๐‘ก são dados por:
๐น๐‘๐‘Ÿí๐‘ก = ๐น๐พ−1 ; (๐พ−1)(๐‘›−1) ; ๐›ผ , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = ๐น1 ; 5 ; 1% , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = 16,26 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = ๐น๐‘›−1 ; (๐พ−1)(๐‘›−1) ; ๐›ผ , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = ๐น5 ; 5 ; 1% , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = 10,97 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž
Logo, ao nível de 1% de significância, pode-se afirmar que não há diferenças entre variedades de
milhos (linhas) e há diferença entre fertilizantes (colunas), isto é, não rejeito ๐‘ฏ๐ŸŽ ๐Ÿ e rejeito ๐‘ฏ๐ŸŽ ๐Ÿ ,
respectivamente.
www.thmestatistica.com
educacional@thmestatistica.com
86
Anova com Repetições
Agora vamos expandir ainda mais os critérios, ao passo que teremos repetições para os
elementos de cada amostra. Dessa forma, analisaremos as linhas, colunas, repetições, chamadas
de tratamento, e se há alguma combinação entre linha e coluna melhor que as outras, chamadas
de interação.
Caso não haja interação, excluiremos a linha referente e somaremos seus valores aos
residuais, e então a conta toda pode ser refeita. Nossos dados aparecem normalmente sob a
seguinte forma:
Elemento
๐Ÿ
๐Ÿ
๐Ÿ‘
โ‹ฏ
๐’
Amostra
๐Ÿ
๐‘ฅ111
๐‘ฅ113
๐‘ฅ11 2
๐‘ฅ114
๐‘ฅ121
๐‘ฅ123
๐‘ฅ12 2
๐‘ฅ124
๐‘ฅ131
๐‘ฅ133
๐‘ฅ13 2
๐‘ฅ134
โ‹ฏ
๐‘ฅ1๐‘›1
๐‘ฅ1๐‘›3
๐‘ฅ1๐‘› 2
๐‘ฅ1๐‘›4
๐Ÿ
๐‘ฅ211
๐‘ฅ213
๐‘ฅ21 2
๐‘ฅ214
๐‘ฅ221
๐‘ฅ223
๐‘ฅ22 2
๐‘ฅ224
๐‘ฅ231
๐‘ฅ233
๐‘ฅ23 2
๐‘ฅ234
โ‹ฏ
๐‘ฅ2๐‘›1
๐‘ฅ2๐‘›3
๐‘ฅ2๐‘› 2
๐‘ฅ2๐‘›4
๐Ÿ‘
๐‘ฅ311
๐‘ฅ313
๐‘ฅ31 2
๐‘ฅ314
๐‘ฅ321
๐‘ฅ323
๐‘ฅ32 2
๐‘ฅ324
๐‘ฅ331
๐‘ฅ333
๐‘ฅ33 2
๐‘ฅ334
โ‹ฏ
๐‘ฅ3๐‘›1
๐‘ฅ3๐‘›3
๐‘ฅ3๐‘› 2
๐‘ฅ3๐‘›4
โ‹ฎ
๐‘ฒ
โ‹ฎ
๐‘ฅ๐พ11
๐‘ฅ๐พ13
โ‹ฎ
๐‘ฅ๐พ1 2
๐‘ฅ๐พ14
๐‘ฅ๐พ21
๐‘ฅ๐พ23
โ‹ฎ
๐‘ฅ๐พ31
๐‘ฅ๐พ33
๐‘ฅ๐พ2 2
๐‘ฅ๐พ24
www.thmestatistica.com
⋅โ‹ฎ⋅
๐‘ฅ๐พ3 2
๐‘ฅ๐พ34
โ‹ฏ
โ‹ฎ
๐‘ฅ๐พ๐‘›1
๐‘ฅ๐พ๐‘›3
๐‘ฅ๐พ๐‘› 2
๐‘ฅ๐พ๐‘›4
educacional@thmestatistica.com
87
Nesse caso, os estimadores de variância utilizados são denominados estimador total,
estimador entre linhas, estimador entre colunas, estimador entre tratamentos, estimador de
interações e estimador residual.
•
Estimador Total (๐‘บ๐Ÿ๐‘ป ) :
๐‘บ๐Ÿ๐‘ป =
๐‘บ๐‘ธ๐‘ป
(๐’๐‘ฒ๐’“ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Total (๐‘†๐‘„๐‘‡), é dado por:
๐‘†๐‘„๐‘‡ = ๐‘„ −
•
๐‘‡2
๐‘›๐พ๐‘Ÿ
Estimador entre Linhas (๐‘บ๐Ÿ๐‘ณ ) :
๐‘บ๐Ÿ๐‘ณ =
๐‘บ๐‘ธ๐‘ณ
๐‘ฒ−๐Ÿ
Onde o numerador desse quociente, Soma dos Quadrados entre Linhas (๐‘†๐‘„๐ฟ), é dado por:
๐พ ๐‘‡2
๐‘‡2
๐‘–
๐‘†๐‘„๐ฟ = ∑ ( ) −
๐‘›๐พ๐‘Ÿ
๐‘– ๐‘›๐‘– ๐‘Ÿ
•
Estimador entre Colunas (๐‘บ๐Ÿ๐‘ณ ) :
๐‘บ๐Ÿ๐‘ช =
๐‘บ๐‘ธ๐‘ช
๐’−๐Ÿ
Onde o numerador desse quociente, Soma dos Quadrados entre Colunas (๐‘†๐‘„๐ถ), é dado por:
๐‘‡๐‘—2
๐‘‡2
๐‘†๐‘„๐ถ = ∑ ( ) −
๐‘›๐พ๐‘Ÿ
๐‘— ๐พ๐‘— ๐‘Ÿ
๐‘›
www.thmestatistica.com
educacional@thmestatistica.com
88
•
Estimador entre Tratamentos (๐‘บ๐Ÿ๐‘ป๐’“ ) :
๐‘บ๐Ÿ๐‘ป๐’“ =
๐‘บ๐‘ธ๐‘ป๐’“
(๐’๐‘ฒ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados entre Tratamentos (๐‘†๐‘„๐‘‡๐‘Ÿ ), é dado
por:
๐พ
๐‘›
๐‘†๐‘„๐‘‡๐‘Ÿ = ∑ ∑ (
๐‘–
•
๐‘—
๐‘‡๐‘–๐‘—2
๐‘‡2
)−
๐‘Ÿ
๐‘›๐พ๐‘Ÿ
Estimador de Interações (๐‘บ๐Ÿ๐‘ฐ ) :
๐‘บ๐Ÿ๐‘ฐ =
๐‘บ๐‘ธ๐‘ฐ
(๐‘ฒ − ๐Ÿ)(๐’ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados das Interações (๐‘†๐‘„๐ผ), é dado por:
๐‘†๐‘„๐ผ = ๐‘†๐‘„๐‘‡๐‘Ÿ − ๐‘†๐‘„๐ฟ − ๐‘†๐‘„๐ถ
•
Estimador Residual (๐‘บ๐Ÿ๐‘น ) :
๐‘บ๐Ÿ๐‘น =
๐‘บ๐‘ธ๐‘น
๐’๐‘ฒ(๐’“ − ๐Ÿ)
Onde o numerador desse quociente, Soma dos Quadrados Residual (๐‘†๐‘„๐‘…), é dado por:
๐‘†๐‘„๐‘… = ๐‘†๐‘„๐‘‡ − ๐‘†๐‘„๐‘‡๐‘Ÿ
www.thmestatistica.com
educacional@thmestatistica.com
89
E, portanto, nossa tabela de análise de variância se dá por:
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Entre linhas
๐‘†๐‘„๐ฟ
(๐พ − 1)
๐‘†๐ฟ2
๐‘†๐‘„๐ฟ
=
๐พ−1
๐‘†๐ฟ2
๐‘†๐‘…2
Entre colunas
๐‘†๐‘„๐ถ
(๐‘› − 1)
๐‘†๐ถ2
๐‘†๐‘„๐ถ
=
๐‘›−1
๐‘†๐ถ2
๐‘†๐‘…2
Entre
tratamentos
๐‘†๐‘„๐‘‡๐‘Ÿ
(๐‘›๐พ − 1)
๐‘†๐‘„๐‘‡๐‘Ÿ
=
๐‘›๐พ − 1
๐‘†๐‘‡2๐‘Ÿ
Interação
๐‘†๐‘„๐ผ
(๐พ − 1)(๐‘› − 1)
Residual
๐‘†๐‘„๐‘…
๐‘›๐พ(๐‘Ÿ − 1)
Total
๐‘†๐‘„๐‘‡
๐พ๐‘›๐‘Ÿ − 1
Quadrado Médio
๐‘†๐‘‡2๐‘Ÿ
๐‘†๐ผ2 =
๐‘†๐‘„๐ผ
(๐พ − 1)(๐‘› − 1)
๐‘†๐‘…2 =
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
๐‘†๐‘…2
๐‘†๐ผ2
๐‘†๐‘…2
๐‘†๐‘„๐‘…
๐‘›๐พ(๐‘Ÿ − 1)
๐‘†๐‘‡2 =
๐‘†๐‘„๐‘‡
๐พ๐‘›๐‘Ÿ − 1
Nesse caso, possuímos quatro valores críticos, o ๐น๐‘๐‘Ÿí๐‘ก referente à linha, dado por
๐‘ญ๐‘ฒ−๐Ÿ ; ๐’๐‘ฒ(๐’“−๐Ÿ) ; ๐œถ, o referente à coluna, dado por ๐‘ญ๐’−๐Ÿ ; ๐’๐‘ฒ(๐’“−๐Ÿ) ; ๐œถ , o referente ao tratamento, dado por
๐‘ญ๐’๐‘ฒ−๐Ÿ ; ๐’๐‘ฒ(๐’“−๐Ÿ) ; ๐œถ e o referente à interação, dado por ๐‘ญ(๐‘ฒ−๐Ÿ)(๐’−๐Ÿ) ; ๐’๐‘ฒ(๐’“−๐Ÿ) ; ๐œถ .
Para a interação, formulamos as seguintes hipóteses:
{
๐‘ฏ๐ŸŽ : ๐‘ã๐‘œ โ„Žá ๐‘–๐‘›๐‘ก๐‘’๐‘Ÿ๐‘Žçã๐‘œ
๐‘ฏ๐Ÿ : ๐ปá ๐‘–๐‘›๐‘ก๐‘’๐‘Ÿ๐‘Žçã๐‘œ
Logo, caso não se rejeito ๐ป0 , excluímos a linha tratada e adicionamos seu valor ao resíduo
e então refazemos as contas.
www.thmestatistica.com
educacional@thmestatistica.com
90
Exercício 20:
Foram observados os tempos, em segundos, gastos por 4 operários para montar certa peça, por
três métodos diferentes. Cada operário montou duas peças por cada método, sendo obtidos os
resultados assinalados na tabela abaixo. É considerada admissível a existência de interação entre
operários e métodos. Verificar pela análise de variância se existe diferença significativa entre os
métodos, operários, tratamentos, etc; com ๐›ผ = 5% .
Operário
๐Ÿ
๐Ÿ
๐Ÿ‘
๐Ÿ’
๐‘ฐ
54
52
46
47
55
54
51
60
๐‘ฐ๐‘ฐ
54
57
61
55
59
61
56
57
๐‘ฐ๐‘ฐ๐‘ฐ
59
62
63
58
63
61
59
60
Método
Resolução:
Para facilitar nossos cálculos, vamos começar usando uma propriedade associada à variância,
dada por:
๐œŽ 2 (๐‘ฅ + ๐‘˜) = ๐œŽ 2 (๐‘ฅ)
Propriedade exposta no Curso de Teoria das Probabilidades
Dessa forma, podemos reescrever nossa tabela, segundo ๐‘˜ = 45:
Operário
๐Ÿ
๐Ÿ
๐Ÿ‘
๐Ÿ’
๐‘ฐ
9
7
1
2
10
9
6
15
๐‘ฐ๐‘ฐ
9
12
16
10
14
16
11
12
๐‘ฐ๐‘ฐ๐‘ฐ
14
17
18
13
18
16
14
15
Método
www.thmestatistica.com
educacional@thmestatistica.com
91
Sendo assim, vamos calcular a soma de valores de método e operário:
๐‘‡๐ผ = 59
๐‘‡1 = 68
;
;
๐‘‡๐ผ๐ผ = 100
๐‘‡2 = 60
;
;
๐‘‡๐ผ๐ผ๐ผ = 125
๐‘‡3 = 83
;
๐‘‡4 = 73
O que implica:
๐‘„ = (92 + 72 + 12 + โ‹ฏ + 142 + 155 ) = 3854
๐พ
∑
๐‘–
๐‘‡๐‘–2
592
1002
1252
=
+
+
= 3638,5
๐‘›๐‘Ÿ (4)(2) (4)(2) (4)(2)
๐‘›
๐‘‡๐‘—2
682
602
832
732
∑
=
+
+
+
= 3407
๐พ๐‘Ÿ (3)(2) (3)(2) (3)(2) (3)(2)
๐‘—
๐พ
๐‘›
๐‘–
๐‘—
๐‘‡๐‘–๐‘—2 [(9 + 7)2 + (1 + 2)2 + โ‹ฏ + (14 + 15)2 ]
∑∑
=
= 3766
๐‘Ÿ
2
(100 + 125 + 59)2
๐‘‡2
=
= 3360,67
(4)(3)(2)
๐‘›๐พ๐‘Ÿ
Dessa forma, temos:
๐‘†๐‘„๐ฟ = 3638,5 − 3360,67
→
๐‘†๐‘„๐ฟ = 277,58
๐‘†๐‘„๐ถ = 3407 − 3360,67
→
๐‘†๐‘„๐ถ = 43,33
๐‘†๐‘„๐‘‡๐‘Ÿ = 3766 − 3360,67
→
๐‘†๐‘„๐‘‡๐‘Ÿ = 405,33
๐‘†๐‘„๐ผ = 405,33 − 43,33 − 277,58
๐‘†๐‘„๐‘… = 493,33 − 405,33
๐‘†๐‘„๐‘‡ = 3854 − 3360,67
www.thmestatistica.com
→
→
→
๐‘†๐‘„๐ผ = 81,42
๐‘†๐‘„๐‘… = 88
๐‘†๐‘„๐‘‡ = 493,33
educacional@thmestatistica.com
92
Dessa forma, vamos montar nossa tabela de análise de variância:
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado Médio
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
Entre linhas
277,58
2
138,79
18,93
Entre colunas
46,33
3
15,44
2,11
Entre
tratamentos
405,33
11
36,85
5,03
Interação
81,42
6
13,57
1,85
Residual
88
12
7,33
Total
493,33
23
21,45
Já os ๐น๐‘๐‘Ÿí๐‘ก são dados por:
๐น๐‘๐‘Ÿí๐‘ก = 3,89 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = 3,49 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž
๐น๐‘๐‘Ÿí๐‘ก = 2,72 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘œ๐‘  ๐‘ก๐‘Ÿ๐‘Ž๐‘ก๐‘Ž๐‘š๐‘’๐‘›๐‘ก๐‘œ๐‘ 
๐น๐‘๐‘Ÿí๐‘ก ≈ 3 , ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘Ž๐‘  ๐‘–๐‘›๐‘ก๐‘’๐‘Ÿ๐‘Žçõ๐‘’๐‘ 
Perceba que, para a perspectiva da interação, não rejeito ๐‘ฏ๐ŸŽ , pois o valor amostral é menor que o
valor crítico. Dessa forma, deve-se excluir essa linha e adicioná-la ao resíduo, visto que não há
interação.
www.thmestatistica.com
educacional@thmestatistica.com
93
TABELA DE ANÁLISE DE VARIÂNCIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado Médio
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
Entre linhas
277,58
2
138,79
๐Ÿ—, ๐Ÿ–๐Ÿ‘
Entre colunas
46,33
3
15,44
๐Ÿ, ๐ŸŽ๐Ÿ—๐Ÿ‘
Entre
tratamentos
405,33
11
36,85
๐Ÿ, ๐Ÿ”๐Ÿ
Residual
๐Ÿ๐Ÿ”๐Ÿ—, ๐Ÿ’๐Ÿ
12
๐Ÿ๐Ÿ’, ๐Ÿ๐Ÿ
Total
493,33
23
21,45
Logo, podemos concluir, ao nível de 5% de significância, que há diferença entre métodos, porém
não há diferenças entre operários e nem tratamentos.
Conforme o conteúdo avança, é normal os exercícios evoluírem, portanto tenha calma! Resoluções grandes como
essa costumam assustar, porém veja que a teoria por trás disso não passa de um teste de hipóteses!
www.thmestatistica.com
educacional@thmestatistica.com
94
Correlação e Regressão
Correlação Linear
Quando duas ou mais variáveis apresentam tendência de variação conjunta, dizemos que
estas se correlacionam. Na prática, utilizamos o diagrama de dispersão para verificar de maneira
rápida e eficiente a existência de correlação.
Considere uma amostra com ๐‘› pares de variáveis (๐‘ฅ๐‘– , ๐‘ฆ๐‘– ) e um coeficiente de correlação ๐‘Ÿ,
o qual correlaciona ๐‘ฅ com ๐‘ฆ linearmente, com −1 ≤ ๐‘Ÿ ≤ 1. Ao representar essa amostra em um
gráfico de dispersão, as seguintes configurações podem surgir:
๐‘Ÿ ≈ 0,6
๐‘Ÿ ≈ 0,8
๐‘Ÿ=1
Para os casos acima, há correlação linear positiva, sendo ๐‘Ÿ = 1 uma correlação linear
positiva perfeita.
๐‘Ÿ ≈ − 0,6
๐‘Ÿ ≈ − 0,9
๐‘Ÿ =−1
Para os casos acima, há correlação linear negativa, sendo ๐‘Ÿ = 1 uma correlação linear
negativa perfeita.
www.thmestatistica.com
educacional@thmestatistica.com
95
E vale mencionar os seguintes exemplos de caso:
Não há correlação linear, ๐‘Ÿ ≈ 0
Não há correlação linear, ๐‘Ÿ ≈ 0
Perceba que ๐‘Ÿ ≈ 0 não significa que não há correlação, mas apenas que não há correlação
linear.
O coeficiente de correlação linear ๐‘Ÿ é calculado através de três somas de quadrados: ๐‘ฅ em
relação à ๐‘ฅ, ๐‘ฆ em relação à ๐‘ฆ e ๐‘ฅ em relação à ๐‘ฆ; sendo ๐‘ฅ a variável referente à abscissa e ๐‘ฆ a
variável referente à ordenada.
www.thmestatistica.com
educacional@thmestatistica.com
96
Para ๐‘ฅ em relação à ๐‘ฅ, temos:
๐‘›
๐‘†๐‘ฅ๐‘ฅ = ∑(๐‘ฅ๐‘– − ๐‘ฅฬ… )2
๐‘–
๐‘›
๐‘†๐‘ฅ๐‘ฅ =
∑๐‘›๐‘– ๐‘ฅ๐‘–
−(
)
√๐‘›
∑ ๐‘ฅ๐‘–2
๐‘–
๐’
∑ ๐’™๐Ÿ๐’Š
๐’Š
๐‘บ๐’™๐’™ =
2
(∑๐’๐’Š ๐’™๐’Š )๐Ÿ
−
๐’
Para ๐‘ฆ em relação à ๐‘ฆ, de maneira análoga, temos:
๐’
∑ ๐’š๐Ÿ๐’Š
๐’Š
๐‘บ๐’š๐’š =
(∑๐’๐’Š ๐’š๐’Š )๐Ÿ
−
๐’
E, por fim, para ๐‘ฅ em relação à ๐‘ฆ, temos:
๐’
๐‘บ๐’™๐’š
∑๐’๐’Š ๐’™๐’Š ∑๐’๐’Š ๐’š๐’Š
= ∑ ๐’™๐’Š ๐’š๐’Š −
๐’
๐’Š
Dessa forma, temos que o coeficiente de correlação linear é dado por:
๐’“=
๐‘บ๐’™๐’š
√๐‘บ๐’™๐’™ ๐‘บ๐’š๐’š
; −๐Ÿ ≤ ๐’“ ≤ ๐Ÿ
Se todos os pontos se encaixam em uma reta, temos ๐‘Ÿ 2 = 1, ou seja, dado ๐‘ฅ sabemos ๐‘ฆ com certeza.
www.thmestatistica.com
educacional@thmestatistica.com
97
Exercício 21:
Dada a tabela abaixo, ache o valor do coeficiente de correlação linear ๐‘Ÿ.
๐’™๐’Š
0
1
2
3
4
5
6
๐’š๐’Š
3
4
7
15
11
14
17
Resolução:
Para facilitar nosso trabalho braçal na realização das contas, vamos verticalizar nossa tabela e
adicionar as seguintes colunas:
๐’™๐’Š
๐’š๐’Š
๐’™๐Ÿ๐’Š
๐’š๐Ÿ๐’Š
๐’™ ๐’Š ๐’š๐’Š
0
3
0
9
0
1
4
1
16
4
2
7
4
49
14
3
15
9
225
45
4
11
16
121
44
5
14
25
196
70
6
17
36
289
102
Assim, podemos calcular as seguintes somatórias:
๐‘›
๐‘›
๐‘›
∑ ๐‘ฅ๐‘– = 21 ; ∑ ๐‘ฆ๐‘– = 71 ;
๐‘–
๐‘–
๐‘›
∑ ๐‘ฅ๐‘–2
๐‘–
= 91 ;
∑ ๐‘ฆ๐‘–2
๐‘–
๐‘›
= 905 ; ∑ ๐‘ฅ๐‘– ๐‘ฆ๐‘– = 279
๐‘–
E então, para as três somas de quadrados, temos:
๐‘†๐‘ฅ๐‘ฅ = 28 ; ๐‘†๐‘ฆ๐‘ฆ = 184,86 ; ๐‘†๐‘ฅ๐‘ฆ = 66
Logo, o coeficiente de correlação linear será:
๐‘Ÿ=
๐‘†๐‘ฅ๐‘ฆ
√๐‘†๐‘ฅ๐‘ฅ ๐‘†๐‘ฆ๐‘ฆ
=
66
√(184,86)(28)
๐’“ = ๐ŸŽ, ๐Ÿ—๐Ÿ๐Ÿ•
Portanto, podemos concluir que há correlação linear entre as variáveis, sendo essa elevada. Para enxergar isso de
uma maneira mais pictográfica, faz-se necessária a construção de um gráfico de dispersão.
www.thmestatistica.com
educacional@thmestatistica.com
98
Regressão Linear
Quando temos vários pontos do tipo (๐‘ฅ๐‘– , ๐‘ฆ๐‘– ), podemos criar uma reta de regressão linear do
tipo ๐‘ฆฬ‚ = ๐‘Ž + ๐‘๐‘ฅ, na qual ๐‘ฆฬ‚ tem distribuição normal de ocorrência.
2
A reta de regressão é uma função do tipo ๐‘“(๐‘Ž, ๐‘) = ∑(๐‘ฆ๐‘– − ๐‘ฆฬ‚)
๐‘– . Dessa forma, temos que:
๐œ•๐‘“(๐‘Ž, ๐‘)
=0
๐œ•๐‘Ž
๐œ•๐‘“(๐‘Ž, ๐‘)
{ ๐œ•๐‘ = 0
Com um certo manejo algébrico, o qual não será abordado devido o nível avançado de
detalhes, é possível chegar em uma expressão que determine os coeficientes ๐‘Ž e ๐‘, tal que:
๐’ƒ=
๐‘บ๐’™๐’š
๐‘บ๐’™๐’™
&
ฬ… − ๐’ƒ๐’™
ฬ…
๐’‚= ๐’š
www.thmestatistica.com
educacional@thmestatistica.com
99
Exercício 22:
Dada a tabela abaixo, ache o valor dos coeficientes ๐‘Ž e ๐‘ da reta de regressão linear.
๐’™๐’Š
0
1
2
3
4
5
6
๐’š๐’Š
3
4
7
15
11
14
17
Resolução:
Vimos no exercício anterior, de tabela igual, que as três somas de quadrados são dadas por:
๐‘†๐‘ฅ๐‘ฅ = 28 ; ๐‘†๐‘ฆ๐‘ฆ = 184,86 ; ๐‘†๐‘ฅ๐‘ฆ = 66
Dessa forma, podemos calcular o coeficiente ๐‘ primeiro:
๐‘=
๐‘†๐‘ฅ๐‘ฆ
๐‘†๐‘ฅ๐‘ฅ
๐‘=
66
28
๐’ƒ ≅ ๐Ÿ, ๐Ÿ‘๐Ÿ”
Note que a média da variável ๐‘ฅ e da variável ๐‘ฆ são, respectivamente:
๐‘ฅฬ… = 3
๐‘’
๐‘ฆฬ… ≅ 10,14
E assim, podemos encontrar também o coeficiente ๐‘Ž:
๐‘Ž = ๐‘ฆฬ… − ๐‘๐‘ฅฬ…
๐‘Ž ≅ 10,14 − (2,36)(3)
๐’‚ ≅ ๐Ÿ‘, ๐ŸŽ๐Ÿ”
ฬ‚ = ๐Ÿ‘, ๐ŸŽ๐Ÿ” + ๐Ÿ, ๐Ÿ‘๐Ÿ”๐’™ .
Portanto, a reta formada pela regressão linear é equivalente à ๐’š
www.thmestatistica.com
educacional@thmestatistica.com
100
Para a regressão linear, iremos manter o modo operacional visto na análise de variância, ao
passo que calcularemos três variâncias amostrais: uma sobre a regressão, uma residual e uma
total. Nosso teste será realizado nos mesmos moldes já vistos, isto é, comparando o valor de uma
๐น๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ com o valor de uma ๐น๐‘๐‘Ÿí๐‘ก .
Nossas hipóteses são:
{
๐‘ฏ๐ŸŽ : ๐‘‚ ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘œ ๐‘‘๐‘’ ๐‘Ÿ๐‘’๐‘”๐‘Ÿ๐‘’๐‘ ๐‘ ã๐‘œ ๐‘›ã๐‘œ é ๐‘ ๐‘–๐‘”๐‘›๐‘–๐‘“๐‘–๐‘๐‘Ž๐‘ก๐‘–๐‘ฃ๐‘œ ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘’๐‘ฅ๐‘๐‘™๐‘–๐‘๐‘Ž๐‘Ÿ ๐‘ฆ
๐‘ฏ๐Ÿ : ๐‘‚ ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘œ ๐‘‘๐‘’ ๐‘Ÿ๐‘’๐‘”๐‘Ÿ๐‘’๐‘ ๐‘ ã๐‘œ é ๐‘ ๐‘–๐‘”๐‘›๐‘–๐‘“๐‘–๐‘๐‘Ž๐‘ก๐‘–๐‘ฃ๐‘œ ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘’๐‘ฅ๐‘๐‘™๐‘–๐‘๐‘Ž๐‘Ÿ ๐‘ฆ
Intuitivamente, tudo o que o modelo não capta se transforma em resíduo. Assim, uma boa
medição do quanto o modelo capta é o coeficiente de correlação linear, também chamado de
coeficiente de Pearson, elevado ao quadrado, tal que:
๐‘Ÿ2 =
๐‘‰๐‘Ž๐‘Ÿ๐‘–๐‘Žçã๐‘œ ๐‘’๐‘ฅ๐‘๐‘™๐‘–๐‘๐‘Ž๐‘‘๐‘Ž ๐‘๐‘’๐‘™๐‘Ž ๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
๐‘‰๐‘Ž๐‘Ÿ๐‘–๐‘Žçã๐‘œ ๐‘ก๐‘œ๐‘ก๐‘Ž๐‘™
๐’“๐Ÿ =
๐‘บ๐‘ธ๐‘น๐’†๐’ˆ
๐‘บ๐‘ธ๐‘ป
O ๐‘Ÿ 2 é a parte da aleatoriedade total de ๐‘ฆ explicada pelo modelo de regressão, sendo
também expresso em percentagem.
Já as somas de quadrados utilizadas para nossa tabela de análise de variância da regressão
são definidas por:
•
Soma dos Quadrados Total:
๐‘›
๐‘†๐‘„๐‘‡ = ∑(๐‘ฆ๐‘– − ๐‘ฆฬ…)2 →
๐‘†๐‘„๐‘‡ = ๐‘†๐‘ฆ๐‘ฆ
๐‘–
•
Soma dos Quadrados de Regressão:
๐‘›
๐‘†๐‘„๐‘…๐‘’๐‘” = ∑(๐‘ฆฬ‚๐‘– − ๐‘ฆฬ…)2
→
๐‘†๐‘„๐‘…๐‘’๐‘” = ๐‘ ๐‘†๐‘ฅ๐‘ฆ
๐‘–
•
Soma dos Quadrados Residual:
๐‘›
2
๐‘†๐‘„๐‘… = ∑(๐‘ฆ๐‘– − ๐‘ฆฬ‚)
๐‘–
๐‘–
Calculado pela diferença dos demais ou por ๐‘†๐‘ฆ๐‘ฆ − ๐‘ ๐‘†๐‘ฅ๐‘ฆ
www.thmestatistica.com
educacional@thmestatistica.com
101
Logo, a Tabela de Análise de Variância da Regressão é dada por:
TABELA DE ANÁLISE DE VARIÂNCIA DA REGRESSÃO
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado
Médio
Regressão
๐‘†๐‘„๐‘…๐‘’๐‘”
1
Residual
๐‘†๐‘„๐‘…
(๐‘› − 2)
๐‘†๐‘…2 =
๐‘†๐‘„๐‘…
(๐‘› − 2)
Total
๐‘†๐‘„๐‘‡
(๐‘› − 1)
๐‘†๐‘‡2 =
๐‘†๐‘„๐‘‡
(๐‘› − 1)
2
๐‘†๐‘…๐‘’๐‘”
๐‘†๐‘„๐‘…๐‘’๐‘”
=
1
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
2
๐‘†๐‘…๐‘’๐‘”
๐‘†๐‘…2
Ao passo que nosso valor crítico é dado por uma ๐น de Snedecor dada por ๐‘ญ๐Ÿ ; ๐’−๐Ÿ ; ๐œถ .
www.thmestatistica.com
educacional@thmestatistica.com
102
Exercício 23:
Dada a tabela abaixo, fazer a análise de regressão, dado ๐›ผ = 5%.
๐’™๐’Š
0
1
2
3
4
5
6
๐’š๐’Š
3
4
7
15
11
14
17
Resolução:
Vimos nos dois exercícios anteriores que a soma de quadrados, assim como os coeficientes da
reta de regressão são dados por:
๐‘†๐‘ฅ๐‘ฅ = 28 ; ๐‘†๐‘ฆ๐‘ฆ = 184,86 ; ๐‘†๐‘ฅ๐‘ฆ = 66
๐‘Ž = 3,06
;
๐‘ = 2,36
Dessa forma, podemos construir a tabela de análise de variância da regressão, tal que:
TABELA DE ANÁLISE DE VARIÂNCIA DA REGRESSÃO
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Quadrado
Médio
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
Regressão
155,571
1
155,571
26,561
Residual
29,2857
5
5,85714
Total
184,857
6
30,8095
Já o ๐น๐‘๐‘Ÿ๐‘–๐‘ก é dado por ๐น1 ;5 ;5% = 6,61 . Dessa forma, rejeito ๐‘ฏ๐ŸŽ , ou seja, tenho evidências estatísticas
para afrimar que o modelo de regressão é significativo da correlação entre as variáveis ๐‘ฅ e ๐‘ฆ, ao
nível de 5% de significância.
www.thmestatistica.com
educacional@thmestatistica.com
103
Podemos ainda testar alguns parâmetros para a reta de regressão feita, ao passo que:
๐‘ฆฬ‚ = ๐‘Ž + ๐‘๐‘ฅ
๐‘’๐‘ ๐‘ก๐‘–๐‘š๐‘Ž ๐‘Ž ๐‘๐‘œ๐‘Ÿ๐‘Ÿ๐‘’๐‘™๐‘Žçã๐‘œ ๐‘Ÿ๐‘’๐‘Ž๐‘™
๐‘ฆ = ๐›ผ + ๐›ฝ๐‘ฅ
Portanto, ๐‘Ž é estimador de ๐›ผ, ๐‘ é estimador de ๐›ฝ e ๐‘Ÿ é estimador do parâmetro ๐œŒ. Dessa
forma, podemos realizar o teste do parâmetro ๐›ฝ, coeficiente angular, e o teste do parâmetro ๐œŒ,
coeficiente de correlação.
Teste do Parâmetro ๐œท
Temos as seguintes hipóteses:
{
๐‘ฏ๐ŸŽ : ๐›ฝ = 0
๐‘ฏ๐Ÿ : ๐›ฝ ≠ 0
Ao se rejeitar ๐ป0 , estamos afirmando que a reta de regressão é significativa para explicar a
variável ๐‘ฆ a partir da variável ๐‘ฅ.
Nossa variável de teste é dada por uma ๐‘ก − ๐‘ ๐‘ก๐‘ข๐‘‘๐‘’๐‘›๐‘ก, tal que:
๐‘ก๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ =
๐‘
๐‘’
๐‘†๐‘… /√๐‘†๐‘ฅ๐‘ฅ
๐‘ก๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›−2 ;๐›ผ
Teste do Parâmetro ๐†
Temos as seguintes hipóteses:
{
๐‘ฏ๐ŸŽ : ๐œŒ = 0
๐‘ฏ๐Ÿ : ๐œŒ ≠ 0
Nossa variável de teste é dada por uma ๐‘ก − ๐‘ ๐‘ก๐‘ข๐‘‘๐‘’๐‘›๐‘ก, tal que:
๐‘ก๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = ๐‘Ÿ √
๐‘›−2
1 − ๐‘Ÿ2
๐‘’
www.thmestatistica.com
๐‘ก๐‘๐‘Ÿí๐‘ก = ๐‘ก๐‘›−2 ;๐›ผ
educacional@thmestatistica.com
104
Exercício 24:
Dada a tabela abaixo, fazer os dois testes apresentados para verificar se a reta é significativa, dado
๐›ผ = 5%.
๐’™๐’Š
0
1
2
3
4
5
6
๐’š๐’Š
3
4
7
15
11
14
17
Resolução:
Nos exercícios anteriores, vimos que:
๐‘†๐‘ฅ๐‘ฅ = 28 ; ๐‘†๐‘ฆ๐‘ฆ = 184,86 ; ๐‘†๐‘ฅ๐‘ฆ = 66
๐‘Ž = 3,06
๐‘Ÿ = 0,917
;
;
๐‘ = 2,36
๐‘†๐‘…2 = 5,85714
Dessa forma, para o teste de ๐›ฝ temos:
{
๐‘ฏ๐ŸŽ : ๐›ฝ = 0
๐‘ฏ๐Ÿ : ๐›ฝ ≠ 0
Ao passo que:
๐‘ก๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ =
2,36
√5,85714/√28
= 5,16
๐‘’
๐‘ก๐‘๐‘Ÿí๐‘ก = 2,571
E para o teste de ๐œŒ temos:
{
๐‘ฏ๐ŸŽ : ๐œŒ = 0
๐‘ฏ๐Ÿ : ๐œŒ ≠ 0
Ao passo que:
๐‘ก๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™ = 0,917 √
5
= 5,14
1 − (0,917)2
๐‘’
๐‘ก๐‘๐‘Ÿí๐‘ก = 2,571
Portanto, para ambos parâmetros rejeito ๐‘ฏ๐ŸŽ , ou seja, afirmo ao nível de 5% de significância que a
reta é significativa.
www.thmestatistica.com
educacional@thmestatistica.com
105
Ademais, para cada ๐‘ฅ๐‘– determinado, podemos construir um intervalo de confiança de ๐‘ฆ =
๐›ผ + ๐›ฝ๐‘ฅ, isto é, um intervalo de confiança do valor médio de ๐‘ฆ para aquele ๐‘ฅ๐‘– .
Intervalo de Confiança para Regressão
O intervalo de confiança de ๐‘ฆ dado ๐‘ฅ๐‘– que contém o valor de ๐‘ฆ = ๐›ผ + ๐›ฝ๐‘ฅ com (1 − ๐›ผ)% de
confiança, é construído conforme o procedimento visto nos capítulos anteriores e é dado por:
(๐‘Ž + ๐‘๐‘ฅ๐‘– ) ± ๐‘ก๐‘›−2 ; ๐›ผ ๐‘†๐‘… √1 +
2
1 (๐‘ฅ๐‘– − ๐‘ฅฬ… )2
+
๐‘›
๐‘†๐‘ฅ๐‘ฅ
Intervalo de Confiança de ๐œท
O intervalo de confiança de ๐›ฝ é dado por:
๐‘ ± ๐‘ก๐‘›−2 ; ๐›ผ
2
๐‘†๐‘…
√๐‘†๐‘ฅ๐‘ฅ
Intervalo de Confiança de ๐œถ
O intervalo de confiança de ๐›ผ é dado por:
๐‘Ž ± ๐‘ก๐‘›−2 ; ๐›ผ
2
www.thmestatistica.com
∑๐‘›๐‘– ๐‘ฅ๐‘–
๐‘†๐‘… √
๐‘›๐‘†๐‘ฅ๐‘ฅ
educacional@thmestatistica.com
106
Linearização de Funções
Um procedimento útil quando não temos uma função linear e queremos testar se as variáveis
são bem explicadas pelo modelo proposto é linearizar a função, ou seja, transformá-las em retas,
fazer análises de correlação linear e depois regressar à forma original do modelo proposto.
•
Função Exponencial:
A função exponencial, do tipo ๐‘ฆฬ‚ = ๐‘Ž๐‘’ ๐‘๐‘ฅ , pode ser linearizada com o seguinte procedimento:
๐‘ฆฬ‚ = ๐‘Ž๐‘’ ๐‘๐‘ฅ
๐‘™๐‘› ๐‘ฆฬ‚ = ๐‘™๐‘› ๐‘Ž๐‘’ ๐‘๐‘ฅ
๐‘™๐‘› ๐‘ฆฬ‚ = ๐‘™๐‘› ๐‘Ž + ๐‘๐‘ฅ
Chamando ๐‘™๐‘› ๐‘ฆฬ‚ = ๐‘Œฬ‚ e ln ๐‘Ž = ๐ด, temos:
๐‘Œฬ‚ = ๐ด + ๐‘๐‘ฅ
Com isso, descobrimos o coeficiente de correlação ๐‘Ÿ, ๐ด e ๐‘. Em tendo uma boa correlação,
isto é, ๐‘Ÿ elevado, podemos assumir que o modelo é significativo.
Dessa forma, com ๐ด = ln ๐‘Ž, podemos dimensionar ๐‘Ž, assim como com ๐‘Œฬ‚ = ๐‘™๐‘› ๐‘ฆฬ‚ podemos
encontrar ๐‘ฆฬ‚ e, logo, podemos voltar a ๐‘ฆฬ‚ = ๐‘Ž๐‘’ ๐‘๐‘ฅ já com os parâmetros conhecidos e com
precisão dos erros associados ao assumir o modelo significativo.
•
Função Potência:
A função potência, do tipo ๐‘ฆฬ‚ = ๐‘Ž๐‘ฅ ๐‘ , pode ser linearizada com o seguinte procedimento:
๐‘ฆฬ‚ = ๐‘Ž๐‘ฅ ๐‘
๐‘™๐‘› ๐‘ฆฬ‚ = ๐‘™๐‘› ๐‘Ž + ๐‘ ๐‘™๐‘› ๐‘ฅ
Chamando ๐‘™๐‘› ๐‘ฆฬ‚ = ๐‘Œฬ‚, ln ๐‘Ž = ๐ด e ln ๐‘ฅ = ๐‘‹ temos:
๐‘Œฬ‚ = ๐ด + ๐‘๐‘‹
Para polinômios é muito comum fazer a chamada Análise de Regressão Múltipla (ou multidimensional), a qual
não será tratada aqui!
www.thmestatistica.com
educacional@thmestatistica.com
107
Análise de Melhoria
Quando temos um conjunto de dados e, após feita a regressão linear, obtivermos um ๐‘Ÿ não
tão elevado, podemos verificar se há uma melhoria no modelo de regressão se utilizarmos uma
parábola ๐‘ฆฬ‚ = ๐‘ + ๐‘‘๐‘ฅ + ๐‘’๐‘ฅ 2 no lugar de uma reta ๐‘ฆฬ‚ = ๐‘Ž + ๐‘๐‘ฅ inicialmente proposta.
Calcularemos, então, a soma dos quadrados de melhoria, o resíduo da parábola e também
o resíduo da reta, tal que:
•
Soma dos Quadrados Residual da Reta:
๐‘†๐‘„๐‘…๐‘…๐‘’๐‘ก๐‘Ž = ๐‘†๐‘ฆ๐‘ฆ − ๐‘ ๐‘†๐‘ฅ๐‘ฆ
๐‘”. ๐‘™.๐‘…๐‘’๐‘ก๐‘Ž = ๐‘› − 2
•
Soma dos Quadrados Residual da Parábola:
๐‘†๐‘„๐‘…๐‘ƒ๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž = ∑(๐‘ฆ๐‘– − ๐‘ฆ๐‘–´ )
2
๐‘”. ๐‘™.๐‘ƒ๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž = ๐‘› − 3
•
Soma dos Quadrados da Melhoria:
๐ท = ๐‘†๐‘„๐‘…๐‘…๐‘’๐‘ก๐‘Ž − ๐‘†๐‘„๐‘…๐‘ƒ๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž
๐‘”. ๐‘™.๐ท = 1
www.thmestatistica.com
educacional@thmestatistica.com
108
Dessa forma, nossas hipóteses para essa análise são:
{
๐‘ฏ๐ŸŽ : ๐‘ã๐‘œ โ„Žá ๐‘š๐‘’๐‘™โ„Ž๐‘œ๐‘Ÿ ๐‘Ž๐‘—๐‘ข๐‘ ๐‘ก๐‘’ ๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  ๐‘๐‘’๐‘™๐‘Ž ๐‘๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž
๐‘ฏ๐Ÿ : ๐ปá ๐‘š๐‘’๐‘™โ„Ž๐‘œ๐‘Ÿ ๐‘Ž๐‘—๐‘ข๐‘ ๐‘ก๐‘’ ๐‘‘๐‘œ๐‘  ๐‘‘๐‘Ž๐‘‘๐‘œ๐‘  ๐‘๐‘’๐‘™๐‘Ž ๐‘๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž
Logo, podemos construir nossa Tabela de Análise de Melhoria, como segue abaixo:
TABELA DE ANÁLISE DE MELHORIA
Fonte da
Variação
Soma de
Quadrados
Graus de
Liberdade
Melhoria
๐ท
1
Residual da
Parábola
๐‘†๐‘„๐‘…๐‘ƒ๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž
(๐‘› − 3)
Residual da
Reta
๐‘†๐‘„๐‘…๐‘…๐‘’๐‘ก๐‘Ž
(๐‘› − 2)
Quadrado
Médio
๐‘†๐ท2 =
๐‘†๐‘ƒ2 =
๐‘ญ๐’‚๐’Ž๐’๐’”๐’•๐’“๐’‚๐’
๐ท
๐‘†๐‘ƒ2
๐ท
1
๐‘†๐‘„๐‘…๐‘ƒ๐‘Ž๐‘Ÿá๐‘๐‘œ๐‘™๐‘Ž
(๐‘› − 3)
๐‘†๐‘…2 =
๐‘†๐‘„๐‘…๐‘…๐‘’๐‘ก๐‘Ž
(๐‘› − 2)
Já o valor de ๐น๐‘๐‘Ÿ๐‘–๐‘ก é dado por ๐‘ญ๐Ÿ ; ๐’−๐Ÿ‘ ; ๐œถ . Assim, ao rejeitarmos ๐ป0 podemos dizer que há
melhor ajuste dos dados pela parábola.
www.thmestatistica.com
educacional@thmestatistica.com
109
Outros Testes
Teste de Tukey e Scheffé
Quando se deseja conhecer qual média ou quais médias são as divergentes acusadas pela
análise de o Teste variância, ANOVA, podemos utilizar de Tukey e Scheffé.
Na ANOVA, nossas hipóteses eram do tipo:
{
๐‘ฏ๐ŸŽ : ๐œ‡๐ด = ๐œ‡๐ต = ๐œ‡๐ถ = ๐œ‡ ๐ท โ‹ฏ = ๐œ‡๐พ
๐‘ฏ๐Ÿ : ๐ปá ๐‘๐‘’๐‘™๐‘’ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘šé๐‘‘๐‘–๐‘Ž ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
Para cada duas médias comparadas ๐œ‡๐ด e ๐œ‡๐ต , analisa-se:
|๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต | > ๐‘ž๐พ ,๐œˆ ,๐›ผ √
๐‘†๐‘…2
๐‘›
Onde ๐พ se refere ao número de amostras, ๐œˆ aos graus de liberdades ๐พ(๐‘› − 1) e ๐›ผ à
significância. Já ๐‘ž se refere ao valor da amplitude total studentizada, e seu valor é tabelado, assim
como já trabalhamos até aqui.
๐‘†2
Caso |๐‘ฅฬ…๐ด − ๐‘ฅฬ…๐ต | der maior que ๐‘ž๐พ ,๐œˆ ,๐›ผ √ ๐‘›๐‘… , então ๐œ‡๐ด ≠ ๐œ‡๐ต . Do contrário, as médias são iguais.
Teste de Cochran
Quando se deseja comparar várias variâncias, podemos utilizar o Teste de Cochram. Nesse,
nossas hipóteses são do tipo:
{
๐‘ฏ๐ŸŽ โˆถ ๐œŽ๐ด2 = ๐œŽ๐ต2 = ๐œŽ๐ถ2 = ๐œŽ๐ท2 โ‹ฏ = ๐œŽ๐พ2
๐‘ฏ๐Ÿ โˆถ ๐ปá ๐‘๐‘’๐‘™๐‘’ ๐‘š๐‘’๐‘›๐‘œ๐‘  ๐‘ข๐‘š๐‘Ž ๐‘ฃ๐‘Ž๐‘Ÿ๐‘–â๐‘›๐‘๐‘–๐‘Ž ๐‘‘๐‘–๐‘“๐‘’๐‘Ÿ๐‘’๐‘›๐‘ก๐‘’
Nossa variável de teste é uma ๐‘”, também tabelada, dada por:
๐‘”๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
๐‘€á๐‘ฅ (๐‘†๐‘–2 )
=
2
∑๐พ
๐‘– ๐‘†๐‘–
๐‘’
๐‘”๐‘๐‘Ÿ๐‘–๐‘ก = ๐‘”๐พ ; ๐‘› ; ๐›ผ
Onde ๐พ se refere ao número de amostras, ๐‘› ao número de elementos por amostra e ๐›ผ à
significância.
www.thmestatistica.com
educacional@thmestatistica.com
110
Teste de Aderência
Trata-se de um teste não-paramétrico, isto é, um teste que se refere a outros aspectos que
não os parâmetros em si.
No teste de aderência, a hipótese testada refere-se à distribuição da população. Assim,
admitimos que a distribuição da variável de interesse seja explicada por determinado modelo de
distribuição de probabilidade e testamos esse modelo, verificando se há boa ou má aderência dos
dados da amostra ao modelo testado.
Para sua resolução, podemos adotar três métodos: o teste pelo qui-quadrado, o método de
Kolmogorov-Smirnov ou a verificação gráfica da aderência. Aqui, analisaremos o teste de aderência
pelo ๐œ’ 2 .
2
2
Dessa forma, teremos um ๐œ’๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
e um ๐œ’๐‘๐‘Ÿí๐‘ก
. O primeiro faz uso de dois valores:
๐‘‚๐‘–๐‘— → ๐‘‰๐‘Ž๐‘™๐‘œ๐‘Ÿ ๐‘œ๐‘๐‘ ๐‘’๐‘Ÿ๐‘ฃ๐‘Ž๐‘‘๐‘œ ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž ๐‘–, ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž ๐‘—
๐ธ๐‘–๐‘— → ๐‘‰๐‘Ž๐‘™๐‘œ๐‘Ÿ ๐‘’๐‘ ๐‘๐‘’๐‘Ÿ๐‘Ž๐‘‘๐‘œ ๐‘๐‘Ž๐‘Ÿ๐‘Ž ๐‘™๐‘–๐‘›โ„Ž๐‘Ž ๐‘–, ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž ๐‘—
O valor amostral leva em conta o quadrado da diferença dos valores de ๐‘‚๐‘– e ๐ธ๐‘– , de forma a
eliminar problemas com módulo e ponderar o cálculo pelo valor esperado para cada ๐‘ฅ๐‘– :
๐‘›
2
๐œ’๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
=∑
๐‘–
(๐‘‚๐‘– − ๐ธ๐‘– )2
๐ธ๐‘–
Já o valor crítico, no caso de uma coluna de dados, é dado por:
2
๐œ’๐‘๐‘Ÿí๐‘ก
= ๐œ’ 2๐‘›−1 ,๐›ผ
www.thmestatistica.com
educacional@thmestatistica.com
111
Exercício 25:
Considere que um dado é lançado 600 vezes. Os resultados são expostos na tabela abaixo:
๐’™๐’Š
๐‘ถ๐’Š
1
92
2
121
3
95
4
89
5
101
6
102
Deseja-se saber, ao nível de 5% de significância, se o dado pode ser considerado honesto ou não,
a partir dos resultados observados.
Resolução:
1
Nesse exemplo, um dado honesto teria probabilidade igual a ๐‘ = 6 , para cada face. Como foram
600 lançamentos, temos:
๐’™๐’Š
๐‘ถ๐’Š
๐‘ฌ๐’Š
(๐‘ถ๐’Š − ๐‘ฌ๐’Š )๐Ÿ
๐‘ฌ๐’Š
1
92
100
0,64
2
121
100
4,41
3
95
100
0,25
4
89
100
1,21
5
101
100
0,01
6
102
100
0,04
O teste tem as seguintes hipóteses:
๐‘ฏ : ๐‘‚ ๐‘‘๐‘Ž๐‘‘๐‘œ é โ„Ž๐‘œ๐‘›๐‘’๐‘ ๐‘ก๐‘œ
{ ๐ŸŽ
๐‘ฏ๐Ÿ : ๐‘‚ ๐‘‘๐‘Ž๐‘‘๐‘œ ๐‘›ã๐‘œ é โ„Ž๐‘œ๐‘›๐‘’๐‘ ๐‘ก๐‘œ
2
2
Da tabela, inferimos que ๐œ’๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
= 6,56 e sabemos que ๐œ’๐‘๐‘Ÿí๐‘ก
= 11,07. Portanto, não rejeito ๐‘ฏ๐ŸŽ ,
ou seja, tenho evidências estatísticas para afirmar que o dado não é honesto, ao nível de 5% de
significância.
www.thmestatistica.com
educacional@thmestatistica.com
112
Exercício 26:
Um problema comum ao teste de aderência é testar a efetividade de certos medicamentos em
pacientes. Seja um ensaio medicinal, no qual são testados o princípio ativo de um medicamento e
um placebo, obtém-se a seguinte tabela:
Placebo
Princípio Ativo
Melhoram
35
73
Não melhoram
28
32
Faça um teste de independência em tabela contingência. Ao nível de 5% de significância, e com
base nos dados obtidos, podemos dizer que o remédio funciona?
Resolução:
A primeira coisa a se fazer em um teste desses é calcular a soma de cada linha, de cada coluna e
a soma total de indivíduos:
Placebo
Princípio Ativo
∑ ๐‘™๐‘–๐‘›โ„Ž๐‘Ž๐‘ 
Melhoram
35
73
108
Não melhoram
28
32
60
∑ ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž๐‘ 
63
105
168
O cálculo do valor esperado de cada célula se dá da seguinte maneira:
๐ธ๐‘–๐‘— = ๐‘› .
๐‘›๐‘– ๐‘›๐‘—
.
๐‘› ๐‘›
Assim:
๐ธ11 =
(108)(63)
= 40,5
168
๐ธ12 =
(108)(105)
= 67,5
168
(60)(63)
= 22,5
168
๐ธ22 =
(60)(105)
= 37,5
168
๐ธ21 =
www.thmestatistica.com
educacional@thmestatistica.com
113
Colocando agora o valor observado e esperado na mesma tabela:
Placebo
Princípio Ativo
∑ ๐‘™๐‘–๐‘›โ„Ž๐‘Ž๐‘ 
๐‘‚๐‘–
๐ธ๐‘–
๐‘‚๐‘–
๐ธ๐‘–
Melhoram
35
40,5
73
67,5
108
Não melhoram
28
22,5
32
37,5
60
∑ ๐‘๐‘œ๐‘™๐‘ข๐‘›๐‘Ž๐‘ 
63
105
168
Dessa forma, podemos calcular nosso valor amostral:
2
๐œ’๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
(30 − 40,5)2 (73 − 67,5)2 (28 − 22,5)2 (32 − 37,5)2
=
+
+
+
40,5
67,5
22,5
37,5
2
๐œ’๐‘Ž๐‘š๐‘œ๐‘ ๐‘ก๐‘Ÿ๐‘Ž๐‘™
= 3,346
Já nosso valor crítico é, via tabela:
2
๐œ’๐‘๐‘Ÿí๐‘ก
= ๐œ’ 21 ,5%
2
๐œ’๐‘๐‘Ÿí๐‘ก
= 3,84
Portanto, não rejeito ๐‘ฏ๐ŸŽ , ou seja, não temos evidência estatística de que o princípio ativo é eficaz,
isto é, diferente do placebo, ao nível de 5% de significância.
www.thmestatistica.com
educacional@thmestatistica.com
114
Download