Uploaded by gabyanisio078

Estatística Básica (9ed) - Bussab e Morettin

advertisement
Pedro A. Morettin
Wilton de O. Bussab
ESTATÍSTICA
BÁSICA
9ª edição
Av. das Nações Unidas, 7221, 1º Andar, Setor B
Pinheiros – São Paulo – SP – CEP: 05425-902
SAC 0800-0117875
De 2ª a 6ª, das 8h às 18h
www.editorasaraiva.com.br/contato
Presidente Eduardo Mufarej
Vice-presidente Claudio Lensing
Diretora editorial Flávia Alves Bravin
Planejamento editorial Rita de Cássia S. Puoço
Aquisições Fernando Alves / Julia D’Allevo
Editores Ana Laura Valerio / Ligia Maria Marques /Thiago Fraga
Produtoras editoriais Alline Garcia Bullara / Amanda M. Loyola / Daniela Nogueira Secondo
Suporte editorial Juliana Bojczuk Fermino
Arte e produção ERJ Composição Editorial
Capa Weber Amendola
Impressão e acabamento xxx
351.645.009.001
ISBN 978-85-472-2023-5
CIP-BRASIL. Catalogação na fonte
Sindicato Nacional dos Editores de Livros, RJ.
M843e
9. ed.
Morettin, Pedro Alberto, 1942Estatística básica / Pedro A. Morettin, Wilton O.
Bussab. – 9. ed. – São Paulo: Saraiva, 2017.
ISBN 978-85-472-2023-5
1. Econometria. 2. Estatística. 3. Estatística matemática
– Problemas, questões, exercícios. I. Bussab,
Wilton de Oliveira, 1940-. II. Título.
CDD: 330.028
CDU: 330.43
Copyright © Wilton de O. Bussab e Pedro A. Morettin
2017 Saraiva Educação
Todos os direitos reservados.
9ª edição
Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Saraiva Educação. A violação dos direitos
autorais é crime estabelecido na lei nº 9.610/98 e punido pelo artigo 184 do Código Penal.
EDITAR 16262 CL 651354 CAE 621397
Para Célia e Ligia
"A vida é complicada,
mas não desinteressante."
Jersy Neyman
PREFÁCIO À NONA EDIÇÃO
Nesta Nona Edição, atendendo a pedidos de leitores, incluímos a utilização de pacotes do
Repositórios livre R. Mas continuamos a usar, em alguns exemplos, os pacotes SPlus e Minitab.
Para não aumentar muito o tamanho do livro, a maneira encontrada foi colocar uma pequena
introdução ao R, dados e os scripts para reproduzirem os exemplos do livro, na página:
<www.ime.usp.br/~pam/EstBas.html>.
O leitor também poderá ver os exemplos completos (scripts, gráficos etc.) na página:
rpubs.com/EstatBasica.
Além disso, os problemas suplementares de cada capítulo foram separados dos complementos
metodológicos. Correções foram feitas em diversos pontos. Quero agradecer de modo especial a
Kim Samejima pela colaboração na preparação da página relativa ao R.
Os depoimentos de colegas sobre o papel do Wilton no desenvolvimento da Estatística do
Brasil agora encontram-se, também, na página do livro.
São Paulo, junho de 2017.
Pedro A. Morettin
PREFÁCIO À OITAVA EDIÇÃO
Essa edição difere da anterior em dois aspectos. O primeiro capítulo foi reescrito e alguns
novos problemas foram acrescentados. Além disso, procuramos corrigir erros presentes na
edição anterior. Agradecemos a diversos colegas e alunos que apontaram erros e fizeram
comentários sobre o livro.
São Paulo, junho de 2013.
Pedro A. Morettin
PREFÁCIO À SÉTIMA EDIÇÃO
Nesta Sétima Edição fizemos diversas correções no texto, acrescentamos novos problemas e
algumas seções foram reescritas. Mais do que tudo, essa nova edição é uma homenagem ao
Professor Wilton de Oliveira Bussab, que nos deixou prematuramente em maio desse ano.
Apresentamos, a seguir, diversos depoimentos de colegas sobre o papel fundamental que
Wilton teve no desenvolvimento da Estatística no Brasil.
De minha parte, perdi um amigo de mais de quarenta anos. As vidas de sua família, amigos,
colegas e alunos não serão mais as mesmas. Será mais difícil atualizar esse livro, fruto de uma
colaboração estreita durante tantos anos. Wilton sempre foi a parte “pé no chão” dessa parceria,
dada a sua grande experiência e vivência de problemas reais. Com sua partida, perderei eu,
perderão os leitores. Mas a vida continua, e seu legado será lembrado por todos que tiveram o
privilégio de com ele conviver.
São Paulo, julho de 2011.
Pedro A. Morettin
PREFÁCIO À SEXTA EDIÇÃO
Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns
tópicos considerados difíceis. Por exemplo, o tópico sobre quantis empíricos agora traz o cálculo
utilizando o histograma, deixando a definição mais geral para a seção de Problemas e
Complementos.
Inúmeras correções foram feitas na edição anterior, à medida que as sucessivas tiragens foram
editadas. Nesta sexta edição outros erros foram corrigidos, mas sabemos que diversos persistirão!
Agradecemos aos diversos leitores que nos enviaram correções e sugestões.
Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre
o Brasil (CD-Brasil) com informações atualizadas da Contagem da População 2007 feita pelo
IBGE. Os dados também estão disponíveis na página: <http://www.ime.usp.br/~pam>.
Os Autores
PREFÁCIO À QUINTA EDIÇÃO
Esta edição é uma revisão substancial da edição anterior deste livro. Cinco novos capítulos
foram adicionados, e os demais foram revisados e atualizados.
Cremos que este texto, com a escolha adequada dos tópicos, possa ser utilizado por alunos de
diversas áreas do conhecimento. O Site do Professor, disponível na Internet
<http://www.editorasaraiva.com.br>, fornece uma discussão mais longa sobre roteiros
apropriados para cursos de diferentes níveis.
Com essa filosofia em mente, procuramos incluir no texto uma quantidade de informação
substancial em cada capítulo. Obviamente caberá ao professor escolher o material apropriado
para cada curso desenvolvido.
O livro é dividido em três partes. A primeira trata da análise de dados unidimensionais e
bidimensionais, com atenção especial a métodos gráficos. Pensamos que a leitura dessa parte é
essencial para o bom entendimento das demais. Recomendamos que o aluno trabalhe com dados
reais, embora isso não seja uma necessidade essencial, pois normalmente um primeiro curso de
estatística é dado no início do programa do aluno, que não possui ainda um conhecimento sólido
dos problemas de sua área. A segunda parte trata dos conceitos básicos de probabilidades e
variáveis aleatórias. Finalmente, na terceira parte, estudamos os tópicos principais da inferência
estatística, além de alguns temas especiais, como regressão linear simples. Um capítulo sobre
noções de simulação foi adicionado, pois tais noções são hoje fundamentais em muitas áreas.
O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos
desenvolvidos. Apresentamos exemplos de aplicações utilizando alguns desses pacotes: Minitab,
Excel e SPlus. Mas, evidentemente, outros pacotes poderão ser usados.
No final do livro, apresentamos vários conjuntos de dados que poderão ser utilizados pelos
alunos. Esses dados também estão disponíveis nas seguintes páginas da Internet:
<http://www.ime.usp.br/~pam>
<http://www.editorasaraiva.com.br>
Finalmente, agradecemos a todos aqueles que enviarem sugestões e comentários com a
finalidade de melhorar a presente edição. Para tanto, além do correio normal, os leitores poderão
usar o Sac da editora Saraiva.
Os Autores
SUMÁRIO
Capítulo 1 – Preliminares
1.1 Introdução
1.2 Modelos
1.3 Aspectos Computacionais
1.3.1 O Repositório R
1.4 Métodos Gráficos
1.5 Conjuntos de Dados
1.6 Plano do Livro
Parte I – Análise Exploratória de Dados
Capítulo 2 – Resumo de Dados
2.1 Tipos de Variáveis
2.2 Distribuições de Frequências
2.3 Gráficos
2.3.1 Gráficos para Variáveis Qualitativas
2.3.2 Gráficos para Variáveis Quantitativas
2.4 Ramo-e-Folhas
2.5 Exemplos Computacionais
2.6 Problemas Suplementares
2.7 Complementos Metodológicos
Capítulo 3 – Medidas-Resumo
3.1 Medidas de Posição
3.2 Medidas de Dispersão
3.3 Quantis Empíricos
3.4 Box Plots
3.5 Gráficos de Simetria
3.6 Transformações
3.7 Exemplos Computacionais
3.8 Problemas Suplementares
3.9 Complementos Metodológicos
Capítulo 4 – Análise Bidimensional
4.1 Introdução
4.2 Variáveis Qualitativas
4.3 Associação entre Variáveis Qualitativas
4.4 Medidas de Associação entre Variáveis Qualitativas
4.5 Associação entre Variáveis Quantitativas
4.6 Associação entre Variáveis Qualitativas e Quantitativas
4.7 Gráficos q × q
4.8 Exemplos Computacionais
4.9 Problemas Suplementares
4.10 Complemento Metodológico
Parte II – Probabilidades
Capítulo 5 – Probabilidades
5.1 Introdução
5.2 Algumas Propriedades
5.3 Probabilidade Condicional e Independência
5.4 O Teorema de Bayes
5.5 Probabilidades Subjetivas
5.6 Problemas Suplementares
Capítulo 6 – Variáveis Aleatórias Discretas
6.1 Introdução
6.2 O Conceito de Variável Aleatória Discreta
6.3 Valor Médio de uma Variável Aleatória
6.4 Algumas Propriedades do Valor Médio
6.5 Função de Distribuição Acumulada
6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas
6.6.1 Distribuição Uniforme Discreta
6.6.2 Distribuição de Bernoulli
6.6.3 Distribuição Binomial
6.6.4 Distribuição Hipergeométrica
6.6.5 Distribuição de Poisson
6.7 O Processo de Poisson
6.8 Quantis
6.9 Exemplos Computacionais
6.10 Problemas Suplementares
6.11 Complementos Metodológicos
Capítulo 7 – Variáveis Aleatórias Contínuas
7.1 Introdução
7.2 Valor Médio de uma Variável Aleatória Contínua
7.3 Função de Distribuição Acumulada
7.4 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas
7.4.1 O Modelo Uniforme
7.4.2 O Modelo Normal
7.4.3 O Modelo Exponencial
7.5 Aproximação Normal à Binomial
7.6 Funções de Variáveis Contínuas
7.7 Outros Modelos Importantes
7.7.1 A Distribuição Gama
7.7.2 A Distribuição Qui-Quadrado
7.7.3 A Distribuição t de Student
7.7.4 A Distribuição F de Snedecor
7.8 Quantis
7.9 Exemplos Computacionais
7.10 Problemas Suplementares
7.11 Complementos Metodológicos
Capítulo 8 – Variáveis Aleatórias Multidimensionais
8.1 Distribuição Conjunta
8.2 Distribuições Marginais e Condicionais
8.3 Funções de Variáveis Aleatórias
8.4 Covariância entre Duas Variáveis Aleatórias
8.5 Variáveis Contínuas
8.6 Distribuições Condicionais Contínuas
8.7 Funções de Variáveis Contínuas
8.8 Distribuição Normal Bidimensional
8.9 Problemas Suplementares
8.10 Complementos Metodológicos
Capítulo 9 – Noções de Simulação
9.1 Introdução
9.2 Simulação de Variáveis Aleatórias
9.3 Simulação de Alguns Modelos
9.4 Exemplos Computacionais
9.5 Problemas Suplementares
9.6 Complementos Metodológicos
Parte III – Inferência Estatística
Capítulo 10 – Introdução à Inferência Estatística
10.1 Introdução
10.2 População e Amostra
10.3 Problemas de Inferência
10.4 Como Selecionar uma Amostra
10.5 Amostragem Aleatória Simples
10.6 Estatísticas e Parâmetros
10.7 Distribuições Amostrais
10.8 Distribuição Amostral da Média
10.9 Distribuição Amostral de uma Proporção
10.10 Outras Distribuições Amostrais
10.11 Determinação do Tamanho de uma Amostra
10.12 Exemplos Computacionais
10.13 Problemas Suplementares
10.14 Complementos Metodológicos
Capítulo 11 – Estimação
11.1 Primeiras Ideias
11.2 Propriedades de Estimadores
11.3 Estimadores de Momentos
11.4 Estimadores de Mínimos Quadrados
11.5 Estimadores de Máxima Verossimilhança
11.6 Intervalos de Confiança
11.7 Erro Padrão de um Estimador
11.8 Inferência Bayesiana
11.9 Exemplos Computacionais
11.9.1 Simulando Erros Padrões
11.10 Problemas Suplementares
11.11 Complementos Metodológicos
Capítulo 12 – Testes de Hipóteses
12.1 Introdução
12.2 Um Exemplo
12.3 Procedimento Geral do Teste de Hipóteses
12.4 Passos para a Construção de um Teste de Hipóteses
12.5 Testes sobre a Média de uma População com Variância Conhecida
12.6 Teste para Proporção
12.7 Poder de um Teste
12.8 Valor-p
12.9 Teste para a Variância de uma Normal
12.10 Teste sobre a Média de uma Normal com Variância Desconhecida
12.11 Problemas Suplementares
12.12 Complementos Metodológicos
Capítulo 13 – Inferência para Duas Populações
13.1 Introdução
13.2 Comparação das Variâncias de Duas Populações Normais
13.3 Comparação de Duas Populações: Amostras Independentes
13.3.1 Populações Normais
13.3.2 Populações Não Normais
13.4 Comparação de Duas Populações: Amostras Dependentes
13.4.1 População Normal
13.4.2 População Não Normal
13.5 Comparação de Proporções em Duas Populações
13.6 Exemplo Computacional
13.7 Problemas Suplementares
Capítulo 14 – Análise de Aderência e Associação
14.1 Introdução
14.2 Testes de Aderência
14.3 Testes de Homogeneidade
14.4 Testes de Independência
14.5 Teste Para o Coeficiente de Correlação
14.6 Outro Teste de Aderência
14.7 Problemas Suplementares
14.8 Complementos Metodológicos
Capítulo 15 – Inferência para Várias Populações
15.1 Introdução
15.2 Modelo para Duas Subpopulações
15.2.1 Suposições
15.2.2 Estimação do Modelo
15.2.3 Intervalos de Confiança
15.2.4 Tabela de Análise de Variância
15.3 Modelo para Mais de Duas Subpopulações
15.4 Comparações entre as Médias
15.5 Teste de Homoscedasticidade
15.6 Exemplo Computacional
15.7 Problemas Suplementares
15.8 Complementos Metodológicos
Capítulo 16 – Regressão Linear Simples
16.1 Introdução
16.2 Estimação dos Parâmetros
16.3 Avaliação do Modelo
16.3.1 Estimador de σ2e
16.3.2 Decomposição da Soma de Quadrados
16.3.3 Tabela de Análise de Variância
16.4 Propriedades dos Estimadores
16.4.1 Média e Variância dos Estimadores
16.4.2 Distribuições Amostrais dos Estimadores dos Parâmetros
16.4.3 Intervalos de Confiança para α e β
16.4.4 Intervalo de Confiança para µ(z) e Intervalo de Predição
16.5 Análise de Resíduos
16.6 Alguns Modelos Especiais
16.6.1 Reta Passando pela Origem
16.6.2 Modelos Não Lineares
16.7 Regressão Resistente
16.8 Exemplos Computacionais
16.9 Problemas Suplementares
16.10 Complementos Metodológicos
Referências
Conjunto de dados
Tabelas
Respostas
Capítulo 1
Preliminares
1.1 Introdução
Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de analisar e
entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele necessitará
trabalhar os dados para transformá-los em informações, para compará-los com outros resultados
ou, ainda, para julgar sua adequação a alguma teoria.
De modo bem geral, podemos dizer que a essência da Ciência é a observação e que seu
objetivo básico é a inferência.
A inferência estatística é uma das partes da Estatística. Esta, por sua vez, é a parte da
metodologia da Ciência que tem por objetivo a coleta, redução, análise e modelagem dos dados,
a partir do que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra)
foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsões, a partir das
quais se pode tomar decisões.
Os cientistas usam o chamado Método Científico para testar suas teorias ou hipóteses.
Podemos resumir o método nos seguintes passos:
(i) O cientista formula uma questão, problema ou teoria. Ele pode querer, também, testar alguma
hipótese.
(ii) Para responder a essas questões, ele coleta informação que seja relevante. Para isso, ele pode
planejar algum experimento. Em determinadas áreas (Astronomia, por exemplo), o
planejamento de experimentos não é possível (ou factível); o que se pode fazer é observar
algum fenômeno ou variáveis de interesse.
(iii) Os resultados do passo (ii) são usados para obter conclusões, mesmo que não definitivas.
(iv) Se for necessário, repita os passos (ii) e (iii), ou mesmo reformule suas hipóteses.
Um estatístico pode ajudar no passo (i) e certamente pode ser indispensável nos passos (ii) e
(iii). Vamos considerar um exemplo para ilustrar o método.
(i) Em Economia, sabe-se, desde Keynes, que o gasto com o consumo de pessoas
(vamos indicar essa variável por C) é uma função da renda pessoal disponível (indicada por Y).
Ou seja, podemos escrever, formalmente,
Exemplo 1.1
C = f(Y),
para alguma função f.
(ii) Para investigar com é essa relação entre C e Y, para uma comunidade específica, um
economista colhe dados dessas variáveis para um conjunto de indivíduos I = [I1, I2, ... In],
obtendo a amostra (Y1, C1), ..., (Yn, Cn). Esse é um exemplo em que o experimento consiste em
planejar a obtenção de uma amostra de modo adequado, representando assim a comunidade
(população).
(iii) Um gráfico de dispersão (veja o Capítulo 4), entre Yi e Ci, i = 1, 2, ..., n, como o da Figura
1.1, permite estabelecer um modelo (veja a seção seguinte) tentativo para a variável C como
função da variável Y.
Figura 1.1 Relação
entre rendimento e consumo de 20 indivíduos.
Suponha que seja razoável postular o modelo
Ci = α + bYi + ei, i = 1, 2, ..., n. (1.1)
Nesse modelo, (Yi, Ci), i = 1, ..., n, são variáveis observadas, enquanto ei, i = 1, ..., n, são
variáveis não observadas. O parâmetro α é denominado consumo autônomo (fazendo-se Y = 0 na
Equação (1.1)) e β é a propensão marginal a consumir.
Na Figura 1.1, temos representados os rendimentos e gastos de consumo de n = 20 indivíduos.
Na reta que aparece na figura, os coeficientes foram obtidos usando métodos dos Capítulos 11 e
16. Nesse caso, obtemos α = 1,48 e β = 0,71, aproximadamente.
Veremos, mais a frente, que poderemos fazer suposições sobre os erros ei, por exemplo, que
tenham média zero.
Nem sempre um modelo linear da forma (1.1) é adequado, como mostra o exemplo a seguir.
O interesse aqui é a relação entre renda e idade para n = 256 mulheres brasileiras com
mestrado e doutorado (dados da PNAD 2004, IBGE). Na Figura 1.2 temos os dados e uma
função estimada da forma R = f(I), onde R indica a renda e I, a idade. Nesse caso, uma função
paramétrica como aquela em (1.1) pode não ser adequada, e temos que usar métodos não
paramétricos para estimar a forma de f. Observamos um valor atípico perto de 48 anos de idade.
Uma queda da renda é observada entre as idades 35 e 40 anos, talvez explicada pelo efeito de
geração. Usualmente, uma função paramétrica quadrática é utilizada em problemas como esse,
que não explicariam essa queda.
Exemplo 1.2
Figura 1.2 Relação
entre Renda e Idade para mulheres brasileiras.
Na primeira parte deste livro, estaremos interessados na redução, análise e interpretação dos
dados sob consideração, adotando um enfoque que chamaremos de Análise Exploratória de
Dados (AED). Nesta abordagem, tentaremos obter dos dados a maior quantidade possível de
informação, que indique modelos plausíveis a serem utilizados em uma fase posterior, a análise
confirmatória de dados (ou inferência estatística).
Tradicionalmente, uma análise descritiva de dados limita-se a calcular algumas medidas de
posição e variabilidade, como a média e variância, por exemplo. Contrária a esta tendência, uma
corrente mais moderna, liderada por Tukey (1977), utiliza principalmente técnicas gráficas, em
oposição a resumos numéricos. Isto não significa que sumários não devam ser obtidos, mas uma
análise exploratória de dados não deve se limitar a calcular tais medidas.
1.2 Modelos
Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma forma de
regularidade ou padrão ou, ainda, modelo, presente nas observações.
(continuação) O que se espera, intuitivamente, no caso em questão é que os gastos de
um indivíduo estejam diretamente relacionados com os seus rendimentos, de modo que é
razoável supor uma “relação linear” entre essas duas quantidades. Os pontos da Figura 1.1 não
estão todos, evidentemente, sobre uma reta; essa seria o nosso padrão ou modelo. A diferença
entre os dados e o modelo constitui os resíduos. Veja a Figura 1.3.
Podemos, então, escrever de modo esquemático:
Exemplo 1.1
DADOS = MODELO + RESÍDUOS
ou, ainda,
D = M + R. (1.2)
A parte M é também chamada parte suave (ou regular ou, ainda, previsível) dos dados,
enquanto R é a parte aleatória. A parte R é tão importante quanto M, e a análise dos resíduos
constitui uma parte fundamental de todo trabalho estatístico. Basicamente, são os resíduos que
nos dizem se o modelo é adequado ou não para representar os dados. De modo coloquial, o que
se deseja é que a parte R não contenha nenhuma “suavidade”, caso contrário mais “suavização” é
necessária.
Uma análise exploratória de dados busca, essencialmente, fornecer informações para
estabelecer (1.2).
Figura 1.3 Relação
entre dado, modelo e resíduo.
1.3 Aspectos Computacionais
O desenvolvimento rápido e constante na área de computação foi acompanhado pela
introdução de novas técnicas de análise de dados, notadamente de métodos gráficos e de métodos
chamados de computação intensiva (como o método bootstrap, que será tratado brevemente
neste livro).
Para a implementação dessas técnicas, pacotes estatísticos foram desenvolvidos e que
atualmente são usados em larga escala, tanto no meio acadêmico como em indústrias, bancos,
órgãos de governo etc. Esses pacotes podem ser genéricos ou específicos. Os pacotes genéricos
(como o Minitab, SPlus, SPSS, SAS etc.) são adequados para realizar uma gama variada de
análises estatísticas. Os pacotes específicos são planejados para realizar análises particulares de
uma determinada área.
Por outro lado, os pacotes podem exigir ou não uma maior experiência computacional dos
usuários. Alguns operam com menus, e seu uso é mais simples. Outros requerem maior
familiaridade com o computador e são baseados em linguagens próprias.
Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para uso em
microcomputadores que operam com o sistema Windows. Todavia, um número razoável de
pacotes já tem versões para o sistema Linux.
Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na área de Estatística.
Salientamos, também, que existem planilhas à venda no mercado que possuem opções para
certas técnicas estatísticas. Dentre essa planilhas mencionamos o Excel.
Tabela 1.1 Alguns
pacotes estatísticos genéricos.
1.3.1 O Repositório R
Pacote
Fabricante
Minitab
Minitab, Inc.
SAS
SAS Institute, Inc.
SPlus
TIBCO, Inc.
SPSS
SPSS, Inc.
Statgraphics
Stat. Graphics, Inc.
MATLAB
MathWorks
Neste livro usaremos, preferencialmente, programas do Repositório de Pacotes R, que podem
ser obtidos livremente do Compreensive R Archive Network (CRAN), no endereço:
<http://cran.r-project.org>.
Após instalar o R, vá para o site <www.ime.usp.br/~pam/EstBas.html> e obtenha os scripts
usados para reproduzir os exemplos e os dados utilizados no livro.
Para uma breve introdução ao R, siga o caminho indicado no Capítulo 1, “Introdução”. Neste
capítulo, também estão relacionados os pacotes usados no livro (packages ou libraries).
Para ver as soluções detalhadas dos exemplos, consulte: <rpubs.com./EstatBasica>.
1.4 Métodos Gráficos
Como dissemos na introdução, os métodos gráficos têm encontrado um uso cada vez maior
devido ao seu forte apelo visual. Normalmente, é mais fácil para qualquer pessoa entender a
mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos.
Os gráficos são utilizados para diversos fins (Chambers et al., 1983):
(a) buscar padrões e relações;
(b) confirmar (ou não) certas expectativas que se tinha sobre os dados;
(c) descobrir novos fenômenos;
(d) confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados;
(e) apresentar resultados de modo mais rápido e fácil.
Podemos usar métodos gráficos para plotar os dados originais ou outros dados derivados deles.
Por exemplo, a investigação da relação entre as variáveis da Figura 1.1 pode ser feita por meio
daquele diagrama de dispersão. Mas podemos também “ajustar” uma reta aos dados, calcular o
desvio (resíduo) para cada observação e fazer um novo gráfico, de consumo contra resíduos, para
avaliar a qualidade do ajuste.
Com o progresso recente da computação gráfica e a existência de hardware e software
adequados, a utilização de métodos gráficos torna-se rotineira na análise de dados.
Neste texto introduziremos gráficos para a visualização e resumo de dados, no caso de uma ou
duas variáveis, principalmente. Noções para o caso de três ou mais variáveis serão rapidamente
abordadas. Gráficos com o propósito de comparar duas distribuições também serão tratados.
1.5 Conjuntos de Dados
No final do livro, aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou
nos exercícios propostos. Aconselhamos os leitores a reproduzir os exemplos, usando esses
dados, bem como resolver os problemas, pois somente a efetiva manipulação de dados pode
levar a um bom entendimento das técnicas apresentadas.
Os conjuntos de dados apresentados provêm de diferentes fontes, que são mencionadas em
cada conjunto e depois explicitadas nas referências.
Os leitores, é claro, poderão usar as técnicas apresentadas em seus próprios conjuntos de
dados.
Alguns conjuntos de dados são parte de conjuntos maiores. Todos esses dados podem ser
obtidos no endereço:
<http://www.ime.usp.br/~pam/EstBas.html>.
Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, o Conjunto de
Dados 1 será designado simplesmente por CD-Brasil, o Conjunto de Dados 4, por CD-Poluição
etc.
1.6 Plano do Livro
Na primeira parte do livro, trataremos, nos Capítulos 2 a 4, de técnicas gráficas e numéricas
que nos permitirão fazer uma primeira análise dos dados disponíveis. No Capítulo 2,
estudaremos como resumir os dados por meio de distribuições de frequências e como representálos graficamente por meio de gráficos em barras, histogramas e ramo-e-folhas. No Capítulo 3,
veremos as principais medidas numéricas resumidoras de um conjunto de dados: medidas de
posição (ou localização) e medidas de dispersão (ou de variabilidade). A partir dessas medidas,
poderemos construir gráficos importantes, como o gráfico de quantis e o box plot. No Capítulo 4,
trataremos do caso em que temos duas variáveis. Estaremos interessados em verificar se existe
alguma associação entre duas variáveis e como medi-la. O caso de três variáveis será
considerado brevemente.
Na segunda parte, introduzimos os conceitos básicos sobre probabilidades e variáveis
aleatórias. A ideia é que a primeira parte sirva de motivação para construir os modelos
probabilísticos da segunda parte. No Capítulo 5, tratamos da noção de probabilidade, suas
propriedades, probabilidade condicional e independência. Também consideramos o teorema de
Bayes e destacamos sua importância em problemas de inferência. As variáveis aleatórias
discretas são estudadas no Capítulo 6 e as contínuas, no Capítulo 7. Em particular, são
introduzidos os principais modelos para variáveis aleatórias, bem como métodos de simulação
dessas variáveis. O caso de duas variáveis aleatórias é considerado no Capítulo 8.
No Capítulo 9, introduzimos noções básicas de simulação. Esse assunto é muito importante,
notadamente quando se quer avaliar algum modelo construído para uma situação real.
A terceira parte trata da inferência estatística. Nesta parte, todos os conceitos aprendidos nas
duas partes anteriores são imprescindíveis. Os dois grandes problemas de inferência, estimação e
teste de hipóteses são estudados nos Capítulos 11 e 12, respectivamente, após serem
introduzidas, no Capítulo 10, as noções básicas de amostragem e distribuições amostrais. O caso
de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15.
Basicamente, são desenvolvidos testes para médias, proporções e variâncias. O Capítulo 14 trata
dos chamados testes do qui-quadrado para dados que aparecem sob a forma de tabelas de
contingência. Finalmente, no Capítulo 16, estudamos com algum detalhe o modelo de regressão
linear simples.
Em cada capítulo há, sempre que possível, exemplos computacionais. Isso significa que algum
conjunto de dados é analisado utilizando-se o R ou alguns dos programas mencionados acima.
Em geral, são problemas um pouco mais difíceis do que aqueles exemplificados ou, então, têm o
caráter de ilustrar o uso de tais pacotes para simulações, por exemplo. Recomendamos que o
leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e
procura de eventuais modelos que possam representá-los.
Parte I
ANÁLISE EXPLORATÓRIA DE DADOS
Capítulo 2
Resumo de Dados
Capítulo 3
Medidas-Resumo
Capítulo 4
Análise Bidimensional
Capítulo 2
Resumo de Dados
2.1 Tipos de Variáveis
Para ilustrar o que segue, consideremos o seguinte exemplo.
Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos
socioeconômicos dos empregados da seção de orçamentos da Companhia MB. Usando
informações obtidas do departamento de pessoal, ele elaborou a Tabela 2.1. Essa tabela é
chamada planilha de dados.
Planilhas (usualmente na forma eletrônica) são matrizes de dados, construídas com o objetivo
de permitir uma análise estatística. Cada linha da matriz corresponde a uma unidade de
investigação (por exemplo, unidade amostral) e cada coluna, a uma variável, que corresponde à
realização de uma característica.
A planilha, em formato excel, correspondendo à Tabela 2.1, está no Conjunto de Dados, na
página do livro.
Para importá-la, utilizaremos qualquer um dos formatos TXT, DAT ou CSV. Desta forma, o
primeiro passo é construir um arquivo CSV (ou alternativamente DAT ou TXT), a partir da
planilha excel da Tabela 2.1, salvando-a no formato CSV.
Após a construção do arquivo CSV, procederemos no R com o comando read.table para
importar os dados.
Exemplo 2.1
tab21<-read.table (“tabela2_1.csv”, dec=”,”, sep=”;”, h=T)
Podemos facilmente saber quais são as variáveis importadas por meio do comando
names (tab21)
## [1] “N” “estado_civil” “grau_instrucao”
“n_filhos”
## [5] “salario” “idade_anos” “idade_meses” “reg_procedencia
Para mais detalhes, veja os comandos referentes ao Capítulo 2 na página do livro.
No exemplo em questão, considerando-se a característica (variável) estado civil, para cada
empregado pode-se associar uma das realizações, solteiro ou casado (note que poderia haver
outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram
consideradas no estudo). Podemos atribuir uma letra, digamos X, para representar tal variável.
Observamos que o pesquisador colheu informações sobre seis variáveis:
Variável
Representação
Estado civil
X
Grau de instrução
Y
Número de filhos
Z
Salário
S
Idade
U
Região de procedência
V
Algumas variáveis, como sexo, educação, estado civil, apresentam como possíveis realizações
uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras, como número de
filhos, salário, idade, apresentam como possíveis realizações números resultantes de uma
contagem ou mensuração. As variáveis do primeiro tipo são chamadas qualitativas, e as do
segundo tipo, quantitativas.
Dentre as variáveis qualitativas, ainda podemos fazer uma distinção entre dois tipos: variável
qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações, e
variável qualitativa ordinal, para a qual existe uma ordem nos seus resultados. A região de
procedência, do Exemplo 2.1, é um caso de variável nominal, enquanto grau de instrução é um
exemplo de variável ordinal, pois ensinos fundamental, médio e superior correspondem a uma
ordenação baseada no número de anos de escolaridade completos. A variável qualitativa classe
social, com as possíveis realizações alta, média e baixa, é outro exemplo de variável ordinal.
De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômica: (a)
variáveis quantitativas discretas, cujos possíveis valores formam um conjunto finito ou
enumerável de números, e que resultam, frequentemente, de uma contagem, como número de
filhos (0, 1, 2, ...); (b) variáveis quantitativas contínuas, cujos possíveis valores pertencem a um
intervalo de números reais e que resultam de uma mensuração, como por exemplo estatura e peso
(melhor seria dizer massa) de um indivíduo.
A Figura 2.1 esquematiza as classificações feitas acima.
Figura 2.1 Classificação
de uma variável.
Para cada tipo de variável existem técnicas apropriadas para resumir as informações, donde a
vantagem de usar uma tipologia de identificação como a da Figura 2.1. Entretanto, verificaremos
que técnicas usadas num caso podem ser adaptadas para outros.
Para finalizar, cabe uma observação sobre variáveis qualitativas. Em algumas situações
podem-se atribuir valores numéricos às várias qualidades ou atributos (ou, ainda, classes) de uma
variável qualitativa e depois proceder-se à análise como se esta fosse quantitativa, desde que o
procedimento seja passível de interpretação.
Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada
variável dicotômica. Para essa variável só podem ocorrer duas realizações, usualmente chamadas
sucesso e fracasso. A variável estado civil, no exemplo acima, estaria nessa situação. Esse tipo
de variável aparecerá mais vezes nos próximos capítulos.
Tabela 2.1 Informações
sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário
mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB.
Nº Estado civil Grau de instrução Nº de filhos Salário (× sal. mín.)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
solteiro
casado
casado
solteiro
solteiro
casado
solteiro
solteiro
casado
solteiro
casado
solteiro
solteiro
casado
casado
solteiro
casado
casado
solteiro
solteiro
casado
solteiro
solteiro
casado
casado
casado
solteiro
casado
casado
casado
solteiro
casado
casado
solteiro
casado
casado
ensino fundamental
ensino fundamental
ensino fundamental
ensino médio
ensino fundamental
ensino fundamental
ensino fundamental
ensino fundamental
ensino médio
ensino médio
ensino médio
ensino fundamental
ensino médio
ensino fundamental
ensino médio
ensino médio
ensino médio
ensino fundamental
superior
ensino médio
ensino médio
ensino médio
ensino fundamental
superior
ensino médio
ensino médio
ensino fundamental
ensino médio
ensino médio
ensino médio
superior
ensino médio
superior
superior
ensino médio
superior
—
1
2
—
—
0
—
—
1
—
2
—
—
3
0
—
1
2
—
—
1
—
—
0
2
2
—
0
5
2
—
1
3
—
2
3
4,00
4,56
5,25
5,73
6,26
6,66
6,86
7,39
7,59
7,44
8,12
8,46
8,74
8,95
9,13
9,35
9,77
9,80
10,53
10,76
11,06
11,59
12,00
12,79
13,23
13,60
13,85
14,69
14,71
15,99
16,22
16,61
17,26
18,75
19,40
23,30
Idade
anos meses
26
32
36
20
40
28
41
43
34
23
33
27
37
44
30
38
31
39
25
37
30
34
41
26
32
35
46
29
40
35
31
36
43
33
48
42
03
10
05
10
07
00
00
04
10
06
06
11
05
02
05
08
07
07
08
04
09
02
00
01
05
00
07
08
06
10
05
04
07
07
11
02
Região de procedência
interior
capital
capital
outra
outra
interior
interior
capital
capital
outra
interior
capital
outra
outra
interior
outra
capital
outra
interior
interior
outra
capital
outra
outra
interior
outra
outra
interior
interior
capital
outra
interior
capital
capital
capital
interior
Fonte: Dados hipotéticos.
2.2 Distribuições de Frequências
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento
dessa variável, analisando a ocorrência de suas possíveis realizações. Nesta seção, veremos uma
maneira de se dispor um conjunto de realizações, para se ter uma ideia global sobre elas, ou seja,
de sua distribuição.
A Tabela 2.2 apresenta a distribuição de frequências da variável grau de instrução,
usando os dados da Tabela 2.1.
Exemplo 2.2
Tabela 2.2 Frequências
e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de
instrução.
Grau de instrução
Frequência ni
Proporção fi
Porcentagem 100 fi
Fundamental
Médio
Superior
12
18
6
0,3333
0,5000
0,1667
33,33
50,00
16,67
Total
36
1,0000
100,00
Fonte: Tabela 2.1.
Observando os resultados da segunda coluna, vê-se que dos 36 empregados da companhia, 12
têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior.
Uma medida bastante útil na interpretação de tabelas de frequências é a proporção de cada
realização em relação ao total. Assim, 6/36 = 0,1667 dos empregados da companhia MB (seção
de orçamentos) têm instrução superior. Na última coluna da Tabela 2.2 são apresentadas as
porcentagens para cada realização da variável grau de instrução. Usaremos a notação ni para
indicar a frequência (absoluta) de cada classe, ou categoria, da variável, e a notação fi = ni/n para
indicar a proporção (ou frequência relativa) de cada classe, sendo n o número total de
observações. As proporções são muito úteis quando se quer comparar resultados de duas
pesquisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de
instrução para empregados da seção de orçamentos com a mesma variável para todos os
empregados da Companhia MB. Digamos que a empresa tenha 2.000 empregados e que a
distribuição de frequências seja a da Tabela 2.3.
Tabela 2.3 Frequências
e porcentagens dos 2.000 empregados da Companhia MB, segundo o grau de instrução.
Grau de instrução
Frequência ni
Porcentagem 100 fi
Fundamental
1.650
32,50
Médio
1.020
51,00
Superior
1.330
16,50
Total
2.000
100,00
Fonte: Dados hipotéticos.
Não podemos comparar diretamente as colunas das frequências das Tabelas 2.2 e 2.3, pois os
totais de empregados são diferentes nos dois casos. Mas as colunas das porcentagens são
comparáveis, pois reduzimos as frequências a um mesmo total (no caso 100).
A construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado.
Por exemplo, a construção da tabela de frequências para a variável salário, usando o mesmo
procedimento acima, não resumirá as 36 observações num grupo menor, pois não existem
observações iguais. A solução empregada é agrupar os dados por faixas de salário.
A Tabela 2.4 dá a distribuição de frequências dos salários dos 36 empregados da seção
de orçamentos da Companhia MB por faixa de salários.
Exemplo 2.3
Tabela 2.4 Frequências
e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de
salário.
Classe de salários
Frequência ni
Porcentagem 100 fi
4,00
8,00
10
27,78
8,00
12,00
12
33,33
12,00
16,00
8
22,22
16,00
20,00
5
13,89
20,00
24,00
1
2,78
36
100,00
Total
Fonte: Tabela 2.1.
Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, perde-se
alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a
não ser que investiguemos a tabela original (Tabela 2.1). Sem perda de muita precisão,
poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da
referida classe, isto é, 14 (o leitor pode verificar qual o erro cometido, comparando-os com os
dados originais da Tabela 2.1). Voltaremos a este assunto no Capítulo 3. Note que estamos
usando a notação a b para o intervalo de números contendo o extremo a, mas não contendo o
extremo b. Podemos também usar a notação [a, b) para designar o mesmo intervalo a b.
A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe
indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que,
com um pequeno número de classes, perde-se informação, e com um número grande de classes,
o objetivo de resumir os dados fica prejudicado. Estes dois extremos têm a ver, também, com o
grau de suavidade da representação gráfica dos dados, a ser tratada a seguir, baseada nestas
tabelas. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. O caso de
classes com amplitudes diferentes é tratado no Problema 10.
Problemas
1. Escalas de medidas. A seguir descrevemos outros possíveis critérios para classificar variáveis, em função da escala adotada.
Observe a similaridade com a classificação apresentada anteriormente. Nossas observações são resultados de medidas feitas
sobre os elementos de uma população. Existem quatro escalas de medidas que podem ser consideradas:
Escala nominal. Nesta escala, somente podemos afirmar que uma medida, é diferente ou não de outra, e ela é usada para
categorizar indivíduos de uma população. Um exemplo é o sexo de um indivíduo. Para cada categoria associamos um
numeral diferente (letra ou número). Por exemplo, no caso do sexo, podemos associar as letras M (masculino) e F (feminino)
ou 1 (masculino) e 2 (feminino). Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a
moda. (As medidas citadas nesse problema, como a média, mediana e moda, são definidas no Capítulo 3.)
Escala ordinal. Aqui, podemos dizer que uma medida é diferente e maior do que outra. Temos a situação anterior, mas as
categorias são ordenadas, e a ordem dos numerais associados ordena as categorias. Por exemplo, a classe socioeconômica de
um indivíduo pode ser baixa (1 ou X), média (2 ou Y) e alta (3 ou Z). Transformações que preservam a ordem não alteram a
estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 e 100 ou A, L e Z. Medidas
de posição apropriadas são a mediana e a moda.
Escala intervalar. Nesta escala, podemos afirmar que uma medida é igual ou diferente, maior e quanto maior do que outra.
Podemos quantificar a diferença entre as categorias da escala ordinal. Necessitamos de uma origem arbitrária e de uma
unidade de medida. Por exemplo, considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 0º F e a
unidade é 1º F. Transformações que preservam a estrutura dessa escala são do tipo y = ax + b, a > 0. Por exemplo, a
transformação y = 5/9 (x - 32) transforma graus Fahrenheit em centígrados. Para essa escala, podemos fazer operações
aritméticas, assim média, mediana e moda são medidas de posição apropriadas.
Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se uma é diferente, maior, quanto maior e
quantas vezes a outra. A diferença com a escala intervalar é que agora existe um zero absoluto. A altura de um indivíduo é
um exemplo de medida nessa escala. Se ela for medida em centímetros (cm), 0 cm é a origem e 1 cm é a unidade de medida.
Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm, e esta relação continua a valer se
usarmos 1 m como unidade. Ou seja, a estrutura da escala razão não é alterada por transformações da forma y = cx, c > 0. Por
exemplo, y = x/100 transforma cm em m. As estatísticas apropriadas para a escala intervalar são também apropriadas para a
escala razão.
Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resumir os dados em tabelas de frequências:
(a) Salários dos empregados de uma indústria.
(b) Opinião de consumidores sobre determinado produto.
(c) Número de respostas certas de alunos num teste com dez itens.
(d) Temperatura diária da cidade de Manaus.
(e) Porcentagem da receita de municípios aplicada em educação.
(f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento.
(g) QI de um indivíduo.
2. Usando os dados da Tabela 2.1, construa a distribuição de frequências das variáveis:
(a) Estado civil.
(b) Região de procedência.
(c) Número de filhos dos empregados casados.
(d) Idade.
3. Para o Conjunto de Dados 1 (CD-Brasil), construa a distribuição de frequências para as variáveis população e densidade
populacional.
2.3 Gráficos
Como já salientamos no Capítulo 1, a representação gráfica da distribuição de uma variável
tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários
gráficos que podem ser utilizados e abordaremos aqui os mais simples. No Capítulo 3,
voltaremos a tratar deste assunto, em conexão com medidas associadas à distribuição de uma
variável.
2.3.1 Gráficos para Variáveis Qualitativas
Existem vários tipos de gráficos para representar variáveis qualitativas. Vários são versões
diferentes do mesmo princípio, logo nos limitaremos a apresentar dois deles: gráficos em barras
e de composição em setores (“pizza” ou retângulos).
Exemplo 2.4 Tomemos como ilustração a variável Y: grau de instrução, exemplificada nas Tabelas
2.2 e 2.3. O gráfico em barras consiste em construir retângulos ou barras, em que uma das
dimensões é proporcional à magnitude a ser representada (ni ou fi), sendo a outra arbitrária,
porém igual para todas as barras. Essas barras são dispostas paralelamente umas às outras,
horizontal ou verticalmente. Na Figura 2.2, temos o gráfico em barras (verticais) para a variável
Y.
Figura 2.2 Gráfico
em barras para a variável Y: grau de instrução.
Já o gráfico de composição em setores, sendo em forma de “pizza” o mais conhecido, destinase a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num
círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes
de maneira proporcional. A Figura 2.3 mostra esse tipo de gráfico para a variável Y. Muitas
vezes é usado um retângulo no lugar do círculo, para indicar o todo.
Figura 2.3 Gráfico
em setores para a variável Y: grau de instrução.
2.3.2 Gráficos para Variáveis Quantitativas
Para variáveis quantitativas, podemos considerar uma variedade maior de representações
gráficas.
Considere a distribuição da variável Z, número de filhos dos empregados casados da
seção de orçamentos da Companhia MB (Tabela 2.1). Na Tabela 2.5, temos as frequências e
porcentagens.
Além dos gráficos usados para as variáveis qualitativas, como ilustrado na Figura 2.4,
podemos considerar um gráfico chamado gráfico de dispersão unidimensional, como o da Figura
2.5 (a), em que os valores são representados por pontos ao longo da reta (provida de uma escala).
Valores repetidos são acompanhados por um número que indica as repetições. Outra
possibilidade é considerar um gráfico em que os valores repetidos são “empilhados”, um em
cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto da pilha,
como aparece na Figura 2.5 (c).
Exemplo 2.5
Figura 2.4 Gráfico
em barras para a variável Z: número de filhos.
Figura 2.5 Gráficos
de dispersão unidimensionais para a variável Z: número de filhos.
Para variáveis quantitativas contínuas, necessita-se de alguma adaptação, como no exemplo a
seguir.
Tabela 2.5 Frequências
e porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o
número de filhos.
Nº de filhos zi
Frequência ni
Porcentagem 100 fi
0
4
20
1
5
25
2
7
35
3
3
15
5
1
5
Total
20
100
Fonte: Tabela 2.1.
Queremos representar graficamente a distribuição da variável S, salário dos
empregados da seção de orçamentos da Companhia MB. A Tabela 2.4 fornece a distribuição de
frequências de S. Para fazer uma representação similar às apresentadas anteriormente, devemos
usar o artifício de aproximar a variável contínua por uma variável discreta, sem perder muita
informação. Isto pode ser feito supondo-se que todos os salários em determinada classe são
iguais ao ponto médio desta classe. Assim, os dez salários pertencentes à primeira classe (de
quatro a oito salários) serão admitidos iguais a 6,00, os 12 salários da segunda classe (oito a doze
salários) serão admitidos iguais a 10,00 e assim por diante. Então, podemos reescrever a Tabela
2.4 introduzindo os pontos médios das classes. Estes pontos estão na segunda coluna da Tabela
2.6.
Com a tabela assim construída podemos representar os pares (si, ni) ou (si, fi), por um gráfico
em barras, setores ou de dispersão unidimensional. Veja a Figura 2.6.
Exemplo 2.6
Figura 2.6 Gráfico
em barras para a variável S: salários.
O artifício usado acima para representar uma variável contínua faz com que se perca muito das
informações nela contidas. Uma alternativa a ser usada nestes casos é o gráfico conhecido como
histograma.
Tabela 2.6 Distribuição
de frequências da variável S, salário dos empregados da seção de orçamentos da Companhia MB.
Frequência ni
Porcentagem 100 fi
4,00
8,00
6,00
10
27,78
Classes de salários
Ponto médio si
8,00
12,00
10,00
12
33,33
12,00
16,00
14,00
8
22,22
16,00
20,00
18,00
5
13,89
20,00
24,00
22,00
1
2,78
—
36
100,00
Total
Fonte: Tabela 2.4.
Usando ainda a variável S do Exemplo 2.4, apresentamos na Figura 2.7 o histograma
de sua distribuição.
O histograma é um gráfico de barras contíguas, com as bases proporcionais aos intervalos das
classes e a área de cada retângulo proporcional à respectiva frequência. Pode-se usar tanto a
frequência absoluta, ni, como a relativa, fi. Indiquemos a amplitude do i-ésimo intervalo por ∆i.
Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a
fi/∆i (ou a ni/∆i), que é chamada densidade de frequência da i-ésima classe. Quanto mais dados
tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do
histograma será igual a um.
Quando os intervalos das classes forem todos iguais a ∆, a densidade de frequência da i-ésima
classe passa a ser fi/∆ (ou ni/∆). É claro que marcar no eixo das ordenadas os valores ni, fi, ni/∆ ou
fi/∆ leva a obter histogramas com a mesma forma; somente as áreas é que serão diferentes. O
Problema 10 traz mais informações sobre a construção de histogramas.
Exemplo 2.7
Figura 2.7 Histograma
da variável S: salários.
Para facilitar o entendimento, foi colocada acima de cada setor (retângulo) a respectiva
porcentagem das observações (arredondada). Assim, por meio da figura, podemos dizer que 61%
dos empregados têm salário inferior a 12 salários mínimos, ou 17% possuem salário superior a
16 salários mínimos.
Do mesmo modo que usamos um artifício para representar uma variável contínua como uma
variável discreta, podemos usar um artifício para construir um histograma para variáveis
discretas. A Figura 2.8 é um exemplo de como ficaria o histograma da variável Z, número de
filhos dos empregados casados da seção de orçamentos da Companhia MB, segundo os dados da
Tabela 2.5. O gráfico é suficientemente autoexplicativo, de modo que omitimos detalhes sobre
sua construção.
Figura 2.8 Histograma
da variável Z: número de filhos.
2.4 Ramo-e-Folhas
Tanto o histograma como os gráficos em barras dão uma ideia da forma da distribuição da
variável sob consideração. Veremos, no Capítulo 3, outras características da distribuição de uma
variável, como medidas de posição e dispersão. Mas a forma da distribuição é tão importante
quanto estas medidas. Por exemplo, saber que a renda per capita de um país é de tantos dólares
pode ser um dado interessante, mas saber como essa renda se distribui é mais importante.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter
uma ideia da forma de sua distribuição, é o ramo-e-folhas. Uma vantagem deste diagrama sobre
o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si.
Na Figura 2.9, construímos o ramo-e-folhas dos salários de 36 empregados da
Companhia MB (Tabela 2.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas a
ideia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda
de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os salários 4,00 e
4,56, o 4 é o ramo e 00 e 56 são as folhas.
Um ramo com muitas folhas significa maior incidência daquele ramo (realização).
Exemplo 2.8
Figura 2.9 Ramo-e-folhas
para a variável S: salários.
Algumas informações que se obtêm deste ramo-e-folhas são:
(a) Há um destaque grande para o valor 23,30.
(b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40.
(c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo,
10,00.
(d) Há uma leve assimetria em direção aos valores grandes; a suposição de que estes dados
possam ser considerados como amostra de uma população com distribuição simétrica, em
forma de sino (a chamada distribuição normal), pode ser questionada.
A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de classes
de um histograma. Um número pequeno de linhas (ou de classes) enfatiza a parte M da relação
(1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R.
Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin; Mosteller;
Tukey, 1983, p. 13).
Exemplo 2.9
53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1
70,5 71,4 95,4 51,1 74,4 55,7 63,5 85,8 53,5 64,3
82,7 78,5 55,7 69,1 72,3 59,5 55,3 73,0 52,4 50,7
Na Figura 2.10, temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor,
omitindo os décimos, de modo que 69,1 e 69,5, por exemplo, tornam-se 69 e 69 e aparecem
como 9 na linha que corresponde ao ramo 6.
Figura 2.10 Ramo-e-folhas
para os dados de dureza de peças de alumínio.
Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alternativa é
duplicar os ramos. Criamos os ramos 5* e 5•, 6* e 6• etc., nos quais colocamos folhas de 0 a 4 na
linha * e folhas de 5 a 9 na linha •. Obtemos o ramo-e-folhas da Figura 2.11.
Um ramo-e-folhas pode ser “adornado” com outras informações, como o número de
observações em cada ramo. Para outros exemplos, veja o Problema 19.
Figura 2.11 Ramo-e-folhas
para os dados de dureza, com ramos divididos.
Problemas
4. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo:
8 11 8 12 14 13 11 14 14 15
6 10 14 19 6 12 7 5 8 8
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15
(a) Represente os dados graficamente.
(b) Faça um histograma e um ramo-e-folhas.
5. Usando os resultados do Problema 2 e da Tabela 2.3:
(a) construa um histograma para a variável idade; e
(b) proponha uma representação gráfica para a variável grau de instrução.
6. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil estão dadas
abaixo.
3,67 1,82 3,73 4,10 4,30
1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07
(a) Construa um histograma.
(b) Construa um gráfico de dispersão unidimensional.
7. Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Companhia MB. Após analisar o tipo de serviço
que cada seção executa, você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções. O
departamento pessoal forneceu os dados da Tabela 2.1 para os funcionários da seção de orçamentos, ao passo que, para a
seção técnica, os dados vieram agrupados segundo as tabelas abaixo, que apresentam as frequências dos 50 empregados
dessa seção, segundo as variáveis grau de instrução e salário. Baseado nesses dados, qual seria a sua decisão? Justifique.
Instrução
Frequência
Classe de Salários
Frequência
Fundamental
15
7,50
Médio
30
10,50
13,50
17
Superior
5
13,50
16,50
11
Total
50
16,50
19,50
10,50
Total
14
8
50
8. Construa um histograma, um ramo-e-folhas e um gráfico de dispersão unidimensional para o Conjunto de Dados 2 (CDMunicípios).
2.5 Exemplos Computacionais
Nesta seção, vamos analisar dois conjuntos de dados apresentados no final do livro, utilizando
técnicas vistas neste capítulo e comandos do R. Para mais detalhes veja a página do livro.
Considere o conjuntos de notas, em Estatística, de 100 alunos de um curso de
Economia (CD-Notas). O histograma dos dados está na Figura 2.12, que mostra que a
distribuição dos dados é razoavelmente simétrica. Esse gráfico pode ser obtido por meio do
comando do R a seguir:
Exemplo 2.10
cdnotas<-read.table(“cd-notas.csv”, h=T, skip=4,sep=”;”, dec=”,”)
hist (cdnotas$nota, col=”darkblue”, xlab=”Notas”, ylab=”Frequência”, border=”white”)
Figura 2.12 Histograma
para o CD-Notas. R.
O gráfico de dispersão unidimensional e o ramo-e-folhas correspondentes estão nas Figuras
2.13 e 2.14, respectivamente, e ambos contêm informação semelhante à dada pelo histograma.
Os comandos a utilizar são:
stripchart (cdnotas$nota, method = “stack”, offset = 2, at=0,
pch = 19, col=”darkblue”, ylab=NA,cex=0.5)
stem (cdnotas$notaFigura 2.14 Ramo-e-folhas para o CD-Notas. R.
Figura 2.13 Gráfico
Figura 2.14 Ramo-e-folhas
de dispersão unidimensional para o CD-Notas. R.
para o CD-Notas. R.
O Conjunto de Dados 4 (CD-Poluição) traz dados sobre a poluição na cidade de São
Paulo. Tomemos os dados de temperatura, de 1º de janeiro a 30 de abril de 1991 (120 dados).
Essas observações constituem o que se chama série temporal, ou seja, os dados são observados
em instantes ordenados do tempo. Espera-se que exista relação entre as observações em instantes
de tempo diferentes, o que não acontece com os dados do exemplo anterior: a nota de um aluno,
em princípio, é independente da nota de outro aluno qualquer. O gráfico dessa série temporal
está na Figura 2.15. Observa-se uma variação da temperatura no decorrer do tempo, entre 12 e 22
º C.
Exemplo 2.11
Figura 2.15 Dados
de temperatura de São Paulo. R.
O histograma e o gráfico de dispersão unidimensional estão nas Figuras 2.16 e 2.17,
respectivamente, mostrando que a distribuição dos dados não é simétrica. O ramo-e-folhas da
Figura 2.18 ilustra o mesmo comportamento.
Os comandos do R utilizados são:
cdpoluicao<-read.table (“cd-poluicao.csv”, h=T, skip=8, sep=”;”, dec=”,”)
plot.ts (cdpoluicao$temp, xlab=”Dia”, ylab=”Grau”, col=”darkblue”)
hist (cdpoluicao$temp, col=”darkblue”, xlab=”Temperatura”, border=”white”, ylab=””)
stripchart (cdpoluicao$temp, method = “stack”, offset = 2, at=0, pch = 19, col=”darkblue”,ylab=NA, cex=0.5)
stem (cdpoluicao$temp, scale=.5)
Figura 2.16 Histograma
Figura 2.17 Gráfico
dos dados de temperatura de São Paulo. R.
de dispersão unidimensional para os dados de temperatura de São Paulo. R.
Figura 2.18 Ramo-e-folhas
para os dados de temperatura de São Paulo. R.
2.6 Problemas Suplementares
9. A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso
experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, notas e graus
obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada
instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda as questões:
(a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você identificaria (qualitativa ordinal ou
nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas?
(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística.
(c) Construa o histograma para as notas da variável Redação.
(d) Construa a distribuição de frequências da variável Metodologia e faça um gráfico para indicar essa distribuição.
(e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha obtido grau A em Metodologia?
(f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do
que a resposta dada em (e)?
(g) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a que eles pertencem?
Func. Seção (*) Administr.DireitoRedação Estatíst. Inglês Metodologia Política Economia
Func. Seção (*) Administr.DireitoRedação Estatíst. Inglês Metodologia Política Economia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
P
P
P
P
P
P
P
T
T
T
T
T
T
T
V
V
V
V
V
V
V
V
V
V
V
8,0
8,0
8,0
6,0
8,0
8,0
8,0
10,0
8,0
10,0
8,0
8,0
6,0
10,0
8,0
8,0
8,0
6,0
6,0
6,0
8,0
6,0
8,0
8,0
8,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
9,0
8,6
7,0
8,0
8,6
8,0
8,5
8,2
7,5
9,4
7,9
8,6
8,3
7,0
8,6
8,6
9,5
6,3
7,6
6,8
7,5
7,7
8,7
7,3
8,5
7,0
9,0
9,0
8,0
8,0
9,0
10,0
8,0
8,0
9,0
8,0
10,0
7,0
7,0
9,0
9,0
7,0
8,0
9,0
4,0
7,0
7,0
8,0
10,0
9,0
9,0
B
B
D
D
A
B
D
B
B
B
C
D
B
A
C
A
D
C
D
C
D
C
C
A
B
A
C
B
C
A
A
C
C
B
C
B
B
C
B
B
A
C
C
C
B
B
A
C
A
A
9,0
6,5
9,0
6,0
6,5
6,5
9,0
6,0
10,0
9,0
10,0
6,5
6,0
10,0
10,0
9,0
10,0
6,0
6,0
6,0
6,5
6,0
9,0
6,5
9,0
8,5
8,0
8,5
8,5
9,0
9,5
7,0
8,5
8,0
7,5
8,5
8,0
8,5
7,5
7,0
7,5
7,5
8,5
9,5
8,5
8,0
9,0
7,0
9,0
8,5
(*) (P = departamento pessoal, T = seção técnica e V = seção de vendas)
10. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais.
(a) Construa os histogramas das duas distribuições.
(b) Com base nos histogramas, discuta e compare as duas distribuições.
Classes de aluguéis (codificados)
2
3
5
7
10
3
5
7
10
15
Total
Zona urbana
Zona rural
10
40
80
50
20
30
50
15
5
0
200
100
11. Esboce o histograma alisado para cada uma das situações descritas abaixo:
(a) Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo.
(b) Distribuição das idades de alunos de uma Faculdade de Economia e Administração.
(c) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior. Compare as duas distribuições.
(d) Distribuição do número de óbitos segundo a faixa etária.
(e) Distribuição do número de divórcios segundo o número de anos de casado.
(f) Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal, durante os dez
últimos anos.
12. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo:
(a) Distribuição das alturas dos brasileiros adultos.
(b) Distribuição das alturas dos suecos adultos.
(c) Distribuição das alturas dos japoneses adultos.
13. Usando os dados da Tabela 2.1:
(a) Construa a distribuição de frequências para a variável idade.
(b) Faça o gráfico da porcentagem acumulada.
(c) Usando o gráfico anterior, ache os valores de i correspondentes aos pontos (i, 25%), (i, 50%) e (i, 75%).
14. Construir a f.d.e. para a variável idade referente aos dados da Tabela 2.1.
15. Construa um ramo-e-folhas para a variável CO (monóxido de carbono) do Conjunto de Dados 4 (CD-Poluição).
2.7 Complementos Metodológicos
1. Intervalos de classes desiguais. É muito comum o uso de classes com tamanhos desiguais no agrupamento dos dados em
tabelas de frequências. Nestes casos, deve-se tomar alguns cuidados especiais quanto à análise e construção do histograma.
A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o número de empregados. Uma análise superficial
pode levar à conclusão de que a concentração vem aumentando até atingir um máximo na classe 40 60, voltando a diminuir
depois, mas não tão acentuadamente. Porém, um estudo mais detalhado revela que a amplitude da classe 40 60 é o dobro da
amplitude das classes anteriores. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concentração seja
levemente inferior. Então, um primeiro cuidado é construir a coluna que indica as amplitudes ∆i de cada classe. Estes valores
estão representados na terceira coluna da tabela.
Número de
empregados
Frequência
ni
Amplitude
∆i
Densidade
ni/∆i
Proporção
fi
Densidade fi/∆i
Número de empregados
Frequência ni
Amplitude ∆i
Densidade ni/∆i
Proporção
fi
Densidade fi/∆i
0
10
5
10
0,50
0,02
0,0020
10
20
20
10
2,00
0,08
0,0080
20
30
35
10
3,50
0,14
0,0140
30
40
40
10
4,00
0,16
0,0160
40
60
50
20
2,50
0,20
0,0100
60
80
30
20
1,50
0,12
0,0060
80
100
20
20
1,00
0,08
0,0040
100
140
20
40
0,50
0,08
0,0020
140
180
15
40
0,38
0,06
0,0015
180
260
15
80
0,19
0,06
0,0008
250
—
—
1,00
—
Total
Um segundo passo é a construção da coluna das densidades de frequências em cada classe, que é obtida dividindo as frequências
ni pelas amplitudes ∆i, ou seja, a medida que indica qual a concentração por unidade da variável. Assim, observando-se os
números da quarta coluna, vê-se que a classe de maior concentração passa a ser a 30 40, enquanto a última é a de menor
concentração. Para compreender a distribuição, estes dados são muito mais informativos do que as frequências absolutas
simplesmente.
De modo análogo, pode-se construir a densidade da proporção (ou porcentagem) por unidade da variável (verifique a construção
por meio da 5ª e da 6ª colunas). A interpretação para fi/∆i é muito semelhante àquela dada para ni/∆i.
Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%), o que sugere usar no eixo das
ordenadas os valores de fi/∆i. O histograma para estes dados está na Figura 2.19.
Figura 2.19 Histograma
dos dados do CM 1.
2. Histograma alisado. Na Tabela 2.4, tem-se a distribuição de frequências dos salários de 36 funcionários, agrupados em classes
de amplitude 4. Na Figura 2.7, tem-se o respectivo histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a
seguinte tabela de frequências e o correspondente histograma (Figura 2.20 (a)).
Classe de salários
4,00
6,00
8,00
10,00
12,00
14,00
16,00
18,00
20,00
22,00
Frequências ni
6,00
8,00
10,00
12,00
14,00
16,00
18,00
20,00
22,00
24,00
Total
Figura 2.20 (a) Histograma
4
6
8
4
5
3
3
2
0
1
36
para a variável S: salário, ∆ = 2.
Se houvesse um número suficientemente grande de observações, poder-se-ia ir diminuindo os intervalos de classe, e o
histograma iria ficando cada vez menos irregular, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o
comportamento da distribuição dos salários poderia ter a representação da Figura 2.20 (b). Esse histograma alisado é muito
útil para ilustrar rapidamente qual o tipo de comportamento que se espera para a distribuição de uma dada variável. No
capítulo referente às variáveis aleatórias contínuas, voltaremos a estudar esse histograma sob um ponto de vista mais
matemático.
A interpretação desse gráfico é a mesma do histograma. Assim, nas regiões onde a curva é mais alta, significa uma maior
densidade de observações. No exemplo acima, conforme se aumenta o salário, observa-se que a densidade de frequência vai
diminuindo.
Figura 2.20 (b) Histograma
alisado para a variável S: salário.
3. Frequências acumuladas. Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada, que
indica quantos elementos, ou que porcentagem deles, estão abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta
colunas indicam respectivamente a frequência absoluta acumulada e a proporção (porcentagem) acumulada. Assim, observando a
tabela podemos afirmar que 27,78% dos indivíduos ganham até oito salários mínimos; 61,11% ganham até 12 salários mínimos;
83,33% ganham até 16 salários mínimos; 97,22% ganham até 20 salários mínimos e 100% dos funcionários ganham até 24
salários.
Frequência ni
Frequência acumulada Ni
Porcentagem 100 fi
Porcentagem acumulada 100 Fi
4,00
8,00
10
10
27,78
27,78
Classe de salários
8,00
12,00
12
22
33,33
61,11
12,00
16,00
8
30
22,22
83,33
16,00
20,00
5
35
13,89
97,22
20,00
24,00
1
36
2,78
100,00
36
—
100,00
—
Total
A Figura 2.21 é a ilustração gráfica da porcentagem acumulada.
Figura 2.21 Porcentagens
acumuladas para o Problema 15.
Este gráfico pode ser usado para fornecer informações adicionais. Por exemplo, para saber qual o salário s tal que 50% dos
funcionários ganhem menos do que s, basta procurar o ponto (s, 50) na curva. Observando as linhas pontilhadas no gráfico,
verificamos que a solução é um pouco mais do que 10 salários mínimos.
4. Frequências acumuladas (continuação). Para um tratamento estatístico mais rigoroso das variáveis quantitativas, costuma-se
usar uma definição mais precisa para a distribuição das frequências acumuladas. Em capítulos posteriores será vista a sua
utilização.
Definição. Dadas n observações de uma variável quantitativa e um número x real qualquer, indicar-se-á por N(x) o número de
observações menores ou iguais a x, e chamar-se-á de função de distribuição empírica (f.d.e.) a função Fn(x) ou Fe(x).
Exemplo 2.12
Para a variável S = salário dos 36 funcionários listados na Tabela 2.1, é fácil verificar
que:
O gráfico está na Figura 2.22. Àqueles não familiarizados com a representação gráfica de
funções, recomenda-se a leitura de Morettin, Hazzan & Bussab (2005).
Figura 2.22 Função
de distribuição empírica para o Exemplo 2.12.
Esta definição também vale para variáveis quantitativas discretas. Assim, para a
variável número de filhos resumida na Tabela 2.5, tem-se a seguinte f.d.e.:
Exemplo 2.13
cujo gráfico é o da Figura 2.23.
Figura 2.23 Função
de distribuição empírica para o Exemplo 2.13.
5. Ramo-e-folhas (continuação). Os dados abaixo referem-se à produção, em toneladas, de dado produto, para 20 companhias
químicas (numeradas de 1 a 20).
(1, 50), (2, 280), (3, 560), (4, 170), (5, 180),
(6, 500), (7, 250), (8, 200), (9, 1.050), (10, 240),
(11, 180), (12, 1.000), (13, 1.100), (14, 120), (15, 4.200),
(16, 5.100), (17, 480), (18, 90), (19, 870), (20, 360).
Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representação semelhante à da Figura 2.9, teríamos um
grande número de linhas. A Figura 2.24 (a) mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre
no ramo, cada vez que se muda por um fator de 10.
Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 da Figura 2.24 (a) num ramo
denominado 0. Obtemos a Figura 2.24 (b).
Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo-e-folhas. Por exemplo, podemos ter a
contagem do número de folhas em cada ramo, como mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos salários dos
empregados da Tabela 2.1. Na Figura 2.25 (b), acrescentamos as contagens de folhas a partir de cada extremo até o ramo que
contém a mediana. Esse tipo de opção é chamado profundidade (depth) nos pacotes.
Figura 2.24 Ramo-e-folhas
Figura 2.25 Ramo-e-folhas
das produções de companhias químicas.
com: (a) frequências em cada ramo, (b) profundidade.
Capítulo 3
Medidas-Resumo
3.1 Medidas de Posição
Vimos que o resumo de dados por meio de tabelas de frequências e ramo-e-folhas fornece
muito mais informações sobre o comportamento de uma variável do que a própria tabela original
de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns
valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma
redução drástica dos dados. Usualmente, emprega-se uma das seguintes medidas de posição (ou
localização) central: média, mediana ou moda.
A moda é definida como a realização mais frequente do conjunto de valores observados. Por
exemplo, considere a variável Z, número de filhos de cada funcionário casado, resumida na
Tabela 2.5 do Capítulo 2. Vemos que a moda é 2, correspondente à realização com maior
frequência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos
valores pode ser bimodal, trimodal etc.
A mediana é a realização que ocupa a posição central da série de observações, quando estão
ordenadas em ordem crescente. Assim, se as cinco observações de uma variável forem 3, 4, 7, 8
e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o número de
observações for par, usa-se como mediana a média aritmética das duas observações centrais.
Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5.
Finalmente, a média aritmética, conceito familiar ao leitor, é a soma das observações dividida
pelo número delas. Assim, a média aritmética de 3, 4, 7, 8 e 8 é (3 + 4 + 7 + 8 + 8)/5 = 6.
Usando os dados da Tabela 2.5, já encontramos que a moda da variável Z é 2. Para a
mediana, constatamos que esta também é 2, média aritmética entre a décima e a décima primeira
observações. Finalmente, a média aritmética será
Exemplo 3.1
Neste exemplo, as três medidas têm valores próximos e qualquer uma delas pode ser usada
como representativa da série toda. A média aritmética é, talvez, a medida mais usada. Contudo,
ela pode conduzir a erros de interpretação. Em muitas situações, a mediana é uma medida mais
adequada. Voltaremos a este assunto mais adiante.
Vamos formalizar os conceitos introduzidos acima. Se x1, ..., xn são os n valores (distintos ou
não) da variável X, a média aritmética, ou simplesmente média, de X pode ser escrita
(3.1)
Agora, se tivermos n observações da variável X, das quais n1 são iguais a x1, n2 são iguais a x2
etc., nk iguais a xk, então a média de X pode ser escrita
(3.2)
Se fi = ni/n representar a frequência relativa da observação xi, então (3.2) também pode ser
escrita
(3.3)
Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor
observação por x(1), a segunda por x(2), e assim por diante, obtendo-se
(3.4)
Por exemplo, se x1 = 3, x2 = -2, x3 = 6, x4 = 1, x5 = 3, então -2 ≤ 1 ≤ 3 ≤ 3 ≤ 6, de modo que x(1)
= -2, x(2) = 1, x(3) = 3, x(4) = 3 e x(5) = 6.
As observações ordenadas como em (3.4) são chamadas estatísticas de ordem.
Com essa notação, a mediana da variável X pode ser definida como
(3.5)
A determinação das medidas de posição para uma variável quantitativa contínua, por
meio de sua distribuição de frequências, exige aproximações, pois perdemos a informação dos
valores das observações. Consideremos a variável S: salário dos 36 funcionários da Companhia
MB, agrupados em classes de salários, conforme a Tabela 2.6. Uma aproximação razoável é
supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta
classe. Este procedimento nos deixa na mesma situação do caso discreto, em que as medidas são
calculadas usando-se os pares (xi, ni) ou (xi, fi), como em (3.2) e (3.3).
A moda, mediana e média para os dados da Tabela 2.6 são, respectivamente,
Exemplo 3.2
Observe que colocamos o sinal de e não de igualdade, pois os valores verdadeiros não são
os calculados. Por exemplo, a mediana de S é a média entre as duas observações centrais, quando os dados são
ordenados, isto é, 9,80 e 10,53, portanto md(S) = 10,16. Quais são, nesse exemplo, a média e moda verdadeiras?
Observe que, para calcular a moda de uma variável, precisamos apenas da distribuição de
frequências (contagem). Já para a mediana necessitamos minimamente ordenar as realizações da
variável. Finalmente, a média só pode ser calculada para variáveis quantitativas.
Essas condições limitam bastante o cálculo de medidas-resumos para as variáveis qualitativas.
Para as variáveis nominais somente podemos trabalhar com a moda. Para as variáveis ordinais,
além da moda, podemos usar também a mediana. Devido a esse fato, iremos apresentar daqui em
diante medidas-resumo para variáveis quantitativas, que permitem o uso de operações aritméticas
com seus valores.
(continuação) Retomemos os dados da Companhia MB. A moda para a variável V:
região de procedência é mo(V) = outra. Para a variável Y: grau de instrução, temos que mo(Y) =
ensino médio e md(Y) = ensino médio.
Veremos, na Seção 3.3, que a mediana é uma medida resistente, ao passo que a média não o é,
em particular para distribuições muito assimétricas ou contendo valores atípicos. Por outro lado,
a média é ótima (num sentido que será discutido no Capítulo 10) se a distribuição dos dados for
aproximadamente normal.
Uma outra medida de posição também resistente é a média aparada, definida no Problema 39.
Essa medida envolve calcular a média das observações centrais, desprezando-se uma
porcentagem das iniciais e finais.
Exemplo 3.2
3.2 Medidas de Dispersão
O resumo de um conjunto de dados por uma única medida representativa de posição central
esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo,
suponhamos que cinco grupos de alunos submeteram-se a um teste, no qual obtiveram as
seguintes notas:
Grupo A (variável X): 3, 4, 5, 6, 7.
Grupo B (variável Y): 1, 3, 5, 7, 9.
Grupo C (variável Z): 5, 5, 5, 5, 5.
Grupo D (variável W): 3, 5, 5, 7.
Grupo E (variável V): 3, 5, 5, 6, 6.
Vemos que
. A identificação de cada uma destas séries por sua média (5,
em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, então, a
conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de
observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os
dados acima, segundo algum critério estabelecido.
Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em
torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio
básico é analisar os desvios das observações em relação à média dessas observações.
Para o grupo A acima os desvios xi - x são: -2, -1, 0, 1, 2. É fácil ver (Problema 14 (a)) que,
para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condições, a soma
dos desvios
não é uma boa medida de dispersão para o conjunto A. Duas opções são:
(a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos
desvios. Para o grupo A teríamos, respectivamente,
O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com
números diferentes de observações, como os conjuntos A e D acima. Desse modo, é mais
conveniente exprimir as medidas como médias, isto é, o desvio médio e a variância são definidos
por
(3.6)
(3.7)
respectivamente. Para o grupo A temos
enquanto para o grupo D temos
Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que A,
enquanto ambos são igualmente homogêneos, segundo a variância.
Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por
exemplo, se os dados são expressos em cm, a variância será expressa em cm2), pode causar
problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz
quadrada positiva da variância. Para o grupo A o desvio padrão é
Ambas as medidas de dispersão (dm e dp) indicam, em média, qual será o “erro” (desvio)
cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados (no
caso, a média).
Vamos calcular as medidas de dispersão acima para a variável Z = número de filhos,
resumida na Tabela 2.5. Como vimos no Exemplo 3.1, z = 1,65. Os desvios são zi - z: -1,65;
-0,65; 0,35; 1,35; 3,35. Segue-se que
Exemplo 3.3
Também,
Consequentemente, o desvio padrão de Z é
Suponha que observemos n1 vezes os valores x1 etc., nk vezes o valor xk da variável X. Então,
(3.8)
(3.9)
(3.10)
O cálculo (aproximado) das medidas de dispersão no caso de variáveis contínuas, agrupadas
em classes, pode ser feito de modo análogo àquele usado para encontrar a média no Exemplo
2.2.
Consideremos a variável S = salário. A média encontrada no Exemplo 3.2 foi s =
11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos
Exemplo 3.4
e, portanto,
É fácil ver que
Veremos, mais tarde, que a variância de uma amostra será calculada usando-se o denominador
n - 1, em vez de n. A justificativa será dada naquele capítulo, mas para grandes amostras pouca
diferença fará o uso de um ou outro denominador.
Tanto a variância como o desvio médio são medidas de dispersão calculadas em relação à
média das observações. Assim como a média, a variância (ou o desvio padrão) é uma boa medida
se a distribuição dos dados for aproximadamente normal. O desvio médio é mais resistente que o
desvio padrão, no sentido a ser estudado na seção seguinte.
Poderíamos considerar uma medida que seja calculada em relação à mediana. O desvio
absoluto mediano é um exemplo e é mais resistente que o desvio padrão. Veja o Problema 41.
Usando o Problema 14 (b), uma maneira computacionalmente mais eficiente de calcular a
variância é
(3.11)
e, no caso de observações repetidas,
(3.12)
Problemas
1. Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrandose o número de erros por página da tabela abaixo.
(a) Qual o número médio de erros por página?
(b) E o número mediano?
(c) Qual é o desvio padrão?
(d) Faça uma representação gráfica para a distribuição.
(e) Se o livro tem 500 páginas, qual é o número total de erros esperado no livro?
Erros
Frequência
0
25
1
20
2
3
3
1
4
1
2. As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagem) 2,59; 2,64; 2,60; 2,62;
2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão.
3. Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade, as autoridades tomaram uma
amostra de tamanho 50 dos 270 quarteirões que compõem a região, e foram encontrados os seguintes números de casas por
quarteirão:
2
18
26
45
66
2
18
27
46
66
3
20
29
48
68
10
21
29
52
75
13
22
30
58
78
14
22
32
59
80
15
23
36
61
89
15
24
42
61
90
16
25
44
61
92
16
25
45
65
97
(a) Use cinco intervalos e construa um histograma.
(b) Determine uma medida de posição central e uma medida de dispersão.
4. (a) Dê uma situação prática em que você acha que a mediana é uma medida mais apropriada do que a média.
(b) Esboce um histograma em que a média e a mediana coincidem. Existe alguma classe de histogramas em que isso sempre
acontece?
(c) Esboce os histogramas de três variáveis (X, Y e Z) com a mesma média aritmética, mas com as variâncias ordenadas em
ordem crescente.
5. Suponha que a variável de interesse tenha a distribuição como na figura abaixo.
Você acha que a média é uma boa medida de posição? E a mediana? Justifique.
6. Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações:
Número de filhos
Frequência de famílias
0
1
2
3
4 5 mais que 5
17 20 28 19 7 4
5
(a) Qual a mediana do número de filhos?
(b) E a moda?
(c) Que problemas você enfrentaria para calcular a média? Faça alguma suposição e encontre-a.
3.3 Quantis Empíricos
Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de dados, pois:
(a) são afetados, de forma exagerada, por valores extremos;
(b) apenas com estes dois valores não temos ideia da simetria ou assimetria da distribuição dos
dados.
Para contornar esses fatos, outras medidas precisam ser consideradas.
Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima (ver
fórmula (3.5). De modo geral, podemos definir uma medida, chamada quantil de ordem p ou pquantil, indicada por q(p), em que p é uma proporção qualquer, 0 < p < 1, tal que 100p% das
observações sejam menores do que q(p).
Indicamos, abaixo, alguns quantis e seus nomes particulares.
Dependendo do valor de p, há dificuldades ao se calcular os quantis. Isso é ilustrado no
exemplo a seguir.
Exemplo 3.5
Suponha que tenhamos os seguintes valores de uma variável X:
15, 5, 3, 8, 10, 2, 7, 11, 12.
Ordenando os valores, obtemos as estatísticas de ordem x(1) = 2, x(2) = 3,..., x(9) = 15, ou seja,
teremos
2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15.
Usando a definição de mediana dada, teremos que md = q(0,5) = q2 = x(5) = 8. Suponha que
queiramos calcular os dois outros quartis, q1 e q3. A ideia é dividir os dados em quatro partes:
2 3 5 7 8 10 11 12 15
Uma possibilidade razoável é, então, considerar a mediana dos primeiros quatro valores para
obter q1, ou seja,
e a mediana dos últimos quatro valores para obter q3, ou seja,
Obtemos, então, a sequência
2 3 (4) 5 7 (8) 10 11 (11,5) 12 15
Observe que a média dos n = 9 valores é x = 8,1, próximo à mediana.
(continuação). Acrescentemos, agora, o valor 67 à lista de nove valores do Exemplo
3.5, obtendo-se agora os n = 10 valores ordenados:
2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15 < 67
Agora, -x = 14, enquanto que a mediana fica
Exemplo 3.5
que está próxima da mediana dos nove valores originais, mas ambas (8 e 9) relativamente longe
de x . Dizemos que a mediana é resistente (ou robusta), no sentido que ela não é muito afetada
pelo valor discrepante (ou atípico) 67.
Para calcular q1 e q3 para este novo conjunto de valores, considere-os assim dispostos:
2 3 5 7 8 9 10 11 12 15 67
de modo que q1 = 5 e q3 = 12.
Obtemos, então os dados separados em 4 partes por q1, q2 e q3:
2 3 (5) 7 8 (9) 10 11 (12) 15 67
Suponha, agora, que queiramos calcular q(0,20), ou seja, aquele valor que deixa 20% dos
dados à sua esquerda, para o conjunto original de n = 9 valores de X. Como 20% das observações
correspondem a 1,8 observações, qual valor devemos tomar como q(0, 20)? O valor 3, que é a
segunda observação ordenada, ou 5, ou a média de 3 e 5? Se adotarmos essa última solução,
então q(0, 20) = q(0, 25) = q1, o que pode não parecer razoável.
Para responder a essa questão, temos que definir o quantil de uma sequência de valores de
uma variável de modo apropriado. Isto está feito no Problema 17.
Se os dados estiverem agrupados em classes, podemos obter os quantis usando o histograma.
Por exemplo, para obter a mediana, sabemos que ela deve corresponder ao valor da abscissa que
divide a área do histograma em duas partes iguais (50% para cada lado). Então, usando
argumentos geométricos, podemos encontrar um ponto, satisfazendo essa propriedade. Vejamos
como proceder por meio de um exemplo.
Vamos repetir abaixo a Figura 2.7, que é o histograma da variável S = salário dos
empregados da Companhia MB.
Exemplo 3.6
Devemos localizar o ponto das abscissas que divide o histograma ao meio. A área do primeiro
retângulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana md é algum
número situado entre 8,00 e 12,00. Ou melhor, a mediana irá corresponder ao valor md no
segundo retângulo, tal que a área do retângulo de base 8,00 md e mesma altura que o retângulo
de base 8,00 12,00, seja 22% (28% do primeiro retângulo mais 22% do segundo, perfazendo os
50%). Consulte a figura para melhor compreensão. Pela proporcionalidade entre a área e a base
do retângulo, temos:
ou
logo
que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada
anteriormente.
O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana, usando
argumentos geométricos no histograma. Vejamos a determinação de alguns quantis, usando os
dados do último exemplo.
(a) q(0,25): Verificamos que q(0,25) deve estar na primeira classe, pois a proporção no
primeiro retângulo é 0,28. Logo,
e então
(b) q(0,95): Analisando a soma acumulada das proporções, verificamos que este quantil deve
pertencer à quarta classe, e que nesse retângulo devemos achar a parte correspondente a
12%, pois a soma acumulada até a classe anterior é 83%, faltando 12% para atingirmos os
95%. Portanto,
logo
(c) q(0,75): De modo análogo, concluímos que o terceiro quantil deve pertencer ao intervalo
12,00 16,00, portanto
e
Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil, definida
como a diferença entre o terceiro e primeiro quartis, ou seja,
dq = q3 - q1. (3.13)
Para o Exemplo 3.5, temos q1 = 4, q3 = 11,5, de modo que dq = 7,5. Para um cálculo mais
preciso, veja o Problema 17. Lá obtemos q1 = 4,5, q3 = 11,25, logo dq = 6,75.
Os quartis q(0,25) = q1, q(0,5) = q2 e q(0,75) = q3 são medidas de localização resistentes de
uma distribuição.
Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada
por mudanças de uma pequena porção dos dados. A mediana é uma medida resistente, ao passo
que a média não o é. Para ilustrar esse fato, considere as populações dos 30 municípios do Brasil,
do CD-Municípios. Se descartarmos Rio de Janeiro e São Paulo, a média das populações dos 28
municípios restantes é 100,6 e a mediana é 82,1. Para todos os dados, a média pasa a ser 145,4,
ao passo que a mediana será 84,3. Note que a média aumentou bastante, influenciada que foi
pelos dois valores maiores, que são muito discrepantes da maioria dos dados. Mas a mediana
variou pouco. O desvio padrão também não é uma medida resistente. Verifique como este varia
para este exemplo dos municípios.
Os cinco valores, x(1), q1, q2, q3 e x(n), são importantes para se ter uma boa ideia da assimetria da
distribuição dos dados. Para uma distribuição simétrica ou aproximadamente simétrica,
deveríamos ter:
(a) q2 - x(1) ; x(n) - q2;
(b) q2 - q1 ; q3 - q2;
(c) q1 - x(1) ; x(n) - q3;
(d) distâncias entre mediana e q1, q3 menores do que distâncias entre os extremos e q1, q3.
A diferença q2 - x(1) é chamada dispersão inferior e x(n) - q2 é a dispersão superior. A condição
(a) nos diz que as duas dispersões devem ser aproximadamente iguais, para uma distribuição
aproximadamente simétrica.
A Figura 3.1 ilustra estes fatos para a chamada distribuição normal ou gaussiana.
Figura 3.1 Uma
distribuição simétrica: normal ou gaussiana.
Na Figura 3.2, temos ilustradas estas cinco medidas para os n = 9 valores do Exemplo 3.5.
Figura 3.2 Quantis
e distâncias para o Exemplo 3.5.
As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente
como na Figura 3.3, em que também incorporamos o número de observações, n. Representamos
a mediana por md, os quartis por q e os extremos por E. Podemos ir além, considerando os
chamados oitavos, ou seja, o primeiro oitavo, que corresponde a q(0,125), o sétimo oitavo, que
corresponde a q(0,875) etc. Teríamos, então, sete números para representar a distribuição dos
dados. Em geral, podemos considerar as chamadas letras-resumos, descendo aos dezesseis-avos,
trinta e dois-avos etc. Para detalhes, ver Hoaglin, Mosteller and Tukey (1983).
Figura 3.3 Esquema
dos cinco números.
Os aplicativos R, SPlus e Minitab, assim como a planilha Excel, possuem ferramentas
que geram as principais medidas descritas nesse capítulo e outras. Por exemplo, o comando
Describe do Minitab, usado para as populações dos municípios brasileiros produz a saída do
Quadro 3.1.
Exemplo 3.7
Quadro 3.1 Medidas-resumo
para o CD-Municípios. Minitab.
MTB > Describe C1.
Descriptive Statistics
Variable N
C1
30
Mean Median Tr mean StDev SE Mean
145.4 84.3
104.7
186.6 34.1
Variable Min Max Q1
C1
46.3 988.8 63.5
Q3
139.7
Aqui, temos N = 30 dados, a média é 145,4, a mediana 84,3, o desvio padrão 186,6, o menor
valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro quartil 139,7. Além desses
valores, o resumo traz a média aparada (trimmed mean) e o erro padrão da média, a ser tratado
no Capítulo 11. Esse é dado por
.
O comando summary do R e SPlus produzem a saída do Quadro 3.2 para os mesmos dados.
Note a diferença no cálculo dos quantis q(0,25) e q(0,75). Conclui-se que é necessário saber
como cada programa efetua o cálculo de determinada estatística, para poder reportá-lo.
Quadro 3.2 Medidas-resumo
para o CD-Municípios. R e SPlus.
> summary (munic)
Min. 1st Qu. Median Mean 3rd Qu. Max.
46.3 64.48 84.3
145.4 134.3 988.8
Problemas
7. Obtenha o esquema dos cinco números para os dados do Problema 3. Calcule a distância interquartil e as dispersões inferior e
superior. Baseado nessas medidas, verifique se a forma da distribuição dos dados é normal.
8. Refaça o problema anterior, utilizando desta vez os dados do Problema 5 do Capítulo 2.
9. Obter os três quartis, q(0,1) e q(0,90) para os dados do Problema 3.
10. Para a variável população do CD-Brasil, obtenha q(0,10), q(0,25), q(0,50), q(0,75), q(0,80) e q(0,95).
3.4 Box Plots
A informação contida no esquema dos cinco números da Figura 3.3 pode ser traduzida
graficamente num diagrama, ilustrado na Figura 3.4, que chamaremos de box plot. Murteira
(1993) usa o termo “caixa-de-bigodes”.
Figura 3.4 Box
Plot.
Para construir este diagrama, consideremos um retângulo em que estão representados a
mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto
que não exceda LS = q3 + (1,5)dq, chamado limite superior. De modo similar, da parte inferior do
retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI =
q1 - (1,5)dq, chamado limite inferior. Os valores compreendidos entre esses dois limites são
chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo
do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos.
Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou
valores atípicos.
O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes. A
posição central é dada pela mediana e a dispersão por dq. As posições relativas de q1, q2, q3 dão
uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que
vão do retângulo aos valores remotos e pelos valores atípicos.
Retomemos o exemplo dos 15 maiores municípios do Brasil, ordenados pelas
populações. Usando o procedimento do Problema 17 (veja também o Problema 18), obtemos q1
= 105,7, q2 = 135,8, q3 = 208,6. O diagrama para os cinco números x(1), q1, q2 = md, q3, x(15) está
na Figura 3.5 abaixo.
Exemplo 3.8
Figura 3.5 Esquema
dos cinco números para o Exemplo 3.8.
Temos que
LI = q1 - (1,5)dq = 105,7 - (1,5) (102,9) = - 48,7,
LS = q3 + (1,5)dq = 208,6 + (1,5) (102,9) = 362,9.
Então, as cidades com populações acima de 3.629.000 habitantes são pontos exteriores, ou
seja, Rio de Janeiro e São Paulo. O box plot correspondente está na Figura 3.6. Vemos que os
dados têm uma distribuição assimétrica à direita, com 13 valores concentrados entre 80 e 230 e
duas observações discrepantes, bastante afastadas do corpo principal dos dados.
Figura 3.6 Box
plot para os quinze maiores municípios do Brasil.
Do ponto de vista estatístico, um outlier pode ser produto de um erro de observação ou de
arredondamento. No exemplo acima, as populações de São Paulo e Rio de Janeiro não são
outliers neste sentido, pois elas representam dois valores realmente muito diferentes dos demais.
Daí, usarmos o nome pontos (ou valores) exteriores. Contudo, na prática, estas duas
denominações são frequentemente usadas com o mesmo significado: observações fora de lugar,
discrepantes ou atípicas.
A Figura 3.7 mostra o box plot para as populações dos trinta municípios brasileiros, feito com
o R.
Figura 3.7 Box
plot com R.
A justificativa para usarmos os limites acima, LI = q1 - (1,5)dq e LS = q3 + (1,5)dq, para definir
as observações atípicas é a seguinte: considere uma curva normal com média zero e, portanto,
com mediana zero. É fácil verificar (veja o Capítulo 7 e Tabela III) que q1 = – 0,6745, q2 = 0, q3
= 0,6745 e portanto dq = 1,349. Segue-se que os limites são LI = –2,698 e LS = 2,698. A área
entre esses dois valores, embaixo da curva normal, é 0,993, ou seja, 99,3% da distribuição está
entre esses dois valores. Isto é, para dados com uma distribuição normal, os pontos exteriores
constituirão cerca de 0,7% da distribuição. Veja a Figura 3.8.
Figura 3.8 Área
sob a curva normal entre LI e LS.
Problemas
11. Construa o box plot para os dados do Exemplo 2.3, Capítulo 2. O que você pode concluir a respeito da distribuição?
12. Refaça a questão anterior com os dados do Problema 3 deste capítulo.
13. Faça um box plot para o Problema 10. Comente sobre a simetria, caudas e presença de valores atípicos.
3.5 Gráficos de Simetria
Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica (ou
aproximadamente simétrica).
Se um conjunto de observações for perfeitamente simétrico devemos ter
q(0,5) - x(i) = x(n + 1 - i) - q(0,5), (3.14)
em que i = 1, 2, ..., n/2, se n for par e i = 1, 2, ..., (n + 1)/2, se n for ímpar.
Pela relação (3.14), vemos que, se os quantis da direita estão mais afastados da mediana, do
que os da esquerda, os dados serão assimétricos à direita. Se ocorrer o contrário, os dados serão
assimétricos à esquerda. A Figura 3.9 ilustra essas duas situações.
Figura 3.9 Distribuições
assimétricas.
Para os dados do Exemplo 3.8, vemos que as observações são assimétricas à direita. Em geral,
esse tipo de situação ocorre com dados positivos.
Podemos fazer um gráfico de simetria, usando a identidade (3.14). Chamando de ui o primeiro
membro e de vi o segundo membro, fazendo-se um gráfico cartesiano, com os ui’s como
abscissas e os vi’s como ordenadas, se os dados forem aproximadamente simétricos, os pares (ui,
vi) estarão dispersos ao redor da reta v = u.
Considere os dados que, dispostos em ordem crescente, ficam representados no eixo
real como na Figura 3.10.
Exemplo 3.9
Figura 3.10 Dados
aproximadamente simétricos.
Esses dados são aproximadamente simétricos, pois como q2 = 8, ui = q2 - x(i), vi = x(n + 1 - i) - q2,
teremos:
u1 = 8,0 - 0,5 = 7,5, v1 = 15,3 - 8,0 = 7,3,
u2 = 8,0 - 2,3 = 5,7, v2 = 13,5 - 8,0 = 5,5,
u3 = 8,0 - 4,0 = 4,0, v3 = 12,0 - 8,0 = 4,0,
u4 = 8,0 - 6,4 = 1,6, v4 = 9,8 - 8,0 = 1,8.
A Figura 3.11 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil.
Vemos que a maioria dos pontos estão acima da reta v = u, mostrando a assimetria à direita da
distribuição dos valores. Nessa figura, vemos destacados os pontos correspondentes a Rio de
Janeiro e São Paulo.
Figura 3.11 Gráfico
de simetria para o CD-Municípios.
3.6 Transformações
Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma
distribuição normal (em forma de sino) ou então mais ou menos simétrica. Mas, em muitas
situações de interesse prático, a distribuição dos dados da amostra é assimétrica e pode conter
valores atípicos, como vimos em exemplos anteriores.
Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transformação das
observações, de modo a se obter uma distribuição mais simétrica e próxima da normal. Uma
família de transformações frequentemente utilizada é
(3.15)
Normalmente, o que se faz é experimentar valores de p na sequência
... , -3, -2, -1, -1/2, -1/3, -1/4, 0, 1/4, 1/3, 1/2, 1, 2, 3, ...
e para cada valor de p obtemos gráficos apropriados (histogramas, box plots etc.) para os dados
originais e transformados, de modo a escolhermos o valor mais adequado de p.
Vimos que, para dados positivos, a distribuição dos dados é usualmente assimétrica à direita.
Para essas distribuições, a transformação acima com 0 < p < 1 é apropriada, pois valores grandes
de x decrescem mais, relativamente a valores pequenos. Para distribuições assimétricas à
esquerda, tome p > 1.
Consideremos os dados das populações do CD-Municípios e tomemos alguns valores
de p: 0, 1/4, 1/3, 1/2. Na Figura 3.12, temos os histogramas para os dados transformados e, na
Figura 3.13, os respectivos box plots. Vemos que p = 0 (transformação logarítmica) e p = 1/3
(transformação raiz cúbica) fornecem distribuições mais próximas de uma distribuição simétrica.
Exemplo 3.10
Figura 3.12 Histogramas
Figura 3.13 Box
para os dados transformados. CD-Municípios.
plots para os dados transformados. CD-Municípios. R.
3.7 Exemplos Computacionais
Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as
medidas e gráficos expostos neste capítulo. Além do R, vamos usar o Minitab e SPlus, para ver
as diferenças entre os programas ao calcular certas medidas, como os quantis.
(continuação) Aqui temos as notas em Estatística de 100 alunos de Economia.
Temos, no Quadro 3.3, as principais medidas desse conjunto de dados fornecidas por uma
variante do comando summary do R e do SPlus. O comando Describe do Minitab oferece dez
medidas. Para obter essa mesmas medidas pelo R, utilizamos a função summary2, que pode ser
consultada nos scripts do Capítulo 3.
Exemplo 2.10
Quadro 3.3 Medidas
descritivas para o CD-Notas. R.
> summary2 (cdnotas$nota)
[,1]
N 100.00000
Min. 1.50000
1st Qu. 4.88000
Median 6.00000
Mean 5.92000
3rd Qu. 7.12000
Max. 10.00000
Tr Mean 5.84375
Var 3.25188
StDev 1.80330
SE Mean 0.13429
Vemos, por exemplo, que q1 = 4,88, q2 = 6,00, e q3 = 7,12. Portanto, dq = q3 – q1 = 2,24. O
desvio padrão é 1,8.
Usando o Minitab, é possível verificar que esses quantis são diferentes, indicando que
distintos programas podem utilizar métodos diferentes ara calcular os quantis.
Vimos que a distribuição das notas é razoavelmente simétrica, não havendo valores atípicos, o
que é confirmado pelo box plot da Figura 3.14, obtida pelo comando R:
boxplot(cdnotas$nota, pch="-", col="lightblue", border="darkgrey")
Figura 3.14 Box
plot para o CD-Notas. R.
O gráfico de simetria da Figura 3.15 pode ser obtido pelos comandos do R:
u<-median(cdnotas$nota)-cdnotas$nota
v<-cdnotas$nota-median(cdnotas$nota)
plot(sort(u),sort(v), pch=19, xlab="ui", ylab="vi",col="darkblue",xlim=c(0,max(u)),ylim=c(0,max(v)))
title("Figura 3.15: Gráfico de simetria para o CD-Notas.")
abline(0,1)
Note que os pontos dispõem-se ao redor da reta u=v, estando vários deles sobre ela, indicando
a quase-simetria dos dados. Deveríamos ter 50 pontos no gráfico, mas há vários pontos (ui,vi)
repetidos.
Figura 3.15 Gráfico
de simetria para o CD-Notas.
Os dados diários de temperatura na cidade de São Paulo, no período
considerado, são ligeiramente assimétricos à esquerda. O comando summary do R e do SPlus
fornece as medidas descritivas do Quadro 3.4.
Exemplo 2.11 (continuação)
Quadro 3.4 Medidas
descritivas para temperaturas. R e SPlus.
> summary (temp)
Min. 1st Qu. Median Mean 3rd Qu. Max.
12.3 16
17.7
17.22 18.6
21
Temos, por exemplo, q1, = 16, q2 = 17,7 e q3 = 18,6. A amplitude amostral é x(n) - x(1) = 8,7 e a
distância interquartil é dq = 2,6.
O box plot e o gráfico de simetria estão nas Figuras 3.16 e 3.17, respectivamente, que mostram
a assimetria dos dados. Todos os pontos estão abaixo da reta u=v, mostrando que ui>vi, para todo
i = 1,2,...,60, ou seja, as distâncias da mediana aos quantis inferiores são maiores do que as
distâncias dos quantis superiores à mediana, indicando uma distribuição assimétrica à esquerda.
Obtém-se essas duas figuras utilizando comandos similares àqueles do Exemplo 2.10.
Figura 3.16 Box
plot para as temperaturas de São Paulo. CD-Poluição. R.
Figura 3.17 Gráfico
de simetria para as temperaturas de São Paulo. CD-Poluição. R.
3.8 Problemas Suplementares
14. Mostre que:
(a)
(b)
(c)
(d)
15. Usando os resultados da questão anterior, calcule as variâncias dos Problemas 1 e 2 deste capítulo.
16. Os dados abaixo representam as vendas semanais, em classes de salários mínimos, de vendedores de gêneros alimentícios:
Vendas semanais
Nº de vendedores
30
35
2
35
40
10
40
45
18
45
50
50
50
55
70
55
60
30
60
65
18
65
70
2
(a) Faça o histograma das observações.
(b) Calcule a média da amostra, x.
(c) Calcule o desvio padrão da amostra, s.
(d) Qual a porcentagem das observações compreendidas entre x - 2s e x + 2s?
(e) Calcule a mediana.
17. Considere o CD-Municípios e tome somente os 15 maiores, relativamente à sua população. Calcule q(0, 1), q(0, 2), q1, q2, q3
usando (3.20).
18. O número de divórcios na cidade, de acordo com a duração do casamento, está representado na tabela abaixo.
(a) Qual a duração média dos casamentos? E a mediana?
(b) Encontre a variância e o desvio padrão da duração dos casamentos.
(c) Construa o histograma da distribuição.
(d) Encontre o 1º e o 9º decis.
(e) Qual o intervalo interquantil?
Anos de casamento
Nº de divórcios
0
6
2.800
6
12
1.400
12
18
600
18
24
150
24
30
50
19. O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo,
obtendo os resultados (em salários mínimos) da tabela abaixo.
(a) Esboce o histograma correspondente.
(b) Calcule a média, a variância e o desvio padrão.
(c) Calcule o 1º quartil e a mediana.
Faixa salarial
Frequência relativa
0
2
0,25
2
4
0,40
4
6
0,20
6
10
0,15
(d) Se for concedido um aumento de 100% para todos os 120 funcionários, haverá alteração na média? E na variância?
Justifique sua resposta.
(e) Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, haverá alteração na média? E na
variância? E na mediana? Justifique sua resposta.
20. O que acontece com a mediana, a média e o desvio padrão de uma série de dados quando:
(a) cada observação é multiplicada por 2?
(b) soma-se 10 a cada observação?
(c) subtrai-se a média geral x de cada observação?
(d) de cada observação subtrai-se x e divide-se pelo desvio padrão dp(x)?
21. Na companhia A, a média dos salários é 10.000 unidades e o 3º quartil é 5.000.
(a) Se você se apresentasse como candidato a funcionário nessa firma e se o seu salário fosse escolhido ao acaso entre todos os
possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 unidades?
(b) Suponha que, na companhia B, a média dos salários seja 7.000 unidades, a variância praticamente zero e o salário também
seja escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego?
22. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será feito por
meio de uma amostra. Para determinar que tamanho deverá ter essa amostra, foi colhida uma amostra-piloto. As idades
observadas foram: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.
(a) Determine as medidas descritivas dos dados que você conhece.
(b) Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra? Por quê?
23. Estudando-se o consumo diário de leite, verificou-se que, em certa região, 20% das famílias consomem até um litro, 50%
consomem entre um e dois litros, 20% consomem entre dois e três litros e o restante consome entre três e cinco litros. Para a
variável em estudo:
(a) Escreva as informações acima na forma de uma tabela de frequências.
(b) Construa o histograma.
(c) Calcule a média e a mediana.
(d) Calcule a variância e o desvio padrão.
(e) Qual o valor do 1º quartil?
24. A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada
na tabela abaixo:
Faixa salarial (× 10 salários mínimos)
Frequência
0
2
10.000
2
4
3.900
4
6
2.000
6
8
1.100
8
10
800
10
12
700
12
14
2.000
Total
20.500
(a) Construa um histograma da distribuição.
(b) Qual a média e o desvio padrão da variável salário?
(c) O bairro B apresenta, para a mesma variável, uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a
população é mais homogênea quanto à renda?
(d) Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10% mais ricos da população do bairro.
(e) Qual a “riqueza total” dos moradores do bairro?
25. Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o 1º quartil.
26. Em uma granja foi observada a distribuição dos frangos em relação ao peso, que era a seguinte:
Peso (gramas)
960
980
ni
980
60
1.000
160
1.000
1.020
280
1.020
1.040
260
1.040
1.060
160
1.060
1.080
80
(a) Qual a média da distribuição?
(b) Qual a variância da distribuição?
(c) Construa o histograma.
(d) Queremos dividir os frangos em quatro categorias, em relação ao peso, de modo que:
— os 20% mais leves sejam da categoria D;
— os 30% seguintes sejam da categoria C;
— os 30% seguintes sejam da categoria B;
— os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A.
Quais os limites de peso entre as categorias A, B, C e D?
(e) O granjeiro decide separar desse lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem
ração reforçada, e também separar os animais com peso superior a um e meio desvio padrão acima da média para usá-los como
reprodutores.
Qual a porcentagem de animais que serão separados em cada caso?
27. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22 anos. Como
esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a
campanha foi ou não eficiente, fez-se um levantamento da idade dos candidatos à última promoção, e os resultados estão na
tabela a seguir.
Frequência
Porcentagem
18
Idade
20
18
36
20
22
12
24
22
26
10
20
26
30
8
16
30
36
2
4
50
100
Total
(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a idade média)?
(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença x − 22 fosse maior que o valor
, então a
campanha teria surtido efeito. Qual a conclusão dele, baseada nos dados?
(c) Faça o histograma da distribuição.
28. Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas amostras aleatórias das ações
negociadas. Para cada ação selecionada, computou-se a porcentagem de lucro apresentada durante um período fixado de tempo.
Os dados estão a seguir.
Que tipo de informação revelam esses dados? (Sugestão: use a análise proposta nas Seções 3.3 e 3.4.)
29. Para verificar a homogeneidade das duas populações do problema anterior, um estatístico sugeriu que se usasse o quociente
, mas não disse qual decisão tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são
homogêneas ou não (var(X/A) = variância de X, para a corretora A; X = % de lucro)?
30. Faça um box plot para os dados da corretora A e um para os dados da corretora B. Compare os dois conjuntos de dados por
meio desses desenhos.
31. Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou não, adotou-se o seguinte teste: sejam
Caso |t| < 2, os desempenhos são semelhantes, caso contrário, são diferentes. Qual seria a sua conclusão? Aqui, nA é o número de
ações selecionadas da corretora A e nomenclatura análoga para nB.
32. Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante,
realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo:
Cidade
A
B
C
D
E
F
G
H
Investimento
20
16
14
8
19
15 14 16
I
J
19
18
Nesse caso, será considerado como investimento básico a média final das observações, calculada da seguinte maneira:
1. Obtém-se uma média inicial.
2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão, ou
inferiores à média inicial menos duas vezes o desvio padrão.
3. Calcula-se a média final com o novo conjunto de observações.
Qual o investimento básico que você daria como resposta?
Observação. O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito
diferente dos demais.
33. Estudando-se a distribuição das idades dos funcionários de duas repartições públicas, obtiveram-se algumas medidas que
estão no quadro abaixo. Esboce o histograma alisado das duas distribuições, indicando nele as medidas descritas no quadro.
Comente as principais diferenças entre os dois histogramas.
Repartição
Mínimo
1º Quartil
Mediana
Média
3º Quartil
Máximo
dp
A
18
27
33
33
39
48
5
B
18
23
32
33
42
48
10
34. Decidiu-se investigar a distribuição dos profissionais com nível universitário em duas regiões, A e B. As informações
pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos. Esboce a distribuição (histograma
alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas no quadro. Faça também uma descrição rápida
das principais diferenças observadas nos gráficos.
Região Média dp Mediana Moda
q1
q3
x(1)
x(n)
A
20,00 4,00
20,32
20,15 17,32 22,68 8,00 32,00
B
20,00 6,00
18,00
17,00 16,00 24,00 14,00 42,00
35. Construa um box plot para os dados do Problema 6, do Capítulo 2. Obtenha conclusões a respeito da distribuição, a partir
desse desenho.
36. Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a na variável quantitativa X,
definida do seguinte modo:
(a) Calcule x e var(X).
(b) Qual a interpretação de x?
(c) Construa um histograma para X.
37. No Problema 9, do Capítulo 2, temos os resultados de 25 funcionários em vários exames a que se submeteram. Sabe-se agora
que os critérios adotados em cada exame não são comparáveis, por isso decidiu-se usar o desempenho relativo em cada exame.
Essa medida será obtida do seguinte modo:
(I) Para cada exame serão calculados a média x e o desvio padrão dp(X).
(II) A nota X de cada aluno será padronizada do seguinte modo:
(a) Interprete o significado de Z.
(b) Calcule as notas padronizadas dos funcionários para o exame de Estatística.
(c) Com os resultados obtidos em (b), calcule –z e dp(Z).
(d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de –2dp(Z), esse funcionário deve ser considerado um
caso atípico. Existe algum nessa situação?
(e) O funcionário 1 obteve 9,0 em Direito, em Estatística e em Política. Em que disciplina o seu desempenho relativo foi
melhor?
38. Calcule o desvio absoluto mediano para as populações do CD-Brasil.
39. Calcule as principais medidas de posição e dispersão (incluindo a média aparada e o dam) para:
(a) variável CO no CD-Poluição;
(b) salários de mecânicos, CD-Salários; e
(c) variável preço, CD-Veículos.
40. Construa os histogramas, ramo-e-folhas e box plots para as variáveis do problema anterior.
41. Faça um gráfico de quantis e um de simetria para os dados do Problema 3. Os dados são simétricos? Comente.
42. Para o CD-Temperaturas e para a variável temperatura de Ubatuba, obtenha um gráfico de quantis e um gráfico de simetria.
Os dados são simétricos? Comente.
43. Use (3.21) para construir histogramas para:
(a) variável umid (umidade) do CD-Poluição;
(b) variável salário dos professores do CD-Salários; e
(c) a temperatura de Cananeia, do CD-Temperaturas.
44. Calcule A, dada por (3.22), para o Exemplo 3.5. Comente.
45. Calcule A para o Exemplo 3.8. Comente.
3.9 Complementos Metodológicos
1. Quantis. Para calcular os quantis de uma sequência de valores de uma variável X poderíamos usar a função de distribuição
acumulada ou empírica, definida no Problema 17 do Capítulo 2. Essa função fornece, para cada número real x, a proporção das
observações menores ou iguais a x. No Exemplo 3.5, temos
(3.16)
O gráfico de Fe(x) está na Figura 3.18. Note que não há nenhum valor de x tal que Fe(x) = 0,5 e Fe(2) = 1/9, Fe(3) = 2/9, ...,
Fe(15) = 1, ou seja, podemos escrever de modo geral
(3.17)
Em particular, Fe(md) = F(x(5)) = Fe(8) = 5/9 = 0,556. Portanto, ou mudamos nossa definição de mediana, ou Fe(.) não pode ser
usada para definir precisamente mediana ou, em geral, um quantil q(p).
Figura 3.18 Funções
de distribuição empírica (Fe) e f.d.e. alisada ( ˜Fe) para o Exemplo 3.5.
Mas vejamos que Fe(·) pode ser a base para tal definição. Considere “alisar” ou “suavizar”
Fe(·), como feito na Figura 3.18, de modo a obter uma curva contínua ˜Fe(x), que passa pelos
pontos (x(i), pi), em que
(3.18)
Observe que 0 < p1 < 1/9, 1/9 < p2 < 2/9 etc. Com esse procedimento, notamos que
ou seja, podemos escrever
(3.19)
sendo que no nosso caso n = 9. Com essa modificação, obtemos que
e(md) = e(8) = 0,5, e para cada
–1
e (p). Ou seja, considere uma reta
p, 0 < p < 1, podemos obter de modo unívoco o quantil q(p), tomando-se a função inversa
horizontal passando por p no eixo das ordenadas, até encontrar a curva contínua e depois baixe uma reta vertical até encontrar
q(p) no eixo das abscissas.
Uma maneira equivalente de proceder nos leva à seguinte definição para calcular q(p), para
qualquer p, 0 < p < 1.
Definição.
O p-quantil é definido por
(3.20)
em que
Notamos, então, que se p coincidir com a proporção pi, o quantil será a i-ésima observação,
x(i). Se pi < p < pi+1, o quantil estará no segmento de reta que une (pi, x(i)) e (pi+1, x(i+1)). De fato, a
reta passando por (pi, x(i)) e (p, q(p)) é
(continuação) Usando a definição obtemos:
q(0,1) = (0,6)x(1) + (0,4)x(2) = (0,6)(2) + (0,4)(3) = 2,4;
Exemplo 3.5
q(0,2) = (0,7)x(2) + (0,3)x(3) = (0,7)(3) + (0,3)(5) = 3,6;
q(0,25) = (0,25)x(2) + 0,75x(3) = 4,5;
q(0,5) = x(5) = 8;
q(0,75) = (0,75)x(7) + (0,25)x(8) = (0,75)(11) + (0,25)(12) = 11,25.
2. Média aparada. Se 0 < α < 1, uma média aparada a 100α% é obtida eliminando l00α% das menores observações e 100α% das
maiores observações e calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10 observações ordenadas x(1) <
x(2) < … < x(10), a média aparada a 10% é
Se α = 0,25, x (0,25) é chamada meia-média.
Calcule a média aparada a 10% e 25% para os dados de salários da Tabela 2.1.
3. Coeficiente de variação. Como vimos na Seção 3.3, o desvio padrão é bastante afetado pela magnitude dos dados, ou seja, ele
não é uma medida resistente. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de
variação, que é definido como a razão entre o desvio padrão, S, e a média amostral e usualmente expresso em porcentagem:
Calcule o coeficiente de variação para as regiões A e B e do Problema 35 e comente o resultado.
4. Desvio absoluto mediano. Esta é uma medida de dispersão dos dados x1, ..., xn, definida por:
dam = med1 ≤ j ≤ n|xj - med1 ≤ i ≤ n(xi)|.
Ou seja, calculamos a mediana dos dados, depois os desvios absolutos dos dados em relação à mediana e, finalmente, a mediana
desses desvios absolutos. Vamos considerar os dados abaixo, extraídos de Graedel e Kleiner (1985) e que representam
velocidades do vento no aeroporto da Filadélfia (EUA) para os primeiros 15 dias de dezembro de 1974. Vemos que há uma
observação muito diferente das demais (61,1), mas que representa um dado real: no dia 2 de dezembro houve uma
tempestade forte com chuva e vento.
22,2
61,1
13,0
27,8
22,2
7,4
7,4
7,4
20,4
20,4
20,4
11,1
13,0
7,4
14,8
Calculando-se as medidas de posição e dispersão estudadas, obtemos:
x = 18,4, x(0,20) = 15,8;
md = 14,8, q1 = 8,3, q3 = 21,8;
dq = 14,8, dam = 7,4, dp(X) = 13,5.
Observemos que, retirando-se o valor atípico 61,1, a média passa a ser 15,3 e o desvio padrão 6,8, valor este mais próximo do
dam.
5. O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram
selecionados. Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional
desconhecida.
Considere as distâncias entre o histograma e a densidade. Suponha que queiramos determinar a amplitude de classe ∆ do
histograma de modo a minimizar a maior distância (em valor absoluto). Freedman e Diaconis (1981) mostraram que o valor de ∆
é dado aproximadamente por
em que ˜S é um estimador robusto do desvio padrão populacional. Por exemplo, podemos tomar
em que dq = q3 - q1 é a distância interquartil, devido ao fato de, numa distribuição normal, dq = 1, 349σ, sendo o σ o desvio
padrão. Segue-se que ∆ é dado por
(3.21)
Usando esse resultado, o número de classes a considerar num histograma é obtido por meio de
.
6. Medida de assimetria. Pelas observações feitas para variáveis simétricas na Seção 3.3, podemos definir a medida
(3.22)
Se a distribuição for simétrica, o numerador de A é zero e, portanto, A = 0.
Capítulo 4
Análise Bidimensional
4.1 Introdução
Até agora vimos como organizar e resumir informações pertinentes a uma única variável (ou a
um conjunto de dados), mas frequentemente estamos interessados em analisar o comportamento
conjunto de duas ou mais variáveis aleatórias. Os dados aparecem na forma de uma matriz,
usualmente com as colunas indicando as variáveis e as linhas os indivíduos (ou elementos). A
Tabela 4.1 mostra a notação de uma matriz com p variáveis X1, X2, ..., Xp e n indivíduos,
totalizando np dados. A Tabela 2.1, com os dados hipotéticos da Companhia MB, é uma
ilustração numérica de uma matriz 36 × 7.
O principal objetivo das análises nessa situação é explorar relações (similaridades) entre as
colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma variável que estudamos,
a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do
comportamento dos dados.
Neste capítulo, iremos nos deter no caso de duas variáveis ou dois conjuntos de dados. Na
Seção 4.8, daremos dois exemplos do caso de três variáveis.
Tabela 4.1 Tabela
de dados.
Variável
Indivíduo
X1
X2
...
Xj
...
Xp
1
x11
x12
...
x1j
...
x1p
2
x21
x22
...
x2j
...
x2p
M
M
M
i
xi1
xi2
M
M
M
n
xn1
xn2
M
...
xij
M
...
xip
...
xnp
M
...
xnj
M
Em algumas situações, podemos ter dois (ou mais) conjuntos de dados provenientes da
observação da mesma variável. Por exemplo, podemos ter um conjunto de dados {x1, ..., xn}, que
são as temperaturas na cidade A, durante n meses, e outro conjunto de dados {y1, ..., yn}, que são
as temperaturas da cidade B, nos mesmos meses. Para efeito de análise, podemos considerar que
o primeiro conjunto são observações da variável X: temperatura na cidade A, enquanto o
segundo conjunto são observações da variável Y: temperatura na cidade B. Este é o caso do CDTemperaturas. Também poderíamos usar uma variável X para indicar a temperatura e outra
variável, L, para indicar se a observação pertence à região A ou B. Na Tabela 2.1, podemos estar
interessados em comparar os salários dos casados e solteiros. Uma reordenação dos dados
poderia colocar os casados nas primeiras posições e os solteiros nas últimas, e nosso objetivo
passaria a ser comparar, na coluna de salários (variável S), o comportamento de S na parte
superior com a inferior. A escolha da apresentação de um ou outro modo será ditada
principalmente pelo interesse e técnicas de análise à disposição do pesquisador.
No CD-Brasil, temos três variáveis: superfície, população e densidade populacional. No CDPoluição, temos quatro variáveis: quantidade de monóxido de carbono, ozônio, temperatura do ar
e umidade relativa do ar.
Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações:
(a) as duas variáveis são qualitativas;
(b) as duas variáveis são quantitativas; e
(c) uma variável é qualitativa e outra é quantitativa.
As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são
qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de contingência), em que
aparecerão as frequências absolutas ou contagens de indivíduos que pertencem simultaneamente
a categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações
são provenientes de mensurações, e técnicas como gráficos de dispersão ou de quantis são
apropriadas. Quando temos uma variável qualitativa e outra quantitativa, em geral, analisamos o
que acontece com a variável quantitativa quando os dados são categorizados de acordo com os
diversos atributos da variável qualitativa. Mas podemos ter também o caso de duas variáveis
quantitativas agrupadas em classes. Por exemplo, podemos querer analisar a associação entre
renda e consumo de certo número de famílias e, para isso, agrupamos as famílias em classes de
rendas e classes de consumo. Desse modo, recaímos novamente numa tabela de dupla entrada.
Contudo, em todas as situações, o objetivo é encontrar as possíveis relações ou associações
entre as duas variáveis. Essas relações podem ser detectadas por meio de métodos gráficos e
medidas numéricas. Para efeitos práticos (e a razão ficará mais clara após o estudo de
probabilidades), iremos entender a existência de associação como a mudança de opinião sobre o
comportamento de uma variável na presença ou não de informação sobre a segunda variável.
Ilustrando: existe relação entre a altura de pessoas e o sexo (homem ou mulher) em dada
comunidade? Pode-se fazer uma primeira pergunta: qual a frequência esperada de uma pessoa
dessa população ter, digamos, mais de 170 cm de altura? E também uma segunda: qual a
frequência esperada de uma mulher (ou homem) ter mais de 170 cm de altura? Se a resposta para
as duas perguntas for a mesma, diríamos que não há associação entre as variáveis altura e sexo.
Porém, se as respostas forem diferentes, isso significa uma provável associação, e devemos
incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das
variáveis. No exemplo em questão, você acha que existe associação entre as variáveis?
4.2 Variáveis Qualitativas
Para ilustrar o tipo de análise, consideremos o exemplo a seguir.
Suponha que queiramos analisar o comportamento conjunto das variáveis Y: grau de
instrução e V: região de procedência, cujas observações estão contidas na Tabela 2.1. A
distribuição de frequências é representada por uma tabela de dupla entrada e está na Tabela 4.2.
Cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas de Y
e V. Assim, observamos quatro indivíduos da capital com ensino fundamental, sete do interior
Exemplo 4.1
com ensino médio etc.
A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais
fornece a distribuição da variável V. As distribuições assim obtidas são chamadas tecnicamente
de distribuições marginais, enquanto a Tabela 4.2 constitui a distribuição conjunta de Y e V.
Tabela 4.2 Distribuição
conjunta das frequências das variáveis grau de instrução (Y) e região de procedência (V).
VY
Ensino Fundamental
Ensino Médio
Superior
Total
Capital
4
5
2
11
Interior
3
7
2
12
Outra
5
6
2
13
Total
12
18
6
36
Fonte: Tabela 2.1.
Em vez de trabalharmos com as frequências absolutas, podemos construir tabelas com as
frequências relativas (proporções), como foi feito no caso unidimensional. Mas aqui existem três
possibilidades de expressarmos a proporção de cada casela:
(a) em relação ao total geral;
(b) em relação ao total de cada linha;
(c) ou em relação ao total de cada coluna.
De acordo com o objetivo do problema em estudo, uma delas será a mais conveniente.
A Tabela 4.3 apresenta a distribuição conjunta das frequências relativas, expressas como
proporções do total geral. Podemos, então, afirmar que 11% dos empregados vêm da capital e
têm o ensino fundamental. Os totais nas margens fornecem as distribuições unidimensionais de
cada uma das variáveis. Por exemplo, 31% dos indivíduos vêm da capital, 33% do interior e 36%
de outras regiões. Observe que, devido ao problema de aproximação das divisões, a distribuição
das proporções introduz algumas diferenças não existentes. Compare, por exemplo, as colunas de
instrução superior nas Tabelas 4.2 e 4.3.
A Tabela 4.4 apresenta a distribuição das proporções em relação ao total das colunas.
Podemos dizer que, entre os empregados com instrução até o ensino fundamental, 33% vêm da
capital, ao passo que entre os empregados com ensino médio, 28% vêm da capital. Esse tipo de
tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de
instrução.
Tabela 4.3 Distribuição
conjunta das proporções (em porcentagem) em relação ao total geral das variáveis Y e V definidas
no texto.
VY
Fundamental
Médio
Superior
Total
Capital
11%
14%
6%
31%
Interior
8%
19%
6%
33%
Outra
14%
17%
5%
36%
Total
33%
50%
17%
100%
Fonte: Tabela 4.2.
Tabela 4.4 Distribuição
V definidas no texto.
conjunta das proporções (em porcentagem) em relação aos totais de cada coluna das variáveis Y e
VY
Fundamental
Médio
Superior
Total
Capital
33%
28%
33%
31%
Interior
25%
39%
33%
33%
Outra
42%
33%
34%
36%
Total
100%
100%
100%
100%
Fonte: Tabela 4.2.
De modo análogo, podemos construir a distribuição das proporções em relação ao total das
linhas. Aconselhamos o leitor a construir essa tabela.
A comparação entre as duas variáveis também pode ser feita utilizando-se representações
gráficas. Na Figura 4.1, apresentamos uma possível representação para os dados da Tabela 4.4.
Figura 4.1 Distribuição
da região de procedência por grau de instrução.
Problemas
1. Usando os dados da Tabela 2.1, Capítulo 2:
(a) Construa a distribuição de frequência conjunta para as variáveis grau de instrução e região de procedência.
(b) Qual a porcentagem de funcionários que têm o ensino médio?
(c) Qual a porcentagem daqueles que têm o ensino médio e são do interior?
(d) Dentre os funcionários do interior, quantos por cento têm o ensino médio?
2. No problema anterior, sorteando um funcionário ao acaso entre os 36:
(a) Qual será provavelmente o seu grau de instrução?
(b) E sua região de procedência?
(c) Qual a probabilidade do sorteado ter nível superior?
(d) Sabendo que o sorteado é do interior, qual a probabilidade de ele possuir nível superior?
(e) Sabendo que o escolhido é da capital, qual a probabilidade de ele possuir nível superior?
3. Numa pesquisa sobre rotatividade de mão de obra, para uma amostra de 40 pessoas foram observadas duas variáveis: número
de empregos nos últimos dois anos (X) e salário mais recente, em número de salários mínimos (Y). Os resultados foram:
Indivíduo
X
Y
Indivíduo
X
Y
1
1
6
21
2
4
2
3
2
22
3
2
3
2
4
23
4
1
4
3
1
24
1
5
5
2
4
25
2
4
6
2
1
26
3
2
7
3
3
27
4
1
8
1
5
28
1
5
9
2
2
29
4
4
10
3
2
30
3
3
11
2
5
31
2
2
12
3
2
32
1
1
13
1
6
33
4
1
14
2
6
34
2
6
15
3
2
35
4
2
16
4
2
36
3
1
17
1
5
37
1
4
18
2
5
38
3
2
19
2
1
39
2
3
20
2
1
40
2
5
(a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a
distribuição de frequências conjunta das duas classificações.
(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco?
(c) Qual a porcentagem das pessoas que ganham pouco?
(d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco?
(e) A informação adicional dada em (d) mudou muito a porcentagem observada em (c)? O que isso significa?
4.3 Associação entre Variáveis Qualitativas
Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis
qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de dependência
entre elas, de modo que possamos prever melhor o resultado de uma delas quando conhecermos
a realização da outra.
Por exemplo, se quisermos estimar qual a renda média de uma família moradora da cidade de
São Paulo, a informação adicional sobre a classe social a que ela pertence nos permite estimar
com maior precisão essa renda, pois sabemos que existe uma dependência entre as duas
variáveis: renda familiar e classe social. Ou, ainda, suponhamos que uma pessoa seja sorteada ao
acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa. Como a
proporção de pessoas de cada sexo é aproximadamente a mesma, o resultado desse exercício de
adivinhação poderia ser qualquer um dos sexos: masculino ou feminino. Mas se a mesma
pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica,
então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino. Ou seja, há
um grau de dependência grande entre as variáveis sexo e ramo de atividade.
Vejamos como podemos identificar a associação entre duas variáveis da distribuição conjunta.
Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por
200 alunos de Economia e Administração. Esses dados estão na Tabela 4.5.
Exemplo 4.2
Tabela 4.5 Distribuição
conjunta de alunos segundo o sexo (X) e o curso escolhido (Y).
YX
Masculino
Feminino
Total
Economia
85
35
120
Administração
55
25
80
Total
140
60
200
Fonte: Dados hipotéticos.
Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à diferença
entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas ou as colunas
para podermos fazer comparações. Fixemos os totais das colunas; a distribuição está na Tabela
4.6.
Tabela 4.6 Distribuição
conjunta das proporções (em porcentagem) de alunos segundo o sexo (X) e o curso escolhido (Y).
YX
Masculino
Feminino
Total
Economia
61%
58%
60%
Administração
39%
42%
40%
Total
100%
100%
100%
Fonte: Tabela 4.5.
A partir dessa tabela podemos observar que, independentemente do sexo, 60% das pessoas
preferem Economia e 40% preferem Administração (observe na coluna de total). Não havendo
dependência entre as variáveis, esperaríamos essas mesmas proporções para cada sexo.
Observando a tabela, vemos que as proporções do sexo masculino (61% e 39%) e do sexo
feminino (58% e 42%) são próximas das marginais (60% e 40%). Esses resultados parecem
indicar não haver dependência entre as duas variáveis, para o conjunto de alunos considerado.
Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem ser não
associadas.
Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de Física e
Ciências Sociais, cuja distribuição conjunta está na Tabela 4.7.
Tabela 4.7 Distribuição
conjunta das frequências e proporções (em porcentagem), segundo o sexo (X) e o curso escolhido
(Y).
YX
Masculino
Feminino
Total
Física
100 (71%)
20 (33%)
120 (60%)
Ciências Sociais
40 (29%)
40 (67%)
80 (40%)
Total
140 (100%)
60 (100%)
200 (100%)
Fonte: Dados hipotéticos.
Inicialmente, convém observar que, para economizar espaço, resumimos duas tabelas numa
única, indicando as proporções em relação aos totais das colunas entre parênteses. Comparando
agora a distribuição das proporções pelos cursos, independentemente do sexo (coluna de totais),
com as distribuições diferenciadas por sexo (colunas de masculino e feminino), observamos uma
disparidade bem acentuada nas proporções. Parece, pois, haver maior concentração de homens
no curso de Física e de mulheres no de Ciências Sociais. Portanto, nesse caso, as variáveis sexo e
curso escolhido parecem ser associadas.
Quando existe associação entre variáveis, sempre é interessante quantificar essa associação, e
isso será objeto da próxima seção. Antes de passarmos a discutir esse aspecto, convém observar
que teríamos obtido as mesmas conclusões do Exemplo 4.2 se tivéssemos calculado as
proporções, mantendo constantes os totais das linhas.
Problemas
4. Usando os dados do Problema 1, responda:
(a) Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência?
(b) Baseado no resultado anterior e no Problema 2, você diria que existe dependência entre a região de procedência e o nível de
educação do funcionário?
5. Usando o Problema 3, verifique se há relações entre as variáveis rotatividade e salário.
6. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o
hospital. Os resultados foram:
Homens
Mulheres
Usaram o hospital
100
150
Não usaram o hospital
900
850
(a) Calcule a proporção de homens entre os indivíduos que usaram o hospital.
(b) Calcule a proporção de homens entre os indivíduos que não usaram o hospital.
(c) O uso do hospital independe do sexo do segurado?
4.4 Medidas de Associação entre Variáveis Qualitativas
De modo geral, a quantificação do grau de associação entre duas variáveis é feita pelos
chamados coeficientes de associação ou correlação. Essas são medidas que descrevem, por meio
de um único número, a associação (ou dependência) entre duas variáveis. Para facilitar a
compreensão, esses coeficientes usualmente variam entre 0 e 1, ou entre -1 e +1, e a proximidade
de zero indica falta de associação.
Existem muitas medidas que quantificam a associação entre variáveis qualitativas,
apresentaremos apenas duas delas: o chamado coeficiente de contingência, devido a K. Pearson e
uma modificação desse.
Queremos verificar se a criação de determinado tipo de cooperativa está associada
com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8.
Exemplo 4.3
Tabela 4.8 Cooperativas
autorizadas a funcionar por tipo e estado, junho de 1974.
Tipo de Cooperativa
Estado
Total
Consumidor
Produtor
Escola
Outras
São Paulo
214 (33%)
Paraná
51 (17%)
237 (37%)
78 (12%)
119 (18%)
648 (100%)
102 (34%)
126 (42%)
22 (7%)
Rio G. do Sul
301 (100%)
111 (18%)
304 (51%)
139 (23%)
48 (8%)
602 (100%)
Total
376 (24%)
643 (42%)
343 (22%)
189 (12%)
1.551 (100%)
Fonte: Sinopse Estatística da Brasil — IBGE, 1977.
A análise da tabela mostra a existência de certa dependência entre as variáveis. Caso não
houvesse associação, esperaríamos que em cada estado tivéssemos 24% de cooperativas de
consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% de outros tipos. Então,
por exemplo, o número esperado de cooperativas de consumidores no Estado de São Paulo seria
648 × 0,24 = 157 e no Paraná seria 301 × 0,24 = 73 (ver Tabela 4.9).
Tabela 4.9 Valores
esperados na Tabela 4.8 assumindo a independência entre as duas variáveis.
Tipo de Cooperativa
Estado
Total
Consumidor
Produtor
Escola
Outras
São Paulo
157 (24%)
269 (42%)
143 (22%)
79 (12%)
648 (100%)
Paraná
73 (24%)
124 (42%)
67 (22%)
37 (12%)
301 (100%)
Rio G. do Sul
146 (24%)
250 (42%)
133 (22%)
73 (12%)
602 (100%)
Total
376 (24%)
643 (42%)
343 (22%)
189 (12%)
1.551 (100%)
Fonte: Tabela 4.8.
Tabela 4.10 Desvios
entre observados e esperados.
Tipo de Cooperativa
Estado
Consumidor
Produtor
Escola
Outras
São Paulo
57 (20,69)
–32 (3,81)
–65 (29,55)
40 (20,25)
Paraná
–22 (6,63)
–22 (3,90)
59 (51,96)
–15 (6,08)
Rio G. do Sul
–35 (8,39)
54 (11,66)
6 (0,27)
–25 (8,56)
Fonte: Tabelas 4.8 e 4.9.
Comparando as duas tabelas, podemos verificar as discrepâncias existentes entre os valores
observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as variáveis não fossem
associadas. Na Tabela 4.10 resumimos os desvios: valores observados menos valores esperados.
Observando essa tabela podemos tirar algumas conclusões:
(i) A soma total dos resíduos é nula. Isso pode ser verificado facilmente somando-se cada
linha.
(ii) A casela Escola-São Paulo é aquela que apresenta o maior desvio da suposição de nãoassociação (–65). Nessa casela esperávamos 143 casos. A casela Escola-Paraná também tem
um desvio alto (59), mas o valor esperado é bem menor (67). Portanto, se fôssemos
considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior.
Uma maneira de observar esse fato é construir, para cada casela, a medida
(4.1)
no qual oi é o valor observado e ei é o valor esperado.
Usando (4.1) para a casela Escola-São Paulo obtemos (-65)2/143 = 29,55 e para a casela
Escola-Paraná obtemos (59)2/67 = 51,96, o que é uma indicação de que o desvio devido a essa
última casela é “maior” do que aquele da primeira. Na Tabela 4.10, indicamos entre parênteses
esses valores para todas as caselas.
Uma medida do afastamento global pode ser dada pela soma de todas as medidas (4.1). Essa
medida é denominada χ2 (qui-quadrado) de Pearson, e no nosso exemplo teríamos
χ2 = 20,69 + 6,63 + ... + 8,56 = 171,76.
Um valor grande de χ2 indica associação entre as variáveis, o que parece ser o caso.
Antes de dar uma fórmula geral para essa medida de associação, vamos introduzir, na Tabela
4.11, uma notação geral para tabelas de dupla entrada.
Tabela 4.11 Notação
para tabelas de contingência.
XY
B1
B2
...
Bj
...
Bs
Total
A1
n11
n12
...
n1j
...
n1s
n1.
A2
n21
n22
...
n2j
...
n2s
n2.
M
M
M
M
M
M
M
M
Ai
ni1
ni2
...
nij
...
nis
ni.
M
M
M
M
M
M
M
M
Ar
nr1
nr2
...
nrj
...
nrs
nr.
Total
n.1
n.2
...
n.j
...
n.s
n..
Suponha que temos duas variáveis qualitativas X e Y, classificadas em r categorias A1, A2, ...,
Ar para X e s categorias B1, B2, ..., Bs, para Y.
Na tabela, temos:
nij = número de elementos pertencentes à i-ésima categoria de X e j-ésima categoria de Y;
= número de elementos da i-ésima categoria de X;
= número de elementos da j-ésima categoria de Y;
= número total de elementos.
Sob a hipótese de que as variáveis X e Y não sejam associadas (comumente dizemos
independentes), temos que
(4.2)
ou ainda
de onde se deduz, finalmente, que
(4.3)
Portanto, sob a hipótese de independência, de (4.3) segue que, em termos de frequências
relativas, podemos escrever fij = fi.f.j.
Chamando de frequências esperadas os valores dados pelos segundos membros de (4.3), e
denotando-as por n*ij, temos que o qui-quadrado de Pearson pode ser escrito
(4.4)
em que nij são os valores efetivamente observados. Se a hipótese de não associação for
verdadeira, o valor calculado de (4.4) deve estar próximo de zero. Se as variáveis forem
associadas, o valor de χ2 deve ser grande.
Podemos escrever a fórmula (4.4) em termos de frequências relativas, como
para a qual as notações são similares.
Para fazer comparações, seria útil ter uma medida que varie num intervalo limitado, como
(0,1), por exemplo, zero indicando independência e um, dependência completa.
Pearson definiu uma medida de associação, baseada em (4.4), chamada coeficiente de
contingência, dada por
depende de r e s.
(4.5)
Contudo, esse coeficiente pode não atingir o valor máximo igual um, no caso de dependência
completa e o valor máximo depende r e s. Pode-se demonstrar que, quando r = s, o valor máximo
de C é
Um coeficiente, sugerido por Tschuprov, pode atingir o máximo igual a 1, se r = s. Este é dado
por
(4.6)
Outra medida de associação foi proposta por Cramér, dada por
(4.7)
onde q = min (r, s).
Para o Exemplo 4.3, temos que C = 0, 32, T = 0, 21 e V = 0, 24. Voltaremos a falar do uso do
χ2 no Capítulo 14.
Vejamos um exemplo em que há dependência completa e deveremos obter T = 1. Suponha X =
Y e r = s = 2, com n observações distribuídas segundo a tabela abaixo:
X
X
A1 A2
Total
A1
n/2 0
n/2
A2
0 n/2
n/2
Total
n/2 n/2
n
É fácil ver que todos os valores esperados são iguais a n/4 e o valor calculado do qui-quadrado
será χ2 = n, do que resulta T = 1.
Para outros exemplos, veja os Problemas 39 e 40.
Problemas
7. Usando os dados do Problema 1, calcule o valor de χ2 e o coeficiente de contingência C. Esses valores estão de acordo com as
conclusões obtidas anteriormente?
8. Qual o valor de χ2 e de C para os dados do Problema 3? E para o Problema 6? Calcule T.
9. A Companhia A de dedetização afirma que o processo por ela utilizado garante um efeito mais prolongado do que aquele
obtido por seus concorrentes mais diretos. Uma amostra de vários ambientes dedetizados foi colhida e anotou-se a duração
do efeito de dedetização. Os resultados estão na tabela abaixo. Você acha que existe alguma evidência a favor ou contra a
afirmação feita pela Companhia A?
Duração do efeito de dedetização
Companhia
Menos de 4 meses
De 4 a 8 meses
Mais de 8 meses
A
64
120
16
B
104
175
21
C
27
48
5
4.5 Associação entre Variáveis Quantitativas
Quando as variáveis envolvidas são ambas do tipo quantitativo, pode-se usar o mesmo tipo de
análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas. De modo
análogo, a distribuição conjunta pode ser resumida em tabelas de dupla entrada e, por meio das
distribuições marginais, é possível estudar a associação das variáveis. Algumas vezes, para evitar
um grande número de entradas, agrupamos os dados marginais em intervalos de classes, de modo
semelhante ao resumo feito no caso unidimensional. Mas, além desse tipo de análise, as variáveis
quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados.
Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas,
ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos introduzir por meio de
exemplos.
Na Figura 4.2, temos o gráfico de dispersão das variáveis X e Y da Tabela 4.12. Nesse
tipo de gráfico, temos os possíveis pares de valores (x, y), na ordem que aparecem. Para o
exemplo, vemos que parece haver uma associação entre as variáveis, porque no conjunto, a
medida que aumenta o tempo de serviço, aumenta o número de clientes.
Exemplo 4.4
Tabela 4.12 Número
de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros.
Agente
Anos de serviço (X)
Número de clientes (Y)
A
2
48
B
3
50
C
4
56
D
5
52
E
4
43
F
6
60
G
7
62
H
8
58
I
8
64
J
10
72
Fonte: Dados hipotéticos.
Figura 4.2 Gráfico
de dispersão para as variáveis X: anos de serviço e Y: número de clientes.
Consideremos os dados das variáveis X: população urbana e Y: população rural, no
Brasil, em 1996. O gráfico de dispersão está na Figura 4.3. Vemos que parece não haver
associação entre as variáveis, pois os pontos não apresentam nenhuma tendência particular.
Exemplo 4.5
Figura 4.3 Gráfico
Exemplo 4.6
de dispersão para as variáveis X: população urbana e Y: população rural.
Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão.
(a) Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários
mínimos, mediram-se:
X: renda bruta mensal (expressa em número de salários mínimos).
Y: a porcentagem da renda bruta anual gasta com assistência médica; os dados estão na Tabela
4.13. Observando o gráfico de dispersão (Figura 4.4), vemos que existe uma associação
“inversa”, isto é, aumentando a renda bruta, diminui a porcentagem sobre ela gasta em
assistência médica.
Antes de passarmos ao exemplo seguinte, convém observar que a disposição dos dados da
Tabela 4.13 numa tabela de dupla entrada não iria melhorar a compreensão dos dados, visto
que, devido ao pequeno número de observações, teríamos caselas cheias apenas na
diagonal.
Tabela 4.13 Renda
bruta mensal (X) e porcentagem da renda gasta em saúde (Y) para um conjunto de famílias.
Família
X
Y
A
12
7,2
B
16
7,4
C
18
7,0
D
20
6,5
E
28
6,6
F
30
6,7
G
40
6,0
H
48
5,6
I
50
6,0
J
54
5,5
Fonte: Dados hipotéticos.
Figura 4.4 Gráfico
de dispersão para as variáveis X: renda bruta e Y: % renda gasta com saúde.
(b) Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e,
em seguida, mediu-se o tempo gasto para cada um aprender a operar uma determinada
máquina. As variáveis medidas foram:
X: resultado obtido no teste (máximo = 100 pontos);
Y: tempo, em minutos, necessário para operar a máquina satisfatoriamente.
Os dados estão na Tabela 4.14. Do gráfico de dispersão (Figura 4.5) concluímos que parece
não haver associação entre as duas variáveis, pois conhecer o resultado do teste não ajuda a
prever o tempo gasto para aprender a operar a máquina.
Tabela 4.14 Resultado
de um teste (X) e tempo de operação de máquina (Y) para oito indivíduos.
Indivíduo
X
Y
A
45
343
B
52
368
C
61
355
D
70
334
E
74
337
F
76
381
G
80
345
H
90
375
Fonte: Dados hipotéticos.
Figura 4.5 Gráfico
de dispersão para as variáveis X: resultado no teste e Y: tempo de operação.
A partir dos gráficos apresentados, verificamos que a representação gráfica das variáveis
quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à
existência ou não de associação entre elas.
Contudo, é muito útil quantificar esta associação. Existem muitos tipos de associações
possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear. Isto é, iremos
definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproxima-se
de uma reta. Esta medida será definida de modo a variar num intervalo finito, especificamente,
de -1 a +1.
Consideremos um gráfico de dispersão como o da Figura 4.6 (a) no qual, por meio de uma
transformação conveniente, a origem foi colocada no centro da nuvem de dispersão. Aqueles
dados possuem uma associação linear direta (ou positiva) e notamos que a grande maioria dos
pontos está situada no primeiro e terceiro quadrantes. Nesses quadrantes as coordenadas dos
pontos têm o mesmo sinal, e, portanto, o produto delas será sempre positivo. Somando-se o
produto das coordenadas dos pontos, o resultado será um número positivo, pois existem mais
produtos positivos do que negativos.
Figura 4.6 Tipos
de associações entre duas variáveis.
Para a dispersão da Figura 4.6 (b), observamos uma dependência linear inversa (ou negativa)
e, procedendo-se como anteriormente, a soma dos produtos das coordenadas será negativa.
Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas será zero, pois cada
resultado positivo tem um resultado negativo simétrico, anulando-se na soma. Nesse caso, não há
associação linear entre as duas variáveis. Em casos semelhantes, quando a distribuição dos
pontos for mais ou menos circular, a soma dos produtos será aproximadamente zero.
Baseando-se nesses fatos é que iremos definir o coeficiente de correlação (linear) entre duas
variáveis, que é uma medida do grau de associação entre elas e também da proximidade dos
dados a uma reta. Antes, cabe uma observação. A soma dos produtos das coordenadas depende, e
muito, do número de pontos. Considere o caso de associação positiva: a soma acima tende a
aumentar com o número de pares (x, y) e ficaria difícil comparar essa medida para dois conjuntos
com números diferentes de pontos. Por isso, costuma-se usar a média da soma dos produtos das
coordenadas.
Voltemos aos dados da Tabela 4.12. O primeiro problema que devemos resolver é o da
mudança da origem do sistema para o centro da nuvem de dispersão. Um ponto conveniente é (x,
y), ou seja, as coordenadas da origem serão as médias dos valores de X e Y. As novas
coordenadas estão mostradas na quarta e quinta colunas da Tabela 4.15.
Observando esses valores centrados, verificamos que ainda existe um problema quanto à
escala usada. A variável Y tem variabilidade muito maior do que X, e o produto ficaria muito
mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir as
duas variáveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios padrões.
Esses novos valores estão nas colunas 6 e 7. Observe as mudanças (escalas dos eixos) de
variáveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indicamos os
produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperávamos, é positiva. Para
completar a definição dessa medida de associação, basta calcular a média dos produtos das
coordenadas reduzidas, isto é, correlação (X,Y) = 8,769/10 = 0,877.
Exemplo 4.7
Tabela 4.15 Cálculo
x
do coeficiente de correlação.
Agente
Anos
x
Clientes
y
x– x
y– y
A
2
48
–3,7
–8,5
–1,54
–1,05
1,617
B
3
50
–2,7
–6,5
–1,12
–0,80
0,846
C
4
56
–1,7
–0,5
–0,71
–0,06
0,043
D
5
52
–0,7
–4,5
–0,29
–0,55
0,160
E
4
43
–1,7
–13,5
–0,71
–1,66
1,179
F
6
60
0,3
3,5
0,12
0,43
0,052
G
7
62
1,3
5,5
0,54
0,68
0,367
H
8
58
2,3
1,5
0,95
0,19
0,181
I
8
64
2,3
7,5
0,95
0,92
0,874
J
10
72
4,3
15,5
1,78
1,91
3,400
Total
57
565
0
0
zx · zy
8,769
= 5,7, dp(X) = 2,41, y = 56,5, dp(Y) = 8,11
Portanto, para esse exemplo, o grau de associação linear está quantificado por 87,7%.
Figura 4.7 Mudança
de escalas para o cálculo do coeficiente de correlação.
Da discussão feita até aqui, podemos definir o coeficiente de correlação do seguinte modo.
Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chamaremos de coeficiente de
correlação entre as duas variáveis X e Y a
Definição.
(4.7)
ou seja, a média dos produtos dos valores padronizados das variáveis.
Não é difícil provar que o coeficiente de correlação satisfaz
–1 ≤ corr (X, Y) ≤ 1. (4.8)
A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes
fórmulas:
(4.9)
O numerador da expressão acima, que mede o total da concentração dos pontos pelos quatro
quadrantes, dá origem a uma medida bastante usada e que definimos a seguir.
Dados n pares de valores (x1, y1), ..., (xn, yn), chamaremos de covariância entre as duas
variáveis X e Y a
Definição.
(4.10)
ou seja, a média dos produtos dos valores centrados das variáveis.
Com essa definição, o coeficiente de correlação pode ser escrito como
(4.11)
Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos utilizados
anteriormente para analisar um conjunto de dados, exibindo as análises feitas separadamente,
para efeito de comparação. Por exemplo, podemos exibir os desenhos esquemáticos, ou os
ramos-e-folhas para os dois conjuntos de observações.
4.6 Associação entre Variáveis Qualitativas e Quantitativas
Como mencionado na introdução deste capítulo, é comum nessas situações analisar o que
acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. Essa
análise pode ser conduzida por meio de medidas-resumo, histogramas, box plots ou ramo-efolhas. Vamos ilustrar com um exemplo.
Exemplo 4.8 Retomemos os dados da Tabela 2.1, para os quais desejamos analisar agora o
comportamento dos salários dentro de cada categoria de grau de instrução, ou seja, investigar o
comportamento conjunto das variáveis S e Y.
Tabela 4.16 Medidas-resumo
para a variável salário, segundo o grau de instrução, na Companhia MB.
Grau de instrução
Fundamental
n
–s
12 7,84
dp(S)
2,79
var(S)
7,77
s(1)
q1
q2
q3
s(n)
4,00 6,01 7,13 9,16 13,65
Médio
18 11,54 3,62
13,10 5,73 8,84 10,91 14,48 19,40
Superior
6 16,48 4,11
16,89 10,53 13,65 16,74 18,38 23,30
Todos
36 11,12 4,52
20,46 4,00 7,55 10,17 14,06 23,30
Comecemos a análise construindo a Tabela 4.16, que contém medidas-resumo da variável S
para cada categoria de Y. A seguir, na Figura 4.8, apresentamos uma visualização gráfica por
meio de box plots.
Figura 4.8 Box
plots de salário segundo grau de instrução. SPlus.
A leitura desses resultados sugere uma dependência dos salários em relação ao grau de
instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário
médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso superior
o salário médio passa a ser 16,48, enquanto funcionários com o ensino fundamental completo
recebem, em média, 7,84.
Na Tabela 4.17 e na Figura 4.9, temos os resultados da análise dos salários em função da
região de procedência (V), que mostram a inexistência de uma relação melhor definida entre
essas duas variáveis. Ou, ainda, os salários estão mais relacionados com o grau de instrução do
que com a região de procedência.
Tabela 4.17 Medidas-resumo
Figura 4.9 Box
para a variável salário segundo a região de procedência, na Companhia MB.
Região de procedência
n
–s
dp(S)
var(S)
s(1)
q1
q2
q3
s(n)
Capital
11
11,46
5,22
27,27
4,56
7,49
9,77
16,63
19,40
Interior
12
11,55
5,07
25,71
4,00
7,81
10,64
14,70
23,30
Outra
13
10,45
3,02
9,13
5,73
8,74
9,80
12,79
16,22
Todos
36
11,12
4,52
20,46
4,00
7,55
10,17
14,06
23,30
plots de salário segundo região de procedência. SPlus.
Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique o
grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias
podem ser usadas como insumos para construir essa medida. Sem usar a informação da variável
categorizada, a variância calculada para a variável quantitativa para todos os dados mede a
dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor
do que a global, significa que a variável qualitativa melhora a capacidade de previsão da
quantitativa e portanto existe uma relação entre as duas variáveis.
Observe que, para as variáveis S e Y, as variâncias de S dentro das três categorias são menores
do que a global. Já para as variáveis S e V, temos duas variâncias de S maiores e uma menor do
que a global, o que corrobora a afirmação acima.
Necessita-se, então, de uma medida-resumo da variância entre as categorias da variável
qualitativa. Vamos usar a média das variâncias, porém ponderada pelo número de observações
em cada categoria, ou seja,
(4.12)
no qual k é o número de categorias (k = 3 nos dois exemplos acima) e vari(S) denota a variância
de S dentro da categoria i, i = 1, 2, ..., k.
Pode-se mostrar que
, de modo que podemos definir o grau de associação entre as
duas variáveis como o ganho relativo na variância, obtido pela introdução da variável qualitativa.
Explicitamente,
(4.13)
Note que 0 ≤ R2 ≤ 1. O símbolo R2 é usual em análise de variância e regressão, tópicos a serem
abordados nos Capítulos 15 e 16, respectivamente.
Voltando aos dados do Exemplo 4.8, vemos que para a variável S na presença de grau
de instrução, tem-se
Exemplo 4.9
de modo que
e dizemos que 41,5% da variação total do salário é explicada pela variável grau de instrução.
Para S e região de procedência temos
e, portanto,
de modo que apenas 1,3% da variabilidade dos salários é explicada pela região de procedência.
A comparação desses dois números mostra maior relação entre S e Y do que entre S e V.
Problemas
10. Para cada par de variáveis abaixo, esboce o diagrama de dispersão. Diga se você espera uma dependência linear e nos casos
afirmativos avalie o coeficiente de correlação.
(a) Peso e altura dos alunos do primeiro ano de um curso de Administração.
(b) Peso e altura dos funcionários de um escritório.
(c) Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental.
(d) Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas.
(e) Acuidade visual e idade de um grupo de pessoas.
(f) Renda familiar e porcentagem dela gasta em alimentação.
(g) Número de peças montadas e resultado de um teste de inglês por operário.
11. Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o
respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras.
Regiões metropolitanas
Setor primário
Índice de analfabetismo
São Paulo
2,0
17,5
Rio de Janeiro
2,5
18,5
Belém
2,9
19,5
Belo Horizonte
3,3
22,2
Salvador
4,1
26,5
Porto Alegre
4,3
16,6
Recife
7,0
36,6
Fortaleza
13,00
38,4
Fonte: Indicadores Sociais para Áreas Urbanas — IBGE — 1977.
(a) Faça o diagrama de dispersão.
(b) Você acha que existe uma dependência linear entre as duas variáveis?
(c) Calcule o coeficiente de correlação.
(d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o valor correspondente e recalcule o
coeficiente de correlação.
12. Usando os dados do Problema 3:
(a) Construa a tabela de frequências conjuntas para as variáveis X (número de empregos nos dois últimos anos) e Y (salário
mais recente).
(b) Como poderia ser feito o gráfico de dispersão desses dados?
(c) Calcule o coeficiente de correlação. Baseado nesse número você diria que existe dependência entre as duas variáveis?
13. Quer se verificar a relação entre o tempo de reação e o número de alternativas apresentadas a indivíduos acostumados a
tomadas de decisão. Planejou-se um experimento em que se pedia ao participante para classificar objetos segundo um critério
previamente discutido. Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco. Pediu-se, então,
a cada grupo para classificar dois, três e quatro objetos, respectivamente. Os dados estão abaixo.
Nº de objetos
2
3
4
Tempo de reação
1, 2, 3, 3, 4
2, 3, 4, 4, 5
4, 5, 5, 6, 7
(a) Faça o gráfico de dispersão das duas variáveis.
(b) Qual o coeficiente de correlação entre elas?
14. Calcule o grau de associação entre as variáveis estado civil e idade, na Tabela 2.1.
15. Usando os dados do Problema 9 do Capítulo 2, calcule o grau de associação entre seção e notas em Estatística.
4.7 Gráficos q × q
Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico
quantis × quantis, que passamos a discutir.
Suponha que temos valores x1, ..., xn da variável X e valores y1, ..., ym da variável Y, todos
medidos pela mesma unidade. Por exemplo, temos temperaturas de duas cidades ou alturas de
dois grupos de indivíduos etc. O gráfico q × q é um gráfico dos quantis de X contra os quantis de
Y.
Pelo que vimos no Capítulo 3, se m = n o gráfico q × q é um gráfico dos dados ordenados de X
contra os dados ordenados de Y. Se as distribuições dos dois conjuntos de dados fossem
idênticas, os pontos estariam sobre a reta y = x.
Enquanto um gráfico de dispersão fornece uma possível relação global entre as variáveis, o
gráfico q × q mostra se valores pequenos de X estão relacionados com valores pequenos de Y, se
valores intermediários de X estão relacionados com valores intermediários de Y e se valores
grandes de X estão relacionados com valores grandes de Y. Num gráfico de dispersão podemos
ter x1 < x2 e y1 > y2, o que não pode acontecer num gráfico q × q, pois os valores em ambos os
eixos estão ordenados, do menor para o maior.
Na Tabela 4.18, temos as notas de 20 alunos em duas provas de Estatística e, na
Figura 4.10, temos o correspondente gráfico q × q. Os pontos estão razoavelmente dispersos ao
redor da reta x = y, mostrando que as notas dos alunos nas duas provas não são muito diferentes.
Mas podemos notar que, para notas abaixo de cinco, os alunos tiveram notas maiores na segunda
prova, ao passo que, para notas de cinco a oito, os alunos tiveram notas melhores na primeira
prova. A maioria das notas estão concentradas entre cinco e oito.
Exemplo 4.10
Figura 4.10 Gráfico
q × q para as notas em duas provas de Estatística.
Tabela 4.18 Notas
de 20 alunos em duas provas de Estatística.
Aluno Prova 1 Prova 2
Aluno Prova 1 Prova 2
1
8,5
8,0
11
7,4
6,5
2
3,5
2,8
12
5,6
5,0
3
7,2
6,5
13
6,3
6,5
4
5,5
6,2
14
3,0
3,0
5
9,5
9,0
15
8,1
9,0
6
7,0
7,5
16
3,8
4,0
7
4,8
5,2
17
6,8
5,5
8
6,6
7,2
18
10,0
10,0
9
2,5
4,0
19
4,5
5,5
10
7,0
6,8
20
5,9
5,0
Consideremos, agora, as variáveis temperatura de Ubatuba e temperatura de
Cananeia, do CD-Temperaturas. O gráfico q × q está na Figura 4.11. Observamos que a maioria
dos pontos está acima da reta y = x, mostrando que as temperaturas de Ubatuba são, em geral,
maiores do que as de Cananeia, para valores maiores do que 17 graus.
Quando m ≠ n, é necessário modificar os valores de p para os quantis da variável com maior
número de pontos. Ver o Problema 33 para a solução desse caso.
Exemplo 4.11
Figura 4.11 Gráfico
q × q para os lados de temperatura de Cananeia e Ubatuba.
Problemas
16. Faça o gráfico q × q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio (Problema 9 do
Capítulo 2).
17. Faça o gráfico q × q para as variáveis salário de professor secundário e salário de administrador do CD-Salários. Comente.
4.8 Exemplos Computacionais
Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados.
Exemplos são os dados sobre o Brasil, de poluição e estatísticas sobre veículos, encontrados nos
Conjuntos de Dados. Veremos, também, um exemplo de cálculo do coeficiente de correlação
para dados reais da Bolsa de Valores de São Paulo.
Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa.
Considere as variáveis salário, idade e grau de instrução da Tabela 2.1. Separamos,
agora, os salários e idades por classes de grau de instrução. Depois, podemos fazer gráficos de
dispersão, como na Figura 4.12.
Os comandos necessários do R para fazer essas figuras são:
Exemplo 4.12
tab21$idade<-tab21$idade_anos*12+tab21$idade_meses
attach (tab21)
par(mfrow=c(1,3), pin=c(2,2))
plot (idade[grau_instrucao==”ensino
fundamental”], salario[grau_instrucao==”ensino
fundamental”], main=”Fundamental”, xlab=”Idade”, ylab=”Salário”, pch=16,col=”darkblue”)
plot (idade[grau_instrucao==”ensino
médio”], salario[grau_instrucao==”ensino
médio”], main=”Médio”, xlab=”Idade”, ylab=”Salário”,pch=16,col=”darkblue”)
plot (idade [grau_instrucao==”superior”], salario[grau_instrucao==”superior”], main=”Superior”, xlab=”Idade”, ylab=”Salário”,
pch=16,col=”darkblue”)
Figura 4.12 Gráficos
de dispersão das variáveis salário e idade, segundo a variável grau de instrução.
Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a
idade, ao passo que para o ensino médio essa relação não se verifica, havendo salários baixos e
altos numa faixa entre 350 e 450 meses.
Considere o CD-Mercado, no qual temos os preços de fechamento diários de ações da
Telebrás (X) e os índices IBOVESPA (Y), de 2 de janeiro a 24 de fevereiro de 1995, num total de
n = 39 observações. O gráfico de dispersão está na Figura 4.13, que mostra que os pares de
valores estão dispostos ao longo de uma reta com inclinação positiva. Ou seja, esse gráfico
mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de
Valores de São Paulo. No gráfico, está representada a “reta de mínimos quadrados”. No Capítulo
16, veremos como determiná-la.
Para construir a Figura 4.13 usamos os comandos do R:
Exemplo 4.13
cd_mercado <- read.table (“cd-mercado.csv”, h=T,skip=4, sep=”;”, dec=”,”) # Leitura dos dados
attach (cd_mercado)
plot (telebras [1:39], indice[1:39], xlab=”Telebrás”, ylab=”Ibovespa”, pch=16,col=”darkblue”)
abline(lm(indice[1:39]~telebras[1:39]))
Figura 4.13 Gráfico
de dispersão para ações da Telebrás e BOVESPA. R.
Utilizando (4.9) obtemos que
o que mostra a forte associação linear entre X e Y.
Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis
quantitativas e uma qualitativa.
Considere o CD-Veículos, no qual temos o preço, o comprimento e a capacidade do
motor de veículos vendidos no Brasil, classificados em duas categorias: N (nacionais) e I
Exemplo 4.14
(importados). Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos,
indicando por um • se o carro for N e por um , se for I. Veja a Figura 4.14. Observamos, pela
figura, que os preços dos veículos importados são, em geral, maiores do que os nacionais e que o
preço aumenta com o comprimento.
Figura 4.14 Gráfico
de dispersão simbólico das variáveis preço e comprimento de veículos, categorizadas pela variável
procedência: nacional ( ) e importado ( • ). R.
Os comandos no R são:
cd_veiculos <- read.table(“cd-veiculos.csv”, h=T, skip=4, sep=”;”, dec=”,”) # Leitura dos dados
attach(cd_veiculos)
ggplot(cd_veiculos, aes(comprimento, preco)) + geom_point(aes(shape =N_I, colour=N_I), size = 4)
4.9 Problemas Suplementares
18. No estudo de uma certa comunidade, verificou-se que:
(I) A proporção de indivíduos solteiros é de 0,4.
(II) A proporção de indivíduos que recebem até 10 salários mínimos é de 0,2.
(III) A proporção de indivíduos que recebem até 20 salários mínimos é de 0,7.
(IV) A proporção de indivíduos casados entre os que recebem mais de 20 salários mínimos é de 0,7.
(V) A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 0,3.
(a) Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respectivas distribuições marginais.
(b) Você diria que existe relação entre as duas variáveis consideradas?
19. Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental.
O resultado foi o seguinte:
Opinião
Local de residência
Total
Urbano
Suburbano
Rural
A favor
30
35
35
100
Contra
60
25
15
100
Total
90
60
50
200
(a) Calcule as proporções em relação ao total das colunas.
(b) Você diria que a opinião independe do local de residência?
(c) Encontre uma medida de dependência entre as variações.
20. Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de
propriedade estatal ou particular? Encontre uma medida de dependência entre as variáveis.
Atividade
Propriedade
Costeira
Fluvial
Internacional
Total
Estatal
5
141
51
197
Particular
92
231
48
371
Total
97
372
99
568
Fonte: Sinopse Estatística do Brasil — IBGE — 1975.
21. Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos
construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo. Baseado nesses resultados você diria que a
participação em atividades esportivas depende da cidade?
Participam
Cidade
São Paulo
Campinas
Rib. Preto
Santos
Sim
50
65
105
120
Não
150
185
195
180
22. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a classe social do respondente, mostrou
o seguinte quadro:
Classe social
Pretende continuar?
Total
Alta
Média
Baixa
Sim
200
220
380
Não
200
280
720
800
1.200
(a) Você diria que a distribuição de respostas afirmativas é igual à de respostas negativas?
(b) Existe dependência entre os dois fatores? Dê uma medida quantificadora da dependência.
(c) Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não, você mudaria sua conclusão? Justifique.
23. Refaça os cálculos do Problema 19 usando as fórmulas derivadas em (4.2) - (4.3).
24. Prove que
25. Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis: X: anos de experiência num dado
cargo e Y: tempo, em minutos, gasto na execução de uma certa tarefa relacionada com esse cargo.
As observações são apresentadas na tabela abaixo:
Você diria que a variável X pode ser usada para explicar a variação de Y? Justifique.
26. Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um
processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de produção por meio da escolha de uma outra
variável de medida mais fácil e que esteja linearmente relacionada com ela.
Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, potência instalada e área
construída. Com base num critério estatístico, qual das variáveis você escolheria para estimar a capacidade de produção
instalada?
X: cap. prod. inst. (ton.)
4 5 4 5 8 9 10 11 12 12
Y: potência inst. (1.000 kW) 1 1 2 3 3 5 5 6 6 6
Z: área construída (l00 m) 6 7 10 10 11 9 12 10 11 14
27. Usando os dados da Tabela 2.1, Capítulo 2:
(a) Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade, mas divida cada uma delas num
certo número de intervalos de classe.
(b) Como poderia ser calculado o coeficiente de correlação baseado nessa tabela?
(c) Você conseguiria “escrever” a fórmula da correlação para dados agrupados?
28. Lançam-se, simultaneamente, uma moeda de um real e uma de um quarto de dólar. Em cada tentativa anotou-se o resultado,
cujos dados estão resumidos na tabela a seguir.
1 Real
1/4 dólar
Cara
Coroa
Total
46
Cara
24
22
Coroa
28
26
54
Total
52
48
100
Fonte: Experimento conduzido pelos autores.
(a) Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados?
(b) Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1. Chamando de X1 o resultado do real e de X2 o
resultado do quarto de dólar, calcule a correlação entre X1 e X2. Essa medida está de acordo com a resposta que você deu
anteriormente?
29. Uma amostra de dez casais e seus respectivos salários anuais (em s.m.) foi colhida num certo bairro conforme vemos na
tabela abaixo.
Salário
Casal nº
1
2
3
5
6
7
8
Homem (X)
10
10
10 15 15
4
15
15
20 20 20
Mulher (Y)
5
10
10
10
15
10 10 15
5
10
9
10
Sabe-se que:
(a) Encontre o salário anual médio dos homens e o seu desvio padrão.
(b) Encontre o salário anual médio das mulheres e o seu desvio padrão.
(c) Construa o diagrama de dispersão.
(d) Encontre a correlação entre o salário anual dos homens e o das mulheres.
(e) Qual o salário médio familiar? E a variância do salário familiar?
(f) Se o homem é descontado em 8% e a mulher em 6%, qual o salário líquido anual médio familiar? E a variância?
30. O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores.
Nessa época, foram observados para cada um dos vendedores os valores de três variáveis:
T: resultado em um teste apropriado para vendedores;
E: anos de experiência de vendas;
G: conceito do gerente de venda, quanto ao currículo do candidato.
O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua colaboração para responder a algumas
perguntas. Para isso, ele lhe dá informações adicionais sobre duas variáveis:
V: volume médio mensal de vendas em s.m.;
Z: zona da capital para a qual o vendedor foi designado.
O quadro de resultados é o seguinte:
Vendedor
T: teste
E: experiência
G: conceito
V: vendas do gerente
Z: zona
Vendedor
T: teste
E: experiência
G: conceito do gerente
V: vendas
Z: zona
1
8
5
Bom
54
Norte
2
9
2
Bom
50
Sul
3
7
2
Mau
48
Sul
4
8
1
Mau
32
Oeste
5
6
4
Bom
30
Sul
6
8
4
Bom
30
Oeste
7
5
3
Bom
29
Norte
8
5
3
Bom
27
Norte
9
6
1
Mau
24
Oeste
10
7
3
Mau
24
Oeste
11
4
4
Bom
24
Sul
12
7
2
Mau
23
Norte
13
3
3
Mau
21
Sul
14
5
1
Mau
21
Oeste
15
3
2
Bom
16
Norte
Dados:
Mais especificamente, o diretor lhe pede que responda aos sete itens seguintes:
(a) Faça o histograma da variável V em classes de 10, tendo por limite inferior da primeira classe o valor 15.
(b) Encontre a média e a variância da variável V. Suponha que um vendedor seja considerado excepcional se seu volume de
vendas é dois desvios padrões superior à média geral. Quantos vendedores excepcionais existem na amostra?
(c) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo volume de vendas for inferior ao 1º
quartil da distribuição. Qual o volume mínimo de vendas que um vendedor deve realizar para não ser transferido?
(d) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas de venda privilegiadas. A quem você
daria razão?
(e) Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego?
(f) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vendedor foi designado? Você tem explicação
para esse resultado?
(g) Qual o grau de associação entre o conceito do gerente e o resultado do teste? E entre zona e vendas?
31. A seção de assistência técnica da Companhia MB tem cinco funcionários: A, B, C, D e E, cujos tempos de serviço na
companhia são, respectivamente, um, três, cinco, cinco e sete anos.
(a) Faça um gráfico representando a distribuição de frequência dos tempos de serviço X.
(b) Calcule a média me(X), a variância var(X) e a mediana md(X).
Duas novas firmas, a Verde e a Azul, solicitaram o serviço de assistência técnica da MB. Um mesmo funcionário pode ser
designado para atender a ambos os pedidos, ou dois funcionários podem fazê-lo. Assim, o par (A, B) significa que o
funcionário A atenderá à firma Verde e o funcionário B, à firma Azul.
(c) Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos.
(d) Para cada par, calcule o tempo médio de serviço X, faça a distribuição de frequência e uma representação gráfica. Compare
com o resultado de (a).
(e) Calcule para os 25 valores de X os parâmetros me (X), var(X) e md(X). Compare com os resultados obtidos em (b). Que tipo
de conclusão você poderia tirar?
(f) Para cada par obtido em (c), calcule a variância do par e indique-a por S2. Faça a representação gráfica da distribuição dos
valores de S2.
(g) Calcule me(S2) e var(S2).
(h) Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá
atender à firma Azul, faça a distribuição conjunta da variável bidimensional (X1, X2).
(i) As duas variáveis X1 e X2 são independentes?
(j) O que você pode falar sobre as distribuições “marginais” de X1 e X2?
(l) Suponha agora que três firmas solicitem o serviço de assistência técnica. Quantas triplas podem ser formadas?
(m) Sem calcular todas as possibilidades, como você acha que ficaria o histograma de X? E me(X)? e var(X)?
(n) E sobre a variável S2?
(o) A variável tridimensional (X1, X2, X3) teria alguma propriedade especial para as suas distribuições “marginais”?
32. Refaça o problema anterior, admitindo agora que um mesmo funcionário não pode atender a duas firmas.
33. Faça o gráfico q × q para os dois conjuntos de dados em A e B a seguir.
A
65
54 49 60
70
25
87
100
70
102
40
47
B
48
35 45 50
52
20
72
102
46
82
—
—
34. Faça gráficos de dispersão unidimensionais e box plots para a variável salário da Tabela 2.1, segundo a região de procedência.
Analise os resultados.
35. Analise as variáveis salário e idade da Tabela 2.1, segundo o estado civil de cada indivíduo. Quais conclusões você pode
obter?
36. Analise a população total do CD-Brasil, segundo as regiões geográficas.
37. Considere os dados do Exemplo 4.13 e o seguinte critério: valores abaixo da média indicam mercado em BAIXA e valores
maiores ou iguais à média indicam mercado em ALTA. Categorize os dados segundo esse critério e apresente os resultados numa
tabela de dupla entrada. Calcule uma medida de associação. O valor obtido corrobora ou não o resultado obtido no Exemplo
4.13? Comente.
38. Considere o CD-Poluição e as variáveis CO, temperatura e umidade. Faça gráficos de dispersão para pares de variáveis. Quais
conclusões você pode obter?
39. Calcule os valores C, T e V para a tabela abaixo. Justifique porque T = 1.
YX
A1 A2 A3
Total
B1
100 0 0
100
B2
0 200 0
200
B3
0 0 200
200
Total
100 200 200
500
40. Suponha que queiramos verificar se existe relação entre a cor do cabelo de mães (X) e dos filhos (Y). Suponha os dados da
tabela abaixo. Verifique se há associação entre X e Y. Calcule C, V e T.
Mãe
Filhos
Claro Escuro
Total
Claro
23 5
28
Escuro
10 2
12
Total
33 7
40
4.10 Complemento Metodológico
1. Gráficos quantis × quantis. Na Seção 4.5 vimos como construir um gráfico q × q quando m = n. Suponha n > m, isto é, temos
um número maior de observações de X. Então, usamos as observações ordenadas y(1) ≤ ... ≤ y(m) e interpolamos um conjunto
correspondente de quantis para o conjunto dos xi ordenados. O valor ordenado y(i) corresponde a
um valor j tal que
logo
Se j for inteiro, fazemos o gráfico de y(i) versus x(j).
Se j = k + r, em que k é inteiro e 0 < r < 1, então
. Para X, queremos
Exemplo: Se m = 20 e n = 40,
logo k = 2i - 1, r = 0,5, e fazemos o gráfico de
y(1) versus [0,5x(1) + 0,5x(2)],
y(2) versus [0,5x(3) + 0,5x(4)] etc.
Parte II
PROBABILIDADES
Capítulo 5
Probabilidades
Capítulo 6
Variáveis Aleatórias Discretas
Capítulo 7
Variáveis Aleatórias Contínuas
Capítulo 8
Variáveis Aleatórias Multidimensionais
Capítulo 9
Noções de Simulação
Capítulo 5
Probabilidades
5.1 Introdução
Na primeira parte deste livro, vimos que a análise de um conjunto de dados por meio de
técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse
conjunto. Em particular, a distribuição de frequências é um instrumento importante para
avaliarmos a variabilidade das observações de um fenômeno aleatório. A partir dessas
frequências observadas podemos calcular medidas de posição e variabilidade, como média,
mediana, desvio padrão etc. Essas frequências e medidas calculadas a partir dos dados são
estimativas de quantidades desconhecidas, associadas em geral a populações das quais os dados
foram extraídos na forma de amostras. Em particular, as frequências (relativas) são estimativas
de probabilidades de ocorrências de certos eventos de interesse. Com suposições adequadas, e
sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo
teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é
observado diretamente. Tais modelos são chamados modelos probabilísticos e serão objeto de
estudo neste capítulo e nos subsequentes.
Exemplo 5.1 Queremos estudar as frequências de ocorrências das faces de um dado. Um
procedimento a adotar seria lançar o dado certo número de vezes, n, e depois contar o número ni
de vezes em que ocorre a face i, i = 1, 2, ..., 6. As proporções ni/n determinam a distribuição de
frequências do experimento realizado. Lançando o dado um número n′(n′ ≠ n) de vezes, teríamos
outra distribuição de frequências, mas com um padrão que esperamos ser muito próximo do
anterior.
O modelo probabilístico pode ser construído por meio de premissas, como se segue.
Primeiro, observamos que só podem ocorrer seis faces; a segunda consideração que se faz é
que o dado seja perfeitamente equilibrado, de modo a não favorecer alguma face em particular.
Com essas suposições, cada face deve ocorrer o mesmo número de vezes quando o dado é
lançado n vezes, e, portanto, a proporção de ocorrência de cada face deve ser 1/6. Nessas
condições, o modelo teórico (ou probabilístico) para o experimento é dado na Tabela 5.1.
Tabela 5.1 Modelo
para lançamento de um dado.
Face
1
2
3
4
5
6
Total
Frequência teórica
1/6
1/6
1/6
1/6
1/6
1/6
1
De um grupo de duas mulheres (M) e três homens (H), uma pessoa será sorteada para
presidir uma reunião. Queremos saber as probabilidades de o presidente ser do sexo masculino
ou feminino. Observamos que: (i) só existem duas possibilidades: ou a pessoa sorteada é do sexo
Exemplo 5.2
masculino (H) ou é do sexo feminino (M); (ii) supondo que o sorteio seja honesto e que cada
pessoa tenha igual chance de ser sorteada, teremos o modelo probabilístico da Tabela 5.2 para o
experimento.
Tabela 5.2 Modelo
teórico para o Exemplo 5.2.
Sexo
M
H
Total
Frequência teórica
2/5
3/5
1
Dos exemplos acima, verificamos que todo experimento ou fenômeno que envolva um
elemento casual terá seu modelo probabilístico especificado quando estabelecermos:
(a) um espaço amostral, Ω, que consiste, no caso discreto, da enumeração (finita ou infinita)
de todos os resultados possíveis do experimento em questão:
Ω = {ω1, ω2, ..., ωn, ...}
(os elementos de Ω são os pontos amostrais ou eventos elementares);
(b) uma probabilidade, P(ω), para cada ponto amostral, de tal sorte que seja possível encontrar
a probabilidade P(A) de qualquer subconjunto A de Ω, isto é, a probabilidade do que
chamaremos de um evento aleatório ou simplesmente evento.
Para ilustrar graficamente eventos, é costume utilizar-se os mesmos diagramas comumente
usados na teoria dos conjuntos. Veja Morettin et. al. (2005). Na Figura 5.1, ilustramos por um
quadrado o espaço amostral, por círculos os eventos A e B e por pontos os pontos amostrais.
Figura 5.1 Espaço
amostral e eventos aleatórios.
Lançamos uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um
espaço amostral será
Ω = {ω1, ω2, ω3, ω4}
em que ω1 = (C, C), ω2 = (C, R), ω3 = (R, C), ω4 = (R, R). É razoável supor que cada ponto ωi
tenha probabilidade 1/4, se a moeda for perfeitamente simétrica e homogênea.
Se designarmos por A o evento que consiste na obtenção de faces iguais nos dois lançamentos,
então
P(A) = P{ω1, ω4} = 1/4 + 1/4 = 1/2.
De modo geral, se A for qualquer evento de Ω, então
Exemplo 5.3
(5.1)
em que a soma é estendida a todos os pontos amostrais ωj ∈ A.
Uma fábrica produz determinado artigo. Da linha de produção são retirados três
artigos, e cada um é classificado como bom (B) ou defeituoso (D). Um espaço amostral do
Exemplo 5.4
experimento é
Ω = {BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD}.
Se A designar o evento que consiste em obter dois artigos defeituosos, então A = {DDB, DBD,
BDD}.
Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu
“tempo de vida” antes de se queimar. Um espaço amostral conveniente é
Ω = {t ∈ ¡ : t ≥ 0},
isto é, o conjunto de todos os números reais não negativos. Se A indicar o evento “o tempo de
vida da lâmpada é inferior a 20 horas”, então A = {t : 0 ≤ t < 20}. Esse é um exemplo de um
espaço amostral contínuo, contrastado com os anteriores, que são discretos.
Exemplo 5.5
Problemas
1. Uma urna contém duas bolas brancas (B) e três bolas vermelhas (V). Retira-se uma bola ao acaso da urna. Se for branca,
lança-se uma moeda; se for vermelha, ela é devolvida à urna e retira-se outra. Dê um espaço amostral para o experimento.
2. Lance um dado até que a face 5 apareça pela primeira vez. Enumere os possíveis resultados desse experimento.
3. Três jogadores A, B e C disputam um torneio de tênis. Inicialmente, A joga com B e o vencedor joga com C, e assim por
diante. O torneio termina quando um jogador ganha duas vezes em seguida ou quando são disputadas, ao todo, quatro
partidas. Quais são os resultados possíveis do torneio?
4. Duas moedas são lançadas. Dê dois possíveis espaços amostrais para esse experimento. Represente um deles como o produto
cartesiano de dois outros espaços amostrais (ver Morettin et. al., 2016, para o conceito de produto cartesiano).
5. Uma moeda e um dado são lançados. Dê um espaço amostral do experimento e depois represente-o como produto cartesiano
dos dois espaços amostrais, correspondente aos experimentos considerados individualmente.
6. Defina um espaço amostral para cada um dos seguintes experimentos aleatórios:
(a) Lançamento de dois dados; anota-se a configuração obtida.
(b) Numa linha de produção conta-se o número de peças defeituosas num intervalo de uma hora.
(c) Investigam-se famílias com três crianças, anotando-se a configuração segundo o sexo.
(d) Numa entrevista telefônica com 250 assinantes, anota-se se o proprietário tem ou não máquina de secar roupa.
(e) Mede-se a duração de lâmpadas, deixando-as acesas até que se queimem.
(f) Um fichário com dez nomes contém três nomes de mulheres. Seleciona-se ficha após ficha, até o último nome de mulher ser
selecionado, e anota-se o número de fichas selecionadas.
(g) Lança-se uma moeda até aparecer cara e anota-se o número de lançamentos.
(h) Um relógio mecânico pode parar a qualquer momento por falha técnica. Mede-se o ângulo (em graus) que o ponteiro dos
segundos forma com o eixo imaginário orientado do centro ao número 12.
(i) Mesmo enunciado anterior, mas supondo que o relógio seja elétrico e, portanto, seu ponteiro dos segundos mova-se
continuamente.
(j) De um grupo de cinco pessoas {A, B, C, D, E}, sorteiam-se duas, uma após outra, com reposição, e anota-se a configuração
formada.
(l) Mesmo enunciado que (j), sem reposição.
(m) Mesmo enunciado que (j), mas as duas selecionadas simultaneamente.
(n) De cada família entrevistada numa pesquisa, anotam-se a classe social a que pertence (A, B, C, D) e o estado civil do chefe
da família.
5.2 Algumas Propriedades
Sendo o modelo probabilístico um modelo teórico para as frequências relativas, de suas
propriedades podemos obter algumas das propriedades das probabilidades, que estudaremos a
seguir.
Como a frequência relativa é um número entre 0 e 1, temos que
0 < P(A) < 1, (5.2)
para qualquer evento A. Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos.
O primeiro é denominado evento certo e o segundo, evento impossível, e temos
P(Ω) = 1, P(ø) = 0. (5.3)
Na Tabela 5.3, temos dados referentes a alunos matriculados em quatro cursos de uma
universidade em dado ano.
Exemplo 5.6
Tabela 5.3 Distribuição
de alunos segundo o sexo e escolha de curso.
Curso Sexo
Homens (H)
Mulheres (F)
Total
Matemática Pura (M)
70
40
110
Matemática Aplicada (A)
15
15
30
Estatística (E)
10
20
30
Computação (C)
20
10
30
Total
115
85
200
Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um aluno do
conjunto desses quatro cursos, ele for um estudante de Matemática Pura. A, E, C, H e F têm
significados análogos. Dessa maneira, vemos que P(E) = 30/200, ao passo que P(H) = 115/200.
Dados os eventos A e H, podemos considerar dois novos eventos:
• A ∪ H, chamado a reunião de A e H, quando pelo menos um dos eventos ocorre;
• A ∩ H, chamado a intersecção de A e H, quando A e H ocorrem simultaneamente.
É fácil ver que P(A ∩ H) = 15/200, pois o aluno escolhido terá de estar, ao mesmo tempo,
matriculado no curso de Matemática Aplicada e ser homem.
Vemos que P(A) = 30/200 e P(H) = 115/200; suponha que nosso cálculo para P(A ∪ H) fosse
Se assim o fizéssemos, estaríamos contando duas vezes os alunos que são homens e estão
matriculados no curso de Matemática Aplicada, como destacado na Tabela 5.3. Portanto, a
resposta correta é
No entanto, considerando-se os eventos A e C, vemos que P(A) = 30/200, P(C) = 30/200 e P(A
∪ C) = 60/200 = P(A) + P(C). Nesse caso, os eventos A e C são disjuntos ou mutuamente
exclusivos, pois se A ocorre, então C não ocorre e vice-versa. Aqui, A ∩ C = ø e P(A ∩ C) = 0.
Portanto, se U e V são dois eventos quaisquer, teremos a chamada regra da adição de
probabilidades
P(U ∪ V) = P(U) + P(V) - P(U ∩ V), (5.4)
que se reduz a
P(U  V) = P(U) + P(V), (5.5)
se U e V são eventos mutuamente exclusivos. Veja o Problema 58.
Suponha, agora, que estejamos somente interessados em saber se um estudante escolhido ao
acaso está matriculado como aluno de Matemática Pura, Aplicada, Estatística ou Computação,
não interessando saber se é homem ou mulher. Seja B = M ∪ E ∪ C. Então A ∪ B = Ω e A ∩ B
= ø. Dizemos que A e B são complementares e P(A) = 30/200, P(B) = 110/200 + 30/200 + 30/200
= 170/200, isto é, P(A) + P(B) = 1.
De modo geral, vamos indicar por Ac o complementar de um evento qualquer A, e teremos
então
P(A) + P(Ac) = 1. (5.6)
As operações de reunião, intersecção e complementação entre eventos possuem propriedades
análogas àquelas válidas para operações entre conjuntos. Ver Morettin et. al. (2005). Por
exemplo:
(a) (A ∩ B)c = Ac ∪ Bc (b) (A ∪ B)c = Ac ∩ Bc
(c) A ∩ ø = ø, A ∩ Ω = A (d) øc = Ω, Ωc = ø
(e) A ∩ Ac = ø (f) A ∪ Ac = Ω
(g) A ∪ ø = A, A ∪ Ω = Ω (h) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Vejamos um exemplo de aplicação das propriedades das probabilidades.
Consideremos um experimento aleatório e os eventos A e B associados, tais que P(A)
= 1/2, P(B) = 1/3 e P(A ∩ B) = 1/4. Então temos:
(a) P(Ac) = 1 – P(A) = 1 – 1/2 = 1/2;
P(Bc) = 1 – P(B) = 1 – 1/3 = 2/3.
(b) P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = 1/2 + 1/3 – 1/4 = 7/12.
(c) P(Ac ∩ Bc) = P[(A ∪ B)c] = 1 – P(A ∪ B) = 1 – 7/12 = 5/12.
(d) P(Ac ∪ Bc) = P[(A ∩ B)c] = 1 – P(A ∩ B) = 1 – 1/4 = 3/4.
(e) Calculemos P(Ac ∩ B), isto é, a probabilidade de que ocorra B e não ocorra A. Podemos
escrever
B = (A ∩ B) ∪ (Ac ∩ B),
ou seja, B pode ocorrer com A ou (exclusivo) com Ac. Logo,
P(B) = P(A ∩ B) + P(Ac ∩ B),
do que decorre
P(Ac ∩ B) = P(B) – P(A ∩ B) = 1/3 – 1/4 = 1/12.
Consideremos, agora, uma situação historicamente importante, a saber, aquela em que temos
um espaço amostral finito, Ω = {ω1, ..., ωn}, em que todos os pontos têm a mesma probabilidade
1/n. Se A for um evento contendo m pontos amostrais, então
Exemplo 5.7
Nesse caso, não é necessário explicitar completamente Ω e A, bastando calcular m e n,
chamados, respectivamente, número de casos favoráveis e número de casos possíveis. Para tanto,
são usados os métodos clássicos de contagem da análise combinatória. Um princípio
fundamental de contagem nos diz que, se uma tarefa pode ser executada em duas etapas, a
primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então as duas podem
ser realizadas simultaneamente de pq maneiras. Esse é o chamado princípio multiplicativo.
Suponha que num lote com 20 peças existam cinco defeituosas. Escolhemos quatro
peças do lote ao acaso, ou seja, uma amostra de quatro elementos, de modo que a ordem dos
elementos seja irrelevante.
Exemplo 5.8
Dessa maneira, o número de amostras com quatro elementos que podemos extrair do lote é
, ou seja, combinações de 20 elementos, tomados quatro a quatro. Suponha que queiramos
calcular a probabilidade de se escolher duas defeituosas na amostra. Pelo visto acima,
éo
número de pontos do espaço amostral. Seja A o evento que consiste em escolher duas defeituosas
na amostra. Segue-se que
, pois podemos escolher na amostra de quatro elementos duas
defeituosas e duas não defeituosas simultaneamente de
maneiras, usando o princípio
multiplicativo. Logo,
O jogo da Megasena consiste em escolher 6 números dentre os 60 números (01, 02, ...,
59, 60). O jogador pode marcar num cartão de 6 a 15 números. Os custos (em reais) de cada jogo
estão relacionados abaixo.
Exemplo 5.9
Números
Temos, ao todo,
Custo
6
2,00
7
14,00
8
56,00
9
168,00
10
420,00
11
924,00
12
1.848,00
13
3.432,00
14
6.010,00
15
10.010,00
possibilidades. Portanto, com um jogo único de R$ 2,00 (seis
números), a probabilidade de ganhar o prêmio máximo é
, ou seja, aproximadamente, uma
chance em 50 milhões. Por que o jogo com 7 números custa R$ 7,00? Porque com 7 números
podemos formar
jogos de 6 números. Ou seja, fazer um jogo com 7 números ou 7 jogos
com 6 números são ações equivalentes, em termos de probabilidade de ganhar. Do mesmo modo,
um jogo de 15 dezenas custa R$ 10.010,00, porque com 15 números podemos formar
jogos de 6 números. Portanto, é mais fácil preencher um boleto com 15 números do que 5.005
boletos com 6 números, já que as probabilidades associadas são iguais.
Problemas
7. No Problema 4, liste os eventos:
(a) pelo menos uma cara;
(b) duas caras;
(c) o complementar do evento em (b).
8. Expresse em termos de operações entre eventos:
(a) A ocorre mas B não ocorre;
(b) exatamente um dos eventos A e B ocorre;
(c) nenhum dos dois eventos A e B ocorre.
9. No espaço amostral do Problema 3, atribua a cada ponto contendo k letras a probabilidade 1/2k (assim, AA tem probabilidade
1/4).
(a) Mostre que a soma das probabilidades dos pontos do espaço amostral é 1.
(b) Calcule a probabilidade de que A vença (um jogador vence quando ganha duas partidas seguidas). Em seguida, calcule a
probabilidade de que B vença.
(c) Qual a probabilidade de que não haja decisão?
10. No Problema 2, suponha que 5 indique o aparecimento da face 5 e Q indique que apareceu outra face qualquer diferente da 5.
Atribua probabilidade (5/6)k (1/6) a cada ponto com k letras iguais a Q seguidas de 5.
(a) Mostre que a soma das probabilidades dos pontos amostrais é igual a um (aqui, você deve usar o resultado da soma dos
termos de uma sequência geométrica infinita).
(b) Calcule a probabilidade de que a face 5 apareça após três lançamentos do dado.
11. Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso (sem reposição) e multiplicados. Qual a
probabilidade de que o produto seja positivo?
12. Considere o lançamento de dois dados. Considere os eventos: A = soma dos números obtidos igual a 9, e B = número no
primeiro dado maior ou igual a 4. Enumere os elementos de A e B. Obtenha A ∪ B, A ∩ B e Ac.
13. Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12.
14. Que suposições devem ser feitas para que os resultados dos experimentos abaixo possam ser considerados equiprováveis?
(a) Lançamento de um dado.
(b) Opinião de moradores de uma cidade sobre um projeto governamental.
(c) Preço de uma ação no fim da próxima semana.
5.3 Probabilidade Condicional e Independência
Voltemos à Tabela 5.3 do Exemplo 5.6. Dado que um estudante, escolhido ao acaso, esteja
matriculado no curso de Estatística, a probabilidade de que seja mulher é 20/30 = 2/3. Isso
porque, do total de 30 alunos que estudam Estatística, 20 são mulheres. Escrevemos
Para dois eventos quaisquer A e B, sendo P(B) > 0, definimos a probabilidade condicional de
A dado B, P(A|B), como
(5.7)
Para o exemplo mencionado, se B e A indicam, respectivamente, os eventos “aluno
matriculado em Estatística” e “aluno é mulher”, então
como havíamos obtido.
Observe que P(A) = P(mulher) = 85/200 = 17/40, e com a informação de que B ocorreu (o
aluno é matriculado em Estatística), obtemos P(A|B) = 2/3. Podemos dizer que P(A) é a
probabilidade a priori de A e, com a informação adicional de que B ocorreu, obtemos a
probabilidade a posteriori P(A|B). Note que, nesse caso, P(A|B) > P(A), logo a informação de
que B ocorreu aumentou a chance de A ocorrer.
Da relação (5.7) obtemos a chamada regra do produto de probabilidades,
P(A ∩ B) = P(B) P (A|B). (5.8)
Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha que são
sorteadas duas bolas ao acaso, sem reposição. Isso significa que escolhemos a primeira bola,
Exemplo 5.10
verificamos sua cor e não a devolvemos à urna; misturamos as bolas restantes e retiramos a
segunda. O diagrama em árvore da Figura 5.2 ilustra as possibilidades. Em cada “galho” da
árvore estão indicadas as probabilidades de ocorrência, sendo que para as segundas bolas as
probabilidades são condicionais. A probabilidade do resultado conjunto é dada, então, por (5.8).
Veja a Tabela 5.4.
Figura 5.2 Diagrama
em árvore para a extração de duas bolas de uma urna, sem reposição.
Se A indicar o evento “bola branca na segunda extração”, então
Tabela 5.4 Resultados
e probabilidades para o experimento do Exemplo 5.10.
Resultados
Probabilidades
BB
2/5 × 1/4 = 2/20
BV
2/5 × 3/4 = 6/20
VB
3/5 × 2/4 = 6/20
VV
3/5 × 2/4 = 6/20
Total
1
Imagine, agora, que as duas extrações são feitas da mesma urna do exemplo anterior,
mas a primeira bola é reposta na urna antes da extração da segunda. Nessas condições, as
extrações são independentes, pois o resultado de uma extração não tem influência no resultado
da outra. Obtemos a situação da Figura 5.3 e da Tabela 5.5.
Exemplo 5.11
Figura 5.3 Diagrama
em árvore para a extração de duas bolas de uma urna, com reposição.
Tabela 5.5 Resultados
e probabilidades para o experimento do Exemplo 5.11.
Observe que, aqui,
Resultados
Probabilidades
BB
2/5 × 2/5 = 4/25
BV
2/5 × 3/5 = 6/25
VB
3/5 × 2/5 = 6/25
VV
3/5 × 3/5 = 9/25
Total
1
P(branca na 2ª | branca na 1ª) = 2/5 = P(branca na 2ª),
ou seja, se indicarmos por A e B os eventos “bola branca na segunda extração” e “bola branca na
primeira extração” , respectivamente, então P(A|B) = P(A). Nesse caso, dizemos que o evento A
independe do evento B e, usando (5.8), temos
P(A ∩ B) = P(A) P(B). (5.9)
É fácil ver que se A independe de B, então B independe de A — dizemos que A e B são
independentes. A Fórmula (5.9) pode ser tomada como definição de independência entre dois
eventos, ou seja, A e B são independentes se, e somente se, (5.9) for válida.
Considere ainda a urna dos dois exemplos anteriores, mas vamos fazer três extrações
sem reposição. Indiquemos por Vi ou Bi a obtenção de bola vermelha ou branca na i-ésima
extração, respectivamente, i = 1, 2, 3. Obtemos a Figura 5.4 e a Tabela 5.6.
Exemplo 5.12
Figura 5.4 Diagrama
em árvore para a extração de três bolas de uma urna, sem reposição.
Tabela 5.6 Resultados
e probabilidades para o experimento do Exemplo 5.12.
Resultados
Probabilidades
B1B2V3
2/5 × 1/4 × 1 = 2/20 = 6/60
B1V2B3
2/5 × 3/4 × 1/3 = 6/60
B1V2V3
2/5 × 3/4 × 2/3 = 12/60
V1B2B3
3/5 × 2/4 × 1/3 = 6/60
V1B2V3
3/5 × 2/4 × 2/3 = 12/60
V1V2B3
3/5 × 2/4 × 2/3 = 12/60
V1V2V3
3/5 × 2/4 × 1/3 = 6/60
Total
60/60 = 1
Observe que P(B2|B1) = 1/4, ao passo que P(V3|B1 ∩ B2) = 1; daí,
P(B1 ∩ B2 ∩ V3) = P(B1) P(B2|B1) P(V3|B1 ∩ B2) = 2/5 × 1/4 × 1 = 1/10.
De modo geral, dados três eventos A, B e C, temos que
P(A ∩ B ∩ C) = P(A) P(B|A) P(C|A ∩ B). (5.10)
Essa relação pode ser estendida para um número finito qualquer de eventos. Veja o Problema
60.
A teoria da confiabilidade estuda sistemas e seus componentes, por exemplo,
sistemas mecânicos e eletrônicos (um automóvel ou um computador) e sistemas biológicos,
como o corpo humano. O objetivo da teoria é estudar as relações entre o funcionamento dos
Exemplo 5.13
componentes e do sistema. A Figura 5.5 (a) ilustra um sistema composto de dois componentes
ligados em série.
Figura 5.5 Sistema
com dois componentes (a) em série (b) em paralelo.
O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um
dos componentes falhar, o sistema também falhará. Supondo que os componentes funcionem
independentemente, e se pi for a probabilidade de o componente i (i = 1,2) funcionar, então a
probabilidade de o sistema funcionar será
P(F) = P(A1 ∩ A2) = P(A1)P(A2) = p1p2,
em que indicamos por F o evento “o sistema funciona” e por Ai o evento “o componente i
funciona”, i = 1, 2.
A probabilidade pi é a chamada confiabilidade do componente i e P(F) = h(p1, p2) = p1p2 a
confiabilidade do sistema.
Se os componentes 1 e 2 estiverem em paralelo, como na Figura 5.5 (b), então o sistema
funcionará se pelo menos um dos dois componentes funcionar. Ou seja,
P(F) = P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2) = p1 + p2 – p1p2
e a confiabilidade do sistema é h(p1, p2) = p1 + p2 – p1p2.
Vejamos agora o conceito de independência para três eventos: dizemos que os eventos A, B e
C são independentes se, e somente se,
P(A ∩ B) = P(A) P(B),
P(A ∩ C) = P(A) P(C),
P(B ∩ C) = P(B) P(C),
P(A ∩ B ∩ C) = P(A) P(B) P(C). (5.11)
Se apenas as três primeiras relações de (5.11) estiverem satisfeitas, dizemos que os eventos A,
B e C são mutuamente independentes. É possível que três eventos sejam mutuamente
independentes, mas não sejam completamente independentes. Veja o Problema 59.
A definição pode ser estendida facilmente para um número finito qualquer de eventos. Veja o
Problema 61.
Problemas
15. Considere uma urna contendo três bolas pretas e cinco bolas vermelhas. Retire duas bolas da urna, sem reposição.
(a) Obtenha os resultados possíveis e as respectivas probabilidades.
(b) Mesmo problema, para extrações com reposição.
16. No problema anterior, calcule as probabilidades dos eventos:
(a) Bola preta na primeira e segunda extrações.
(b) Bola preta na segunda extração.
(c) Bola vermelha na primeira extração.
17. A probabilidade de que A resolva um problema é de 2/3, e a probabilidade de que B o resolva é de 3/4. Se ambos tentarem
independentemente, qual a probabilidade de o problema ser resolvido?
18. Um dado é viciado, de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor (por exemplo, o ponto
6 é três vezes mais provável de sair do que o ponto 2). Calcular:
(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu é ímpar;
(b) a probabilidade de tirar um número par, sabendo-se que saiu um número maior que 3.
19. As probabilidades de que dois eventos independentes ocorram são p e q, respectivamente. Qual a probabilidade:
(a) de que nenhum desses eventos ocorra?
(b) de que pelo menos um desses eventos ocorra?
20. Na figura abaixo, temos um sistema com três componentes funcionando independentemente, com confiabilidades p1, p2 e p3.
Obtenha a confiabilidade do sistema.
21. Na tabela abaixo, os números que aparecem são probabilidades relacionadas com a ocorrência de A, B, A
∩ B etc. Assim,
P(A) = 0,10, enquanto P(A ∩ B) = 0,04.
B
Bc
Total
0,10
A
0,04
0,06
Ac
0,08
0,82
0,90
Total
0,12
0,88
1,00
Verifique se A e B são independentes.
22. Supondo que todos os componentes do sistema da figura abaixo tenham a mesma confiabilidade p e funcionem
independentemente, obtenha a confiabilidade do sistema.
5.4 O Teorema de Bayes
Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo
Teorema de Bayes. A versão mais simples desse teorema é dada pela Fórmula (5.12):
(5.12)
Como salientamos na seção anterior, temos a probabilidade inicial P(A) e, dada a informação
de que B ocorreu (ou dada a suposição de que B venha a ocorrer), obtemos a probabilidade a
posteriori P(A|B), dada por (5.12). Ou seja, atualizamos a probabilidade inicial, multiplicando-a
por
. Observe que P(A|B) > P(A) se P(B|A) > P(B). A probabilidade P (B|A) é
chamada verossimilhança da hipótese A.
A forma geral do Teorema de Bayes será introduzida por um exemplo.
Temos cinco urnas, cada uma com seis bolas. Duas dessas urnas (tipo C1) têm 3 bolas
brancas, duas outras (tipo C2) têm 2 bolas brancas, e a última urna (tipo C3) tem 6 bolas brancas.
Escolhemos uma urna ao acaso e dela retiramos uma bola. Qual a probabilidade de a urna
escolhida ser do tipo C3, sabendo-se que a bola sorteada é branca?
Na Figura 5.6, temos esquematizados o espaço amostral e os eventos de interesse.
Exemplo 5.14
Figura 5.6 Espaço
amostral e eventos para o Exemplo 5.14.
Queremos encontrar P(C3|B), sabendo que
P(C1) = 2/5, P(B|C1) = 1/2,
P(C2) = 2/5, P(B|C2) = 1/3,
P(C3) = 1/5, P(B|C3) = 1.
Da definição de probabilidade condicional, temos
(5.13)
A segunda igualdade é devida à Fórmula (5.8).
Precisamos encontrar o valor de P(B), já que o numerador é conhecido. Como C1, C2 e C3 são
eventos mutuamente exclusivos, e reunidos formam o espaço amostral completo, podemos
decompor o evento B na reunião de três outros, também mutuamente exclusivos, como segue
(ver também a Figura 5.6):
B = (C1 ∩ B) ∪ (C2 ∩ B) ∪ (C3 ∩ B), (5.14)
e então
Substituindo esse resultado em (5.13), obtemos
Podemos, agora, generalizar os resultados acima do seguinte modo: seja {C1, C2, ..., Cn} uma
partição do espaço amostral Ω, isto é,
Ci ∩ Cj = ø, sempre que i ≠ j,
C1 ∪ C2 ∪ ... ∪ Cn = Ω.
Considere um evento qualquer A em Ω. Supomos conhecidas as probabilidades P(Ci) e
P(A|Ci), i = 1, 2, ..., n.
Então, temos o seguinte resultado, ilustrado pela Figura 5.7.
Figura 5.7 Partição
de um espaço amostral.
Teorema 5.1 (Bayes)
A probabilidade de ocorrência do evento Ci, supondo-se a ocorrência do evento
A, é dada por
(5.15)
para todo i = 1, 2, ..., n.
Podemos pensar C1, ..., Cn como um conjunto de hipóteses, sendo somente uma delas
verdadeira. Dado que A ocorreu, a probabilidade inicial de Ci, P(Ci), é modificada de modo a se
obter P(Ci|A), dada por (5.15). Passamos da probabilidade a priori P(Ci) para a probabilidade a
posteriori P(Ci|A), multiplicando a primeira por
(5.16)
Para A fixado, as probabilidades P(A|Ci) em (5.15) são denominadas verossimilhanças das
hipóteses C1, C2, ..., Cn. Vemos que P(Ci|A) > P(Ci) se (5.16) for maior do que um, isto é, se
P(A|Ci) > P(A), em que P(A) é o denominador de (5.16). Observe que esse denominador é uma
média ponderada dos P(A|Cj) e os pesos são as probabilidades P(Cj), que têm soma unitária.
Como o numerador é sempre uma das parcelas do denominador P(A), torna-se indispensável o
uso de um novo índice, j, na decomposição deste.
Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso de
treinamento durante uma semana. No final do curso, eles são submetidos a uma prova e 25% são
classificados como bons (B), 50% como médios (M) e os restantes 25% como fracos (F). Para
facilitar a seleção, a empresa pretende substituir o treinamento por um teste contendo questões
referentes a conhecimentos gerais e específicos. Para isso, gostaria de conhecer qual a
probabilidade de um indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso.
Assim, neste ano, antes do início do curso, os candidatos foram submetidos ao teste e receberam
o conceito aprovado (A) ou reprovado (R). No final do curso, obtiveram-se as seguintes
probabilidades condicionais:
P(A|B) = 0,80, P(A|M) = 0,50, P(A|F) = 0,20.
Queremos encontrar P(F|A) e, pelo Teorema de Bayes, essa probabilidade é dada por
Exemplo 5.15
Então, apenas 10% dos aprovados é que seriam classificados como fracos durante o curso. De
modo análogo, podemos encontrar P(B|A) = 0,40 e P(M|A) = 0,50, que poderiam fornecer
subsídios para ajudar na decisão de substituir o treinamento pelo teste.
Um gráfico em árvore pode ajudar bastante na solução de um problema envolvendo o
Teorema de Bayes. Desse modo, para o Exemplo 5.15, teremos a Figura 5.8 e a Tabela 5.7.
Assim, o numerador de P(F|A) está assinalado com um pequeno círculo, ao passo que o
denominador é a soma das três parcelas assinaladas com asterisco.
Figura 5.8 Diagrama
em árvore para o Exemplo 5.15.
O Teorema de Bayes, que aparentemente poderia ser encarado como mais um resultado na
teoria de probabilidades, tem importância fundamental, pois fornece a base para uma abordagem
da inferência estatística conhecida como inferência bayesiana. Esse ponto será abordado
brevemente no Capítulo 11.
Tabela 5.7 Resultados
e probabilidades para o Exemplo 5.15.
Resultados
Probabilidades
BA
(0,25) (0,80) = 0,20*
BR
(0,25) (0,20) = 0,05
MA
(0,50) (0,50) = 0,25*
MR
(0,50) (0,50) = 0,25
FA
(0,25) (0,20) = 0,05* °
FR
(0,25) (0,80) = 0,20
O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades, como já
vimos acima. Vejamos mais um exemplo para ilustrar esse ponto.
A administração de um fundo de investimentos em ações pretende divulgar, após o
encerramento do pregão, a probabilidade de queda de um índice da bolsa no dia seguinte,
baseando-se nas informações disponíveis até aquele momento. Suponha que a previsão inicial
seja de 0,10. Após encerrado o pregão, nova informação sugere uma alta do dólar frente ao real.
A experiência passada indica que, quando houve queda da bolsa no dia seguinte, 20% das vezes
foram precedidas por esse tipo de notícia, enquanto, nos dias em que a bolsa esteve em alta,
apenas em 5% das vezes houve esse tipo de notícia no dia anterior.
Chamando de E o evento que indica “queda da bolsa”, a sua probabilidade a priori é P(E) =
0,10, enquanto a probabilidade de alta é P(Ec) = 0,90. Se B indicar “alta do dólar”, então as
verossimilhanças são dadas por
P(B|E) = 0,20, P (B|Ec) = 0,05.
Logo, pelo Teorema de Bayes, teremos que
Exemplo 5.16
ou seja,
Portanto, a nova informação aumenta a probabilidade de que haja queda na bolsa de 10% para
31%.
Suponha, agora, que horas depois surja nova informação relevante: o Banco Central irá reduzir
a taxa de juros vigente a partir do dia seguinte. Denotando-se, agora, por B1 o evento “alta do
dólar” e por B2 o evento “queda na taxa de juros”, o interesse será saber como essa nova
informação, B2, afetará a probabilidade calculada, P(E|B1). Segue-se que essa é agora a
probabilidade a priori para E com respeito a B2.
Novamente, informações passadas mostram que, dado que tenha havido alta do dólar e queda
da bolsa, 10% das vezes foram precedidas por notícias de queda de juros, enquanto, dado que
tenha havido alta do dólar e alta da bolsa, 60% das vezes foram precedidas de queda dos juros.
Então, as verossimilhanças agora serão dadas por
P(B2|E, B1) = 0,10, P(B2|Ec, B1) = 0,60.
O Teorema de Bayes fica escrito agora na forma
do que segue que
Ou seja, a informação B2 causa um decréscimo na probabilidade de queda da bolsa, de 0,31
para 0,07, que é menor ainda do que a probabilidade a priori inicial, P(E) = 0,10.
Observe que a probabilidade P(E|B1, B2) pode ser escrita também como P(E|B1 ∩ B2), ou seja,
temos a ocorrência simultânea dos eventos B1 e B2.
Problemas
23. Uma companhia produz circuitos em três fábricas, I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e a III
produzem 30% cada uma. As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 0,01,
0,04 e 0,03, respectivamente. Escolhido um circuito da produção conjunta das três fábricas, qual a probabilidade de o mesmo não
funcionar?
24. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido ao acaso seja defeituoso. Determine
qual a probabilidade de ele ter sido fabricado por I.
25. A urna I contém duas bolas pretas e três brancas, ao passo que a urna II contém três bolas pretas e três brancas. Escolhemos
uma urna ao acaso e dela extraímos uma bola que tem cor branca. Se a bola é recolocada na urna, qual é a probabilidade de se
retirar novamente uma bola branca da mesma urna?
5.5 Probabilidades Subjetivas
Na Seção 5.1 vimos como associar probabilidades a eventos. Utilizamos um enfoque chamado
frequentista, pois se baseia na estabilidade das frequências relativas e no fato de podermos,
hipoteticamente, repetir um experimento várias vezes. Mas é óbvio que nem sempre podemos
considerar replicações. Suponha que queiramos calcular a probabilidade de chover no dia 12 de
janeiro do próximo ano, na cidade de São Paulo. Evidentemente, se considerarmos o evento A =
chover em São Paulo no dia 12 de janeiro do próximo ano, ele não pode ser replicado. O que
poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu
e calcular uma frequência relativa. Se tivermos essa informação, ela evidentemente poderá ser
usada. Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade.
Se ela não tiver informação sobre o tempo em São Paulo, poderá simplesmente dizer que essa
probabilidade é de 1/2. Por outro lado, uma pessoa vivendo em São Paulo terá informações
adicionais. Por exemplo, saberá que normalmente janeiro, fevereiro e março são meses com
muita chuva. Esse morador de São Paulo poderá arriscar uma probabilidade, digamos de 2/3 para
o evento A. Vemos, portanto, que a associação de probabilidades a um evento depende de cada
indivíduo, de sua informação a respeito desse evento. Esse tipo de apreciação é particularmente
recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis
com a próxima. Por exemplo, o fenômeno El Niño pode ter ocorrido com grande intensidade em
janeiro de 1999, provocando muita chuva no sudeste do Brasil, e sua intensidade nos anos
seguintes talvez seja menor.
Respostas a questões como essa envolvem o que chamamos de probabilidade subjetiva. Ou
seja, cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito do
evento em questão, pode ter uma resposta para a probabilidade desse evento. A Inferência
Bayesiana, de que trataremos brevemente neste livro (veja o Capítulo 11), toma como uma de
suas bases o fato de que todas as probabilidades são subjetivas. O Teorema de Bayes tem papel
importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de
opiniões. Ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A.
Um ingrediente básico quando se associam probabilidades é a coerência. Se um indivíduo
julgar que um evento A é mais provável que seu complementar, então ele deverá, como que
apostando na ocorrência de A, associar uma probabilidade maior do que 1/2 ao evento A. Por
exemplo, se ele julgar que uma proporção 3 : 1 a favor de A é razoável, então ele deverá sugerir
P(A) = 3/4. A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões.
As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas
vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência. Há outras
maneiras de se associar probabilidades a eventos e os interessados poderão consultar O’Hagan
(1994), por exemplo, para obter mais informações sobre esse assunto e outros ligados à
Inferência Bayesiana.
5.6 Problemas Suplementares
26. Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato à base de carne. Considere que
20% dos fregueses do sexo masculino preferem a salada, 30% das mulheres escolhem carne, 75% dos fregueses são homens e os
seguintes eventos:
H: freguês é homem A: freguês prefere salada
M: freguês é mulher B: freguês prefere carne
Calcular:
(a) P(H), P(A|H), P(B|M);
(b) P(A ∩ H), P(A ∪ H);
(c) P(M|A).
27. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o
hospital. Os resultados são apresentados na tabela:
Homens
Mulheres
Usaram o hospital
100
150
Não usaram o hospital
900
850
(a) Qual a probabilidade de que uma pessoa segurada use o hospital?
(b) O uso do hospital independe do sexo do segurado?
28. As probabilidades de três motoristas serem capazes de guiar até em casa com segurança, depois de beber, são de 1/3, 1/4 e
1/5, respectivamente. Se decidirem guiar até em casa, depois de beber numa festa, qual a probabilidade de todos os três
motoristas sofrerem acidentes? Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo?
29. Duas lâmpadas queimadas foram acidentalmente misturadas com seis lâmpadas boas. Se vamos testando as lâmpadas, uma
por uma, até encontrar duas defeituosas, qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste?
30. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada uma tendo apenas um ganhador. Um
homem tem 100 bilhetes de cada. Qual a probabilidade de que:
(a) ele ganhe exatamente um prêmio?
(b) ele ganhe alguma coisa?
31. Uma companhia de seguros vendeu apólices a cinco pessoas, todas da mesma idade e com boa saúde. De acordo com as
tábuas atuariais, a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 2/3. Calcular a probabilidade
de que daqui a 30 anos:
(a) exatamente duas pessoas estejam vivas;
(b) todas as pessoas estejam vivas; e
(c) pelo menos três pessoas estejam vivas.
(Indique as suposições necessárias para a resolução do problema.)
32. Num teste com duas marcas que lhe são apresentadas em ordem aleatória, um experimentador de vinhos faz três
identificações corretas em três tentativas.
(a) Qual a probabilidade de isso ocorrer, se na realidade ele não possuir habilidade alguma para distingui-los?
(b) E se a probabilidade de distinguir corretamente é de 90% em cada tentativa?
33. Um grupo de 12 homens e 8 mulheres concorre a três prêmios por meio de um sorteio, sem reposição de seus nomes. Qual a
probabilidade de:
(a) nenhum homem ser sorteado?
(b) um prêmio ser ganho por homem?
(c) dois homens serem premiados?
34. Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício.
Ele acha que a probabilidade de ganhar a concorrência da parte elétrica é de 1/2. Caso ele ganhe a parte elétrica, a chance de
ganhar a parte de encanamento é de 3/4; caso contrário, essa probabilidade é de 1/3. Qual a probabilidade de ele:
(a) ganhar os dois contratos?
(b) ganhar apenas um?
(c) não ganhar nada?
35. Em média, 5% dos produtos vendidos por uma loja são devolvidos. Qual a probabilidade de que, das quatro próximas
unidades vendidas desse produto, duas sejam devolvidas?
36. Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independentemente quando qualquer coisa
indesejável ocorrer. Se cada alarme tem probabilidade 0,9 de trabalhar eficientemente, qual é a probabilidade de se ouvir o alarme
quando necessário?
37. Em uma fábrica de parafusos, as máquinas A, B e C produzem 25%, 35% e 40% do total, respectivamente. Da produção de
cada máquina 5%, 4% e 2%, respectivamente, são parafusos defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que é
defeituoso. Qual a probabilidade de que o parafuso venha da máquina A; da B; e da C?
38. Um fabricante afirma que apenas 5% de todas as válvulas que produz têm duração inferior a 20 horas. Uma indústria compra
semanalmente um grande lote de válvulas desse fabricante, mas sob a seguinte condição: ela aceita o lote se, em dez válvulas
escolhidas o acaso, no máximo uma tiver duração inferior a 20 horas; caso contrário, o lote todo é rejeitado.
(a) Se o fabricante de fato tem razão, qual a probabilidade de um lote ser rejeitado?
(b) Suponha agora que o fabricante esteja mentindo, isto é, na verdade a proporção de válvulas com duração inferior a 20 horas
é de 10%. Qual a probabilidade de um lote ser aceito, segundo o critério acima?
39. Para estudar o comportamento do mercado automobilístico, as marcas foram divididas em três categorias: marca F, marca W,
e as demais reunidas como marca X. Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de
probabilidade:
Probabilidade de mudança para
Proprietário de carro da marca
W
F
X
W
0,50
0,25
0,25
F
0,15
0,70
0,15
X
0,30
0,30
0,40
A compra do primeiro carro é feita segundo as seguintes probabilidades: marca W com 50%, marca F com 30% e marca X com
20%.
(a) Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W?
(b) Se o terceiro carro é da marca W, qual a probabilidade de o primeiro também ter sido W?
40. A empresa M & B tem 15.800 empregados, classificados de acordo com a tabela abaixo.
Idade Sexo
Homens (M)
Mulheres (F)
Total
< 25 anos (A)
2.000
800
2.800
25 – 40 anos (B)
4.500
2.500
7.000
> 40 anos (C)
1.800
4.200
6.000
Total
8.300
7.500
15.800
Se um empregado é selecionado ao acaso, calcular a probabilidade de ser ele:
(a) um empregado com 40 anos de idade ou menos;
(b) um empregado com 40 anos de idade ou menos, e mulher;
(c) um empregado com mais de 40 anos de idade e que seja homem;
(d) uma mulher, dado que é um empregado com menos de 25 anos.
41. Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso, com reposição. Qual a probabilidade de que:
(a) ambos sejam do sexo masculino;
(b) o primeiro tenha menos de 25 anos, e o segundo seja do sexo masculino e tenha menos de 25 anos;
(c) nenhum tenha menos de 25 anos.
42. Resolva as questões (a) e (c) do Problema 41, supondo que a amostragem é feita sem reposição.
43. Numa empresa existem operários de determinada categoria, com idades iguais a a, b e c anos (existem pelo menos três com a
mesma idade). Escolhem-se três ao acaso para que façam determinado curso. Se indicarmos por x a idade do primeiro, y a do
segundo e z a do terceiro, o terno (x, y, z) indica cada possível resultado. Enumere:
(a) o espaço amostral; e
(b) os eventos A = {(x, y, z)|x = y = z}, B = {(x, y, z)|x = y}.
44. Os colégios A, B e C têm as seguintes porcentagens de rapazes, respectivamente: 40%, 20% e 10%. Um desses colégios é
selecionado ao acaso e oito alunos são escolhidos, com reposição. Se o resultado for RRRMMMMM (R para rapaz e M para
moça), qual é a probabilidade de ter sido selecionado o colégio C?
45. Um inspetor da seção de controle de qualidade de uma firma examina os artigos de um lote que tem m peças de primeira
qualidade e n peças de segunda qualidade. Uma verificação dos b primeiros artigos selecionados ao acaso do lote mostrou que
todos eram de segunda qualidade (b < n - 1). Qual a probabilidade de que entre os dois próximos artigos selecionados, ao acaso,
dos restantes, pelo menos um seja de segunda qualidade?
46. Prove que, se A e B são independentes, também o serão Ac e Bc, A e Bc e Ac e B.
47. Obtenha uma fórmula para P(A ∪ B ∪ C).
48. Na figura abaixo, temos um sistema chamado ponte. Nas mesmas condições do Problema 22, obtenha a confiabilidade do
sistema.
49. Considere o quadrado com vértices (0,0), (1,0), (0,1) e (1,1). Suponha que a probabilidade de uma região A (evento) seja a
área dessa região.
(a) Represente graficamente o evento A = conjunto dos pontos cuja distância à origem seja menor ou igual a 1.
(b) Calcule P(A).
(c) Calcule a probabilidade do evento B = {(x, y) : x ≥ b ou y ≥ b}, em que b é um número tal que 0 < b < 1.
(d) Calcule P(Bc), em que B foi definido em (c).
50. Considere Ω como o quadrado da figura do Problema 49. Considere os eventos:
A = {(x, y) : 1/3 ≤ x ≤ 2/3, 0 ≤ y ≤ 1/2}
B = {(x, y) : 1/2 ≤ x ≤ 1, 1/4 ≤ y ≤ 3/4}.
Calcular P(A), P(B), P(A ∪ B), P(Ac), P(Bc) e P(Ac ∩ Bc).
51. Considere, agora, a situação do Problema 49, mas suponha que o quadrado não tenha área unitária. Como você definiria a
probabilidade de um evento A?
52. Suponha uma população de N elementos a1, a2, ..., aN. Qualquer arranjo ordenado ai1, ai2, ..., ain de n símbolos é chamado de
uma amostra ordenada de tamanho n, extraída da população. Considere o símbolo (N)n como significando N(N - 1) ... (N - n +
1). Suponha n < N. Mostre que existem Nn amostras com reposição (um mesmo elemento pode ser retirado mais de uma vez) e
(N)n amostras sem reposição (um elemento, quando escolhido, é removido da população, não havendo, pois, repetição na
amostra).
53. Uma amostra ordenada de tamanho n, extraída de uma população com N elementos, produz um plano aleatório simples se
todas as possíveis amostras têm a mesma probabilidade de serem escolhidas; essa probabilidade será 1/Nn se a amostra for com
reposição e 1/(N)n se for sem reposição. Uma amostra casual de tamanho n, com reposição, é extraída de uma população com N
elementos. Encontre a probabilidade de não haver repetição na amostra.
54. Considere
Observe a situação do Problema 52, na qual não levamos em consideração a ordem do
conjunto ai1, ai2, ..., ain.
Mostre que existem
amostras sem reposição.
55. (a) Se A, B e C são independentes, prove que A e B ∩ C são independentes.
(b) Nas mesmas condições, prove que A ∪ B e C são independentes.
56. Dizemos que A ⊂ B (A é subconjunto de B) se todo elemento de A também pertence a B. Por exemplo, {1, 2} ⊂ {1, 2, 3}.
Se P(A) = 1/3, P(Bc) = 1/4, A e B podem ser disjuntos (ou mutuamente exclusivos)? (Sugestão: P(A) = P(A ∩ B) + P(A
∩ Bc) e
A∩ ⊂
Use o fato de que, se A ⊂ B, P(A) ≤ P(B).)
57. Um sistema é composto de três componentes 1, 2 e 3, com confiabilidade 0,9, 0,8 e 0,7, respectivamente. O componente 1 é
indispensável ao funcionamento do sistema; se 2 ou 3 não funcionam, o sistema funciona, mas com um rendimento inferior. A
falha simultânea de 2 e 3 implica o não-funcionamento do sistema. Supondo que os componentes funcionem independentemente,
calcular a confiabilidade do sistema.
Bc
Bc.
58. Prove (5.4). (Sugestão: escreva U ∪ V e V como reuniões de eventos mutuamente exclusivos.)
59. Há quatro bolas numa urna, numeradas 000, 011, 101, 110. Selecione uma bola ao acaso da urna. Considere os eventos
Ai: na bola selecionada, o número 1 aparece na posição i, i = 1, 2, 3.
Seja A = A1 ∩ A2 ∩ A3.
(a) Calcule P(Ai), i = 1, 2, 3 e P(A).
(b) Mostre que A1, A2 e A3 são mutuamente independentes, mas não são independentes.
60. Como fica a relação (5.10) para n eventos quaisquer A1, A2, ..., An?
61. Definir independência para n eventos quaisquer A1, ..., An.
62. O problema do aniversário. Considere k pessoas numa sala. Qual a probabilidade de que pelo menos duas pessoas façam
aniversário no mesmo dia e mês? A partir de qual valor de k essa probabilidade é maior que 0,5?
(Sugestão: seja A o evento “pelo menos duas pessoas fazem aniversário no mesmo dia”. O evento complementar é Ac: “todas as k
pessoas fazem aniversário em dias diferentes”. Calcule primeiro a P(Ac). Para isso, use o resultado do Problema 53. Aqui, temos
N = 365 dias e k = n pessoas. Se P(A) = p, então mostre que
Note que há k fatores no numerador e no denominador dessa expressão.)
63. Mostre que a probabilidade 1 - p do Problema 62 pode ser escrita como
para k pequeno. Como ficará P(A) neste caso?
64. Num mercado, três corretoras A, B e C são responsáveis por 20%, 50% e 30% do volume total de contratos negociados,
respectivamente. Do volume de cada corretora, 20%, 5% e 2%, respectivamente, são contratos futuros em dólares. Um contrato é
escolhido ao acaso e este é futuro em dólares. Qual é a probabilidade de ter sido negociado pela corretora A? E pela corretora C?
65. Lance uma moeda duas vezes e sejam os eventos: A: cara no primeiro lançamento,
B: cara no segundo lançamento e C: as duas moedas mostram faces diferentes.
Mostre que A, B e C são dois a dois independentes, mas não totalmente independentes.
66. O Problema de Monty Hall. Num programa de TV, o objetivo é ganhar um carro como prêmio. O apresentador do programa
mostra a você três portas, P1, P2 e P3: atrás de uma há um carro e, das outras, duas cabras. Ele pede a você para escolher uma
porta, você escolhe P1, mas essa não é aberta. Então, ele abre uma das outras duas portas e mostra uma cabra (ele sabe o que há
atrás de cada porta). Então ele pergunta se você quer mudar sua escolha de porta. O que você faria?
[Sugestão: solução informal: faça a árvore de possibilidades. Solução formal: seja G o evento: ganhar o carro, mudando sua
escolha. Seja Ci o evento: carro está atrás da porta Pi, i = 1, 2, 3 e seja Hi o evento: apresentador abriu a porta Pi, i = 1, 2, 3.
Escreva G como uma reunião disjunta de dois eventos e use (5.8).]
67. Defina a diferença simétrica entre os eventos A e B como A ∆ B = (Ac ∩ B) ∪ (A ∩ Bc). Calcule P(A ∆ B) para os eventos
A e B do Exemplo 5.7.
Capítulo 6
Variáveis Aleatórias Discretas
6.1 Introdução
No capítulo anterior, introduzimos alguns modelos probabilísticos por meio de espaços
amostrais bem simples. Isso facilitou bastante a compreensão do conceito de probabilidade e a
obtenção de algumas propriedades. Mas, para atender a situações práticas mais gerais,
necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que
representem todos os tipos de variáveis definidas no Capítulo 2. Muito do que foi apresentado
naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo
teórico.
Para as variáveis qualitativas, a descrição de probabilidades associadas a eventos construída
no capítulo precedente adapta-se muito bem. Dada a sua simplicidade, trataremos aqui de
variáveis quantitativas discretas. Já os modelos para variáveis contínuas necessitarão de um
artifício matemático, baseado em uma generalização do conceito de histograma, definido na
Seção 2.3, e esse será o objetivo do próximo capítulo. A extensão dos modelos para várias
variáveis será tratada no Capítulo 8.
Por outro lado, quando estudamos a descrição de dados, vimos que os recursos disponíveis
para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis
qualitativas. Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do
primeiro tipo. Por exemplo, considere o caso de um questionário em que uma pessoa é indagada
a respeito de uma proposição, e as respostas possíveis são sim ou não. Podemos associar ao
problema uma variável que toma dois valores, 1 ou 0, por exemplo, correspondentes às respostas
sim ou não, respectivamente. Esse tipo de variável será estudado neste capítulo.
O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante, e
grande parte do restante deste livro será dedicada à construção desses modelos e inferências
sobre seus parâmetros. Essas variáveis, para as quais iremos construir modelos probabilísticos,
serão chamadas de variáveis aleatórias (v.a.).
6.2 O Conceito de Variável Aleatória Discreta
O conceito de v.a. discreta será introduzido por meio de um exemplo.
Um empresário pretende estabelecer uma firma para montagem de um produto
composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes (A e B), e
a montagem consistirá em juntar as duas partes e pintá-las. O produto acabado deve ter o
comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites,
Exemplo 6.1
e isso só poderá ser verificado após a montagem. Para estudar a viabilidade de seu
empreendimento, o empresário quer ter uma ideia da distribuição do lucro por peça montada.
Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua
medida esteja dentro da especificação, maior ou menor que a especificada, respectivamente.
Além disso, foram obtidos dos fabricantes o preço de cada componente ($ 5,00) e as
probabilidades de produção de cada componente com as características bom, longo e curto. Esses
valores estão na Tabela 6.1.
Se o produto final apresentar algum componente com a característica C (curto), ele será
irrecuperável, e o conjunto será vendido como sucata ao preço de $ 5,00. Cada componente
longo poderá ser recuperado a um custo adicional de $ 5,00. Se o preço de venda de cada
unidade for de $ 25,00, como seria a distribuição de frequências da variável X: lucro por
conjunto montado?
Tabela 6.1 Distribuição
da produção das fábricas A e B, de acordo com as medidas das peças produzidas.
Produto
Fábrica A
Cilindro
Fábrica B
Esfera
Dentro das especificações bom (B)
0,80
0,70
Maior que as especificações longo (L)
0,10
0,20
Menor que as especificações curto (C)
0,10
0,10
Fonte: Retirada das especificações técnicas das fábricas A e B.
A construção dessa distribuição de frequências vai depender de certas suposições que faremos
sobre o comportamento do sistema considerado. Com base nessas suposições, estaremos
trabalhando com um modelo da realidade, e a distribuição que obtivermos será uma distribuição
teórica, tanto mais próxima da distribuição de frequências real quanto mais fiéis à realidade
forem as suposições.
Primeiramente, vejamos a construção do espaço amostral para a montagem dos conjuntos
segundo as características de cada componente e suas respectivas probabilidades. Como os
componentes vêm de fábricas diferentes, vamos supor que a classificação dos cilindros e a da
esfera, segundo suas características, sejam eventos independentes. Obteremos a configuração da
Figura 6.1.
Uma representação do espaço amostral em questão está apresentada na Tabela 6.2 e foi obtida
da Figura 6.1.
Figura 6.1 Diagrama
em árvore para o Exemplo 6.1.
Tabela 6.2 Distribuição
de probabilidade das possíveis composições das montagens.
Produto
Probabilidade
Lucro por montagem (X)
BB
0,56
15
BL
0,16
10
BC
0,08
–5
LB
0,07
10
LL
0,02
5
LC
0,01
–5
CB
0,07
–5
CL
0,02
–5
CC
0,01
–5
Fonte: Figura 5.1 e informações no texto.
A última coluna da Tabela 6.2 foi construída com base nas informações sobre preços. Por
exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do preço de venda $ 25,00
devemos descontar: $ 10,00 dos custos dos componentes e $ 5,00 para recuperar o cilindro
longo. Portanto, o lucro X desse conjunto será $ 10,00. Verifique os lucros das demais
montagens.
Com os dados da Tabela 6.2, vemos que X pode assumir um dos seguintes valores:
15, se ocorrer o evento A1 = {BB};
10, se ocorrer o evento A2 = {BL, LB};
5, se ocorrer o evento A3 = {LL};
-5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}.
Cada um desses eventos tem uma probabilidade associada, ou seja,
P(A1) = 0,56, P(A2) = 0,23,
P(A3) = 0,02, P(A4) = 0,19,
o que nos permite escrever a função (x, p (x)) da Tabela 6.3, que é um modelo teórico para a
distribuição da variável X, que o empresário poderá usar para julgar a viabilidade econômica do
projeto que ele pretende realizar. Aqui, x é o valor da v.a. X e p(x) é a probabilidade de X tomar o
valor x. Voltaremos a esse problema mais adiante.
Tabela 6.3 Distribuição
da v.a. X.
x
p(x)
15
0,56
10
0,23
5
0,02
–5
0,19
Total
1,00
A função (x, p (x)) é chamada função de probabilidade da v.a. X. Esquematicamente teremos a
situação da Figura 6.2.
Figura 6.2 Função
de probabilidade da v.a. X = lucro por montagem.
É evidente que, ao mesmo espaço amostral da Tabela 6.2, podemos associar outras variáveis
aleatórias, como veremos a seguir.
Se considerarmos Y como a variável “custo de recuperação de cada conjunto
produzido”, verificaremos que Y irá assumir os valores
0, se ocorrer o evento B1 = {BB, BC, LC, CB, CL, CC};
5, se ocorrer o evento B2 = {BL, LB};
10, se ocorrer o evento B3 = {LL}.
Exemplo 6.2
A função de probabilidade da v.a. Y está representada na Tabela 6.4 e a Figura 6.3 representa a
situação esquematicamente.
Figura 6.3 Função
de probabilidade da
v.a. Y = custo de recuperação.
Tabela 6.4 Distribuição
da v.a. Y.
y
p(y)
0
0,75
5
0,23
10
0,02
Total
1,00
Deduz-se do exposto que uma v.a. X, do tipo discreto, estará bem caracterizada se indicarmos
os possíveis valores x1, x2, ..., xn, ... que ela pode assumir e as respectivas probabilidades p(x1),
p(x2), ..., p(xn), ..., ou seja, se conhecermos a sua função de probabilidade (x, p(x)). Também
usaremos a notação p(x) = P(X = x).
Em algumas situações, a determinação da função de probabilidade (f.p.) é bem mais simples.
Isso pode ser verificado pelos dois exemplos seguintes.
Voltemos à situação do Exemplo 5.10, em que consideramos duas extrações, sem
reposição, de uma urna contendo duas bolas brancas e três bolas vermelhas. Definamos a v.a. X:
número de bolas vermelhas obtidas nas duas extrações. Obtemos a Tabela 6.5 e a Figura 6.4.
Exemplo 6.3
Tabela 6.5 Extrações
sem reposição de urna com duas bolas brancas e três bolas vermelhas.
Resultados
Probabilidades
X
BB
1/10
0
BV
3/10
1
VB
3/10
1
VV
3/10
2
Fonte: Figura 6.4.
Figura 6.4 Diagrama
em árvore para o Exemplo 6.3.
Vemos, pois, que a cada resultado do experimento está associado um valor da v.a. X, a saber,
0, 1 ou 2.
Temos que X = 0, com probabilidade 1/10, pois X = 0 se, e somente se, ocorre o resultado BB;
X = 1 com probabilidade 3/10 + 3/10 = 6/10, pois X = 1 se, e somente se, ocorrem os resultados
BV ou VB, que são mutuamente exclusivos; finalmente, X = 2 com probabilidade 3/10, pois X =
2 se, e somente se, ocorre o resultado VV. Resumidamente,
p(0) = P(X = 0) = P(BB) = 1/10,
p(1) = P(X = 1) = P(BV ou VB) = 6/10,
p(2) = P(X = 2) = P(VV) = 3/10.
Na Tabela 6.6, apresentamos a distribuição de probabilidades da v.a. X.
Tabela 6.6 Distribuição
de probabilidades da v.a. X = número de bolas vermelhas.
x
p(x)
0
1/10
1
6/10
2
3/10
Fonte: Tabela 6.5.
Retomemos o Exemplo 5.3, em que consideramos o lançamento de uma moeda duas
vezes. Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos, então:
p(0) = P(Y = 0) = P(RR) = 1/4,
p(1) = P(Y = 1) = P(CR ou RC) = 1/4 + 1/4 = 1/2,
p(2) = P(Y = 2) = P(CC) = 1/4.
Na Tabela 6.7 e na Figura 6.5, temos esquematizado o que ocorre e na Tabela 6.8
apresentamos a distribuição de probabilidades de Y.
Exemplo 6.4
Tabela 6.7 Lançamento
de duas moedas.
Resultados
Probabilidades
Y
CC
1/4
2
CR
1/4
1
RC
1/4
1
RR
1/4
0
Fonte: Figura 6.5.
Figura 6.5 Diagrama
em árvore para o Exemplo 6.4.
Tabela 6.8 Distribuição
da v.a. Y = número de caras.
y
p(y)
0
1/4
1
1/2
2
1/4
Fonte: Tabela 6.7.
Dos exemplos apresentados, vemos que, a cada ponto do espaço amostral, a variável sob
consideração associa um valor numérico, o que corresponde em Matemática ao conceito de
função, mais precisamente, a uma função definida no espaço amostral Ω e assumindo valores
reais.
Uma função X, definida no espaço amostral Ω e com valores num conjunto enumerável
de pontos da reta é dita uma variável aleatória discreta.
Esquematicamente, teremos a situação da Figura 6.6.
Definição.
Figura 6.6 Definição
de uma v.a.
Vimos, também, como associar a cada valor xi da v.a. X sua probabilidade de ocorrência. Ela é
dada pela probabilidade do evento A de Ω, cujos elementos correspondem ao valor xi (veja
Figuras 6.2 e 6.3). Matematicamente, podemos escrever
P(X = xi) = P(A),
onde
A = {ω1, ω2, ...} ⊂ Ω
é tal que X(ωi) = xi, se ωi ∈ A e X(ωi) ≠ xi, se ωi ∈ Ac.
Chama-se função de probabilidade da v.a. discreta X, que assume os valores x1, x2, ..., xn,
..., a função {(xi, p(xi)), i = 1, 2, ...}, que a cada valor de xi associa a sua probabilidade de
ocorrência, isto é,
p(xi) = P(X = xi) = pi, i = 1, 2, ...
Definição.
Problemas
1. Considere uma urna contendo três bolas vermelhas e cinco pretas. Retire três bolas, sem reposição, e defina a v.a. X igual ao
número de bolas pretas. Obtenha a distribuição de X.
2. Repita o problema anterior, mas considerando extrações com reposição.
3. Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez. Seja X o número de lançamentos até que
isso aconteça. Obtenha a distribuição de X. (Observe que, nesse problema, pelo menos teoricamente, X pode assumir um
número infinito de valores.) Veja também o Problema 55.
4. Uma moeda perfeita é lançada quatro vezes. Seja Y o número de caras obtidas. Calcule a distribuição de Y.
5. Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabilidade de cara dada por p, 0 < p < 1, p
≠ 1/2.
6. Generalize o Problema 5, para n lançamentos da moeda.
6.3 Valor Médio de uma Variável Aleatória
Vamos introduzir o conceito de valor médio por meio do seguinte exemplo.
Uma pergunta que logo ocorreria ao empresário do Exemplo 6.1 é qual o lucro médio
por conjunto montado que ele espera conseguir. Da Tabela 6.3, observamos que 56% das
montagens devem produzir um lucro de 15 reais, 23% um lucro de dez reais, e assim por diante.
Logo, o lucro esperado por montagem será dado por
Exemplo 6.5
lucro médio = (0,56)(15) + (0,23)(10) + (0,02)(5) + (0,19)(–5) = 9,85.
Isto é, caso sejam verdadeiras as suposições feitas para determinar a distribuição da v.a., o
empresário espera ter um lucro de 9,85 reais por conjunto montado.
Dada a v.a. X discreta, assumindo os valores x1, ..., xn, chamamos valor médio ou
esperança matemática de X ao valor
Definição.
(6.1)
A Fórmula (6.1) é semelhante àquela utilizada para a média, introduzida no Capítulo 3, na
qual no lugar das probabilidades pi tínhamos as frequências relativas fi. A distinção entre essas
duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto, e a
segunda, a valores observados da variável. Como pi e fi têm a mesma interpretação, todas as
medidas e gráficos discutidos no Capítulo 2, baseados na distribuição das fi, possuem um
correspondente na distribuição de uma v.a. Além do valor médio, ou simplesmente média,
definido acima, podemos considerar também outras medidas de posição e variabilidade, como a
mediana e o desvio padrão. Veja a Seção 6.8 para a definição da mediana de uma v.a. discreta.
Vamos considerar agora a definição de variância.
Definição.
Chamamos de variância da v.a. X o valor
(6.2)
O desvio padrão de X, DP(X), é definido como a raiz quadrada positiva da variância.
Exemplo 6.6
Deixamos a cargo do leitor verificar que, no caso do problema do empresário,
teremos:
(i) Var(X) = 57,23;
(ii) DP(X) = 7,57;
(iii) gráfico de (x, p(x)): Figura 6.7.
Figura 6.7 Gráfico
de p(x): distribuição da v.a. X = lucro por montagem.
Até agora, consideramos o caso em que a v.a. X pode assumir um número finito de
valores. Mas uma v.a. discreta X pode assumir um número infinito, porém enumerável, de
valores, x1, ..., xn, ..., com probabilidades p1, ..., pn, ..., tal que cada pi > 0 e a soma de todos os pi
seja 1, ou seja,
. Veja o Problema 3. Nesse caso, a definição de esperança deve ser
modificada. A soma na Fórmula (6.1) é uma “soma infinita”, que temos de supor que seja
“convergente”.
Observação.
Problemas
7. Obtenha a média e a variância da v.a. X dos Problemas 1 e 2.
8. Obter a média e a variância da v.a. Y do Problema 4.
6.4 Algumas Propriedades do Valor Médio
Retomemos o Exemplo 6.1 para ilustrar algumas propriedades da média de uma v.a.
Suponha que todos os preços determinados pelo empresário do Exemplo 6.1
estivessem errados. Na realidade, todos os valores deveriam ser duplicados, isto é, custos e
preços de venda. Isso corresponde à transformação Z = 2X. As probabilidades associadas à v.a. Z
serão as mesmas da v.a. X, pois cada valor de X irá corresponder a um único valor de Z. Na
Tabela 6.9, temos a distribuição de Z.
O valor médio da v.a. Z é obtido por
Exemplo 6.7
Suponha, agora, que queiramos a distribuição da v.a. W = X2. Baseados na Tabela 6.3,
obtemos a Tabela 6.10.
Tabela 6.9 Distribuição
da variável aleatória Z = 2X.
x
z = 2x
p(z) = p(x)
z · p(z)
15
30
0,56
16,80
10
20
0,23
4,60
5
10
0,02
0,20
–5
–10
0,19
–1,90
Total
—
1,00
19,70
Fonte: Tabela 6.3.
Tabela 6.10 Distribuição
2
da variável aleatória W = X .
w
p(w)
w · p(w)
225
0,56
126,00
100
0,23
23,00
25
0,21
5,25
Total
1,00
154,25
Fonte: Tabela 6.3.
Observe que o evento {W = 25} ocorre quando {X = 5 ou X = –5}, portanto P(W = 25) = P(X
= 5) + P(X = –5) = 0,02 + 0,19 = 0,21. Segue-se que a média de W é
E(W) = Σwip(wi) = (225)(0,56) + (100)(0,23) + (25)(0,21)
= (225)(0,56) + (100)(0,23) + {(25)(0,02) + (25)(0,19)}
= Σx2ip(xi) = 154,25.
Quanto às esperanças de Z e W, transformadas de X, é fácil ver que elas podem ser escritas por
meio da f.p. de X.
Dada a v.a. discreta X e a respectiva função de probabilidade p(x), a esperança
matemática da função h(X) é dada por
Definição.
E[h(X)] = Σh(xi)p(xi). (6.3)
As seguintes propriedades podem ser facilmente demonstradas (veja o Problema 45):
(a) Se h(X) = aX + b, onde a e b são constantes, então
E(aX + b) = aE(X) + b, (6.4)
Var(aX + b) = a2Var(X). (6.5)
(b) Var(X) = E(X2) - [(E(X)]2 = Σ x2i p(xi) - [Σxi p(xi)]2. (6.6)
A Fórmula (6.6) deve ser usada para facilitar o cálculo da variância.
Observação.
A propriedade (6.4) não vale, em geral, para funções não lineares. Veja o Problema
58.
Exemplo 6.8
Usando os resultados dos Exemplos 6.5 e 6.7, obtemos
Var(X) = 154,25 - (9,85)2 = 57,23.
Observação.
Usaremos os símbolos abaixo para indicar a média e a variância de uma v.a. X:
E(X) = µ(X),
Var(X) = σ2(X),
ou, simplesmente, µ e σ2, respectivamente, se não houver possibilidade de confusão.
6.5 Função de Distribuição Acumulada
No Capítulo 2, demos a definição de função de distribuição acumulada ou empírica para um
conjunto de n observações. O equivalente teórico para variáveis aleatórias é definido a seguir.
Dada a variável aleatória X, chamaremos de função de distribuição acumulada (f.d.a.),
ou simplesmente função de distribuição (f.d.) F(x) à função
Definição.
F(x) = P(X ≤ x). (6.7)
Observe que o domínio de F é todo o conjunto dos números reais, ao passo que o
contradomínio é o intervalo [0,1].
Voltando ao problema do empresário e usando a f.p. de X definida na Tabela 6.3, a
f.d.a. de X será dada por
Exemplo 6.9
cujo gráfico está na Figura 6.8.
Figura 6.8 f.d.a.
para a v.a. X = lucro por montagem.
Observe que P(X = xi) é igual ao salto que a função F(x) dá no ponto xi; por exemplo, P(X =
10) = 0,23 = F(10) - F(10–). De modo geral, P(X = xi) = F(xi) - F(xi –), em que lembramos que
F(a–) = limx → a F(x). Observe, também, que o conhecimento de F(x) é equivalente ao
conhecimento da f.p. de X.
–
Problemas
9. No Problema 1, obtenha as distribuições das v.a. 3X e X2.
10. Considere o lançamento de três moedas. Se ocorre o evento CCC, dizemos que temos uma sequência, ao passo que se ocorre
o evento CRC temos três sequências. Defina a v.a. X
= número de caras obtidas e Y = número de sequências, isso para cada
resultado possível. Assim, X (CRR) = 1 e Y (CRR) = 2. Obtenha as distribuições de X e Y. Calcule E(X), E(Y), Var(X) e Var(Y).
11. Suponha que a v.a. V tem a distribuição seguinte:
Obtenha E(V) e Var(V).
v
0
p(v)
q
1
1
-q
12. Seja X com distribuição dada abaixo; calcule E(X). Considere a v.a. (X - a)2 e calcule E(X - a)2 para a = 0, 1/4,
1/2, 3/4, 1.
a)2
Obtenha o gráfico de E(X = g(a).
Para qual valor de a, g(a) é mínimo?
x
0
p(x)
1/2
1
2
1/4 1/4
13. Um vendedor de equipamento pesado pode visitar, num dia, um ou dois clientes, com probabilidade de 1/3 ou 2/3,
respectivamente. De cada contato, pode resultar a venda de um equipamento por $ 50.000,00 (com probabilidade 1/10) ou
nenhuma venda (com probabilidade 9/10). Indicando por Y o valor total de vendas diárias desse vendedor, escreva a função de
probabilidade de Y e calcule o valor total esperado de vendas diárias.
14. Calcule a variância da v.a. Y definida no Problema 13.
15. Obter a f.d.a. para a v.a. V do Problema 11. Faça seu gráfico.
16. Calcule a f.d.a. da v.a. Y do Problema 10 e faça seu gráfico.
17. O tempo T, em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de
probabilidade.
t
2
3
4
5
6
7
p(t)
0,1
0,1
0,3
0,2
0,2
0,1
(a) Calcule o tempo médio de processamento.
Para cada peça processada, o operário ganha um fixo de $ 2,00, mas, se ele processa a peça em menos de seis minutos, ganha $
0,50 em cada minuto poupado. Por exemplo, se ele processa a peça em quatro minutos, recebe a quantia adicional de $ 1,00.
(b) Encontre a distribuição, a média e a variância da v.a. G: quantia em $ ganha por peça.
18. Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua f.d.a. F(x) é tal que
F(1) - F(1 -) = 1/3,
F(2) - F(2 -) = 1/6,
F(3) - F(3 -) = 1/2.
Obtenha a distribuição de X, a f.d.a. F(x) e os gráficos respectivos.
19. Obtenha a f.d.a. F(t) da v.a. T do Problema 17.
6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias
Discretas
Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção
de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros.
Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades, em
função de seus parâmetros. Nesta seção, iremos estudar alguns desses modelos, procurando
enfatizar as condições em que eles aparecem, suas funções de probabilidade, parâmetros e como
calcular probabilidades.
6.6.1 Distribuição Uniforme Discreta
Este é o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma
probabilidade.
A v.a. discreta X, assumindo os valores x1, ..., xk, tem distribuição uniforme se, e
somente se,
Definição.
(6.8)
para todo i = 1, 2, ..., k.
É fácil verificar que
(6.9)
(6.10)
e que a função de distribuição acumulada é dada por
(6.11)
em que n(x) é o número de xi ≤ x (veja a Figura 6.9).
Figura 6.9 Distribuição
uniforme discreta.
Seja X a v.a. que indica o “número de pontos marcados na face superior de um dado”,
quando ele é lançado. Obtemos na Tabela 6.11 a distribuição de X. Temos, também,
E(X) = 1/6 {1 + 2 + 3 + 4 + 5 + 6} = 21/6 = 3,5,
Exemplo 6.10
Var(X) = 1/6 {(1 + 4 + ... + 36) - (21)2/6} = 35/12 = 2,9.
Tabela 6.11 Número
de pontos no lançamento de um dado.
x
p(x)
1
2
3
1/6 1/6 1/6
4
5
6
1/6 1/6 1/6
Total
1,0
6.6.2 Distribuição de Bernoulli
Muitos experimentos são tais que os resultados apresentam ou não uma determinada
característica. Por exemplo:
(1) uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então, coroa);
(2) um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das faces 1, 2, 3, 4 ou
6);
(3) uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou
não;
(4) uma pessoa escolhida ao acaso dentre 1.000 é ou não do sexo masculino;
(5) uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verifica-se se ela é
favorável ou não a um projeto municipal.
Em todos esses casos, estamos interessados na ocorrência de sucesso (cara, face 5 etc.) ou
fracasso (coroa, face diferente de 5 etc.). Essa terminologia (sucesso e fracasso) será usada
frequentemente.
Para cada experimento acima, podemos definir uma v.a. X, que assume apenas dois valores: 1,
se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por p a probabilidade de sucesso, isto é,
P(sucesso) = P(S) = p, 0 < p < 1.
A variável aleatória X, que assume apenas os valores 0 e 1, com função de probabilidade
(x, p(x)) tal que
Definição.
p(0) = P(X = 0) = 1 - p,
p(1) = P(X = 1) = p,
é chamada variável aleatória de Bernoulli.
Então, segue-se facilmente que
E(X) = p; (6.12)
Var(X) = p - p2 = p(1 - p), (6.13)
Na Figura 6.10, temos representadas as f.p. e f.d.a. de X.
Figura 6.10 Distribuição
de Bernoulli (a) f.p. (b) f.d.a.
Vamos supor o caso do experimento (2). Supondo o dado perfeito, teremos P(X = 0)
= 5/6, P(X = 1) = 1/6,
Exemplo 6.11
E(X) = 1/6, Var(X) = (1/6) (5/6) = 5/36.
Experimentos que resultam numa v.a. de Bernoulli são chamados ensaios de
Bernoulli. Usaremos a notação
X ∼ Ber(p)
para indicar uma v.a. com distribuição de Bernoulli com parâmetro p.
Observação.
6.6.3 Distribuição Binomial
Imagine, agora, que repetimos um ensaio de Bernoulli n vezes, ou, de maneira alternativa,
obtemos uma amostra de tamanho n de uma distribuição de Bernoulli. Suponha ainda que as
repetições sejam independentes, isto é, o resultado de um ensaio não tem influência nenhuma no
resultado de qualquer outro ensaio. Uma amostra particular será constituída de uma sequência de
sucessos e fracassos, ou, alternativamente, de uns e zeros. Por exemplo, repetindo um ensaio de
Bernoulli cinco vezes (n = 5), um particular resultado pode ser FSSFS ou a quíntupla ordenada
(0, 1, 1, 0, 1). Usando a notação da Seção 6.6.2, com P(S) = p, a probabilidade de tal amostra
será
(1 - p)pp(1 - p)p = p3(1 - p)2.
O número de sucessos nessa amostra é igual a 3, sendo 2 o número de fracassos.
Considere agora as seguintes situações, obtidas de (1) a (5) da seção anterior:
(1’) uma moeda é lançada três vezes; qual é a probabilidade de se obter duas caras?
(2’) um dado é lançado cinco vezes; qual é a probabilidade de se obter face 5 no máximo três
vezes?
(3’) dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 peças; qual é a
probabilidade de que todas sejam defeituosas, sabendo-se que 10% das peças do lote são
defeituosas?
(4’) cinco pessoas são escolhidas ao acaso entre 1.000; qual é a probabilidade de que duas
sejam do sexo masculino?
(5’) sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto municipal.
Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a probabilidade de que pelo
menos 80 sejam favoráveis ao projeto?
Observe que, nos casos (4’) e (5’), o fato de estarmos extraindo indivíduos de um conjunto
muito grande implica que podemos supor que as extrações sejam praticamente independentes.
Consideremos a situação (1’), supondo que a moeda seja “honesta”, isto é, P(sucesso)
= P(cara) = 1/2. Indiquemos o sucesso (cara) por S e fracasso (coroa), por F. Então, estamos
interessados na probabilidade do evento
A = {SSF, SFS, FSS},
ou, em termos da notação anterior, na probabilidade de
A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}.
É claro que P(A) = P(SSF) + P(SFS) + P(FSS) e, devido à independência dos ensaios,
Exemplo 6.12
e, portanto,
Se a probabilidade de sucesso for p, 0 < p < 1, e P(F) = 1 - p = q, então
P(SSF) = p × p × q = p2 × q = P(SFS) = P(FSS),
de modo que
P(A) = 3p2q.
Uma característica interessante dos experimentos considerados é que estamos interessados
apenas no número total de sucessos e não na ordem em que eles ocorrem. Podemos construir a
Tabela 6.12 para n = 3 lançamentos da moeda, com P(S) = p, P(F) = 1 - p = q, a partir da Figura
6.11.
Vamos designar por X o número total de sucessos em n ensaios de Bernoulli, com
probabilidade de sucesso p, 0 < p < 1. Os possíveis valores de X são 0, 1, 2, ..., n e os pares (x,
p(x)), em que p(x) = P(X = x), constituem a chamada distribuição binomial.
Figura 6.11 Probabilidades
binomiais para n = 3 e P(S) = p.
Tabela 6.12 Probabilidades
binomiais para n = 3 e P(S) = p.
Número de sucessos
Probabilidades
3
p = 1/2
0
q
1/8
1
3pq2
3/8
2
3p2q
3/8
3
p3
1/8
Fonte: Figura 6.11.
Para o exemplo (1’) acima, n = 3 e p = 1/2, obtemos a distribuição dada pela primeira e
terceira colunas da Tabela 6.12 e o gráfico da Figura 6.12.
Figura 6.12 Gráfico
da f.p. p(x) para n = 3 e p = 1/2.
Obtenhamos, agora, P(X = k), ou seja, numa sequência de n ensaios de Bernoulli, a
probabilidade de obter k sucessos (e portanto n - k fracassos), k = 0,1,2, ..., n, com P(S) = p, P(F)
= 1 - p = q. Uma particular sequência é
SSS ... SFF ... F,
em que temos k sucessos seguidos por n - k fracassos. A probabilidade de tal sequência é
pk(1 - p)n - k = pkqn - k, (6.14)
devido à independência dos ensaios. Mas qualquer sequência com k sucessos e n - k fracassos
terá a mesma probabilidade (6.14). Portanto resta saber quantas sequências com a propriedade
especificada podemos formar. É fácil ver que existem
tais sequências, de modo que
(6.15)
As probabilidades (6.15) também serão indicadas por b(k; n, p) e, quando a v.a. X tiver
distribuição binomial com parâmetros n e p, escreveremos
X ∼ b(n, p).
Exemplo 6.13 Vamos considerar a situação (3′) acima. Temos n = 10 ensaios de Bernoulli, cada um
com P(S) = P(peça defeituosa) = p = 0,1. Se X indicar o número de peças defeituosas na amostra,
queremos calcular P(X = 10) = b(10; 10, 1/10). Por (6.15), obtemos
A média e a variância de uma v.a. binomial, com parâmetros n e p são dadas, respectivamente,
por
E(X) = np, (6.16)
Var(X) = npq. (6.17)
Veja o Problema 41 e as Seções 8.3 e 8.4.
Para o Exemplo 6.13 temos
As probabilidades binomiais b(k; n, p) são facilmente calculadas em programas estatísticos,
como o Minitab e o SPlus, ou planilhas, como o Excel, ou então são dadas por tabelas
especialmente construídas, para diferentes valores de n e p. A Tabela I fornece essas
probabilidades para valores de n = 2, 3, ..., 19 e alguns valores de p.
Exemplo 6.14
Usando (6.15) e a Tabela I, ou com a ajuda de um computador, obtemos
No Capítulo 7 e na Seção 6.6.5, veremos duas maneiras de calcular valores aproximados para
as probabilidades binomiais para n grande.
Para finalizar, vamos formalizar os principais pontos apresentados nesta seção.
Chama-se de experimento binomial ao experimento
(a) que consiste em n ensaios de Bernoulli;
(b) cujos ensaios são independentes; e
(c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1.
Definição.
A variável aleatória X, correspondente ao número de sucessos num experimento
binomial, tem distribuição binomial b(n, p), com função de probabilidade
Definição.
(6.18)
Na Seção 6.9, veremos como podemos obter os valores b(k; n, p), para n e p dados, usando um
pacote estatístico.
6.6.4 Distribuição Hipergeométrica
Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de
uma população dividida segundo dois atributos. Para ilustrar, considere uma população de N
objetos, r dos quais têm o atributo A e N - r têm o atributo B. Um grupo de n elementos é
escolhido ao acaso, sem reposição. Estamos interessados em calcular a probabilidade de que esse
grupo contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio
multiplicativo, que essa probabilidade é dada por
(6.19)
em que max(0, n - N + r) ≤ k ≤ min(r, n).
Os pares (k, pk) constituem a distribuição hipergeométrica de probabilidades. Se definirmos a
v.a. X como o número de elementos na amostra que têm o atributo A, então P(X = k) = pk.
Em problemas de controle de qualidade, lotes com N itens são examinados. O número
de itens com defeito (atributo A), r, é desconhecido. Colhemos uma amostra de n itens e
determinamos k. Somente para ilustrar, suponha que num lote de N = 100 peças, r = 10 sejam
defeituosas. Escolhendo n = 5 peças sem reposição, a probabilidade de não se obter peças
defeituosas é
Exemplo 6.15
enquanto a probabilidade de se obter pelo menos uma defeituosa é
p1 + p2 + ... + p5 = 1 - p0 0,426.
Pode-se demonstrar que a v.a. X definida acima tem esperança e variância dadas por
E(X) = np, (6.20)
(6.21)
respectivamente, em que p = r/N é a probabilidade de se obter uma peça defeituosa numa única
extração. Se N for grande, quando comparado com n, então extrações com ou sem reposição
serão praticamente equivalentes, de modo que as probabilidades dadas por (6.19) serão
aproximadamente iguais às dadas pela Fórmula (6.15), isto é, pk b(k; n, p). Do mesmo modo,
os resultados (6.20) e (6.21) serão aproximadamente iguais aos valores correspondentes da
distribuição binomial (note que N - n
N - 1, se n << N). Denotaremos uma v.a. com
distribuição hipergeométrica por
X ~ hip(N, r, n).
6.6.5 Distribuição de Poisson
A Tabela I fornece os valores de b(k; n, p) para n = 2, ..., 19. Para n grande e p pequeno,
podemos aproximar essas probabilidades por
(6.22)
As probabilidades (6.22), calculadas agora para todos os valores inteiros não negativos k = 0,
1, 2,..., constituem a chamada distribuição de Poisson, tabelada na Tabela II, para alguns valores
de λ = np. A aproximação
(6.23)
é boa se n for grande e p pequeno e de tal sorte que np ≤ 7. Ver o Problema 43 para uma sugestão
de como provar (6.23).
As probabilidades dadas por (6.23) podem, também, ser obtidas em aplicativos estatísticos ou
planilhas, assim como a binomial.
Exemplo 6.16
Consideremos aproximar b(2; 1.000, 0,0001), usando (6.23). Temos que np = 0,1,
logo
Observemos que as probabilidades (6.23) estão definidas para qualquer inteiro não negativo k.
Contudo, observando a Tabela II, vemos que essas probabilidades decaem à medida que k cresce
e, normalmente, são desprezíveis para k maior do que 5 ou 6.
A distribuição de Poisson é largamente empregada quando se deseja contar o número de
eventos de certo tipo que ocorrem num intervalo de tempo, ou superfície ou volume. São
exemplos:
(a) número de chamadas recebidas por um telefone durante cinco minutos;
(b) número de falhas de um computador num dia de operação; e
(c) número de relatórios de acidentes enviados a uma companhia de seguros numa semana.
De modo geral, dizemos que a v.a. N tem uma distribuição de Poisson com parâmetro λ > 0 se
(6.24)
É fácil verificar que E(N) = Var(N) = λ (veja o Problema 46); logo, λ representa o número
médio de eventos ocorrendo no intervalo considerado.
Uma suposição que se faz usualmente em relação à distribuição de Poisson é que a
probabilidade de se obter mais de um evento num intervalo muito pequeno é desprezível.
Uma situação prática de interesse na qual a distribuição de Poisson é empregada diz
respeito à desintegração de substâncias radioativas. Considere o urânio 238 (U238), por exemplo.
Cada núcleo de U238 tem uma probabilidade muito pequena, 4,9 × 10-18 de se desintegrar,
emitindo uma partícula α, em um segundo. Considere, agora, um número grande n de núcleos e a
v.a. N = número de núcleos que se desintegram. Admitindo-se que a desintegração de um núcleo
não afeta a probabilidade de desintegração de qualquer outro núcleo (independência), a v.a. N
tem uma distribuição binomial, com parâmetros n e p, este dado pelo valor acima. Logo, estamos
numa situação em que podemos usar (6.23), ou seja, aproximar probabilidades binomiais por
probabilidades de Poisson.
Exemplo 6.17
Em 0,30 mg de U238 temos aproximadamente n = 7,6 × 1017 átomos (Helene; Vanin, 1981),
logo λ = np ≈ 3,7 e
Por exemplo, P(N = 0) = 0,025 e P(N = 2) = 0,169. Pode-se ver que P(N ≥ 19) é muito
pequena, menor do que 10-6.
Tabela 6.13 Frequências
observadas e esperadas para o Exemplo 6.17.
nk
k
npk
0
57
54,399
1
203
210,523
2
383
407,361
3
525
525,496
4
532
508,418
5
408
393,515
6
273
253,817
7
139
140,325
8
45
67,882
9
27
29,189
≥ 10
16
17,075
2.608
2.608,000
Seria interessante avaliar se a distribuição de Poisson realmente é um modelo razoável para
essa situação. Um experimento devido a Rutherford e Geiger (veja Feller, 1964, p. 149, para a
referência completa sobre esse experimento) de fato comprova essa adequação. Eles observaram
os números de partículas α emitidas por uma substância radioativa em n = 2.608 intervalos de 7,5
segundos. A Tabela 6.13 apresenta os números nk de intervalos de 7,5 segundos contendo k
partículas. Uma estimativa de λ = número médio de partículas emitidas durante um intervalo de
7,5 segundos é dada por
Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t, no lugar
de intervalo unitário de tempo, basta ajustar o parâmetro λ na Fórmula (6.24). Vejamos um
exemplo.
As probabilidades de Poisson são dadas por
Segue-se que npk é o número esperado de intervalos contendo k partículas, e esses valores
também estão apresentados na Tabela 6.13. Vemos que há uma boa coincidência entre os valores
das duas colunas. Um teste formal pode ser feito para verificar a adequação da distribuição de
Poisson. Veja o Capítulo 14, Exemplo 14.5.
Um telefone recebe, em média, cinco chamadas por minuto. Supondo que a
distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que o telefone não
receba chamadas durante um intervalo de um minuto.
Segue-se que λ = 5 e
Exemplo 6.18
Por outro lado, se quisermos a probabilidade de obter no máximo duas chamadas em quatro
minutos, teremos λ = 20 chamadas em quatro minutos, logo
P(N ≤ 2) = P(N = 0) + P(N = 1) + P(N = 2) = e–20 (1 + 20 + 200) = 221e–20,
que é um número muito próximo de zero.
Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo de
comprimento t pode ser escrita como
(6.25)
em que λ representa o número médio de ocorrências naquele intervalo. Denotaremos uma v.a. N
com distribuição de Poisson de parâmetro λ por
N ~ Pois(λ).
Apresentamos, na Tabela 6.14, um resumo das distribuições discretas estudadas neste capítulo.
Para cada uma temos a fórmula que dá a probabilidade de assumir cada valor, os possíveis
valores, os parâmetros que caracterizam cada distribuição, a média e a variância. Incluímos,
também, a distribuição geométrica, tratada no Problema 55.
Tabela 6.14 Modelos
para variáveis discretas.
P(X = x)
Parâmetros
E(X), Var(X)
1–x
p
p, p(1 – p)
Binomial
n, p
np, np(1 – p)
Poisson
λ
λ, λ
Modelo
Bernoulli
Geométrica
Hipergeométrica
x
p (1 – p)
, x = 0, 1
p(1 – p)x – 1, x = 1, 2, ...
p
N, r, n
(1)
a = max(0, n – N + r), b = min(r, n).
Problemas
20. Para os exercícios (a) a (e) abaixo, considere o enunciado:
Das variáveis abaixo descritas, assinale quais são binomiais, e para essas dê os respectivos campos de definição e função de
probabilidade. Quando julgar que a variável não é binomial, aponte as razões de sua conclusão.
(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposição, cinco bolas. X é o número de bolas brancas
nas cinco extrações.
(b) Refaça o problema anterior, mas dessa vez as n extrações são sem reposição.
(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada urna. Suponha que X seja o número de
bolas brancas obtidas no final.
(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um habitante de cada uma delas e
classificando-o em pró ou contra um certo projeto federal. Suponha que X seja o número de indivíduos contra o projeto no final
da pesquisa.
(e) Em uma indústria existem 100 máquinas que fabricam determinada peça. Cada peça é classificada como boa ou defeituosa.
Escolhemos ao acaso um instante de tempo e verificamos uma peça de cada uma das máquinas. Suponha que X seja o número
de peças defeituosas.
21. Se X ~ b(n, p), sabendo-se que E(X) = 12 e σ2 = 3, determinar:
(a) n
(b) p
(c) P(X < 12)
(d) P(X ≥ 14)
(e) E(Z) e Var(Z), em que
(f) P(Y ≥ 14/16), em que Y = X/n
(g) P(Y ≥ 12/16), em que Y = X/n
22. Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson, com a média de oito chamadas
por minuto. Determinar qual a probabilidade
de que num minuto se tenha:
(a) dez ou mais chamadas;
(b) menos que nove chamadas;
(c) entre sete (inclusive) e nove (exclusive) chamadas.
23. Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 2.000 pés. Qual a probabilidade de que
um rolo com 2.000 pés de fita magnética tenha:
(a) nenhum corte?
(b) no máximo dois cortes?
(c) pelo menos dois cortes?
24. Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se dez itens produzidos
por essa máquina são selecionados ao acaso, qual é a probabilidade de que não mais do que um defeituoso seja encontrado? Use a
binomial e a distribuição de Poisson e compare os resultados.
25. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o número de machos. Os dados estão representados na
tabela abaixo.
Nº de Machos
Nº de Ninhadas
0
20
1
360
2
700
3
680
4
200
5
40
Total
2.000
(a) Calcule a proporção média de machos.
(b) Calcule, para cada valor de X, o número de ninhadas que você deve esperar se X ~ b(5, p), em que p é a proporção média
de machos calculada em (a).
26. Se X tem distribuição binomial com parâmetros n = 5 e p = 1/2, faça os gráficos da distribuição de X e da f.d.a. F(x).
27. Considere, agora, n = 5 e p = 1/4. Obtenha o gráfico da distribuição de X. Qual a diferença entre esse gráfico e o
correspondente do Problema 26? O que ocasionou a diferença?
28. Refaça o Problema 26, com n = 6 e p = 1/2.
6.7 O Processo de Poisson
No Exemplo 6.17 acima, vimos uma aplicação importante da distribuição de Poisson ao
problema da desintegração radioativa. Lá tratamos da emissão de partículas alfa em intervalos de
7,5 segundos. Ou seja, estamos contando o número de ocorrências de um evento ao longo do
tempo. Na realidade, consideramos o que se chama um processo estocástico. Designando-se por
Nt o número de partículas emitidas no intervalo [0, t), obteremos o que se chama de processo de
Poisson, para todo t ≥ 0. Nesta seção, iremos partir de algumas suposições que consideramos
plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória Nt, para cada t ≥ 0,
é dada pela Fórmula (6.25).
As suposições que iremos admitir como válidas são as seguintes.
(S1) N0 = 0, ou seja, o processo começa no instante zero com probabilidade um: P(N0 = 0) = 1.
(S2) Os números de eventos em intervalos de tempo disjuntos são v.a. independentes.
Considere 0 < t < t + s, Nt como antes e Nt+s - Nt o número de eventos no intervalo [t, t + s).
Então, estamos supondo que as v.a. Nt e Nt+s - Nt são independentes. Dizemos que o processo tem
incrementos independentes.
(S3) Considere os intervalos [0, t) e [s, s + t), de mesmo comprimento t e as v.a. Nt como antes
e Mt = número de eventos no intervalo [s, s + t). Então, para todo s > 0, as v.a. Nt e Mt têm a
mesma distribuição de probabilidades. Ou seja, a distribuição do número de eventos ocorridos
num intervalo depende somente do comprimento do intervalo, e não de sua localização. Dizemos
que o processo tem incrementos estacionários.
(S4) Para h suficientemente pequeno, P(Nh = 1) ≈ λh, com λ > 0, constante. Ou seja, num
intervalo pequeno, a probabilidade de ocorrência de um evento é proporcional ao comprimento
do intervalo.
(S5) Para h como em (S4), P(Nh ≥ 2) ≈ 0. Isso nos diz que a probabilidade de se ter dois ou
mais eventos num intervalo suficientemente pequeno é desprezível.
Considere o intervalo [0, t) e o divida em subintervalos de comprimento t/n, como na Figura
6.13.
Figura 6.13 Divisão
de intervalo [0, t) em subintervalos de comprimentos t/n.
Chamemos de Y a v.a. que dá os números de subintervalos com um evento. Então, Y é uma
v.a. com distribuição binomial, de parâmetros n (número total de subintervalos) e p = P (um
evento) = λ(t/n). Para n grande, usando a aproximação da seção anterior, temos que essa variável
pode ser aproximada por uma v.a. com distribuição de Poisson com parâmetro np = nλ(t/n) = λt.
Note que aqui usamos as suposições S2 (cada subintervalo contém um evento,
independentemente dos demais intervalos) e S3 (com a mesma probabilidade).
Pela suposição S5, a probabilidade de que cada subintervalo contenha dois ou mais eventos
tende a zero, quando n cresce. Logo, Nt é uma v.a. com distribuição de Poisson, com parâmetro
λt.
Uma prova um pouco mais rigorosa, usando derivadas, pode ser dada. Veja Meyer (1965).
6.8 Quantis
No Capítulo 3, estudamos os quantis associados a um conjunto de dados. Esses poderiam ser
chamados de quantis empíricos, pois podemos agora considerar quantis associados à distribuição
de uma v.a. discreta, que poderíamos denominar quantis teóricos.
Definição.
O valor Q(p) satisfazendo
P(X ≤ Q(p)) ≥ p e P(X ≥ Q(p)) ≥ 1 - p, (6.26)
para 0 < p < 1, é chamado o p-quantil de X.
A interpretação do p-quantil é similar à que foi dada no caso de um conjunto de dados: Q(p) é
o valor tal que a soma das probabilidades dos valores menores do que ele, é p. Então, por que
não defini-lo por F(Q(p)) = P(X ≤ Q(p)) = p, em que F(x) é a f.d.a. de X? A resposta será dada
acompanhando os exemplos a seguir.
Para determinados valores de p teremos, como antes, denominações especiais. Por exemplo:
Q1 = Q(0,25): primeiro quartil
Q2 = Q(0,5): mediana ou segundo quartil
Q3 = Q(0,75): terceiro quartil.
Vejamos o caso da mediana, Q(0,5) = Md. Por (6.26) devemos ter
P(X ≤ Md) ≥ 0,5 e P(X ≥ Md) ≥ 0,5. (6.27)
Suponha a v.a. X com a distribuição:
x
0
1
p(x)
1/3
2/3
Então Md = 1, pois P(X ≤ 1) = 1/3 + 2/3 = 1 > 1/2 e P(X ≥ 1) = P(X = 1) = 2/3 > 1/2.
Na Figura 6.14, temos a f.d.a. de X. Sabemos que
de modo que não existe algum valor x tal que F(x) = 0,5, o que ilustra por que não podemos
definir a mediana por meio de F(Md) = 0,5.
Figura 6.14 f.d.a.
da v.a. X.
Por outro lado, considere a v.a. Y com a distribuição da tabela abaixo:
Y
p(y)
–1
0
1/4 1/4
1
1/2
Então, qualquer valor Md entre 0 e 1 é uma mediana, pois
P(Y ≤ Md) = P(Y = -1) + P(Y = 0) = 1/2 ≥ 1/2 e
P(Y ≥ Md) = P(Y = 1) = 1/2 ≥ 1/2.
A f.d.a. de Y está na Figura 6.15. Observe que 0 e 1 também são medianas. Observe, também,
que Q(0,75) = 1, pois
P(X ≤ 1) = 1 ≥ p = 0,75,
P(X ≥ 1) = 0,5 ≥ 1 - p = 0,25.
Novamente, não há nenhum valor de y tal que F(y) = 0,75. Mostre que Q(0,90) também é igual
a 1.
Figura 6.15 f.d.a.
da v.a. Y.
6.9 Exemplos Computacionais
No R, é possível obter a função de probabilidade (ou densidade), a função de distribuição
acumulada e os quantis de uma variável aleatória. Por exemplo, para uma variável aleatória com
distribuição binomial, podemos utilizar os seguintes comandos:
dbinom (x, size, prob, log = FALSE)
pbinom (q, size, prob, lower.tail = TRUE, log.p = FALSE)
qbinom (p, size, prob, lower.tail = TRUE, log.p = FALSE)
rbinom (n, size, prob)
Principais argumentos:
x : valor observador para o qual se deseja calcular o valor da distribuição
q : vetor de quantis
p : vetor de probabilidades
n : Número de observações a serem simuladas
size : parâmetro da distribuição: número de ensaios
prob : parâmetro da distribuição: probabilidade de sucesso de cada ensaio
lower.tail : Variável TRUE/FALSE. Se TRUE, P[X ≤ x] para TRUE e P[X > x].
Com relação à nomenclatura, note que no exemplo anterior, a referência à distribuição é
sempre precedida de uma letra, d para densidade, p para função distribuição, q para quantis e r
para simulação. Dessa forma, se quisermos simular uma distribuição de Poisson, o comando será
rpois (...), para acessar os quantis de uma distribuição geométrica, qgeom (...) e assim por diante.
Além do R, outros pacotes podem ser usados para gerar probabilidades e probabilidades
acumuladas, quantis etc., para os modelos mais importantes discutidos neste capítulo.
Consideremos a v.a X com distribuição binomial, com parâmetros n=14 e
p=P(sucesso)=0,3. Os comandos no R abaixo geram P(X=k), para k=0,1,...,12 , e P(X≤ x) para
x=0,1,...,12. No Quadro 6.1 temos essas probabilidades, mas geradas pelo Minitab, que fornece
os mesmos valores, por meio dos comandos PDF e CDF.
Exemplo 6.19
x<-0:12
px<-dbinom(x, size=14, p=0.3)
fdax<-cumsum(px)
quadro61<-data.frame(x, px, fdax)
Quadro 6.1 Probabilidades
binomiais geradas pelo Minitab.
MTB > PDF; MTB > CDF;
SUBC> Binomial 14 0.3. SUBC> Binomial 14 0.3.
Probability Density Function Cumulative Distribution Function
Binomial with n = 14 and p = 0.300000 Binomial with n = 14 and p = 0.300000
x P(X = x) x P(X = x) x P(X <= x) x P(X <= x) 0 0.0068 7 0.0618 0 0.0068 6 0.9067
1 0.0407 8 0.0232 1 0.0475 7 0.9685
2 0.1134 9 0.0066 2 0.1608 8 0.9917
3 0.1943 10 0.0014 3 0.3552 9 0.9983
4 0.2290 11 0.0002 4 0.5842 10 0.9998
5 0.1963 12 0.0000 5 0.7805 11 1.0000
6 0.1262
Para um v.a X com distribuição de Poisson, com parâmetro λ = 5, 2, teremos os comandos no
R:
x<-0:17
px<-dpois(x, lambada,=5.2)
fdax<-cumsum(px)
quadro62<-data.frame(x, px, fdax)
No Quadro 6.2 obtemos as mesmas probabilidades, via Minitab.
Quadro 6.2 Probabilidades
de Poisson geradas pelo Minitab.
MTB > PDF; MTB > CDF;
SUBC> Poisson 5.2. SUBC> Poisson 5.2.
Probability Density Function Cumulative Distribution Function
Poisson with mu = 5.20000 Poisson with mu = 5.20000
x P(X = x) x P(X = x) x P(X <= x) x P(X <= x)
0 0.0055 9 0.0423 0 0.0055 9 0.9603
1 0.0287 10 0.0220 1 0.0342 10 0.9823
2 0.0746 11 0.0104 2 0.1088 11 0.9927
3 0.1293 12 0.0045 3 0.2381 12 0.9972
4 0.1681 13 0.0018 4 0.4061 13 0.9990
5 0.1748 14 0.0007 5 0.5809 14 0.9997
6 0.1515 15 0.0002 6 0.7324 15 0.9999
7 0.1125 16 0.0001 7 0.8449 16 1.0000
8 0.0731 17 0.0000 8 0.9181
6.10 Problemas Suplementares
29. Um florista faz estoque de uma flor de curta duração que lhe custa $ 0,50 e que ele vende a $ 1,50 no primeiro dia em que a
flor está na loja. Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora. Seja X a variável aleatória que
denota o número de flores que os fregueses compram em um dia casualmente escolhido. O florista descobriu que a função de
probabilidade de X é dada pela tabela abaixo.
x
0
1
2
3
p(x)
0,1
0,4
0,3
0,2
Quantas flores deveria o florista ter em estoque a fim de maximizar a média (valor esperado) do seu lucro?
30. As cinco primeiras repetições de um experimento custam $ 10,00 cada. Todas as repetições subsequentes custam $ 5,00 cada.
Suponha que o experimento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é
igual a 0,9, e se as repetições são independentes, qual é o custo esperado da operação?
31. Na manufatura de certo artigo, é sabido que um entre dez dos artigos é defeituoso. Qual a probabilidade de que uma amostra
casual de tamanho quatro contenha:
(a) nenhum defeituoso?
(b) exatamente um defeituoso?
(c) exatamente dois defeituosos?
(d) não mais do que dois defeituosos?
32. Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no máximo, duas defeituosas. Se a caixa
contém 18 peças, e a experiência tem demonstrado que esse processo de fabricação produz 5% das peças defeituosas, qual a
probabilidade de que uma caixa satisfaça a garantia?
33. Um curso de treinamento aumenta a produtividade de uma certa população de funcionários em 80% dos casos. Se dez
funcionários quaisquer participam desse curso, encontre a probabilidade de:
(a) exatamente sete funcionários aumentarem a produtividade;
(b) não mais do que oito funcionários aumentarem a produtividade; e
(c) pelo menos três funcionários não aumentarem a produtividade.
34. O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo uma distribuição de Poisson, com λ = 2. As
atuais instalações podem atender, no máximo, a três petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a
outro porto.
(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto?
(b) De quanto deverão ser aumentadas as instalações para permitir atender a todos os navios que chegarem pelo menos em
95% dos dias?
(c) Qual o número médio de petroleiros que chegam por dia?
35. Na tabela abaixo, X significa número de filhos homens em famílias com 12 filhos. Calcule para cada valor da variável o
número de famílias que você deveria esperar se X ∼ b(12; 0,5).
X
Nº observado de famílias
0
6
1
29
2
160
3
521
4
1.198
5
1.921
6
2.360
7
2.033
8
1.398
9
799
10
298
11
60
12
7
Total
10.690
Você acha que o modelo binomial é razoável para explicar o fenômeno?
36. Houve uma denúncia por parte dos operários de uma indústria de que, toda vez que ocorria um acidente em uma seção da
indústria, ocorriam outros em outras seções mais ou menos no mesmo horário. Em outras palavras, os acidentes não estavam
ocorrendo ao acaso. Para verificar essa hipótese, foi feita uma contagem do número de acidentes por hora durante um certo
número de dias (24 horas por dia). Os resultados da pesquisa foram apresentados no quadro a seguir.
Nº de acidentes por hora
Nº de horas
0
200
1
152
2
60
3
30
4
13
5
9
6
7
7
5
8
4
(a) Calcule o número médio de acidentes por hora nessa amostra.
(b) Se o número de acidentes por hora seguisse uma distribuição de Poisson, com média igual à que você calculou, qual seria o
número esperado de dias com 0, 1, 2, ... etc. acidentes?
(c) Os dados revelam que a suspeita dos operários é verdadeira?
37. Determinado tipo de parafuso é vendido em caixas com 1.000 peças. É uma característica da fabricação produzir 10% com
defeito. Normalmente, cada caixa é vendida por $ 13,50. Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma
amostra de 20 peças; se a caixa não tiver parafusos defeituosos, ele paga $ 20,00; um ou dois defeituosos, ele paga $ 10,00; três
ou mais defeituosos, ele paga $ 8,00. Qual alternativa é a mais vantajosa para o fabricante? Justifique.
38. Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição da espécie Primula simenses selvagem.
Supomos que a distribuição de Poisson seja adequada nessa situação. A tabela abaixo indica o número de quadrados com X
Primulas. O número médio de plantas por quadrado foi de 2,2.
X plantas por quadrado
Nº de quadrados com X plantas
0
26
1
21
2
23
3
14
4
11
5
4
6
5
7
4
8
1
acima de 8
0
(a) Se as plantas realmente distribuem-se segundo uma distribuição de Poisson, qual a probabilidade de encontrarmos pelo
menos duas Primulas?
(b) Dê as frequências esperadas para os valores de X = 0, X = 1 e X = 2.
(c) Apenas comparando os resultados de (b) com as frequências observadas, qual a conclusão a que você chegaria?
(d) Quais as causas que você daria para a conclusão?
39. Uma fábrica produz válvulas, das quais 20% são defeituosas. As válvulas são vendidas em caixas com dez peças. Se uma
caixa não tiver nenhuma defeituosa, seu preço de venda é $ 10,00; tendo uma, o preço é $ 8,00; duas ou três, o preço é $ 6,00;
mais do que três, o preço é $ 2,00. Qual o preço médio de uma caixa?
40. Um industrial fabrica peças, das quais 1/5 são defeituosas. Dois compradores, A e B, classificaram as partidas adquiridas em
categorias I e II, pagando $ 1,20 e $ 0,80 respectivamente do seguinte modo:
Comprador A: retira uma amostra de cinco peças; se encontrar mais que uma defeituosa, classifica como II.
Comprador B: retira amostra de dez peças; se encontrar mais que duas defeituosas, classifica como II.
Em média, qual comprador oferece maior lucro?
41. Se X ∼ b(n, p), prove que E(X) = np e Var(X) = npq.
(Sugestão: calcule E(X) e Var(X) para n = 1, 2, ... etc.)
42. Aceitação de um lote. Suponha que um comprador queira decidir se vai aceitar ou não um lote de itens. Para isso, ele retira
uma amostra de tamanho n do lote e conta o número x de defeituosos. Se x ≤ a, o lote é aceito, e se x
> a, o lote é rejeitado; o
número a é fixado pelo comprador. Suponha que n = 19 e a = 2. Use a Tabela I a fim de encontrar a probabilidade de aceitar o
lote, ou seja, P(X ≤ 2) para as seguintes proporções de defeituosos no lote:
(a) p = 0,10 (b) p = 0,20 (c) p = 0,05
43. Prove que, quando n → ∞ e p → 0, mas de tal sorte que np → λ, temos
Sugerimos que você use o fato:
quando n → ∞.
44. Suponha que X seja uma v.a. discreta, com f.p. p(x) = 2-x, x = 1, 2,... Calcule:
(a) P(X ser par) (b) P(X ≤ 3) (c) P(X > 10)
45. Prove (6.4), (6.5) e (6.6).
46. Prove que E(X) = Var(X) = λ, se a P(X = k) for dada por (6.24).
47. Prove a relação (6.19).
48. Num teste tipo certo/errado, com 50 questões, qual é a probabilidade de que um aluno acerte 80% das questões, supondo que
ele as responda ao acaso?
49. Repita o Problema 48, considerando cinco alternativas para cada questão.
50. Em um experimento binomial com três provas, a probabilidade de exatamente dois sucessos é 12 vezes a probabilidade de
três sucessos. Encontre p.
51. No sistema abaixo, cada componente tem probabilidade p de funcionar. Supondo independência de funcionamento dos
componentes, qual a probabilidade de:
(a) o sistema funcionar?
(b) o sistema não funcionar?
(c) exatamente dois componentes funcionarem?
(d) pelo menos cinco componentes funcionarem?
52. Prove que
53. Encontre a mediana da v.a. Z com distribuição
Z
0
p(Z)
1/4
1
2
1/4 1/4
3
1/4
54. Encontre os quantis de ordens p = 0,25, 0,60, 0,80 da v.a. Z do exercício 53.
55. (Meyer, 1965). O custo de realização de um experimento é $ 1.000,00. Se o experimento falha, um custo adicional de $
300,00 tem de ser imposto. Se a probabilidade de sucesso em cada prova é 0,2, se as provas são independentes e continuadas até a
ocorrência do primeiro sucesso, qual o custo esperado do experimento?
56. Use o (6.28) para verificar as relações entre:
(a) E(eX) e eE(X);
(b) E(log X) e log [E(X)], para X > 0;
(c) E(1/X) e 1/E{X), para X ≠ 0.
6.11 Complementos Metodológicos
1. Distribuição Geométrica. Suponha que, ao realizar um experimento, ocorra o evento A com probabilidade p ou não ocorra A
(ou seja, ocorre Ac com probabilidade 1
primeira vez.
- p). Repetimos o experimento de forma independente até que o evento A ocorra pela
Seja X = número de repetição do experimento até que se obtenha A pela primeira vez. Então,
P(X = j) = (1 - p)j - 1 ⋅ p, j = 1, 2, 3, ...,
pois se X = j, nas primeiras j
- 1 repetições A não ocorre, ocorrendo na j - ésima.
(a) Prove que
(b) Mostre que E(X) = 1/p e Var(X) = (1 - p)/p2.
[Sugestão:
(c) Se s e t são inteiros positivos, então
P(X > s + t|X > s) = P(X > t).
Essa propriedade nos diz que a distribuição geométrica não tem memória. Essa propriedade é compartilhada pela distribuição
exponencial, a ser estudada no Capítulo 7.
2. Distribuição de Pascal. Considere a mesma situação experimental do Problema 55, só que agora o experimento é continuado
até que o evento A ocorra pela r-ésima vez. Defina a v.a. Y = número de repetições necessárias para que A ocorra exatamente r
vezes. Note que, se r = 1, obtemos a distribuição geométrica. Mostre que
3. A Desigualdade de Jensen. Vimos, na fórmula (6.4), que se h(x)
= ax + b, então E[h(X)] = h[E(X)], ou seja, E(aX + b) =
aE(X) + b.
Esta fórmula pode não valer se h(x) não for linear. O que vale é o seguinte resultado, denominado Desigualdade de Jensen. Se
h(x) for uma função convexa e X uma v.a., então
E[h(X)] ≥ h[E(X)], (6.28)
com igualdade se e somente se h for linear (ou se a variância de X for zero).
Por exemplo, se h(x) = x2, então E(X2) ≥ [E(X)]2, do que decorre que Var(X) = E(X2)
- [E(X)]2 ≥ 0.
Lembremos que uma função h é convexa se h((x + y)/2) ≤ (h(x) + h(y))/2, para todo par x, y no domínio de h. Em termos
geométricos, h é convexa se o ponto médio da corda que une dois pontos quaisquer da curva representando h está acima da curva.
A função h é côncava se -h for convexa. Por exemplo, log x é uma função côncava.
Capítulo 7
Variáveis Aleatórias Contínuas
7.1 Introdução
Neste capítulo, iremos estudar modelos probabilísticos para variáveis aleatórias contínuas, ou
seja, variáveis para as quais os possíveis valores pertencem a um intervalo de números reais. A
definição dada no capítulo anterior, para v.a. discreta, deve ser modificada como segue.
Uma função X, definida sobre o espaço amostral Ω e assumindo valores num intervalo
de números reais, é dita uma variável aleatória contínua.
No Capítulo 2 vimos alguns exemplos de variáveis contínuas, como o salário de indivíduos,
alturas etc. A característica principal de uma v.a. contínua é que, sendo resultado de uma
mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor
efetivamente observado. Por exemplo, quando dizemos que a altura de uma pessoa é 175 cm,
estamos medindo sua altura usando cm como unidade de medida e, portanto, o valor observado
é, na realidade, um valor entre 174,5 cm e 175,5 cm.
Vejamos um exemplo para motivar a discussão que se segue.
Definição.
O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante,
devido a algum defeito técnico, ou término da bateria, e vamos indicar por X o ângulo que esse
ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII,
conforme mostra a Figura 7.1.
Exemplo 7.1
Tabela 7.1 Distribuição
Figura 7.1 Ilustração
uniforme discreta.
x
0°
6°
12°
18°
...
348°
354°
p(x)
1/60
1/60
1/60
1/60
...
1/60
1/60
de uma v.a. X discreta.
Medindo esse ângulo X em graus e lembrando que:
(i) o ponteiro deve dar 60 “saltos” (ele dá um salto em cada segundo) para completar uma
volta;
(ii) acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto, então, a
v.a. X tem distribuição uniforme discreta, com função de probabilidade dada pela Tabela 7.1
e representada graficamente na Figura 7.2.
Figura 7.2 Distribuição
uniforme discreta.
Considerando esse mesmo problema com um relógio elétrico, para o qual o ponteiro dos
segundos move-se continuamente, necessitamos de um outro modelo para representar a v.a. X.
Primeiro, observamos que o conjunto dos possíveis valores de X não é mais um conjunto discreto
de valores, pois X pode assumir qualquer valor do intervalo [0,360) = {x ∈ ¡: 0 ≤ x < 360}. Em
segundo lugar, como no caso do relógio mecânico, continuamos a acreditar que não exista uma
região de preferência para o ponteiro parar. Como existem infinitos pontos nos quais o ponteiro
pode parar, cada um com igual probabilidade, se fôssemos usar o mesmo método usado para a
v.a. discreta uniforme, cada ponto teria probabilidade de ocorrer igual a zero. Assim não tem
muito sentido falar na probabilidade de que o ângulo X seja igual a certo valor, pois essa
probabilidade sempre será igual a zero. Entretanto, podemos determinar a probabilidade de que X
esteja compreendido entre dois valores quaisquer. Por exemplo, usando a Figura 7.1 como
referência, a probabilidade de o ponteiro parar no intervalo compreendido entre os números XII e
III é 1/4, pois esse intervalo corresponde a 1/4 do intervalo total.
Podemos, pois, escrever
Do mesmo modo, a probabilidade P(120º ≤ X ≤ 150º) = 1/12. Por menor que seja o intervalo,
sempre poderemos calcular a probabilidade de o ponteiro parar num ponto qualquer desse
intervalo. E é fácil verificar que, nesse caso, dados dois números a e b, tais que 0º ≤ a < b < 360º,
a probabilidade de X ∈ [a, b) é
Por meio da divisão do intervalo [0º, 360º) em pequenos subintervalos, podemos construir um
histograma para as probabilidades da v.a. X (como fizemos para v.a contínuas no Capítulo 2). Ou
ainda, como naquele capítulo, fazendo esses intervalos tenderem a zero, podemos construir o
histograma alisado da v.a. X, apresentado na Figura 7.3.
Figura 7.3 Histograma
alisado: distribuição uniforme contínua.
O histograma alisado da Figura 7.3 corresponde à seguinte função:
Como vimos na construção de histogramas, a área correspondente ao intervalo [a, b)
(hachurada na Figura 7.3) deve indicar a probabilidade de a variável estar entre a e b.
Matematicamente, isso é expresso por meio da integral da função entre a e b; então,
pois a integral definida de uma função entre dois pontos determina a área sob a curva
representativa da função, compreendida entre esses dois pontos.
A função f(x) é chamada função densidade de probabilidade (f.d.p.) da v.a. X.
Podemos construir modelos teóricos para variáveis aleatórias contínuas, escolhendo
adequadamente as funções densidade de probabilidade. Teoricamente, qualquer função f, que
seja não negativa e cuja área total sob a curva seja igual à unidade, caracterizará uma v.a.
contínua.
Se f(x) = 2x, para 0 ≤ x ≤ 1, e zero fora desse intervalo, vemos que f(x) ≥ 0, para
qualquer x, e a área sob o gráfico de f(x) é unitária (verifique na Figura 7.4). Logo, a função f
pode representar a função densidade de uma v.a. contínua X.
Exemplo 7.2
Figura 7.4 f.d.p.
da v.a. X do Exemplo 7.2.
Para esse caso, P(0 ≤ X ≤ 1/2) é igual à área do triângulo de base 1/2 e altura 1, hachurado na
Figura 7.4; logo, a probabilidade em questão é
Observamos, então, que a probabilidade de essa v.a. assumir um valor pertencente ao intervalo
[0, 1/2) é menor que a probabilidade de a variável assumir um valor pertencente ao intervalo
[1/2, 1).
A comparação das funções densidade dos dois últimos exemplos ajuda a entender seu
significado. No primeiro exemplo, consideremos dois intervalos, I1 = [a, b) e I2 = [c, d), contidos
no intervalo [0,360), com a mesma amplitude (b - a = d - c); então,
P(X ∈ I1) = P(X ∈ I2).
O mesmo não acontece no segundo exemplo: dados dois intervalos de mesma amplitude,
aquele mais próximo de 1 irá apresentar maior probabilidade. Ou seja, a probabilidade de que a
v.a. X assuma um valor num intervalo de amplitude fixa depende da posição do intervalo;
existem regiões com maior chance de ocorrer, e o que determina esse fato é a função densidade
de probabilidade. Portanto, a f.d.p. é um indicador da concentração de “massa” (probabilidade)
nos possíveis valores de X. Convém ressaltar ainda que f(x) não representa a probabilidade de
ocorrência de algum evento. A área sob a curva entre dois pontos é que irá fornecer a
probabilidade.
Problemas
1. Dada a função
(a) Mostre que esta é uma f.d.p.
(b) Calcule a probabilidade de X > 10.
2. Uma v.a. X tem distribuição triangular no intervalo [0, 1] se sua f.d.p. for dada por
(a) Qual valor deve ter a constante C?
(b) Faça o gráfico de f(x).
(c) Determine P(X ≤ 1/2), P(X > 1/2) e P(1/4 ≤ X ≤ 3/4).
3. Suponha que estamos atirando dardos num alvo circular de raio 10 cm, e seja X a distância do ponto atingido pelo dardo ao
centro do alvo. A f.d.p. de X é
(a) Qual a probabilidade de acertar o centro do alvo, se esse for um círculo de 1 cm de raio?
(b) Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional à sua área.
4. Encontre o valor da constante c se
for uma densidade. Encontre P(X > 15).
7.2 Valor Médio de uma Variável Aleatória Contínua
Do que foi visto até aqui, deduz-se que qualquer função f(·), não negativa, tal que
define uma v.a. contínua X, ou seja, cria um modelo teórico para as frequências relativas de uma
v.a. contínua. A área compreendida entre dois valores, a e b, da abscissa x, sob a curva
representativa de f(x), dá a probabilidade (proporção teórica) da variável pertencer ao intervalo
limitado pelos dois valores. Usando o conceito de integral, podemos escrever
(7.1)
Vejamos agora como podemos definir a esperança (valor médio ou média) de uma v.a.
contínua. Para isso, usaremos um artifício semelhante àquele usado na Seção 3.1 para calcular a
média das variáveis quantitativas, com os dados agrupados em classes. Lá, substituímos todos os
valores de um intervalo (classe) por um único valor aproximado (o ponto médio do intervalo), e
agimos como se a variável fosse do tipo discreto. Aqui, iremos repetir esse artifício.
Consideremos a v.a. X com função densidade f(x) e dois pontos a e b, bem próximos, isto é, h
= b - a é pequeno, e consideremos x0 o ponto médio do intervalo [a, b]. Observando a Figura 7.5
é fácil verificar que
P(a ≤ X ≤ b) ; h f(x0), (7.2)
o que significa aproximar a área da parte hachurada pelo retângulo de base h e altura f(x0). É fácil
ver que a aproximação melhora com h tendendo a zero.
Figura 7.5 Área
hachurada representa P(a ≤ X ≤ b).
Dividamos agora o intervalo [A, B], em que f(x) > 0, em n partes de amplitudes iguais a h = (B
- A)/n (Figura 7.6) e consideremos os pontos médios desses intervalos, x1, x2,..., xn.
Figura 7.6 Partição
do intervalo [A, B].
Consideremos a v.a. Yn, assumindo os valores x1,..., xn com as probabilidades
pi = P(Yn = xi) ; f(xi)h.
Dessa maneira, e de acordo com a definição de esperança, temos
que será uma aproximação da esperança E(X). Para determinar E(X) com maior precisão,
podemos aumentar o número de intervalos, diminuindo sua amplitude h. No limite, quando h →
0, teremos o valor de E(X). Definamos, pois,
(7.3)
Mas da definição de integral (veja Morettin et al., 2005), temos que, se o limite (7.3) existe,
ele define a integral de x f(x) entre A e B, isto é,
(7.4)
Continuando com o Exemplo 7.2, observamos que, dividindo o intervalo [0, 1] em n
subintervalos, teremos h = 1/n, xi = (2i -1)/2n e f(xi) = (2i - 1)/n, i = 1, 2,..., n. Portanto,
Exemplo 7.3
na qual usamos o conhecido resultado que dá a soma dos quadrados dos primeiros n números
ímpares. Logo,
O mesmo resultado é obtido diretamente da relação (7.4):
Exemplo 7.4
No caso do relógio elétrico do Exemplo 7.1, obtemos
que é o valor esperado devido à distribuição uniforme das frequências teóricas.
Como a função f(x) é sempre não negativa, podemos escrever a esperança como
(7.5)
A extensão do conceito de variância para v.a. contínuas é feita de maneira semelhante e o
equivalente à Fórmula (6.2) é
(7.6)
Para os dois exemplos vistos anteriormente, teremos:
(i) para o caso do relógio,
Exemplo 7.5
(ii) para o Exemplo 7.2,
Como no caso de v.a. discretas, o desvio padrão de uma v.a. contínua X é definido como
(7.7)
que é dado na mesma unidade de medida do que X. Deixamos a cargo do leitor a verificação de
que o seguinte resultado vale, como consequência de (7.6):
Var(X) = E(X2) - [E(X)]2. (7.8)
Como frisamos no Capítulo 6, frequentemente usaremos outros símbolos para indicar os
parâmetros discutidos, a saber:
E(X) = µ(X),
Var(X) = σ2(X),
DP(X) = σ(X),
2
ou simplesmente µ, σ e σ, respectivamente, se não houver possibilidade de confusão.
7.3 Função de Distribuição Acumulada
Dada uma v.a. X com função densidade de probabilidade f(x), podemos definir a sua função de
distribuição acumulada, F(x), do mesmo modo como foi definida no Capítulo 6:
F(x) = P(X ≤ x), -∞ < x < ∞. (7.9)
De (7.1) segue-se que
(7.10)
para todo real x.
Exemplo 7.6
Retomemos o Exemplo 7.2. Temos
O gráfico de F(x) está na Figura 7.7.
Figura 7.7 f.d.a.
da v.a. X do Exemplo 7.6.
De (7.9), vemos que 0 ≤ F(x) ≤ 1, para todo x real; além disso, F(x) é não decrescente e possui
as duas seguintes propriedades:
(i)
(ii)
No Exemplo 7.6, temos, efetivamente, F(x) = 0, para x < 0 e F(x) = 1, para x ≥ 1.
Para v.a. contínuas, o seguinte resultado é importante.
Proposição 7.1
Para todos os valores de x para os quais F(x) é derivável temos
Vamos usar esse resultado no exemplo a seguir.
Exemplo 7.7
Suponha que
seja a f.d.a. de uma v.a. X. Então,
Na Figura 7.8, temos os gráficos dessas duas funções. Veremos que f(x) é um caso especial da
densidade exponencial, a ser estudada na Seção 7.4.3.
Figura 7.8 Distribuição
exponencial (β = 1) (a) f.d.a. (b) f.d.p.
Se a e b forem dois números reais quaisquer,
P(a < X ≤ b) = F(b) - F(a). (7.11)
Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre
parênteses.
Problemas
5. Calcule a esperança, a variância e a f.d.a. da v.a. X do Problema 2.
6. Determine a esperança e a variância da v.a. cuja f.d.p. é
7. Calcule a média da v.a. X do Problema 4.
8. A v.a. contínua X tem f.d.p.
(a) Se b for um número que satisfaz -1 < b < 0, calcule P(X > b | X < b/2).
(b) Calcule E(X) e Var(X).
9. Certa liga é formada pela mistura fundida de dois metais. A liga resultante contém certa porcentagem de chumbo, X, que pode
ser considerada uma v.a. com f.d.p.
Suponha que L, o lucro líquido obtido na venda dessa liga (por unidade de peso), seja dado por L = C1
lucro esperado por unidade.
10. A demanda diária de arroz num supermercado, em centenas de quilos, é uma v.a. com f.d.p.
+ C2X. Calcule E(L), o
(a) Qual a probabilidade de se vender mais do que l50 kg, num dia escolhido ao acaso?
(b) Em 30 dias, quanto o gerente do supermercado espera vender?
(c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente para que não falte arroz em 95% dos
dias?
11. Suponha que X tenha f.d.p. f(x) do Problema 1. Calcule E(X) e Var(X).
12. Seja X com densidade
Calcule a média e a variância de X.
7.4 Alguns Modelos Probabilísticos para Variáveis Aleatórias
Contínuas
De modo geral, podemos dizer que as v.a. cujos valores resultam de algum processo de
mensuração são v.a. contínuas. Alguns exemplos são:
(a) o peso ou a altura das pessoas de uma cidade;
(b) a demanda diária de arroz num supermercado;
(c) o tempo de vida de uma lâmpada;
(d) o diâmetro de rolamentos de esferas; e
(e) erros de medidas em geral, resultantes de experimentos em laboratórios.
Dada uma v.a. contínua X, interessa saber qual a f.d.p. de X. Alguns modelos são
frequentemente usados para representar a f.d.p. de v.a. contínuas. Alguns dos mais utilizados
serão descritos a seguir e, para uniformizar o estudo desses modelos, iremos em cada caso
analisar:
(a) definição;
(b) gráfico da f.d.p.;
(c) momentos: E(X),Var(X);
(d) função de distribuição acumulada (f.d.a.).
Outros modelos serão apresentados na Seção 7.7.
7.4.1 O Modelo Uniforme
O modelo uniforme é uma generalização do modelo estudado no Exemplo 7.1 e é o modelo
mais simples para v.a. contínuas.
(a) Definição. A v.a. X tem distribuição uniforme no intervalo [α, β] se sua f.d.p. é dada por
(7.12)
(b) Gráfico. A Figura 7.9 representa a função dada por (7.12).
Figura 7.9 Distribuição
uniforme no intervalo [α, b].
(c) Momentos. Pode-se mostrar (veja o Problema 29) que
(7.13)
(7.14)
(d) F.d.a. A função de distribuição acumulada da uniforme é fácil de ser encontrada (veja o
Problema 29):
(7.15)
cujo gráfico está na Figura 7.10.
Figura 7.10 f.d.a.
de uma v.a. uniforme no intervalo [α, β].
Assim, para dois valores quaisquer c e d, c < d, teremos
P(c < X ≤ d) = F(d) - F(c),
que é obtida facilmente de (7.15).
Usaremos a notação
X ∼ u(α, β)
para indicar que a v.a. X tem distribuição uniforme no intervalo [α, β].
Um caso particular bastante interessante é aquele em que α = -1/2 e β = 1/2. lndicando
essa v.a. por U, teremos
Exemplo 7.8
Nessa situação, temos que
E(U) = 0, Var(U) = 1/12
e a f.d.a. é dada por
Por exemplo,
P(-1/4 ≤ U ≤ 1/4) = FU(1/4) - FU(-1/4) = 1/2.
Se quiséssemos facilitar o nosso trabalho, poderíamos tabelar os valores da f.d.a para essa
variável U. Devido à simetria da área em relação a x = 0, poderíamos construir uma tabela
indicando a função G(u), tal que
G(u) = P(0 ≤ U ≤ u)
para alguns valores de u (veja o Problema 30).
Dada uma v.a. uniforme X qualquer, com parâmetros α e β, podemos definir a v.a. U como
(7.16)
Segue-se que a transformação (7.16) leva uma uniforme no intervalo [α, β] numa uniforme no
intervalo [-1/2, 1/2] e para dois números quaisquer c e d, com c < d,
Artifícios semelhantes a esse são muito úteis na construção de tabelas e programas para
cálculos de probabilidades referentes a famílias de modelos.
Um outro caso importante é para α = 0 e β = 1. Um número aleatório é um valor gerado de
uma v.a. com distribuição uniforme no intervalo [0, 1]. Veja o Capítulo 9.
7.4.2 O Modelo Normal
Vamos introduzir, agora, um modelo fundamental em probabilidades e inferência estatística.
Suas origens remontam a Gauss em seus trabalhos sobre erros de observações astronômicas, por
volta de 1810, donde o nome de distribuição gaussiana para tal modelo.
(a) Definição. Dizemos que a v.a. X tem distribuição normal com parâmetros µ e σ2, -∞ < µ <
+∞ e 0 < σ2 < ∞, se sua densidade é dada por
(7.17)
Claramente, f(x; µ, σ2) ≥ 0, para todo x e pode-se provar que
Veja o Problema
60.
(b) Gráfico. A Figura 7.11 ilustra uma particular curva normal, determinada por valores
particulares de µ e σ2.
Figura 7.11 f.d.p.
de uma v.a. normal com média µ e desvio padrão σ.
(c) Momentos. Pode-se demonstrar que (veja o Problema 32):
E(X) = µ, (7.18)
Var(X) = σ2. (7.19)
Além disso, f(x; µ; σ2) → 0, quando x → ±∞, m - σ e µ + σ são pontos de inflexão de f(x; µ,
σ ), x = µ é ponto de máximo de f(x; µ, σ2), e o valor máximo é
. A densidade f(x; µ, σ2) é
simétrica em relação à reta x = µ, isto é,
2
f(m + x; m, σ2) = f(m - x; m, σ2), (7.20)
para todo x real.
Para simplificar a notação, denotaremos a densidade da normal simplesmente por f(x) e
escreveremos, simbolicamente,
X ∼ N(m, σ2).
Quando m = 0 e σ2 = 1, temos uma distribuição padrão ou reduzida, ou brevemente N(0,1).
Para essa a função densidade reduz-se a
(7.21)
O gráfico da normal padrão está na Figura 7.12.
Figura 7.12 f.d.p.
de uma v.a. normal padrão: Z ∼ N(0, 1).
Se X ∼ N(m; σ2), então a v.a. definida por
(7.22)
terá média zero e variância 1 (prove esses fatos). O que não é tão fácil mostrar é que Z também
tem distribuição normal. Isso não será feito aqui.
A transformação (7.22) é fundamental para calcularmos probabilidades relativas a uma
distribuição normal qualquer.
(d) F.d.a. A f.d.a. F(y) de uma v.a. normal X, com média m e variância σ2 é obtida integrandose (7.17) de -∞ até y, ou seja,
(7.23)
A integral (7.23) corresponde à área, sob f(x), desde -∞ até y, como ilustra a Figura 7.13.
Figura 7.13 Representação
gráfica de F(y) como área.
No caso específico da normal padrão, utilizamos a seguinte notação, que é universal:
(7.24)
O gráfico de Φ(z) é ilustrado na Figura 7.14.
Figura 7.14 f.d.a.
da normal padrão.
Suponha, então, que X ∼ N(m, σ2) e que queiramos calcular
(7.25)
em que f(x) é dada por (7.17). Ver Figura 7.15.
A integral (7.25) não pode ser calculada analiticamente e, portanto, a probabilidade indicada
só poderá ser obtida, aproximadamente, por meio de integração numérica. No entanto, para cada
valor de m e cada valor de σ, teríamos de obter P(a < X < b) para diversos valores de a e b. Essa
tarefa é facilitada pelo uso de (7.22), de sorte que somente é necessário construir uma tabela para
a distribuição normal padrão.
Figura 7.15 Ilustração
gráfica da P(a ≤ X ≤ b) para uma v.a. normal.
Vejamos, então, como obter probabilidades a partir da Tabela III. Essa tabela dá as
probabilidades sob uma curva normal padrão, que nada mais são do que as correspondentes áreas
sob a curva. A Figura 7.16 ilustra a probabilidade fornecida pela tabela, a saber,
P(0 ≤ Z ≤ zc),
em que Z ∼ N(0,1).
Figura 7.16 P(0
≤ Z ≤ z ) fornecido pela Tabela III.
c
Se tomarmos, por exemplo, zc = 1,73, segue-se que
P(0 ≤ Z ≤ 1,73) = 0,4582.
Calculemos mais algumas probabilidades (Figura 7.17):
(a) P(-1,73 ≤ Z ≤ 0) = P(0 ≤ Z ≤ 1,73) = 0,4582, devido à simetria da curva.
(b) P(Z ≥ 1,73) = 0,5 - P(0 ≤ Z ≤ 1,73) = 0,5 - 0,4582 = 0,0418, pois P(Z ≥ 0) = = 0,5 = P(Z ≤
0).
(c) P(Z < -1,73) = P(Z > 1,73) = 0,0418.
(d) P(0,47 ≤ Z ≤ 1,73) = P(0 ≤ Z ≤ 1,73) - P(0 ≤ Z ≤ 0,47) = 0,4582 - 0,1808 = = 0,2774.
Figura 7.17 Ilustração
do cálculo de probabilidades para a N(0,1).
Suponha, agora, que X seja uma v.a. N(m, σ2), com m = 3 e σ2 = 16, e queiramos calcular P(2
≤ X ≤ 5). Utilizando (7.22), temos
Portanto, a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja
entre -0,25 e 0,5 (Figura 7.18). Utilizando a Tabela III, vemos que
P(-0,25 ≤ Z ≤ 0,5) = 0,0987 + 0,1915 = 0,2902,
ou seja,
P(2 ≤ X ≤ 5) = 0,2902.
Figura 7.18 Ilustração
do cálculo de P(2 ≤ X ≤ 5) para a v.a. N(3, 16).
Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos
normalmente, com média de $ l0.000,00 e desvio padrão de $ 1.500,00. Um depósito é
selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a probabilidade de
que o depósito seja:
(a) $ 10.000,00 ou menos;
(b) pelo menos $ 10.000,00;
(c) um valor entre $ 12.000,00 e $ 15.000,00;
(d) maior do que $ 20.000,00.
Temos que m = 10.000 e σ = 1.500. Seja a v.a. X = depósito.
Exemplo 7.9
(a)
(b) P(X ≥ 10.000) = P(Z ≥ 0) = 0,5.
(c)
(d)
7.4.3 O Modelo Exponencial
Outra distribuição importante e que tem aplicações em confiabilidade de sistemas, assunto de
que já tratamos brevemente no Capítulo 5, é a exponencial.
(a) Definição. A v.a. T tem distribuição exponencial com parâmetro β > 0 se sua f.d.p. tem a
forma
(7.26)
Escreveremos, brevemente,
T ∼ Exp(β).
(b) Gráfico. O gráfico de f(t; β) = f(t) está ilustrado na Figura 7.8 (b), com β = 1.
(c) Momentos. Usando integração por partes, pode-se demonstrar que (veja o Problema 41):
E(T) = β, (7.27)
Var(T) = β2. (7.28)
O tempo de vida (em horas) de um transistor pode ser considerado uma v.a com
distribuição exponencial com β = 500. Segue-se que a vida média do transistor é E(T) = 500
horas e a probabilidade de que ele dure mais do que a média é
Exemplo 7.10
(d) F.d.a. Usando a definição (7.10), obtemos
(7.29)
O gráfico de F(t) está na Figura 7.8 (a), com β = 1.
7.5 Aproximação Normal à Binomial
Suponha que a v.a. Y tenha uma distribuição binomial com parâmetros n = 10 e p = 1/2 e
queiramos calcular P(Y ≥ 7). Embora seja uma v.a. discreta, vimos no Capítulo 2 que é possível
representá-la por meio de um histograma, como na Figura 7.19. Vemos que P(Y = 7) é igual à
área do retângulo de base unitária e altura igual a P(Y = 7), similarmente para P(Y = 8) etc. Logo,
P(Y ≥ 7) é igual à soma das áreas dos retângulos hachurados na Figura 7.19.
Figura 7.19 (P(Y
≥ 7) para Y ∼ b(10, 1/2).
A ideia é aproximar tal área pela área sob uma curva normal, à direita de 6,5. Qual curva
normal? Parece razoável considerar aquela normal de média
e variância
Veja a Figura 7.20.
Figura 7.20 Aproximação
de P(Y ≥ 7) pela área sob a N(5; 2,5).
Chamando X tal variável, com distribuição normal,
em que Z é, como sempre, N(0, 1). Utilizando a Tabela I, vemos que a probabilidade verdadeira é
0,172.
Vamos calcular agora P(3 < Y ≤ 6) = P(Y = 4) + P(Y = 5) + P(Y = 6). Vemos, pela Figura 7.21,
que a aproximação a ser feita deve ser
ao passo que a probabilidade verdadeira é 0,656.
Figura 7.21 Aproximação
de P(3 < Y ≤ 6).
A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Central, que
será visto no Capítulo 10. A aproximação é boa quando np > 5 e n(1 - p) > 5.
Problemas
13. A temperatura T de destilação do petróleo é crucial na determinação da qualidade final do produto. Suponha que T seja
considerada uma v.a. com distribuição uniforme no intervalo (150, 300). Suponha que o custo para produzir um galão de petróleo
seja C1 reais. Se o óleo for destilado a uma temperatura inferior a 200°, o produto obtido é vendido a C2 reais; se a temperatura
for superior a 200°, o produto é vendido a C3 reais.
(a) Fazer o gráfico da f.d.p. de T.
(b) Qual o lucro médio por galão?
14. Se X ∼ N(10, 4), calcular:
(a) P(8 < X < 10), (c) P(X > 10),
(b) P(9 ≤ X ≤ 12), (d) P(X < 8 ou X > 11).
15. Para X ∼ N(100, 100), calcule:
(a) P(X < 115),
(b) P(X ≥ 80),
(c) P(|X - 100| ≤ 10),
(d) o valor a, tal que P(100 - a ≤ X ≤ 100 + a) = 0,95.
16. Para a v.a. X ∼ N(µ, σ2), encontre:
(a) P(X ≤ µ + 2σ),
(b) P(|X - µ| ≤ σ),
(c) o número a tal que P(µ - aσ ≤ X ≤ µ + aσ) = 0,99,
(d) o número b tal que P(X > b) = 0,90.
17. As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média 170 cm e desvio padrão 5
cm.
(a) Qual o número esperado de alunos com altura superior a 165 cm?
(b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
18. As vendas de determinado produto têm distribuição aproximadamente normal, com média 500 unidades e desvio padrão 50
unidades. Se a empresa decide fabricar 600 unidades no mês em estudo, qual é a probabilidade de que não possa atender a todos
os pedidos desse mês, por estar com a produção esgotada?
19. Suponha que as amplitudes de vida de dois aparelhos elétricos, D1 e D2, tenham distribuições N(42, 36) e N(45, 9),
respectivamente. Se os aparelhos são feitos para ser usados por um período de 45 horas, qual aparelho deve ser preferido? E se
for por um período de 49 horas?
20. O diâmetro X de rolamentos esféricos produzidos por uma fábrica tem distribuição N(0,6140; (0,0025)2). O lucro T de cada
rolamento depende de seu diâmetro. Assim,
T = 0,10, se o rolamento for bom (0,610 < X < 0,618).
T = 0,05, se o rolamento for recuperável (0,608 < X < 0,610) ou (0,618 < X < 0,620).
T = - 0,10, se o rolamento for defeituoso (X < 0,608 ou X > 0,620).
Calcule:
(a) as probabilidades de que os rolamentos sejam bons, recuperáveis e defeituosos.
(b) E(T).
21. Suponha que um mecanismo eletrônico tenha um tempo de vida X (em 1.000 horas) que possa ser considerado uma v.a.
contínua com f.d.p. f(x) = e-x, x > 0. Suponha que o custo de fabricação de um item seja 2,00 reais e o preço de venda seja 5,00
reais. O fabricante garante total devolução se X ≤ 0,9. Qual o lucro esperado por item?
22. Seja Y com distribuição binomial de parâmetros n = 10 e p = 0,4. Determine a aproximação normal para:
(a) P(3 < Y < 8), (b) P(Y ≥ 7), (c) P(Y < 5).
23. De um lote de produtos manufaturados, extraímos 100 itens ao acaso; se 10% dos itens do lote são defeituosos, calcule a
probabilidade de 12 itens serem defeituosos. Use também a aproximação normal.
24. A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as condições para as quais foi
planejado. Uma amostra de 1.000 desses itens é escolhida ao acaso e os itens são testados, obtendo-se 30 defeituosos. Calcule a
probabilidade de se obter pelo menos 30 itens defeituosos, supondo que a confiabilidade de cada item é 0,95.
7.6 Funções de Variáveis Contínuas
Vimos, no Capítulo 6, como obter a distribuição de uma v.a. Y = h(X), se conhecermos a
distribuição da v.a. discreta X. Vejamos, agora, o caso em que X é contínua. Suponhamos,
primeiramente, que a função h seja estritamente monotônica, crescente ou decrescente. Neste
caso, a inversa h-1 estará univocamente determinada e podemos obter x = h-1(y), para valores x e y
das v.a. X e Y, respectivamente. Observando a Figura 7.22, vemos que, se a densidade de X, f(x),
digamos, for positiva no intervalo a < x < b, então a densidade de Y será positiva para h(a) < y <
h(b), se h for crescente, e para h(b) < y < h(a), se h for decrescente.
Figura 7.22 Função
de uma v.a.
Suponha X com a densidade do Exemplo 7.2 e considere Y = 3X + 4. Aqui, y = h(x) =
3x + 4, que é crescente (Figura 7.23 (a)).
Exemplo 7.11
Figura 7.23 Exemplos
de funções de v.a., (a) Exemplo 7.11, (b) Exemplo 7.12.
Denotando a densidade de Y por g(y), e como f(x) > 0 para 0 < x < 1, g(y) > 0 para 4 < y < 7.
Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X. Por
exemplo,
P(Y > 1) = P(3X + 4 > 1) = P(X > -1) = 1.
Vejamos como se pode obter g(y). Denotemos por G(y) a função de distribuição acumulada de
Y. Da Seção 7.3, sabemos que G′(y) = g(y); para todo valor de y para o qual G for derivável.
Então, temos
em que estamos denotando por F(·) a função de distribuição acumulada de X. Usando a regra da
cadeia para derivadas, temos
do que decorre
Suponha, agora, que X tenha densidade f(x) = 3x2/2, -1 < x < 1 e que Y = e-X. Segue-se
que h(x) = e-x é uma função decrescente e x = -ℓn(y) (Figura 7.23 (b)). Então,
Exemplo 7.12
em que novamente F denota a f.d.a. de X. Derivando, obtemos a f.d.p. de Y,
O seguinte resultado generaliza esses dois exemplos.
Teorema 7.1 Se X for uma v.a. contínua, com densidade f(x) > 0, a < x < b, então Y = h(X) tem
densidade
(7.30)
supondo que h seja monotônica, derivável para todo x. Se h for crescente, g(y) > 0, h(a) < y <
h(b) e, se h for decrescente, g(y) > 0, h(b) < y < h(a).
Basta notar que G(y) = P(Y ≤ y) = P(h(X) ≤ y) e que essa probabilidade é igual a P(X ≤ h1
(y)) = F(h-1(y)), se h for crescente, e igual a 1 - F(h-1(y)), se h for decrescente. Derivando G(y)
obtemos o resultado, notando que a derivada (h-1(y)), = dx/dy > 0 se h for crescente, e negativa se
h for decrescente.
Suponha, agora, que h não seja monotônica. Um caso de interesse que será usado mais tarde é
Y = h(X) = X2 (Figura 7.24). Temos
Prova.
e derivando obtemos a densidade de Y,
(7.31)
em que f é a densidade de X.
Se f(x) = 1, 0 < x < 1 (X é uniforme no intervalo [0, 1]), então
Figura 7.24 Ilustração
de Y = h(X) = X2.
Problemas
25. Considere a v.a. X do Problema 2 e Y = X + 5.
(a) Calcule P(Y ≤ 5,5).
(b) Obtenha a densidade de Y.
(c) Obtenha a densidade de Z = 2X.
26. Suponha que a v.a. X tenha a densidade do Problema 8. Se Y = 2X - 3/5, obter a densidade de Y. Calcule E(Y) e Var(Y).
27. Suponha X ~ u [-1, 1]. Calcule a densidade de Y = X2 e de W = |X|.
7.7 Outros Modelos Importantes
Nesta seção, vamos introduzir alguns modelos para v.a. contínuas que serão bastante
utilizados na terceira parte deste livro. Juntamente com o modelo normal, esses modelos são
úteis para as v.a. de interesse prático, que na maioria dos casos assumem valores positivos e
tendem a ter distribuições assimétricas à direita.
7.7.1 A Distribuição Gama
Uma extensão do modelo exponencial é estudado a seguir.
A v.a. contínua X, assumindo valores positivos, tem uma distribuição gama com
parâmetros α > 0 e β > 0, se sua f.d.p. for dada por
Definição.
(7.32)
Em (7.32), Γ(α) é a função gama, importante em muitas áreas da Matemática, dada por
(7.33)
Não é difícil ver que Γ(α) = (α - 1) Γ(α - 1), se α = n for um inteiro positivo, Γ(n) = (n - 1)! e
que
. Veja o Problema 45.
A Figura 7.25 ilustra a densidade (7.32) para α = 3 e β = 1. Se α = 1 obtemos a distribuição
exponencial (7.26). Muitos casos de interesse têm α inteiro positivo.
Usaremos a notação
X ∼ Gama(α, β)
para designar uma v.a. com a distribuição dada por (7.32).
Figura 7.25 Gráfico
da f.d.p. de uma distribuição gama, α = 3, β = 1.
Pode-se demonstrar que:
E(X) = αβ, Var(X) = αβ2. (7.34)
7.7.2 A Distribuição Qui-Quadrado
Um caso especial importante do modelo gama é obtido fazendo-se α = ν/2 e β = 2, com ν > 0
inteiro.
Uma v.a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com ν
graus de liberdade, se sua densidade for dada por
Definição.
(7.35)
Usaremos a notação Y ~ χ2 (ν).
A Figura 7.26 ilustra os gráficos de (7.35) para ν = 1, 2, 3. Segue-se de (7.34) que
E(Y) = ν, Var(Y) = 2v. (7.36)
Figura 7.26 Gráficos
da distribuição qui-quadrado χ2(ν).
A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da normal,
existem tabelas para obter probabilidades. A Tabela IV fornece os valores de y0 tais que P(Y > y0)
= p, para alguns valores de p e de ν. Ver Figura 7.27.
Figura 7.27 Valores
tabelados da distribuição χ2(ν).
Usando a Tabela IV, para ν = 10, observe que P(Y > 2,558) = 0,99, ao passo que P(Y
> 18,307) = 0,05.
Para ν > 30 podemos usar uma aproximação normal à distribuição qui-quadrado.
Especificamente, temos o seguinte resultado: se Y tiver distribuição qui-quadrado com ν graus de
liberdade, então a v.a.
Exemplo 7.13
Por exemplo, consultando a Tabela IV, temos que, se ν = 30,
P(Y > 40,256) = 0,10,
enquanto que, usando a fórmula acima, temos que
e P(Z > 1,292) = 0,099, que resulta ser uma boa aproximação.
Exemplo 7.14
Considere Z ∼ N(0,1) e considere a v.a. Y = Z2. De (7.31) temos que a densidade de Y
é dada por
em que por φ(z) indicamos a densidade da N(0,1). Resulta
e comparando com (7.35) vemos que Y ∼ χ2(1). Temos, aqui, um resultado importante:
O quadrado de uma v.a. com distribuição normal padrão é uma v.a. com distribuição χ2(1).
De um modo mais geral, uma v.a. χ2 (ν) pode ser vista como a soma de ν normais padrões ao
quadrado, independentes.
7.7.3 A Distribuição t de Student
A distribuição t de Student é importante no que se refere às inferências sobre médias
populacionais, tópico a ser tratado nos Capítulos 12 e 13. A obtenção da densidade está contida
no teorema abaixo.
Teorema 7.1
Seja Z uma v.a. N(0,1) e Y uma v.a. χ2 (ν), com Z e Y independentes. Então, a v.a.
(7.37)
tem densidade dada por
(7.38)
Diremos que tal variável tem uma distribuição t de Student com ν graus de liberdade e a
indicaremos por t(ν). Pode-se provar que
(7.39)
e verificar que o gráfico da densidade de t aproxima-se bastante de uma N(0,1) quando ν é
grande. Veja a Figura 7.28.
Figura 7.28 A
distribuição t de Student e a distribuição normal padrão.
Como essa distribuição é bastante utilizada na prática, existem tabelas fornecendo
probabilidades relativas a ela. A Tabela V fornece os valores de tc tais que
P(-tc < t(ν) < tc) = 1 - p, (7.40)
para alguns valores de p e de ν.
O nome Student vem do pseudônimo usado pelo estatístico irlandês W. S. Gosset, que
introduziu essa distribuição no início do século passado.
Se ν = 6, então, usando a Tabela V, P(-1,943 < t(6) < 1,943) = 0,90, ao passo que
P(t(6) > 2,447) = 0,025. Observe que, nessa tabela, há uma linha com ν = ∞, que corresponde a
usar os valores da N(0,1). Para n > 120 essa aproximação é muito boa.
Exemplo 7.15
7.7.4 A Distribuição F de Snedecor
Vamos considerar agora uma v.a. definida como o quociente de duas variáveis com
distribuição qui-quadrado.
O seguinte teorema, que não será demonstrado, resume o que nos vai ser útil.
Sejam U e V duas v.a. independentes, cada uma com distribuição qui-quadrado, com
ν1 e ν2 graus de liberdade, respectivamente. Então, a v.a.
Teorema 7.2
(7.41)
tem densidade dada por
(7.42)
Diremos que W tem distribuição F de Snedecor, com ν1 e ν2 graus de liberdade, e usaremos a
notação W ∼ F(v1, v2). Pode-se mostrar que
(7.43)
O gráfico típico de uma v.a. com distribuição F está na Figura 7.29. Na Tabela VI, são dados
os pontos f0 tais que
para α = 0,05, α = 0,025 e alguns valores de ν1 e ν2. Para encontrar os valores inferiores, usa-se o
fato que, se W ∼ F(ν1, ν2), então
. (7.44)
Figura 7.29 Gráfico
de distribuição F.
Considere, por exemplo, W ∼ F(5,7). Consultando a Tabela VI, P(W > 3,97) = 0,05
ou, então, P(W ≤ 3,97) = 0,95. Digamos, agora, que desejamos encontrar o valor f0 tal que P(W <
f0) = 0,05. De (7.44) temos
0,05 = P{F(5,7) < f0} = P{F(7,5) < f0} = P{F(7,5) > 1/f0},
e procurando na Tabela VI, para F(7,5), obtemos 1/f0 = 4,88 e, portanto, f0 = 0,205.
Na seção de Problemas e Complementos, apresentamos algumas outras distribuições de
interesse, como a log-normal, Pareto, Weibull e beta.
Na Tabela 7.2, mostramos os principais modelos para v.a. contínuas, incluindo: a densidade, o
domínio dos valores, os parâmetros, a média e a variância.
Exemplo 7.16
Tabela 7.2 Modelos
para variáveis contínuas.
f (x)
Modelo
Uniforme
1/(β - α), α< x <
E(X ), Var(X )
Parâmetros
β
(α
+ β)/2, (β - α )2/12
β
β, β2
µ, σ
µ, σ2
β > 0, α > 0
αβ, αβ2
Qui-quadrado
v
v, 2v
t-Student
v
0, v/ (v - 2)
F-Snedecor
v1, v2
Exponencial
1/β e-t/β, t > 0
α, β
Normal
Gama
b-a/ Γ(a) x a-1e -x/b, x > 0
7.8 Quantis
No Capítulo 6, definimos o p-quantil Q(p) como o valor da v.a. discreta X satisfazendo as duas
desigualdades de (6.26).
No caso de uma v.a. contínua X, essa definição torna-se mais simples. Se F(x) designar a f.d.a.
de X, temos que as desigualdades em (6.26) ficam:
P(X ≤ Q(p)) = F(Q(p)) ≥ p (7.45)
e
P(X ≥ Q(p)) = 1 - P(X < Q(p)) = 1 - P(X ≤ Q(p)) = 1 - F(Q(p)) ≥ 1 - p. (7.46)
Mas (7.46) pode ser reescrita como
F(Q(p)) ≤ p. (7.47)
Portanto, de (7.45) e (7.47) chegamos à conclusão de que o p-quantil deve satisfazer
F(Q(p)) = p. (7.48)
Graficamente, temos a situação ilustrada na Figura (7.30). Ou seja, para obter Q(p), marcamos
p no eixo das ordenadas, consideramos a reta horizontal pelo ponto (0, p) até encontrar a curva
de F(x) e baixamos uma reta vertical até encontrar Q(p) no eixo das abscissas. Analiticamente,
temos de resolver a Equação (7.48). Vejamos alguns exemplos.
Figura 7.30 Definição
de Q(p), (a) f.d.a., (b) f.d.p.
Se Z ∼ N(0, 1), utilizando a Tabela III encontramos facilmente que
Q(0, 5) = Q2 = 0,
Q(0, 25) = Q1 = - 0,675,
Q(0, 30) = - 0,52,
Q(0,75) = Q3 = 0,675.
Exemplo 7.17
Exemplo 7.18
Suponha que Y ∼ Exp(2). Se quisermos calcular a mediana, Q2, teremos de resolver
ou seja,
Obtemos
1 - e-Q2/2 = 0,5,
do que temos, finalmente, Q2 = -2ℓn(0,5) = 1,386.
7.9 Exemplos Computacionais
Para variáveis contínuas, o padrão dos comandos é muito parecido com o padrão utilizado no
capítulo anterior para variáveis discretas. Valem os mesmos prefixos, isto é, d para densidade, p
para função distribuição, q para quantis e r para simulação. A Tabela 7.3 apresenta os principais
sufixos para distribuições contínuas:
Tabela 7.3 As
principais distribuições contínuas e seus sufixos no R.
Distribuição
Sufixo
Parâmetros
Exponencial
exp
rate
Normal
norm
mean,sd
Gama
gamma
shape, rate, scale
Qui-quadrado
chisq
df
t-Student
t
df
F-Snedecor
f
df1, df2
Apresentaremos a seguir uma sequência de comandos para construir os gráficos da função
densidade e distribuição acumulada de uma v.a. Normal padrão. Esta sequência de comandos
pode ser utilizada para qualquer distribuição contínua.
x<-seq (-3,3,0.1) # Cria um intervalo de -3 a 3
fdnorm<-dnorm(x = x, mean = 0, sd=1) # Calcula a fdp da distr. normal para o intervalo x
fdanorm<-pnorm(q = x, mean = 0, sd=1) # Calcula a fda da distr. normal para o intervalo x
## Imprimindo os gráficos da fdp e fda:
par (mfrow=c (1,2))
plot (x=x,y=fdnorm,type="l", col="blue", lwd=2, main="f.d.p. da Distrib. Normal padrão",xlab="z")
plot (x=x,y=fdanorm,type="l", col="blue",lwd=2, main="f.d.a. da Distrib. Normal padrão",xlab="z")
lines (x=c(0,0),y=c(0,fdanorm[x==0]), lty=2, col="gray")
Nesta seção, vamos dar alguns exemplos de como obter probabilidades acumuladas e quantis
para a normal e exponencial, usando o R. Isso também pode ser feito usando outros pacotes,
como o Minitab e SPlus, bem como podemos considerar outras distribuições contínuas.
Considere a v.a. contínua X, com f.d.a. F(x)=P(X≤x), para todo x real. Dado x, queremos
calcular F(x), ou dado F(x)=p, 0< p <1, queremos calcular x=Q(p), conforme (7.48), ou seja,
queremos calcular o p-quantil de X.
Exemplo 7.19 Suponha X com distriuição normal, de média 10 e desvio padrão 25. Se x=8,65, para
obter F(x) usamos o comando:
pnorm (8.65,mean=10, sd=25),
obtendo-se
[1] 0.47847
Por outro lado, se F(x)=0,8269(=p), usamos o comando:
qnorm (0.8269,mean=10, sd=25),
obtendo-se o quantil
[1] 33.55
Suponha, agora, que tenhamos uma distribuição exponencial, com média E(X)=0,5,
ou seja, parâmetro β =2. Da mesma forma, os comandos para a distribuição exponencial serão
pexp e qexp, respectivamente:
Exemplo 7.20
pexp (0.85, rate=2)
[1] 0.81732
qexp (0.345 ,rate=2)
[1] 0.21156
[1] 0.21156
Exemplo 7.21 Podemos, também, construir o gráfico de uma f.d.a, por meio de comandos do R
(ou de outro pacote). Suponha Z ~ N(0,1). Como os valores de Z estão concentrados no intervalo
[-4,4], podemos considerar um vetor de valores nesse intervalo e obter o gráfico de da f.d.a. Os
comandos estão abaixo, onde utilizamos o comando curve. O gráfico está na Figura 7.31.
curve (pnorm(q = x, mean = 0, sd=1), xlim=c (- 4, 4), col="blue", lwd=2,
ylab="", xlab="z")
Figura 7.31 Gráfico
da f.d.a. da N(0, 1). R.
7.10 Problemas Suplementares
28. Numa determinada localidade, a distribuição de renda (em reais) é uma v.a. X com f.d.p.
(a) Qual a renda média nessa localidade?
(b) Escolhida uma pessoa ao acaso, qual a probabilidade de sua renda ser superior a $ 3.000,00?
(c) Qual a mediana da variável?
29. Se X tiver distribuição uniforme com parâmetros α e β, mostre que:
(a)
(b) Var(X) = (β - α)2/12.
(c)
30. Complete a tabela abaixo, que corresponde a alguns valores da função
G(u) = P(0 ≤ U ≤ u),
definida na Seção 7.4.1, com U uma v.a. uniforme no intervalo (-1/2, 1/2).
Probabilidades p, tais que p = P(0 ≤ U ≤ u)
Primeira decimal de u
0,0
Segunda decimal de u
0
1
...
9
Primeira decimal de u
0,0
0,1
0,1
0,2
0,2
0,3
0,3
0,4
0,4
0,5
0,5
31. Dada a v.a. X, uniforme em (5, 10), calcule as probabilidades abaixo, usando a tabela do problema anterior.
(a) P(X < 7) (c) P(X > 8,5)
(b) P(8 < X < 9) (d) P(|X - 7,5| > 2)
32. Se X ∼ N(µ, σ2), calcular E(X) e Var(X).
[Sugestão: Fazendo a transformação de variáveis x = µ + σt, obtemos que
A primeira integral resulta µ
(por quê?) e a segunda anula-se, pois o integrando é uma função ímpar. Para obter a variância, obtenha E(X2) por integração por
partes.]
33. As notas de Estatística Econômica dos alunos de determinada universidade distribuem-se de acordo com uma distribuição
normal, com média 6,4 e desvio padrão 0,8. O professor atribui graus A, B e C da seguinte forma:
Nota
Grau
x<5
C
5 ≤ x < 7,5
B
7,5 ≤ x ≤ 10
A
Numa classe de 80 alunos, qual o número esperado de alunos com grau A? E com grau B? E C?
34. O peso bruto de latas de conserva é uma v.a. normal, com média 1.000 g e desvio padrão 20 g.
(a) Qual a probabilidade de uma lata pesar menos de 980 g?
(b) Qual a probabilidade de uma lata pesar mais de 1.010 g?
35. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal, com
média de 5 kg e desvio padrão de 0,8 kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso,
do seguinte modo: 20% dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10%
mais pesados como extras. Quais os limites de peso para cada classe?
36. Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de líquido em cada garrafa
seja de 1.000 cm3 e o desvio padrão de 10 cm3. Pode-se admitir que a variável volume seja normal.
(a) Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm3?
(b) Qual é a porcentagem das garrafas em que o volume líquido não se desvia da média em mais que dois desvios padrões?
(c) O que acontecerá com a porcentagem do item (b) se a máquina for regulada de forma que a média seja 1.200 cm3 e o
desvio padrão 20 cm3?
37. O diâmetro de certo tipo de anel industrial é uma v.a. com distribuição normal, de média 0,10 cm e desvio padrão 0,02 cm. Se
o diâmetro de um anel diferir da média em mais que 0,03 cm, ele é vendido por $ 5,00; caso contrário, é vendido por $ 10,00.
Qual o preço médio de venda de cada anel?
38. Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor apresentar algum defeito grave
no prazo de seis meses. Ela produz televisores do tipo A (comum) e do tipo B (luxo), com lucros respectivos de $ 1.000,00 e $
2.000,00, caso não haja restituição, e com prejuízos de $ 3.000,00 e $ 8.000,00, se houver restituição. Suponha que o tempo para
a ocorrência de algum defeito grave seja, em ambos os casos, uma v.a. com distribuição normal, respectivamente, com médias 9
meses e 12 meses, e variâncias 4 meses2 e 9 meses2. Se tivesse de planejar uma estratégia de marketing para a empresa, você
incentivaria as vendas dos aparelhos do tipo A ou do tipo B?
39. Determine as médias das v.a. X, Y e Z:
(a) X uniforme em (1, 3), Y = 3X + 4, Z = eX.
(b) X tem f.d.p. f(x) = e-x, x > 0, Y = X2, Z = 3/(X + 1)2.
40. Suponha que X tenha distribuição uniforme em [-a, 3a]. Determine a média e a variância de X.
41. Se T tiver distribuição exponencial com parâmetro β, mostre que:
(a) E(T) = β. (b) Var(T) = β2.
42. Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade de uma região. Foram observadas
duas variáveis: faturamento e número de empregados.
(a) Calcule a média e a variância para cada variável.
(b) Supondo normalidade para cada uma dessas variáveis, com parâmetros estimados pela amostra, calcule os valores
esperados para cada intervalo de classe e compare com o observado.
43. Suponha que a v.a. X tenha densidade f(x) = 1, para 0 < x < 1 e igual a zero no complementar. Faça Y = X2.
(a) Determine FY(y) = P(Y ≤ y), y real.
(b) Determine a f.d.p. de Y.
(c) Calcule E(X2), utilizando a f.d.p. de X.
(d) Calcule E(Y), utilizando a f.d.p. de Y, e compare com (c).
44. Dada a v.a.
determine a média e a variância de Z, sabendo-se que a f.d.p. de X é
f(x) = e-x, x > 0.
45. (a) Prove que, se α for inteiro positivo, Γ(α) = (α - 1)!.
(b) Prove que Γ(α + 1) = αΓ(α).
(c) Calcule Γ(1) e Γ(1/2).
(d) Prove que a média e a variância de uma v.a. X com distribuição gama (densidade em (7.32)) são, respectivamente, αβ e αβ2.
46. Suponha que X tenha distribuição exponencial com parâmetro β. Prove que
Essa propriedade nos diz que a distribuição exponencial não tem memória. Por exemplo, se X for a vida de um componente
eletrônico, a relação acima diz que, se o componente durou até o instante x, a probabilidade de ele não falhar após o intervalo t +
x é a mesma de não falhar após o instante t. Nesse sentido, X “esquece” a sua idade, e a eventual falha do componente não resulta
de uma deterioração gradual e sim de alguma falha repentina.
47. Se X for uma v.a. contínua, com f.d.p. f(x), e se Y = g(X) for uma função de X, então Y será uma v.a com
Suponha que X tenha densidade
Obtenha E(Y), se Y = |X|.
48. Se X for uniforme no intervalo [0, 1], obtenha a média da v.a. Y = (½)X2.
49. Obtenha o gráfico da f.d.a. de uma v.a. T ∼ Exp(0, 5), ou seja, E(T) = 2, considerando 20 valores de T e calculando os valores
de F(t), como na Seção 7.9.
50. Idem, para 30 valores de uma uniforme no intervalo [-1,1].
51. Obtenha os quantis Q(0,1), Q1, Q2, Q3, Q(0,9) para uma v.a. X ∼ N(10, 16).
52. Resolva a mesma questão para uma v.a. Y ∼ χ2(5).
53. Usando a aproximação normal a uma variável qui-quadrado, calcular:
(a) P(χ2(35) > 49,76); (b) o valor y tal que P(χ2(40) > y) = 0,05.
7.11 Complementos Metodológicos
1. Distribuição de Pareto. Esta é uma distribuição frequentemente usada em Economia, em conexão com problemas de
distribuição de renda.
Dizemos que a v.a. X tem distribuição de Pareto com parâmetros α > 0, b > 0 se sua f.d.p. for dada por
Aqui, b pode representar algum nível mínimo de renda, x é o nível de renda e f(x) ∆x dá a proporção de indivíduos com renda
entre x e x + ∆x. O gráfico de f(x) está na figura a seguir.
(a) Prove que
(b) Mostre que, para a > 1,
2. Distribuição lognormal. Outra distribuição usada quando se têm valores positivos é a distribuição lognormal. A v.a. X tem
distribuição lognormal, com parâmetros µ e σ2, -∞ < µ < ∞, σ2 > 0, se Y = ℓnX tiver distribuição normal com média µ e variância
σ2. A f.d.p. de X tem a forma
O gráfico de f(x) está na figura abaixo.
(a) Prove que E(X) = eµ + σ2/2.
(b) Se E(X) = m, prove que Var(X) = m2(eσ2 - 1).
3. Distribuição de Weibull. Um modelo que tem muitas aplicações na teoria da confiabilidade é o modelo de Weibull, cuja f.d.p.
é dada por
em que α e β são constantes positivas. A v.a. X pode representar, por exemplo, o tempo de vida de um componente de um
sistema.
(a) Se β = 1, qual a f.d.p. resultante?
(b) Obtenha E(X) para β = 2.
4. Distribuição Beta. Uma v.a. X tem distribuição beta com parâmetros α > 0, β > 0, se sua f.d.p. for dada por
Aqui, B(α, β) é a função beta, definida por
É possível provar que B(α, β) = Γ(α)Γ(β)/ Γ(α + β). A figura abaixo mostra a densidade da distribuição beta para α = β = 2. Para
esse caso, calcule P(X ≤ 0,2). Calcule a média e a variância de X para α = β = 2.
5. Se na distribuição t de Student colocarmos ν = 1, obteremos a distribuição de Cauchy,
Mostre que E(X) não existe.
6. Para uma v.a. com distribuição qui-quadrado, com ν graus de liberdade e ν par, vale a seguinte fórmula:
Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados na Tabela IV:
(a) ν = 4, c = 9,488;
(b) ν = 10, c =16.
7. Se X ∼ N(µ , σ2), com densidade f(x) dada por (7.17), provemos que a integral
Como esta integral é sempre
positiva, mostremos que I2 = 1. Novamente, como no Problema 32, fazemos a transformação x = µ + σt e obtemos
em que os limites de integração são -∞ e ∞. Agora, fazemos outra transformação, passando de coordenadas
cartesianas para polares: s = r cos θ, t = r sen θ, de modo que dsdt = r drdθ. Segue-se, integrando primeiro com relação a r e
depois com relação a θ, que
Capítulo 8
Variáveis Aleatórias Multidimensionais
8.1 Distribuição Conjunta
Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos a um
mesmo ponto amostral os valores de duas ou mais variáveis aleatórias. Neste capítulo, iremos
nos concentrar no estudo de um par de variáveis aleatórias, indicando que os conceitos e
resultados apresentados estendem-se facilmente a um conjunto finito de variáveis aleatórias. Um
tratamento mais completo é dado ao caso de variáveis discretas, nas Seções 8.1 a 8.4.
Suponha que estamos interessados em estudar a composição de famílias com três
crianças, quanto ao sexo. Definamos:
Exemplo 8.1
X = número de meninos,
Z = número de vezes em que houve variação do sexo entre um nascimento e outro, dentro da
mesma família.
Com essas informações, e supondo que as possíveis composições tenham a mesma
probabilidade, obtemos a Tabela 8.1, em que, por exemplo, o evento HMH indica que o primeiro
filho é homem, o segundo, mulher e o terceiro, homem.
As distribuições de probabilidades das v.a. X, Y e Z podem ser obtidas dessa tabela e são dadas
na Tabela 8.2.
Tabela 8.1 Composição
de famílias com três crianças, quanto ao sexo.
Tabela 8.2 Distribuições
Eventos
Probabilidade
X
Y
Z
HHH
1/8
3
1
0
HHM
1/8
2
1
1
HMH
1/8
2
1
2
MHH
1/8
2
0
1
HMM
1/8
1
1
1
MHM
1/8
1
0
2
MMH
1/8
1
0
1
MMM
1/8
0
0
0
de probabilidades unidimensionais.
(a)
(b)
(c)
x
0
1
2
3
y
0
1
z
0
1
2
p(x)
1/8
3/8
3/8
1/8
p(y)
1/2
1/2
p(z)
1/4
1/2
1/4
A Tabela 8.3 apresenta as probabilidades associadas aos pares de valores nas variáveis X e Y.
Nessa tabela, p(x, y) = P(X = x, Y = y) denota a probabilidade do evento {X = x e Y = y} = {X =
x} ∩ {Y = y}. Essa tabela é denominada distribuição conjunta de X e Y.
Tabela 8.3 Distribuição
bidimensional da v.a. (X, Y).
(x, y)
p(x, y)
(0, 0)
(1, 0)
(1, 1)
(2, 0)
(2, 1)
(3, 1)
1/8
2/8
1/8
1/8
2/8
1/8
A partir da Tabela 8.1, podemos formar também as distribuições conjuntas de X e Z, de Y e Z,
bem como a distribuição conjunta de X, Y e Z, que está dada na Tabela 8.4.
Tabela 8.4 Distribuição
conjunta das v.a. X, Y e Z.
(x, y, z)
p(x, y, z)
(0, 0, 0)
(1, 0, 1)
(1, 0, 2)
(1, 1, 1)
(2, 0, 1)
(2, 1, 1)
(2, 1, 2)
(3, 1, 0)
1/8
1/8
1/8
1/8
1/8
1/8
1/8
1/8
Aqui, p(x, y, z) = P(X = x, Y = y, Z = z). Vamos nos fixar nas distribuições bidimensionais, isto
é, nas distribuições conjuntas de duas variáveis. Nesse caso, uma maneira mais cômoda de
representar a distribuição conjunta é por meio de tabelas de duplas entradas, como na Tabela 8.5,
em que temos representada a mesma distribuição de X e Y, dada antes na Tabela 8.3.
Tabela 8.5 Distribuição
conjunta de X e Y, como uma tabela de dupla entrada.
YX
0
1
2
3
p(y)
0
1/8
2/8
1/8
0
1/2
1
0
1/8
2/8
1/8
1/2
p(x)
1/8
3/8
3/8
1/8
1
A representação gráfica de variáveis aleatórias bidimensionais (X, Y) exige gráficos com três
eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a probabilidade conjunta p(x,
y). A Figura 8.1 representa a distribuição conjunta resumida na Tabela 8.5. A dificuldade em
desenhar e interpretar tais gráficos nos leva, muitas vezes, a evitar o uso desse recurso tão
valioso.
Figura 8.1 Representação
gráfica da v.a. (X, Y) da Tabela 8.5.
Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o
gráfico de curvas de níveis. Esse é o mesmo recurso utilizado em mapas geográficos sobre
relevos, indicando-se por meio de linhas as cotas (alturas) de mesma intensidade em uma região.
Curvas de níveis podem ser usadas também em mapas meteorológicos, de marés etc.
Embora tais mapas sejam usados principalmente para variáveis contínuas, vamos exemplificar
abaixo sua construção para os dados da Tabela 8.5. Notamos que existem valores apenas para as
probabilidades 0, 1/8, 2/8 e 3/8, e cada um deles define um conjunto de pontos. Por exemplo,
correspondendo à probabilidade 1/8 temos o conjunto de pontos (0, 0), (1, 1), (2, 0) e (3, 1). Na
Figura 8.2 (b), representamos esses pontos, que corresponderiam à “curva de nível” para a cota
1/8. De modo análogo, traçaríamos as demais curvas de níveis. A Figura 8.2 (e), reunindo todos
os resultados, seria “equivalente” à Figura 8.1. Assim, os pontos representados por × formariam
a curva de nível da cota 1/8; os pontos representados por ° formariam a curva de nível com cota
(probabilidade) 2/8, e assim por diante. Esse recurso é mais bem visualizado para variáveis
contínuas, como na Figura 8.17.
Figura 8.2 Curvas
de níveis para a Tabela 8.5. (a) p(x, y) = 0 (b) p(x, y) = 1/8 (c) p(x, y) = 2/8 (d) todas as cotas
8.2 Distribuições Marginais e Condicionais
Da Tabela 8.5, podemos obter facilmente as distribuições de X e Y. A primeira e última
colunas da tabela dão a distribuição de Y, (y, p(y)), enquanto a primeira e última linhas da tabela
dão a distribuição de X, (x, p(x)). Essas distribuições são chamadas distribuições marginais.
Observamos, por exemplo, que
P(X = 1) = P(X = 1, Y = 0) + P(X = 1, Y = 1) = 2/8 + 1/8 = 3/8
e
P(Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) + P(X = 2, Y = 0) + P(X = 3, Y = 0)
= 1/8 + 2/8 + 1/8 + 0 = 1/2.
Portanto, para obter as probabilidades marginais basta somar linhas e colunas.
Quando estudamos os aspectos descritivos das distribuições com mais de uma variável, vimos
que, às vezes, é conveniente calcular proporções em relação a uma linha ou coluna, e não em
relação ao total. Isso é equivalente aqui ao conceito de distribuição condicional. Por exemplo,
qual seria a distribuição do número de meninos, sabendo-se que o primeiro filho é do sexo
masculino? Ou seja, queremos calcular a probabilidade P(X = x|Y = 1). Da definição de
probabilidade condicional, obtemos
(8.1)
para x = 0, 1, 2, 3. Pela Tabela 8.5 obtemos, por exemplo,
Do mesmo modo, obtemos as demais probabilidades e a distribuição condicional de X, dado
que Y = 1, está na Tabela 8.6.
Tabela 8.6 Distribuição
condicional de X, dado que Y = 1.
x
1
2
3
p(x|Y = 1)
1/4
1/2
1/4
Observe que ∑x p(x|Y = 1) = p(0|Y = 1) + ... + p(3|Y = 1) = 1.
Do mesmo modo, podemos obter a distribuição condicional de Y, dado que X = 2, que está na
Tabela 8.7.
Tabela 8.7 Distribuição
condicional de Y, dado que X = 2.
y
0
1
p(y|X = 2)
1/3
2/3
Podemos generalizar o que foi dito acima para duas v.a. X e Y quaisquer, assumindo os valores
x1, x2, ..., xn e y1, y2, ..., ym, respectivamente.
Definição.
Seja xi um valor de X, tal que P(X = xi) = p(xi) > 0. A probabilidade
(8.2)
é denominada probabilidade condicional de Y = yj, dado que X = xi.
Como observamos acima, para xi fixado, os pares (yj, P(Y = yj|X = xi)), j = 1, ..., m, definem a
distribuição condicional de Y, dado que X = xi, pois
Considere a distribuição condicional de X, dado que Y = 1, da Tabela 8.6. Podemos calcular a
média dessa distribuição, a saber
Observe que E(X) = 1,5, ao passo que E(X|Y = 1) = 2.
De modo geral temos a seguinte definição.
Definição.
A esperança condicional de X, dado que Y = yj, é definida por
Uma definição análoga vale para E(Y|X = xi).
Exemplo 8.2
Para a distribuição condicional de Y, dado que X = 2, da Tabela 8.7, temos
Considere, agora, a distribuição conjunta das variáveis Y e Z, definidas no Exemplo
8.1. Da Tabela 8.1 obtemos a Tabela 8.8. Aqui, observamos que
Exemplo 8.3
para quaisquer z = 0, 1, 2 e y = 0, 1. O que significa dizer que
P(Z = z, Y = y) = P(Z = z) P(Y = y),
isto é, a probabilidade de cada casela é igual ao produto das respectivas probabilidades
marginais. Por exemplo,
Tabela 8.8 Distribuição
conjunta de Y e Z.
YZ
0
1
2
p(y)
0
1/8
2/8
1/8
1/2
1
1/8
2/8
1/8
1/2
p(z)
1/4
2/4
1/4
1
Também é verdade que
P(Y = y|Z = z) = P(Y = y)
para todos os valores de y e z. Dizemos que Y e Z são independentes.
As variáveis aleatórias X e Y, assumindo os valores x1, x2, ... e y1, y2, ..., respectivamente,
são independentes se, e somente se, para todo par de valores (xi, yj) de X e Y, tivermos que
Definição.
P(X = xi, Y = yj) = P(X = xi)P(Y = yj). (8.3)
Basta que (8.3) não se verifique para um par (xi, yj), para que X e Y não sejam independentes.
Nesse caso, diremos que X e Y são dependentes. Essa definição pode ser estendida para mais de
duas variáveis aleatórias.
Problemas
1. Lançam-se, simultaneamente, uma moeda e um dado.
(a) Determine o espaço amostral correspondente a esse experimento.
(b) Obtenha a tabela da distribuição conjunta, considerando X o número de caras no lançamento da moeda e Y o número da
face do dado.
(c) Verifique se X e Y são independentes.
(d) Calcule:
1. P(X = 1)
2. P(X ≤ 1)
3. P(X < 1)
4. P(X = 2, Y = 3)
5. P(X ≥ 0, Y ≤ 4)
6. P(X = 0, Y ≥ 1)
2. A tabela abaixo dá a distribuição conjunta de X e Y.
(a) Determine as distribuições marginais de X e Y.
(b) Obtenha as esperanças e variâncias de X e Y.
(c) Verifique se X e Y são independentes.
(d) Calcule P(X = 1|Y = 0) e P(Y = 2|X = 3).
(e) Calcule P(X ≤ 2) e P(X = 2, Y ≤ 1).
YX
1
2
3
0
0,1
0,1
0,1
1
0,2
0
0,3
2
0
0,1
0,1
3. Considere a distribuição conjunta de X e Y, parcialmente conhecida, dada na tabela abaixo.
(a) Complete a tabela, considerando X e Y independentes.
(b) Calcule as médias e variâncias de X e Y.
(c) Obtenha as distribuições condicionais de X, dado que Y = 0, e de Y, dado que X = 1.
YX
-1
-1
1/12
0
1
P(Y = y)
0
1
1/3
1/4
1/4
P(X = x)
1
8.3 Funções de Variáveis Aleatórias
Retomemos a Tabela 8.5, que dá a distribuição conjunta das variáveis aleatórias X e Y. A partir
dela, podemos considerar, por exemplo, a v.a. X + Y, ou a v.a. XY. A soma X + Y é definida
naturalmente: a cada resultado do experimento, ela associa a soma dos valores de X e Y, isto é,
(X + Y)(ω) = X(ω) + Y(ω). (8.4)
Do mesmo modo,
(XY)(ω) = X(ω) Y(ω). (8.5)
Podemos, então, construir a Tabela 8.9.
Tabela 8.9 Funções
de variáveis aleatórias.
(xi, yj)
X+Y
XY
p(xi, yj)
(0, 0)
0
0
1/8
(0, 1)
1
0
0
(1, 0)
1
0
2/8
(1, 1)
2
1
1/8
(2, 0)
2
0
1/8
(2, 1)
3
2
2/8
(3, 0)
3
0
0
(3, 1)
4
3
1/8
A partir dessa tabela, obtemos as distribuições de X + Y e XY, ilustradas nas Tabelas 8.10 e
8.11.
Tabela 8.10 Distribuição
Tabela 8.11 Distribuição
de X + Y.
x+y
0
1
2
3
4
p(x + y)
1/8
2/8
2/8
2/8
1/8
xy
0
1
2
3
p(xy)
4/8
1/8
2/8
1/8
de XY.
Vimos, no Capítulo 6, como calcular a esperança de uma v.a. Para as v.a X e Y da Tabela 8.5,
temos:
Da Tabela 8.10, obtemos
Notamos que E(X + Y) = E(X) + E(Y). Poderia ser uma simples coincidência, mas essa relação
é de fato verdadeira.
Se X for uma v.a. com valores x1, ..., xn e probabilidades p(x1), ..., p(xn), Y for uma v.a.
com valores y1, ..., ym e probabilidades p(y1), ..., p(ym), e se p(xi, yj) = P(X = xi, Y = yj), i = 1, ..., n,
j = 1, ..., m, então
Teorema 8.1
E(X + Y) = E(X) + E(Y). (8.6)
Prova.
Observando a Tabela 8.9, podemos escrever
(8.7)
Mas, para um i fixo,
escrever
e para um j fixo,
logo, podemos
e
Comparando essas duas últimas relações com (8.7), obtemos a relação (8.6).
Do que foi visto acima, podemos concluir que, se X e Y são duas v.a. nas condições do
Teorema 8.1, e se g(X, Y) for uma função de X e Y, então
(8.8)
Exemplo 8.4
Da Tabela 8.9 temos
É claro que o mesmo valor pode ser obtido da Tabela 8.11, isto é, se W = XY e p(w) = p(xy),
então
Observamos que, neste caso,
E(W) = E(XY) = 1 ≠ E(X)E(Y) = (1,5) (0,5) = 0,75,
ou seja, de modo geral, a esperança de um produto de duas v.a. não é igual ao produto das
esperanças das v.a. No entanto, existem situações em que essa propriedade se verifica. O teorema
seguinte apresenta uma dessas situações.
Teorema 8.2
Se X e Y são variáveis aleatórias independentes, então
E(XY) = E(X) E(Y). (8.9)
Prova.
Nas condições do Teorema 8.1, usando (8.8) e (8.3),
logo,
A recíproca do Teorema 8.2 não é verdadeira, isto é, (8.9) pode ser válida e X e Y serem
dependentes. Veja o Exemplo 8.7 abaixo.
Observações.
(i) Se tivermos um número finito de v.a. X1, ..., Xn, então (8.6) toma a forma
E(X1 + ... + Xn) = E(X1) + ... + E(Xn). (8.10)
(ii)
Se X1, ..., Xn forem v.a. independentes, então
E(X1X2 ... Xn) = E(X1) E(X2) ... E(Xn). (8.11)
Nas Seções 6.6.2 e 6.6.3, definimos a v.a. de Bernoulli e a v.a. binomial. Seja X o
número de sucessos em n provas de Bernoulli. Definamos
Exemplo 8.5
i = 1, 2, ..., n. Então, segue-se que
X = X1 + X2 + ... + Xn,
e X1, ..., Xn são independentes. Se p = P(sucesso), então
E(Xi) = 1 × p + 0 × (1 – p) = p, i = 1, ..., n
e, por (8.10),
E(X) = E(X1) + ... + E(Xn) = np,
o que demonstra a relação (6.16). A relação (6.17) será demonstrada na seção seguinte.
Problemas
4. No Problema 2, obtenha as distribuições de X + Y e de XY. Calcule E(X + Y), E(XY), Var(X + Y), Var(XY).
5. (a) No Problema 3, calcule E(X + Y) e Var(X + Y).
(b) Se Z = aX + bY, calcule a e b de modo que E(Z) = 10 e Var(Z) = 600.
6. Dois tetraedros (dados com quatro faces) com as faces numeradas de um a quatro são lançados e os números das faces
voltadas para baixo são anotados. Sejam as v.a.:
X: maior dos números observados;
Y: menor dos números observados;
Z = X + Y.
(a) Construa a tabela da distribuição conjunta de X e Y.
(b) Determine as médias e as variâncias de X, Y e Z.
7. Numa urna, há cinco tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira é sorteada e recolocada na urna; então, uma segunda tira
é sorteada. Sejam X1 e X2 o primeiro e o segundo números sorteados.
(a) Determine a distribuição conjunta de X1 e X2.
(b) Obtenha as distribuições marginais de X1 e X2. Elas são independentes?
(c) Encontre a média e a variância de X1, X2 e X = (X1 + X2)/2.
(d) Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração?
8. Numa urna, há cinco bolas marcadas com os seguintes números: -1, 0, 0, 0, 1. Retiram-se três bolas, simultaneamente; X
indica a soma dos números extraídos e Y o maior valor da trinca. Calcule:
(a) Função de probabilidade de (X, Y).
(b) E(X) e Var(X).
(c) Var(X + Y).
9. Dada a distribuição conjunta de X e Y abaixo, determine a média e a variância de:
(a) X + Y.
(b) XY.
YX
1
2
3
1
5/27
1/27
3/27
2
4/27
3/27
4/27
3
2/27
3/27
2/27
10. Suponha que X e Y tenham a seguinte distribuição conjunta:
YX
1
2
3
1
0,1
0,1
0,0
2
0,1
0,2
0,3
3
0,1
0,1
0,0
(a) Determine a f.p. de X + Y e, a partir dela, calcule E(X + Y). Pode-se obter a mesma resposta de outra maneira?
(b) Determine a f.p. de XY e, em seguida, calcule E(XY).
(c) Mostre que, embora E(XY) = E(X) E(Y), X e Y não são independentes.
8.4 Covariância entre Duas Variáveis Aleatórias
Vamos introduzir agora uma medida da relação linear entre duas variáveis aleatórias.
Definição.
Se X e Y são duas v.a., a covariância entre elas é definida por
Cov(X, Y) = E[(X - E(X))(Y - E(Y))], (8.12)
ou seja, o valor médio do produto dos desvios de X e Y em relação às suas respectivas médias.
Suponha que X assuma os valores x1, ..., xn, e Y os valores y1, ..., ym, e que P(X = xi, Y = yj) =
p(xi, yj). Então, (8.12) pode ser escrita
(8.13)
A Fórmula (8.12) pode ser escrita de uma forma mais simples. Note que
Cov(X, Y) = E[XY – XE(Y) – YE(X) + E(X)E(Y)]
= E(XY) – E(X)E(Y) – E(Y)E(X) + E(X)E(Y),
ou seja,
Cov(X, Y) = E(XY) - E(X) E(Y). (8.14)
Exemplo 8.6
Para as v.a. X e Y do Exemplo 8.1 (veja a Tabela 8.5), obtemos
E(X) = 1,5, E(Y) = 0,5, E(XY) = 1,0,
de modo que
Cov(X, Y) = 1,0 – (1,5) (0,5) = 0,25.
Quando Cov(X, Y) = 0, dizemos que as variáveis aleatórias X e Y são não
correlacionadas.
Definição.
Exemplo 8.7 Consideremos a distribuição conjunta de X e Y dada pela Tabela 8.12.
Tabela 8.12 Distribuição
conjunta para o Exemplo 8.7.
YX
0
1
2
p(y)
1
3/20
3/20
2/20
8/20
2
1/20
1/20
2/20
4/20
3
4/20
1/20
3/20
8/20
p(x)
8/20
5/20
7/20
1,00
Temos que:
do que obtemos
Cov(X, Y) = 1,90 – (0, 95)(2,00) = 0.
Portanto, as v.a. X e Y desse exemplo são não correlacionadas.
Retomemos o Exemplo 8.3, para o qual vimos que Y e Z são independentes. É fácil ver
que E(Z) = 1 e E(Y) = 1/2. Da Tabela 8.8 obtemos que E(YZ) = 1/2, do que decorre que a
covariância entre Y e Z é zero.
De modo geral, se X e Y forem independentes, então (8.9) é válida, logo, por (8.14) temos que
Cov(X, Y) = 0.
Vamos destacar esse fato por meio da Proposição 8.1.
Exemplo 8.8
Proposição 8.1
Se X e Y são duas variáveis aleatórias independentes, então Cov(X, Y) = 0.
Em outras palavras, se X e Y forem independentes, então elas serão não correlacionadas. A
recíproca não é verdadeira, isto é, se tivermos Cov(X, Y) = 0, isso não implica que X e Y sejam
independentes. De fato, para as v.a. do Exemplo 8.7, a covariância entre X e Y é zero, mas X e Y
não são independentes, como podemos facilmente verificar.
Podemos agora demonstrar o
Teorema 8.3
(a) Para duas v.a. X e Y quaisquer, temos
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y); (8.15)
(b) se X e Y forem independentes, então
Var(X + Y) = Var(X) + Var(Y). (8.16)
Prova.
(a) Var(X + Y) = E[(X + Y) – E(X + Y)]2 = E[X – E(X) + Y – E(Y)]2
= E[X – E(X)]2 + E[Y – E(Y)]2 + 2E[(X – E(X))(Y – E(Y))], e da definição de covariância,
obtemos (8.15).
(b) A relação (8.16) segue imediatamente da Proposição 8.1.
As relações (8.15) e (8.16) podem ser generalizadas para mais de duas variáveis. Em
particular, se X1, ..., Xn são v.a. independentes, então
Var(X1 + ... + Xn) = Var(X1) + ... + Var(Xn). (8.17)
Exemplo 8.5
(continuação) Temos que
Var(Xi) = p(1 – p), para todo i = 1, ..., n,
logo
Var(X) = Var(X1) + ... + Var(Xn) = np(1 – p),
o que demonstra a relação (6.17).
Vamos introduzir agora uma medida que não depende das unidades de medida de X e Y. O
análogo descritivo para dois conjuntos de dados foi introduzido na Seção 4.5.
Definição.
O coeficiente de correlação entre X e Y é definido por
(8.18)
Para X e Y do Exemplo 8.7, a covariância entre X e Y é zero, logo ρ(X, Y) = 0. Para X e
Y do Exemplo 8.6, temos que Cov(X, Y) = 0,25. Verifique que Var(X) = 0,75, Var(Y) = 0,25, logo
Exemplo 8.9
O seguinte resultado será demonstrado no Problema 48.
Teorema 8.4
O coeficiente de correlação entre X e Y satisfaz a desigualdade
-1 ≤ ρ(X, Y) ≤ 1.
O coeficiente de correlação é uma medida da relação linear entre X e Y. Quando
ρ(X, Y) = ±1, existe uma correlação perfeita entre X e Y, pois Y = aX + b. Se ρ(X, Y) = 1, a > 0, e
se ρ(X, Y) = –1, a < 0. O grau de associação linear entre X e Y varia à medida que ρ(X, Y) varia
entre -1 e +1.
As seguintes propriedades podem ser provadas facilmente (ver Problema 38). Se a e b são
constantes, então:
ρ(X + a, Y + b) = ρ(X, Y), (8.19)
(8.20)
Ou seja, se ab > 0, ρ(aX, bY) = ρ(X, Y) e se ab < 0, ρ(aX, bY) = –ρ(X, Y).
Ainda usando o enunciado do Exemplo 8.1, defina a v.a. W como o “número de
meninas”. A distribuição conjunta de X e W está na Tabela 8.13.
Exemplo 8.10
Tabela 8.13 Distribuição
conjunta de X e W para o Exemplo 8.10.
WX
0
1
2
3
p(w)
0
0
0
0
1/8
1/8
1
0
0
3/8
0
3/8
2
0
3/8
0
0
3/8
3
1/8
0
0
0
1/8
p(x)
1/8
3/8
3/8
1/8
1
É fácil ver que
E(X) = E(W) = 1,5,
Var(X) = Var(W) = 0,75,
E(XW) = 1,5,
do que segue que Cov(X, W) = -0,75 e portanto ρ(X, W) = -1. Esse é um resultado esperado, pois
sabemos que X = 3 - W.
Para se analisar a possível correlação entre duas v.a. X e Y é conveniente usar os chamados
diagramas de dispersão, que consistem no gráfico dos pares de valores de X e Y.
Na Figura 8.3, temos os diagramas de dispersão para as v.a. X e Y e X e Z, do
Exemplo 8.1.1
Exemplo 8.11
Figura 8.3 Diagramas
de dispersão para as v.a. do Exemplo 8.1.
(a) X e Y (b) X e Z
Na Figura 8.3(a), ao lado dos pontos (1, 0) e (2, 1), colocamos o número 2, para mostrar que
esses pares têm probabilidades 2/8, ao passo que os demais têm probabilidades 1/8.
O diagrama de dispersão das v.a. Y e Z do Exemplo 8.2 está ilustrado na Figura 8.4.
Lembremos que, nesse caso, Y e Z são independentes.
Exemplo 8.12
Figura 8.4 Diagrama
de dispersão para as v.a. Y e Z do Exemplo 8.2.
Na Figura 8.5, temos o diagrama de dispersão das variáveis X e W do Exemplo 8.10.
Observe que, nesse caso, existe uma relação linear perfeita entre as duas variáveis.
Exemplo 8.13
Figura 8.5 Diagrama
de dispersão para as v.a. X e W do Exemplo 8.10.
Problemas
11. Para as v.a. X e Y do Problema 2 e usando os resultados do Problema 4, calcule Cov(X, Y) e ρ(X, Y).
12. Considere a situação do Problema 10 do Capítulo 6.
(a) Obtenha as distribuições de X + Y e |X - Y|.
(b) Calcule E(XY), E(X/Y) e E(X + Y).
(c) Verifique se X e Y são independentes.
(d) Verifique se E(XY) = E(X) E(Y). O que você pode concluir?
(e) Verifique se E(X/Y) = E(X)/E(Y).
(f) Calcule Var(X + Y). É verdade que Var(X + Y) = Var(X) + Var(Y)?
13. Sejam X e Y com a distribuição conjunta da tabela abaixo. Mostre que Cov(X, Y) = 0, mas X e Y não são independentes.
-1
0
-1
0
1/4
0
0
1/4
0
1/4
1
0
1/4
0
YX
1
14. Lançam-se dois dados perfeitos. X indica o número obtido no primeiro dado e Y o maior ou o número comum nos dois dados.
(a) Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y.
(b) As duas variáveis são independentes? Por quê?
(c) Calcule as esperanças e variâncias de X e Y.
(d) Calcule a covariância entre X e Y.
(e) Calcule E(X + Y).
(f) Calcule Var(X + Y).
15. Uma moeda perfeita é lançada três vezes. Sejam:
X: número de caras nos dois primeiros lançamentos;
Y: número de caras no terceiro lançamento; e
S: número total de caras.
(a) Usando a distribuição conjunta de (X, Y), verifique se X e Y são independentes. Qual é a covariância entre elas?
(b) Calcule a média e a variância das três variáveis definidas.
(c) Existe alguma relação entre os parâmetros encontrados em (b)? Por quê?
16. Depois de um tratamento, seis operários submeteram-se a um teste e, mais tarde, mediu-se a produtividade de cada um deles.
A partir dos resultados apresentados na tabela ao lado, calcule o coeficiente de correlação entre a nota do teste e a produtividade.
Operário
Teste
Produtividade
1
9
22
2
17
34
3
20
29
4
19
33
5
6
20
23
42
32
17. O exemplo a seguir ilustra que ρ = 0 não implica independência. Suponha que (X, Y) tenha distribuição conjunta dada pela
tabela abaixo.
(a) Mostre que E(XY) = E(X) E(Y), donde ρ = 0.
(b) Justifique por que X e Y não são independentes.
YX
-1
0
1
-1
1/8
1/8
1/8
0
1/8
0
1/8
1
1/8
1/8
1/8
8.5 Variáveis Contínuas
Nesta seção, vamos considerar o caso de duas v.a. contínuas, X e Y. Nesse caso, a distribuição
conjunta das duas variáveis é caracterizada por uma função f(x, y), chamada função de densidade
conjunta de X e Y, satisfazendo:
(a) f(x, y) ≥ 0, para todo par (x, y);
(b)
(c)
A relação (b) nos diz que o volume sob a superfície representada por f(x, y) é igual a 1. A
relação (c) dá a probabilidade do par (x, y) estar num retângulo de lados b-a e d-c.
Exemplo 8.14
Suponha que f(x, y) = 4xy, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1. Então, (a) está satisfeita e
o que mostra que (b) também está satisfeita.
Calculemos P(X ≤ 1/2, Y ≤ 1/2). A Figura 8.6 mostra o domínio de variação de X e Y e a região
para a qual X ≤ 1/2, Y ≤ 1/2. Logo, por (c),
Figura 8.6 Domínio
de variação de (X, Y) para o Exemplo 8.14.
Suponha que a v.a. (X, Y) seja uniformemente distribuída no quadrado Q da Figura
8.6. Isso significa que
Exemplo 8.15
(8.21)
Como vimos, (b) acima vale, logo
é 1, na realidade
e segue-se que c = 1. Como a área de Q
Veja a Figura 8.7.
De modo geral, podemos representar a densidade bidimensional f(x, y) por uma superfície no
espaço tridimensional, como ilustra a Figura 8.8.
Figura 8.7 Densidade
uniforme no quadrado de lado unitário, com densidade condicional representada.
Se A for um evento, então a probabilidade P((X, Y) ∈ A) será representada pelo volume sob a
superfície, delimitado pela região A, no plano (x, y), e pela superfície cilíndrica na Figura 8.8.
Figura 8.8 Densidade
como uma superfície no espaço e P((X, Y) ∈ A) = P(A).
Se a densidade f(x, y) for positiva numa região qualquer R do plano (x, y), uma v.a. diz-se
uniformemente distribuída sobre R se f(x, y) = 1/área(R), para (x, y) ∈ R, e f(x, y) = 0 nos demais
pontos. Veja a Figura 8.9.
Figura 8.9 Distribuição
uniforme na região R do plano (x, y).
Vimos que, no caso discreto, a partir da distribuição conjunta de duas v.a. X e Y, podíamos
determinar a distribuição marginal de cada variável. O mesmo ocorre para v.a. contínuas.
Frequentemente, usaremos a notação (X, Y) para denotar o par de v.a. e diremos que essa é
uma v.a. bidimensional. Usamos, também, a nomenclatura vetor bidimensional.
Dada a v.a. bidimensional (X, Y), com função densidade de probabilidade conjunta f(x,
y), definimos as densidades marginais de X e Y respectivamente por
Definição.
(8.22)
e
(8.23)
Exemplo 8.16
Para as v.a. do Exemplo 8.14, temos
Exemplo 8.17
Considere a v.a. (X, Y) com densidade conjunta
Então, as densidades marginais são dadas por
Para o Exemplo 8.14, vemos que o produto das densidades marginais é igual à densidade
conjunta, para todo par (x, y) do domínio [0,1] × [0,1], que é o produto cartesiano dos domínios
de variação de X e Y. Dizemos que as v.a. são independentes.
As variáveis aleatórias X e Y, com densidade conjunta f(x, y) e marginais fX(x) e fy(y),
respectivamente, são independentes se
Definição.
f(x, y) = fX(x) fy(y), para todo par (x, y). (8.24)
Se a função densidade conjunta de X e Y for dada por
f(x, y) = e-x - y, x > 0, y > 0,
então é fácil ver que
fX(x) = e–x, x > 0,
Exemplo 8.18
fY(y) = e–y, y > 0,
de modo que X e Y são independentes.
As definições de covariância, coeficiente de correlação etc. continuam, é claro, a valer para
v.a. bidimensionais contínuas. Portanto, se X e Y são independentes, o coeficiente de correlação
entre elas é zero.
Calculemos o coeficiente de correlação entre X e Y, se a densidade conjunta delas for
f(x, y) = x + y, 0 < x < 1, 0 < y < 1.
Temos que as marginais são dadas por
Exemplo 8.19
A partir delas, calculamos médias e variâncias:
Para calcular a covariância entre X e Y necessitamos calcular
Logo,
Cov(X, Y) = E(XY) – E(X) E(Y) = 1/3 – (7/12)(7/12) = –1/144.
Finalmente, o coeficiente de correlação entre X e Y é dado por
Problemas
18. As v.a. X e Y têm distribuição conjunta dada por
(a) Faça um gráfico do domínio de variação de x e y.
(b) Prove que
(c) Encontre as f.d.p. marginais de X e Y.
(d) Encontre a P(X ≤ 1).
19. Suponha que as v.a. X e Y tenham f.d.p.
(a) Calcule as f.d.p. marginais de X e Y.
(b) Calcule P(0 < X < 1, 1 < Y < 2).
(c) Calcule ρ(X, Y).
8.6 Distribuições Condicionais Contínuas
Nesta seção, vamos tratar de obter a distribuição condicional de uma variável, dado que a
outra assume um particular valor. Como sabemos, para uma v.a. contínua X, a P(X = x) = 0, logo
a definição a seguir tem de ser interpretada apropriadamente.
Definição.
A densidade condicional de X, dado que Y = y é definida por
(8.25)
e a densidade condicional de Y, dado que X = x é definida por
(8.26)
A interpretação de (8.25), por exemplo, é a seguinte. Se Y = y0, considere o plano passando por
y0 e paralelo ao plano (x, z). Esse plano determina, na superfície f(x, y) = z, a densidade
condicional fX|Y(x|y0). Mesma interpretação vale para (8.26). Suponha, por exemplo, que X denote
o salário de um conjunto de indivíduos e Y denote o consumo deles. Então, fixado o consumo y0,
a densidade condicional fX|Y(x|y0) representa a densidade dos salários para aquele nível fixado de
consumo. Nas Figuras 8.7 e 8.10, ilustramos como essa densidade condicional pode ser
representada.
Suponha que a densidade de (X, Y) seja dada por
f(x, y) = 6(1 - x - y), 0 < x < 1, 0 < y < 1 - x.
O domínio de variação dos pares (x, y) é o triângulo da Figura 8.11.
Exemplo 8.20
Figura 8.10 Densidade
Figura 8.11 Domínio
condicional de X, dado que Y = y0.
de variação de (X, Y) para o Exemplo 8.20.
Temos, então, que as densidades marginais são dadas por:
Consequentemente, as densidades condicionais são
Observe que fXY(x|y) define, de fato, uma densidade de probabilidade, para y fixado. Temos
que
Por exemplo, se X = 0,5, fYX(y|X = 0,5) = 4(1 – 2y), 0 < y < 1/2. Essa é uma densidade que
depende do valor observado de X. Assim,
Dado que fX|Y(x|y) e fY|X(y|x) definem densidades de probabilidades, tem sentido calcular suas
médias, variâncias etc.
Definição.
A esperança condicional de Y, dado que X = x, é definida por
(8.27)
e definição análoga para E(X|y).
Note que E(Y|x) é uma função de x, isto é, E(Y|x) = s(x), e é denominada curva de regressão de
Y sobre x. Na realidade, E(Y|x) é o valor da variável aleatória E(Y|X). A mesma interpretação
deve ser dada para E(X|y). A Figura 8.12 ilustra esses conceitos.
Figura 8.12 Curvas
Exemplo 8.21
de regressão de Y sobre x e de X sobre y.
Suponha que
O domínio de variação de (x, y) está na Figura 8.13, juntamente com as curvas de regressão.
Figura 8.13 Curvas
de regressão para o Exemplo 8.21.
Temos, então,
e, portanto, as densidades condicionais são
e
As esperanças condicionais serão dadas por
Note, portanto, que ambas as curvas de regressão são funções lineares, como ilustra a Figura
8.13. No caso geral, a Figura 8.14 mostra como seriam essas médias condicionais.
Figura 8.14 Representação
gráfica da curva de regressão de Y sobre x.
Observe, também, que se, por exemplo, X = 1, E(Y|1) = 1/2.
Problemas
20. Calcule fX|Y(x|y) e fY|X(y|x) para a densidade do Problema 18.
21. Calcule as densidades condicionais para o Problema 19. Comente.
22. Calcule as densidades marginais e condicionais para a v.a. (X, Y), com f.d.p.
f(x, y) = (1/64)(x + y), 0 ≤ x ≤ 4, 0 ≤ y ≤ 4.
23. Mesmos itens do Problema 22 para a f.d.p. conjunta
f(x, y) = 3e-(x + 3y), x > 0, y > 0.
24. Calcule as esperanças condicionais E(Y|x) e E(X|y) para o Problema 21.
25. Calcule as esperanças condicionais para o Problema 22.
26. Prove que E(E(X|Y)) = E(X).
(Sugestão: E(X|y) é uma função de y e, portanto, é uma v.a. Na realidade, E(X|y) é o valor da v.a. E(X|Y)!. Considere a expressão
para E(X|y) e tome a esperança novamente. Mude a ordem das integrais e obtenha o resultado.)
8.7 Funções de Variáveis Contínuas
O tratamento desta seção é uma extensão daquele para uma variável contínua (ver Seção 7.6).
Considere duas variáveis X e Y, com função densidade conjunta f(x, y) e suponha que queremos
obter a densidade das variáveis Z e W, tais que
Z = h1(X, Y)
W = h2(X, Y)
Suponha que possamos expressar x e y em função de z e w, isto é,
x = g1(z, w),
y = g2(z, w).
Supondo que as derivadas parciais de x e y, em relação a z e w, existam e sejam contínuas,
podemos obter a densidade conjunta de Z e W por meio de
g(z, w) = f(g1(z, w), g2(z, w))J, (8.28)
em que J é o Jacobiano da transformação que leva (x, y) em (z, w), dado por
No caso unidimensional, Y = h(X), J era simplesmente
, com x = h-1(y).
Exemplo 8.22
Retomemos o Exemplo 8.14, no qual tínhamos
fX(x) = 2x, 0 < x < 1,
fY(y) = 2y, 0 < y < 1,
e X e Y eram independentes.
Suponha que queiramos determinar a densidade FZ(z) da v.a. Z = XY. Considere W = X e,
portanto, x = w,
e o Jacobiano é
de modo que
Segue-se que 0 < z < w < 1 e a densidade de Z é obtida por
Problemas
27. Encontre a densidade de Z = X + Y para X e Y v.a. independentes, com fX(x) = 2x, 0 < x < 1 e fY(y) = 2y, 0 < y < 1.
(Sugestão: considere 0 < z < 1 e 1 < z < 2.)
28. Se X tiver densidade fX(x) = 2x, 0 ≤ x ≤ 1 e Y tiver densidade fY(y) = y2/9, 0 ≤ y ≤ 3 e forem independentes, encontre a
densidade de W = XY.
29. Encontre a densidade de Z = X/Y, se X e Y são independentes, com densidades fX(x) = e-x, x > 0 e fY(y) = 2e-2y, y > 0.
(Sugestão: z = x/y, w = y.)
8.8 Distribuição Normal Bidimensional
Assim como a distribuição normal é um modelo importante para variáveis contínuas
unidimensionais, para v.a. contínuas bidimensionais podemos considerar o modelo normal
bidimensional, definido a seguir.
Definição.
A variável (X, Y) tem distribuição normal bidimensional se sua densidade conjunta for
dada por
(8.29)
para -∞ < x < ∞, -∞ < y < ∞.
Aqui, estamos usando a notação exp{z} = ez.
Vemos que a densidade em questão depende de cinco parâmetros: as médias µx e µy, que
podem assumir quaisquer valores reais, as variâncias σ2x e σ2y , que devem ser positivas, e o
coeficiente de correlação ρ entre X e Y, que deve satisfazer –1 < ρ < 1.
Dois exemplos de gráficos dessa densidade estão representados na Figura 8.15.
Figura 8.15 f.d.p.
de normais bidimensionais.
(a) µx = µy = 0, σx = σy = 1, ρ = 0. (b) µx = µy = 0, σx = σy = 1, ρ = 0,6.
As seguintes propriedades podem ser demonstradas:
(a) As distribuições marginais de X e Y são normais unidimensionais, a saber
X ∼ N(µx, σ2x), Y ∼ N(µy, σ2y).
(b) ρ = Corr(X, Y).
(c) As distribuições condicionais são normais, com
Ou seja, as médias condicionais são funções lineares. Ver Figura 8.16.
Figura 8.16 Curva
de regressão de X sobre y para o caso da normal bidimensional.
Se chamarmos z =f(x, y), então z = c, constante, determina sobre a superfície uma curva de
nível, que nesse caso é uma elipse. Variando c, teremos as diversas curvas de nível (que são
curvas em que a densidade de probabilidade é constante), semelhantes às curvas de nível de um
mapa de relevo. No caso em que ρ = 0 e as variâncias são iguais, isto é, σ2x = σ2y , essas curvas
serão círculos. Veja a Figura 8.17.
Figura 8.17 Curvas
de nível para a normal bidimensional.
Vimos que ρ = 0 significa que as variáveis X e Y são não correlacionadas. Aqui, poderemos
concluir algo mais. Nessa situação, poderemos escrever a densidade (8.29) como
(8.30)
isto é, a densidade conjunta é o produto das duas marginais, que sabemos serem normais. Ou
seja, concluímos que X e Y são independentes. Portanto, no caso em que X e Y tiverem densidade
conjunta normal bivariada, ρ = 0 é equivalente à independência entre X e Y.
8.9 Problemas Suplementares
30. Um sinal consiste numa série de vibrações de magnitude X, tendo os valores -1, 0, 1, cada um com probabilidade 1/3. Um
ruído consiste numa série de vibrações, de magnitude Y, tendo os valores -2, 0, 2, com probabilidades 1/6, 2/3, 1/6,
respectivamente. Combinando-se o sinal com o ruído, obtemos o sinal efetivamente observado, Z = X + Y. Construa a função de
probabilidade para Z e calcule a sua média e variância, admitindo que sinal e ruído são independentes.
31. Numa comunidade em que apenas dez casais trabalham, fez-se um levantamento no qual foram obtidos os seguintes valores
para os rendimentos anuais:
Casal
Rendimento do Homem (X)
Rendimento da Mulher (Y)
1
10
5
2
10
10
3
5
5
4
10
5
5
15
5
6
10
10
7
5
10
8
15
10
9
10
10
10
5
10
Um casal é escolhido ao acaso entre os dez. Seja X o rendimento do homem e Y o da mulher.
(a) Construa a distribuição de probabilidade conjunta de X e Y.
(b) Determine as distribuições marginais de X e Y.
(c) X e Y são v.a. independentes? Justifique.
(d) Calcule as médias e variâncias de X e Y e a covariância entre elas.
(e) Considere a v.a. Z igual à soma dos rendimentos de cada homem e mulher. Calcule a média e variância de Z.
(f) Supondo que todos os casais tenham a renda de um ano disponível, e que se oferecerá ao casal escolhido a possibilidade de
comprar uma casa pelo preço de 20, qual a probabilidade de que o casal escolhido possa efetuar a compra?
32. Suponha que realizemos um experimento e os resultados possíveis sejam ω1, ω2, ω3, ω4, ω5. Definamos as v.a. X e Y cujos
valores em cada ponto são dados na tabela a seguir.
Resultado
X
Y
ω1
ω2
ω3
3
1
2
2
2
0
ω4
ω5
1
0
3
2
Obtenha as distribuições de probabilidades de X, Y, X + Y, X - Y - 1 e X - Y, supondo que os cinco resultados tenham a mesma
probabilidade. Faça um diagrama de dispersão para as variáveis X e Y. Idem para X e X + Y.
33. Numa sala estão cinco crianças cujas idades são (em anos): 3, 3, 4, 5, 5. Escolhem-se três crianças ao acaso para formar uma
trinca. X indica a idade da mais nova da turma, e Y a da mais velha.
(a) Escreva a f.p. conjunta de X e Y.
(b) Calcule E(X) e Var(X).
(c) Calcule Cov(X, Y).
(d) Calcule Var(X + Y).
34. A distribuição de notas de certo tipo de teste é normal com µH = 70 e σH = 10 para os homens e µM = 65 e σM = 8 para as
mulheres. Se esse teste for proposto numa classe na qual o número de homens é igual ao dobro do número de mulheres, qual a
porcentagem de pessoas que deverá obter nota maior que 80?
35. Se E(X) = µ e Var(X) = σ2, escreva em função de µ e σ2 as seguintes expressões:
(a) E(X2) (b) E[X(X - 1)].
36. Num estudo sobre rotatividade de mão de obra, foram definidas para certa população as v.a. X = número de empregos que um
funcionário teve no último ano e Y = salário. Obteve-se a seguinte distribuição conjunta:
YX
1
2
3
4
800
0
0
0,10
0,10
1.200
0,05
0,05
0,10
0,10
2.000
0,05
0,20
0,05
0
5.000
0,10
0,05
0,05
0
São dados: E(X) = 2,5, DP(X) = 1,0, E(Y) = 2.120, DP(Y) = 1.505,2.
(a) Calcule P(X = 2) e P(X = 2|Y = 1.200); X e Y são independentes?
(b) Obtenha o coeficiente de correlação entre X e Y e interprete esse coeficiente para as variáveis em estudo.
37. Uma urna contém três bolas numeradas 0, 1, 2. Duas bolas são retiradas ao acaso e sucessivamente. Sejam as v.a. X = número
da primeira bola retirada e Y = número da segunda bola retirada. Calcule:
(a) E(XY) (b) Cov(X, Y) (c) Var(X + Y),
nos casos em que as bolas são retiradas (i) com reposição; (ii) sem reposição.
38. Prove as relações (8.19) e (8.20) do texto.
39. Se ρ(X, Y) for o coeficiente de correlação entre X e Y, e se tivermos que Z = AX + B, W = CY + D, com A > 0, C > 0, prove
que ρ(X, Y) = ρ(Z, W).
40. Uma urna contém n bolas numeradas de 1 até n. Duas bolas são retiradas sucessivamente, sem reposição. Determine a
distribuição do módulo da diferença entre os dois números observados.
41. Suponha que X e Y sejam v.a. com Var(X) = 1, Var(Y) = 2 e ρ(X, Y) = 1/2. Determine Var(X - 2Y).
42. Sejam X e Y v.a. com E(X) = E(Y) = 0 e Var(X) = Var(Y) = 1. Prove que ρ(Z, U) = 0, se Z = X + Y e U = X - Y.
43. As v.a X e Y do Problema 18 são independentes? Justifique.
44. Mostre que X e Y do Problema 19 são independentes.
45. Se X1, ..., Xn são v.a. independentes, cada Xi com média µi e variância σ2i , i = 1, 2, ..., n, calcule E(–X) e Var(–X), com –X =
(X1 + ... + Xn)/n.
46. Refaça o problema anterior para o caso de as v.a. terem todas a mesma média µ e a mesma variância σ2.
47. Suponha que X ∼ b(n, p) e Y ∼ b(m, p), sendo ainda X e Y v.a. independentes. Mostre que X + Y ∼ b(m + n; p).
48. Se X e Y forem v.a. independentes, com distribuições de Poisson, com parâmetros λ1 e λ2, respectivamente, mostre que X + Y
terá distribuição de Poisson com parâmetro λ1 + λ2.
49. Prove (8.9) para v.a. X e Y contínuas.
8.10 Complementos Metodológicos
1. Um resultado importante é o seguinte: se X1,..., Xn, são variáveis normais e independentes, então a1X1 + a2X2+...+ anXn será
uma v.a. normal, sendo a1,...,an constantes.
Suponha X ~ N (µi, σ2i), para i = 1,2,..., n.
Calcule a média e variância de y =
2. Vamos provar que
Suponha E(X) = µ1, E(Y) = µ2, Var(X) = σ21, Var(Y) = σ22 , Cov(X, Y) = σ12. Então, o coeficiente de correlação entre X e Y é dado
por
A função
f(t) = E[(X - µ1) + t(Y - µ2)]2
= E[(X - µ1)2 + 2t(X - µ1)(Y - µ2) + t2(Y - µ2)2]
= σ21 + 2tσ12 + t2σ22
é sempre positiva ou nula, quaisquer que sejam os parâmetros σ21, σ22 e σ12. Sendo um polinômio do segundo grau em t, o seu
discriminante deve ser negativo ou nulo, isto é,
do que decorre
que implica ρ2 ≤ 1 e, finalmente, -1 ≤ ρ ≤ 1.
Capítulo 9
Noções de Simulação
9.1 Introdução
Nos capítulos anteriores, aprendemos a construir alguns modelos probabilísticos simples, que
são úteis para representar situações reais, ou então para descrever um experimento aleatório.
Notamos, também, que se especificarmos um espaço amostral e probabilidades associadas aos
pontos desse espaço, o modelo probabilístico ficará completamente determinado e poderemos,
então, calcular a probabilidade de qualquer evento aleatório de interesse.
Muitas vezes, mesmo construindo um modelo probabilístico, certas questões não podem ser
resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproximações
de quantidades de interesse. De modo bastante amplo, estudos de simulação tentam reproduzir
num ambiente controlado o que se passa com um problema real. Para nossos propósitos, a
solução de um problema real consistirá na simulação de variáveis aleatórias. A simulação de
variáveis aleatórias deu origem aos chamados Métodos Monte Carlo (MMC), que, por sua vez,
supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis. Um
Número Aleatório (NA) representa o valor de uma variável aleatória uniformemente distribuída
no intervalo (0,1). Originalmente, esses números aleatórios eram gerados manualmente ou
mecanicamente, usando dados, roletas etc. Modernamente, usamos computadores para gerar
números que na realidade são pseudo-aleatórios.
Para nossos propósitos, uma simulação pode ser entendida como uma particular realização do
modelo (binomial, normal etc). Nesse sentido, os valores simulados podem ser considerados
como uma amostra, como veremos nos capítulos seguintes. Esse entendimento será útil para
estudar as distribuições de estimadores e suas propriedades.
O nome Monte Carlo está relacionado com a cidade de mesmo nome, no Principado de
Mônaco, principalmente devido à roleta, que é um mecanismo simples para gerar números
aleatórios. Os MMC apareceram durante a Segunda Guerra Mundial, em pesquisas relacionadas
à difusão aleatória de neutrons num material radioativo. Os trabalhos pioneiros devem-se a
Ulam, Metropolis, Fermi e von Neumann, por volta de 1948-1949. Alguns trabalhos que podem
ser consultados são os artigos de Metropolis e Ulam (1949) e von Neumann (1951) e os livros de
Sóbol (1976), Hammersley e Handscomb (1964) e Ross (1997).
Para ilustrar, suponha que se queira calcular a área da figura F contida no quadrado Q de lado
unitário (Figura 9.1). Suponha que sejamos capazes de gerar pontos aleatórios em Q, de modo
homogêneo, isto é, de modo a cobrir toda a área do quadrado, ou, ainda, que esses pontos sejam
uniformemente distribuídos sobre Q. Se gerarmos N pontos, suponha que N’ desses caiam em F.
Então, poderemos aproximar a área de F por N’/N. No caso da figura, uma estimativa da área é
24/200, pois geramos 200 pontos em Q e 24 estão dentro de F. Quanto mais pontos gerarmos,
melhor será a aproximação.
Note que o problema em si não tem nenhuma componente aleatória: queremos calcular a área
de uma figura plana. Mas, para resolver o problema, uma possível maneira foi considerar um
mecanismo aleatório. Esse procedimento pode ser utilizado em muitas situações.
Vejamos algumas maneiras de obter um número aleatório.
Figura 9.1 Área
de uma figura por simulação.
Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer
coroa. Os resultados possíveis são as sequências ou números binários abaixo:
000, 001, 010, 011, 100, 101, 110, 111.
Cada um desses números binários corresponde a um número decimal. Por exemplo, (111)2 =
(7)10, pois (111)2 = 1 × 22 + 1 × 21 + 1 × 20 (o índice indica a base em que o número está sendo
expresso). Veja Morettin et al. (2005). Considere a representação decimal de cada sequência
acima e divida o resultado por 23 - 1 = 7. Obteremos os números aleatórios 0, 1/7, 2/7, ..., 1.
Observe que você poderá, eventualmente, considerar a sequência 111 “menos aleatória” do que
010, digamos. Mas qualquer uma das oito sequências anteriores tem a mesma probabilidade, a
saber, 1/23 = 1/8.
Suponha, agora, que você lance a moeda dez vezes. Teremos números binários com dez
dígitos, e cada um terá probabilidade 1/210 = 1/1024. Assim, a sequência
1 1 1 1 1 1 1 1 1 1,
formada por “dez uns”, parece “menos aleatória” do que a sequência
1 0 1 0 1 0 1 0 1 0,
formada por “cinco pares de dez”, que por sua vez parece “menos aleatória” do que a sequência
0 1 1 0 1 1 1 0 0 1,
que requer uma descrição mais elaborada. No entanto, todas elas têm a mesma probabilidade de
ocorrer no experimento acima. Intuitivamente, a aleatoriedade de uma sequência está ligada à
dificuldade de descrevê-la em palavras, como fizemos acima.
Para esse caso de dez lançamentos, procederíamos como no caso de três lançamentos,
dividindo os 1.024 números decimais obtidos por 210 - 1 = 1.023, para obter 1.024 NA entre 0 e
1. De modo geral, lançando-se a moeda n vezes, teremos 2n possibilidades e os NA finais são
obtidos por meio de divisão por 2n - 1.
Exemplo 9.1
Números aleatórios também podem ser gerados usando-se uma roleta como a da
Figura 9.2, com dez setores numerados 0, 1, 2, ..., 9.
Exemplo 9.2
Gire a roleta dez vezes e anote os números obtidos numa coluna. Faça a mesma coisa mais
duas vezes, de modo a obter algo como:
Figura 9.2 Roleta
com dez setores.
Agora, divida cada número em cada linha por 1.000, para obter os NA
0,610; 0,944; 0,504; 0,510; 0,254; 0,639; 0,129; 0,380; 0,226; 0,079.
Para obter NA com quatro casas decimais, basta girar a roleta quatro vezes. Na realidade, os
números acima foram obtidos de uma tabela de números aleatórios, como aquela da Tabela VII.
No exemplo, iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez
dígitos cada. Tabelas de números aleatórios são construídas por meio de mecanismos como o que
descrevemos. O problema que enfrentamos muitas vezes é o de gerar uma quantidade muito
grande de números aleatórios, da ordem de 1.000 ou 10.000. O procedimento de simulação
manual, usando uma tabela de números aleatórios, pode se tornar muito trabalhoso ou mesmo
impraticável.
A solução alternativa é substituir a simulação manual por simulação por meio de
computadores, utilizando números pseudo-aleatórios, em vez de números aleatórios.
Os números pseudo-aleatórios (NPA) são obtidos por meio de técnicas que usam relações
matemáticas recursivas determinísticas. Logo, um NPA gerado numa iteração dependerá do
número gerado na iteração anterior e, portanto, não será realmente aleatório, originando o nome
pseudo-aleatório.
Há vários métodos para gerar NPA. Um dos primeiros, formulado pelo matemático John von
Neumann, é chamado o método de quadrados centrais (veja o Problema 18). Um método
bastante utilizado em pacotes computacionais é o método congruencial, discutido nos Problemas
1 e 2.
Os diversos pacotes aplicativos, estatísticos ou não, utilizam métodos como o congruencial
para implementar sub-rotinas de geração de NPA. Como exemplos de pacotes, citamos o NAG
(Numerical Algorithm Group), atualmente incorporado ao pacote MATLAB, e o IMSL.
O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA.
Temos no Quadro 9.1 um exemplo de geração de dez NA. O comando “Random 10
C1” seguido de “Uniform 0,1” pede para gerar dez NA e guardá-los na coluna C1.
Exemplo 9.3
Quadro 9.1 Geração
de números aleatórios. Minitab.
MTB > RANDOM 10 C1;
SUBC > UNIFORM (0, 1).
C1
1 0.590042
2 0.859332
3 0.021023
4 0.340748
5 0.673675
6 0.558276
7 0.911412
8 0.775391
9 0.867138
10 0.865328
O pacote SPlus usa o comando runif(n, min, max), em que n é o número de valores a gerar e
(min, max) é o intervalo no qual se quer gerar os NPA. No nosso caso, min = 0 e max = 1.
O comando “u < - runif(10,0,1)” pede para gerar dez NA e guardá-los no vetor u. O
comando “u” imprime os dez valores. Veja o Quadro 9.2.
Exemplo 9.4
Quadro 9.2 Geração
de números aleatórios. SPlus.
> u <– runif (10, 0, 1)
>u
[1] 0.6931500 0.8586156 0.1494293 0.2947197
0.3474523 0.7571899 0.3016043 0.3051952
[9] 0.9135144 0.7996542
A planilha Excel usa a função ALEATÓRIO() para gerar NA, ou então “Geração de números
aleatórios”, escolhendo a opção “Análise de Dados” do menu “Ferramentas”.
O Quadro 9.3 mostra, na coluna A, o resultado de gerar 20 NA usando o Excel. Foi
utilizada a opção Uniforme (0,1).
Exemplo 9.5
Quadro 9.3 Geração
de números aleatórios. Excel.
A
B C D
E
F
G
1
0.382
0 5 1
0.77423
1
2
2
0.100681
1 4 1
0.91015
2
9
3
0.596484
1 3 0
–0.12675
3 10
4
0.899106
1 4 4
–1.43943
4
6
5
0.88461
1 6 0
1.192723
5
7
6
0.958464
1 5 1
–0.89864
6
7
0.014496
0 6 1
–0.64207
7
8
0.407422
1 6 0
–1.16122
8
9
0.863247
0 3 0
0.47886
9
10
0.138585
1 5 3
0.832001
10
11
0.245033
1
1
1.001472
12
0.045473
0
0
0.61513
13
0.03238
0
2
1.896733
14
0.164129
1
3
–1.25248
15
0.219611
0
1
1.308572
16
0.01709
2
–1,28498
17
0.285043
1
0.357816
18
0.343089
0
–0.1679
19
0.553636
2
1.580393
20
0.357372
1
0.994548
Problemas
1. Vejamos o significado da expressão x mod m, na qual x e m são inteiros não negativos. O resultado de tal operação é o resto
da divisão de x por m. Ou seja, se x = mq + r, então x mod m = r. Por exemplo, 13 mod 4 = 1.
Encontre 18 mod 5 e 360 mod 100.
2. O método congruencial. No chamado método congruencial multiplicativo de gerar NPA, começamos com um valor inicial n0,
chamado semente, e geramos sucessivos valores n1, n2, ... por meio da relação
ni + 1 = ani mod m,
sendo n0, a, m inteiros não negativos e i = 0, 1, 2, ..., m - 1. A constante a é o multiplicador e m é o módulo. Por meio da fórmula
acima no máximo m números diferentes são gerados, a saber, 0, 1, ..., m - 1. Se h ≤ m for o valor de i correspondente ao número
máximo de pontos gerados, a partir do qual os valores se repetem, então h é chamado o ciclo ou o período do gerador. Os NPA
são obtidos por meio de
ui = ni/m, i = 0, 1, ..., m - 1.
Tomemos, por exemplo, a semente n0 = 17, a = 7 e m = 100. É fácil ver que obtemos o seguinte:
i
0
3
4
...
ni
17 19 33 31
17
...
1
2
Temos, então, que o ciclo é h = 4, e os valores ni vão se repetir a partir daí. Os correspondentes NPA gerados serão
0,17; 0,19; 0,33; 0,31; 0,17; …
Devemos escolher a e m de modo a obter ciclos grandes, ou seja, geramos muitos NPA antes que eles comecem a se repetir. A
seleção de m é normalmente determinada pelo número de “bits” das palavras do computador usado. Atualmente, tomamos por
exemplo m = 264. Para o valor a a sugestão é tomar uma potência grande de um número primo, por exemplo, a = 75.
O método congruencial misto usa a fórmula
ni + 1 = ani + b mod m.
3. Considere a semente n0 = 13, o multiplicador a = 5 e o módulo m = 100, para gerar dez números pseudo-aleatórios. Qual o
período h nesse caso?
4. Idem, para n0 = 19, a = 13 e m = 100.
5. Use algum programa ou planilha computacional para gerar 10.000 números pseudo-aleatórios. Faça um histograma e um box
plot desses valores. Esses gráficos corroboram o fato de que esses números obtidos são observações de uma v.a. com
distribuição uniforme no intervalo (0, 1)? Explique.
9.2 Simulação de Variáveis Aleatórias
De posse de um bom gerador de NA podemos, em princípio, gerar NA de qualquer outra v.a.,
usando a correspondente função de distribuição acumulada (f.d.a.). Como ilustração, vamos
supor uma v.a. contínua X, com f.d.a. F(x) mostrada na Figura 9.3.
Figura 9.3 f.d.a.
de uma v.a. contínua X.
Usando-se um gerador de NA, produz-se um NA u; marca-se esse valor no eixo das ordenadas
de F(x); por meio da função inversa de F(x) obtém-se o valor x da v.a. X no eixo das abcissas.
Isto é, resolve-se a seguinte equação
F(x) = u, (9.1)
-1
ou seja, x = F (u). Observe a figura para melhor entendimento.
Na realidade, o procedimento ilustrado acima pode ser formalizado no seguinte resultado,
chamado de método da transformação integral. Suponha F estritamente crescente.
Se X for uma v.a. com f.d.a. F, então a v.a. U = F(X) tem distribuição uniforme no
intervalo [0, 1].
Teorema 9.1
Prova. Como F é estritamente crescente e u = F(x), então x = F-1(u), pois existe a inversa de X.
Se G(u) é a f.d.a. de U, temos
G(u) = P(U ≤ u) = P(F(X) ≤ u) = P(X ≤ F-1(u)) = F(F-1(u)) = u,
o que demonstra o teorema.
Exemplo 9.6
Considere a v.a. com densidade f(x) = 2x, 0 < x < 1. Temos,
Na Figura 9.4 temos os gráficos de f(x) e F(x).
Figura 9.4 F.d.p.
e f.d.a. da v.a. X do Exemplo 9.6.
Então, a equação (9.1) fica u = x2. Para obter um valor de X basta gerar um NA u e depois
gerar
Como 0 < x < 1, deve-se tomar a raiz quadrada positiva de u. Por exemplo, se u =
0,5, então F(x) = 0,5 e portanto
que é um valor (número aleatório) gerado da v.a. X.
Para simular dados de uma v.a. discreta, o segredo está em fazer uma pequena modificação no
gráfico da f.d.a. Considere uma v.a. com a seguinte distribuição de probabilidades:
X
x1
x2
pj
p1
p2
...
xn
...
pn
A f.d.a dessa v.a. é dada por
Os gráficos correspondentes estão na Figura 9.5.
Figura 9.5 F.p.
e f.d.a. de uma v.a. discreta.
Para usar o procedimento anterior basta alterar o gráfico de F(x) acima, do modo apresentado
na Figura 9.6.
Figura 9.6 F.d.a.
“modificada” para a v.a. discreta X.
Como antes, geramos um NA u entre 0 e 1 e o marcamos no eixo das ordenadas; procura-se o
inverso de u no eixo das abcissas. Suponha que u esteja entre p1 + p2 + ... + pj - 1 e p1 + p2 + ... + pj
- 1 + pj. Segundo a Figura 9.6, vemos que então obteremos o valor xj da v.a. X.
A descrição acima pode ser resumida no seguinte procedimento: gera-se um NA u, ou seja, um
valor de uma v.a. U uniforme no intervalo [0, 1]. Coloque:
(9.2)
Exemplo 9.7
Consideremos a v.a. X com distribuição
X
0
1
2
pj
1/4
1/2
1/4
Suponha que ao gerar um NA obtemos u = 0,3. Então, como p1 ≤ u < p1 + p2, ou seja, 0,25 ≤ u
< 0,75, tomamos o valor gerado de X como x = 1. Para obter uma amostra de n valores de X basta
gerar n números aleatórios e proceder para cada um deles como acima. Note que poderemos
obter valores repetidos de X.
Na Seção 9.3, mostraremos como gerar valores de algumas distribuições conhecidas. Nem
sempre o método apresentado é utilizado, pois há dificuldade em resolver a equação (9.1). Os
pacotes estatísticos (como o Minitab e SPlus) e as planilhas eletrônicas (como a do Excel)
possuem sub-rotinas próprias para simular valores para vários modelos de v.a.’s, tanto discretas
como contínuas. Na Seção 9.4, apresentaremos exemplos de uso de tais programas.
Problemas
6. Gere cinco valores da v.a. X, cuja distribuição é dada por:
X
0
1
2
3
4
pj
0,1
0,2
0,4
0,2
0,1
Use a Tabela VII para gerar os NA.
7. Gere dez valores da v.a T do Problema 17 do Capítulo 6.
8. Considere a v.a. X contínua com f.d.p.
Como você procederia para obter um valor simulado de X? Se u = 0,5, qual será o valor correspondente gerado de X?
9.3 Simulação de Alguns Modelos
Utilizando o que foi estudado nas seções anteriores, vejamos como podemos simular valores
de alguns modelos que já consideramos anteriormente.
Exemplo 9.8 Simulação de uma distribuição de Bernoulli.
Suponha que X tenha uma distribuição de Bernoulli, com P(X = 0) = 1 - p = 0,48 e P(X = 1) =
p = 0,52. Para gerar valores de tal distribuição basta gerar NA u e concluir:
Se u < 0,48, coloque X = 0;
Se u ≥ 0,48, coloque X = 1.
Por exemplo, suponha que geramos dez NA: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 0,72; 0,42;
0,08; 0,53. Então, os dez valores gerados da distribuição em questão são 0, 1, 0, 0, 1, 1, 1, 0, 0, 1,
respectivamente.
Simulação de uma distribuição binomial.
Sabemos que se Y ∼ b(n, p), então Y é o número de sucessos num experimento de Bernoulli,
com n repetições e probabilidades de sucesso p. Mas P(sucesso) = P(Y = 1) = p. No Exemplo
9.8, obtivemos cinco sucessos, logo Y = 5. Portanto, se Y ∼ b(10; 0,52), e queremos, digamos,
gerar 20 valores dessa distribuição, basta considerar 20 experimentos de Bernoulli, sendo que em
cada um deles repetimos o experimento n = 10 vezes, com probabilidade de sucesso p = 0,52.
Para cada experimento j consideramos o número de sucessos (número de 1), yj, j = 1, 2, ..., 20.
Obteremos, então, os 20 valores simulados y1, ..., y20 da v.a. Y. Observe que esses valores serão
inteiros entre 0 e 20, inclusive esses dois últimos.
Exemplo 9.9
Simulação de uma distribuição exponencial.
Se a v.a. T tiver densidade dada por
Exemplo 9.10
f(t) = 1/β e-t/β, t > 0, (9.3)
a sua f.d.a. é dada por
F(t) = 1 - e-t/β, (9.4)
logo, temos de resolver a equação (9.1) para gerar t.
Tomando logaritmo na base e, temos
1 - u = e-t/β ⇔ log (1 - u) = -t/β ⇔ t = -β log (1 - u).
Logo, gerado um NA, um valor da distribuição Exp(β) é dado por -β log (1 - u).
Por exemplo, suponha β = 2 e queremos gerar cinco valores de T ∼ Exp(2). Gerados os valores
u1 = 0,57, u2 = 0,19, u3 = 0,38, u4 = 0,33, u5 = 0,31 de uma distribuição uniforme em [0, 1] (os
números aleatórios), obteremos t1 = (-2)(log(0,43)) = 1,68, t2 = (-2)(log(81)) = 0,42, t3 = (-2)
(log(0,62)) = 0,96, t4 = (-2)(log(0,67)) = 0,80, t5 = (-2)(log(0,69)) = 0,74.
Podemos reduzir um pouco os cálculos se usarmos o seguinte fato: se U ∼ u[0, 1], então 1 - U
∼ u[0, 1]. Resulta que poderemos gerar os valores de uma exponencial por meio de
t = -β log (u).
Usando essa fórmula para os valores de U acima, obteremos os seguintes valores de T : 1,12;
3,32; 1,93; 0,96; 2,34.
Simulação de uma distribuição normal.
Há vários métodos para gerar v.a. normais, mas uma observação importante é que basta gerar
uma v.a. normal padrão, pois qualquer outra pode ser obtida desta. De fato, gerado um valor z1 da
v.a. Z ∼ N(0, 1), para gerar um valor de uma v.a. X ∼ N(µ, σ2) basta usar a transformação z = (x µ)/σ para obter
Exemplo 9.11
x1 = µ + σz1. (9.5)
Vamos dar um exemplo usando a transformação integral e uma tabela de probabilidades para a
normal padrão. Suponha que X ∼ N(10; 0,16), ou seja, µ = 10 e σ = 0,4. Temos de resolver a
Fórmula (9.1), ou seja,
Φ(z) = u,
em que estamos usando a notação Φ(z) para a f.d.a. da N(0, 1). Vamos gerar, em primeiro lugar,
um NA u, usando a Tabela VII. Tomando as três primeiras colunas e o canto inferior esquerdo,
obtemos u = 0,230. Então temos de resolver
Φ(z) = 0,230,
ou seja, temos de encontrar o valor z tal que a área à sua esquerda, sob a curva normal padrão,
seja 0,230. Veja a Figura 9.7.
Figura 9.7 Geração
de um valor z ∼ N(0, 1).
Consultando uma tabela para a normal, encontramos que z = -0,74. Logo, o valor gerado da
normal em questão satisfaz
ou seja, x = 10 + (0,4)(-0,74) = 9,704. Qualquer outro valor pode ser gerado da mesma forma.
Esse método, embora simples, não é prático, sob o ponto de vista computacional. Há outros
métodos mais eficientes. Alguns são variantes do método de Box-Müller (1958). Nesse método
são geradas duas v.a. Z1 e Z2, independentes, e N(0, 1), por meio das transformações
(9.6)
em que U1 e U2 são v.a. com distribuição uniforme em [0, 1]. Portanto, basta gerar dois NA u1 e
u2 e depois gerar z1 e z2 usando (9.6). Veja também o Problema 22.
Problemas
9. Gere dez valores de uma distribuição de Bernoulli, com p = 0,35.
10. Obtenha dez valores de uma v.a. Y ∼ b(10; 0,2).
11. Usando o procedimento do Exemplo 9.10, gere dez valores de uma distribuição exponencial com parâmetro β = 1/2.
12. Usando o Teorema 9.1, gere:
(a) cinco valores da v.a. do Exemplo 9.6;
(b) dez valores de uma distribuição N(10; 4);
(c) dez valores de uma distribuição t de Student com 24 graus de liberdade.
13. Simulação de uma distribuição qui-quadrado. Como sabemos, se Z ∼ N(0, 1) e Y = Z2, então Y ∼ χ2(1). Por outro lado, uma
v.a. W com distribuição χ2(n) pode ser escrita como
em que as v.a. Z1, ..., Zn são normais padrões, independentes.
Portanto, para simular um valor de uma v.a. com distribuição qui-quadrado, com n graus de liberdade, basta gerar n valores de
uma v.a. N(0, 1) e considerar a soma de seus quadrados.
14. Gere dez valores de uma distribuição qui-quadrado com três graus de liberdade.
9.4 Exemplos Computacionais
Nesta seção, vamos apresentar alguns exemplos de simulação de v.a.’s usando os pacotes R,
Minitab, SPlus e Excel. As Tabelas 9.1 e 9.2 trazem as distribuições discretas e contínuas,
respectivamente, contempladas por cada um e os comandos apropriados, quando pertinentes.
Tabela 9.1 Opções
de Distribuições Discretas.
Distribuição
Excel (Par.)
Minitab (Par.)
R e SPlus (Par.)
Bernoulli
Bernoulli (p)
Bernoulli (p)
—
Binomial
Binomial (n, p)
Binomial (n, p)
binom (n, p)
Geométrica
—
—
geom (p)
Hipergeométrica
—
—
hyper (N, r, k)
Poisson
Poisson (λ)
Poisson (λ)
pois (λ)
Discreta
Discreta
—
—
Comecemos com v.a.’s discretas. Para gerar uma distribuição de Bernoulliu no R ou SPlus,
basta colocar n = 1 no caso binomial. O pacote Minitab usa o comando Random seguido de um
dos comandos da tabela. Os pacotes R e SPlus colocam a letra r (de “random”) antes do
comando apropriado. A planilha Excel pode tanto usar a função ALEATÓRIO() como a opção
Geração de número aleatório, dentro de Análise de Dados do menu Ferramentas. Existe uma
opção Discreta para gerar uma distribuição discreta especificada (xi, pi), i = 1, ..., k. Vejamos
alguns exemplos.
Suponha que queiramos simular 20 valores de uma distribuição binomial, com n = 10
e p = 0,6, e 15 valores de uma distribuição de Poisson, com parâmetro λ = 2,4, usando o R.
Obtemos o Quadro 9.4. Os valores simulados são arquivados nas colunas C1 e C2.
Exemplo 9.12
Quadro 9.4 Simulação
da binomial e Poisson. R.
C1<-rbinom(20,10,0.6)
C2<-rpois(15,2.4)
C2<-append(C2,values = rep(NA,5))
quadro9.4<-data.frame(C1,C2)
quadro9.4.
C1 C2 C1 C2
1 3 1 11 3 2
2 7 1 12 7 2
3 3 1 13 7 1
4 7 4 14 7 2
5 7 3 15 4 3
6 4 1 16 8 NA
7 8 3 17 9 NA
8 7 4 18 4 NA
9 4 3 19 7 NA
10 7 2 20 4 NA
Usando o SPlus, mostramos no Quadro 9.5 as saídas correspondentes a simular 20
valores de uma v.a. X ∼ b(10; 0,5) e 20 valores de uma v.a. Y ∼ Poisson (1,7).
Exemplo 9.13
Quadro 9.5 Simulação
da binomial e Poisson. SPlus.
> x <– rbinom(20, 10, 0.5)
>x
[1] 6 4 7 5 5 5 5 7 6 1 8 4 6 6 7 6 5 5 6 7
> y <– rpois (20, 1.7)
>y
[1] 1 2 5 5 1 3 2 1 2 2 3 1 3 2 1 1 4 2 3 0
Exemplo 9.14
Suponha que queiramos gerar as seguintes distribuições, usando o R:
(a) X ∼ b(10; 0,5); (c) Z ∼ u[0,1];
(b) Y ∼ Poisson(1,7); (d) B ∼ Bern(0,7).
Os comandos respectivos estão dados no Quadro 9.6.
Quadro 9.6 Simulação
de variáveis. R.
x<-rbinom(20,10,0.5)
y<-rpois(20,1.7)
z<-runif(100,0,1)
b<-rbinom(15,1,0.7)
Os histogramas respectivos estão na Figura 9.8.
Figura 9.8 Histogramas
de distribuições simuladas no Exemplo 9.14. SPlus.
Tabela 9.2 Opções
de Distribuições Contínuas.
Distribuição
Excel (Par.)
Minitab (Par.)
R e SPlus (Par.)
Normal
Normal (0, 1)
Normal (µ, σ)
norm (µ, σ)
Exponencial
—
Exponential (β)
exp (β)
t (Student)
—
T (ν)
t (ν)
F (Snedecor)
—
F (ν1, ν2)
f (ν1, ν2)
Gama
—
Gamma (α, β)
gamma (α, β)
Qui-Quadrado
beta
—
—
Chisquare (ν)
Beta(α, β)
chisq (ν)
beta (α, β)
Vejamos, agora, alguns exemplos para v.a.’s contínuas.
Usando o pacote Minitab, geramos:
(a) 10 valores de uma N(0, 1);
(b) 20 valores de uma Exp(2);
(c) 15 valores de uma χ2(5).
Os comandos e respectivos valores simulados estão mostrados no Quadro 9.7.
Exemplo 9.15
Quadro 9.7 Simulação
de variáveis. Minitab.
MTB > Random 10 C1; MTB >
SUBC > Normal 0 1. MTB > Random 15 C3;
MTB > SUBC > Chisquare 5.
MTB > Random 20 C2; MTB >
SUBC > Exponential 2.
C1 C2 C3 C1 C2 C3
1 –0.06636 2.50204 4.44339 11 0.60892 0.71995
2 0.14940 1.11469 2.60994 12 0.11405 6.58849
3 –0.08339 1.83977 9.25374 13 4.10192 5.52644
4 0.09516 0.47726 1.10399 14 3.87223 2.86108
5 –1.08060 0.60830 2.31042 15 2.59596 2.87105
6 –0.63088 1.83693 6.62708 16 0.50944
7 0.17171 2.35880 9.20627 17 1.05514
8 –1.78075 1.31646 1.52421 18 3.91126
9 1.89407 4.19729 4.88943 19 1.98810
10 0.21054 1.81575 3.90302 20 3.82243
Usando o pacote R, simulamos:
(a) 500 valores de uma v.a. Z ∼ N(0,1);
(b) 200 valores de uma v.a. Y ∼ N(10; 0,32);
Exemplo 9.16
(c) 500 valores de uma v.a. t(35);
(d) 500 valores de uma v.a. T ∼ Exp(2);
(e) 300 valores de uma v.a. W ∼ χ2(5);
(f) 500 valores de uma v.a. F(10, 12).
Os comandos necessários são mostrados no Quadro 9.8 e os respectivos histogramas estão na
Figura 9.9.
Quadro 9.8 Simulação
de variáveis. R.
z<-rnorm(500,0,1) Exp<-rexp(500,2)
hist(z) hist(Exp)
y<-rnorm(200,10,0.3) w<-rchisq(300,5)
hist(y) hist(w)
t<-rt(500,35) f<-rf(500,10,12)
hist(t) hist(f)
Figura 9.9 Histogramas
de algumas distribuições geradas no Exemplo 9.16.
Na planilha Excel a normal pode ser gerada por meio da “opção normal” no menu
“Ferramentas (Análise de Dados (Geração de números aleatórios))” ou pela função
ALEATÓRIO() e a fórmula = INV.NORM (ALEATÓRIO(), µ, σ).
A coluna E do Quadro 9.3 traz 20 valores gerados de uma N(0, 1) usando a
ferramenta GNA.
Exemplo 9.17
Problemas
15. Usando um pacote de sua preferência, gere:
(a) 100 valores de uma distribuição binomial, com parâmetros n = 15, p = 0,7.
(b) 500 valores de uma distribuição de Poisson com parâmetro λ = 1,3.
Em cada caso, faça um histograma e veja se este corresponde à distribuição em questão.
16. Usando um pacote computacional de sua preferência, gere:
(a) 500 valores de uma normal padrão;
(b) 1.000 valores de uma distribuição qui-quadrado com cinco graus de liberdade;
(c) 800 valores de uma distribuição exponencial com parâmetro 3.
Em cada caso, faça um histograma, um ramo-e-folhas e um box plot. Comente.
17. Usando o método de Box-Müller, gere cinco valores de uma distribuição normal padrão.
9.5 Problemas Suplementares
18. O método dos quadrados centrais de von Neumann opera do modo descrito a seguir. Considere um inteiro n0 com m dígitos e
seu quadrado n20, que terá 2m dígitos (eventualmente acrescentando zeros à esquerda). Tome os dígitos centrais de n20 e divida o
número obtido por 10m para se obter um NA, u0, entre 0 e 1. Continue, tomando n1 como o número inteiro central desse passo.
Esse método pode não funcionar bem, como o exemplo abaixo de Kleijnen e van Groenendaal (1994) mostra.
Suponha m = 2 e considere n0 = 23. Então, n20 = 0529, e o primeiro NA é u0 = 0,52.
Agora, n1 = 52, n21 = 2704 e u1 = 0,70. Sucessivamente, obtemos u2 = 0,90, u3 = 0,10, u4 = 0,10 etc. Ou seja, a partir de u4, os
NA se repetem.
Obtenha números aleatórios, com m = 3, usando esse método.
19. Uma distribuição binomial de parâmetros n e p pode ser simulada também do seguinte modo. Considere a recursão
com pj = P(X = j), j = 0, 1, ..., n.
Chame j o valor atual, pr = P(X = j), F = F(j) = P(X ≤ j) e o algoritmo:
Passo 1. Gere o NA u;
Passo 2. r = p/(1 - p), j = 0, pr = (1 - p)n, F = pr;
Passo 3. Se u < F, coloque X = j;
Passo 4.
Passo 5. Volte ao passo 3.
Usando esse algoritmo, gere cinco valores da v.a. X ~ b(5; 0,3).
20. Usando o procedimento recursivo 9.8, gere cinco valores de uma v.a. com distribuição de Poisson de parâmetro λ = 2.
21. Usando um aplicativo estatístico, gere:
(a) 100 valores de uma N(5; 0,9) e faça o histograma dos valores gerados.
(b) 200 valores de uma Exp(1/2) e faça o histograma dos valores gerados.
(c) 500 valores de uma Gama(α, β), com α = β = 2, e faça o histograma.
(d) 300 valores de uma χ2(32) e faça o histograma.
Os histogramas que você obteve estão de acordo com as definições dadas dessas distribuições? Comente.
22. Usando um pacote, gere:
(a) 300 valores de uma distribuição t(120).
(b) 500 valores de uma distribuição F(56, 38).
(c) 300 valores de uma distribuição B(20, 30).
Faça um histograma dos valores simulados em cada caso e responda a mesma pergunta do problema anterior.
23. Simule cinco valores de uma distribuição Gama(3, 1/2), usando o procedimento descrito no CM-3.
24. Usando um pacote computacional, gere:
(a) 1.000 valores de uma distribuição uniforme bidimensional no quadrado de lado unitário, supondo os componentes
independentes;
(b) 1.000 valores de uma normal bidimensional (X, Y), com X e Y independentes, X ∼ N(10, 4) e Y ∼ N(15, 9).
25. Um time de futebol irá disputar 10 partidas num torneio de classificação.
(a) Supondo que sua chance de vitória em cada jogo é de 60%, simule sua possível campanha.
(b) Simule agora se é esperado o seguinte desempenho em cada jogo: 50% de vitória, 30% de empate e 20% de derrota.
(c) Para a situação descrita em (b), simule 12 possíveis campanhas para o time, e estude a variável X = número de pontos
obtidos (vitória = 3, empate = 1 e derrota = 0).
(d) Proponha outros parâmetros para o time e repita a questão (c).
26. Suponha que uma moeda é viciada, de tal sorte que favoreça mais cara do que coroa. Para estimar a probabilidade de cara,
você a pode lançar, digamos, 50 vezes.
(a) Para simular um possível resultado do seu experimento, o que é que seria necessário?
(b) Supondo que a probabilidade de ocorrer cara é p = 0,6, qual seria a sua simulação e sua estimativa de p?
(c) Faça a simulação para 4 outras pessoas e dê suas respectivas estimativas. Alguém acertou o verdadeiro parâmetro?
27. Em uma população 20% das pessoas compram o produto C. Seleciona-se, com reposição, indivíduos dessa população até
encontrar um comprador de C. A variável X indica o número de indivíduos entrevistados. Qual é a distribuição simulada de X?
28. Uma pesquisa domiciliar irá entrevistar todos os moradores do domicílio e a distribuição do número de moradores por
domicílio encontra-se abaixo. Será usada uma amostra de 5 domicílios:
Nº de moradores
Porcentagem
1
5
2
12
3
20
4
23
5
18
6
10
7
8
8
4
(a) Simule 100 amostras de tamanho 5.
(b) Considere X = n. médio de pessoas por amostra. Qual a distribuição de frequência empírica de X?
(c) Construa a distribuição de X = nº médio de pessoas por amostra.
(d) Encontre para a população o valor µ = nº médio de pessoas, e construa a distribuição empírica de X - µ. Como pode ser
interpretada essa distribuição?
(e) Se o entrevistador recebe 2 u.m. por pessoa entrevistada, usando o resultado (b), qual a probabilidade de uma amostra
custar mais de 12 u.m.?
29. A altura X das pessoas segue aproximadamente uma curva normal com média µ e variância σ2.
(a) Proponha dois valores realísticos para µ e σ, e gere 10 alturas de uma população de homens. Calcule a média e o desvio
padrão desta população.
(b) Com os mesmos parâmetros gere uma outra amostra de 10 alturas. Olhando e analisando as duas amostras elas parecem vir
de populações distintas?
(c) Gere uma amostra de 10 alturas de uma população feminina. Compare com a amostra obtida em (a), e diga se é possível
afirmar que as duas amostras vêm de populações distintas.
(d) Como você acha que os parâmetros influenciam para diferenciar bem as amostras? Dê exemplos.
9.6 Complementos Metodológicos
1. Simulação de uma distribuição de Poisson. Se N ~ P(λ), então P(N = j) = pj é dada por
(9.7)
A geração de valores de uma distribuição de Poisson parte da seguinte relação recursiva, que pode ser facilmente verificada:
(9.8)
Seja, também, F(j) = P(N ≤ j) a função de distribuição acumulada (f.d.a.) de N. Considere j o valor atual gerado e queremos
gerar o valor seguinte. Chamemos simplesmente p = pj e F = F(j). Então o algoritmo para se gerar os sucessivos valores é o
seguinte:
Passo 1. Gere o NA u;
Passo 2. Faça j = 0, p = e-λ e F = p;
Passo 3. Se u < F, coloque N = j;
Passo 4. Faça
Passo 5. Volte ao Passo 3.
Note que, no Passo 2, se j = 0, P(N = 0) = p0 = e-λ e F(0) = P(N ≤ 0) = p0.
2. Transformação de Box-Müller. Considere as v.a. X e Y, independentes e ambas N(0, 1). Observando a Figura 9.10, vemos que
R2 = X2 + Y2 e tgθ = Y/X. A densidade conjunta de X e Y é
Figura 9.10 Transformação
de variáveis (x, y) → (R, q).
Considere a transformação de variáveis
r = x2 + y2
θ = arctg (y/x).
A densidade conjunta de r e θ é obtida usando o resultado (8.28). Temos que
transformação é |J| = 1/2. Segue-se que a densidade de r e θ é
e o Jacobiano da
f(r, θ) = 1/2π · e-r2 · 1/2, 0 < r < ∞, 0 < θ < 2π.
Dessa relação podemos concluir que r = R2 e θ são independentes, com
R2 ∼ Exp(2), θ ∼ u(0, 2π).
Portanto, podemos escrever que
Aqui, usamos o fato de que, se R2 ∼ Exp(2), gerado um NA U1, vem que -2log U1 ∼ Exp(2) e se θ ∼ u(0, 2π), então gerado um
NA U2, vem que 2πU2 ∼ u(0, 2π).
3. Simulação de uma distribuição gama. Pode-se demonstrar, usando resultados não estudados neste livro, que se a v.a. X ∼
Gama(r, β), com r inteiro, então X = Y1 + Y2 + ... + Yr, em que cada Yi ∼ Exp(β) e as v.a. Yi são independentes. Logo, para gerar
um valor de uma distribuição Gama(r, β), com r > 0, inteiro, basta gerar r valores de uma distribuição exponencial de parâmetro
β e depois somá-los.
4. Simulação de várias variáveis. É mais complicado simular distribuições bidimensionais. No caso de X e Y serem
independentes, então
f(x, y) = fX(x) fY(y), ∀x, y,
se elas forem contínuas, por exemplo. Logo, para gerar um valor (x, y) da densidade conjunta f(x, y), basta gerar o componente x
da distribuição marginal de X e a componente y da distribuição marginal de Y, independente.
No caso de v.a. dependentes, temos que vale a relação:
f(x, y) = fX(x) fY|X(y|x).
Logo, por essa relação, primeiramente geramos um valor x da distribuição marginal de X e fixado esse valor, x0, digamos,
geramos um valor da distribuição condicional de X, dado que X = x0. Isso implica que devemos saber como gerar valores das
distribuições fX(x) e fY|X(y|x).
Vamos nos limitar a dar dois exemplos no caso de v.a. independentes.
Exemplo 9.18
Distribuição uniforme bidimensional.
Na Seção 9.1, vimos que para calcular a área da figura F contida no quadrado Q de lado
unitário (Figura 9.1), considerávamos o quociente N′/N. Como geramos, naquele exemplo, os N
pontos uniformemente distribuídos sobre Q? Pelo que vimos acima, basta gerar valores de v.a.
U1 ∼ u[0, 1] e U2 ∼ u[0, 1], independentemente. Então,
P((U1, U2) ∈ F) = área(F).
Ou seja, a v.a. (U1, U2) é uniformemente distribuída em Q.
No caso da Figura 9.1, consideramos 200 valores gerados para U1 e U2, de modo que a área
(F) = 24/100.
Distribuição normal bidimensional.
O método de Box-Müller gera valores de duas normais padrões independentes, Z1 e Z2. Logo,
se quisermos gerar valores da distribuição conjunta de X e Y, independentes e normais, com X ∼
N(µx, σ2x) e Y ∼ N(µy∼ σ2y), basta considerarmos
X = µx + σx Z1, Y = µy + σy Z2.
Na Figura 9.11, temos as curvas de níveis e o gráfico bidimensional obtidos gerando-se 10.000
valores cada uma de duas normais padrões independentes.
Exemplo 9.19
Figura 9.11 Distribuição
normal padrão bidimensional gerada.
Parte III
INFERÊNCIA ESTATÍSTICA
Capítulo 10
Introdução à Inferência Estatística
Capítulo 11
Estimação
Capítulo 12
Testes de Hipóteses
Capítulo 13
Inferência para Duas Populações
Capítulo 14
Análise de Aderência e Associação
Capítulo 15
Inferência para Várias Populações
Capítulo 16
Regressão Linear Simples
Capítulo 10
Introdução à Inferência Estatística
10.1 Introdução
Vimos, na Parte I, como resumir descritivamente variáveis associadas a um ou mais conjuntos
de dados. Na Parte II, construímos modelos teóricos (probabilísticos), identificados por
parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis.
Nesta terceira parte, apresentaremos os argumentos estatísticos para fazer afirmações sobre as
características de uma população, com base em informações dadas por amostras.
O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária
da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que está sendo
preparando tem ou não a quantidade adequada de sal. Ou, ainda, quando um comprador, após
experimentar um pedaço de laranja numa banca de feira, decide se vai comprar ou não as
laranjas. Essas são decisões baseadas em procedimentos amostrais.
Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios
intuitivos do dia a dia para que possam ser utilizados cientificamente em situações mais
complexas.
10.2 População e Amostra
Nos capítulos anteriores, tomamos conhecimento de alguns modelos probabilísticos que
procuram medir a variabilidade de fenômenos casuais de acordo com suas ocorrências: as
distribuições de probabilidades de variáveis aleatórias (qualitativas ou quantitativas). Na prática,
frequentemente o pesquisador tem alguma ideia sobre a forma da distribuição, mas não dos
valores exatos dos parâmetros que a especificam.
Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos possa
ser representada por um modelo normal (embora as alturas não possam assumir valores
negativos). Mas essa afirmação não é suficiente para determinar qual a distribuição normal
correspondente; precisaríamos conhecer os parâmetros (média e variância) dessa normal para que
ela ficasse completamente especificada. O propósito do pesquisador seria, então, descobrir
(estimar) os parâmetros da distribuição para sua posterior utilização.
Se pudéssemos medir as alturas de todos os brasileiros adultos, teríamos meios de obter sua
distribuição exata e, daí, produzir os correspondentes parâmetros. Mas, nessa situação, não
teríamos necessidade de usar a inferência estatística!
Raramente se consegue obter a distribuição exata de alguma variável, ou porque isso é muito
dispendioso, ou muito demorado ou, às vezes, porque consiste num processo destrutivo. Por
exemplo, se estivéssemos observando a durabilidade de lâmpadas e testássemos todas até
queimarem, não restaria nenhuma para ser vendida. Assim, a solução é selecionar parte dos
elementos (amostra), analisá-la e inferir propriedades para o todo (população).
Outras vezes, estamos interessados em explorar relações entre variáveis envolvendo
experimentos mais complexos para a obtenção dos dados. Por exemplo, gostaríamos de obter
resposta para a seguinte indagação: a altura que um produto é colocado na gôndola de um
supermercado afeta a sua venda? Observe que para responder a questão precisamos obter dados
de vendas com o produto oferecido em diferentes alturas, e que essas vendas sejam controladas
para evitar interferências de outros fatores que não a altura. Nesse caso, não existe claramente
um conjunto de todos os elementos para os quais pudéssemos encontrar os parâmetros
populacionais. Recorrer a modelos para descrever o todo (população) facilita a identificação e
solução do problema. Nesse exemplo, supondo que as vendas Vh do produto oferecido na altura h
(h = 1 representando baixo, h = 2 representando meio e h = 3 representando alto) segue uma
distribuição próxima a normal, ou seja, Vh ∼ N(µh, σ2), o nosso problema passa a ser o de
verificar, por meio de dados coletados do experimento (amostra), se existe evidência de
igualdade das médias µ1, µ2 e µ3. Note que, em nossa formulação do problema, consideremos que
as três situações de alturas resultam observações com a mesma variância σ2. Essa suposição
poderia ser modificada.
Soluções de questões como as apresentadas acima são o objeto da inferência estatística.
Dois conceitos básicos são, portanto, necessários para o desenvolvimento da Inferência
Estatística: população e amostra.
População é o conjunto de todos os elementos ou resultados sob investigação. Amostra
é qualquer subconjunto da população.
Vejamos outros exemplos para melhor entender essas definições.
Definição.
Consideremos uma pesquisa para estudar os salários dos 500 funcionários da
Companhia MB. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. A
variável aleatória a ser observada é “salário”. A população é formada pelos 500 funcionários da
companhia. A amostra é constituída pelos 36 indivíduos selecionados. Na realidade, estamos
interessados nos salários, portanto, para sermos mais precisos, devemos considerar como a
população os 500 salários correspondentes aos 500 funcionários. Consequentemente, a amostra
será formada pelos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos
salários na amostra, e esperamos que esta reflita a distribuição de todos os salários, desde que a
amostra tenha sido escolhida com cuidado.
Exemplo 10.1
Exemplo 10.2 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a
certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é
registrada a favor ou contra o projeto. A população consiste de todos os moradores da cidade, e a
amostra é formada pelas 200 pessoas selecionadas. Podemos, como foi visto no Capítulo 5,
definir a variável X, que toma o valor 1, se a resposta de um morador for favorável, e o valor 0,
se a resposta for contrária ao projeto. Assim, nossa população pode ser reduzida à distribuição de
X, e a amostra será constituída de uma sequência de 200 zeros e uns.
O interesse é investigar a duração de vida de um novo tipo de lâmpada, pois
acreditamos que ela tenha uma duração maior do que as fabricadas atualmente. Então, 100
lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada
Exemplo 10.3
é registrada. Aqui, a variável é a duração em horas de cada lâmpada. A população é formada por
todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa, com o mesmo
processo. A amostra é formada pelas 100 lâmpadas selecionadas. Note-se que nesse caso não
podemos observar a população, ou seja, a distribuição da duração de vida das lâmpadas na
população, pois isso corresponderia a queimar todas as lâmpadas. Assim, em alguns casos, não
podemos observar a população toda, pois isso significaria danificar (ou destruir) todos os
elementos da população. Esse problema geralmente é contornado atribuindo-se um modelo
teórico para a distribuição da variável populacional.
Em alguns casos, fazemos suposições mais precisas sobre a população (ou sobre a
variável definida para os elementos da população). Digamos que X represente o peso real de
pacotes de café, enchidos automaticamente por uma máquina. Sabe-se que a distribuição de X
pode ser representada por uma normal, com parâmetros µ e σ2 desconhecidos. Sorteamos 100
pacotes e medimos seus pesos. A população será o conjunto de todos os pacotes enchidos ou que
virão a ser enchidos pela máquina, e que pode ser suposta como normal. A amostra será formada
pelas 100 medidas obtidas dos pacotes selecionados, que pode ser pensada como constituída de
100 observações feitas de uma distribuição normal. Veremos mais adiante como tal amostra pode
ser obtida.
Exemplo 10.4
Para investigar a “honestidade” de uma moeda, nós a lançamos 50 vezes e contamos
o número de caras observadas. A população, como no caso do Exemplo 10.2, pode ser
considerada como tendo a distribuição da variável X, assumindo o valor 1, com probabilidade p,
se ocorrer cara, e assumindo o valor 0, com probabilidade 1 - p, se ocorrer coroa. Ou seja, a
população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p. A
variável ficará completamente especificada quando conhecermos p. A amostra será uma
sequência de 50 números zeros ou uns.
Exemplo 10.5
Exemplo 10.6 Há razões para supor que o tempo Y de reação a certo estímulo visual dependa da
idade do indivíduo (esse exemplo será usado nos Capítulos 15 e 16). Suponha, ainda, que essa
dependência seja linear. Para verificarmos se essa suposição é verdadeira, obtiveram-se 20
dados da seguinte maneira: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres.
Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das seguintes
faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste e seu tempo de
reação y foi medido. A população poderia ser considerada como formada por todas aquelas
pessoas que viessem a ser submetidas ao teste, segundo o sexo e a idade. A amostra é formada
pelas 20 medidas, que estão apresentadas na Tabela 15.1.
Observações.
(i) Os três últimos exemplos mostram uma ampliação do conceito definido de população, ou seja,
designamos agora a população como a função probabilidade ou função densidade de
probabilidade de uma v.a. X, modelando a característica de interesse. Esse artifício simplifica
substancialmente o problema estatístico, exigindo no entanto uma proposta de modelo para a
variável X. Nesses casos simplificaremos a linguagem, dizendo: “seja a população f(x)”. Por
exemplo, “considere a população das alturas X ∼ N(µ, σ2)”.
(ii) Essa abordagem, por meio da distribuição de probabilidades, utiliza muitas vezes o conceito
de população infinita contínua, exigindo um tratamento matemático mais cuidadoso. É mais
fácil apresentar os problemas e soluções por meio de populações finitas. É o que faremos
muitas vezes. Entretanto, é importante que o estudante aprenda a trabalhar com o conceito de
modelo, explorando o caso de “população f(x)”.
10.3 Problemas de Inferência
Como já dissemos anteriormente, o objetivo da Inferência Estatística é produzir afirmações
sobre dada característica da população, na qual estamos interessados, a partir de informações
colhidas de uma parte dessa população. Essa característica na população pode ser representada
por uma variável aleatória. Se tivéssemos informação completa sobre a função de probabilidade,
no caso discreto, ou sobre a função densidade de probabilidade, no caso contínuo, da variável em
questão, não teríamos necessidade de escolher uma amostra. Toda a informação desejada seria
obtida por meio da distribuição da variável, usando-se a teoria estudada anteriormente.
Mas isso raramente acontece. Ou não temos qualquer informação a respeito da variável, ou ela
é apenas parcial. Podemos admitir, como no exemplo das alturas de brasileiros adultos, que ela
siga uma distribuição normal, mas desconhecemos os parâmetros que a caracterizam (média,
variância). Em outros casos, podemos ter uma ideia desses parâmetros, mas desconhecemos a
forma da curva. Ou ainda, o que é muito frequente, não possuímos informações nem sobre os
parâmetros, nem sobre a forma da curva. Em todos os casos, o uso de uma amostra nos ajudaria a
formar uma opinião sobre o comportamento da variável (população).
Embora a identificação e a descrição da população sejam fundamentais no processo
inferencial, é comum os pesquisadores dedicarem mais atenção em descrever a amostra do que a
população para a qual serão feitas as afirmações. É imprescindível que se explicite claramente a
população investigada.
Neste livro, estaremos mais preocupados em trabalhar com populações descritas por modelos
do que com populações finitas identificadas por elementos portadores de uma característica de
interesse. Portanto, na maioria das vezes, iremos nos referir à “população X”, significando que a
variável de interesse X, definida sobre a população-alvo, segue uma distribuição f(x). Nosso
problema de interesse passaria a ser o de fazer afirmações sobre a forma da curva e seus
parâmetros.
Alguns exemplos simples nos darão uma noção dos tipos de formulações e problemas que a
inferência estatística pode nos ajudar a resolver.
(continuação) Voltemos ao exemplo da moeda. Indicando por X o número de caras
obtidas depois de lançar a moeda 50 vezes, sabemos que, se tomados alguns cuidados quando do
lançamento, X segue uma distribuição binomial, ou seja, X ∼ b(50, p). Esse modelo é válido,
admitindo-se ou não a “honestidade” da moeda, isto é, sendo ou não p = 1/2. Lançada a moeda,
vamos supor que tenham ocorrido 36 caras. Esse resultado traz evidência de que a moeda seja
“honesta”? Para tomarmos uma decisão, podemos partir do princípio de que a moeda não
favorece nem cara nem coroa, isto é, p = 1/2. Com essa informação e com o modelo binomial,
podemos encontrar qual a probabilidade de se obterem 36 caras ou mais, e esse resultado nos
ajudaria a tomar uma decisão. Suponha que a decisão foi rejeitar a “honestidade” da moeda: qual
é a melhor estimativa para p, baseando-se no resultado observado?
Descrevemos aí os dois problemas básicos da Inferência Estatística: o primeiro é chamado
teste de hipóteses, e o segundo, estimação. Nos capítulos seguintes, esses problemas serão
abordados com mais detalhes.
Exemplo 10.5
(continuação) Às vezes, o modelo teórico associado ao problema não é tão evidente.
No caso da máquina de encher pacotes de café automaticamente, digamos que ela esteja regulada
para enchê-los segundo uma distribuição normal com média 500 gramas e desvio padrão de 10
gramas, isto é, X ∼ N(500, 102). Sabemos também que, às vezes, a máquina desregula-se e,
quando isso acontece, o único parâmetro que se altera é a média, permanecendo a mesma
variância. Para manter a produção sob controle, iremos colher uma amostra de 100 pacotes e
pesá-los. Como essa amostra nos ajudará a tomar uma decisão? Parece razoável, nesse caso,
usarmos a média x da amostra como informação pertinente para uma decisão. Mesmo que a
máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes apresentam
certa variabilidade no peso. Mas se x não se afastar muito de 500 gramas, não existirão razões
para suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão se x 500, em valor absoluto, for “muito grande”.
O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas.
Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito
grande de vezes, sob a condição de a máquina estar regulada, teríamos ideia do comportamento
da v.a. x, e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer. Caso
o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso.
Vemos, então, a importância nesse caso de se conhecer as propriedades da distribuição da
variável x.
Exemplo 10.4
(continuação) A descrição matemática da v.a. Y: tempo de reação ao estímulo é um
pouco mais complexa. Podemos supor que esse tempo, para uma dada idade x, seja uma v.a. com
distribuição normal, com média dependendo da idade x, ou seja, podemos escrever
Y ∼ N(µ(x), σ2).
A linearidade expressa no problema pode ser incluída na média µ(x) da seguinte maneira:
µ(x) = α + βx.
Voltaremos a esse modelo no Capítulo 16. Outra maneira de escrever as duas relações
anteriores é
Y | x ∼ N(α + βx; σ2).
Leia-se “Y dado x”.
Podemos, por exemplo, estimar os parâmetros α e β, baseados na amostra de 20 dados. Ou
podemos querer investigar a possibilidade de β ser igual a zero, significando que a idade não
afeta o tempo de reação. Novamente, os dois principais problemas de inferência aparecem aqui:
estimação e teste de uma hipótese. Um outro problema importante em inferência é o de previsão.
Por exemplo, considerando um grupo de pessoas de 40 anos, poderemos prever com o modelo
acima qual será o respectivo tempo de reação.
Repetir um mesmo experimento muitas vezes, sob as mesmas condições, nem sempre é
possível, mas em determinadas condições é possível determinar teoricamente o comportamento
de algumas medidas feitas na amostra, como por exemplo a média. Mas isso depende, em grande
parte, do procedimento (plano) adotado para selecionar a amostra. Assim, em problemas
envolvendo amostras, antes de tomarmos uma decisão, teríamos de responder a quatro perguntas:
(a) Qual a população a ser amostrada?
(b) Como obter os dados (a amostra)?
(c) Que informações pertinentes (estatísticas) serão retiradas da amostra?
Exemplo 10.6
(d) Como se comporta(m) a(s) estatística(s) quando o mesmo procedimento de escolher a
amostra é usado numa população conhecida?
Nas seções e capítulos subsequentes, tentaremos responder a essas perguntas.
10.4 Como Selecionar uma Amostra
As observações contidas em uma amostra são tanto mais informativas sobre a população
quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. Por
exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da
ponta do dedo de um paciente dará uma ideia geral da quantidade dos glóbulos brancos no corpo
todo, pois sabe-se que a distribuição dos glóbulos brancos é homogênea, e de qualquer lugar que
se tivesse retirado a amostra ela seria “representativa”. Mas nem sempre a escolha de uma
amostra adequada é imediata. Voltando ao Exemplo 10.2, para o qual queríamos obter uma
amostra de habitantes para saber a opinião sobre um projeto governamental, escolhendo
intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo
projeto, saberemos de antemão que o resultado conterá um viés de seleção. Isto é, na amostra, a
proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo, donde a
importância da adoção de procedimentos científicos que permitam fazer inferências adequadas
sobre a população.
A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, que esses
procedimentos constituem especialidades dentro da Estatística, sendo Amostragem e
Planejamento de Experimentos as duas mais conhecidas. Poderíamos dividir os procedimentos
científicos de obtenção de dados amostrais em três grandes grupos:
(a) Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida,
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda,
subdividi-los em dois subgrupos: levantamentos probabilísticos e não probabilísticos. O
primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos
elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais
como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de
especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos
medicamentos e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A
grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida,
baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais difíceis
para os procedimentos do segundo grupo.
Estão nessa situação os Exemplos 10.1 (conhecer os salários da Cia. MB), 10.2 (identificar a
proporção de indivíduos favoráveis ao projeto), 10.4 (pesos dos pacotes de café) etc.
(b) Planejamento de Experimentos, cujo principal objetivo é o de analisar o efeito de uma
variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em
estudo (população), bem como o controle de fatores externos, com o intuito de medir o
efeito desejado. Podemos citar como exemplos aquele já citado sobre a altura de um
produto na gôndola de um supermercado afetar as vendas e o Exemplo 10.6. Em ensaios
clínicos em medicina, esse tipo de estudo é bastante usado, como por exemplo para testar se
um novo medicamento é eficaz ou não para curar certa doença.
(c) Levantamentos Observacionais, nos quais os dados são coletados sem que o pesquisador
tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros
grosseiros. As séries de dados temporais são exemplos típicos desses levantamentos. Por
exemplo, queremos prever as vendas de uma empresa em função de vendas passadas. O
pesquisador não pode selecionar dados, esses são as vendas efetivamente ocorridas. Nesses
casos, a especificação de um modelo desempenha um papel crucial na ligação entre dados e
população.
No caso de uma série temporal, o modelo subjacente é o de processo estocástico; podemos
pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse
processo. A população hipotética aqui seria o conjunto de todas essas realizações, e a série
observada seria a amostra. Veja Morettin e Toloi (2006) para mais informações.
Neste livro, iremos nos concentrar principalmente em levantamentos amostrais e, mais ainda,
num caso simples de amostragem probabilística, a amostragem aleatória simples, com
reposição, a ser designada por AAS. O leitor poderá consultar Bussab e Bolfarine (2005) para
obter mais detalhes sobre outros procedimentos amostrais. Um breve resumo sobre alguns planos
é dado no Problema 37. Noções sobre planejamento de experimentos podem ser vistas em Peres
e Saldiva (1982).
Problemas
1. Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais:
(a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as
7h30, decidiu-se entrevistar os 30 primeiros operários que chegassem à fábrica na quarta-feira.
(b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários.
(c) Para estimar a porcentagem média da receita municipal investida em lazer, enviaram-se questionários a todas as prefeituras,
e a amostra foi formada pelas prefeituras que enviaram as respostas.
(d) Para verificar o fato de oferecer brindes nas vendas de sabão em pó, tomaram-se quatro supermercados na zona sul e quatro
na zona norte de uma cidade. Nas quatro lojas da zona sul, o produto era vendido com brinde, enquanto nas outras quatro era
vendido sem brinde. No fim do mês, compararam-se as vendas da zona sul com as da zona norte.
2. Refazer o Problema 7 do Capítulo 8.
10.5 Amostragem Aleatória Simples
A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amostra
probabilística de uma população. Além disso, o conhecimento adquirido com esse procedimento
servirá de base para o aprendizado e desenvolvimento de outros procedimentos amostrais,
planejamento de experimentos, estudos observacionais etc. Comecemos introduzindo o conceito
de AAS de uma população finita, para a qual temos uma listagem de todas as N unidades
elementares. Podemos obter uma amostra nessas condições, escrevendo cada elemento da
população num cartão, misturando-os numa urna e sorteando tantos cartões quantos desejarmos
na amostra. Esse procedimento torna-se inviável quando a população é muito grande. Nesse
caso, usa-se um processo alternativo, no qual os elementos são numerados e em seguida
sorteados por meio de uma tabela de números aleatórios (veja a sua utilização em Problemas e
Complementos) ou por meio do uso de computadores, que podem gerar números aleatórios (veja
o Capítulo 9).
Utilizando-se um procedimento aleatório, sorteia-se um elemento da população, sendo que
todos os elementos têm a mesma probabilidade de ser selecionados. Repete-se o procedimento
até que sejam sorteadas as n unidades da amostra.
Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser sorteada
mais de uma vez, e sem reposição, se a unidade sorteada for removida da população.
Do ponto de vista da quantidade de informação contida na amostra, amostrar sem reposição é
mais adequado. Contudo, a amostragem com reposição conduz a um tratamento teórico mais
simples, pois ela implica que tenhamos independência entre as unidades selecionadas. Essa
independência facilita o desenvolvimento das propriedades dos estimadores que serão
considerados.
Portanto, para o restante do livro, o plano amostral considerado será o de amostragem
aleatória simples com reposição, que denotaremos simplesmente por AAS.
Vejamos com algum detalhe o significado mais preciso de uma amostra.
Considere o Problema 2 acima, em que colhemos todas as amostras possíveis de
tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Defina a variável X: valor assumido pelo
elemento na população. Então, a distribuição de X é dada pela Tabela 10.1.
Exemplo 10.7
Tabela 10.1 Distribuição
da v.a. X para o Problema 2.
x
1
3
5
7
P(X = x)
1/5
1/5
2/5
1/5
Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na
segunda extração, vimos que era possível escrever a distribuição conjunta do par (X1, X2). Veja
também a Tabela 10.2. Além disso, as distribuições marginais de X1 e X2 são independentes e
iguais à distribuição de X. Desse modo, cada uma das 25 possíveis amostras de tamanho 2 que
podemos extrair dessa população corresponde a observar uma particular realização da v.a. (X1,
X2), com X1 e X2 independentes e P(X1 = x) = P(X2 = x) = P(X = x), para todo x. Essa é a
caracterização de amostra casual simples que iremos usar neste livro.
Uma amostra aleatória simples de tamanho n de uma variável aleatória X, com dada
distribuição, é o conjunto de n variáveis aleatórias independentes X1, X2, ..., Xn, cada uma com a
mesma distribuição de X.
Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn), em que Xi indica a observação do iésimo elemento sorteado.
Quando a população é caracterizada por uma distribuição de probabilidades, o modo mais
simples para sortear uma AAS é usar os procedimentos de simulação estudados no Capítulo 9. O
processo de simular uma observação de uma distribuição especificada por seus parâmetros nada
mais é do que retirar uma AAS de tamanho um da população. Desse modo, para retirar uma AAS
(com reposição) de n indivíduos da população X, basta gerar n números aleatórios independentes
dessa distribuição.
Definição.
Vamos retirar uma AAS de 5 alturas (em cm) de uma população de mulheres cujas
alturas X seguem a distribuição N(167; 25).
Usando-se, por exemplo, o gerador de números aleatórios do Excel, fornecendo os parâmetros
µ = 167 e σ = 5, além do tamanho da amostra n = 5, obtemos os valores:
x1 = 165, x2 = 161, x3 = 168, x4 = 173, x5 = 173.
Exemplo 10.8
Note que, se você for gerar uma tal amostra, poderá obter valores diferentes desses. Observe,
também, que o primeiro elemento a ser observado pode ser qualquer valor da população
simulada N(167; 25). Desse modo, indicando por X1 o valor observado na primeira extração,
concluímos que X1 ∼ N(167; 25). Como a geração do segundo número aleatório é feita
independentemente do segundo, resulta que a v.a. X2, valor observado na segunda extração,
também segue uma distribuição N(167; 25), e assim por diante.
Diante do exposto, vemos que continua válida a definição de AAS dada acima, quando a
amostra é retirada de uma população referenciada pela sua distribuição de probabilidades.
No caso de uma população X contínua, com f.d.p. f (x), a f.d.p. conjunta da amostra (X1, X2, ...,
Xn), segundo o que vimos no Capítulo 8, será dada por
f(x1, x2, ..., xn) = f1(x1) f2(x2) ... fn(xn),
em que fi(xi) denota a distribuição (marginal) de Xi, i = 1, ..., n.
Antes de prosseguirmos, seria interessante fazer uma comparação da inferência estatística com
o processo de simulação da população.
Podemos imaginar que qualquer característica X de interesse seja produzida por um
“programa” (modelo) de gerador de números aleatórios, e que somente o “proprietário”
(natureza) desse programa é que conhece a forma da distribuição de X, os valores dos parâmetros
etc. relacionados ao programa. Quando “obtemos” a amostra, estamos apenas observando o
resultado da simulação, não conhecemos nada do processo gerador dos dados. O objetivo da
inferência estatística é fornecer critérios para nos ajudar a descobrir a forma da distribuição e/ou
parâmetros usados pelo “proprietário”. Bons indicadores desses valores nos ajudam a entender
melhor os fenômenos e fazer previsões para futuras observações.
Daqui para frente, a menos que esteja especificada de outra maneira, sempre que
mencionarmos a palavra amostra, estaremos entendendo a amostra obtida pelo processo
probabilístico AAS, ou seja, o vetor aleatório (X1, X2, ..., Xn) definido acima.
Problemas
3. A distribuição do número de filhos, por família, de uma zona rural está no quadro abaixo.
Nº de filhos
Porcentagem
0
10
1
20
2
30
3
25
4
15
Total
100
(a) Sugira um procedimento para sortear uma observação ao acaso dessa população.
(b) Dê, na forma de uma tabela de dupla entrada, as possíveis amostras do número de filhos de duas famílias que podem ser
sorteadas e as respectivas probabilidades de ocorrência.
(c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se observar a quádrupla ordenada (2, 3, 3, 1)?
10.6 Estatísticas e Parâmetros
Obtida uma amostra, muitas vezes desejamos usá-la para produzir alguma característica
específica. Por exemplo, se quisermos calcular a média da amostra (X1, X2, ..., Xn), esta será dada
por
É fácil verificar que X é também uma variável aleatória. Podemos também estar interessados
em qualquer outra característica da amostra, que será sempre uma função do vetor aleatório (X1,
..., Xn).
Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função
de X1, X2, ..., Xn.
As estatísticas mais comuns são:
Definição.
Em geral, como já vimos no Capítulo 3, podemos considerar as estatísticas de ordem,
X(1) ≤ X(2) ≤ ... ≤ X(n),
ou seja, os elementos da amostra ordenados.
Outras estatísticas importantes são os quantis (empíricos), q(p), 0 < p < 1, definidos no
Capítulo 3, especialmente os três quartis q1, q2 e q3.
Para facilitar a linguagem usada em Inferência Estatística, iremos diferenciar as características
da amostra e da população.
Um parâmetro é uma medida usada para descrever uma característica da população.
Assim, se estivermos colhendo amostras de uma população, identificada pela v.a. X, seriam
parâmetros a média E(X) e sua variância Var(X).
Os símbolos mais comuns são dados na tabela a seguir.
Definição.
Denominação
População
Amostra
Média
µ = E(X)
–X = Σ Xi/n
Mediana
Md = Q2
2
md = q2
2
S = Σ (Xi – –X)2/(n – 1)
Variância
σ = Var(X)
Nº de elementos
N
n
Proporção
p
p^
Quantil
Q(p)
q(p)
Quartis
Q1, Q2, Q3
q1, q2, q3
Distância Interquartil
dQ = Q3 – Q1
dQ = q3 – q1
Função densidade
f(x)
histograma
Função de distribuição
F(x)
Fe(x)
10.7 Distribuições Amostrais
Vimos, na Seção 10.3, que o problema da inferência estatística é fazer uma afirmação sobre os
parâmetros da população por meio da amostra. Digamos que nossa afirmação deva ser feita sobre
um parâmetro q da população (por exemplo, a média, a variância ou qualquer outra medida).
Decidimos que usaremos uma AAS de n elementos sorteados dessa população. Nossa decisão
será baseada na estatística T, que será uma função da amostra (X1, X2, ..., Xn), ou seja, T = f ( X1,
..., Xn). Colhida essa amostra, teremos observado um particular valor de T, digamos t0, e baseados
nesse valor é que faremos a afirmação sobre q, o parâmetro populacional. Veja a Figura 10.1 (a).
A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com
a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano
amostral adotado. Isto é, qual a distribuição de T quando (X1, ..., Xn) assume todos os valores
possíveis. Essa distribuição é chamada distribuição amostral da estatística T e desempenha
papel fundamental na teoria da inferência estatística. Esquematicamente, teríamos o
procedimento representado na Figura 10.1, em que temos:
(a) uma população X, com determinado parâmetro de interesse θ;
(b) todas as amostras retiradas da população, de acordo com certo procedimento;
(c) para cada amostra, calculamos o valor t da estatística T; e
(d) os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição
amostral de T.
Figura 10.1 (a)
Esquema de inferência sobre θ. (b) Distribuição amostral da estatística T.
Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distribuição
amostral de uma estatística. Nosso principal objetivo é identificar um modelo que explique bem
a distribuição amostral de T. É evidente que a distribuição de T irá depender da distribuição de X
e do plano amostral, em nosso caso reduzido a AAS.
Voltemos ao Exemplo 10.7, no qual selecionamos todas as amostras de tamanho 2,
com reposição, da população {1, 3, 5, 5, 7}. A distribuição conjunta da variável bidimensional
Exemplo 10.9
(X1, X2) é dada na Tabela 10.2.
Vejamos qual é a distribuição da estatística
(10.1)
Essa distribuição é obtida por meio da Tabela 10.2. Por exemplo, quando a amostra
selecionada é o par (1, 1), a média será 1; então, temos que P( X = 1) = 1/25. Obteremos a média
igual a 3 quando ocorrer o evento A = {(1, 5),(3, 3),(5, 1)}, logo
Tabela 10.2 Distribuição
das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da
população {1, 3, 5, 5, 7}.
X2 X1
1
3
5
7
Total
1
1/25
1/25
2/25
1/25
1/5
3
1/25
1/25
2/25
1/25
1/5
5
2/25
2/25
4/25
2/25
2/5
7
1/25
1/25
2/25
1/25
1/5
Total
1/5
1/5
2/5
1/5
1
Procedendo de maneira análoga para os demais valores que X pode assumir, obtemos a Tabela
10.3, que dá a distribuição da v.a. X. Na Figura 10.2 temos as distribuições de X e de X.
Tabela 10.3 Distribuição
Figura 10.2 Distribuição
amostral da estatística X.
–x
1
2
3
4
5
6
7
Total
P(–X = –x)
1/25
2/25
5/25
6/25
6/25
4/25
1/25
1,00
de X(– – – –) e X(———), obtida de 25 amostras de tamanho 2 de {1, 3, 5, 5, 7}.
Com um procedimento análogo podemos obter as distribuições amostrais de outras estatísticas
de interesse. As Tabelas 10.4 e 10.5 trazem as distribuições amostrais das estatísticas W =
amplitude total e S2 = Σ(Xi - X)2/(n - 1), respectivamente.
Tabela 10.4 Distribuição
amostral de W.
w
0
2
4
6
Total
P(W = w)
7/25
10/25
6/25
2/25
1,00
Tabela 10.5 Distribuição
amostral de S2.
s2
2
P(S = s2)
0
2
8
18
Total
7/25
10/25
6/25
2/25
1,00
(continuação) No caso do lançamento de uma moeda 50 vezes, usando como
estatística X = número de caras obtidas, a obtenção da distribuição amostral, que já foi vista, é
feita por meio do modelo binomial b(50, p), qualquer que seja p = probabilidade de ocorrência de
cara num lançamento, 0 < p < 1. Se estivermos interessados em julgar a “honestidade” da moeda,
estaremos verificando se p = 0,5. Nessas condições, a P(X ≥ 36|n = 50, p = 0,5) = 0,0013 =
0,13%.
Portanto, caso a moeda seja honesta, em 50 lançamentos, a probabilidade de se obterem 36 ou
mais caras é da ordem de 1 por 1.000. Ou seja, se a moeda fosse honesta, o resultado observado
(36 caras) seria muito pouco provável, evidenciando que p > 0,5.
Comparando os dois últimos exemplos, vemos que nos interessa determinar propriedades das
distribuições amostrais que possam ser aplicadas em situações mais gerais (como no caso
binomial) e não em situações muito particulares (como no Exemplo 10.7). Iremos, agora, estudar
as distribuições amostrais de algumas estatísticas importantes. Nos capítulos seguintes essas
distribuições serão usadas para fazer inferências sobre populações.
Quando estivermos trabalhando com populações identificadas pela distribuição de
probabilidades, não poderemos gerar todas as amostras possíveis. Devemos contentar-nos em
simular um número “grande” de amostras e ter uma ideia do que acontece com a estatística de
interesse.
Exemplo 10.5
(continuação) Qual seria a distribuição amostral da mediana das alturas de amostras
de 5 mulheres retiradas da população X ∼ N(167; 25)? Como não podemos gerar todas as
possíveis amostras de tamanho 5 dessa população, simulamos, via Excel, 200 amostras de
tamanho 5 e obtivemos os seguintes resultados:
E(md) = 166,88, Var(md) = 7,4289, dp(md) = 2,72,
x(1) = min(X1, ..., X200) = 160, x(200) = max (X1, ..., X200) = 173.
Observando os resultados somos levados a pensar que a distribuição amostral de md deve ser
próxima de uma normal, com média próxima de µ = 167 e desvio padrão menor do que σ = 5.
Veja a Figura 10.3.
Voltaremos a falar na distribuição da mediana amostral em seções futuras.
Exemplo 10.8
Figura 10.3 Distribuição
Problemas
amostral da mediana, obtida de 200 amostras de tamanho 5 de X ∼ N (167; 25).
4. Usando os dados da Tabela 10.2, construa a distribuição amostral da estatística
5. No Problema 3, se X indicar o número de filhos na população, X1 o número de filhos observados na primeira extração e X2 na
segunda:
(a) calcule a média e a variância de X;
(b) calcule E(Xi) e Var(Xi), i
= 1, 2;
(c) construa a distribuição amostral de
(d) calcule E(X) e Var(X);
(e) faça num mesmo gráfico os histogramas de X e de X;
(f) construa as distribuições amostrais de
(g) baseado no resultado de (f), qual dos dois estimadores você usaria para estimar a variância de X? Por quê?
(h) calcule P(|X
- µ| > 1).
6. Ainda com os dados do Problema 3, e para amostras de tamanho 3:
(a) determine a distribuição amostral de X e faça o histograma;
(b) calcule a média e variância de X;
(c) calcule P(|X
- µ| > 1).
(d) se as amostras fossem de tamanho 4, a P(|X
quê?
- µ| > 1) seria maior ou menor do que a probabilidade encontrada em (c)? Por
10.8 Distribuição Amostral da Média
Vamos estudar agora a distribuição amostral da estatística X, a média da amostra.
Consideremos uma população identificada pela variável X, cujos parâmetros média populacional
µ = E(X) e variância populacional σ2 = Var(X) são supostos conhecidos. Vamos retirar todas as
possíveis AAS de tamanho n dessa população, e para cada uma calcular a média X. Em seguida,
consideremos a distribuição amostral e estudemos suas propriedades. Voltemos a considerar, a
título de ilustração, o Exemplo 10.7.
A população {1, 3, 5, 5, 7} tem média µ = 4,2 e variância σ2 = 4,16.
A distribuição amostral de X está na Tabela 10.3, da qual obtemos
Exemplo 10.10
De modo análogo, encontramos
Var(X) = 2,08.
Verificamos, aqui, dois fatos: primeiro, a média das médias amostrais coincide com a média
populacional; segundo, a variância de X é igual à variância de X, dividida por n = 2. Estes dois
fatos não são casos isolados. Na realidade, temos o seguinte resultado.
Teorema 10.1
Prova.
Seja X uma v.a. com média µ e variância σ2, e seja (X1, ..., Xn) uma AAS de X. Então,
Pelas propriedades vistas no Capítulo 8, temos:
E( X ) = (1/n) {E(X1) + ... + E(Xn)}
= (1/n) {µ + µ + ... + µ} = nµ/n = µ.
De modo análogo, e pelo fato de X1, ..., Xn serem independentes, temos
Var( X) = (1/n2) {Var(X1) + ... + Var(Xn)}
= (1/n2) {σ2 + ... + σ2} = nσ2/n2 = σ2/n.
Determinamos, então, a média e a variância da distribuição amostral de X. Vejamos, agora,
como obter informação sobre a forma da distribuição dessa estatística.
(continuação) Para a população {1, 3, 5, 5, 7}, vamos construir os histogramas das
distribuições de X para n = 1, 2 e 3.
(i) Para n = 1, vemos que a distribuição de X coincide com a distribuição de X, com E(X) =
E(X) = 4,2 e Var(X) = Var(X) = 4,16 (Figura 10.4(a)).
Exemplo 10.10
Figura 10.4 Distribuição
de X para amostras de {1, 3, 5, 5, 7}.
(ii) Para n = 2, baseados na Tabela 10.3, temos a distribuição de X dada na Figura 10.4(b),
com E(X) = 4,2 e Var(X) = 2,08.
(iii) Finalmente, para n = 3, com os dados da Tabela 10.6, temos a distribuição de X na Figura
10.4 (c), com E(X) = 4,2 e Var(X) = 1,39.
Observe que, conforme n vai aumentando, o histograma tende a se concentrar cada vez mais
em torno de E(X) = E(X) = 4,2, já que a variância vai diminuindo. Os casos extremos passam a
ter pequena probabilidade de ocorrência. Quando n for suficientemente grande, o histograma
alisado aproxima-se de uma distribuição normal. Essa aproximação pode ser verificada
analisando-se os gráficos da Figura 10.5, que mostram o comportamento do histograma de X
para várias formas da distribuição da população e vários valores do tamanho da amostra n.
Esses exemplos sugerem que, quando o tamanho da amostra aumenta, independentemente da
forma da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de
uma distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é
conhecido como Teorema Limite Central (TLC).
Figura 10.5 Histogramas
correspondentes às distribuições amostrais de X para amostras extraídas de algumas populações.
(TLC) Para amostras aleatórias simples (X1, ..., Xn), retiradas de uma população com
média µ e variância σ2 finita, a distribuição amostral da média X aproxima-se, para n grande, de
uma distribuição normal, com média µ e variância σ2/n.
A demonstração completa desse teorema exigiria recursos dos quais não dispomos, portanto
não será dada, mas o importante é sabermos como esse resultado pode ser usado.
Observemos que, se a população for normal, então X terá distribuição exata normal. Esse
resultado segue do fato de que a distribuição de uma combinação linear de v.a.’s normais
independentes tem ainda distribuição normal. No caso da X, a média e variância dessa normal
serão dadas pelo Teorema 10.1. A prova dessa propriedade depende do conceito de função
geradora de momentos, que não será objeto deste livro. O leitor interessado pode consultar
Meyer (1965), por exemplo.
Teorema 10.2.
Voltemos ao Exemplo 10.4, em que uma máquina enchia pacotes cujos pesos
seguiam uma distribuição N(500, 100). Colhendo-se um amostra de n = 100 pacotes e pesandoos, pelo que foi dito acima, X terá uma distribuição normal com média 500 e variância 100/100 =
1. Logo, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes
diferindo de 500 g de menos de 2 gramas será
P(|X – 500| < 2) = P(498 < X < 502) = P(-2 < Z < 2) ≈ 95%.
Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498, 502). Caso 100
pacotes apresentem uma média fora desse intervalo, podemos considerar como um evento raro, e
será razoável supor que a máquina esteja desregulada.
Outra maneira de apresentar o TLC é por meio do
Exemplo 10.11
Se (X1, ..., Xn) for uma amostra aleatória simples da população X, com média µ e
variância σ finita, e X = (X1 + ... + Xn)/n, então
Corolário 10.1
2
(10.2)
Basta notar que se usou a transformação usual de reduzir a distribuição de X a uma normal
padrão. Observe, também, que (10.2) pode ser escrita como
(10.3)
Chamemos de e a v.a. que mede a diferença entre a estatística X e o parâmetro µ, isto é, e = X µ; e é chamado o erro amostral da média. Então, temos o
Corolário 10.2
A distribuição de e aproxima-se de uma distribuição normal com média 0 e variância
σ2/n, isto é,
(10.4)
O TLC afirma que X aproxima-se de uma normal quando n tende para o infinito, e a rapidez
dessa convergência (veja a Figura 10.5) depende da distribuição da população da qual a amostra
é retirada. Se a população original tem uma distribuição próxima da normal, a convergência é
rápida; se a população original se afasta muito de uma normal, a convergência é mais lenta, ou
seja, necessitamos de uma amostra maior para que X tenha uma distribuição aproximadamente
normal. Para amostras da ordem de 30 ou 50 elementos, a aproximação pode ser considerada
boa.
Problemas
7. Uma v.a. X tem distribuição normal, com média 100 e desvio padrão 10.
(a) Qual a P(90 < X < 110)?
(b) Se X for a média de uma amostra de 16 elementos retirados dessa população, calcule P(90 < X
(c) Represente, num único gráfico, as distribuições de X e X.
(d) Que tamanho deveria ter a amostra para que P(90 < X
< 110).
< 110) = 0,95?
8. A máquina de empacotar um determinado produto o faz segundo uma distribuição normal, com média µ e desvio padrão 10
g.
(a) Em quanto deve ser regulado o peso médio µ para que apenas 10% dos pacotes, tenham menos do que 500 g?
(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2
kg?
9. No exemplo anterior, e após a máquina estar regulada, programou-se uma carta de controle de qualidade. De hora em hora,
será retirada uma amostra de quatro pacotes, os quais serão pesados. Se a média da amostra for inferior a 495 g ou superior a
520 g, encerra-se a produção para reajustar a máquina, isto é, reajustar o peso médio.
(a) Qual é a probabilidade de ser feita uma parada desnecessária?
(b) Se o peso médio da máquina desregulou-se para 500 g, qual é a probabilidade de continuar a produção fora dos padrões
desejados?
10. A capacidade máxima de um elevador é de 500 kg. Se a distribuição X dos pesos dos usuários for suposta N(70, 100):
(a) Qual é a probabilidade de sete passageiros ultrapassarem esse limite?
(b) E seis passageiros?
10.9 Distribuição Amostral de uma Proporção
Vamos considerar uma população em que a proporção de elementos portadores de certa
característica é p. Logo, podemos definir uma v.a. X, da seguinte maneira:
logo,
µ = E(X) = p, σ2 = Var(X) = p(1 - p).
Retirada uma AAS dessa população, e indicando por Yn o total de indivíduos portadores da
característica na amostra, já vimos que
Yn ∼ b(n, p).
Vamos definir por a proporção de indivíduos portadores da característica na amostra, isto é,
Então,
P(Yn = k) = P(Yn/n = k/n) = P( = k/n),
ou seja, a distribuição amostral de é obtida da distribuição de Yn.
Vimos na Seção 7.5 que a distribuição binomial pode ser aproximada pela distribuição normal.
Vamos mostrar que a justificativa desse fato está no TLC. Inicialmente, observe que
Yn = X1 + X2 + ... + Xn,
em que cada Xi tem distribuição de Bernoulli, com média µ = p e variância σ2 = p(1 - p), e são
duas a duas independentes. Podemos escrever que
Yn = n X ,
mas pelo TLC, X terá distribuição aproximadamente normal, com média p e variância
, ou
seja,
Logo, a transformação Yn = n X terá a distribuição
Yn ∼ N(np, np(1 - p)),
que foi a aproximação adotada na Seção 7.5.
Observe que X, na expressão acima, é a própria variável e, desse modo, para n grande
podemos considerar a distribuição amostral de p como aproximadamente normal:
Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos uma
AAS de n = 10 estudantes e calculamos
= proporção de mulheres na amostra. Qual a
probabilidade de que difira de p em menos de 0,01? Temos que essa probabilidade é dada por
P(| - p| < 0,01) = P(-0,01 < - p < 0,01).
Exemplo 10.12
Mas,
e como p = 0,3, temos que
Var( ) = (0, 3)(0, 7)/10 = 0,021,
e, portanto, a probabilidade pedida é igual a
Problemas
11. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se oito peças, com reposição, e calcula-se a proporção p^ de
peças defeituosas na amostra.
(a) Construa a distribuição exata de p^ (use a tábua da distribuição binomial).
(b) Construa a aproximação normal à binomial.
(c) Você pensa que a segunda distribuição é uma boa aproximação da primeira?
(d) Já sabemos que, para dado p fixo, a aproximação melhora conforme n aumenta. Agora, se n for fixo, para qual valor de p a
aproximação é melhor?
12. Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10% de itens defeituosos na produção.
A cada 6 horas sorteia-se uma amostra de 20 peças e, havendo mais de 15% de defeituosas, encerra-se a produção para
verificação do processo. Qual a probabilidade de uma parada desnecessária?
13. Supondo que a produção do exemplo anterior esteja sob controle, isto é, p = 10%, e que os itens sejam vendidos em caixas
com 100 unidades, qual a probabilidade de que uma caixa:
(a) tenha mais do que 10% de defeituosos?
(b) não tenha itens defeituosos?
10.10 Outras Distribuições Amostrais
Do mesmo modo que estudamos a distribuição amostral de X, podemos, em princípio, estudar
a distribuição amostral de qualquer estatística T = f(X1, ..., Xn). Mas, quanto mais complexa for
essa relação f, mais difícil será a derivação matemática das propriedades dessa estatística.
Vejamos alguns exemplos.
Exemplo 10.13
Na Tabela 10.6 apresentamos a distribuição de três outras estatísticas; a variância da
amostra,
a mediana amostral, md, e o estimador
que difere de S2 apenas no denominador, e que foi estudado no Capítulo 3. Desta tabela, obtemos
as distribuições amostrais apresentadas nas Tabelas 10.7, 10.8 e 10.9.
Tabela 10.6 Distribuição
7} (µ
amostral de algumas estatísticas obtidas de amostra de tamanho n
= 4,2, σ = 4,16 e Md = 5).
2
= 3, retiradas da população {1, 3, 5, 5,
Variância
Soma dos quadrados
Média x
Mediana md
3
3
1,00
1
0
0
5
11
1,67
1
4/3
8/9
6
7
27
2,33
1
16/3
32/9
3
9
51
3,00
1
12
8
133
3
7
19
2,33
3
4/3
8/9
135
12
9
35
3,00
3
4
8/3
137
6
11
59
3,67
3
28/3
56/9
155
12
11
51
3,67
5
16/3
32/9
157
12
13
75
4,33
5
28/3
56/9
177
3
15
99
5,00
7
12
8
333
1
9
27
3,00
3
0
0
335
6
11
43
3,67
3
4/3
8/9
337
3
13
67
4,33
3
16/3
32/9
355
12
13
59
4,33
5
4/3
8/9
357
12
15
83
5,00
5
4
8/3
377
3
17
107
5,67
7
16/3
32/9
555
8
15
75
5,00
5
0
0
557
12
17
99
5,67
5
4/3
8/9
577
777
6
1
19
21
123
147
6,33
7,00
7
7
4/3
0
8/9
0
Total
125
Tipo de amostra
Frequência (prob. × 125)
Soma
111
1
113
3
115
117
Tabela 10.7 Distribuição
s2
2
amostral da variância S2, para amostras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}.
s2
2
P(S = s2)
0,00
1,33
4,00
5,33
9,33
12,00
11/125
42/125
24/125
24/125
18/125
6/125
E(S2) = 4,16, Var(S2) = 11,28.
Tabela 10.8 Distribuição
amostral da mediana da amostra md para amostras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}.
md
1
3
5
7
Prob.
13/125
31/125
68/125
13/125
E(md) = 4,30, Var(md) = 2,54.
Tabela 10.9 Distribuição
amostral da variância
2
, para amostras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}.
σ2
0,00
0,89
2,67
3,56
6,22
8,00
Prob.
11/125
42/125
24/125
24/125
18/125
6/125
E(σ2) = 2,77, Var(σ2) = 5,04.
Os gráficos das funções de probabilidade estão nas Figuras 10.6, 10.7 e 10.8. A obtenção das
propriedades dessas estatísticas, de modo geral, não é uma tarefa fácil, e os modelos de
probabilidade resultantes correspondem a distribuições mais complexas.
Por exemplo, note que E(S2) = 4,16 = σ2, logo S2 satisfaz uma propriedade análoga a E(X) = µ;
dizemos que X e S2 são estimadores não viesados dos respectivos parâmetros µ e σ2. Esta
propriedade já não vale para md e 2, pois E(md) = 4,3, enquanto Md = 5,0 e E( 2) = 2,77 e não
4,16. Vemos que 2 sub-estima a verdadeira variância.
Também pode-se demonstrar que S2 segue uma distribuição que é um múltiplo de uma
distribuição qui-quadrado (χ2), quando a população tem distribuição normal. Ver a Seção 11.9. Já
a mediana md, obtida de amostras de uma população simétrica, com média µ e variância σ2,
segue aproximadamente uma distribuição normal, com média E(md) = µ e Var(md) = (πσ2)/(2n).
Note que se exigem mais suposições do que aquelas mencionada no TLC. Nos Capítulos 11 e 12,
voltaremos a discutir algumas distribuições amostrais e suas aplicações.
Figura 10.6 Distribuição
amostral de S2 para amostras de tamanho n = 3 extraídas de {1, 3, 5, 5, 7}.
Figura 10.7 Distribuição
amostral de md para amostras de tamanho n = 3 de {1, 3, 5, 5, 7}.
Figura 10.8 Distribuição
amostral de σ2 para amostras de tamanho n = 3 extraídas de {1, 3, 5, 5, 7}.
Problemas
14. Usando os dados da Tabela 10.2:
(a) construa a distribuição amostral de 2 e compare com a distribuição amostral de S2 (Tabela 10.5). Você notou alguma
propriedade de S2 que seja “melhor” do que de 2?
(b) seja U a média de elementos distintos de amostras de tamanho n
então u = (1 + 3)/2 = 2. Construa a distribuição amostral de U;
(c) compare as distribuições amostrais de U e X.
15. Na tabela abaixo, tem-se a distribuição dos salários da Secretaria A.
= 3. Por exemplo, se a amostra observada for (1, 1, 3),
Classes de salários
Frequência relativa
4,5
7,5
0,10
7,5
10,5
0,20
10,5
13,5
0,40
13,5
16,5
0,20
16,5
19,5
0,10
(a) Calcule a média, a variância e a mediana dos salários nessa população.
(b) Construa a distribuição amostral da média e da mediana para amostras de tamanho 2, retiradas dessa população.
(c) Mostre que a média X e a mediana md da amostra são estimadores não viesados da mediana Md da população, no sentido
que E(X) = E(md) = Md.
(d) Qual dos dois estimadores não viesados você usaria para estimar Md nesse caso? Por quê?
(e) Baseado na distribuição amostral da média, encontre a distribuição amostral da estatística
para n = 2.
(f) Quais são os valores de E(Z) e Var(Z)?
(g) Construa a distribuição amostral da estatística
e faça o seu histograma.
(h) Calcule a média e variância de S2.
(i) Baseando-se nas distribuições amostrais anteriores, determine a distribuição amostral da estatística
e construa seu histograma. Qual é o problema encontrado?
(j) Calcule a média e variância de t, quando possível.
(k) Calcule a P(|t| < 2) e P(|t| < 4,30).
16. Tente esboçar como ficariam os histogramas das estatísticas abaixo, para amostras de tamanho grande.
(a) S2 (faça o histograma da distribuição da Tabela 10.5)
(b)
(Veja o Teorema Limite Central)
(c)
definida no problema anterior (compare com a expressão e o resultado obtido em (b)).
10.11 Determinação do Tamanho de uma Amostra
Em nossas considerações anteriores, fizemos a suposição que o tamanho da amostra, n, era
conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser
escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com
determinado grau de confiança.
Por exemplo, suponha que estejamos estimando a média µ populacional e para tanto usaremos
a média amostral, X , baseada numa amostra de tamanho n. Suponha que se queira determinar o
valor de n de modo que
(10.5)
com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos valores fixados.
Sabemos que X ∼ N(µ, σ2/n), logo X - µ ∼ N(0, σ2/n) e portanto (10.5) pode ser escrita
com
Dado γ, podemos obter zγ da N(0,1), tal que P(-zγ < Z < zγ) = γ, de modo que
do que obtemos finalmente
(10.6)
Note que em (10.6) conhecemos zγ e ε, mas σ2 é a variância desconhecida da população. Para
podermos ter uma ideia sobre n devemos ter alguma informação prévia sobre σ2 ou, então, usar
uma pequena amostra piloto para estimar σ2.
(continuação) Suponha que uma pequena amostra piloto de n = 10, extraída de uma
população, forneceu os valores X= 15 e S2 = 16. Fixando-se ε = 0,5 e γ = 0,95, temos
Exemplo 10.13
No caso de proporções, usando a aproximação normal da Seção 10.9 para , é fácil ver que
(10.6) resulta
(10.7)
Como não conhecemos p, a verdadeira proporção populacional, podemos usar o fato de que
p(1 - p) ≤ 1/4, para todo p, e (10.7) fica
(10.8)
Por outro lado, se tivermos alguma informação sobre p ou pudermos estimá-lo usando uma
amostra piloto, basta substituir esse valor estimado em (10.7).
Suponha que numa pesquisa de mercado estima-se que no mínimo 60% das pessoas
entrevistadas preferirão a marca A de um produto. Essa informação é baseada em pesquisas
anteriores. Se quisermos que o erro amostral de seja menor do que ε = 0,03, com probabilidade
γ = 0,95, teremos
Exemplo 10.14
na qual usamos o fato de que p ≥ 0,60. Veja também os Problemas 19, 20 e 41.
Problemas
17. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar uma vacina, de modo que a
proporção de indivíduos imunizados na amostra difira de menos de 2% da proporção verdadeira de imunizados na população,
com probabilidade 90%. Qual o tamanho da amostra a escolher? Use (10.8).
18. No problema anterior, suponha que a indústria tenha a informação de que a proporção de imunizados pela vacina seja p
0,80. Qual o novo tamanho de amostra a escolher? Houve redução?
19. Seja o tamanho de amostra dado por (10.7) e n0 dado por (10.8). Prove que, para todo p, temos n
≥
≤ n0. (Use a função f(p) =
p(1 - p) para sua resposta.)
≤ p0 < 0,5, com p0 conhecida. Se
mostre que n ≤ n1 < n0. Mostre que
essa mesma relação vale se soubermos que p ≥ p0 > 0,5.
[Sugestão: note que f(p) = p(1 - p) é crescente em [0; 0,5], atinge o máximo em 0,5 e depois é decrescente em [0,5; 1].]
20. Suponha que haja a informação p
10.12 Exemplos Computacionais
Vimos, no Exemplo 10.7, como escolher todas as possíveis amostras de tamanho n = 2, com
reposição, da população {1, 3, 5, 5, 7}. Obtemos 52 = 25 amostras. Como já salientamos em
seções anteriores, ao escolher uma amostra de uma população, estamos na realidade gerando
valores de uma v.a. com determinada distribuição de probabilidades, supostamente conhecida.
No exemplo, podemos pensar na v.a. X, assumindo os valores x1 = 1, x2 = 3, x3 = 5, x4 = 5, x5 = 7,
com probabilidades todas iguais a 0,2. Portanto, para escolher uma amostra de tamanho n = 2,
basta gerar dois valores dessa distribuição, como aprendemos no Capítulo 9.
Os programas Excel, SPlus, Minitab e R têm comandos apropriados para gerar amostras de
uma população especificada.
O Excel usa a opção Amostragem, dentro de “Análise de Dados” do menu
“Ferramentas”. Na coluna G do quadro do Exemplo 9.5, temos uma amostra aleatória simples
(com reposição), de tamanho n = 5 da população P = {1, 2, ..., 10}, que está na coluna F.
Exemplo 10.15
O R e o SPlus usam o comando sample(x,n) para gerar uma amostra sem reposição
de tamanho n do conjunto x e o comando sample(x,n,replace=T) para gerar uma amostra com
reposição. O Quadro 10.1 mostra como obter amostras de tamanho n = 7 do conjunto x = {1, 2,
3, ..., 15}, sem e com reposição.
Exemplo 10.16
Quadro 10.1 Geração
de amostras. R e SPlus.
> x<–c (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15)
>
>
> sample (x, 7)
[1] 6 7 4 2 3 10 5
>
>
> sample (x, 7, replace=T)
[1] 12 14 11 10 15 4 11
O Minitab usa os comandos Sample e Replace para obter amostras. Temos, no
Quadro 10.2, amostras de tamanho n = 5 obtidas do conjunto {1, 2, ..., 10} (na coluna C1). Na
coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição.
Exemplo 10.17
Quadro 10.2 Geração
de amostras. Minitab.
C1 C2 C3
1 1 10 8
2213
3 3 8 8 MTB > Sample 5 C1 C2.
4 4 2 6 MTB >
5 5 7 4 MTB > Sample 5 C1 C3;
6 6 SUBC> Replace.
7 7 MTB >
88
99
10 10
10.13 Problemas Suplementares
21. Uma v.a. X tem distribuição normal com média 10 e desvio padrão 4. Aos participantes de um jogo é permitido observar uma
amostra de qualquer tamanho e calcular a média amostral. Ganha um prêmio aquele cuja média amostral for maior que 12.
(a) Se um participante escolher uma amostra de tamanho 16, qual é a probabilidade de ele ganhar um prêmio?
(b) Escolha um tamanho de amostra diferente de 16 para participar do jogo. Qual é a probabilidade de você ganhar um prêmio?
(c) Baseado nos resultados acima, qual o melhor tamanho de amostra para participar do jogo?
22. Se uma amostra com 36 observações for tomada de uma população, qual deve ser o tamanho de uma outra amostra para que o
desvio padrão dessa amostra seja 2/3 do desvio padrão da média da primeira?
23. Definimos a variável e = X - µ como sendo o erro amostral de média. Suponha que a variância dos salários de uma certa
região seja 400 reais2.
(a) Determine a média e a variância de e.
(b) Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2 reais?
(c) E qual a proporção das amostras de tamanho 100?
(d) Nesse último caso, qual o valor de d, tal que P(|e| > d) = 1%?
(e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos sejam inferiores a um real?
24. A distribuição dos comprimentos dos elos da corrente de bicicleta é normal, com média 2 cm e variância 0,01 cm2. Para que
uma corrente se ajuste à bicicleta, deve ter comprimento total entre 58 e 61 cm.
(a) Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta?
(b) E para uma corrente com 29 elos?
Observação. suponha que os elos sejam selecionados ao acaso para compor a corrente, de modo que se tenha independência.
25. Cada seção usada para a construção de um oleoduto tem um comprimento médio de 5 m e desvio padrão de 20 cm. O
comprimento total do oleoduto será de 8 km.
(a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual é a probabilidade de ela ter de comprar mais do que uma
seção adicional (isto é, de as 1.600 seções somarem menos do que 7.995 m)?
(b) Qual é a probabilidade do uso exato de 1.599 seções, isto é, a soma das 1.599 seções estar entre 8.000 m e 8.005 m?
26. Um professor dá um teste rápido, constante de 20 questões do tipo certo-errado. Para testar a hipótese de o estudante estar
adivinhando a resposta, ele adota a seguinte regra de decisão: “Se 13 ou mais questões estiverem corretas, ele não está
adivinhando”. Qual é a probabilidade de rejeitarmos a hipótese, sendo que na realidade ela é verdadeira?
27. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes não germinam. Ele vende pacotes com 200
sementes com garantia de 90% de germinação. Qual é a probabilidade de que um pacote não satisfaça à garantia?
28. Uma empresa fabrica cilindros com 50 mm de diâmetro, sendo o desvio padrão 2,5 mm. Os diâmetros de uma amostra de
quatro cilindros são medidos a cada hora. A média da amostra é usada para decidir se o processo de fabricação está operando
satisfatoriamente. Aplica-se a seguinte regra de decisão: “Se o diâmetro médio de amostra de quatro cilindros for maior ou igual a
53,7 mm, ou menor ou igual a 46,3 mm, deve-se parar o processo. Se o diâmetro médio estiver entre 46,3 e 53,7 mm, o processo
continua”.
(a) Qual é a probabilidade de se parar o processo se a média dos diâmetros permanecer em 50 mm?
(b) Qual é a probabilidade de o processo continuar se a média dos diâmetros se deslocar para 53,7 mm?
29. O CD-Veículos traz os preços de 30 carros nacionais e importados, extraídos da população de todos os carros vendidos no
mercado. Supondo que o desvio padrão dessa amostra seja um bom representante do verdadeiro desvio padrão da população, qual
será o tamanho de uma outra amostra a ser escolhida, de modo que, com probabilidade 90%, a média amostral difira da
verdadeira média de menos de 0,02?
30. Tabela de Números Aleatórios. Para sortear AAS, costuma-se usar tabelas de números aleatórios, que são coleções de dígitos
construídos aleatoriamente e que simulam o processo de sorteio. Na Tabela VII, apresentamos um pequeno conjunto de números
aleatórios. Podem ser usados do seguinte modo: se quisermos selecionar dez nomes de uma lista de 90 pessoas, devemos começar
numerando-os 01, 02, ..., 90. Em seguida, escolhemos duas colunas, digamos as duas primeiras, e tomamos os dez primeiros
números; no caso, serão: 61, 94, 50, 51, 25, 63, 12, 38, 22, 07, 61.
Observe que o 94 foi eliminado, pois não existe esse número na população, e o 61 deverá aparecer repetido. Para outras
explicações e tabelas maiores, consultar Pereira e Bussab (1974).
31. Como você usaria uma tabela (ou um gerador) de números aleatórios para sortear uma amostra nas seguintes situações:
(a) 5 alunos de sua classe;
(b) 10 alunos de sua escola;
(c) 15 domicílios de seu bairro;
(d) 20 ações negociadas na Bolsa de São Paulo;
(e) 5 números de uma população cujos elementos são numerados de 1 a 115. Existe algum modo de “apressar” o sorteio?
(f) 5 números de uma população de 115 nomes, cujos números vão de 612 a 726;
(g) 5 números de uma população de 115 nomes, cuja numeração não é sequencial, mas está compreendida entre os números
300 e 599.
32. Distribuição amostral da diferença de duas médias. Consideremos duas populações X com parâmetros
µ1 e σ21 e Y com
parâmetros µ2 e σ22. Sorteiam-se duas amostras independentes: a da primeira população de tamanho n e a da segunda de
tamanho m. Calculam-se as médias amostrais X e Y.
(a) Qual a distribuição amostral de X? E de Y?
(b) Defina D = X – Y. O que você entende por distribuição amostral de D?
(c) Calcule E(D) e Var(D).
(d) Como você acha que será a distribuição de D? Por quê?
33. A distribuição dos salários (em salários mínimos) de operários do sexo masculino de uma grande fábrica é N(5,4; 1,69), e a de
operários do sexo feminino é N(5,4; 2,25).
Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se D for a diferença entre o salário médio dos homens
e das mulheres:
(a) Calcule P(|D|
> 0,5).
(b) Qual o valor de d tal que P(|D|
> d) = 0,05?
(c) Que tamanho comum deveriam ter ambas as amostras para que P(|D| > 0,4) = 0,05?
34. Numa escola A, os alunos submetidos a um teste obtiveram média 70, com desvio padrão 10. Em outra escola B, os alunos
submetidos ao mesmo teste obtiveram média 65 e desvio padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na B,
uma de 49 alunos, qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades?
35. Distribuição amostral da diferença de duas proporções. Usando os resultados do Problema 32, qual seria a distribuição de 1
-
2,
a diferença entre as proporções de amostras independentes retiradas de populações com parâmetros p1 e p2?
36. Considere a população P
=
{1, 3, 5, 5, 7}. Retire amostras de tamanho n = 2, sem reposição e construa a distribuição
amostral de X = (X1 + X2)/2. Obtenha E(X) e Var(X)e verifique (10.9).
37. Obtenha a densidade de M, dada por (10.10), para o caso de uma amostra de uma distribuição uniforme no intervalo (0, θ).
38. Suponha que temos a população X ∼ N (167; 25). Gere 100 amostras de tamanho 5 dessa população, usando algum programa
de geração de valores de uma distribuição normal, como o Excel ou Minitab.
(a) Esboce a distribuição amostral de X (histograma) e calcule as principais medidas-resumo; faça box plots e ramos-e-folhas.
(b) Mesma questão para md = mediana da amostra.
(c) Compare as duas distribuições, ressaltando as principais diferenças.
(d) Estude a distribuição da estatística “variância da amostra”.
39. Suponha uma população P
= {1, 2, ..., N} e a v.a. X definida sobre P. Então,
é chamado total populacional. A
média populacional é µ
= T/N e a variância populacional é
. Considere uma AAS de tamanho n extraída de
P e X a média amostral. Considere o estimador Tˆ = NX. Mostre que E(Tˆ) = T e Var(Tˆ) = N2σ2/n.
40. Suponha que queiramos retirar uma amostra de uma distribuição de Bernoulli com parâmetro p. Escolhidos k dados x1, x2, ...,
xk, temos que –xk = Σi xi/k é um estimador de p. Então um estimador natural da variância
xk). Como ficaria o algoritmo descrito no CM-4 para essa situação?
σ2 = p(1 - p) da população é xk(1 -
10.14 Complementos Metodológicos
1. Amostras sem reposição de populações finitas. Suponha uma população com N elementos. Vimos que se extrairmos uma
amostra de tamanho n, com reposição, e calcularmos a média amostral X, então E(X)
média e a variância da população, respectivamente. No entanto, se a amostragem
continua a valer, mas
= µ e Var(X) = σ2/n, onde µ e σ2 são a
for feita sem reposição, então E(X) = µ
(10.9)
O fator (N – n)/(N – 1) é chamado fator de correção para populações finitas. Note que se n for muito menor que N, então
esse fator é aproximadamente igual a um, e amostras com ou sem reposição são praticamente equivalentes.
= {1, 3, 5, 5, 7}, logo N = 5. Retire amostras de tamanho n = 2, sem reposição, e
= (X + X )/2. Obtenha E(X) e Var(X) e verifique que esta é dada pela fórmula acima.
Considere, agora, uma população P
construa a distribuição amostral de X
1
2
2. Planos probabilísticos. Existem vários planos probabilísticos que são utilizados em situações práticas. Vamos descrever
brevemente alguns deles.
(a) Amostragem Aleatória Simples (AAS). Nesse plano as n unidades que compõem a amostra são selecionadas de tal forma
que todas as possíveis amostras têm a mesma probabilidade de serem escolhidas. Podemos ter AAS com e sem reposição. No
Exemplo 10.7, cada amostra com reposição tem probabilidade 1/25 de ser escolhida.
(b) Amostragem Aleatória Estratificada. Nesse procedimento, a população é dividida em subpopulações ou estratos,
usualmente de acordo com os valores (ou categorias) de uma variável, e depois AAS é utilizada na seleção de uma amostra de
= 10 estudantes, para os quais definimos as variáveis renda familiar
(X1) e classe social (X2), categorizada como A, B ou C. Então, P = {1, 2, ...,10} e suponha que a matriz de dados seja
cada estrato. Por exemplo, considere uma população de N
Podemos considerar três estratos, determinados pela variável X2:
PA = {3, 5, 8}, PB = {1, 6, 9, 10}, PC = {2, 4, 7}.
Um dos objetivos da estratificação é homogeneizar a variância dentro de cada estrato, relativamente à principal variável de
interesse.
(c) Amostragem Aleatória por Conglomerados. Como no item (b), a população é dividida em grupos (subpopulações) distintos,
chamados conglomerados. Por exemplo, podemos dividir uma cidade em bairros ou quadras. Usamos AAS para selecionar
uma amostra de conglomerados e depois todos os indivíduos dos conglomerados selecionados são analisados.
(d) Amostragem em Dois Estágios. A população é dividida em grupos, como em (c). Num primeiro estágio, por meio de AAS,
selecionamos algumas subpopulações. Num segundo estágio, usando novamente AAS, retiramos amostras das subpopulações
selecionadas na primeiro estágio.
(e) Amostragem Sistemática. Nesse plano, supõe-se que temos uma listagem das unidades populacionais. Para k fixado,
sorteamos um elemento entre os k primeiros da listagem. Depois observamos, sistematicamente, indivíduos separados por k
unidades. Por exemplo, se k = 10 e sorteamos o oitavo elemento, observamos depois o décimo oitavo, vigésimo oitavo etc.
3. Distribuição do máximo de uma amostra. Considere M o máximo de uma AAS X1, ..., Xn, escolhida de uma população com
= P(M ≤ m). Agora, o evento {M ≤ m} é equivalente ao
≤ i ≤ n}. Como as v.a. Xi são independentes, teremos
FM(m) = P(M ≤ m) = P(X1 ≤ m, ..., Xn ≤ m) = P(X1 ≤ m) ... P(Xn ≤ m) = [F(m)]n.
densidade f(x) e f.d.a. F(x). Seja FM(m) a f.d.a. de M. Então, FM(m)
evento {Xi ≤ m, para todo 1
Portanto, a densidade de M é dada por
fM(m) = F,M(m) = n[F(m)]n - 1f(m). (10.10)
4. Tamanho de uma amostra. Na prática, não conhecemos a distribuição de v.a. X e retiramos uma amostra a fim de estimar
algum parâmetro dessa distribuição. Suponha, agora, que nosso interesse esteja na média
µ=
E(X). Para estimá-la, colhemos
uma amostra X1, X2, ..., Xn de X. Logo, as v.a. Xi são independentes, cada uma delas tem a mesma distribuição que X e E(Xi)
=
µ, ∀i = 1, ..., n. Para estimar µ consideramos a média amostral X.
Um problema que se apresenta é determinar o tamanho da amostra a colher. Isso pode ser feito usando a TLC, como vimos na
Seção 10.11.
Agora, vamos ver um procedimento diferente, também baseado no TLC, mas que envolve uma regra de parada para determinar
o número de dados a colher. Esse procedimento foi sugerido por Ross (1997). Pelo TLC podemos escrever
(10.11)
para qualquer constante c
0,05.
> 0, em que Z ∼ N(0, 1) e Φ(·) denota a f.d.a. de Z. Por exemplo, se c = 1,96, a probabilidade acima é
Suponha que, em vez de colher uma pequena amostra piloto para estimar
valor aceitável, digamos d, para o desvio padrão de X, que é dado por
Por (10.11), podemos escrever, por exemplo,
σ, tenhamos informação suficiente para escolher um
P(|X - µ| ≤ 1,96d) ≈ 0,95.
Segue-se que podemos amostrar sequencialmente de X até que
escolhidos.
O seguinte algoritmo pode, então, ser adotado:
(1) Escolha um valor aceitável d para
(2) Gere pelo menos 30 dados (para obter uma estimativa razoável de σ).
(3) Continue a gerar dados, parando quando, com n dados,
com
em que calculamos S com os valores até então
(4) Estime µ por
Esse método implica podermos calcular X e S2 recursivamente. Isso pode ser feito por meio das seguintes fórmulas, facilmente
verificáveis:
Suponha x1
4, 5.
= 3, x2 = 5, x3 = 2, x4 = 6, x5 = 4. Então, usando as fórmulas acima, obtenha, recursivamente, Xi, S2i, i = 1, 2, 3,
Capítulo 11
Estimação
11.1 Primeiras Ideias
Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população,
com base nos dados de uma amostra. Salientamos que dois problemas básicos nesse processo
são:
(a) estimação de parâmetros; e
(b) teste de hipóteses sobre parâmetros.
Lembremos que parâmetros são funções de valores populacionais, enquanto estatísticas são
funções de valores amostrais.
O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo
12. Neste capítulo, iremos discutir as ideias básicas sobre estimação. Para ilustrar, consideremos
o exemplo seguinte.
Uma amostra de n = 500 pessoas de uma cidade é escolhida, e a cada pessoa da
amostra é feita uma pergunta a respeito de um problema municipal, para o qual foi apresentada
uma solução pela prefeitura. A resposta à pergunta poderá ser SIM (favorável à solução) ou
NÃO (contrária à solução). Deseja-se estimar a proporção de pessoas na cidade favoráveis à
solução apresentada.
Se 300 pessoas responderam SIM à pergunta, então uma estimativa natural para essa
proporção seria 300/500 ou 60%. Nossa resposta é baseada na suposição de que a amostra é
representativa da população. Sabemos, também, que outra amostra poderia levar a outra
estimativa. Conhecer as propriedades desses estimadores é um dos propósitos mais importantes
da Inferência Estatística. Vejamos o que pode ser feito nesse caso particular.
Definamos as v.a. X1, ..., Xn, tais que:
Exemplo 11.1
e seja p = P (sucesso), em que sucesso significa resposta SIM à questão formulada.
Portanto, se
sabemos que Yn tem distribuição binomial com parâmetros n e p, e o
problema consiste em estimar p. É claro que Yn representa o número de pessoas na amostra que
responderam SIM; portanto, um possível estimador de p é
. (11.1)
Então, se Yn = k, isto é, observarmos o valor k da variável Yn, obteremos = k/n como uma
estimativa de p. Observe que , dado por (11.1), é uma v.a., ao passo que k/n é um número, ou
seja, um valor da v.a. No exemplo acima, uma estimativa é 0,6 ou 60%.
O estimador teve sua distribuição amostral estudada na Seção 10.9. De lá podemos concluir
que tem distribuição aproximadamente normal, com parâmetros:
E( ) = p, (11.2)
Var( ) = p(1 - p)/n. (11.3)
Esses resultados nos ajudam a avaliar as qualidades desse estimador. Por exemplo, o resultado
(11.2) indica que o estimador , em média, “acerta” p. Dizemos que é um estimador não
viesado (ou não viciado) de p. Ou ainda, o resultado (11.3) indica que para amostras grandes, a
diferença entre e p tende a ser pequena, pois para n → ∞, Var( ) → 0. Nesse caso, dizemos que
é um estimador consistente de p. Observe que essas propriedades são válidas para o estimador
no conjunto de todas as amostras que poderiam ser extraídas da população. Para uma particular
amostra, pode estar distante de p.
Em algumas situações, podemos ter mais de um estimador para um mesmo parâmetro, e
desejamos saber qual deles é “melhor”. O julgamento pode ser feito analisando as propriedades
desses estimadores. Vejamos um exemplo.
Desejamos comprar um rifle e, após algumas seleções, restaram quatro alternativas,
que chamaremos de rifles A, B, C e D. Foi feito um teste com cada rifle, que consistiu em fixá-lo
num cavalete, mirar o centro de um alvo e disparar 15 tiros. Os resultados estão ilustrados na
Figura 11.1.
Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o critério de
“em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de “não ser muito
dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C é aquela que
reúne as duas propriedades e, segundo esses critérios, seria a melhor arma. Mas, se outro critério
fosse introduzido (por exemplo, menor preço), talvez não fosse a arma escolhida. Muitas vezes, a
solução deve ser um compromisso entre as propriedades.
Esse exemplo também nos permite introduzir os conceitos de acurácia e precisão. A acurácia
mede a proximidade de cada observação do valor alvo que se procura atingir. A precisão mede a
proximidade de cada observação da média de todas as observações.
Exemplo 11.2
Figura 11.1 Resultados
de 15 tiros dados por 4 rifles.
Desse modo, podemos descrever cada arma da seguinte maneira:
Arma A: não viesada, pouco acurada e baixa precisão.
Arma B: viesada, pouco acurada e baixa precisão.
Arma C: não viesada, muito acurada e boa precisão.
Arma D: viesada, pouco acurada e alta precisão.
Do exposto acima, notamos a importância de se definir propriedades desejáveis para
estimadores. Trataremos desse assunto na próxima seção. Outro problema que aparece em
inferência é como obter um estimador de determinado parâmetro. Nem sempre temos uma
sugestão para um estimador, como no caso da proporção, no Exemplo 11.1. Nas Seções 11.3,
11.4 e 11.5, trataremos de três desses métodos.
11.2 Propriedades de Estimadores
Inicialmente, vejamos a questão da estimação de um modo mais geral. Consideremos uma
amostra (X1, X2, ..., Xn) de uma v.a. que descreve uma característica de interesse de uma
população. Seja θ um parâmetro que desejamos estimar, por exemplo, a média µ = E(X) ou a
variância σ2 = Var(X).
Um estimador T do parâmetro θ é qualquer função das observações da amostra, ou seja,
T = g(X1, ..., Xn).
Notemos que, segundo essa definição, um estimador é o que chamamos antes de estatística,
porém associando-o a um parâmetro populacional.
O problema da estimação é, então, determinar uma função T = g(X1, X2, ..., Xn) que seja
“próxima” de θ, segundo algum critério. O primeiro critério que iremos abordar é dado a seguir.
Definição.
Definição.
O estimador T é não viesado para θ se
E(T) = θ, (11.4)
para todo θ.
Se (11.4) não valer T diz-se viesado e a diferença V(T) = E(T) - θ é chamado o viés de T.
Notemos que a esperança de T em (11.4) é calculada sobre a distribuição amostral de T, como
tratada no capítulo anterior.
Definição.
Estimativa é o valor assumido pelo estimador em uma particular amostra.
Assim, no Exemplo 11.1,
é um estimador de p, enquanto 60% é uma estimativa de p.
Vimos que a média amostral X é um estimador não viesado de µ = E(X), colhida uma
amostra (X1, ..., Xn) da v.a. X. Do mesmo modo, como vimos na Seção 10.9, a proporção amostral
é um estimador não viesado da proporção p de indivíduos de uma população que tem certa
característica comum.
Exemplo 11.3
Exemplo 11.4 Considere uma população com N elementos e a variância populacional
(11.5)
em que
é a média populacional. Um possível estimador para σ2, baseado numa AAS
de tamanho n extraída dessa população, é
(11.6)
Mostremos que esse estimador é viesado. Pela fórmula (3.11), temos que
logo
Mas, pela definição de AAS e definição de variância de uma v.a., E(X2i) = Var(Xi) + [E(Xi)]2 =
σ2 + µ2. Também, usando o Teorema 10.1, temos que E(X-2) = Var(X-) +
Segue-se que
ou seja,
Finalmente,
(11.7)
De (11.7) vemos que
2
é viesado para σ2 e o viés é dado por
(11.8)
Como esse viés é negativo, o estimador 2 em geral subestima o verdadeiro parâmetro σ2. Por
outro lado, por (11.8), o viés diminui com n, ou seja, formalmente, para n → ∞, o viés de 2
tende a zero. Note também que o viés de 2 é uma função de σ2. Uma estimativa do viés seria
dada por
ou seja, substituímos o valor desconhecido de σ2 por uma estimativa, como por exemplo
É fácil ver que para obter um estimador não viesado de σ2 basta considerar
(n/(n - 1)) 2, pois de (11.7) segue-se que
2
.
Logo, se definirmos
(11.9)
então E(S2) = σ2 e S2 é um estimador não viesado para σ2. Essa é a razão para se usar n - 1, em
vez de n, como denominador da variância da amostra. No Capítulo 3, usamos sempre n como
denominador, porque não havia preocupação em saber se estávamos trabalhando com uma
população ou uma amostra. Daqui por diante, será feita essa distinção.
Vimos que o estimador é não viesado e tem variância que tende a zero, quando n → ∞. Ver
(11.2) e (11.3). Dizemos que é consistente. Esse conceito de consistência é um pouco mais
difícil de se definir. Vejamos um exemplo para motivar a definição que será dada.
Considere a média X calculada para diversos tamanhos de amostras; obtemos, na realidade,
uma sequência de estimadores { Xn, n = 1, 2, ...}. À medida que n cresce, a distribuição de Xn
torna-se mais concentrada ao redor da verdadeira média µ. Veja, por exemplo, a Figura 10.4 do
Capítulo 10. Dizemos que { Xn} é uma sequência consistente de estimadores de µ.
Definição.
Uma sequência {Tn} de estimadores de um parâmetro θ é consistente se, para todo ε > 0,
P{|Tn - θ| > ε} → 0, n → ∞. (11.10)
Não é muito difícil ver que essa condição está satisfeita para { Xn}. Veja o Problema 33.
Em vez de usar (11.10) para verificar se uma sequência de estimadores é consistente, podemos
usar o seguinte resultado.
Proposição.
Uma sequência {Tn} de estimadores de θ é consistente se
(11.11)
e
(11.12)
Se Tn for não viesado, a primeira condição estará, obviamente, satisfeita. Usando esse
resultado, vemos que
e Xn são estimadores consistentes de p e µ, respectivamente, nos
Exemplos 11.1 e 11.3.
Vimos que S2, dado por (11.9), é não viesado para σ2. É possível demonstrar, no caso
que X1, ..., Xn são observações de uma distribuição N(µ, σ2), que
Exemplo 11.5
(11.13)
Como E(S2) = σ2, e
segue-se que S2 é um estimador consistente para σ2. Dado o
que foi dito acima, talvez fosse melhor escrever S2n.
Vimos que E( 2) = σ2(1 - 1/n), de modo que
Também, de (11.6) e (11.13)
e supondo que as observações são de uma distribuição normal N(µ, σ2), temos que
Exemplo 11.6
(11.14)
o que mostra que Var( 2) → 0, quando n → ∞, logo
De (11.14) obtemos, também, que
também é consistente para σ2.
(11.15)
Portanto, usando-se somente o critério de “ter menor variância”, 2 seria um “melhor”
estimador de σ2. Mas observe que estamos nos referindo a amostras de uma distribuição normal.
Vejamos agora um critério que nos permite escolher entre dois estimadores do mesmo
parâmetro.
Definição.
Se T e T′ são dois estimadores não viesados de um mesmo parâmetro θ, e ainda
Var(T) < Var(T′), (11.16)
então T diz-se mais eficiente do que T′.
Consideremos uma população normal X, com parâmetros µ e σ2. Queremos estimar a
mediana dessa população. Por ser uma distribuição simétrica, sabemos que µ = Md(X).
Definindo como X a média e como md a mediana de uma amostra de tamanho n dessa
população, qual dos dois estimadores é o melhor para estimar a mediana populacional?
Pelo que vimos no capítulo anterior,
Exemplo 11.7
(11.17)
Pode-se demonstrar que a distribuição da mediana amostral pode ser aproximada por uma
normal, especificamente,
(11.18)
Vemos, portanto, que os dois estimadores são não viesados, mas X é mais eficiente, pois
Conclui-se que, para estimar a mediana dessa população, é preferível usar a média da amostra
como estimador, o que contraria um pouco a nossa intuição.
Para precisar o conceito de estimador acurado, discutido na seção anterior, vamos agora
introduzir o conceito de erro quadrático médio.
Chamemos de
e = T - θ,
o erro amostral que cometemos ao estimar o parâmetro θ da distribuição da v.a. X pelo
estimador T = g(X1, ..., Xn), baseado na amostra (X1, ..., Xn).
Definição.
Chama-se erro quadrático médio (EQM) do estimador T ao valor
(11.19)
De (11.19) temos
já que E(T) - θ é uma constante e E(T - E(T)) = 0. Podemos, pois, escrever,
(11.20)
em que V = V(T) = E(T) - θ indica, como vimos, o viés de T. A Figura 11.2 ilustra essas duas
medidas, usando o caso das armas discutido no Exemplo 11.2.
Vemos, portanto, que um estimador preciso tem variância pequena, mas pode ter EQM
grande.
Figura 11.2 Representação
gráfica para o EQM.
Problemas
1. Obtenha a distribuição de quando p = 0,2 e n = 5. Depois calcule E( ) e Var( ).
2. Encontre um limite superior para Var( ) quando n = 10, 25, 100 e 400. Faça o gráfico em cada caso.
3. Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de sucesso p. Seja X o número de
sucessos, e considere os estimadores
(a)
1
= X/n; (b)
Determine a esperança e a variância de cada estimador. Por que
4. Verifique se 1 e 2 do Problema 3 são consistentes.
2
não é um “bom” estimador?
5. Tem-se duas fórmulas distintas para estimar um parâmetro populacional θ. Para ajudar a escolher a melhor, simulou-se uma
situação em que θ = 100. Dessa população retiraram-se 1.000 amostras de dez unidades cada uma, e aplicaram-se ambas as
fórmulas às dez unidades de cada amostra. Desse modo, obtêm-se 1.000 valores para a primeira fórmula t1 e outros 1.000
valores para a segunda fórmula t2, cujos estudos descritivos estão resumidos abaixo. Qual das duas fórmulas você acha mais
conveniente para estimar θ. Por quê?
Fórmula 1
Fórmula 2
t1 = 102
t2 = 100
Var(t1) = 5
Var(t2) = 10
Mediana = 100
Mediana = 100
Moda = 98
Moda = 100
11.3 Estimadores de Momentos
Neste capítulo e em anteriores, temos usado certos estimadores de parâmetros populacionais,
como a média e a variância, simplesmente tentando “imitar” na amostra o que acontece na
população. Foi assim que construímos X, por exemplo.
A média populacional é um caso particular daquilo que chamamos de momento. Na realidade,
ela é o primeiro momento. Se X for uma v.a. contínua, com densidade f(x; θ1, ..., θr), dependendo
de r parâmetros, então
(11.21)
Essa média dependerá, genericamente, dos parâmetros desconhecidos θ1, ..., θr. Por exemplo,
suponha que X tenha distribuição normal, com parâmetros µ e σ2. Aqui, θ1 = µ, θ2 = σ2 e r = 2.
Temos, nesse caso, que E(X) = µ.
Podemos, em geral, definir o k-ésimo momento de X por
(11.22)
Assim, para k = 2, obtemos o segundo momento
No caso acima da normal, temos que E(X2) = Var(X) + [E(X)]2 = σ2 + µ2. Suponha, agora, que
colhemos uma amostra de tamanho n da população (X1, ..., Xn). Definimos o chamado k-ésimo
momento amostral por
(11.23)
Temos, portanto, que
Dizemos que 1, ...,
soluções das equações
Definição.
r
são estimadores obtidos pelo método dos momentos se eles forem
mk = µk, k = 1, 2, ..., r. (11.24)
O procedimento consiste em substituir os momentos teóricos pelos respectivos momentos
amostrais.
Se X tem média µ e variância σ2, teremos as seguintes relações válidas para os dois
primeiros momentos populacionais:
Exemplo 11.8
do que obtemos
Temos, também, os dois primeiros momentos amostrais:
Os estimadores obtidos pelo método dos momentos serão
Ou seja, obtemos os já mencionados estimadores X e 2.
Na realidade, podemos ter, às vezes, mais de um estimador de momentos. Suponha, por
exemplo, que a v.a. Y tenha uma distribuição de Poisson com parâmetro λ > 0. Vimos que E(Y) =
Var(Y) = λ, de modo que λ pode ser estimado por Y ou por
ou seja, λˆM = X ou λˆM =
2
. Veja o Problema 46.
11.4 Estimadores de Mínimos Quadrados
Um dos procedimentos mais usados para obter estimadores é aquele que se baseia no princípio
dos mínimos quadrados, introduzido por Gauss em 1794, mas que primeiro apareceu com esse
nome no apêndice do tratado de Legendre, Nouvelles Méthodes pour la Determination des
Orbites des Comètes, publicado em Paris em 1806. Gauss somente viria a publicar seus
resultados em 1809, em Hamburgo. Ambos utilizaram o princípio em conexão com problemas de
Astronomia e Física.
Vejamos o procedimento por meio de um exemplo simples.
Um engenheiro está estudando a resistência Y de uma fibra em função de seu
diâmetro X e notou que as variáveis são aproximadamente proporcionais, isto é, elas obedecem à
relação
Exemplo 11.9
Y ≈ θX, (11.25)
em que θ é o coeficiente de proporcionalidade. Agora ele deseja estimar o parâmetro θ, baseado
numa amostra de cinco unidades, que, submetidas a mensuração e testes, produziram os
resultados:
Inspecionando os resultados, conclui-se que
= 3 parece ser um valor razoável. Como
verificar a qualidade dessa estimativa? Podemos utilizar o modelo Ŷ = 3X e ver como esse prevê
os valores de Y, para os dados valores de X, e como são as discrepâncias entre os valores
observados e os estimados pelo modelo. Essa análise está resumida na Tabela 11.1.
Os valores da coluna (Y - 3X) medem a inadequação do modelo para cada observação da
amostra, enquanto o valor
é uma tentativa de medir “o erro quadrático total da
amostra”. Como em situações anteriores, elevou-se ao quadrado para evitar o problema do sinal.
Quanto menor for o erro quadrático total, melhor será a estimativa. Isso nos sugere procurar a
estimativa que torne mínima essa soma de quadrados. Matematicamente, o problema passa a ser
o de encontrar o valor de θ que minimize a função
(11.26)
Tabela 11.1 Análise
do modelo Ŷ = 3X.
X
Y
3X
Y – 3X
(Y – 3X)2
1,2
3,9
3,6
0,3
0,09
1,5
4,7
4,5
0,2
0,04
1,7
5,6
5,1
0,5
0,25
2,0
5,8
6,0
–0,2
0,04
2,6
7,0
7,8
0,8
0,64
Total
0
1,06
O mínimo da função é obtido derivando-a em relação a θ, e igualando o resultado a zero (ver
Morettin et al., 2005), o que resulta
Resolvendo essa equação, obtemos
Usando os dados acima encontramos MQ = 2,94, que conduz a um valor mínimo para S(θ) de
0,94. Observe que esse valor é realmente menor do que o observado para θ = 3, ou seja, 1,06.
Como foi dito, não esperávamos uma relação perfeita entre as duas variáveis, já que o
diâmetro da fibra não é o único responsável pela resistência; outros fatores não controlados
afetam o resultado. Desse modo, duas amostras obtidas do mesmo diâmetro X não teriam
obrigatoriamente que apresentar o mesmo resultado Y, mas valores em torno de um valor
esperado θX.
Em outras palavras, estamos supondo que, para um dado valor da variável explicativa X, os
valores da variável resposta Y seguem uma distribuição de probabilidade fY(y), centrada em θX.
Isso equivale a afirmar que, para cada X, o desvio ε = Y - θX segue uma distribuição centrada no
zero. Para melhor entendimento dessa proposição, veja o Capítulo 16. Podemos, então, escrever
E(Y | x) = θx, para todo valor x.
É comum supor que ε tem a mesma distribuição, para todo valor x da variável explicativa X.
Desse modo, é comum escrever
Y = θx + ε,
com ε seguindo a distribuição fε(.), com média zero. Como ilustração, poderíamos supor que ε ∼
N(0, σ2), para todo x. Quanto menor for a variância σ2, melhor será a “previsão” de Y como
função de x. Assim, parece razoável escolher θ que torna mínima a soma dos quadrados do erros:
O modelo acima pode ser generalizado, de modo a envolver outras funções do parâmetro θ,
resultando no modelo
Y = g(X; θ) + ε, (11.27)
e devemos procurar o valor de θ que minimize a função
(11.28)
para uma amostra (X1, Y1), ..., (Xn, Yn) das variáveis X e Y. A solução MQ é chamada de estimador
de mínimos quadrados (EMQ) de θ.
Nos Capítulos 15 e 16, voltaremos a esse tópico e trataremos com mais detalhes os chamados
modelos lineares.
Problemas
6. Estamos estudando o modelo yt = µ + εt, para o qual uma amostra de cinco elementos produziu os seguintes valores para yt: 3,
5, 6, 8, 16.
(a) Calcule os valores de
para µ = 6, 7, 8, 9, 10, e faça o gráfico de S(µ) em relação a µ. Qual o valor de µ
que parece tornar mínimo S(µ)?
(b) Derivando S(µ) em relação a µ, e igualando o resultado a zero, você encontrará o EMQ de µ. Usando os dados acima,
encontre a estimativa para µ e compare com o resultado do item anterior.
7. Os dados abaixo referem-se ao índice de inflação (yt) de 1967 a 1979.
Ano (t)
1967
1969 1971 1973 1975
1977
1979
Inflação (yt)
128
192
1.236
2.639
277
373
613
(a) Faça o gráfico de yt contra t.
(b) Considere ajustar o modelo yt = α + βt + εt aos dados. Encontre as estimativas de mínimos quadrados de α e β.
(c) Qual seria a inflação em 1981?
(d) Você teria alguma restrição em adotar o modelo linear nesse caso?
8. No Problema 7, determinamos os estimadores de mínimos quadrados para o modelo
yt = f(t) + t, no qual f(t) = α + βt. Suponha agora que
f(t) = α + βxt, t = 1, ..., n,
ou seja, temos n valores fixos x1, ..., xn de uma variável fixa (não aleatória) x. Obtenha os EMQ de α e β para esse modelo.
9. Aplique os resultados do Problema 8 para os dados a seguir:
t
1
2
3
4
5
6
7
8
9
10
xt
1,5
1,8
1,6
2,5
4,0
3,8
4,5
5,1
6,5
6,0
yt
66,8
67,0
66,9
67,6
68,9
68,7
69,3
69,8
71,0
70,6
11.5 Estimadores de Máxima Verossimilhança
O Novo Dicionário Aurélio da Língua Portuguesa (2ª edição, 1986) define verossímil (ou
verossimilhante) aquilo que é semelhante à verdade, provável, e verossimilhança (ou
verossimilidade, ou ainda verossimilitude), à qualidade ou caráter de verossímil. O que seria uma
amostra verossímil? Seria uma amostra que fornecesse a melhor informação possível sobre um
parâmetro de interesse da população, desconhecido, e que desejamos estimar.
O princípio da verossimilhança afirma que devemos escolher aquele valor do parâmetro
desconhecido que maximiza a probabilidade de obter a amostra particular observada, ou seja, o
valor que torna aquela amostra a “mais provável”. O uso desse princípio conduz a um método de
estimação pelo qual se obtêm os chamados estimadores de máxima verossimilhança que, em
geral, têm propriedades muito boas. Esse princípio foi enunciado por Fisher pela primeira vez em
1912 e, em 1922, deu-lhe forma mais completa, introduzindo a expressão “likelihood”
(verossimilhança). Veja Fisher (1935) para mais detalhes. Vamos começar com um exemplo.
Suponha que temos n provas de Bernoulli com P (sucesso) = p, 0 < p < 1 e X =
número de sucessos. Devemos tomar como estimador aquele valor de p que torna a amostra
observada a mais provável de ocorrer.
Suponha, por exemplo, que n = 3 e obtemos dois sucessos e um fracasso. A função de
verossimilhança é
L(p) = P(2 sucessos e 1 fracasso) = p2(1 - p).
Maximizando essa função em relação a p, obtemos
L′(p) = 2p(1 - p) - p2 = 0 ⇒ p(2 - 3p) = 0,
do que seguem p = 0 ou p = 2/3. É fácil ver que o ponto máximo é = 2/3, que é o estimador de
máxima verossimilhança (EMV) de p.
De modo geral, o EMV do parâmetro p de uma distribuição binomial é
Exemplo 11.10
(11.29)
que é o estimador usado anteriormente no Exemplo 11.1.
Para chegar a (11.29), observe que a função de verossimilhança nesse caso é
que é a probabilidade de se obter x sucessos e n - x fracassos. O máximo dessa função ocorre no
mesmo ponto que
Denotando o logaritmo natural simplesmente por log, temos
Derivando e igualando a zero obtemos MV = x/n.
O procedimento, pois, é obter a função de verossimilhança, que depende dos parâmetros
desconhecidos e dos valores amostrais, e depois maximizar essa função ou o logaritmo dela, o
que pode ser mais conveniente em determinadas situações. Chamando de L(θ; X1, ..., Xn) a função
de verossimilhança, a log-verossimilhança será L(θ; X1, ..., Xn) = loge L(θ; X1, ..., Xn).
No caso de variáveis contínuas, a função de verossimilhança é definida da seguinte maneira.
Suponha que a v.a. X tenha densidade f(x; θ), onde destacamos a dependência do parâmetro θ
desconhecido. Retiramos uma amostra de X, de tamanho n, (X1, ..., Xn), e sejam (x1, ..., xn) os
valores efetivamente observados.
Definição. A função de verossimilhança é definida por
(11.30)
que deve ser encarada como uma função de θ. O estimador de máxima verossimilhança de θ é
o valor θ MV que maximiza L(θ; x1, ..., xn).
Se indicarmos por x = (x1, ..., xn)′ o vetor contendo a amostra, é costume denotar a
verossimilhança por L(θ|x) e a log-verossimilhança por ℓ(θ|x). O parâmetro θ pode ser um vetor,
como no caso de querermos estimar a média µ e a variância σ2 de uma normal. Nesse caso, θ =
(µ, σ2)′.
Suponha que a v.a. X tenha distribuição exponencial, com parâmetro α > 0,
desconhecido, e queremos obter o EMV desse parâmetro. A densidade de X é dada por (7.26):
Exemplo 11.11
Então, a verossimilhança é dada por
e a log-verossimilhança fica
Derivando e igualando a zero obtemos que o EMV de α é
(11.31)
que nada mais é do que a média amostral. Lembremos que na distribuição exponencial
E(X) = α, e portanto o estimador obtido é o esperado pelo senso comum.
No caso discreto, a função de verossimilhança pode ser escrita na forma
Veja o Problema 37 para o caso de termos mais de um parâmetro.
Problemas
10. Na função de verossimilhança L(p) da binomial, suponha que n = 5 e x = 3. Construa o gráfico da função para os possíveis
valores de p = 1/5, 2/5, 3/5, 4/5, e verifique que o máximo ocorre realmente para p = 3/5.
11. Observa-se uma sequência de ensaios de Bernoulli, independentes, com parâmetro p, até a ocorrência do primeiro sucesso. Se
X indicar o número de ensaios necessários:
(a) Mostre que P(X = x) = (1 - p)x – 1p (distribuição geométrica).
(b) Repetiu-se esse experimento n vezes e, em cada um deles, o número de ensaios necessários foram x1, x2, ..., xn. Encontre o
EMV para p.
(c) Usando uma moeda, repetiu-se esse experimento 5 vezes, e o número de ensaios necessários até a ocorrência da primeira
coroa foi 2, 3, 1, 4, 1, respectivamente. Qual a estimativa de MV para p = probabilidade de ocorrência de coroa nessa moeda?
Existiria outra maneira de estimar p?
12. Suponha que X seja uma v.a. com distribuição normal, com média µ e variância 1. Obtenha o EMV de µ, para uma amostra
de tamanho n, (x1, ..., xn).
13. Considere Y uma v.a. com distribuição de Poisson, com parâmetro λ > 0. Obtenha a EMV de λ, baseado numa amostra de
tamanho n.
11.6 Intervalos de Confiança
Até agora, todos os estimadores apresentados foram pontuais, isto é, especificam um único
valor para o estimador. Esse procedimento não permite julgar qual a possível magnitude do erro
que estamos cometendo. Daí, surge a ideia de construir os intervalos de confiança, que são
baseados na distribuição amostral do estimador pontual.
Suponha que queiramos estimar a média µ de uma população qualquer, e para tanto
usamos a média X de uma amostra de tamanho n. Do TLC,
Exemplo 11.12
(11.32)
com Var(X) = σ2X = σ2/n. Daqui podemos determinar qual a probabilidade de cometermos erros
de determinadas magnitudes. Por exemplo,
ou
que é equivalente a
e, finalmente,
(11.33)
Convém lembrar que µ não é uma variável aleatória e sim, um parâmetro, e a Fórmula (11.33)
deve ser interpretada da seguinte maneira: se pudéssemos construir uma quantidade grande de
intervalos (aleatórios!) da forma ] X - 1,96σX, X + 1,96σX[, todos baseados em amostras de
tamanho n, 95% deles conteriam o parâmetro µ. Veja a Figura 11.3. Dizemos que γ = 0,95 é o
coeficiente de confiança. Nessa figura, estão esquematizados o funcionamento e o significado de
um intervalo de confiança (IC) para µ, com γ = 0,95 e σ2 conhecido.
Figura 11.3 Significado
de um IC para µ, com γ = 0,95 e σ2 conhecido.
Escolhida uma amostra e encontrada sua média x0, e admitindo-se σx conhecido, podemos
construir o intervalo
(11.34)
Esse intervalo pode ou não conter o parâmetro µ, mas pelo exposto acima temos 95% de
confiança de que contenha.
Para ilustrar o que foi dito acima, consideremos o seguinte experimento de simulação.
Geramos 20 amostras de tamanho n = 25 de uma distribuição normal de média µ = 5 e desvio
padrão σ = 3. Para cada amostra construímos o intervalo de confiança para µ, com coeficiente de
confiança γ = 0,95, que é da forma X ± 1,176, usando (11.34). Na Figura 11.4, temos esses
intervalos representados e notamos que três deles (amostras de números 5, 14 e 15) não contêm a
média µ = 5.
Figura 11.4 Intervalos
de confiança para a média de uma N(5, 9), para 20 amostras de tamanho n = 25.
Uma máquina enche pacotes de café com uma variância igual a 100 g2. Ela estava
regulada para encher os pacotes com 500 g, em média. Agora, ela se desregulou, e queremos
saber qual a nova média µ. Uma amostra de 25 pacotes apresentou uma média igual a 485 g.
Vamos construir um intervalo de confiança com 95% de confiança para µ. De (11.34), teremos
Exemplo 11.13
ou seja,
pois
Se T for um estimador do parâmetro θ, e conhecida a distribuição amostral de T, sempre será
possível achar dois valores t1 e t2, tais que
(11.35)
a probabilidade interpretada como em (11.33), e γ um valor fixo, 0 < γ < 1. Para uma dada
amostra, teremos dois valores fixos para t1 e t2, e o intervalo de confiança para θ, com coeficiente
de confiança γ, será indicado do seguinte modo:
IC(θ; γ) = ]t1, t2[. (11.36)
Se a variância populacional σ2 não for conhecida, podemos substituir em (11.34) σx por
,
2
em que S é a variância amostral dada em (11.9). Para n grande, da ordem de 100, o intervalo
(11.34), com essa modificação, pode ainda ser usado. Para n não muito grande, a distribuição
normal não pode mais ser usada e terá de ser substituída pela distribuição t de Student, que
estudamos no Capítulo 7. Esse assunto voltará a ser abordado no Capítulo 12.
Para um coeficiente de confiança qualquer γ, teremos de usar o valor z(γ) tal que P(-z(γ) < Z <
z(γ)) = γ, com Z ∼ N(0, 1). O intervalo fica
(11.37)
Observe, também, que a amplitude do intervalo (11.37) é
que é uma constante,
independente de X. Se construirmos vários intervalos de confiança para o mesmo valor de n, σ e
γ, estes terão extremos aleatórios, mas todos terão a mesma amplitude L.
Vamos obter um intervalo de confiança para o parâmetro p de uma distribuição b(n,
p). Sabemos que se X = número de sucessos nas n provas, então X tem distribuição
aproximadamente normal, com média µ = np e variância σ2 = npq, com q = 1 - p. Logo,
Exemplo 11.14
ou ainda,
(11.38)
Assim, se γ = 0,95, temos, consultando a Tabela III, que
ou seja,
Portanto, com probabilidade 0,95, temos que
do que segue
Como não conhecemos p, podemos proceder de duas maneiras. Uma é usar o fato que pq 
1/4, de modo que, obtendo
(11.39)
Temos, então, que
é um intervalo de confiança para p, com coeficiente
de confiança de 95%.
Para um γ qualquer, 0 < γ < 1, (11.39) fica
(11.40)
em que z(γ) é definido como em (11.37).
Numa pesquisa de mercado, n = 400 pessoas foram entrevistadas sobre determinado
produto, e 60% delas preferiram a marca A. Aqui, = 0,6 e um intervalo de confiança para p
com coeficiente de confiança γ = 0,95 será
Exemplo 11.15
ou seja
O intervalo (11.40) é chamado conservador, pois se p não for igual a 1/2 e estiver próximo de
zero ou de um, então ele fornece um intervalo desnecessariamente maior, porque substituímos pq
pelo seu valor máximo, 1/4. Uma outra maneira de proceder é substituir pq por , com = 1 - ,
sendo o estimador de máxima verossimilhança de p, por exemplo. O intervalo obtido fica
(11.41)
com z(γ) definido como em (11.40).
Na realidade, pode-se demonstrar que
do que resulta a Fórmula (11.41).
Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo
de confiança para p com γ = 0,90. Como = 80/400 = 0,2 e = 1 - = 0,8, então (11.41) fica
Exemplo 11.16
ou seja,
Usando (11.40) o intervalo conservador é
Observe que o primeiro intervalo tem amplitude menor que o segundo. Outra observação
importante é que por (11.40) e um γ fixo, os intervalos que podemos obter para amostras
diferentes (mas de mesmo tamanho n) terão a mesma amplitude, dada por
Por outro
lado, usando (11.41), a amplitude do intervalo será
que é variável de
amostra para amostra, pois (e, consequentemente, ) variará de amostra para amostra.
Problemas
14. Calcule o intervalo de confiança para a média de uma N(µ, σ2) em cada um dos casos abaixo.
Média Amostral
Tamanho da Amostra
Desvio Padrão da População
Coeficiente de Confiança
170 cm
100
15 cm
95%
165 cm
184
30 cm
85%
180 cm
225
30 cm
70%
15. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvulas, e obtém-se a vida média de 800
horas e o desvio padrão de 100 horas.
(a) Qual o intervalo de confiança de 99% para a vida média da população?
(b) Com que confiança é possível afirmar que a vida média é 800 ± 0,98?
(c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 ± 7,84?
(Que suposições você fez para responder às questões acima?)
16. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da
população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a:
(a) 95% (b) 99%
17. Uma população tem desvio padrão igual a 10.
(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média seja superior a uma
unidade?
(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se x = 50?
18. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de detergente. Construir um intervalo
de confiança para p = proporção das donas de casa que preferem A com c.c. γ = 90%.
19. Encontre os intervalos de confiança para p se k/n = 0,3, com c.c. γ = 0,95. Utilize os dois enfoques apontados na Seção 11.6,
com n = 400.
20. Antes de uma eleição, um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu
candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos eleitores eram favoráveis ao candidato em questão.
(a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de, no máximo, 0,01 com
probabilidade de 80%.
(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores eram favoráveis ao candidato
em questão, construa um intervalo de confiança para a proporção p. Utilize γ = 0,95.
21. Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto. Se a amostra de tamanho
300 forneceu 100 indivíduos que consomem o dado produto, determine:
(a) o intervalo de confiança para p, com coeficiente de confiança de 95% (interprete o resultado);
(b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabilidade de 95% (interprete o
resultado).
11.7 Erro Padrão de um Estimador
Vimos que, obtida a distribuição amostral de um estimador, podíamos calcular a sua variância.
Se não pudermos obter a distribuição exata, usamos uma aproximação, se essa estiver disponível,
como no caso de X, e a variância do estimador será a variância dessa aproximação. Por exemplo,
para a média amostral X, obtida de uma amostra de tamanho n, temos que
na qual σ2 é a variância da v.a. X definida sobre a população.
À raiz quadrada dessa variância chamaremos de erro padrão de X e o denotaremos por
(11.42)
Definição.
Se T for um estimador do parâmetro θ, chamaremos de erro padrão de T a quantidade
(11.43)
A variância de T dependerá dos parâmetros da distribuição de X, o mesmo acontecendo com o
erro padrão. Por exemplo, em (11.42), EP( X) depende de σ, que em geral é desconhecida.
Podemos, então, obter o erro padrão estimado de X, dado por
(11.44)
na qual S2 é a variância amostral. Genericamente, o erro padrão estimado de T é dado por
(11.45)
Muitas vezes, a quantidade (11.45) é chamada de erro amostral. Mas preferimos chamar de
erro amostral à diferença e = T - θ.
Exemplo 11.17
Para o Exemplo 11.15,
= 0,6, e o erro padrão de será dado por
(11.46)
Como não conhecemos p usamos no seu lugar o estimador , obtendo-se
Observe que o intervalo de confiança (11.41) pode ser escrito
ao passo que o intervalo para µ dado por (11.37) pode ser escrito
11.8 Inferência Bayesiana
O estabelecimento de uma ponte entre os valores observados na amostra e os modelos
postulados para a população, objeto da inferência estatística, exige a adoção de princípios
teóricos muito bem especificados. Neste livro, usaremos a chamada teoria frequentista (às vezes,
também chamada de clássica). Seus fundamentos encontram-se em trabalhos de J. Neyman, E.
Pearson, R. Fisher e outros.
Consideremos um exemplo para ilustrar esse enfoque. Suponha que tenhamos uma amostra
observada (x1, ..., xn) de uma população normal, N(µ, σ2), e queremos fazer inferências sobre os
valores de µ e σ2, baseados nas n observações.
Por meio de algum procedimento estudado neste capítulo, selecionamos estimadores µ̂(x) e
2
(x) que sejam funções do vetor de observações x = (x1, ..., xn)′. Considere dados hipotéticos x1,
x2, ..., todos amostras de tamanho n, que poderiam ter sido gerados da população em questão.
Obtemos, então, as distribuições amostrais de µ̂ (x) e 2(x), como na Seção 10.7. Podemos
também obter intervalos de confiança para os parâmetros desconhecidos µ e σ2, bem como testar
hipóteses sobre esses parâmetros, assunto a ser discutido no Capítulo 12.
Para construir intervalos de confiança e testar hipóteses será necessário conhecer a distribuição
amostral dos estimadores. Como só temos um conjunto de dados e não dados hipotéticos, essas
distribuições amostrais terão de ser obtidas de outra maneira, e não como no Exemplo 10.7.
Usualmente isso é feito usando teoremas como o Teorema Limite Central, discutido na Seção
10.8, obtendo-se uma distribuição aproximada para os estimadores, que vale para tamanhos de
amostras grandes.
A crítica que se faz à teoria frequentista é a possibilidade de “replicar dados”, bem como o
recurso à teoria assintótica. Uma teoria que não faz uso de tais argumentos é a inferência
bayesiana, cujos fundamentos foram estabelecidos por T. Bayes em 1763. Outros expoentes
dessa corrente foram Bernoulli (1713), Laplace (1812) e Jeffreys (1939). Aqui, o Teorema de
Bayes, estudado no Capítulo 5, tem papel fundamental. A noção de probabilidade prevalente
aqui é a subjetiva, discutida brevemente no mesmo capítulo.
Com relação ao nosso exemplo, a Inferência Bayesiana admite que os parâmetros µ e σ2, que
são quantidades desconhecidas da distribuição de X, podem ser descritos por uma distribuição de
probabilidades, p(µ, σ2), chamada a distribuição a priori desses parâmetros. Nessa distribuição,
são incorporadas todas as informações que temos sobre θ = (µ, σ2)′, inclusive de natureza
subjetiva. Essa distribuição é hipotetizada antes de se colherem os dados.
O que é importante observar é que, tanto na teoria frequentista como na bayesiana, um
parâmetro qualquer, como µ, no exemplo acima, é considerado fixo. O que se faz no enfoque
bayesiano é caracterizar a incerteza sobre esse parâmetro por meio de uma distribuição de
probabilidades.
Após obtidos os dados, obtemos a função de verossimilhança, que incorpora a informação
sobre θ fornecida pelos dados. Finalmente, obtemos a distribuição a posteriori de θ, dada a
amostra observada. Um estimador de θ pode ser tomado, por exemplo, como a média ou a moda
dessa distribuição a posteriori.
Vimos no Capítulo 5 que o teorema de Bayes pode ser usado para atualizar probabilidades de
um evento. Mas o teorema também pode ser utilizado para obter informação sobre um parâmetro
desconhecido de um modelo probabilístico, como o binomial ou normal, por exemplo.
Chamemos de θ um tal parâmetro, suposto desconhecido, e para o qual tenhamos alguma
informação anterior, consubstanciada numa distribuição de probabilidades p(θ), chamada
distribuição a priori de θ. Vamos supor, por ser mais simples, que θ tenha os valores θ1, θ2, ..., θr,
com probabilidades a priori P(θ = θi) = p(θi), i = 1, 2, ..., r. Chamemos de y a nova informação
sobre θ, que também é obtida de um modelo discreto. Então o Teorema de Bayes pode ser escrito
(11.47)
Aqui, as verossimilhanças são P(y|θ1), ..., P(y|θr), e as probabilidades a posteriori
determinadas pelo teorema de Bayes são P(θ1|y), ..., P(θr|y). Obtida essa distribuição a posteriori
de θ, dada a nova informação y, podemos por exemplo estimar θ como a média dessa distribuição
ou a moda (o valor que maximiza P(θ|y)).
Vamos considerar uma aplicação do Teorema de Bayes a um exemplo simples de
mercado de ações. Chamemos de y o rendimento do IBOVESPA (Índice da Bolsa de Valores de
São Paulo), em porcentagem, por período (mês, por exemplo). Suponha que estejamos
interessados somente se o rendimento for positivo (y > 0) ou negativo (y < 0). Designando por θ
o “estado do mercado”, vamos considerar apenas dois estados, mercado em alta (θ1) ou mercado
em baixa (θ2). Suponha que se tenha a seguinte informação prévia (ou a priori) sobre as
probabilidades de θ1 e θ2:
Exemplo 11.18
priori
θ1
θ2
p(θ)
3/5
2/5
Então, as probabilidades a priori dos estados são p(θ1) = P(θ = θ1) = 3/5 e p(θ2) =
P(θ = θ2) = 2/5. As verossimilhanças são dadas aqui por
para θ = θ1, θ2, que denotaremos genericamente por p(y|θ). Essas verossimilhanças são supostas
conhecidas no Teorema de Bayes e vamos supor que em nosso caso são dadas na tabela abaixo.
p(y|θ)
yθ
θ1
θ2
y>0
2/3
1/3
y<0
1/3
2/3
Ou seja, temos que
Podemos calcular as probabilidades conjuntas p(y,θ), ou seja,
p(y,θ) = p(θ)p(y|θ),
obtendo-se a tabela abaixo.
p(y, θ)
yθ
θ1
θ2
p(y)
y>0
6/15
2/15
8/15
y<0
3/15
4/15
7/15
p(θ)
9/15
6/15
1
Por exemplo,
O Teorema de Bayes, dado pela Fórmula (11.47), fornece as probabilidades a posteriori de θ1
e θ2, dado o valor observado de y:
(11.48)
Para calcular (11.48) precisamos calcular p(y), que são chamadas probabilidades marginais
preditoras ou simplesmente previsões. Usando o mesmo argumento que deu origem a (5.14),
podemos escrever
Em nosso caso,
Do mesmo modo,
P(y < 0) = P(θ1)P(y < 0|θ1) + P(θ2)P(y < 0|θ2) = 7/15 ,
e teremos a tabela a seguir:
y
p(y)
y>0
8/15
y<0
7/15
Vemos que essa é a mesma distribuição marginal de y, dada na tabela que mostra a
distribuição conjunta de y e θ.
Então, por (11.48),
De modo análogo, obtemos
Temos, então, as probabilidades condicionais de alta e baixa, dada a informação de que o
retorno é positivo ou negativo:
p(θ| y)
yθ
θ1
θ2
y>0
3/4
1/4
y<0
3/7
4/7
Podemos, por exemplo, “estimar” θ (alta ou baixa) por θ1 (mercado em alta) se y > 0, já que
P(θ = θ1|y > 0) = 3/4 e “estimar” θ por θ2 (mercado em baixa) se y < 0, pois P(θ = θ2|y < 0) = 4/7.
Ou seja, tomamos o valor máximo da probabilidade a posteriori, dada a informação sobre o
rendimento.
Esse é um exemplo do que se chama de modelo estático. Poderíamos considerar um modelo
dinâmico, supondo-se que esse muda de período para período (de dia para dia ou de mês para
mês etc.).
11.9 Exemplos Computacionais
11.9.1 Simulando Erros Padrões
Na Seção 11.7, definimos o que seja o erro padrão de um estimador T de um parâmetro θ,
baseado numa AAS de uma população rotulada pela v.a. X. Vimos, em particular, que o erro
padrão da média amostral X é dado por (11.42) e esse pode ser estimado por (11.44), ou seja,
O erro padrão de um estimador é fundamental para avaliarmos quão bom ele é. Simplesmente
calcular T, ou saber que ele é não viesado, não é suficiente: é necessário calcular sua
variabilidade.
Mas, na maioria das situações, não podemos obter uma estimativa do erro padrão de um
estimador. Considere, por exemplo, a mediana de uma amostra,
md = med(X1, ..., Xn). (11.49)
Pode não ser fácil calcular a Var(md) e, consequentemente, o erro padrão de md. Se
admitirmos que a aproximação (11.18) é razoável, então teremos
e poderemos, novamente, estimar σ por S e obter
Mas, se tivermos amostras não muito grandes, a aproximação pode não ser adequada.
Felizmente, com o progresso de métodos computacionais usando intensivamente
computadores cada vez mais rápidos e com capacidade cada vez maior de lidar com conjuntos
grandes de dados, o cálculo de erros padrões, vieses etc., pode ser feito sem recorrer a uma
teoria, que muitas vezes pode ser muito complicada ou simplesmente não existir.
Um desses métodos é chamado bootstrap, introduzido por B. Efrom, em 1979. Os livros de
Efrom e Tibshirani (1993) e Davison e Hinkley (1997) são referências importantes para aqueles
que quiserem se aprofundar no assunto.
A ideia básica do método bootstrap é reamostrar o conjunto disponível de dados para estimar
o parâmetro θ, com o fim de criar dados replicados. A partir dessas replicações, podemos avaliar
a variabilidade de um estimador proposto para θ, sem recorrer a cálculos analíticos.
Vamos ilustrar o método com um exemplo.
Suponha que temos os dados amostrais x = (x1, x2, ..., xn) e queremos estimar a
mediana populacional, Md, por meio da mediana amostral md(x) = med(x1, ..., xn).
Vamos escolher uma AAS (portanto, com reposição) de tamanho n dos dados. Tal amostra é
chamada uma amostra bootstrap e denotada por x* = (x*1, ..., x*n).
Por exemplo, suponha que x = (x1, x2, x3, x4, x5). Poderemos obter, por exemplo, x* = (x4, x3, x3,
x1, x2).
Suponha, agora, que geremos B tais amostras independentes, denotadas x*1, ..., x*B. Para cada
amostra bootstrap, geramos uma réplica bootstrap do estimador proposto, ou seja, de md(x),
obtendo-se
Exemplo 11.19
md(x*1), md(x*2), ..., md(x*B). (11.50)
Definimos o estimador bootstrap do erro padrão de md(x) como
(11.51)
com
(11.52)
Ou seja, o estimador bootstrap do erro padrão da mediana amostral é o desvio padrão amostral
do conjunto (11.50). Na Figura 11.5, temos representado o esquema do método.
Vamos ilustrar o método com um exemplo numérico simples. Suponha que n = 5 e a amostra é
x = (2, 5, 3, 4, 6). Vamos considerar B = 5 amostras bootstrap de x. Como gerar tais amostras?
Primeiramente, geramos cinco números aleatórios i1, ..., i5 dentre os cinco números inteiros 1, 2,
3, 4, 5 e consideramos a amostra bootstrap x* = (xi1, ..., xi5). Repetimos esse procedimento cinco
vezes. Podemos usar a Tabela VII para gerar esses NA, como já aprendemos. Considere, por
exemplo, as cinco primeiras linhas e, começando do canto esquerdo, prossiga em cada linha até
obter cinco dígitos entre 1 e 5, inclusive; note que pode haver repetições! Obtemos a Tabela
11.2.
Figura 11.5 Procedimento
bootstrap para calcular o erro padrão da mediana amostral.
Tabela 11.2 Procedimento
bootstrap.
NA
Amostra bootstrap
md(x*)
x(x*)
1,2,2,5,1
(2,5,5,6,2)
5,0
4,0
4,4,4,3,2
(4,4,4,3,5)
4,0
4,0
5,4,5,5,5
(6,4,6,6,6)
6,0
5,6
5,1,1,5,5
(6,2,2,6,6)
6,0
4,4
2,5,4,5,3
(5,6,4,6,3)
5,0
4,8
Por exemplo, obtidos os NA 1, 2, 2, 5, 1, teremos a amostra bootstrap (x1, x2, x2, x5, x1) = (2, 5,
5, 6, 2), para a qual a mediana amostral é 5. Segue-se que
e
Se usarmos a aproximação (11.18), calculamos a variância da amostra original, obtendo-se S2
= 2,5, donde
Levando-se em conta o tamanho da amostra, a discrepância entre os
dois valores não é grande.
Veja a página do livro para aprender como usar o R para obter amostra bootstrap e calcular o
erro padrão correspodente.
Na Tabela 11.2, calculamos, também, para cada amostra bootstrap, a média
amostral, x. Obtemos, usando (11.51),
Exemplo 11.20
e usando a fórmula (11.44),
logo o valor obtido pelo método bootstrap está bastante próximo do valor calculado pela fórmula
obtida de maneira analítica. Obviamente, em situações nas quais há uma fórmula disponível, não
há necessidade de se usar bootstrap.
A questão que se apresenta é: qual deve ser o valor de B, ou seja, quantas amostras bootstrap
devemos gerar para estimar erros padrões de estimadores? A experiência indica que um valor
razoável é B = 200.
No caso geral de um estimador = T(x), o algoritmo bootstrap para estimar o erro padrão de
é o seguinte:
[1] Selecione B amostras bootstrap independentes x*1, ..., x*B, cada uma consistindo de n
valores selecionados com reposição de x. Tome B ≈ 200.
[2] Para cada amostra bootstrap x*B calcule a réplica bootstrap
[3] O erro padrão de é estimado pelo desvio padrão das B réplicas:
(11.53)
com
(11.54)
No exemplo acima, notamos que um intervalo de confiança aproximado para a mediana
populacional Md, com coeficiente de confiança 95%, seria
No exemplo dado, para efeito de ilustração do método bootstrap, tomamos uma amostra
pequena (n = 5) e poucas amostras bootstrap (B = 5). Para amostras maiores e B na ordem de
200 deveremos fazer um pequeno programa, em alguma linguagem (como o Visual Basic, S,
Fortram, C etc.), que gere as amostras bootstrap, e calcular o estimador dado por (11.53). Isso
implica, em particular, gerar, para cada amostra bootstrap, n números aleatórios. Como já vimos,
não é prático usar uma tabela de NA nessa situação; devemos usar alguma rotina de computador.
11.10 Problemas Suplementares
22. Um pesquisador está em dúvida sobre duas possíveis estatísticas, t e t′, para serem usadas como estimadores de um parâmetro
θ. Assim, ele decidiu usar simulação para uma situação hipotética, procurando encontrar pistas que o ajudassem a decidir qual o
melhor estimador. Partindo de uma população fictícia, onde θ = 10, ele retirou 1.000 amostras de 20 elementos, e para cada
amostra calculou o valor das estatísticas t e t′. Em seguida, construiu a distribuição de frequências, segundo o quadro abaixo.
Classes
% de t
% de t′
5
7
10
5
7
9
20
30
9
11
40
35
11
13
13
15
20
10
25
5
(a) Verifique as propriedades de t e t′ como estimadores de θ.
(b) Qual dos dois você adotaria? Por quê?
23. De experiências passadas, sabe-se que o desvio padrão da altura de crianças de 5ª série do 1º grau é 5 cm.
(a) Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. Qual o intervalo de confiança de 95% para a
média populacional?
(b) Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 tenha 95% de confiança?
24. Um pesquisador está estudando a resistência de um determinado material sob determinadas condições. Ele sabe que essa
variável é normalmente distribuída com desvio padrão de duas unidades.
(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o
intervalo de confiança para a resistência média com um coeficiente de confiança γ = 0,90.
(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência média, não seja superior a
0,01 unidade com probabilidade 0,90?
(c) Suponha que no item (a) não fosse conhecido o desvio padrão. Como você procederia para determinar o intervalo de
confiança, e que suposições você faria para isso? Veja também o Problema 44.
25. Estime o salário médio dos empregados de uma indústria têxtil, sabendo-se que uma amostra de 100 indivíduos apresentou os
seguintes resultados:
Salário
Frequência
150,00
250,00
8
250,00
350,00
22
350,00
450,00
38
450,00
550,00
28
550,00
650,00
650,00
750,00
2
2
Use γ = 0,95.
26. Suponha que as vendas de um produto satisfaçam ao modelo
Vt = α + βt + at,
em que at é a variável aleatória satisfazendo as suposições da Seção 11.4, e o tempo é dado em meses. Suponha que os valores
das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo. Obtenha as previsões para os meses de
novembro e dezembro do ano 1 e para julho e agosto do ano 2.
t
1
2
3
4
5
6
7
8
9
10
yt
5,0
6,7
6,0
8,7
6,2
8,6
11,0
11,9
10,6
10,8
27. Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto,
colheu-se uma amostra aleatória de 300 indivíduos, dos quais 180 preferiam esse produto.
(a) Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo; tome γ = 0,90.
(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0,001.
(c) É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 0,0005 com
probabilidade 0,95? Caso contrário, determine o que deve ser feito.
28. Uma amostra de 10.000 itens de um lote de produção foi inspecionada, e o número de defeitos por item foi registrado na
tabela abaixo.
Nº de defeitos
0
1
2
3
4
Quantidade de peças
6.000
3.200
600
150
50
(a) Determine os limites de confiança para a proporção de itens defeituosos na população, com coeficiente de confiança de
98%. Use (11.40).
(b) Mesmo problema, usando (11.41).
29. Antes de uma eleição em que existiam dois candidatos, A e B, foi feita uma pesquisa com 400 eleitores escolhidos ao acaso, e
verificou-se que 208 deles pretendiam votar no candidato A. Construa um intervalo de confiança, com c.c. γ = 0,95, para a
porcentagem de eleitores favoráveis ao candidato A na época das eleições.
30. Encontre o c.c. de um intervalo de confiança para p, se n = 100, = 0,6 e a amplitude do intervalo deve ser igual a 0,090.
31. Usando os resultados do Problema 32 do Capítulo 10, mostre que o intervalo de confiança para a diferença das médias
populacionais, com variâncias conhecidas, é dado por
32. Estão sendo estudados dois processos para conservar alimentos, cuja principal variável de interesse é o tempo de duração
destes. No processo A, o tempo X de duração segue a distribuição N(µA, 100), e no processo B o tempo Y obedece à distribuição
N(µB, 100). Sorteiam-se duas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50, e a
de B, com 25 latas, duração média igual a 60.
(a) Construa um IC para µA e µB, separadamente.
(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC para a diferença µA - µB.
Caso o zero pertença ao intervalo, pode-se concluir que existe evidência de igualdade dos processos. Qual seria sua resposta?
33. Usando (11.55), prove que X é um estimador consistente para a média µ de uma população com variância σ2.
34. Prove (11.56), usando (11.55).
35. Usando (11.57), resolva este problema: suponha que a proporção de fumantes de uma população é p, desconhecida.
Queremos determinar p com um erro de, no máximo, 0,05. Qual deve ser o tamanho da amostra n, a ser escolhida com reposição,
se γ = 0,95?
36. Se a distribuição de X depende de mais de um parâmetro, digamos θ1 e θ2, então L(θ1, θ2; X1, ..., Xn), e para maximizar L
basta derivar L em relação a θ1 e θ2 (em algumas situações, derivar L não conduz ao EMV; veja o Problema 43). Considere,
então, X ∼ N(µ, σ2). Determine os EMV de µ e σ2, considerando ∂ℓ/∂µ = 0 e ∂ℓ/∂σ2 = 0, em que ℓ = log L.
37. Suponha que X N(µ, σ2), µ e σ2 desconhecidos. Uma amostra de tamanho n = 600 forneceu X = 10,3 e S2 = 1,96. Supondo
que a v.a.
seja aproximadamente
normal, obtenha um IC para µ, com c.c. γ = 0,95 (se n for pequeno, Z não é aproximadamente normal; ver Capítulo 12).
38. Para estimar a média µ desconhecida de uma população, foram propostos dois estimadores não viesados independentes, µ̂1 e
µ̂2, de tal sorte que Var(µ̂1) = Var(µ̂2)/3. Considere os seguintes estimadores ponderados de µ:
(a) T1 = (µ̂1 + µ̂2)/2;
(b) T2 = (4µ̂1 + µ̂2)/5;
(c) T3 = µ̂1.
(i) Quais estimadores são não viesados?
(ii) Dispor esses estimadores em ordem crescente de eficiência.
39. Obtenha o estimador de λ na Poisson, pelo método dos momentos.
40. Considere o CD-Notas e retire uma amostra com reposição de tamanho n = 10. Determine o erro padrão estimado pelo
método bootstrap das estatísticas (use B = 15, por exemplo):
(a) md = mediana da amostra;
(b) dm = desvio médio da amostra;
(c) dam = desvio absoluto mediano.
41. Prove (11.15).
42. Calcule o EQM (erro quadrático médio), dado por (11.20), para os estimadores S2 e 2, no caso de população normal.
Compare esses dois EQM. Qual estimador você escolheria, se o critério de escolha é ter o menor EQM?
43. Considere a v.a. discreta X com função de probabilidade dada por:
em que θ > 0 é um número inteiro desconhecido. Uma AAS X1, ..., Xn de tamanho n é selecionada e considera-se o seguinte
estimador de θ:
(a) Mostre que T é um estimador não viesado de θ e obtenha sua variância. T é um estimador consistente de θ? Por quê?
(b) Se n = 6 e a amostra observada for x1 = x2 = x3 = x4 = x5 = 1 e x6 = 2, qual é a estimativa de θ? Esta estimativa é um valor
plausível para θ? Sugira outro estimador para θ que somente conduza a valores plausíveis de θ.
[Observação:
k inteiro.]
11.11 Complementos Metodológicos
1. Desigualdade de Chebyshev. Seja X uma v.a. com E(X) = µ e Var (X) = σ2, finita. Então, para todo k > o, a seguinte
desigualdade é válida:
(11.55)
Esta desigualdade é importante em muitas aplicações e, em particular, para provar o resultado (11.56) a seguir.
2. Lei dos Grandes Número. Consideremos n provas de Bernoulli com p = P (sucesso), e seja k o número de sucessos nas n
provas. A Lei dos Grandes Números (LGN) afirma que, para n grande, a proporção de sucessos k/n estará próxima de p = P
(sucesso).Formalmente, para todo e > 0,
(11.56)
Prove (11.56), usando (11.55).
3. A LGN pode ser usada de mandeira útil na seguinte situação. Suponha que queiramos sabe rquantas repetições de um
experimento de Bernoulli devemos realizar a fim de que k/n difira de p de menos de e, com probabilidade maior ou igual a y. Ou
seja, queremos determinar n, tal que
De (11.56), temos
logo, comparando, temos que n deve satisfazer
do que segue
em que
Como não conhecemos p, usando o fato de p (1– p) p < 1/4; logo basta tomar n tal que
(11.57)
4. Estimação numa distribuição uniforme. Suponha que X tenha uma distribuição uniforme no intervalo (0, θ), onde θ é
desconhecido. Uma amostra de n observações X1, ..., Xn é escolhida. Sabemos que E(X) = E(Xi) = θ/2, para todo i, e Var(X) =
Var(Xi) = θ2/12, para todo i. Logo, se calcularmos a média amostral X, essa deve estar próxima de θ/2 e podemos estimar θ por T1
= 2X.
(a) Calcule E(T1).
(b) Calcule EQM(T1) = E(T1 - θ)2.
(c) T1 é consistente? Por quê?
5. Continuação de 4. Outra maneira de estimar θ na uniforme é a seguinte. Considere M = max(X1, ..., Xn) = x(n), ou seja, o maior
valor da amostra. Para qualquer valor de θ, M < θ e M se aproxima de θ quando n aumenta. Tome M como estimador de θ, o que
é bastante razoável. Na realidade, veremos, em 9, que M = MV. Usando (10.10) a densidade de M é dada por
(11.58)
(a) Mostre que
logo M é viesado. Calcule o viés VM(θ) de M e mostre que esse viés tende a zero, quando n →
∞.
(b) Considere o estimador
segue-se que T2 é não viesado para θ, ou seja, E(T2) = θ. Calcule o erro quadrático
médio de T2, EQM(T2) = E(T2 - θ)2.
(c) T2 é consistente? Por quê?
6. Usando 4 e 5, mostre que Var(T2) = [3/(n + 2)] Var(T1). Tome n = 1, 2, 10, 50, 100 e verifique qual a relação entre as duas
variâncias. Verifique que, para n grande, T2 = [(n + 1)/n]M é um estimador muito melhor do que T1 = 2X. Como T2 = (1 + 1/n)M,
vemos que, para n grande, T2 ≈ M. Portanto, para tamanhos de amostras grandes, o EMV é melhor do que 2X.
7. Suponha que n seja suficientemente grande para que o TLC se aplique e se possa aproximar a distribuição de X e de M por uma
distribuição normal.
(a) Calcule a média e variânça de T1, M e T2.
(b) Obtenha um I.C. (θ; 0,90) usando T1.
(c) Idem usando M.
(d) Idem usando T2.
[Sugestão: substitua na variânça de cada estimador, obtida em (a), o parâmetro θ, desconhecido, pelo seu estimador, para obter a
respectiva variânça estimada]
8. Foram gerados 1.000 valores de uma distribuição uniforme no intervalo (0, 5), ou seja, θ = 5. As seguintes estatísticas foram
obtidas:
Calcule T1, T2 e aplique o resultado de 7 para obter um intervalo de confiança para θ, com c.c. = 90%.
9. EMV na uniforme. Como
a densidade conjunta da amostra é
Segue-se que (θ|x1, ..., xn) = -n log θ e derivando e igualando a zero obteremos -n/θ = 0, ou seja, o EMV de θ seria ∞!
Evidentemente, essa não é a resposta. Na realidade, não podemos simplesmente derivar a verossimilhança (ou o logaritmo dela)
para obter o máximo, pois temos as restrições 0 ≤ xi ≤ θ, para todo i. Façamos o seguinte. Considere o gráfico da densidade
conjunta, ou da verossimilhança, como função de θ. Como devemos ter 0 ≤ xi ≤ θ, para todo i, o máximo M dos xi deve ser tal que
0 ≤ M ≤ θ, ou seja, obtemos o gráfico abaixo.
Ou seja, L(θ|x1, ..., xn) = 0, para θ ≤ M; logo, o máximo da verossimilhança é obtido para θ = M e portanto MV = M.
Esse exemplo mostra que nem sempre obteremos o EMV derivando-se a verossimilhança e igualando-a a zero.
10. Outro I.C. para p. Considere
Logo, com coeficiente de confiança γ, um intervalo de confiança
para p seria:
Daqui segue que ( - p)2 ≤ [p(1 - p)/n]zγ2. Resolva esta inequação para p e obtenha o I.C. Se
correspondente I.C.
= 0,3 e  = 0,95, obtenha o
Capítulo 12
Testes de Hipóteses
12.1 Introdução
Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o
de testar uma hipótese. Isto é, feita determinada afirmação sobre uma população, usualmente
sobre um parâmetro dessa, desejamos saber se os resultados experimentais provenientes de uma
amostra contrariam ou não tal afirmação. Muitas vezes, essa afirmação sobre a população é
derivada de teorias desenvolvidas no campo substantivo do conhecimento. A adequação ou não
dessa teoria ao universo real pode ser verificada ou refutada pela amostra. O objetivo do teste
estatístico de hipóteses é, então, fornecer uma metodologia que nos permita verificar se os dados
amostrais trazem evidências que apoiem ou não uma hipótese (estatística) formulada.
Neste capítulo, iremos introduzir o procedimento básico de teste de hipótese sobre um
parâmetro de uma população. A ideia central desse procedimento é a de supor verdadeira a
hipótese em questão e verificar se a amostra observada é “verossímil” nessas condições. No
capítulo seguinte, daremos alguns testes para comparação de parâmetros de duas populações.
12.2 Um Exemplo
Vamos introduzir a ideia de teste de uma hipótese por meio de um exemplo hipotético que,
partindo de uma situação simples, será gradualmente ampliado para atender à situação geral do
teste de hipóteses.
Uma indústria usa, como um dos componentes das máquinas que produz, um
parafuso importado, que deve satisfazer a algumas exigências. Uma dessas é a resistência à
tração. Esses parafusos são fabricados por alguns países, e as especificações técnicas variam de
país para país. Por exemplo, o catálogo do país A afirma que a resistência média à tração de seus
parafusos é de 145 kg, com desvio padrão de 12 kg. Já para o país B, a média é de 155 kg e
desvio padrão 20 kg.
Um lote desses parafusos, de origem desconhecida, será leiloado a um preço muito
convidativo. Para que a indústria saiba se faz ou não uma oferta, ela necessita saber qual país
produziu tais parafusos. O edital do leiloeiro afirma que, pouco antes do leilão, será divulgada a
resistência média x de uma amostra de 25 parafusos do lote. Qual regra de decisão deve ser usada
pela indústria para dizer se os parafusos são do país A ou B?
Uma resposta que ocorre imediatamente é a que considera como país produtor aquele para o
qual a média da amostra mais se aproximar da média da população. Assim, uma possível regra
de decisão seria:
Se x ≤ 150 (o ponto médio entre 145 e 155), diremos que os parafusos são do país A; caso
Exemplo 12.1
contrário, isto é, x > 150, são do país B.
Na Figura 12.1, ilustramos essa regra de decisão.
Figura 12.1 Regra
de decisão para o Exemplo 12.1.
Suponha que, no dia do leilão, fôssemos informados de que x = 148; de acordo com nossa
regra de decisão, diríamos que os parafusos são de origem A. Podemos estar enganados nessa
conclusão? Ou, em outras palavras, é possível que uma amostra de 25 parafusos de origem B
apresente média x = 148? Sim, é possível. Então, para melhor entendermos a regra de decisão
adotada, é interessante estudarmos os tipos de erros que podemos cometer e as respectivas
probabilidades.
Podemos cometer dois tipos de erros, e vamos numerá-los para facilitar a linguagem:
Erro de tipo I: dizer que os parafusos são de A quando na realidade são de B. Isso ocorre
quando uma amostra de 25 parafusos de B apresenta média x inferior ou igual a 150 kg.
Erro de tipo II: dizer que os parafusos são de B, quando na realidade eles são de A. Isso ocorre
quando uma amostra de 25 parafusos de A apresenta média x superior a 150 kg.
Para facilitar ainda mais, vamos definir duas hipóteses também numeradas:
H0: os parafusos são de origem B. Isso equivale a dizer que a resistência X de cada parafuso
segue uma distribuição com média µ = 155 e desvio padrão σ = 20.
H1: os parafusos são de A, isto é, a média µ = 145 e o desvio padrão σ = 12.
Finalmente, vamos indicar por RC a região correspondente aos valores menores que 150, ou
seja,
RC = {y ∈ ¡ | y ≤ 150}.
Com as notações indicadas acima, a probabilidade de se cometer cada um dos erros pode ser
escrita:
P(erro I) = P(X ∈ RC|H0 é verdadeira) = α
e
P(erro II) = P(X ∉ RC|H1 é verdadeira) = β.
Quando H0 for verdadeira, isto é, os parafusos forem de B, sabemos do TLC que X terá
distribuição aproximadamente normal, com média 155 e desvio padrão igual a
isto é
X ∼ N(155,16).
Denotando por Z a v.a. com distribuição N(0,1), temos
De modo análogo, quando H1 for a alternativa verdadeira, teremos que a v.a. X é tal que,
aproximadamente,
X ∼ N(145; 5,76).
Teremos, então,
Observando esses dois resultados, notamos que, com a regra de decisão adotada, estaremos
cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II. De certo modo, essa
regra de decisão privilegia a afirmação de que os parafusos são de A. No Quadro 12.1,
ilustramos as consequências que podem advir da regra de decisão adotada.
Quadro 12.1 Resumo
do teste H0:
µ = 155, H : µ = 145, com RC = ]-∞, 150].
1
Desse quadro, podemos notar que, se os parafusos forem realmente de B (segunda linha) e a
amostra tiver média superior a 150 (segunda coluna), diremos que são de B, e não cometeremos
erro algum. Por outro lado, se a média x for inferior a 150 (primeira coluna), devemos dizer que
são de A, e estaremos cometendo um erro cuja probabilidade nesse caso é de 10,56%. De modo
análogo, teremos uma interpretação para o caso de os parafusos serem realmente de A (primeira
linha).
Para cada regra de decisão adotada, isto é, se escolhermos um valor xc em vez de 150 no
Quadro 12.1, apenas as probabilidades α e β mudarão. Se xc for escolhido menor que 150,
notamos que α diminuirá e β aumentará. Logo, deve existir um ponto em que α seja igual a β, ou
seja, uma regra de decisão em que a probabilidade de errar contra A seja a mesma que errar
contra B. Mostre que esse ponto é xc = 148,75, e nesse caso α = β = 5,94%.
Do exposto acima constatamos que, escolhido um valor de xc, podemos achar as
probabilidades α e β de cometer cada tipo de erro. Mas também podemos proceder de modo
inverso: fixar um dos erros, digamos α, e encontrar a regra de decisão que irá corresponder à
probabilidade de erro de tipo I igual a α.
Por exemplo, fixemos α em 5%, e vejamos qual a regra de decisão correspondente. Temos
mas da transformação para a normal padrão sabemos que
ou seja, xc = 148,42. Então, a regra de decisão será:
Se x for inferior a 148,42, dizemos que o lote é de A; caso contrário, dizemos que é de B.
Com essa regra, a probabilidade do erro de tipo II será
Veja a ilustração na Figura 12.2.
Figura 12.2 Ilustração
dos erros de tipo I e II para o Exemplo 12.1.
Esse segundo tipo de procedimento é bastante utilizado, porque usualmente a decisão que
devemos tomar não é apenas entre duas possíveis populações. Os parafusos poderiam ser
produzidos por outros países além daqueles citados e, portanto, com outras características quanto
à resistência média. Suponha, ainda, que interessa à indústria fazer uma proposta apenas no caso
de o parafuso ser de origem B. Qual a regra de decisão que deve adotar?
A hipótese que nos interessa agora é:
H0: os parafusos são de origem B (µ = 155 e σ = 20).
Caso essa não seja a hipótese verdadeira, a alternativa é muito mais ampla e pode ser expressa
como:
H1: os parafusos não são de origem B (µ e σ desconhecidos).
Aqui não podemos especificar os parâmetros sob a hipótese alternativa H1, pois se não forem
de origem B, os parafusos podem ser de vários outros países, cada um com suas próprias
especificações. Alguns países podem ter técnicas mais sofisticadas de produção e, portanto,
produzir com resistência média superior a 155. Outros, como no exemplo dado, com resistência
menor. A especificação da hipótese alternativa depende muito do grau de informação que se tem
do problema. Por exemplo, vamos admitir que a indústria do país B para esse caso seja a mais
desenvolvida, e nenhum outro país possa produzir uma resistência média superior à dela. Então,
nossa hipótese alternativa seria mais explícita:
H1: os parafusos não são de origem B (µ < 155 e σ qualquer).
Isso significa que só iremos desconfiar de H0 se x for muito menor do que 155. Ou seja, a
nossa regra de decisão deverá ser semelhante à vista anteriormente. Como os parâmetros sob a
hipótese alternativa são muitos, a melhor solução para construir a regra de decisão é fixar α, a
probabilidade do erro de tipo I (rejeitar H0 quando ela for verdadeira). Se fixarmos novamente α
= 0,5, e nesse caso a regra de decisão depende apenas das informações de H0, a regra de decisão
será a mesma anterior:
Se x for superior a 148,42, diremos que o lote é de origem B; caso contrário, diremos que não
é de origem B.
Com essa regra de decisão e com a hipótese alternativa mais ampla, não podemos encontrar β,
pois não temos um único parâmetro µ como alternativa e nada sabemos sobre σ. Então, não
podemos controlar o erro de tipo II. As implicações dessa regra de decisão estão resumidas na
Figura 12.3 e no Quadro 12.2.
Figura 12.3 Teste
H0: µ = 155 vs H1: µ
Quadro 12.2 Resumo
< 155, com RC = ]–∞; 148,42].
do teste H0: µ = 155, H1: µ < 155, com RC = ]–∞, 148,42].
Podemos reescrever as hipóteses nessa situação da seguinte maneira:
H0: µ = 155
H1: µ < 155
O cálculo de β depende do valor de µ, que não é especificado. Mas podemos considerar a
seguinte e importante função.
Definição.
A função característica de operação (função CO) do teste acima é definida como
β(µ) = P(aceitar H0|µ) = P( X > 148,42|µ).
Ou seja, β(µ) é a probabilidade de aceitar H0, considerada como uma função de µ.
Usualmente, considera-se a função π(µ) = 1 - β(µ), que é a probabilidade de se rejeitar H0,
como função de µ. Essa função é chamada função poder do teste e será estudada abaixo com
certo detalhe. Nesses casos consideramos que σ é o mesmo para todos os valores de µ.
Admitamos, agora, que não exista razão alguma para acreditarmos que a resistência média dos
parafusos de B seja maior ou menor do que a de outros países. Isso irá nos levar a duvidar que os
parafusos não são de B, se a média observada for muito maior ou muito menor do que 155. Esta
situação corresponde à seguinte hipótese alternativa:
H1: os parafusos não são de origem B (µ ≠ 155).
Aqui, a regra de decisão deverá indicar dois pontos xc e xc , tais que:
Se x estiver entre xc e xc , diremos que os parafusos são de origem B; se x estiver fora do
intervalo, diremos que não são de origem B.
Fixado a, a probabilidade do erro I, existirão muitos valores que satisfazem a essa condição.
Daremos preferência àquelas soluções xc e xc , simétricas em relação à média. Veja a Figura
12.4.
Voltando ao nosso problema, e fixado α em 5%, temos
1
1
2
1
2
2
e daqui encontramos
e
Figura 12.4 Teste
H0:
µ = 155 vs H : µ ≠ 155.
1
Portanto, nesse caso, a região de rejeição da hipótese H0 é (veja o Quadro 12.3)
Do apresentado nesta seção, vemos que, dependendo do grau de informação que se tem do
problema, podemos ter regras de decisão unilaterais ou bilaterais. Na seção seguinte, iremos dar
os passos para a construção de um teste de hipótese.
Quadro 12.3 Resumo
do teste H0:
µ = 155, H : µ ≠ 155, com RC = ]–∞, 147,16]  [162,84, +∞[.
1
Problemas
1. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos proceder do seguinte modo:
(i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a altura média deles;
(ii) se essa altura média for superior a 176, diremos que são descendentes de B; caso contrário, são descendentes de A.
Os parâmetros das alturas das duas civilizações são:
A: µ
= 175 e σ = 10;
B: µ = 177 e σ = 10.
Definamos: Erro de tipo I — dizer que os habitantes da ilha são descendentes de B quando, na realidade, são de A.
Definamos: Erro de tipo II — dizer que são de A quando, na realidade, são de B.
(a) Qual a probabilidade do erro de tipo I? E do erro de tipo II?
(b) Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro de tipo I em 5%? Qual a probabilidade do erro
de tipo II, nesse caso?
(c) Se σA
= 5, como ficariam as respostas de (b)?
(d) Quais as probabilidades do erro de tipo II, nas condições da questão (b), se a média µB
= 178? E µB = 180? E µB = 181?
Coloque num gráfico os pares (µB, P(erro II|µB)).
2. Fazendo o teste
H0: µ = 1.150 (σ = 150) contra H1: µ = 1.200 (σ = 200),
en
= 100, estabeleceu-se a seguinte região crítica:
RC = [1.170, +∞[.
(a) Qual a probabilidade α de rejeitar H0 quando verdadeira?
(b) Qual a probabilidade β de aceitar H0 quando H1 é verdadeira?
(c) Qual deve ser a região crítica para que α = β?
3. Nas situações abaixo, escolha como hipótese nula, H0, aquela que para você leva a um erro de tipo I mais importante.
Descreva quais os dois erros em cada caso.
(a) O trabalho de um operador de radar é detectar aeronaves inimigas. Quando surge alguma coisa estranha na tela, ele deve
decidir entre as hipóteses:
1. está começando um ataque;
2. tudo bem, apenas uma leve interferência.
(b) Num júri, um indivíduo está sendo julgado por um crime. As hipóteses sujeitas ao júri são:
1. o acusado é inocente;
2. o acusado é culpado.
(c) Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele irá conduzir uma pesquisa de laboratório para
verificar a veracidade da afirmação. De acordo com o resultado, ele lançará ou não a vacina no mercado. As hipóteses que
pode testar são:
1. a vacina é eficaz;
2. a vacina não é eficaz.
4. Se, ao lançarmos três vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipótese de que a moeda é “honesta”.
Quais as probabilidades de erro de tipo I e erro de tipo II, se p
= 2/3?
5. A variável X, custo de manutenção de um tear, pode ser considerada como tendo distribuição normal de média
µ e desvio
padrão 20 unidades. Os valores possíveis de µ podem ser 200 ou 210. Para verificar qual dos dois valores é o mais provável,
usar-se-á uma amostra de 25 teares. Defina:
(a) Uma hipótese a ser testada.
(b) Uma regra de decisão e encontre as probabilidades dos erros de tipo I e II.
12.3 Procedimento Geral do Teste de Hipóteses
A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocada do
seguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre
determinado parâmetro θ dessa população. Por exemplo, afirmamos que o verdadeiro valor de θ
é θ0. Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se
comprovar ou não tal hipótese.
Como já vimos anteriormente, iniciamos nossa análise explicitando claramente qual a hipótese
que estamos colocando à prova e a chamamos de hipótese nula, e escrevemos
H0: θ = θ0.
Em seguida, convém explicitar também a hipótese que será considerada aceitável, caso H0 seja
rejeitada. A essa hipótese chamamos de hipótese alternativa, e a sua caracterização estatística irá
depender do grau de conhecimento que se tem do problema estudado. A alternativa mais geral
seria
H1: θ ≠ θ0.
Poderíamos, ainda, ter alternativas da forma
H1: θ < θ0 ou H1: θ > θ0,
dependendo das informações que o problema traz.
Qualquer que seja a decisão tomada, vimos que estamos sujeitos a cometer erros. Para facilitar
a linguagem, introduzimos as definições:
Erro de tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamamos de α a
probabilidade de cometer esse erro, isto é,
α = P(erro do tipo I) = P(rejeitar H0|H0 é verdadeira).
Erro de tipo II: não rejeitar H0 quando H0 é falsa. A probabilidade de cometer esse erro é
denotada por β, logo
β = P(erro do tipo II) = P(não rejeitar H0|H0 é falsa).
O objetivo do teste de hipóteses é dizer, usando uma estatística θ, se a hipótese H0 é ou não
aceitável. Operacionalmente, essa decisão é tomada por meio da consideração de uma região
crítica RC. Caso o valor observado da estatística pertença a essa região, rejeitamos H0; caso
contrário, não rejeitamos H0. Esta região é construída de modo que P(θ ∈ RC|H0 é verdadeira)
seja igual a α, fixado a priori. RC recebe o nome de região crítica ou região de rejeição do teste.
Um fato importante a ressaltar é que a região crítica é sempre construída sob a hipótese de H0 ser
verdadeira. A determinação do valor de β já é mais difícil, pois usualmente não especificamos
valores fixos para o parâmetro sob a hipótese alternativa. Mais adiante trataremos dessa situação,
ao considerarmos o poder de um teste.
A probabilidade α de se cometer um erro de tipo I (ou de primeira espécie) é um valor
arbitrário e recebe o nome de nível de significância do teste. O resultado da amostra é tanto mais
significante para rejeitar H0 quanto menor for esse nível α. Ou seja, quanto menor for α, menor é
a probabilidade de se obter uma amostra com estatística pertencente à região crítica, sendo pouco
verossímil a obtenção de uma amostra da população para a qual H0 seja verdadeira. Usualmente,
o valor de α é fixado em 5%, 1% ou 0,1%.
A fixação do valor de a envolve uma questionável arbitrariedade. Neste sentido, há um modo
alternativo de se proceder, que será considerado na Seção 12.8.
12.4 Passos para a Construção de um Teste de Hipóteses
Vimos, nas seções anteriores, o procedimento que se deve usar para realizar um teste de
hipóteses. Daremos abaixo uma sequência que pode ser usada sistematicamente para qualquer
teste de hipóteses.
Passo 1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alternativa H1.
Use a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usada para testar a hipótese H0. Obter as propriedades dessa estatística
(distribuição, média, desvio padrão).
Passo 3. Fixe a probabilidade α de cometer o erro de tipo I e use este valor para construir a
região crítica (regra de decisão). Lembre que essa região é construída para a estatística definida
no passo 2, usando os valores do parâmetro hipotetizados por H0.
Passo 4. Use as observações da amostra para calcular o valor da estatística do teste.
Passo 5. Se o valor da estatística calculado com os dados da amostra não pertencer à região
crítica, não rejeite H0; caso contrário, rejeite H0.
Procuraremos, sempre que fizermos teste de hipóteses, distinguir bem esses cinco passos.
Finalmente um comentário sobre H0 e o erro de tipo I. Devemos tomar como H0 aquela hipótese,
que, rejeitada, conduza a um erro de tipo I mais importante de evitar. Vejamos um exemplo
Passo 2.
devido a Neyman (1978). Suponha um experimento para se determinar se um produto A é ou não
cancerígeno. Após realizado o teste, podemos concluir: (i) A é cancerígeno ou (ii) A não é
cancerígeno. Cada uma dessas conclusões pode estar errada e temos os dois tipos de erro já
mencionados, dependendo de qual hipótese seja H0. Do ponto de vista do usuário do produto, a
hipótese a ser testada deve ser
H0: A é cancerígeno,
pois a probabilidade de erro na rejeição dessa hipótese, se ela for verdadeira, deve ser um valor
muito pequeno. Outros exemplos estão contidos no Problema 3.
12.5 Testes sobre a Média de uma População com Variância
Conhecida
Vejamos, agora, uma aplicação dos cinco passos definidos na seção anterior, para testar a
hipótese de que a média de uma população µ seja igual a um número fixado µ0, supondo-se a
variância σ2 dessa população conhecida.
Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média µ e variância sempre igual a 400 g2. A máquina foi regulada para
µ = 500 g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se a
produção está sob controle, isto é, se µ = 500 g ou não. Se uma dessas amostras apresentasse
uma média x = 492 g, você pararia ou não a produção para regular a máquina?
Vejamos como testar essa hipótese.
Passo 1. Indiquemos por X o peso de cada pacote; então, X ∼ N(µ, 400). E as hipóteses que nos
interessam são:
H0: µ = 500 g,
H1: µ ≠ 500 g,
pois a máquina pode desregular para mais ou para menos.
Passo 2. Pela afirmação do problema, σ2 = 400 será sempre a mesma; logo, para todo µ, a média X
de 16 pacotes terá distribuição N(µ, 400/16), de modo que o desvio padrão (ou erro padrão) de X
é σx = 5. Em particular, se H0 for verdadeira, X ∼ N(500,25).
Exemplo 12.2
Vamos fixar α = 1%; pela hipótese alternativa, vemos que H0 deve ser rejeitada quando X
for muito pequena ou muito grande (dizemos que temos um teste bilateral). Portanto, nossa
região crítica será como a da Figura 12.5.
Passo 3.
Figura 12.5 Região
crítica para o teste H0: µ = 500 vs H1: µ
≠ 500 do Exemplo 12.2.
Da tabela da curva normal padronizada obtemos que
Segue-se que a região crítica é
Passo 4.
A informação pertinente da amostra é sua média, que nesse caso particular é x0 = 492.
Passo 5. Como x0 não pertence à região crítica, nossa conclusão será não rejeitar H0. Ou seja, o
desvio da média da amostra para a média proposta por H0 pode ser considerado como devido
apenas ao sorteio aleatório dos pacotes.
A situação analisada não é muito realista: conhecer a variância da população. O caso mais
geral, de média e variância desconhecidas, será tratado na Seção 12.10.
Problemas
6. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão 2 kg. A
diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo
per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomandose uma amostra de 25 indivíduos, e verificou-se que
em que Xi representa o consumo mensal do i-ésimo
indivíduo da amostra.
(a) Construa um teste de hipótese adequado, utilizando
tomada pela diretoria.
α = 0,05, e com base na amostra colhida determine a decisão a ser
(b) Qual a probabilidade β de se tomar uma decisão errada se, na realidade, a média populacional for µ
(c) Se a diretoria tivesse fixado α
= 7,8 kg?
= 0,01, a decisão seria a mesma? (Justifique sua resposta.)
(d) Se o desvio da população fosse 4 kg, qual seria a decisão, com α = 0,05? (Justifique sua resposta.)
7. A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de
trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20
horas/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e
medido o número de horas/homens perdidas por acidente, que foi de 50 horas. Você diria, no nível de 5%, que há evidência
de melhoria?
8. O salário médio dos empregados das indústrias siderúrgicas de um país é de 2,5 salários mínimos, com um desvio padrão de
0,5 salários mínimos. Uma indústria é escolhida ao acaso e desta é escolhida uma amostra de 49 empregados, resultando um
salário médio de 2,3 salários mínimos. Podemos afirmar que esta indústria paga salários inferiores à média nacional, com o
nível de 5%?
9. Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresenta-se abaixo de 23 mg
por cigarro. Um laboratório realiza 6 análises desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina
se distribui normalmente, com variância igual a 4,86 mg2. Pode-se aceitar, no nível de 10%, a afirmação do fabricante?
12.6 Teste para Proporção
Vamos usar os passos descritos na Seção 12.4 para mostrar a construção do teste para
proporções.
Temos uma população e uma hipótese sobre a proporção p de indivíduos portadores de
certa característica. Esta hipótese afirma que essa proporção é igual a certo valor p0. Então,
H0: p = p0.
O problema fornece informações sobre a alternativa, que pode ter uma das três formas abaixo:
(i) H1: p ≠ p0 (teste bilateral);
Passo 1.
(ii) H1: p > p0 (teste unilateral à direita); e
(iii) H1: p < p0 (teste unilateral à esquerda).
Como vimos na Seção 10.9, a estatística , a proporção amostral, tem uma distribuição
aproximadamente normal, a saber,
Passo 2.
Fixado um valor de α, devemos construir a região crítica para p, sob a suposição de que o
parâmetro definido por H0 seja o verdadeiro. Ou seja, podemos escrever
Passo 3.
e, consequentemente, teremos a região crítica da Figura 12.6, supondo a alternativa (i) acima;
sendo que
e Z(p) é o p-quantil da normal padrão.
O quarto e quinto passos irão depender da amostra, e o procedimento está descrito no exemplo
seguinte.
Figura 12.6 Região
crítica para o teste H0: p
=p
0
vs H1: p ≠ p0.
Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu
programa especial da última segunda-feira. Uma rede competidora deseja contestar essa
afirmação e decide usar uma amostra de 200 famílias para um teste. Qual deve ser o
procedimento adotado para avaliar a veracidade da afirmação da estação? No passo 4 a seguir
daremos o resultado da amostra, pois é importante ficar claro que esse resultado não deve
influenciar a escolha da alternativa.
Exemplo 12.3
Vamos colocar à prova a afirmação da estação, isto é,
H0: p = 0,60.
Sabemos que, se essa hipótese não for verdadeira, espera-se uma proporção menor, nunca
maior. A estação divulgaria o máximo possível. Isso nos leva à hipótese alternativa
H1: p < 0,60.
Passo 2. A estatística a ser usada é , a proporção de 200 famílias que assistiram ao programa na
última segunda-feira, e da teoria sabemos que
Passo 1.
Fixaremos α = 0,05 e sob a suposição que H0 seja verdadeira,
∼ N(0,60, 0,24/200),
o que irá fornecer a região crítica (veja a Figura 12.7)
RC = { ∈ ¡ | ≤ 0,544}.
Passo 3.
Figura 12.7 Região
crítica para o teste H0: p = 0,60 vs H1: p < 0,60 do Exemplo 12.3.
De fato, devemos achar o valor
acima, teremos
, tal que P( ≤
c
) = 0,05, e usando a aproximação normal
c
o que implica
o valor -1,645 sendo obtido da normal padronizada. Segue-se que
região crítica acima.
c
= 0,544, correspondendo à
Admitamos que, da pesquisa feita com as 200 famílias, obtivemos 104 pessoas que
estavam assistindo ao programa. A proporção da amostra será = 104/200 = 0,52.
Passo 4.
Passo 5. Do resultado do passo anterior, vemos que 0,52 ∈ RC; portanto, somos levados a
rejeitar H0. Isto é, há evidências que a audiência do programa de segunda-feira não foi de 60%,
mas inferior a esse número.
Problemas
10. Uma pessoa gaba-se de adivinhar qual será o resultado do lance de uma moeda, mas é preciso que os presentes não o
perturbem com pensamentos duvidosos. Para testar tal capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador
acertou 5. Qual seria sua conclusão?
11. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das unidades fabricadas apresentam
defeito. Para confirmar sua acusação, ele usou uma amostra de tamanho 50, em que 27% das peças eram defeituosas. Mostre
como o fabricante poderia refutar a acusação. Utilize um nível de significância de 10%.
12. Um fabricante garante que 90% dos equipamentos que fornece a uma fábrica estão de acordo com as especificações exigidas.
O exame de uma amostra de 200 peças desse equipamento revelou 25 defeituosas. Teste a afirmativa do fabricante, nos níveis de
5% e 1%.
13. Os produtores de um programa de televisão pretendem modificá-lo se for assistido regularmente por menos de um quarto dos
possuidores de televisão. Uma pesquisa encomendada a uma empresa especializada mostrou que, de 400 famílias entrevistadas,
80 assistem ao programa regularmente. Com base nos dados, qual deve ser a decisão dos produtores?
12.7 Poder de um Teste
Vimos que, na construção de um teste de hipóteses, procuramos controlar o erro de tipo I,
fixando sua probabilidade de ocorrência, a, e construindo a região crítica de modo que P(RC|H0
verdadeira) = α. Ou seja, admitindo que H0 seja verdadeira, estamos admitindo conhecido(s) o(s)
parâmetro(s) que define(m) a distribuição da estatística usada no teste.
Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, não pode ser
calculada, pois a hipótese alternativa usualmente especifica um conjunto de valores para o
parâmetro. Voltemos ao exemplo da seção anterior.
(continuação) No exemplo da máquina de encher pacotes de café, a v.a. X, que
descrevia o peso de cada pacote, tinha uma distribuição normal com média µ e variância 400, de
modo que a média amostral X ∼ N(500, 25), sob a hipótese H0. Esse fato foi utilizado para
determinar a região crítica RC = {x ∈ ¡ | x < 487,1 ou x > 512,9} e nossa regra de decisão para
verificar se a máquina estava ou não produzindo sob controle foi:
Exemplo 12.2
Se x ∈ RA, a máquina está sob controle; se x ∈ RC, não está,
em que RA é a região de aceitação do teste, isto é, o complementar de RC em relação a ¡ e,
portanto, dada no nosso caso por RA = {x ∈ ¡|487,1 ≤ x ≤ 512,9}.
A probabilidade β do erro de tipo II não pode ser calculada, a menos que se especifique um
valor alternativo para µ. Segue-se que a função característica de operação do teste é dada por
Por exemplo, se a máquina se desregular para µ = 505, teremos
usando o fato que agora X∼ N(505, 25). Lembre-se de que supomos que σ2 = 400, sempre!
Para qualquer outro valor do parâmetro µ podemos encontrar o respectivo valor de β, para a
regra de decisão adotada. No Quadro 12.4, temos as decisões que podemos tomar e suas
respectivas implicações.
Quadro 12.4 Decisões
possíveis para o teste H0:
µ = 500 versus H : µ ≠ 500.
1
Valor real do parâmetro
Decisão
H0: µ = 500
H1: µ ≠ 500
a máquina está sob controle: µ = 500
P(RA | H0) = 0,99
P(RA | H1) = β
depende de valor alternativo de µ
a máquina não está sob controle: µ ≠ 500
P(RC | H0) = 0,01
P(RC | H1) = 1 - β
depende de valor alternativo de µ
Observe, por exemplo, que 1 - β(500) = P(rejeitar H0|µ = 500) = α = 0,01.
A quantidade 1 - β(µ) é usualmente chamada de poder ou potência do teste, e é a
probabilidade de rejeitar a hipótese H0, dado um valor qualquer de µ, especificado ou não pela
hipótese alternativa, e será denotado por π(µ). No nosso exemplo,
Na Tabela 12.1, temos alguns valores de β(µ) e de π(µ), para diferentes valores de µ, e, na
Figura 12.8, a representação gráfica da determinação dessa probabilidade. Observe que quanto
maior for a distância entre o valor fixado em H0(µ = 500) e o valor atribuído para a hipótese
alternativa, maior será a probabilidade de tomar a decisão correta. Na Figura 12.9, temos o
gráfico de π(µ) para os valores de µ da Tabela 12.1.
Tabela 12.1 Valores
de β(µ) e π(µ), usando a regra de decisão RC
= {x ∈ ¡|x ≤ 487,1 ou x ≥ 512,9}.
Verdadeiro valor de
µ
π(µ) (em %) β(µ) (em %)
À esquerda de 500
À direita de 500
500
500
1,0
99,0
498
502
1,7
98,3
495
505
5,7
94,3
492
508
16,4
83,6
490
510
28,1
71,9
487
513
51,0
49,0
485
515
66,3
33,7
480
520
92,1
7,9
475
525
99,2
0,8
As seguintes propriedades de π(µ) são facilmente verificadas:
(i) π(-∞) = π(+∞) = 1;
(ii) π(500) = α;
(iii) π decresce para µ < 500 (isto é, dπ/dµ < 0 para µ < 500) e π cresce para µ > 500 (isto é,
dπ/dµ > 0, para µ > 500).
Vemos que π(µ) indica a probabilidade de uma decisão correta, para as diversas alternativas
do parâmetro e pode ser usada para decidir entre dois testes para uma mesma hipótese.
Figura 12.8 Determinação
do poder para o teste do Exemplo12.2.
Figura 12.9 Curva
de poder para o Exemplo 12.2.
Se, no Exemplo 12.2, a amostra colhida fosse de 100 pacotes em vez de 16, e
mantivéssemos o mesmo nível de significância α = 1%, a nova região crítica seria
Exemplo 12.4
Construindo a função poder para esse teste, obtemos a curva tracejada na Figura 12.9.
Verifique essas afirmações.
Observando as duas curvas na Figura 12.9, notamos que para todos os valores sob a hipótese
alternativa, a probabilidade de uma decisão correta é maior para amostras de tamanho 100 do que
de tamanho 16. Dizemos, nesse caso, que o teste baseado em amostras de tamanho 100 é mais
poderoso do que o teste baseado em amostras de tamanho 16. Esse fato está de acordo com a
intuição de que um teste com amostras maiores deve levar a melhores resultados.
De modo geral, se quisermos testar
e determinada a RC do teste, baseada na estatística θ, podemos dar a seguinte definição geral.
Definição.
A função poder (ou potência) do teste de H0 contra H1 é definida por
π(θ) = P(θ ∈ RC | θ),
ou seja, é a probabilidade de rejeitar a hipótese nula, como função de θ.
O gráfico dessa função é semelhante àqueles da Figura 12.9, e π(θ) tem as propriedades (i)(iii) acima, substituindo 500 por θ0.
Se tivermos hipóteses alternativas unilaterais, da forma H1: θ < θ0 ou H1: θ > θ0, obteremos os
gráficos da Figura 12.10.
Figura 12.10 Curvas
de poder para alternativas unilaterais.
Nos exemplos anteriores, fixamos o tamanho da amostra, n, e o nível de significância, α.
Suponha que queiramos determinar o tamanho da amostra e os limites da RC, para alcançarmos
dado poder para determinado valor do parâmetro. No Exemplo 12.2, poderíamos, por exemplo,
fixar π(510) = 0,80 e π(500) = 0,05 (o nível de significância). Dados esses valores, podemos
determinar n e a RC. Veja o Problema 30.
Problemas
14. Suponha que estejamos testando H0: p = 0,5 contra H1: p ≠ 0,5, e que, para uma amostra de tamanho n
= 10, decidimos pela
região crítica RC = {0, 1, 2, 8, 9, 10}.
(a) Determine o nível de significância α.
= 0,2, 0,4, 0,6, 0,8. Faça um gráfico do poder como função de p.
= 0,5?
15. Sendo X o custo de manutenção de um tear, sabe-se que X ∼ N(µ, 400). Para testar a hipótese H0: µ =
alternativa H1: µ > 200, será usada uma amostra de 25 teares.
(a) Fixando-se α = 5%, encontre a correspondente RC.
(b) Atribuindo-se valores arbitrários para µ, esboce a função poder do teste.
(c) Para que valores de µ o poder será maior do que 50%?
(b) Calcule o poder do teste para p
(c) Qual o poder do teste para p
200, contra a
12.8 Valor-p
O método de construção de um teste de hipóteses, descrito nas seções anteriores, parte da
fixação do nível de significância α. Pode-se argumentar que esse procedimento pode levar à
rejeição da hipótese nula para um valor de α e à não rejeição para um valor menor. Outra
maneira de proceder consiste em apresentar a probabilidade de significância ou valor-p do teste.
Os passos são muito parecidos aos já apresentados; a principal diferença está em não construir a
região crítica. O que se faz é indicar a probabilidade de ocorrer valores da estatística mais
extremos do que o observado, sob a hipótese de H0 ser verdadeira.
Voltemos ao Exemplo 12.3, em que
H0: p = 0,60.
Como vimos, admitindo essa hipótese verdadeira, ∼ N(0,60; 0,24/200). Colhida a amostra
obtivemos 0 = 104/200 = 0,52. Portanto, podemos calcular qual a probabilidade de ocorrerem
valores de mais desfavoráveis para H0 do que esse. É evidente que quanto menor for , maior
será a evidência contra H0: p = 0,60. Assim, calculemos
Exemplo 12.5
Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a
probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos de audiência é
de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então a
hipótese formulada não é aceitável. Nesse caso, somos levados a essa segunda opção, ou seja, os
dados da amostra sugerem que a hipótese H0 deve ser rejeitada.
O procedimento está ilustrado na Figura 12.11. O valor-p do teste será α = 0,01.
Figura 12.11 Determinação
do valor-p para o Exemplo 12.5.
Um antibiótico A traz em sua bula a seguinte citação: “Nas broncopneumonias, a
ação anti-inflamatória de A é colocada em evidência pelo estudo dos parâmetros ventilatórios em
duplo-cego contra placebo. Durante o tratamento com A pode-se observar uma melhora
significativa em relação ao placebo, da capacidade vital (p < 0,05) e o VEMS(p < 0,001) e do
débito respiratório máximo (p < 0,001)”.
Esse exemplo ilustra o uso cada vez mais difundido em muitas áreas aplicadas do conceito de
valor-p. As afirmações do tipo “p < 0,05” acima referem-se a esse conceito. Vale a pena
comentar um pouco sobre “estudos duplo-cego”, mencionados acima. Nesse tipo de estudo, um
número n de indivíduos é dividido em dois grupos de tamanhos aproximadamente iguais; a
seleção dos indivíduos que vão pertencer a cada grupo é aleatória. Os indivíduos de um grupo
recebem o tratamento (o antibiótico A, no caso), e os do outro grupo recebem placebo (uma
substância inóqua). Os pesquisadores que acompanham o experimento não sabem quem recebeu
tratamento e quem recebeu placebo, o mesmo acontecendo com os pacientes, daí o nome duplocego.
Podemos considerar probabilidades de significância bilaterais. Um procedimento é tomar o
valor-p bilateral igual a duas vezes o valor-p unilateral. Esta prática é razoável quando a
distribuição da estatística do teste, sob H0, for simétrica.
Exemplo 12.6
Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota para
servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma que a
duração das viagens pode ser considerada uma v.a. normal, com média igual a 300 minutos e
desvio padrão 30 minutos. As dez primeiras viagens realizadas nessa nova rota apresentaram
média igual a 314 minutos. Esse resultado comprova ou não o tempo médio determinado nos
estudos preliminares?
Exemplo 12.7
Passo 1. Indicando por X a duração de cada viagem e por µ = E(X), queremos testar
H0: µ = 300,
H1: µ ≠ 300.
Passo 2. Amostras de dez viagens terão média X ∼ N(µ, σ2/10).
Sob a hipótese de que H0 é verdadeira, e pelo fato de σ2 ser conhecido (σ = 30), teremos
X ∼ N(300, 900/10).
Passo 4. Como o valor observado x0 = 314, podemos encontrar a probabilidade de ocorrerem
amostras com valores de X mais extremos do que esse:
Passo 3.
Como a distribuição de X é normal, portanto simétrica, tomamos α = 0,14. Nosso problema
consiste em decidir se essa probabilidade corresponde ou não à chance de ocorrer um evento
raro. Por ser uma probabilidade não muito pequena, podemos concluir que não existe muita
evidência para rejeitar H0. Assim, os estudos preliminares parecem estar corretos.
Um problema que pode ocorrer com o procedimento acima, de dobrar a probabilidade, é que o
valor de α pode ser maior do que um. Por isso, às vezes, é preferível anunciar o valor do valor-p
unilateral e a direção segundo a qual a observação afasta-se de H0. No exemplo, o resultado
indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314 é 7%, que é
um valor ainda não pequeno. Para outro método, ver o Problema 43.
Se indicarmos genericamente por α o valor-p, rejeitaremos H0 para aqueles níveis de
significância α maiores do que α. No Exemplo 12.7, rejeitaremos H0, por exemplo, se α = 0,10,
mas não a rejeitaremos se α = 0,05 ou α = 0,01. Ou seja, se o nível descritivo for muito pequeno,
como o caso α < 0,01 do Exemplo 12.6, há evidências de que a hipótese não seja válida. Como
vimos nesse exemplo, a probabilidade de significância é muitas vezes denotada por p na
literatura (p-value).
Em nosso procedimento de testar uma hipótese estamos usando uma escala de evidências
sugerida por Fisher (1954). Suponha que estejamos testando H0 contra H1 e, como vimos,
rejeitamos H0 se o valor-p α for “bastante pequeno”. A Tabela 12.2, extraída de Efron e Gous
(1997), ilustra a escala de Fisher, contra H0 (ou a favor de H1).
Tabela 12.2 Escala
de significância de Fisher.
valor-p
0,10
0,05
0,025
0,01
0,005
0,001
Natureza da evidência
marginal
moderada
substancial
forte
muito forte
fortíssima
Assim, um valor de α = 0,01 indica uma evidência forte contra a validade de H0, α = 0,05
indica uma evidência moderada etc. É interessante notar que Fisher tomou como ponto de
referência o valor 0,05: valores do valor-p menores do que 0,05 indicam que devemos rejeitar a
hipótese nula. As considerações feitas por Fisher referiam-se a testes do qui-quadrado (veja o
Capítulo 14).
Problemas
µ = 50 contra H1: µ > 50, em que µ é a média de uma normal N(µ, 900). Extraída uma
amostra de n = 36 elementos da população, obtemos x = 52. Calcule o valor-p α do teste.
16. Suponha que queiramos testar H0:
17. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é
anotado. Observou-se que X segue de perto a distribuição N(25, 100). Uma nova técnica de ensino, que deve melhorar o tempo de
aprendizado, foi testada em 16 novos empregados, o quais apresentaram 20,5 horas como tempo médio de aprendizado. Usando o
valor-p, você diria que a nova técnica é melhor que a anterior?
12.9 Teste para a Variância de uma Normal
Um teste sobre a variância desconhecida de uma variável, com distribuição normal, irá usar a
distribuição qui-quadrado, introduzida na Seção 7.7.
Considere a média amostral X e a variância amostral S2, ambas obtidas de uma amostra de
tamanho n, (X1, ..., Xn) de X ∼ N(µ, σ2). A soma
terá distribuição χ2(n), pois cada (Xi - µ)/σ terá distribuição N(0,1). Logo, se definirmos
(12.1)
vemos que
(12.2)
tem distribuição χ2(n). Observe que o estimador 2* é muito parecido com o estimador 2,
definido em (11.6), com µ tomando o lugar de X. É muito importante conhecer a distribuição de
, para se ter a distribuição de S2, que será usada no teste desta seção. Note
inicialmente que
e de
, vem que
(12.3)
Dividindo ambos os membros por σ2, e reescrevendo (12.3) de forma conveniente, teremos
(12.4)
O primeiro membro da Expressão (12.4) tem distribuição χ2(n), como vimos acima. O último
termo de (12.4) tem distribuição χ2(1). Seria, então, razoável supor que o primeiro termo do
segundo membro tenha distribuição χ2(n - 1). A comprovação desse fato exige recursos fora do
alcance deste livro, mas podemos resumir o resultado da seguinte maneira.
Teorema 12.1
Seja (Z1, ..., Zn) uma amostra aleatória simples retirada de uma população N(0,1).
Então:
(i) Z tem distribuição N(0,1/n);
(ii) as variáveis Z e
são independentes; e
(iii)
tem distribuição χ2(n - 1).
Corolário 12.1
A variável aleatória (n - 1)S2/σ2 tem distribuição χ2(n - 1).
Prova. De fato,
bastando escrever
A Expressão (12.4) e a própria definição de χ2 garantem uma propriedade muito útil: a soma
de duas v.a. independentes, cada uma com distribuição χ2, é uma v.a. também com distribuição
χ2:
Voltemos ao nosso problema original. Queremos testar
Nossas suposições são que Xi ∼ N(µ, σ2), i = 1, ..., n e os Xi são independentes. A estatística do
teste será, sob H0,
(12.5)
Como temos um teste bilateral, a região crítica será da forma
tal que
sendo α o nível de significância do teste, fixado a priori.
Observado o valor s20 da estatística S2, obteremos o valor
. Se χ20 ∈ RC,
rejeitamos H0; caso contrário, aceitamos H0.
Uma das maneiras de manter sob controle a qualidade de um produto é controlar sua
variabilidade. Uma máquina de encher pacotes de café está regulada para enchê-los com média
de 500 g e desvio padrão de 10 g. O peso de cada pacote X segue uma distribuição N(µ, σ2).
Colheu-se uma amostra de 16 pacotes e observou-se uma variância de S2 = 169 g2. Com esse
resultado, você diria que a máquina está desregulada com relação à variância?
Estamos interessados em testar, então,
Exemplo 12.8
A estatística para realizar o teste é (12.5), com n = 16. Fixado o nível de significância α em
5%, teremos da Tabela IV que a região crítica é dada por RC = {χ2: 0 ≤ χ2 ≤ 6,262 ou χ2 ≥
27,488}. Veja a Figura 12.12. O valor observado da estatística é
Como χ20 ∉ RC, somos levados a aceitar H0, isto é, a máquina está sob controle quanto à
variância.
Figura 12.12 Região
crítica para o teste do Exemplo 12.8.
A construção do IC(σ2; γ) é feita a partir da expressão
(12.6)
que permite obter a seguinte desigualdade:
(12.7)
que será o IC procurado. Veja a Figura 12.13.
Figura 12.13 Valores
críticos para a construção de um intervalo de confiança para a variância.
Os dados abaixo referem-se às vendas diárias, em reais, durante uma semana, de
carros de uma revendedora. Construir um IC(σ2; 90%).
Vendas: 253, 187, 96, 450, 320, 105.
Inicialmente, calculamos a variância amostral, que é s20 = 18.460; em seguida, os valores χ21 e
χ22 que satisfaçam (12.6):
P(1,145 ≤ χ2(5) ≤ 11,070) = 0,90.
Substituindo em (12.7) obtemos
IC(σ2; 0,90) = [8.338; 80.611].
Exemplo 12.9
Problemas
18. De uma população X ∼ N(50, 100) retira-se uma amostra de dez elementos e calculam-se os valores de
valores pedidos abaixo, com a maior precisão possível.
2
*
e S2. Encontre os
2
*
> a) = 10%, encontre o valor de a.
(b) Sabendo-se que P(S2 < a) = 5% e P(S2 > b) = 5%, encontre a e b.
(c) P(S2 < 163,16) = α, encontre α.
(d) P(S2 > l00) = α, encontre α.
(e) P(S2 < 18) = α, encontre α.
(a) Se P(
(f) Se o valor observado de S2 foi 180, qual a probabilidade de encontrar uma amostra que produza um S2 maior do que o
observado?
19. Observou-se a produção mensal de uma indústria durante vários anos, verificando-se que ela obedecia a uma distribuição
normal, com variância 300. Foi adotada uma nova técnica de produção e, durante 24 meses, observou-se a produção mensal.
Após esse período, constatou-se que x = 10.000 e s2 = 400. Há razões para se acreditar que a variância mudou, ao nível de 20%?
20. Numa linha de produção, é muito importante que o tempo gasto numa determinada operação não varie muito de empregado
para empregado.
(a) Que parâmetro estatístico poderia ser usado para avaliar esse fato? Por quê?
(b) Se 11 empregados apresentam os tempos abaixo para realizar essa operação, qual seria a estimativa para a parâmetro
acima?
125 135 115 120 150 130
125 145 125 140 130
12.10 Teste sobre a Média de uma Normal com Variância
Desconhecida
Vimos, na Seção 12.5, como testar a média de uma normal, supondo que a variância seja
conhecida. Comentamos que essa não é uma suposição realista, logo iremos supor agora que
temos uma v.a. X, com distribuição normal, com média µ e variância σ2 desconhecidas.
No Capítulo 7, introduzimos a distribuição t de Student. Veremos, a seguir, como ela pode ser
usada para testar hipóteses sobre µ nessa situação.
Consideremos a estatística
(12.8)
Inicialmente, dividamos o numerador e denominador pelo desvio padrão σ da população, e
teremos
O numerador
tem distribuição N(0, 1), como já foi visto. O quadrado do
denominador pode ser escrito como
em que Y = (n - 1)S2/σ2. Mas, como foi visto na seção anterior, se os Xi forem normais, Y tem
distribuição χ2(n - 1); logo, a estatística (12.8) é o quociente entre uma v.a N(0, 1) e a raiz
quadrada de uma v.a χ2(n - 1), dividida pelo número de graus de liberdade, e pelo Teorema 7.1
temos que
(12.9)
Observe que Z e Y são independentes, pois X e S2 são independentes, pelo Teorema 12.1 (ii).
Estamos, agora, em condições de testar as hipóteses
(12.10)
que sabemos agora ter uma distribuição t de Student com (n - 1) graus de liberdade. Fixado o
valor de α, podemos usar a Tabela V e encontrar o valor tc, tal que P(|T| < tc) = 1 - α. Veja a
Figura 12.14.
Figura 12.14 Valores
críticos para o teste t.
Colhida a amostra de n indivíduos, calculamos os valores x0 e s20 das estatísticas X e S2,
respectivamente, e depois o valor
de T. Se o valor dessa estatística for inferior a tc, ou superior a tc, rejeita-se H0. Caso contrário, aceita-se H0.
Para a construção de intervalos de confiança, temos que
da qual segue o intervalo de confiança
(12.11)
muito parecido com aquele da variância conhecida.
Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina.
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%,
os dados refutam ou não a afirmação do fabricante?
Exemplo 12.10
Passo 1.
As hipóteses aqui são:
Supondo que X, a quantidade de nicotina por cigarro, tenha distribuição N(µ, σ2), a
estatística
Passo 2.
terá distribuição t(24).
Passo 3.
Por ser um teste unilateral, devemos procurar o valor tc tal que
P(T > tc) = 0,05.
Da Tabela V, obtemos tc = 1,711, ou seja, a região crítica para a estatística T é RC = [1,711;
+∞[.
Passo 4.
O valor observado da estatística é
Como t0 pertence à região crítica, rejeitamos H0, ou seja, há evidências de que os cigarros
contenham mais de 30 g de nicotina.
Outra maneira de proceder é calcular o valor-p, ou seja,
α = P(T > t0|H0) = P(T > 2,5|H0) = 0,01.
Esse valor pequeno de α leva à rejeição de H0.
Para construir um IC(µ; 0,95), verificamos na Tabela V que o valor tγ = 2,064 e, portanto,
Passo 5.
ou seja,
IC(µ; 0,95) =]30,26; 32,74[.
Antes de encerrar este capítulo cabe uma observação. Quando aceitamos uma hipótese,
estamos concluindo que temos algum conhecimento sobre a distribuição da variável de interesse.
Já quando rejeitamos a hipótese, a distribuição da variável não fica especificada. A construção de
intervalos de confiança desempenha um papel importante nessa situação. Ressaltamos, também,
que temos usado a expressão “aceitamos” a hipótese, quando o mais correto talvez fosse “não
rejeitamos” a hipótese.
Problemas
21. Da população X N(50, 100) retirou-se uma amostra casual simples de tamanho n
respectivo valor de t.
(a) Se
, encontre o valor de t.
(b) Se X = 48 e S2
=
10, calculando-se o valor deX, S e o
= 120, qual a probabilidade de encontrar um valor de t menor que o produzido por essa amostra?
(c) Se S2 = 120, calcule a P(|X - 50| < 2).
22. O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos, com um desvio padrão de 15 minutos.
Introduziu-se uma modificação para diminuir esse tempo, e, após certo período, sorteou-se uma amostra de 16 operários,
medindo-se o tempo de execução de cada um. O tempo médio da amostra foi 85 minutos, e o desvio padrão foi 12 minutos. Estes
resultados trazem evidências estatísticas da melhora desejada? Em caso afirmativo, estime o novo tempo médio de execução.
(Apresente as suposições teóricas usadas para resolver o problema.)
23. Estamos desconfiados de que a média das receitas municipais per capita das cidades pequenas (0 - 20.000 habitantes) é
maior do que a das receitas do estado, que é de 1.229 unidades. Para comprovar ou não essa hipótese, sorteamos dez cidades
pequenas, e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359.
Obs.: Para facilitar os cálculos, informamos que a soma das observações é 13.500, e a soma dos quadrados das observações é
22.335.650 (13.5002 = l82.250.000).
(a) Mostre que o teste de hipótese usado, com α = 0,05, levará à aceitação de que a média das cidades pequenas é igual à do
estado.
(b) Você não acha estranha essa conclusão quando observa que a média da amostra obtida é bem maior do que a média do
estado? Como você explicaria isso?
24. Deseja-se estimar qual a porcentagem média da receita familiar gasta com alimentação pelos moradores de uma grande vila
industrial. Para isso, selecionou-se uma amostra de 16 famílias, que apresentou os seguintes resultados:
41 44 35 42 34 22 42 42
38 62 29 63 38 45 48 40
(a) Dê um IC de 95% para a porcentagem média de todas as famílias de moradares da vila.
(b) Que suposição você fez para responder a pergunta anterior?
12.11 Problemas Suplementares
25. A precipitação pluviométrica anual numa certa região tem desvio padrão σ = 3,1 e média desconhecida. Para os últimos 9
anos, foram obtidos os seguintes resultados: 30,5; 34,1; 27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8.
(a) Construa um teste de hipóteses para saber se a média da precipitação pluviométrica anual é maior que 30,0 unidades.
Utilize um nível de significância de 5%.
(b) Discuta o mesmo problema, considerando σ desconhecido.
(c) Supondo que, na realidade, µ = 33,0, qual a probabilidade de tirarmos uma conclusão errada?
26. Supõe-se que determinado tipo de indústria deva ter, em média, 30 empregados. Para testar tal hipótese, colhe-se uma
amostra de 50 indústrias, cujo resultado está abaixo. Caso rejeite a hipótese, dê um intervalo de confiança para a verdadeira
média (suponha que s2
= σ2).
Nº de empregados
Frequência
25
35
8
35
45
10
45
55
13
55
65
10
65
75
9
27. Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 100 km, com desvio padrão de 0,8
litro. Uma revista resolve testar essa afirmação e analisa 35 automóveis dessa marca, obtendo 11,3 litros por 100 km como
consumo médio (considerar distribuição normal). O que a revista pode concluir sobre o anúncio da fábrica, no nível de 10%?
28 Um dos maiores problemas de uma grande rede de vendas a varejo é a adequação do estoque declarado com o real existente.
Decidiu-se fazer a verificação por meio de procedimentos amostrais. Indicando por X o total em unidades monetárias de cada
produto em estoque, verificou-se que X ∼ N(µ, 400). Serão sorteados 4 produtos. O total X de cada um será verificado e calcularse-á a média X, que será a estatística de decisão. Numa determinada filial, o valor declarado de
parâmetro deve ser 45; no caso de excesso, 58.
(a) Defina H0 e H1.
(b) Descreva os erros do tipo I e II.
(c) Fixando α
= 10%, qual a regra de decisão para julgar se o estoque está correto ou não?
(d) Calcule o erro β.
µ é 50. Havendo falta, esse
(e) Qual o significado de α e β nesse problema?
29. Seja X uma v.a. com distribuição binomial, com n = 15. Considere H0: p ≥ 0,5 contra H1: p
(a) Calcule a probabilidade do erro de tipo I.
< 0,5, com RC = {0, 1, 2}.
(b) Calcule a probabilidade do erro de tipo II quando p = 0,3.
(c) Esboce o gráfico do poder do teste.
30. O custo X de manutenção de teares segue uma distribuição normal, X ∼ N(µ, 400). Durante muito tempo, o parâmetro µ tem
sido adotado como igual a 200. Suspeita-se que esse parâmetro aumentou, e só nos interessa saber se o novo parâmetro superior a
210. Assim, queremos planejar um teste em que α = 5% (quando µ = 200) e β = 10% (quando µ = 210).
(a) Qual deve ser o tamanho da amostra?
(b) Qual a RC nesse caso?
31. O número médio diário de clientes de um posto de gasolina tem sido 250, com um desvio padrão de 80 clientes. Durante uma
campanha de 25 dias, em que os clientes recebiam um brinde, o número médio de clientes foi 280, com um desvio padrão de 50.
Você diria que a campanha modificou a distribuição do número de clientes do posto? Descreva as suposições feitas para a
resolução do problema.
32. A receita média, em porcentagem, dos quase 600 municípios de um estado tem sido 7%. O governo pretende melhorar esse
índice e, para isso, está estudando alguns incentivos. Para verificar os efeitos desses incentivos, sorteou 10 cidades e estudou
quais seriam as porcentagens investidas neles. Os resultados foram, em porcentagem, 8, 10, 9, 11, 8, 12, 16, 9, 12, 13.
Admitindo-se que esses números realmente venham a ocorrer, os dados trazem evidência de melhoria? Caso altere a média do
estado, dê um intervalo de confiança para a nova média.
33. Para o problema anterior, construa IC(σ2; 90%) e descreva as suposições consideradas para obtenção da resposta.
34. A prefeitura de uma cidade quer estimar a proporção p dos moradores favoráveis à mudança do horário comercial, com o
intuito de economizar combustível. Essa proporção deverá ser estimada com um erro máximo de 5%, a um nível de 90% de
confiança.
(a) Que tamanho deverá ter a amostra se a proporção p esperada deve estar entre 20% e 50%? (Justifique a resposta.)
(b) Numa amostra de 400 moradores, 160 foram favoráveis à mudança; qual seria o intervalo de confiança para p, nesse caso,
com γ = 0,95?
35. Numa pesquisa realizada com 2.000 proprietários de carros na cidade de São Paulo, 800 responderam que pretendem mudar
de carro no decorrer do próximo ano. Dê um IC de 90% para a proporção de todos os proprietários de carros de São Paulo que
pretendem mudar de carro no próximo ano.
36. Um fabricante de um certo tipo de aço especial afirma que seu produto tem um severo serviço de controle de qualidade,
traduzido pelo desvio padrão da resistência à tensão, que não é maior do que 5 kg por cm2. Um comprador, querendo verificar a
veracidade da afirmação, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensão. Os resultados foram os seguintes: x
= 263 e s2 = 48. Estes resultados trazem alguma evidência contra a afirmação do fabricante? Use α = 0,05.
37. Um escritório de investimento acredita que o rendimento das diversas ações movimentadas por ele foi de 24%. Mais ainda, a
nova estratégia definida deve garantir uma maior uniformidade nos rendimentos das diversas ações. No passado, o desvio padrão
do rendimento era da ordem de 5%. Para verificar as duas hipóteses, tomaram-se 8 empresas ao acaso, obtendo-se os seguintes
rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 26,4; 24,3; 23,9 e 25. Quais seriam as conclusões?
38. Sendo X o número de sucessos em n = 10 provas de Bernoulli, queremos testar H0: p = 0,6.
(a) Se o teste for unilateral e rejeitarmos H0 para valores pequenos de X, determine α se o valor observado de X for 3.
(b) Determine α se o teste for bilateral, na situação de (a), isto é, X
= 3.
39. Considere a situação do problema anterior e suponha que o valor observado seja X
= 6. O que acontece no caso (b) do
problema anterior? O resultado X = 6 suporta ou não H0?
12.12 Complementos Metodológicos
1. Valor-p bilateral. Vimos no texto um procedimento para determinar α no caso bilateral. Outra possibilidade é fazer as
probabilidades nas duas caudas complementares em termos da distância à média (ou mediana) da distribuição sob H. Assim, se x
for o valor observado de X e m for a média da distribuição, colocamos
α = P(X ≥ x) + P(X ≤ m - (x - m)),
se x estiver na cauda superior e
α = P(X ≤ x) + P(X ≥ m + (m - x)),
se x estiver na cauda inferior.
Calcule α usando esse critério para os Problemas 38 e 39.
2. Hipóteses gerais. Nossos testes sempre foram da forma
H0: θ = θ0, H1: θ ≠ θ0,
para algum parâmetro θ, ou hipóteses alternativas unilaterais (θ < θ0 ou θ > θ0). Mas podemos ter testes da forma
H0: θ ≤ θ0, H1: θ > θ0,
Neste caso, as probabilidades dos erros de tipo I e tipo II seriam
α = P(rejeitar H0|θ ≤ θ0),
β = P(não rejeitar H0|θ > θ0),
de modo que tanto α como β seriam funções do valor do parâmetro θ: θ ≤ θ0, no caso de α e θ > θ0, no caso de β. Nesta
situação, o nível de significância do teste não é igual α. Definimos o nível de significância como a probabilidade máxima do erro
de tipo I, para θ ≤ θ0.
Se H0 for uma hipótese simples, θ = θ0, o nível de significância e a probabilidade de erro de tipo I coincidem. Nos problemas
em que a função poder do teste, π(θ), for estritamente crescente, o máximo da probabilidade em questão ocorre para θ = θ0, e
novamente o nível de significância coincide com α.
Verifique que isso também é verdade para as hipóteses H0: θ ≥ θ0, H1: θ < θ0 e a função poder estritamente decrescente.
Capítulo 13
Inferência para Duas Populações
13.1 Introdução
Neste capítulo, abordaremos o tópico importante de comparar duas populações Pl e P2,
baseados em dados fornecidos por amostras dessas populações. Como vimos, uma grande parte
das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham
distribuição normal. Alguns testes que trataremos envolverão a normal. Contudo, se essa
suposição de normalidade for violada, procedimentos mais “robustos” têm de ser utilizados, e
veremos exemplos de tal situação.
Uma pergunta que aparece frequentemente em Ciência é a seguinte: o método A é melhor do
que o B? Em termos estatísticos, ela equivale a comparar dois conjuntos de informações,
resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou
indivíduos.
Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a “igualdade” ou
“equivalência” de duas populações. Por exemplo, suponha que estamos interessados em saber se
alunos de duas regiões, A e B, tiveram desempenhos iguais em um mesmo teste nacional. Mais
ainda, suponha que tenhamos os resultados do teste para “todos os alunos” das duas regiões, isto
é, conhecemos as duas populações. Suponha que cálculos posteriores revelem que as médias e
desvios padrões das duas populações sejam iguais, isto é, µA = µB e σA = σB. Será que isso
equivale a dizer que os desempenhos nas duas regiões são equivalentes? Se uma análise mais
cuidadosa não for feita, poderemos ser levados a responder afirmativamente a essa questão.
Entretanto, observando a Figura 13.1, vemos que é possível ter duas distribuições com os
mesmos parâmetros acima, mas formas bastante distintas.
Figura 13.1 Distribuições
das populações A e B, com µA = µB = 4, σA = σB = 1,16.
Esse fato nos remete à necessidade de também mencionarmos a forma da distribuição.
Especificada a forma, a igualdade dos parâmetros que identificam a curva implica a igualdade ou
coincidência das duas populações. É bem pouco provável que um mesmo fenômeno obedeça a
formas de distribuições distintas, como no exemplo da Figura 13.1. Seguir uma mesma
distribuição, porém com parâmetros distintos, é mais verossímil. Como a normal é um modelo
importante e seguido por muitas variáveis de interesse prático, estaremos admitindo essa forma,
a não ser quando uma análise dos dados nos diga o contrário.
Neste capítulo, trataremos de várias situações, que passamos a descrever.
1. Inferências
para duas médias: amostras independentes
Aqui temos dados na forma de duas amostras, extraídas independentemente de cada
população. É muito comum em experimentos do tipo “controle” versus “tratamento”, nos quais o
interesse principal é verificar o efeito desse último. O caso típico é aquele de comparar uma nova
droga com uma padrão, usadas para o tratamento de uma doença.
Exemplo 13.1
(a) Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para
outro grupo. Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso
por meio da televisão.
(b) Queremos comparar o efeito de duas rações, A e B, sobre o crescimento de porcos.
Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco
semanas verificam-se quais foram os ganhos de peso dos porcos dos dois grupos.
(c) 20 canteiros foram plantados com uma variedade de milho. Em dez deles um novo tipo de
fertilizante é aplicado e nos outros um fertilizante padrão. Examinando-se as produções dos
dois canteiros, queremos saber se há diferenças significativas entre as produções.
Na maioria das vezes fica claro o que chamamos de controle e tratamento. No exemplo (c)
acima, os canteiros tratados com o novo fertilizante seriam o grupo de tratamento, enquanto os
demais, tratados com o fertilizante usual, constituiriam o grupo de controle. Mas nos exemplos
(a) e (b) essa distinção é apenas convencional.
Formalmente, o modelo para o problema das duas amostras é o seguinte: as v.a. X1, ..., Xm
representam as respostas do grupo de controle e são consideradas v.a. independentes, com a
mesma distribuição, P1; Y1, ..., Yn representam as respostas do grupo de tratamento e são v. a.
independentes, com a mesma distribuição, P2. Além disso, X1, ..., Xm, Y1, ..., Yn são independentes
entre si.
A hipótese a ser testada é
H0: P1 = P2, (13.1)
ou seja, queremos testar a homogeneidade das populações de onde as amostras foram extraídas.
H0 é chamada hipótese de homogeneidade.
O significado de (13.1) dependerá muito do interesse do pesquisador em considerar qual
“tipo” de igualdade implicará a coincidência das duas distribuições. Admitamos que tanto P1
como P2 sigam uma distribuição normal, ou seja, P1 ∼ N(µ1, σ21) e P2 ∼ N(µ2, σ22). Na
Figura 13.2, temos as quatro situações possíveis. Observando os gráficos da Figura 13.2 não
temos dúvidas em reconhecer que as duas populações são iguais no caso (a) e diferentes no caso
(d). Já nos outros dois casos, podem existir situações em que elas possam ser consideradas iguais
ou não. Por exemplo, uma pesquisa para verificar se o salário médio da região P1 é o mesmo da
região P2 aceita como resposta verdadeira tanto a situação (a) como a (b). Outra pesquisa para
verificar se dois processos produzem peças com a mesma qualidade em termos de dispersão
aceita como verdadeiras as situações (a) ou (c).
Assim, a estratégia para comparar duas populações, por meio de seus parâmetros, envolve
suposições sobre a forma das distribuições, para depois testar médias e variâncias. É comum
estarmos interessados em testar apenas que P1 e P2 difiram em localização (ou posição), isto é, a
alternativa a H0 é que P1 esteja à direita de P2, ou o contrário, mas que ambas tenham a mesma
dispersão (caso µ1 ≠ µ2 e σ1 = σ2 da figura). Nesse caso, H0 será equivalente a
H0: ∆ = 0, (13.2)
com ∆ = µ2 – µ1.
Figura 13.2 (a)
µ1 = µ2, σ1 = σ2 (b) µ1 = µ2, σ1 ≠ σ2 (c) µ1 ≠ µ2, σ1 = σ2 (d) µ1 ≠ µ2, σ1 ≠ σ2.
Os testes t de Student e de Wilcoxon, descritos a seguir, são apropriados para esse tipo de
situação. O teste t é aplicável quando P1 e P2 supostas são normais, com médias µ e µ + ∆,
respectivamente, e com a mesma variância. O teste de Wilcoxon aplica-se para P1 e P2 quaisquer,
mas suponha-se que a escala de medidas seja pelo menos ordinal. A análise fica mais fácil
quando a P1 e P2 são atribuídas distribuições de variáveis contínuas. Discutiremos a razão desta
suposição adicional.
Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais, mas as
variâncias são diferentes. Na Figura 13.1, as duas curvas teriam dispersões diferentes ao redor de
suas médias. Então, um teste preliminar de igualdade de variâncias seria necessário. O teste t de
Student para o caso de populações normais será apresentado neste capítulo.
A hipótese (13.1) ou (13.2) nos diz que não há efeito do tratamento. A alternativa usual para
H0 é que o efeito do tratamento é o de aumentar as respostas. Isto é, P2 gera valores maiores que
P1, com maior frequência. Mas pode ocorrer o contrário: diminuir as respostas. Por exemplo, o
“tratamento” visa a diminuir o tempo para executar determinada tarefa.
2. Inferências
para duas médias: amostras dependentes
Quando se comparam as médias de duas populações, pode ocorrer uma diferença significativa
por causa de fatores externos não controlados. Por exemplo, no caso do Exemplo 13.4 abaixo,
poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o
outro. Logo, a diferença seria devido a esses fatos, e não ao mérito real da técnica de vendas. Um
modo de contornar esse problema é coletar as observações em pares, de modo que os dois
elementos de cada par sejam homogêneos em todos os sentidos, exceto no que diz respeito ao
fator que queremos comparar.
Por exemplo, no caso do Exemplo 13.1 (a), para testar os dois métodos de ensino, poderíamos
usar n pares de gêmeos, sendo que um elemento de cada par recebe aulas pela TV e outro ao
vivo. Esse procedimento pretende controlar o maior número possível de fatores externos que
possam afetar o aprendizado. Se houver diferença no aprendizado, essa dever-se-á realmente ao
método.
Esse procedimento também é usado quando observações das duas amostras são feitas no
mesmo indivíduo, por exemplo, medindo uma característica do indivíduo antes e depois de ele
ser submetido a um tratamento.
O teste t de Student para observações pareadas (ou emparelhadas), supondo normalidade, é
apropriado para essas situações.
3. Inferências
para duas variâncias: amostras independentes
Como vimos no item 1, podemos testar se duas amostras independentes provêm de duas
populações com variâncias iguais, desconhecidas. Se essas variâncias forem diferentes, o teste
tem de ser modificado. Esse teste, sob a suposição de normalidade das duas populações, usa uma
estatística que tem uma distribuição especial, chamada F de Snedecor.
Finalizando esta seção, ressaltamos que poderemos ter mais do que duas amostras, e técnicas
semelhantes podem ser desenvolvidas. Veja o Capítulo 15.
13.2 Comparação das Variâncias de Duas Populações Normais
A situação que vamos considerar nesta seção envolve a utilização da distribuição F, estudada
na Seção 7.7. A descrição a seguir é importante.
Uma das distribuições amostrais mais usadas, e que corresponde a uma distribuição F, resulta
do seguinte problema. Suponha que temos duas amostras independentes, de tamanhos n1 e n2,
retiradas de duas populações normais com a mesma variância σ2. Indiquemos os estimadores de
σ2 obtidos das amostras por S21 e S22, respectivamente. Já vimos que
e portanto a v.a.
(13.3)
Essa variável será usada no teste desta seção.
Consideremos, agora, uma amostra X1, ..., Xn de uma população com distribuição N(µ1, σ21) e
uma amostra Y1, ..., Ym de uma população com distribuição N(µ2, σ22). Suponhamos que as duas
amostras sejam independentes.
Queremos testar
H0: σ21 = σ22 = σ2
H1: σ21 ≠ σ22.
Chamemos de S21 e S22 as variâncias amostrais respectivas. De (13.3) e sob a suposição de H0
ser verdadeira, isto é σ21 = σ22, temos que
W = S21/S22 ∼ F(n - 1, m - 1). (13.4)
Fixado , encontramos dois números f1 e f2, da Tabela VI, tais que
P(W ∈ RC) = P(W < f1 ou W > f2) = α.
Os valores f1 e f2 são determinados de modo que P(W < f1) = α/2 = P(W > f2). Na prática,
consideramos o quociente (13.4) de tal sorte que S21/S22 > 1.
Colhidas as amostras de n e m indivíduos, respectivamente, das duas populações, calculamos
os valores observados s210 e s220 e o valor observado de W, ou seja, w0 = s210/s220.
Se w0 pertencer à região crítica, rejeitamos H0; caso contrário, a aceitamos.
Queremos verificar se duas máquinas produzem peças com a mesma homogeneidade
quanto à resistência à tensão. Para isso, sorteamos duas amostras de seis peças de cada máquina,
e obtivemos as seguintes resistências:
Exemplo 13.2
Máquina A:
145
127
136
142
141
137
Máquina B:
143
128
132
138
142
132
As hipóteses a serem testadas são:
H0: σ2A = σ2B = σ2
H1: σ2A ≠ σ2B.
Sob a suposição de normalidade das medidas de resistência à tensão, para as duas máquinas,
temos que a v.a. W, definida por (13.4), tem uma distribuição F(5,5). Fixando α = 0,10 e
consultando a Tabela VI, teremos
RC = ]0, (5,05)-1[ ∪ ]5,05, +∞[.
Das amostras encontramos s2A = 40 e s2B = 37, portanto w0 = 1,08. Como esse valor não
pertence à região crítica, aceitamos H0, ou seja, as máquinas produzem com a mesma
homogeneidade quanto à variabilidade.
Caso tivéssemos rejeitado a hipótese de igualdade das variâncias, seria conveniente obter um
intervalo de confiança para o quociente das duas variâncias. De (13.3) podemos escrever, quando
σ21 ≠ σ22,
e para um dado γ, 0 < γ < 1, podemos encontrar dois valores f1 e f2, tais que
P(f1 < F(n – 1, m – 1) < f2) = γ.
Dessa igualdade, segue-se que, com probabilidade γ,
ou seja, o IC(σ22/σ21; γ) será dado por
(13.5)
Suponha que para outras seis medidas para as máquinas A e B do Exemplo 13.2
tivéssemos S2A = 85 e S2B = 8. Como w0 = 85/8 = 10,62, rejeitaríamos H0. Então, o IC dado por
(13.5) ficaria, com γ = 0,90,
Exemplo 13.3
ou seja,
Invertendo-se, obtemos, também,
que indica a variação possível, no nível fixado, da razão entre as duas variâncias. Note que, sob
H0, temos σ2A/σ2B = 1, que não pertence a esse intervalo.
Problemas
∼ N(50, 100) retirou-se uma amostra casual simples de n = 10 elementos. Da população Y ∼ N(60, 100)
retirou-se uma amostra casual simples de m = 6 indivíduos, independente da primeira. Obtemos as variâncias amostrais S21 e
1. Da população X
S22, respectivamente.
(a) Encontre o valor de a, tal que P(S21/S22
P(S21
S22
< a) = 95%.
> b) = 95%.
(b) Encontre o valor de b, tal que
/
2. Por que em (13.3) as v.a. U e V são independentes?
3. Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por
meio do desvio padrão de seus salários. A fábrica A diz ser mais coerente na política salarial do que a fábrica B. Para
verificar essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A, e 15 de B, obtendo-se os
desvios padrões sA = 1.000 reais e sB
= 1.600 reais. Qual seria a sua conclusão?
4. Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Essa qualidade será definida pela uniformidade
com que o produto é produzido em cada fábrica. Tomaram-se duas amostras, uma de cada fábrica, medindo-se o
comprimento dos produtos (o resumo dos resultados está no quadro abaixo). A qualidade das duas fábricas é a mesma? Caso
a sua resposta seja negativa, dê um intervalo de confiança para indicar a intensidade dessa desigualdade.
Estatísticas
Fábrica A
Fábrica B
Amostra
21
17
Média
21,15
21,12
Variância
0,0412
0,1734
13.3 Comparação de Duas Populações: Amostras Independentes
Nesta seção, estudaremos o caso em que temos duas amostras independentes, X1, ..., Xn e Y1,
..., Ym, de duas populações P1 e P2, respectivamente.
Estaremos interessados em comparar as médias dessas populações, verificando se elas podem
ser consideradas iguais ou não. No caso de populações normais, teremos, preliminarmente, de
usar o que aprendemos na seção anterior, para testar se as variâncias de P1 e P2 são iguais.
Consideraremos duas situações: na primeira, iremos supor que as populações sejam normais
(reveja os Problemas 32, 33 e 34 do Capítulo 10, os Problemas 31 e 32 do Capítulo 11 e o
Problema 29 do Capítulo 12); na segunda, essa suposição não é necessária.
13.3.1 Populações Normais
Aqui, P1 ∼ N(µ1, σ21) e P2 ∼ N(µ2, σ22).
Queremos testar a hipótese (13.1), que aqui fica escrita na forma
H0: µ1 = µ2.
Na situação da Figura 13.2 (c), a alternativa adequada é
H1: µ2 > µ1,
mas supondo as variâncias iguais. Se estivermos apenas interessados em verificar se existe
diferença entre as médias das duas populações, não importando a direção, então a alternativa
adequada será
H1: µ1 ≠ µ2.
Para cada amostra calculamos os estimadores da média e da variância:
Sob a hipótese H0, isto é, µ1 = µ2,
(13.6)
(13.7)
Como X – Y tem distribuição normal, se as variâncias fossem conhecidas, a estatística
(13.8)
teria distribuição normal padrão, sob a hipótese nula H0, e poderia ser usada para testar H0 contra
H1. Contudo, nas situações de interesse prático, as variâncias não são conhecidas, devendo ser
substituídas por estimativas convenientes. Aqui, a distribuição t de Student desempenha papel
importante. Notemos que, da definição da v.a. t de Student,
, podemos obter
(13.9)
o que mostra uma relação entre as distribuições t(n – 1) e F(1, n – 1). Observe que o numerador
de (13.9) é o quadrado de uma N(0, 1) e, portanto, tem uma distribuição χ2(1), e o denominador é
o quociente de uma v.a. χ2(n – 1) por (n – 1).
Vamos considerar dois casos.
(a) Mesma Variância, Desconhecida
Suponha que, ao testar a hipótese de igualdade de variâncias, esta não seja rejeitada, isto é, σ21
= σ22 = σ2, porém essa variância comum é desconhecida. Como S21 e S22 são dois estimadores não
viesados de σ2, podemos combiná-los para obter um estimador comum
(13.10)
que também é um estimador não viesado de σ2. Mais ainda, cada parcela do numerador de
(13.10), quando dividida por σ2, terá distribuição qui-quadrado, com (n – 1) e (m – 1) graus de
liberdade, respectivamente. Logo, teremos que
(13.11)
Pelo Teorema 7.1, a estatística
(13.12)
terá uma distribuição t de Student, com (n + m – 2) graus de liberdade, sob a hipótese H0, isto é,
se µ1 = µ2.
Tabela 13.1 Dados
para duas técnicas de vendas.
Vendas
Dados
Técnica A
Técnica B
Média
68
76
Variância
50
52
Vendedores
12
15
Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por
12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores
resultados. No final de um mês, obtiveram-se os resultados da Tabela 13.1.
Vamos testar, para o nível de significância de 5%, se há diferenças significativas entre as
vendas resultantes das duas técnicas. Supondo que as vendas sejam normalmente distribuídas e
usando o teste da Seção 13.2, vemos que σ2A = σ2B.
As hipóteses a serem testadas ficam
Exemplo 13.4
H0: µA = µB
H1: µA < µB.
Pelas suposições acima, podemos usar a estatística (13.12), com n = 12, m = 15 e S2p = (11S2A
+ 14S2B)/25. Da Tabela V obtemos RC = ]1,708, + ∞[.
Da Tabela 13.1 calculamos
Como t0 ∈ RC, rejeitamos H0, ou seja, existe evidência de que a técnica B produz melhores
resultados do que a técnica A.
Encontrada diferença entre os métodos, a continuação natural é construir um intervalo de
confiança para a diferença ∆ = µB – µA. Do resultado (13.12) é fácil verificar que
Para o nosso exemplo, com γ = 0,95, esse intervalo reduz-se a
(b) Variâncias Desiguais, Desconhecidas
Quando a hipótese de igualdade de variâncias for rejeitada, devemos usar a estatística
(13.13)
Pode-se provar que, sob a veracidade de H0, a v.a. T aproxima-se de uma distribuição t de
Student, com o número de graus de liberdade dado aproximadamente por
(13.14)
na qual
A = s21/n, B = s22/m.
Como esse valor é geralmente fracionário, arredonde para o inteiro mais próximo para obter o
número de graus de liberdade.
Queremos testar as resistências de dois tipos de vigas de aço, A e B. Tomando-se n =
15 vigas do tipo A e m = 20 vigas do tipo B, obtemos os valores na Tabela 13.2. Usando um teste
F com nível α = 10% rejeitamos a hipótese de variâncias iguais.
Exemplo 13.5
Tabela 13.2 Médias
e variâncias para dois tipos de vigas de aço.
Tipo
Média
Variância
A
70,5
81,6
B
84,3
210,8
Consideremos as hipóteses
H0: µA = µB
H1: µA ≠ µB.
A estatística a ser usada é (13.13), com ν = (255,36) /(2,11 + 5,85) = 32,08, logo tomamos ν =
32. Com α = 0,05, obtemos da Tabela V que RA = ]–2,037; 2,037[. Com os dados da Tabela
13.2, temos t0 = (–13,8)/(4,0) = –3,45.
Como t0 ∈ RC, rejeitamos H0, ou seja, há evidências de que os dois tipos de vigas têm
resistências médias diferentes.
Problemas
5. Num estudo comparativo do tempo médio de adaptação, uma amostra aleatória, de 50 homens e 50 mulheres de um grande
complexo industrial, produziu os seguintes resultados:
Estatísticas
Homens
Mulheres
Médias
3,2 anos
3,7 anos
Desvios padrões
0,8 anos
0,9 anos
Que conclusões você poderia tirar para a população de homens e mulheres dessa indústria? (Indique as suposições feitas para
resolver o problema.)
6. Diversas políticas em relação às filiais de uma rede de supermercados estão associadas ao gasto médio dos clientes em cada
compra. Deseja-se comparar esse parâmetro para duas novas filiais, por meio de duas amostras de 50 clientes cada. As
médias obtidas foram 62 e 71, respectivamente. Sabe-se que o desvio padrão, em ambos os casos, deve ser da ordem de 20
unidades. É possível afirmar que o gasto médio nas duas filiais seja o mesmo? Caso contrário, dê um intervalo de confiança
para a diferença.
7. Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas
especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em
porcentagem de corrosão eliminada). Qual seria a conclusão sobre os dois tratamentos?
Método
Amostra
Média
Desvio Padrão
A
15
48
10
B
12
52
15
8. No Problema 4, teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais.
9. Para investigar a influência da opção profissional sobre o salário inicial de recém-formados, investigaram-se dois grupos de
profissionais: um de liberais em geral e outro de formados em Administração de Empresas. Com os resultados abaixo,
expressos em salários mínimos, quais seriam suas conclusões?
Liberais
6,6
10,3
10,8
12,9
9,2
12,3
7,0
Administradores
8,1
9,8
8,7
10,0
10,2
8,2
8,7
10,1
13.3.2 Populações Não Normais
Passamos, agora, a descrever um teste que não faz suposições a respeito da forma das
distribuições P1 e P2, a não ser que as variáveis envolvidas tenham uma escala de medida pelo
menos ordinal. Ou seja, podemos abordar o caso de variáveis qualitativas ordinais e variáveis
quantitativas. Esse teste (chamado de Wilcoxon ou de Mann-Whitney) pertence a uma categoria
de procedimentos chamados não paramétricos ou livres de distribuição.
Teremos para análise amostras independentes das duas populações e queremos testar a
hipótese (13.1) contra a alternativa de que as distribuições diferem em localização: estaremos
interessados em saber se uma população tende a ter valores maiores do que a outra, ou se elas
têm a mesma mediana ou média.
O teste de Wilcoxon é baseado nos postos dos valores obtidos combinando-se as duas
amostras. Isso é feito ordenando-se esses valores, do menor para o maior, independentemente do
fato de qual população cada valor provém. A estatística do teste é a soma dos postos associados
aos valores amostrados de uma população, P1, por exemplo. Se essa soma for grande, isso é uma
indicação de que os valores dessa população tendem a ser maiores do que os valores de P2, e,
então, rejeitamos (13.1).
No caso de termos uma v.a. qualitativa ordinal, comumente associamos números às diversas
categorias (ou classes, ou atributos), segundo as quais a variável é classificada. Por exemplo,
podemos ter 1 para bom, 2 para muito bom e 3 para ótimo. Vemos, então, que esses valores são
os postos, nesse caso, e em outras situações é preferível trabalhar com postos do que com valores
arbitrários associados à v.a. qualitativa.
Quando trabalhamos com v.a. quantitativas poderemos ter valores repetidos nas amostras.
Veremos como associar postos nesse caso. Para evitar esses empates, uma possibilidade é supor
que a v.a. seja contínua, de modo que se X for uma tal variável, P(X = x0) = 0. Essa suposição é
eventualmente necessária para o desenvolvimento teórico do teste, mas na prática, quer X seja
contínua ou discreta, valores repetidos poderão aparecer.
(a) Observações Distintas
Suponha que tenhamos N observações Z1, Z2, ..., ZN. Ordenando-as da menor para a maior
obtemos as estatísticas de ordem, Z(1) ≤ Z(2) ≤ ... ≤ Z(N). Inicialmente, suponha que não haja
observações coincidentes, de modo que os sinais de ≤ são substituídos por <. Então, associamos
números (normalmente 1, 2, ..., N), chamados postos, que correspondem às posições das
observações na ordenação. O posto de Zi é igual a 1 + (número de Zj < Zi). Assim, dadas as
observações
Z1 = 0,3, Z2 = 1,5, Z3 = –0,5, Z4 = 2,0,
os postos de Z1, Z2, Z3 e Z4 serão, respectivamente,
R1 = 2, R2 = 3, R3 = 1, R4 = 4,
já que a ordenação resulta em
–0,5 < 0,3 < 1,5 < 2,0, ou Z3 < Z1 < Z2 < Z4.
Num estudo sobre um novo método para ensinar Matemática elementar, foram
selecionadas cinco crianças. Destas, três são escolhidas ao acaso e ensinadas segundo o novo
método, enquanto as outras duas funcionaram como controle e receberam instrução por um
método tradicional. Após um período de cinco semanas é feito um teste, e as crianças são
ordenadas segundo seu desempenho: a criança que tiver menor nota recebe posto 1 etc., até a
criança que tiver maior nota recebe posto 5.
O método de ensino será considerado eficaz se as três crianças que recebem o novo método
tiverem postos altos nessa ordenação combinada das cinco crianças. Seja H0 a hipótese nula que
especifica que o tratamento (novo método) não tem efeito, isto é, a nota da criança não é afetada
se ela for ou não ensinada pelo novo método. Se H0 for verdadeira, o posto atribuído a cada
criança é determinado somente pela sua inteligência, ou seja, a ordenação das crianças não
depende de qual recebe tratamento e qual funciona como controle. A Tabela 13.3 mostra todos
os casos possíveis para a ordenação, em que C indica controle e T, tratamento.
Exemplo 13.6
Tabela 13.3 Valores
de WS para o Exemplo 13.6.
Postos
1
2
C
C
WS
3
4
5
C
T
T
T
12
T
C
T
T
11
T
C
C
T
T
10
C
T
T
C
T
10
T
C
T
C
T
9
C
T
T
T
C
9
T
C
T
T
C
8
T
T
C
T
C
7
T
T
T
T
T
C
C
C
C
T
6
8
Vemos que as crianças e seus postos podem ser divididos em dois grupos (tratados e
controles) de
maneiras diferentes. A suposição de que as três crianças recebendo o
tratamento são selecionadas ao acaso e de que os tratamentos são equivalentes, implica
que todas as dez possibilidades têm a mesma probabilidade 1/10.
Consideremos a estatística
WS = S1 + S2 + S3, (13.15)
em que S1, S2 e S3 são os postos das crianças que receberam o tratamento na amostra combinada.
Poderíamos considerar como regra de decisão para rejeitar H0 a ocorrência de WS = 12,
correspondendo à ocorrência de CCTTT, clara superioridade do tratamento. Qual seria a
probabilidade de esse evento ocorrer por mero acaso, ou seja, quando os dois métodos são
equivalentes? Nesse caso teremos
P(WS = 12|H0 verdadeiro) = 0,10,
que é a probabilidade do erro de tipo I, ou seja, o nível de significância do teste. Mas, como
vimos antes, usualmente procedemos de maneira oposta, ou seja, fixamos α e não a regra de
decisão.
Como vimos acima, rejeitamos H0 para valores grandes de WS, ou seja, WS ≥ c, em que c é uma
constante determinada a partir do nível de significância do teste, α. Obtemos o teste de Wilcoxon:
“Rejeite H0 se WS ≥ c, em que c é determinada por P(WS ≥ c|H0 é verdadeira) = α”.
A distribuição nula (isto é, sob H0) de WS é obtida da Tabela 13.3 e está na Tabela 13.4.
Tabela 13.4 Distribuição
de WS, observações distintas.
w
6
7
8
9
10
11
12
P(WS = w)
1/10
1/10
2/10
2/10
2/10
1/10
1/10
A distribuição de WS é simétrica ao redor do valor 9 que, como veremos, representa a média de
WS, dada por n(N + 1)/2, com N = n + m (Ver Figura 13.3).
Figura 13.3 Distribuição
de WS para o Exemplo 13.6.
Se, por exemplo, α = 0,05, não existe valor satisfazendo P(WS ≥ c) = 0,05. Podemos encontrar
c somente para valores de α iguais a 0,1; 0,2; 0,4 etc. Por exemplo, se α = 0,1, então
P(WS ≥ 12) = 0,1 e c = 12.
Consideremos, agora, a situação geral. Queremos testar (13.1). Temos duas amostras
independentes, X1, ..., Xn, de P1, e Y1, ..., Ym, de P2. Seja N = n + m e combinamos as duas
amostras numa só, ordenamos os N valores no menor para o maior e chamemos S1 < S2 < ... < Sm
os postos dos Yi (tratamentos) e R1 < R2 < ... < Rn os postos dos Xi (controles). Estamos supondo
que não haja empates. Seja
WS = S1 + S2 + ... + Sm (13.16)
a soma dos postos dos tratamentos. Rejeitamos H0 se WS ≥ c.
No caso bilateral, rejeite H0 se WS < c1 ou WS > c2, para dado α.
Não é difícil verificar que, se a distribuição de P1 for contínua, então
(13.17)
em que s1 < s2 < ... < sm e si ∈ {1, 2, ..., N}, N = n + m.
Por (13.17) vemos que a distribuição dos postos e portanto de WS não depende de P1.
Isso não ocorrerá se P1 não for contínua. Se as distribuições P1 e P2 forem contínuas, há ausência
de empates (isto é, coincidência entre valores de X e de Y). Isso significa que poderíamos
considerar nossas medidas de X e Y de tal sorte que coincidências seriam evitadas. Na prática,
contudo, as medidas são feitas em geral com o mesmo número de casas decimais, de modo que
empates podem ocorrer. Essa situação é analisada abaixo.
A distribuição sob H0 de WS pode ser encontrada como no Exemplo 13.6. Para dado valor de
w, verificamos quantas amostras de tamanho m, retiradas de P = {1, 2, ..., N} fornecem o valor
de w. Se # (w; n, m) indicar esse número, então, por (13.17),
Observação.
(13.18)
Pode-se provar o seguinte resultado (veja, por exemplo, Lehmann, 1975):
Teorema 13.1
Para a estatística WS temos:
(13.19)
(13.20)
Além disso, a distribuição de WS pode ser aproximada pela distribuição normal; quando n, m
→ ∞, a v.a.
(13.21)
tem uma distribuição aproximada N(0, 1).
Uma estatística equivalente a WS é
(13.22)
chamada estatística de Mann-Whitney. Há duas vantagens em se usar US:
(a) a distribuição de US para n = n1 e m = m1 é a mesma que a distribuição de US quando os
tamanhos são invertidos, isto é, para n = m1 e m = n1. Isso não acontece com WS;
(b) o valor mínimo de WS é obtido quando os postos dos m tratamentos são 1, 2, ..., m
e 1 + 2 + ... + m = m(m + 1)/2; logo, o valor mínimo de US é zero, para quaisquer valores de
n e m, simplificando a construção de tabelas. A Tabela VIII do Apêndice dá os valores de
P(US ≤ u).
Para essa estatística temos o resultado seguinte.
Teorema 13.2
A média e variância de US são dadas por
(13.23)
e
(13.24)
respectivamente. Além disso, a distribuição de US pode também ser aproximada por uma normal.
Suponha que m = n = 10 e queremos calcular P(WS ≤ 87). O valor tabelado é 0,0952,
que é encontrado na Tabela VIII com n = m = 10, e levando-se em conta que US = 87 – 10 × 11/2
= 32 e, portanto, P(US ≤ 32) = 0,0952.
Por outro lado, usando a aproximação normal, E(WS) = 105, Var(WS) = 175, temos
Exemplo 13.7
que está bem próxima do valor encontrado usando-se a tabela.
A aproximação pode ser melhorada usando-se a correção de continuidade discutida na Seção
7.5, pois aqui também estamos aproximando a distribuição de uma v.a. discreta (WS) por uma
distribuição de variável contínua (normal). Verifique que, usando essa correção, obtemos P(WS ≤
87) ≈ 0,0934.
(b) Observações Não Todas Distintas
Consideremos, agora, a situação em que haja observações coincidentes, ou empates.
Suponha, por exemplo, que n = 3, m = 2 e as observações são
1,3; 1,5; 1,5; 2,1; 2,5.
Nesse caso, usamos postos médios. Associamos o posto 1 à observação 1,3; às duas
observações empatadas 1,5 associamos a média dos postos 2 e 3, que seriam atribuídas se as
observações fossem distintas, ou seja, atribuímos o posto (2 + 3)/2 = 2,5; à observação 2,1
atribuímos o posto 4 e à observação 2,5 atribuímos o posto 5.
Embora a atribuição de postos seja diferente nesse caso, continuaremos a usar a mesma
notação anterior para os postos das observações Xi e Yi. A distribuição da estatística WS não é
mais dada por (13.17), pois os valores de S1, ..., Sm não são mais os anteriores. Retomemos o
exemplo dado. Temos que a distribuição conjunta dos postos S1 e S2 será:
P(S1 = 1, S2 = 2,5) = 2/10, P(S1 = 1, S2 = 4) = 1/10,
P(S1 = 1, S2 = 5) = 1/10, P(S1 = S2 = 2,5) = 1/10,
P(S1 = 2,5, S2 = 4) = 2/10, P(S1 = 2,5, S2 = 5) = 2/10,
P(S1 = 4, S2 = 5) = 1/10,
pois ainda cada uma das
escolhas de dois dos postos médios como S1 e S2 são igualmente
prováveis. Portanto a distribuição de WS = S1 + S2 é dada pela Tabela 13.5.
Tabela 13.5 Distribuição
de WS, observações não-distintas.
w
3,5
5,0
6,0
6,5
7,5
9,0
P(WS = w)
2/10
2/10
1/10
2/10
2/10
1/10
Observe que a distribuição da v.a. WS nesse caso não é simétrica; será simétrica ao redor de
m(N + 1)/2 se n = m.
Genericamente, o teste de Wilcoxon, no caso de observações empatadas, rejeita H0 usando a
mesma regra de decisão que no caso de observações não empatadas, exceto que a distribuição de
WS vai depender de n, m e dos números de observações empatadas em cada valor, ao contrário da
situação de não empates, para a qual a distribuição de WS depende somente de n e m.
Supondo n = 3, m = 2, as observações dos controles são 1,3, 1,5 e 2,1, e as
observações dos tratamentos são 1,5 e 2,5. Então,
Exemplo 13.8
S1 = 2,5, S2 = 5, R1 = 1, R2 = 2,5, R3 = 4 e WS = S1 + S2 = 7,5.
Pelo que vimos acima, o valor-p será
α
= P(WS ≥ 7,5) = 2/10 + 1/10 = 0,3,
logo não rejeitaremos H0 nos níveis usuais.
Suponha que temos d1 observações empatadas no menor valor, d2 observações empatadas no
segundo menor valor etc. até de observações empatadas no maior valor, em que e é o número de
valores distintos. Denominamos (e; d1, ..., de) de configuração de empates, e a distribuição de WS
dependerá dessa configuração. Assim sendo, tabelas teriam de ser construídas para cada
configuração de empates, o que não é prático. O que se faz é o seguinte: se o número de empates
for pequeno, continue a usar a Tabela VIII. Caso contrário, use a aproximação normal. Nesse
caso, a média de WS é a mesma anterior, mas a variância é igual à anterior menos uma correção
devida aos empates:
(13.25)
A aproximação normal será adequada se m e n forem relativamente grandes, e as proporções
di/N não forem próximas de 1.
Em aparelhos dentários são usados grampos de dois tipos: um modelo em T e outro
circunferencial, C. O objetivo é verificar se a resistência à remoção de grampos em T é a mesma
do modelo C. Foram usados 40 corpos de provas (dente-grampo), sendo 20 para o modelo T e 20
para o modelo C, com cinco leituras para cada corpo de prova, num total de 100 observações
para cada modelo. As Figuras 13.4 e 13.5 mostram os histogramas para os dois modelos, a
resistência sendo medida em kg.
Exemplo 13.9
Figura 13.4 Resistência
à remoção, em kg, para o modelo C.
Figura 13.5 Resistência
à remoção, em kg, para o modelo T.
Vemos que há assimetrias nos histogramas, sugerindo que a aplicação do teste t de Student
não é adequada nessa situação. A Tabela 13.6 mostra as médias das 5 leituras para cada corpo de
prova, para o modelo T e para o modelo C (em ordem crescente).
Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T, e
grampos do tipo C constituam o tratamento. Ordenando as médias da Tabela 13.6 e atribuindo
postos obtemos a Tabela 13.7.
Tabela 13.6 Valores
Tabela 13.7 Postos
de resistência à remoção para os dois modelos.
T
C
T
C
0,60
0,52
1,19
1,19
0,63
0,77
1,20
1,20
0,83
0,79
1,26
1,34
0,85
0,79
1,28
1,36
0,91
0,81
1,30
1,38
0,95
0,81
1,37
1,43
1,01
0,89
1,45
1,64
1,03
0,98
1,54
1,71
1,03
1,01
1,68
2,16
1,16
1,18
2,20
2,25
para o Exemplo 13.9.
Média 0,52 0,60 0,63 0,77 0,79 0,79 0,81 0,81 0,83 0,85
Tipo
C
T
T
C
C
C
T
T
Posto
1
2
3
4
5,5 5,5 7,5 7,5
C
C
9
10
Média 0,89 0,91 0,95 0,98 1,01 1,01 1,03 1,03 1,16 1,18
Tipo
C
T
T
C
T
C
Posto
11
12
13
14 15,5 15,5 17,5 17,5 19
C
T
T
T
20
Média 1,19 1,19 1,20 1,20 1,26 1,28 1,30 1,34 1,36 1,37
T
T
T
C
C
T
Posto 21,5 21,5 23,5 23,5 25
Tipo
C
T
T
C
26
27
28
29
30
Média 1,38 1,43 1,45 1,54 1,64 1,68 1,71 2,16 2,20 2,25
Tipo
C
C
T
T
C
T
C
C
T
C
Posto
31
32
33
34
35
36
37
38
39
40
Aqui n = m = 20 e queremos testar
H0: a resistência à remoção é a mesma para os dois tipos de grampos;
H1: o tipo C apresenta menor resistência à remoção do que o do tipo T.
A soma dos postos dos tratamentos é
WS = S1 + S2 + ... + S20 = 406,5.
Usando a aproximação normal, a v.a.
(13.26)
em que Var(WS) é dada por (13.25), e terá distribuição aproximadamente N(0, 1). Consultando a
Tabela 13.7, temos
d1 = d2 = d3 = d4 = 1, d5 = 2, d6 = 2, d7 = ... = d12 = 1,
d13 = 2, d14 = 2, d15 = d16 = 1, d17 = 2, d18 = 2,
d19 = ... = d34 = 1.
Aqui, temos e = 34 valores distintos e
E(WS) = (20 × 41)/2 = 410,
Var(WS) = (20 × 20 × 41)/12 – (20 × 20)/(12 × 40 × 39) [(8 – 2) × 6]
= 1.366,667 – 2,857 = 1.363,810.
O valor de (13.26) é
Z = (406,5 – 410)/36,93 = –0,095.
Como rejeitaremos H0 se WS ≤ c, no nível α = 0,05, devemos comparar esse valor com o valor
–1,64 da normal padrão, portanto não rejeitamos H0.
Vemos que o valor-p do teste é
α = P(WS ≤ 406,5) ≈ P(Z ≤ –0,095) = 0,46,
que é uma indicação de que a hipótese H0 deve ser aceita.
Comparação entre o Teste t e o Teste de Wilcoxon.
O teste t baseia-se na suposição de que as populações P1 e P2 sejam normais. Uma violação
dessa suposição altera a distribuição da estatística usada no teste e muda as probabilidades dos
erros de tipo I e II. Dizemos que um teste é robusto contra a violação de uma suposição se suas
probabilidades de erro de tipo I e II não são afetadas de forma apreciável pela violação.
Pode-se mostrar que o teste t é pouco sensível à heterogeneidade de variâncias se m = n, mas
ele será mais afetado se as variâncias forem diferentes e m ≠ n.
Os testes t e de Wilcoxon são comparados pelos de seus poderes em termos de uma quantidade
chamada eficiência relativa assintótica, mas não entraremos em detalhes aqui sobre esse assunto.
Mas podemos resumir a situação da seguinte maneira:
(a) o teste t é mais poderoso quando temos populações normais, mas a perda de eficiência do
teste de Wilcoxon é pequena (menos de 5%) nesse caso;
(b) haverá pouca diferença entre os dois testes para distribuições próximas da normal;
(c) o teste de Wilcoxon é mais eficiente para distribuições que têm caudas “mais pesadas” do
que a normal.
Para se ter uma ideia do que significa mais pesada, observamos que as distribuições t e
Cauchy têm distribuições com caudas mais pesadas que a normal. Se P1 e P2 forem ambas
uniformes, pode-se provar que os dois testes são igualmente eficientes e se P1 e P2 forem ambas
exponenciais, o teste de Wilcoxon é três vezes mais eficiente.
Observação.
Problemas
10. Vinte canteiros foram plantados com milho. Em dez deles um novo tipo de fertilizante foi aplicado, obtendo-se as produções
abaixo. Há diferenças significativas entre as produções? A alternativa é que o novo fertilizante tende a produzir valores maiores.
Tome α
= 0,05. Calcule α.
Controle
7,1
6,0
8,0
7,0
6,6
7,4
7,0
7,0
6,9
6,8
Tratamento
6,9
6,8
7,5
6,8
6,9
6,8
6,8
6,8
6,7
6,6
11. Obtenha a distribuição nula de WS para os casos:
(a) m = 2, n = 2; (b) m = 2, n = 4; (c) m = n = 3.
12. Calcule as seguintes probabilidades, usando a Tabela VIII e a aproximação normal.
(a) m = 6, n = 7, P(WS ≤ 48)
(b) m = 8, n = 10, P(WS ≤ 65)
(c) m = 10, n = 10, P(WS ≥ 63)
13. Encontre a distribuição nula de WS no caso de empates, para os casos:
(a) m = n = 3, d1 = d2 = 1, d3 = 2, d4 = d5 = 1
(b) m = n = 3, d1 = d2 = d3 = 2
(c) m = 2, n = 3, d1 = d2 = 1, d3 = 3
14. Faça os histogramas para WS nos Problemas 11 e 13.
15. Suponha que as observações dos tratamentos sejam 3, 3, 5 e 7, e as observações dos controles sejam 1, 4 e 8, e que o teste de
Wilcoxon rejeite para valores grandes de WS. Calcule α = P(WS
≥ w), em que w é o valor observado de WS.
13.4 Comparação de Duas Populações: Amostras Dependentes
Na Seção 13.1, já discutimos essa situação. Aqui, temos duas amostras X1, ..., Xn e Y1, ..., Yn, só
que agora as observações são pareadas, isto é, podemos considerar que temos na realidade uma
amostra de pares (X1, Y1), ..., (Xn, Yn). Se definirmos a v.a. D = X – Y, teremos a amostra D1, D2,
..., Dn, resultante das diferenças entre os valores de cada par. Observe que reduzimos a um
problema com uma única população, conforme estudado nos capítulos anteriores.
Consideraremos dois casos: no primeiro, supomos que a população das diferenças é normal;
no segundo, supomos que essa população é simétrica.
13.4.1 População Normal
Nessa situação, faremos a seguinte suposição: a v.a. D tem distribuição normal N(µD, σ2D).
Podemos deduzir daqui que
(13.27)
terá distribuição N(µD, σ2D/n).
Considere
(13.28)
Pelo Teorema 7.1, a estatística
(13.29)
terá distribuição t de Student, com (n – 1) graus de liberdade.
Como
µD = E(D) = E(X – Y) = E(X) – E(Y) = µ1 – µ2,
qualquer afirmação sobre o µ1 – µ2 corresponde a uma afirmação sobre µD.
Cinco operadores de certo tipo de máquina são treinados em máquinas de duas
marcas diferentes, A e B. Mediu-se o tempo que cada um deles gasta na realização de uma
mesma tarefa, e os resultados estão na Tabela 13.8.
Exemplo 13.10
Tabela 13.8 Tempos
para realização de tarefa para cinco operadores.
Operador
Marca A
Marca B
1
80
75
2
72
70
3
65
60
4
78
72
5
85
78
Com o nível de significância de 10%, poderíamos afirmar que a tarefa realizada na máquina A
demora mais do que na máquina B?
Estamos interessados em testar
H0: µA = µB
H1: µA > µB.
Essas hipóteses são equivalentes a
H0: µD = 0
H1: µD > 0.
Como é o mesmo operador que realiza a tarefa nas duas máquinas, estamos diante do caso em
que se pode usar variáveis emparelhadas. Vamos admitir que, sob H0, a diferença de tempo segue
uma distribuição normal N(0, σ2D). Logo, usamos a estatística (13.29).
Para determinar a região crítica, note que, devido à forma de H1, devemos encontrar tc tal que
P(T > tc) = 0,10, sendo que T tem distribuição t(4). Usando a Tabela V, obtemos
RC = ]1,54; +∞[.
Da Tabela 13.8 obtemos os valores de D:
di: 5, 2, 5, 6, 7
e, portanto,
d– = 5 e s2D = 3,5.
O valor observado da estatística T é
Segue-se que rejeitamos H0, ou seja,
demora-se mais para realizar a tarefa com a máquina A.
Podemos construir um intervalo de confiança para µD; para γ = 0,90,
ou seja,
IC(µD; 0,90) = ]3,22; 6,78[.
13.4.2 População Não Normal
Vamos considerar, agora, um teste baseado nos postos das diferenças Di: o chamado teste dos
postos sinalizados de Wilcoxon. Para esse teste, supomos que a escala das diferenças seja pelo
menos intervalar e que os pares (Xi, Yi) constituam uma AAS.
Isso implica, em particular, que os Di são independentes, com a mesma mediana. Suponha,
ainda, que cada Di tenha uma distribuição simétrica. Ou seja, as médias e medianas coincidem.
Suponha que se possa simular um modelo por meio de duas linguagens
computacionais, que chamaremos A e B. Supostamente, o tempo usando B é menor que o tempo
usando A. Cinco pares de alunos são selecionados para o teste, de modo que cada membro de um
par tenha a mesma habilidade computacional nas duas linguagens do que o outro. Um membro
de cada par é escolhido ao acaso e este vai usar a linguagem B; o outro usará A. O tempo de
simulação (em segundos) de cada linguagem é anotado, obtendo-se a Tabela 13.9.
Exemplo 13.11
Tabela 13.9 Tempos
de simulação (em segundos) para as linguagens A e B.
Par
1
2
3
4
5
tempo de B(X)
300
410
420
410
400
tempo de A(Y)
350
390
490
435
440
D=X-Y
-50
20
-70 -25 -40
Posto de |D|
4
1
5
2
3
Posto sinalizado
-4
+1
-5
-2
-3
Queremos testar a hipótese de que os tempos são semelhantes contra a hipótese de que os
tempos de B são menores. Ou, ainda,
H0: µB – µA = µD = 0,
H1: µB – µA = µD < 0.
Na quarta linha da Tabela 13.9 estão apresentadas as diferenças Di, e os postos são calculados
a partir das variáveis |Di|, ou seja, os módulos (ou valores absolutos) dos Di (quinta linha). A
sexta linha, “posto sinalizado”, é obtida atribuindo-se ao posto de |Di| o sinal correspondente de
Di. Por exemplo, para a primeira observação, D1 = 300 - 350 = -50, com |D1| = 50, que tem posto
4 e, portanto, posto sinalizado -4.
Notamos que só há um posto positivo, +1. Se indicarmos por T+ a soma dos postos positivos,
rejeitaremos H0 se T+ for “pequeno”. É claro que podemos trabalhar com os postos negativos
também, e considerar T - = -(soma dos postos negativos). No exemplo, T+ = 1 e T- = 14. Usando
T-, rejeitaremos H0 se esta for “grande”. Note que T+ + T- = 15, que é a soma de todos os postos
dos |Di|, que, por sua vez, é n(n + 1)/2, sendo n = 5 o número de pares. Em geral, devemos usar a
menor soma.
Trabalhemos com T+. Para conduzir o teste, devemos obter a distribuição dessa estatística, sob
a hipótese nula H0. Para isso, note que, se H0 for verdadeira, cada posto tem a mesma
probabilidade de ser associado com um sinal + ou com um sinal –. Logo, a sequência de postos
sinalizados é uma de todas as possíveis combinações de ±1, ±2, ..., ±5. Há 25 = 32 tais
combinações, todas equiprováveis sob H0, ou seja, com probabilidade 1/32 .
Na Tabela 13.10, temos todas as possibilidades juntamente com o valor de T+. Na Tabela
13.11, temos a distribuição de T+. Note que a distribuição de T+ é simétrica, com média e
mediana iguais a 7,5.
Tabela 13.10 Sinais
possíveis para os postos, Exemplo 13.10.
Tabela 13.11 Distribuição
1
2
3
4
5
T+
1
2
3
4
5
T+
+
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
+
+
+
+
15
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
-
+
+
+
+
+
-
+
+
+
+
+
-
+
+
+
-
7
14
13
12
12
11
11
10
10
10
9
9
9
8
8
8
7
7
6
6
6
5
5
5
4
4
3
3
2
1
0
de T+ sob H0.
T+
Frequência
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 1 2 2 3 3 3 3 3
3
2
2
1
1
1
O valor-p do teste é P(T+ ≤ 1|H0) = 2/32 = 0,06, usando a Tabela 13.11. Ou seja, há indicação
de que o tempo de simulação usando a linguagem B é menor do que o tempo de A. Observe que
temos poucos pares, e o valor α = 0,06 não é tão pequeno (reveja a Tabela 12.2). Mas como
temos somente um posto positivo dentre cinco, somos levados a duvidar da validade de H0.
Vejamos, agora, o caso geral. Tomemos os valores absolutos das diferenças, ou seja,
|Di| = |Xi- Yi|, i = 1, ... m.
Quando Xi = Yi omitir a diferença correspondente e seja n o número de diferenças estritamente
diferentes de zero. Associemos a cada par (Xi, Yi) o posto do módulo de Di correspondente. Use
postos médios, se houver Di coincidentes.
A hipótese a ser testada é que a média (ou a mediana) das diferenças seja igual a zero contra a
alternativa que não seja. Testes unilaterais podem, também, ser considerados. Ou seja, dada a
simetria da distribuição dos Di, iremos testar
H0: µD = 0,
H1: µD ≠ 0,
em que µD representa, como antes, a média das diferenças.
Considere
(13.30)
em que R(Xi, Yi) é o posto associado a (Xi, Yi).
Temos dois casos a tratar:
(a) Se não houver empates, use a estatística
(13.31)
ou seja, a soma dos postos positivos. Use a Tabela IX, página 528, para obter os quantis wp da
estatística, ou seja, o valor, tal que P(T+ < wp) ≤ p e P(T+ > wp) ≤ 1 – p, se H0 for verdadeira. Para
n > 50 use a aproximação normal, com média e variância dados no teorema abaixo. Para p > 0,5
o quantil é dado por
(b) Se houver empates, use a estatística
(13.32)
que tem uma distribuição aproximadamente N(0,1), sob a hipótese nula.
Teorema 13.3
A média e variância de T+ são dadas por
(13.33)
e
(13.34)
respectivamente.
(continuação) Obtivemos aqui T+ = 1. A região crítica é unilateral à esquerda, logo
rejeitamos H0 se T+ < wα, em que wα é o quantil dado pela Tabela IX. Se fixarmos α = 0,025 ou α
= 0,01, obteremos wα = 0, com n = 5, e, portanto, aceitaremos H0. Se α = 0,05, então wα = 1, e o
valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0.
Como salientamos antes, a decisão, nesse caso, dependerá de uma análise cuidadosa dos
resultados, dado o pequeno valor de n.
Exemplo 13.11
13.5 Comparação de Proporções em Duas Populações
Nosso objetivo agora é a comparação das proporções p1 e p2 de indivíduos de duas populações
P1 e P2, respectivamente, que tenham um mesmo atributo. Para isso, extraímos duas amostras
independentes dessas populações, com tamanhos n1 e n2, respectivamente, e obtemos os
estimadores usuais 1 e 2. Das seções 10.9 e 12.6 temos que
Usando os resultados da Seção 13.3.1 e Problema 10.32, obtemos
e portanto,
Pode-se provar que, substituindo p1 e p2 por seus estimadores,
(13.35)
Suponha agora que queiramos testar as hipóteses
H0: p1 = p2,
H1: p1 ≠ p2.
Usando os mesmos argumentos apresentados na Seção 13.3.1(a), deve-se usar um estimador
comum de p1 = p2, a saber
e de (13.35) obtemos, sob H0,
(13.36)
Para lançamento da nova embalagem do sabonete X a divisão de criação estuda duas
propostas, A e B. Em cada um de dois supermercados similares, foram colocados sabonetes com
cada tipo de embalagem, e a clientes selecionados aleatoriamente foi perguntado se tinham
notado o sabonete e que descrevessem o tipo de embalagem. Abaixo estão os resultados:
Exemplo 13.12
Notaram?
Proposta
Total
Sim
Não
A
168
232
400
B
180
420
600
Total
348
652
1000
Queremos testar a hipótese que os dois tipos de embalagem são igualmente atraentes, ou seja,
H0: pA = pB,
H1: pA ≠ pB.
Da tabela obtemos
c
= 348/1000 = 0,348, substituindo em (13.36), obtemos:
Consultando a Tabela III, encontramos um valor-p próximo de zero, o que leva à rejeição de
H0. Como este resultado mostra que as variâncias também são diferentes, a construção de um
intervalo de confiança para pA – pB pode ser feita usando (13.35). Supondo o coeficiente de
confiança γ = 0,95, obtemos
ou seja,
IC (pA − pB; 0,95) = ]0,059; 0,181[.
Problemas
16. Para investigar a lealdade de consumidores a um determinado produto, sorteou-se uma amostra de 200 homens e 200
mulheres. Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados trazem evidências de
diferença de grau de fidelidade entre os sexos? Em caso afirmativo construa um intervalo de confiança para a diferença.
17. Em uma amostra de 500 famílias da cidade A, constatou-se que 298 haviam comprdo, durante os últimos 30 dias, o
refrigerante Meca-Mela em sua nova versão incolor. Na cidade B, esse número foi de 147 em 300 famílias entrevistadas. Na
cidade A, foi feita uma campanha publicitária pela rádio local, e não na cidade B. Os resultados trazem evidências de que as
campanhas locais aumentam as vendas?
18. Um partido afirma que a porcentagem de votos masculinos a seu favor será 10% a mais que a de votos femininos. Em uma
pesquisa feita entre 400 homens, 170 votariam no partido, enquanto que entre 625 mulheres, 194 lhe seriam favoráveis. A
afirmação do partido é verdadeira ou não? Caso rejeite a igualdade, dê um IC para a diferença.
19. Para investigar os resultados do segundo turno de uma eleição estadual tomaram-se duas amostras de 600 eleitores cada: uma
da capital e outra do interior. Da primeira, 276 disseram que votariam no candidato A, enquanto que 312 eleitores do interior
também o fariam.
(a) Estime a proporção de eleitores da capital que votariam em A. Dê um IC.
(b) Existe diferença nas proporções entre capital e interior?
(c) Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro
inferior a 2%?
(d) Qual a proporção esperada de votos que irá receber o candidato A no estado?
(e) De uma amostra de 120 indivíduos da classe A e B, 69 são favoráveis a eleição em dois turnos, enquanto que em uma
amostra de 100 indíviduos da classe C, 48 é que são favoráveis. Existe evidência e diferenças de opiniões em relação à classe
social?
20. Para verificar a importância de um cartaz nas compras de certo produto, procedeu-se do seguinte modo:
(a) formaram-se sete pares de lojas;
(b) os pares foram formados de modo que tivessem as mesmas características quanto à localização, ao tamanho e ao volume de
vendas;
(c) num dos elementos do par, colocou-se o cartaz; no outro, não;
(d) as vendas semanais foram registradas, e os resultados estão a seguir.
Qual seria a sua conclusão sobre a eficiência do cartaz? Use o teste t, fazendo as suposições necessárias.
Vendas
Pares
1
2
3
4
5
6
7
Sem cartaz
Com cartaz
13
18
14
16
19
12
22
16
24
18
14
26
17
29
21. Resolva o problema anterior, usando o teste dos postos sinalizados de Wilcoxon.
22. Aplique o teste de Wilcoxon para os dados do Exemplo 13.10.
23. Os dados abaixo referem-se a medidas de determinada variável em 19 pessoas antes e depois de uma cirurgia. Verifique se as
medidas pré e pós-operatórias apresentam a mesma média. Que suposições você faria para resolver o problema? Faça gráficos
apropriados para verificar suas suposições.
Pessoas
Pré
Pós
Pessoas
Pré
Pós
1
50,0
42,0
10
40,0
50,0
2
50,0
42,0
11
50,0
48,0
3
50,0
78,0
12
75,0
52,0
4
87,5
33,0
13
92,5
74,0
5
32,5
96,0
14
38,0
47,5
6
35,0
82,0
15
46,5
49,0
7
40,0
44,0
16
50,0
58,0
8
45,0
31,0
17
30,0
42,0
9
62,5
87,0
18
35,0
60,0
19
39,4
28,0
13.6 Exemplo Computacional
Consideremos as medidas de um índice de placa bacteriana obtidas de 26 crianças em idade
pré-escolar, antes e depois do uso de uma escova experimental (Hugger). Veja o CD-Placa, no
final do livro.
Como temos medidas feitas num mesmo indivíduo, as duas amostras são dependentes. Se
quisermos testar se os índices médios de placa bacteriana antes e depois da escovação são iguais,
teremos de usar a metodologia da seção anterior. Usando a notação dessa seção, teremos que
testar
H0: µ1 = µ2
H1: µ1 > µ2,
ou, o que é equivalente,
H0: µD = 0
H1: µD > 0.
Na Tabela 13.12, temos os dados e as diferenças di = xi – yi, i = 1, 2, ..., 26. Na Figura 13.6,
temos os box plots dos dois conjuntos de dados, que sugerem distribuições bem diferentes.
Tabela 13.12 Índices
de placa bacteriana.
Figura 13.6 Box
Sujeito
Antes (xi)
Depois (yi)
di = xi - yi
Postos de |di|
1
2,18
0,43
1,75
18
2
2,05
0,08
1,97
20
3
1,05
0,18
0,87
7
4
1,95
0,78
1,17
13
5
0,28
0,03
0,25
2
6
2,63
0,23
2,40
23,5
7
1,50
0,20
1,30
16
8
0,45
0,00
0,45
3
9
0,70
0,05
0,65
5
10
1,30
0,30
1,00
10
11
1,25
0,33
0,92
8
12
0,18
0,00
0,18
1
13
3,30
0,90
2,40
23,5
14
1,40
0,24
1,16
12
15
0,90
0,15
0,75
6
16
0,58
0,10
0,48
4
17
2,50
0,33
2,17
21
18
2,25
0,33
1,92
19
19
1,53
0,53
1,00
10
20
1,43
0,43
1,00
10
21
3,48
0,65
2,83
26
22
1,80
0,20
1,60
17
23
1,50
0,25
1,25
14,5
24
2,55
0,15
2,40
23,5
25
1,30
0,05
1,25
14,5
26
2,65
0,25
2,40
23,5
Total
35,52
351,0
plot para xi (antes) e yi (depois). R.
Temos que d– = 1,366 e S2D = 0,5631, donde o desvio padrão SD = 0,75.
A estatística do teste é
Fixando-se α = 0,01, o valor crítico da estatística t com 25 graus de liberdade é 2,485, que
deve ser comparado com o valor obtido acima. Logo, rejeitamos H0, de modo que a nova escova
é eficaz em remover a placa bacteriana.
O valor-p do teste é
α
= P(t(25) > 9,2864) ≈ 0,
o que confirma que a hipótese nula deve ser rejeitada. Um intervalo de confiança para µD é dado
por [1,063; 1,669]. A saída do programa Minitab para efetuar esse teste está no Quadro 13.1.
Uma breve explicação dos comandos segue abaixo:
(a) o comando “Paired C1, C2” significa que estamos solicitando que seja feito um teste com
observações pareadas, que estão nas colunas C1 e C2;
(b) o comando “Test 0.0” significa que queremos um teste para igualdade de médias;
(c) o comando “Alternative 1” significa que a hipótese alternativa é aquela estabelecida acima,
isto é, µ1 > µ2;
(d) o comando “Confidence 95.0” estabelece que o intervalo de confiança a ser construído tem
coeficiente de confiança γ = 0,95;
(e) finalmente, os comandos “GDotplot;” e “GBoxplot.” pedem para fazer um gráfico de
dispersão unidimensional e um box plot, respectivamente.
A saída do programa mostra:
(a) as médias das duas amostras e a diferença das médias (“Mean”);
(b) os desvios padrões das duas amostras e das diferenças (“StDev”); por exemplo, SD = 0,75,
como encontramos acima.
(c) os erros padrões estimados dos estimadores (“SE Mean”); por exemplo, o erro padrão
estimado de X - Y é
esse valor é usado para construir o intervalo de confiança
para µ1 – µ2;
(d) o intervalo de confiança com c.c. = 0,95 para µ1 – µ2, dado por [1,063; 1,669];
(e) o valor observado da estatística t (“T-value”), no caso t = 9,29, e o valor-p (“P-value”), que
é zero nesse caso.
Além dessa saída, podemos pedir gráficos ilustrativos. Por exemplo, o dotplot com o intervalo
de confiança da Figura 13.7. Neste, vemos destacado o valor estipulado por H0, que, no exemplo,
é zero, e não pertence ao intervalo. Na Figura 13.8, temos o box plot das diferenças, com o
mesmo intervalo de confiança e H0.
Quadro 13.1 Test
t pareado. Minitab.
> attach(tab13_12)
> t.test(antes,depois,
alternative="two.sided",
paired=TRUE, conf.level = 0.95)
Paired t-test
data: tab13_12$antes and tab13_12$depois
t = 9.29, df = 25, p-value = 1.4e-09
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
1.0632 1.6691
sample estimates:
mean of the differences
1.3662
Figura 13.7 Dotplot
das diferenças di, com o intervalo de confiança para µD; também mostrados H0 µD = 0 e –d
= 1,366. R.
Figura 13.8 Box
plot para as diferenças di, com o intervalo de confiança para µd; também mostrados H0 µD = 0 e –d
= 1,366. R.
13.7 Problemas Suplementares
24. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho sobre a produtividade de seus
trabalhadores. Para isso, sorteou seis operários, e contou o número de peças produzidas durante uma semana sem intervalo e uma
semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, qual deve ser o
acréscimo médio de produção para todos os trabalhadores da fábrica?
2
3
4
5
Sem Intervalo
Operário
23 35
1
29
33
43 32
6
Com Intervalo
28 38
29
37
42 30
25. Numa indústria, deseja-se testar se a produtividade média dos operários do período diurno é igual à produtividade média dos
operários do período noturno. Para isso, colheram-se duas amostras, uma de cada período, observando-se a produção de cada
operário. Os resultados obtidos foram os seguintes:
n
Σxi Σx2i
Diurno
15
180
2.660
Noturno
15
150
2.980
De acordo com esses resultados, quais seriam suas conclusões?
26. Num levantamento feito com os operários da indústria mecânica, chegou-se aos seguintes números: salário médio
= 3,64
salários mínimos e desvio padrão = 0,85 salário mínimo. Suspeita-se que os salários da subclasse formada pelos torneiros
mecânicos são diferentes dos salários do conjunto todo, tanto na média como na variância. Que conclusões você obteria se uma
amostra de 25 torneiros apresentasse salário médio igual a 4,22 salários mínimos e desvio padrão igual a 1,25 salário mínimo?
27. Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa
região.
69,5 71,6 73,0 68,9 68,9 70,0
72,6 66,2 68,1 72,4 67,6 73,2
67,6 69,7 71,0 69,4 71,5 73,8
69,6 69,6 68,2 69,9 71,4 70,7
69,7 71,0 66,0 70,3 71,7 69,2
69,8 68,4 69,5 68,2 72,1 70,8
72,2 69,2 71,7 65,6 69,6 70,1
69,9 70,5 68,0 70,2 69,0 66,3
69,4 67,1
(a) Analise estatisticamente os dados.
(b) Com base na sua análise, e sabendo que na região considerada existem, ao todo, 200 municípios, em quantos deles você
acha que o gasto com pessoal é maior que 70% do orçamento?
(c) Em outra região, sabe-se que o gasto médio com pessoal é de 65%, e o desvio padrão é de 20%. Qual das duas regiões é
mais homogênea em relação a essa variável? Por quê?
28. Uma amostra de 100 trabalhadores de uma fábrica grande demora, em média, 12 minutos para completar uma tarefa, com um
desvio padrão de dois minutos. Uma amostra de 50 trabalhadores de uma outra fábrica demora, em média, 11 minutos para
completar a mesma tarefa, com desvio padrão igual a três minutos.
(a) Construa um IC de 95% para a diferença entre as duas médias populacionais.
(b) Deixe bem claro quais as suposições feitas para a solução apresentada.
29. Deseja-se testar se dois tipos de ensino profissional são igualmente eficazes. Para isso, sortearam-se duas amostras de
operários; a cada uma, deu-se um dos tipos de treinamento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo
de conclusão você poderia tirar, baseando-se nos resultados abaixo?
Amostra
Nº de elementos
Média
Desvio padrão
Tipo I
12
75
5
Tipo II
10
74
10
30. Numa discussão sobre reajuste salarial, entre empresários e o sindicato dos empregados, chegou-se a um impasse. Os
empresários dizem que o salário médio da categoria é 7,6 salários mínimos (SM), e os empregados dizem que é 6,5 SM. Para
eliminar dúvidas, cada um dos grupos resolveu colher uma amostra independente. Os empresários, com uma amostra de 90
operários, observaram um salário médio de 7,0 SM, com um desvio padrão igual a 2,9 SM. Já a amostra do sindicato, com 60
operários, apresentou média igual a 7,10 SM e desvio padrão de 2,4 SM.
(a) As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos?
(b) De posse dos dois resultados, qual é o seu parecer?
31. A Torrefação Guarany está querendo comprar uma nova ensacadora de café. Após consultar o mercado, ficou indecisa entre
comprar a de marca A ou a de marca B. Quanto ao custo, facilidade de pagamento, tamanho etc. elas são equivalentes. O fator
que decidirá a compra será a precisão em encher os pacotes (medido pela variância). Deseja-se, na realidade, testar hipótese σ2A
= σ2B, por meio da estatística F = S2A/S2B. Podem-se construir regiões críticas bilaterais, unilaterais à direita ou à esquerda,
dependendo do objetivo. Indique qual seria a região crítica mais favorável às seguintes pessoas: (Justifique.)
(a) proprietário da torrefação;
(b) fabricante de A; e
(c) fabricante de B.
32. Um médico deseja saber se uma certa droga reduz a pressão arterial média. Para isso, mediu a pressão arterial em cinco
voluntários, antes e depois da ingestão da droga, obtendo os dados do quadro abaixo. Você acha que existe evidência estatística
de que a droga realmente reduz a pressão arterial média? Que suposições você fez para resolver o problema?
Voluntário
A
B
D
E
Antes
68
80 90 72
C
80
Depois
60
71 88 74
76
33. Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1.190 horas, com desvio padrão
de 90 horas. Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1.230 horas, com desvio padrão
de 120 horas. Admitindo que as variâncias populacionais sejam diferentes, você acha que existe diferença entre as vidas médias
populacionais das lâmpadas produzidas pelas fábricas A e B?
34. Queremos comparar dois métodos de ensino A e B. Dispomos de 40 crianças. Podemos proceder de duas maneiras:
(i) Sorteamos 20 crianças para compor uma classe, e as restantes formam outra classe. Aplicamos um método a cada classe e,
depois, fazemos uma avaliação para todas as crianças a respeito do assunto ensinado.
(ii) Aplicamos inicialmente um teste de inteligência às 40 crianças. Numeramos as crianças de 1 a 40, segundo o resultado do
teste. Consideramos os 20 pares (1, 2), (3, 4), ..., (39, 40), e de cada par sorteamos uma criança para cada classe.
Obtemos, assim, duas classes de 20 crianças, homogêneas quanto à inteligência. Aplicamos um método a cada classe e depois
avaliamos todas as crianças.
(a) Qual a variável de observação em cada procedimento?
(b) Quais as hipóteses estatísticas adequadas?
(c) Qual o teste estatístico de decisão em cada caso?
(d) Qual dos dois procedimentos você preferiria? Por quê?
35. De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um projeto governamental, e de uma
amostra de 160 moradores de uma cidade cuja principal atividade é o turismo, 120 são contra.
(a) Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante?
(b) Qual seria um IC de 90% para a proporção de favoráveis ao projeto nas duas cidades? (Suponha que o número de pessoas
nas duas cidades seja aproximadamente igual.)
36. Para verificar o grau de adesão de uma nova cola para vidros, preparam-se dois tipos de montagem: cruzado (A), em que a
cola é posta em forma de X, e quadrado (B), em que a cola é posta apenas nas quatro bordas. Os resultados da resistência para
duas amostras de 10 cada estão abaixo. Que tipo de conclusão poderia ser tirada?
Método A
16
14
19
18 19 20
15
18
17 18
Método B
13
19
14
17 21 24
10
14
13 15
37. Em um estudo para comparar os efeitos de duas dietas, A e B, sobre o crescimento, 6 ratos foram submetidos à dieta A, e 9
ratos à dieta B. Após 5 semanas, os ganhos em peso foram:
A
15 18
12
11
14 15
B
11 11
12
16
12 13
8
10
13
(a) Admitindo que temos duas amostras independentes de populações normais, teste a hipótese de que não há diferença entre
as duas dietas, contra a alternativa que a dieta A é mais eficaz, usando o teste t de Student, no nível de α
(b) Efetue o teste usando a estatística de Wilcoxon, com α
= 0,01. Calcule α.
= 0,01. Calcule α.
38. As amostras (X1, ..., X10) e (Y1, ..., Y10) de duas populações normais com médias µ1 e µ2 e mesma variância
as estatísticas:
σ2 forneceram
X = 80, S21 = 16; Y = 83, S22 = 18.
Teste, com o nível α = 0,05, a hipótese H0: µ1 = µ2 contra a alternativa H1: µ1 < µ2.
39. Em um estudo sobre um novo método para ensinar Matemática a alunos do primeiro grau, dez crianças foram selecionadas ao
acaso de um grupo de 20 e ensinadas pelo novo método, enquanto as outras dez serviram como controle e ensinadas pelo método
tradicional. Após dez semanas o desempenho dos alunos em um teste foi avaliado e obtiveram-se as seguintes notas:
Novo método
8,5
7,5
9,0
9,5
10,0
7,0
6,5
8,0
8,5
7,0
Controle
7,5
10,0
6,5
5,0
8,0
7,5
4,5
9,5
6,5
7,5
Teste, com nível α
cada caso.
= 0,05, a hipótese de que o novo método é mais eficaz, utilizando o teste t e o teste Wilcoxon. Obtenha α em
= R1 + ... + Rn a soma dos postos dos controles. Qual o valor de WR + WS?
41. Se n = 4 e m = 6, prove que P(WS ≥ 35) = P(WS ≤ 31), usando o fato que WS é simétrica em torno de m(N + 1)/2.
42. Se n = 4 e m = 6, prove que P(WS ≥ 35) = P(WR ≤ 20).
40. Seja WR
43. Para o CD-Placa, teste se a escova convencional é eficaz para remover a placa bacteriana. Calcule o valor-p do teste.
44. Para o CD-Temperaturas, teste se a temperatura média de Cananeia é igual à temperatura média de Ubatuba (suponha que as
observações para cada cidade sejam independentes, embora saibamos que elas não são, pois temos dados de séries temporais).
45. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se:
Cidade
A
B
º
N de entrevistados
400
600
Nº de favoráveis
180
350
Construa um IC para a diferença de proporções de opiniões nas duas cidades.
46. Duas máquinas A e B, são usadas para empacotar pó de café. A experiência passada garante que o desvio padrão para ambas é
de 10 g. Porém, suspeita-se que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da
máquina A e outra com 16 pacotes da máquina B. As médias foram, respectivamente, xA
= 502,74 g e xB = 496,60 g. Com esses
números, e com o nível de 5%, qual seria a conclusão do teste H0: µA = µB?
47. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida Meca-Mela entre as demais similares. Na região norte, a
proporção é de 40 entre 225 entrevistados. Baseado no resultado dessa amostra, você diria que a proporção de todos os moradores
nas duas regiões é a mesma? Use α = 0,05.
48. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos, com duas amostras
independentes de 400 donas de casa em cada uma delas. A preferência pela marca em questão foi de 33% e 29%,
respectivamente. Os resultados trazem alguma evidência de mudança de preferência?
49. No exemplo 13.12, suponha que se acredite que a proposta A chame a atenção em pelo menos 5% a mais do que a proposta
B. Teste a validade de tal afirmação, isto é, teste H0: pA - pB = 0,05 contra H1: pA - pB > 0,05.
Capítulo 14
Análise de Aderência
e Associação
14.1 Introdução
No Capítulo 4, estudamos como analisar descritivamente dois conjuntos de dados provenientes
de duas variáveis aleatórias, resumidas na forma de tabelas de dupla entrada. Essas variáveis
podem ser qualitativas ou quantitativas, e a ideia era que podíamos classificar os elementos da
amostra de cada variável em categorias, ou classes ou ainda atributos. Na Tabela 4.11, temos a
situação geral, em que duas v.a. qualitativas X e Y foram classificadas em r categorias para X e s
categorias para Y. Usaremos a notação dada naquele capítulo (ver Seção 4.4). Lá, estávamos
interessados em analisar a possível associação entre X e Y, e, para isso, propusemos o uso da
estatística qui-quadrado de Pearson, dada por (4.4), e que repetimos aqui:
(14.1)
em que n*ij denota o valor esperado sob a hipótese de que as duas v.a. não são associadas.
Naquele capítulo, apenas notamos que essa estatística deveria ser “pequena”, se a hipótese H0 de
não associação fosse verdadeira, e “grande”, caso contrário. Lá também estudamos como medir,
por meio do coeficiente de correlação, a associação entre duas variáveis quantitativas. Neste
capítulo, vamos precisar esses conceitos. Além do teste mencionado no Capítulo 4, iremos
estudar outros testes que utilizam muito a estatística (14.1), bem como outras distribuições já
estudadas. Faremos, agora, uma breve resenha sobre esses testes.
1. Testes
de Aderência
Temos uma população P e queremos verificar se ela segue uma distribuição especificada P0,
isto é, queremos testar a hipótese H0: P = P0. No Capítulo 12, vimos também como testar essa
hipótese, empregando testes sobre os parâmetros média e variância. Aqui, o teste comparará o
número de casos ocorridos em caselas especificadas, com o número esperado de casos nelas,
quando a hipótese H0 for verdadeira.
O procedimento consiste em considerar classes, segundo as quais a variável X, característica
da população, pode ser classificada. A variável X pode ser qualitativa ou quantitativa. Neste
capítulo, estudaremos um teste no qual as probabilidades da v.a. X pertencer a cada uma das
classes são especificadas. A estatística usada será (14.1).
Um dado é lançado 300 vezes, com os resultados dados na Tabela 14.1. Por
enquanto, considere somente a linha correspondente às frequências observadas. Com os
Exemplo 14.1
resultados observados, queremos saber se o dado é “honesto”, isto é, se a probabilidade de
ocorrência de qualquer face é 1/6. Ou seja, queremos testar a hipótese
H0: p1 = p2 = ... = p6 = 1/6,
em que pi = P (face i), i = 1, 2, ..., 6. Isso equivale a dizer que P0 segue uma distribuição
uniforme discreta.
Tabela 14.1 Resultados
do lançamento de um dado 300 vezes.
Ocorrência (i)
1
2
3
4
5
6
Total
Freq. Observada (ni)
43
49 56 45
66
41
300
Freq. Esperada (n*i)
50
50 50 50
50
50
300
2. Testes
de Homogeneidade
Considere o seguinte exemplo.
Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a
100 alunos de Ciências Biológicas. As notas são classificadas segundo os graus A, B, C, D e E
(em que D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado). Os
resultados estão na Tabela 14.2.
Exemplo 14.2
Tabela 14.2 Resultados
da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia.
Grau
Aluno de
Total
A
B
C
D
E
C. Humanas
15
20
30
20
15
100
C. Biológicas
8
23
18
34
17
100
Total
23
43
48
54
32
200
Queremos testar se as distribuições das notas, para as diversas classes, são as mesmas para os
dois grupos de alunos. Esse teste pode ser estendido para o caso de três ou mais populações.
Testes desse tipo já foram vistos no Capítulo 13, quando queríamos testar a hipótese (13.1).
Estudamos lá dois testes, o t de Student e o de Wilcoxon. Para esses testes, supomos ou que as
populações sejam normais ou, então, preferencialmente, que tenham distribuições contínuas (não
necessariamente normais). Mas, de qualquer modo, testávamos separadamente se as duas
populações diferiam em localização ou escala. No caso presente iremos apresentar um teste
baseado na estatística (14.1), que contempla alternativas gerais; por exemplo, as populações
podem diferir-se em localização e escala.
Novamente, para efetuar o teste, consideramos amostras das duas populações, P1 e P2, e
classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis
características de P1 e P2.
3. Testes
de Independência
Vimos, no Capítulo 4, a importância de quantificar o grau de associação entre duas variáveis,
usando a estatística (14.1). Porém, essa quantificação só tem sentido se as variáveis não forem
independentes. O teste que apresentaremos aqui supõe a existência de duas v.a.'s X e Y, e os
valores de amostras delas são classificados segundo categorias, obtendo-se uma tabela de dupla
entrada. Queremos testar a hipótese que X e Y são independentes.
Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000
homens e 1.000 mulheres) usaram hospitais. Os resultados estão na Tabela 14.3. A hipótese a
testar é que o uso de hospital independe do sexo do segurado (veja o Problema 6 do Capítulo 4).
Exemplo 14.3
Tabela 14.3 Frequências
com que 2.000 segurados usaram hospital.
Homens
Mulheres
Usaram hospital
100
150
Não usaram hospital
900
850
4. Teste
para o Coeficiente de Correlação
Quando se investiga associação entre duas variáveis quantitativas, o artifício de agrupar os
dados em intervalos (classes) reduz a variável quantitativa a um caso particular de variável
qualitativa, assim, poderíamos usar as mesmas técnicas da análise desse último tipo de variável.
Mas esse procedimento pode não ser o melhor possível, e o uso do coeficiente de correlação
como medida de associação entre variáveis quantitativas é o caminho mais apropriado. Na Seção
14.5, voltaremos a tratar desse tema agora sob o ponto de vista da inferência.
Para finalizar esta seção, notamos que os testes descritos nos itens (1)-(3) são todos baseados
na distribuição qui-quadrado e são parte dos chamados testes não paramétricos. Para essa classe
de testes não se supõe que a população (ou populações) siga algum modelo particular, como
fizemos para alguns dos testes dos Capítulos 12 e 13. Na Seção 14.6, introduzimos, por meio de
um exemplo, um outro tipo de teste não paramétrico de aderência, baseado na comparação da
distribuição empírica dos dados com a distribuição hipotetizada para a população.
14.2 Testes de Aderência
Retomemos o Exemplo 14.1.
(continuação) Para o uso da fórmula (14.1) necessitamos conhecer os valores
esperados do lançamento do dado, sob a hipótese de ele ser “honesto”, ou seja, sob a hipótese H0
formulada anteriormente. Observamos da Tabela 14.1 que o dado foi lançado 300 vezes. Então,
se H0 for verdadeira, esperaremos 50 casos em cada casela, como mostrado na tabela. Na
Fórmula (14.1) e na tabela, denotamos as frequências observadas por ni e as esperadas por n*i.
Usando a fórmula podemos calcular o qui-quadrado observado,
Exemplo 14.1
Como veremos a seguir, essa estatística, sob H0, segue uma distribuição qui-quadrado, com o
número de graus de liberdade apropriado. Imagine que queiramos simular uma amostra de 300
lançamentos de um dado. O problema seria o de preencher as seis caselas correspondentes às
frequências ni, na Tabela 14.1, com a restrição de a soma ser 300. É fácil ver que só podemos
preencher “livremente” cinco das caselas, uma delas (qualquer) resultará como a diferença entre
300 e a soma dessas cinco. Temos, então, cinco “graus de liberdade” para preencher as caselas.
Consultando a Tabela IV, com α = 0,05 e 5 graus de liberdade, encontramos o valor crítico χ2c
= 11,070, que é maior do que χ2obs = 8,96, logo, não rejeitamos H0. Ou seja, há evidências de que
o dado seja honesto.
O problema aqui pode ser caracterizado da seguinte maneira. Temos uma amostra X1, ..., Xn da
v.a. X que caracteriza a população P e queremos testar a hipótese
H0: P = P0 (14.2)
em que P0 tem uma distribuição de probabilidades especificada. Muitas vezes, como é o caso de
variáveis qualitativas e variáveis discretas, a variável X de interesse da população é categorizada
em classes A1, A2, ..., As e temos as probabilidades pi = P (X ∈ Ai), i = 1, 2, ..., s. Então, a
hipótese H0 pode ser formulada de modo equivalente como
H0: p1 = p10, p2 = p20, ..., ps = ps0,
em que pi0 são os valores especificados pela hipótese nula, ou seja, são as probabilidades
conhecidas que determinam P0.
No caso de uma v.a. discreta X, assumindo os valores i = 0, 1, 2, ..., temos que pi = P(X = i), i
≥ 0; X pode ser uma v.a. binomial, ou Poisson ou ainda geométrica, por exemplo. Poderemos
querer testar se a amostra observada vem de uma dessas distribuições.
Se X for uma v.a. contínua, poderemos dividir o seu domínio de variação em intervalos (de
mesma amplitude, por exemplo) e construir a distribuição de frequências correspondente, como
fizemos no Capítulo 2. Por exemplo, poderemos querer testar se nossa amostra foi escolhida de
uma população com distribuição normal (média e variância especificadas).
Em todas as situações, obtemos uma tabela de contingência 1 × s, como aquela formada pela
primeira linha (frequências observadas) da Tabela 14.4.
Tabela 14.4 Frequências
observadas e esperadas numa tabela 1 × s.
Categoria
A1
A2
...
AS
Total
Freq. Observadas
O1
O2
...
OS
n
Freq. Esperadas
E1
E2
...
ES
n
Incidentalmente, o modelo probabilístico apropriado para essa situação é o modelo
multinomial. Veja o Problema 27.
Vamos escrever a estatística (14.1) na forma
(14.3)
em que Oi representa o valor efetivamente observado para a classe Ai, e Ei representa o valor
esperado, sob a hipótese H0, para a classe Ai. Como temos n observações, os valores esperados
sob H0 são dados por
Ei = npi0, i = 1, 2, ..., s. (14.4)
Se a hipótese H0 for verdadeira, pode-se demonstrar que χ2 tem uma distribuição qui-quadrado
com (s - 1) graus de liberdade.
A hipótese alternativa a H0 é que pelo menos uma das igualdades não valha, ou seja,
H1: pj ≠ pj0, para pelo menos um j. (14.5)
Rejeitaremos H0 se o valor da estatística (14.3) for grande, no sentido que podemos encontrar
um valor c da Tabela IV, tal que P(χ2(s - 1) > c) = α, para o nível de significância α fixado.
Temos, pois, um teste unilateral à direita.
Um estudo sobre acidentes de trabalho numa indústria revelou que, em 150 acidentes,
obtemos a distribuição da Tabela 14.5.
Exemplo 14.4
Tabela 14.5 Acidentes
de trabalho numa indústria nos dias da semana.
Dia
Seg.
Terça
Quarta
Quinta
Sexta
Total
Oi
32
40
20
25
33
150
Ei
30
30
30
30
30
150
(Oi – Ei)2/Ei
0,1333
3,333
3,333
0,833
0,300
7,932
O objetivo é testar a hipótese que os acidentes ocorrem com igual frequência nos cinco dias da
semana. Ou seja, queremos testar
H0: p1 = p2 = ...= p5 = 1/5,
H1: pj ≠ 1/5, para pelo menos um j.
Sob a hipótese nula, os valores esperados estão na Tabela 14.5. Por exemplo, E1 = 150 × 1/5 =
30 etc. Obtemos
Fixando-se α = 0,05, temos que o valor crítico de uma distribuição χ2(4) é 9,488, portanto não
rejeitamos H0. O valor-p do teste é
α
= P(χ2(4) > 7,932) ≈ 0,09552,
o que nos diz a mesma coisa.
Retomemos o Exemplo 6.17, no qual consideramos o ajuste de uma distribuição de
Poisson à desintegração de substâncias radioativas. Na Tabela 6.13, tínhamos as informações
necessárias para calcular (14.3), sendo que nk = Ok e npk = Ek, k = 1, 2, ..., 11. Temos, então, que
s = 11 e v = s - 1 = 10 graus de liberdade. O valor observado de (14.3) é χ2 = 12,875, e não
rejeitamos H0, no nível de significância α = 0,05, pois o valor crítico obtido da Tabela IV é
18,307. Verifique que o valor-p aqui é α > 0,23.
Finalmente, vejamos um exemplo para testar se um conjunto de dados vem de uma população
normal especificada.
Exemplo 14.5
Considere os dados abaixo, que supostamente são uma amostra de tamanho n = 30 de
uma distribuição normal, de média µ = 10 e variância σ2 = 25. Os dados já estão ordenados.
Exemplo 14.6
1,04 1,73 3,93 4,44 6,37 6,51
7,61 7,64 8,18 8,48 8,57 8,65
9,71 9,87 9,95 10,01 10,52 10,69
11,72 12,17 12,61 12,98 13,03 13,16
14,11 14,60 14,64 14,75 16,68 22,14
Vamos classificar esses dados em quatro intervalos, delimitados pelos quartis teóricos
Q(0,25), Q(0,5) e Q(0,75) da N(10,25). Chamando de Z(p) os quantis da N(0,1), temos
Q(0,25) = 10 + 5Z(0,25) = 10 + 5(-0,6745) = 6,6275,
Q(0,5) = 10 + 5Z(0,5) = 10 + 5(0) = 10,
Q(0,75) = 10 + 5Z(0,75) = 10 + 5(0,6745) = 13,3725.
A hipótese nula a ser testada é
H0: P = N(10,25).
Tabela 14.6 Valores
observados e esperados para dados, sob suposição de normalidade.
Classes
A1 = (-∞; 6,63]
A2 = (6,63; 10]
A3 = (10; 13,37]
A4 = (13,37; +∞)
Total
Oi
6
9
9
6
30
Ei
7,5
7,5
7,5
7,5
30
Na Tabela 14.6, temos os valores observados em cada intervalo e os valores esperados, sob H0,
ou seja, cada intervalo deve conter um quarto das observações, ou, ainda, as probabilidades das
classes são dadas por
p1 = P(X < 6,6275) = 0,25,
p2 = P(6,6275 < X < 10) = 0,25 etc.
O valor da estatística (14.3) é χ2 = 1,2, que deve ser comparado com o valor crítico de uma
χ2(3), para dado nível de significância. Se α = 0,05, esse valor é 7,815, que nos leva a aceitar H0,
ou seja, podemos considerar que temos uma amostra de uma normal com média 10 e variância
25. O valor-p do teste é maior do que 0,75. Verifique. Um gráfico dos quantis dos dados contra
os quantis de uma normal está na Figura 14.4. Os pontos deveriam estar todos próximos de uma
reta. Isso acontece para a maioria dos pontos, mas há pontos distantes da reta e, em particular,
um ponto atípico no canto superior direito (o valor 22,14). Um histograma e um box plot dos
dados estão mostrados na Figura 14.1.
Figura 14.1 Histograma
e box plot para os dados do Exemplo 14.6. SPlus.
Problemas
1. Calcule o valor-p para o Exemplo 14.1.
2. Calcule os valores-p para os Exemplos 14.5 e 14.6.
3. Um modelo genético especifica que animais de certa população devam estar classificados em quatro categorias, com
probabilidades p1 = 0,656, p2 = 0,093, p3 = 0,093,
p4 = 0,158. Dentre 197 animais, obtivemos as seguintes frequências observadas: O1 = 125, O2 = 18, O3
Teste se esses dados estão de acordo com o modelo genético postulado.
4. Teste se os dados abaixo são observações de uma distribuição normal com média 30 e desvio padrão 10.
= 20, O4 = 34.
15,9
19,5
26,1
36,5
16,9
21,8
26,9
37,2
18,3
23,0
32,3
38,5
18,5
23,8
35,0
40,9
19,0
24,5
36,1
44,2
5. Um dado foi lançado 1.000 vezes, com os seguintes resultados:
Ocorrência
1
2
3
4
5
6
Frequência
158
186
179
161
141
175
Teste a hipótese que o dado é balanceado.
14.3 Testes de Homogeneidade
Vimos no capítulo anterior como testar a hipótese (13.1) de que as duas populações P1 e P2
tinham a mesma distribuição. Os testes utilizados foram baseados na distribuição t de Student,
que assume normalidade das populações, ou o teste não paramétrico de Wilcoxon (MannWhitney), que não faz essa suposição, mas fica bem mais fácil se as distribuições forem
contínuas.
O teste que apresentaremos agora pode ser usado para dados discretos ou contínuos e serve
para testar H0 dada por (13.1) contra alternativas gerais, e não somente para testar diferenças de
localização.
(continuação) Considerando P1 como a população de alunos de Ciências Humanas e
P2 a dos alunos de Ciências Biológicas, nosso objetivo é testar a hipótese
H0: P1 = P2,
usando os resultados amostrais da Tabela 14.2. Para isso, precisamos encontrar os valores
esperados n*ij, para aplicar a fórmula (14.1).
Inicialmente, observemos que se H0 for verdadeira, a distribuição de probabilidades nas duas
linhas deveria ser a mesma, e equivaleria a ter uma única população P. A última linha (de totais)
da Tabela 14.2 representaria uma amostra de 200 alunos dessa única população. A Tabela 14.7
apresenta as estimativas das proporções, em cada grau, para P1, P2 e P. Sendo H0 verdadeira,
deveríamos esperar para P1 e P2 as mesmas proporções observadas para P, ou valores
aproximadamente iguais. Ou, ainda, todas as linhas dessa tabela deveriam ser iguais entre si, e
iguais à linha de totais, o que aparentemente não ocorre. A partir dessas porcentagens, podemos
obter as frequências absolutas correspondentes (ou valores esperados) se H0 for verdadeira.
Obtemos, então, a Tabela 14.8.
Exemplo 14.2
Tabela 14.7 Porcentagens
estimadas das classes para cada população.
Grau
Aluno de
C. Humanas
Tabela 14.8 Frequências
Total
A
B
C
D
E
15
20
30 20 15
100
C. Biológicas
8
23
18 34 17
100
Total
11,5
21,5
24 27 16
100
absolutas sob H0 (n*ij).
Grau
Aluno de
Total
A
B
C
D
E
C. Humanas
11,5
21,5
24 27
16
100
C. Biológicas
11,5
21,5
24 27
16
100
Total
23
43
48 54
32
200
Desse modo, encontramos os valores esperados n*ij, que podem ser substituídos em (14.1),
obtendo-se
Novamente, para consultar a tabela precisamos determinar os graus de liberdade, e vamos usar
o mesmo argumento anterior. Quantas caselas poderíamos preencher livremente em uma
simulação, sendo que os totais marginais são conhecidos? Observando a Tabela 14.9, concluímos
que basta preencher apenas quatro caselas, as seis restantes são encontradas por diferenças.
Como exemplo, preenchemos quatro caselas com círculos; as demais (sinais de “mais”) podem
ser obtidas por diferenças a partir dos totais de linhas ou colunas.
Tabela 14.9 Determinação
do número de graus de liberdade.
Grau
Aluno de
C. Humanas
C. Biológicas
Total
Total
A
B
C
D
E
o
+
o
+
+
100
+
o
+
o
+
100
23 43 48 54
32
200
Da Tabela IV, com α = 0,05 e 4 graus de liberdade encontramos χ2c = 9,488, o que leva à não
rejeição de H0, ou seja, a distribuição das notas é a mesma para as duas populações.
Observe que os valores esperados na Tabela 14.8 podem ser obtidos de n*ij = (ni. n.j)/n.
Consideremos, novamente, o Exemplo 13.9 e verifiquemos quantos elementos de
cada amostra caem nas seguintes classes de resistência à remoção: (0,4; 1,0], (1,0; 1,6], (1,6;
2,2], (2,2; 2,8]. Obtemos a Tabela 14.10, com os valores esperados entre parênteses.
Exemplo 14.7
Tabela 14.10 Valores
observados para amostras do Exemplo 13.12.
Populações
(0,4; 1,0]
(1,0; 1,6]
(1,6; 2,2]
(2,2; 2,8]
Total
P1(T)
29 (33)
60 (52)
9 (11)
2 (4)
100
P2(C)
37 (33)
44 (52)
13 (11)
6 (4)
100
Total
66
104
22
8
200
Utilizando (14.1) obtemos χ2obs = 6,1585. Como temos s = 4, rejeitaremos H0, se 6,1585 > c,
em que c é o valor de uma v.a. com distribuição χ2(3), tal que P(χ2(3) > c) = α. Com α = 0,05,
obtemos c = 7,815 da Tabela IV, logo não rejeitamos H0 no nível α.
Esse teste pode ser estendido para o caso de termos r populações P1, ..., Pr e querermos testar a
hipótese
H0: P1 = P2 = ... = Pr (14.6)
contra a alternativa em que pelo menos duas são distintas. Obteremos uma tabela de dupla
entrada r × s. Designando-se os tamanhos das amostras dessas populações por n1, ..., nr, com n1 +
... + nr = N, e por nij o número de elementos da amostra de Pi classificados na categoria j, teremos
a situação da Tabela 4.11. A hipótese a ser testada aqui é
Nesse caso, a estatística (14.1) tem distribuição χ2(v), em que o número de graus de liberdade v
é dado por v = (r - 1)(s - 1). O argumento para obter esse número é o mesmo usado para o
Exemplo 14.2.
Problemas
6. Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas
obtidas por estudantes de escolas particulares, ao tomarem o exame vestibular para uma Universidade. Para testar essa
hipótese, foram selecionadas duas amostras de estudantes que prestaram o vestibular, suas médias gerais foram anotadas e
obteve-se a tabela a seguir.
Escola
(0; 2,5]
(2,5; 5,0]
(5,0; 7,5]
(7,5; 10,0]
Total
58
Pública
15
22
18
3
Particular
6
10
20
6
42
Total
21
32
38
9
100
Teste a hipótese que as duas populações são homogêneas, para o nível de significância α = 0,01. Obtenha o valor-p α.
7. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um novo método de ensinar
Probabilidades. Uma classe recebeu um método tradicional e a outra, o novo método. Após o curso, foi pedido que os
estudantes resolvessem um problema típico de Probabilidades. Os resultados foram os seguintes:
Exercício correto
Exercício errado
Método convencional
33
17
Método novo
37
13
Há razões para acreditar que o novo método é superior?
8. Duas novas drogas vão ser testadas em 160 pessoas portadoras de rinite alérgica. Metade das pessoas recebe a droga A e a
outra metade recebe a droga B. Obtém-se a tabela abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes para
tratar a doença.
Eficaz
Não Eficaz
Droga A
55
25
Droga B
48
32
9. Um produto novo é lançado por uma empresa, e, para verificar a sua aceitação, dois grupos de pessoas de duas cidades são
consultados. De 100 pessoas da cidade A, 32 gostaram do produto e, de 50 pessoas da cidade B, 12 gostaram do produto. Há
evidências que o produto seja igualmente aceito nas duas cidades?
14.4 Testes de Independência
Retomemos o Exemplo 4.3, para efeito de ilustração.
Naquele exemplo, o que se queria era verificar se a criação de determinado tipo de
cooperativa estava associada ao fator regional. Os dados das Tabelas 4.8 e 4.9 estão reproduzidas
na Tabela 14.11.
Exemplo 14.8
Como temos três linhas e quatro colunas, o número de graus de liberdade da estatística é v = (3
− 1)(4 − 1) = 6. Fixando-se α = 0,05, devemos procurar um valor c, tal que P(χ2(6) > c) = 0,05, e
da Tabela IV obtemos c = 12,592. Portanto a região crítica do teste é RC = [12,592; +∞[.
Vimos na Seção 4.3 como construir os valores esperados, sob a hipótese de independência (ver
Tabela 4.9), que estão entre parênteses na Tabela 14.11. O valor observado da estatística quiquadrado encontrado foi χ2obs = 171,76. Como esse valor pertence à região crítica, rejeitamos H0,
ou seja, há uma forte dependência entre os fatores “tipo de cooperativa” e “região de
localização”.
O nível descritivo do teste é α = P(χ2(6) > 171,76|H0 é verdadeira) < 0,1%, ou seja, temos uma
forte indicação que H0 deve ser rejeitada.
A formalização dos testes de independência passa a ser como segue. Chamemos de pij a
probabilidade de um indivíduo ser classificado nas categorias i, i = 1, ..., r e j, j = 1, ..., s,
simultaneamente; denotemos por pi. e p. j as probabilidades marginais. A hipótese de
independência pode ser escrita na forma
H0: pij = pi.p. j, para todo par (i, j),
H1: pij ≠ pi. p. j, para algum par (i, j).
Lembremos que
Tabela 14.11 Valores
e
observados e esperados para o Exemplo 14.8.
Estado
Consumidor
Produtor
Escola
Outras
Total
São Paulo
214(157)
237(269)
78(143)
119(79)
648
Paraná
51(73)
102(124)
126(67)
22(37)
301
Rio G. Sul
111(146)
304(250)
139(133)
48(73)
602
Total
376
643
343
189
1.551
A estatística a usar é novamente (14.1), que terá, sob a hipótese H0, uma distribuição quiquadrado com v = (r - 1)(s - 1) graus de liberdade. Rejeitaremos H0 se o valor observado da
estatística for maior do que um valor crítico, dado pela Tabela IV, fixado um valor do nível de
significância α.
Dado que a distribuição de qui-quadrado, nesse caso, é uma distribuição aproximada,
precisamos tomar certos cuidados na sua aplicação. Um deles é garantir que todos os valores
esperados das caselas não sejam inferiores a cinco.
Problemas
10. Para o Problema 16 do Capítulo 4, teste formalmente se a opinião dos habitantes depende do local da residência.
11. Teste se o uso de hospital independe do sexo para o Exemplo 14.3.
12. Para o Problema 22 do Capítulo 4, teste se existe dependência entre os fatores: tendência dos alunos a prosseguir os estudos e
classe social dos entrevistados.
13. Investigando a “fidelidade” de consumidores de um produto, obteve-se uma amostra de 200 homens e 200 mulheres. Foram
classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados fornecem evidência de possíveis
diferenças de grau de fidelidade entre sexos?
14. Uma pesquisa sobre a qualidade de certo produto foi realizada enviando-se questionários a donas de casa pelo correio.
Aventando-se a possibilidade de que os respondentes voluntários tenham um particular viés de respostas, fizeram-se mais duas
tentativas com os não respondentes. Os resultados estão indicados abaixo. Você acha que existe relação entre a resposta e o
número de tentativas?
Nº de donas de casa
Opinião sobre o produto
1ª tentativa
2ª tentativa
3ª tentativa
Excelente
62
36
12
Satisfatório
84
42
14
Insatisfatório
24
22
24
14.5 Teste Para o Coeficiente de Correlação
O teste apresentado na seção anterior é adequado para averiguar a independência de duas
variáveis qualitativas. Vimos, na Seção 4.5, que para variáveis quantitativas o coeficiente de
correlação é uma medida de associação mais adequada. Usualmente, podemos determinar o
coeficiente de correlação para uma amostra, pois desconhecemos esse valor na população. Uma
população que tenha duas variáveis não correlacionadas pode produzir uma amostra com
coeficiente de correlação diferente de zero. Para testar se a amostra foi colhida de uma população
para a qual o coeficiente de correlação entre duas variáveis é nulo, precisamos obter a
distribuição amostral da estatística r, definida em (4.7). Esquematicamente, temos a situação da
Figura 14.2.
Figura 14.2 Coeficiente
de correlação para população e amostra.
Seja ρ = ρ(X, Y) o verdadeiro coeficiente de correlação populacional desconhecido. Vamos
apresentar a distribuição amostral de r para duas condições da população: ρ = 0 e ρ ≠ 0. Em
ambos os casos, a distribuição amostral exige que a distribuição da v.a. (X, Y) na população seja
normal bidimensional, como definida no Capítulo 8.
Teste para ρ = ρ0. Durante muito tempo, o coeficiente de correlação entre a nota final
num curso de treinamento de operários e sua produtividade, após seis meses do curso, resultou
ser 0,50. Foram introduzidas modificações no curso, com o intuito de aumentar a correlação. Se
o coeficiente de correlação de uma amostra de 28 operários submetidos ao novo curso foi 0,65,
você diria que os objetivos da modificação foram atingidos?
Exemplo 14.9
A. Hipóteses
X: resultado no teste; Y: produtividade;
H0: ρ(X, Y) = 0,50;
H1: ρ(X, Y) > 0,50;
B. Estatística
do Teste
R. Fisher sugeriu a seguinte transformação para a estatística r:
(14.7)
que tem uma distribuição muito próxima de uma normal N(µξ, σ2ξ), com
(14.8)
sendo n o tamanho da amostra (X1, Y1), ..., (Xn, Yn) e ρ0 o valor do parâmetro populacional. A
aproximação não vale para ρ = -1 ou ρ = 1. Além disso, para ρ = 0, temos um teste exato, que
será visto no próximo exemplo. No nosso caso, sob a hipótese H0, ξ terá distribuição
aproximadamente normal, com
C. Região
Crítica
Como a hipótese alternativa sugere uma região crítica unilateral à direita, e como ξ ∼ N (0,549;
0,04), vem que a RC para ξ, no nível de significância α = 0,05, será
D. Resultado
da Amostra
Como r = 0,65, vem que
E. Conclusão
Como ξ0 ∉ RC, aceitamos H0, ou seja, não existe evidência de que o coeficiente de correlação
tenha aumentado.
Teste para ρ = 0. Queremos testar se existe ou não correlação entre o número de
clientes e os anos de experiência de agentes de seguros. Sorteamos cinco agentes e observamos
as duas variáveis. Os dados estão na Tabela 14.12. Qual seria a conclusão, baseando-se nesses
dados?
Exemplo 14.10
Tabela 14.12 Anos
de experiência para cinco agentes de seguros.
Agente
A
B
C
Anos de Experiência
2
4
5
Número de Clientes
48 56 64
D
E
6
8
60 72
A. Hipóteses
H0: ρ = 0
H1: ρ ≠ 0
B. Estatística
do Teste
Para amostras retiradas de uma população para a qual ρ = 0, pode-se provar que a estatística
(14.9)
tem distribuição t de Student com n - 2 graus de liberdade. No nosso exemplo, a estatística terá
distribuição t(3).
C. Região
Crítica
Por ser um teste bilateral, consultando a Tabela V, teremos para α = 0,10,
RC = (-∞, -2,353] ∪ [2,353, +∞).
D. Resultado
da Amostra
Calculando o coeficiente de correlação para os dados acima, obtemos r = 0,95; logo,
E. Conclusão
Como t0 ∈ RC, rejeitamos H0, isto é, existe dependência entre anos de experiência e números
de clientes.
Nesse caso, seria conveniente construir um intervalo de confiança para ρ. Observe que, se ρ ≠
0, devemos usar a estatística ξ de (14.7). Portanto, se tomarmos por exemplo γ = 0,95, devemos
procurar dois números ξ1 e ξ2 para ξ, tais que
P(ξ1 < ξ < ξ2) = 0,95.
Como ξ ∼ N(µξ, 1/2), podemos escrever
ou seja,
P(-1,96 < Z < 1,96) = 0,95,
com Z ∼ N(0,1). Logo, o intervalo para µξ é
Mas,
logo
IC(µξ; 0,95) = 1,832 ± 1,384 = (0,448; 3,216).
Como
e uma expressão semelhante vale para os extremos do intervalo, podemos obter as operações
inversas para encontrar os extremos do intervalo para ρ. Assim, de
obtemos
e de
obtemos
Finalmente, obtemos
IC(ρ; 0,95) = (0,420; 0,997).
Problemas
15. Estamos estudando se há ou não correlação entre as notas de diversas disciplinas de um curso de mestrado. Analisando uma
amostra de 12 alunos, encontrou-se uma correlação de 0,60 entre as disciplinas de Estatística e Metodologia da Pesquisa. Teste a
hipótese de não haver correlação entre as disciplinas. Caso a rejeite, dê um intervalo de confiança para o coeficiente de correlação
populacional.
16. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para investigar esse fato, sortearam-se nove
pedidos de mercadorias, medindo-se as duas variáveis de interesse. Com os dados obtidos abaixo, quais seriam as suas
conclusões?
Tempo
84
108
110
133
144
152
180
196
231
Volume
48
72
63
82
88
109
112
123
140
14.6 Outro Teste de Aderência
Na Seção 14.2, estudamos, por meio da distribuição qui-quadrado, como testar a hipótese de
que um conjunto de dados provém de uma distribuição especificada. Nesta seção, vamos
introduzir uma outra maneira de testar a hipótese (14.2), por meio de um exemplo.
No Problema 47 do Capítulo 3, vimos que um estimador da verdadeira função densidade de
uma população é o histograma. Em particular, foi apresentada uma maneira de obter o intervalo
de classe, baseada numa “distância” entre o histograma e a função densidade.
Suponha que tenhamos uma amostra X1, ..., Xn de uma população P, sobre a qual estamos
considerando uma v.a. X. Designemos por f(x) a função densidade e por F(x) a função de
distribuição acumulada (f.d.a.) de X. Estimar f(x) é equivalente a estimar F(x). Nosso objetivo é
testar se a amostra observada veio de uma distribuição de probabilidades especificada, e (14.2) é
equivalente a
H0: F(x) = F0(x), para todo x.
Vamos considerar a função de distribuição empírica (f.d.e.), Fe(x), definida no Problema 17
do Capítulo 2, como um estimador de F(x), para todo valor x real. A situação é a da Figura 14.3.
Figura 14.3 Gráficos
da f.d.a. e f.d.e. e distâncias di = F(x(i)) - Fe(x(i)).
Se Fe(x) for um bom estimador de F(x) as duas curvas devem estar próximas. Como em todo
teste de hipóteses, para testar a hipótese acima, teremos que definir o que significa “próximo”.
Há várias maneiras de medir a “distância” entre F(x) e Fe(x). Os probabilistas russos
Kolmogorov e Smirnov propuseram uma estatística para o teste, obtida tomando o máximo dos
valores absolutos das diferenças F(xi) - Fe(xi), i = 1, ..., n. Nessas diferenças, calculadas nos
valores amostrais, F(xi) é o valor calculado sob a hipótese nula H0, ou seja, é o valor que a f.d.a.
hipotetizada toma no ponto xi. Formalmente, a estatística a ser usada no teste é
(14.10)
O valor encontrado deve ser comparado com um valor crítico, obtido na Tabela X, fixado um
nível de significância do teste. Se D for maior que o valor tabelado, rejeitamos H0.
Retomemos o Exemplo 14.6, no qual queríamos testar se 30 valores observados provinham de
uma distribuição normal, com média 10 e desvio padrão 5.
Exemplo 14.6
(continuação) A hipótese a ser testada pode ser escrita na forma
H0: F(x) = F0(x), ∀x,
H1: F(x) ≠ F0(x), para algum x,
em que F0(x) é a f.d.a. da v.a. X ∼ N(10,25).
Lembremos que a f.d.e. Fe(x) é uma função em “escada”, dando um salto igual a 1/30 em cada
valor x(i).
Na Tabela 14.13, temos os cálculos necessários. Vemos, por exemplo:
Tabela 14.13 Dados
para o Teste de Kolmogorov-Smirnov do Exemplo 14.6.
xi
F(xi)
Fe(xi)
|F(xi) - Fe(xi)|
xi
F(xi)
Fe(xi)
|F(xi) - Fe(xi)|
1,04
0,0366
0,0333
0,00323
10,01
0,5008
0,5333
0,03253
1,73
0,0491
0,0667
0,01760
10,52
0,5414
0,5667
0,02525
3,93
0,1124
0,1000
0,01237
10,69
0,5549
0,6000
0,04512
4,44
0,1331
0,1333
0,00026
11,72
0,6346
0,6333
0,00124
6,37
0,2340
0,1667
0,06725
12,17
0,6679
0,6667
0,00119
6,51
0,2426
0,2000
0,04259
12,61
0,6992
0,7000
0,00083
7,61
0,3163
0,2333
0,08299
12,98
0,7244
0,7333
0,00892
7,64
0,3185
0,2667
0,05180
13,03
0,7277
0,7667
0,03892
8,18
0,3579
0,3000
0,05793
13,16
0,7363
0,8000
0,06369
8,48
0,3806
0,3333
0,04723
14,11
0,7945
0,8333
0,03887
8,57
0,3874
0,3667
0,02077
14,60
0,8212
0,8667
0,04545
8,65
0,3936
0,4000
0,00642
14,64
0,8233
0,9000
0,07670
9,71
0,4769
0,4333
0,04354
14,75
0,8289
0,9333
0,10439
9,87
0,4896
0,4667
0,02296
16,68
0,9092
0,9667
0,05744
9,95
0,4960
0,5000
0,00399
22,14
0,9924
1,0000
0,07591
Os valores de F0(x) podem ser obtidos como na Seção 7.8, por exemplo, usando o comando
CDF do Minitab.
Da tabela, vemos que o valor máximo dos valores absolutos das diferenças é D = 0,104. Da
Tabela X, vemos que para α = 0,05, o valor crítico é 0,242, logo aceitamos H0, ou seja, os dados
realmente são uma amostra de uma distribuição normal, com µ = 10 e σ = 5.
Podemos comparar os quantis (empíricos) dos dados com os quantis da normal, por meio de
um gráfico q × q, com o objetivo de verificar que os pontos se distribuem ao redor de uma reta,
como na Figura 14.4.
Figura 14.4 Quantis
da normal padrão contra quantis dos dados.
14.7 Problemas Suplementares
17. Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações para o Problema 20 do Capítulo 4.
18. Supõe-se que uma moeda favoreça cara, na proporção de duas caras para três coroas. Para testar tal hipótese, lança-se uma
moeda quatro vezes, contando-se o número de caras. Repete-se esse experimento 625 vezes. Os resultados estão na tabela abaixo.
Esses dados confirmam ou não a suposição?
Nº de caras
0
1
2
3
4
Total
Frequências
72
204
228
101
20
625
19. Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes
artificiais, A e B, obtendo-se os seguintes resultados.
Sexo
Preferem A
Preferem B
Indecisos
Feminino
50
110
40
Masculino
150
42
8
A distribuição de preferências pelos dois sexos é a mesma? Calcule o valor-p.
20. Prove que (14.3) pode ser escrita na forma
21. Teste, para o nível de 5%, se existe correlação ou não entre o setor primário e o índice de analfabetismo, usando a amostra do
Problema 11 do Capítulo 4. Caso a resposta seja afirmativa, construa um IC de 95% de confiança para ρ.
22. No Problema 28 do Capítulo 4, use as sugestões dadas para testar a hipótese ρ = 0.
23. Suspeita-se que o coeficiente de correlação entre o salário do marido e o da mulher seja de 0,60 ou mais. Para verificar tal
hipótese, colheu-se uma amostra de 10 casais, observando-se o salário de ambos. Veja os resultados no Problema 29 do Capítulo
4. Qual seria sua conclusão?
24. No Problema 26 do Capítulo 4, temos três variáveis, X, Y e Z, e queremos verificar qual é maior, ρ(X, Y) ou ρ(X, Z).
Verifique se algum dos coeficientes de correlação pode ser considerado como nulo.
25. Deseja-se verificar se os homens e as mulheres reagem do mesmo modo a um pré-treinamento que visa prepará-los para
realizar certa tarefa. Um grupo de 28 mulheres e 52 homens são submetidos ao pré-treinamento e, em seguida, mede-se a
correlação entre o resultado no teste do curso e o número de erros cometidos ao realizar a tarefa. Os coeficientes de correlação
observados foram: para as mulheres, -0,82; para os homens, -0,52. Usando os resultados do CM-1, Fórmulas (14.11) – (14.14),
qual seria sua conclusão? Interprete o significado do coeficiente de correlação negativo.
26. Suponha que uma empresa quer saber o efeito de fumar sobre testes respiratórios para seus trabalhadores. Suponha que os
trabalhadores são divididos em três classes: nunca fumou, fumou no passado e fumante, e que dados anteriores mostram que as
porcentagens de trabalhadores nessas três classes são, respectivamente: 52%, 12%, 36%. Se dez trabalhadores são selecionados
ao acaso, qual a probabilidade de se obter exatamente cinco que nunca fumaram, dois que fumaram no passado e três fumantes
atuais? (Use 14.15).
27. Teste, para o nível α
= 0,05, que os dados abaixo são de uma amostra de uma distribuição uniforme no intervalo (0,1).
0,145 0,299 0,516 0,901 0,433
0,430 0,932 0,356 0,178 0,248
0,882 0,125 0,517 0,519 0,251
0,191 0,661 0,321 0,504 0,206
0,224 0,960 0,092 0,179 0,974
0,173 0,413 0,372 0,887 0,275
0,561 0,853 0,527 0,239 0,124
0,060 0,968 0,421 0,041 0,775
0,810 0,603 0,229 0,452 0,874
0,785 0,384 0,064 0,990 0,983
28. Teste, para o nível α
= 0,01, se os dados abaixo provêm de uma distribuição exponencial, com média 0,5.
0,378 0,391 0,458 0,063 0,009
1,007 0,470 0,368 0,831 0,387
0,228 0,389 0,627 0,480 0,093
0,123 0,089 0,646 0,093 0,400
29. Teste se os dados do CD-Notas são normais. Use o teste de aderência e o teste de Kolmogorov-Smirnov.
14.8 Complementos Metodológicos
1. Comparação dos coeficientes de correlação de duas populações. Vamos supor que ρ1 e ρ2 sejam os coeficientes de correlação
de duas populações, das quais retiramos duas amostras independentes, de tamanhos n e m, respectivamente. Desse modo, as v.a.
(14.11)
são independentes e terão, respectivamente, as distribuições
(14.12)
com
(14.13)
Segue-se que a v.a. D = Z1 - Z2 terá distribuição normal, com média
(14.14)
e variância σ2D = 1/(n - 3) + 1/(m - 3). Quando ρ1 = ρ2, temos que µD = 0. Esse resultado permite testar se dois coeficientes
de correlação são iguais ou não.
2. Distribuição multinomial. Suponha que, quando realizamos um experimento aleatório, os resultados possíveis são os eventos
A1, ..., As, com probabilidades pi = P(Ai), i = 1, ..., s, Σi pi = 1. Suponha que repetimos o experimento n vezes e que pi
permanece constante em todas as repetições. Defina as v.a. X1, ..., Xs como:
Xi = número de vezes que Ai ocorre nas n repetições, i = 1, ..., s.
Então, temos que
(14.15)
+ ... + ns = n. Se s = 2 obtemos a distribuição binomial. Observe que X1 + ... + Xs = n, logo as v.a. X1, ..., Xs não são
independentes. Como cada Xi ∼ Bin(n, pi), obtemos E(Xi) = npi, Var(Xi) = npi(1 - pi), i = 1, ..., s.
com n1
Capítulo 15
Inferência para Várias Populações
15.1 Introdução
Como vimos no Capítulo 1, uma das preocupações de um estatístico ao analisar um conjunto
de dados é criar modelos que explicitem estruturas do fenômeno sob observação, as quais
frequentemente estão misturadas com variações acidentais ou aleatórias. A identificação dessas
estruturas permite conhecer melhor o fenômeno, bem como fazer afirmações sobre possíveis
comportamentos.
Portanto, uma estratégia conveniente de análise é supor que cada observação seja formada por
duas partes, como vimos em (1.1) do Capítulo 1:
observação = previsível + aleatório. (15.1)
Aqui, a primeira componente incorpora o conhecimento que o pesquisador tem sobre o
fenômeno e é usualmente expressa por uma função matemática, com parâmetros desconhecidos.
A segunda parte, a aleatória (ou não previsível), representa aquilo que o pesquisador não pode
controlar e para a qual são impostas algumas suposições, por exemplo, que ela obedeça a algum
modelo probabilístico específico, que, por sua vez, também contém parâmetros desconhecidos.
Dentro desse cenário, o trabalho do estatístico passa a ser o de estimar os parâmetros
desconhecidos das duas partes do modelo, baseado em amostras observadas.
Neste capítulo, iremos investigar um modelo simples, chamado de análise de variância com
um fator. No capítulo seguinte, iremos estudar o modelo de regressão linear simples. As técnicas
de análise de variância foram desenvolvidas principalmente pelo estatístico inglês Ronald A.
Fisher, a partir de 1918. O leitor interessado pode consultar os trabalhos pioneiros de Fisher
(1935, 1954) ou Peres e Saldiva (1982) para mais informações sobre esse assunto.
A situação geral pode ser descrita como segue. Temos uma população P de unidades
experimentais (indivíduos, animais, empresas etc.), para a qual temos uma v.a. Y de interesse.
Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de um
fator. Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados por l:
sexo masculino e 2: sexo feminino. A v.a. Y pode ser a altura de cada indivíduo.
Genericamente, podemos ter I níveis para esse fator. A população fica, então, dividida em I
subpopulações (ou estratos), P1, ..., PI, cada uma representada por um nível i do fator, i = 1, 2, ...,
I. No exemplo citado, teríamos duas subpopulações: a dos indivíduos do sexo masculino e a dos
indivíduos do sexo feminino.
Na Figura 15.1, mostramos graficamente as suposições adotadas para o comportamento da
população neste modelo. A Figura 15.1 (a) mostra um comportamento mais amplo, com
distribuições distintas para cada subpopulação. Na Figura 15.1 (b), aparece a suposição mais
comum, em que a parte aleatória segue uma distribuição normal, com a mesma variância σ2 para
todas as subpopulações Pi, i = 1, 2, ..., I.
Figura 15.1 Formas
da distribuição de y para os diversos níveis do fator.
Para cada nível i, observamos a v.a. Y em ni unidades experimentais selecionadas ao acaso da
subpopulação correspondente, ou seja, teremos uma amostra (yi , ..., yin ) dessa subpopulação. No
exemplo citado acima, temos i = 1, 2, ou seja, dois níveis para o fator sexo. Extraímos uma
amostra de tamanho n1 de P1: pessoas do sexo masculino, (y11, ..., y1n ), e uma amostra de
tamanho n2 de P2: pessoas do sexo feminino, (y21, ..., y2n ). Essas amostras são independentes.
Suponha que E(Y) = µ para a população toda, ou seja, a média global da v.a. Y para P.
Suponha, também, que E(Y|Pi) = µi, i = 1, ..., I, ou seja, as médias da v.a. Y para as
subpopulações sejam µ1, ..., µI. No nosso exemplo, µ é a média das alturas da população de todos
os indivíduos, µ1 é a média das alturas dos homens, e µ2 é a média das alturas das mulheres.
O objetivo é estimar µi, i = 1, ..., I e testar hipóteses sobre essas médias. Uma hipótese de
interesse é
1
i
1
2
H0: µ1 = µ2 = ... = µI = µ, (15.2)
contra a alternativa
H1: µi ≠ µj, para algum par (i, j). (15.3)
O teste acima corresponde a verificar se as duas populações estão dispostas como na Figura
15.1 (c), ou seja, os centros das distribuições têm a mesma ordenada e estão sobre uma reta
paralela ao eixo do fator. Isso significa que o fator não tem influência sobre a média da variável
sob observação.
A análise da variância pode ser pensada como um método para testar a hipótese H0 acima, por
meio da análise das variâncias das diversas amostras. Esse método estende aquele visto no
Capítulo 13, onde comparávamos apenas duas médias. A teoria desenvolvida naquele capítulo
envolvia situações mais amplas do que as que serão vistas aqui. Sob as mesmas suposições os
dois métodos são equivalentes. Porém, não podemos usar os métodos do Capítulo 13 para
comparar mais do que duas populações. Poderia ser aventada a possibilidade de testar as
hipóteses duas a duas, mas isso traz problemas relacionados no nível de significância do teste
global, já que efetuaremos
testes parciais. Voltaremos a esse assunto na Seção 15.4.
Um modelo conveniente para descrever essa situação é
yij = µi + eij i = 1, ..., I, j = 1, .... ni, (15.4)
para o qual supomos que eij são v.a. independentes, de média zero e variância σ2e, desconhecida,
por exemplo. Podemos adicionar a hipótese de que esses “erros” sejam normais, ou seja,
eij ∼ N(0, σ2e), (15.5)
para i = 1, 2, ..., I, j = 1, 2, ..., ni.
Logo, além de estimar µ1, ..., µI, temos que estimar também σ2e. Se (15.4) e (15.5) valerem,
teremos I subpopulações normais N(µi, σ2e), i = 1, 2, ..., I, que têm médias diferentes e mesma
variância. A Figura 15.1 (b) ilustra essa situação, com I = 4.
O modelo (15.4) é chamado modelo com efeitos fixos, no sentido de que as subpopulações
determinadas pelos níveis do fator são aquelas de interesse do pesquisador. Se o experimento
fosse repetido, amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas.
Pode-se considerar, também, modelos com efeitos aleatórios, mas esse caso não será tratado
neste livro.
Exemplo 15.1 Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para
reagir a um estímulo visual (Y) e alguns fatores, como sexo (W), idade (X) e acuidade visual (Z,
medida em porcentagem). Na Tabela 15.1, temos os tempos para n = 20 indivíduos (valores da
v.a. Y). O fator sexo tem dois níveis: i = 1: sexo masculino (H) e i = 2: sexo feminino (M), com
n1 = n2 = 10. O fator idade tem cinco níveis: i = 1: indivíduos com 20 anos de idade, i = 2:
indivíduos com 25 anos etc., i = 5: indivíduos com 40 anos. Aqui, n1 = ... = n5 = 4. A acuidade
visual, como porcentagem da visão
Tabela 15.1 Tempos
de reação a um estímulo (Y) e acuidade visual (Z) de 20 indivíduos, segundo o sexo (W) e a idade (X).
Y
Indivíduo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
96
92
106
100
98
104
110
101
116
106
109
100
112
105
118
108
113
112
127
117
W
X
H
M
H
M
M
H
H
M
M
H
H
M
M
M
H
H
M
M
H
H
20
20
20
20
25
25
25
25
30
30
30
30
35
35
35
35
40
40
40
40
Z
90
100
80
90
100
90
80
90
70
90
90
80
90
80
70
90
90
90
60
80
completa, também gera cinco níveis: i = 1: indivíduos com 100% de visão, i = 2: indivíduos com
90% de visão, e assim por diante. Não foi possível controlar essa variável a priori como as
outras duas, já que ela exige exames oftalmológicos para sua mensuração. Daí o
desbalanceamento dos tamanhos observados: n1 = 2, n2, = 10, n3 = 5, n4 = 2 e n5 = 1. Fatores
desse tipo são chamados de co-fatores.
Assim, para o fator sexo, teremos o modelo (15.4) com i = 1, 2, j = 1, 2, 3, ..., 10, e para o
fator idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4.
Uma escola analisa seu curso por meio de um questionário com 50 questões sobre
diversos aspectos de interesse. Cada pergunta tem uma resposta, numa escala de 1 a 5 (v.a. Y),
em que a maior nota significa melhor desempenho. Na última avaliação, usou-se uma amostra de
alunos de cada período, e os resultados estão na Tabela 15.2. Aqui, o fator é período, com três
níveis: i = 1: manhã, i = 2: tarde e i = 3: noite; temos n1 = 7, n2 = 6 e n3 = 8.
Exemplo 15.2
Tabela 15.2 Avaliação
de um curso segundo o período.
Período
Manhã
Tarde
Noite
4,2
4,0
3,1
2,7
2,3
3,3
4,1
2,7
2,4
2,4
2,2
1,9
1,8
4,6
3,9
3,8
3,7
3,6
3,5
3,4
2,8
Num experimento sobre a eficácia de regimes para emagrecer, homens, todos
pesando cerca de 100 kg e de biotipos semelhantes, são submetidos a três regimes. Após um
mês, verifica-se a perda de peso de cada indivíduo, obtendo-se os valores da Tabela 15.3.
Exemplo 15.3
Tabela 15.3 Perdas
de peso de indivíduos submetidos a três regimes.
Regime
1
2
3
11,8
10,5
12,5
12,3
15,5
11,4
7,4
9,7
8,2
7,2
8,6
7,1
10,5
11,2
11,8
13,1
14,0
9,8
Aqui, o fator é regime, com I = 3 níveis e cada regime é indexado por; i = 1, 2, 3. A v.a. Y é a
perda de peso depois de um mês. E(Y) = µ é a perda de peso global dos 18 homens, µi é a perda
média de peso para o regime i. As amostras têm todas o mesmo tamanho n1 = n2 = n3 = 6.
Problemas
1. O modelo (15.4) pode ser escrito na forma
yij = µ + αi + eij,
com i = 1, .... I e j = 1, .... ni. Dizemos que αi, é o efeito diferenciado da subpopulação Pi ou do nível i do fator. Mostre que os
estimadores de mínimos quadrados para µ e αi são dados por
se impusermos a condição
2. Obtenha ,
i,
para os Exemplos 15.2 e 15.3.
15.2 Modelo para Duas Subpopulações
Inicialmente, consideremos o caso em que temos um fator com dois níveis, como no Exemplo
15.1, com o fator sexo. Ou seja, queremos avaliar o efeito do sexo do indivíduo sobre o seu
tempo de reação ao estímulo. Temos, então, o modelo
yij = µi + eij, (15.6)
em que
µi = efeito comum a todos os elementos do nível i = 1, 2;
eij = efeito aleatório, não controlado, do j-ésimo indivíduo do nível i,
yij = tempo de reação ao estímulo do j-ésimo indivíduo do nível i.
15.2.1 Suposições
É necessário introduzir suposições sobre os erros eij a fim de fazer inferências sobre µ1 e µ2.
Iremos admitir que:
(i) eij ∼ N(0, σe2), para todos i =1, 2 e j = 1, 2, ..., ni.
(ii) E(eij eik) = 0, para j ≠ k e i = 1, 2, indicando independência entre observações dentro de
cada subpopulação.
(iii) E(e1j e2k) = 0, para todo j e k, indicando independência entre observações das duas
subpopulações.
Com essas suposições, temos duas amostras aleatórias simples, independentes entre si,
retiradas das duas subpopulações N(µ1, σe2) e N(µ2, σe2).
Queremos testar a hipótese
H0: µ1 = µ2
contra a alternativa
H1: µ1 ≠ µ2.
Como já salientamos acima, esse teste pode ser conduzido com os métodos do Capítulo 13,
mas o objetivo aqui é introduzir a metodologia da análise de variância, com um caso simples. A
extensão para mais de dois níveis será estudada na Seção 15.3.
Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais, ou seja,
Var(e1j) = Var(e2j) = σe2, para todo j = 1, ..., ni. (15.7)
Essa é a propriedade conhecida como homoscedasticidade, isto é, estamos admitindo que a
variabilidade residual é a mesma para os dois níveis (ou que P1 e P2 têm a mesma variabilidade
segundo a v.a. Y). Note também que
E(yij) = µi, Var(yij) = Var(eij) = σ2e. (15.8)
15.2.2 Estimação do Modelo
Nosso objetivo é estimar µ1, µ2 e σe2 no modelo (15.6), para podermos testar H0. Usaremos
estimadores de mínimos quadrados. Poderíamos usar também estimadores de máxima
verossimilhança, pois sabemos que nossas observações têm distribuição normal. Temos que, de
(15.6), os resíduos são dados por
eij = yij – µi, (15.9)
e a soma dos quadrados dos resíduos é dada por
ou seja,
(15.10)
Observe que essa soma de quadrados é uma função de µ1 e, µ2. Se as variâncias residuais das
duas subpopulações não fossem iguais, essa soma seria mais afetada por aquele nível que tivesse
maior variância, e isso deveria influenciar a escolha dos estimadores. Nesse caso, uma sugestão
seria então minimizarmos a Fórmula (15.10) com eij2 substituída por (eij/σi)2, com Var(eij) = σi2, o
que conduz a estimadores de mínimos quadrados ponderados.
Derivando (15.10) em relação a µ1 e µ2 obtemos:
do que segue que os estimadores são dados por
(15.11)
(15.12)
que são as médias das observações dos níveis l e 2, respectivamente. Logo,
(15.13)
Podemos pensar em (15.13) como a quantidade total de informação quadrática perdida pela
adoção do modelo (15.6). Essa soma é também denominada soma dos quadrados dos resíduos.
Vejamos outra maneira de escrever essa soma. Dentro do grupo dos homens, a variância da
subpopulação P1 pode ser estimada por
(15.14)
e a variância da subpopulação P2 das mulheres é estimada por
(15.15)
Segue-se que
SQ(µ̂1, µ̂2) = (n1 - 1)S21 + (n2-1)S22. (15.16)
Temos, acima, dois estimadores não viesados do mesmo parâmetro σe2 e, portanto, podemos
definir uma variância amostral ponderada
(15.17)
e, usando (15.16), podemos escrever
(15.18)
se n = n1 + n2. Vemos que S2e é a quantidade média de informação quadrática perdida e é um
estimador não viesado de σ2e. Observe que esse é o mesmo estimador definido em (13.10).
Temos, portanto, um primeiro enfoque para estimar a variância desconhecida, σe2, por meio da
variância devida ao erro ou variância dentro de amostras, dada por Se2, que é baseada nas
variâncias amostrais, dadas por (15.14) e (15.15). A soma de quadrados (15.16) é também
chamada de soma de quadradros dentro dos grupos.
Um outro enfoque será visto mais adiante, e que consiste em estimar σe2, por meio de uma
variância entre amostras, baseada na variabilidade entre as médias amostrais, também chamada
variação devida ao fator.
Exemplo 15.1
(continuação) Para os dados da Tabela 15.1, temos:
Grupo dos Homens (nível l):
Grupo das Mulheres (nível 2):
Segue-se que
Note que a soma dos quadrados dos resíduos é
SQ(µ̂1, µ̂2)= SQ (y1, y2) = 1.237,8.
Observe, também, que y1 e y2, denotam os tempos médios estimados de reação ao estímulo dos
homens e mulheres, respectivamente.
Uma questão de interesse é a seguinte: será que o conhecimento do sexo de um indivíduo
ajuda a melhorar a previsão do tempo de reação dele ao estímulo? Para responder a essa questão,
devemos ter algum modelo alternativo para poder comparar os ganhos. O modelo usualmente
adotado é o mais simples de todos, ou seja, aquele que considera os dados vindos de uma única
população. Suponha que os valores da v.a. Y para todos os n = 20 indivíduos sigam o modelo
yi = µ + ei, i = 1, 2, ..., 20. (15.19)
Podemos considerar esse modelo para uma população, ou seja, aquela de todos os indivíduos
para a qual queremos investigar o tempo de reação ao estímulo, independentemente do sexo,
idade e outros fatores.
Para o modelo (15.19) a soma dos quadrados dos resíduos é
(15.20)
e o estimador de mínimos quadrados de µ, é obtido derivando-se (15.20) com relação a µ e
igualando a zero, chegando-se a
(15.21)
ou seja, a média de todas as observações. Como aqui yi ∼ N(µ, σe2), um estimador da variância
residual σe2 é
(15.22)
ou seja, a nossa conhecida variância amostral.
Para os dados da Tabela 15.1, encontramos
Assim, sem informação adicional, podemos prever o tempo de reação de um indivíduo como
107,50, com um desvio padrão de 8,5. Os resíduos desse modelo e do modelo (15.6) estão na
Tabela 15.4, colunas e(l) e e(2), respectivamente. Comparando esses resíduos, vemos que os
segundos melhoram um pouco as previsões, isto é, fazem cair o erro quadrático médio de 8,5
para 8,29. Mas essa queda nos parece pequena para justificar a inclusão do fator sexo no modelo,
e talvez fosse preferível adotar o modelo mais simples (15.19).
Tabela 15.4 Resíduos
para vários modelos ajustados aos dados do Exemplo 15.1.
Resíduos dos Modelos
Variáveis
Indivíduo
Tempo de Reação
Sexo
Idade
Tempo de Reação
e(2)
e(3)
yi – y
yij – yi
yij – yi
Resíduos dos Modelos
Variáveis
Indivíduo
e(1)
Sexo
Idade
e(1)
e(2)
e(3)
yi - y
yij - yi
yij - yi
1
96
H
20
–11,50
–14,1
–2,50
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
92
106
100
98
104
110
101
116
106
109
100
112
105
118
108
113
112
127
117
M
H
M
M
H
H
M
M
H
H
M
M
M
H
H
M
M
H
H
20
20
20
25
25
25
25
30
30
30
30
35
35
35
35
40
40
40
40
–15,50
–1,50
–7,50
–9,50
–3,50
2,50
–6,50
8,50
–1,50
1,50
–7,50
–4,50
–2.50
10,50
0,50
5,50
4,50
19,50
9,50
–12,9
–4,1
–4,9
–6,9
–6,1
–0,1
–3,9
11,1
–4,1
–1,1
–4,9
7,1
0,1
7,9
–2,1
8,1
7,1
16,9
6,9
–6,50
7,50
1,50
–5,25
0,75
6,75
–2,25
8,25
–1,75
1,25
–7,75
1,25
–5,75
7,25
–2,75
–4,25
–5,25
9,75
–0,25
d.p.
8,50
8,29
6,08
2d.p.
17,00
16,58
12,16
Nota: Nesta tabela, estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os
“lucros” na adoção de cada modelo. No texto, aparece o significado de cada coluna dos resíduos.
15.2.3 Intervalos de Confiança
Com as suposições feitas sobre os erros, podemos escrever
(15.23)
o que permite construir intervalos de confiança separados para os dois parâmetros µ1 e µ2, como
já vimos anteriormente. Esses têm a forma
(15.24)
em que tγ é o valor crítico da distribuição t de Student com v = n - 2 graus de liberdade, tal que
P(-tγ < t(n - 2) < tγ) = γ, 0 < γ < 1. Observe que o número de graus de liberdade é (n - 2) e não ni l, porque
tem distribuição t(n - 2) pelo Teorema 7.1. Daqui, obtemos
e, portanto,
(15.24).
Exemplo 15.1 (continuação)
Para o Exemplo 15.1, temos:
com t0,95 = 2,101 encontrado na Tabela V, com v = 18 graus de liberdade.
Ainda, com as suposições feitas, podemos concluir que
y1 - y2 ~ N(µ1 - µ2, σ2e/n1+ σ2e /n2), (15.25)
de modo que a estatística
(15.26)
tem distribuição t de Student com v = n1 + n2 – 2 = n – 2 graus de liberdade, e um intervalo de
confiança para a diferença µ1 – µ2 pode ser construído.
Exemplo 15.1
(continuação) Para o exemplo,
Este resultado implica que a hipótese
H0: µ1 = µ2 (15.27)
não pode ser rejeitada no nível α = 0,05, já que o zero pertence ao intervalo. Isso está de acordo
com o resultado já apontado de que o conhecimento do sexo de um indivíduo não irá ajudar a
prever o tempo de reação ao estímulo.
O teste da hipótese para (15.27), com as suposições adotadas, é feito usando a estatística
(15.26), com n1 + n2 – 2 g.l., obtendo-se o valor observado t0 = 1,40, que, comparado com o valor
crítico de 2,101(α = 5% e l8 g.l.), leva à não rejeição da hipótese, como foi visto acima.
15.2.4 Tabela de Análise de Variância
As operações processadas anteriormente podem ser resumidas num quadro, para facilitar a
análise. Se (15.27) for válida, o modelo adotado será
yij = µ + eij,
e a quantidade de informação perdida (devida aos resíduos) será dada por
(15.28)
que iremos chamar de soma de quadrados total, abreviadamente, SQTot.
Analogamente, adotado o modelo (15.4), a quantidade de informação perdida é dada por
(15.13) ou (15.16), e que chamamos de soma de quadrados dos resíduos, abreviadamente,
SQRes, ou soma de quadrados dentro dos dois grupos, abreviadamente, SQDen.
A economia obtida ao passarmos de um modelo para outro será
SQTot - SQDen = SQEnt, (15.29)
que chamaremos de soma de quadrados entre grupos. Não é difícil provar que (veja o Problema
18)
(15.30)
Observando essa expressão, vemos que ela representa a variabilidade entre as médias
amostrais, ou seja, uma “distância” entre a média de cada grupo e a média global. Donde o nome
“soma de quadrados entre grupos”. Quanto mais diferentes forem as médias yi, i = 1, 2, maior
será SQEnt e, consequentemente, menor será SQDen.
As quantidades
(15.31)
e
(15.32)
são chamadas quadrado médio total e quadrado médio dentro (ou residual), respectivamente.
Todas essas informações são agrupadas numa única tabela, conhecida pelo nome de ANOVA
(abreviação de ANalysis Of VAriance), descrita na Tabela 15.5.
Tabela 15.5 Tabela
de Análise de Variância (ANOVA).
F.V.
g.l.
SQ
QM
F
Entre
1
SQEnt
QMEnt
QMEnt/Se2
Dentro
n-2
SQDen
QMDen (ou Se2)
Total
n-1
SQTot
QMTot (ou S2)
Na primeira coluna, temos as descrições das diferentes somas de quadrados, tecnicamente
indicadas por fontes de variação (F.V.). Os graus de liberdade (g.l.) da segunda coluna estão
associados às respectivas somas de quadrados, sendo que o número de g.l. da SQEnt é obtido por
subtração. Falaremos abaixo sobre QMEnt e a razão F = QMEnt/QMDen.
Com os dados obtidos anteriormente para o Exemplo 15.1, podemos
construir a tabela ANOVA para o modelo (15.4). O resultado está na Tabela 15.6.
Exemplo 15.1 (continuação)
Tabela 15.6 Tabela
ANOVA para o Exemplo 15.1.
F.V.
g.l.
SQ
QM
F
1,97
Entre
1
135,20
135,20
Dentro
18
1.237,80
68,77
Total
19
1.373,00
72,26
Da ANOVA encontramos os desvios padrões residuais
do “modelo completo”
(15.4) e
do “modelo reduzido” (15.19). A economia propiciada ao passar de um
modelo para outro, em termos de soma de quadrados, é 135,20, e em termos de quadrados
médios, comparando 72,26 e 68,77. Proporcionalmente, economizamos
ou seja, aproximadamente 10% na SQ de resíduos. Podemos dizer que essa é a proporção da
variação explicada pelo modelo (15.9). Essa medida é chamada coeficiente de explicação do
modelo, denotada por
(15.33)
Essa medida já foi usada na Seção 4.6. Veja o Problema 27.
A conveniência ou não do modelo (15.4) está associada ao teste (15.27), já que aceitar essa
hipótese implica a adoção do modelo (15.19). Com as suposições feitas, a estatística para o teste
é (15.26), que, sob H0 fica
(15.34)
que tem distribuição t(n1 + n2 – 2). Também sabemos que o quadrado de T tem distribuição F(1,
n1 + n2 – 2) (ver Seção 13.3). Contudo,
e como
podemos escrever
(15.35)
Logo, concluímos que
(15.36)
Essa é a estatística que aparece na última coluna da tabela ANOVA. Portanto, podemos usar
F, com (1, n – 2) graus de liberdade para testar a hipótese (15.27). Rejeitaremos H0 se F > c, c
determinado pelo nível de significância do teste.
Da ANOVA da Tabela 15.6, vemos que o valor da estatística F é 1,97. Consultando a
Tabela VI, com (1,18) g.l. e α = 0,05, encontramos o valor crítico 4,41. Logo, não rejeitamos H0:
µ1 = µ2. Isso significa que não há vantagem em usar o modelo (15.4) no lugar de (15.19).
Exemplo 15.4
Problemas
3. Na tabela abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano de um curso universitário. As
variáveis são:
Y: nota obtida na primeira prova do curso;
X: se cursou escola particular (P) ou oficial (O);
Z: o período em que está matriculado: manhã (M), tarde (T), noite (N).
y
x
z
56 68
P O
N M
69 70 70 72
P P O O
M M T N
75
O
M
77
P
M
83
P
T
84
P
N
y
x
z
85 90
O P
T T
92 95 95 95
O P P P
M M N T
100
P
T
100
P
M
100
P
M
100
P
T
84
O
N
= µ + ei, i = 1, 2, ..., 21, ei ∼ N(0, σ2). Obtenha os erros quadráticos médios de µˆ e
intervalos de confiança para µ e σ2, com coeficiente de confiança 95%. Analise os resíduos do modelo.
Considere o modelo yi
2.
Construa
4. Usando os dados do Problema 3, você diria que o fato de a pessoa ter cursado a escola particular ou oficial influi no resultado
da primeira prova? Siga todos os passos do Exemplo 15.1 para responder a essa pergunta.
5. Usando os dados do Exemplo 15.2, você diria que o fato de estudar durante o dia ou à noite afeta o desempenho dos alunos?
6. Numa pesquisa sobre rendimentos por hora, com assalariados segundo o grau de instrução, obtiveram-se os dados da tabela
abaixo. Construa a tabela ANOVA e verifique se existe diferença significativa entre os rendimentos das duas categorias.
Escolaridade
n
Σxi
Σx2i
Fundamental
50
111,50
259,93
Médio
20
71,00
258,89
[Observação: rendimentos (x) expressos como porcentagem do salário mínimo.]
7. Obtenha a tabela ANOVA para o Exemplo 15.3, usando o fator regime com os níveis l e 2.
15.3 Modelo para Mais de Duas Subpopulações
Para ilustrar essa situação, vamos considerar o fator idade para o Exemplo 15.1. Consideremos
o modelo
yij = µi + eij , (15.37)
para i = 1, 2, 3, 4, 5 (níveis de idade) e j = 1, 2, 3, 4 (quatro indivíduos para cada nível de idade).
Na Figura 15.2, temos os box plots da variável resposta (tempo de reação estímulo), para cada
nível do fator idade. Vemos claramente que o tempo aumenta com a idade.
Figura 15.2 Box
plots para a variável Y (estímulo) para cada nível de idade. R.
Agora, queremos minimizar
(15.38)
com as hipóteses E(eij) = 0, para todo i, j e Var(eij) = σe2, para todo i, j. É fácil verificar que os
estimadores das médias µi. são
(15.39)
e que
ou seja,
em que Si2 é variância amostral do i-ésimo nível (grupo de idade). Todas essas variâncias
amostrais são estimadores não viesados de σe2, logo pode-se, novamente, considerar o estimador
ponderado
(15.40)
Para nossos dados, obtemos:
(1) i = l (20 anos)
(2) i = 2 (25 anos)
(3) i = 3 (30 anos)
(4) i = 4 (35 anos)
(5) i = 5 (40 anos)
Segue-se que
Se2 = 554/15 = 36,93, Se = 6,08.
A tabela ANOVA para o fator idade está na Tabela 15.7.
Tabela 15.7 Tabela
ANOVA para o Exemplo 15.1, com fator idade.
F.V.
g.l.
SQ
QM
F
Entre
4
819,00
204,75
5,54
Dentro
15
554,00
36,93
Total
19
1.373,00
72,26
Da tabela concluímos que houve uma redução substancial na soma de quadrados (819
unidades quadradas), ou seja,
isto é, aproximadamente 60% da variação total é explicada pelo fator idade, reduzindo o erro
quadrático médio de 8,50 para 6,08.
Como antes, podemos construir os intervalos de confiança para os parâmetros µi. Por exemplo,
para o grupo de idade de 25 anos,
Os resíduos desse modelo encontram-se na Tabela 15.4, coluna e(3), e verificamos que eles
diminuíram bastante, indicando a boa capacidade de previsão do modelo. A análise dos resíduos
na Figura 15.3 não sugere violação de nenhuma das suposições feitas.
Figura 15.3 Resíduos
do modelo yij
=µ +e
i
ij
para o fator idade.
A hipótese
H0: µ1 = ... = µ5 (15.41)
pode ser testada usando-se o valor 5,54 da estatística F. Da Tabela VI encontramos que o valor
crítico de F(4,15), com α = 0,05, é 3,06, logo rejeitamos H0. Ou seja, há evidências de que os
tempos médios de reação para os diversos grupos de idade não sejam todos iguais.
Problemas
8. Usando os dados do Problema 3, você diria que o período que o aluno está cursando influencia seu desempenho na primeira
prova?
9. Continuação do Problema 6. Na pesquisa de salário, acrescentou-se uma amostra de universitários.
(a) O grau de escolaridade influencia os rendimentos?
(b) Qual seria o rendimento médio para pessoas com formação universitária?
(c) Existe diferença entre os rendimentos médios daqueles com instrução universitária e assalariados com primeiro grau? Com
segundo grau?
Escolaridade
n
Σxi
Σxi2
Fundamental
50
111,50
259,93
Médio
20
71,00
258,89
Superior
10
84,30
717,94
10. Quer-se verificar a durabilidade de duas marcas de tintas que têm preços de custo bem diferenciados. Para isso foram
selecionadas dez casas, cinco pintadas com a marca A e as cinco restantes pintadas com a marca B. Após um período de seis
meses, foi atribuída a cada casa uma nota, resultante de vários quesitos. Os resultados foram os seguintes:
Marca A
85 87 92
80 84
Marca B
91 91 92
86 90
Com esses dados, você diria que uma das marcas é melhor do que a outra?
15.4 Comparações entre as Médias
A análise de variância é apenas o primeiro passo no estudo de comparação de médias de vários
grupos. Quando o modelo que está sendo testado apresenta pouco poder de previsão, ou seja,
quando não houver evidências para rejeitar a hipótese de igualdade entre as médias, então a
análise é final. O fator que está sendo investigado não produz efeito nenhum sobre a variável
resposta.
Entretanto, quando o teste rejeita a hipótese de igualdade (15.2), estamos afirmando que
ocorre pelo menos uma desigualdade, e essa conclusão na maioria dos casos não é suficiente para
o pesquisador. Ele deseja saber de que modo ocorre essa desigualdade. Como ilustração, suponha
que se rejeite a hipótese H0: µ1 = µ2 = µ3. Então, existem as seguintes possibilidades para a
alternativa:
(1) µ1 = µ2 ≠ µ3, (2) µ1 ≠ µ2 = µ3 (3) µ1 = µ3 ≠ µ2, e (4) µ1 ≠ µ2 ≠ µ3.
Existem vários métodos para resolver esse problema, e alguns deles podem ser vistos em Peres
e Saldiva (1982). Aqui iremos discutir apenas um deles.
Um modo de investigar a causa da rejeição é comparar os grupos dois a dois. Como já foi
visto na Seção 15.2, isso pode ser feito por meio da construção de intervalos de confiança para a
diferença, obtendo-se, por exemplo,
(15.42)
com tγ obtido de uma distribuição t de Student com n – I graus de liberdade. Poderíamos, então,
construir os intervalos para todos os possíveis pares e, observando-se aqueles que não contêm o
valor zero, obter conclusões sobre a razão da rejeição.
Investigando o efeito da idade, vimos que a hipótese H0 foi rejeitada. O intervalo de
confiança para a diferença de duas médias quaisquer seria dado por
Exemplo 15.5
Segue-se que grupos de idade cuja diferença de médias seja superior a 9,16 seriam diferentes.
Na Tabela 15.8, observa-se que se aceita a igualdade apenas para grupos vizinhos, indicando
uma relação mais forte entre as variáveis, fato que será explorado no próximo capítulo.
Tabela 15.8 Médias
e diferenças de médias para os diversos grupos de idades para o Exemplo 15.1.
Grupo 20 anos
Média
Diferença
25 anos
98,50
30 anos
103,25
4,75
35 anos
107,75
4,50
40 anos
110,75
3,00
117,25
6,50
No entanto, com esse procedimento não se pode controlar as probabilidades do erro de tipo I,
ou seja, a probabilidade de rejeitar uma hipótese verdadeira. Por exemplo, suponhamos que todas
as médias sejam iguais. No problema acima, com cinco grupos e sob
a hipótese nula, teríamos então
possíveis comparações duas a duas, cada uma
testada no nível de 5%, e a probabilidade de que pelo menos uma das comparações exceda 9,16 é
bem maior do que 5% (na realidade, pode ser mostrado que essa probabilidade está em torno de
29%). Essa probabilidade cresce com o número de comparações. Para controlar melhor essa
probabilidade global do erro de tipo I, pode ser usada uma correção, baseada na desigualdade de
Bonferroni (ver Problema 19). Usa-se, então, o intervalo
(15.43)
em que o único valor que muda é o de t*γ, que tem o mesmo número de graus de liberdade, mas o
nível de significância agora é α* = α/m, em que m é o número de comparações duas a duas que
desejamos fazer.
No Exemplo 15.5, α* = 0,05/10 = 0,005. Da Tabela V, com 15 graus de liberdade,
encontramos t* = 3,438 (obtido por interpolação linear) e então
Exemplo 15.6
Rejeitaremos H0 para diferenças maiores do que 14,78 e vemos que apenas existe diferença
entre os grupos de 20 e 40 anos.
Os intervalos de Bonferroni são conservadores, pois o nível α* real será menor do que aquele
nominal, e essa diferença aumenta com m. Portanto, recomenda-se que o seu uso seja restrito a
um número pequeno de comparações.
Problemas
11. Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto. As quantidades de água que passaram pela
laje, em cada tipo, foram medidas durante um mês, obtendo-se os valores da tabela abaixo. Que conclusão pode obter?
I
II
III
IV
56 64 45
42
55 61 46
39
62 50 45
45
59 55 39
60 56 43
43
41
12. Os dados abaixo vêm de um experimento completamente aleatorizado, em que 5 processos de estocagem foram usados com
um produto perecível por absorção de água. 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos, e
após uma semana mediu-se a quantidade de água absorvida. Os resultados codificados estão no quadro abaixo. Existem
evidências de que os processos de estocagem produzem resultados diferentes?
Sexo
A
B
C
D
E
8
4
1
4
10
6
–2
2
6
8
7
0
0
5
7
5
–2
–1
5
4
8
3
–3
4
9
15.5 Teste de Homoscedasticidade
Uma das suposições básicas para a aplicação da técnica de ANOVA é a de
homoscedasticidade, ou seja, que a variância seja a mesma em todos os níveis. Muitas vezes, não
podemos garantir a priori se essa suposição é adequada, e podemos analisar os dados para obter
uma resposta. Podemos fazer uma inspeção visual ou um teste. A seguir apresentaremos o teste
de Barlett para testar a igualdade de variâncias (veja Dixon e Massey, 1957):
H0 : σ21 = σ22 = …= σ2I (15.44)
As informações de que dispomos são: os tamanhos amostrais ni, e variâncias amostrais Si2 = 1,
2, ..., I, com n = n1 + ... + nI.
O teste é construído do seguinte modo:
(i) calcule a variância comum
(ii) calcule
(iii) calcule
(iv) construa a estatística M/C, que segue uma distribuição aproximada qui-quadrado, com I –
1 g.l., para amostras grandes. Esquematicamente,
M/C ∼ χ2 (I - l).
Voltemos aos dados do tempo de reação ao estímulo como função da idade. Da
amostra obtemos os seguintes resultados:
Exemplo 15.7
Grupo etário
20
25
30
35
40
Tamanho amostra
4
4
4
4
4
Variância
35,67
26,25
44,25
31,58
46,92
Seguindo os passos (i) – (iv) acima, obtemos:
(i) Se2 = 36,93;
(ii) M = (20 – 5)n(36,93) – 3[n(35,67) + ... + n(46,92)] = 0,36;
(iii)
(iv) M/C = (0,36)/(1,13) = 0,32.
Consultando a Tabela IV, com 4 g.l. e α = 0,05, encontramos χc2 = 11,1, e portanto não
rejeitamos a hipótese H0 de igualdade de variâncias.
15.6 Exemplo Computacional
Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de
análise de variância. Retomemos o Exemplo 15.1, como fator idade. O Quadro 15.1 mostra a
saída do Minitab, usando a opção ANOVA do menu. Observe que os valores encontrados
coincidem com aqueles já obtidos na Seção 15.3, Tabela 15.7. O valor-p do teste de igualdade de
médias é indicado por P = 0,006. A saída mostra também as estimativas das médias dos grupos,
os desvios padrões e o desvio padrão ponderado, Se = 6,08. Os intervalos de confiança
individuais estão mostrados de forma pictórica, com uma escala anexa, notando-se intersecções
que levam à rejeição da hipótese de igualdade de médias.
Quadro 15.1 ANOVA
para o Exemplo 15.1. Minitab.
One-way Analysis of Variance
Analysis of Variance for C1
Source DF SS MS F P
C2 4 819.0 204.8 5.54 0.006
Error 15 554.0 36.9
Total 19 1373.0
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _
20 4 98.50 5.97 (_ _ _ _ _ _*_ _ _ _ _ _)
25 4 103.25 5.12 (_ _ _ _ _ _*_ _ _ _ _ _)
30 4 107.75 6.65 (_ _ _ _ _ _*_ _ _ _ _ _)
35 4 110.75 5.62 (_ _ _ _ _ _*_ _ _ _ _ _)
40 4 117.25 6.85 (_ _ _ _ _ _*_ _ _ _ _ _)
_ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _
Pooled StDev = 6.08 100 110 120
Na Figura 15.3, temos os resíduos para cada nível do fator idade, bem como os resíduos para
todas as idades. Na Figura 15.4, vemos os box plots desses resíduos, por nível, e na Figura 15.5,
o box plot dos resíduos para todas as idades.
Figura 15.4 Box
plots para os resíduos por nível do fator idade. R.
Figura 15.5 Boxplot
para os resíduos de todas as idades. R.
15.7 Problemas Suplementares
13. A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é mais eficaz. O encarregado de responder
a essa pergunta pode dispor de 24 pessoas para verificar a hipótese. Ele as dividiu em três grupos de oito pessoas, de modo
aleatório, e submeteu cada grupo a um dos métodos. Após o treinamento os 24 participantes foram submetidos a um mesmo teste,
cujos resultados estão na tabela abaixo (quanto maior a nota, melhor o resultado). Quais seriam as conclusões sobre os métodos
de treinamento?
Método 1
Método 2
Método 3
3
5
8
4
4
4
7
4
6
7
7
9
2
3
3
2
8
10
4
9
8
5
6
9
Σxi
Σxi2
38
37
62
224
199
496
14. Quer-se testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo. As embalagens são as seguintes:
A: a tradicional embalagem preta B: cartolina vermelha C: papel alumínio rosa
Escolheram-se três territórios de venda, com potenciais de vendas supostamente idênticos.
Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas observadas durante 4 semanas, obtendo-se os
resultados da tabela abaixo. Quais seriam suas conclusões e críticas a esse experimento?
Embalagens
Réplicas
(Semanas)
1
2
3
4
Total
A
B
C
15
20
9
12
21
23
19
25
9
13
20
18
56 88
60
15. Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto
seria mais bem aceito. Vinte e quatro donas de casa atribuíram notas (0 a 10) para o prato que produziram com o produto. Junto
com o produto foram fornecidos quatro tipos de receitas: duas para doces (A e D) e duas para salgados (B e C). Feita a análise
estatística, quais recomendações você faria ao produtor? Discuta a validade das suposições feitas para resolver o problema.
Receita
A
B
C
D
2
5
1
7
2
6
4
7
3
9
4
8
3
5
1
9
6
8
3
6
2
8
1
4
16. Num curso de extensão universitária, entre outras informações, obteve-se informação sobre salário e área de formação
acadêmica, com os seguintes resultados:
Formação
ni
–x
s
Humanas
65
28,75
3,54
Exatas
12
35,21
5,46
Biológicas
8
43,90
4,93
Aqui, ni indica a frequência, –x o salário médio, e s o desvio padrão amostral. Teste a hipótese de que os salários médios nessas
três áreas são iguais.
17. Suspeita-se que quatro livros, escritos sob pseudônimo, são de um único autor. Uma pequena investigação inicial selecionou
amostras de páginas de cada um dos livros, contando-se o número de vezes que determinada construção sintática foi usada. Com
os resultados abaixo, quais seriam as suas conclusões?
Livros
1
2
3
4
28 29 26 39
31 33 24 27
17 35 22 35
25 24 19 34
26 28 23 28
22
25 34
24
29 33
30
18. Prove que
19. Construa uma ANOVA completa para os Exemplos 15.2 e 15.3.
20. Usando a proposta do Problema 19 e os dados do Exemplo 15.3, teste H0: µ1 = µ2 = µ3, com α = 0,05.
21. Teste a igualdade de variâncias para o Exemplo 15.3.
22. As vendas diárias (Y) de um grande centro de compras seguem uma distribuição normal com média igual a $ 100 e desvio
padrão igual a $ 20.
(a) Qual o intervalo que contém 95% das vendas diárias?
(b) Se –X representar a média de amostras de vendas de nove dias, qual intervalo conterá 95% das médias?
(c) Compare e interprete os dois intervalos acima.
Suponha, agora, que não se conheça nem a média nem o desvio padrão da população. Sorteou-se uma amostra de nove dias
com as seguintes vendas diárias:
157 162 135 136 154 178 180 127 128
(d) Qual a melhor estimativa para a média populacional?
(e) E para o desvio padrão populacional?
(f) Construa um intervalo de confiança (IC) de 95% para a média populacional.
(g) Construa um IC para a variância populacional.
(h) Explique em poucas palavras o significado dos intervalos obtidos em (f) e (g).
(i) Suponha, agora, que baseado nessa amostra você deva responder à pergunta (a).
Como você não conhece a média e a variância populacional, você decide “emprestar” os respectivos valores da amostra e
calcular o intervalo. Qual seria esse intervalo? Você tem alguma restrição a essa resposta?
(j) Usando (15.47), construa o IP e interprete o resultado.
(k) Compare com a resposta dado em (h), explicando a diferença entre eles.
23. Mostre que o IP para uma observação futura Yif, do i-ésimo grupo, pode ser escrito como:
e calcule o IP para uma pessoa de 40 anos no Exemplo 15.1. Compare com o respectivo IC para a média do mesmo grupo.
24. Conduziu-se um estudo-piloto para determinar qual o intervalo de normalidade para o peso de crianças com dez anos de
idade. Usando-se uma amostra de 50 crianças, encontrou-se o peso X de cada uma delas, com os seguintes resultados:
2
ixi
Σixi =
kg2.
1.639,5 kg e Σ
= 56.950,33
Com esses dados, quais seriam os limites de um intervalo para que crianças com dez anos de
idade fossem consideradas como tendo peso normal?
25. Prove a equivalência das Expressões (15.33) e (4.13).
15.8 Complementos Metodológicos
1. Contrastes Múltiplos. Quando consideramos testar a hipótese µi
por
= µj dentre as I médias, a região crítica de nível a será dada
(15.45)
na qual tα/2 encontra-se na Tabela V, com n - I graus de liberdade e tal que P(|t|
> tα/2) = α.
A aplicação desse método apresenta um problema, que tem sido bastante estudado e é conhecido como o problema de contrastes
múltiplos.
No nosso Exemplo 15.1, com quatro observações por grupo de idade, teremos de aplicar (15.45) para cada uma das
possíveis comparações de médias duas a duas. Se
α = 0,05, por exemplo, teremos
(15.46)
e a probabilidade de que se verifiquem as dez condições (15.46), supondo independência, é (0,95)10 = 0,598, e não 0,95.
Portanto, aplicando-se o teste várias vezes, é provável que apareçam diferenças entre grupos, mesmo que elas não existam.
Um método que resolve o problema é baseado na desigualdade de Bonferroni. Seja A o evento que consiste em rejeitar a hipótese
µi = µj, sendo que essa hipótese é verdadeira. Suponha que P(A) = α. Se B for o evento tal que rejeitamos pelo menos uma das
hipóteses, quando ela é verdadeira, então
B = A1 ∪ A2 ∪ ... ∪ Am.
Segue-se da desigualdade de Bonferroni que
Se indicarmos por
contraste como
α* a probabilidade do erro do tipo I global para os m contrastes, P(B) ≤ α*, logo tomamos o nível de cada
α = α*/m.
Para m grande,
aproximação
α
pode ser tão pequeno que não o encontramos em tabelas da distribuição t de Student. Pode-se usar a
na qual v é o número de graus de liberdade da distribuição t e Zα é o valor da N(0, l) tal que P(Z > Zα) = α.
2. Intervalo de predição. Vamos supor adotado o modelo (15.19) para a variável Y e desejamos prever uma observação futura Yf.
Pelo modelo adotado, podemos escrever que
Yf = µ + Ef,
= y + εf , e por desconhecer εf substituímo-lo por seu valor esperado, que é zero. Logo, o
que poderá ser estimado por Ŷf
estimador (ou predição) da futura observação será a média da amostra. Admitindo a observação futura como independente das
observações anteriores, podemos escrever
e que será estimada por
Usando a mesma argumentação para a construção de intervalos de confiança, podemos construir um IC para a futura observação,
que chamaremos de intervalo de predição (IP), do seguinte modo:
(15.47)
Capítulo 16
Regressão Linear Simples
16.1 Introdução
No Capítulo 8, introduzimos o conceito de regressão para duas v.a. quantitativas, X e Y. Vimos
que a esperança condicional de Y, dado que X = x, por exemplo, denotada por E(Y|x), é uma
função de x, ou seja,
E(Y|x) = µ(x). (16.1)
Em (8.27) definimos precisamente essa função. Uma definição similar vale para E(X|y), que
será uma função de y. Estamos considerando aqui o caso em que X e Y são definidas sobre uma
mesma população P. Por exemplo, X pode ser a idade e Y o tempo de reação ao estímulo, no
Exemplo 15.1. Nesse exemplo, a análise sugeriu a existência de uma relação mais forte entre as
duas variáveis, e a modelamos por
yij = µi + eij, i = 1, ..., 5, j = 1, ..., 4, (16.2)
em que µi é a média do grupo de idade i. Podemos pensar que o fator idade determina cinco
subpopulações (ou estratos) em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni =
4, i = 1, ..., 5.
Em (16.1), µ(x) pode ser qualquer função de x; veja o Exemplo 8.21. Um caso simples de
interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional. Nesse caso,
µ(x) e µ(y) são, de fato, funções lineares. Veja a Seção 8.8.
Continuando com o Exemplo 15.1, tanto X (idade) como Y (tempo de resposta ao estímulo)
são v.a. contínuas, e podemos pensar em introduzir um modelo alternativo para yij, dada a relação
entre X e Y. Observando as médias de Y, segundo os grupos de idades, ou seja, E(Y|x),
percebemos que estas aumentam conforme as pessoas envelhecem. A Figura 16.1 mostra os
dados observados, na qual notamos uma tendência crescente, bem como os valores repetidos de
Y para cada nível de idade x.
Um modelo razoável para E(Y|x) pode ser
E(Y|x) = µ(x) = α + βx, (16.3)
ou seja, o tempo médio de reação é uma função linear da idade.
Figura 16.1 Gráfico
de dispersão de idade e reação ao estímulo, com reta ajustada.
A forma da função µ(x) deve ser definida pelo pesquisador, em função do grau de
conhecimento teórico que ele tem do fenômeno sob estudo. Um modelo alternativo a (16.2)
seria, então,
yij = µ(xi) + eij, (16.4)
com E(Y|xi) = µ(xi) = α + βxi, i = 1, 2, ..., 5. Entretanto, a forma usual de escrever o modelo é
yi = µ(xi) + ei, (16.5)
em que yi indica o tempo de reação do i-ésimo indivíduo com xi anos de idade, i = 1, 2, ..., n, e n
é o número total de observações. Teremos, então, com essa notação, valores repetidos para X, por
exemplo, x1 = ... = x4 = 20. Convém reforçar a ideia que estamos propondo um modelo de
comportamento para as médias das subpopulações, logo teremos de estimar os parâmetros
envolvidos na função µ(x), baseados numa amostra de n = 20 observações, no exemplo.
No caso de (16.3), o modelo pode ser escrito como
yi = E(Y|xi) + ei = α + βxi + ei, i = 1, 2, ..., n, (16.6)
devendo-se encontrar os valores mais prováveis para α e β, segundo algum critério, a partir de n
observações de pares de valores de (X, Y).
Antes de prosseguirmos, seria conveniente interpretar os parâmetros envolvidos no modelo
(16.5). Sabemos que α, o intercepto, representa o ponto onde a reta corta o eixo das ordenadas, e
β, o coeficiente angular, representa o quanto varia a média de Y para um aumento de uma
unidade da variável X. Esses parâmetros estão representados na Figura 16.2.
Voltando ao nosso exemplo, em que X é a idade e Y o tempo de reação, β representa o
acréscimo no tempo médio de reação para cada ano de envelhecimento das pessoas. Aqui 
representa o tempo de reação para a idade zero (recém-nascido), o que é uma inadequação do
modelo.
Figura 16.2 Representação
do modelo E(Y|x)
= α + βx.
Chamamos (16.3) de modelo linear, pois este representa uma reta. Todavia, em casos
mais gerais, o termo linear refere-se ao modo como os parâmetros entram no modelo, ou seja, de
forma linear. Por exemplo, o modelo
Observação.
E(Y|x) = α + βx + γx2,
embora graficamente represente uma parábola, é modelo linear em α, β e γ. Por outro lado,
E(Y|x) = αeβx (16.7)
não é um modelo linear em α e β.
Determinados modelos não lineares podem ser transformados em lineares, por meio de
transformações das variáveis. Assim, tomando-se o logaritmo (de base e) em (16.7) obtemos
ℓnE(Y|x) = ℓn(α) + βx = α′+ βx,
que é linear em α′ e β.
Ao lado de um tratamento formal para estudar o modelo (16.6), devemos usar as técnicas de
análise de dados que estudamos na Parte 1 do livro. Em particular, podemos fazer diversos tipos
de gráficos antes que o modelo seja ajustado, durante o processo de ajuste e, finalmente, depois
que o modelo foi ajustado.
A Figura 16.1 é um exemplo de um gráfico que deve ser feito antes de selecionar o modelo.
Ou seja, temos um gráfico de dispersão entre as variáveis X (idade) e Y (tempo de reação ao
estímulo). Esse tipo de diagrama permite ver qual o tipo de relação existente entre as variáveis,
se há valores atípicos, se há valores repetidos (como no Exemplo 15.1), se a variabilidade de Y
está aumentando ou não com X etc. Nesse mesmo exemplo, se decidirmos incluir a variável
“acuidade visual” no modelo, teríamos duas variáveis explicativas e poderíamos fazer, por
exemplo, gráficos de dispersão entre a resposta e cada variável explicativa e entre as duas
variáveis explicativas. Este último nos daria uma ideia do planejamento envolvido, ou seja, se os
pares de valores das variáveis explicativas estão cobrindo o plano (xi, x2), se há grupos de pontos
etc.
Exemplos de gráficos depois do ajuste serão vistos na Seção 16.5, quando fizermos uma
análise dos resíduos, para avaliar a adequação do modelo aos dados. Gráficos durante o ajuste
são utilizados quando estudarmos a possibilidade de considerar vários modelos alternativos para
o problema em questão. Esse tópico não será explorado com detalhes no livro.
16.2 Estimação dos Parâmetros
Como no capítulo anterior, iremos encontrar os estimadores de mínimos quadrados para os
parâmetros do modelo linear (16.6), mas o mesmo desenvolvimento pode ser aplicado em
modelos mais complexos. Será necessário ainda introduzir algumas suposições para as v.a.
envolvidas. A primeira delas é que a variável X é por hipótese controlada e não está sujeita a
variações aleatórias. Dizemos que X é uma variável fixa (ou sem erro ou determinística).
Segundo, para dado valor x de X, os erros distribuem-se ao redor da média α + βx com média
zero, isto é,
E(ei|x) = 0. (16.8)
Em terceiro lugar, e pela mesma razão apresentada no capítulo anterior, devemos supor que os
erros tenham a mesma variabilidade em torno dos níveis de X, ou seja,
Var(ei|x) = σ2e. (16.9)
E em quarto lugar, introduziremos a restrição de que os erros sejam não correlacionados.
Colhida uma amostra de n indivíduos, teremos n pares de valores (xi, yi), i = 1, ..., n, que
devem satisfazer ao modelo (16.6), isto é,
yi = α + βxi + ei, i = 1, ..., n. (16.10)
Temos, então, n equações e n + 2 incógnitas (α, β, e1, e2, ..., en). Precisamos introduzir um
critério que permita encontrar α e β. Como no capítulo anterior, vamos adotar o critério que
consiste em encontrar os valores de α e β que minimizam a soma dos quadrados dos erros, dados
por
ei = yi - (α + βxi), i = 1, ..., n. (16.11)
Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos quadrados dos
erros (ou desvios)
(16.12)
Para cada valor de α e β teremos um resultado para essa soma de quadrados, e a solução de
mínimos quadrados (MQ) é aquela que torna essa soma mínima. Temos, então, o problema de
encontrar o mínimo de uma função de duas variáveis, α e β, no caso (ver Morettin et al., 2005).
Derivando em relação a α e β e igualando a zero, observamos que as soluções α e β devem
satisfazer
(16.13)
as quais produzem as soluções
(16.14)
Substituindo em (16.3), teremos o estimador para a média µ(x), dado por
µˆ(xi) = α + βxi, i = 1, ..., n, (16.15)
que iremos indicar por
ˆyi = α + βxi, (16.16)
ou, ainda, por
ˆyi = – y - β x + β xi = –y + β (xi - x). (16.17)
Voltemos ao Exemplo 15.1 e vamos ajustar o modelo (16.10), com:
yi: tempo de reação do i-ésimo indivíduo,
xi: idade do i-ésimo indivíduo,
ei: desvio, i = 1, 2, ..., 20.
Da Tabela 16.1 obtemos as informações:
n = 20, ∑yi = 2.150, ∑xi = 600, ∑xiyi = 65.400,
Exemplo 16.1
– y = 107,50, –x = 30, ∑x2i = 19.000.
Substituindo em (16.14) obtemos
o que nos dá o modelo ajustado
ŷi = 80,50 + 0,90xi, i = 1, 2, ..., 20. (16.18)
Com esse modelo podemos prever, por exemplo, o tempo médio de reação para pessoas de 20
anos, que será indicado por ŷ (20) e determinado por
ŷ(20) = 80,50 + (0,90)(20) = 98,50.
De modo análogo, os tempos médios para as idades 25, 30, 35 e 40 serão, respectivamente,
estimados por: 103,00, 107,50, 112,00, e 116,50. Esses valores são muito próximos daqueles
encontrados na Seção 15.3, e a vantagem desse modelo sobre aquele é a possibilidade de estimar
o tempo de reação médio para um grupo de idades não observado. Suponhamos, por exemplo,
que se deseja estimar o tempo médio para o grupo de pessoas com 33 anos; este será dado por
ŷ(33) = 80,50 + (0,90)(33) = 110,20.
Na Figura 16.1, aparecem representados os dados observados, bem como a reta ajustada.
Podemos observar que o modelo parece ser adequado, não apresentando nenhum ponto com
desvio exagerado.
Problemas
1. Usando os dados do Exemplo 15.1:
(a) Encontre a reta de mínimos quadrados ˆzi
= α + βxi, em que z mede a acuidade visual e x, a idade.
(b) Interprete o significado de α e β nesse problema.
(c) Para cada indivíduo, encontre o desvio ˆei = zi - ˆzi; existe algum com valor muito exagerado?
2. A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas.
(a) Encontre a reta de MQ, supondo a relação E(y|x) = α + βx.
(b) Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?
(c) Qual o significado do coeficiente angular nesse caso?
(d) E do coeficiente linear?
x
10 13
5
7
20
y
4
6
5
2
3
3. Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico. Dez amostras de 50
gramas cada foram guardadas a diferentes temperaturas, e após 15 dias mediu-se a potência. Os resultados estão no quadro
abaixo.
(a) Faça a representação gráfica dos dados.
(b) Ajuste a reta de MQ, da potência como função da temperatura.
(c) O que você acha desse modelo?
(d) A que temperatura a potência média seria nula?
Temperatura
Potência
30°
38
50°
70°
43 32 26 33 19 27 23 14
90°
21
4. Ainda usando os dados do exemplo numérico 15.1, investigue o ajuste da reta de MQ na variável tempo de reação como
função da acuidade visual.
16.3 Avaliação do Modelo
Nesta seção e nas seguintes, estudaremos várias formas de avaliar se o modelo linear
postulado é adequado ou não, dadas as suposições que fizemos sobre ele.
16.3.1 Estimador de σ2e
Como no capítulo anterior, para julgar a vantagem da adoção de um modelo mais complexo
(linear ou outro qualquer), vamos usar a estratégia de compará-lo com o modelo mais simples,
que é aquele discutido na Seção 15.2, ou seja,
yi = µ + ei. (16.19)
A vantagem será sempre medida por meio da diminuição dos erros de previsão, ou ainda, da
variância residual S2e. Para o modelo ajustado (16.16), cada resíduo é dado por
ˆei = yi - ŷi = yi - α - β xi. (16.20)
Como vimos na Seção 16.1, vários gráficos envolvendo esses resíduos podem ser feitos para
avaliar se eles são “bons representantes” dos verdadeiros ei desconhecidos, no sentido de que as
suposições feitas sobre estes estão satisfeitas. Esses gráficos serão estudados na Seção 16.5.
Quando estes resíduos forem pequenos, temos uma indicação de que o modelo está
produzindo bons resultados. Para julgarmos se o resíduo é pequeno ou não, devemos compará-lo
com os resíduos do modelo alternativo, dados por yi - y. Da dificuldade de compará-los
individualmente, preferimos trabalhar com as respectivas somas de resíduos quadráticos, dadas
por
(16.21)
e
(16.22)
(continuação) Na quinta coluna da Tabela 16.1, aparecem os resíduos
êi = yi - ŷi = yi - (80,50 + 0,90xi)
que elevados ao quadrado e somados produzirão
SQRes = 563,00.
Exemplo 16.1
Tabela 16.1 Resíduos
para o modelo (16.18).
Variáveis
Resíduos
i
Tempo de Reação
Sexo
Idade
Variáveis
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
yi – ŷi
Resíduos
Tempo de Reação
Sexo
Idade
yi – ŷi
96
92
106
100
98
104
110
101
116
106
109
100
112
105
118
108
113
112
127
117
H
M
H
M
M
H
H
M
M
H
H
M
M
M
H
H
M
M
H
H
20
20
20
20
25
25
25
25
30
30
30
30
35
35
35
35
40
40
40
40
–2,5
–6,5
7,5
1,5
–5,0
1,0
7,0
–2,0
8,5
–1,5
1,5
–7,5
0,0
–7,0
6,0
–4,0
–4,5
–5,5
9,5
–0,5
SQRes
S
563
2
e
31,28
Se
5,59
2Se
11,18
Sabemos que SQTot = 1.373,00, o que mostra uma sensível redução de 810 unidades. Mais
ainda, a comparação da quinta coluna da Tabela 16.1 com a coluna e(3) da Tabela 15.4 mostra o
melhor comportamento dos resíduos do modelo de regressão (16.18).
No entanto, a comparação direta dessas somas de quadrados não nos parece justa, pois o
modelo (16.18) tem mais parâmetros do que o modelo (16.19). Vejamos, então, como comparar
as variâncias residuais. Para o modelo simples (16.19) o estimador não viesado de σ2e é
(16.23)
Também vimos que para o modelo (16.2), com I níveis ou subpopulações, o estimado da
variância residual era
(16.24)
e I também denota o número de parâmetros desconhecidos do modelo (as médias µi). Portanto,
de modo geral, perde-se um grau de liberdade para cada parâmetro envolvido no modelo e é
natural definir o estimador de σ2e num modelo de regressão como sendo
(16.25)
em que p é o número de parâmetros do modelo. No caso particular da regressão linear simples, p
=2e
(16.26)
será um estimador não viesado de σ2e, isto é, E(S2e) = σ2e. Veja o Problema 32.
Exemplo 16.2
Continuando o exemplo anterior, obteremos
S2 = 1.373/19 = 72,26, S = 8,50
e
S2e = 563/18 = 31,28, Se = 5,59,
números que sugerem uma diminuição significativa na soma dos quadrados dos resíduos.
Observe que, passando de um modelo com um parâmetro para outro com dois, há uma redução
de 810 unidades na soma de quadrados residuais. Ou seja, perdendo um grau de liberdade,
reduziu-se a soma dos resíduos quadráticos em 810 unidades, o que é mais uma evidência da
vantagem de adoção do segundo modelo.
16.3.2 Decomposição da Soma de Quadrados
Ao passarmos do modelo simples para o modelo de regressão linear, vimos que a redução da
soma de quadrados é dada por SQTot - SQRes. Esse lucro é devido à adoção do segundo modelo
e será indicado por SQReg, significando a soma dos quadrados devida à regressão. Segue-se
que
SQReg = SQTot - SQRes, (16.27)
ou seja,
SQTot = SQReg + SQRes. (16.28)
Observando a Figura 16.3, notamos que vale a seguinte relação:
yi - –y = (yi - ŷi) + (ŷi – –y) = êi + (ŷi – –y). (16.29)
Em palavras, o desvio de uma observação em relação à média pode ser decomposto como o
desvio da observação em relação ao valor ajustado pela regressão, mais o desvio do valor
ajustado em relação à média.
Figura 16.3 Representação
gráfica dos diversos desvios.
Elevando-se ao quadrado ambos os membros da igualdade (16.29), tomando-se a soma e
observando-se que a soma do duplo produto se anula (veja o Problema 31), obtemos
(16.30)
ou
(16.31)
do que deduzimos que
(16.32)
De (16.17) obtemos que
ŷi - –y = β(xi - –x),
portanto, podemos escrever
(16.33)
Daqui se pode observar que, quanto maior o valor de β, maior será a redução da soma dos
quadrados dos resíduos.
16.3.3 Tabela de Análise de Variância
Do mesmo modo como foi feito na Seção 15.2, podemos resumir as informações anteriores
numa única tabela ANOVA, ilustrada na Tabela 16.2.
Tabela 16.2 Tabela
ANOVA para modelo de regressão.
F.V.
g.l.
SQ
QM
F
Regressão
1
SQReg
SQReg = QMReg
QMReg/S2e
Resíduo
n–2
SQRes
SQRes/(n – 2) = S2e
Total
n–1
SQTot
SQTot/(n – 1) = S2
Também podemos medir o lucro relativo que se ganha ao introduzir o modelo, usando a
estatística
(16.34)
definida anteriormente. A estatística F será discutida na Seção 16.4.
Exemplo 16.3
Dos cálculos que nos levaram ao modelo (16.18), podemos construir a Tabela 16.3.
Temos que
Tabela 16.3 Tabela
ANOVA para o modelo (16.18).
F.V.
g.l.
SQ
QM
F
Regressão
1
Resíduo
18
810
810
25,90
563
31,28
Total
19
1.373
72,26
O modelo proposto diminui a variância residual em mais da metade e explica 59% da
variabilidade total. Verificamos, então, que é vantajosa a adoção do modelo linear (16.18) para
explicar o tempo médio de reação ao estímulo, em função da idade.
A estratégia adotada para verificar se compensa ou não utilizar o modelo y = α + βx + e é
observar a redução no resíduo quando comparado com o modelo y = µ + e. Se a redução for
muito pequena, os dois modelos serão praticamente equivalentes, e isso ocorre quando a
inclinação β for zero ou muito pequena, não compensando usar um modelo mais complexo.
Estaremos, pois, interessados em testar a hipótese
H0: β = 0, (16.35)
o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros. Esse assunto será
objeto da próxima seção. A Figura 16.4 ilustra as duas situações que podem ocorrer. Na Figura
16.4 (a), temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta.
Na situação da Figura 16.4 (b), teremos dúvidas se vale a pena ou não introduzir um modelo
mais complexo, ganhando muito pouco em termos de explicação.
Figura 16.4 Retas
ajustadas a dois conjuntos de dados. (a) x explica y; (b) x não explica y.
Para a avaliação final do modelo devemos investigar com mais cuidado o comportamento dos
resíduos, o que será feito na Seção 16.5.
Problemas
5. Usando os resultados do Problema 1, construa a tabela ANOVA para o modelo z
= + β x, encontrado naquele problema.
(a) Qual a estimativa S2? E S2e?
(b) Você acha que a redução nos resíduos foi grande?
(c) Qual o valor de R2? Interprete esse número.
6. Um estudo sobre duração de certas operações está investigando o tempo requerido (em segundos) para acondicionar objetos e
o volume (em dm3) que eles ocupam. Uma amostra foi observada e obtiveram-se os seguintes resultados:
Tempo
10,8
14,4
19,6
18,0
8,4
15,2
11,0
13,3
23,1
Volume
20,39
24,92
34,84
31,72
13,59
30,87
17,84
23,22
39,65
(a) Faça o diagrama de dispersão dos dados.
(b) Estime a reta de regressão do tempo de operação em função do volume.
(c) Construa a tabela ANOVA para o modelo.
(d) Qual o valor de S2? É pequeno quando comparado com S2e?
(e) Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento?
7. Construa a tabela ANOVA para o Problema 2 e interprete os resultados.
8. Construa a tabela ANOVA com os dados do Problema 3.
9. Idem para o Problema 4.
16.4 Propriedades dos Estimadores
Iremos agora estudar as propriedades amostrais dos estimadores α e β, e para isso é
conveniente voltar ao modelo e às suposições adotadas para a variável aleatória Y sob
investigação. Lembremos que a variável X é suposta controlada, fixa, e para cada valor x de X
teremos associada uma distribuição de probabilidades para Y, como ilustra a Figura 16.5 (a), em
que supomos que a dispersão é a mesma para cada nível da variável X. A Figura 16.5 (b) ilustra o
caso que será considerado aqui, em que estas distribuições condicionais são normais, com a
mesma variância. Note que E(Y|x) é linear, como estamos considerando neste capítulo.
Formalmente, o modelo
Yi = E(Y|xi) + ei = α + βxi + ei, i = 1, ..., n
deve satisfazer as seguintes suposições:
(i) Para cada valor de xi, o erro ei tem média zero e variância constante σ2e;
(ii) Se i ≠ j, Cov(ei, ej) = 0, isto é, para duas observações distintas, os erros são não
correlacionados.
Segue-se que
E(Yi|xi) = α + βxi e Var(Yi|xi) = σ2e,
e ainda que Yi e Yj são não correlacionados, para i ≠ j.
Figura 16.5 (a)
médias alinhadas, distribuições com a mesma variância; (b) médias alinhadas, distribuições normais com a mesma
variância.
16.4.1 Média e Variância dos Estimadores
Nesta seção, vamos obter a média e a variância dos estimadores α e β, dados em (16.14).
Proposição 16.1 Para o estimador β temos
E(β) = β, (16.36)
(16.37)
Prova.
Inicialmente, vamos escrever β de um modo mais conveniente (veja o Problema 30):
em que estamos usando a notação Y (maiúscula) e x (minúscula) para diferenciar o fato de que a
primeira está sendo considerada aleatória e a segunda, fixa; e
Observe que estamos usando o fato de
e que
Usando propriedades da esperança e variância de somas de v.a. (veja o Capítulo 8), podemos
escrever
o que mostra que o estimador é não viesado. Para a variância,
pois as observações são não correlacionadas, e, portanto,
e o resultado segue.
Proposição 16.2
Para o estimador α temos:
E(α) = α, (16.38)
(16.39)
Prova.
Precisaremos dos seguintes resultados (Problema 33):
Cov(–y, β) = 0, (16.40)
(16.41)
Como
temos que
dado que x é supostamente fixa e não uma v.a. Também,
Temos, então, que
E(α) = E(y - β –x) = α + β –x - β –x = α,
e
Var(α) = Var(y - β –x) = Var(y) + Var(β –x) - 2Cov(y, β –x)
= Var(y) +–x2Var(β) - 2 –xCov(y, β)
e usando os diversos resultados obtidos acima, obtemos (16.39).
16.4.2 Distribuições Amostrais dos Estimadores dos Parâmetros
Para completar o estudo das propriedades dos estimadores, vamos introduzir uma terceira
suposição:
(iii) Os erros ei são v.a. com distribuição normal, isto é,
ei ∼ N(0; σ2e), (16.42)
o que implica
yi ∼ N(α + βxi ; σ2e). (16.43)
Como β e
resultado:
α
são combinações lineares de v.a. normais e independentes, temos o seguinte
Os estimadores α e β têm ambos distribuição normal, com médias e variâncias dadas
pelas Proposições 16.1 e 16.2, isto é,
Proposição 16.3
(16.44)
(16.45)
Os resultados acima permitem concluir que
(16.46)
(16.47)
16.4.3 Intervalos de Confiança para α e β
Substituindo σe por seu estimador Se em (16.46) e (16.47), sabemos que as estatísticas
resultantes terão distribuição t de Student, com (n - 2) graus de liberdade, o que permitirá
construir intervalos de confiança para os parâmetros.
Proposição 16.4
As estatísticas
(16.48)
e
(16.49)
têm distribuição t de Student com (n - 2) graus de liberdade.
Esse resultado, combinado com os procedimentos de construção de intervalos de confiança já
estudados, nos leva aos seguintes intervalos para α e β, com γ denotando o coeficiente de
confiança e tγ(n - 2) denotando o valor obtido da Tabela V, com (n - 2) graus de liberdade:
(16.50)
(16.51)
Da tabela ANOVA do Exemplo 16.3 podemos retirar as informações necessárias para
construir intervalos de confiança para α e β. Temos que ∑x2i = 19.000, ∑(xi - x )2 = 1.000, e x =
30.
Temos, também, S2e = 31,28 e, portanto, Se = 5,59. Se γ = 0,95, obtemos t0,95(18) = 2,101.Os
intervalos são dados por:
Exemplo 16.4
Ou seja,
IC(α; 0,95) = [69,05; 91,95],
IC[β; 0,95] = [0,60; 1,20].
Este último resultado é mais uma evidência de que β ≠ 0, o que reforça conclusões anteriores.
Os intervalos de confiança (16.50) e (16.51) podem ser utilizados para testar hipóteses do tipo
H0: α = α0,
H0: β = β0.
Em particular, temos o resultado:
Proposição 16.5
A estatística para testar H0: α = 0 é
(16.52)
e a estatística para testar H0: β = 0 é
(16.53)
cada uma tendo distribuição t de Student com (n - 2) graus de liberdade.
Observe que
e usando o resultado (16.33) podemos escrever
(16.54)
que é a estatística F que aparece na tabela ANOVA. Assim, para testar a hipótese H0: β = 0,
pode-se usar a estatística (16.54), que segue uma distribuição F(1, n - 2).
Para testar separadamente as hipóteses acima, os valores das estatísticas
correspondentes serão:
Exemplo 16.5
os quais devem ser comparados com 2,101, que é o valor crítico de t(18), no nível de
significância 5%. Vemos que em ambos os casos rejeitamos as hipóteses de que os parâmetros
sejam iguais a zero. Comparando o resultado de t(β) com o valor F da tabela ANOVA,
constatamos que t2(β) = 25,90 = F, de acordo com o apresentado acima. Algumas vezes, para
indicar a significância das estatísticas, a reta ajustada é escrita do seguinte modo:
em que entre parênteses aparece o valor de t, para indicar com que intensidade o parâmetro pode
ser considerado distinto de zero.
16.4.4 Intervalo de Confiança para µ(z) e Intervalo de Predição
O modelo linear (16.6), estudado até agora, será utilizado frequentemente para fazer previsões
da variável resposta (y) para algum nível da variável de controle (x). Usando o enunciado do
Exemplo 16.1, poderíamos estar interessados em saber qual o tempo de reação aos 28 anos. É
importante estabelecer se queremos estimar o tempo médio para o grupo etário de 28 anos ou o
tempo de reação provável para uma pessoa de 28 anos. Veremos que a estimação pontual é a
mesma nos dois casos, porém os intervalos de “confiança” serão distintos. Para entender bem as
diferenças sugerimos recordar as soluções aos Exercícios 23, 24 e 25 do Capítulo 15.
Do modelo (16.3) e do exposto até agora, temos o seguinte resultado.
Proposição 16.6
A distribuição amostral do estimador (16.15) é dada por
(16.55)
em que
(16.56)
Prova.
Das proposições 16.1 e 16.2 vem:
o que demonstra a primeira parte da proposição. De (16.17) temos
ŷi =–y + β(xi - x),
portanto
Var(ŷi) = Var (–y) + (xi - x)2 Var(β) + 2(xi - x) Cov(–y β),
mas de (16.40), Cov( –y, β) = 0, e de (16.37) vem
o que conclui a prova.
Com a proposição acima e substituindo σ2e por seu estimador S2e é fácil verificar que o
Intervalo de Confiança para µ(x) será dado por:
(16.57)
Vejamos, agora, como construir um intervalo de predição para uma futura observação.
Imitando a proposta do Problema 15.24, uma futura observação para um dado nível xf é dada por
Yf(x) = µ(xf) + εf
e o estimador será
Ŷf = ŷf + εf = ŷf ,
em que substituímos o valor desconhecido εf pelo seu valor esperado que é zero.
Da expressão anterior calculamos:
ou seja,
(16.58)
Substituindo σ2e pelo seu estimador S2e, teremos um estimador da variância, e analogamente o
intervalo de predição abaixo:
(16.59)
Qual o tempo de reação aos 28 anos?
A estimativa pontual é dada por:
ŷ(28) = 80,5 + 0,9(28) = 105,7.
Considerando como resposta adequada o tempo de reação médio do grupo de 28 anos,
podemos escrever o Intervalo de Confiança para a média, ou seja:
Exemplo 16.6
Se quiséssemos saber dentro de que intervalo 95% das futuras observações iriam estar,
construiríamos o Intervalo de Predição:
Problemas
10. Usando a tabela ANOVA, construída no Problema 5:
(a) Construa o IC(β; 95%).
(b) Construa o IC(α; 90%).
(c) Use a estatística F para testar a hipótese H0: β = 0.
(d) Construa o IC para a acuidade visual média do grupo etário de 28 anos.
(e) E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos?
11. Com as informações do Exemplo 15.1, e a ANOVA construída no Problema 9, você diria que a acuidade visual ajuda a
prever o tempo de reação dos indivíduos? Que estatística você usou para justificar seu argumento e por quê?
12. Investigando a relação entre a quantidade de fertilizante usado (x) e a produção de soja (y) numa estação experimental com 20
canteiros, obteve-se a equação de MQ:
ŷ = 15,00 + 2,83x.
(3,22) (1,65)
Com esses resultados você diria que a quantidade de fertilizante influi na produção? Por quê?
16.5 Análise de Resíduos
Para verificar se um modelo é adequado, temos que investigar se as suposições feitas para o
desenvolvimento do modelo estão satisfeitas. Para tanto, estudamos o comportamento do modelo
usando o conjunto de dados observados, notadamente as discrepâncias entre os valores
observados e os valores ajustados pelo modelo, ou seja, fazemos uma análise dos resíduos.
O i-ésimo resíduo é dado por
êi = yi - ŷi, i = 1, 2, ..., n. (16.60)
Lembremos que já utilizamos estes resíduos para obter medidas da qualidade dos estimadores
dos parâmetros do modelo. Agora, iremos estudar o comportamento individual e conjunto destes
resíduos, comparando com as suposições feitas sobre os verdadeiros erros ei. Existem várias
técnicas formais para conduzir essa análise, mas aqui iremos ressaltar basicamente métodos
gráficos. Para mais detalhes, ver Draper e Smith (1998).
Uma representação gráfica bastante útil é obtida plotando-se pares (xi, êi), i = 1, ..., n. Outras
vezes, é de maior utilidade fazer a representação gráfica dos chamados resíduos padronizados,
(16.61)
plotando-se os pares (xi, zi). Observe que a forma dos dois gráficos será semelhante, havendo
apenas uma mudança de escala das ordenadas nos dois casos. Por isso, iremos usar a primeira
representação, indicando no gráfico a posição do valor Se.
Outro resíduo usado é o chamado resíduo estudentizado, definido por
(16.62)
em que
O denominador de (16.62) é o desvio padrão de êi. Não iremos
explorar aqui a análise feita com esse tipo de resíduo.
Voltemos ao Exemplo 15.1. Os resíduos do modelo (16.18) estão reproduzidos na
Tabela 16.4, dos quais foram obtidos os demais. Os dois primeiros resíduos estão representados
na Figura 16.6. Note que os dois gráficos são parecidos e levarão ao mesmo tipo de diagnóstico.
Comentários adicionais sobre esse exemplo serão feitos abaixo.
Exemplo 16.7
Tabela 16.4 Resíduos
para o modelo (16.18).
Idade
Figura 16.6 Resíduos
êi
zi
rˆi
Idade
êi
zi
rˆi
20
–2,5
–0,45
–0,49
30
1,5
0,27
0,28
20
–6,5
–1,16
–1,26
30
–7,5
–1,34
–1,37
20
7,5
1,34
1,45
35
0,0
0,0
0,0
20
1,5
0,27
0,29
35
–7,0
–1,25
–1,30
25
–5,0
–0,89
–0,92
35
6,0
1,07
1,11
25
1,0
0,18
0,19
35
–4,0
–0,72
–0,75
25
7,0
1,25
1,30
40
–4,5
–0,80
–0,86
25
–2,0
–0,36
0,37
40
–5,5
–0,98
–1,06
30
8,5
1,52
1,56
40
9,5
1,70
1,84
30
–1,5
–0,27
–0,28
40
–0,5
–0,09
–0,10
para o Exemplo 16.1. (a) êi = yi - ŷi; (b) resíduos padronizados.
Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis inadequações.
Apresentamos na Figura 16.7 alguns tipos usuais de gráficos de resíduos. A Figura 16.7 (a) é a
situação ideal para os resíduos, distribuídos aleatoriamente em torno do zero, sem nenhuma
observação muito discrepante.
Figura 16.7 Gráficos
de resíduos. (a) situação ideal; (b), (c) modelo não linear; (d) elemento atípico; (e), (f), (g)
heterocedasticidade; (h) não normalidade.
Nas situações (b) e (c), temos possíveis inadequações do modelo adotado, e as curvaturas
sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno.
A Figura 16.7 (d) mostra a existência de um elemento discrepante, e deve ser investigada a
razão desse desvio tão marcante. Pode ser um erro de medida, ou a discrepância pode ser real.
Em situações como essa, em que há observações muito diferentes das demais, métodos
chamados robustos têm de ser utilizados.
Os casos (e), (f) e (g) indicam claramente que a suposição de homoscedasticidade (mesma
variância) não está satisfeita. Em (h), parece haver maior incidência de observações nos
extremos, mostrando que a suposição de normalidade não está satisfeita.
Analisados os resíduos e diagnosticada uma possível transgressão das suposições, devemos
propor alterações que tornem o modelo mais adequado aos dados e às suposições feitas.
A verificação da hipótese de normalidade pode ser realizada fazendo-se um histograma dos
resíduos ou um gráfico de q × q, como explicado no Capítulo 3.
Exemplo 16.7 (continuação) A análise dos resíduos do modelo (16.18) mostra que esses não violam
as suposições de média zero e variância comum. A Figura 16.8 mostra o histograma dos
resíduos, e a Figura 16.9 mostra um gráfico q × q. Esse gráfico, feito com o SPlus, coloca nos
eixos das ordenadas os valores crescentes dos êi e no eixo das abscissas os quantis de uma
normal padrão. Se os valores fossem de uma normal, eles deveriam se dispor ao longo de uma
reta. Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não
são normalmente distribuídos.
Figura 16.8 Histograma
Figura 16.9 Gráfico
dos resíduos do modelo (16.18).
q × q (normalidade) para os resíduos do modelo (16.18).
Quando a suposição de variância comum não estiver satisfeita, usualmente faz-se uma
transformação da variável resposta y, ou da preditora x, ou de ambas. Para detalhes, ver Bussab
(1986) e a Seção 16.6.
Num processo industrial, além de outras variáveis, foram medidas: X = temperatura
média (°F) e Y = quantidade de vapor. Os dados estão na Tabela 16.5 (Draper e Smith, 1998,
Appendix A).
Exemplo 16.8
Tabela 16.5 Temperatura
e quantidade de vapor de um processo industrial.
Nº
xi
yi
êi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
35,3
29,7
30,8
58,8
61,4
71,3
74,4
76,7
70,7
57,5
46,4
28,9
28,1
39,1
46,8
48,5
59,3
70,0
70,0
74,5
72,1
58,1
44,6
33,4
28,6
10,98
11,13
12,51
8,40
9,27
8,73
6,36
8,50
7,82
9,14
8,24
12,19
11,88
9,57
10,94
9,58
10,09
8,11
6,83
8,88
7,68
8,47
8,86
10,36
11,08
0,174
–0,123
1,345
–0,531
0,547
0,797
–1,326
0,998
–0,161
0,106
–1,680
0,873
0,499
–0,933
1,052
–0,173
1,199
0,073
–1,207
1,202
–0,189
–0,517
–1,204
–0,598
–0,261
Fonte: Draper e Smith (1998).
O gráfico de dispersão e a reta de MQ estão na Figura 16.10 (a). A reta estimada de MQ é
dada por
ŷi = 9,424 - 0,0798(xi - 52,6), (16.63)
ou ainda
ŷi = 13,623 - 0,0798xi, (16.64)
de modo que α = 13,623 e β = -0,0798. Os resíduos e ˆ i = yi - ŷi estão na quarta coluna da Tabela
16.5 e seu gráfico contra xi na Figura 16.10 (b). O gráfico q × q para verificar a suposição de
normalidade está na Figura 16.10 (c). Observamos que há vários pontos afastados da reta.
Figura 16.10 (a)
gráfico de dispersão com reta ajustada; (b) resíduos vs temperatura; (c) gráfico q × q (normalidade).
Problemas
13. Com o modelo linear já obtido para a acuidade visual como função da idade, construa os tipos de resíduos apresentados no
Exemplo 16.6. Represente-os graficamente. Você observa alguma transgressão das suposições básicas?
14. Para cada gráfico de resíduo abaixo, indique qual a possível transgressão observada.
15. Abaixo estão os valores da variável preditora (x), os resíduos observados depois do ajuste do modelo e a ordem em que os
dados foram obtidos.
Preditor
11 20
14
22
12 25 15
Preditor
14
Resíduo
Ordem
–1 –2
3
–3
–1
5
0
Resíduo
9
13
1
7
14
8
Ordem
6
19 21 18
22
16
21
0
3
–2
2
3
12
4
11
–5
0
1
2
10
5
(a) Verifique se existe alguma possível transgressão das suposições, analisando o gráfico (xi, êi).
(b) Faça o gráfico do resíduo contra a ordem do experimento. Você observa alguma inconveniência?
16.6 Alguns Modelos Especiais
Nesta seção, introduziremos alguns modelos particulares simples e que são de interesse
prático. Iniciamos com o modelo que teoricamente passa pela origem. Depois, consideramos
modelos não lineares, mas que podem ser linearizados por meio de alguma transformação.
16.6.1 Reta Passando pela Origem
Em algumas situações temos razões teóricas (ou ditadas pelas peculiaridades do problema a
analisar) para supor que o modelo deva ser do tipo
yi = βxi + ei, i = 1, ..., n. (16.65)
Com as mesmas suposições anteriores e observada uma amostra (xi, yi), i = 1, ..., n, é fácil ver
que o EMQ de β é
(16.66)
Deixamos a cargo do leitor verificar como ficam os resultados obtidos anteriormente para o
modelo completo nesse caso particular. Por exemplo,
A mensuração exata (Y) de uma substância do sangue, por meio de uma análise
química, é muito cara. Um novo método mais barato resulta na medida X, que supostamente
pode ser usada para prever o valor de Y. Nove amostras de sangue foram obtidas e avaliadas
pelos dois métodos, obtendo-se as medidas abaixo.
Exemplo 16.9
X
119
155
174
190
196
233
272
253
276
Y
112
152
172
183
192
228
263
239
263
Algumas estatísticas obtidas são:
Vamos ajustar o modelo (16.65) a esses dados. Obtemos
β = 396.933/411.436 = 0,9648,
resultando no modelo ajustado
ŷi = 0,9648xi, i = 1, 2, ..., 9.
É fácil ver que S2e = 5,9136 e Se = 2,4318. Para testar a hipótese H0: β = 0, usamos a estatística
que resulta ser igual a
o que claramente leva à rejeição de H0.
Um intervalo de confiança para β, com coeficiente de confiança 95% é
ou seja,
IC(β; 0,95) = [0,9561; 0,9735].
Os dados e a reta ajustada estão na Figura 16.11.
Figura 16.11 Dados
e reta ajustada para o Exemplo 16.8.
16.6.2 Modelos Não Lineares
Quando usamos modelos de regressão, ou qualquer outro tipo de modelo, a situação ideal é
aquela em que o pesquisador, por razões teóricas inerentes ao problema real sob estudo, pode
sugerir a forma funcional da relação entre duas ou mais variáveis. Na prática, isso nem sempre
acontece. Muitas vezes, o pesquisador está interessado em usar técnicas de regressão para
explorar modelos convenientes sugeridos pelos dados observados.
Como vimos, o primeiro passo para investigar o tipo de modelo a ser adotado é a
representação gráfica dos dados, a qual pode sugerir a forma da curva relacionando as variáveis,
além de fornecer outras informações (veja o final da Seção 16.1). Por exemplo, com os dados da
Tabela 16.6 obtemos o diagrama de dispersão da Figura 16.12. Notamos claramente a
inadequação da reta como modelo, sendo que provavelmente uma relação exponencial do tipo
f(x) = α eβx (16.67)
seja mais adequada. Um modelo que pode, então, ser sugerido, é
yi = α eβxi + εi, i = 1, ..., n. (16.68)
Tabela 16.6 Taxa
de Inflação no Brasil de 1961 a 1979.
Figura 16.12 Dados
Inflação (Y)
Y* = log Y
–9
9
2,2
–7
24
3,2
1965
–5
72
4,3
1967
–3
128
4,8
1969
–1
192
5,2
1971
1
277
5,6
1973
3
373
5,9
1975
5
613
6,4
1977
7
1.236
7,1
1979
9
2.639
7,9
Ano
t
1961
1963
de inflação no Brasil (pontos) e modelo exponencial ajustado (+).
Suponha que queiramos estimar os parâmetros α e β pelo método de mínimos quadrados.
Devemos minimizar
(16.69)
Derivando S em relação a α e β e igualando a zero, obtemos as duas equações
(16.70)
A solução desse sistema de equações não lineares exige o uso de procedimentos de otimização
não lineares, como Newton-Raphson, Gauss-Newton, “scoring” e outros. Ou seja, os pontos de
máximo da função S são obtidos numericamente, dada a impossibilidade de termos soluções
analíticas para as Equações (16.70). Mas devemos dizer que essa é a regra, mais do que a
exceção, em problemas encontrados na prática. Portanto, a utilização desses procedimentos de
otimização é um requisito importante para estudantes de áreas como estatística, economia,
engenharia etc.
Neste livro, vamos nos limitar a tratar de alguns casos em que as transformações das variáveis
sob estudo permitirão o uso de um modelo linear simples.
Suponha que a função (16.67) seja apropriada para os dados da Tabela 16.6. Considere o
modelo
yi = αeβxi εi, i = 1, ..., n. (16.71)
Observe que nesse modelo os erros εi entram de forma multiplicativa e não aditiva, como no
caso do modelo (16.6). Considerando, agora, o logaritmo (na base e) de ambos os lados de
(16.71) e chamando
y*i = log yi, α* = log α, ε*i = log εi, (16.72)
podemos escrever o modelo na forma
y*i = α* + βxi + ε*i , i = 1, ..., n. (16.73)
Note que esse modelo é linear em α* e β, e temos que supor que os erros εi sejam positivos; do
contrário, não podemos tomar logaritmos deles. Por outro lado, os erros ε*i podem ser negativos,
positivos ou nulos. Portanto, para o modelo linear (16.73) podemos fazer as suposições usuais
das seções anteriores.
Utilizando os dados da Tabela 16.6, devemos, inicialmente, calcular os logaritmos
naturais da variável Y. Note que nesse exemplo a variável explicativa é o tempo,
convenientemente codificado. Na Figura 16.13, temos o diagrama de dispersão dos dados
transformados e da reta ajustada, a saber
Exemplo 16.10
ˆy* i = 5,27 + 0,28t, t = -9, ..., 9. (16.74)
A análise de tal modelo pode ser conduzida como antes. Veja o Problema 35.
Observe que o modelo original ajustado é
ˆy i = 194,42 · e0,28t, i = 1, ..., 10, (16.75)
pois α = e5,27. Essa curva está representada na Figura 16.12. Os resíduos do modelo (16.74),
transformado, e do modelo (16.75), original, são dados na Tabela 16.7 e nas Figuras 16.14 e
16.15, respectivamente. Note que em ambos os casos os resíduos não parecem ser aleatórios,
havendo curvaturas, sugerindo a possibilidade de um modelo com termos quadráticos ou
cúbicos, por exemplo.
Figura 16.13 Diagrama
Tabela 16.7 Resíduos
de dispersão para o logaritmo da inflação com reta ajustada.
para os modelos linear e exponencial.
t
Resíduos
Reta
Exponencial
–9
–0,55
–6,643
–7
–0,11
–3,386
–5
0,43
24,057
–3
0,37
44,067
–1
0,21
45,061
1
0,05
19,757
3
–0,21
–77,348
5
–0,27
–175,412
7
–0,13
–145,251
9
0,11
222,632
Figura 16.14 Resíduos
da reta ajustada ao logaritmo da inflação versus ano.
Figura 16.15 Resíduos
do modelo exponencial ajustado aos dados originais versus ano.
Os histogramas e gráficos q × q para normalidade dos resíduos estão nas Figuras 16.16 e
16.17. Notamos que o histograma é assimétrico, mostrando claramente o valor correspondente a t
= 9. Como há poucos pontos, a análise de resíduos fica prejudicada; o gráfico q × q mostra os
pontos não muito próximos de retas.
Figura 16.16 Histogramas:
Figura 16.17 Gráficos
(a) resíduos reta ajustada ao log (inflação); (b) resíduos modelo exponencial.
q × q dos resíduos: (a) reta; (b) exponencial.
16.7 Regressão Resistente
Nesta seção, vamos considerar apenas o caso de regressão linear simples. Ou seja, temos os
valores observados (xi, yi), i = 1, ..., n e queremos ajustar o modelo (16.6).
Notamos que os estimadores α e β em (16.14) são baseados em x, –y e desvios em relação a
essas médias.
A regressão resistente baseia-se em medianas, em vez de médias. Inicialmente, dividimos o
conjunto dos n pontos em três grupos, de tamanhos aproximadamente iguais, baseados
principalmente na ordenação da variável x e no gráfico de dispersão. Chamemos esses grupos de
E (de esquerda), C (de centro) e D (de direita). Se n = 3k, cada grupo terá k pontos. Se n = 3k + 1,
colocamos k pontos nos grupos E e D e k +1 pontos no grupo C. Finalmente, se n = 3k + 2,
colocamos k + 1 pontos nos grupos E e D e k pontos no grupo C.
Para cada grupo obtemos um ponto resumo, formado pela mediana dos xi e a mediana dos yi
naquele grupo. Denominemos esses pontos por
(xE, yE), (xC, yC), (xD, yD).
Na Figura 16.18, temos um exemplo com três grupos com k = 3 em cada grupo.
Figura 16.18 Reta
resistente com três grupos.
Os estimadores de β e α são dados, respectivamente, por
(16.76)
(16.77)
A reta resistente ajustada é
yi = a0 + b0xi, i = 1, ..., n. (16.78)
Os modelos robustos necessitam, muitas vezes, recorrer a processos interativos para obter
estimadores mais eficientes. Isso deve ser feito quando os resíduos não forem bem comportados.
Não abordaremos esse tópico neste livro. Veja Hoaglin et al. (1983) para mais informação.
Voltemos aos dados do Exemplo 16.1. Como n = 20 = 3 × 6 + 2, os grupos E, C e D
serão formados com 7, 6 e 7 pontos, respectivamente. Observando a Figura 16.1, consideramos
os grupos como seguem:
Exemplo 16.11
Grupo E
i
Idade
Y
2
20
92
1
20
96
4
20
100
3
20
106
Grupo C
5
25
98
8
25
101
i
Idade
Y
6
25
104
7
25
110
12
30
100
10
30
106
11
30
109
9
30
116
14
35
105
Grupo D
i
Idade
Y
16
35
108
13
35
112
15
35
118
18
40
112
17
40
113
20
40
117
19
40
127
Os pontos resumidores são:
(xE, yE) = (20, 100),
(xC, yC) = (30, 107,5),
(xD, yD) = (40, 113),
logo, as estimativas dos coeficientes serão
de modo que a reta resistente ajustada será
que está representada na Figura 16.19, justamente com a reta de MQ, dada em (16.18).
Figura 16.19 Reta
de MQ (—) e reta resistente (– – –) para o Exemplo 16.11.
Na próxima seção, daremos um exemplo em que as duas retas, a de MQ e a resistente, são
bastante diferentes.
16.8 Exemplos Computacionais
Nesta seção, vamos considerar dois exemplos: um sobre a aplicação a dados reais do mercado
de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier.
Exemplo 16.12 Retomemos o Exemplo 4.13, no qual consideramos as variáveis Y = preço de ação
da Telebrás e X = índice da Bolsa de Valores de São Paulo, cada uma com n = 39 observações. O
gráfico de dispersão das duas variáveis está na Figura 16.20, juntamente com a reta de mínimos
quadrados. O modelo ajustado é
ŷi = -5,57 + 0,93xi,
e no Quadro 16.1 temos a saída do programa Minitab. Nesta, encontramos:
(a) Estimativas dos coeficientes α e β, juntamente com as estimativas dos desvios padrões
respectivos (1,085 e 0,0297).
(b) Valores da estatística t, para testar as hipóteses nulas de que os coeficientes são nulos
(denotados por T), juntamente com o valor-p (P = 0,000), mostrando que devemos rejeitar
essas hipóteses nulas.
(c) Uma tabela de análise de variância, com o valor F = 969,44, com 1 e 37 g.l., e o valor-p (P
= 0,000).
(d) O valor de R2 = 96,3%, que nos diz que o modelo ajustado explica a maior parte da
variabilidade dos dados.
Figura 16.20 Gráfico
de dispersão das variáveis X e Y, para o Exemplo 16.12 e reta ajustada.
Quadro 16.1 Análise
do Exemplo 16.12. Minitab.
Regression Analysis
The regression equation is
Tel = – 5.57 + 0.925 Ibv
Predictor Coef StDev T P
Constant –5.570 1.085 –5.13 0.000
Ibv 0.92491 0.02971 31.14 0.000
S = 0.7614 R – Sq = 96.3% R – Sq (adj) = 96.2%
Analysis of Variance
Source DF SS MS F P
Regression 1 561.99 561.99 969.44 0.000
Residual Error 37 21.45 0.58
Total 38 583.44
Na Figura 16.21, temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado.
Na Figura 16.21(a), temos o gráfico q × q dos quantis dos resíduos contra os quantis da normal
padrão, para avaliar a normalidade dos resíduos. Na Figura 16.21(b), temos o gráfico dos
resíduos contra a ordem das observações e, na Figura 16.21(d), o gráfico dos resíduos contra os
valores ajustados. Finalmente, na Figura 16.21(c), temos o histograma dos resíduos. O que você
pode dizer desses gráficos?
Figura 16.21 Gráficos
após o ajuste do modelo: análise de resíduos, Exemplo 16.11. Minitab.
Considere os dados da Tabela 16.8, provenientes da mensuração da velocidade do
vento no aeroporto de Philadelphia (EUA), sempre a uma hora da manhã, para os primeiros 15
dias de dezembro de 1974 (Graedel e Kleiner, 1985).
Exemplo 16.13
Tabela 16.8 Velocidade
do vento no aeroporto de Philadelphia.
t
vt
t
vt
1
2
3
4
5
6
7
8
22,2
61,1
13,0
27,8
22,2
7,4
7,4
7,4
9
10
11
12
13
14
15
20,4
20,4
20,4
11,1
13,0
7,4
14,8
Observamos no diagrama de dispersão da Figura 16.22 o valor atípico 61,1 destacado dos
demais pontos. A reta de MQ ajustada aos dados é
ˆvt = 30,034 - 1,454t, t = 1, 2, ..., 15, (16.79)
e é “puxada” por esse ponto. Essa reta está representada por uma linha cheia na figura.
Para ajustar a reta resistente, consideramos três conjuntos de cinco pontos. É fácil ver que
obtemos
˜v t = 21,56 - 0,92t, t = 1, 2, ..., 15 (16.80)
também representada por uma linha tracejada na figura.
Figura 16.22 Reta
de MQ (––––) e resistente (– – – –) para os dados de velocidade do vento.
16.9 Problemas Suplementares
16. Com o modelo z = + βx para a acuidade visual, desenvolvido nos problemas anteriores:
(a) construa o IC de 95% para a acuidade visual média dos indivíduos com 18 anos de idade;
(b) construa o IC de 95% para a acuidade visual esperada para indivíduos com 30 anos de idade; e
(c) construa o IC com 95% de confiança para a acuidade visual média dos indivíduos com 80 anos. Comente o resultado.
17. No Problema 6, qual o tempo médio esperado para empacotar um volume com 30 dm3?
18. Os dados abaixo referem-se a meses de experiência de dez digitadores e o número de erros cometidos na digitação de
determinado texto.
Meses x
1
3
4
5
6
8
9
10
Erros y
30 28 24
20
18
14 13 10
7
6
2
7
Dados: Σxi = 60, Σx2i = 460, Σyi = 170, Σxiyi = 768.
(a) Represente graficamente esse conjunto de dados.
(b) Assumindo que um modelo de regressão linear é adequado, determine os coeficientes da equação pelo método dos mínimos
quadrados.
(c) Represente a reta de regressão no gráfico feito anteriormente.
(d) Qual a posição do ponto (x, –y) em relação à reta de regressão?
(e) Qual o número esperado de erros para um digitador com 5 meses de experiência?
19. Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias,
representadas em salários mínimos.
Renda familiar (x)
Gasto com alimentação (y)
3
1,5
5
2,0
10
6,0
20
10,0
30
15,0
50
20,0
70
25,0
100
40,0
150
60,0
200
80,0
Obtenha a equação de regressão ajustada, ŷ = + βx.
(a) Qual a previsão do gasto com alimentação para uma família com renda de 170 reais?
(b) Qual a previsão do gasto para famílias com excepcional renda, por exemplo 1.000 reais? Você acha esse valor razoável?
Por quê?
(c) Se você respondeu que o valor obtido em (b) não é razoável, encontre uma explicação para o ocorrido. (Sugestão: interprete
a natureza das variáveis X e Y e o comportamento de Y para grandes valores de X.)
20. A análise do lucro anual de uma ação, como função linear da sua cotação média anual, forneceu os resultados abaixo com
alguns campos em branco. Preencha as lacunas e interprete os resultados.
ANOVA
Fonte
g.l.
Regressão Resíduo
Total
11
Modelo
SQ
QM
F
Descrição
Coef.
EP
1209
Intercepto
49,00
1766
Cotação
0,30
t
valor-p
LI (95%)
22,00
0,055
–1,34
0,07
0,003
LS (95%)
0,45
21. Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A tabela abaixo mostra o número de anúncios
publicados e o correspondente número de carros vendidos por seis companhias que usaram apenas esse jornal como veículo de
propaganda.
Companhia
A
B
C
D
E
G
Anúncios
74
45
48 36 27
16
Carros vendidos
139
108
98 76 62
57
Ajustando-se a reta de regressão, obteve-se y = 1,516x + 27,844 e F = 70,17. Como você argumentaria com a companhia G para
que ela aumentasse o número de anúncios, aumentando a venda de carros?
22. O custo de manutenção de tratores parece aumentar com a idade do trator. Os seguintes dados foram obtidos (X representa
idade em anos e Y o custo por seis meses):
(a) Ajuste o modelo ŷ = β0 + β1x e teste a hipótese de interesse para o nível α = 0,10.
(b) Devemos procurar um modelo mais adequado?
(c) Determine uma “previsão” para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de
confiança com γ
= 0,90.
(d) Teste as hipóteses H0 :
β0 = 300, H1 : β0 > 300, para o nível α = 0,05.
X
Y
0,5
0,5
1,0
1,0
1,0
4,0
4,0
4,0
4,5
4,5
4,5
5,0
5,0
5,0
5,5
6,0
6,0
163
182
978
466
549
495
723
681
619
1.049
1.033
890
1.522
1.194
987
764
1.373
23. Os dados abaixo referem-se a outro experimento de Galton (veja CM-1), dentro da mesma investigação, procurando estudar a
relação entre o diâmetro, em centésimos de polegada, de ervilhas-pais (x) e ervilhas-filhas (y). Analise a reta de regressão para os
dados e interprete os coeficientes.
Diâmetros em 0,01 de polegadas de sementes de ervilhas
Pais (x)
15,0
16,0
17,0
18,0
19,0
20,0
21,0
Filhos (y)
15,4
15,7
16,0
16,3
16,6
17,0
17,3
24. Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado.
Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração por meio do instrumento.
Como uma análise de regressão poderia auxiliar o pesquisador? Modele o problema acima, especificando as variáveis
independente e dependente e as hipóteses de interesse.
25. Os dados abaixo correspondem a duas variáveis X e Y, em que:
= concentração conhecida de ácido lático e
Y = concentração de ácido lático registrada pelo instrumento
X
X
Y
1
1,1
0,7
1,8
0,4
3
3,0
1,4
4,9
4,4
5
7,3
8,2
6,2
10
12,0
13,1
12,6
13,2
15
18,7
19,7
17,4
17,1
Ajuste o modelo ŷ = β0 + β1x e teste a hipótese H0 :
resultado desse teste.
26. Sejam X = volume de precipitação pluvial
Y = produção de trigo por alqueire
4,5
β1 = 1 contra a alternativa H1 : β1 ≠ 1. Tire conclusões com base no
(a) Você acha que um modelo do tipo Y = α + βx + e seria adequado para essas variáveis? Por quê?
(b) Caso esse modelo não seja adequado, esboce um gráfico do tipo de relação que você esperaria existir entre X e Y.
27. Num experimento foram aplicadas três doses diferentes de insulina em coelhos e foram observadas quedas na quantidade de
açúcar no sangue (variável Y) depois de determinados períodos. Nesse tipo de experimento, é usual admitir-se que a relação entre
queda de açúcar e o logaritmo da dose da insulina é linear.
log da dose (X)
0,36
0,56
0,76
17
21
49
54
64
48
34
63
62
72
61
91
São dados:
Faça um estudo completo sobre o ajuste do modelo y = β0 + β1x + ε a esses dados.
28. A indústria farmacêutica MIMI vende um remédio para combater resfriado. Após dois anos de operação, ela coletou as
seguintes informações trimestrais:
Trimestre
Vendas (10.000)
(Y)
Despesas c/Propaganda
(X)
Temperatura Média do Trimestre
(Z)
1
2
3
4
5
6
7
8
25
13
8
20
25
12
10
15
11
5
3
9
12
6
5
9
2
13
16
7
4
10
13
4
(a) Faça os gráficos (x, y) e (z, y).
(b) Encontre as retas ŷ = a + bx e ŷ = c + dz.
(c) Qual das duas você acha estatisticamente mais adequada para prever as vendas? Por quê?
(d) De acordo com a decisão acima, qual a previsão de vendas para um trimestre em que a despesa de propaganda será 8 e a
temperatura prevista 10?
29. Para construir um modelo linear relacionando a quantidade de fertilizantes usada (x) e a produtividade obtida (y) com uma
amostra de sete canteiros, o pesquisador obteve as seguintes estatísticas:
x = 400, y = 60, sx = 216,02, sy = 13,84 e r = 0,922.
(a) Encontre as estimativas do modelo ŷ = + βx.
(b) Construa a tabela ANOVA.
(c) Analise os resultados.
30. Obtenha (16.64) e os gráficos que seguem.
31. Para o Exemplo 16.10, obtenha a tabela ANOVA e os intervalos de confiança para α* e β, ajustando o modelo (16.71).
32. Ainda para o Exemplo 16.10, obtenha o intervalo de confiança para α.
33. Para o exemplo da reação ao estímulo:
(a) construa o IC para a média das pessoas com 28 anos de idade;
(b) construa o IP para uma futura pessoa de 28 anos de idade;
(c) compare e ressalte as diferenças dos dois resultados.
34. Construa o gráfico das regiões de previsão da média e individual (1 - α = 0,95) para o modelo desenvolvido no Problema 3 e
complementado no Problema 8. A que temperatura a potência média já poderia ser considerada como zero? Compare com a
resposta dada na questão (d) do Problema 3.
35. Sejam Y
= despesa com viagem, X = duração da viagem (em dias). Para uma amostra com n = 102 obteve-se:
(a) Obter a reta ŷ = + βxi.
(b) Qual o significado prático de e β?
(c) Uma viagem irá durar sete dias. Quanto o vendedor deve levar para que exista apenas uma chance em dez de lhe faltar
dinheiro?
16.10 Complementos Metodológicos
1. Origem do Termo Regressão. O uso do termo regressão deve-se a Francis Galton, por volta de 1885, quando investigava
relações entre características antropométricas de sucessivas gerações. Uma de suas constatações era de que “cada peculiaridade
de um homem é transmitida aos seus descendentes, mas, em média, numa intensidade menor”. Por exemplo: embora pais com
baixa estatura tendam a ter filhos também com baixa estatura, estes têm altura média maior do que a altura média de seus pais. O
mesmo ocorre, mas em direção contrária, com pais com estatura alta. Essa afirmação pode ser mais bem compreendida
observando-se os dados usados por Galton, e representados parcialmente na Figura 16.23. Se as características permanecessem as
mesmas de geração para geração, esperar-se-ia que a reta de regressão tivesse seu coeficiente angular próximo de 1. Em sua
análise, Galton encontrou o valor 0,516, mostrando que a reta tende para aquela paralela ao eixo x e passando pela média (y = y).
A esse fenômeno de a altura dos filhos mover-se em direção à altura média de todos os homens ele chamou de regressão e, às
vezes, de reversão, tendo aparecido num artigo de 1885, no Journal of the Anthropological Institute, com o título “Regression
Towards Mediocrity in Hereditary Stature” — Regressão para a Mediocridade em Estaturas Hereditárias; mediocridade, aqui,
referindo-se a média.
Figura 16.23 Média
da altura de filhos contra altura composta dos pais, baseada no estudo de Galton.
2. Vamos provar que o coeficiente angular β da Fórmula (16.14) pode ser escrita como
De (16.14) temos:
Mas,
De modo análogo,
Definindo-se
e
a demonstração está completa.
3. Vamos provar (16.30), ou seja:
De (16.29),
yi - y = yi - ŷi + ŷi - y = êi + (ŷi - y),
e elevando ao quadrado ambos os membros e somando-os, obtemos
Mas, como
ŷi = y + β(xi - x) e e ˆi = yi –y – β(xi - x),
teremos
Usando a expressão de β, do Problema 30, obtemos
o que demonstra a expressão.
4. Mostremos que E(S2e) = σ2e.
Vamos decompor a demonstração em três partes:
(a) Vejamos quanto vale E(SQTot). Temos:
Yi = α + βxi + ei, i = 1, 2, ..., n; ei ∼ N(0, σ2e).
Somando as n parcelas em cada membro e dividindo por n, obtemos:
–Y = α + βx + –e, –e∼ N (0; σ2e/n),
e, ainda,
Calculando a esperança, teremos:
Mas
pois é equivalente à variância de uma amostra aleatória simples de tamanho n, retirada da população N(0,
σ2e), e já vimos que
essa é a expressão de um estimador não viesado da variância σ2e. Então:
(b) Vamos calcular agora E(SQReg). De (16.33),
e de (16.37),
Mas da definição de variância, sabemos que
Var(β) = E(β2) – E2(β) = E(β2) - β2
pois E(β) =
β. Combinando estas expressões, teremos:
Explicitamente,
(c) Finalmente, como
a partir de que podemos escrever:
ou seja,
é estimador não viesado de σ2e.
5. Vamos, agora, provar que Cov(–Y, β) = 0.
(a) Inicialmente vamos provar que, se X e Y são independentes, U = aX + bY e V = mX + nY, então
Cov(U, V) = amVar(X) + bnVar(Y).
Sabemos que Cov(U, V) = E(UV) - E(U) · E(V),
Substituindo na expressão da covariância, teremos:
e o último termo desaparece, pois as variáveis são independentes. A expressão pode ser generalizada quando X1, X2, ..., Xn são
independentes, com
então, Cov(U, V) =
ΣaibiVar(Xi).
Quando Var(Xi) = σ2, temos:
(b) Cov(–Y, β) = 0.
Sabemos que:
então
pois
o que demonstra a propriedade.
REFERÊNCIAS
Livros básicos
BLACKWELL, D. Estatística básica. São Paulo: Editora McGraw-Hill, 1973.
BUSSAB, W. O. Análise de variância e de regressão. São Paulo: Atual, 1986.
FELLER, W. An introduction to probability theory and its applications. v. I. 2. ed. Nova York:
Wiley, 1964.
HAMMERSLEY, J. M.; HANDSCOMB, D. C. Monte Carlo methods. Nova York: Wiley, 1964.
MORETTIN, P. A.; HAZZAN, S.; BUSSAB, W. O. Cálculo: funções de uma e várias variáveis.
3. ed. São Paulo: Editora Saraiva, 2016.
HELENE, O. A. M.; VANIN, V. R. Tratamento estatístico de dados. 2. ed. São Paulo: Editora
Edgard Blücher, 1991.
MEYER, P. L. Introductory probability and statistical applications. Reading: Addison--Wesley,
1965.
MORETTIN, P. A. Introdução à estatística para ciências exatas. São Paulo: Atual, 1981.
MURTEIRA, B. J. Análise exploratória de dados. Lisboa: McGraw-Hill, 1993.
SOBOL, I. M. Método de Monte Carlo. Moscou: Editorial MIR, 1976.
STUART, A. The ideas of sampling. Nova York: MacMillan Publishing Company, 1984.
TUKEY, J. W. Exploratory data analysis. Reading: Addison-Wesley, 1977.
Livros mais avançados
BUSSAB, W. O.; BOLFARINE, H. Elementos de amostragem. São Paulo: Editora E. Blücher,
2005.
CHAMBERS, J. M.; CLEVELAND, W. S.; KLEINER, B.; TUKEY, P. A. Graphical methods
for data analysis. Nova York: Chapman and Hall, 1983.
CONOVER, W. J. Pratical nonparameric statistics. Nova York: Wiley, 1971.
DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application. Cambridge
University Press, 1997.
DIXON, W. J.; MASSEY, F. J. Introduction to statistical analysis. 2. ed. Nova York: McGrawHill, 1957.
DRAPER, N. R.; SMITH, H. Applied regression analysis. 3. ed. Nova York: Wiley, 1998.
EFROM, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. Nova York: Chapman and
Hall, 1993.
FISHER, R. A. The design of experiments. Edimburgo: Oliver and Boyd, 1935.
. Statistical methods for research workers. 12. ed. Nova York: Hafner, 1954.
HOAGLIN, D. C.; MOSTELLER, F.; TUKEY, J. W. Understanding robust and exploratory
data analysis. Nova York: Wiley, 1983.
KLEIJNEN, J.; VAN GROENENDAAL, W. Simulation: a statistical perspective. Chichester:
John Wiley and Sons, 1994.
LEHMANN, E. L. Nonparametrics: statistical methods based on ranks. São Francisco: HoldenDay, 1975.
MORETTIN, P. A.; TOLOI, C. M. C. Análise de séries temporais. 2. ed. São Paulo: Editora
Edgard Blücher, 2006.
O’HAGAN, A. Bayesian inference. Londres: Edward Arnold, 1994.
PERES, C. A.; SALDIVA, C. D. Planejamento de experimentos. São Paulo: 5º SINAPE, 1982.
ROSS, C. A. Simulation. 2. ed. Nova York: Academic Press, 1997.
Artigos de interesse
BOX, G. E. P.; MÜLLER, M. E. A note on the generation of random normal deviates. Annals of
Statistics, 29, p. 610-611, 1958.
EFRON, B. Bootstrap methods: another look at the jackknife. Annals of Statistics, 7, p. 1-26,
1979.
EFRON, B.; GOUS, A. Bayesian and frequentist model selection. TR n. 193, Division of
Biostatistics, Stanford University, 1997.
FREEDMAN, D.; DIACONIS, P. On the maximum deviation between the histogram and the
underling density. Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete, 58, p. 139167.
GRAEDEL, T. E.; KLEINER, B. Exploratory analysis of atmospheric data. Probability,
Statistics and Decision Making in the Atmospheric Sciences (A. H. Murphy and R. W. Katz,
Editors), p. 1-43. Boulder: Westview Press, 1985.
Metropolis, N.; ULAM, S. The Monte Carlo method. Journal of The American Statistical
Association, 44, p. 335-341, 1949.
NEYMAN, J. Probabilidade e Estatística Frequentista. Rio de Janeiro: IMPA/CNPq, 1978.
SALDIVA, P. H. N., LICHTENFELS, A. J. F. C.; PAIVA, P. S. O.; BARONE, I. A.;
MARTINS, M. A.; MASSAD, E.; PEREIRA, J. C. R.; XAVIER, V. P.; SINGER, J. M.; BÖHM,
G. M. Association between air pollution and mortality due to respiratory diseases in children in
São Paulo: a preliminary report. Environmental Research, 65, p. 218-226, 1994.
SINGER, J. M.; ANDRADE, D. F. Regression models for the analysis of pretest data.
Biometrics, 53, p. 729-735, 1997.
VON NEUMANN, J. Various techniques used in connection with random digits, Monte Carlo
Method. U. S. National Bureau of Standards Applied Mathematical Series, 12, p. 36-38, 1951.
Tabelas
HARTER, H. L.; OWEN, D. B. Selected tables in mathematical statistics. Volume 1. Chicago:
Markham, 1970.
MILLER, L. H. Table of percentage points of Kolmogorov statistics. Journal of the American
Statistical Association, 51, p. 11-121, 1956.
PEREIRA, J. S. C.; BUSSAB, W. O. Tábuas de estatística e matemática. São Paulo: Brasiliense,
1974.
CONJUNTOS DE DADOS
A seguir apresentamos vários conjuntos de dados, que serão referenciados no texto pela sigla
CD acompanhada de um nome identificador.
CD-Brasil: Dados sobre o Brasil
CD-Municípios: Populações de Municípios do Brasil
CD-Notas: Notas em Estatística
CD-Poluição: Dados de Poluição de São Paulo
CD-Temperaturas: Temperaturas Médias Mensais
CD-Salários: Salários para Quatro Profissões
CD-Veículos: Estatísticas sobre Veículos
CD-PIB: Produto Interno Bruto do Brasil
CD-Mercado: Preços de Ações da Telebrás e IBOVESPA
CD-Placa: Índices de Placa Bacteriana
1. Dados sobre o Brasil
Dados de superfície (em km2), população estimada e densidade (hab/km2) das unidades
federativas (UF) do Brasil, por região.
Fonte: IBGE, Contagem da População, 2007.
2. Populações de Municípios do Brasil
Populações (em 10.000 habitantes) dos 30 municípios mais populosos do Brasil.
Fonte: IBGE, Contagem da População, 1996.
3. Notas em Estatística
Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina Introdução à
Probabilidade e à Estatística, 1999.
Fonte: Autores.
4. Dados de Poluição de São Paulo
Dados de poluentes na cidade de São Paulo, 1º jan. a 30 abr. 1991.
CO: monóxido de carbono (ppm); O3: ozônio (ppb)
Temp.: temperatura (°C); Umid.: umidade relativa do ar ao meio-dia (%)
Fonte: Saldiva et. al. (1994).
5. Temperaturas Médias Mensais
Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezembro de 1985,
em Cananeia e Ubatuba, São Paulo.
Fonte: Boletim Climatológico, nº 6, 1989, IO-USP.
6. Salários
Salários, em 1979 (em francos suíços), para quatro profissões, em 30 cidades de diferentes
países.
Fonte: “Prices and Salaries Around The World”, 1979/1980. União dos Bancos Suíços, Zurique.
7. Estatísticas sobre Veículos
Dados sobre 30 veículos novos, nacionais (N) e importados (I) em março de 1999. Preço em
dólares, comprimento em metros e motor em CV.
Fonte: Folha de S. Paulo, 14 mar. 1999.
8. Produto Interno Bruto do Brasil
Dados anuais do PIB, de 1861 a 1986; índices relativos a 1949.
9. Mercado
Preços de fechamento de ações da Telebrás (multiplicados por 1000) e índice diário da Bolsa
de Valores de São Paulo (dividido por 100), de 1º de janeiro de 1995 a 29 de junho de 1995.
Fonte: Bolsa de Valores de São Paulo.
10. Índices de Placa Bacteriana
Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade pré-escolar, antes e
depois do uso de uma escova experimental e de uma escova convencional.
Fonte: Singer e Andrade (1997).
TABELAS
As tabelas a seguir são, em geral, autoexplicativas, mas o uso de cada uma está explicado no
texto. O Manual Explicativo de Pereira e Bussab (1974) pode ser consultado para mais
explicações.
1. As Tabelas I a VII são reproduzidas de Pereira e Bussab (1974), com permissão da Editora
e autores.
2. A Tabela VIII foi elaborada usando o SPlus e baseada em Lehmann (1975).
3. As Tabelas IX e X são adaptadas de Pereira e Bussab (1974), com permissão da Editora e
autores.
RESPOSTAS
Capítulo 2
1. (a) razão (e) razão
(b) ordinal (f) nominal
(c) razão (g) intervalar
(d) intervalar
3. População (em mil habitantes)
Número de habitantes ni
fi
Menos de 1.000
3 0,1111
1.000 a 5.000
12 0,4444
5.000 10.000
6 0,2222
10.0000 a 20.000
5 0,1852
Mais de 20.000
1 0,0371
Densidade populacional:
Densidade (hab./km2) ni
fi
Menos de 10
9 0,3333
10 a 30
5 0,1852
30 a 50
4 0,1481
50 a 100
6 0,2222
Mais de 100
3 0,1111
Total
27 1,0000
6. (a) Histograma
(b) Gráfico de dispersão unidimensional
8. Histograma
Ramo-e-folhas
Decimal point is 1 place to the right of the colon
4:6
5 : 0046
6 : 234778
7 : 35
8 : 045
9:2
10 : 22
11 : 69
12 :
13 : 06
14 :
15 : 2
16 :
17 :
18 : 8
19 :
20 : 1
21 : 1
22 : 5
Valores maiores: 556.9 998,8
Gráfico de dispersão unidimensional
Gráfico de dispersão unidimensional
10. (a) Zona Urbana:
Zona Rural:
(b) Os histogramas indicam que os aluguéis dos imóveis localizados na zona rural estão mais concentrados entre os valores 2 e 5,
diferentemente da zona urbana. Também se percebe que valores entre 10 e 15 estão presentes apenas na amostra retirada da
zona urbana. Além disso, a distribuição para a zona urbana é menos assimétrica do que a distribuição para a zona rural.
13. (a)
(b)
(c) 25% → i ; 31;
50% → i ; 35;
75% → i ; 42.
15. Ramo-e-folhas para a variável CO:
4 : 77
5 : 12
5 : 55677789
6 : 1111122222222233333444444
6 : 5666677777899999999
7 : 00122233444
7 : 5566777778888899999999
8 : 012334
8 : 55678999
9 : 0114
9 : 557
10 : 1333
10 : 8
11 : 469
12 : 05
Capítulo 3
1. (a) 0,66
(b) 0,5
(c) 0,8393
(e) 330
2.
6. (a) 2
(b) 2
(c)
, supondo-se o valor 6 para “mais que 5”.
8.
dq = 9; di = 14; ds = 14; aproximadamente normal.
9. q(0,1) = 13,5; q(0,9) = 79,0.
11. Distribuição assimétrica à direita.
Desenho esquemático (box plot) dos salários dos funcionários da Companhia Milsa.
16. (a) Histograma das vendas semanais de vendedores de gêneros alimentícios
(b)
(c) s = 6,62
(d) 94%
(e) md = 52,5
17. (a) q(0,1) = 92,4,
(b) q(0,2) = 102,1,
(c) q1 = 105,7, q2 = 135,8, q3 = 208,6.
19. (b)
(c) q1 = 2, q2 = 3,25.
(d) Média dobra e variância multiplicada por 4.
(e) Média e mediana aumentadas de 2; variância não se altera.
21. (a) Receber menos do que 5.000.
(b) empresa B.
23. (c) média = 1,75; md = 1,6
(d) var = 0,963; dp = 0,98
(e) q1 = 1,1
25. média = 6,9; var = 6,19;
moda = 9; md = 7; q1 = 4,8.
27. (a) não;
(b)
logo, a campanha não surtiu efeito
(c) Histograma da idade média dos candidatos
29. F ; 1
31.
; t = 0,03; desempenhos semelhantes.
36. (a)
(b) x = proporção dos empregados da capital
(c) Histograma de X
37. (a) Z é uma nota padronizada.
(b) As notas padronizadas são:
0,58
0,58
1,35
–0,18 –0,18 0,58
–0,18 –0,18 0,58
–0,18
1,35
–0,95 –0,95 0,58
0,58
–0,95 –0,18 0,58
–3,26 –0,95
–0,95 –0,18 1,35
0,58
0,58
(c)
(d) z = –3,26
(e) política
CM2. (a)
CM3. CV(A) = 20%; CV(B) = 30%
38. dam (urb) = 1.413.000; dam (rural) = 546.900
41.
Dados não simétricos; pontos acima da reta u = v no gráfico de simetria.
43. (a) n = 120; dq = 16; ∆ = 5,47 = 16(0,039896)1/3.
(b) n = 30; dq = 20.734; ∆ = 7.600 =
n = 20.734(0,049237)1/3.
Capítulo 4
1. (b) 50% (d) 58,3%
(c) 19,4%
3. (b) 2,5% (d) 12,5%
(c) 50%
(e) Bastante modificada; maioria das pessoas que ganham pouco têm alta rotatividade.
5. Existe relação, pois as probabilidades marginais não se repetem no interior da tabela.
7. χ2 = 0,67, C = 0,81
8. Problema 3: χ2 = 5,625, C = 0,351, T = 0,375.
Problema 6: χ2 = 11,42, C = 0,075, T = 0,076.
9. Não há diferenças entre as três empresas.
11. (b) O gráfico indica dependência linear entre as variáveis.
(c) 0,86
(d) Porto Alegre e Fortaleza apresentam comportamentos diferentes dos demais.
13. (a)
(b) 0,74
15. Seção e Notas de Estatística não são correlacionadas.
18. (a)
Estado Civil
Salário
Menos de 10 S.M. entre 10 e 20 S.M. Mais de 20 S.M.
Total
solteiro
casado
0,12
0,08
0,19
0,31
0,09
0,21
0,40
0,60
Total
0,20
0,50
0,30
1,00
(b) Considere-se a tabela do total de colunas:
Estado Civil
Salário
Menos de 10 S.M. entre 10 e 20 S.M. Mais de 20 S.M.
Total
solteiro
casado
0,60
0,40
0,38
0,62
0,30
0,70
0,40
0,60
Total
1,00
1,00
1,00
1,00
Pelas diferenças entre as proporções marginais e as do interior da tabela, diz-se que existe relação entre as variáveis.
20.
Atividade
Costeira
Fluvial
Internacional
Estatal 5 (33,64) 141 (129,02) 51 (34,34)
Particular 92 (63,64) 231 (242,98) 48 (64,66)
Total
197
371
Como χ2 = 51,09, parece existir associação entre o tipo de atividade e a propriedade das embarcações.
21. χ2 = 18,5; há indicação de relação.
22. (a) tomando porcentagens por colunas, há evidências de que a distribuição de respostas SIM e NÃO não coincidem.
(b) χ2 = 33,63; há dependência.
(c) χ2 = 7,01.
25. Corr(X, Y) = –0,92
28. (a) χ2 = 0,0008; logo, não há associação entre os resultados.
(b) Corr(X1, X2) = 0, de acordo com (a)
30. (b)
há um vendedor excepcional.
(c) q1 = 23,5
(d) Os box plots a seguir indicam que existe alguma diferença entre a distribuição das vendas nas três diferentes zonas. Assim,
não é justo aplicar um mesmo critério para todas as zonas.
(e) Corr(T, V) = 0,71, Corr(E, V) = 0,26, logo a nota no teste é variável mais importante.
(f) χ2 = 3,76; baixa associação.
34. Os salários da capital têm variabilidade maior e a distribuição mais assimétrica. As médias e medianas são similares.
36. Os box plots da figura abaixo mostram que a região sudeste tem maior mediana e também maior variabilidade, enquanto as
regiões norte e central apresentam variabilidades menores do que as demais. As distribuições são todas assimétricas.
Capítulo 5
1. Ω = {(B, C), (B, R), (V, B), (V, V)}, em que C = cara e R = coroa.
2. Ω = {5, (5,`5), (5,5, 5...}, em que5 indica qualquer face distinta de face 5.
4. Ω1 = {(C, C), (C, R), (R, C), (R, R)},
Ω2 = {0, 1, 2}, com ω = número de cara nos dois lançamentos. Segue-se que Ω1 = {C, R} × {C, R}.
5. Ω1= {(C, 1), (C, 2), ..., (C, 6), (R, 1), (R, 2), ..., (R, 6)} =
W1= {C, R} × {1, 2, 3, 4, 5, 6}
7. (a) {(C, R), (R, C), (C, C)}
(b) {(C, C)}
(c) {(C, R), (R, C), (R, R)}
9. (a)
(b) P(A vencer) = (1/4) + (1/16) = 5/16 = P(B vencer)
(c) P(AC BA, BC AB) = 1/8
10. (a)
(b) (1/6)(5/6)2 = 0,12
13. Do Problema 7: (a) 3/4 (b) 1/4 (c) 3/4
Do Problema 12:
P(A) = 0,11, P(B) = 0,5, P(A  B) = 0,53,
P(A ∩ B) = 0,08, P(Ac) = 0,89.
17. 0,92
18. (a) 0,56 (b) 0,67
20. h(p1, p2, p3) = p1(p2 + p3 – p2p3)
22. h(p) = p2(2 – p2)
24. 0,16
25. 0,56
26. (a) P(H) = 0,75, P(A|H) = 0,20, P(B|M) = 0,30
(b) P(A ∩ H) = 0,15, P(A  H) = 0,925
(c) P(M|A) = 0,538
28. 0,60
29. 3/28 = 0,107
30. (a) 0,0296 (b) 0,0298
31. (a) 0,165 (c) 0,790
(b) 0,132
32. (a) (1/2)3 = 1/8 (b) (0,9)3 = 0,73
33. (a) 0,049 (c) 0,463
(b) 0,295
34. (a) 0,375 (c) 0,333
(b) 0,292
35. 0,0135
36. 0,999
37. 0,36; 0,41; 0,23
38. (a) 0,086 (b) 0,736
39. (a) 0,312 (b) 0,58
40. (a) 0,62 (c) 0,11
(b) 0,21 (d) 0,29
41. (a) 0,28 (c) 0,68
(b) 0,02
42. (a)
(c)
44. 0,072
45.
48. h(p) = p(p4 – p3 – 2p2 + 2p + 1)
50.
• P(A) = (2/3 – 1/2) × 1/2 = 1/6
• P(B) = 1/2 × (3/4 – 1/4) = 1/4
• P(A ∩ B) = (2/3 – 1/2)(1/2 – 1/4) = 1/24
• P(A  B) = 1/6 + 1/4 – 1/24 = 3/8
• P(Ac) = 1 – 1/6 = 5/6
• P(Bc) = 1 – 1/4 = 3/4
• P(Ac ∩ Bc) = 1 – P(A  B) = 1 – 3/8 = 5/8
53. (N)n/Nn
55. (a) P(A ∩ (B ∩ C)) = P(A ∩ B ∩ C) =
= P(a)P(b)P(c) = P(a)P(B ∩ C)
(b) P((A  B) ∩ C) = P(A  B) + P(c) – P((A  B)  C)
= P(a) + P(b) – P(a)P(b) + P(c)
–[P(a) + P(b) + P(c) – P(a)P(b) – P(a)P(c)
– P(b)P(c) + P(a)P(b)P(c)], de onde
P((A  B) ∩ C) = P(a)P(c) + P(b)P(c)
– P(a)P(b)P(c) = P(A  B)P(c)
56. Não, pois P(A ∩ B)  5/12 e P(A ∩ B) = 0 para que A e B sejam mutuamente exclusivos.
58. Note que V = (V ∩ Uc)  (U ∩ V) e U  V = (V ∩ Uc)  U. Tome probabilidades e a diferença entre elas.
59. (a) P(Ai) = 1/2, i = 1, 2, 3 e P(A) = 0.
(b) P(Ai ∩ Aj) = 1/4 = P(Ai)P(Aj),
mas P(A1 ∩ A2 ∩ A3) = 0  P(A1)P(A2)P(A3).
60. P(A1 ∩ ... ∩ An) = P(A1)P(A2|A1) ... P(An|A1 ∩ ... An – 1)
62. p, em que 1 – p = (1 – 1/365)(1 – 2/365) ... (1 – (k – 1)/365) é a probabilidade de todos os aniversários serem distintos.
63. 1 – p ; 1 – 2/365 – 3/365 – ... – (k – 1)/365 – 1/365 + 2/3652 + ... e desprezando termos com denominadores 3652, 3653 etc.
obtemos o resultado.
64. P(A|F) = 0,563, P(C|F) = 0,845.
Capítulo 6
1.
3.
De modo geral,
P(X = x) = (1/2)(1/2)x – 1 = (1/2)x, x = 1, 2, 3...
5. No contexto apresentado, a distribuição do número de caras é dada por:
7. Problema 1: E(X) = 1,875, Var(X) = 0,502.
Problema 2: E(X) = 1,875, Var(X) = 0,703.
8. E(Y) = 2,0, Var(Y) = 1,0
10.
E(X)=1,5, E(Y)=2, Var(X)= 0,75, Var(Y)=0,5
11. E(V) = 1 – q, Var(V) = q(1 – q)
13. Y toma valores 0, 50.000, 100.000, com probabilidades 126/150, 23/150 e 1/150, respectivamente.
E(Y) = 8.333,33.
15. A partir do problema 11, tem-se:
Gráfico para q = 0,4.
17. E(T) = 4,6; E(G) = 2,75; Var(G) = 0,4125
20. 1) X ~ b(5, 1/3); 2) não é binomial; ensaios não independentes; 3) X será binomial se a proporção de bolas brancas for a
mesma em todas as urnas; 4) X será binomial se a proporção de pessoas com opinião contrária for a mesma nas dez cidades; 5)
X será binomial se a probabilidade de obter peça defeituosa for a mesma para todas as máquinas.
22. (a) 0,2834 (c) 0,2792
(b) 0,5925
24. binomial: 0,3758; Poisson: 0,4060.
26. O gráfico da distribuição de X, p(x), é
O gráfico da f.d.a de X, F(x), é
29. duas flores
31. (a) 0,656 (c) 0,049
(b) 0,292 (d) 0,996
32. 0,9418
33. (a) 0,2013 (b) 0,6242 (c) 0,3222
34. (a) 0,1428 (b) dois navios (c) 2
37. Vender por 13,50 reais.
39. 6,48
42. (a) 0,705 (b) 0,236 (c) 0,933
44. (a) 1/3; (b) 7/8; (c) 1/210
48. 9 × 10–6
50. p = 0,2
53. A mediana é qualquer valor em (1, 2).
55. 6.200
CM2. Basta notar que Y = j se e somente se A ocorre na j-ésima repetição e A ocorre (r – 1) vezes nas (k – 1) repetições
anteriores. A probabilidade desse evento é
Capítulo 7
–20
1. (b) e
3. (a) 1/100 (b) r2/100
5. E(X) = 1/2, Var(X) = 1/24
6. E(X) = 1, Var(X) = π – 1
8. (a) (–7b3)/(b3 + 8) (b) E(X) = –3/4, Var(X) = 3/80
10. (a) 0,375
(b) 4.000 kg
(c) 245 kg
11. E(X) = 1/2, Var(X) = 1/4
13. (b) E(L) = (2/3)C3 + (1/3) C2 – C1
15. (a) 0,933 (c) 0,683
(b) 0,977 (d) a = 19,6
17. (a) 9413 (b) ]164,25; 175,75[
19. P(D1 > 45) = 0,31, P(D2 > 45) = 0,5;
P(D1 > 49) = 0,121, P(D2 > 49) = 0,092
21. 0,033
23. 0,1043
24. 0,9986
26. g(y) = 3/8(y + 0,6)2, –2,6  y  –0,6; E(Y) = –2,10
28. (a) 2,47 (b) 0,338 (c) 2,06
30. Notar que G(u) = P(0  U  u) = u, 0  u  1.
31. (a) 0,4 (c) 0,3
(b) 0,2 (d) 0,2
33. 7,70 e 3, respectivamente.
35. 4,33; 5,54; 6,02
37. 9,34
39. (a) 1/2(e3 – e)
40. E(X) = a, Var(X) = 4a2/3
43. (a) FX(√ y) – FX(–√ y) (c) E(X2) = 1/3
(b) 1/2√ y, 0 < y < 1 (d) E(Y) = 1/3
45. (a) Use integração por partes
(b) idem
(c) Γ(1) = 1, Γ(1/2) = √ π
47. E(Y) = 1
CM5. E(X) = , use y = 1 + x2.
51. Q(0,1) = 4,88, Q1 = 7,32, Q2 = 10, Q3 = 12,68, Q(0,9) = 15,12
CM6. (a) 0,051 (b) 0,101
Capítulo 8
1. (a) Ω = {C1, ..., C6, R1, ..., R6}, C = cara, R = coroa; (c) independentes; (d) 1/2, 1, 1/2, 0, 2/3, 1/2.
3. (a)
(b) médias: 0; 1/3; variâncias: 1; 5/9
(c)
Y|X = 1
–1
0
1
p(y|X = 1) 1/6 2/6 3/6
5. (a) 1/3, 14/9 (b) a = ±10, b = 30
6. (a)
(b) médias: 3,125; 1,875; 5; variâncias: 0,86; 0,86; 2,5
9. (a) 3,85; 1,46 (b) 3,78; 5,43
11. Cov(X, Y) = 0,12, ρ(X, Y) = 0,197
13. E(XY) = 0 = E(X)E(Y), mas X e Y são dependentes, pois P(X = 1, Y = 1) = 0 ≠ 1/4 × 1/4
15. (a) independentes, covariância nula
(b) médias: 1, 1/2, 3/2;
variâncias: 1/2, 1/4, 3/4
16. 0,65
19. (a) fX(x) = e–x, x > 0; fY(y) = e–y, y > 0
(b) (1 – e–1)(e–1 – e–2)
(c) ρ = 0, pois X e Y são independentes.
21. Densidades coincidem com as marginais do problema 19(a), pois X e Y são independentes.
23. fX(x) = e–x, x > 0; fY(y) = 3 · e–3y, y > 0; logo, independentes; densidades condicionais iguais às marginais.
25. E(Y|x) = (6x + 16)/(3x + 6), 0 ⩽ y ⩽ 4;
E(Y|x = 3) = 34/15;
E(X|y) = (6x + 16)/(3y + 6), 0 ⩽ x ⩽ 4;
E(X|y = 2) = 7/3
27. fZ(z) = (–2z3 + 12z – 8)/3, 1 < z < 2
29. fZ(z) = 2/(2 + z)2, z > 0
30. E(Z) = 0, Var(Z) = 1/2
32.
y
0
1
2
p(y) 0,4 0,2 0,4
x+y
1
2
3
4
p(x + y) 0,2 0,2 0,4 0,2
x–y
0
1
2
p(x – y) 0,2 0,4 0,4
x–y–1
–1
0
1
p(x – y – 1) 0,2 0,4 0,4
34. 35%
36. (a) 0,30; 1/6; dependentes (b) ρ = –0,512
39. ρ(AX + B, CY + D) = ρ(AX, CY) =
= (AC)/(|AC|)ρ(X, Y) = ρ(X, Y), se A > 0, C > 0.
41. 6,17
44. e–xe–y = f(x, y), ∀x, y > 0
46. E(X) = µ, Var(X) = σ2/n
Capítulo 9
1. 18 mod 5 = 3, 360 mod 100 = 60.
3. ui: 0,13; 0,65; 0,25; 0,25; ...; h = 3
4. ui: 0,19; 0,47; 0,11; 0,43; ...; 0,87; h = 20.
6. (x1, ..., x5) = (1, 3, 2, 2, 2), se ui: 0,11; 0,82; 0,43; 0,56; 0,60
7. (x1, ..., x10) = (5, 3, 4, 4, 4, 5, 4, 6, 5, 5), se ui: 0,57; 0,19; 0,38; 0,33; 0,31; 0,54; 0,38; 0,79; 0,54; 0,55.
8. Geramos o número aleatório u e x = (u – 1)1/3;
x = –0,793.
9. Para ui: 0,419; 0,885; 0,111; 0,330; 0,036; 0,415; 0,188; 0,061; 0,127; 0,791; obtemos 0, 1, 0, 0, 0, 0, 0, 0, 0, 1.
10. Considere dez experimentos de Bernoulli, E1, ..., E10; em cada um deles, seja Xi ~ Ber(0,2). Por exemplo, se em E1 geramos os
NA ui: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 0,72; 0,42; 0,08; 0,53; então os valores de X1 respectivos serão 0, 1, 0, 0, 0, 0, 0, 0, 0,
0 e portanto a v.a. binomial é Y = 0 + 1 + 0 + ... + 0 = 1, e assim por diante.
11. Usando os ui do problema 9, obteremos: Ti: 0,435; 0,061; 1,099; 0,554; 1,662; 0,440; 0,836; 1,398; 1,032; 0,117.
12. (a) Usando os NA do problema 10 obtemos:
x1 = 0,332; x2 = 0,906; x3 = 0,000; x4 = 0,656;
x5 = 0,748; x6 = 0,775; x7 = 0,849; x8 = 0,648;
x9 = 0,283; x10 = 0,728. ;
(b) Suponha u1 = 0,94; então z1 = Φ–1(u1) = –1,56 e portanto x1 = 10 + 2z1 = 13, 12, etc.
(c) Para u1 = 0,94, temos que t1 = 1,711 etc.
14. Com os valores zi gerados no problema 12(b), calcule w = z21 + z22 + z23 etc.
17. Para u1 = 0,6 e u2 = 0,09, calcule z1 e z2 dadas no método de Box-Müller, obtendo z1 = 0,562 e z2 = 0,357. Repita.
19. [1] Suponha gerado u1 = 0,6; [2] r = 3/7 = 0,43, j = 0, pr = (0,7)5 = 0,17, F = 0,17. [3] u1 > F [4]pr = (0,43)(5)(0,17) = 0,37, F
= 0,17 + 0,37 = 0,54, j = 1; [5]u1 = 0,6 < F, logo coloque x1 = 1. Repita para u2, ..., u5.
23. Suponha os três primeiros valores gerados da Exp (1/2) do problema 11. Então o primeiro valor gerado de X ~ gama (3; 1/2)
seria x1 = 0,435 + 0,061 + 1,099 = 1,595. Continue.
Capítulo 10
1. (a) amostra não aleatória; opinião de operário está relacionada com sua chegada.
(b) alturas são amostra aleatória.
(c) amostra viesada.
(d) não há problemas se os supermercados forem, inicialmente, homogêneos quanto à venda de sabão em pó.
3. (c) 0,375%
4.
7. (a) 0,68 (b) 1,00 (d) n = 4
9. (a) 7,51% (b) 84,13%
11. (a)
(b) Y ~ N(1,6; 1,28)
(c) razoável, pois n pequeno e p  1/2
(d) p = 1/2
13. (a) 0,5
(b) zero
14. (a) µ = 12, Md = 12, σ2 = 10,8
(b)
x
6
7
9
10,5 12 13,5 15 16,5 18
p(–x) 0,01 0,04 0,12 0,20 0,26 0,20 0,12 0,04 0,01
distribuição da mediana é igual à distribuição de x.
(c) E(X) = E(md) = 12 (d) Var(X) = Var(md) = 5,4; qualquer uma
(e)
(f) E(Z) = 0, Var(Z) = 1
(g)
(h) E(S2) = 10,8, Var(S2) = 204,12
(i)
Note que ∑p(t) < 1, pois S = 0, com probabilidade 0,26 e, nesses casos, não podemos definir t.
(j) E(t) = 0, Var(t) = 1,2 (k) P(|t|< 2) = 0,76, P(|t|< 4,3) = 0,74.
17. n = 1.692
19. Note que p(1 – p)  1/4, logo n  n0.
21. (a) 0,02275
(b) n = 20, probabilidade = 0,0216
(c) n = 1, probabilidade = 0,31
23. (a) 400/n (d) d = 5,16
(b) 0,617 (e) n = 1.537
(c) 0,317
25. (a) 0,2644 (b) 0,16
27. 0,06%
29. (a) máx. = 72,28 (c) máx. = 72, mín. = 52
(b) máx. = 48, mín. = 52 (d) 0,954
32. (a) Pelo TLC,
(b) E(D) = µ1 – µ2, Var(D) = σ21/n + σ22/m
(d) D ~ Nµ1 – µ2; σ21/n + σ22/m
34. 0,356
35.
37.
cm4.
39.
40. Substitua S2 em [3] por
Capítulo 11
1.
E( )=0,2, Var( )=0,032.
3.
4.
1
consistente,
2
não consistente
2
6. (a) S(µ) = 5µ – 76µ + 390
(b) µ = 7,6
8.
10. L(p) = p3(1 – p)2; L(1/5) = 0,0512, L(2/5) = 0,02304,
L(3/5) = 0,03456, L(4/5) = 0,02048
12.
MV
= –x 13. λˆ MV = –y
14. γ = 0,95 : ]167,06; 172,94[
γ = 0,85 : ]161,81; 168,19[
γ = 0,70 : ]177,92; 182,08[
16. (a) n = 385 (b) n = 666
18. IC(p; 0,90) = ]0,67; 0,73[; conservador: ]0,667; 0,733[
20. (a) n = 3933 (b) ]0,535; 0,566[
21. (a) t = 1,833; (b) 0,275 (c) 0,422
23. (a) ]148,37; 151,63[ (b) n = 100
25. –x = 400; IC para salário médio: ]379,53; 420,47[
27. (a) ]0,553; 0,647[
(b) 2,7%
(c) A amostra seria impraticável: n = 3.689.473
29. ]0,471; 0,569[
30. γ = 0,64
34.
36.
cm5. (a) VM(θ) = –θ/(n + 1) → 0, n → 
(b) EQM(T2) = Var(T2) = θ2/n(n + 2)
(c) T2 consistente
cm8. (a) ]4,941; 5,247[, amplitude L1 = 0,306
(b) ]4,944; 5,244[, amplitude L2 = 0,300
(c) igual a (b), amplitude L3 = 0,300.
Como n = 1.000, intervalos de (b) e (c) são iguais e L2 = L3 < L1.
37. ]10,19; 10,41[
39.
Capítulo 12
2. (a) α = 9,18%
(b) β = 6,68%
(c)
4. α = 0,125, β = 0,7037
5. (a) H0: µ = 200, H1: µ = 210
(b)
7. H0: µ = 60, H1: µ < 60;
não rejeitaria H0: não há evidências de melhoria.
9. H0: µ  23, H1: µ  23; RC = (–, –1, 28], zobs = 1,3, não rejeitamos H0.
10.
= 0,11; logo, não rejeitamos H0: p = 0,5.
13. Como
= 0,010, rejeitamos H0: p = 1/4 e o programa deve ser modificado.
16.
= 0,345.
17.
= 3,6%; logo, a técnica é melhor que a anterior.
19. RC = {χ2 : χ2  14,85 ou χ2  32}; χ2obs = 30,67; logo, a variância não mudou.
21. (a) t = 1,833
(b) 0,275
(c) 0,422
22.
 0, donde rejeitamos H0: µ = 100, –x = 85 min.
24. (a) IC(µ; 0,95) = ]36,04; 47,03[
(b) (X – µ) √ n/S ~ t(n – 1).
26.
rejeitamos H0
IC = (µ; 0,95) = ]46,7; 54,1[
27. zobs = 2,22; logo, rejeitamos H0: µ = 11.
30. (a) n  35
(b)
32. tobs = 4,75; logo, rejeitamos H0: µ = 7;
IC = ]8,99; 12,61[
34. (a) n  271
(b) ]0,35; 0,45[.
36. χ2obs = 19,2; logo, rejeitamos H0: σ2 = 25.
38. (a) = 0,055
(b) bilateral = 0,11
39. (a) = 0,633
(b) bilateral > 1
Capítulo 13
1. (a) a = 4,77 (b) b = 0,95
3. Aceitamos H0: σ2A = σ2B; logo, as duas fábricas são igualmente homogêneas.
5. Aceitamos H0: σ21 = σ22 e rejeitamos H0: µ1 = µ2, logo, a população de homens e mulheres tem idades médias diferentes.
Supomos populações normais.
7. Aceitamos H0: σ21 = σ22 e rejeitamos H0: µA = µB; tobs = –2,133; logo, os dois tratamentos são diferentes; B é mais eficaz.
9. Aceitamos H0: σ21 = σ22 e H0: µ1 = µ2; tobs = 0,63
10. WS = 87, zobs = –1,36; aceitamos H0: µC = µT;
= 0,09 (unilateral)
12. (a) 0,8170; 0,8051
(b) 0,18; 0,16
(c) 0,9996; 0,9924
15.
= 0,5
17. vobs = 2,37; logo, rejeitamos H0.
18. vobs = 2,03; logo, rejeitamos H0.
19. Supondo normalidade, tobs = –0,83; aceitamos H0: µD = 0;
= 0,41.
= 0,42. Usando Wilcoxon, zobs = –0,83,
25. Não rejeitamos H0: µD = µN, tobs = 0,65; a produção diurna é mais homogênea, mas a produtividade média é a mesma.
28. (a) IC(µB – µA; 0,95) = ]0,06; 1,94[
(b) amostras de duas normais independentes, com variâncias desiguais desconhecidas.
30. (a) Não rejeitamos H0: µ = 7,6 e H0: µ = 6,5; logo, as amostras servem para justificar as afirmações dos dois grupos.
(b) Aceitamos H0: µ1 = µ2, tobs = 1,33; logo, os salários médios dos dois grupos são iguais.
32. H0: µD = 0, H1: µD < 0; tobs = –2,09, v = 4 g.l.; logo, aceitamos H0; não há evidências de que a droga reduza a pressão; a
variabilidade é muito grande.
33. tobs = –2,42, v = 132 g.l. (usamos a normal!); rejeitamos H0: µA = µB.
35. (a) IC(pA – pB; 0,90) = ]0,433; 0,567[; como o zero não pertence ao IC, rejeitamos a hipótese de igualdade de opiniões nas
duas cidades.
(b) IC = ]0,466; 0,534[
37. (a) tobs = –2,12, aceitamos H0: µA = µB,
(b) WS = 58, zobs = –1,66, aceitamos H0;
= 0,06
= 0,05
39. (a) tobs = 1,36, aceitamos H0: µN = µC versus H1 : µN > µC,
(b) WS = 121, zobs = 1,22, aceitamos H0,
> 10%
= 11%
41. P(WS  35) = P(WS  33 + 2) = P(WS  33 – 2) = P(WS  31)
43. tobs = 7,813,
 0, IC (µD; 0,95) = ]0,829; 1,423[
Capítulo 14
1. χ
2
obs
= 8,96; logo, não rejeitamos H0, para o nível α = 0,05.
3. χ
2
obs
= 0,563; o valor tabelado, com 2 g.l., para o nível α = 0,01 é 11,34; logo, os dados estão de acordo com o modelo.
5. χ
2
obs
= 8,17; logo, o dado é balanceado.
6. χ2obs = 6,95; as duas populações são homogêneas, mesmo com α = 0,01;
= 0,078.
8. As duas drogas são igualmente eficazes: qui-quadrado observado é 1,34.
10. χ2obs = 19,67; logo, a opinião depende do local.
12. χ2obs = 33,63; portanto, a tendência de o aluno prosseguir os estudos depende da classe social.
13. χ2obs = 4,04, e para o nível α = 0,05 rejeitamos a hipótese de que homens e mulheres têm a mesma fidelidade.
15. Tobs = 2,37 e rejeitamos H0: ρ = 0; IC(ρ; 0,95) =
= ]0,04; 0,873[.
17. χ2obs = 51,4; logo, o tipo de atividade está relacionado com o tipo de propriedade de embarcações.
19. χ2obs = 101,75 e
 0; logo, a preferência pelos sexos não é a mesma.
21. r = 0,87, Tobs = 4,24; logo, rejeitamos H0: ρ = 0; o intervalo de confiança para ρ, com coeficiente de confiança 0,95, é ]0,414;
0,975[.
23. r = 0,41; ξ0 = 0,4356; a região crítica é RC =
= {ξ : ξ < 0,071}, no nível α = 0,05. Logo, a correlação entre os salários é menor que 0,6.
24. H0: ρ(X, Y) = 0; H′0: ρ(X, Y) = 0. Os valores amostrais são r(X, Y) = 0,949 e r(X, Y) = 0,707. Portanto, rejeitamos as duas
hipóteses.
26. P(X1 = 5, X2 = 2, X3 = 3) = 0,064.
Capítulo 15
2. Exemplo 15.2: µˆ = 3,16;
Exemplo 15.3: µˆ = 10,70;
M
1
= 0,22;
= 1,63;
T
2
= –0,93;
= –2,67;
N
3
= 0,50
= 1,03
2
3. IC(µ; 0,95) = ]77,9; 89,8[; IC(σ ; 0,95) = ]100,1; 356,5[.
4. Fobs = 2,197; p-valor = 0,15; o tipo de escola não tem influência.
5. Fobs = 6,18; p-valor = 0,02; o período influencia.
6. Fobs = 92,2; p-valor  0,001; há diferença de rendimentos entre as duas categorias.
8. Não, pois Fobs = 1,038 e p-valor = 0,37.
9. (a) Sim, pois Fobs = 487,23 e o valor tabelado de F(2,77), com α = 0,05, é 3,11.
(b) 8,43 ± 0,36
10. Não há evidências, pois Fobs = 3,90 e o valor tabelado de F(1,8), com α = 0,05, é 5,32.
11. Existe evidência de efeitos distintos, pois Fobs = 29,79 e o p-valor  0,001.
Bonferroni sugere µI = µII > µIII = µIV.
12. Sim, Fobs = 16,47, p-valor < 0,001. Bonferroni indica µC = µB < µD = µA = µE
13. Há evidências de que as médias são diferentes, pois Fobs = 6,05 e p-valor = 0,008.
Bonferroni sugere µ1 = µ2 < µ3.
16. Rejeitamos a hipótese (Fobs = 59,0; o valor tabelado =
= 3,11). Por Bonferroni, teríamos µH < µE < µB.
17. Não deve ser um único autor (Fobs = 6,71, valor tabelado = 3,03). Possibilidades sugeridas por Bonferroni: µ1 = µ3 < µ4; µ1 =
µ2 = µ3; µ2 = µ4.
21. M/C = 2,01, p-valor = 0,367; os grupos são homocedásticos.
23. IP(Y40; 0,95) = ]102,77; 131,73[; IC(µ40; 0,95) = ]110,77; 123,73[
Capítulo 16
1. (a) zi = 101,50 – 0,55xi
(b) Sim, para o indivíduo 19.
2. (a) ŷi = 6,87 – 0,26xi
3. (b) ŷi = 50,46 – 0,38xi
(c) 132,4°
5. (a) S2 = 100; S2e = 88,75
(c) R2 = 18,9%
(b) Não (p-valor = 8%)
6. (b) ŷi = 0,662 + 0,539xi
(d) Sim; S2e = 1,023 e S2 = 22,013.
(e) Sim, p-valor  0,00%.
10. (a) ]–1,18; 0,08[
(b) ]82,21; 120,79[
(c) Fobs = 3,41, p-valor = 0,08; logo, não rejeitamos β = 0.
16. (a) ]82,84; 100,32[
(b) ]80,59; 89,41[
(c) ]29,90; 93,10[
17. 16,832 ± 0,876
18. (b) ŷi = 32,12 – 2,52xi
(d) encontra-se sobre a reta
(e) ]16,95; 22,09[
22. (a) ŷi = 323,62 + 131,72xi; Fobs = 13,68, valor tabelado Fc = 3,07, rejeito H0: β = 0
(c) 982,2 ± 147,2
(d) tobs = 0,16, tc = 1,753. Não há evidências para rejeitar H0.
25. ŷ = 0,159 + 1,228x; tobs = 4,85, tc = 2,101. Rejeita-se H0.
28. (b) ŷ = 1,312 + 1,958x; ŷ = 25,710 – 1,126z.
(c) maior p-valor
(d) 16,98 ± 1,89
31. IC(α*; 0,95) = ]5,03; 5,51[, IC (β; 0,95) = ]0,24; 0,32[
32. IC(α; 0,95) = ]153,40; 247,54[
33. (a) IC(µ(28); 0,95) = ]102,98; 108,43[
(b) IP(Y(28); 0,95) = ]93,64; 117,76[
35. (a) ŷ = 10 + 12x
(c) 106,97
Download