Uploaded by Ana Oliveira

Resumo PE

advertisement
Resumos de Probabilidades e Estatı́stica
João Brazuna
2.
Noções Básicas de Probabilidade
2.1.
Axiomática de Kolmogorov
2.3.
Probabilidade Condicionada
Sendo F uma σ-álgebra de Ω, define-se medida de probabilidade como
P (A ∩ B)
P (A|B) =
P : F → [0, 1] tal que:
P (B)
1. P (A) ≥ 0, ∀A ∈ F;
denota a probabilidade de A ocorrer, sabendo que B ocorreu. Garantese assim que
2. P (Ω) = 1;
P (A ∩ A)
P (A)
P (A|A) =
=
= 1.
3. Se A ∩ B = ∅ então P (A ∪ B) = P (A) + P (B).
P (A)
P (A)
2.2.
Propriedades
2.4.
• P (A) = 1 − P (A)
Independência Estocástica
Os acontecimentos A e B dizem-se independentes se e só se
• P (∅) = 0
P (A ∩ B) = P (A)P (B)
• 0 ≤ P (A) ≤ 1, ∀A ∈ F
o que se denota por A ⊥
⊥ B e é equivalente a
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• P (A ∪ B) = P (A ∩ B)
P (A|B) = P (A).
• P (A ∩ B) = P (A ∪ B)
• Se A ⊆ B então P (A) ≤ P (B)
2.5.
Lei das Probabilidades Totais
2.5.1.
2.6.
Lei das Probabilidades Compostas
2.6.1.
Caso Simples
P (A ∩ B) = P (A)P (B|A)
P (A) = P (A ∩ B) + P (A ∩ B) =
P (A ∩ B ∩ C) = P (A)P (B|A)P (C|A ∩ B)
= P (A|B)P (B) + P (A|B)P (B)
2.5.2.
Desenvolvendo as fórmulas da probabilidade condicionada, os denominadores cortam.
Caso Geral
Se {Bi }n
i=1 for uma partição de Ω, isto é,
n
[
Bi = Ω e
i=1
Bi ∩ Bj = ∅, ∀i 6= j então
P (A) =
n
X
i=1
Casos Simples
2.6.2.
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ · · · ∩ An−1 )
2.7.
P (A|Bi )P (Bi ) .
Caso Geral
Teorema de Bayes
Consiste na dupla aplicação da fórmula da probabilidade condicionada,
permitindo obter P (A|B) a partir de P (B|A).
P (A|B) =
P (B|A)P (A)
P (B)
3.
Variáveis Aleatórias e Distribuições Discretas
3.1.
Função (Massa) de Probabilidade
3.2.
Função de Distribuição
fX (x) = P (X = x)
FX (x) = P (X ≤ x) =
x
X
P (X = k)
k=−∞
3.3.
3.4.
Valor Esperado
+∞
X
E(X) =
V ar(X) = E X 2 − E 2 (X)
x P (X = x)
x=−∞
• E[g(X)] =
P+∞
x=−∞
Variância
• V ar(aX) = a2 V ar(X), ∀a ∈ R;
g(x)P (X = x)
+∞
X
• E X2 =
x2 P (X = x)
x=−∞
• V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y );
• Se X ⊥
⊥ Y então V ar(X + Y ) = V ar(X) + V ar(Y ).
3.5.
Moda e Quantis
• E(aX) = aE(x), ∀a ∈ R;
mo = arg max P (X = x)
x
• E(X + Y ) = E(X) + E(Y );
(
• Se X ⊥
⊥ Y então E(XY ) = E(X)E(Y ).
3.6.
Distribuição Uniforme Discreta
Todos os casos possı́veis têm igual probabilidade.
(
1
, se x ∈ {1, ..., n}
X ∼ U nif ({1, ..., n}) ⇔ P (X = x) = n
0, caso contrário
E(X) =
3.8.
n2 − 1
n+1
e V ar(x) =
2
12
Distribuição Binomial
χp :
3.7.
P (X ≤ χp ) ≥ p
P (X ≥ χp ) ≥ 1 − p
(
me = χ 1 :
2
P (X ≤ me) ≥
P (X ≥ me) ≥
1
2
1
2
Distribuição de Bernoulli
Há apenas dois casos possı́veis: sucesso (1) ou



p,
X ∼ Bern(p) ⇔ P (X = x) = 1 − p,


0,
insucesso (0).
se x = 1
se x = 0
caso contrário
E(X) = p e V ar(X) = p(1 − p)
3.9.
Distribuição Geométrica
1. Há n repetições de uma prova de Bernoulli;
1. Há repetições de uma prova de Bernoulli;
2. A probabilidade de sucesso em cada prova é constante igual a p
(extracções com reposição);
3. As provas são independentes umas das outras.
2. A probabilidade de sucesso em cada prova é constante igual a p;
3. As provas são independentes umas das outras.
A variável aleatória X que conta o número de provas de Bernoulli reaA variável aleatória X que conta o número de sucessos obtidos
lizadas até se obter o 1o sucesso é tal que
nas n repetições de uma prova de Bernoulli é tal que
(
p(1 − p)x−1 , se x ∈ N
( X ∼ Geom(p) ⇔ P (X = x) =
.
n x
n−x
p
(1
−
p)
,
se
x
∈
{0,
1,
...,
n}
0,
caso contrário
x
X ∼ Bin(n, p) ⇔ P (X = x) =
.
0,
caso contrário
(1 − p)
1
E(X) = e V ar(X) =
E(X) = np e V ar(X) = np(1 − p)
p
p2
3.10.
Distribuição Hipergeométrica
3.11.
Distribuição de Poisson
1. São realizadas n provas de Bernoulli num universo com N ele- Modela eventos de chegada de serviços (como autocarros a uma paragem, cliques num anúncio na Internet,...) a uma taxa constante λ
mentos, N dos quais são sucessos;
durante um determinado intervalo de tempo.
2. A probabilidade de sucesso em cada prova não é constante (ex( −λ x
tracções sem reposição);
e
λ
, se x ∈ N0
x!
X ∼ P oi(λ) ⇔ P (X = x) =
3. As provas não são independentes umas das outras.
0,
caso contrário
A variável aleatória X que conta o número de sucessos obtidos
nas n provas de Bernoulli é tal que
X ∼ Hipergeom(N, M, n) ⇔

M
N −M

 ( x )( n−x ) ,
N
(n)
P (X = x) =

0,
Caso o perı́odo de tempo mude, a taxa λ também deve ser alterada na
mesma proporção (se numa hora se espera 3 clientes, em duas horas
esperam-se 6). Pode ser útil considerar a famı́lia de variáveis aleatórias
se x ∈ max {0, n − N + M } , ..., min {n, M }
caso contrário
M
M N −M N −n
e V ar(X) = n
N
N
N
N −1
Se n << 0.1N , podemos aproximá-la pela distribuição binomial. A
probabilidade de sucesso p é então a razão entre o número de sucessos
e a dimensão do universo.
M
a
X ∼ Bin n, p =
N
E(X) = n
E(X) = V ar(X) = λ
.
X(t) ∼ P oi(λt).
4.
Variáveis Aleatórias e Distribuições Contı́nuas
4.1.
4.3.
Função (Massa) de Probabilidade
Função de Distribuição
P (X = x) = 0, ∀x ∈ R
4.2.
FX (x) = P (X ≤ x) =
fX (t) dt
Função Densidade de Probabilidade
−∞
4.4.
0
fX (x) = FX
(x)
Z +∞
satisfazendo fX (x) ≥ 0, ∀x ∈ R e
fX (x) = 1.
Valor Esperado
Z
1
,
b−a
0,
R +∞
• E[g(X)] = −∞ g(x)fX (x) dx
R
+∞
• E X 2 = −∞ x2 fX (x) dx
4.6.
Distribuição Uniforme Contı́nua
X ∼ U nif ([a, b]) ⇔ fX (x) =
Distribuição Exponencial
Modela tempos de vida ou de espera.
se x ∈ [a, b]
caso contrário
(
λ e−λx ,
X ∼ Exp(λ) ⇔ fX (x) =
0,
2
E(X) =
x fX (x) dx
−∞
fX (x) dá um valor aproximado da probabilidade de ocorrência de valores próximos de x.
(
+∞
E(X) =
−∞
4.5.
x
Z
(b − a)
a+b
e V ar(x) =
2
12
se x ≥ 0
se x < 0
1
1
e V ar(X) = 2
λ
λ
Se N ∼ P oi(λ) der o número de ocorrências num determinado intervalo de tempo então X ∼ Exp(λ) dá o tempo de espera entre duas
ocorrências consecutivas.
E(X) =
4.7.
Distribuição Normal
(x−µ)2
1
−
X ∼ N µ, σ 2 ⇔ fX (x) = √
e 2σ2
2
2πσ
E(X) = µ e V ar(X) = σ 2
z2
X −µ
1
Z=
∼ N (0, 1), ϕ(z) = fZ (z) = √ e− 2 , Φ(z) = FZ (z)
σ
2π
5.
Distribuições Conjuntas de Probabilidades e Complementos
5.1.
Vectores Aleatórios Discretos
5.1.1.
Função de Probabilidade Conjunta
5.1.2.
f(X,Y ) (x, y) = P (X = x, Y = y)
Função de Distribuição Conjunta
F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y) =
y
X
x
X
P (X = i, Y = j)
i=−∞ j=−∞
5.1.3.
Funções de Probabilidade Marginais
5.1.4.
Obtêm-se somando na variável irrelevante.
P (X = x) =
+∞
X
Esperança, Independência e Correlação
E(XY ) =
+∞
X
+∞
X
xy P (X = x, Y = y)
x=−∞ y=−∞
P (X = x, Y = y)
X⊥
⊥ Y ⇔ P (X = x, Y = y) = P (X = x)P (Y = y), ∀(x, y) ∈ R2
y=−∞
Cov(X, Y ) = E(XY ) − E(X)E(Y )
P (Y = y) =
+∞
X
Cov(aX, bY ) = ab Cov(X, Y )
P (X = x, Y = y)
Cov(X, X) = V ar(X)
x=−∞
Tendo as funções de probabilidade marginais, as funções de distribuição
marginais obtém-se somando como no caso univariado.
Cov(X, Y )
∈ [−1, 1]
Corr(X, Y ) = p
V ar(X)V ar(Y )
X⊥
⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥
⊥Y
5.1.5.
Funções de Probabilidade Marginais
• Função de Probabilidade Marginal de X condicional a Y = y:
P (X = x|Y = y) =
P (X = x, Y = y)
P (Y = y)
5.1.6.
Funções de Distribuição Marginais Condicionais
• Função de Distribuição Marginal de X condicional a Y = y:
P (X ≤ x|Y = y) =
x
X
P (X = i|Y = y)
i=−∞
• Função de Probabilidade Marginal de Y condicional a X = x:
P (X = x, Y = y)
P (Y = y|X = x) =
P (X = x)
• Função de Distribuição Marginal de Y condicional a X = x:
P (Y ≤ y|X = x) =
x
X
P (Y = j|X = x)
j=−∞
5.1.7.
Valor Esperado e Variância Condicionais
E(X|Y = y) =
+∞
X
x P (X = x|Y = y)
V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y)
y P (Y = y|X = x)
V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x)
x=−∞
E(Y |X = x) =
+∞
X
y=−∞
E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y .
5.2.
Vectores Aleatórios Contı́nuos
5.2.1.
Função Densidade de Probabilidade Conjunta
5.2.2.
Função de Distribuição Conjunta
Z
f(X,Y ) (x, y)
x
f(X,Y ) (u, v) du dv
−∞
5.2.3.
Funções Densidade de Probabilidade Marginais 5.2.4.
Z
+∞
+∞
Z
E(XY ) =
xy f(X,Y ) (x, y) dx dy
−∞
−∞
X⊥
⊥ Y ⇔ f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2
−∞
+∞
fY (y) =
−∞
Esperança, Independência e Correlação
Obtêm-se integrando na variável irrelevante.
Z +∞
fX (x) =
f(X,Y ) (x, y) dy
Z
y
Z
F(X,Y ) (x, y) =
Cov(X, Y ) = E(XY ) − E(X)E(Y )
f(X,Y ) (x, y) dx
Cov(aX, bY ) = ab Cov(X, Y )
−∞
Tendo as funções densidade de probabilidade marginais, as funções de
distribuição marginais obtém-se integrando como no caso univariado.
Cov(X, X) = V ar(X)
Cov(X, Y )
Corr(X, Y ) = p
∈ [−1, 1]
V ar(X)V ar(Y )
X⊥
⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥
⊥Y
2
2
X ∼ N µ1 , σ 1 ⊥
⊥Y ∼ N µ2 , σ2 ⇔ X ⊥
⊥Y
5.2.5.
Funções Densidade de Probabilidade Marginais 5.2.6.
Funções de Distribuição Marginais Condicionais
• Função Densidade de Probabilidade Marginal de X condicional
a Y = y:
f(X,Y ) (x, y)
fX|Y =y (x) =
fY (y)
• Função de Distribuição Marginal de X condicional a Y = y:
Z x
FX|Y =y (x) =
fX|Y =y (u) du
• Função Densidade de Probabilidade Marginal de Y condicional
a X = x:
f(X,Y ) (x, y)
fY |X=x (y) =
fX (x)
• Função de Distribuição Marginal de Y condicional a X = x:
Z y
FY |X=x (y) =
fY |X=x (v) dv
5.2.7.
−∞
−∞
Valor Esperado e Variância Condicionais
V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y)
V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x)
+∞
Z
E(X|Y = y) =
x fX|Y =y (x) dx
−∞
+∞
Z
E(Y |X = x) =
y fY |X=x (y) dy
−∞
5.3.
E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y .
Desigualdade de Chebyshev
Seja X uma variável aleatória, com E(X) = µ e V ar(X) = σ 2 . Então, P (|X − µ| ≥ cσ) ≤
5.4.
5.4.1.
Teorema do Limite Central
Para Somas de Variáveis Aleatórias
Seja Sn =
n
X
Xi . Se:
5.4.2.
Para Médias de Variáveis Aleatórias
Seja X =
i=1
1.
X1 , ..., Xn forem variáveis aleatórias independentes e
2.
identicamente distribuı́das (i.i.d.) a X;


n
n
X
X
E(Sn ) = E 
Xi  =
E(Xi ) = nE(X) < +∞;
i=1

3.
V ar(Sn ) = V ar 
n
X

Xi 
1.
=
indep.
n
X
i=1
identicamente distribuı́das (i.i.d.) a X;




n
n
n
X
X
1
1
1X
E(X) = E 
Xi  = E 
Xi  =
E(Xi ) =
i.d.
n i=1
n
n i=1
i=1
=
V ar(Xi ) = nV ar(X) < +∞,
i.d.
1
× nE(X) = E(X) < +∞
n




n
n
X
X
1
1
V ar(X) = V ar 
Xi  = 2 V ar 
Xi  =
indep.
n i=1
n
i=1
3.
Sn − E(Sn ) a
p
∼ N (0, 1).
V ar(Sn )
n
1X
Xi . Se:
n i=1
X1 , ..., Xn forem variáveis aleatórias independentes e
2.
i.d.
i=1
i=1
então
1
.
c2
=
n
V ar(X)
1 X
1
V ar(Xi ) = 2 × nV ar(X) =
< +∞
i.d. n
n2 i=1
n
então
X − E(X) a
q
∼ N (0, 1).
V ar(X)
6.
Estimação Pontual
Uma amostra aleatória de X é um conjunto de variáveis aleatórias independentes e identicamente distribuı́das (i.i.d.) a X.
Uma estatı́stica é uma qualquer função da amostra aleatória.
Um estimador é uma função da amostra aleatória que toma valores no mesmo espaço paramétrico (por exemplo, um estimador da variância
deve ter suporte em R+
0 ).
6.1.
Erro Quadrático Médio e Eficiência
6.2.
Comparação da Eficiência de Estimadores
Seja T um estimador do parâmetro θ. O seu erro quadrático médio é Sejam T1 e T2 estimadores de θ. A eficiência relativa de T1 com respeito
a T2 na estimação de θ é
h
i
EQMθ (T ) = E (T − θ)2 = V ar(T ) + [ E(T ) − θ ]2
| {z }
EQMθ (T2 )
eθ (T1 , T2 ) =
.
enviesamento
EQMθ (T1 )
Um estimador é mais eficiente se o seu erro quadrático médio for menor.
Se o enviesamento for nulo, isto é, se E(T ) = θ, o estimador diz-se Se eθ (T1 , T2 ) > 1 então o numerador é maior, logo T1 é mais eficiente
que T2 .
centrado.
Se eθ (T1 , T2 ) < 1 então o denominador é maior, logo T2 é mais eficiente
que T1 .
6.3.
Estimação por Máxima Verosimilhança
Seja X = (X1 , ..., Xn ) amostra aleatória de X, x = (x1 , ..., xn ) respectiva amostra observada e θ um parâmetro.
6.3.1.
Cálculo da Estimativa de Máxima Verosimilhança 6.3.2.
Para se encontrar a estimativa de máxima verosimilhança de θ basta
percorrer os seguintes passos:
1. Função de Verosimilhança:
L(θ|x) = f(X1 ,...,Xn ) (x1 , ..., xn |θ) =
n
Y
i.i.d.
• Invariância:
Se θ̂ for o estimador de máxima verosimilhança de θ então g(θ̂)
é o estimador de máxima verosimilhança de g(θ).
fX (xi |θ)
d = g(θ̂)
g(θ)
i=1
Ou seja, se X for o estimador de máxima verosimilhança de µ
então o estimador de máxima verosimilhança de µ2 será X.
2. Função de Log-verosimilhança:
log L(θ|x) = log
n
Y
i=1
fX (xi |θ) =
Propriedades dos Estimadores de Máxima Verosimilhança
n
X
• Suficiência;
log fX (xi |θ)
• Consistência.
i=1
3. Maximização:
6.4.
Distribuições Amostrais
(a) Derivar a função de log-verosimilhança em ordem a θ e en- Se X1 , ..., Xn ∼ X então
i.i.d.
contrar o seu zero θ̂:
θ̂ = arg max log L(θ|x), ou seja, é solução de
θ
∂ log L(θ|x)
=0
∂θ
(b) Confirmar, que o valor encontrado é um máximo, isto é, verificar que a segunda derivada avaliada no ponto encontrado
é negativa:
∂ 2 log L(θ|x)
<0
∂θ2
θ=θ̂
Então, θ̂ é a estimativa de máxima verosimilhança de θ. Para se obter
o estimador basta escrever a amostra aleatória no lugar da amostra
observada.
E(X) = E(X) e V ar(X) =
1
S =
n−1
2
n
X
i=1
V ar(X)
.
n
n
P
2
(Xi − X) =
Xi2 − nX
i=1
n−1
2
7.
Estimação por Intervalos
7.1.
Método da Variável Fulcral
Para construir um intervalo de confiança para o parâmetro θ, centrado na estimativa pontual, utilizando o método da variável fulcral, basta
seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo
do cálculo do intervalo de confiança para o valor médio de uma
2
população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com variância conhecida σ 2 = 4 e média da amostra observada
x = 7, de dimensão n = 25.
Intervalo de Confiança a 1 − α para θ
Intervalo de Confiança a 95% para µ
1. Variável Fulcral:
Encontrar uma variável fulcral T , isto é, uma variável que:
1. Variável Fulcral:
X −µ
Z= p
∼ N (0, 1)
σ 2 /n
• Dependa do parâmetro desconhecido a estimar;
• Tenha distribuição conhecida;
• Não dependa de mais parâmetros desconhecidos.
2. Quantis:
2. Quantis:
(
fT (t)
Sendo 1 − α o nı́vel de confiança
do intervalo, procuramos dois
valores a e b tais que
(
⇔
P (a < T < b) = 1 − α
1−α
α
2
α
2
A escolha mais frequente consiste em centrar este intervalo,
resolvendo o sistema:
t
0
−b
b
(
α
a : FT (a) = 2
⇔ Distribuições Normal ou t-Student
b : FT (b) = 1 − α2
f (t)
(
a = FT−1 α2
⇔
b = FT−1 1 − α2
(
⇔
ϕ(z)
a : Φ(a) = 0.05
2
b : Φ(b) = 1 − 0.05
2
a = −b
b = Φ−1 (0.975)
⇔
⇔
a = −1.96
b ' 1.96
1−α
α
2
−b
0
T
α
2
Caso
a
distribuição
seja
simétrica (normal ou t-Student,
por exemplo), basta calcular b
e, nesse caso, a = −b.
α
2
1−α
0
a
b
t
Distribuição do Qui-Quadrado
3. Intervalo de Confiança Aleatório:
Encontrados os valores de a e b tais que P (a < T < b) = 1 − α,
queremos inverter a desigualdade
a<T <b
de modo a que o parâmetro a estimar fique no centro, encontrando assim o intervalo de confiança aleatório ICA1−α (θ).
4. Intervalo de Confiança:
Substituindo, no intervalo de confiança aleatório, a amostra
aleatória pela amostra observada, encontra-se o intervalo de confiança IC1−α (θ).
3. Intervalo de Confiança Aleatório:
X −µ
a < Z < b ⇔ −1.96 < p
< 1.96 ⇔
σ 2 /n
r
r
σ2
σ2
⇔ − 1.96
< X − µ < 1.96
⇔
n
n
r
r
σ2
σ2
⇔ − X − 1.96
< −µ < −X + 1.96
⇔
n
n
r
r
σ2
σ2
⇔X − 1.96
< µ < X + 1.96
⇔
n
n
"
r
r #
σ2
σ2
⇔ICA95% (µ) = X − 1.96
, X + 1.96
n
n
4. Intervalo de Confiança:
"
r
r #
σ2
σ2
IC95% (µ) = x − 1.96
, x + 1.96
=
n
n
"
r
r #
4
4
= 7 − 1.96
, 7 + 1.96
=
25
25
= [−6.216, 7.784]
7.2.
Nı́veis de Confiança Usuais
90%, 95% e 99%.
α
2
b
z
7.3.
7.3.1.
Lista de Variáveis Fulcrais
Intervalos de Confiança para a Média de uma Po- 7.3.3.
pulação
• População Normal:
Intervalos de Confiança para a Diferença de
Médias de duas Populações
• Populações Normais Independentes:
– com variância conhecida:
– com variâncias conhecidas:
X −µ
√ ∼ N (0, 1)
σ/ n
(X1 − X2 ) − (µ1 − µ2 )
q 2
∼ N (0, 1)
2
σ1
σ2
+
n1
n2
– com variância desconhecida:
– com variâncias desconhecidas mas iguais:
X −µ
√ ∼ t(n−1)
S/ n
r
• População Qualquer (eventualmente até normal), com amostra
suficientemente grande (n >> 30):
– com variância conhecida:
X −µ a
√ ∼ N (0, 1)
σ/ n
(X1 − X2 ) − (µ1 − µ2 )
1
+
n1
2 +(n −1)S 2
(n1 −1)S1
2
2
n1 +n2 −2
1
n2
∼ t(n1 +n2 −2)
• Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e
n2 >> 30):
– com variâncias conhecidas:
(X1 − X2 ) − (µ1 − µ2 ) a
q 2
∼ N (0, 1)
2
σ1
σ2
+
n1
n2
– com variância desconhecida:
X −µ a
√ ∼ N (0, 1)
S/ n
– com variâncias desconhecidas:
7.3.2.
Intervalos de Confiança para a Variância de uma
População Normal
(n − 1)S 2 a 2
∼ χ(n−1)
σ2
(X1 − X2 ) − (µ1 − µ2 ) a
q 2
∼ N (0, 1)
2
S1
S2
+
n1
n2
7.3.4.
Intervalos de Confiança para Proporções (Populações de Bernoulli)
X −p
q
X(1−X)
n
a
∼ N (0, 1)
8.
Testes de Hipóteses
8.1.
Construção
Para construir um teste de hipóteses o parâmetro θ, basta seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo
de um
2
teste de hipóteses bilateral para o valor médio de uma população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com
variância conhecida σ 2 = 4 e média da amostra observada x = 7, de dimensão n = 25.
Teste de Hipóteses ao Nı́vel de Significância α para θ
Teste de Hipóteses Bilateral ao Nı́vel de Significância 5%
para µ
1. Hipóteses:
1. Hipóteses:


H0 : µ = 6 vs. H1 : µ 6= 6
θ < θ0 (unilateral à esquerda)

H0 : θ = θ0 vs. H1 :
θ 6= θ0 (bilateral)


θ > θ0 (unilateral à direita)
2. Estatı́stica de Teste:
X −µ
√ ∼ N (0, 1) é variável fulcral para µ, logo
Z=
σ/ n
2. Estatı́stica de Teste:
Tal como nos intervalos de confiança, procuramos uma variável
fulcral T para θ. Ao substituirmos θ por θ0 (valor que pretendemos testar), obtemos a estatı́stica de teste T0 , da qual devemos
calcular o seu valor observado t0 e cuja distribuição só é conhecida sob a validade de H0 .
Z0 =
X −6
√
σ/ n
∼
sob H0
N (0, 1)
é estatı́stica de teste, com valor observado
x−6
7−6
√ = √ = 2.5
σ/ n
2/ 25
3. Região Crı́tica ou Valor-p:
z0 =
3. Região Crı́tica ou Valor-p:
(a) Região Crı́tica:
fT (t)
fT (t)
1−α
α
a
1−α
α
2
t
0
fT (t)
−b
Unilateral à Esquerda
1−α
α
2
0
t
b
0
Bilateral
fT (t)
α
t
b
Unilateral à Direita
fT (t)
fT (t)
(a) Região Crı́tica:
(
a : Φ(a) = 0.05
2
⇔
b : Φ(b) = 1 − 0.05
2
(
a = −b
⇔
⇔
b = Φ−1 (0.975)
(
a = −1.96
⇔
b ' 1.96
ϕ(z)
1−α
α
2
−b
0
α
2
b
z
α
2
α
RC5% =] − ∞, −1.96[∪]1.96, +∞[
α
2
1−α
0
t
a
(b) Valor-p:
α
1−α
1−α
p = P (Z0 ≥ 2.5) = 1−P (Z0 < 2.5) = 1−Φ(2.5) ' 0.0062
0
Unilateral à Esquerda
a
b
Bilateral
t
0
b
t
Unilateral à Direita
De forma semelhante ao cálculo dos quantis, queremos:
(
a : FT (a) = α2
a : FT (a) = α ,
, b : FT (b) = 1 − α
{z
}
{z
}
|
|
b : FT (b) = 1 − α2
Unilateral à Esquerda |
{z
} Unilateral à Direita
Bilateral
RCα =] − ∞, a[ , RCα =] − ∞, a[∪]b, +∞[, RCα =]b, +∞[
|
{z
} |
{z
} |
{z
}
Unilateral à Esquerda
Bilateral
Unilateral à Direita
(b) Valor-p:
O valor-p de um teste é o menor nı́vel de significância para
o qual se rejeita a hipótese nula.
p = P (T ≤ −|t0 |), p = 2P (T ≥ |t0 |), p = P (T ≥ |t0 |)
|
{z
} |
{z
} |
{z
}
Unilateral à Esquerda
Bilateral
Unilateral à Direita
4. Decisão:
((a) Com base na Região Crı́tica:
Se t0 ∈ RCα devemos rejeitar H0 ao nı́vel de significância α
Se t0 ∈
/ RCα não devemos rejeitar H0 ao nı́vel de significância α
(b)
( Com base no Valor-p:
Devemos rejeitar H0 aos nı́veis de significância α ≥ p
Não devemos rejeitar H0 aos nı́veis de significância α < p
4. Decisão:
(a) Com base na Região Crı́tica:
Como z0 = 2.5 ∈ RC5% , devemos rejeitar H0 ao nı́vel de
significância α = 5%.
(b) Com base no Valor-p:
Devemos rejeitar H0 a todos os nı́veis de significância
α ≥ 0.62% (o que inclui todos os usuais) e não rejeitar para
α < 0.62%.
8.2.
Nı́vel de Significância (Hipótese Simples) 8.3.
α = P (rejeitar H0 |H0 é verdadeira)
8.4.
Nı́veis de Significância Usuais
1%, 5% e 10%.
Relação entre Intervalos de Confiança e Testes de Hipóteses Bilaterais
Testar H0 : θ = θ0 vs. H1 : θ 6= θ0 ao nı́vel de significância α é equivalente a verificar se θ0 ∈ IC1−α (θ).
8.5.
Lista de Estatı́sticas de Teste
8.5.1.
Teste à Média de uma População
• População Normal:
8.5.3.
Teste à Diferença de Médias de duas Populações
• Populações Normais Independentes:
– com variância conhecida:
X − µ0
√
σ/ n
– com variâncias conhecidas:
∼
sob H0
(X1 − X2 ) − (µ0 )
q 2
σ1
σ2
+ n22
n1
N (0, 1)
– com variância desconhecida:
X − µ0
√
S/ n
∼
sob H0
t(n−1)
• População Qualquer (eventualmente até normal), com amostra
suficientemente grande (n >> 30):
– com variância conhecida:
a
∼
sob H0
N (0, 1)
a
∼
sob H0
(X1 − X2 ) − (µ0 )
2 +(n −1)S 2
(n1 −1)S1
2
2
n1 +n2 −2
∼
1
n1
+
1
n2
sob H0
t(n1 +n2 −2)
• Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e
n2 >> 30):
– com variâncias conhecidas:
(X1 − X2 ) − (µ0 )
q 2
σ2
σ1
+ n22
n1
– com variância desconhecida:
X − µ0
√
S/ n
N (0, 1)
– com variâncias desconhecidas mas iguais:
r
X − µ0
√
σ/ n
∼
sob H0
N (0, 1)
a
∼
sob H0
N (0, 1)
– com variâncias desconhecidas:
8.5.2.
Teste à Variância de uma População Normal
(n − 1)S 2
σ02
a
∼
sob H0
(X1 − X2 ) − (µ0 )
q 2
S2
S1
+ n22
n1
χ2(n−1)
8.5.4.
N (0, 1)
Intervalos de Confiança para Proporções (Populações de Bernoulli)
X − p0
q
a
∼
p0 (1−p0 ) sob H0
n
8.5.5.
a
∼
sob H0
N (0, 1)
Teste de Ajustamento do Qui-Quadrado
k
X
(Oi − Ei )2
Ei
i=1
a
∼
sob H0
χ2(k−β−1)
Para o cálculo do valor observado da estatı́stica de teste, basta
preencher-se a tabela abaixo:
i Classe i oi p0i = P (Pertencer à classe i|H0 ) e0i = n p0i
..
..
..
..
..
.
.
.
.
.
n
É necessário que e0i > 5 em pelo menos 80% das classes. Caso contrário,
as classes com menores e0i devem ser agrupadas.
8.5.6.
Teste de Independência do Qui-Quadrado
r X
s
X
(Oij − Eij )2
Eij
i=1 j=1
a
∼
sob H0
χ2(r−1)(s−1)
9.
Introdução à Regressão Linear Simples
9.1.
Modelo de Regressão Linear Simples
9.2.
Parâmetros de Regressão e Interpretação
Seja Y uma variável aleatória, relacionada por um modelo de regressão O modelo de regressão linear simples tem 3 parâmetros:
linear simples com a variável determinı́stica x. Consideremos uma
• β1 : o declive da recta de regressão (ou coeficiente angular),
amostra com n observações.
indicando quantas unidades Y aumenta ou diminui quando x
aumenta uma unidade;
Yi = β0 + β1 xi + i , , ∀i ∈ {1, ..., n}
• β0 : a ordenada na origem da recta de regressão, indicando o
Suponhamos que:
valor de Y quando x = 0 (só tem significado se
0 ∈ [ min xi , max xi ] para que não existam erros de extra• E(i ) = 0, ∀i ∈ {1, ..., n};
{1,...,n}
• V ar(i ) = σ 2 , ∀i ∈ {1, ..., n} (variância constante, mas de valor
desconhecido);
• Corr(i , j ) = 0 , ∀i 6= j.
Sejam β̂0 e β̂1 as estimativas de mı́nimos quadrados de β0 e β1 , respectivamente.
n
P
β̂1 =
• σ 2 : variância dos erros do modelo de regressão.
9.3.
Coeficiente de Determinação
n
P
,
n
P
β̂0 = y − β̂1 x
x2i − nx2
!2
xi yi − nx y
i=1
r2 =
xi yi − nx y
i=1
n
P
{1,...,n}
polação):
!
x2i
− nx
2
×
! ∈ [0, 1]
yi2
− ny
2
i=1
i=1
i=1
n
P
avalia a qualidade do ajuste do modelo de regressão linear aos dados
(quanto mais próximo de 1, melhor será o ajuste).
Então, a resposta esperada é
E(Yi |xi ) = E(β0 + β1 xi + i ) = β0 + β1 xi , ∀i ∈ {1, ..., n}
portanto
\
ŷ = E(Y
i |x) = β̂0 + β̂1 x
é a estimativa
de mı́nimos
quadrados da recta de regressão, para
x ∈ min xi , max xi .
{1,...,n}
9.4.
{1,...,n}
9.4.1.
Inferências
Na necessidade de fazer inferências, supõe-se adicionalmente que
i ∼ N 0, σ 2
i.i.d.
Inferências sobre β1
Para construir intervalos de confiança ou para testar o valor de β1 (declive da recta de regressão ou coeficiente angular), utiliza-se a variável
fulcral
β̂1 − β1
s
∼ t(n−2) .
σ̂ 2
situação em que as estimativas de mı́nimos quadrados coincidem com
n
P
2
2 −nx2
x
as de máxima verosimilhança. A de σ é
i
i=1
!
2 P
n
n
Testar a significância do modelo consiste em testar
P
yi2 − ny 2 − β̂1
x2i − nx2
i=1
i=1
H0 : β1 = 0 vs. H1 : β1 6= 0.
σ̂ 2 =
.
n−2
Se β1 = 0 não há significância de regressão (valor de y é o mesmo,
qualquer que seja x).
9.4.2.
9.4.3.
Inferências sobre β0
Para construir intervalos de confiança ou para testar o valor de β0
(ordenada na origem da recta de regressão), utiliza-se a variável fulcral
β̂0 − β0
v
u
u
u 1
x2
t n+ P
n
i=1
2
x2
i −nx
∼ t(n−2) .

 σ̂ 2
Inferências sobre um Valor Ajustado
Para construir intervalos de confiança ou para testar o valor ajustado
ŷ quando x = x0 , utiliza-se a variável fulcral
(β̂0 + β̂1 x0 ) − (β0 + β1 x0 )
v
∼ t(n−2) .

u
u
2
u 1
(x−x0 )
 σ̂ 2
t n+ P
n
i=1
2
x2
i −nx
Download