Resumos de Probabilidades e Estatı́stica João Brazuna 2. Noções Básicas de Probabilidade 2.1. Axiomática de Kolmogorov 2.3. Probabilidade Condicionada Sendo F uma σ-álgebra de Ω, define-se medida de probabilidade como P (A ∩ B) P (A|B) = P : F → [0, 1] tal que: P (B) 1. P (A) ≥ 0, ∀A ∈ F; denota a probabilidade de A ocorrer, sabendo que B ocorreu. Garantese assim que 2. P (Ω) = 1; P (A ∩ A) P (A) P (A|A) = = = 1. 3. Se A ∩ B = ∅ então P (A ∪ B) = P (A) + P (B). P (A) P (A) 2.2. Propriedades 2.4. • P (A) = 1 − P (A) Independência Estocástica Os acontecimentos A e B dizem-se independentes se e só se • P (∅) = 0 P (A ∩ B) = P (A)P (B) • 0 ≤ P (A) ≤ 1, ∀A ∈ F o que se denota por A ⊥ ⊥ B e é equivalente a • P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • P (A ∪ B) = P (A ∩ B) P (A|B) = P (A). • P (A ∩ B) = P (A ∪ B) • Se A ⊆ B então P (A) ≤ P (B) 2.5. Lei das Probabilidades Totais 2.5.1. 2.6. Lei das Probabilidades Compostas 2.6.1. Caso Simples P (A ∩ B) = P (A)P (B|A) P (A) = P (A ∩ B) + P (A ∩ B) = P (A ∩ B ∩ C) = P (A)P (B|A)P (C|A ∩ B) = P (A|B)P (B) + P (A|B)P (B) 2.5.2. Desenvolvendo as fórmulas da probabilidade condicionada, os denominadores cortam. Caso Geral Se {Bi }n i=1 for uma partição de Ω, isto é, n [ Bi = Ω e i=1 Bi ∩ Bj = ∅, ∀i 6= j então P (A) = n X i=1 Casos Simples 2.6.2. P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ · · · ∩ An−1 ) 2.7. P (A|Bi )P (Bi ) . Caso Geral Teorema de Bayes Consiste na dupla aplicação da fórmula da probabilidade condicionada, permitindo obter P (A|B) a partir de P (B|A). P (A|B) = P (B|A)P (A) P (B) 3. Variáveis Aleatórias e Distribuições Discretas 3.1. Função (Massa) de Probabilidade 3.2. Função de Distribuição fX (x) = P (X = x) FX (x) = P (X ≤ x) = x X P (X = k) k=−∞ 3.3. 3.4. Valor Esperado +∞ X E(X) = V ar(X) = E X 2 − E 2 (X) x P (X = x) x=−∞ • E[g(X)] = P+∞ x=−∞ Variância • V ar(aX) = a2 V ar(X), ∀a ∈ R; g(x)P (X = x) +∞ X • E X2 = x2 P (X = x) x=−∞ • V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ); • Se X ⊥ ⊥ Y então V ar(X + Y ) = V ar(X) + V ar(Y ). 3.5. Moda e Quantis • E(aX) = aE(x), ∀a ∈ R; mo = arg max P (X = x) x • E(X + Y ) = E(X) + E(Y ); ( • Se X ⊥ ⊥ Y então E(XY ) = E(X)E(Y ). 3.6. Distribuição Uniforme Discreta Todos os casos possı́veis têm igual probabilidade. ( 1 , se x ∈ {1, ..., n} X ∼ U nif ({1, ..., n}) ⇔ P (X = x) = n 0, caso contrário E(X) = 3.8. n2 − 1 n+1 e V ar(x) = 2 12 Distribuição Binomial χp : 3.7. P (X ≤ χp ) ≥ p P (X ≥ χp ) ≥ 1 − p ( me = χ 1 : 2 P (X ≤ me) ≥ P (X ≥ me) ≥ 1 2 1 2 Distribuição de Bernoulli Há apenas dois casos possı́veis: sucesso (1) ou p, X ∼ Bern(p) ⇔ P (X = x) = 1 − p, 0, insucesso (0). se x = 1 se x = 0 caso contrário E(X) = p e V ar(X) = p(1 − p) 3.9. Distribuição Geométrica 1. Há n repetições de uma prova de Bernoulli; 1. Há repetições de uma prova de Bernoulli; 2. A probabilidade de sucesso em cada prova é constante igual a p (extracções com reposição); 3. As provas são independentes umas das outras. 2. A probabilidade de sucesso em cada prova é constante igual a p; 3. As provas são independentes umas das outras. A variável aleatória X que conta o número de provas de Bernoulli reaA variável aleatória X que conta o número de sucessos obtidos lizadas até se obter o 1o sucesso é tal que nas n repetições de uma prova de Bernoulli é tal que ( p(1 − p)x−1 , se x ∈ N ( X ∼ Geom(p) ⇔ P (X = x) = . n x n−x p (1 − p) , se x ∈ {0, 1, ..., n} 0, caso contrário x X ∼ Bin(n, p) ⇔ P (X = x) = . 0, caso contrário (1 − p) 1 E(X) = e V ar(X) = E(X) = np e V ar(X) = np(1 − p) p p2 3.10. Distribuição Hipergeométrica 3.11. Distribuição de Poisson 1. São realizadas n provas de Bernoulli num universo com N ele- Modela eventos de chegada de serviços (como autocarros a uma paragem, cliques num anúncio na Internet,...) a uma taxa constante λ mentos, N dos quais são sucessos; durante um determinado intervalo de tempo. 2. A probabilidade de sucesso em cada prova não é constante (ex( −λ x tracções sem reposição); e λ , se x ∈ N0 x! X ∼ P oi(λ) ⇔ P (X = x) = 3. As provas não são independentes umas das outras. 0, caso contrário A variável aleatória X que conta o número de sucessos obtidos nas n provas de Bernoulli é tal que X ∼ Hipergeom(N, M, n) ⇔ M N −M ( x )( n−x ) , N (n) P (X = x) = 0, Caso o perı́odo de tempo mude, a taxa λ também deve ser alterada na mesma proporção (se numa hora se espera 3 clientes, em duas horas esperam-se 6). Pode ser útil considerar a famı́lia de variáveis aleatórias se x ∈ max {0, n − N + M } , ..., min {n, M } caso contrário M M N −M N −n e V ar(X) = n N N N N −1 Se n << 0.1N , podemos aproximá-la pela distribuição binomial. A probabilidade de sucesso p é então a razão entre o número de sucessos e a dimensão do universo. M a X ∼ Bin n, p = N E(X) = n E(X) = V ar(X) = λ . X(t) ∼ P oi(λt). 4. Variáveis Aleatórias e Distribuições Contı́nuas 4.1. 4.3. Função (Massa) de Probabilidade Função de Distribuição P (X = x) = 0, ∀x ∈ R 4.2. FX (x) = P (X ≤ x) = fX (t) dt Função Densidade de Probabilidade −∞ 4.4. 0 fX (x) = FX (x) Z +∞ satisfazendo fX (x) ≥ 0, ∀x ∈ R e fX (x) = 1. Valor Esperado Z 1 , b−a 0, R +∞ • E[g(X)] = −∞ g(x)fX (x) dx R +∞ • E X 2 = −∞ x2 fX (x) dx 4.6. Distribuição Uniforme Contı́nua X ∼ U nif ([a, b]) ⇔ fX (x) = Distribuição Exponencial Modela tempos de vida ou de espera. se x ∈ [a, b] caso contrário ( λ e−λx , X ∼ Exp(λ) ⇔ fX (x) = 0, 2 E(X) = x fX (x) dx −∞ fX (x) dá um valor aproximado da probabilidade de ocorrência de valores próximos de x. ( +∞ E(X) = −∞ 4.5. x Z (b − a) a+b e V ar(x) = 2 12 se x ≥ 0 se x < 0 1 1 e V ar(X) = 2 λ λ Se N ∼ P oi(λ) der o número de ocorrências num determinado intervalo de tempo então X ∼ Exp(λ) dá o tempo de espera entre duas ocorrências consecutivas. E(X) = 4.7. Distribuição Normal (x−µ)2 1 − X ∼ N µ, σ 2 ⇔ fX (x) = √ e 2σ2 2 2πσ E(X) = µ e V ar(X) = σ 2 z2 X −µ 1 Z= ∼ N (0, 1), ϕ(z) = fZ (z) = √ e− 2 , Φ(z) = FZ (z) σ 2π 5. Distribuições Conjuntas de Probabilidades e Complementos 5.1. Vectores Aleatórios Discretos 5.1.1. Função de Probabilidade Conjunta 5.1.2. f(X,Y ) (x, y) = P (X = x, Y = y) Função de Distribuição Conjunta F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y) = y X x X P (X = i, Y = j) i=−∞ j=−∞ 5.1.3. Funções de Probabilidade Marginais 5.1.4. Obtêm-se somando na variável irrelevante. P (X = x) = +∞ X Esperança, Independência e Correlação E(XY ) = +∞ X +∞ X xy P (X = x, Y = y) x=−∞ y=−∞ P (X = x, Y = y) X⊥ ⊥ Y ⇔ P (X = x, Y = y) = P (X = x)P (Y = y), ∀(x, y) ∈ R2 y=−∞ Cov(X, Y ) = E(XY ) − E(X)E(Y ) P (Y = y) = +∞ X Cov(aX, bY ) = ab Cov(X, Y ) P (X = x, Y = y) Cov(X, X) = V ar(X) x=−∞ Tendo as funções de probabilidade marginais, as funções de distribuição marginais obtém-se somando como no caso univariado. Cov(X, Y ) ∈ [−1, 1] Corr(X, Y ) = p V ar(X)V ar(Y ) X⊥ ⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥ ⊥Y 5.1.5. Funções de Probabilidade Marginais • Função de Probabilidade Marginal de X condicional a Y = y: P (X = x|Y = y) = P (X = x, Y = y) P (Y = y) 5.1.6. Funções de Distribuição Marginais Condicionais • Função de Distribuição Marginal de X condicional a Y = y: P (X ≤ x|Y = y) = x X P (X = i|Y = y) i=−∞ • Função de Probabilidade Marginal de Y condicional a X = x: P (X = x, Y = y) P (Y = y|X = x) = P (X = x) • Função de Distribuição Marginal de Y condicional a X = x: P (Y ≤ y|X = x) = x X P (Y = j|X = x) j=−∞ 5.1.7. Valor Esperado e Variância Condicionais E(X|Y = y) = +∞ X x P (X = x|Y = y) V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y) y P (Y = y|X = x) V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x) x=−∞ E(Y |X = x) = +∞ X y=−∞ E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y . 5.2. Vectores Aleatórios Contı́nuos 5.2.1. Função Densidade de Probabilidade Conjunta 5.2.2. Função de Distribuição Conjunta Z f(X,Y ) (x, y) x f(X,Y ) (u, v) du dv −∞ 5.2.3. Funções Densidade de Probabilidade Marginais 5.2.4. Z +∞ +∞ Z E(XY ) = xy f(X,Y ) (x, y) dx dy −∞ −∞ X⊥ ⊥ Y ⇔ f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 −∞ +∞ fY (y) = −∞ Esperança, Independência e Correlação Obtêm-se integrando na variável irrelevante. Z +∞ fX (x) = f(X,Y ) (x, y) dy Z y Z F(X,Y ) (x, y) = Cov(X, Y ) = E(XY ) − E(X)E(Y ) f(X,Y ) (x, y) dx Cov(aX, bY ) = ab Cov(X, Y ) −∞ Tendo as funções densidade de probabilidade marginais, as funções de distribuição marginais obtém-se integrando como no caso univariado. Cov(X, X) = V ar(X) Cov(X, Y ) Corr(X, Y ) = p ∈ [−1, 1] V ar(X)V ar(Y ) X⊥ ⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥ ⊥Y 2 2 X ∼ N µ1 , σ 1 ⊥ ⊥Y ∼ N µ2 , σ2 ⇔ X ⊥ ⊥Y 5.2.5. Funções Densidade de Probabilidade Marginais 5.2.6. Funções de Distribuição Marginais Condicionais • Função Densidade de Probabilidade Marginal de X condicional a Y = y: f(X,Y ) (x, y) fX|Y =y (x) = fY (y) • Função de Distribuição Marginal de X condicional a Y = y: Z x FX|Y =y (x) = fX|Y =y (u) du • Função Densidade de Probabilidade Marginal de Y condicional a X = x: f(X,Y ) (x, y) fY |X=x (y) = fX (x) • Função de Distribuição Marginal de Y condicional a X = x: Z y FY |X=x (y) = fY |X=x (v) dv 5.2.7. −∞ −∞ Valor Esperado e Variância Condicionais V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y) V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x) +∞ Z E(X|Y = y) = x fX|Y =y (x) dx −∞ +∞ Z E(Y |X = x) = y fY |X=x (y) dy −∞ 5.3. E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y . Desigualdade de Chebyshev Seja X uma variável aleatória, com E(X) = µ e V ar(X) = σ 2 . Então, P (|X − µ| ≥ cσ) ≤ 5.4. 5.4.1. Teorema do Limite Central Para Somas de Variáveis Aleatórias Seja Sn = n X Xi . Se: 5.4.2. Para Médias de Variáveis Aleatórias Seja X = i=1 1. X1 , ..., Xn forem variáveis aleatórias independentes e 2. identicamente distribuı́das (i.i.d.) a X; n n X X E(Sn ) = E Xi = E(Xi ) = nE(X) < +∞; i=1 3. V ar(Sn ) = V ar n X Xi 1. = indep. n X i=1 identicamente distribuı́das (i.i.d.) a X; n n n X X 1 1 1X E(X) = E Xi = E Xi = E(Xi ) = i.d. n i=1 n n i=1 i=1 = V ar(Xi ) = nV ar(X) < +∞, i.d. 1 × nE(X) = E(X) < +∞ n n n X X 1 1 V ar(X) = V ar Xi = 2 V ar Xi = indep. n i=1 n i=1 3. Sn − E(Sn ) a p ∼ N (0, 1). V ar(Sn ) n 1X Xi . Se: n i=1 X1 , ..., Xn forem variáveis aleatórias independentes e 2. i.d. i=1 i=1 então 1 . c2 = n V ar(X) 1 X 1 V ar(Xi ) = 2 × nV ar(X) = < +∞ i.d. n n2 i=1 n então X − E(X) a q ∼ N (0, 1). V ar(X) 6. Estimação Pontual Uma amostra aleatória de X é um conjunto de variáveis aleatórias independentes e identicamente distribuı́das (i.i.d.) a X. Uma estatı́stica é uma qualquer função da amostra aleatória. Um estimador é uma função da amostra aleatória que toma valores no mesmo espaço paramétrico (por exemplo, um estimador da variância deve ter suporte em R+ 0 ). 6.1. Erro Quadrático Médio e Eficiência 6.2. Comparação da Eficiência de Estimadores Seja T um estimador do parâmetro θ. O seu erro quadrático médio é Sejam T1 e T2 estimadores de θ. A eficiência relativa de T1 com respeito a T2 na estimação de θ é h i EQMθ (T ) = E (T − θ)2 = V ar(T ) + [ E(T ) − θ ]2 | {z } EQMθ (T2 ) eθ (T1 , T2 ) = . enviesamento EQMθ (T1 ) Um estimador é mais eficiente se o seu erro quadrático médio for menor. Se o enviesamento for nulo, isto é, se E(T ) = θ, o estimador diz-se Se eθ (T1 , T2 ) > 1 então o numerador é maior, logo T1 é mais eficiente que T2 . centrado. Se eθ (T1 , T2 ) < 1 então o denominador é maior, logo T2 é mais eficiente que T1 . 6.3. Estimação por Máxima Verosimilhança Seja X = (X1 , ..., Xn ) amostra aleatória de X, x = (x1 , ..., xn ) respectiva amostra observada e θ um parâmetro. 6.3.1. Cálculo da Estimativa de Máxima Verosimilhança 6.3.2. Para se encontrar a estimativa de máxima verosimilhança de θ basta percorrer os seguintes passos: 1. Função de Verosimilhança: L(θ|x) = f(X1 ,...,Xn ) (x1 , ..., xn |θ) = n Y i.i.d. • Invariância: Se θ̂ for o estimador de máxima verosimilhança de θ então g(θ̂) é o estimador de máxima verosimilhança de g(θ). fX (xi |θ) d = g(θ̂) g(θ) i=1 Ou seja, se X for o estimador de máxima verosimilhança de µ então o estimador de máxima verosimilhança de µ2 será X. 2. Função de Log-verosimilhança: log L(θ|x) = log n Y i=1 fX (xi |θ) = Propriedades dos Estimadores de Máxima Verosimilhança n X • Suficiência; log fX (xi |θ) • Consistência. i=1 3. Maximização: 6.4. Distribuições Amostrais (a) Derivar a função de log-verosimilhança em ordem a θ e en- Se X1 , ..., Xn ∼ X então i.i.d. contrar o seu zero θ̂: θ̂ = arg max log L(θ|x), ou seja, é solução de θ ∂ log L(θ|x) =0 ∂θ (b) Confirmar, que o valor encontrado é um máximo, isto é, verificar que a segunda derivada avaliada no ponto encontrado é negativa: ∂ 2 log L(θ|x) <0 ∂θ2 θ=θ̂ Então, θ̂ é a estimativa de máxima verosimilhança de θ. Para se obter o estimador basta escrever a amostra aleatória no lugar da amostra observada. E(X) = E(X) e V ar(X) = 1 S = n−1 2 n X i=1 V ar(X) . n n P 2 (Xi − X) = Xi2 − nX i=1 n−1 2 7. Estimação por Intervalos 7.1. Método da Variável Fulcral Para construir um intervalo de confiança para o parâmetro θ, centrado na estimativa pontual, utilizando o método da variável fulcral, basta seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo do cálculo do intervalo de confiança para o valor médio de uma 2 população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com variância conhecida σ 2 = 4 e média da amostra observada x = 7, de dimensão n = 25. Intervalo de Confiança a 1 − α para θ Intervalo de Confiança a 95% para µ 1. Variável Fulcral: Encontrar uma variável fulcral T , isto é, uma variável que: 1. Variável Fulcral: X −µ Z= p ∼ N (0, 1) σ 2 /n • Dependa do parâmetro desconhecido a estimar; • Tenha distribuição conhecida; • Não dependa de mais parâmetros desconhecidos. 2. Quantis: 2. Quantis: ( fT (t) Sendo 1 − α o nı́vel de confiança do intervalo, procuramos dois valores a e b tais que ( ⇔ P (a < T < b) = 1 − α 1−α α 2 α 2 A escolha mais frequente consiste em centrar este intervalo, resolvendo o sistema: t 0 −b b ( α a : FT (a) = 2 ⇔ Distribuições Normal ou t-Student b : FT (b) = 1 − α2 f (t) ( a = FT−1 α2 ⇔ b = FT−1 1 − α2 ( ⇔ ϕ(z) a : Φ(a) = 0.05 2 b : Φ(b) = 1 − 0.05 2 a = −b b = Φ−1 (0.975) ⇔ ⇔ a = −1.96 b ' 1.96 1−α α 2 −b 0 T α 2 Caso a distribuição seja simétrica (normal ou t-Student, por exemplo), basta calcular b e, nesse caso, a = −b. α 2 1−α 0 a b t Distribuição do Qui-Quadrado 3. Intervalo de Confiança Aleatório: Encontrados os valores de a e b tais que P (a < T < b) = 1 − α, queremos inverter a desigualdade a<T <b de modo a que o parâmetro a estimar fique no centro, encontrando assim o intervalo de confiança aleatório ICA1−α (θ). 4. Intervalo de Confiança: Substituindo, no intervalo de confiança aleatório, a amostra aleatória pela amostra observada, encontra-se o intervalo de confiança IC1−α (θ). 3. Intervalo de Confiança Aleatório: X −µ a < Z < b ⇔ −1.96 < p < 1.96 ⇔ σ 2 /n r r σ2 σ2 ⇔ − 1.96 < X − µ < 1.96 ⇔ n n r r σ2 σ2 ⇔ − X − 1.96 < −µ < −X + 1.96 ⇔ n n r r σ2 σ2 ⇔X − 1.96 < µ < X + 1.96 ⇔ n n " r r # σ2 σ2 ⇔ICA95% (µ) = X − 1.96 , X + 1.96 n n 4. Intervalo de Confiança: " r r # σ2 σ2 IC95% (µ) = x − 1.96 , x + 1.96 = n n " r r # 4 4 = 7 − 1.96 , 7 + 1.96 = 25 25 = [−6.216, 7.784] 7.2. Nı́veis de Confiança Usuais 90%, 95% e 99%. α 2 b z 7.3. 7.3.1. Lista de Variáveis Fulcrais Intervalos de Confiança para a Média de uma Po- 7.3.3. pulação • População Normal: Intervalos de Confiança para a Diferença de Médias de duas Populações • Populações Normais Independentes: – com variância conhecida: – com variâncias conhecidas: X −µ √ ∼ N (0, 1) σ/ n (X1 − X2 ) − (µ1 − µ2 ) q 2 ∼ N (0, 1) 2 σ1 σ2 + n1 n2 – com variância desconhecida: – com variâncias desconhecidas mas iguais: X −µ √ ∼ t(n−1) S/ n r • População Qualquer (eventualmente até normal), com amostra suficientemente grande (n >> 30): – com variância conhecida: X −µ a √ ∼ N (0, 1) σ/ n (X1 − X2 ) − (µ1 − µ2 ) 1 + n1 2 +(n −1)S 2 (n1 −1)S1 2 2 n1 +n2 −2 1 n2 ∼ t(n1 +n2 −2) • Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e n2 >> 30): – com variâncias conhecidas: (X1 − X2 ) − (µ1 − µ2 ) a q 2 ∼ N (0, 1) 2 σ1 σ2 + n1 n2 – com variância desconhecida: X −µ a √ ∼ N (0, 1) S/ n – com variâncias desconhecidas: 7.3.2. Intervalos de Confiança para a Variância de uma População Normal (n − 1)S 2 a 2 ∼ χ(n−1) σ2 (X1 − X2 ) − (µ1 − µ2 ) a q 2 ∼ N (0, 1) 2 S1 S2 + n1 n2 7.3.4. Intervalos de Confiança para Proporções (Populações de Bernoulli) X −p q X(1−X) n a ∼ N (0, 1) 8. Testes de Hipóteses 8.1. Construção Para construir um teste de hipóteses o parâmetro θ, basta seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo de um 2 teste de hipóteses bilateral para o valor médio de uma população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com variância conhecida σ 2 = 4 e média da amostra observada x = 7, de dimensão n = 25. Teste de Hipóteses ao Nı́vel de Significância α para θ Teste de Hipóteses Bilateral ao Nı́vel de Significância 5% para µ 1. Hipóteses: 1. Hipóteses: H0 : µ = 6 vs. H1 : µ 6= 6 θ < θ0 (unilateral à esquerda) H0 : θ = θ0 vs. H1 : θ 6= θ0 (bilateral) θ > θ0 (unilateral à direita) 2. Estatı́stica de Teste: X −µ √ ∼ N (0, 1) é variável fulcral para µ, logo Z= σ/ n 2. Estatı́stica de Teste: Tal como nos intervalos de confiança, procuramos uma variável fulcral T para θ. Ao substituirmos θ por θ0 (valor que pretendemos testar), obtemos a estatı́stica de teste T0 , da qual devemos calcular o seu valor observado t0 e cuja distribuição só é conhecida sob a validade de H0 . Z0 = X −6 √ σ/ n ∼ sob H0 N (0, 1) é estatı́stica de teste, com valor observado x−6 7−6 √ = √ = 2.5 σ/ n 2/ 25 3. Região Crı́tica ou Valor-p: z0 = 3. Região Crı́tica ou Valor-p: (a) Região Crı́tica: fT (t) fT (t) 1−α α a 1−α α 2 t 0 fT (t) −b Unilateral à Esquerda 1−α α 2 0 t b 0 Bilateral fT (t) α t b Unilateral à Direita fT (t) fT (t) (a) Região Crı́tica: ( a : Φ(a) = 0.05 2 ⇔ b : Φ(b) = 1 − 0.05 2 ( a = −b ⇔ ⇔ b = Φ−1 (0.975) ( a = −1.96 ⇔ b ' 1.96 ϕ(z) 1−α α 2 −b 0 α 2 b z α 2 α RC5% =] − ∞, −1.96[∪]1.96, +∞[ α 2 1−α 0 t a (b) Valor-p: α 1−α 1−α p = P (Z0 ≥ 2.5) = 1−P (Z0 < 2.5) = 1−Φ(2.5) ' 0.0062 0 Unilateral à Esquerda a b Bilateral t 0 b t Unilateral à Direita De forma semelhante ao cálculo dos quantis, queremos: ( a : FT (a) = α2 a : FT (a) = α , , b : FT (b) = 1 − α {z } {z } | | b : FT (b) = 1 − α2 Unilateral à Esquerda | {z } Unilateral à Direita Bilateral RCα =] − ∞, a[ , RCα =] − ∞, a[∪]b, +∞[, RCα =]b, +∞[ | {z } | {z } | {z } Unilateral à Esquerda Bilateral Unilateral à Direita (b) Valor-p: O valor-p de um teste é o menor nı́vel de significância para o qual se rejeita a hipótese nula. p = P (T ≤ −|t0 |), p = 2P (T ≥ |t0 |), p = P (T ≥ |t0 |) | {z } | {z } | {z } Unilateral à Esquerda Bilateral Unilateral à Direita 4. Decisão: ((a) Com base na Região Crı́tica: Se t0 ∈ RCα devemos rejeitar H0 ao nı́vel de significância α Se t0 ∈ / RCα não devemos rejeitar H0 ao nı́vel de significância α (b) ( Com base no Valor-p: Devemos rejeitar H0 aos nı́veis de significância α ≥ p Não devemos rejeitar H0 aos nı́veis de significância α < p 4. Decisão: (a) Com base na Região Crı́tica: Como z0 = 2.5 ∈ RC5% , devemos rejeitar H0 ao nı́vel de significância α = 5%. (b) Com base no Valor-p: Devemos rejeitar H0 a todos os nı́veis de significância α ≥ 0.62% (o que inclui todos os usuais) e não rejeitar para α < 0.62%. 8.2. Nı́vel de Significância (Hipótese Simples) 8.3. α = P (rejeitar H0 |H0 é verdadeira) 8.4. Nı́veis de Significância Usuais 1%, 5% e 10%. Relação entre Intervalos de Confiança e Testes de Hipóteses Bilaterais Testar H0 : θ = θ0 vs. H1 : θ 6= θ0 ao nı́vel de significância α é equivalente a verificar se θ0 ∈ IC1−α (θ). 8.5. Lista de Estatı́sticas de Teste 8.5.1. Teste à Média de uma População • População Normal: 8.5.3. Teste à Diferença de Médias de duas Populações • Populações Normais Independentes: – com variância conhecida: X − µ0 √ σ/ n – com variâncias conhecidas: ∼ sob H0 (X1 − X2 ) − (µ0 ) q 2 σ1 σ2 + n22 n1 N (0, 1) – com variância desconhecida: X − µ0 √ S/ n ∼ sob H0 t(n−1) • População Qualquer (eventualmente até normal), com amostra suficientemente grande (n >> 30): – com variância conhecida: a ∼ sob H0 N (0, 1) a ∼ sob H0 (X1 − X2 ) − (µ0 ) 2 +(n −1)S 2 (n1 −1)S1 2 2 n1 +n2 −2 ∼ 1 n1 + 1 n2 sob H0 t(n1 +n2 −2) • Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e n2 >> 30): – com variâncias conhecidas: (X1 − X2 ) − (µ0 ) q 2 σ2 σ1 + n22 n1 – com variância desconhecida: X − µ0 √ S/ n N (0, 1) – com variâncias desconhecidas mas iguais: r X − µ0 √ σ/ n ∼ sob H0 N (0, 1) a ∼ sob H0 N (0, 1) – com variâncias desconhecidas: 8.5.2. Teste à Variância de uma População Normal (n − 1)S 2 σ02 a ∼ sob H0 (X1 − X2 ) − (µ0 ) q 2 S2 S1 + n22 n1 χ2(n−1) 8.5.4. N (0, 1) Intervalos de Confiança para Proporções (Populações de Bernoulli) X − p0 q a ∼ p0 (1−p0 ) sob H0 n 8.5.5. a ∼ sob H0 N (0, 1) Teste de Ajustamento do Qui-Quadrado k X (Oi − Ei )2 Ei i=1 a ∼ sob H0 χ2(k−β−1) Para o cálculo do valor observado da estatı́stica de teste, basta preencher-se a tabela abaixo: i Classe i oi p0i = P (Pertencer à classe i|H0 ) e0i = n p0i .. .. .. .. .. . . . . . n É necessário que e0i > 5 em pelo menos 80% das classes. Caso contrário, as classes com menores e0i devem ser agrupadas. 8.5.6. Teste de Independência do Qui-Quadrado r X s X (Oij − Eij )2 Eij i=1 j=1 a ∼ sob H0 χ2(r−1)(s−1) 9. Introdução à Regressão Linear Simples 9.1. Modelo de Regressão Linear Simples 9.2. Parâmetros de Regressão e Interpretação Seja Y uma variável aleatória, relacionada por um modelo de regressão O modelo de regressão linear simples tem 3 parâmetros: linear simples com a variável determinı́stica x. Consideremos uma • β1 : o declive da recta de regressão (ou coeficiente angular), amostra com n observações. indicando quantas unidades Y aumenta ou diminui quando x aumenta uma unidade; Yi = β0 + β1 xi + i , , ∀i ∈ {1, ..., n} • β0 : a ordenada na origem da recta de regressão, indicando o Suponhamos que: valor de Y quando x = 0 (só tem significado se 0 ∈ [ min xi , max xi ] para que não existam erros de extra• E(i ) = 0, ∀i ∈ {1, ..., n}; {1,...,n} • V ar(i ) = σ 2 , ∀i ∈ {1, ..., n} (variância constante, mas de valor desconhecido); • Corr(i , j ) = 0 , ∀i 6= j. Sejam β̂0 e β̂1 as estimativas de mı́nimos quadrados de β0 e β1 , respectivamente. n P β̂1 = • σ 2 : variância dos erros do modelo de regressão. 9.3. Coeficiente de Determinação n P , n P β̂0 = y − β̂1 x x2i − nx2 !2 xi yi − nx y i=1 r2 = xi yi − nx y i=1 n P {1,...,n} polação): ! x2i − nx 2 × ! ∈ [0, 1] yi2 − ny 2 i=1 i=1 i=1 n P avalia a qualidade do ajuste do modelo de regressão linear aos dados (quanto mais próximo de 1, melhor será o ajuste). Então, a resposta esperada é E(Yi |xi ) = E(β0 + β1 xi + i ) = β0 + β1 xi , ∀i ∈ {1, ..., n} portanto \ ŷ = E(Y i |x) = β̂0 + β̂1 x é a estimativa de mı́nimos quadrados da recta de regressão, para x ∈ min xi , max xi . {1,...,n} 9.4. {1,...,n} 9.4.1. Inferências Na necessidade de fazer inferências, supõe-se adicionalmente que i ∼ N 0, σ 2 i.i.d. Inferências sobre β1 Para construir intervalos de confiança ou para testar o valor de β1 (declive da recta de regressão ou coeficiente angular), utiliza-se a variável fulcral β̂1 − β1 s ∼ t(n−2) . σ̂ 2 situação em que as estimativas de mı́nimos quadrados coincidem com n P 2 2 −nx2 x as de máxima verosimilhança. A de σ é i i=1 ! 2 P n n Testar a significância do modelo consiste em testar P yi2 − ny 2 − β̂1 x2i − nx2 i=1 i=1 H0 : β1 = 0 vs. H1 : β1 6= 0. σ̂ 2 = . n−2 Se β1 = 0 não há significância de regressão (valor de y é o mesmo, qualquer que seja x). 9.4.2. 9.4.3. Inferências sobre β0 Para construir intervalos de confiança ou para testar o valor de β0 (ordenada na origem da recta de regressão), utiliza-se a variável fulcral β̂0 − β0 v u u u 1 x2 t n+ P n i=1 2 x2 i −nx ∼ t(n−2) . σ̂ 2 Inferências sobre um Valor Ajustado Para construir intervalos de confiança ou para testar o valor ajustado ŷ quando x = x0 , utiliza-se a variável fulcral (β̂0 + β̂1 x0 ) − (β0 + β1 x0 ) v ∼ t(n−2) . u u 2 u 1 (x−x0 ) σ̂ 2 t n+ P n i=1 2 x2 i −nx