Resumen de Probabilidades y Estadística

Resumos de Probabilidades e Estatı́stica João Brazuna 2. Noções Básicas de Probabilidade 2.1. Axiomática de Kolmogorov 2.3. Probabilidade Condicionada Sendo F uma σ-álgebra de Ω, define-se medida de probabilidade como P (A ∩ B) P (A|B) = P : F → [0, 1] tal que: P (B) 1. P (A) ≥ 0, ∀A ∈ F; denota a probabilidade de A ocorrer, sabendo que B ocorreu. Garantese assim que 2. P (Ω) = 1; P (A ∩ A) P (A) P (A|A) = = = 1. 3. Se A ∩ B = ∅ então P (A ∪ B) = P (A) + P (B). P (A) P (A) 2.2. Propriedades 2.4. • P (A) = 1 − P (A) Independência Estocástica Os acontecimentos A e B dizem-se independentes se e só se • P (∅) = 0 P (A ∩ B) = P (A)P (B) • 0 ≤ P (A) ≤ 1, ∀A ∈ F o que se denota por A ⊥ ⊥ B e é equivalente a • P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • P (A ∪ B) = P (A ∩ B) P (A|B) = P (A). • P (A ∩ B) = P (A ∪ B) • Se A ⊆ B então P (A) ≤ P (B) 2.5. Lei das Probabilidades Totais 2.5.1. 2.6. Lei das Probabilidades Compostas 2.6.1. Caso Simples P (A ∩ B) = P (A)P (B|A) P (A) = P (A ∩ B) + P (A ∩ B) = P (A ∩ B ∩ C) = P (A)P (B|A)P (C|A ∩ B) = P (A|B)P (B) + P (A|B)P (B) 2.5.2. Desenvolvendo as fórmulas da probabilidade condicionada, os denominadores cortam. Caso Geral Se {Bi }n i=1 for uma partição de Ω, isto é, n [ Bi = Ω e i=1 Bi ∩ Bj = ∅, ∀i 6= j então P (A) = n X i=1 Casos Simples 2.6.2. P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ · · · ∩ An−1 ) 2.7. P (A|Bi )P (Bi ) . Caso Geral Teorema de Bayes Consiste na dupla aplicação da fórmula da probabilidade condicionada, permitindo obter P (A|B) a partir de P (B|A). P (A|B) = P (B|A)P (A) P (B) 3. Variáveis Aleatórias e Distribuições Discretas 3.1. Função (Massa) de Probabilidade 3.2. Função de Distribuição fX (x) = P (X = x) FX (x) = P (X ≤ x) = x X P (X = k) k=−∞ 3.3. 3.4. Valor Esperado +∞ X E(X) = V ar(X) = E X 2 − E 2 (X) x P (X = x) x=−∞ • E[g(X)] = P+∞ x=−∞ Variância • V ar(aX) = a2 V ar(X), ∀a ∈ R; g(x)P (X = x) +∞ X • E X2 = x2 P (X = x) x=−∞ • V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ); • Se X ⊥ ⊥ Y então V ar(X + Y ) = V ar(X) + V ar(Y ). 3.5. Moda e Quantis • E(aX) = aE(x), ∀a ∈ R; mo = arg max P (X = x) x • E(X + Y ) = E(X) + E(Y ); ( • Se X ⊥ ⊥ Y então E(XY ) = E(X)E(Y ). 3.6. Distribuição Uniforme Discreta Todos os casos possı́veis têm igual probabilidade. ( 1 , se x ∈ {1, ..., n} X ∼ U nif ({1, ..., n}) ⇔ P (X = x) = n 0, caso contrário E(X) = 3.8. n2 − 1 n+1 e V ar(x) = 2 12 Distribuição Binomial χp : 3.7. P (X ≤ χp ) ≥ p P (X ≥ χp ) ≥ 1 − p ( me = χ 1 : 2 P (X ≤ me) ≥ P (X ≥ me) ≥ 1 2 1 2 Distribuição de Bernoulli Há apenas dois casos possı́veis: sucesso (1) ou    p, X ∼ Bern(p) ⇔ P (X = x) = 1 − p,   0, insucesso (0). se x = 1 se x = 0 caso contrário E(X) = p e V ar(X) = p(1 − p) 3.9. Distribuição Geométrica 1. Há n repetições de uma prova de Bernoulli; 1. Há repetições de uma prova de Bernoulli; 2. A probabilidade de sucesso em cada prova é constante igual a p (extracções com reposição); 3. As provas são independentes umas das outras. 2. A probabilidade de sucesso em cada prova é constante igual a p; 3. As provas são independentes umas das outras. A variável aleatória X que conta o número de provas de Bernoulli reaA variável aleatória X que conta o número de sucessos obtidos lizadas até se obter o 1o sucesso é tal que nas n repetições de uma prova de Bernoulli é tal que ( p(1 − p)x−1 , se x ∈ N ( X ∼ Geom(p) ⇔ P (X = x) = . n x n−x p (1 − p) , se x ∈ {0, 1, ..., n} 0, caso contrário x X ∼ Bin(n, p) ⇔ P (X = x) = . 0, caso contrário (1 − p) 1 E(X) = e V ar(X) = E(X) = np e V ar(X) = np(1 − p) p p2 3.10. Distribuição Hipergeométrica 3.11. Distribuição de Poisson 1. São realizadas n provas de Bernoulli num universo com N ele- Modela eventos de chegada de serviços (como autocarros a uma paragem, cliques num anúncio na Internet,...) a uma taxa constante λ mentos, N dos quais são sucessos; durante um determinado intervalo de tempo. 2. A probabilidade de sucesso em cada prova não é constante (ex( −λ x tracções sem reposição); e λ , se x ∈ N0 x! X ∼ P oi(λ) ⇔ P (X = x) = 3. As provas não são independentes umas das outras. 0, caso contrário A variável aleatória X que conta o número de sucessos obtidos nas n provas de Bernoulli é tal que X ∼ Hipergeom(N, M, n) ⇔  M N −M   ( x )( n−x ) , N (n) P (X = x) =  0, Caso o perı́odo de tempo mude, a taxa λ também deve ser alterada na mesma proporção (se numa hora se espera 3 clientes, em duas horas esperam-se 6). Pode ser útil considerar a famı́lia de variáveis aleatórias se x ∈ max {0, n − N + M } , ..., min {n, M } caso contrário M M N −M N −n e V ar(X) = n N N N N −1 Se n << 0.1N , podemos aproximá-la pela distribuição binomial. A probabilidade de sucesso p é então a razão entre o número de sucessos e a dimensão do universo. M a X ∼ Bin n, p = N E(X) = n E(X) = V ar(X) = λ . X(t) ∼ P oi(λt). 4. Variáveis Aleatórias e Distribuições Contı́nuas 4.1. 4.3. Função (Massa) de Probabilidade Função de Distribuição P (X = x) = 0, ∀x ∈ R 4.2. FX (x) = P (X ≤ x) = fX (t) dt Função Densidade de Probabilidade −∞ 4.4. 0 fX (x) = FX (x) Z +∞ satisfazendo fX (x) ≥ 0, ∀x ∈ R e fX (x) = 1. Valor Esperado Z 1 , b−a 0, R +∞ • E[g(X)] = −∞ g(x)fX (x) dx R +∞ • E X 2 = −∞ x2 fX (x) dx 4.6. Distribuição Uniforme Contı́nua X ∼ U nif ([a, b]) ⇔ fX (x) = Distribuição Exponencial Modela tempos de vida ou de espera. se x ∈ [a, b] caso contrário ( λ e−λx , X ∼ Exp(λ) ⇔ fX (x) = 0, 2 E(X) = x fX (x) dx −∞ fX (x) dá um valor aproximado da probabilidade de ocorrência de valores próximos de x. ( +∞ E(X) = −∞ 4.5. x Z (b − a) a+b e V ar(x) = 2 12 se x ≥ 0 se x < 0 1 1 e V ar(X) = 2 λ λ Se N ∼ P oi(λ) der o número de ocorrências num determinado intervalo de tempo então X ∼ Exp(λ) dá o tempo de espera entre duas ocorrências consecutivas. E(X) = 4.7. Distribuição Normal (x−µ)2 1 − X ∼ N µ, σ 2 ⇔ fX (x) = √ e 2σ2 2 2πσ E(X) = µ e V ar(X) = σ 2 z2 X −µ 1 Z= ∼ N (0, 1), ϕ(z) = fZ (z) = √ e− 2 , Φ(z) = FZ (z) σ 2π 5. Distribuições Conjuntas de Probabilidades e Complementos 5.1. Vectores Aleatórios Discretos 5.1.1. Função de Probabilidade Conjunta 5.1.2. f(X,Y ) (x, y) = P (X = x, Y = y) Função de Distribuição Conjunta F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y) = y X x X P (X = i, Y = j) i=−∞ j=−∞ 5.1.3. Funções de Probabilidade Marginais 5.1.4. Obtêm-se somando na variável irrelevante. P (X = x) = +∞ X Esperança, Independência e Correlação E(XY ) = +∞ X +∞ X xy P (X = x, Y = y) x=−∞ y=−∞ P (X = x, Y = y) X⊥ ⊥ Y ⇔ P (X = x, Y = y) = P (X = x)P (Y = y), ∀(x, y) ∈ R2 y=−∞ Cov(X, Y ) = E(XY ) − E(X)E(Y ) P (Y = y) = +∞ X Cov(aX, bY ) = ab Cov(X, Y ) P (X = x, Y = y) Cov(X, X) = V ar(X) x=−∞ Tendo as funções de probabilidade marginais, as funções de distribuição marginais obtém-se somando como no caso univariado. Cov(X, Y ) ∈ [−1, 1] Corr(X, Y ) = p V ar(X)V ar(Y ) X⊥ ⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥ ⊥Y 5.1.5. Funções de Probabilidade Marginais • Função de Probabilidade Marginal de X condicional a Y = y: P (X = x|Y = y) = P (X = x, Y = y) P (Y = y) 5.1.6. Funções de Distribuição Marginais Condicionais • Função de Distribuição Marginal de X condicional a Y = y: P (X ≤ x|Y = y) = x X P (X = i|Y = y) i=−∞ • Função de Probabilidade Marginal de Y condicional a X = x: P (X = x, Y = y) P (Y = y|X = x) = P (X = x) • Função de Distribuição Marginal de Y condicional a X = x: P (Y ≤ y|X = x) = x X P (Y = j|X = x) j=−∞ 5.1.7. Valor Esperado e Variância Condicionais E(X|Y = y) = +∞ X x P (X = x|Y = y) V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y) y P (Y = y|X = x) V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x) x=−∞ E(Y |X = x) = +∞ X y=−∞ E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y . 5.2. Vectores Aleatórios Contı́nuos 5.2.1. Função Densidade de Probabilidade Conjunta 5.2.2. Função de Distribuição Conjunta Z f(X,Y ) (x, y) x f(X,Y ) (u, v) du dv −∞ 5.2.3. Funções Densidade de Probabilidade Marginais 5.2.4. Z +∞ +∞ Z E(XY ) = xy f(X,Y ) (x, y) dx dy −∞ −∞ X⊥ ⊥ Y ⇔ f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 −∞ +∞ fY (y) = −∞ Esperança, Independência e Correlação Obtêm-se integrando na variável irrelevante. Z +∞ fX (x) = f(X,Y ) (x, y) dy Z y Z F(X,Y ) (x, y) = Cov(X, Y ) = E(XY ) − E(X)E(Y ) f(X,Y ) (x, y) dx Cov(aX, bY ) = ab Cov(X, Y ) −∞ Tendo as funções densidade de probabilidade marginais, as funções de distribuição marginais obtém-se integrando como no caso univariado. Cov(X, X) = V ar(X) Cov(X, Y ) Corr(X, Y ) = p ∈ [−1, 1] V ar(X)V ar(Y ) X⊥ ⊥ Y ⇒ Cov(X, Y ) = 0, mas Cov(X, Y ) = 0 6⇒ X ⊥ ⊥Y 2 2 X ∼ N µ1 , σ 1 ⊥ ⊥Y ∼ N µ2 , σ2 ⇔ X ⊥ ⊥Y 5.2.5. Funções Densidade de Probabilidade Marginais 5.2.6. Funções de Distribuição Marginais Condicionais • Função Densidade de Probabilidade Marginal de X condicional a Y = y: f(X,Y ) (x, y) fX|Y =y (x) = fY (y) • Função de Distribuição Marginal de X condicional a Y = y: Z x FX|Y =y (x) = fX|Y =y (u) du • Função Densidade de Probabilidade Marginal de Y condicional a X = x: f(X,Y ) (x, y) fY |X=x (y) = fX (x) • Função de Distribuição Marginal de Y condicional a X = x: Z y FY |X=x (y) = fY |X=x (v) dv 5.2.7. −∞ −∞ Valor Esperado e Variância Condicionais V ar(X|Y = y) = E X 2 |Y = y − E 2 (X|Y = y) V ar(Y |X = x) = E Y 2 |X = x − E 2 (Y |X = x) +∞ Z E(X|Y = y) = x fX|Y =y (x) dx −∞ +∞ Z E(Y |X = x) = y fY |X=x (y) dy −∞ 5.3. E(X|Y ) é uma nova variável aleatória com o mesmo suporte de Y . Desigualdade de Chebyshev Seja X uma variável aleatória, com E(X) = µ e V ar(X) = σ 2 . Então, P (|X − µ| ≥ cσ) ≤ 5.4. 5.4.1. Teorema do Limite Central Para Somas de Variáveis Aleatórias Seja Sn = n X Xi . Se: 5.4.2. Para Médias de Variáveis Aleatórias Seja X = i=1 1. X1 , ..., Xn forem variáveis aleatórias independentes e 2. identicamente distribuı́das (i.i.d.) a X;   n n X X E(Sn ) = E  Xi  = E(Xi ) = nE(X) < +∞; i=1  3. V ar(Sn ) = V ar  n X  Xi  1. = indep. n X i=1 identicamente distribuı́das (i.i.d.) a X;     n n n X X 1 1 1X E(X) = E  Xi  = E  Xi  = E(Xi ) = i.d. n i=1 n n i=1 i=1 = V ar(Xi ) = nV ar(X) < +∞, i.d. 1 × nE(X) = E(X) < +∞ n     n n X X 1 1 V ar(X) = V ar  Xi  = 2 V ar  Xi  = indep. n i=1 n i=1 3. Sn − E(Sn ) a p ∼ N (0, 1). V ar(Sn ) n 1X Xi . Se: n i=1 X1 , ..., Xn forem variáveis aleatórias independentes e 2. i.d. i=1 i=1 então 1 . c2 = n V ar(X) 1 X 1 V ar(Xi ) = 2 × nV ar(X) = < +∞ i.d. n n2 i=1 n então X − E(X) a q ∼ N (0, 1). V ar(X) 6. Estimação Pontual Uma amostra aleatória de X é um conjunto de variáveis aleatórias independentes e identicamente distribuı́das (i.i.d.) a X. Uma estatı́stica é uma qualquer função da amostra aleatória. Um estimador é uma função da amostra aleatória que toma valores no mesmo espaço paramétrico (por exemplo, um estimador da variância deve ter suporte em R+ 0 ). 6.1. Erro Quadrático Médio e Eficiência 6.2. Comparação da Eficiência de Estimadores Seja T um estimador do parâmetro θ. O seu erro quadrático médio é Sejam T1 e T2 estimadores de θ. A eficiência relativa de T1 com respeito a T2 na estimação de θ é h i EQMθ (T ) = E (T − θ)2 = V ar(T ) + [ E(T ) − θ ]2 | {z } EQMθ (T2 ) eθ (T1 , T2 ) = . enviesamento EQMθ (T1 ) Um estimador é mais eficiente se o seu erro quadrático médio for menor. Se o enviesamento for nulo, isto é, se E(T ) = θ, o estimador diz-se Se eθ (T1 , T2 ) > 1 então o numerador é maior, logo T1 é mais eficiente que T2 . centrado. Se eθ (T1 , T2 ) < 1 então o denominador é maior, logo T2 é mais eficiente que T1 . 6.3. Estimação por Máxima Verosimilhança Seja X = (X1 , ..., Xn ) amostra aleatória de X, x = (x1 , ..., xn ) respectiva amostra observada e θ um parâmetro. 6.3.1. Cálculo da Estimativa de Máxima Verosimilhança 6.3.2. Para se encontrar a estimativa de máxima verosimilhança de θ basta percorrer os seguintes passos: 1. Função de Verosimilhança: L(θ|x) = f(X1 ,...,Xn ) (x1 , ..., xn |θ) = n Y i.i.d. • Invariância: Se θ̂ for o estimador de máxima verosimilhança de θ então g(θ̂) é o estimador de máxima verosimilhança de g(θ). fX (xi |θ) d = g(θ̂) g(θ) i=1 Ou seja, se X for o estimador de máxima verosimilhança de µ então o estimador de máxima verosimilhança de µ2 será X. 2. Função de Log-verosimilhança: log L(θ|x) = log n Y i=1 fX (xi |θ) = Propriedades dos Estimadores de Máxima Verosimilhança n X • Suficiência; log fX (xi |θ) • Consistência. i=1 3. Maximização: 6.4. Distribuições Amostrais (a) Derivar a função de log-verosimilhança em ordem a θ e en- Se X1 , ..., Xn ∼ X então i.i.d. contrar o seu zero θ̂: θ̂ = arg max log L(θ|x), ou seja, é solução de θ ∂ log L(θ|x) =0 ∂θ (b) Confirmar, que o valor encontrado é um máximo, isto é, verificar que a segunda derivada avaliada no ponto encontrado é negativa: ∂ 2 log L(θ|x) <0 ∂θ2 θ=θ̂ Então, θ̂ é a estimativa de máxima verosimilhança de θ. Para se obter o estimador basta escrever a amostra aleatória no lugar da amostra observada. E(X) = E(X) e V ar(X) = 1 S = n−1 2 n X i=1 V ar(X) . n n P 2 (Xi − X) = Xi2 − nX i=1 n−1 2 7. Estimação por Intervalos 7.1. Método da Variável Fulcral Para construir um intervalo de confiança para o parâmetro θ, centrado na estimativa pontual, utilizando o método da variável fulcral, basta seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo do cálculo do intervalo de confiança para o valor médio de uma 2 população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com variância conhecida σ 2 = 4 e média da amostra observada x = 7, de dimensão n = 25. Intervalo de Confiança a 1 − α para θ Intervalo de Confiança a 95% para µ 1. Variável Fulcral: Encontrar uma variável fulcral T , isto é, uma variável que: 1. Variável Fulcral: X −µ Z= p ∼ N (0, 1) σ 2 /n • Dependa do parâmetro desconhecido a estimar; • Tenha distribuição conhecida; • Não dependa de mais parâmetros desconhecidos. 2. Quantis: 2. Quantis: ( fT (t) Sendo 1 − α o nı́vel de confiança do intervalo, procuramos dois valores a e b tais que ( ⇔ P (a < T < b) = 1 − α 1−α α 2 α 2 A escolha mais frequente consiste em centrar este intervalo, resolvendo o sistema: t 0 −b b ( α a : FT (a) = 2 ⇔ Distribuições Normal ou t-Student b : FT (b) = 1 − α2 f (t) ( a = FT−1 α2 ⇔ b = FT−1 1 − α2 ( ⇔ ϕ(z) a : Φ(a) = 0.05 2 b : Φ(b) = 1 − 0.05 2 a = −b b = Φ−1 (0.975) ⇔ ⇔ a = −1.96 b ' 1.96 1−α α 2 −b 0 T α 2 Caso a distribuição seja simétrica (normal ou t-Student, por exemplo), basta calcular b e, nesse caso, a = −b. α 2 1−α 0 a b t Distribuição do Qui-Quadrado 3. Intervalo de Confiança Aleatório: Encontrados os valores de a e b tais que P (a < T < b) = 1 − α, queremos inverter a desigualdade a<T <b de modo a que o parâmetro a estimar fique no centro, encontrando assim o intervalo de confiança aleatório ICA1−α (θ). 4. Intervalo de Confiança: Substituindo, no intervalo de confiança aleatório, a amostra aleatória pela amostra observada, encontra-se o intervalo de confiança IC1−α (θ). 3. Intervalo de Confiança Aleatório: X −µ a < Z < b ⇔ −1.96 < p < 1.96 ⇔ σ 2 /n r r σ2 σ2 ⇔ − 1.96 < X − µ < 1.96 ⇔ n n r r σ2 σ2 ⇔ − X − 1.96 < −µ < −X + 1.96 ⇔ n n r r σ2 σ2 ⇔X − 1.96 < µ < X + 1.96 ⇔ n n " r r # σ2 σ2 ⇔ICA95% (µ) = X − 1.96 , X + 1.96 n n 4. Intervalo de Confiança: " r r # σ2 σ2 IC95% (µ) = x − 1.96 , x + 1.96 = n n " r r # 4 4 = 7 − 1.96 , 7 + 1.96 = 25 25 = [−6.216, 7.784] 7.2. Nı́veis de Confiança Usuais 90%, 95% e 99%. α 2 b z 7.3. 7.3.1. Lista de Variáveis Fulcrais Intervalos de Confiança para a Média de uma Po- 7.3.3. pulação • População Normal: Intervalos de Confiança para a Diferença de Médias de duas Populações • Populações Normais Independentes: – com variância conhecida: – com variâncias conhecidas: X −µ √ ∼ N (0, 1) σ/ n (X1 − X2 ) − (µ1 − µ2 ) q 2 ∼ N (0, 1) 2 σ1 σ2 + n1 n2 – com variância desconhecida: – com variâncias desconhecidas mas iguais: X −µ √ ∼ t(n−1) S/ n r • População Qualquer (eventualmente até normal), com amostra suficientemente grande (n >> 30): – com variância conhecida: X −µ a √ ∼ N (0, 1) σ/ n (X1 − X2 ) − (µ1 − µ2 ) 1 + n1 2 +(n −1)S 2 (n1 −1)S1 2 2 n1 +n2 −2 1 n2 ∼ t(n1 +n2 −2) • Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e n2 >> 30): – com variâncias conhecidas: (X1 − X2 ) − (µ1 − µ2 ) a q 2 ∼ N (0, 1) 2 σ1 σ2 + n1 n2 – com variância desconhecida: X −µ a √ ∼ N (0, 1) S/ n – com variâncias desconhecidas: 7.3.2. Intervalos de Confiança para a Variância de uma População Normal (n − 1)S 2 a 2 ∼ χ(n−1) σ2 (X1 − X2 ) − (µ1 − µ2 ) a q 2 ∼ N (0, 1) 2 S1 S2 + n1 n2 7.3.4. Intervalos de Confiança para Proporções (Populações de Bernoulli) X −p q X(1−X) n a ∼ N (0, 1) 8. Testes de Hipóteses 8.1. Construção Para construir um teste de hipóteses o parâmetro θ, basta seguir o modelo abaixo, à esquerda. À direita, ilustramos com um exemplo de um 2 teste de hipóteses bilateral para o valor médio de uma população normal, isto é, com X1 , ..., Xn amostra aleatória de X ∼ N µ, σ , com variância conhecida σ 2 = 4 e média da amostra observada x = 7, de dimensão n = 25. Teste de Hipóteses ao Nı́vel de Significância α para θ Teste de Hipóteses Bilateral ao Nı́vel de Significância 5% para µ 1. Hipóteses: 1. Hipóteses:   H0 : µ = 6 vs. H1 : µ 6= 6 θ < θ0 (unilateral à esquerda)  H0 : θ = θ0 vs. H1 : θ 6= θ0 (bilateral)   θ > θ0 (unilateral à direita) 2. Estatı́stica de Teste: X −µ √ ∼ N (0, 1) é variável fulcral para µ, logo Z= σ/ n 2. Estatı́stica de Teste: Tal como nos intervalos de confiança, procuramos uma variável fulcral T para θ. Ao substituirmos θ por θ0 (valor que pretendemos testar), obtemos a estatı́stica de teste T0 , da qual devemos calcular o seu valor observado t0 e cuja distribuição só é conhecida sob a validade de H0 . Z0 = X −6 √ σ/ n ∼ sob H0 N (0, 1) é estatı́stica de teste, com valor observado x−6 7−6 √ = √ = 2.5 σ/ n 2/ 25 3. Região Crı́tica ou Valor-p: z0 = 3. Região Crı́tica ou Valor-p: (a) Região Crı́tica: fT (t) fT (t) 1−α α a 1−α α 2 t 0 fT (t) −b Unilateral à Esquerda 1−α α 2 0 t b 0 Bilateral fT (t) α t b Unilateral à Direita fT (t) fT (t) (a) Região Crı́tica: ( a : Φ(a) = 0.05 2 ⇔ b : Φ(b) = 1 − 0.05 2 ( a = −b ⇔ ⇔ b = Φ−1 (0.975) ( a = −1.96 ⇔ b ' 1.96 ϕ(z) 1−α α 2 −b 0 α 2 b z α 2 α RC5% =] − ∞, −1.96[∪]1.96, +∞[ α 2 1−α 0 t a (b) Valor-p: α 1−α 1−α p = P (Z0 ≥ 2.5) = 1−P (Z0 < 2.5) = 1−Φ(2.5) ' 0.0062 0 Unilateral à Esquerda a b Bilateral t 0 b t Unilateral à Direita De forma semelhante ao cálculo dos quantis, queremos: ( a : FT (a) = α2 a : FT (a) = α , , b : FT (b) = 1 − α {z } {z } | | b : FT (b) = 1 − α2 Unilateral à Esquerda | {z } Unilateral à Direita Bilateral RCα =] − ∞, a[ , RCα =] − ∞, a[∪]b, +∞[, RCα =]b, +∞[ | {z } | {z } | {z } Unilateral à Esquerda Bilateral Unilateral à Direita (b) Valor-p: O valor-p de um teste é o menor nı́vel de significância para o qual se rejeita a hipótese nula. p = P (T ≤ −|t0 |), p = 2P (T ≥ |t0 |), p = P (T ≥ |t0 |) | {z } | {z } | {z } Unilateral à Esquerda Bilateral Unilateral à Direita 4. Decisão: ((a) Com base na Região Crı́tica: Se t0 ∈ RCα devemos rejeitar H0 ao nı́vel de significância α Se t0 ∈ / RCα não devemos rejeitar H0 ao nı́vel de significância α (b) ( Com base no Valor-p: Devemos rejeitar H0 aos nı́veis de significância α ≥ p Não devemos rejeitar H0 aos nı́veis de significância α < p 4. Decisão: (a) Com base na Região Crı́tica: Como z0 = 2.5 ∈ RC5% , devemos rejeitar H0 ao nı́vel de significância α = 5%. (b) Com base no Valor-p: Devemos rejeitar H0 a todos os nı́veis de significância α ≥ 0.62% (o que inclui todos os usuais) e não rejeitar para α < 0.62%. 8.2. Nı́vel de Significância (Hipótese Simples) 8.3. α = P (rejeitar H0 |H0 é verdadeira) 8.4. Nı́veis de Significância Usuais 1%, 5% e 10%. Relação entre Intervalos de Confiança e Testes de Hipóteses Bilaterais Testar H0 : θ = θ0 vs. H1 : θ 6= θ0 ao nı́vel de significância α é equivalente a verificar se θ0 ∈ IC1−α (θ). 8.5. Lista de Estatı́sticas de Teste 8.5.1. Teste à Média de uma População • População Normal: 8.5.3. Teste à Diferença de Médias de duas Populações • Populações Normais Independentes: – com variância conhecida: X − µ0 √ σ/ n – com variâncias conhecidas: ∼ sob H0 (X1 − X2 ) − (µ0 ) q 2 σ1 σ2 + n22 n1 N (0, 1) – com variância desconhecida: X − µ0 √ S/ n ∼ sob H0 t(n−1) • População Qualquer (eventualmente até normal), com amostra suficientemente grande (n >> 30): – com variância conhecida: a ∼ sob H0 N (0, 1) a ∼ sob H0 (X1 − X2 ) − (µ0 ) 2 +(n −1)S 2 (n1 −1)S1 2 2 n1 +n2 −2 ∼ 1 n1 + 1 n2 sob H0 t(n1 +n2 −2) • Populações Independentes Quaisquer (eventualmente até normais), com amostras suficientemente grandes (n1 >> 30 e n2 >> 30): – com variâncias conhecidas: (X1 − X2 ) − (µ0 ) q 2 σ2 σ1 + n22 n1 – com variância desconhecida: X − µ0 √ S/ n N (0, 1) – com variâncias desconhecidas mas iguais: r X − µ0 √ σ/ n ∼ sob H0 N (0, 1) a ∼ sob H0 N (0, 1) – com variâncias desconhecidas: 8.5.2. Teste à Variância de uma População Normal (n − 1)S 2 σ02 a ∼ sob H0 (X1 − X2 ) − (µ0 ) q 2 S2 S1 + n22 n1 χ2(n−1) 8.5.4. N (0, 1) Intervalos de Confiança para Proporções (Populações de Bernoulli) X − p0 q a ∼ p0 (1−p0 ) sob H0 n 8.5.5. a ∼ sob H0 N (0, 1) Teste de Ajustamento do Qui-Quadrado k X (Oi − Ei )2 Ei i=1 a ∼ sob H0 χ2(k−β−1) Para o cálculo do valor observado da estatı́stica de teste, basta preencher-se a tabela abaixo: i Classe i oi p0i = P (Pertencer à classe i|H0 ) e0i = n p0i .. .. .. .. .. . . . . . n É necessário que e0i > 5 em pelo menos 80% das classes. Caso contrário, as classes com menores e0i devem ser agrupadas. 8.5.6. Teste de Independência do Qui-Quadrado r X s X (Oij − Eij )2 Eij i=1 j=1 a ∼ sob H0 χ2(r−1)(s−1) 9. Introdução à Regressão Linear Simples 9.1. Modelo de Regressão Linear Simples 9.2. Parâmetros de Regressão e Interpretação Seja Y uma variável aleatória, relacionada por um modelo de regressão O modelo de regressão linear simples tem 3 parâmetros: linear simples com a variável determinı́stica x. Consideremos uma • β1 : o declive da recta de regressão (ou coeficiente angular), amostra com n observações. indicando quantas unidades Y aumenta ou diminui quando x aumenta uma unidade; Yi = β0 + β1 xi + i , , ∀i ∈ {1, ..., n} • β0 : a ordenada na origem da recta de regressão, indicando o Suponhamos que: valor de Y quando x = 0 (só tem significado se 0 ∈ [ min xi , max xi ] para que não existam erros de extra• E(i ) = 0, ∀i ∈ {1, ..., n}; {1,...,n} • V ar(i ) = σ 2 , ∀i ∈ {1, ..., n} (variância constante, mas de valor desconhecido); • Corr(i , j ) = 0 , ∀i 6= j. Sejam β̂0 e β̂1 as estimativas de mı́nimos quadrados de β0 e β1 , respectivamente. n P β̂1 = • σ 2 : variância dos erros do modelo de regressão. 9.3. Coeficiente de Determinação n P , n P β̂0 = y − β̂1 x x2i − nx2 !2 xi yi − nx y i=1 r2 = xi yi − nx y i=1 n P {1,...,n} polação): ! x2i − nx 2 × ! ∈ [0, 1] yi2 − ny 2 i=1 i=1 i=1 n P avalia a qualidade do ajuste do modelo de regressão linear aos dados (quanto mais próximo de 1, melhor será o ajuste). Então, a resposta esperada é E(Yi |xi ) = E(β0 + β1 xi + i ) = β0 + β1 xi , ∀i ∈ {1, ..., n} portanto \ ŷ = E(Y i |x) = β̂0 + β̂1 x é a estimativa de mı́nimos quadrados da recta de regressão, para x ∈ min xi , max xi . {1,...,n} 9.4. {1,...,n} 9.4.1. Inferências Na necessidade de fazer inferências, supõe-se adicionalmente que i ∼ N 0, σ 2 i.i.d. Inferências sobre β1 Para construir intervalos de confiança ou para testar o valor de β1 (declive da recta de regressão ou coeficiente angular), utiliza-se a variável fulcral β̂1 − β1 s ∼ t(n−2) . σ̂ 2 situação em que as estimativas de mı́nimos quadrados coincidem com n P 2 2 −nx2 x as de máxima verosimilhança. A de σ é i i=1 ! 2 P n n Testar a significância do modelo consiste em testar P yi2 − ny 2 − β̂1 x2i − nx2 i=1 i=1 H0 : β1 = 0 vs. H1 : β1 6= 0. σ̂ 2 = . n−2 Se β1 = 0 não há significância de regressão (valor de y é o mesmo, qualquer que seja x). 9.4.2. 9.4.3. Inferências sobre β0 Para construir intervalos de confiança ou para testar o valor de β0 (ordenada na origem da recta de regressão), utiliza-se a variável fulcral β̂0 − β0 v u u u 1 x2 t n+ P n i=1 2 x2 i −nx ∼ t(n−2) .   σ̂ 2 Inferências sobre um Valor Ajustado Para construir intervalos de confiança ou para testar o valor ajustado ŷ quando x = x0 , utiliza-se a variável fulcral (β̂0 + β̂1 x0 ) − (β0 + β1 x0 ) v ∼ t(n−2) .  u u 2 u 1 (x−x0 )  σ̂ 2 t n+ P n i=1 2 x2 i −nx

Resumen de Probabilidades y Estadística

Related documents

Products

Support

Resumen de Probabilidades y Estadística

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib