Introducción a la Inferencia Estadı́stica Material Teórico Facultad de Ciencias Económicas y de Administración Universidad de la República ÍNDICE GENERAL 1. Resultados preliminares 1.1. Introducción . . . . . . . . 1.2. Algunas definiciones . . . 1.3. Transformaciones . . . . . 1.3.1. Variables aleatorias 1.3.2. Variables aleatorias 1.3.3. Vectores aleatorios 1.4. Familias de distribuciones 1.4.1. Distribución χ2n . . 1.4.2. Distribución tn . . 1.4.3. Distribución Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . discretas . . . . . . . . . absolutamente continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Muestreo 2.1. Introducción . . . . . . . . . . . . . . . . . . 2.2. Muestreo . . . . . . . . . . . . . . . . . . . . 2.3. Estadı́sticos y su distribución en el muestreo 2.3.1. Distribución en el muestreo . . . . . 2.4. Muestreo de poblaciones normales . . . . . . 2.5. Estadı́sticos de Orden . . . . . . . . . . . . . 2.5.1. Distribuciones marginales . . . . . . 3. Inferencia Bayesiana 3.1. Introducción . . . . . . . . . . . . . . . . . . 3.2. Distribuciones a priori y a posteriori . . . . 3.2.1. Distribución a priori . . . . . . . . . 3.2.2. Función de verosimilitud . . . . . . . 3.2.3. Distribución a posteriori . . . . . . . 3.3. Suficiencia . . . . . . . . . . . . . . . . . . . 3.3.1. Estadı́stico suficiente . . . . . . . . . 3.3.2. Cálculo de la distribución a posteriori 3.4. Selección de una distribución a priori . . . . 3.5. Métodos de Inferencia Bayesiana . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 4 6 6 8 10 . . . . . . . 13 13 14 16 17 20 23 23 . . . . . . . . . . 27 27 28 28 29 29 30 31 36 39 41 Introducción a la Inferencia Estadı́stica 3.5.1. Estimación por intervalos: Intervalos de 3.5.2. Estimación puntual . . . . . . . . . . . 3.5.3. Prueba de Hipótesis . . . . . . . . . . 3.5.4. Contraste de hipótesis . . . . . . . . . 3.6. Selección de Modelos . . . . . . . . . . . . . . 3.7. Modelos multiparámetro . . . . . . . . . . . . 4. Estimación Puntual 4.1. Introducción . . . . . . . . . . . . . . . 4.2. Métodos para construir estimadores . . 4.2.1. Método de los Momentos . . . . 4.2.2. Función de verosimilitud . . . . 4.2.3. Estimadores máximo verosimiles 4.3. Evaluación de Estimadores . . . . . . . 4.3.1. Información de Fisher . . . . . 4.3.2. Error Cuadrático Medio . . . . 4.3.3. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . credibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 45 45 47 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 52 52 54 56 62 63 69 73 . . . . . . 79 79 79 81 82 82 85 . . . . . . . . . 5. Estimación por Intervalos 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . 5.2. Intervalos de confianza . . . . . . . . . . . . . . . 5.2.1. Interpretación del coeficiente de confianza 5.3. Construcción de estimadores por intervalo . . . . 5.3.1. Cantidades pivotales . . . . . . . . . . . . 5.4. Optimalidad . . . . . . . . . . . . . . . . . . . . . 6. Contraste de Hipótesis 6.1. Introducción . . . . . . . . . . . . . . . . . . . . 6.2. Contraste de hipótesis . . . . . . . . . . . . . . 6.2.1. Hipótesis simple contra hipótesis simple . 6.2.2. Hipótesis compuestas . . . . . . . . . . . 6.2.3. No existencia del la RC UMP . . . . . . 6.3. Contraste de razón de verosimilitudes . . . . . . 6.4. Valor p . . . . . . . . . . . . . . . . . . . . . . . 6.5. Construcción de estimadores por intervalo . . . 6.5.1. Inversión de una RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 89 90 94 99 104 105 113 117 117 7. Inferencia en muestras grandes 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . 7.3. Convergencia en media cuadrática . . . . . . . . . . . . . . . . . . 7.4. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . 7.5. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . 7.5.1. El método delta . . . . . . . . . . . . . . . . . . . . . . . . 7.6. Contrastes e intervalos de confianza asintóticos basados en el TLC 7.6.1. Valor esperado de una v.a. . . . . . . . . . . . . . . . . . . 7.7. Constrastes basados en la función de verosimilitud . . . . . . . . . 7.7.1. Contraste de Wilks . . . . . . . . . . . . . . . . . . . . . . 7.7.2. Contraste de Wald . . . . . . . . . . . . . . . . . . . . . . 7.7.3. Contraste de Rao o de los multiplicadores de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 121 122 126 127 131 132 133 133 134 134 136 137 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción a la Inferencia Estadı́stica 7.8. Contrastes de independencia y bondad de ajuste . . . . . . . . . . . . . . . . . . . 140 7.8.1. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . 140 7.8.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8. Muestreo de Poblaciones Finitas 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Probabilidades de inclusión . . . . . . . . . . . . . . . . . . . 8.3. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . 8.3.1. Estimación del total poblacional . . . . . . . . . . . . . 8.3.2. Estimación de la media poblacional . . . . . . . . . . . 8.3.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . 8.4. Aplicación a algunos diseños de muestreo directo de elementos 8.4.1. Diseño Simple . . . . . . . . . . . . . . . . . . . . . . . 8.4.2. Diseño Estratificado . . . . . . . . . . . . . . . . . . . 8.4.3. Diseño Bernoulli . . . . . . . . . . . . . . . . . . . . . 8.4.4. Diseño Sistemático . . . . . . . . . . . . . . . . . . . . 8.5. Comentarios sobre diseños de muestreo indirecto de elementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 145 146 148 148 149 150 150 150 152 155 156 158 A. Modelos de probabilidad A.1. Modelos Univariados Discretos . . . . . . . . . . . Uniforme Discreta . . . . . . . . . . . . . . . . . Bernoulli . . . . . . . . . . . . . . . . . . . . . . Binomial . . . . . . . . . . . . . . . . . . . . . . . Geométrica . . . . . . . . . . . . . . . . . . . . . Binomial Negativa . . . . . . . . . . . . . . . . . Hipergeométrica . . . . . . . . . . . . . . . . . . Poisson . . . . . . . . . . . . . . . . . . . . . . . A.2. Modelos Univariados Absolutamente Continuos . Uniforme . . . . . . . . . . . . . . . . . . . . . . Triangular . . . . . . . . . . . . . . . . . . . . . . Exponencial . . . . . . . . . . . . . . . . . . . . . Doble Exponencial . . . . . . . . . . . . . . . . . Gamma . . . . . . . . . . . . . . . . . . . . . . . Logı́stica . . . . . . . . . . . . . . . . . . . . . . . Beta . . . . . . . . . . . . . . . . . . . . . . . . . Cauchy . . . . . . . . . . . . . . . . . . . . . . . Normal . . . . . . . . . . . . . . . . . . . . . . . Lognormal . . . . . . . . . . . . . . . . . . . . . . t de Student . . . . . . . . . . . . . . . . . . . . . F de Snedecor . . . . . . . . . . . . . . . . . . . Weibull . . . . . . . . . . . . . . . . . . . . . . . Pareto . . . . . . . . . . . . . . . . . . . . . . . . A.3. Modelos Multivariados Discretos . . . . . . . . . . Multinomial . . . . . . . . . . . . . . . . . . . . . Multihipergeométrica . . . . . . . . . . . . . . . . A.4. Modelos Multivariados Absolutamente Continuos Normal Multivariada . . . . . . . . . . . . . . . . A.5. Relaciones entre distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 161 161 162 162 162 162 163 164 164 164 164 165 165 166 166 166 167 168 168 168 169 169 170 170 170 171 171 172 173 B. Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 C. Tablas de contrastes de hipótesis 183 D. Intervalos de Confianza 185 D.1. Intervalos de Confianza 100(1 − α) % . . . . . . . . . . . . . . . . . . . . . . . . . 185 E. Estadı́sticos de orden 187 E.1. Resultados Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 E.2. Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 E.3. Funciones de los estadı́sticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . 191 F. Colecciones de familias F.1. Familia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F.1.1. Forma canónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F.2. Familias de posición y escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 193 195 197 Introducción a la Inferencia Estadı́stica 2 - Resultados preliminares CAPÍTULO 1 RESULTADOS PRELIMINARES 1.1. Introducción El propósito de este capı́tulo introductorio es establecer ciertas notaciones y terminologı́as que usaremos a lo largo de las notas y presentar diversos resultados que serán necesarios más tarde. El estilo de este capı́tulo es deliberadamente esquemático, dado que está concebido más como una referencia que como una exposición sistemática. 1.2. Algunas definiciones Definición 1.2.1. La función indicatriz del conjunto A se define como ( 1 si x ∈ A I[x∈A] = 0 si x ∈ /A Usaremos la función indicatriz para indicar dónde la función de densidad o cuantı́a es positiva o igual a 0. Por lo tanto, escribiremos a las cuantı́as o densidades de la forma fX (x) = g(x)I[x∈Rec(X)] . En el caso de que Rec(X) = R, tenemos que I[x∈R] ≡ 1 ∀x ∈ R. En este caso omitiremos la indicatriz. Ejemplo 1.2.1. Si X ∼ Exponencial(θ), de E(X)=θ, su función de densidad puede ser escrita de la forma 1 e− xθ si x > 0 1 x o de la forma más sintética fX (x) = e− θ I[x>0] . fX (x) = θ 0 θ en otro caso 1 Introducción a la Inferencia Estadı́stica Definición 1.2.2. Si X es una variable aleatoria, denotaremos con xα el percentil α de la distribución de X. Esto es P(X < xα ) = α. Por ejemplo, si Z ∼ N(0, 1), z0,95 = 1, 645 dado que P(Z < 1, 645) = 0, 95. Definición 1.2.3. Dada una función de cuantı́a o densidad fX (x) se le llama núcleo de fX a la parte de la forma funcional en donde aparece la variable x. Esto es, g : R → R es el núcleo de la distribución si fX (x) = c g(x) donde c una constante. c es la constante de normalización y puede llegar a depender de los parámetros de la distribución. En muchas situaciones conocer el valor de c es innecesario. Ejemplo 1.2.2. Si X ∼ Gamma(α, β), α fX (x) = β xα−1 e−βx I[x>0] ⇒ Γ(α) c = βα Γ(α) g(x) = xα−1 e−βx I[x>0] . Por lo cual, el núcleo de la distribución Gamma es g(x) = xα−1 e−βx I[x>0] . Observación 1.2.1. Decimos que fX (x) es proporcional a su núcleo. Notación: fX (x) ∝ g(x). Observación 1.2.2. En estas notas representaremos con c cualquier función que sea constante. 1.3. 1.3.1. Transformaciones Variables aleatorias discretas Teorema 1.3.1. Sea (Ω, A, P ) un espacio de probabilidad, X una variable aleatoria discreta y g : Rec(X) → D ⊆ R una transformación medible. Entonces, Y = g(X) es también una variable aleatoria discreta con función de cuantı́a: fY (y) = X fX (x) ∀ y ∈ Rec(Y ) x∈g −1 (y) donde g −1 (y) = {x ∈ Rec(X) : g(x) = y}. 2 - Resultados preliminares Introducción a la Inferencia Estadı́stica 1.3.2. Variables aleatorias absolutamente continuas Teorema 1.3.2. Sea X una variable absolutamente continua y Y = g(X), con g medible, entonces: Y = g(X) es una variable aleatoria Z FY (y) = fX (x)dx {g(x)≤y} Teorema 1.3.3. Sea X una variable absolutamente continua y Y = g(X), con g medible y estrictamente monótona, entonces: FX (g −1 (y)) si g es creciente FY (y) = 1 − FX (g −1 (y)) si g es decreciente fY (y) = fX (g −1 (y)) ∂g −1 (y) ∂y Teorema 1.3.4. Sea X una variable absolutamente continua tal que Rec(X) ⊆ A y Y = g(X) con g : A → D ⊆ R medible. Supongamos que existe una partición de Rec(X), denotada por A1 , . . . , An donde la restricción de g en cada Ai , gi , es una función estrictamente monótona (creciente o decreciente) y su inversa gi−1 tiene derivada continua en todo el Rec(Y ) (salvo en un conjunto finito o numerable de puntos). Entonces: fY (y) = n X i=1 ∂gi−1 (y) fX gi−1 (y) ∂y ∀y ∈ R. Note que la cantidad de sumandos es variable. Por ejemplo, si existe g −1 (y) para toda i = 1, . . . , n, la suma tendrá n sumandos. Si no existe g −1 (y) para ninguna i = 1, . . . , n, la suma tendrá 0. Ejemplo 1.3.1. Sea X una v.a. con función de densidad dada por 1 2 fX (x) = √ e−x /2 2π x∈R Se quiere hallar la función de densidad de la v.a. Y = X 2 . En primer lugar observemos que g no es monótona en todo el recorrido de X pero si lo dividimos en R+ y R− obtenemos una partición en la que g es monótona en cada √ √ tramo. Para R+ tenemos que g1−1 (y) = y y para R− tenemos que g1−1 (y) = − y, ambas con derivada continua en sus respectivos dominios salvo en 0. Cómo a los efectos de la integración no importa lo que ocurra con una función en un punto, se impone fY (0) = 0. Entonces: ∂ √ ∂ √ √ √ y + fX (− y) − y fX ( y) ∂y ∂y fY (y) = 0 y ∈ (0, +∞) en otro caso Resultados preliminares - 3 Introducción a la Inferencia Estadı́stica ⇔ ⇔ 1.3.3. 1 −y/2 1 1 1 √ + √ e−y/2 − √ √ e 2 y 2 y 2π 2π fY (y) = 0 y ∈ (0, +∞) en otro caso 1 −y/2 1 √ y ∈ (0, +∞) √ e 1 1 y 2π , ⇒ Y ∼ Gamma fY (y) = 2 2 0 en otro caso Vectores aleatorios ~ : Ω → Rn un vector aleatorio para (Ω, A, P ). Teorema 1.3.5. Sea X Sea g : Rn → Rm una transformación medible. ~ : Ω → Rm verifica: Entonces el vector aleatorio Y~ = g ◦ X ~ . 1. Rec(Y~ ) = g Rec(X) 2. ∀B ∈ Bm PY~ (B) = PX~ g −1 (B) . 3. ∀y ∈ Rm FY~ (y) = PX~ g −1 ((−∞, y1 ] × . . . × (−∞, yn ]) . ~ : Ω → Rn un vector aleatorio discreto con función de cuantı́a f ~ . Teorema 1.3.6. Sea X X Sea g : Rn → Rm una transformación medible. ~ : Ω → Rm es un vector aleatorio m-dimensional discreto, con función de Entonces Y~ = g(X) cuantı́a X fX~ (x), ∀y ∈ Rec(Y~ ) fY~ (y) = x∈g −1 (y) donde g −1 (y) = {x ∈ Rn : g(x) = y}. ~ : Ω → Rn un vector aleatorio absolutamente continuo con función de Teorema 1.3.7. Sea X densidad fX~ . ~ : Ω → Rn . Consideremos la aplicación medible g : Rn → Rn y el vector aleatorio Y~ = g ◦ X ~ en Y~ se puede especificar mediante las siguientes ecuaciones: La transformación de X y1 = g1 (x1 , x2 , . . . , xn ) y2 = g2 (x1 , x2 , . . . , xn ) .. . yn = gn (x1 , x2 , . . . , xn ) Las funciones gi : Rn → R (i = 1, 2, . . . , n) son las componentes de g : Rn → Rn . 4 - Resultados preliminares Introducción a la Inferencia Estadı́stica Para poder calcular una expresión de la función de densidad fY~ en función de fX~ debemos suponer ciertas propiedades en la transformación g: Sea SX~ el conjunto de Rn en donde fX~ no se anula. Supondremos que SX~ es un conjunto propio (de medida positiva) de Rn . Sea SY~ = g(SX~ ). El conjunto SY~ es la imagen de SX~ por g. Supondremos que g es una aplicación biyectiva entre SX~ y SY~ , es decir, a cada punto x ∈ SX~ le corresponde un y solo un punto y ∈ SY~ y viceversa. En las condiciones anteriores existe la transformación inversa de g (que denotaremos h), que transforma al conjunto SY~ en SX~ y que especificamos del siguiente modo: x1 = h1 (y1 , y2 , . . . , yn ) x2 = h2 (y1 , y2 , . . . , yn ) .. . xn = hn (y1 , y2 , . . . , yn ) Vamos a suponer que cada derivada parcial ∂hi ∂yj i = 1, . . . , n; j = 1, . . . , n existe en todo punto y ∈ SY~ . Bajo todas estas condiciones se puede construir el llamado determinante jacobiano de la transformación inversa que viene dado por ∂h1 ∂y1 J= ∂h1 ∂y2 ... ∂h1 ∂yn ∂h2 ∂h2 ∂h2 ... ∂y1 ∂y2 ∂yn ..................... ∂hn ∂hn ∂hn ... ∂y1 ∂y2 ∂yn ∀y ∈ SY~ . Entonces, ∀y ∈ Rn fY~ (y) = fX~ h1 (y), h2 (y), . . . , hn (y) |J| si y ∈ SY~ si y 6∈ SY~ 0 Observación 1.3.1. Alternativamente, J se puede calcular como: ∂g1 ∂x1 J= ∂g1 ∂g1 ... ∂x2 ∂xn ∂g2 ∂g2 ∂g2 ... ∂x1 ∂x2 ∂xn .................... ∂gn ∂gn ∂gn ... ∂x1 ∂x2 ∂xn −1 ∀x ∈ SX~ . Resultados preliminares - 5 Introducción a la Inferencia Estadı́stica 1.4. Familias de distribuciones Una manera de simplificar cálculos y verificación de si una distribución cumple o no ciertas propiedades es tratar de encontrar un conjunto de distribuciones de probabilidad cuyos miembros compartan las mismas propiedades, están construidos de acuerdo a los mismos principios y tienen la misma estructura funcional. Diremos que este conjunto es una famila de distribuciones. La estructura común suele depender de alguna cantidad o vector real θ que es el parámetro de la familia. Una definición más formal es la siguiente. Definición 1.4.1. Una familia de distribuciones es un conjunto de funciones de distribución definidas sobre el mismo espacio probabilı́stico: F = {FX (·|θ) : θ ∈ Θ ⊂ Rk } Donde Θ es el conjunto de todos los valores posibles para θ. A este conjunto lo llamaremos el espacio paramétrico. Ejemplo 1.4.1. Algunas familias de distribuciones son: Familia Poisson(θ), Θ = R+ . Familia Binomial(n, p), θ = (n, p), Θ = N × (0, 1). Familia Normal(µ, σ 2 ), θ = (µ, σ 2 ), Θ = R × R+ . Existen ciertas familias de distribuciones relacionadas con la normal que son de gran importancia para nuestro curso. Estas son la distribución χ2n , la tn y la Fn,m que serán presentadas a continuación. 1.4.1. Distribución χ2n Definición 1.4.2. Se dice que una variable aleatoria X se distribuye chi cuadrado con n grados n 1 , , con n ∈ Z+ . de libertad, χ2n , si su distribución es la misma que una Gamma 2 2 Al ser la distribución χ2n un caso particular de la distribución Gamma, todas sus propiedades se derivan de esta última. Por ejemplo, si X ∼ χ2n n2 n2 1/2 1 1 E(X) = n, Var(X) = 2n, MX (t) = = t< . 1/2 − t 1 − 2t 2 Observación 1.4.1. Por el ejemplo 1.3.1, si X ∼ N(0,1), entonces X 2 ∼ χ21 . 6 - Resultados preliminares Introducción a la Inferencia Estadı́stica Observación 1.4.2. Si X1 ∼ χ2n y X2 ∼ χ2m , estamos interesados en la distribución de la variable aleatoria Y = X1 + X2 1. Si X1 y X2 son independientes, entonces Y ∼ χ2n+m . MX1 +X2 (t) = MX1 (t)MX2 (t) = 1/2 1/2 − t n2 1/2 1/2 − t m2 = 1/2 1/2 − t n+m 2 si t < 1/2. Esto se generaliza fácilmente para cualquier número de sumandos. Sean X1 , . . . , Xn varian X bles aleatorias independientes con Xi ∼ χ2mi , i = 1, . . . , n. Entonces, Xi ∼ χ2m , con m = n X i=1 mi . Usando este resultado y la observación 1.4.1, tenemos que si X1 , . . . , Xn son i=1 variables aleatorias independientes y con distribución común N(0,1), entonces n X Xi2 ∼ χ2n . (1.1) i=1 2. ¿Qué pasa cuando los sumandos no son independientes? Para ver esto, suponga que tenemos dos variables aleatorias U y V tales que U 0 1 ρ ∼N , − 1 < ρ < 1. ρ 1 V 0 Defina, X1 = U 2 y X2 = V 2 . Entonces, X1 ∼ χ21 y X2 ∼ χ21 . Excepto en el caso en que ρ = 0, X1 y X2 no son independientes. Sea Y = X1 + X2 . Observe que en términos de U y 1 (U + V )2 + (U − V )2 . Observe además que V, Y = 2 U +V U −V U 0 1 1 2(1 + ρ) 0 = ∼N , . 1 −1 0 2(1 − ρ) V 0 Lo que implica que U + V y U − V son independientes. La función generatriz de momentos de Y es 1 2 2 (U + V ) + (U − V ) t MY (t) = E exp 2 1 1 2 2 = E exp (U + V ) t E exp (U − V ) t 2 2 21 21 1 1 = 1 − 2(1 + ρ)t 1 − 2(1 − ρ)t 12 1 = (1 − 2t)2 − 4ρ2 t2 Resultados preliminares - 7 Introducción a la Inferencia Estadı́stica Dado que, E exp t (U + V )2 2 = E exp 2(1 + ρ)t 2 !2 U +V p 2(1 + ρ) 12 1/2 = 1/2 − (1 + ρ)t 12 1 = 1 − 2(1 + ρ)t (1.2) Donde (1.2) proviene de que U +V ∼ N(0, 1) =⇒ W 2 = W =p 2(1 + ρ) U +V p 2(1 + ρ) !2 ∼ χ21 y E exp 2(1 + ρ)t 2 !2 U +V = E exp (1 + ρ)tW 2 = MW 2 ((1 + ρ)t) . p 2(1 + ρ) 12 1 1 2 De manera similar se demuestra que E exp (U − V ) t = . 2 1 − 2(1 − ρ)t Ahora note que si tenemos una variable aleatoria Q ∼ χ22 , su función generatriz de momentos es MQ (t) = (1 − 2t)−1 . Por lo tanto de comparar MQ (t) y MY (t) llegamos a la conclusión de que Y ∼ χ22 ⇔ ρ = 0. Esto es, solo si X1 y X2 son independientes. 1.4.2. Distribución tn Definición 1.4.3. Sea U ∼ N(0,1) y V ∼ χ2n . Además, U y V son independientes. Decimos que una variable aleatoria X se distribuye t de Student con n grados de libertad, si tiene la misma distribución que U p . V /n Teorema 1.4.1. Si X ∼ tn , su función de densidad es Γ n+1 1 2 fX (x) = √ x∈R n+1 n nπΓ 2 1 + x2 2 n Demostración. (bosquejo) Dado que U y V son independientes: 1 1 2 fU,V (u, v) = fU (u)fV (v) = √ e−u /2 n/2 2 Γ 2π 8 - Resultados preliminares n 2 v n/2−1 e−v/2 . (1.3) Introducción a la Inferencia Estadı́stica Aplique la siguiente transformación monótona: U X=p V /n Y =V El cambio inverso es: U =X p Y /n V =Y y el determinante del jacobiano es |J| = Con lo que se obtiene r 1 y 1 1 2y √ exp − x fX,Y (x, y) = n/2 n 2π 2 n 2 Γ n 2 p Y /n. y n/2−1 exp(−y/2) (x, y) ∈ (−∞, ∞) × (0, ∞). Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función gamma) para obtener el resultado deseado. Observación 1.4.3. Algunas de las propiedades de esta distribución son: U 1. Si U ∼ N(0,1), entonces −U ∼ N(0,1). Con lo cual, − p ∼ tn . Lo que muestra que V /n fX (x) es simétrica alrededor del 0. 2. Los momentos de X se pueden calcular fácilmente usando la independencia de U y V E(T k ) = nk/2 E(U k V −k/2 ) = nk/2 E(U k )E(V −k/2 ). Por lo tanto, E(X k ) existirá siempre y cuando exista E(V −k/2 ). Note que, E(U k ) existe para todo k. Dado que la distribución χ2 es un caso particular de la distribución Gamma, calcularemos E(W k ) donde W ∼ Gamma(α, β). Z ∞ (β)α α−1 −βw r w e dw E(W ) = wr Γ(α) 0 Z (β)α ∞ α+r−1 −βw = w e dw Γ(α) 0 (β)α Γ(α + r) = si α + r > 0 Γ(α) (β)α+r Γ(α + r) = β −r (1.4) Γ(α) Dado que V ∼ χ2n = Gamma(n/2,1/2), si aplicamos (1.4) cuando n/2 + r > 0, tenemos que E(V r ) = 2r Γ(n/2 + r) Γ(n/2) (1.5) Para evaluar E(V −k/2 ), usamos (1.5) con r = −k/2. Primero verificamos bajo que condiciones se cumple que n/2 − k/2 > 0. Resultados preliminares - 9 Introducción a la Inferencia Estadı́stica a) Para k = 1 y n = 1, 6 ∃E(V −1/2 ) ⇒ 6 ∃E(X). b) Para k = 1 y n ≥ 2, ∃E(V −1/2 ) ⇒ E(X) = 0. c) Para k = 2 y n = 2, 6 ∃E(V −1 ) ⇒ 6 ∃E(X 2 ) ⇒ 6 ∃Var(X). d ) Para k = 2 y n > 2, ∃E(V −1 ) ⇒ ∃E(X 2 ) ⇒ ∃Var(X). Observación 1.4.4. Si T ∼ tn , si n = 1, fX (X) = [π(1 + x2 )]−1 , X ∼ Cauchy(0,1). si n → ∞, X ∼ N(0,1). Para ver esto, note que la densidad definida en (1.3) es proporcional al producto n − 12 − 12 x2 x2 1 1+ 1+ fX (x) ∝ n+1 = 2 n n 1+ x 2 n 2 Cuando n → ∞, el primer término converge a e−x /2 y el segundo a 1. Para √ converge −1 preservar la integrabilidad a 1, las constantes deben de converger a ( 2π) por lo cual la distribución en el lı́mite es una N(0,1). La aproximación es buena si n ≥ 30. Formalizaremos esto más adelante en el capı́tulo 7. 1.4.3. Distribución Fn,m Definición 1.4.4. Sea U ∼ χ2n y V ∼ χ2m . Además, U y V son independientes. Decimos que una variable aleatoria X se distribuye F de Fisher-Snedecor con n grados de libertad en el numerador y m grados de libertad en el denominador, si tiene la misma distribución que U/n . V /m Se denota X ∼ Fn,m . Teorema 1.4.2. Si X ∼ Fn,m , su función de densidad está dada por n n−2 Γ n+m x n n 2 2 n, m ∈ {1, 2, . . .} fX (x) = n+m I[x>0] m Γ n2 Γ m2 1+ nx 2 m Demostración. (bosquejo) Dado que U y V son independientes: fU,V (u, v) = fU (u)fV (v) = 1 2m/2 Γ m 2 um/2−1 e−u/2 1 2n/2 Γ Aplique la siguiente transformación monótona: X= 10 - Resultados preliminares nU mV Y =V n 2 v n/2−1 e−v/2 . Introducción a la Inferencia Estadı́stica El cambio inverso es: m XY n con lo cual el determinante del jacobiano es U= V = Y, |J| = m Y. n Entonces m xy + y 2−(m+n)/2 m m/2 m/2−1 (m+n)/2−1 n x y exp − fX,Y (x, y) = n 2 Γ m2 Γ n2 (x, y) ∈ (0, ∞) × (0, ∞). Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función gamma) para obtener el resultado deseado. Observación 1.4.5. Algunas propiedades de esta distribución son 1. Si X ∼ Fn,m , entonces 1 ∼ Fm,n . X 2. Si P(X < Fn,m;1−α ) = 1 − α, entonces 1 1 1 > P = 1 − α ⇒ Fm,n;α = . X Fn,m;1−α Fn,m;1−α 3. Si X ∼ tn , entonces X 2 ∼ F1,n . m E(U )E(V −1 ). Por lo n tanto, E(X) existe siempre que exista E(V −1 ). Utilizando (1.5) tenemos que 4. De la definición de la variable aleatoria X se desprende que E(X) = E(X) = m si m > 2. m−2 Observación 1.4.6. En la definición de la distribución F es esencial la independencia entre el numerador y el denominador. Para ver esto, suponga que X1 ∼ χ2n y X2 ∼ χ2m son dos variables aleatorias independientes. Defina Y1 = X1 y Y2 = X1 + X2 . Es fácil ver que P(Y1 < Y2 ) = 1. Por lo cual, Y1 y Y2 no son independientes. Además, Y1 ∼ χ2n y Y2 ∼ χ2n+m . Entonces, 0≤ Y1 /n X1 /n m + n X1 m+n = = ≤ . Y2 /(n + m) (X1 + X2 )/(n + m) n X 1 + X2 n Lo que implica que el recorrido de (Y1 /n)/(Y2 /(n + m)) es el intervalo (0, (m + n)/n) y no (0, ∞), que es el recorrido de una distribución F. Por lo tanto, (Y1 /n)/(Y2 /(n+m)) no se puede distribuir F. Observación 1.4.7. Dada la relación t2n = F1,n , se desprende que enp la definición de la distribución t la independencia entre el numerador (N(0,1)) y el denominador ( χ2n /n) es crucial. Resultados preliminares - 11 Introducción a la Inferencia Estadı́stica Ejemplo 1.4.2. ¿Qué pasa con las restas de variables aleatorias que tienen distribución χ2 ? Suponga que X1 , X2 , X3 , X4 son variables aleatorias iid con distribución común N(0,1). Defina, U1 = X12 + X22 + X32 , U2 = X32 , U3 = X32 + X42 . Entonces, U1 ∼ χ23 , U2 ∼ χ21 y U3 ∼ χ22 . Por lo tanto, U1 − U2 = X12 + X22 ∼ χ22 . U1 − U3 = X12 + X22 − X42 6∼ χ2 , dado que el Rec(U1 − U3 ) = R. Para ver esto, calcule ! 2 X12 +X22 2 + X 1 X 2 1 2 <1 =P < P(X12 + X22 − X42 < 0) = P(X12 + X22 < X42 ) = P X42 X42 2 Z 1 2 1 = P (F2,1 < 1/2) = du = 0, 29289. 3/2 0 (1 + 2u) Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. 12 - Resultados preliminares CAPÍTULO 2 MUESTREO 2.1. Introducción Los avances en la ciencia están usualmente asociados con experimentación. El investigador realiza un experimento y obtiene datos a partir de él. En base a estos datos se elaboran determinadas conclusiones, las cuales usualmente van más allá del experimento en particular. Esto es, el investigador generaliza lo observado en un experimento en particular a la clase de todos los experimentos similares. Esta forma de extensión de lo particular hacia lo general se conoce como inferencia inductiva. En el proceso de inferencia inductiva está siempre presente la incertidumbre dado que no podemos hacer generalizaciones de manera absoluta. Las argumentaciones inductivas no llevan necesariamente a conclusiones verdaderas, no se da el caso de que si las premisas de una inferencia inductiva son verdaderas entonces la conclusión deba de ser verdadera. Es posible que la conclusión de una argumentación inductiva sea falsa y que sus premisas sean verdaderas sin que ello suponga una contradición. Si el experimento se realiza de acuerdo a determinados principios, la incertidumbre puede ser medida. Uno de los objetivos de la Estadı́stica es proporcionar técnicas que permitan realizar el proceso de inferencia inductiva conjuntamente con una medida del grado de incertidumbre de esas inferencias. La incertidumbre será medida en términos de probabilidad. El objetivo de este capı́tulo es introducir el concepto de muestreo y varios conceptos teóricos relacionados. Para nuestro curso, un problema de inferencia estadı́stica es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una determinada distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia acerca de esta. Analizando los datos se intenta obtener información acerca de la distribución que los generó, para realizar inferencias acerca de ciertas propiedades de esta y dadas diferentes distribuciones posibles, determinar la verosimilitud relativa que cada una tiene de ser la correcta. Un caso particular, que es el que abordaremos principalmente en el curso, es cuando la distribución de probabilidad que generó los datos es completamente conocida excepto por los valores de uno o más parámetros de dicha distribución. Tendremos entonces, una población cuyo comportamiento 13 Introducción a la Inferencia Estadı́stica en cierta caracterı́stica de interés está determinado por una determinada variable aleatoria cuya distribución de probabilidad está caracterizada por un parámetro θ, real o vector, cuyo valor es parcialmente o totalmente desconocido. Del parámetro θ, conocemos sin ambigüedad cuál es el conjunto de valores que teóricamente puede llegar a tomar. Definición 2.1.1. Dada una distribución de probabilidad caracterizada por un parámetro θ. Al conjunto de valores que el parámetro θ puede tomar se le llama el espacio paramétrico. Lo denotaremos con Θ. Dada una variable aleatoria X asociada al fenómeno de interés que deseamos estudiar, si su distribución depende de un parámetro θ, lo explicitaremos usando la notación FX (x|θ) o fX (x|θ). Si el valor de una determinada probabilidad es una función de θ la denotaremos Pθ . 2.2. Muestreo Para hacer inferencias diseñaremos un experimento que consiste en seleccionar elementos de la población en estudio y medir sobre ellos la variable aleatoria de interés. En base a lo que observamos haremos nuestras inferencias. Asumimos que cada elemento de la población tiene algún valor numérico asociado a él y que la distribución de probabilidad de estos valores numéricos está dada por una función de distribución F . Existen diferentes esquemas para seleccionar los elementos que vamos a observar de la población. A este subconjunto de elementos le llamaremos muestra. En un principio nos enfocaremos en seleccionar elementos de la población con reposición. Este esquema de muestreo garantiza que las observaciones son independientes y que las extracciones están hechas en idénticas condiciones. Dado que nunca agotamos la población, el tamaño de esta se puede considerar como si fuera infinito. Definición 2.2.1. Las variables aleatorias X1 , . . . , Xn son llamadas una muestra aleatoria (MA) de tamaño n de una población con función de distribución FX si son mutualmente independientes y la función de distribución marginal de cada Xi es la misma función FX . Observación 2.2.1. A las variables aleatorias que componen una MA también se les llaman independientes e idénticamente distribuidas, lo cual se denota iid. Observación 2.2.2. Alternativamente, si X es una variable aleatoria tal que X ∼ FX , se dice que X1 , . . . , Xn es una MA de la variable aleatoria X. También se utiliza decir que es una MA de fX donde fX es la densidad o cuantı́a de X. A la variable aleatoria Xi se le llama la i-ésima observación de la muestra. Es la representación del valor que va a asumir la variable aleatoria X al medirse sobre el i-ésimo elemento muestreado. Después que la muestra es observada, los valores actuales de X1 , . . . , Xn son conocidos y los ~ = (X1 , . . . , Xn ) denotamos con x1 , . . . , xn respectivamente. Para abreviar la notación, definimos X y ~x = (x1 , . . . , xn ). Dada la independencia y la idéntica distribución de las observaciones, se tiene que su distribución conjunta está dada por fX~ (~x) = fX1 ,...,Xn (x1 , . . . , xn ) = n Y i=1 14 - Muestreo fX (xi ). Introducción a la Inferencia Estadı́stica A esta distribución conjunta se le llama la distribución de la muestra. Al soporte de esta distribución conjunta se le llama el espacio muestral y se denota por X . Esto es, X es el conjunto de todas las muestras posibles. Observación 2.2.3. Cuando X es una variable discreta, fX~ (~x) = P(X1 = x1 , . . . , Xn = xn ). Por lo cual, mide la probabilidad con que se observa cada una de las posibles muestras. Ejemplo 2.2.1. Suponga que X es una variable aleatoria que toma los valores 1, 2, 3 y 4 en una determinada población. Se desea obtener una MA de tamaño 2. Tendremos dos observaciones X1 y X2 . Si listamos todos los posibles valores que puede tomar la dupla (X1 , X2 ) tendremos el conjunto de las 16 muestras posibles. Si lo enumeramos por extensión tenemos que X = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)} y si lo hacemos por comprensión: X = {(x1 , x2 )|xi ∈ {1, 2, 3, 4}, i = 1, 2} Si además asumimos que X se distribuye tal que P(X = 1) = 0, 2, P(X = 2) = 0, 25, P(X = 3) = 0, 15 y P(X = 4) = 0, 4. Tendremos, por ejemplo, que la probabilidad de observar la muestra (1,1) es fX1 ,X2 (1, 1) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = P(X = 1)P(X = 1) = 0, 22 = 0, 04. (independencia) (idéntica distribución) Siguiendo este planteo, la distribución de la muestra es x2 fX1 ,X2 (x1 , x2 ) 1 2 x1 3 4 1 0,04 0,05 0,03 0,08 2 0,05 0,06 0,04 0,10 3 0,03 0,04 0,02 0,06 4 0,08 0,10 0,06 0,16 Ejemplo 2.2.2. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), fX1 ,...,Xn (x1 , . . . , xn |θ) = n Y n P xi 1−xi θ (1 − θ) xi n− I[xi ∈{0,1}] = θi=1 (1 − θ) n P i=1 i=1 xi n Y I[xi ∈{0,1}] i=1 X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n} Muestreo - 15 Introducción a la Inferencia Estadı́stica Lo que estamos midiendo es la probabilidad de haber observado la muestra en el orden en que los valores x1 , . . . , xn aparecen. O sea, la probabilidad de una secuencia de ceros y unos en el orden particular en que fueron observados. Note que no aparece el número n combinatorio dado que no estamos midiendo el número de éxitos en las n pruebas. x También observe que la expresión n Y n I[xi ∈{0,1}] es equivalente a I P i=1 xi ∈{0,1,...,n} . i=1 Ejemplo 2.2.3. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), de E(X)=θ fX1 ,...,Xn (x1 , . . . , xn |θ) = n Y 1 i=1 Observe que n Y θ xi e− θ I[xi >0] = 1 − e θn Pn i=1 xi θ I[mı́n xi >0] , i I[xi >0] será igual a 1, siempre que todas las observaciones sean mayores i=1 que 0. Esto es equivalente a pedir que la menor de las observaciones sea mayor que 0. n Y n Entonces, I[xi >0] ≡ I[mı́n xi >0] . El espacio muestral es X = R+ . i i=1 2.3. Estadı́sticos y su distribución en el muestreo Dada una muestra, no necesariamente una MA, se pueden definir funciones de las observaciones. Estas jugarán un papel importante en el proceso de inferencia. En particular, estaremos interesados principalmente en las que denominaremos estadı́sticas. Definición 2.3.1. Una estadı́stica o estadı́stico es una función de las observaciones que no contiene ningúna cantidad desconocida. Ejemplo 2.3.1. Si X1 , . . . , Xn es una muestra de X ∼ fX , entonces ejemplos de estadı́sticos son: n 1X X̄n = Xi , n i=1 n Sn2 1X = (Xi − X̄n )2 , n i=1 X(1) = mı́n(X1 , . . . , Xn ). En general, todas medidas de resumen del conjunto de observaciones son ejemplos de estadı́sticos. ~ Observación 2.3.1. Cuando hablemos de un estadı́stico genérico, lo representaremos con T (X). Ejemplo 2.3.2. Si X1 , . . . , Xn es una muestra de X ∼ N(µ, 1), la función n 1X (Xi − µ)2 n i=1 16 - Muestreo Introducción a la Inferencia Estadı́stica será un estadı́stico solo si el valor del parámetro µ es conocido. Definición 2.3.2. Sea X1 , . . . , Xn una muestra de X ∼ fX . El k-ésimo momento muestral ordinario, denotado por Mk , se define como n Mk = 1X k X . n i=1 i En particular, si k = 1 lo llamaremos la media muestral y estará representado por X̄n . Definición 2.3.3. El k-ésimo momento muestral centrado, denotado por Mk0 , se define como n Mk0 1X (Xi − X̄n )k . = n i=1 En particular, M10 = 0 y si k = 2 lo llamaremos la varianza muestral, representada por S 2 . Observación 2.3.2. Los momentos muestrales ordinarios o centrados son todos estadı́sticos. 2.3.1. Distribución en el muestreo Los estadı́sticos son funciones de las observaciones, las cuales son variables aleatorias. Por lo tanto, los estadı́sticos son a su vez variables aleatorias y su distribución dependerá del esquema de muestreo y de la distribución en particular de la variable aleatoria X muestreada. Dadas estas dos n X ~ componentes, se puede hallar la distribución en el muestreo de un estadı́stico. Si T (X) = Xi , su i=1 distribución dependerá de la distribución de X. Por ejemplo, si tenemos una MA de X ∼ N(θ, σ 2 ), ~ ∼ N(nθ, nσ 2 ). Si en cambio, X ∼ Bernoulli(θ), entonces T (X) ~ ∼ Binomial(n, θ). T (X) Cuando el esquema de muestreo a utilizar es una MA, se garantiza la independencia y la idéntica distribución de las observaciones, lo cual permite muchas veces poder calcular resultados más generales sobre caracterı́sticas de la distribución en el muestreo de determinados estadı́sticos. Estos resultados serán válidos sin importar si la variable aleatoria muestreada es discreta o continua. Dado que los momentos de una variable aleatoria no determinan su distribución, no podremos de estos resultados inferir la distribución de probabilidad exacta de un estadı́stico. Teorema 2.3.1. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea µk = E(X k ) el k-ésimo momento 1 ordinario de X. Si µk existe, entonces E(Mk ) = µk . Si µ2k existe, entonces Var(Mk ) = (µ2k − µ2k ). n Demostración. n 1X k X n i=1 i E(Mk ) = E n Var(Mk ) = Var 1X k X n i=1 i ! ! n n 1X 1X = E Xik = µk = µk . n i=1 n i=1 n Var Xik 1 X (µ2k − µ2k ) k = 2 Var Xi = = . n i=1 n n Muestreo - 17 Introducción a la Inferencia Estadı́stica Corolario 2.3.1. Si, k = 1, M1 es X̄n la media muestral y E(X̄n ) = E(X) y Var(X̄n ) = Var(X) . n Teorema 2.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea Sn2 = M20 la varianza muestral. Si µ4 existe, E(Sn2 ) n−1 (n − 1)2 = Var(X) y Var(Sn2 ) = n n3 n−3 2 2 µ4 − (µ2 − µ1 ) n−1 Demostración. Solo probaremos la primera parte. Por claridad, representaremos E(X) = µ y Var(X) = σ 2 . Primero note que n X 2 (Xi − µ) = i=1 n X (Xi − X̄n + X̄n − µ)2 i=1 = = n X i=1 n X 2 (Xi − X̄n ) + n X 2 (X̄n − µ) + 2 n X i=1 (Xi − X̄n )(X̄n − µ) i=1 (Xi − X̄n )2 + n(X̄n − µ)2 (2.1) i=1 Dado que 2 n X (Xi − X̄n )(X̄n − µ) = 2(X̄n − µ) i=1 n X (Xi − X̄n ) = 2(X̄n − µ)nM10 = 0. i=1 De donde, n E(Sn2 ) = E 1X (Xi − X̄n )2 n i=1 ! n X 1 = E (Xi − µ)2 − n(X̄n − µ)2 n i=1 1 = n 1 = n n X i=1 n X ! ! E(Xi − µ)2 − nE(X̄n − µ)2 ! σ 2 − nVar(X̄n ) i=1 1 σ2 n−1 2 2 = nσ − n = σ . n n n n S 2 , entonces n−1 n 1 n−3 02 02 2 2 E(Sn ) = Var(X) y Var(Sn ) = µ4 − (µ2 − µ1 ) . n n−1 0 Corolario 2.3.2. Si definimos Sn2 = 18 - Muestreo Introducción a la Inferencia Estadı́stica 0 A Sn2 se le llama varianza muestral corregida. Corregida en el sentido que a la varianza muestral se la ha multiplicado por una constante con el fin de que su valor esperado coincida con la varianza de la variable aleatoria X muestreada. Note que los anteriores resultados son válidos cualquiera sea la distribución en particular de X siempre que trabajemos con una MA de esta variable aleatoria. Solo se requiere que existan determinados momentos poblacionales para que se cumplan. Si se tiene mayor información acerca de cuál es la distribución de X, se puede determinar de manera exacta la distribución en particular de los momentos muestrales o de cualquier otro estadı́stico. Para hallar las distribuciones podemos utilizar cualquiera de las técnicas aprendidas en un curso de probabilidad. Teorema 2.3.3. Suponga que X1 , . . . , Xn es una MA de X. Suponga además que existe MX (t), la función generatriz de momentos de X. Entonces, n t . MX̄n (t) = MX n n X Demostración. Note primero que si Y = Xi , i=1 tY MY (t) = E(e ) = E(e t Pn i=1 Xi )= n Y tXi E(e )= i=1 Por lo tanto, dado que X̄n = n Y MX (t) = [MX (t)]n . i=1 Y n t Yn MX̄n (t) = E e =E e t Y n n t t . = MX = MY n n Ejemplo 2.3.3. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). Entonces MX (t) = Con lo cual MX̄n (t) = β β− β β−t α n t n α si t < β. = nβ nβ − t nα si t < nβ. En consecuencia, X̄n ∼ Gamma(nα, nβ). Note también que n X Xi ∼ Gamma(nα, β). i=1 Muestreo - 19 Introducción a la Inferencia Estadı́stica Ejemplo 2.3.4. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Entonces, sabemos que n X Y = Xi ∼ Binomial(n, θ). Con lo cual, i=1 P(X̄n = x) = P Y =x n = P(Y = nx) = n nx 1 2 n−nx θ (1 − θ) x ∈ 0, , , . . . , 1 . nx n n Note que si bien la cuantı́a de X̄n es igual a la cuantı́a de una distribución binomial, su recorrido no coincide con el recorrido de una variable aleatoria con esta distribución. Por lo cual, X̄n no se distribuye Binomial. Ejemplo 2.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces, t2 2 MX (t) = exp µt + σ . t ∈ R 2 Por lo tanto, t t2 2 MX̄n (t) = exp µ + 2 σ n 2n n t2 σ 2 = exp µt + 2 n Esto es, X̄n ∼ N(µ, σ 2 /n). 2.4. . Muestreo de poblaciones normales En el caso de tener una MA de una distribución normal, existen propiedades que son exclusivas de esta distribución. Por ejemplo, la enunciada en el siguiente teorema. Teorema 2.4.1. X1 , . . . , Xn es una MA de X ∼ N(µ, σ 2 ) si y solo si X̄n y Sn2 son independientes. Demostración. Solo se demostrará la necesidad (distribución normal implica independencia de X̄n y Sn2 ). Recordando el resultado: 2 Sean X ∼ N(µX , σX ) y Y ∼ N(µY , σY2 ). Entonces, Cov(X, Y ) = 0 si y solo si X y Y son independientes. Consideramos la covarianza entre X̄n y la variable aleatoria Y1 = X1 − X̄n ∼ N(0, σ 2 (1 − 1/n)), Cov(X̄n , X1 − X̄n ) = Cov(X̄n , X1 ) − Cov(X̄n , X̄n ) = 1 σ2 σ2 Cov(X1 , X1 ) − Var(X̄n ) = − = 0. n n n Este resultado se deriva de que, n Cov(X̄n , X1 ) = Cov 20 - Muestreo 1X Xi , X1 n i=1 ! n 1X 1 Var(X1 ) = Cov(Xi , X1 ) = Cov(X1 , X1 ) = , n i=1 n n Introducción a la Inferencia Estadı́stica dado que Cov(Xi , X1 ) = 0, i = 2, . . . , n. Por lo cual, X̄n y Y1 son independientes, lo que implica que X̄n y Y12 son independientes. De manera similar se puede probar que X̄n y Yi2 , i = 2, . . . , n, son independientes. Por lo cual, X̄n es independiente de cualquier función de Y12 , . . . , Yn2 . Lo que implica el resultado buscado, dado que n 1X 2 2 Sn = Y . n i=1 i Proposición 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces, nSn2 ∼ χ2n−1 . σ2 Demostración. Usando la descomposición hallada en 2.1 y dividiendo cada sumando entre σ 2 , tenemos que n X nSn2 n(X̄n − µ)2 (Xi − µ)2 = + 2 2 σ σ σ2 i=1 2 n X Xi − µ nS 2 n(X̄n − µ)2 Si definimos, W = , V = 2n y U = . Tenemos que, por la ecuación σ σ σ2 i=1 1.1, W ∼ χ2n . Por la observación 1.4.1, U ∼ χ21 . Además, por el teorema 2.4.1, V y U son independientes. Por lo tanto, MW (t) = MV +U (t) = MV (t)MU (t) ⇒ ⇒ para t < 1/2, MV (t) = 1/2 1/2−t 1/2 1/2−t 1/2 1/2 − t n2 = MV (t) n2 12 = 1/2 1/2 − t 1/2 1/2 − t n−1 2 ⇒ V = 21 si t < 1/2. nSn2 ∼ χ2n−1 . σ2 Ejemplo 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Por el ejemplo 2.3.5 √ n(X̄n − µ) 2 X̄n ∼ N(µ, σ /n) ⇒ ∼ N(0, 1). σ Además, (a) nSn2 /σ 2 ∼ χ2n−1 ; (b) X̄n y Sn2 son independientes por el teorema 2.4.1. Con lo cual, √ n(X̄n − µ) √ n − 1(X̄n − µ) σ ∼ tn−1 . T =r = 2 S nSn /(n − 1) σ2 0 Si en lugar de Sn2 se utiliza Sn2 , el resultado es √ n(X̄n − µ) ∼ tn−1 . Sn0 Muestreo - 21 Introducción a la Inferencia Estadı́stica Ejemplo 2.4.2. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σ 2 ). Sea Y1 , . . . , Ym una MA de Y ∼ N(µY , σ 2 ). X y Y independientes. Se definen, de la manera usual, las medias muestrales n n 1 X 1X Xi , Ȳm = Yi , X̄n = n i=1 m i=1 y las varianzas muestrales corregidas (el subı́ndice indica a qué variable está asociada y no el tamaño de la muestra como hemos venido haciendo) n 0 SX2 = m 1 X (Xi − X̄n )2 , n − 1 i=1 0 SY2 = 1 X (Yi − Ȳm )2 . m − 1 i=1 Defina adicionalmente, 0 0 (n − 1)SX2 + (m − 1)SY2 Sp = . n+m−2 Entonces, por la observación 1.4.2 tenemos que 02 0 0 0 0 (n − 1)SX2 (m − 1)SY2 (n − 1)SX2 + (m − 1)SY2 2 2 ∼ χ , ∼ χ ⇒ ∼ χ2n+m−2 n−1 m−1 σ2 σ2 σ2 y X̄n ∼ N(µX , σ 2 /n), Ȳm ∼ N(µY , σ 2 /m) ⇒ X̄n − Ȳm ∼ N(µX − µY , σ 2 /n + σ 2 /m). Por lo cual, X̄n − Ȳm − (µX − µY ) q ∼ tn+m−2 . Sp0 n1 + m1 2 Ejemplo 2.4.3. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σX ). Sea Y1 , . . . , Ym una MA 2 de Y ∼ N(µY , σY ). X y Y independientes. Entonces, 0 0 (m − 1)SY2 (n − 1)SX2 2 ∼ χ , W = ∼ χ2m−1 , W1 = 2 n−1 2 σX σY2 W1 y W2 son independientes. Por lo tanto, 0 W1 /(n − 1) S 2 σY2 F = = X ∼ Fn−1,m−1 . 0 2 W2 /(m − 1) SY2 σX 2 Bajo el supuesto de que σY2 = σX , nos queda que 0 0 SX2 σY2 SX2 F = 0 2 2 = 0 2 ∼ Fn−1,m−1 . SY σX SY 22 - Muestreo Introducción a la Inferencia Estadı́stica 2.5. Estadı́sticos de Orden Asuma que en una carrera de 100 metros el tiempo para recorrerlos de los hombres puede ser modelado por una distribución uniforme en el intervalo (medido en segundos) (9,4;11,0). Suponga que hay 8 competidores en la carrera. Se desea encontrar la probabilidad de que el ganador de la carrera rompa el record mundial de 9,58 segundos. Si Xi representa el tiempo que tarda el corredor i en recorrer los 100 metros, i = 1, . . . , 8, lo que estamos interesados es conocer si el menor de esos 8 tiempos no excede 9,58 segundos. Esto es, si definimos X(1) = mı́n{X1 , X2 , . . . , X8 }, la probabilidad que deseamos encontrar es P(X(1) < 9, 58). También podrı́amos estar interesados en calcular la probabilidad de que el que llega segundo de los 8 corredores no supere el record mundial anterior de 9,69 segundos. En este caso, definiendo X(2) = mı́n{X1 , X2 , . . . , X8 }/X(1) (la más chica de las 8 observaciones habiendo removido de ellas la menor de todas, o sea, la segunda más chica), la probabilidad buscada es P(X(2) > 9, 69). Si X(8) = máx{X1 , X2 , . . . , X8 }, la probabilidad de que el ganador de la carrera rompa el record mundial y que al corredor que llega último le lleve más de 10 segundos terminarla está representada por P(X(1) < 9, 58, X(8) > 10). P(X(8) − X(1) > 3) es la probabilidad de que el ganador de la carrera le saque más de 3 segundos de ventaja al corredor que llega último. Para calcular todas las probabilidades anteriores debemos encontrar la distribución en el muestreo de las nuevas variables X(1) , X(2) , X(8) , (X(1) , X(8) ) y X(8) − X(1) . En esta sección derivaremos en forma general las distribuciones univariadas y conjuntas de estas nuevas variables aleatorias X(1) , X(2) , . . . , X(8) construidas tomando nuestra muestra original, X1 , X2 , . . . , X8 y ordenándola. Definición 2.5.1. Sea X1 , . . . , Xn una muestra de una variable aleatoria X con distribución FX . Para i = 1, 2, . . . , n, defina X(i) = la i-ésima observación más pequeña de X1 , X2 , . . . , Xn . Al vector (X(1) , X(2) , . . . , X(n) ) se le denomina las estadı́sticas de orden. A la variable aleatoria X(i) se le llama la i-ésima estadı́stica de orden. Observación 2.5.1. X(1) ≤ X(2) ≤ . . . ≤ X(n) , las observaciones son ordenadas de acuerdo a un orden creciente. Observación 2.5.2. En particular, los extremos de la muestra son el mı́nimo, X(1) , y el máximo de las observaciones, X(n) . Observación 2.5.3. Dado que las estadı́sticas de orden son observaciones de la variable aleatoria X, el recorrido de las mismas será el recorrido de X. 2.5.1. Distribuciones marginales En el caso de los extremos, si trabajamos con una MA de tamaño n de X, la distribución de cada uno de ellos se puede derivar fácilmente a partir de FX . Muestreo - 23 Introducción a la Inferencia Estadı́stica Para el máximo, X(n) , tenemos FX(n) (x) = P(X(n) ≤ x) = P(X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x) = n Y P(Xi ≤ x) = [FX (x)]n . (2.2) i=1 Los sucesos {X(n) ≤ x} y {X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x} son equivalentes, dado que si la más grande de las observaciones es menor que x, entonces todas las observaciones deberán ser menores que x. Ejemplo 2.5.1. Suponga la distribución dada al principio de la sección. Asumiendo que los tiempos de cada corredor son independientes, la probabilidad de que al corredor que llega último le lleve más de 10 segundos recorrer los 100 metros es P(X(8) > 10) = 1 − P (X(8) 10 − 9, 4 ≤ 10) = 1 − [FX (10)] = 1 − 11 − 9, 4 Dado que si X ∼Uniforme(9,4;11), FX (10) = 8 8 ≈ 0, 9996. 10 − 9, 4 . 11 − 9, 4 En el caso del mı́nimo, note que si la menor de las observaciones es mayor que x, entonces todas las observaciones deberán ser mayores que x. Por lo cual, los sucesos {X1 > x, X2 > x, . . . , Xn > x} y {X(1) > x} son equivalentes. Entonces, FX(1) (x) = P(X(1) ≤ x) = 1 − P(X(1) > x) = 1 − P(X1 > x, X2 > x, . . . , Xn > x) n Y =1− P(Xi > x) = 1 − [1 − FX (x)]n . (2.3) i=1 Ejemplo 2.5.2. Bajo las condiciones anteriores, la probabilidad de que el ganador de la carrera rompa el record mundial es 8 9, 58 − 9, 4 P(X(1) < 9, 58) = 1 − 1 − ≈ 0, 6151 11 − 9, 4 Que esta probabilidad sea alta quizás la podemos usar como evidencia de que quizás la distribución Uniforme(9,4;11) no sea la más apropiada para modelar este problema. Si asumimos que X es una variable aleatoria absolutamente continua, podemos calcular las funciones de densidad de X(1) y X(n) derivando la correspondiente función de distribución. fX(1) (x) = n(1 − FX (x))n−1 fX (x) y fX(n) (x) = n(FX (x))n−1 fX (x). 24 - Muestreo Introducción a la Inferencia Estadı́stica Ejemplo 2.5.3. Sea X ∼Uniforme(0,1). Entonces FX (x) = xI[0≤x<1] +I[x≥1] y fX (x) = I[0<x<1] . Por lo cual, fX(1) (x) = n(1 − x)n−1 I[0<x<1] y fX(n) (x) = nxn−1 I[0<x<1] . Esto es, X(1) ∼ Beta(1,n) y X(n) ∼ Beta(n,1). Más detalles sobre estadı́sticos de orden se pueden encontrar en el apéndice E. Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Ahsanullah, M., Nevzorov, V., Shakil, M. (2013) An Introduction to Order Statistics Atlantic Press. Furio Blasco, E. (2005) Los lenguajes de la Economı́a. Edición digital a texto completo accesible en www.eumed.net/libros/2005/efb/ Gut, A. (2009) An intermediate course in probability. Springer Texts in Statistics. Mood, A., Graybill, F., Boes, D. (1974) Introduction to the theory of statistics 3era. edición. McGraw-Hill International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Muestreo - 25 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 26 - Muestreo CAPÍTULO 3 INFERENCIA BAYESIANA 3.1. Introducción Existen dos enfoques en la Inferencia Estadı́stica, la Clásica o frecuentista y la Bayesiana. La estadı́stica clásica esta basada en la interpretación frecuentista de la probabilidad. El punto de vista frecuentista está basado en los siguientes postulados: 1. La probabilidad se ve como el lı́mite de frecuencias relativas. La probabilidad es un propiedad objetiva del mundo real. 2. Los parámetros son fijos, son constantes desconocidas. Dado que no existe fluctuación en sus valores, no se pueden hacer afirmaciones en probabilidad acerca de ellos. 3. Los métodos estadı́sticos están definidos para tener buenas propiedades asintóticas. Esto es, cuando n → ∞. 4. Los métodos estadśticos clásicos solo usan la información contenida en la muestra para La Inferencia Bayesiana, está basada en los siguientes postulados: 1. La probabilidad es el grado de creencia acerca de un determinado fenómeno. No es el lı́mite de una frecuencia. Como tal, se puede representar de modo numérico el conjunto racional de creencias, de modo que existe una relación directa entre probabilidad e información. La regla de Bayes proporciona un modo natural de actualización de las creencias cuando aparece nueva información. 2. Aún cuando los parámetros de una distribución siguen siendo constantes fijas, podemos hacer afirmaciones en probabilidad acerca de ellos. 3. Haremos inferencias acerca de un parámetro θ construyendo una distribución de probabilidad para este. Inferencias, tales como pruebas de hipótesis, estimaciones puntuales y de intervalo, podrán ser extraı́das de esta distribución. Este capı́tulo hace una breve introducción a la Inferencia Bayesiana. 27 Introducción a la Inferencia Estadı́stica 3.2. 3.2.1. Distribuciones a priori y a posteriori Distribución a priori Suponga que Y es una variable aleatoria cuya distribución está indexada por un parámetro θ (puede ser también un vector de parámetros): Y ∼ fY (y|θ). El parámetro θ toma valores en un conjunto Θ, el espacio paramétrico. Asumamos, por ahora, que Θ ⊂ R. El verdadero valor de θ es desconocido, pero podrı́amos contar con información adicional (conocimiento del problema, estudios anteriores) la cual nos puede dar una idea sobre en qué parte o partes de Θ es más verosimil que se encuentre el verdadero valor de θ. Este conocimieto, o falta de él, será expresado por medio de una distribución de probabilidad f (θ). Note que a pesar que θ será tratado como si fuera una variable aleatoria, es en realidad un número. La distribución de probabilidad asociada es la herramienta que nos permitirá incorporar a nuestros análisis lass creencias a priori que tengamos acerca del verdadero valor de θ. A la distribución f (θ) le llamaremos la distribución a priori de θ. Ejemplo 3.2.1. Suponga que Y ∼ Bernoulli(θ), Θ = (0, 1). Las siguientes gráficas muestran posibles distribuciones a priori para θ. Figura A es una distribución uniforme en (0,1) la cual nos permite representar que no favorecemos a priori ninguna región de Θ, en este caso estamos mostrando que no tenemos ninguna información a priori sobre el valor de θ. La Figura B, representa nuestro creencia a priori de que θ es más verosimil que se encuentre cercano a 1. La Figura C establece como más verosı́miles a priori los valores de θ cercanos al cero y la Figura D, lo más cercanos a 0,5. 2.0 1.5 f(θ) 1.0 1.0 0.0 0.6 0.5 0.8 f(θ) 1.2 2.5 3.0 Fig. B − Beta(3,1) 1.4 Fig. A − Beta(1,1) 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 θ Fig. C − Beta(1,3) Fig. D − Beta(3,3) 0.8 1.0 0.8 1.0 1.0 f(θ) 0.5 1.5 0.0 0.0 0.5 1.0 f(θ) 2.0 2.5 1.5 θ 3.0 0.0 0.0 0.2 0.4 0.6 θ 0.8 1.0 0.0 0.2 0.4 0.6 θ 28 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 3.2.2. Función de verosimilitud Dado un valor de θ, la distribución condicional de Y dado ese valor está dada por fY (y|θ). Suponga que Y = (Y1 , Y2 , . . . , Yn ) es una MA de esta distribución condicional. Es decir, condicional en θ, las observaciones Y1 , Y2 , . . . , Yn son iid1 . La distribución condicional conjunta de las observaciones se puede escribir como f (y|θ) = n Y fY (yi |θ), donde y = (y1 , y2 , . . . , yn ). i=1 A f (y|θ) se le llama la función de verosimilitud. Note que la función de verosimilitud es una función de y y no de θ. θ se ha fijado en un determiando valor dentro de su espacio paramétrico. f (y|θ) es lo que llamamos la distribución de la muestra en el capı́tulo anterior. 3.2.3. Distribución a posteriori Dada la función de verosimilitud podemos construir la distribución de probabilidad conjunta de Yyθ f (Y, θ) = f (y|θ)f (θ), y a partir de esta podemos calcular la distribución marginal de Y. Asumiendo que f (θ) es una densidad sobre Θ, tenemos que2 Z f (y) = f (y|θ)f (θ)dθ. Θ Por lo cual, al aplicar el teorema de Bayes, tenemos que la distribución condicional de θ dada la muestra observada y está dada por f (θ|y) = f (y|θ)f (θ) f (Y, θ) =R . f (y) f (y|θ)f (θ)dθ Θ A f (θ|y) se le llama la distribución a posteriori de θ. La distribución a priori de θ refleja nuestras creencias acerca del valor del parámetro antes de obtener la muestra. La distribución a posteriori refleja nuestras creencias actualizadas en base a lo observado en la muestra. Observación 3.2.1. No es necesario calcular f (y) dado que es una constante con respecto a θ, si a su inverso le llamamos c(y) tenemos que f (θ|y) = c(y)f (y|θ)f (θ) ⇒ f (θ|y) ∝ f (y|θ)f (θ) donde el sı́mbolo ∝ significa “es proporcional a”. Por lo cual c(y) es solo la constante por la cual hay que multiplicar a f (y|θ)f (θ) para convertirla en una densidad. A la función f (y|θ)f (θ) se le llama el núcleo de la distribución a posteriori. Dado el núcleo de una función de densidad, la constante es única dada la unicidad de la función integral. Por lo cual, si “reconocemos” el núcleo como el correspondiente a una distribución conocida, automáticamente sabemos cuánto vale la constante. Recuerde que en la distribución a posteriori, θ es la variable aleatoria y y está fijo en los valores observados en la muestra. 1 2 En estas notas a variables aleatorias que condicional en θ son variables iid le llamaremos intercambiables. Si f (θ) es una función de cuantı́a, sustituimos la integral por una sumatoria. Inferencia Bayesiana - 29 Introducción a la Inferencia Estadı́stica Ejemplo 3.2.2. Suponga y ∈ (0, 1, ...) denota el número de ocurrencias en un proceso de Poisson con tasa θ > 0. La función de cuantı́a de Yi condicional en θ es f (yi |θ) = θyi exp(θ) yi ! Por lo cual, la función de verosimilitud de (y1 , ..., yn ) es f (y|θ) = n Y θyi exp(−θ) i=1 yi ! = θnȳ exp(−nθ) Qn i=1 yi ! Considere como distribución a priori para θ una Gamma(α, β): f (θ) ∝ θα−1 exp(−βθ) Entonces para hallar la distribución a posteriori f (θ|y) ∝ θnȳ exp(−nθ)θα−1 exp(−βθ) = θnȳ+α−1 exp(−(n + β)θ). El núcleo de la distribución a posteriori coincide con el núcleo de una distribución Gamma. Por lo cual, la distribución a posteriori es una Gamma(nȳ + α, n + β) Note: Media a priori de θ es α/β Media a posteriori de θ es E(θ|y) = nȳ + α n+β Si el tamaño muestral n → ∞ entonces E(θ|y) se acerca al EMV de θ. Si éste tiende a cero, entonces E(θ|y) tiende a la media a priori. 3.3. Suficiencia Tanto en el enfoque clásico como en el bayesiano, un principio deseable en la reducción de datos es lo que se conoce como el principio de suficiencia. Este establece, a grandes rasgos, que si un estadı́stico es suficiente para un parámetro θ, este contiene toda la información que tiene la muestra acerca de θ. Esto es, una vez que conocemos qué valor toma el estadı́stico en la muestra observada es irrelevante conocer los valores individuales de las observaciones cuando se van a realizar inferencias acerca de θ. 30 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 3.3.1. Estadı́stico suficiente Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ), θ ∈ Θ. Sea T1 = T1 (X1 , . . . , Xn ) un estadı́stico. Note que T1 particiona X en los conjuntos {(x1 , . . . , xn )|T1 (x1 , . . . , xn ) = t1 }, donde t1 ∈ Rec(T1 ). Por ejemplo, suponga que T1 = X̄n y que observamos x̄n = 8, 32. Puede haber muchas muestras en X que tengan exactamente la misma media 8,32. Por lo tanto, podemos considerar a esas muestras como pertenecientes al conjunto {(x1 , . . . , xn ) : x̄n = 8, 32}. Entonces, para cada valor posible de X̄n tendremos uno de estos conjuntos. A la partición inducida por T1 la llamaremos suficiente para θ si la probabilidad de observar una muestra en particular, dado que sabemos que esta pertenece a un conjunto fijo de la partición, no depende de θ. Esto es, la probabilidad condicional de la muestra dado que sabemos que T1 = t1 , t1 ∈ Rec(T1 ), es independiente de θ. Esto intuitivamente significa que una vez que fijamos T1 = t1 y dentro del espacio muestral solo consideramos el subconjunto de las muestras para las cuales T1 toma ese valor, la distribución de cualquier otro estadı́stico T2 = T2 (X1 , . . . , Xn ), restringida a este subconjunto, no depende de θ dado que la distribución de la muestra no depende de θ. Por lo tanto, es imposible usar T2 |T1 = t1 para hacer inferencias acerca de θ. T1 extrae toda la información acerca de θ que está contenida en la muestra. Ejemplo 3.3.1. Sea X1 , . . . , Xn una MA de X ∼ Ber(θ). Defina T = n X Xi . Sabemos i=1 que T ∼ Binomial(n, θ). Con t ∈ {0, 1, . . . , n}, ¿cuál es la probabilidad condicional P(X1 = x1 , . . . , Xn = xn |T = t) = P (A|B)? Si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad condicional es 0, n X dado que A ∩ B = ∅; en el caso que t = xi , entonces tenemos que A ⊂ B, con lo i=1 cual P(A ∩ B) = P(A) y P(A|B) = P (A)/P (B); por lo tanto, P(X1 = x1 , . . . , Xn = xn |T = t) = 1 θt (1 − θ)n−t = n t n . n−t θ (1 − θ) t t Dado que x1 + . . . + xn es igual al número de unos en las n pruebas independientes, esta es la probabilidad de obtener una n-upla en particular de todas aquellas que contengan t unos y n − t ceros. Esta probabilidad no depende de θ. Por lo tanto, la partición n X inducida por T = Xi es suficiente para θ. i=1 Ejemplo 3.3.2. Continuación ejemplo 3.3.1. Considere el estadı́stico U = X1 X2 + X3 . Dado que Xi ∈ {0, 1}, los valores que puede tomar U son {0, 1, 2}. Inferencia Bayesiana - 31 Introducción a la Inferencia Estadı́stica X1 0 1 0 0 1 1 0 1 X2 0 0 1 0 1 0 1 1 X3 0 0 0 1 0 1 1 1 U 0 0 0 1 1 1 1 2 Por lo cual, P(U = 0) = P ((0, 0, 0) ∪ (1, 0, 0) ∪ (0, 1, 0)) = P ((0, 0, 0)) + P ((1, 0, 0)) + P ((0, 1, 0)) = (1 − θ)3 + 2θ(1 − θ)2 = (1 − θ)2 (1 + θ) Si fijamos que U = 0 tenemos que P ((0, 0, 0)|U = 0) = (1 − θ) (1 − θ)3 = , 2 (1 − θ) (1 + θ) (1 + θ) lo cual depende de θ. La figura 3.1 muestra la probabilidad de observar, cuando U = 0, las muestras (0,0,0) y (1,0,0) o (0,1,0). En el primer caso, cuanto más cerca está θ de 1, menor es la probabilidad de observar (0,0,0) y esta aumenta a medida que θ se acerca a cero. Lo cual muestra que, aún cuando sepamos que U = 0, si observamos (0,0,0) es más verosı́mil que θ esté cercano a cero; si observamos (1,0,0) o (0,1,0) es más verosimil que θ esté cercano a 1. Esto es, existe información adicional acerca de θ que no fue capturada por U . Por lo tanto, la partición no es suficiente. Figura 3.1: Probabilidad de que U = X1 X2 + X3 = 0 Definición 3.3.1. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es suficiente para θ ∈ Θ ⊆ R si y solo si la distribución de la muestra (X1 , . . . , Xn ) condicional en que T = t no depende de θ, para todo t ∈ Rec(T ). 32 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica La definición implica que T induce una partición suficiente sobre X . Esto es, una vez conocido qué valor toma T en la muestra no queda más “información” acerca de θ en ella. En suma, toda la información que la muestra tiene acerca de θ está contenida en T . Ejemplo 3.3.3. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Defina T = n X Xi . ¿Cuál i=1 es la probabilidad condicional P(X1 = x1 , . . . , Xn = xn |T = t))? Sabemos que T ∼ Poisson(nθ). Siguiendo un razonamiento similar al del ejemplo 3.3.1, con t ∈ {0, 1, . . . , n} si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad n X condicional es 0; en el caso que t = xi , entonces tenemos que, i=1 Q e−θn (θ)t / ni=1 xi ! t! = t Qn . P(X1 = x1 , . . . , Xn = xn |T = t) = −θn t e (θn) /t! n i=1 xi ! Esta probabilidad no depende de θ. Por lo tanto, T = n X Xi es suficiente para θ. i=1 Ejemplo 3.3.4. Sea X1 , X2 una MA de X ∼N(θ,1). Defina T = X1 + X2 . Sabemos que X1 θ 1 0 ∼ N2 , 0 1 X2 θ Por lo cual, con X1 X1 θ 1 0 1 1 B= ⇒ B = ∼ N2 , . 1 1 1 2 X2 X1 + X2 2θ Usando el resultado de la distribución condicional de las componentes de un vector con distribución normal multivariada, tenemos que 2 ! 1 t 1 1 1 =N , i = 1, 2. Xi |X1 + X2 = t ∼ N θ + √ √ (t − 2θ) , 1 − √ 2 2 2 2 2 Por lo tanto, la distribución condicional de la muestra dado que X1 +X2 = t no depende de θ. Entonces, X1 + X2 es suficiente para θ. La definición se puede extender para el caso donde θ es un vector de Rk . Definición 3.3.2. Un estadı́stico real T~ = T1 (X1 , . . . , Xn ), . . . , Tk (X1 , . . . , Xn ) se dice que es conjuntamente suficiente para θ ∈ Θ ⊆ Rk si y solo si la distribución de la muestra (X1 , . . . , Xn ) condicional en que T~ = ~t no depende de θ, para todo ~t ∈ Rec(T~ ). Inferencia Bayesiana - 33 Introducción a la Inferencia Estadı́stica Note que la definición, tanto en R o Rn , no es operativa dado que tenemos que empezar definiendo el estadı́stico que queremos probar que es suficiente. El siguiente teorema, no solo prueba si un estadı́stico es suficiente, sino que además identifica al estadı́stico que lo es. Teorema 3.3.1. Teorema de factorización de Neyman. Sea fX~ (~x|θ) la distribución de la muestra. Un estadı́stico real T = T (X1 , . . . , Xn ) es suficiente para θ si y solo si fX~ (~x|θ) = g(T (x1 , . . . , xn ); θ)h(x1 , . . . , xn ) ∀(x1 , . . . , xn ) ∈ X . ~ = ~x} y B = Demostración. Lo demostraremos para el caso discreto. Sean los sucesos A = {X ~ = T (~x)}. Note que A ⊂ B. {T (X) (⇒) Partimos de que T es suficiente para θ y deseamos probar que existe la factorización. f (~x|θ) = P(A|θ) = P(A ∩ B|θ) ~ = T (~x)|θ) P(X ~ = ~x|T (X) ~ = T (~x)) . = P(B)P(A|B) = P(T (X) | {z }| {z } g(T (~ x),θ) h(~ x) ~ = ~x|T (X) ~ = T (~x) no depende de θ. Note que, por la definición de suficiencia, P(X ~ es suficiente. (⇐) Partimos de que la factorización existe y queremos demostrar que T (X) ~ = ~x|T (X) ~ = t no depende de θ. Esto es, que P(X ~ = T (~x)|θ), la cuantı́a de T Suponga que f (~x|θ) = g(T (~x), θ)h(~x). Sea fT (t|θ) = P(T (X) cuando T (~x) = t. Además, X fT (t|θ) = fX~ (~y |θ). ~ y ∈X :T (~ y )=t . ~ = ~x|T (X) ~ = t) = 0. Para toda ~x ∈ X tal que Note que ∀~x ∈ X tal que T (~x) 6= t, P(X T (~x) = t, ~ ~ = ~x|T (X) ~ = t) = P(X = ~x|θ) P(X ft (t|θ) g(t, θ)h(~x) = ft (t|θ) g(t, θ)h(~x) P = g(T (~y ), θ)h(~y ) ~ y ∈X :T (~ y )=t = g(t, θ)h(~x) P h(~y ) g(t, θ) ~ y ∈X :T (~ y )=t = h(~x) P ~ x∈X :T (~ x)=t = q(~x). 34 - Inferencia Bayesiana h(~x) Introducción a la Inferencia Estadı́stica Observación 3.3.1. La factorización no es única, términos constantes, parcialmente o en su totalidad, pueden ser asignados a h o g indistintamente. Observación 3.3.2. La función g que depende solo de θ y T es proporcional a la densidad o cuantı́a de T : g(T (x1 , . . . , xn ); θ) ∝ fT (t|θ). Teorema 3.3.2. Sea T un estadı́stico suficiente para θ. Sea W : R → R una función uno a uno. Entonces, T 0 = W (T ) es suficiente para θ. Observación 3.3.3. Si W es una función arbitraria, T 0 = W (T ) no es necesariamente suficiente. Ejemplo 3.3.5. Continuación del ejemplo 3.3.1. fX~ (~x|θ) = θ Pn i=1 xi (1 − θ) n− Pn i=1 xi n X = g( xi ; θ). i=1 En este caso, h(~x) ≡ 1. Por lo tanto, T (X1 , . . . , Xn ) = n X Xi es suficiente para θ. En i=1 vista del teorema 3.3.2, tenemos que X̄n es suficiente para θ. Ejemplo 3.3.6. Sea X1 , . . . , Xn una MA de X ∼ N(θ,1). n −n 2 fX~ (~x|θ) = (2π) 1X exp − (xi − θ)2 2 ! −n 2 = (2π) i=1 | Por lo tanto, n X ! ! n n n X 1X 2 1X 2 exp − xi exp − θ +θ xi . 2 2 i=1 i=1 i=1 {z }| {z } P h(~ x) g( n i=1 xi ;θ) Xi es suficiente para θ. Lo que implica que X̄n es suficiente para θ. i=1 n n X X 2 También se puede usar la descomposición (xi − θ) = (xi − x̄n )2 + n(x̄n − θ)2 , i=1 n fX~ (y|θ) = (2π) −n 2 1X exp − (xi − θ)2 2 i=1 i=1 ! = (2π) | −n 2 n nSn2 exp − exp − (x̄n − θ)2 . 2 2 {z } {z }| h(~ x) g(x̄n ;θ) Lo que muestra directamente que X̄n es suficiente para θ. Inferencia Bayesiana - 35 Introducción a la Inferencia Estadı́stica Ejemplo 3.3.7. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0,θ). n 1 Y 1 fX~ (~x|θ) = n I[0<xi <θ] = I[x(1) >0] n I[x(n) <θ ] θ i=1 | {z } |θ {z } h(~ x) g(x(n) ;θ) Por lo tanto, X(n) es suficiente para θ. 3.3.2. Cálculo de la distribución a posteriori Si T (Y) es suficiente para θ tenemos, por el teorema de factorización: f (y|θ) = h(y)g(T (y)|θ). Lo que implica que f (θ|y) ∝ g(T (y)|θ)f (θ). Esto nos habilita a trabajar con la densidad o cuantı́a de la estadı́stica suficiente en lugar de la función de verosimilitud. Ejemplo 3.3.8. Considere n pruebas de Bernoulli intercambiables: Y1 , ..., Yn . Si θ n X representa la probabilidad de éxito, Yi |θ ∼ Bernoulli(θ). Defina Y = Yi , con lo cual i=1 Y |θ ∼ Binomial(n, θ): n y f (y|θ) = θ (1 − θ)n−y . y Supongamos que no tenemos información a priori acerca de θ lo cual reflejaremos utilizando como distribución a priori una Uniforme[0,1]: f (θ) = I[0≤θ≤1] . Usando que Y es suficiente para θ, obtenemos que la distribución a posteriori es f (θ|y) ∝ θy (1 − θ)n−y . Como función de θ, la distribución a posteriori es proporcional a la densidad de una variable aleatoria con distribución Beta(y + 1, n − y + 1). Dado que si la ley de la v.a. Z es una Beta(α, β) entonces: f (z|α, β) ∝ z α−1 (1 − z)β−1 . 36 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica También se puede calcular directamente la distribución a posteriori: n y θ (1 − θ)n−y y f (θ|y) = R n y θ (1 − θ)n−y dθ Θ y = (n + 1) n! θy (1 − θ)n−y y!(n − y)! = (n + 1)! y θ (1 − θ)n−y y!(n − y)! = Γ(n + 2) θy+1−1 (1 − θ)n−y+1−1 Γ(y + 1)Γ(n − y + 1) Ejemplo 3.3.9. Sea Y |θ ∼ N (θ, σ 2 ) con σ 2 conocida. La verosimilitud de una sola observación es 1 1 f (y|θ) = √ exp(− 2 (y − θ)2 ) 2 2σ 2πσ Asuma que la distribución a priori de θ es 1 2 f (θ) ∝ exp − 2 (θ − µ0 ) 2τ0 o sea, f (θ) es una N (µ0 , τ02 ). A los parámetros de la distribución a priori se le llaman hiperparámetros. En este caso (µ0 , τ02 ) son los hiperparámetros. Ellos a su vez pueden ser también considerados como si fueran variables aleatorias. Para este curso lo consideraremos fijos. Entonces 1 (y − θ)2 (θ − µ0 )2 + f (θ|y) ∝ exp − 2 σ2 τ02 Desarrolle los cuadrados, agrupe terminos en θ2 y en θ: 1 y 2 − 2yθ + θ2 θ2 − 2µ0 θ + µ20 + f (θ|y) ∝ exp − 2 σ2 τ02 2 1 (τ0 + σ 2 )θ2 − 2(yτ02 + µ0 σ 2 )θ ∝ exp − 2 σ 2 τ02 2 1 (σ 2 + τ02 ) 2 yτ0 + µ0 σ 2 ∝ exp − θ −2 θ 2 σ 2 τ02 σ 2 + τ02 Lo que implica que f (θ|y) es normal con Media: µ1 = (yτ02 + µ0 σ 2 )/(σ 2 + τ02 ) Varianza: τ12 = (σ 2 τ02 )/(σ 2 + τ02 ) Inferencia Bayesiana - 37 Introducción a la Inferencia Estadı́stica Observe que la media a posteriori se puede escribir como, (dividiendo numerador y denominador entre σ 2 τ02 ) yτ 2 + µ0 σ 2 µ1 = 0 2 = σ + τ02 1 y + τ12 µ0 σ2 0 . 1 1 + σ2 τ02 Por lo cual, la media a posteriori es el promedio ponderado de la media a priori y la observación. Los ponderadores están dados por las precisiones3 1/σ 2 y 1/τ02 . Cuanto más grande es la precisión de los datos (σ 2 → 0), µ1 → y. También, observe que yτ 2 + µ0 σ 2 = µ0 µ1 = 0 2 σ + τ02 σ2 σ 2 + τ02 +y τ02 σ 2 + τ02 Sume y reste µ0 τ02 /(σ 2 +τ02 ), para comprobar que la media a posteriori se puede escribir también como τ02 µ1 = µ0 + (y − µ0 ) σ 2 + τ02 Media a posteriori es la media a priori “movida” hacia el valor observado. La magnitud del “movimiento” depende de la magnitud relativa de las precisiones. Con respecto a la varianza a posteriori note que (σ 2 + τ02 ) 1 1 1 = = 2+ 2 2 2 2 τ1 σ τ0 σ τ0 lo que muestra que la precisión a posteriori es la suma de la precisión de la distribución a priori más la precisión de la verosimilitud. Considere ahora n observaciones (Y1 , ..., Yn ) intercambiables. Sabemos que Ȳ es suficiente para θ y dado que Ȳ |θ, σ 2 ∼ N(θ, σ 2 /n) nuestros resultados previos pueden ser utilizados remplazando a σ 2 por σ 2 /n: f (θ|y1 , ..., yn ) = f (θ|ȳ) = N (µn , τn2 ) donde µn = 1 µ + σn2 ȳ τ02 0 1 + σn2 τ02 y 1 1 n = 2+ 2 2 τn τ0 σ En µn , la precisión a priori 1/τ02 y la precisión de los datos n/σ 2 son “equivalentes”. Por lo tanto: Con n lo suficientemente grande, (ȳ, σ 2 ) determina la distribución a posteriori. Con τ02 = σ 2 , la distribución a priori se puede considerar como una observación adicional con valor µ0 . 3 La precisión de una variable aleatoria es el inverso de su varianza. Note que cuanto menor es la varianza, mayor es la precisión (σ 2 → 0 ⇒ 1/σ 2 → ∞) y viceversa. 38 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Cuando τ02 → ∞ con n fijo, o cuando n → ∞ con τ02 fijo: f (θ|ȳ) → N (ȳ, σ 2 /n) Este último resultado es de suma importancia para obtener aproximaciones cuando creencias a priori acerca de θ son imprecisas o cuando el tamaño muestral es grande. 3.4. Selección de una distribución a priori En los ejemplos hemos asumido que las distribuciones a priori son dadas. Sin embargo en la “vida real” este no es el caso. Por lo tanto, dado que la distribución a priori juega un papel importante en la estadı́stica Bayesiana, una pregunta obvia es: ¿Cómo elegimos una distribución a priori? Si θ representa el parámetro de interés, la respuesta a la pregunta anterior se halla en la información disponible a priori acerca del comportamiento de θ. Si tenemos información concreta acerca de éste usaremos una distribución a priori que mejor la refleje. Si carecemos de información, o somos indiferentes a la información que podamos tener, acerca del parámetro usaremos distribuciones que reflejen este estado. ¿Cómo se construyen? Se pueden utilizar diferentes criterios y fuentes de información. Algunos criterios son: De una manera totalmente subjetiva. Usando información disponible (e.g., literatura, conocimiento cientı́fico, opiniones de expertos). Conveniencia matemática. También se puede utilizar un argumento asintótico en el sentido de que a medida que el tamaño muestral aumenta, la verosimilitud deberı́a dominar la a posteriori. Dos casos especiales de distribuciones a priori son: Conjugadas. No informativas. Distribuciones a priori conjugadas Definición 3.4.1. Sean F y P dos familias de distribuciones. P es conjugada para F si f (θ) ∈ P y f (y|θ) ∈ F implica f (θ|y) ∈ P . En un ejemplo anterior θ ∼ Gamma y Y |θ ∼Poisson, lo que derivó en que θ|Y ∼Gamma. Por lo cual, la distribución a priori y la a posteriori son dos miembros de la misma familia de distribuciones. Por lo tanto, la familia de distribuciones Gamma es conjugada para la familia de distribuciones Poisson. El cuadro 3.1 muestra ejemplos de familias conjugadas para muestras de tamaño n = 1. Inferencia Bayesiana - 39 Introducción a la Inferencia Estadı́stica Cuadro 3.1: Familias conjugadas (n = 1) f (y|θ) f (θ) f (θ|y) Normal Normal Normal N(θ, σ 2 ) N(µ, τ 2 ) N((yτ02 + µ0 σ 2 )/(σ 2 + τ02 ), (σ 2 τ02 )/(σ 2 + τ02 )) Poisson Gamma Gamma f(θ) G(α, β) G(α + y, β + 1) Gamma Gamma Gamma G(ν, θ) G(α, β) G(α + ν, β + y) Binomial Beta Beta Bin(m, θ) Beta(α, β) Beta(α + y, β + m − y) Bin. negativa Beta Beta BinN(r, θ) Beta(α, β) Beta(α + r, β + y) Normal Gamma Gamma N(µ, 1/θ) G(α, β) G(α + 0, 5; β + (µ − y)2 /2) Distribuciones a priori no informativas Tienen un impacto mı́nimo en la distribución a posteriori al darle mayor peso a los datos. Se las conoce también como vagas, de referencia, objetivas. Distribuciones a priori conjugadas pueden usarse para construir distribuciones de referencia, haciendo que la varianza de la distribución sea lo suficientemente grande. Si y ∼ N (θ, 1), la conjugada natural para θ es N (µ0 , τ02 ). A posteriori es N (µ1 , τ12 ), donde µ1 = µ0 /τ02 + nȳ/σ 2 2 1 , τ1 = 2 2 2 1/τ0 + n/σ 1/τ0 + n/σ 2 Para τ0 → ∞, µ1 → ȳ y τ12 → σ 2 /n. El mismo resultado podrı́a haberse obtenido usando f (θ) ∝ 1. Este último caso se conoce como Zuna distribución a priori impropia, dado que f (θ) no es estrictamente una densidad al darse que 1 dθ = ∞. Se pueden utilizar distribuciones a priori impropias R 40 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica para reflejar total ignorancia a priori acerca de θ. Se debe tener máximo cuidado para verificar que la distribución a posteriori es propia. Es decir, que f (θ|y) es efectivamente una densidad o cuantı́a. Dos ejemplos de distribuciones impropias: Si θ es un parámetro de localización: f (θ) ∝ 1. Si θ es un parámetro de escala: f (θ) ∝ 1/θ. 3.5. Métodos de Inferencia Bayesiana Veremos varios métodos de Inferencia Bayesiana que tienen a su vez su correspondiente en la Inferencia Clásica. Cada uno de estos métodos se puede describir como un problema de decisión donde entre diversas alternativas tenemos que seleccionar una. Para ello, se debe analizar adecuadamente la información con la que se cuenta y decidir de manera razonable sobre la mejor forma de actuar. Se construyen reglas de decisión que nos indican, de entre todas las acciones posibles, cuál seleccionar. Los métodos que veremos son: 1. Estimación por intervalos: encontrar reglas de decisión que nos permitan, una vez observada la muestra, obtener un subconjunto del espacio paramétrico Θ como estimación de θ. 2. Estimación puntual: encontrar reglas de decisión que nos permitan, una vez observada la muestra, asignarle un valor numérico a θ de entre todos los posibles valores en Θ. 3. Contraste de hipótesis: encontrar reglas de decisión que nos permitan, una vez observada la muestra, elegir entre dos hipótesis excluyentes acerca del valor θ. 3.5.1. Estimación por intervalos: Intervalos de credibilidad Toda la información que tenemos acerca de θ está contenida en la distribución a posteriori. Por lo cual, podemos hacer declaraciones en términos de probabilidad acerca de θ, como por ejemplo f (c1 ≤ θ ≤ c2 |y) = 1 − α, donde c1 y c2 son respectivamente los percentiles α1 y 1 − α2 (α1 + α2 = α) de f (θ|y). Al intervalo [c1 , c2 ] se le llama intervalo de credibilidad al (1-α)100 % para θ. La interpretación del intervalo de credibilidad es con una probabilidad del (1-α)100 % el verdadero valor de θ está entre c1 y c2 . Ejemplo 3.5.1. Suponga que Y |θ ∼ N(θ, 9), f (θ) ∝ 1. Anteriormente se encontró que la distribución a posteriori de θ es un N(ȳ, 9/n). Asuma, además, que para una muestra de tamaño 100, se observa que ȳ = 20, 21. Por lo tanto la distribución a posteriori es una N(20,21;0,09). Tomando α = 0, 05, seleccionamos α1 + α2 = α/2, lo cual nos da Inferencia Bayesiana - 41 Introducción a la Inferencia Estadı́stica que el intervalo de credibilidad para θ al 95 % de probabilidad es (19,62;20.8). Esto es P(19, 62 ≤ θ ≤ 20,8|y) = 0, 95. Intervalo de mayor densidad a posteriori Si definimos el intervalo óptimo como el de menor amplitud, buscamos una región donde en todo punto θ∗ que pertenezca a esta región, f (θ∗ |y) ≥ (θ∗∗ |y) con θ∗∗ un punto fuera de la región. En el caso de distribuciones a posteriori unimodales, la región es un intervalo. El intervalo (a, b) es el intervalo de credibilidad de mayor densidad a posteriori al (1-α)100 % para θ si Z b f (θ|y)dθ = 1 − α. 1. a 2. El modo de f (θ|y) pertenece al intervalo. 3. f (a|y) = f (b|y). 3.5.2. Estimación puntual Un método para construir estimadores es encontrar el estimador máximo a posteriori (MAP). Si θ̂ es el estimador MAP de θ, entonces f (θ̂|y) = argmáx f (θ|y). θ Es decir, el MAP de θ es el modo a posteriori. Note que si la distribución a posteriori es multimodal, el estimador no es único. Otra manera de hallar estimadores es introducir un concepto de “óptimo” y encontrar el mejor estimador de θ bajo este concepto. Funciones de pérdida y riesgo Considere un parámetro θ ∈ Θ. Sea θ̂ un estimador de θ. Mediremos la discrepancia entre θ y θ̂ usado una función de pérdida L(θ, θ̂). Formalmente, L : Θ × Θ → R+4 . Ejemplos de funciones de pérdida son L(θ, θ̂) = (θ − θ̂)2 , pérdida de error cuadrático o pérdida cuadrática. L(θ, θ̂) = |θ − θ̂|, pérdida de error absoluto o pérdida absoluta. L(θ, θ̂) = |θ − θ̂|p , pérdida Lp . L(θ, θ̂) = I[θ=θ̂] , pérdida 0-1. 4 Tomamos las pérdidas como positivas, una pérdida negativa será una ganancia. Por lo cual, se podrı́a también definir todo en términos de funciones de utilidad. 42 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Definición 3.5.1. El riesgo clásico de un estimador θ̂ se define como Z ∞ R(θ, θ̂) = Eθ (L(θ, θ̂)) = L(θ, θ̂(y))f (y|θ)dy −∞ donde θ̂(y) se usa para enfatizar que θ̂ es una función de las observaciones. Observación 3.5.1. El riesgo clásico es una función de θ, por cual estamos comparando funciones. Esto lleva a que pueda no existir un estimador de θ que sea uniformente mejor. Por ejemplo, bajo pérdida cuadrática, si θ̂1 y θ̂2 son dos estimadores de θ, con R(θ, θ̂1 ) ≤ R(θ, θ̂2 ) si θ ∈ Θ0 y R(θ, θ̂1 ) ≥ R(θ, θ̂2 ) si θ ∈ Θc0 entonces no se puede decidir cuál es mejor entre θ̂1 y θ̂2 a menos que se sepa en qué región de Θ se encuentra el verdadero valor de θ. Esto hace que si pudiéramos reducir el riesgo de un estimador a un número la elección serı́a clara. Definición El riesgo de Bayes de un estimador θ̂ se define como Z r(f, θ̂) = R(θ, θ̂)f (θ)dθ Θ donde f (θ) es la distribución a priori de θ. O sea, el riesgo de Bayes es el valor esperado, con respecto a la distribución a priori de θ, del riesgo clásico. Note que para un mismo estimador θ̂, si cambiamos la distribución a priori el riesgo de Bayes también cambia dado que es una función de f (θ). Definición 3.5.2. Al estimador θ̂ que minimiza el riesgo de Bayes se le llama el estimador o regla de Bayes. Formalmente, θ̂ es la regla de Bayes con respecto a la distribución a priori f si r(f, θ̂) = ı́nf r(f, θ̃). θ̃ Definición 3.5.3. Para un estimador θ̂ de θ, su riesgo a posteriori se define como Z r(θ̂|y) = L(θ, θ̂)f (θ|y)dθ. Θ Esto es, es el valor esperado de la función de pérdida con respecto a la distribución a posteriori de θ habiéndose observado y. Teorema 3.5.1. Sea θ̂ el valor de θ que minimiza r(θ̂|y). Entonces, θ̂ es la regla de Bayes. Teorema 3.5.2. El estimador de Bayes de θ, 1. Bajo función de pérdida cuadrática, es E(θ|y), la esperanza de la distribución a posteriori. 2. Bajo función de pérdida absoluta, es la mediana de la distribución a posteriori. 3. Bajo función de pérdida 0-1, es el MAP. Inferencia Bayesiana - 43 Introducción a la Inferencia Estadı́stica Ejemplo 3.5.2. Dada una muestra de tamaño n de v.a. intercambiables con Yi |θ ∼ Ber(θ) y θ ∼ Beta(α, β), la tabla de distribuciones conjugadas muestra que θ|y ∼ Beta(y + α, n − y + β), con y = n X yi . Esto implica que el estimador de Bayes de θ es i=1 θ̂ = E(θ|y) = α+y . α+β+n Note que el estimador de Bayes se puede escribir de la siguiente manera: θ̂ = n α+β α ȳ + . α+β+n α+β+n α+β Esto es, el estimador de Bayes es el promedio ponderado entre la media muestral y la n α+β media a priori. Note que los pesos respectivos son y . Para valores α+β+n α+β+n grandes de n, el estimador de Bayes está cercano a la media muestral ȳ. Esto indica α que α y β deberı́an ser seleccionados no solo para que sea la media a priori, α+β sino también para que la suma α + β indique el peso que tiene la información a priori en relación al tamaño de la muestra. Esto es, si por ejemplo, queremos que nuestra creencia a priori tenga el mismo peso que una muestra de tamaño 20, seleccionaremos α + β = 20. Si nuestra media a priori es 0,75, entonces seleccionaremos α = 15 y β = 5. Observación 3.5.2. De lo anterior se desprende que el estimador de Bayes de g(θ) bajo pérdida cuadrática, es Z g(θ)f (θ|y dθ. E(g(θ)|y) = Θ Ejemplo 3.5.3. En el ejemplo anterior, si asumimos α = β = 1, tenemos que θ|y ∼ Beta(y + 1, n − y + 1). Si deseamos estimar θ(1 − θ), la varianza de Yi |θ, calculamos E(θ(1 − θ)|y) = E(θ − θ2 |y) = E(θ|y) − E(θ2 |y) = E(θ|y) − Var(θ|y) + [E(θ|y)]2 Note que si X ∼ Beta(α, β): 2 E(X) − Var(X) + [E(X)] α αβ = − − 2 α + β (α + β) (α + β + 1) αβ = . (α + β)(α + β + 1) α α+β 2 Por lo cual, el estimador de Bayes de θ(1 − θ), con respecto a la a priori f (θ) = 1, es E(θ(1 − θ)|y) = (y + 1)(n − y + 1) (n + 2)(n + 3) 44 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Error de estimación Para un estimador daremos una medidad de su variabilidad para expresar la precisión de nuestras estimaciones. La medida que daremos es el riesgo a posteriori del estimador. Bajo pérdida cuadrática, el riesgo a posteriori es la varianza a posteriori del estimador. Si θ̂ es la media a posteriori E(θ|y), su varianza es simplemente la varianza a posteriori de θ. 3.5.3. Prueba de Hipótesis 3.5.4. Contraste de hipótesis Contraste de hipótesis es un procedimiento relativamente simple en Inferencia Bayesiana. Suponga que se desea contrastar H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θ1 , Θ0 ∩ Θ1 = ∅ y Θ0 ∪ Θ1 ⊆ Θ5 (note que las hipótesis son disjuntas pero no necesitan ser complementarias, pero trabajaremos con hipótesis complemantarias Θ0 ∪Θ1 = Θ). Si no se favorece a priori ninguna de las hipótesis, esto es P(H0 ) = P(H1 ) = 0, 5, entonces lo único que hay que hacer es comparar las probabilidades a posteriori de los subconjuntos de Θ especificados en las diferentes hipótesis. Esto es, con α0 = P(θ ∈ Θ0 |y) y α1 = P(θ ∈ Θ1 |y), si α0 > α1 ⇒ no rechazo H0 α0 < α1 ⇒ rechazo H0 Ejemplo 3.5.4. Suponga que Y1 , . . . , Y5 son v.a. intercambiables con Yi ∼ N (θ, 4). Asuma como distribución a priori una N(3,1). Se observa en la muestra obtenida ȳ = 1, 25. Por lo tanto, la distribución a posteriori de θ es una N(2,0278;0,4444). Se desea poner a prueba H0 ) θ < 3 contra H1 ) θ > 3 α0 = P(θ < 3|y) = φ 3 − 2, 0556 √ 0, 4444 = Φ(1, 416671) = 0, 9217 α1 = P(θ > 3|y) = 1 − Φ(1, 416671) = 0, 0783. Por lo cual, no rechazamos H0 , dado que α0 > α1 . Note que a priori P(θ < 3) = P(θ > 3) = 0, 5. Una medida que podemos calcular es el odds a posteriori, el cociente entre α0 y α1 : α0 0, 9217 = = 11, 77. α1 0, 0783 Esto significa que a posteriori H0 es 11 veces más probable de ser cierta que H1 . 5 A la hipótesis H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa. Inferencia Bayesiana - 45 Introducción a la Inferencia Estadı́stica Factor de Bayes Asumiendo que las hipótesis son complementarias, se pueden cometer dos tipos de error: Rechazar H0 cuando es cierta. Rechazar H1 cuando es cierta. En prueba de hipótesis Bayesiana no existe un concepto de “peor error”, en el sentido que es más costoso para el investigado rechazar una de ellas cuando esta es cierta. Una manera de introducir el concepto de peor error es asociarle a la hipótesis que reflejarı́a este una probabilidad a priori mayor para expresar nuestra creencia de que esa hipótesis representa el estado actual de la naturaleza. Cuando las probabilidades a priori asignadas a H0 y H1 son desiguales, tenemos que también tenerlas en cuenta. Sea πi = f (Hi ), la probabilidad asignada a Hi , i = 0, 1, bajo la distribución a priori. Defina αi = f (Hi |y), i = 1, 0, como las correspondientes probabilidades bajo la distrtibución a posteriori. Definición 3.5.4. Al cociente α0 /α1 se le llama el odds a posteriori de H0 sobre H1 y al cociente π0 /π1 se le llama el odds a priori. A la cantidad B10 = α1 π0 α1 /α0 = π1 /π0 α0 π1 se le llama el factor de Bayes en favor de H1 . El factor de Bayes es el odds ratio entre los odds a posteriori y a priori. Lo que mide el factor de Bayes es el cambio en los odds entre H0 y H1 antes y después de haber observado Y = y. Para decidir se utiliza la siguiente escala, la cual está definida en base log10 con el fin de que la escala sea simétrica. Esto es, log10 B10 = − log10 B01 : log10 B10 <0 0 a 0,5 0,5 a 1 1a2 >2 Fuerza de la evidencia despreciable pobre sustancial fuerte decisiva Ejemplo 3.5.5. Continuando con el ejemplo anterior, suponga que se desea poner a prueba H0 ) θ < 1 contra H1 ) θ > 1. En este caso π0 = 0, 0228, π1 = 0, 9772, α0 = 0, 0567 y α1 = 0, 9433. Entonces el factor de Bayes es B10 = 0, 3885, y log10 B10 = −0,4106 lo cual nos lleva a no rechazar la hipótesis nula. Observaciones Note que en prueba de hipótesis no es posible usar distribuciones a priori impropias. El factor de Bayes existe solo si π0 6= 0 y π1 6= 0. Si, por ejemplo, π1 = 0 nunca rechazaremos H0 independientemente de lo que observemos, dado que H1 es a priori un evento imposible. 46 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Si Θ es un espacio continuo, la observación anterior muestra que no se puede utilizar una distribución a priori absolutamente continua para poner a prueba H0 ) θ = θ0 . Esta distribución a priori asignará probabilidad 0 al suceso θ = θ0 . Para solucionar esto, tenemos dos alternativas: 1. Cambiar la hipótesis nula a H0 ) θ ∈ (θ0 −ε, θ0 +ε), para algún ε > 0 lo “suficientemente pequeño”. O sea, la hipótesis nula es ahora el conjunto de valores de θ que son desde un punto de vista práctico, para el investigador, indistinguibles de θ0 . 2. Usar una distribución a priori que sea la composición de una distribución que asigna probabilidad positiva π0 al suceso θ = θ0 y una densidad que asigne probabilidad π1 = 1 − π0 sobre H1 . Este caso no lo trataremos en este curso. Una manera alternativa de probar hipótesis simples versus compuesta, en algunos casos particulares, es la descrita en la siguiente sección. 3.6. Selección de Modelos Suponga que un conjunto de K modelos M = {M1 , . . . , MK } están en consideración para un conjunto de observaciones Y. Bajo el modelo Mk , Y se distribuye según f (y|θk , Mk ), donde θk es un vector de parámetros desconocidos que indexa a los miembros de Mk (aún cuando nos referimos a Mk como modelo, es más precisamente una clase de modelos). Se le asigna una distribución a priori f (θk |Mk ) a los parámetos de cada modelo y una probabilidad a priori f (Mk ) a cada modelo. Este proceso implica tres pasos, primero con probablidad f (Mk ) seleccionamos el modelo Mk , con este generamos los valores de θk a través de f (θk |Mk ) y por último generamos los datos Y usando f (y|θk , Mk ). Nuestro interés se centra en hallar f (Mk |y). Para ello note que la distribución conjunta de Mk , θk y Y está dada por f (Mk , θk , y) = f (y|θk , Mk )f (θk |Mk )f (Mk ). Por lo cual, Z f (y|θk , Mk )f (θk |Mk )f (Mk )dθk . f (Mk , y) = Θk y en consecuencia f (Mk |y) = f (Mk , y) ∝ f (Mk , y) ∝ f (y|Mk )f (Mk ). f (y) Para decidir, calculamos el factor de Bayes para cada par (Mi , Mj ), i, j = 1, . . . , K y en base a estos factores decidimos cuál es el mejor modelo que se ajusta a los datos. Esto es, seleccionamos el modelo Mk que tiene mayor odds de haber generado los datos y. En el caso particular que f (MK ) = 1/K, ningún modelo es preferible a priori, el problema se reduce a seleccionar el modelo Mk que tenga mayor probabilidad a posteriori, Mk = argmáx f (Mk |y). k Dado que el factor de Bayes, por ejemplo, entre el modelo Mk y Ml es Bkl = f (Mk |y)f (Ml ) f (Mk |y) f (y|Mk ) = ∝ , f (Ml |y)f (Mk ) f (Ml |y) f (y|Ml ) Inferencia Bayesiana - 47 Introducción a la Inferencia Estadı́stica alcanza con comparar las funciones de verosimilitud de y dado cada uno de los diferentes modelos. Note que esto es similar al estadı́stico de razón de verosimilitudes clásico. Ejemplo 3.6.1. Suponga el caso en que tenemos dos modelos M1 y M2 . A priori asignamos f (M1 ) = f (M2 ) = 0, 5. M1 es una Bernoulli(0,5) y M2 es una Bernoulli(θ), donde θ es desconocida. θ|M2 ∼ Uniforme(0,1). Suponga, además, que n = 200 y se observaron 115 éxitos. La verosimilitud, bajo cualquier modelo, puede se calculada usando una Binomial(n, θ). Entonces, tenemos que para el Modelo 1, 200 f (y|M1 ) = 0, 5200 = 0, 005955892; 115 en el Modelo 2, Z f (y|M2 ) = 0 1 200 115 θ (1 − θ)85 dθ = 0, 004975124; 115 Por lo cual, el factor de Bayes da 0,8353281 con log10 B21 = −0,07814291, lo que apunta a quedarnos con el Modelo 1. 3.7. Modelos multiparámetro La mayorı́a de las situaciones “reales” requieren modelos con más de un parámetro. Por lo general, estamos interesados solamente en uno o en un subconjunto de ellos. En el enfoque Bayesiano las inferencias se basan en la distribución a posteriori marginal de los parámetros de interés. Los parámetros que no son de interés son llamados parámetros de ruido (nuisance parameters). Considere un modelo con dos parámetros (θ1 , θ2 ) ∈ Θ× Θ2 , por ejemplo, una distribución normal con media y varianza desconocidad. Estamos solamente interesados en θ1 , por lo tanto θ2 es un parámetro de ruido. La distribución a posteriori marginal de interés es f (θ1 |y), la cual puede ser obtenida directamente usando la distribución a posteriori conjunta: f (θ1 , θ2 |y) ∝ f (θ1 , θ2 )f (y|θ1 , θ2 ) integrando con respecto a θ2 : Z f (θ1 |y) = Z f (θ1 , θ2 |y)dθ2 = Θ2 f (θ1 , |θ2 , y)f (θ2 |y)dθ2 Θ2 La distribución marginal de θ1 es un composición de condicionales en θ2 , o un promedio ponderado de la condicional evaluada en diferentes valores de θ2 donde los pesos estan dados por la marginal f (θ2 |y). Este es un enfoque diferente al frequentista, donde se sustituye el verdadero valor del parámetro de ruido por su estimación máximo verosimil. Al promediar condicionalmente f (θ1 , |θ2 , y) sobre todos los valore posibles de θ2 , explicitamente reconocemos nuestra incertidumbre acerca de θ2 . Considere los siguientes dos casos extremos: 48 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 1. Seguridad casi absoluta acerca del valor de θ2 : Si a priori observaciones son muy “informativas” acerca de θ2 , la distribución marginal f (θ2 |y) estará concentrada alrededor de algún valor θ̂2 . En ese caso, f (θ1 |y) ≈ f (θ1 |θˆ2 , y). 2. Extrema incertidumbre acerca de θ2 : la distribución marginal f (θ2 |y) asignará relativamente alta probabilidad en un gran rango de valores de θ2 . Estimador puntual θ̂2 es poco “confiable”. Por lo tanto, es importante promediar sobre el recorrido de θ2 . Ejemplo 3.7.1. Suponga que se tienen n observaciones intercambiables Yi |µ, σ 2 ∼ N(µ, σ 2 ), ambas desconocidas. Asumiendo independencia a priori, tomamos como distribución conjunta a priori: f (µ, σ 2 ) ∝ 1 × σ −2 . La a posteriori conjunta: n 1 X f (µ, σ 2 |y) ∝ f (µ, σ 2 )f (y|µ, σ 2 ) ∝ σ −n−2 exp − 2 (yi − µ)2 2σ i=1 Dado que n X i=1 (yi −µ)2 = n X (yi − ȳ)2 +n(ȳ −µ)2 y con s02 = i=1 ! n 1 X (yi − ȳ)2 , podemos n − 1 i=1 escribir la a posteriori de (µ, σ 2 ) de la siguiente manera 1 2 −n−2 02 2 f (µ, σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] 2σ A partir de esta fórmula podemos calcular la distribución condicional a posteriori de µ|σ 2 , y n f (µ|σ 2 , y) ∝ exp − 2 (ȳ − µ)2 . 2σ que es el núcleo de una distribución N (ȳ, σ 2 /n). Este resultado habı́a sido obtenido anteriormente, cuando calculamos la a posteriori de la media de una distribución normal cuya la varianza es conocida. Para obtener f (σ 2 |y) necesitamos integrar f (µ, σ 2 |y) sobre el recorrido de µ: Z 1 2 −n−2 02 2 f (σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] dµ 2σ Z n (n − 1)s02 −n−2 2 = σ exp − exp − (ȳ − µ) dµ 2σ 2 2σ 2 (n − 1)s2 p −n−2 = σ exp − 2πσ 2 /n 2σ 2 Por lo tanto, 2 2 − f (σ |y) ∝ (σ ) (n+1) 2 (n − 1)s02 exp − , 2σ 2 Inferencia Bayesiana - 49 Introducción a la Inferencia Estadı́stica lo cual es proporcional a la función de densidad de una χ2 inversa reescalada con (n−1) grados de libertad y parámetro de escala s2 . Note la similaridad con el resultado clásico: Condicional en σ 2 , la distribución de la estadı́stica suficiente reescalada (n − 1)S 02 /σ 2 se distribuye χ2n−1 . En el caso del modelo normal, también podemos hallar la marginal f (µ|y) analı́ticamente: n/2+1 Z Z 1 1 2 2 02 2 f (µ|y) = f (µ, σ |y)dσ ∝ exp − 2 [(n − 1)s + n(ȳ − µ) ] dσ 2 2σ 2 2σ Tomando A = (n − 1)s02 + n(ȳ − µ)2 y usando la transformación A z = 2, 2σ tenemos que A dσ 2 =− 2 dz 2z y Z ∞ n +1 Z n z 2 A −n/2 f (µ|y) ∝ exp(−z)dz ∝ A z 2 −1 exp(−z)dz 2 A z 0 El integrando es el núcleo de una Gamma(n/2, 1), por lo tanto la integral es constante con respecto a µ. Entonces, −n/2 n(µ − ȳ)2 −n/2 02 2 −n/2 f (µ|y) ∝ A = (n − 1)s + n(ȳ − µ) ∝ 1+ (n − 1)s02 que es a su vez el núcleo de una distribución t con n − 1 grados de libertad, centrada en ȳ y con parametro de escala s02 /n. Por lo cual tenemos que, µ − ȳ √ y ∼ tn−1 . s0 / n Utilizando f (µ|y) y f (σ 2 |y) podemos hacer inferencias individuales acerca de µ y σ 2 respectivamente. Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Chipman, H., George, E. y McCulloch, R. (2001) The practical implementation of Bayesian model selection. IMS Lectures Notes - Monograph Series. Hogg, R., McKean, J. y Craig, A. (2005) Introduction to mathematical statistics. Pearson Prentice Hall. Mukhopadhyay, N (2000) Probability and statistical inference. Marcel Dekker. Roberts, C. (2001) The Bayesian Choice. Springer. Stapleton, J. (2008) Models for probability and statistical inference. Wiley-Interscience. 50 - Inferencia Bayesiana CAPÍTULO 4 ESTIMACIÓN PUNTUAL 4.1. Introducción Tenemos X1 , . . . , Xn variables aleatorias iid que tienen una distribución en común dada por f (x), x ∈ X . n se asume conocido y se le llama el tamaño de la muestra. Se asume además que f está caracterizada por un parámetro θ. La importancia de θ, es que una vez que conocemos su valor, la distribución f (x) estará totalmente determinada. Es por eso que usamos la notación f (x|θ), para hacer explı́cita la dependencia en θ de f . Suponemos que θ es fijo, pero desconocido, el cual toma valores en el espacio paramétrico Θ ⊆ Rk . El propósito de este capı́tulo es encontrar reglas de decisión que nos permitan, una vez observada la muestra, asignarle un valor numérico a θ de entre todos los posibles valores especificados en Θ. Primero daremos el concepto de estimador del parámetro de la distribución y formas de construirlo. Dado que diferentes métodos de construcción pueden llevar a estimadores diferentes, se definirán algunos criterios parar comparar su perfomance y dado un criterio para definir “el mejor”, se tratará bajo este encontrar el mejor estimador de θ . Definición 4.1.1. Un estimador o estimador puntual de un parámetro desconocido θ es una función T = T (X1 , . . . , Xn ) que depende solo de las observaciones X1 , . . . , Xn . Esto es, T es un ~ = ~x, el valor numérico de estadı́stico. Una vez que una muestra en particular es observada, X ~ ~ T (X), T (~x), es calculable. Distinguimos entre T = T (X) y t = T (~x) refiriéndonos a ellos como el estimador y la estimación de θ respectivamente. El estimador es una variable aleatoria y la estimación es el valor numérico que toma esta una vez observada la muestra. La definición establece que cualquier estadı́stico es un estimador. Por ejemplo, X̄n , Sn2 , X(1) y X(n) son estimadores. En lo que refiere a la notación usaremos θ̂ para representar tanto a un estimador de θ como a su correspondiente estimación. Basado en el contexto se discrimina qué es lo que se está representando con θ̂. Es de notar que este abuso de notación enmascara además el hecho de que formalmente, 51 Introducción a la Inferencia Estadı́stica cuando nos referimos al estimador, θ̂ es una función de X1 , . . . , Xn y representa por lo tanto a ~ para representar al una variable aleatoria. Cuando haya ambigüedad, usaremos la notación θ̂(X) estimador de θ. 4.2. Métodos para construir estimadores Hasta este punto, la única restricción que tenemos es que T tiene que ser un estadı́stico para ser candidato a ser llamado un estimador. Presentaremos dos métodos para construir estimadores: el método de los momentos y el método de máxima verosimilitud. 4.2.1. Método de los Momentos Suponga que θ = (θ1 , . . . , θk ). Obtenemos los k primeros momentos ordinarios teóricos de la distribución f (x|θ) y pretendemos que son iguales a los correspondientes momentos ordinarios muestrales. En consecuencia, obtenemos un sistema de k ecuaciones en k incógnitas θ1 , . . . , θk . Resolvemos simultáneamente estas k ecuaciones y las soluciones para θ1 , . . . , θk son los correspondientes estimadores por el método de los momentos. Al correspondiente estimador lo representaremos como θ̂M M . Ejemplo 4.2.1. Sean X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), donde θ es desconocido, 0 < θ < 1. Sabemos que E(X) = θ y M1 = X̄n . Por lo tanto, establecemos que ~ = X̄n es el estimador E(X) = M1 , lo que implica que θ = X̄n . Entonces, θ̂M M = T (X) por el método de los momentos de θ. Ejemplo 4.2.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R y σ 2 > 0 son desconocidos. Sabemos que E(X) = µ, E(X 2 ) = µ2 + σ 2 , M1 = X̄n y n 1X 2 X . Establecemos que M2 = n i=1 i n E(X) = µ = X̄n = M1 E(X 2 ) = µ2 + σ 2 = 1X 2 X = M2 . n i=1 i Al resolver este sistema, nos queda que n µ̂M M = X̄n y 2 σ̂M M = 1X 2 X − X̄n2 = Sn2 . n i=1 i Si cualquiera de los momentos E(X k ) no depende de θ, se trabaja con k momentos que dependan de θ. La elección de qué momentos utilizar es totalmente arbitraria. Esto lleva a que los estimadores por el método de los momentos no sean únicos. 52 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.2.3. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(−θ, θ), θ ∈ R+ . Sabemos que E(X) = 0, por lo cual la ecuación E(X) = M1 no tiene sentido. En este caso debemos buscar un valor de k para el cual E(X k ) dependa de θ. Por ejemplo, E(X 2 ) = θ2 /3. Entonces, establecemos que n θ 1X 2 E(X 2 ) = = X = M2 3 n i=1 i 2 ⇒ θ̂M M v u n u3 X =t X 2. n i=1 i Ejemplo 4.2.4. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ ∈ R+ . Sabemos que tanto E(X), como Var(X) son iguales a θ. Esto nos permite armar dos sistemas diferentes uno con E(X) = M1 y el otro con E(X 2 ) = M2 . Entonces, para cada ecuación obtendremos un estimador de θ diferente: E(X) = M1 ⇒ θ = X̄n ⇒ θ̂M M = X̄n . ⇒ θ + θ2 = M2 i p 1h −1 ± 4M2 + 1 θ̂ = 2 ⇒ θ + θ2 − M2 = 0 i p 1h −1 + 4M2 + 1 θ̂M M = 2 E(X 2 ) = M2 ⇒ ⇒ i h p dado que 0, 5 −1 − 4M2 + 1 < 0 y por lo tanto, no pertenece a Θ. El método de los momentos es una manera sencilla de construir estimadores. Sin embargo, los estimadores obtenidos pueden, en determinadas situaciones, llevarnos a que la estimación de θ no se encuentre dentro del espacio paramétrico. Ejemplo 4.2.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . Sabemos que E(X) = θ/2, por lo cual θ̂M M = 2X̄n . Suponga, que sacamos una muestra de tamaño 4 y observamos (1,1,1,4). Si calculamos X̄n para esta muestra obtenemos que x̄4 = 1,75, los que nos lleva a que θ̂M M = 3, 5. El recorrido de la variable X es el intervalo (0, θ), por lo cual P(X > θ)=0. Basándonos en que observamos un 4, sabemos que el espacio paramétrico es de la forma (a, +∞), donde a ≥ 4. Por lo cual, 3,5 ∈ / Θ y por ende no es un valor aceptable para θ. Estimación Puntual - 53 Introducción a la Inferencia Estadı́stica 4.2.2. Función de verosimilitud Dado un modelo probabilı́stico y valores para los parámetros, podemos derivar una descripción de los datos en términos de la probabilidad de que estos ocurran. En base a este conocimiento podemos, de manera deductiva, derivar las consecuencias de determinados supuestos. Por ejemplo, suponga que realizamos un experimento Binomial con n = 10 y θ = 1/3, si X representa el número de éxitos entonces Pθ (X = 8) = 0, 003. Esto significa que si repetimos 10.000 veces el experimento, esperamos observar alrededor de 30 experimentos donde se observan 8 éxitos. Ahora suponga que tiramos una moneda 10 veces y observamos X = 8 caras. Basándonos en solo esta información, ¿cuál es el valor de θ, la probabilidad de observar cara? (Esto es, no sabemos nada acerca de θ antes de realizar el experimento.) La información acerca de θ no es completa, por lo cual habrá cierta incertidumbre. Sin embargo, sabemos que θ no puede ser cero y es poco razonable que su valor sea muy pequeño. Esto lo podemos deducir dado que si esto pasa, Pθ (X = 8) es cero o muy pequeña. En contraste, θ = 0, 6 o θ = 0, 7 son más verosı́miles dado que Pθ=0,6 (X = 8) = 0, 1209 o Pθ=0,7 (X = 8) = 0, 2335. Por lo tanto, tenemos una manera deductiva de comparar diferentes valores de θ: comparar la probabilidad de los datos observados bajo diferentes valores de θ. Como función del parámetro desconocido, a la función L(θ|8) = Pθ (X = 8) se le llama la función de verosimilitud de x = 8. El gráfico 4.1 muestra que, dado que x = 8, θ es poco verosı́mil que sea menor que 0,5 o mayor que 0,95. Es más verosı́mil que θ esté entre esos dos valores. Dado que observamos x = 8, y ninguna otra información adicional, valores de θ entre 0,5 y 0,95 deberı́an ser preferibles. Está claro que no sabemos cuál es el verdadero valor de θ , pero hemos capturado la información que la muestra nos provee acerca de qué intervalo de valores es más verosı́mil. Figura 4.1: Verosimilitud para x = 8 Definición 4.2.1. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ), θ ∈ Θ ⊂ Rk . Sea X el espacio 54 - Estimación Puntual Introducción a la Inferencia Estadı́stica muestral. Para ~x = (x1 , . . . , xn ) ∈ X , a la función L(·|~x) : Θ → R+ , definida como L(θ|~x) = fX1 ,...,Xn (~x|θ) = n Y f (xi |θ) θ ∈ Θ, i=1 se le llama la función de verosimilitud de ~x. Ejemplo 4.2.6. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Para ~x tal que n X xi ∈ {0, 1, . . . , n} i=1 L(θ|~x) = fX~ (~x|θ) = n Y n P xi 1−xi θ (1 − θ) =θ i=1 xi n− (1 − θ) n P i=1 xi I[θ∈(0,1)] . i=1 X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n} Note que este es exactamente el ejemplo 2.2.2. En los cálculos no hay ningún cambio, solo en la interpretación de la función. Lo cual se refleja en el factor I[θ∈(0,1)] . Observación 4.2.1. La función de verosimilitud no es una función de densidad o cuantı́a. Mide la evidencia contenida en la muestra acerca de cada posible valor del parámetro. Si comparamos valores de la función de verosimilitud en dos valores del parámetro, θ1 y θ2 , y encontramos que L(θ1 |~x) > L(θ2 |~x), entonces la muestra que observamos es más probable que haya ocurrido cuando θ = θ1 que cuando θ = θ2 . Esto es interpretado como que θ1 es más verosı́mil que θ2 . Ejemplo 4.2.7. Sea X ∼ Poisson(θ). Se sabe que en un proceso donde se fabrican pisos flotantes se utilizan dos máquinas, la máquina A y la B. La máquina A tiende a producir en promedio 4 fallas por cada 10m2 , mientras que la B produce en promedio 8 fallas. Se elige al azar un lote de 10m2 producidos y se observa que tiene 6 fallas. La función de verosimilitud, para esta sola observación es e−θ θ6 /6!, donde θ = 4 si la pieza fue fabricada por la máquina A u 8 si la pieza fue fabricada por la máquina B. L(4|6) = 0,104196 < 0,122138 = L(8|6). Por lo tanto, habiéndose observado 6 fallas, es más verosı́mil que la pieza haya sido fabricada por la máquina B. Ejemplo 4.2.8. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ). En este caso θ = (µ, σ 2 ) ∈ R × R+ . Con ~x = (x1 , . . . , xn ) ∈ X = Rn , ( ) n n X Y 1 1 1 √ exp − 2 (xi − µ)2 = (2πσ 2 )−n/2 exp − 2 (xi − µ)2 L(µ, σ 2 |~x) = 2 2σ 2σ 2πσ i=1 i=1 Estimación Puntual - 55 Introducción a la Inferencia Estadı́stica Observación 4.2.2. La verosimilitud se puede definir para otros esquemas de muestreo que no garanticen necesariamente independencia e idéntica distribución. Por ejemplo, suponga que Y1 , . . . , Yn son v.a. que dadas ciertas constantes x1 , . . . , xn , se tiene que Yi = β0 + β1 xi + εi . Donde ε1 , . . . , εn son v.a iid con distribución común N(0, σ 2 ), β0 ∈ R y β1 ∈ R. De esto se desprende que Yi ∼ N(β0 + β1 xi , σ 2 ), i = 1, . . . , n. Note que las Yi son independientes pero no idénticamente distribuidas, ya que su valor esperado es una función de xi . La distribución de Yi depende de tres parámetros β0 , β1 y σ 2 , por lo cual para ~y = (y1 , . . . , yn ) 2 L(β0 , β1 , σ |~y ) = n Y fYi (yi |β0 , β1 , σ 2 ) i=1 n Y 1 2 √ exp − 2 [yi − (β0 + β1 xi )] = 2σ 2πσ 2 i=1 ) ( n 1 X 2 2 −n/2 [yi − (β0 + β1 xi )] = (2πσ ) exp − 2 2σ i=1 4.2.3. 1 Estimadores máximo verosimiles Supongan que nos regalan una bolsa de caramelos M&M’s. Nos dicen que la proporción de caramelos de distinto color es la misma pero no nos dicen de cuántos colores distintos pueden ser los caramelos. Deseamos estimar el numero k de colores diferentes. Supongamos que escogemos tres caramelos y observamos: verde, blanco, verde (x1 = V BV ). ¿Cuál es la probabilidad de observar este resultado en particular si sabemos que hay k colores diferentes? Dado que solo estamos interesados en los colores, a esta probabilidad la podemos calcular de la siguiente manera P(x1 |k) = P(el segundo6= al primero)P(el tercero = al primero) k−11 = k k k−1 = k2 El valor de P (x1 |k) es nuestra función de verosimilitud L(k|V BV ). Si la evaluamos para diferentes valores de k, tenemos k L(k|V BV ) 2 0,25 3 0,22 4 0,1875 5, . . . decreciente en k El valor de k que maximiza la probabilidad de haber observado la muestra que realmente se observó es 2. Que hayamos observado la muestra V BV nos indica que el número de colores en la bolsa que es más verosı́mil es 2. Con lo cual esta es la estimación más verosı́mil de k. Suponga que sacamos otro caramelo. Esto es, ahora tenemos una muestra de tamaño n = 4. Suponga además que el color del caramelo extraı́do es naranja. Por lo tanto, nuestra muestra es x2 = V BV N . Con similar razonamiento que en el cálculo anterior, usando que el cuarto caramelo es de un color distinto a los sacados anteriormente, la función de verosimilitud L(k|V BV N ) ahora será k−11k−2 (k − 1)(k − 2) = . P(x2 |k) = k k k k3 56 - Estimación Puntual Introducción a la Inferencia Estadı́stica k L(k|V BV N ) 3 0,0741 4 0,0938 5 0,096 6 0,0926 7 0,0875 8, . . . decreciente en k En este caso, basado en haber observado V BV N , el valor más verosı́mil para k es 5. De esta manera podemos ir hallando estimaciones para k, buscando el valor de k que maximiza la probabilidad de observar a priori la muestra que se obtuvo. Habiendo construido la función de verosimilitud, escogemos como estimación de k el valor del parámetro que maximiza dicha función. A la estimación hallada de esta manera la llamaremos estimación máximo verosı́mil. Definición 4.2.2. Sea X ∼ f (·|θ). Definimos las siguientes condiciones de regularidad sobre f : C1 - Si θ 6= θ0 ⇒ f (x|θ) 6= f (x|θ0 ). C2 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ. C3 - El verdadero valor de θ, θ0 , es un punto interior de Θ. Teorema 4.2.1. Sea θ0 el verdadero valor de θ. Bajo las condiciones de regularidad ~ > L(θ|X)) ~ = 1 ∀θ 6= θ0 . lı́m Pθ0 (L(θ0 |X) n→∞ Este teorema justifica utilizar el valor que maximiza la función de verosimilitud como estimación de θ. Este razonamiento se extiende a los casos donde no se cumple alguna de las condiciones de regularidad. Definición 4.2.3. Decimos que θ̂M V = T (X1 , . . . , Xn ) es el estimador máximo verosı́mil de θ si θ̂M V = Argmáx L(θ|~x). O sea, L(θ̂M V |~x) = máx L(θ|~x). θ∈Θ En lo que respecta a la definición no existe ninguna directiva de qué método matemático utilizar para hallar el máximo de L(θ|~x). Si L(θ|~x) es diferenciable dos veces, podemos utilizar las técnicas estándar de cálculo diferencial para hallar θ̂M V . En este último caso, a veces es más fácil trabajar con el logaritmo de la función de verosimilitud, dado que al ser el logaritmo una función creciente tiene exactamente los mismos puntos crı́ticos que L(θ|~x). Al logaritmo de L(θ|~x) lo denotaremos l(θ|~x). Ejemplo 4.2.9. Continuación ejemplos 4.2.1 y 4.2.6. Con t = n X Xi , la función de i=1 verosimilitud es θt (1 − θ)n−t . Por lo tanto, l(θ|~x) = t log θ + (n − t) log(1 − θ). Entonces, t n−t t − nθ t d l(θ|~x) = − = = 0 ⇒ θ̂ = = X̄n . dθ θ 1−θ θ(1 − θ) n Estimación Puntual - 57 Introducción a la Inferencia Estadı́stica d log l(θ|~x) depende solo de (X̄n − θ), es fácil comprobar que dθ d2 el punto crı́tico hallado es un máximo. Alternativamente, calculamos 2 log l(θ|~x) = dθ −t/θ2 − (n − t)/(1 − θ)2 < 0, ∀θ. Dado que el signo de La figura 4.2 muestra la figura 4.1 donde se ha marcado la estimación máximo verosı́mil de θ. En ese caso tenı́amos n = 10 y t = 8; con lo cual, x̄n = 0, 8. Figura 4.2: Estimador máximo verosı́mil de θ Ejemplo 4.2.10. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es desconocida y σ 2 > 0 es conocida. En este caso θ = µ ∈ R. Usando L(µ, σ 2 |~x) descrita en el ejemplo 4.2.8, tenemos que n n 1 X d 1 X 2 l(µ|~x) = c − 2 (xi − µ) ⇒ l(µ|~x) = 2 (xi − µ). 2σ i=1 dµ σ i=1 Por lo tanto, si hacemos n X (xi − µ) = 0 tenemos que θ̂M V = X̄n . i=1 d2 n l(µ|~x) = − 2 < 0 ∀µ, lo que garantiza que el punto crı́tico de l(µ|~x) 2 dµ σ hallado es un máximo. Note que Observación 4.2.3. En el ejemplo anterior, en la maximización en µ de l(µ|~x) nunca interviene σ 2 . Por lo tanto, para hallar el estimador máximo verosı́mil de µ no importa si conocemos o no el verdadero valor de σ 2 . 58 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.2.11. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R es conocida y σ 2 es desconocida. En este caso θ = σ 2 > 0. Tenemos que Pn n 2 n 1 X d 1 n 2 2 2 i=1 (xi − µ) l(σ |~x) = c− log σ − 2 (xi −µ) ⇒ l(σ |~x) = − − 2 2σ i=1 d(σ 2 ) 2 σ2 σ4 2 Con lo que tenemos, que si Pn Pn 2 2 1 n 2 i=1 (xi − µ) i=1 (xi − µ) − = 0 ⇒ σ̂ = = Sn2∗ . − 2 4 2 σ σ n 2 2∗ Para verificar que σ̂M V = Sn , basta con notar que Pn 2 d2 n n σ2 2∗ 2 i=1 (xi − µ) − Sn l(σ |~x) = 4 − = 6 d(σ 2 )2 2σ σ6 σ 2 d2 l(σ 2 |~x) d(σ 2 )2 ⇒ =− 2∗ σ 2 =Sn n (Sn2∗ )2 < 0. Ejemplo 4.2.12. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde ambos µ y σ 2 son desconocidos. En este caso θ = (µ, σ 2 ) ∈ R × R+ . En este caso combinamos lo hallado en ejemplos anteriores. En el ejemplo 4.2.10, vimos que para maximizar l(µ, σ 2 |~x) con respecto a µ no hace falta conocer el valor de σ 2 y que θ̂M V = X̄n . 2 Ahora, en el resultado de ejemplo 4.2.11, sustituimos µ por x̄n y obtenemos que σ̂M M = n X (xi − x̄n )2 /n = Sn2 . Solo nos falta verificar que (x̄n , Sn2 ) es un máximo de l(µ, σ 2 |~x). i=1 Para ello calculamos d2 l(µ, σ 2 |~x) = − 2 dµ dσ Pn i=1 (xi σ4 − µ) y verificamos que la matriz Hessiana evaluada en (x̄n , Sn2 ) es definida negativa. Pn d2 d2 n 2 i=1 (xi − µ) l(µ|~ x ) l(µ, σ |~ x ) − − dµ2 dµ dσ 2 = Pn σ 2 Pnσ 4 H= 2 2 2. d d (x − µ) (x − µ) n i i l(µ, σ 2 |~x) l(σ 2 |~x) − i=1 4 − i=1 6 dµ dσ 2 d(σ 2 )2 σ 2σ 4 σ Con lo cual n 0 2 = Sn n , 0 − 4 2Sn G= H 2) (µ,σ 2 )=(x̄n ,Sn G11 = − − n n2 < 0 y |G| = > 0 ⇒ G es definida negativa. Sn2 Sn6 Estimación Puntual - 59 Introducción a la Inferencia Estadı́stica Ejemplo 4.2.13. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). θ ∈ R+2 . l(α, β|~x) = c + nα log β − n log Γ(α) + α n X log xi − β i=1 n X xi . i=1 Por lo tanto, el sistema de ecuaciones a resolver es n Γ0 (α) X d l(α, β|~x) = n log β − n + log xi = 0 dα Γ(α) i=1 (4.1) n nα X d l(α, β|~x) = − xi = 0 dβ β i=1 (4.2) Usando, la ecuación (4.2), podemos despejar nα β = Pn i=1 xi ⇒ β= α . x̄n Desafortunadamente, no existe expresión sencilla en la ecuación (4.1) para Γ0 (α) y por lo tanto, no hay una forma cerrada de expresar el estimador máximo verosı́mil de (α, β). Para determinar, dada una muestra en particular, qué valores toman (α̂, β̂) debemos utilizar métodos numéricos. Cuando no se cumple la condición C2 (θ es parte del Rec(X)), no se puede aplicar el método de la derivada para maximizar la verosimilitud. En algunos de estos casos, una simple inspección de la función nos lleva a encontrar el estimador máximo verosı́mil. Ejemplo 4.2.14. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . La función de verosimilitud es n n Y n 1 1 I[0<xi <θ] = I[x(1) >0] I[x(n) <θ] (4.3) L(θ|~x) = θ θ i=1 donde x(1) = mı́n{x1 , . . . , xn } y x(n) = máx{x1 , . . . , xn } La gráfica de la fórmula 4.3 se muestra en la Figura 4.3. De simple inspección, se observa que si θ es menor que x(n) , L(θ|~x) = 0 dado que existe la restricción de que todas las observaciones deben ser menores o iguales que θ dado que este es el máximo del recorrido de X. Cuando θ ≥ x(n) , L(θ|~x) es decreciente en θ. Por lo cual, cuanto más pequeño sea el valor de θ, mayor será el valor de L(θ|~x). En vista de esto, el mı́nimo valor que le podemos dar a θ es el máximo valor observado. Esto es, θ̂M V = X(n) . Nótese que el punto θ = x(n) es un punto de discontinuidad de L(θ|~x) y por lo tanto no es existe la derivada con respecto a θ en ese punto. 60 - Estimación Puntual Introducción a la Inferencia Estadı́stica Figura 4.3: Función de verosimilitud, X ∼ Uniforme(0, θ), n = 10 y x(10) = 4. Ejemplo 4.2.15. Sean X(1) < . . . < X(n) las estadı́sticas de orden de una MA de X ∼ Uniforme(θ − 1/2, θ + 1/2). La función de verosimilitud está dada por L(θ|~x) = I[θ−1/2<x(1) ] I[x(n) <θ+1/2] = I[θ<x(1) +1/2] I[x(n) −1/2<θ] = I[x(n) −1/2<θ<x(1) +1/2] . ~ que cumpla X(n) − 1/2 < T (X) ~ < X(1) + 1/2 Por lo cual, cualquier estadı́stico T (X) es un EMV de θ. Los estadı́sticos, ~ = T1 (X) 4X(1) + 2X(n) + 1 6 ~ = T2 (X) X(1) + X(n) 2 ~ = T1 (X) 2X(1) + 4X(n) − 1 , 6 cumplen con la restricción y por lo tanto son todos EMV de θ. Este ejemplo muestra que los EMV no necesariamente son únicos. Esto suele suceder cuando no se cumplen las condiciones de regularidad definidas en 4.2.2. Suponga que nos encontramos en la situación del ejemplo 4.2.12.√Pero en lugar de estar interesados en la varianza de X, deseamos estimar su desvı́o estándar, σ = σ 2 . Para ellos debemos plantearnos las dos ecuaciones d/dµ l(µ, σ|, ~x) = 0 y d/dµ l(µ, σ|, ~x) = 0 Vimos que la maximización con respecto a µ no involucraba a σ 2 , por lo cual el estimador máximo verosı́mil de µ sigue siendo el mismo que antes X̄n . Por lo cual para hallar el estimador máximo verosı́mil de σ, resolveremos la ecuación d/dσ l(σ|µ = x̄n , ~x) = 0. Esto es, Pn Pn 2 2 d d n i=1 (xi − x̄n ) i=1 (xi − x̄n ) l(σ|µ = x̄n , ~x) = −n log σ − = − + =0 dσ dσ 2σ 2 σ σ3 r Pn q 2 p i=1 (xi − x̄n ) 2 ⇒ σ̂M V = = Sn2 = σ̂M V n Esto es, el estimador máximo verosı́mil de la raı́z cuadrada de la varianza de X es nada más que la raı́z cuadrada del estimador máximo verosı́mil de la varianza de X. Esto se debe a la propiedad de invarianza de los estimadores máximo verosı́miles. Teorema 4.2.2. Si θ̂M V es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂M V ). Estimación Puntual - 61 Introducción a la Inferencia Estadı́stica Ejemplo 4.2.16. Continuación del ejemplo 4.2.9. Suponga que ahora deseamos estimar Var(X) = nθ(1 − θ). En este caso, τ (θ) = nθ(1 − θ) y sabemos que θ̂M V = X̄n . Por lo tanto, la propiedad de invarianza de los estimadores máximo verosı́mil nos indica que τd (θ) = τ (θ̂M V ) = τ (X̄n ) = nx̄n (1 − X̄n ). Ejemplo 4.2.17. Continuación del ejemplo 4.2.12. Se desea estimar P(X ≤ a). Sabemos que a−µ = τ (µ, σ) P(X ≤ a) = Φ σ p 2 2 y que µ̂M V = X̄n y σ̂M = S . Por lo tanto, σ̂ = Sn2 = Sn y M V V n τ\ (µ, σ)M V = τ (µ̂M V , σ̂M V ) = τ (X̄n , Sn ) = Φ a − X̄n Sn 4.3. Evaluación de Estimadores Hemos desarrollado dos métodos para construir estimadores. Habiéndolos contruidos, surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos criterios. Un criterio fundamental es el principio de suficiencia desarrollado en el capı́tulo anterior. En este nuevo contexto sigue siendo de suma importancia. Si para un problema dado existen estimadores suficientes no tiene sentido prestarle atención a estimadores que no lo sean. Recuerde que la suficiencia de un estimador T para un parámetro θ implicaba que toda la informaci’on que hay en la muestra acerca de θ está está contenida en T . Esto es, una vez que sabemos el valor de T (~x) es irrelevante conocer cuál es la muestra en particualr que obtuvimos. Observación 4.3.1. Note que si T es suficiente para θ L(θ|~x) = g(T (~x); θ)h(~x) ⇒ l(θ|~x) = log g(T (~x); θ) + log h(~x). Esto implica que para encontrar el estimador máximo verosı́mil de θ tenemos que resolver la ecuación d d l(θ|~x) = log g(T (~x); θ) = 0. dθ dθ Por lo tanto, si existe el estimador máximo verosı́mil de θ, este es una función de un estadı́stico suficiente. Este resultado se puede generalizar para el caso donde no se puede usar cálculo diferencial para hallar el estimador máximo verosı́mil de θ. En esta sección definiremos criterios de optimalidad y cómo verificar cuáles estadı́sticos lo alcanzan. 62 - Estimación Puntual Introducción a la Inferencia Estadı́stica 4.3.1. Información de Fisher Decimos que una estadı́stica suficiente extrae “toda la información que tiene la muestra” acerca de θ. La pregunta entonces es ¿cuánta información hay en la muestra acerca de θ que queremos preservar? Para contestarla, nos enfocaremos solo en el caso univariado. Esto puede ser fácilmente generalizado al caso donde θ es un vector de parámetros. Suponga que X es una variable aleatoria real con distribución f (x|θ), con θ ⊆ R, tal que R1 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ. d f (x|θ) < ∞, ∀x ∈ X , θ ∈ Θ. dθ Z Z d d R3 f (x|θ). f (x|θ) = dθ dθ R2 - Definición 4.3.1. Sean X1 , . . . , Xn variables aleatorias. Bajo las condiciones R1, R2 y R3, la información de Fisher, o simplemente la información, acerca de θ contenida en la muestra es " 2 # d ~ . log fX~ (X|θ) IX~ (θ) = Eθ dθ Ejemplo 4.3.1. Cuando X1 , . . . , Xn es una MA de X ∼ Bernoulli(θ), encontramos en el ejemplo 4.2.9 que l(θ|~x) = t log θ + (n − t) log(1 − θ) y d t − nθ l(θ|~x) = . dθ θ(1 − θ) (4.4) Por lo tanto, recordando que Var(X) = θ(1 − θ), " 2 # t − nθ 1 nθ(1 − θ) n IX~ (θ) = E = E (t − nθ)2 = = . 2 2 θ(1 − θ) [θ(1 − θ)] [θ(1 − θ)] θ(1 − θ) ⇒ IX~ (θ) = n Var(X) Esto significa que, dejando n fijo, la información contenida en la muestra acerca de θ es mayor cuanto menor sea la dispersión de la variabale aleatoria X. Esto es, cuanto más concentrada esté su distribución alrededor del valor esperado θ. Note que la varianza de X, vista como una función de θ, alcanza su mayor valor cuando θ = 0, 5. Por lo cual cuanto más se cerca esté el verdadero valor de θ de 0 o 1, más información nos dará la muestra acerca de θ. Ejemplo 4.3.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es desconocida y σ 2 > 0 es conocida. En el ejemplo 4.2.10 hallamos que !2 !2 n n n X X X d 1 1 ~ = 1 l(µ|X) (Xi −µ) ⇒ IX~ (µ) = E 2 (Xi − µ) = 4 E (Xi − µ) . 2 dµ σ i=1 σ i=1 σ i=1 Estimación Puntual - 63 Introducción a la Inferencia Estadı́stica Note que " n X #2 (Xi − µ) = i=1 n X n X n X (Xi − µ) + 2 (Xi − µ)(Xj − µ) 2 i=1 i=1 j=1 i<j Por lo cual " n #2 n n X n n X X X X 2 E (Xi − µ) = E(Xi −µ) +2 E[(Xi −µ)(Xj −µ)] = E(Xi −µ)2 = nσ 2 i=1 i=1 i=1 j=1 i<j i=1 Dado que E[(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = 0 y E(Xi − µ)2 = σ 2 . n . Note que, para n fijo, IX~ (µ) → 0 si σ 2 → ∞ y que IX~ (µ) → ∞ si 2 σ σ 2 → 0. Con lo cual, la información contenida en la muestra acerca de µ es más grande cuanto más concentrada es la distribución de X alrededor de µ. Dejando σ 2 fijo, se ve que la información aumenta a medida que incrementamos el tamaño de la muestra. Entonces, IX~ (µ) = d ~ se le denomina función score. Esta función mide la l(θ|X) dθ sensibilidad de f (~x|θ) a cambios en valor de θ. Definición 4.3.2. A la función Observación 4.3.2. La derivada de una función mide la rapidez con la que cambia el valor de dicha función matemática, según cambie el valor de su variable independiente. El valor de la derivada de una función en un punto puede interpretarse geométricamente, ya que se corresponde con la pendiente de la recta tangente a la gráfica de la función en dicho punto. En la función score, la variable independiente es el parámetro a estimar θ. Esto es, la función score da una idea de la curvatura de la función de verosimlitud. En lo que sigue asumiremos la siguiente notación Z Z ∞ Z ∞ ... f (x1 , . . . , xn |θ) dx1 . . . dxn = −∞ ∞ f (~x|θ) d~x. −∞ −∞ Asumiendo que X es absolutamente continua (el caso discreto es similar cambiando las integrales por sumatorias) y que se cumplen las condicones R1, R2 y R3. Sabemos que Z ∞ 1= fX~ (~x|θ) dx. −∞ Por lo tanto, d 0 = Zdθ Z ∞ ∞ −∞ fX~ (~x|θ) d~x (derivamos una constante) d f ~ (~x|θ) d~x (se cumple R3) dθ X Z−∞ ∞ f ~ (~x|θ) f ~ (~x|θ) d = fX~ (~x|θ) X d~x (multiplicamos por 1 = X ) dθ fX~ (~x|θ) fX~ (~x|θ) Z−∞ ∞ d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x (definición de derivada de log f ) −∞ dθ d ~ = Eθ log fX~ (X|θ) . dθ = 64 - Estimación Puntual Introducción a la Inferencia Estadı́stica Por lo tanto, Eθ d ~ log fX~ (X|θ) =0 dθ Lo cual a su vez implica que Varθ " 2 # d d ~ ~ log fX~ (X|θ) = Eθ log fX~ (X|θ) = IX~ (θ). dθ dθ (4.5) Se definen las siguientes condiciones adicionales d2 f ~ (~x|θ) < ∞, ∀~x ∈ X , θ ∈ Θ. d θ2 X Z Z d2 d2 R5 fX~ (~x|θ) = f ~ (~x|θ). d θ2 d θ2 X R4 - Si estas condiciones se cumplen, derivando nuevamente tenemos que d2 0 = 2 Zdθ Z ∞ −∞ ∞ 2 fX~ (~x|θ) d~x d f ~ (~x|θ) d~x dθ2X Z−∞ ∞ d d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x dθ dθ −∞ 2 Z ∞ 2 Z ∞ d d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x + log(fX~ (~x|θ)) fX~ (~x|θ) d~x dθ2 dθ −∞ Z−∞ ∞ d2 = log(fX~ (~x|θ)) fX~ (~x|θ) d~x + IX (θ). dθ2 −∞ = De donde, Z IX~ (θ) = − ∞ −∞ 2 d2 d ~ log(fX~ (~x|θ)) fX~ (~x|θ) d~x = −Eθ log(fX~ (X|θ)) dθ2 dθ2 (4.6) Observación 4.3.3. Sea X ∼ fX (x|θ). Si fX (x|θ) pertence a la familia exponencial, entonces, R1, R2, R3, R4 y R5 se cumplen. Entonces, podemos aplicar la fórmula 4.6. Ejemplo 4.3.3. Continuación del ejemplo 4.3.2. ! n n Y d d 1 X d2 n ~ (Xi − µ) ⇒ l(µ|X) = log l(µ|~x) = − 2 fXi (xi ) = 2 2 dµ dµ σ i=1 dµ σ i=1 n n ⇒ IX~ (µ) = −E − 2 = 2 . σ σ Estimación Puntual - 65 Introducción a la Inferencia Estadı́stica Teorema 4.3.1. Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ). Sea " " 2 # 2 # d d ~ IX1 (θ) = Eθ log fX (X|θ) y IX~ (θ) = Eθ log fX~ (X|θ) dθ dθ la información acerca de θ contenida en X1 y la contenida en la muestra respectivamente. Entonces, IX~ (θ) = nIX1 (θ) ∀θ ∈ Θ. (4.7) Demostración. Sabemos que bajo independencia e idéntica distribución n n n Y X d d d X d log fX~ (~x|θ) = log fX (xi |θ) = log fXi (xi |θ) = log fXi (xi |θ). dθ dθ dθ dθ i=1 i=1 i=1 (4.8) Por lo tanto, d ~ IX~ (θ) = Varθ log fX~ (X|θ) (fórmula 4.5) dθ ! n X d = Var log fXi (Xi |θ) (fórmula 4.8) dθ i=1 n X d = Var log fXi (Xi |θ) (independencia) dθ i=1 = n X IXi (θ) (definición de IXi (θ)) (4.9) i=1 = nIX1 (θ) (idéntica distribución). (4.10) Observación 4.3.4. De 4.9 se desprende que bajo independencia la información es aditiva: Si X y Y son v.a. independientes; IX (θ) e IY (θ) representan la información acerca de θ contenida en X y Y respectivamente. Entonces, IX,Y (θ) = IX (θ) + IY (θ). Ejemplo 4.3.4. Continuación del ejemplo 4.3.1. Para una observación, L(θ|x) = θx (1−θ)1−x , de donde l(θ|x) = x log θ+(1−x) log(1−θ). Entonces d x 1−x x−θ [x log θ + (1 − x) log(1 − θ)] = − = . dθ θ 1−θ θ(1 − θ) Entonces, " IX (θ) = E X −θ θ(1 − θ) 2 # = E[(X − θ)2 ] 1 = . 2 2 θ (1 − θ) θ(1 − θ) De donde, por 4.10 IX~ (θ) = nIX (θ) = n θ(1 − θ) 66 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.5. Si se cumplen las condiciones para que se puedan aplicar las fórmulas (4.6) y (4.7), ambas se pueden combinar. Sea X1 , . . . , Xn es una MA de X ∼ Gamma(3, β). En este caso se cumplen las condiciones dado que trabajamos con una MA y además fX (x|β) pertenece a la familia exponencial. Entonces, f (x|β) = ⇒ β 3 2 −βx xe ⇒ log f (x|β) = c + 3 log β − βx Γ(3) d 3 d2 3 log f (x|β) = − x ⇒ log f (x|β) = − 2 . 2 dβ β dβ β Entonces, usando primero la fórmula (4.6) y luego la fórmula (4.7), 2 3 3n d log f (x|β) = ⇒ I (θ) = nI (θ) = . IX (θ) = −E ~ X X dβ 2 β2 β2 Definición 4.3.3. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ). Sea T = T (X1 , . . . , Xn ), un estadı́stico con función de densidad o cuantı́a fT (t|θ). Bajo las condiciones R1, R2 y R3, la información de Fisher, o simplemente la información, acerca de θ contenida en T es " 2 # d log fT (T |θ) . IT (θ) = Eθ dθ Teorema 4.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ) y T = T (X1 , . . . , Xn ) un estadı́stico. Entonces, IX~ (θ) ≥ IT (θ) ∀θ ∈ Θ. La igualdad se cumple si y solo si T es suficiente para θ. Ejemplo 4.3.6. Continuación del ejemplo 4.3.4. T = n X Xi es suficiente para θ. T ∼ Binomial(n, θ). Por lo cual, i=1 n t fT (t|θ) = θ (1 − θ)n−t ⇒ log fT (t|θ) = c + t log θ + (n − t) log(1 − θ). t ⇒ d t n−t t − nθ log fT (t|θ) = − = . dθ θ 1−θ θ(1 − θ) Esta última fórmula es exactamente la ecuación 4.4, que derivamos en el ejemplo 4.3.1 para hallar IX~ (θ). Estimación Puntual - 67 Introducción a la Inferencia Estadı́stica ~ ∼ fT (t|θ) un estadı́stico tal que: 1) fT (t|θ) satisface las condicioTeorema 4.3.3. Sea T = T (X) nes R1, R2 y R3; 2) E(T ) = θ. Entonces, ~ ≥ I−1 (θ). Var(T (X)) ~ X Demostración. Recuerde la desigualdad de Cauchy-Schwarz: Dadas dos variables aleatorias W y Z, [E(W Z)]2 ≤ E(W 2 )E(Z 2 ). Z ∞ Si E(T ) = θ, tenemos que E(T − θ) = −∞ (T (~x) − θ)fX~ (~x|θ) d~x = 0. De donde, Z ∞ Z ∞ d d R3 0= (T (~x) − θ)fX~ (~x|θ) d~x = (T (~x) − θ)fX~ (~x|θ) d~x dθ −∞ −∞ dθ Z ∞ Z ∞ d (T (~x) − θ) fX~ (~x|θ) d~x. fX~ (~x|θ) d~x + =− dθ −∞ −∞ Esta última igualdad la obtenemos de aplicar lafórmula de la derivada de un producto de dos d d funciones. Recordando además que f ~ (~x|θ) = log fX~ (~x|θ) fX~ (~x|θ), tenemos que dθ X dθ Z ∞ d (T (~x) − θ) log fX~ (~x|θ) f (~x|θ) d~x = 1. dθ −∞ d log fX~ (~x|θ), acabamos de mostrar es que E(W Z) = 1. Además dθ " 2 # d ~ ~ − θ)2 = Var(T ) log fX~ (X|θ) = IX~ (θ). E(W 2 ) = E (T (X) E(Z 2 ) = E dθ Tomando W = (T (~x)−θ) y Z = Aplicamos a W y Z la desigualdad de Cauchy-Schwarz y tenemos que ~ ≥ I−1 (θ). Var(T ) IX~ (θ) ≥ 1 ⇒ Var(T (X)) ~ X Ejemplo 4.3.7. Continuación ejemplo 4.3.2. n Sabemos que IX~ (µ) = 2 y que E(X̄n ) = µ. Por lo tanto, el teorema anterior especifica σ n −1 σ2 σ2 que Var(X̄n ) ≥ = . Pero para este problema, sabemos que Var( X̄ ) = . n σ2 n n 0 0 0 Lo que implica que no existe otro estimador T = T (X1 , . . . , Xn ), con E(T ) = µ, tal que Var(X̄n ) > Var(T 0 ). 68 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.8. Sea X1 , . . . , Xn , una MA de X ∼ N(µ, σ 2 ), µ ∈ R, σ 2 ∈ R+ , ambas desconocidas y n > 2. Estamos interesados en calcular IX~ (σ 2 ). 1 2 2 − 21 2 fX (x|µ, σ ) = (2πσ ) exp − 2 (x − µ) 2σ 1 1 log σ 2 − 2 (x − µ)2 2 2σ d 1 1 ⇒ 2 log fX (x|µ, σ 2 ) = − 2 + 4 (x − µ)2 dσ 2σ 2σ 2 d 1 1 ⇒ log fX (x|µ, σ 2 ) = 4 − 6 (x − µ)2 2 2 d(σ ) 2σ σ ⇒ log fX (x|µ, σ 2 ) = c − E d2 1 1 2 2 log fX (x|µ, σ ) = E − (X − µ) d(σ 2 )2 2σ 4 σ 6 1 1 = 4 − 6 E(X − µ)2 2σ σ 1 1 = 4 − 6 σ2 2σ σ 1 =− 4 2σ De donde, 2 IX~ (σ ) = −nE d2 n 2 log fX~ (~x|µ, σ ) = 4 2 2 d(σ ) 2σ . Sabemos que Sn02 es un estimador de σ 2 con E(Sn02 ) = σ 2 . Además, (n−1)Sn02 /σ 2 ∼ χ2n−1 . Por lo tanto, 2σ 4 2σ 4 2 > = I−1 Var(Sn02 ) = ~ (σ ). X n−1 n Esto significa que podrı́a llegar a existir un estimador T 0 = T (X1 , . . . , Xn ) de σ 2 , con E(T 0 ) = σ 2 , tal que Var(T 0 ) < Var(Sn02 ). 4.3.2. Error Cuadrático Medio Necesitamos una medida que nos permita comparar estimadores. ¿Cómo debemos proceder para comparar las perfomances de estimadores de una función τ (θ) y decidir cuál es el “mejor”estimador de entre todos sus posibles estimadores? Definición 4.3.4. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es un estimador insesgado de τ (θ) si y solo si Eθ (T ) = τ (θ), ∀θ ∈ Θ. Si T no es un estimador insesgado entonces diremos que es un estimador sesgado de τ (θ). Definición 4.3.5. Para un estimador real T de τ (θ), el sesgo de T se define como Bθ (T ) = Eθ (T ) − τ (θ), θ ∈ Θ. Estimación Puntual - 69 Introducción a la Inferencia Estadı́stica Intuitivamente un estimador insesgado de τ (θ) alcanza su objetivo τ (θ) en promedio. O sea, la diferencia Eθ (T )−τ (θ) para algunas muestras es positiva, para otras es negativa, pero en promedio, sobre todas las muestras, la diferencia es cero. Es por eso, que la propiedad de insesgamiento es atractiva desde un punto de vista estadı́stico. Ejemplo 4.3.9. El teorema 1.1.1 muestra que los momentos muestrales, Mk , son estimadores insesgados de los correspondientes momentos poblacionales, µk , siempre y 0 cuando estos existan. En particular, X̄n es un estimador insesgado de E(X) y Sn2 es un estimador insesgado de Var(X) Ejemplo 4.3.10. Estimadores insesgados no necesariamente existen. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Deseamos estimar de manera n X insesgada, τ (θ) = θ−1 . Sabemos que T = Xi es suficiente para θ y además que i=1 T ∼ Binomial(n, θ). Dada la suficiencia de T , deseamos construir un estimador h(T ) tal que Eθ (h(T )) = θ−1 . Esto es, n X n t 1 h(t) θ (1 − θ)n−t = Eθ (h(T )) = t θ t=0 Esta ecuación puede ser reescrita como n X n t+1 h(t) θ (1 − θ)n−t − 1 = 0 t t=0 (4.11) El lado izquierdo de (4.11) es un polinomio de grado n + 1 en θ y estamos imponiendo que este sea igual a 0 para todo θ ∈ (0, 1). El Teorema Fundamental del Álgebra establece que un polinomio de grado n tiene a lo sumo n raı́ces reales. Por lo cual, (4.11) tiene a lo sumo n + 1 soluciones en (0,1). En vista de esto, es imposible que se cumpla la igualdad para todo θ ∈ (0, 1) y en consecuencia no existe, bajo este tipo de muestreo, un estimador insesgado para θ−1 . Ejemplo 4.3.11. En algunos casos, estimadores insesgados no son de utilidad. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ > 0. Sea τ (θ) = Pθ (X = 0) = e−θ . n X Se sabe que T = Xi es suficiente para θ y además que T ∼ Poisson(nθ). Dada la i=1 T suficiencia de T , se propone como estimador de τ (θ) a Y = h(T ) = 1 − n−1 . Note que t t ∞ ∞ X X 1 − n1 nθ 1 1 e−nθ (nθ)t −nθ =e = e−nθ e(1− n )nθ = e−θ . E(h(T )) = 1− n t! t! t=0 t=0 70 - Estimación Puntual Introducción a la Inferencia Estadı́stica Por lo tanto, h(T ) es un estimador insesgado de e−θ . Sin embargo, si n = 1, h(T ) = 0 ∈ / Θ = (0, 1). Ejemplo 4.3.12. Estimadores insesgados no son únicos. Sea X1 , . . . , Xn una MA de X 0 1. Si X ∼ Poisson(θ). Tanto, X̄n como Sn2 son estimadores insesgados de θ. 1 2. Si X ∼ N(θ, 1). T1 = X̄n , T2 = (X1 + X2 ) y T3 = X1 + T2 − X4 son algunos 2 estimadores insesgados de θ. 3. Si T1 y T2 son estimadores insesgados de τ (θ), entonces T3 = αT1 + (1 − α)T2 , α ∈ [0, 1], es un estimador insesgado de τ (θ). Definición 4.3.6. Suponga que un estadı́stico real T = T (X1 , . . . , Xn ) es un estimador de τ (θ). Entonces, el error cuadrático medio (ECM) del estimador T está dado por Eθ [(T − τ (θ))2 ]. Teorema 4.3.4. Si T es un estadı́stico usado para estimar τ (θ), entonces su error cuadrático medio se puede descomponer en ECMθ (T ) = Varθ (T ) + (Eθ (T ) − τ (θ))2 . Esto es, la varianza de T más el cuadrado de su sesgo. Demostración. ECMθ (T ) = Eθ [(T − τ (θ))2 ] = Eθ [(T − Eθ (T ) + Eθ (T ) − τ (θ))2 ] = Eθ [(T − Eθ (T ))2 ] + Eθ [(Eθ (T ) − τ (θ))2 ] + 2Eθ [(T − Eθ (T ))(Eθ (T ) − τ (θ))] = Varθ (T ) + (Eθ (T ) − τ (θ))2 + 2(Eθ (T ) − τ (θ)) Eθ [(T − Eθ (T ))] {z } | =0 2 = Varθ (T ) + (Eθ (T ) − τ (θ)) Observación 4.3.5. En el caso que T sea un estimador insesgado de τ (θ), ECMθ (T ) = Varθ (T ). Definición 4.3.7. Sea C una clase no vacı́a de estimadores de τ (θ). Sea T1 ∈ C. Decimos que T1 es el mejor estimador de τ (θ) en términos del ECM, si para cualquier otro estimador T2 ∈ C ECMθ (T1 ) ≤ ECMθ (T2 ) ∀θ ∈ Θ. Estimación Puntual - 71 Introducción a la Inferencia Estadı́stica Ejemplo 4.3.13. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). θ = (µ, σ 2 ) ∈ Θ = R×R+ . Asuma n ≥ 2. Deseamos estimar τ (θ) = σ 2 . Consideramos dos posibles estimadores de τ (θ): n − 1 02 n − 1 0 S = T1 . T1 = Sn2 y T2 = n+1 n n+1 Sabemos que T1 es un estimador insesgado de σ 2 . Además sabemos que 0 (n − 1)Sn2 2σ 4 2 . ∼ χ ⇒ ECM (T ) = Var (T ) = θ 1 θ 1 n−1 σ2 n−1 De la relación que existe entre T1 y T2 , tenemos además que Eθ (T2 ) = n−1 2 σ n+1 y Varθ (T2 ) = 2(n − 1) 4 σ . (n + 1)2 De donde, 2 2σ 4 2(n − 1) 4 n−1 2 2 = ECMθ (T2 ) = σ + σ −σ . n+1 n+1 n+1 Por lo tanto, ECMθ (T1 ) > ECMθ (T2 ). Esto es, en términos del ECM, T2 es preferible a T1 como estimador de σ 2 . Note que en este caso, un estimado sesgado es preferible a uno insesgado. La figura 4,4 muestra la comparación de ECMθ (T1 ) y ECMθ (T2 ), cuando n = 20. Figura 4.4: ECM de estimadores de σ 2 (n = 20) Note que ECMθ es una función de θ. Por lo cual, cuando comparamos estimadores usando el criterio del ECM, lo que hacemos es comparar funciones. Decimos que un estimador T1 es “mejor” que otro estimador T2 , si el ECMθ (T1 ) está uniformemente por debajo del ECMθ (T2 ). En otros casos la elección no es posible. 72 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.14. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Se proponen como estimadores de θ a T1 = X̄n y a T2 = 1/2. Esto es, no importa qué muestra observemos, T2 siempre le asigna a θ el valor 0,5. Note que Varθ (T2 ) = 0, por lo cual ECMθ (T2 ) = (0, 5 − θ)2 . Por su parte, T1 es insesgado. Lo que implica que ECMθ (T1 ) = Varθ (T1 ) = θ(1 − θ)/n. La figura 4.5 muestra que, en términos de ECM, T2 es preferible a T1 si θ ∈ (0, 4; 0, 6). En otro caso, T1 es preferible a T2 . Al desconocerse el verdadero valor de θ, no es posible decidir entre T1 y T2 . Figura 4.5: ECM de estimadores de σ 2 (n = 20) Note que si el verdadero valor de θ es 0,5, no existe mejor estimador de θ que T2 y en ese punto ECMθ (T2 ) = 0. Además, note que ECMθ (T1 ) > 0, ∀θ ∈ (0, 1). 4.3.3. Mejor estimador insesgado Podemos reducir nuestra clase C de estimadores de τ (θ) y dentro de esa clase reducida buscar el “mejor” estimador. Una posible reducción es enfocar nuestra búsqueda dentro de la clase de los estimadores insesgados de τ (θ). Definición 4.3.8. Asuma que existe al menos un estimador insesgado de τ (θ). Sea C la clase de todos los estimadores insesgados de τ (θ). Un estimador T ∈ C es el mejor estimador insesgado o Estimación Puntual - 73 Introducción a la Inferencia Estadı́stica el estimador insesgado de uniformemente mı́nima varianza de τ (θ) si y solo si para cualquier otro estimador T ∗ ∈ C, tenemos que Varθ (T ) ≤ Varθ (T ∗ ) ∀θ ∈ Θ. Ejemplo 4.3.15. Continuación ejemplo 4.3.12. 0 Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Deseamos estimar θ. X̄n y Sn2 son estimadores insesgados de θ. Usando los resultados de los Colorarios 1.1.1 y 1.1.2, sabiendo que µ4 = 3θ2 + θ, tenemos que Varθ (X̄n ) = θ n y 0 Varθ (Sn2 ) = θ 2θ2 + . n n−1 0 Por lo tanto, si n ≥ 2, Varθ (X̄n ) < Varθ (Sn2 ), ∀θ > 0. Por lo tanto, X̄n es preferible a 0 Sn2 como estimador de θ. Existen diferentes métodos para identificar el mejor estimador insesgado. El que discutiremos es una extensión del teorema 4.3.3. Este teorema, bajo ciertas condiciones, establecı́a una cota inferior para la varianza de estimadores insesgados de θ. Usando este resultado, en el ejemplo 4.3.7 mostramos que X̄n alcanzaba la cota inferior. Por lo tanto, podemos afirmar que X̄n es el mejor estimador insesgado para la esperanza de una variable aleatoria con distribución normal. Extenderemos el resultado para estimadores insesgados de τ (θ). ~ = (X1 , . . . , Xn ) una variable aleatoria Teorema 4.3.5. Cota (inferior) de Cramer-Rao. Sea X ~ un estimador insesgado para con función de densidad conjunta fX~ (~x|θ), θ ∈ Θ ⊆ R. Sea T (X) ~ = τ (θ). Donde τ (·) es una función diferenciable en θ. Si además f ~ τ (θ). Es decir, Eθ (T (X)) X satisface las condiciones R1, R2 y R3, entonces 2 τ (θ) ~ ≥ dθ = CCR(τ (θ)) Varθ (T (X)) IX~ (θ) d A la cantidad CCR(τ (θ)) se le llama Cota (inferior) de Cramer-Rao para la varianza de estimadores insesgados de τ (θ). d Observación 4.3.6. En el caso que τ (θ) ≡ θ, tenemos que τ (θ) = 1. Por lo cual, el teorema dθ 4.3.3 es un caso particular del teorema 4.3.5. La demostración del teorema 4.3.5 es similar a la del teorema 4.3.3, sustituyendo (T − θ) por (T − τ (θ)). La demostración involucra a la desigualdad de Cauchy-Schwarz. La igualdad en esta desigualdad, [E(W Z)]2 = E(W 2 )E(Z 2 ), se cumple si y solo si Z = aW + b (alternativamente, d ~ cuando W = cZ + d). En nuestra demostración, Z = log fX~ (X|θ) y W = T − τ (θ), por lo cual dθ podemos establecer las condiciones para que la cota de Cramer-Rao sea alcanzable. 74 - Estimación Puntual Introducción a la Inferencia Estadı́stica ~ = CCR(τ (θ)) si Corolario 4.3.1. Bajo las condiciones del teorema 4.3.5. Entonces Varθ (T (X)) y solo si existe una función a(θ) tal que a(θ)(T (~x) − τ (θ)) = d log fX~ (~x|θ). dθ Observación 4.3.7. La cota es alcanzable si y solo si fX~ pertenece a la familia exponencial. 0 Ejemplo 4.3.16. Continuación ejemplo 4.3.8. Vimos que Sn2 no alcanza la cota de Cramer-Rao. Aplicando el corolario 4.3.1, tenemos que Pn n 2 n d n 1 X 2 2 2 i=1 (xi − µ) (xi − µ) = 4 −σ log fX~ (~x|µ, σ ) = − 2 + 4 dσ 2 2σ 2σ i=1 2σ n Pn (xi − µ)2 Esto es, con a(σ ) = n/2σ , el mejor estimador insesgado de σ es T = i=1 . n Esta cantidad depende de µ, por lo tanto T es un estimador solo si µ es conocido. En otro caso, no existe un estimador insesgado de σ 2 que alcance la cota de Cramer-Rao. 2 4 2 Ejemplo 4.3.17. Continuación ejemplo 4.3.15. Pn Pn n n d i=1 xi i=1 xi log fX~ (~x|θ) = −n + = − θ = (x̄n − θ) . dθ θ θ n θ Por lo tanto, X̄n alcanza la Cota de Cramer-Rao y es, por lo tanto, el mejor estimador insesgado de θ. Para verificarlo, note que T = n X Xi es suficiente para θ con lo cual IX~ (θ) = IT (θ). i=1 Dado que T ∼ Poisson(nθ), tenemos que e−nθ (nθ)t d t fT (t|θ) = ⇒ log fT (t|θ) = c − nθ + t log θ ⇒ log fT (t|θ) = −n + t! dθ θ ⇒ d2 t log fT (t|θ) = − 2 . 2 dθ θ Por lo cual, T n IX~ (θ) = −Eθ − 2 = . θ θ (4.12) Además, Varθ (X̄n ) = Varθ (X)/n = θ/n. Entonces, Varθ (X̄n ) = I−1 ~ (θ) = CCR(θ) X Estimación Puntual - 75 Introducción a la Inferencia Estadı́stica x2 2 Ejemplo 4.3.18. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ) = xe− θ I[x>0] . θ ! Pn 2 n Y Pn 2 n x 2 i=1 xi fX~ (~x|θ) = ⇒ log fX~ (~x|θ) = c − n log θ − i=1 i xi exp − θ θ θ i=1 n d ~ log fX~ (X|θ) =− + dθ θ Pn i=1 θ2 x2i n = 2 θ Pn x2i −θ Xi2 . i=1 n Pn Por lo tanto, el mejor estimador insesgado de θ es T = i=1 n Ejemplo 4.3.19. Continuación ejemplo 4.3.11. Recuerde que X ∼ Poisson(θ) y que deseamos estimar de manera insesgada τ (θ) = e−θ . n X −1 T donde T = Xi es el estadı́stico Se propone el estimador Y = h(T ) = 1 − n i=1 suficiente para θ. Si n ≥ 2 se puede probar, por otros medios, que el estimador propuesto es el mejor estimador insesgado de τ (θ). Sin embargo, su varianza no alcanza la cota de CramerRao para estimadores insesgados de e−θ . Para ver esto, sabemos que T ∼ Poisson(nθ). Por lo cual, su función generatriz de momentos es MT (s) = Eθ esT = exp{nθ(es − 1)} ∀s ∈ R. (4.13) Usando la fórmula (4.13) con s = 2 log(1 − n−1 ) tenemos que h h i i 2 −1 2T T (2 log(1−n−1 )) Eθ (Y ) = Eθ 1 − n = Eθ e = MT (2 log(1 − n−1 )) n o −1 = exp nθ(e2 log(1−n ) − 1) = exp{−2θ + n−1 θ} De donde, Varθ (Y ) = exp{−2θ + n−1 θ} − exp{−2θ} = e−2θ (eθ/n − 1). (4.14) Usando la fórmula (4.12), tenemos que CCR(e−θ ) = d −θ 2 e dθ IX~ (θ) = e−2θ n θ = e−2θ θ . n (4.15) Comparando (4.14) con (4.15) y notando que si x > 0 se cumple que ex > 1+x tenemos que θ e−2θ θ Varθ (Y ) = e−2θ (eθ/n − 1) > e−2θ (1 + − 1) = = CCR(e−θ ). n n Por lo cual, Varθ (Y ) no alcanza la cota de Cramer-Rao 76 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.20. Si las condiciones del teorema no se cumplen, la Cota de CramerRao no se puede calcular. Un caso claro donde no se cumplen las condiciones es cuando X ∼ Uniforme(0, θ). En este caso no se cumple, por ejemplo, R1, ni R3. Asumiendo que n = 1, tenemos que 1 (4.16) fX (x|θ) = I[x>0] I[x<θ] θ Z ∞ Z ∞ d fX (x|θ) dx = 1, tenemos que fX (x|θ) dt = 0. Pero, Entonces, dado que dθ −∞ −∞ Z θ d fX (x|θ) dx no existe, dado que I[x<θ] es discontinua en x = θ y por lo tanto no 0 dθ es derivable con respecto a θ. Definición 4.3.9. Sea T un estimador insesgado de τ (θ). Se dice que T es eficiente u óptimo si su varianza alcanza la Cota de Cramer-Rao. Definición 4.3.10. Sea T un estimador insesgado de τ (θ). El cociente entre su varianza y la CCR(τ (θ)) se le llama la eficiencia de T . Las definiciones 4.3.9 y 4.3.10 solo tienen sentido si la CCR(τ (θ)) es alcanzable. Definición 4.3.11. Sean T1 y T2 dos estimadores insesgados de τ (θ). Al cociente de sus varianzas se le llama la eficiencia relativa de un estimador con respecto al otro. Ejemplo 4.3.21. La eficiencia puede ser utilizada para determinar los tamaños de muestras relativos necesarios para alcanzar la misma precisión, medida por la varianza, de la estimaciones . Suponga que T1 y T2 son dos estimadores. T1 tiene una eficiencia del 80 % y Varθ (T1 ) = g(θ)/n para alguna función g. Si T2 es eficiente, Varθ (T2 ) = 0, 8g(θ)/n. Entonces, el estimador T2 en una muestra de tamaño 80 será tan bueno como el estimador T1 en una muestra de tamaño 100. Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Sahu, P.K., Pal, S.R., Das, A.K. (2015) Estimation and Inferencial Statistics. Springer India. Estimación Puntual - 77 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 78 - Estimación Puntual CAPÍTULO 5 ESTIMACIÓN POR INTERVALOS 5.1. Introducción En el problema de estimación puntual, un único valor era tomado como la estimación del verdadero valor de un parámetro desconocido θ. Por ejemplo, si X ∼ N(θ, 1), θ̂ = X̄n y la estimación es el valor x̄n que toma X̄n en la muestra. En este caso, si θ0 representa el verdadero valor de θ, tenemos que P(X̄n = θ0 ) = 0. Esto es, la probabilidad de asignarle a θ su verdadero valor es 0. Por lo cual, en este capı́tulo abordaremos el problema de estimación desde el punto de vista de obtener un conjunto del espacio paramétrico como estimación de θ. El resultado de una estimación por conjuntos es una afirmación del tipo “θ ∈ C”, donde C = C(~x) es un subconjunto del espacio paramétrico Θ que depende de los datos observados ~x. En el caso de que Θ ⊆ R los conjuntos que se suelen usar para realizar inferencias sobre θ son intervalos. Es por esto que usamos el nombre de estimación por intervalos. Observese que si se estima una parámetro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que antes dábamos un valor concreto como estimación suya. Dado que se pierde en precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un intervalo, con respecto a hacerlo con un estimador puntual. La respuesta es que se gana confianza: en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea estimar es 0, mientras que la probabilidad de que un estimador por intervalos cubra al parámetro será positiva. 5.2. Intervalos de confianza ~ , U (X)], ~ Definición 5.2.1. Un estimador por intervalo de una cantidad real θ está dado por [L(X) ~ y U (X) ~ es cualquier par de funciones de una muestra que satisfacen L(~x) < U (~x), donde L(X) ~ = ~x se observa, se realiza la inferencia L(~x) ≤ θ ≤ U (~x). ∀~x ∈ X . Si X 79 Introducción a la Inferencia Estadı́stica Ejemplo 5.2.1. Sea X1 , . . . , X4 una MA de X ∼ N(µ, 1). Un estimador por intervalo de µ es [X̄4 − 1, X̄4 + 1]. Para toda ~x ∈ X , x̄4 − 1 < x̄4 + 1. Si observamos x1 = 1, 4, x2 = 1, 6, x3 = 2,2 y x4 = 1, 8, tenemos que x̄4 = 1,75. Por lo tanto, se hace la inferencia de que θ ∈ [0, 75 2, 75]. Observación 5.2.1. Note que no existe ~ salvo que L(~x) < U (~x), ∀~x ∈ y U (X), que tendremos un intervalo aleatorio de coincidir con ∞ y el resultante intervalo ~ ninguna restricción sobre qué valores puede tomar L(X) ~ X . Por lo cual, L(X) puede coincidir con −∞, con lo ~ ~ puede la forma (−∞, U (X)); de manera similiar, U (X) ~ ∞). aleatorio es (L(X), ~ y U (X), ~ son funciones de X ~ y Observación 5.2.2. Note que los extremos del intervalo, L(X) ~ , U (X)] ~ sea un intervalo aleatorio y por lo tanto son variables aleatorias. Esto hace que [L(X) ~ , U (X)]) ~ que la expresión Pθ (θ ∈ [L(X) está bien definida, en el sentido de que no es algo que trivialmente valga 0 o 1. Definición 5.2.2. Para un estimador por intervalo de un parámetro θ, se llama probabilidad de ~ , U (X)] ~ a la probabilidad de que el intervalo aleatorio cubra el verdadero valor cobertura de [L(X) de θ. Esto es, ~ , U (X)]). ~ Pθ (θ ∈ [L(X) (5.1) En la expresión (5.1), los extremos del intervalo son aleatorios y θ es un número. ~ , U (X)] ~ de un parámetro θ, el coeficiente Definición 5.2.3. Para un estimador por intervalo [L(X) de confianza del estimador es el ı́nfimo de las probabilidades de cobetura. Lo denotaremos por 1 − α. ~ , U (X)]). ~ 1 − α = ı́nf Pθ (θ ∈ [L(X) θ Ejemplo 5.2.2. Continuación ejemplo 5.2.1. Pµ (µ ∈ [X̄4 − 1, X̄4 + 1]) = Pµ (X̄4 − 1 ≤ µ ≤ X̄4 + 1)) = Pµ (−1 ≤ X̄4 − µ ≤ 1) ! X̄4 − µ ≤ 2 = 0, 9544 = Pµ −2 ≤ p 1/4 Dado que la probabilidad de cobertura del intervalo [X̄4 − 1, X̄4 + 1] no depende del valor de µ, su coeficiente de confianza es 0,9544. ~ ∼ Uniforme(0, θ). Sea X(n) = máx{X1 , . . . , Xn }. Ejemplo 5.2.3. Sea X1 , . . . , Xn una MA de X Se consideran los siguientes dos estimadores por intervalo: I1 = [aX(n) , bX(n) ] (1 ≤ a < b) y I2 = [X(n) + c, X(n) + d] (0 ≤ c < d). 80 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Dado que, para x ∈ (0, θ) Z F X(n) (x) = θ x ntn−1 dt = xn . 0 Entonces, Para I1 , Pθ (θ ∈ I1 ) = Pθ (aX(n) ≤ θ ≤ bX(n) ) = Pθ X(n) 1 1 ≤ ≤ b θ a n n 1 1 = − . a b Dado que la probabilidad de cobertura no depende de θ, el coeficiente de confianza es a−n − b−n . Para I2 , X(n) d c Pθ (θ ∈ I2 ) = Pθ (X(n) + c ≤ θ ≤ X(n) + d) = Pθ 1 − ≤ ≤1− θ θ θ n c n d = 1− − 1− . θ θ La probabilidad de cobertura en este caso es una función de θ. Por lo cual, el coeficiente de confianza es n n d c n d c n − 1− = lı́m 1− − 1− =0 ı́nf 1− n→∞ θ θ θ θ θ ~ , U (X)], ~ junto a su coeficiente de confianza, Definición 5.2.4. A un estimador por intervalo [L(X) se le llama intervalo de confianza. ~ , U (X)] ~ para θ, diremos que Si 1 − α es el nivel de confianza de un estimador por intervalo [L(X) este es un intervalo de confianza 1 − α o (1 − α)100 % para θ. 5.2.1. Interpretación del coeficiente de confianza ~ = ~x, se hace la inferencia de que θ ∈ [L(~x), U (~x)]. Note que tanto L(~x) Una vez que se observa X como U (~x) son ahora números y al igual que θ, que si bien su valor es desconocido, también es una cantidad fija. Por lo cual, ( 1 si θ ∈ [L(~x), U (~x)] P(θ ∈ [L(~x), U (~x)]) = 0 si θ ∈ / [L(~x), U (~x)]. Entonces, no podemos hablar de que tenemos una probabilidad de 1 − α de que θ esté contenida en [L(~x), U (~x)]. En este caso, apelamos a la interpretación frecuentista de la probabilidad, la cual ~ U (X)]) ~ indica que si Pθ (θ ∈ [L(X), = 1 − α, esto significa que si sacamos infinitas muestras de tamaño n y para cada uno de ellas construimos el intervalo [L(~x), U (~x)], el (1 − α)100 % de los intervalos construidos cubrirá el verdadero valor de θ. Pero de los infinitos intervalos que se pueden construir, nosotros solo contamos con uno, el que está asociado a la muestra que hemos efectivamente observado. Por lo cual, cuando decimos que tenemos una confianza 1 − α o (1 − α)100 %, estamos expresando nuestra esperanza de que este intervalo en particular sea uno perteneciente al conjunto de los infinitos intervalos que cubren el verdadero valor de θ. Es por eso que en lugar de expresarnos en términos de probabilidad, hablamos en términos de confianza. Estimación por Intervalos - 81 Introducción a la Inferencia Estadı́stica Ejemplo 5.2.4. Sea X1 , X2 una MA de X ∼ N(θ, 1), θ ∈ R. Considere el siguiente estimador por intervalo de θ: I1 = [X1 − 1, 96, X1 + 1, 96]. Este intervalo tiene la siguiente probabilidad de cobertura, Pθ (X1 − 1, 96 ≤ θ ≤ X1 + 1, 96) = Pθ (|X1 − θ| ≤ 1, 96) = P(|Z|1, 96) = 0, 95, donde Z ∼ N(0, 1). Dado que la probabilidad de cobertura no depende de θ, el coeficiene de confianza de I1 es 0,95. Suponga que se observa x1 = 8 y x2 = 7. Entonces, se hace la inferencia de que el intervalo [6,04,54;9,96] contiene el verdadero valor de θ con una confianza del 95 %. 5.3. Construcción de estimadores por intervalo Presentaremos dos métodos para construir estimadores por intervalo de un parámetro θ ∈ Θ ⊆ R. Uno será descrito en este capı́tulo y el siguiente al final del próximo capı́tulo. 5.3.1. Cantidades pivotales Uno de los métodos más comunes de construcción de intervalos de confianza es el uso de cantidades pivotales. Definición 5.3.1. Sea X1 , . . . , Xn una MA de X. Una función Q : X ×Θ → R, Θ ⊆ R, se dice que ~ θ) no depende del parámetro es una cantidad pivotal, si la distribución de probabilidad de Q(X, ~ θ) tiene la misma distribución cualquiera sea el valor de θ. θ. Es decir, Q(X, ~ θ), para cualquier conjunto A del espacio imagen de Q se tiene Dada una cantidad pivotal Q(X, ~ θ) ∈ A) no depende de θ. Por lo tanto, si se elige un conjunto Aα tal que que Pθ (Q(X, ~ θ) ∈ Aα ) = 1 − α, para todo θ, Pθ (Q(X, ~ = ~x, el conjunto y se observa la muestra X n o ~ θ) ∈ A C(~x) = θ : Q(X, es un conjunto de confianza al 1 − α para θ. En el caso de que θ ∈ R, el uso de cantidades pivotales no garantiza en general que el conjunto de confianza sea un intervalo. Ejemplo 5.3.1. Cantidades pivotales pueden ser construidas fácilmente si fX pertence a una familia de posición y/o escala. Si fX (x|θ) pertenece a una familia de posición de parámetro θ, su forma reducida es Y = X − θ. Por lo cual, si definimos Yi = Xi − θ, para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. 82 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Si fX (x|θ) pertenece a una familia de escala de parámetro θ, su forma reducida es Y = X/θ. Por lo cual, si definimos Yi = Xi /θ, para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. Si fX (x|θ1 , θ2 ) pertenece a una familia de posición y escala de parámetro de posición θ1 y parámetro de escala θ2 , su forma reducida es Y = (X − θ1 )/θ2 . Por lo cual, si definimos Yi = (Xi − θ1 )/θ2 , para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. En la práctica, la forma en la que se construye un intervalo de confianza a partir de una cantidad ~ θ) ∈ R y θ ∈ R. Para un valor α dado, se buscan pivotal es la siguiente. Supondremos que Q(X, números a y b tales que ~ θ) < b) = 1 − α. Pθ (a < Q(X, Observe, que a y b no dependen de θ al ser Q una cantidad pivotal, y que la elección de a y b no será única en general. Para cada θ0 , el conjunto n o ~ θ0 ) < b A(θ0 ) = ~x ∈ X : a < Q(X, es la región de no rechazo de un contraste de tamaño α para H0 ) θ = θ0 basado en el estadı́stico ~ θ0 ). Invirtiendo este contraste obtenemos el conjunto de confianza 1 − α para θ: Q(X, n o ~ θ) < b . C(~x) = θ : a < Q(X, ~ θ) es una función monótona de θ para ~x fijo, entonces se tiene garantı́a de que Si g~x (θ) = Q(X, C(~x) es un intervalo. Si g~x (θ) es monótona creciente, entonces C(~x) = [L(~x, a), U (~x, b)], mientras que si g~x (θ) es monótona decreciente, entonces C(~x) = [L(~x, b), U (~x, a)]. Si g~x (θ) es invertible, entonces C(~x) = mı́n g~x−1 (a), g~x−1 (b) ; máx g~x−1 (a), g~x−1 (b) . Ejemplo 5.3.2. Continuación del ejemplo 6.5.1. La cantidad pivotal en este caso es √ n(X̄n − θ) ∼ N(0, 1). σ Entonces, tenemos que a = zα1 y b = z1−α2 , con α1 + α2 = α. Por lo tanto √ n(X̄n − θ) 1 − α = P zα1 < < z1−α2 σ σ σ = P zα1 √ < X̄n − θ < z1−α2 √ n n σ σ = P X̄n − z1−α2 √ < θ < X̄n − zα1 √ n n Por lo tanto el intervalo de confianza al 1 − α es σ σ X̄n − z1−α2 √ ; X̄n − zα1 √ . n n Estimación por Intervalos - 83 Introducción a la Inferencia Estadı́stica Note que, si α < 0, 5 entonces zα1 < 0 por lo cual −zα1 > 0 y de manera similar z1−α2 > 0, lo que implica que −z1−α2 < 0. Ejemplo 5.3.3. Continuación del ejemplo 5.3.2. Si asumimos que σ 2 es desconocido. Entonces la cantidad pivotal es √ n(X̄n − θ) ∼ tn−1 . Sn0 Por lo tanto, operando de manera similiar que en el ejemplo anterior, tenemos que el intervalo de confianza al 1 − α es Sn0 Sn0 X̄n − tn−1;1−α2 √ ; X̄n − tn−1;α1 √ . n n con α1 + α2 = α. Ejemplo 5.3.4. Continuación del ejemplo 6.5.3. En este caso la cantidad pivotal es nSn2 ∼ χ2n−1 . σ2 Entonces, a = χ2n−1; α1 y b = χ2n−1; 1−α2 , con α1 + α2 = α. nSn2 2 2 1 − α = P χn−1; α1 < 2 < χn−1; 1−α2 σ 1 1 σ2 < < 2 = χ2n−1; 1−α2 nSn2 χn−1; α1 2 nSn nSn2 2 = <σ < 2 χ2n−1; 1−α2 χn−1; α1 Por lo tanto el intervalo de confianza al 1 − α es nSn2 χ2n−1;1−α2 ; nSn2 χ2n−1;α1 . 84 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica 5.4. Optimalidad Observe que en los ejemplos de la sección anterior tomamos dos valores α1 > 0 y α2 > 0. Variando estas dos cantidades, sujetas a la restricción α1 + α2 = α, podemos obtener infinitos intervalos de confianza. Por ejemplo, si en el ejemplo 5.3.2, √ hacemos que α1 = 0, tenemos que el intervalo de confianza resultante es (−∞, X̄n + z1−α σ/ n]. A medida que incrementamos α1 vamos construyendo diferentes intervalos y cuando α1 = α (esto es, α2 = 0), tenemos que el intervalo es √ [X̄n − zα σ/ n ; ∞). Entonces, si tenemos diferentes estimadores por intervalos de un parámetro θ, debemos establecer un criterio de optimalidad con el fin de escoger el “mejor” estimador por intervalos de acuerdo al criterio fijado. Ejemplo 5.4.1. Continuación ejemplo 5.2.4. Suponga que se tiene otro estimador por √ √ intervalo de θ, I2 = [X̄2 − 1, 96/ 2, X̄2 + 1, 96/ 2]. Su probabilidad de cobertura es √ 1, 96 1, 96 = Pθ (| 2(X̄2 −θ)| ≤ 1, 96) = P(|Z| ≤ 1, 96) = 0, 95. Pθ X̄2 − √ ≤ θ ≤ X̄2 + √ 2 2 Dado que esta probabilidad no depende de θ, su coeficiente de confianza es también 0,95. De los dos intervalos, I2 parece superior a I1 dado que su amplitud es menor. Esto es, con la misma confianza somos más precisos. Observe que I2 está construido a partir del estadı́stico suficiente para θ. El criterio de “mejor” elegido es seleccionar el intervalo de longitud mı́nima. Se trata de un problema de optimización con restricciones, donde la restricción es que la confianza sea igual a un valor determinado de antemano. Note que es el mismo criterio que se utilizó en el capı́tulo 3 para definir el intervalo de credibilidad “óptimo” al cual llamamos intervalo de mayor densidad a posteriori. En la subsección 3.5.1, se explicitaron ciertas condiciones bajo las cuales era sencillo identificar este intervalo. En este caso, para encontrar el intervalo de confianza de menor amplitud, usaremos el mismo método. El teorema siguiente describe, bajo ciertas condiciones, cómo hallar el intervalo de menor amplitud. Teorema 5.4.1. Sea f (x|θ) un densidad unimodal en el intervalo [a, b] que satisface: Z b C1 f (x|θ) dx = 1 − α. a C2 - f (a|θ) = f (b|θ) > 0. C3 - a ≤ xmo ≤ b, donde xmo es el modo de X. Entonces, el intervalo [a, b] es el de menor amplitud de todos los intervalos que satisfacen (C1). Demostración. Sea [a0 , b0 ] cualquier otro intervalo tal que b0 − a0 < b − a. Necesitamos probar que [a0 , b0 ] no satisfacen (C1). a0 puede ser a0 ≤ a o a0 ≥ a. Veremos el primer caso a0 ≤ a, el segundo se demuestra de manera similar. Si a0 ≤ a, tenemos dos casos b0 ≤ a o b0 > a. Estimación por Intervalos - 85 Introducción a la Inferencia Estadı́stica Caso 1: b0 ≤ a ⇒ a0 ≤ b0 ≤ a ≤ xmo . Entonces, Z b0 f (x|θ) dt ≤ f (b0 |θ)(b0 − a0 ) (si x ≤ b0 ≤ xmo ⇒ f (x|θ) ≤ f (b0 |θ)) a0 ≤ f (a|θ)(b0 − a0 ) < f (a|θ)(b − a) Z b f (x|θ) dx = 1 − α ≤ (b0 ≤ a ≤ xmo ⇒ f (b0 |θ) ≤ f (a|θ)) (f (a|θ) > 0, b0 − a0 < b − a) (por (C2), (C3) y unimodal) a =1−α (por (C1)) Caso 2: b0 > a. Entonces, a0 ≤ a ≤ b0 ≤ b. Dado que si b0 > b, entonces b0 − a0 > b − a. Z b0 Z b Z b Z a f (x|θ) dt = f (x|θ) dt + f (x|θ) dt − f (x|θ) dt = 1 − α + A. a0 a a0 b0 {z } | =A Necesitamos probar que A < 0. Para eso note que Z a f (x|θ) dt ≤ f (a|θ)(a − a0 ) (a ≤ xmo ⇒ f (x|θ) ≤ f (a|θ) si x ∈ (a0 , a)) a0 Z b f (x|θ) dt ≥ f (b|θ)(b − b0 ) (f (x|θ) ≥ f (b|θ) si x ∈ (b0 , b)). (5.2) (5.3) b0 Por lo tanto, Z a Z b f (x|θ) dt − A= a0 Z a f (x|θ) dt ≤ b0 f (x|θ) dt − f (b|θ)(b − b0 ) (por 5.3) a0 ≤ f (a|θ)(a − a0 ) − f (b|θ)(b − b0 ) (por 5.2) 0 0 = f (a|θ)(a − a − b + b ) (por (C2)) 0 0 = f (a|θ)[(b − a ) − (b − a)] <0 (por (C2) y b0 − a0 < b − a) Ejemplo 5.4.2. En los ejemplos 5.3.2 y 5.3.3, dada la simetrı́a de la distribución α normal y de la distribución t, tenemos que seleccionar α1 = α2 = . Con estos valores, 2 obtenemos en el ejemplo 5.3.2 el intervalo de menor amplitud. En el ejemplo 5.3.3, note √ 0 que la amplitud del intervalo de confianza es 2tn−1;α1 Sn / n. Por lo cual, al depender de S 0 , la amplitud es aleatoria. En este caso lo que obtenemos es un intervalo de menor amplitud esperada. A los intervalos que dejan la misma probabilidad tanto por debajo del extremo inferior como del extremo superior se les llama simétricos en probabilidad. 86 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Ejemplo 5.4.3. En el caso que la distribución utilizada para calcular los extremos no es simétrica, como es el caso del ejemplo 5.3.4, los extremos inferior y superior del intervalo de menor amplitud tienen que ser calculados por métodos numéricos. Dado que existe estudios que muestran que la amplitud del intervalo simétrico en probabilidad no es significativamente mayor que la del intervalo de menor amplitud, en estos casos, por simplicidad, se prefieren los intervalos simétricos en probabilidad. En el caso del ejemplo 5.3.4, el intervalo de confianza para σ 2 al 1 − α a utilizar serı́a: # " nSn2 nSn2 ; . χ2n−1;1−α/2 χ2n−1;α/2 Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Gómes, G., Delicado, P. (2006) Curso de Inferencia y Decisión. Departement d’Estatı́stica i Investigació Operativa. Universitat Politècnica de Catalunya. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Estimación por Intervalos - 87 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 88 - Estimación por Intervalos CAPÍTULO 6 CONTRASTE DE HIPÓTESIS 6.1. Introducción Suponga que una persona está acusada de cometer un crimen y va a juicio. El fiscal presenta su caso y el juez debe dar su veredicto en base a la evidencia presentada. El juez debe elegir entre dos hipótesis exhaustivas y excluyentes: H0 ) El acusado es inocente. H1 ) El acusado es culpable. El juez desconoce cuál hipótesis es correcta. Él debe decidir en base a la información presentada por el fiscal y la defensa. Hay solo dos decisiones posibles, condenar o absolver al acusado. Condenar al imputado implica que existe evidencia suficiente para rechazar la hipótesis de que el imputado es inocente en favor de la hipótesis de que el imputado es culpable. Absolver al imputado implica que no existe evidencia suficiente para rechazar la hipótesis de que el imputado es inocente. O sea, para concluir que el imputado es culpable. Note que nunca aceptamos la hipótesis de inocencia. Aceptarla implicarı́a que encontramos al imputado inocente, interpretación que nuestro “sistema judicial” no permite. Nuestro sistema solo permite “rechazar H0 en favor de H1 ” o “no rechazar H0 ”. Asociado a esto existen dos posibles errores, a los que llamaremos de Tipo I y de Tipo II El imputado es: Inocente Culpable H0 cierta Error de Tipo II Absuelve No rechazo H0 El juez decide: Condena Rechazo H0 89 H1 cierta Error de Tipo I Introducción a la Inferencia Estadı́stica Un error de Tipo I ocurre cuando rechazamos H0 y esta es cierta; de Tipo II, cuando no rechazamos H0 y esta es falsa. Esto es, un error de Tipo I es cuando una persona inocente es condenada y uno del Tipo II es cuando una persona culpable es absuelta. En nuestro sistema judicial, errores del Tipo I se consideran más serios que los errores de Tipo II. En consecuencia, nuestro sistema está configurado para que la probabilidad de cometer un error de Tipo I sea pequeña. Esto se consigue imponiendo las siguientes condiciones: 1. Un imputado se presume inocente. 2. Es obligación del fiscal probar que el imputado es culpable. La defensa no tiene que probar nada. 3. El juez debe encontrar al imputado culpable solamente si existe evidencia de culpabilidad más allá de una duda razonable. Esto último significa que en ausencia de evidencia suficiente debe absolver al imputado aún cuando haya alguna evidencia de culpabilidad. Si llamamos α y β a las probabilidades de cometer un error de Tipo I y un error de Tipo II respectivamente, vemos que α y β están inversamente relacionadas en el sentido de que cualquier intento de reducir una aumentará la otra. En un sistema judicial ideal, ambas deberı́an ser iguales a 0. En nuestro sistema judicial, las restricciones impuestas implican que la probabilidad de absolver personas culpables es relativamente alta. El sistema entonces funciona de la siguiente manera: 1. Hay dos hipótesis: H0 , llamada la hipótesis nula, y H1 , la hipótesis alternativa. 2. El proceso empieza asumiendo que la hipótesis nula es verdadera. 3. El objetivo del proceso es determinar si existe evidencia suficiente para inferir que la hipótesis alternativa es cierta. 4. Hay dos posibles conclusiones: a) Concluir que existe evidencia suficiente que soporta la hipótesis alternativa. b) Concluir que no existe evidencia suficiente que soporte la hipótesis alternativa. 5. Dos posibles errores se pueden cometer: Tipo I = rechazo H0 cuando H0 es cierta. Tipo II = no rechazo H0 cuando H1 es cierta. 6. Con α = P(Error Tipo I) y β = P(Error Tipo II). Deseamos mantener α y β tan chicas como sea posible. 6.2. Contraste de hipótesis Basado en el esquema de razonamiento de la sección anterior, si θ ∈ Θ ⊆ R es el parámetro de la distribución de probabilidad de una variable aleatoria X y dada una partición trivial de Θ en dos conjuntos, Θ0 y su complemento Θc0 , decidiremos, basado en lo observado en una MA de X, si es más verosı́mil que el verdadero valor de θ se encuentre en Θ0 (veredicto: no culpable) o en Θc0 (veredicto: culpable). 90 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Más formalmente, suponga que tenemos X ∼ f (x|θ), donde θ ∈ Θ ⊆ R. Deseamos contrastar si θ ∈ Θ0 ⊂ Θ, Θ0 6= ∅, contra θ ∈ / Θ0 . Entonces, nuestras hipótesis serán H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 . Tenemos X1 , . . . , Xn una MA de X, que será nuestra evidencia. Esto es, usaremos la información acerca de θ contenida en X1 , . . . , Xn para decidir si rechazamos o no H0 . Como se dijo anteriormente, la evidencia no será usada para decidir si H0 es cierta. A las hipótesis las podemos clasificar en simples o compuestas. Una hipótesis simple es aquella que asigna a θ un valor especı́fico. Una hipótesis compuesta asigna a θ un rango de valores. Ejemplo 6.2.1. Sea X ∼ f (x|θ), θ ∈ Θ ⊆ R. Sea θ0 un punto en Θ. Podemos tener, 1. Θ = {θ0 , θ1 }, H0 ) θ = θ0 contra H1 ) θ = θ1 . (simple contra simple). 2. Θ ⊆ R, H0 ) θ = θ0 contra H1 ) θ 6= θ0 . (simple contra compuesta). 3. Θ ⊆ R, H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . (compuesta contra compuesta). 4. Θ ⊆ R, H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . (compuesta contra compuesta). La idea es crear una regla de decisión que de forma inambigua nos diga, después de haber observado ~x = (x1 , . . . , xn ) ∈ X , cuál decisión tenemos que tomar: rechazar H0 o no rechazar H0 . Esto significa qué regla particionará el espacio muestral X en dos subconjuntos, a los que llamaremos región crı́tica (RC) y su complemento, la región de aceptación (RA): RC = {~x ∈ X | si observo ~x, rechazo H0 } y RA = RCc = {~x ∈ X | si observo ~x, no rechazo H0 } Ejemplo 6.2.2. Sea X1 , . . . , X9 una MA de X ∼ N(θ, 1), θ ∈ R. Plantee las siguientes hipótesis: H0 ) θ = 5, 5 contra H1 ) θ = 8. Se plantean las siguientes reglas de decisión: Regla #1: Rechazo H0 si x1 > 7. Regla #2: Rechazo H0 si 1 (x1 + x2 ) > 7. 2 Regla #3: Rechazo H0 si x̄9 > 6. Regla #4: Rechazo H0 si x̄9 > 7, 5. Esto significa, Regla #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7}. 1 Regla #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 ) > 7}. 2 Regla #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6}. Contraste de Hipótesis - 91 Introducción a la Inferencia Estadı́stica Regla #4: RC4 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 7, 5}. ~ ∈ RC|H0 cierta) Sean α = P(Error Tipo I) = P(rechazar H0 cuando H0 es cierta) = P(X ~ ∈ y β = P(Error Tipo II) = P(no rechazar H0 cuando H1 es cierta) = P(X / RC|H1 cierta). Para la Regla #1, con Φ la función de distribución de una N(0,1): α = P(X1 > 7|θ = 5, 5) = 1 − Φ(1, 5) = 0, 06681 y β = P(X1 ≤ 7|θ = 8) = Φ(−1) = 0, 15866. Calculamos α y β de manera similar par las otras pruebas y obtenemos: Prueba #1 #2 #3 #4 α 0,06681 0,01696 0,06681 0,00000 β 0,15866 0,07865 0,00000 0,06681 De inspeccionar la tabla podemos concluir: 1. Entre la regla #1 y la #2, la #2 parece ser mejor que la #1, dado que α2 < α1 y β2 < β1 . 2. La regla #3 parece ser que mejor que la regla #1 dado que α1 = α3 y β3 < β1 . 3. Entre la regla #2 y la #3 no existe una respuesta clara acerca de cuál es mejor. 4. La regla #4 se obtuvo “reduciendo el tamaño”de la RC de la regla #3. Esto es, RC4 ⊂ RC3 . Esto resultó en que α4 = 0, pero se consiguió a costo de que el valor de β creciera rápidamente. En conclusión, 1. Todas las reglas que podamos crear no son necesariamente comparables. 2. Ajustando de manera apropiada la RC de una regla, podemos hacer α (o β) tan pequeña como queramos, pero esto implicará que β (o α) aumentará de valor si dejamos fijo el tamaño de la muestra. La pregunta entonces es: ¿cómo, para un tamaño de muestra dado, construimos la “mejor” regla para contrastar H0 contra H1 ? Definición 6.2.1. La función de potencia de un contraste, denotada por β(θ), es la probabilidad de rechazar H0 cuando θ ∈ Θ es el verdadero valor del parámetro. ~ ∈ RC) ∀θ ∈ Θ. β(θ) = Pθ (X 92 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Note que si tomamos θ ∈ Θ0 o θ ∈ Θc0 , tenemos que β(θ) = ~ ∈ RC|θ ∈ Θ0 ) = Pθ (error Tipo I) = α Pθ (X ~ ∈ RC|θ ∈ Θc0 ) = 1 − Pθ (error Tipo II) = 1 − β Pθ (X A α lo llamaremos el nivel de significación del contraste y a 1 − β la potencia del contraste. Note que la potencia de un contraste es una de las componentes de su función de potencia. El contraste ideal tendrı́a α = 0 y 1 − β = 1, algo que salvo en casos triviales es inalcanzable. Ejemplo 6.2.3. Para la Regla #4, β(θ) = 1 − Φ(22, 5 − 3θ), ∀θ ∈ Θ. Definición 6.2.2. A la función ψ : X → {0, 1} definida como, ψ(~x) = I[~x∈RC] , se le llama función crı́tica del contraste. ~ = β(θ). Observación 6.2.1. E(ψ(X)) Si C es la clase de todos los contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 , C contiene contrastes que no son comparables entre sı́. Por lo cual, no existirá una clara elección de cuál es el “mejor” contraste dentro de la clase. Al igual que hicimos en estimación, cuando enfocamos nuestra atención a la clase de estimadores insesgados, podemos también en este problema restringir nuestra búsqueda a una subclase de C. Definición 6.2.3. Para un número fijo α ∈ (0, 1). Un contraste para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 , con función de potencia β(θ), se llama de tamaño o nivel α de acuerdo a si sup β(θ) = α θ∈Θ0 o sup β(θ) ≤ α θ∈Θ0 respectivamente. Note que un contraste de tamaño α es también un contraste de nivel α. Además, sup β(θ) es la θ∈Θ0 “peor” de las probabilidades de error de Tipo I, lo cual indica que para evaluar un contraste nos ponemos en la situación más desfavorable. Esto es, cuando el desempeño del contraste es más débil. Definición 6.2.4. Sea C una clase de contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 . Un contraste de la clase C, con función de potencia β(θ), es uniformemente más potente (UMP) dentro de la clase C, si β(θ) ≥ β 0 (θ) ∀θ ∈ Θc0 , para todo β 0 (θ) que es la función de potencia de un contraste en la clase C. Ejemplo 6.2.4. Continuación del ejemplo 6.2.2. Para H0 ) θ = 5, 5 contra H1 ) θ = 8, definimos los siguientes contrastes Contraste de Hipótesis - 93 Introducción a la Inferencia Estadı́stica Contraste #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7, 1449}. 1 Contraste #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 + x3 + x4 ) > 6, 32245}. 4 Contraste #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6, 0483}. Note que β1 (5, 5) = β2 (5, 5) = β3 (5, 5) = 0, 049995. Por lo tanto, todos los contrastes son de tamaño 0,049995. En cuanto a la potencia, β1 (8) = 0, 80375 β2 (8) = 0, 9996 β3 (8) = 1 Por lo tanto, el contraste #3 es el “mejor” entre los tres considerados. Nosotros restringiremos nuestra atención a la clase C = {contrastes de nivel α}. Es decir, fijaremos la probabilidad error de Tipo I en un valor bajo que consideremos razonable y dentro de todos los contrastes de este nivel buscaremos aquel que tenga la mayor potencia. 6.2.1. Hipótesis simple contra hipótesis simple En el caso que tengamos una hipótesis simple contra otra hipótesis simple, el siguiente teorema nos dice cómo encontrar el “mejor” contraste de tamaño α. Al que llamaremos el más potente (MP). Note que el teorema asume que el espacio parámetrico está compuesto por solo dos puntos, θ0 y θ1 . Si bien esto es una simplificación importante de la realidad, el resultado podrá luego ser extendido a casos más realistas, donde Θ ⊆ R. Lema 6.2.1. Neyman-Pearson Sea X1 , . . . , Xn una MA de X ∼ f (x|θ), θ ∈ Θ = {θ0 , θ1 }. Para ~ = ~x, sea L(θ|~x) la función de verosimilitud de ~x. Considere X H0 ) θ = θ0 contra H1 ) θ = θ1 . Sea un contraste con la siguiente función crı́tica ψ(~x) = I[L(θ1 |~x)>kL(θ0 |~x)] , (6.1) ~ = α. Eθ (ψ(X)) (6.2) donde k está determinado tal que Cualquier contraste que satisfaga (6.1) y (6.2) es el contraste MP de tamaño α. Demostración. Se asume que X es una variable continua. El caso discreto es similar remplazando las integrales por sumatorias. Primero note que cualquier contraste que satisfaga 6.2 es de tamaño α y por lo tanto también es de nivel α. 94 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Sea ψ ∗ (~x) y β ∗ (θ) la función crı́tica y la función de potencia respectivamente de cualquier otro contraste de nivel α. Sea β(θ) la función de potencia del test con función crı́tica dada por 6.1. Observe que (ψ(~x) − ψ ∗ (~x))(L(θ1 |~x) − kL(θ0 |~x)) ≥ 0 ∀~x ∈ X . (6.3) Para ello, note que si ~x ∈ X tal que ψ(~x) = 1, esto implica que L(θ1 |~x) > kL(θ0 |~x) > 0. Además, ψ(~x)−ψ ∗ (~x) ≥ 0 dado que ψ ∗ (~x) ∈ {0, 1}. Por lo cual, se verifica 6.3. Para ~x ∈ X tal que ψ(~x) = 0, se verifica que L(θ1 |~x) > kL(θ0 |~x) < 0 y que ψ(~x) − ψ ∗ (~x) ≤ 0. Por lo cual, se verifica nuevamente 6.3. Por lo tanto, Z 0≤ Z ... ∗ (ψ(~x) − ψ (~x))(L(θ1 |~x) − kL(θ0 |~x)) n Y dxi i=1 Z ∞ Z ∞ ψ(~x)(L(θ1 |~x) − kL(θ0 |~x)) ... = −∞ −∞ n Y i=1 Z ∞ dxi − Z ∞ ... −∞ ψ ∗ (~x)(L(θ1 |~x) − kL(θ0 |~x)) −∞ n Y dxi i=1 ~ − kEθ0 (ψ(X))) ~ ~ − kEθ0 (ψ ∗ (X))) ~ = (Eθ1 (ψ(X)) − (Eθ1 (ψ ∗ (X)) = (β(θ1 ) − β ∗ (t1 )) − k(β(θ0 ) − β ∗ (t0 )) Con lo cual, tenemos que β(θ1 ) − β ∗ (t1 ) ≤ k(β(θ0 ) − β ∗ (t0 )) (6.4) Observación 6.2.2. Note que el contraste MP en este caso se basa en la comparación de funciones de verosimilitud. Favorecemos la hipótesis que tiene asociada una mayor verosimilitud. Corolario 6.2.1. Sea RC la región crı́tica del contraste más potente para H0 ) θ = θ0 contra H1 ) θ = θ1 . Suponga que el nivel de significación del contraste es α. Sea β(θ1 ) la potencia del mismo, entonces α ≤ β(θ1 ). Demostración. Considere el contraste donde los datos son ignorados y se decide en términos de realizar una prueba de Bernoulli. Si observamos éxito rechazamos la hipótesis nula. Si α = P(éxito), entonces el contraste es de tamaño α y su potencia es también α. Pero RC es la mejor región crı́tica de nivel α y por lo tanto tiene que tener una potencia mayor o igual que el contraste descrito. Ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), σ 2 conocido. Suponga que µ ∈ {µ0 , µ1 }, (µ0 < µ1 ). Deseamos constrastar H0 )µ = µ0 contra H1 )µ = µ1 . Para encontrar el contraste MP, para estas hipótesis, aplicamos el Lema de NeymanPearson. Tenemos que ( ) n X n 1 L(µ|~x) = (2πσ 2 )− 2 exp − 2 (xi − µ)2 2σ i=1 Contraste de Hipótesis - 95 Introducción a la Inferencia Estadı́stica Por lo tanto, la RC del contraste MP es el conjunto de las ~x ∈ X tal que P n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ1 )2 P ≥ k, n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2 (6.5) donde k está elegido tal que ( ) ! n 1 X P exp − 2 ≥ k µ = µ0 = α. (Xi − µ1 )2 − (Xi − µ0 )2 2σ i=1 Observación 6.2.3. La condición L(θ1 |~x) > k, k > 0, L(θ0 |~x) también puede escribirse de la forma µ1 (~x) = µ1 (~x, θ0 , θ1 ) ≤ c1 o µ2 (~x) = µ2 (~x, θ0 , θ1 ) ≥ c2 , donde ~ θ0 , θ1 ) ≤ c1 ) = α o P(µ2 (X, ~ θ0 , θ1 ) ≥ c2 ) = α. P(µ1 (X, (6.6) Esto es, simplificaremos lo más posible la expresión L(θ1 |~x)/L(θ0 |~x) ≥ k para reducirla a la forma equivalente µ1 (~x) ≤ c1 o µ2 (~x) ≥ c2 tal que sea sencillo determinar la distribución en el muestreo de µ1 (~x) o µ2 (~x) con el fin de hallar el valor de c1 o c2 , según corresponda, que satisfaga 6.6. Ejemplo 6.2.6. Continuación del ejemplo 6.2.5. Usando la observación 6.2.3, la ecuación 6.5 equivale a que n o 1 Pn 1 n(x̄n −µ1 )2 2 2 2 exp − 2σ2 exp − 2σ2 i=1 (xi − µ1 ) exp − 2σ2 (nSn + n(x̄n − µ1 ) ) o ≥ k. 1 Pn 1 n = = n(x̄n −µ0 )2 exp − 2σ2 i=1 (xi − µ0 )2 exp − 2σ2 (nSn2 + n(x̄n − µ0 )2 ) exp − 2σ2 Por lo tanto rechazamos H0 si n o n(x̄2n −2x̄n µ1 +µ21 ) n n exp − 2σ 2 2 2 n o = exp 2 (µ1 − µ0 )x̄n exp − 2 (µ1 − µ0 ) ≥ k n(x̄2 −2x̄ µ +µ2 ) σ 2σ exp − n 2σn2 0 0 n ⇒ exp 2 (µ1 − µ0 )x̄n ≥ k ∗ ⇒ (µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≥ k ∗∗∗ σ ~ = X̄n , dado que (µ1 − µ0 ) > 0. La simplificación nos lleva, en este caso, a que µ2 (X) cuya distribución en el muestreo es conocida. Por lo tanto, la RC del contraste MP, volviendo a denotar el umbral de la RC con la letra k, es {~x ∈ X |x̄n ≥ k}, donde k está elegido tal que √ √ n(X̄n − µ0 ) n(k − µ0 ) P(X̄n ≥ k|µ = µ0 ) = α ⇒ P ≤ = 1 − α. σ σ Esto √ es, si z1−α es el percentil (1-α)100 % de una N(0,1), rechazo H0 si y solo si n(x̄n − µ0 ) σ ≥ z1−α o, lo que es lo mismo, si x̄n ≥ µ0 + z1−α √ . σ n 96 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Ejemplo 6.2.7. Continuación del ejemplo 6.2.6. Si en el ejemplo 6.2.5 se hubiera asumido que µ1 < µ0 , para hallar la RC del contraste MP los cálculos serı́an idénticos salvo en el último paso. Dado que ahora (µ1 − µ0 ) < 0 tenemos que (µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≤ k ∗∗∗ Entonces, µ1 (~x) = x̄n y la RC={~x ∈ X |x̄n ≤ k}, donde k √está elegido tal que n(x̄n − µ0 ) P(X̄n ≤ k|µ = µ0 ) = α. Esto es, rechazo H0 si y solo si ≤ zα o σ σ x̄n ≤ µ0 + zα √ . n Ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = θ. Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos poner contrastar H0 ) θ = θ0 Sabemos que L(θ|~x) = θ −n exp − n X contra H1 ) θ = θ1 . ! xi /θ . Por lo tanto, la RC del contraste MP de i=1 tamaño α está dada por ( ) P n n θ1−n exp(− ni=1 xi /θ1 ) θ0 1 X 1 P ≥k ⇒ − exp − xi ≥ k θ1 θ1 θ0 i=1 θ0−n exp(− ni=1 xi /θ0 ) ) ( n n n X 1 1 1 X 1 X ∗ ∗∗ ⇒ exp − − xi ≥ k ⇒ − xi ≥ k ⇒ xi ≥ k ∗∗∗ θ1 θ0 i=1 θ0 θ1 i=1 i=1 ( ) n X −1 −1 dado que θ0 −θ1 > 0. Por lo tanto, la RC= ~x ∈ X | xi ≥ k , donde k está elegido i=1 ! n X tal que P Xi ≥ k|θ = θ0 = α. i=1 Sabemos que n X Xi ∼ Gamma (n, 1/θ) ⇒ i=1 2 Pn i=1 θ Xi ∼ Gamma (n, 1/2) = χ22n . Lo que implica que P 2 ni=1 Xi 2 RC = ~x ∈ X ≥ χ2n;1−α . θ0 Contraste de Hipótesis - 97 Introducción a la Inferencia Estadı́stica En los ejemplos 6.2.5 y 6.2.8, la RC quedó expresada en términos del estadı́stico suficiente para el parámetro de interés. Esto es consecuencia de aplicar el teorema 2.3.1 al resultado obtenido en el lema 6.2.1. Corolario 6.2.2. Bajo las condiciones del lema 6.2.1, si T = T (X1 , . . . , Xn ) es un estadı́stico suficiente para θ. Entonces, cualquier contraste cuya función crı́tica es ψ(t) = I[fT (t|θ1 )>kfT (t|θ0 )] , donde k está determinado tal que Eθ (ψ(T )) = α, es el contraste MP de tamaño α. Ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos contrastar H0 ) θ = θ0 contra H1 ) θ = θ1 . nxn−1 I[0<x<θ] , θn ≥ k}. Donde el valor de k está dado por Sabemos que X(n) es suficiente para θ. Por lo cual, dado que fX(n) (x) = tenemos que la RC={~x ∈ X |x(n) Z Pθ (X(n) ≥ k|θ = θ0 ) = k θ0 θ0n − k n nxn−1 dx = = α ⇒ k = θ0 (1 − α)1/n . θ0n θ0n Ejemplo 6.2.10. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos contrastar H0 ) θ = θ0 Sabemos que T = n X contra H1 ) θ = θ1 . Xi es suficiente para θ. Entonces, la RC MP está dada por las i=1 ~x ∈ X , tal que n t n t θ (1 − θ1 )n−t 1 − θ1 θ1 (1 − θ0 ) θ1 (1 − θ0 ) t 1 = ≥ k ⇒ t log ≥ k∗ n t n−t 1 − θ θ (1 − θ ) θ (1 − θ ) θ0 (1 − θ0 ) 0 0 1 0 1 t Dado que θ0 < θ1 tenemos que θ1 /θ0 > 1 y que (1(− θ0 )/(1 − θ1 ) > )1, por lo cual n X log θ1 (1 − θ0 )/[θ0 (1 − θ1 )] > 0. Entonces, la RC es ~x ∈ X | xi ≥ k . Donde k es i=1 tal que α=P n X i=1 98 - Contraste de Hipótesis ! Xi ≥ k θ = θ0 n X n x = θ0 (1 − θ0 )n−x . x x=k Introducción a la Inferencia Estadı́stica Por ejemplo, si θ0 = 1/4, θ1 = 3/4 y n = 10. Para hallar k, α=P n X ! Xi ≥ k θ = 1/4 i=1 ( 10 X 0, 0197 si k = 6 10 = 0, 25x 0, 7510−x = x 0, 0781 si k = 5 x=k Por lo tanto, para α = 0, 05 no existe una RC de la forma especificada por NeymanPearson. Es más, por ejemplo, no existe el contraste MP de nivel α ∈ (0, 0197; 0, 0781). Esta situación es común cuando X es una variable aleatoria discreta. En el curso no nos detenemos en cómo solucionar este problema. 6.2.2. Hipótesis compuestas Suponga que deseamos contrastar, H0 ) θ = θ0 contra H1 ) θ > θ0 . Si bien esto no supone una partición de Θ, dado que estamos dejando fuera los valores de θ < θ0 , verificaremos que la función de potencia es creciente en el conjunto Θ0 = {θ|θ ≤ θ0 }. Esto garantiza que β(θ) alcanza su máximo valor, en Θ0 , cuando θ = θ0 . Por lo tanto, estaremos en realidad trabajando con H0 ) θ ≤ θ0 y buscando contrastes de nivel α. Para hallar el contraste UMP, definido en 6.2.4, fijamos un valor arbitrario de θ, θ∗ , tal que θ∗ > θ0 . Después procedemos a hallar la región crı́tica MP, de tamaño α, para H0 ) θ = θ0 contra H1 ) θ = θ∗ , usando el lema 6.2.1. Si el contraste resultante no depende del valor θ∗ seleccionado, usando la definición 6.2.4, tenemos que el contraste hallado es el UMP. Ejemplo 6.2.11. En los ejemplos 6.2.5, 6.2.8 y 6.2.9, los contrastes resultantes no dependen del valor en particular θ1 , solo se utilizó para construirlos la relación θ0 < θ1 . Por lo tanto, en cada ejemplo las RC halladas son las UMP para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Solo queda mostrar que las respectivas funciones de potencia son funciones crecientes en θ. En el ejemplo 6.2.5, √ √ n(X̄n − θ0 ) n(X̄n − θ + θ − θ0 ) > z1−α = Pθ > z1−α β(θ) = Pθ (X̄n > k) = Pθ σ σ √ = Pθ n(X̄n − θ) > z1−α − σ √ √ n(θ − θ0 ) n(θ − θ0 ) = 1 − Φ z1−α − . σ σ Por lo tanto, β(θ) es una función creciente en θ. Por lo cual, sup β(θ) = β(θ0 ). θ≤θ0 La Figura 6.1 muestra el comportamiento de β(θ), para el caso n = 20, θ0 = 2, σ 2 = 5 y α = 0, 1. Pn θ0 χ22n;1−α θ0 χ22n;1−α 2 i=1 Xi Para el ejemplo 6.2.8, β(θ) = 1−Pθ ≤ = 1−FY , θ θ θ donde Y ∼ χ22n . La Figura 6.2, muestra la gráfica de β(θ) para el caso n = 10, θ0 = 1, 5 y α = 0, 1. Contraste de Hipótesis - 99 Introducción a la Inferencia Estadı́stica Figura 6.1: Función de potencia, X ∼ N(θ,5), α = 0, 1 y n = 20 Figura 6.2: Función de potencia, X ∼ Exp(θ), α = 0, 1 y n = 10 X(n) θ0 (1 − α)1/n θ0 (1 − α)1/n Para el ejemplo 6.2.9, β(θ) = 1−Pθ ≤ = 1−FY , θ θ θ donde Y ∼ Beta(n,1). La Figura 6.3, muestra la gráfica de β(θ) para el caso n = 10, θ0 = 2, 2 y α = 0, 1. Note que en este caso en particular, k = 2, 176942 y dado que Y ∼ Beta, si θ < 2, 176942, entonces 2, 176942/θ > 1 y por lo tanto, para θ < 2, 176942, FY (2, 176942/θ) = 1 lo que implica que β(θ) = 0. Note que todas las figuras muestran que a medida que θ crece y se aleja de θ0 , la potencia tiende rápidamente a 1. Esto es, cuanto más se aleja el verdadero valor de θ por encima de θ0 , mayor es la probabilidad de rechazar la hipótesis nula de que θ = θ0 . La función de potencia es también una función del tamaño de la muestra. Cuanto mayor sea n, mayor información habrá acerca de θ, por lo cual pequeñas desviaciones del verdadero valor de θ 100 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Figura 6.3: Función de potencia, X ∼ Uniforme(0, θ), α = 0, 1 y n = 10 con respecto a θ0 harán que rechacemos H0 . En este sentido, se dice que los contrastes UMP son conservadores. La Figura 6.4 muestra la función de potencia del ejemplo 6.2.5, calculada para tres tamaños de muestra: 10, 100 y 1000. Note que cuando n = 1000 la probabilidad de rechazar H0 es mayor que 0,9 apenas θ sobrepasa, aproximadamente, el valor 2,18. Ejemplo 6.2.12. Sea X1 , . . . , Xn una MA de X ∼ N(0,σ 2 ). Deseamos contrastar H0 ) σ 2 = σ02 contra H1 ) σ 2 > σ02 . Para encontrar el contraste UPM, aplicamos el lema de Neyman-Pearson a las hipótesis H0 ) σ 2 = σ02 contra H1 ) σ 2 = σ12 , con (σ02 < σ12 ). ( ) P 2 n2 n n (2πσ12 )− 2 exp { ni=1 x2i /(2σ12 )} σ0 1 1 1 X 2 L(σ12 |~x) P = = exp − − x ≥ k. n L(σ02 |~x) σ12 2 σ12 σ02 i=1 i (2πσ02 )− 2 exp { ni=1 x2i /(2σ02 )} ⇒ Por lo cual y dado que n X i=1 1 1 − 2 2 σ0 σ1 X n i=1 x2i ≥k ∗ ⇒ n X x2i ≥ k ∗∗ . i=1 ( Xi2 /σ 2 ∼ χ2n , tenemos que la RC= ~x ∈ Rn n X ) x2i ≥ σ02 χ2n;1−α . i=1 Para el cálculo de la RC no importó el valor en particular de σ12 , solo se tuvo en cuenta la relación σ02 < σ12 , para determinar que (1/σ02 − 1/σ12 ) > 0. Por lo tanto, la RC hallada es la RC UMP para las hipótesis planteadas. Observación 6.2.4. Con las modificaciones correspondientes todo lo anterior es válido para H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . En este caso, empezamos con H0 ) θ = θ0 contra H1 ) θ = θ1 , donde θ1 < θ0 . Se construye la RC MP utilizando el lema de Neyman-Pearson. Si esta RC no depende del valor en particular de θ1 , sino solo de la relación θ1 < θ0 , hemos hallado la RC UMP para las hipótesis originales, verificando que su función de potencia sea decreciente en (θ0 , +∞). Contraste de Hipótesis - 101 Introducción a la Inferencia Estadı́stica Figura 6.4: β(θ) como función de n. Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ ≤ 2. Ejemplo 6.2.13. Continuación del ejemplo 6.2.7. Si se desea contrastar H0 ) θ ≥ θ0 conσ tra H1 ) θ < θ0 . La región crı́tica óptima es la que rechaza H0 cuando x̄n ≤ µ0 + zα √ . n Como en caso de estimación puntual, cuando nos circunscribimos a una determinada familia de distribuciones podemos encontrar resultados que son propios de la familia. Por lo tanto, definiremos una nueva familia de distribuciones. Definición 6.2.5. Una familia de distribuciones {f (x|θ)|θ ∈ Θ} se dice que tiene la propiedad de ~ razón de verosimilitudes monótona (MLR, por su sigla en inglés) en un estadı́stico real T = T (X) ∗ si lo siguiente se cumple: para todo {θ, θ } ⊂ Θ, y ~x ∈ X , tenemos que L(θ∗ |~x) es no decreciente en T (~x) siempre que θ∗ > θ. L(θ|~x) Ejemplo 6.2.14. Continuación ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), n X ~ = µ ∈ R, σ > 0 conocida. Considere un valor arbitrario de µ, µ∗ , y defina T (X) Xi . i=1 Entonces, L(µ∗ |~x) = exp (µ∗ − µ)T (~x)/σ 2 + n(µ2 − µ∗2 )/(2σ 2 ) , L(µ|~x) que es creciente en T , siempre que µ∗ > µ. Por lo tanto, tiene la propiedad de MLR en n X ~ T (X) = Xi . i=1 102 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Ejemplo 6.2.15. Continuación ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), n X + ~ con E(X) = θ ∈ R . Defina T (X) = Xi . i=1 L(θ∗ |~x) = L(θ|~x) θ θ∗ n exp (θ∗ − θ)T (~x) θ θ∗ , ~ = es creciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en T (X) n X Xi . i=1 Ejemplo 6.2.16. Continuación ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). ~ = X(n) . Defina, T (X) n I[0<x(n) <θ∗ ] L(θ∗ |~x) θ = , L(θ|~x) θ∗ I[0<x(n) <θ] es no decreciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en ~ = X(n) . T (X) Note que T es siempre un estadı́stico suficiente. Teorema 6.2.1. Teorema de Karlin-Rubin Suponga que deseamos contrastar H0 ) θ ≤ θ0 ~ un estadı́stico real para θ ∈ Θ ⊆ R. Suponga que la familia contra H1 ) θ > θ0 . Sea T = T (X) {f (x|θ)|θ ∈ Θ} tiene la propiedad de MLR (no decreciente). Entones, el test que tiene función crı́tica ~ =I ~ ψ(X) [T (X)>k] , ~ = α. corresponde con el contraste UMP de nivel α, si k es elegido tal que E(ψ(X)) Teorema 6.2.2. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ). Suponga que f (x|θ) pertenece a la familia exponencial de distribuciones, esto es f (x|θ) = h(x)c(θ) exp{w(θ)t(x)}. ~ = Defina T (X) n X t(Xi ). i=1 ~ > k ∗ ) = α. 1. Si w(θ) es una función monótona creciente en θ y si existe k ∗ tal que Pθ0 (T (X) Entonces, el contraste con RC = {~x ∈ X |T (~x) > k ∗ } es el contraste UMP de nivel α para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Contraste de Hipótesis - 103 Introducción a la Inferencia Estadı́stica ~ < k ∗ ) = α. 2. Si w(θ) es una función monótona decreciente en θ y si existe k ∗ tal que Pθ0 (T (X) ∗ Entonces, el contraste con RC = {~x ∈ X |T (~x) < k } es el contraste UMP de nivel α para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Ejemplo 6.2.17. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). µ ∈ R conocido y σ ∈ R+ desconocido. Deseamos contrastar H0 ) σ ≤ σ0 contra H1 ) σ > σ0 . Note que si escribimos a f (x|σ) como una familia exponencial, entonces w(σ 2 ) = − 1 y t(x) = (x − µ)2 . 2 2σ w(σ 2 ) es una función creciente en σ. Por lo tanto, f (x|σ) tiene la propiedad de MLR n X ~ en T (X) = (Xi − µ)2 . Entonces, el contraste UMP de nivel α es la que tiene función i=1 crı́tica ~ =I ~ P ψ(X) . 2 [T (X)>k] = I[ n i=1 (Xi −µ) >k ] Para determinar k, recordamos que n X (Xi − µ)2 /σ 2 ∼ χ2n . Por lo tanto, la función i=1 crı́tica es de la forma ~ = I Pn ψ(X) [ 2 2 2 i=1 (Xi −µ) >σ0 χn;1−α ]. Ejemplo 6.2.18. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. θ ∈ R+ . Se desea contrastar H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . f (x|θ) pertenece a la familia exponencial con w(θ) = −θ y t(x) = x. Para determinar la región crı́tica del contraste UMP, notamos que w(θ) es decreciente en θ, por lo cual los teoremas 6.2.1 y 6.2.2 ~ = I Pn establecen que la función crı́tica es ψ(X) Xi <k] . [ i=1 6.2.3. No existencia del la RC UMP Suponga X ∼ N(θ, σ 2 ), σ 2 conocida y H0 ) θ = θ0 contra H1 ) θ 6= θ√ 0 . Si tomamos θ1 < θ0 , el contraste UMP, de nivel α, es la que tiene RC={~x|x̄n < θ0 − z1−α σ/ n}. Por lo cual, si existe, esta tendrı́a que ser el contraste UMP en este caso dado que ningun otro tiene mayor potencia en θ = θ1 . Llamémosle Contraste #1 y sea β1 (θ) su función de potencia. √ Suponga ahora que tenemos otro contraste que tiene RC={~x|x̄n > θ0 + z1−α σ/ n} y sea β2 (θ) su 104 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica función de potencia. Si tomamos θ2 > θ0 , tenemos que √ β2 (θ2 ) = Pθ2 (X̄n > θ0 + z1−α σ/ n) X̄n − θ2 θ0 − θ2 √ > z1−α + √ = Pθ2 σ/ n σ/ n > Pθ2 (Z > z1−α ) = Pθ2 (Z < −z1−α ) X̄n − θ2 θ0 − θ2 √ < −z1−α + √ > Pθ2 σ/ n σ/ n √ = Pθ2 (X̄n < θ0 − z1−α σ/ n) = β1 (θ2 ). Por lo tanto, β2 (θ) > β1 (θ) lo que indica que el contraste #1 no es el UMP. Esto contradice lo que habı́amos dicho de que si existı́a el contraste UMP, este deberı́a ser el contraste #1. Entonces, no existe un contraste UMP de nivel α para este problema. La Figura 6.5 muestra la comparación de β1 (θ) y β2 (θ). Figura 6.5: Comparación de β1 (θ) y β2 (θ). Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ 6= 2. 6.3. Contraste de razón de verosimilitudes Hemos visto que existen casos para las cuales no existe el contraste UMP. También hemos asumido hasta ahora que Θ ⊆ R y nos hemos enfocado en hipótesis donde se especificaban en H0 desigualdades del tipo “≥” o “≤”. Deseamos encontrar un método más general, no solo en qué tipo de igualdad o desigualdades especificamos en H0 , sino también en el número de parámetros desconocidos que pueda tener una distribución. Por ejemplo, suponga X ∼ f (x|θ), con θ = (θ1 , θ2 ), θi ∈ R, i = 1, 2. Deseamos contrastar las hipótesis H0 ) θ1 = θ10 contra H1 ) θ1 > θ10 . Note que H0 ) no es una hipótesis simple en este caso. Se ha escrito de esta manera para reflejar que si bien Contraste de Hipótesis - 105 Introducción a la Inferencia Estadı́stica queremos θ1 = θ10 , en cambio θ2 puede tomar cualquier valor. Por lo cual, el verdadero planteo es H0 ) θ1 = θ10 , θ2 ∈ R. Por ejemplo, cuando X ∼ N(θ1 , θ2 ), si asumimos que θ2 es conocido, entonces H1 ) θ1 = θ10 es una hipótesis simple y para este problema hemos mostrado que no existe la RC UMP. A continuación describiremos un método general que permite encontrar contrastes para estas situaciones. Definición 6.3.1. Un estadı́stico de razón de verosimilitudes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 es sup L(θ|~x) θ∈Θ0 . λ(~x) = sup L(θ|~x) θ∈Θ Un contraste de razón de verosimilitudes es cualquier contraste que tenga como RC a un conjunto de la forma {~x ∈ X |λ(~x) ≤ c}, c ∈ (0, 1). Nota: En los casos que estudiamos en el curso, el supremo es siempre alcanzado. Por lo tanto, podemos modificar la definición de λ(~x), sustituyendo “sup” por “máx”. Observación 6.3.1. Note que supθ∈Θ0 L(θ|~x) se puede interpretar como la mejor evidencia en favor de la hipótesis nula. A su vez, supθ∈Θ L(θ|~x) se puede interpretar como la mejor evidencia en favor de θ sin considerar ninguna restricción. Valores pequeños de λ(~x) están asociados a valores pequeños de supθ∈Θ0 L(θ|~x) relativos al valor de supθ∈Θ L(θ|~x). Si la mejor evidencia a favor de H0 parece débil, en comparación a la evidencia sin restringir, se rechaza H0 . Para llevar a cabo el proceso de maximización, primero note que supθ∈Θ L(θ|~x) = L(θ̂M V |~x), donde θ̂M V es el estimador máximo verosı́mil de θ. En el caso de que θ sea un vector, θ = (θ1 , . . . , θk ), fijamos el valor del parámetro θi al cual se refiere la hipótesis nula y con ese valor fijo hallamos los estimadores máximo verosı́mil de las restantes componentes de θ. Por ejemplo, suponemos que las hipótesis son H0 ) θ1 = θ10 contra H1 ) θ1 6= θ10 . Para hallar el supθ∈Θ0 L(θ|~x), primero sustituimos θ1 por θ10 y luego, sujeto a esta restricción, encontramos (θ̂2 , . . . , θ̂k ), los estimadores máximo verosı́miles de (θ2 , . . . , θk ). Entonces, supθ∈Θ0 L(θ|~x) = L(θ10 , θ̂2 , . . . , θ̂k |~x). Ejemplo 6.3.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido. Deseamos contrastar H0 ) µ = µ0 contra H1 ) µ 6= µ0 . El contraste de razón de verosimilitudes, se construye de la siguiente manera ( L(µ|~x) = (2πσ 2 ) −n 2 n 1 X exp − 2 (xi − µ)2 2σ i=1 ) . Dado que σ 2 es conocida, θ = µ, Θ0 = {µ0 } y Θ = R. En este caso, H0 ) es una hipótesis simple. ( ) n X n 1 sup L(θ|~x) = L(µ0 |~x) = (2πσ 2 )− 2 exp − 2 (xi − µ0 )2 , 2σ θ∈Θ0 i=1 106 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica y dado que θ̂M V = X̄n , ( −n 2 sup L(θ|~x) = L(x̄n |~x) = (2πσ 2 ) θ∈Θ Entonces, recordando el resultado 2.1: n X n 1 X exp − 2 (xi − x̄n )2 2σ i=1 ) . (xi − µ0 )2 = nSn2 + n(x̄n − µ0 )2 . i=1 P n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2 P λ(~x) = n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − x̄n )2 n n o = exp − 2 (x̄n − µ0 )2 2σ Entonces, rechazamos H0 si o n n n (x̄n − µ0 )2 > c∗ ⇒ exp − 2 (x̄n − µ0 )2 < c ⇒ 2σ 2σ 2 √ n(x̄n − µ0 ) ≥ c∗∗ . σ Donde c∗∗ está elegido tal que √ n(X̄n − µ0 ) ∗∗ ≥c = α ⇒ c∗∗ = z1−α/2 , Pµ0 σ √ dado que n(X̄n − µ0 )/σ ∼ N(0, 1) cuando H0 ) es cierta. La Figura 6.6 muestra la función de potencia de este contraste en el caso de que α = 0, 10, n = 20, σ 2 = 10, para H0 ) µ = 2 contra H1 ) µ 6= 2. Figura 6.6: Función de potencia. Caso: X ∼ N(µ,10), α = 0, 1 y H0 ) µ = 2. Contraste de Hipótesis - 107 Introducción a la Inferencia Estadı́stica Ejemplo 6.3.2. Continuación ejemplo 6.3.1. Suponga ahora que σ > 0 es desconocido. Las hipótesis, escritas explı́citamente son H0 ) µ = µ0 , σ > 0 contra H1 ) µ 6= µ0 , σ > 0. En este caso θ = (µ, σ 2 ), Θ0 = {µ0 }×R+ , Θ = R×R+ . Para calcular λ(~x), maximizamos L(θ|~x) en Θ0 y en Θ: En Θ0 , ( sup L(θ|~x) = L(µ0 , σ̂02 |~x) = (2πσ̂02 ) −n 2 θ∈Θ0 n 1 X (xi − µ0 )2 exp − 2 2σ̂0 i=1 ) n n = (2πσ̂02 )− 2 e− 2 , n donde σ̂02 µ = µ0 . 1X = (xi − µ0 )2 es la estimación máximo verosı́mil de σ 2 sujeto a que n i=1 En Θ: ( −n 2 sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 ) θ∈Θ n 1 X (xi − x̄n )2 exp − 2 2Sn i=1 ) n n = (2πSn2 )− 2 e− 2 . Por lo tanto, n n (2πσ̂02 )− 2 e− 2 λ(~x) = n = n (2πSn2 )− 2 e− 2 Sn2 σ̂02 n2 − n (x̄n − µ0 )2 2 = 1+ . Sn2 Rechazamos H0 ) cuando (x̄n − µ0 )2 1+ Sn2 − n2 <c ⇒ (x̄n − µ0 )2 > c∗ ⇒ Sn2 (x̄n − µ0 ) > c∗∗ . Sn Donde c∗∗ está elegido tal que tn−1;1−α/2 (x̄n − µ0 ) ∗∗ Pµ0 >c , = α ⇒ c∗∗ = √ Sn n−1 √ dado que n − 1(X̄n − µ0 )/Sn ∼ tn−1 cuando H0 ) es cierta. La Figura 6.7 muestra la función de potencia de este contraste, en el caso H0 ) µ = 2, Sn2 = 10, n = 20 y α = 0, 1. También se incluye la gráfica de la función de potencia del ejemplo 6.3.1. Note de comparar ambas gráficas, se aprecia que en el caso de σ desconocido, la potencia tiende más lentamente a 1 a medida que nos alejamos del valor µ = 2. Esto se debe a que se ha incorporado la incertidumbre acerca del verdadero valor de la varianza de la distribución. Ejemplo 6.3.3. Continuación ejemplo 6.3.2. Suponga que ahora queremos encontrar el contraste de razón de verosimilitudes para H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 . En este caso θ = (µ, σ 2 ), Θ0 = R × {σ02 }, Θ = R × R+ . Para calcular λ(~x), maximizamos L(σ 2 |~x) en Θ0 y en Θ: 108 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Figura 6.7: Función de potencia. Caso: X ∼ N(µ, σ 2 ), S10 = 10, α = 0, 1 y H0 ) µ = 2. En Θ0 , recordando que el estimador máximo verosı́mil de µ, X̄n , no depende de cuál es el verdadero valor de σ 2 , tenemos que ( ) n X n 1 sup L(θ|~x) = L(x̄n , σ02 |~x) = (2πσ02 )− 2 exp − 2 (xi − x̄n )2 2σ θ∈Θ0 0 i=1 En Θ, al igual que en el ejemplo anterior: n n sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 )− 2 e− 2 . θ∈Θ De donde, λ(~x) = Sn2 σ02 n2 Sn2 exp − 2 + 1 . σ0 Entonces, rechazamos H0 si Sn2 σ02 Sn2 exp 1 − 2 < c. σ0 Para expresar la forma de esta RC en términos de alguna variable aleatoria con distribución conocida, estudiamos el comportamiento de la función g : R → R+ , definida como g(u) = u exp{1 − u}. Note que, ( > 0 si u < 1 g(1) = 1, g 0 (u) = (1 − u)e1−u ⇒ g 0 (u) . < 0 si u > 1 Por lo tanto, g(u) < c implica que u < a o u > b, donde c = g(a) = g(b). La Figura 6.8 muestra que el caso particular de g(u) < c = 0, 5, lo que equivale a que u < 0, 231961 o u > 2, 67835. Contraste de Hipótesis - 109 Introducción a la Inferencia Estadı́stica Figura 6.8: Gráfica de g(u) = u exp{1 − u}, u > 0 Por lo tanto, rechazo H0 si y solo si tal que P Sn2 Sn2 < a o > b. Donde a y b están determinados σ02 σ02 2 2 2 Sn Sn Sn Sn2 <a ∪ >b =P <a +P > b = α. σ02 σ02 σ02 σ02 Bajo H0 cierta, nSn2 /σ02 ∼ χ2n−1 . Por lo cual, a= χ2n−1;1−α2 χ2n−1;α1 y b= , donde α1 + α2 = α. n n Dado un valor de α, encontrar los valores de a y b, que cumplan 1) g(a) = g(b); 2) P(χ2n−1 < na) = α1 , P(χ2n−1 > nb) = α2 , con α1 + α2 = α; se debe realizar numéricamente. Usualmente, se utiliza la opción, más práctica, de tomar α1 = α2 = α/2. Ejemplo 6.3.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. Se desea contrastar H0 )θ ≤ θ0 contra H1 )θ > θ0 . En este caso Θ = R+ y Θ0 = (0, θ0 ). ( ) n X L(θ|~x) = θn exp −θ xi . i=1 Para calcular λ(~x), maximizamos L(θ|~x) en Θ0 y en Θ, recordando que θ̂M V = X̄n−1 . 110 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica En Θ0 , sup L(θ|~x) = sup θn e−θ θ∈Θ0 Pn i=1 xi = θ∈(0,θ0 ) −n −n x̄n e θ0n e−θ0 si x̄−1 n ≤ θ0 Pn i=1 xi si x̄−1 n > θ0 En Θ: −n sup L(θ|~x) = L(X̄n−1 |~x) = x̄−n n e θ∈Θ De donde, λ(~x) = si x̄−1 n ≤ θ0 1 n θ0n e−θ0 i=1 xi −n x̄−n n e P si x̄−1 n > θ0 Por lo tanto, rechazamos H0 si x̄−1 n > θ0 y (θ0 x̄n )n exp {−n (θ0 x̄n − 1)} ≤ c. ~ ≤ c) = α. donde c ∈ (0, 1) y Pθ0 (λ(X)) Note que la función g : R → R+ , definida como g(u) = un exp{−n(u − 1)}, tiene un máximo en 1. Tomando u = θ0 x̄n , vemos que u < 1 y un exp{−n(u − 1)} < c si y solo si u ≤ k, donde k ∈ (0, 1). La Figura 6.9 muestra el comportamiento de g(u), para n = 20. Por lo tanto, la RC={~x ∈ X |θ0 x̄n ≤ k}. Donde ! Z n nc X 1 n−1 −y y e dy. α = sup Pθ (θX̄n ≤ c) = Pθ0 (θX̄n ≤ c) = Pθ0 θ Xi ≤ nc = Γ(n) θ∈Θ0 0 i=1 Figura 6.9: Gráfica de g(u) = un exp{−n(u − 1)}, u > 0 Contraste de Hipótesis - 111 Introducción a la Inferencia Estadı́stica Ejemplo 6.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ1 , σ 2 ). Sea Y1 , . . . , Ym una MA de Y ∼ N(µ2 , σ 2 ). X y Y independientes. θ = (µ1 , µ2 , σ 2 ) ∈ R×R×R+ desconocido. Dado un valor de α ∈ (0, 1), deseamos encontrar el contraste de razón de verosimilitudes para las hipótesis¿H0 ) µ1 = µ2 contra H1 ) µ1 6= µ2 . Asumimos n ≥ 2 y m ≥ 2. Defina, X̄n , 0 0 Ȳm , SX2 y SY2 de la manera usual y adicionalmente defina 0 0 (n − 1)SX2 + (m − 1)SY2 = . n+m Sp2 La función de verosimilitud es, ( L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ 2 ) − n+m 2 n X 1 exp − 2 2σ (xi − µ1 )2 + i=1 m X !) (yi − µ2 )2 . i=1 Para las hipótesis planteadas Θ0 = (µ, µ, σ 2 ), µ ∈ R, σ ∈ R+ . De donde, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = sup L(µ, µ, σ 2 |~x, ~y ). µ∈R,σ∈R+ θ∈Θ0 Se puede demostrar que en este caso, nx̄n + ȳm µ̃ = n+m P 2 − µ̃)2 + m i=1 (yi − µ̃) . n+m Pn 2 y σ̃ = i=1 (xi De donde, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̃ 2 )− n+m 2 exp(−(n + m)/2). (6.7) θ∈Θ0 Si no imponemos restricciones, tenemos que los estimadores máximo!verosı́mil de µ1 , µ2 n m X X 2 2 −1 2 y σ , son X̄n , Ȳm y σ̂ = (n + m) (xi − x̄n ) + (yi − ȳm )2 respectivamente. i=1 i=1 Entonces, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̂ 2 )− n+m 2 exp(−(n + m)/2). (6.8) θ∈Θ Combinando los resultados de (6.8) y (6.7), tenemos que λ(~x, ~y ) = σ̂ 2 σ̃ 2 − n+m 2 P Pn − n+m 2 (xi − x̄n )2 + m (yi − ȳm )2 i=1 i=1 P = Pn . m 2 2 i=1 (xi − µ̃) + i=1 (yi − µ̃) Por lo tanto, rechazamos H0 si y solo si Pn P 2 (xi − x̄n )2 + m i=1 i=1 (yi − ȳm ) Pn P < k. m 2 2 i=1 (xi − µ̃) + i=1 (yi − µ̃) (6.9) Si tomamos, n X 2 02 2 (xi − µ̃) = (n − 1)SX + n(x̄n − µ̂) y i=1 112 - Contraste de Hipótesis m X i=1 0 (yi − µ̃)2 = (m − 1)SY2 + n(ȳm − µ̂)2 . Introducción a la Inferencia Estadı́stica Tenemos que, Pn P (xi − µ̃)2 + m (yi − µ̃)2 (x̄n − ȳm )2 nm i=1 i=1 Pn P = 1 + (6.10) 0 0 . m 2 2 n + m (n − 1)SX2 + (m − 1)SY2 i=1 (xi − x̄n ) + i=1 (yi − ȳm ) Por lo tanto, valores “pequeños” de la expresión del lado izquierdo de la ecuación (x̄n − ȳm )2 (6.9) corresponden con valores “grandes”de 0 0 . En consecuencia, (n − 1)SX2 + (m − 1)SY2 rechazamos H0 si y solo si |X̄n − Ȳm | p > k. 0 0 (n − 1)SX2 + (m − 1)SY2 Note que, si aceptamos H0 cierta, |X̄n − Ȳm | q ∼ tn+m−2 ⇒ k = tn+m−2;1−α/2 . 1 1 Sp n + m Note que en todos los ejemplos, las RC dependen del estadı́stico suficiente para el parámetro de interés. Esto no nos debe sorprender, dado que utilizando el teorema 2.3.1,tenemos el siguiente resultado. ~ un estadı́stico con distribución dada por fT (t|θ). Entonces defiTeorema 6.3.1. Sea T = T (X) nimos supθ∈Θ0 fT (t|θ) . λ∗ (T (~x)) = supθ∈Θ fT (t|θ) Sea λ(~x) el estadı́stico de razón de verosimilitudes basado en ~x. Si T es suficiente para θ, entonces λ(~x) = λ∗ (T (~x)), ∀~x ∈ X . 6.4. Valor p Una forma alternativa de ver el problema de contraste de hipótesis es mirar cuán probable es observar los datos que observamos si la hipótesis nula es cierta. Si nuestros datos son poco probables de observar bajo las condiciones impuestas por H0 , esto se puede tomar como evidencia a favor de que H0 es falsa. Esto equivaldrı́a a “mostrar por el absurdo” que la hipótesis nula no es cierta. Empezamos asumiendo que lo es y si la probabilidad bajo el modelo propuesto de observar nuestros datos es baja, argumentamos que esto implica una contradicción entre el modelo y lo observado. Suponga que el gasto en energı́a eléctrica de una determinada población se distribuye N(µ, σ 2 ). Por estudios anteriores se ha estimado el consumo medio en $260. Se desea saber si este valor ha aumentado. Se toma una muestra de tamaño 25 y se mide el gasto. Se encuentra, que en la muestra, x̄25 = 330, 6 y s025 = 154, 2. Se contrasta el siguiente par de hipótesis: H0 ) µ ≤ 260 contra H1 ) µ > 260. Dado que X es una variable aleatoria absolutamente continua tenemos que P(X̄25 = 330, 6) = 0. Por lo cual, no tiene sentido investigar la probabilidad de observar un valor de X̄n igual al observado. En lugar de esto, investigamos obtener un valor de X̄n igual o “más Contraste de Hipótesis - 113 Introducción a la Inferencia Estadı́stica extremo” que el observado en la muestra. Note que “más extremo” es relativo a la forma de H0 . En este caso, H0 implica que µ es menor o igual que un valor dado. Por lo cual, algo “más extremo” significa “mayor que”. Si H0 es µ mayor o igual a un valor dado, “más extremo” significa ‘menor que”. En nuestro ejemplo, si aceptamos que H0 es verdadera, la probabilidad de observar una muestra con media mayor o igual que 330,6 es 0,01548. A este valor le llamaremos valor p. Es importante entender que el valor p no es la probabilidad de que H0 sea cierta dado que observamos X̄n = 330,6. Este valor indica que en el caso de que µ = 260, observar un valor de X̄n igual o mayor al efectivamente observado de 330,6 es poco probable, pero no imposible. Por lo tanto, si consideramos que el valor de 0,01548 es “pequeño”, rechazamos H0 en favor de H1 . La pregunta entonces es: ¿qué significa “pequeño”? Para tener un punto de comparación, considere el caso X ∼ N(µ, σ 2 ), µ y σ 2 desconocidos, H0 ) µ ≤ µ0 contra H0 ) µ > µ0 . Utilizando el teorema 6.2.1, tenemos que la RC es de la forma {~x ∈ X |x̄n > k}. Dado que desconocemos el√verdadero valor de σ 2 no podemos utilizar la normalidad de X̄n , pero podemos utilizar√que n(X̄n − µ)/Sn0 ∼ tn−1 . Esto nos lleva a que rechazamos H0 si x̄n > µ0 + tn−1;1−α Sn0 / n. En nuestro ejemplo, µ√ 0 = 260 y asumamos que α = 0, 05. Por lo tanto rechazaremos H0 si x̄n > 260 + t24;0,95 154, 2/ 25 = 312,1477, (t24;0,95 = 1,71088). Dado que observamos x̄n = 330,6, esto indica que ~x ∈ RC y en consecuencia rechazamos la hipótesis nula de que µ = 260. Ahora, si somos coherentes tendremos que, en nuestro primer caso, concluir que 0,01548 es poca evidencia acerca de la validez de H0 . Dado que si consideramos que el valor p es “grande” estarı́amos incurriendo en una contradicción. La figura 6.10.(a), representa con un área sombreada la P(X̄n ≥ 330,6|µ = 260), el valor p y en la figura 6.10.(b) la P(X̄n ≥ 312,1477|µ = 260), el nivel de significación. 0 Figura 6.10: Distribución de X̄25 con µ = 260 y s 2 = 154, 2 114 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica De este razonamiento podemos extraer una regla de decisión: si el valor p asociado al contraste es menor que el nivel de significación, entonces rechazo H0 . En caso contrario, no rechazo H0 . Esto es, si el valor p es inferior al nivel de significación, lo más verosı́mil es que la hipótesis de partida sea falsa. Es de resaltar que basamos nuestros conceptos de “pequeño” y “grande” en referencia a otro concepto a su vez arbitrario, que es el valor que le hemos asignado al nivel de significación. Cuando decidimos restringir nuestra atención a los contrastes de nivel α, se mencionó que el nivel de significación se fija de antemano por el investigador en algún valor bajo que considera razonable. Las condiciones que marcarán lo “razonable de la elección” están basadas en el conocimiento experto del investigador sobre el tema que se está investigando y son externos a la forma en cómo se construye el contraste. En resumen, el valor p se define como la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido (valor del estadı́stico calculado), suponiendo que la hipótesis nula es cierta. Cuanto más chico el valor p, mayor es la significación dado que más evidencia se le proporciona al investigador de que la hipótesis nula en consideración parece no ser la adecuada. La hipótesis H0 es rechazada si el valor p es menor o igual que un pequeño y fijo, pero arbitrariamente predefinido, umbral α. Al revés que el valor p, el nivel de significación α no ese calcula a partir de los datos observados; el valor de α está determinado por el investigador antes de observar los datos. ~ este es a su vez también una variable aleatoria Dado que el valor p depende del valor que toma X, definida uniformemente en el intervalo (0,1), asumiendo X continua. Esto implica que el valor p no es fijo y por lo tanto, no se le puede dar una interpretación frecuentista de la probabilidad. Esto es, si repetimos el experimento manteniendo todas las condiciones (tipo de muestreo, hipótesis, etc.) fijas, obtendremos un valor diferente del valor p. El valor prefijado α puede ser interpretado ~ como la tasa de falsamente rechazar la hipótesis nula, dado que, escribiendo al valor p como p(X) ~ para resaltar que es función de X: ~ ≤ α|H0 cierta) = α. P(rechazar H0 |H0 cierta) = P(p(X) Esto también significa que si fijamos al valor p en un valor determinado y dejamos que α varı́e sobre [0, 1], podemos interpretar el valor p en términos de α: para un conjunto dado de observaciones, es el menor nivel de significación que se puede asumir para el cual la hipótesis nula puede ser rechazada. La definición formal del valor p, es la que sigue. ~ es un estadı́stico de contraste que satisface 0 ≤ p(~x) ≤ 1 Definición 6.4.1. Un valor p, p(X), para todo ~x ∈ X . Valores pequeños de p(~x) aportan evidencia de que H1 es cierta. Un valor p es válido si para cada θ ∈ Θ0 y cada 0 ≤ α ≤ 1, ~ ≤ α) ≥ α. Pθ (p(X) (6.11) ~ La Si tenemos un valor p válido es sencillo construir un contraste de nivel α basado en p(X). ~ fórmula (6.11) asegura que el contraste que rechaza H0 si y solo si p(X) ≤ α es un contraste de nivel α. Para calcular un valor p solo tenemos que saber cuál es la forma de la RC del contraste a utilizar. Suponga que para un determinado par de hipótesis, {H0 , H1 }, la RC está basada en un estadı́stico Contraste de Hipótesis - 115 Introducción a la Inferencia Estadı́stica ~ y es de la forma {~x ∈ X |T (~x) > k}. Se observa X ~ = ~x, evaluamos T (~x) y calculamos el T (X) ~ > T (~x)|H0 ). Note que se asume H0 cierta y se utiliza la misma forma de valor p que es P(T (X) la RC sustituyendo k por T (~x). Ejemplo 6.4.1. Continuación ejemplo 6.3.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, 5), µ ∈ R. Deseamos contrastar H0 ) µ = 10 contra H1 ) µ 6= 10. Se observa una muestra de tamaño 20 y se observa x̄20 = 13, 6. Tomando α = 0, 05, el contraste de razón de verosimilitudes tiene RC ( ) √ 20(x̄n − 10) √ ~x ∈ X : ≥ 1, 96 , 5 ~ > k, donde k = z1−α/2 = z0,975 = 1, 96 y La RC es de la forma T (X) √ √ 20(X̄n − 10) 20(13, 6 − 10) ~ √ √ ⇒ t(~x) = = 7, 2. T (X) = 5 5 Para calcular el valor p, sustituimos 1,96 por t(~x) y calculamos ~ > t(~x) µ = 10 = P(|Z| > 7, 2|µ = 10) = 2 − 2Φ(7, 2) ≈ 0, P T (X) dado que √ 20(X̄n − 10) √ ∼ N(0, 1), 5 cuando H0 es cierta. Hemos encontrado que el valor p es menor que α, por lo tanto rechazamos H0 . Concluimos que, con un nivel de significación del 5 %, existe evidencia (estadı́sticamente significativa) de que µ 6= 10. En 2016, la American Statistical Association publicó seis principios para el correcto uso e interpretación del valor p. Muchos de estos principios abordan concepciones equivocadas y empleos erróneos. Los seis principios son los siguientes: 1. Los valores p pueden indicar cómo son los datos de incompatibles con cierto modelo estadı́stico. 2. Los valores p no miden la probabilidad de que la hipótesis nula sea cierta, ni tampoco la probabilidad de que los datos hayan sido producidos enteramente al azar. 3. Conclusiones cientı́ficas y decisiones polı́ticas o empresariales no deberı́an basarse únicamente en el hecho de que un valor p supere un umbral especificado. 4. Una inferencia apropiada implica un informe completo y transparencia. 5. Ni el valor p ni la significación estadı́stica miden el tamaño de un efecto o la importancia de un resultado. 6. En sı́ mismo, un valor p no es una medida apropiada de la evidencia de un modelo o hipótesis. 116 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica 6.5. Construcción de estimadores por intervalo En el capı́tulo 5 vimos como construir intervalos de confianza usando cantidades pivotales. En esta parte veremos otro método para construir intervalos de confianza a partir de la región crı́tica de un contraste de hipótesis. 6.5.1. Inversión de una RC Existe una estrecha relación entre contraste de hipótesis e intervalos de confianza. Se puede probar que cada intervalo de confianza corresponde a la región de aceptación de un determinado contraste. Antes de dar el resultado general veremos un ejemplo. Ejemplo 6.5.1. En el ejemplo 6.3.1, X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido, para las hipótesis H0 ) µ = µ0 contra H1 ) µ 6= µ0 , calculamos la RC UMP del contraste de nivel α. En base a la RC hallada podemos tambiº’en determinar la región de no rechazo. Llamémosle, a esta región, A(µ0 ). Entonces, √ n(x̄n − µ0 ) < z1−α/2 . A(µ0 ) = ~x ∈ X : σ Observe que A(µ0 ) es el conjunto de las muestras para las cuales no rechazo H0 ) µ = µ0 . Por lo tanto, en A(µ0 ), µ está fijo en un valor µ0 y ~x es variable. Si ahora fijamos el valor de ~x, podemos hallar qué valores le podemos asignar a µ0 de tal manera, que con la región crı́tica hallada no rechazamos H0 ). Esto es, hallar el conjunto de valores que le podemos dar a µ0 , tal que si observamos este valor especı́fico de ~x no rechazamos H0 ) µ = µ0 . Denotemos este conjunto C(~x). Operando tenemos que, √ n(X̄n − µ0 ) > z1−α/2 α = Pµ0 σ √ n(X̄n − µ0 ) ≤ z1−α/2 = 1 − Pµ0 σ σ σ = 1 − Pµ0 −z1−α/2 √ ≤ X̄n − µ0 ≤ z1−α/2 √ n n σ σ = 1 − Pµ0 X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √ . n n De donde, Pµ0 σ σ X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √ n n = 1 − α. Por lo tanto, si fijamos X̄n = x̄n , σ σ C(~x) = µ0 ∈ Θ : µ0 ∈ x̄n − z1−α/2 √ ; x̄n + z1−α/2 √ . n n Hemos entonces encontrado dos conjuntos A(µ0 ) y C(~x) que cumplen la relación: ~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x). ~ = 1 − α, C(X) ~ es un intervalo de confianza (1 − α)100 %. Esto Dado que P(θ ∈ C(X)) σ ~ = X̄n − z1−α/2 √ y U (X) ~ = X̄n + z1−α/2 √σ . es, L(X) n n Contraste de Hipótesis - 117 Introducción a la Inferencia Estadı́stica Observe que al tomar µ = µ0 particionamos X en dos conjuntos, el conjunto de las muestras para las cuales rechazamos H0 (A(µ0 )) y el conjunto para las cuales no rechazamos H0 . Si fijamos X̄n en un valor fijo x̄n particionamos Θ en dos conjuntos, el conjunto de los valores µ0 del parámetro para los cuales no rechazamos H0 )µ = µ0 si se observa X̄n = x̄n (C(x̄n )) y el conjunto de los valores µ1 del parámetro para los cuales rechazamos H0 )µ = µ1 si se observa X̄n = x̄n . La tautologı́a ~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x) se puede extender a casos generales. Aún cuando la región de confianza no sea un intervalo. Teorema 6.5.1. Para cada valor θ0 ∈ Θ se denota A(θ0 ) a la región de aceptación a nivel α de un contraste para H0 ) θ = θ0 . Para cada ~x ∈ X se define el conjunto C(~x) ⊆ Θ como C(~x) = {θ0 ∈ Θ : ~x ∈ A(θ0 )}. ~ es un estimador por conjuntos de confianza 1 − α para θ. Entonces, el conjunto C(X) ~ un estimador por conjuntos de confianza 1 − α para θ. Para cada θ0 Recı́procamente, sea C(X) se define A(θ0 ) = {~x ∈ X : θ0 ∈ C(~x)}. Entonces, A(θ0 ) es la región de no rechazo a nivel α de una prueba que constrasta H0 ) θ = θ0 . Demostración. Para la primera parte. Para ser A(θ0 ) el complementario de la región crı́tica de una prueba de nivel α se tiene que ~ ∈ A(θ0 )) ≥ 1 − α. Pθ0 (X Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar de θ0 . Como ~x ∈ A(θ) si y solo si θ ∈ C(~x), se tiene que ~ = P θ (X ~ ∈ A(θ0 )) ≥ 1 − α, Pθ (θ ∈ C(X)) ~ es un estimador por conjuntos de confianza 1 − α para θ. y se concluye que C(X) En la segunda parte. La probabilidad de error de tipo I del contraste cuya región de aceptación es A(θ0 ) es ~ ∈ ~ ≤ α, Pθ0 (X / A(θ0 )) = Pθ0 (θ0 ∈ / C(X)) ası́ que esta es un contraste de nivel α. Ejemplo 6.5.2. Continuación ejemplo 6.5.1. Asuma ahora que σ 2 es desconocida. Dada H0 ) µ = µ0 y utilizando la RC hallada en el ejemplo 3.3.2 (reexpresada en términos de 0 Sn2 ), tenemos que √ n(x̄n − µ0 ) A(µ0 ) = ~x ∈ X : > tn−1;1−α/2 . Sn0 118 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Notando que, √ √ n(x̄n − µ0 ) n(x̄n − µ0 ) ≤ tn−1;1−α/2 ⇒ −tn−1;1−α/2 ≤ ≤ tn−1;1−α/2 0 Sn Sn0 0 0 Sn Sn ⇒ −tn−1;1−α/2 √ ≤ x̄n − µ0 ≤ tn−1;1−α/2 √ n n 0 0 S S ⇒ −tn−1;1−α/2 √n ≤ x̄n − µ0 ≤ tn−1;1−α/2 √n n n Entonces, 0 0 Sn Sn . C(~x) = µ ∈ R : x̄n − tn−1;1−α/2 √ ≤ µ ≤ x̄n + tn−1;1−α/2 √ n n ~ = ~x, calculamos el intervalo Entonces, para una muestra dada, X 0 0 Sn Sn x̄n − tn−1;1−α/2 √ ; x̄n + tn−1;1−α/2 √ . n n Para cualquier valor µ0 de µ, que esté contenido entre los dos extremos no rechazamos H0 ) µ = µ0 . Ejemplo 6.5.3. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 desconocidos. En el ejemplo 6.3.3 encontramos que el contraste de razón de verosimilitudes para H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 hallamos la región crı́tica de tamaño α. En base a esta región crı́tica tenemos que χ2n−1;1−α2 χ2n−1;α1 Sn2 2 ≤ 2 ≤ . A(σ0 ) = ~x ∈ X : n σ0 n con α1 + α2 = α. Por lo tanto, la inversión de la RC nos da que nSn2 nSn2 2 + 2 C(~x) = σ ∈ R : 2 <σ < 2 . χn−1;1−α2 χn−1;α1 Ejemplo 6.5.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. En el ejemplo 6.3.4 se encontró que la RC para el contraste H0 )θ ≤ θ0 contra H1 )θ > θ0 de donde ( ) n X A(θ0 ) = ~x ∈ X : θ Xi > k , i=1 donde k representa el percentil α de una distribución Gamma(n,1). Por lo tanto, ! n X k 1 − α = Pθ θ Xi > k = Pθ θ > Pn . X i i=1 i=1 Contraste de Hipótesis - 119 Introducción a la Inferencia Estadı́stica Entonces, C(~x) = + θ∈R k : θ > Pn Xi k Observe, que este intervalo de confianza es de la forma Pn i=1 estamos explicitando una cota inferior para θ. i=1 Xi , +∞ , con lo cual Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Stapleton, J.H. (2008) Models for Probability and Statistical Inference. Wiley-Interscience. Wasserstein R.L., Lazar N.A. (2016). The ASA’s statement on p-values: context, process, and purpose. The American Statistician.70:2, 129-133 Wikipedia: https://en.wikipedia.org/wiki/P-value, visitado el 19/04/2017. 120 - Contraste de Hipótesis CAPÍTULO 7 INFERENCIA EN MUESTRAS GRANDES 7.1. Introducción Dado que la estadı́stica está basada en observaciones, es de interés ver qué sucede cuando obtenemos más y más datos. La pregunta básica es ¿cuál es el comportamiento en el lı́mite de la secuencia de variables aleatorias X1 , X2 , X3 , . . .? En cálculo, una secuencia de números reales {xn : n ≥ 1} converge a un lı́mite x si para todo n grande ∀ > 0 |xn − x| < . Si xn = x ∀n, entonces trivialmente lı́m Xn = x. El equivalente probabilı́stico del concepto n→∞ de convergencia necesita algunas modificaciones. Por ejemplo, suponga que X1 , X2 , . . . es una secuencia de variables aleatorias iid, cada una con distribución N(0,1). Dado que todas las variables en la secuencia tienen la misma distribución estaremos tentados a decir que la secuencia “converge” a una variable aleatoria X ∼ N(0, 1). Esto no es cierto dado que P (Xn = X) = 0 ∀n. Como otro ejemplo, considere que X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ). Intuitivamente, para valores grandes de n, la distribución de Xn está muy concentrada alrededor del 0, por lo cual desearı́amos decir que Xn converge a 0. Esto no es ası́ dado que P (Xn = 0) = 0 ∀n. En vista de esto, necesitamos desarrollar herramientas para definir convergencia de sucesiones de variables aleatorias. Este capı́tulo desarrolla dichas herramientas con un propósito claro, establecer dos teoremas: la “ley débil de los grandes números” y el teorema del lı́mite central. Para ello estudiaremos tres tipos de convergencia: 1. Convergencia en probabilidad. 2. Convergencia en media cuadrática. 3. Convergencia en distribución. 121 Introducción a la Inferencia Estadı́stica Si bien no estaremos interesados en convergencia en media cuadrática per se, nos basaremos en las relaciones que existen entre los tres tipos de convergencia para verificar la convergencia en probabilidad o en distribución de una secuencia de variables aleatorias. 7.2. Convergencia en probabilidad Definición 7.2.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn coverge en p probabilidad a X, denotado Xn → X, si ∀ > 0 lı́m P(|Xn − X| > ) = 0. n→∞ Alternativamente, lı́m P(|Xn − X| < ) = 1. n→∞ Observación 7.2.1. Cuando X es una variable aleatoria tal que P(X = c) = 1, con c ∈ R, p diremos que Xn → c. ~ n converja en probabilidad a c significa que la distribución de Xn se va conQue la secuencia X centrando cada vez más en torno a c a medida que n aumenta. Convergencia en probabilidad no significa que Xn = c cuando n → ∞. Ejemplo 7.2.1. Sea X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ). p Queremos probar que Xn → 0. Para ello usaremos la desigualdad de Markov. Markov ↓ E(Xn2 ) 1 n→∞ 2 2 P(|Xn − 0| > ) = P(|Xn | > ) = P (Xn > ) ≤ = 2 −−−→ 0. 2 n Ejemplo 7.2.2. Sea X1 , X2 , . . . Una secuencia de variables aleatorias con Xn = en I[X≥n] , p donde X ∼ Exp(1). Queremos probar que Xn → 0. P(|Xn − 0| < ) = P(|Xn | < ) = P(Xn < ) = P(Xn = 0) = P (X < n) = 1 − e−n → 1. Note que el recorrido de Xn es el conjunto {0, en }. Si tomamos > 0 lo suficientemente pequeño, el suceso {Xn < } es equivalente al suceso {Xn = 0}, dado que 0 es el único punto del recorrido de Xn que está contenido en el intervalo (−∞, ). Además, Xn = 0 si y solo si X < n. 122 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Ejemplo 7.2.3. Sea X1 , X2 , . . . es una secuencia iid de variables aleatorias con distribución común Uniforme(0,1). Defina, X(n) = máx{X1 , . . . , Xn }. Queremos probar que p X(n) → − 1. Recordando que, en este caso, FX(n) (x) = xn I[0<x<1] + I[x≥1] , tenemos que P(|X(n) − 1| < ) = P(− < X(n) − 1 < ) = P(1 − < X(n) < 1 + ) = FX(n) (1 + ) − FX(n) (1 − ) = 1 − (1 − )n (1 + > 1 y 0 < 1 − < 1) Entonces, lı́m P(|X(n) − 1| < ) = lı́m [1 − (1 − )n ] = 1. n→∞ n→∞ p p Teorema 7.2.1. Sea g una función continua en c ∈ R y Xn → c. Entonces, g(Xn ) → − g(c). Demostración. Si g es continua en c, entonces dado > 0, ∃δ > 0 tal que |g(x)−g(c)| < siempre que |x − c| < δ . Por lo tanto el suceso {|g(x) − g(c)| < } incluye al suceso {|x − c| < δ }. Por lo tanto, P(|Xn − c| < δ ) ≤ P(|g(Xn ) − g(c)| < ) ≤ 1. p Dado que Xn → c, tenemos que 1 = lı́m P(|Xn − c| < δ ) ≤ lı́m P(|g(Xn ) − g(c)| < ) ≤ lı́m 1 = 1 n→∞ n→∞ n→∞ =⇒ lı́m P(|g(Xn ) − g(c)| < ) = 1 n→∞ p y por lo tanto, g(Xn ) → − g(c). p Ejemplo 7.2.4. Suponga que Xn → a. Entonces, p − a2 Xn2 → p 1/Xn → − 1/a si a 6= 0 p p √ Xn → − a si a ≥ 0 p p Teorema 7.2.2. Sea g una función continua y Xn → X. Entonces, g(Xn ) → − g(X). ~ n = (X1 , . . . , Xn ). Definición 7.2.2. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Defina X ~ n ) es consistente para τ (θ) si para cualquier θ ∈ Θ, Una secuencia de estimadores Tn = T (X p Tn → − τ (θ) cuando n → ∞. Inferencia en muestras grandes - 123 Introducción a la Inferencia Estadı́stica La definción implica que la distribución de probabilidad de un estimador consistente de τ (θ) tiende a concentrarse alrededor de este valor cuando n se hace grande. Ejemplo 7.2.5. Continuación del ejemplo 7.2.3. Suponga ahora que X ∼ Uniforme(0, θ). Queremos probar que X(n) = máx{X1 , . . . , Xn } p es un estimador consistente de θ. Esto es, X(n) → − θ. P(|X(n) − θ| < ) = P(− < X(n) − θ < ) = P(θ − < X(n) < θ + ) = FX(n) (θ + ) − FX(n) (θ − ) n =1− 1− θ (θ + > θ y 0 < θ − < θ) Entonces, h n i lı́m P(|X(n) − θ| < ) = lı́m 1 − 1 − = 1. n→∞ n→∞ θ p Por lo cual, X(n) → − θ. Teorema 7.2.3. Ley (débil) de los grandes números (caso iid) Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza µ y varianza σ 2 < ∞. Sea n X X̄n = n−1 Xi . Entonces, i=1 p X̄n → − µ Demostración. Recordando que E(X̄n ) = µ y Var(X̄n ) = σ 2 /n, tenemos que Chebychev ↓ Var(X̄n ) σ 2 n→∞ P(|X̄n − µ| > ) ≤ = −−−→ 0. 2 n2 Observación 7.2.2. El teorema anterior indica que si trabajamos con una MA de una variable aleatoria X con distribución de probabilidad tal que su varianza es finita, entonces X̄n es un estimador consistente de la E(X). Ejemplo 7.2.6. Sea un suceso de interés A que ocurre con P(A) en cada uno de n experimentos independientes. Sea Xi = número de veces que ocurre el suceso A en el i-ésimo experimento, i = 1, . . . , n. Entonces, Xi ∼ Bernoulli(P(A)). La frecuencia 124 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica relativa del suceso A, h(A), es el porcentaje de veces que ocurre el suceso en las n repeticiones del experimento. Esto es, n 1X h(A) = Xi = X̄n . n i=1 Por lo tanto, tenemos que E(h(A)) = P(A) y Var(h(A)) = P(A)(1 − P(A)) < ∞. De donde, p h(A) → − P(A). Esto es la fundamentación de la interpretación frecuentista de la probabilidad: Suponga que un experimento se repite infinitas veces en idénticas condiciones. La probabilidad de A es el porcentaje de veces que ocurre el suceso A en esas infinitas repeticiones. Ejemplo 7.2.7. Sea X1 , . . . , Xn una MA de X ∼ FX . Para todo x ∈ R, definimos la función de distribución empı́rica, F ∗ (x), como el porcentaje de observaciones que son menores o iguales que x. Si Yi = I[Xi ≤x] , entonces n 1X F (x) = Yi = Ȳn . n i=1 ∗ Dado que Yi ∼ Bernoulli(FX (x)), tenemos que Var(Yi ) = FX (x)(1 − FX (x)) < ∞. Por lo tanto, p F ∗ (x) → − E(F ∗ (x)) = FX (x). Observación 7.2.3. Otras relaciones que se cumplen son las siguientes: p p p 1. Si Xn → X y Yn → − Y =⇒ Xn + Yn → − X +Y. p p 2. Si Xn → X ∀a ∈ R aXn → − aX. p p p 3. Si Xn → X y Yn → − c =⇒ Xn /Yn → − X/c, si c 6= 0. Ejemplo 7.2.8. Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza n X 2 2 −1 µ y varianza σ < ∞. Sea Sn = n (Xi − X̄n )2 . Dado que, i=1 n Sn2 n 1X 1X 2 = (Xi − X̄n )2 = Xi − X̄n2 . n i=1 n i=1 p Tenemos, por el teorema 7.2.1 y la Ley débil de los grandes números, que X̄n2 → − µ2 y n 1X 2 p X → − E(X 2 ). Por lo tanto, usando la observación 7.2.3 n i=1 i p Sn2 → − E(X 2 ) − µ2 = σ 2 . Inferencia en muestras grandes - 125 Introducción a la Inferencia Estadı́stica 7.3. Convergencia en media cuadrática Definición 7.3.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn converge en mc media cuadrática a X, Xn −→ X, si lı́m E (Xn − X)2 = 0. n→∞ mc Si X está degenerada en c, diremos que Xn −→ c. En nuestro curso, la convergencia en media cuadrática no es de especial interés, salvo para mostrar convergencia en probabilidad. El siguiente teorema muestra la relación entre los dos tipos de convergencia. p mc Teorema 7.3.1. Si Xn −→ X entonces Xn → X. Demostración. Chebychev ↓ E [(Xn − X)2 ] n→∞ ∀ > 0, 0 ≤ P(|Xn − X| ≥ ) ≤ −−−→ 0. 2 De donde, lı́m P(|Xn − X| ≥ ) = 0. n→∞ Ejemplo 7.3.1. El recı́proco √ del teorema no es necesariamente cierto. Suponga que U ∼ Uniforme(0,1). Sea Xn = nI[0<U <1/n] . Entonces, √ √ 1 n→∞ P(|Xn | > ) = P( nI[0<U <1/n] > ) = P(Xn = n) = P(0 < U < 1/n) = −−−→ 0 n p =⇒ Xn → 0. Pero, E(Xn2 ) Z 1/n mc du = 1 ∀n =⇒ Xn −→0. =n 0 p Observación 7.3.1. Si Xn → c no necesariamente E(Xn ) → c. Suponga que {Xn } es una sucesión de variables aleatorias tal que P(Xn = n2 ) = 1 1 P(Xn = 0) = 1 − . n n Entonces, P(|Xn | < ) = P(Xn = 0) = 1 − Sin embargo, E(Xn ) = n2 1 n→∞ = n −−−→ ∞. n 126 - Inferencia en muestras grandes 1 n→∞ p −−−→ 1 =⇒ Xn → 0. n Introducción a la Inferencia Estadı́stica ~ es un estimador de τ (θ), habı́amos definido el error cuadrático Observación 7.3.2. Si Tn = T (X) medio de tn como ECM(Tn ) = E[(Tn − τ (θ))2 ]. También encontramos que este se puede descomponer en la suma de dos componentes, la varianza y el cuadrado del sesgo de Tn . Por lo tanto, mc si cuando n → ∞ tenemos que la Var(Tn ) → 0 y E(Tn ) → τ (θ), entonces Tn −→ τ (θ), lo que a p su vez implica que Tn → − τ (θ). Entonces, si estas condiciones se cumplen, tenemos que Tn es un estimador consistente para τ (θ). 7.4. Convergencia en distribución Definición 7.4.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias, cada una con función de distribución Fn . Diremos que Xn converge en distribución a una variable aleatoria X con función de distribución FX si lı́m Fn (x) = FX (x) ∀x ∈ {x : FX es continua en x}. n→∞ d Lo denotaremos, Xn → − X. −1 Ejemplo 7.4.1. √ Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ N(0, n ). Defina Zn = nXn ∼ N(0, 1). ( √ √ √ 0 si t < 0 Fn (t) = P(Xn ≤ t) = P( nXn ≤ n t) = Φ( n t) → 1 si t > 0 Sea X una variable aleatoria tal que P(X = 0) = 1. Entonces, ( 0 si x < 0 FX (x) = 1 si x ≥ 0. Note que Fn (0) = 1/2 y que FX (0) = 1. Esto no es de importancia, dado que 0 no es un punto de continuidad de FX . Por lo tanto, Fn (t) → FX (t) ∀t 6= 0. Teorema 7.4.1. Se cumplen las siguientes relaciones: p d 1. Si Xn → X =⇒ Xn → − X. d p 2. Si Xn → − c, c ∈ R =⇒ Xn → c. p Demostración. 1. Sea x un punto de continuidad de FX . Sea > 0. Dado que Xn → X, cuando n → ∞, P(|Xn − X| ≥ ) → 0. Por lo tanto, FXn (x) = P(Xn ≤ x) = P [(Xn ≤ x) ∩ (|Xn − X| < ] + P [(Xn ≤ x) ∩ (|Xn − X| ≥ )] :0 ≤ P(X ≤ x + ) + P(|X n− X| ≥ ) → P(X ≤ x + ) = FX (x + ) Inferencia en muestras grandes - 127 Introducción a la Inferencia Estadı́stica Esto es, FXn (x) ≤ FX (x + ). (7.1) De manera similar, :0 x − ) + P(|X − X| ≥ ) n 1 − FXn (x) = P(Xn > x) ≤ P(X ≥ → 1 − P(X ≤ x − ) = 1 − FX (x − ) Lo que implica que, FX (x − ) ≤ FXn (x) (7.2) Usando las fórmulas (7.1) y (7.2) tenemos que FX (x − ) ≤ FXn (x) ≤ FX (x + ). Haciendo que → 0, obtenemos el resultado deseado lı́m Fn (x) = FX (x). n→∞ 2. Sea > 0. Entonces, lı́m P(|Xn − c| ≤ ) = lı́m (FXn (c + ) − FXn (c − )) = FX (c + ) − FX (c − ) = 1 − 0 = 1. n→∞ n→∞ Ejemplo 7.4.2. Convergencia en distribución no necesariamente implica convergencia en probabilidad. Para ver esto, considere X una variable aleatoria absolutamente continua con densidad fX (x) que es simétrica alrededor del 0. Esto es, fX (−x) = fX (x). Entonces, es fácil de demostrar que la variable −X también tiene la misma densidad fX (x). Entonces, X y −X tienen la misma distribución. Defina una secuencia de variables aleatorias de la siguiente manera: ( X si n es par Xn = −X si n es impar. d Claramente, FXn (x) = FX (x) para toda x en el soporte de X. Por lo tanto, Xn → − X. Observe que la secuencia |Xn − X| vale alternadamente 0 o | − 2X| por lo cual no converge en probabilidad. Ejemplo 7.4.3. Aún cuando la secuencia X1 , X2 , . . . converge en distribución a una variable aleatoria X, no se puede en general determinar la distribución de X hallando los lı́mites de la cuantı́a o densidad de Xn . Suponga que X1 , X2 , . . . es una secuencia de variables aleatorias tales que Xn ∼ fn (x) = I[x=2+n−1 ] . Claramente, lı́m fn (x) = 0 n→∞ 128 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica para cualquier valor x. Esto sugerirı́a que Xn no converge en distribución. Sin embargo, la función de distribución de Xn es ( 0 si x < 2 + n−1 Fn (x) = 1 si x ≥ 2 + n−1 . y ( 0 si x ≤ 2 lı́m Fn (x) = n→∞ 1 si x > 2. Dado que, ( 0 si x < 2 FX (x) = 1 si x ≥ 2. es un función de distribución discontinua en x = 2, se cumple que lı́m Fn (x) = FX (x) n→∞ d d en todos los puntos de continuidad de FX . Por lo tanto, Xn → − 2. Esto es, Xn → − X, donde P(X = 2) = 1. Ejemplo 7.4.4. Dado que convergencia en probabilidad implica convergencia en disd tribución, el teorema 7.2.2 implica que si g es una función continua y si Xn → − X, d tenemos que g(Xn ) → − g(X). Por ejemplo, d d − X ∼ N(0, 1) =⇒ Xn2 → − X 2 ∼ χ21 . Xn → Ejemplo 7.4.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Sea, X(n) = máx{X1 , . . . , Xn }. Considere la variable aleatoria Zn = n(θ − Yn ). Observe que Rec(Zn ) = (0, nθ). Sea t ∈ (0, nθ), P(Zn ≤ t) = P(Yn ≥ θ − t/n) = 1 − θ − t/n θ n n t/θ =1− 1− → 1 − e−t/θ . n d Por lo tanto, Zn → − Z ∼ Exp(θ), con E(X) = θ. Teorema 7.4.2. Slutsky d Sea X1 , X2 , . . . una sucesión de variables aleatorias, sea X una variable aleatoria tal que Xn → − X. p Sean Y1 , Y2 , . . . y W1 , W2 , . . . dos sucesiones de variables aleatorias tales que Yn → − a ∈ R y p Wn → − b ∈ R. Entonces, d Yn Xn + W n → − aX + b. Inferencia en muestras grandes - 129 Introducción a la Inferencia Estadı́stica d d d Observación 7.4.1. Si Xn → − X y Yn → − Y , en general no se cumple que Xn + Yn → − X +Y. Para aquellos casos donde exista la función generatriz de momentos, el siguiente teorema explicita una forma alternativa de verificar convergencia en distribución. Es una condición suficiente pero no necesaria. Teorema 7.4.3. Sea X1 , X2 , . . . una secuencia de variables aleatorias con función generatriz de momentos MXn (t), |t| ≤ h. Sea X una variable aleatoria con función generatriz de momentos MX (t), |t| ≤ h1 ≤ h. Si d lı́m MXn (t) = MX (t) |t| ≤ h1 =⇒ Xn → − X. n→∞ ~ n ∼ Binomial(n, θ). Ejemplo 7.4.6. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con X + Sea λ = nθ ∀n. Observe que λ ∈ R y θ = λ/n. Por lo cual, si n → ∞ entonces θ → 0. n λ(et − 1) t n MXn (t) = (1 − θ) + θe = 1 + n Por lo tanto, λ(et − 1) lı́m 1 + n→∞ n n t d − X ∼ Poisson(λ). = eλ(e −1) =⇒ Xn → En la práctica, esta aproximación es buena si θ ≤ 0, 1, n ≥ 50 y nθ ≤ 5. Ejemplo 7.4.7. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ Poisson(λn ), con lı́m λn = ∞. Tenemos que E(Xn ) = λn y Var(Xn ) = λn . Definimos n→∞ Zn = p Xn − λn Xn √ = √ − λn λn λn Entonces, √ −t λn MZn (t) = e x Recordando que e = MXn t √ λn n p √ o = exp −t λn + λn et/ λn − 1 n X xk i=1 x x2 t =1+ + + . . ., tomando x = √ tenemos que k! 1! 2! λn √ p p t t2 t3 t4 t/ λn −t λn + λn e − 1 = −t λn + λn √ + + + + ... λn 2λn 3!λn3/2 4!λn4/2 t2 t3 t4 = + + + ... 1/2 2 4!λn 3!λn | {z } →0 cuando n→∞ 130 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Por lo tanto, t2 d =⇒ Zn → − Z ∼ N(0, 1). lı́m MXn (t) = e 2 n→∞ En la práctica, la aproximación de una distribución de Poisson(λ) por una N(0,1) es buena si λ > 10. 7.5. Teorema del lı́mite central Uno de los resultados más importantes de la Estadı́stica es el Teorema del lı́mite Central1 Este teorema indica que, en condiciones muy generales, la función de distribución de la suma de n variables aleatorias, cada una con varianza no nula pero finita, “se aproxima bien” a la de una distribución normal. Existen varias versiones, dependiendo de cuán generales son los supuestos. En nuestro curso nos interesa la que enunciamos a continuación. Teorema 7.5.1. Teorema del lı́mite central (caso iid) Sea X1 , X2 , . . . una sucesión de variables aleatorias, con E(Xn ) = µ y Var(Xn ) = σ 2 < ∞. Entonces, √ n(X̄n − µ) d → − Z ∼ N(0, 1). σ Demostración. Lo demostraremos en el caso de que ∃MXn (t) ∀n. Esto es suficiente pero no necesario para que se cumpla el teorema. Sea Yi = Xi − µ , i = 1, 2 . . .. Entonces, E(Yi ) = 0 y Var(Yi ) = E(Yi2 ) = 1. Note que, por ejemplo, σ MY1 (t) = 1 + n X E(Y k ) tk 1 k! k=1 √ Podemos reescribir n t2 X E(Y1k ) tk =1+ + . 2 k! k=3 (7.3) n(X̄n − µ) en función de Y1 , . . . , Yn : σ Pn (Xi −µ) Pn Pn Pn √ Pn X X − nµ (X − µ) X̄n − µ n i i i i=1 i=1 i=1 Yi √ = √ σ = √ − µ = i=1 √ = i=1 √ = . σ n σ/ n σ n σ n n n Por lo tanto, n M X̄n√−µ (t) = M Pni=1 Yi = M P √ σ/ n n i=1 Yi t √ n = MY1 t √ n n " n X E(Y k ) tk t2 1 = 1+ + 2n k=3 k! nk/2 #n . 1 Usualmente se lo encuentra también mencionado como el Teorema Central del Lı́mite. Este nombre no es el correcto y proviene de la traducción literal de su nombre en inglés, Central Limit Theorem. Inferencia en muestras grandes - 131 Introducción a la Inferencia Estadı́stica Entonces, " σ/ n n X E(Y k ) tk #n t 1 + 2n k=3 k! nk/2 #) ( " n X E(Y1k ) tk t2 + −1 = lı́m exp n 1 + n→∞ 2n k=3 k! nk/2 #) (" n t2 X E(Y1k ) tk + = lı́m exp n→∞ 2 k! nk/2−1 k=3 lı́m M X̄n√−µ (t) = lı́m 1 + n→∞ 2 n→∞ 2 /2 = et (es de la forma 1∞ ) . Observación 7.5.1. En la práctica si “n es grande” se toma que X̄n ≈ N(µ, σ 2 /n). Observación 7.5.2. El concepto de “n es grande” depende del tipo de variable aleatoria. Si X es absolutamente continua, la aproximación es buena si n ≥ 30. Si X es discreta, depende de cuál es su distribución en particular. Por ejemplo, si X ∼ Binomial(n, θ), se tiene que cumplir las siguiente relación entre n y θ θ aproximadamente igual a 0,5 0,4 o 0,6 0,3 o 0,7 0,2 o 0,8 0,1 o 0,9 0,05 o 0,95 7.5.1. n debe ser mayor o igual que 30 50 80 200 600 1400 El método delta Un resultado central de cálculo es el Teorema de Taylor que permite obtener aproximaciones polinómicas de una función en un entorno de cierto punto en que la función sea diferenciable. Este teorema permite aproximar una función derivable en el entorno reducido alrededor de un punto x ∈ (a, b) mediante un polinomio cuyos coeficientes dependen de las derivadas de la función en ese punto. Más formalmente, si n ≥ 0 es un entero y f una función que es derivable n veces en el intervalo cerrado [a, x] y n + 1 veces en el intervalo abierto (a, x), entonces se cumple que f (x) = f (a) + f 0 (a) f 00 (a) f (n) (a) f (n+1) (ξ) (x − a) + (x − a)2 + · · · + (x − a)n + (x − a)n+1 , 1! 2! n! (n + 1)! donde ξ ∈ (a, x). Además, si f es una función analı́tica (o sea, puede expresarse como una serie de potencias convergente) f (n+1) (ξ) lı́m (x − a)n+1 = 0. n→∞ (n + 1)! Una consecuencia de este teorema es el resultado siguiente que extiende el uso del Teorema del Lı́mite Central. 132 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Teorema 7.5.2. Método Delta Si √ entonces √ d n(Tn − θ) → − N (0, σ 2 ), d n(f (Tn ) − f (θ)) → − N (0, σ 2 [f 0 (θ)]2 ), siempre y cuando f 0 (θ) exista y sea diferente de 0. 7.6. 7.6.1. Contrastes e intervalos de confianza asintóticos basados en el TLC Valor esperado de una v.a. Suponga que X1 , . . . , Xn es una MA de X, tal que E(X) = θ y Var(X) = σ 2 < ∞. Suponga que tanto θ como σ 2 son desconocidos. Para n ≥ 2, considere X̄n y Sn2 la media muestral y varianza muestral respectivamente. Si aplicamos el Teorema del Lı́mite Central, cuando n → ∞, √ n(X̄n − θ) d → − N(0, 1). (7.4) Sn √ De 7.4 podemos concluir que la variable aleatoria n(X̄n − θ)/Sn es aproximadamente un pivot dado que su distribución no depende ni de θ ni de σ 2 . Por lo tanto, para un valor de α ∈ (0, 1) preasignado, tenemos que √ n(X̄n − θ) < z1−α/2 ≈ 1 − α. Pθ Sn Esto nos lleva a que Sn X̄n ± z1−α/2 √ n (7.5) sea un intervalo de confianza aproximado al (1 − α)100 % para el valor esperado de X, θ. Con el mismo razonamiento podemos construir regiones crı́ticas de nivel aproximadamente igual a α. Por ejemplo, 1. Para H0 ) θ = θ0 contra H1 ) θ 6= θ0 , √ n|X̄n − θ0 | > z1−α/2 . RC = ~x ∈ X Sn 2. Para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 , √ n(X̄n − θ0 ) RC = ~x ∈ X > z1−α . Sn 3. Para H0 ) θ ≥ θ0 contra H1 ) θ < θ0 , √ n(X̄n − θ0 ) RC = ~x ∈ X < zα . Sn Inferencia en muestras grandes - 133 Introducción a la Inferencia Estadı́stica En el caso de que X ∼ Bernoulli(θ). Donde θ ∈ (0, 1) es desconocido, todo lo anterior sigue siendo válido. Observe que, en este caso, dado que Xi ∈ {0, 1}, esto implica que Xi2 ∈ {0, 1}. Por lo n n X X tanto, Xi2 = Xi . Entonces, i=1 i=1 n Sn2 n 1X 1X 2 Xi − X̄n2 = Xi − X̄n2 = X̄n − X̄n2 = X̄n (1 − X̄n ). = n i=1 n i=1 Observación 7.6.1. Para aplicar estos resultados recuerde la observación 7.5.2. En ella se explicitan cuándo se considera que “n es lo suficientemente grande” para que en la práctica sea válida la aplicación del Teorema del lı́mite central. 7.7. Constrastes basados en la función de verosimilitud A lo largo de esta sección, θ̂n representa el estimador máximo verosimil de θ calculado con una muestra de tamaño n. 7.7.1. Contraste de Wilks El contraste de Wilks puede utilizarse para contruir intervalos de confianza basados en estimadores máximo verosı́miles o para construir un estadı́stico para hacer un contraste basado en la razón de ~ correspondiente a un contraste particular puede deterverosimilitudes. Si la distribución de λ(X) minarse explı́citamente, el mismo puede utilizarse directamente para contruir regiones de rechazo ~ es difı́cil de determinar. Wilks de H0 . Sin embargo, en muchos casos la distribución exacta de λ(X) d ~ → demostró que bajo H0 cierta, bajo ciertas condiciones, −2 log λ(X) − χ2 con grados de libertad igual a la diferencia en la dimensión de Θ y Θ0 . Ejemplo 7.7.1. Sea X1 , . . . , Xn de X ∼ N(θ, σ 2 ) (σ 2 conocida). Para el contraste H0 ) θ = θ0 contra H1 ) θ 6= θ0 , tenemos que el estadı́stico de razón de verolimilitudes es o n n λ(~x) = exp − 2 (x̄n − θ0 )2 . 2σ Por lo tanto, la RC está dada por n n n o o 2 RC = ~x ∈ X | exp − 2 (x̄n − θ0 ) < k , 2σ donde o n n 2 α = Pθ0 exp − 2 (X̄n − θ0 ) < k n 2σ = Pθ0 − 2 (X̄n − θ0 )2 < log k n 2σ 2 = Pθ0 ( X̄ − θ ) > −2 log k n 0 2 σ ~ > −2 log k = Pθ0 −2 log λ(X) 134 - Inferencia en muestras grandes (7.6) (7.7) Introducción a la Inferencia Estadı́stica √ 2 Dado que X̄n ∼ N(θ, σ /n), bajo H0 cierta, n(X̄n − θ0 ) ∼ N(0, 1). Esto implica, σ n (X̄n − θ0 )2 ∼ χ21 ⇒ −2 log k = χ21;1−α . σ2 Por lo tanto, la RC resultante es RC = ~x ∈ X −2 log λ(~x) > χ21;1−α n(x̄n − θ0 )2 2 = ~x ∈ X > χ1;1−α . σ2 (7.8) El resultado del ejemplo es cierto, independientemente del tamaño de la muestra, siempre que la distribución de X sea una normal. Bajo ciertas condiciones, este resultado se puede generalizar. Teorema 7.7.1. Asumiendo las condiciones de regularidad R1, R2, R3, R4 y R5. Bajo la hipótesis H0 ) θ = θ0 , d ~ → χ2L = −2 log λ(X) − χ21 . ~ se lo conoce como el estadı́stico de Wilks. Este Observación 7.7.1. Al estadı́stico −2 log λ(X) estadı́stico lo que hace es ver cuán “grande” es la distancia entre l(θ0 |~x) y l(θ̂n |~x) dado que L(θ0 |~x) = log (L(θ0 |~x)) − log L(θ̂n |~x) = l(θ0 |~x) − l(θ̂n |~x) log λ(~x) = log L(θ̂n |~x) ~ ⇒ −2 log λ(X) = −2 l(θ0 |~x) − l(θ̂n |~x) . Ejemplo 7.7.2. Sea X1 , . . . , Xn una MA de X ∼ Beta(θ, 1). Deseamos contrastar H0 ) θ = 1 contra H1 ) θ 6= 1. La función de densidad fX (x|θ) = θxθ−1 I[0<x<1] pertenece a la familia exponencial de distribuciones, por lo tanto se cumplen las condiciones de regularidad. Para este problema sabemos que ) ( n X L(θ|~x) = θn exp (θ − 1) log xi i=1 y que θ̂n = P n n . Por lo tanto, con L(1|~x) = 1 − log xi i=1 n − log x n i i=1 X L(1|~x) n exp − log x λ(~x) = = − 1 . i n P n L(θ̂n |~x) i=1 − log xi n P i=1 De donde, ( χ2L = −2 log λ(~x) = 2 n log n − n + n log n X i=1 ! − log xi + n X ) − log xi i=1 Inferencia en muestras grandes - 135 Introducción a la Inferencia Estadı́stica 7.7.2. Contraste de Wald Un contraste similar al de Wilks podrı́a construirse desde otra perspectiva. Esta vez viendo cuán “grande” es la distancia entre θ0 y θ̂n . Para ello necesitaremos el siguiente resultado: Teorema 7.7.2. Bajo las condiciones de regularidad R1, R2 y R3 si θ̂n es una secuencia de estimadores máximo verosı́miles consistente para θ, entonces √ d n(θ̂n − θ) → − N 0, I−1 X (θ) . A partir de este resultado tenemos que p d nIX (θ)(θ̂n − θ) → − N(0, 1). Note que IX (θ) depende de θ, por lo cual definimos la Información de Fisher observada como IX (θ̂n ). Note que una vez observada la muestra y habiendo calculado qué valor toma θ̂n , IX (θ̂n ) es un número. Para el contraste de hipótesis H0 ) θ = θ0 contra H1 , θ 6= θ0 , asumiendo H0 cierta q d d nIX (θ̂n )(θ̂n − θ0 ) → − N(0, 1) ⇒ χ2W ≡ nIX (θ̂n )(θ̂n − θ0 )2 → − χ21 . Este resultado permite construir la siguiente RC: RC = ~x ∈ X |χ2W ≥ χ21;1−α . Ejemplo 7.7.3. Sea X1 , . . . , Xn una MA de X ∼ N(θ, σ 2 ), σ 2 conocida. Queremos n contrastar H0 ) θ = θ0 contra H1 , θ 6= θ0 . Sabemos que nIX (θ) = 2 y dado que no σ depende de θ, tenemos que IX (θ) = IX (θ̂n ), con lo cual χ2W = n(x̄n − θ0 )2 . σ2 Por lo cual, la RC es n(x̄n − θ0 )2 2 RC = ~x ∈ X > χ1;1−α . σ2 (7.9) Observe que para este problema, χ2L = χ2W . Por lo tanto, las RC 7.8 y 7.9 coinciden. Ejemplo 7.7.4. Continuación del ejemplo 7.7.2. En este caso X ∼ Beta(θ, 1), con θ0 = 1. Tenemos que 2 n P 2 − log Xi n n 1 1 i=1 2 2 . ⇒ χW = (θ̂n −1) = n 1 − = n IX (θ) = 2 , θ̂n = P n 1 + 2 θ n θ̂ θ̂ n n − log Xi i=1 136 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica 7.7.3. Contraste de Rao o de los multiplicadores de Lagrange d ~ log fX~ (X|θ) = l0 (θ|~x). También sabemos que dθ Eθ (l0 (θ|~x)) = 0 y por la fórmula 4.5 Var(l0 (θ|~x)) = nIX (θ). Si aplicamo el teorema del lı́mite central, !2 l0 (θ|~x) d l0 (θ|~x) d p → − N(0, 1) ⇒ p → − χ21 . nIX (θ) nIX (θ) Recuerde que la función score se define como Por lo cual, para el contraste H0 ) θ = θ0 contra H1 , θ 6= θ0 . Bajo H0 cierta, tenemos que χ2R = l0 (θ |~x) p 0 nIX (θ0 ) !2 d → − χ21 . y la RC será RC = ~x ∈ X |χ2R ≥ χ21;1−α . Observación 7.7.2. Esta prueba mide la pendiente de la recta tangente a l(θ|~x) en el punto θ0 . Si θ0 está “cerca” de θ̂n se espera que la pendiente sea aproximadamente 0. Observación 7.7.3. Dado que la maximización de funciones sujeto a restricciones se puede resolver planteando el problema en base a los multiplicadores de Lagrange, este contraste puede plantearse como un contraste respecto de la magnitud de los multiplicadores de Lagrange en el que nuevamente, si θ0 está cercano a θn los multiplicadores de Lagrange deben estar cercanos a 0. De ahı́ su denominación como contraste de los multiplicadores de Lagrange. Ejemplo 7.7.5. Continuación del ejemplo 7.7.3. Para este caso tenemos que (c representa una constante que no depende de θ), n 1 X 0 l (θ|~x) = c − 2 (xi − θ)2 ⇒ l0 (θ|~x) = 2σ i=1 2 n X (xi − θ) i=1 2σ 2 = n(x̄n − θ) . σ2 Dado que IX (θ) = σ −2 , tenemos que n(x̄n − θ) 2 2 2 = n(x̄n − θ) . χ2R = pσ n σ2 σ2 Entonces, n(x̄n − θ0 )2 2 RC = ~x ∈ X > χ1;1−α . σ2 (7.10) Para este problema, χ2L = χ2W = χ2R . Por lo tanto, las RC 7.8, 7.9 y 7.10 coinciden. Inferencia en muestras grandes - 137 Introducción a la Inferencia Estadı́stica Ejemplo 7.7.6. Continuación del ejemplo 7.7.4. n n 1 X 1 X l (θ|~x) = + log xi = − − log xi . θ i=1 θ i=1 0 Definiendo Yi = − log Xi , 0 l (θ|~x) = n 1 − Ȳn θ ⇒ l0 (1|~x) = n 1 − Ȳn Además, IX (θ) = θ−2 , por lo cual nI(1) = n. Entonces, χ2R n2 (1 − Ȳn )2 = = n(1 − Ȳn )2 = n n Pn i=1 2 − log xi −1 . n Por lo cual, ( ~x ∈ X |n RC = ) 2 − log x i i=1 − 1 > χ21;1−α . n Pn Observe que si X ∼ Beta(θ, 1), Yi = − log Xi ∼ Gamma(1, θ). Usando este resultado, Ȳn ∼ Gamma(n, nθ). Lo que implica que, asumiendo H0 ) θ = 1 cierta, E(Ȳn ) = 1 y Var(Ȳn ) = n−1 . En este caso, el teorema del lı́mite central establece que √ p n(Ȳn − 1) → − N(0, 1). Ejemplo 7.7.7. Sea X1 , . . . , Xn una MA de X ∼ Exp(θ) con E(X) = θ−1 . Se desea contrastar H0 ) θ = θ0 contra H1 ) θ 6= θ0 . l(θ|~x) = n log θ − θ n X xi = n log θ − θnx̄n i=1 n ⇒ l (θ|~x) = − nx̄n = n θ 0 1 − x̄n θ 2 . Dado que IX (θ) = θ−2 tenemos que 2 1 − x̄ ) n( n 0 = n(1 − θ0 x̄n )2 . χ2R = θq n θ02 Por lo tanto, RC = ~x ∈ X |n(1 − θ0 x̄n )2 > χ21;1−α . 138 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Ejemplo 7.7.8. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Se desea contrastar H0 ) θ = θ0 contra H1 ) θ 6= θ0 . Para este problema, sabemos que L(θ|~x) = θ nx̄n n(1−x̄n ) (1−θ) ⇒ l(θ|~x) = n X [xi log θ+(1−xi ) log(1−θ)] ⇒ l0 (θ|~x) = i=1 n(x̄n − θ) . θ(1 − θ) Además θ̂n = x̄n , IX (θ) = [θ(1 − θ)]−1 . Por lo cual, Wilks χ2L = 2n x̄n log x̄n θ0 Wald + (1 − x̄n ) log χ2W = n(x̄n − θ0 )2 . x̄n (1 − x̄n ) χ2R = n(x̄n − θ0 )2 . θ0 (1 − θ0 ) Rao 1 − x̄n 1 − θ0 Note que los tres contrastes rechazan H0 para valores “grandes” de (x̄n − θ0 )2 . En el caso del ejemplo donde tenemos una MA de X ∼ N(θ, σ 2 ), si ahora tomamos que σ 2 es desconocida, la hipótesis nula ya no es un hipótesis simple. Ahora H0 es θ = θ0 , σ 2 > 0. En base a esto tenemos que estimar también a σ 2 . 1. Para el contraste de Rao estimaremos σ 2 sujeto a la restricción de que θ = θ0 . La ecuación a maximizar es ( ) n 1 X 2 2 2 −n/2 2 g(θ, σ ) = L(θ, σ ) + λ(θ − θ0 ) = (2πσ ) exp − 2 (xi − θ) + λ(θ − θ0 ). 2σ i=1 n donde λ es un multiplicador de Lagrange. Esto nos da θ̂n = θ0 y lo cual χ2R = σ̂02 1X = (xi − θ0 )2 . Por n i=1 n(x̄n − θ0 )2 . σ̂02 2. Como tanto Wilks and Wald usan la función de verosimilitud maximizada en el espacio sin restringir, tenemos que n(x̄n − θ0 )2 . χ2L = χ2W = Sn2 Observación 7.7.4. Los contrastes de Wald, Rao y Wilks tienen las siguientes propiedades 1. Asumiendo H0 ) θ = θ0 cierta, los tres contrastes son asint]’oticamente equivalentes. En muestras finitas no existen estudios que determinen cuál es el mejor. 2. El contraste de Wald tiene la ventaja que es fácil de calcular pero hay una doble estimación, de de θ y la de la Var(θ̂n ). Inferencia en muestras grandes - 139 Introducción a la Inferencia Estadı́stica 3. Intervalos de confianza asintóticos puede ser construidos invirtiendo la región de no rechazo del contraste de Wald. Un intervalo de confianza al (1 − α)100 % para θ es s 1 θ̂n ± z1−α/2 . nIX (θ̂n ) Intervalos de confianza construidos a partir de las RC generadas por los estadı́sticos χ2L o χ2R se deben de hacer de forma iterativa. 4. Todos estos contrastes tienen un nivel de significación asintótico igual a α. 7.8. Contrastes de independencia y bondad de ajuste Suponga que X1 ∼ Binomial(n, p1 ). Considere la variable X1 − np1 Y =p . np1 (1 − p1 ) d d Cuando n → ∞, Y → − N(0, 1). Por lo cual, Y 2 → − χ21 . Defina X2 = n − X1 y p2 = 1 − p1 . Note que, X1 − np1 = n − X2 − n(1 − p2 ) = −(X2 − np2 ). Entonces, Q1 ≡ (X1 − np1 )2 (X1 − np1 )2 (X1 − np1 )2 (X2 − np2 )2 (X1 − np1 )2 = + = + np1 (1 − p1 ) np1 n(1 − p1 ) np1 np2 d Por lo tanto, Q1 → − χ21 . ~ = (X1 , . . . , Xk ) ∼ Multinomial (n, p1 , . . . , pk ), Esto se puede generalizar de la siguiente manera: Sea X k−1 k−1 X X donde Xk = n − Xi y pk = 1 − pi . Defina, i=1 i=1 Qk−1 = k X (Xi − npi )2 i=1 npi . d Entonces, Qk−1 → − χ2k−1 . Para que esta aproximación funcione se necesita que npi ≥ 5, i = 1, . . . , k. El estadı́stico Qk−1 puede ser usado para construir pruebas de hipótesis relativas a los valores de p1 , . . . , pk . Si H0 asigna valores determinados a p1 , . . . , pk , este tipo de prueba evalúa cuánto se aleja lo que realmente se observa de lo que se esperarı́a haber observado si H0 fuera cierta. En lo que sigue, H1 es la negación de H0 y no se detalla explicı́tamente. 7.8.1. Contrastes de bondad de ajuste Sea Ω el espacio muestral de un experimento aleatorio. Sea A1 , . . . , Ak una partición de Ω. Defina, pi = P(Ai ) > 0, i = 1, . . . , k. El experimento aleatorio se repite en idénticas condiciones y de manera independiente n veces. Sean X1 , . . . , Xk la frecuencia con que se observa un resultado que pertenece a A1 , . . . , Ak respectivamente. Entonces, (X1 , . . . , Xk ) ∼ Multinomial(n, p1 , . . . , pk ), lo que implica que E(Xi ) = npi , i = 1, . . . , k. 140 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Considere el siguiente contraste de hipótesis H0 ) p1 = p10 , p2 = p20 , . . . , pk = pk0 , donde p10 , . . . , pk0 son constantes tales que pi0 > 0, i = 1, . . . , k y k X pi0 = 1. Si H0 es cierta, i=1 Qk−1 = k X (Xi − npi )2 i=1 d → − χ2k−1 . npi Intuitivamente, si H0 es cierta, Qk−1 no deberı́a ser muy grande. Por lo cual, rechazaremos H0 cuando Qk−1 > c donde α = P(Qk−1 > c|H0 ). Entonces, RC = ~x ∈ X |Qk−1 > χ2k−1;1−α . A este tipo de contraste se le las conoce como “Bondad de ajuste” y los pi0 están calculados de acuerdo a una determinada distribución que se asume como cierta. Como se señaló anteriormente, es crucial que los valores esperados de cada clase sean mayores o iguales que 5. En caso de no cumplirse este requisito tendremos que unir clases, de manera coherente, para lograr que se cumpla esta condición. Ejemplo 7.8.1. Se tira un dado y se desea ver si está cargado. Ai = {x|x = i}, i = 1, . . . , 6. H0 ) pi0 = 1/6, i = 1, . . . , 6. H0 representa que se asume que el dado no está cargado. Suponga que n = 60. Por lo tanto, npi0 = 10, i = 1, . . . , 6. Entonces, bajo H0 cierta k X (Xi − 10)2 d 2 Q5 = → − χ5 . 10 i=1 Si asumimos un nivel de significación del 5 %, tenemos que χ25;0,95 = 11, 1 y por lo tanto, la RC = {~x ∈ X |Qk−1 > 11, 1}. Suponga que se observa, x1 = 13, x2 = 19, x3 = 11, x4 = 8, x5 = 5 y x6 = 4. Para esos valores, Q5 = (13 − 10)2 (19 − 10)2 (11 − 10)2 (8 − 10)2 (5 − 10)2 (4 − 10)2 + + + + + = 15, 6 10 10 10 10 10 10 Por lo tanto, dado que 15, 6 > 11, 1 rechazamos al 5 % de significación la hipótesis nula de que el dado no está cargado. Ejemplo 7.8.2. Un punto es seleccionado al azar en el intervalo (0,1). Sea A1 = {x|0 < x ≤ 0, 25}, A2 = {x|0, 25 < x ≤ 0, 5}, A3 = {x|0, 5 < x ≤ 0, 75} y A4 = {x|0, 75 < x ≤ 1}. Se asume que X ∼ fX (x) = 2xI[0<x<1] . Bajo este supuesto Z p10 = 0 0,25 1 2x dx = , 16 Z 0,5 p20 = 2x dx = 0,25 3 . 16 Inferencia en muestras grandes - 141 Introducción a la Inferencia Estadı́stica De manera similar p30 = 5 7 y p40 = . 16 16 Podemos plantear H0 ) fX (x) = 2xI[0<x<1] , o equivalentemente, H0 ) p10 = 1 3 5 7 , p20 = , p30 = , p40 = . 16 16 16 16 Supongamos que n = 80, α = 0, 05 y que se observa x1 = 6, x2 = 18, x3 = 20 y x4 = 36. Entonces, np10 = 5, np20 = 15, np30 = 25 y np40 = 35, Q3 = (6 − 5)2 (18 − 15)2 (20 − 25)2 (36 − 35)2 + + + = 1, 83. 5 15 25 35 Si H0 es cierta, Q3 ≈ χ23 , χ23,0,95 = 9, 35. Por lo cual, la RC = {~x ∈ X |Q3 > 9, 35}. Dado que 1, 83 6> 9, 35, no rechazamos H0 . Suponga que la probabilidad de pertenecer a cada clase está dada por una distribución que no está totalmente determinada en el sentido de que depende de parámetros desconocidos. Por ejemplo, X ∼ N(µ, σ 2 ) donde µ y σ 2 son desconocidos. La idea es estimar µ y σ 2 de tal manera que Qk−1 sea mı́nima. A estos estimadores se les conoce como estimadores mı́nimo χ2 . Una vez estimados los parámetros, habremos perdido grados de libertad. En este ejemplo, hemos perdido 2 grados de d − χ2k−1−2 = χ2k−3 . En general, libertad (uno por cada parámetro estimado), lo que lleva a que Q3 → d si hay k clases y d parámetros a estimar, Qk−1 → − χ2k−1−d . Observación 7.8.1. Estimadores mı́nimo χ2 son complicados de calcular, y por lo tanto, se usan en su lugar a los estimadores máximo verosimil. Esto produce un valor de Qk−1 que no es mı́nimo, lo que lleva a que la probabilidad de rechazar H0 se incremente con respecto a si el mı́nimo actual de Qk−1 se hubiera usado. 7.8.2. Contrastes de independencia Suponga que el resultado de un experimento aleatorio depende de la clasificación concurrente de dos atributos. Un atributo particiona al espacio muestral Ω, en a clases A1 , . . . , Aa . El otro particiona al espacio muestral en b clases, B1 , . . . , Bb . Un resultado pertenece a Ai ∩ Bj si pertence a la vez a la clase Ai y a la clase Bj . Sea pij = P(Ai ∩ Bj ), i = 1, . . . , a, j = 1, . . . , b. Note que existen k = ab clases diferentes Ai ∩ Bj . Entonces, Qab−1 a X b X (Xij − npij )2 d 2 → − χab−1 . = npij i=1 j=1 Supongamos que deseamos contrastar que A es independiente de B. Si esto es cierto se cumple que b a X X P(Ai ∩ Bj ) = P(Ai )P(Bj ), i = 1, . . . , a, j = 1, . . . , b. Sea pi. = pij , i = 1, . . . , a y p.j = pij , j=1 j = 1, . . . , b. Claramente, a X i=1 pi. = b X i=1 p.j = 1. j=1 Planteamos el siguiente contraste H0 ) pij = pi. p.j , i = 1, . . . , a, j = 1, . . . , b. Supongamos que tenemos una MA de tamaño n y que Xij representa la cantidad de las observaciones que pertenecen 142 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica a la clase Ai ∩ Bj . Si pi. y p.j son desconocidos, tenemos que estimarlos por máxima verosimilitud. Esto nos da que b a 1X 1X p̂i. = Xij p̂.j = Xij . n j=1 n i=1 Dado que a X p̂i. = i=1 b X p̂.j = 1 hemos estimado a − 1 + b − 1 = a + b − 2 parámetros. Por lo j=1 cual, si H0 es cierta, Qab−1 ≈ χ2ab−1−(a+b−2) = χ2(a−1)(b−1) . La correspondiente región crı́tica será RC = {~x ∈ X |Qab−1 > χ2(a−1)(b−1);1−α }. Ejemplo 7.8.3. Se tiene una muestra de 12.000 individuos clasificados según sexo (Hombre, Mujer) y grupo sanguı́neo (A, B o O). En la tabla siguiente se muestran los resultados obtenidos Sexo Hombre Mujer Total Grupo sanguı́neo A B O 2400 1900 700 3100 2700 1200 5500 4600 1900 Total 5000 7000 12000 Sea H0 ) los atributos “Sexo” y “Grupo Sanguı́neo” son independientes. Bajo H0 cierta, tenemos que 4600 × 5500 1900 × 5500 5000 × 5500 = 2292; pHB = = 1917; pHO = = 792 12000 12000 12000 7000 × 5500 4600 × 7000 1900 × 7000 = = 3208; pM B = = 2683; pM O = = 1108 12000 12000 12000 pHA = pM A Por lo cual, Q5 = (2400 − 2292)2 (1900 − 1917)2 (700 − 792)2 + + + 2292 1917 792 (3100 − 3208)2 (2700 − 2683)2 (1200 − 1108)2 + + + = 27, 3. 3208 2683 1108 Como todos los valores esperados son mayores que 5, tenemos que Q5 ≈ χ22 bajo H0 cierta. Si asumimos α = 0, 05, χ22;0,95 = 5, 991. Por lo cual, RC = {~x ∈ X |Q5 > 5, 991}. Dado que 27, 3 > 5, 991 concluimos que existe evidencia significativa al 5 % de que los atributos “Sexo” y “Grupo Sanguı́neo” no son independientes. Note que tanto en este tipo de contraste como en el anterior también podemos calcular el valor-p y en base a este decidir. En el ejemplo, valor-p = P(χ22 > 27, 3) ≈ 0 < 0, 05 ⇒ rechazamos H0 . Inferencia en muestras grandes - 143 Introducción a la Inferencia Estadı́stica Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Keener, R. (2010) Theoretical Statistics. Springer. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Wasserman, L. (2004) All of Statistics A Concise Course in Statistical Inference. Springer 144 - Inferencia en muestras grandes CAPÍTULO 8 MUESTREO DE POBLACIONES FINITAS 8.1. Introducción En este capı́tulo estudiaremos métodos de estimación cuando la población es un conjunto finito de elementos al que llamaremos población finita. Deseamos investigar el comportamiento de cierta variable de estudio Y en la población. En lugar de medir Y en toda la población usaremos un subconjunto de esta al que llamaremos la muestra y llevaremos a cabo una encuesta por muestreo. El término encuesta denota una investigación estadı́stica con las siguientes caracterı́sticas metodológicas: Los elementos de la población se denominan unidades. El número de elementos de la población se anotará como N y se supone conocido. La población se notará con el conjunto {u1 , u2 , . . . , uN }. Adicionalmente se supone que las unidades de la población son identificables y pueden etiquetarse con los naturales de 1 a N . Ası́, la población queda representada por el conjunto de etiquetas U = {1, 2, . . . , k, . . . , N }. Cada unidad de la población tiene asociado el valor de una o más variables de estudio. Se anota yk al valor que toma la variable Y en el k -ésimo elemento de la población. Ası́, para la variable Y tendremos el vector {y1 , y2 , . . . , yk , . . . , yN } de valores poblacionales. La variable Y no es tratada como variable aleatoria. Los valores yk son tratados como valores fijos, dados de antemano aunque desconocidos, para cada unidad de la población. El objetivo de una encuesta es obtener información acerca de caracterı́sticas poblacionales o parámetros desconocidos. Los parámetros son funciones de las variables en estudio (total, media, mediana, tasas, etc.). 145 Introducción a la Inferencia Estadı́stica En la mayorı́a de las encuestas, el acceso a la información de unidades individuales de la población se establece a través de un marco muestral, que es un mecanismo que asocia las unidades de la población con las unidades de muestreo en el marco. En una encuesta por muestreo, la observación de la variable Y está limitada a un subconjunto de la población. Existe un tipo especial de encuesta que es aquella donde se observa a toda la población y es conocida como censo o enumeración completa. Existen diferentes maneras de seleccionar la muestra. Para hacerlo tenemos en cuenta lo siguiente: El conjunto formado por todos los subconjuntos posibles de unidades de U se anota S, conjunto de muestras posibles. S tiene 2N elementos. Una muestra es un elemento particular de S y se anota como s. Se cumple que s ∈ S y que s ⊂ U . El número de elementos de s se anota n y se denomina tamaño de la muestra s. Se observan los elementos de la muestra. Esto es, para cada elemento de s se recoge información acerca de las variables en estudio. Los valores obtenidos son usados para hacer estimaciones de los parámetros de interés en la población finita. Definición 8.1.1. Decimos que una muestra es probabilı́stica o aleatoria si en la elección de una muestra s que cumple que: 1. El conjunto S es conocido. 2. Cada s ∈ S tiene asociada una probabilidad de selección que denotamos p(s). 3. El procedimiento de selección asigna para todo k ∈ U una probabilidad no nula de ser incluido en la muestra s. Ası́, P (k ∈ S) = πk > 0 ∀k ∈ U . 4. Existe un mecanismo aleatorio que asegura que cada una de las posibles muestras de S tiene una probabilidad p(s) de ser seleccionada. Definición 8.1.2. p(·) es una función de probabilidad sobre S; p(·) : S → [0, 1] y constituye lo que denominamos diseño muestral. 8.2. Probabilidades de inclusión Definición 8.2.1. Sea s ∈ S. Para el elemento k de la población se define su función indicadora de inclusión en una muestra de la siguiente manera: ( 1 si k ∈ s Ik = k = 1, . . . , N 0 si k 6∈ s La inclusión de un elemento k ∈ U en una muestra es un evento aleatorio indicado por Ik que es una variable aleatoria ya que la muestra s será seleccionada por algún mecanismo aleatorio. 146 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica Definición 8.2.2. La probabilidad de que un elemento k esté incluido en la muestra se denomina probabilidad de inclusión de primer orden y se define como: X πk = P (k ∈ S) = P (Ik = 1) = p(s) s3k donde sı́mbolo s 3 k indica que la sumatoria es sobre todas las muestras s que incluyen el elemento k. Definición 8.2.3. La probabilidad de que el elemento k y el elemento l estén ambos en la misma muestra se se denomina probabilidad de inclusión de segundo orden y se define como: πkl = P (k&l ∈ S) = P (Ik Il = 1) = X p(s) s3k&l . Observación 8.2.1. πkk = P (Ik Ik = 1) = P (Ik = 1) = πk . Observación 8.2.2. Dada una población con N elementos, existen, para un diseño dado, hay N (N − 1)/2 probabilidades de inclusión de segundo orden: π12 , π13 , . . . , πkl , . . . , πN −1,N . Observación 8.2.3. Se pueden definir probabilidades de inclusión de mayor orden. Sin embargo son muy poco usadas en la práctica. Observación 8.2.4. Para un diseño muestral arbitrario p(s) y para k, l = 1, . . . , N resulta Ik ∼ Bernoulli(πk ) y, por tanto, E(Ik ) = πk ∆kk ≡ Var(Ik ) = πk (1 − πk ) ∆kl ≡ Cov(Ik , Il ) = πkl − πk πl Definición 8.2.4. Un diseño muestral que satisfaga πk > 0 ∀k ∈ U se denomina diseño muestral probabilı́stico. Una muestra obtenida por medio de este diseño se denomina muestra probabilı́stica. Si además el diseño muestral satisface πkl > 0 ∀k 6= l ∈ U, el diseño se llama medible. Observación 8.2.5. Los diseños medibles permiten calcular tanto estimaciones como intervalos de confianza válidos basados en los datos observados. Proposición 8.2.1. En diseños muestrales de tamaño, n, fijo: X πk = n U X πkl = (n − 1)πk l∈U k6=l X πkl = n(n − 1) l,k∈U k6=l Muestreo de Poblaciones Finitas - 147 Introducción a la Inferencia Estadı́stica 8.3. Estimador de Horvitz-Thompson La siguiente notación será utilizada de aquı́ en adelante: y̌k = 8.3.1. yk πk ˇ kl = ∆kl . ∆ πkl ; Estimación del total poblacional El estimador de Horvitz-Thompson del total poblacional, t = X yk , está dado por U t̂π = X y̌k = s X Ik y̌k . U 1 se puede interpretar πk como la cantidad de elementos de la población que representa el elemento k de la muestra. Definición 8.3.1. Al inverso de πk se le llama factor de expansión. Ası́, Observación 8.3.1. Al principio en el que se basa el estimador de Horvitz-Thompson lo denominaremos principio de π expansión y puede resumirse como sigue: para obtener un estimador de un total poblacional pasamos de U a s y “π expandimos” cada uno de los sumandos. Propiedades de t̂π 1. t̂π es insesgado para t. Demostración: ! E(t̂π ) = E X Ik y̌k = U X y̌k E(Ik ) = X U y̌k πk = U X yk X πk = yk = t π k U U 2. ! Var(t̂π ) = Var X Ik y̌k = U X Var(Ik )y̌k2 + U X ∆kl y̌k y̌l = l,k∈U k6=l X ∆kl y̌k y̌l (8.1) k,l∈U 3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por d t̂π ) = Var( X ˇ kl y̌k y̌l ∆ (8.2) k,l∈s Demostración: d t̂π )] = E[Var( X ˇ kl y̌k y̌l = E(Ik Il )∆ k,l∈U . 148 - Muestreo de Poblaciones Finitas X k,l∈U ˇ kl y̌k y̌l = πkl ∆ X k,l∈U ∆kl y̌k y̌l = Var(t̂π ) Introducción a la Inferencia Estadı́stica Proposición 8.3.1. Si p(·) es un diseño de tamaño fijo, la fórmula (8.1) se puede escribir de la siguiente manera: Var(t̂π ) = − 1 X ∆kl (y̌k − y̌l )2 2 k,l∈U (8.3) y por lo tanto un estimador insesgado de la varianza, siempre y cuando πkl > 0 ∀k, l ∈ U , estará dado por X d t̂π ) = − 1 ˇ kl (y̌k − y̌l )2 Var( ∆ (8.4) 2 k,l∈S Observaciones: 1. Si bien las fórmulas (8.1) y (8.3) son idénticas, los estimadores dados por las fórmulas (8.2) y (8.4) podrı́an dar estimaciones diferentes para la varianza de t̂π . Sin embargo, para los diseños que consideraremos, ambas fórmulas producen el mismo valor estimado. 2. Dados los valores muestrales, siempre se pueden evaluar los estimadores dados por (8.2) y (8.4). Sin embargo, si no se cumple la condición de que, en el diseño considerado, πkl > 0 ∀k, l ∈ U , los valores obtenidos serán malas aproximaciones al verdadero valor de la varianza de t̂π . 3. El estimador dado por (8.4) se conoce como el estimador de Yates-Grundin. 4. Tanto el estimador dado por (8.2), como el dado por (8.4) podrı́an devolver estimaciones negativas de la varianza de t̂π , lo cual es inaceptable. 8.3.2. Estimación de la media poblacional El estimador de la media poblacional, ȳU = 1 X t = yk , ası́ como su varianza, está basado en N N U el estimador del total poblacional t̂π . ȳˆU = t̂π 1 X 1 X = y̌k = Ik y̌k N N s N U Propiedades de ȳˆU 1. ȳU es un estimador insesgado. Demostración: t̂π 1 t E(ȳˆU ) = E = E(t̂π ) = = ȳU . N N N 2. Var(ȳˆU ) = 1 X ∆kl y̌k y̌l N 2 k,l∈U 3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por X d ȳˆU ) = 1 ˇ kl y̌k y̌l Var( ∆ N 2 k,l∈s Muestreo de Poblaciones Finitas - 149 Introducción a la Inferencia Estadı́stica 8.3.3. Intervalos de Confianza d θ̂) un estimador insesgado de Si θ̂ es un estimador insesgado del parámetro poblacional θ y Var( su varianza, entonces un intervalo de confianza al 100(1 − α) % para θ viene dado por q d θ̂)◦ θ̂◦ ± z1−α/2 Var( Observaciones: El subı́ndice ◦ indica que se trata de la estimación puntual, o sea, la calculada a partir de la única muestra s observada y z1−α/2 es el valor de tabla que acumula 1 − α/2 de probabilidad en una normal estándar. q d θ̂)◦ se la denomina error de estimación. A la cantidad z1−α/2 Var( Un intervalo de confianza al 100(1 − α) % para t, el total poblacional, está dado por t̂π◦ ± q d t̂π )◦ . z1−α/2 Var( Un intervaloqde confianza al 100(1 − α) % para ȳU , la media poblacional, está dado por d ȳˆU )◦ . ȳˆU ◦ ± z1−α/2 Var( 8.4. Aplicación a algunos diseños de muestreo directo de elementos En esta sección se presentan algunos de los diseños más comunes bajo el supuesto de que se está en condiciones de realizar muestreo directo de elementos. Esto último requiere que se cumplan dos condiciones: 1. existe un marco que identifica a cada uno de los elementos de la población y, 2. en el procedimiento de selección las unidades de muestreo son propiamente los elementos de la población. 8.4.1. Diseño Simple Definición 8.4.1. Se llama diseño simple al diseño de muestreo en el cual de la población U de N elementos se seleccionan aleatoriamente n elementos sucesivamente sin reposición. Este diseño muestral tiene las siguientes caracterı́sticas: 1. La función diseño está dada por p(s) = 1 N n ∀s de tamaño n. N −1 N −2 2. Hay muestras, de tamaño n, que contienen al elemento k y muestras n−1 n−2 que contienen a los elementos k y l (k 6= l) a la vez. 150 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica 3. Para k = 1, . . . , N : πk = X p(s) = s3k X 1 s3k N n N −1 n−1 N n = = n . N 4. Para k, l = 1, . . . , N ; k 6= l: X πkl = X 1 s3k&l N n p(s) = s3k&l N −2 n−2 N n = = n(n − 1) . N (N − 1) 5. El estimador del total poblacional bajo diseño simple resulta: t̂π = N ȳs con ȳs = 1X yk . n s Demostración: t̂π = X y̌k = s X yk X yk 1X = =N yk = N ȳs πk n/N n s s s 6. Dada la fracción de muestreo, esto es f = y̌k = ∆kl = n , se tiene que N N yk yk = n f n (n − 1) n n f (1 − f ) − =− N (N − 1) N N N −1 ∀k 6= l. Haciendo uso de (8.4), se tiene que 1 X ∆kl (y̌k − y̌l )2 2 k,l∈U 1 f (1 − f ) 1 X =− − (yk − yl )2 2 2 N − 1 f k,l∈U Var(t̂π ) = − = donde P (yk − ȳU )2 σy02 = Por lo tanto, con Sy02 = 1−f 1 − f 02 2N (N − 1)σy02 = N 2 σy 2f (N − 1) n U N −1 y ȳU = 1 X yk . N U 1 X (yk − ȳs )2 , se obtiene que n−1 s d t̂π ) = N 2 1 − f Sy02 . Var( n Muestreo de Poblaciones Finitas - 151 Introducción a la Inferencia Estadı́stica 7. Estimación de la media poblacional bajo diseño simple: ȳˆU = t̂π 1 XN 1X = yk = yk = ȳs . N N s n n s Var(ȳs ) = 1 − f 02 σy . n d s ) = 1 − f S 02 . Var(ȳ y n En la fórmula anterior 1 − f = 1 − n se denomina factor de corrección por población finita. N Determinación del tamaño de muestra 1. Para estimar el total poblacional ty con un error de estimación menor o igual que ε al 100(1 − α) % de confianza, se requiere: n≥ 2 N 2 z1−α/2 σy02 2 ε2 + N z1−α/2 σy02 2. Para estimar la media poblacional ȳ U con un error de estimación menor o igual que ε al 100(1 − α) % de confianza, se requiere: n≥ 2 N z1−α/2 σy02 2 N ε2 + z1−α/2 σy02 3. Para estimar ȳ U ó t con un error relativo e = requiere: n≥ donde γ = 8.4.2. ȳˆ U − ȳ U al 100(1 − α) % de confianza, se ȳ U 2 N z1−α/2 γ2 2 N e2 + z1−α/2 γ2 σy0 es el coeficiente de variación poblacional. ȳ U Diseño Estratificado Definición 8.4.2. Se denomina diseño estratificado a un diseño de muestreo que parte de dividir a la población U en H estratos, Uh , con h = 1, 2, . . . , H, de tamaños respectivos Nh . Estos estratos son subconjuntos que constituyen una partición de U . O sea, U = {U1 , . . . , Uh , . . . , UH } y se H H [ X cumple que Uh = U y Ui ∩ Uj = φ ∀i 6= j. Ası́, resulta N = Nh . h=1 152 - Muestreo de Poblaciones Finitas h=1 Introducción a la Inferencia Estadı́stica Dentro de cada estrato, Uh , se toma una muestra sh , de tamaño nh . Las muestras son extraı́das H [ independientemente en cada estrato. Se cumple que sh = s y si ∩ sj = φ ∀i 6= j. El tamaño de h=1 muestra total es n = H X nh . h=1 Por último se computan las estimaciones del parámetro de interés para cada estrato y se suman con ponderadores apropiados para obtener una estimación global. Se representa por yhk el valor que toma la variable Y en la k-ésima observación del estrato h, k = 1, . . . , Nh con h = 1, . . . , H. Expresiones de los parámetros poblacionales de interés: 1. Total poblacional : t = X U donde ȳUh = yk = H X X yhk = h=1 Uh H X th = h=1 H X Nh ȳUh , h=1 1 X y . Nh U hk h H H X Nh 1 X 1 X 2. Media poblacional : ȳ U = th = ȳ . yk = N U N h=1 N Uh h=1 3. Varianza poblacional dentro de cada estrato: σy02 h = 1 X (yk − ȳ Uh )2 . Nh − 1 U h Estimadores del total y la media poblacional, sus varianzas y sus estimadores: 1. Estimador del total : t̂π = H X t̂hπ = h=1 Var t̂π = Var H X Nh ȳˆ Uh . h=1 H X ! t̂hπ = h=1 d t̂π = Var d Var H X H X Var t̂hπ . h=1 ! t̂hπ = h=1 H X d t̂hπ . Var h=1 2. Estimador de la media: ȳˆ U = H X Nh h=1 N ȳˆ Uh . Muestreo de Poblaciones Finitas - 153 Introducción a la Inferencia Estadı́stica H X Nh Var ȳˆ U = Var h=1 N H X Nh d ȳˆ = Var d Var U h=1 N ! ȳˆ Uh = H X N2 h=1 ! ȳˆ Uh = h Var N2 H X N2 h=1 hd Var N2 ˆ ȳ Uh . ˆ ȳ Uh . Definición 8.4.3. Se denomina diseño estratificado simple a un diseño estratificado en el que dentro de cada estrato la muestra se selecciona bajo el diseño simple. En el diseño estratificado simple, los estimadores del total y la media poblacional, sus varianzas y sus estimadores son los siguientes: 1. Estimador del total : t̂π = H X Nh X h=1 Var t̂π = H X nh sh Nh2 (1 h=1 yhk . σy02 h − fh ) . nh H X Sy02 d Var t̂π = Nh2 (1 − fh ) h , nh h=1 donde Sy02 h = 1 X (yk − ȳ sh )2 . nh − 1 s h 2. Estimador de la media: H H X 1 X Nh X Nh ȳˆ U = yhk = ȳ sh . N h=1 nh s N h=1 h H X σy02 h Nh2 ˆ Var ȳ U = (1 − fh ) . N2 nh h=1 H X Sy02 h Nh2 d ˆ Var ȳ U = (1 − fh ) . N2 nh h=1 Determinación del tamaño de muestra En el diseño estratificado simple se debe determinar no solo el tamaño de muestra, n, sino que también hay que determinar el tamaño de muestra dentro de cada estrato: nh . 154 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica 1. Asignación proporcional. El tamaño de muestra dentro de cada estrato es proporcional al tamaño del estrato: nh = n Nh . N El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado para la media poblacional al 100(1 − α) % de confianza es: 2 N z1−α/2 n= H P h=1 2 N 2 ε2 + z1−α/2 Nh σy02 h H P h=1 Nh σy02 h 2. Asignación óptima. Cuanto más homogéneo (con respecto a la variable en estudio) sea un estrato, menos observaciones se deberı́an encuestar dentro del estrato. O lo que es lo mismo, cuanto más heterogéno sea el estrato más observaciones se deberı́an encuestar en dicho estrato: Nh σy0 h nh = n H P Nh σy0 h h=1 El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado para la media poblacional al 100(1 − α) % de confianza es: 2 z1−α/2 n= H P h=1 Nh σy02 h 2 N 2 ε2 + z1−α/2 8.4.3. H P h=1 2 Nh σy02 h Diseño Bernoulli Definición 8.4.4. Se denomina diseño bernoulli a un diseño de muestreo en el que, dada una población U = {1, 2, . . . , N }, el mecanismo de selección consiste en considerar ε1 , ε2 , . . . εN iid Unif (0, 1) y establecer que el elemento k ∈ S si εk < π. Ası́, S = {k : εk < π, k = 1, 2, . . . , N } πk = P (k ∈ S) = P (εk < π) = π ∀k ∈ U πkl = P (k y l ∈ S) = π 2 ∀k 6= l ∈ U π 2 − ππ = 0 ∀k 6= l ∆kl = πkl − πk πl = π − ππ = π(1 − π) si k = l Observación 8.4.1. En este diseño el tamaño de muestra es aleatorio: ns ∼Binomial (N, π). En el diseño Bernoulli: Muestreo de Poblaciones Finitas - 155 Introducción a la Inferencia Estadı́stica 1. La función diseño está dada por p(s) = π ns (1 − π)N −ns ∀s de tamaño ns donde ns = 0, 1, 2, . . . , N . 2. La expresión del estimador π del total poblacional es t̂π = 3. Var t̂π = 1X yk . π s X σy02 σy0 1 1 2 2 −2 −1 yk = N (1 − f ) 1− + CVyU donde CVyU = . π n N ȳ U U 4. El estimador insesgado de la varianza es d t̂π = 1 Var π X Sy02 1 1 2 2 −2 −1 yk = N (1 − f ) 1− + CVyS . π n N S Observación 8.4.2. Si consideramos el tamaño de muestra en su valor esperado, es decir n = N π, el cociente entre la varianza del estimador de Horwitz-Thompson bajo diseño bernoulli y su varianza bajo diseño simple es aproximadamente 1 + CVy−2 lo que sugiere que el diseño bernoulli U es, en general, menos eficiente que el diseño simple. Esto puede atribuı́rse a la naturaleza aleatoria del tamaño de muestra bajo diseño bernoulli. 8.4.4. Diseño Sistemático Consideremos una población U = {1, 2, . . . , N } y dentro de ella ((bloques)) formados por a < N elementos hasta completar los N que la integran, es decir, U = {1, 2, . . . , a, a + 1, . . . , 2a, . . . , N }. Por simplicidad, suponemos que N es divisible entre a y definimos el tamaño de muestra como n = N/a. Definición 8.4.5. Se denomina diseño sistemático a un diseño de muestreo en el que se selecciona aleatoriamente uno de los números naturales comprendidos entre 1 y a con distribución uniforme discreta, al que denominaremos arranque aleatorio r, que determina que la muestra quede conformada por Sr = {k : k = r + (j − 1)a ≤ N, j = 1, 2, . . . , n}. a se denomina intervalo de muestreo. Ası́, en el diseño sistemático hay a muestras posibles disjuntas y exhaustivas, es decir, Si ∩ Sj = φ ∀i 6= j y ∪ai=1 Si = U . Esto que permite representar la población odrenada según las distintas muestras posibles tal como se muestra en el siguiente cuadro. Muestra U Total Media S1 y1 y1+a .. . .. . y1+(n−1)a tS1 ȳS1 ······ ······ ······ ······ ······ ······ ······ ······ 156 - Muestreo de Poblaciones Finitas Sr yr yr+a .. . .. . yr+(n−1)a tSr ȳSr ······ ······ ······ ······ ······ ······ ······ ······ Sa ya y2a .. . .. . yna tSa ȳSa Introducción a la Inferencia Estadı́stica De esta forma podemos expresar el total poblacional de la variable y como t = X con tSr = yk . X yk = U a X tSr r=1 Sr Dada la forma de selección de la muestra en el diseño sistemático, cada una de las posibles muestras se observa con probabilidad a−1 . Ası́, la función diseño está dada por, ( a−1 si s ∈ {S1 , S2 , . . . , Sa } p(s) = 0 en otro caso De lo anterior se desprende que, πk = P (k ∈ S) = a−1 ∀k ∈ U ( a−1 πkl = 0 si k y l ∈ Sr ∈ {S1 , S2 , . . . , Sa } en otro caso Por tanto, dado el intervalo de muestreo a = N/n, el estimador de Horvitz-Thompson del total poblacional puede expresarse como: X X yk X yk = atS = N ȳS = a y̌ = t̂π = a−1 S S S a a X 1X (tSr − t̄)2 = a(a−1)St02 donde t̄ = y puede demostrarse que Var t̂π = a tSr representa el a r=1 r=1 total promedio en las posibles muestras y St02 es la varianza corregida de los totales de las posibles muestras. Observación 8.4.3. La varianza del estimador de Horvitz-Thompson en el diseño sistemático depende de cómo ordene la población. En el caso extremo de que todas las muestras posibles tengan el mismo total resulta que Var t̂π = 0. En el otro extremo, si cada una de las posibles muestras contiene elementos homogéneos entre si en términos de la variable y siendo heterogéneos entre muestras, la varianza del estimador será máxima. Cuando la población está organizada aleatoriamente respecto en términos de la variable y la varianza del estimador de Horvitz-Thomson bajo el diseño sistemático es igual a la que se obtiene bajo el diseño simple. Observación 8.4.4. El diseño sistemático no es un diseño medible ya que no cumple que πkl > 0 ∀k, l ∈ U por lo que no se tiene un estimador insesgado para Var t̂π . Observación 8.4.5. Si N no es divisible entre a se considera n = [N/a], donde [·] significa parte entera, se tiene que N = na + c con 0 < c < a. En esta situación, si 0 < r ≤ c, lo que ocurre con probabilidad c/a, el tamaño de muestra será n + 1, mientras que si c < r ≤ a, que ocurre con probabilidad 1 − c/a, el tamaño de muestra será n. Por ejemplo, supongamos que N = 52 y a = 6 con lo que n = [52/6] = 8 y c = 4. Entonces, Si r = 3 ⇒ s = {3, 9, 15, 21, 27, 33, 39, 45, 51} por lo que el tamaño de muestra es 9. Si r = 5 ⇒ s = {5, 11, 17, 23, 29, 35, 41, 47} por lo que el tamaño de muestra es 8. Muestreo de Poblaciones Finitas - 157 Introducción a la Inferencia Estadı́stica 8.5. Comentarios sobre diseños de muestreo indirecto de elementos Los diseños presentados en la sección anterior asumen que se puede realizar muestreo directo de elementos. Sin embargo, en encuestas de mediana y gran escala el muestreo directo de elementos no es usado por alguna de las siguientes razones: No se dispone de un marco que identifique a todos los elementos y el costo de crear uno es demasiado elevado. Los elementos de la población están muy dispersos en un área geográfica muy extensa. Ası́, el muestreo directo de elementos lleva a costos de relevamiento excesivamente elevados (costo de transporte de los encuestadores). Los diseños de muestreo por conglomerados, en dos etapas y multietapa no requieren realizar muestreo directo de elementos ya que en una primera etapa se muestrean grupos o clusters de elementos, o sea, son aplicables cuando se cuenta con marcos agrupados. Muestreo por conglomerados. En este tipo de diseños la población se particiona en subpoblaciones llamadas conglomerados o clusters. Luego se toma una muestra aleatoria de esos conglomerados y todos los elementos de la población que pertenecen a los conglomerados seleccionados son encuestados. Muestreo en dos etapas. Aquı́, la muestra es resultado de dos etapas de muestreo. En una primera instancia se particiona la población en subpoblaciones llamadas PSUs (primary sampling units) y se toma una muestra probabilı́stica de la población que dichas PSUs forman (muestreo de primera etapa). Luego, para cada PSU seleccionada en la primera etapa se elige un diseño de muestreo (de segunda etapa). Ahora, las unidades que se muestrean en esta segunda etapa, que denominamos SSUs (second-stage sampling units) pueden ser elementos o grupos (clusters) de elementos. Cuando las SSUs son elementos y se toma una muestra aleatoria dentro de cada una de las PSUs seleccionadas en la primera etapa se dice que el diseño es en dos etapas. Muestreo en varias etapas. Consiste en tres o más etapas de muestreo. Si las unidades de última etapa son elementos se habla de muestreo multietapa, mientras qeu si son grupos de elementos hablamos de muestreo por conglomerados en varias etapas. 158 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica Notación Dada una población U y un subconjunto s de elementos de U : X X = (la suma sobre todos los elementos que componen la población U ). U X k∈U = X s X = k,l∈U X = l,k∈s k6=l XX k∈s l∈s = l,k∈U k6=l X XX k∈U l∈U k,l∈s X (la suma sobre todos los elementos que componen el subconjunto s). k∈s XX k∈U l∈U k6=l = XX k∈s l∈s k6=l Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Galmés, M. Métodos de Muestreo Notas de Estadı́stica II (Plan 90), Oficina de Apuntes del CECEA. Särndal, Sweansson y Wretman. Model Assisted Survey Sampling, fourth printing. Springer, NY, 1994. Muestreo de Poblaciones Finitas - 159 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 160 - Muestreo de Poblaciones Finitas APÉNDICE A MODELOS DE PROBABILIDAD Lo siguiente es una recopilación de los modelos de probabilidad más comunes. Un modelo de probabilidad es la terna (R, B, PX ) que se obtiene al aplicar una variable o vector aleatorio sobre el espacio de probabilidad original (Ω, A, P ). En lo que sigue, para todos los modelos se especifica: la función de cuantı́a o densidad, la esperanza, la varianza, el modo y la mediana de la variable o vector aleatorio. La función generatriz de momentos se incluye para aquellos modelos donde existe. La función de distribución se especifica solo en aquellos casos en que existe en forma cerrada. A.1. Modelos Univariados Discretos A.1.1. Distribución Uniforme discreta: X ∼ U(a, . . . , b) fX (x) = 1 n x ∈ Rec(X) = {a, a + 1, . . . , b − 1, b} a ∈ Z, b ∈ Z a < b n=b−a+1 0 x<a bxc − a + 1 FX (x) = a≤x<b n 1 x≥b MX (t) = eat − e(b+1)t n(1 − et ) E(X) = a+b 2 Var(X) = n2 − 1 12 x0,5 = a+b 2 6 ∃xmo Definición A.1.1. Una prueba de Bernoulli, es un experimento aleatorio que da lugar a dos sucesos excluyentes y exhaustivos denominados “éxito” y “fracaso”. Definición A.1.2. Una sucesión de pruebas de Bernoulli es un un conjunto de pruebas de Bernoulli independientes y repetidas en idénticas condiciones. Esto implica que la probabilidad de observar “éxito”, p, se mantiene constante prueba a prueba. 161 Introducción a la Inferencia Estadı́stica A.1.2. Distribución Bernoulli: X ∼ Bernoulli(p) X = “número de éxitos en una prueba de Bernoulli”. fX (x) = px (1 − p)1−x MX (t) = et p + (1 − p) ∀t ∈ R; x ∈ Rec(X) = {0, 1} (0 < p < 1) Var(X) = p(1 − p) E(X) = p xmo = [p] A.1.3. Distribución Binomial: X ∼ Binomial(n, p) X = “número de éxitos en una sucesión de n pruebas de Bernoulli”. n x fX (x) = p (1 − p)n−x x MX (t) = [et p + (1 − p)]n ∀t ∈ R; x ∈ Rec(X) = {0, 1, 2, . . . , n} (n ∈ N) E(X) = np Var(X) = np(1 − p) xmo = b(n + 1)pc Observación A.1.1. Si (n + 1)p ∈ N, entonces la distribución Binomial tiene dos modos: (n + 1)p y (n + 1)p − 1. Para la mediana no existe una fórmula sencilla, sin embargo se sabe que si np ∈ N, la esperanza, el modo y la mediana coinciden. En otro caso se cumple que bnpc ≤ x0,5 ≤ dnpe. Observación A.1.2. Binomial(1,p) ≡ Bernoulli(p). A.1.4. Distribución Geométrica: X ∼ Geométrica(p) X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el primer éxito”. x fX (x) = p(1 − p) MX (t) = p 1 − (1 − p)et x ∈ Rec(X) = {0, 1, 2, . . .} ∀t < − log(1 − p); FX (x) = E(X) = 1−p p 0 x<0 bx+1c 1 − (1 − p) x≥0 Var(X) = 1−p p2 xmo = 0 A.1.5. Distribución Binomial Negativa: X ∼ BN(r, p) X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el r-ésimo éxito”. x+r−1 r fX (x) = p (1 − p)x x ∈ Rec(X) = {0, 1, 2, . . .} r−1 r p r(1 − p) r(1 − p) MX (t) = ∀t < − log(1 − p); E(X) = Var(X) = t 1 − (1 − p)e p p2 (r − 1)(1 − p) xmo = p 162 - Apéndices Introducción a la Inferencia Estadı́stica Observación A.1.3. Geométrica(p) ≡ BN(1,p). Observación A.1.4. En lugar de fracasos antes del r-ésimo éxito también se puede definir la Binomial Negativa como: Y = “número de pruebas necesarias para obtener r éxitos”. La cuantı́a, generatriz de momentos y momentos de Y se deducen utilizando la siguiente relación: Y = X + r. A.1.6. Distribución Hipergeométrica: X ∼ Hipergeométrica(n, N, M ) Considere una población con N elementos, de los cuales M (M < N ) tienen determinada cualidad de interés a la que asociaremos con el suceso “éxito”. Se extraen n elementos de los N SIN reposición. X = “número de éxitos en n pruebas”. fX (x) = M E(X) = n N M x N −M n−x N n x ∈ Rec(X) = {máx(0, n − N + M ), . . . , mı́n(n, M )} M Var(X) = n N M N −n 1− N N −1 xmo (n + 1)(M + 1) = N +2 Observación A.1.5. La función generatriz de momentos de una Hipergeométrica existe siempre, pero su cálculo y forma escapan a los alcances del curso: MX (t) = N −M n 2 F1 (−n, −M ; N N n − M − n, et ) donde 2 F1 es la función generatriz exponencial con p = 2 y q = 1: p Fq (a1 , . . . , ap ; b1 , . . . , bq ; z) = ∞ X (a1 )n . . . (ap )n z n n=0 (b1 )n . . . (bq )n n! , con (a)n = a(a + 1)(a + 2) · · · (a + n − 1) para n ∈ N y (a)0 = 1. Observación A.1.6. Hipergeométrica(1, N, M ) ≡ Bernoulli( M ). N Observación A.1.7. Si X ∼ Hipergeométrica(n, N, M ) y n << N ⇒ X ≈ Binomial(n, M ). N En la práctica, la aproximación es buena cuando n < 0,1N y N > 50. Definición A.1.3. Un proceso de Poisson de tasa λ, es un proceso aleatorio que genera ocurrencias de sucesos sobre un espacio continuo de acuerdo a las siguientes caracterı́sticas: a - El número de ocurrencias en dos intervalos que no se solapan son independientes. Apéndices - 163 Introducción a la Inferencia Estadı́stica b - La probabilidad de que se produzca exactamente un acontecimiento en un intervalo de amplitud lo suficientemente pequeña, h, es λh. c - La probabilidad de que se produzcan dos o más acontecimientos en un intervalo, de amplitud lo suficientemente pequeña, es aproximadamente cero. A.1.7. Distribución Poisson: X ∼ Poisson(λt) X = “número de sucesos generados por un proceso de Poisson de tasa λ en un intervalo de longitud t”. fX (x) = e−λt (λt)x x! u −1) MX (u) = eλt(e x ∈ Rec(X) = {0, 1, 2, . . .} (λ > 0) u ∈ R; E(X) = λt Var(X) = λt xmo = bλc Observación A.1.8. En R2 , la variable aleatoria serı́a X=“número de sucesos generados por un proceso de Poisson de tasa λ en un área de medida t”. Observación A.1.9. Sea X ∼ Binomial(n, p). Si n → ∞, p → 0 y np → λ > 0, entonces X ≈ Poisson(λ) con λ = np. En la práctica, es recomendable la aproximación si p < 0, 1; n > 50 y np < 5. A.2. Modelos Univariados Absolutamente Continuos A.2.1. Distribución Uniforme: X ∼ U[a, b] fX (x) = 1 si a ≤ x ≤ b a, b ∈ R, a < b b−a 0 MX (t) = en otro caso etb − eta t(b − a) ∀t ∈ R; E(X) = 0 si x < a x−a si a ≤ x < b FX (x) = (b − a) 1 si x ≥ b a+b 2 Var(X) = (b − a)2 12 No existe el modo. A.2.2. Distribución Triangular: X ∼ Triang[a, b, c] Para a, b, c ∈ R, a < c < b: 2(x − a) si a ≤ x ≤ c (b − a)(b − c) 2(b − x) fX (x) = si c ≤ x ≤ b (b − a)(b − c) 0 en otro caso 164 - Apéndices 0 (x − a)2 (b − a)(b − c) FX (x) = (b − x)2 1 − (b − a)(b − c) 1 si x < a si a ≤ x < c si c ≤ x < b si x ≥ b Introducción a la Inferencia Estadı́stica 2(b − c)eat/2 − (b − a)ect/2 + (c − a)ebt/2 t2 (b − a)(c − a)(b − c) MX (t) = ∀t ∈ R; a+c+b a2 + b2 + c2 − ab − ac − bc E(X) = Var(X) = 3 18 r a+b (b − a)(c − a) a+ si c ≥ 2 2 r x0,5 = xmo = c (b − a)(c − a) a + b b− si c ≤ 2 2 A.2.3. Distribución Exponencial: X ∼ Exp(λ) −λx si x ≥ 0 (λ > 0) λe fX (x) = 0 en otro caso MX (t) = λ λ−t ∀t < λ; E(X) = ( FX (x) = 1 λ 0 si x < 0 1 − e−λx si x ≥ 0 Var(X) = 1 λ2 xmo = 0 Observación A.2.1. Alternativamente, la función de densidad de una variable aleatoria con distribución exponencial se puede definir como x 1 e− θ si x ≥ 0 (θ > 0) θ fX (x) = 0 en otro caso y se denota también X ∼ Exp(θ). Por lo cual, para evitar ambigüedades, se suele acompañar del valor de su esperanza, ya que ésta marca como se tiene que escribir el parámetro en la función de densidad, momentos, etc.. Note que la relación entre las dos expresiones está dada por θ = λ−1 . A.2.4. Distribución Doble Exponencial: X ∼ DExp(µ, λ) λ e−λ|x−µ| si x ∈ R (λ > 0, µ ∈ R) 2 fX (x) = 0 en otro caso MX (t) = λ2 eµt λ2 − t2 ∀|t| < λ; E(X) = µ Var(X) = 2 λ2 xmo = x0,5 = µ Definición A.2.1. La función matemática gamma, Γ, se define como Z +∞ Γ(α) = xα−1 e−x dx para α > 0. 0 Algunas propiedades de esta función son: Para β > 0 Z 0 +∞ xα−1 e−βx dx = Γ(α) . βα Apéndices - 165 Introducción a la Inferencia Estadı́stica Γ(α + 1) = αΓ(α). Si n ∈ N, entonces Γ(n + 1) = n!. √ 1 Γ( ) = π. 2 A.2.5. Distribución Gamma: X ∼ Gamma(α, β) El parámetro α controla la forma de la distribución y β su escala. α β xα−1 e−βx si x ≥ 0 (α > 0, β > 0) Γ(α) fX (x) = 0 en otro caso MX (t) = β β−t α ∀t < β; E(X) = α β Var(X) = α β2 xmo α−1 si α > 1 = β 6∃ si α ≤ 1 Observación A.2.2. X ∼ Exp(β) ≡ Gamma(1, β), con E(X) = β −1 . Observación A.2.3. Si α ∈ N a la distribución Gamma se le llama distribución Erlang. Otro caso n 1 particular es la Gamma( , ), con n ∈ N, a la cual se le conoce con el nombre χ2n (chi-cuadrado 2 2 con n grados de libertad). A.2.6. Distribución Logı́stica: X ∼ Logı́stica(µ, β) x−µ exp − β 1 x ∈ R, fX (x) = h i2 β 1 + exp − x−µ β FX (x) = MX (t) = eµt Γ(1 − βt)Γ(1 + βt) 1 1 + exp − x−µ β ∀t : |t| < 1 ; β µ∈R β>0 x ∈ R. E(X) = µ; Var(X) = Definición A.2.2. La función matemática Beta se define como Z 1 Γ(α)Γ(β) B(α, β) = xα−1 (1 − x)β−1 dx = para α > 0 y β > 0. Γ(α + β) 0 A.2.7. Distribución Beta: X ∼ Beta(α, β) Tanto el parámetro α como β controlan la forma de la distribución. Γ(β + α) xα−1 (1 − x)β−1 si 0 < x < 1 (α > 0, β > 0) Γ(α)Γ(β) fX (x) = 0 en otro caso E(X) = 166 - Apéndices α β+α Var(X) = αβ (α + β + 1)(α + β)2 (πβ)2 . 3 Introducción a la Inferencia Estadı́stica Observación A.2.4. La forma y cálculo de la función generatriz de momentos de una Beta también está más allá de los contenidos del curso. ! ∞ k−1 X Y α+r tk MX (t) = 1 F1 (α; α + β; t) = 1 + ∀t ∈ R. α + β + r k! r=0 k=1 Observación A.2.5. La función de densidad de una Beta tendrá diferente forma dependiendo de los valores que tomen α y β: Si α < 1 y β < 1 la función de densidad tendrá un único mı́nimo en Si α > 1 y β > 1 tendrá un único máximo (el modo, xmo ) en α−1 . α+β−2 α−1 . α+β−2 Si α = β es simétrica alrededor de 0,5 y por lo tanto E(X) = x0,5 = 0, 5. El modo también será 0,5 siempre y cuando α > 1 y β > 1. Si α < β es asimétrica a la derecha y si α > β lo es a la izquierda. Si α < 1 y β ≥ 1 o α = 1 y β > 1 es monótona decreciente y además: Si α = 1 y β > 2 es estrictamente convexa. Si α = 1 y β = 2 es una lı́nea recta. Si α = 1 y 1 < β < 2 es estrictamente cóncava. Si α = 1 y β < 1 o α > 1 y β ≤ 1 es monótona creciente y además: Si α > 2 y β = 1 es estrictamente convexa. Si α = 2 y β = 1 es una lı́nea recta. Si 1 < α < 2 y β = 1 es estrictamente cóncava. Observación A.2.6. X ∼ Uniforme(0, 1) ≡ Beta(1, 1). A.2.8. Distribución Cauchy: X ∼ Cauchy(a, b) fX (x) = b π[(x − a)2 + b2 ] xmo = a x ∈ R, −∞ < a < ∞, b>0 x0,5 = a Los momentos ordinarios, E(X k ), no existen para ningún k, k = 1, 2, . . .. Apéndices - 167 Introducción a la Inferencia Estadı́stica A.2.9. Distribución Normal: X ∼ N(µ, σ 2 ) fX (x) = √ t2 2 MX (t) = exp µt + σ 2 1 x−µ 2 1 e− 2 ( σ ) 2πσ x ∈ R, −∞ < µ < ∞, si t ∈ R; σ>0 Var(X) = σ 2 E(X) = µ xmo = x0,5 = µ Observación A.2.7. Si µ = 0 y σ = 1 se dice que la variable aleatoria X sigue una distribución normal estándar o tipificada. La letra griega φ se usa para representar su función de densidad y la letra Φ su función de distribución. La distribución normal estándar verifica, como todas las distribuciones simétricas alrededor del cero, que Φ(−x) = 1 − Φ(x) ∀x ∈ R. A.2.10.Distribución LogNormal: X ∼ log-N(µ, σ 2 ) 1 log(x)−µ 2 1 fX (x) = √ e− 2 ( σ ) x 2πσ σ2 E(X) = exp µ + 2 −∞ < µ < ∞, x > 0, 2 2 Var(X) = e2µ+σ (eσ − 1) σ>0 xmo = eµ−σ 2 Observación A.2.8. A pesar de que existen los momentos de cualquier orden, MX (t) no existe. Esto se debe a que E(etX ) existe solo para t ≤ 0 y por lo tanto no es derivable en t = 0. A.2.11.Distribución t de Student: X ∼ tn Γ n+1 1 2 fX (x) = n+1 n √ 2 Γ 2 πn 1 + xn 2 x∈R n−k k+1 Γ Γ 2 si k es par √2 n πΓ k 2 E(X ) = 0 si k es impar n ∈ {1, 2, . . .} k<n MX (t) no existe, dado que si k ≥ n, E(X k ) no existe. En particular, E(X) = 0 si n > 1 y Var(X) = El modo y la mediana coinciden, xmo = x0,5 = 0. Observación A.2.9. t1 ≡ Cauchy(0,1) y t∞ ≡ N(0,1). 168 - Apéndices n n−2 si n > 2. Introducción a la Inferencia Estadı́stica A.2.12.Distribución F de Snedecor: X ∼ Fn,m Al parámetro n se le llama grados de libertad del numerador y a m grados de libertad del denominador. fX (x) = Γ 0 Γ n 2 n+m 2 Γ m 2 n n2 m x 1+ n−2 n n x m n, m ∈ {1, 2, . . .} x>0 n+m 2 en otro caso k E(X ) = Γ n+2k Γ 2 Γ n2 Γ m−2k 2 m 2 m k n si k < m 2 No existe MX (t), dado que si k ≥ m/2, E(X k ) no existe. En particular, m E(X) = m−2 si m > 2 y Var(X) = 2 m m−2 2 m+n−2 n(m − 4) si m > 4. Observación A.2.10. Si X ∼ Fn.m , entonces Y = 1 ∼ Fm.n . X 2 Observación A.2.11. F1,m ≡ tm . A.2.13.Distribución Weibull: X ∼ Weibull(α, β) El parámetro α controla la forma de la distribución y β la escala. β−1 x β β x exp − si x ≥ 0 (α > 0; β > 0) α α α fX (x) = 0 en otro caso 0 si x < 0 FX (x) = x β 1 − exp − si x ≥ 0 α 1 E(X) = αΓ 1 + β ∞ n n X t α n MX (t) = Γ 1+ ; n! β n=0 2 1 2 Var(X) = α Γ 1 + −Γ 1+ β β 2 xmo = α β−1 β β1 si β > 1; x0,5 = α(log(2))1/β Apéndices - 169 Introducción a la Inferencia Estadı́stica Observación A.2.12. La expresión de MX (t) se obtiene sin evaluar directamente E(etX ). Se hace uso de que se conoce la forma general de E(X k ) ∀k: k k k E(X ) = α Γ 1 + k∈N β y se expresa MX (t) como una serie de potencias. Observación A.2.13. Cuando β = 2, a la distribución Weibull se le llama distribución Rayleigh. A.2.14.Distribución Pareto: X ∼ Pareto(α, β) α αβ si x ≥ β (α > 0; β > 0) xα+1 fX (x) = 0 en otro caso αβ k E(X ) = α−k k (k ∈ N) si α > k xmo = β 0 si x < β α FX (x) = β 1− si x ≥ β x β 2α Var(X) = (α − 1)2 (α − 2) √ α x0,5 = β 2 si α > 2 Observación A.2.14. MX (t) no existe en forma cerrada, pero al conocerse E(X k ) ∀k se le podrı́a expresar como una serie de potencias. A.3. Modelos Multivariados Discretos ~ ∼Multinomial(n, p1 , p2 , . . . , pk ) A.3.1. Distribución Multinomial: X La distribución Multinomial es la generalización multivariada de la distribución Binomial. Se repite independientemente n veces un experimento aleatorio en indénticas condiciones. Cada realización del experimento da a lugar a k sucesos {Ai }ki=1 excluyentes y exahustivos. Sea pi = P (Ai ), i = k X 1, . . . , k con pi = 1. i=1 ~ = (X1 , X2 , . . . , Xk ) donde Xi =“números de veces que Ai ocurre en las n Defina el vector X repeticiones del experimento”, i = 1, . . . , k. Entonces, ( ) k X ~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , n} i = 1, . . . , k; Rec(X) xi = n i=1 y pX~ (~x) = n! px1 1 px2 2 . . . pxkk k Q xi ! ~ ~x ∈ Rec(X). i=1 Para i = 1, . . . , k, Xi ∼Binomial(n, pi ), de donde E(Xi ) = npi 170 - Apéndices y Var(Xi ) = npi (1 − pi ). Introducción a la Inferencia Estadı́stica Además, para i 6= j, i, j = 1, . . . , k Cov(Xi , Xj ) = −npi pj . Sea ~t = (t1 , t2 , . . . , tk ), entonces MX~ (~t ) = (p1 et1 + p2 et2 + . . . + pk etk )n ∀~t ∈ Rk . ~ ∼MH(n, N, M1 , M2 , . . . , Mk ) A.3.2. Distribución Multihipergeométrica: X Considere una población de tamaño N , en la cual Mi elementos tienen la caracterı́stica de interés Ci , para i = 1, . . . , k. Cada elemento de la población posee exactamente una de las caracterı́sticas k X Ci , i = 1, . . . , k, esto es Mi = N . i=1 ~ = (X1 , X2 , . . . , Xk ) donde Xi =“números Se extraen n elementos de los N sin reposición. Defina X de elementos extraı́dos en los n con la caracterı́stica Ci ”, i = 1, . . . , k. Entonces, ( ) k X ~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , Mi } i = 1, . . . , k; Rec(X) xi = n i=1 y pX~ (~x) = M1 x1 M2 k ... M x2 xk N n ~ ~x ∈ Rec(X). Para i = 1, . . . , k, Xi ∼Hipergeométrica(n, N, Mi ), de donde Mi Mi N −n Mi y Var(Xi ) = n 1− . E(Xi ) = n N N N N −1 Además, para i 6= j, i, j = 1, . . . , k nMi Mj Cov(Xi , Xj ) = − N2 N −n N −1 . Observación A.3.1. Tanto la distribución Multinomial como la distribución Multihipergeométrik X k−1 k ca son distribuciones en R y no en R . Note que la restricción xi = n implica que, por i=1 ejemplo, dado un valor (x1 , x2 , . . . , xk−1 ) en particular de las primeras (k − 1) componentes del k−1 X vector , la k-ésima componente, Xk , tiene que necesariamente tomar el valor n − xi . i=1 Observación A.3.2. La misma relación que existe entre la Binomial y la Hipergeométrica se ~ ∼MH(n, N, M1 , M2 , . . . , Mk ) y n << N , tenemos que cumple en el caso multivariado: Si X ~ ≈ Multinomial(n, p1 , p2 , . . . , pk ). X En la práctica, la aproximación es buena cuando n < 0,1N y N > 50. A.4. Modelos Multivariados Absolutamente Continuos Apéndices - 171 Introducción a la Inferencia Estadı́stica A.4.1. Distribución Normal Multivariada: k × k simétrica y definida positiva: 2 µ1 σ1 σ12 µ2 σ21 σ 2 2 µ = .. y Σ = .. .. . . . µk σk1 σk2 ~ ∼ Nk (µ, Σ). Sean µ ∈ Rk y Σ una matriz de X · · · σ1k · · · σ2k .. .. . . · · · σk2 con σi > 0 i = 1, . . . , k σij = σji i, j = 1, . . . , k ~ = (X1 , . . . , Xk )0 , se dice que X ~ sigue una distribución normal multivariante no Entonces dado X singular de dimensión k con vector de medias µ y matriz de covarianzas Σ si 1 1 0 −1 − (~x − µ) Σ (~x − µ) ~x ∈ Rk . fX~ (~x) = k 1 exp 2 2 2 (2π) |Σ| Sea ~t = (t1 , t2 , . . . , tk )0 , entonces 1 0 0 MX~ (~t ) = exp ~t µ + ~t Σ~t 2 ∀~t ∈ Rk . Cov(Xi , Xj )=σij , i 6= j, i, j = 1, . . . , k. Si B es una matriz de p × k de rango completo por las filas, esto es rango(B)=p, entonces ~ ∼ Np (Bµ, BΣB0 ). BX De donde, ∀~a = (a1 , a2 , . . . , ak ) ∈ Rk , ~a 6= 0: ~ = ~aX k X ai X i ∼ N i=1 k X ai µ i ; i=1 k X i=1 ! a2i σi2 + 2 X ai aj σij i<j ~ = Xi ∼ N(µi , σi2 ), i = 1, . . . , k. y en particular para ~a = (0, . . . , 0, 1,0, . . . , 0): ~aX i−1 i k−i ~ sigue una Cualquier subvector de m componentes de las k componentes originales de X distribución normal multivariante de dimensión m. ~ 1 al Sea I un subconjunto propio de {1, 2, . . . , k} de m elementos, m = 1, . . . , k − 1. Defina X ~ tal que sus subı́ndices ∈ I. Defina X ~ 2 al vector vector compuesto por las componentes de X ~ tal que sus subı́ndices 6∈ I. Redefina, µ y Σ de tal compuesto por las componentes de X manera que: µ1 Σ11 Σ12 µ= yΣ= µ2 Σ21 Σ22 ~ i ) = µi , Var(X ~ i ) = Σii , i = 1, 2 y Cov(X ~ 1, X ~ 2 ) = Σ12 = Σ0 . Entonces, para un Donde E(X 21 ~ valor fijo ~x2 de X2 0 ~ 1 |X ~ 2 = ~x2 ∼ Nm (µ1 + Σ12 Σ−1 X x2 − µ2 ), Σ11 − Σ12 Σ−1 22 (~ 22 Σ12 ) 172 - Apéndices Introducción a la Inferencia Estadı́stica Para el caso particular de k = 2 y m = 1, con I = {1}, tenemos que σ1 2 2 X1 |X2 = x2 ∼ N µ1 + ρ (x2 − µ2 ), σ1 (1 − ρ ) σ2 y para I = {2} σ2 2 2 X2 |X1 = x1 ∼ N µ2 + ρ (x1 − µ1 ), σ2 (1 − ρ ) σ1 donde ρ = σ12 /(σ1 σ2 ). A.5. Relaciones entre distribuciones 1 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Bernoulli(p), i = 1, . . . , n. Entonces, n X Xi ∼ Binomial(n, p). i=1 2 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, . . . , r. Entonces, r r X X Xi ∼ Binomial(n, p), con n = ni . i=1 i=1 3 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Geométrica(p), i = 1, . . . , r. Entonces, r X Xi ∼ BN(r, p). i=1 4 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ BN(ri , p), i = 1, . . . , n. Entonces, n n X X Xi ∼ BN(r, p), con r = ri . i=1 i=1 5 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, 2. Entonces, X1 |X1 + X2 = k ∼ Hipergeométrica(k, n1 + n2 , n1 ). 6 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, . . . , n. Entonces, n n X X Xi ∼ Poisson(λ), con λ = λi . i=1 i=1 7 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, 2. Entonces, λ1 X1 |X1 + X2 = n ∼ Binomial n, λ1 + λ2 Apéndices - 173 Introducción a la Inferencia Estadı́stica 8 - Si X ∼ Uniforme(a, b), entonces Y = − 1 b−X log ∼ Gamma(1, b − a). b−a b−a 9 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(1, βi ), i = 1, . . . , n. Entonces, n X Y = mı́n(X1 , . . . , Xn ) ∼ Gamma(1, β) con β = βi . i=1 10 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(αi , β), i = 1, . . . , n. Entonces, n n X X Xi ∼ Gamma(α, β), con α = αi . i=1 i=1 1 1 11 - Si X ∼ N(0, 1), entonces Y = X 2 ∼ Gamma( , ) = χ21 (ver obs A.2.3). 2 2 12 - Si X ∼ Poisson(λ) y x ∈ N, entonces P (X ≤ x) = 1 − P (Y ≤ λ), donde Y ∼ χ22(x+1) . 1 13 - Si X ∼ Uniforme(0, 1), entonces Y = X 2 ∼ Beta( , 1). 2 14 - Si X ∼ Gamma(α, β) y Y ∼ Gamma(γ, β). X y Y independientes. Entonces, Z = X ∼ X +Y Beta(α, γ). 15 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ N(µi , σi2 ), i = 1, . . . , n. Entonces, n n n X X X 2 2 Xi ∼ N(µ, σ ), con µ = µi y σ = σi2 . i=1 i=1 i=1 16 - Si X ∼ N(µ, σ 2 ), entonces Y = eX ∼ log-N(µ, σ 2 ). 17 - Si Xi ∼ N(0, 1) i = 1, 2. X1 y X2 independientes, entonces Y = X1 ∼ Cauchy(0, 1). X2 18 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ Cauchy(ai , bi ), i = 1, . . . , n. Entonces, n n n X X X Xi ∼ Cauchy(a, b), con a = ai y b = bi . i=1 i=1 i=1 19 - Si X ∼ log-N(µ, σ 2 ), entonces Y = log(X) ∼ N(µ, σ 2 ). 20 - Si X ∼ log-N(µ, σ 2 ), entonces Y = X −1 ∼ log-N(−µ, σ 2 ). 21 - Si X ∼ log-N(µ, σ 2 ), entonces, con a > 0, Y = aX ∼ log-N(log a + µ, σ 2 ). 174 - Apéndices Introducción a la Inferencia Estadı́stica 22 - Si X ∼ N(0, 1) y W ∼ χ2n . X y W independientes. Entonces: X Y =p ∼ tn . W/n 23 - Si W ∼ χ2n y V ∼ χ2m . W y V independientes. Entonces: Y = W/n mW = ∼ Fn.m . V /m n V 24 - Si X ∼ Weibull(α, β), entonces Y = ( X β ) ∼ Exp(1). α 1 25 - Si X ∼ Uniforme(0, 1), entonces Y = α(− log(X)) β ∼ Weibull(α, β). 26 - Sean X ∼ Pareto(α, β) y un número β0 > β. Entonces X|X > β0 ∼ Pareto(α, β0 ). 27 - Si X ∼ Pareto(α, β), entonces Y = log X ∼ Exp(α) con E(Y ) = α−1 . β ~ ∼Multinomial(n, p1 , p2 , . . . , pk ) y sea I cualquier subconjunto propio de {1, . . . , k}. 28 - Dado X Entonces ! X X Xi ∼ Binomial n, pi . i∈I i∈I ~ = (X1 , . . . , Xi , Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi , αj , . . . , αk ), entonces 29 - Si X Y~ = (X1 , . . . , Xi + Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi + αj , . . . , αk ). 30 - Si Yi ∼ Gamma(αi , β), i = 1, . . . , k. Y1 , . . . , Yk independientes. Para V = k X Yi , defina i=1 Xi = Yi /V , i = 1, . . . , k. Entonces, ~ = (X1 , . . . , Xk ) = X Y1 Yk ,..., V V ∼ Dirichlet(α1 , . . . , αk ). ~ i un vector fila de p componentes tal que X ~ i ∼ Np (0, Σ), i = 1, . . . , m. Asuma que 31 - Sea X ~ 1, . . . , X ~ m son independientes. Sea X la matriz de m × p cuyas filas son X ~ i . Entonces la X matriz, de p × p, X0 X ∼ Wishart(m, Σ). Apéndices - 175 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 176 - Apéndices APÉNDICE B TABLAS 1 - Tabla de la función de distribución de una normal estándar. 2 - Tabla de los valores del recorrido de una distribución χ2ν . 3 - Tabla de los valores del recorrido de una distribución tν . 177 Introducción a la Inferencia Estadı́stica tabla de la función de distribución de una normal estándar Z z x2 1 √ e− 2 dx Φ(z) = 2π −∞ z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0,00 0,50000 0,53983 0,57926 0,61791 0,65542 0,69146 0,72575 0,75804 0,78814 0,81594 0,84134 0,86433 0,88493 0,90320 0,91924 0,93319 0,94520 0,95543 0,96407 0,97128 0,97725 0,98214 0,98610 0,98928 0,99180 0,99379 0,99534 0,99653 0,99744 0,99813 0,99865 0,99903 0,99931 0,99952 0,99966 0,99977 0,99984 0,99989 0,99993 0,99995 0,99997 0,01 0,50399 0,54380 0,58317 0,62172 0,65910 0,69497 0,72907 0,76115 0,79103 0,81859 0,84375 0,86650 0,88686 0,90490 0,92073 0,93448 0,94630 0,95637 0,96485 0,97193 0,97778 0,98257 0,98645 0,98956 0,99202 0,99396 0,99547 0,99664 0,99752 0,99819 0,99869 0,99906 0,99934 0,99953 0,99968 0,99978 0,99985 0,99990 0,99993 0,99995 0,99997 178 - Apéndices 0,02 0,50798 0,54776 0,58706 0,62552 0,66276 0,69847 0,73237 0,76424 0,79389 0,82121 0,84614 0,86864 0,88877 0,90658 0,92220 0,93574 0,94738 0,95728 0,96562 0,97257 0,97831 0,98300 0,98679 0,98983 0,99224 0,99413 0,99560 0,99674 0,99760 0,99825 0,99874 0,99910 0,99936 0,99955 0,99969 0,99978 0,99985 0,99990 0,99993 0,99996 0,99997 0,03 0,51197 0,55172 0,59095 0,62930 0,66640 0,70194 0,73565 0,76730 0,79673 0,82381 0,84849 0,87076 0,89065 0,90824 0,92364 0,93699 0,94845 0,95818 0,96638 0,97320 0,97882 0,98341 0,98713 0,99010 0,99245 0,99430 0,99573 0,99683 0,99767 0,99831 0,99878 0,99913 0,99938 0,99957 0,99970 0,99979 0,99986 0,99990 0,99994 0,99996 0,99997 0,04 0,51595 0,55567 0,59483 0,63307 0,67003 0,70540 0,73891 0,77035 0,79955 0,82639 0,85083 0,87286 0,89251 0,90988 0,92507 0,93822 0,94950 0,95907 0,96712 0,97381 0,97932 0,98382 0,98745 0,99036 0,99266 0,99446 0,99585 0,99693 0,99774 0,99836 0,99882 0,99916 0,99940 0,99958 0,99971 0,99980 0,99986 0,99991 0,99994 0,99996 0,99997 0,05 0,51994 0,55962 0,59871 0,63683 0,67364 0,70884 0,74215 0,77337 0,80234 0,82894 0,85314 0,87493 0,89435 0,91149 0,92647 0,93943 0,95053 0,95994 0,96784 0,97441 0,97982 0,98422 0,98778 0,99061 0,99286 0,99461 0,99598 0,99702 0,99781 0,99841 0,99886 0,99918 0,99942 0,99960 0,99972 0,99981 0,99987 0,99991 0,99994 0,99996 0,99997 0,06 0,52392 0,56356 0,60257 0,64058 0,67724 0,71226 0,74537 0,77637 0,80511 0,83147 0,85543 0,87698 0,89617 0,91309 0,92785 0,94062 0,95154 0,96080 0,96856 0,97500 0,98030 0,98461 0,98809 0,99086 0,99305 0,99477 0,99609 0,99711 0,99788 0,99846 0,99889 0,99921 0,99944 0,99961 0,99973 0,99981 0,99987 0,99992 0,99994 0,99996 0,99998 0,07 0,52790 0,56749 0,60642 0,64431 0,68082 0,71566 0,74857 0,77935 0,80785 0,83398 0,85769 0,87900 0,89796 0,91466 0,92922 0,94179 0,95254 0,96164 0,96926 0,97558 0,98077 0,98500 0,98840 0,99111 0,99324 0,99492 0,99621 0,99720 0,99795 0,99851 0,99893 0,99924 0,99946 0,99962 0,99974 0,99982 0,99988 0,99992 0,99995 0,99996 0,99998 0,08 0,53188 0,57142 0,61026 0,64803 0,68439 0,71904 0,75175 0,78230 0,81057 0,83646 0,85993 0,88100 0,89973 0,91621 0,93056 0,94295 0,95352 0,96246 0,96995 0,97615 0,98124 0,98537 0,98870 0,99134 0,99343 0,99506 0,99632 0,99728 0,99801 0,99856 0,99896 0,99926 0,99948 0,99964 0,99975 0,99983 0,99988 0,99992 0,99995 0,99997 0,99998 0,09 0,53586 0,57535 0,61409 0,65173 0,68793 0,72240 0,75490 0,78524 0,81327 0,83891 0,86214 0,88298 0,90147 0,91774 0,93189 0,94408 0,95449 0,96327 0,97062 0,97670 0,98169 0,98574 0,98899 0,99158 0,99361 0,99520 0,99643 0,99736 0,99807 0,99861 0,99900 0,99929 0,99950 0,99965 0,99976 0,99983 0,99989 0,99992 0,99995 0,99997 0,99998 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución χ2ν por probabilidad acumulada según grados de libertad ν ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 45 50 55 60 65 70 75 80 85 90 95 100 0,001 0,00 0,00 0,02 0,09 0,21 0,38 0,60 0,86 1,15 1,48 1,83 2,21 2,62 3,04 3,48 3,94 4,42 4,91 5,41 5,92 6,45 6,98 7,53 8,09 8,65 9,22 9,80 10,39 10,99 11,59 17,92 21,25 24,67 28,17 31,74 35,36 39,04 42,76 46,52 50,32 54,16 58,02 61,92 0,005 0,00 0,01 0,07 0,21 0,41 0,68 0,99 1,34 1,74 2,16 2,60 3,07 3,57 4,08 4,60 5,14 5,70 6,27 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 20,71 24,31 27,99 31,74 35,53 39,38 43,28 47,21 51,17 55,17 59,20 63,25 67,33 0,01 0,00 0,02 0,12 0,30 0,55 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,02 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,57 14,26 14,95 22,16 25,90 29,71 33,57 37,49 41,44 45,44 49,48 53,54 57,63 61,75 65,90 70,07 0,025 0,00 0,05 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 24,43 28,37 32,36 36,40 40,48 44,60 48,76 52,94 57,15 61,39 65,65 69,93 74,22 Probabilidad acumulada 0,05 0,1 0,15 0,2 0,00 0,02 0,04 0,06 0,10 0,21 0,33 0,45 0,35 0,58 0,80 1,01 0,71 1,06 1,37 1,65 1,15 1,61 1,99 2,34 1,64 2,20 2,66 3,07 2,17 2,83 3,36 3,82 2,73 3,49 4,08 4,59 3,33 4,17 4,82 5,38 3,94 4,87 5,57 6,18 4,58 5,58 6,34 6,99 5,23 6,30 7,11 7,81 5,89 7,04 7,90 8,63 6,57 7,79 8,70 9,47 7,26 8,55 9,50 10,31 7,96 9,31 10,31 11,15 8,67 10,09 11,13 12,00 9,39 10,87 11,95 12,86 10,12 11,65 12,77 13,72 10,85 12,44 13,60 14,58 11,59 13,24 14,44 15,45 12,34 14,04 15,28 16,31 13,09 14,85 16,12 17,19 13,85 15,66 16,97 18,06 14,61 16,47 17,82 18,94 15,38 17,29 18,67 19,82 16,15 18,11 19,53 20,70 16,93 18,94 20,39 21,59 17,71 19,77 21,25 22,48 18,49 20,60 22,11 23,36 26,51 29,05 30,86 32,35 30,61 33,35 35,29 36,88 34,76 37,69 39,75 41,45 38,96 42,06 44,25 46,04 43,19 46,46 48,76 50,64 47,45 50,88 53,29 55,26 51,74 55,33 57,84 59,90 56,05 59,80 62,41 64,55 60,39 64,28 66,99 69,21 64,75 68,78 71,59 73,88 69,13 73,29 76,20 78,56 73,52 77,82 80,81 83,25 77,93 82,36 85,44 87,95 0,25 0,10 0,58 1,21 1,92 2,68 3,46 4,26 5,07 5,90 6,74 7,58 8,44 9,30 10,17 11,04 11,91 12,79 13,68 14,56 15,45 16,34 17,24 18,14 19,04 19,94 20,84 21,75 22,66 23,57 24,48 33,66 38,29 42,94 47,61 52,29 56,99 61,70 66,42 71,15 75,88 80,63 85,38 90,13 0,3 0,15 0,71 1,42 2,20 3,00 3,83 4,67 5,53 6,39 7,27 8,15 9,03 9,93 10,82 11,72 12,62 13,53 14,44 15,35 16,27 17,18 18,10 19,02 19,94 20,87 21,79 22,72 23,65 24,58 25,51 34,87 39,59 44,31 49,06 53,81 58,57 63,35 68,13 72,92 77,71 82,51 87,32 92,13 0,4 0,28 1,02 1,87 2,75 3,66 4,57 5,49 6,42 7,36 8,30 9,24 10,18 11,13 12,08 13,03 13,98 14,94 15,89 16,85 17,81 18,77 19,73 20,69 21,65 22,62 23,58 24,54 25,51 26,48 27,44 37,13 42,00 46,86 51,74 56,62 61,51 66,40 71,29 76,19 81,09 85,99 90,90 95,81 Apéndices - 179 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución χ2ν por probabilidad acumulada según grados de libertad ν (continuación) ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 45 50 55 60 65 70 75 80 85 90 95 100 0,5 0,46 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,34 21,34 22,34 23,34 24,34 25,34 26,34 27,34 28,34 29,34 39,34 44,34 49,34 54,34 59,34 64,34 69,33 74,33 79,33 84,33 89,33 94,33 99,33 0,6 0,71 1,83 2,95 4,05 5,13 6,21 7,28 8,35 9,41 10,47 11,53 12,58 13,64 14,69 15,73 16,78 17,82 18,87 19,91 20,95 21,99 23,03 24,07 25,11 26,14 27,18 28,21 29,25 30,28 31,32 41,62 46,76 51,89 57,02 62,14 67,25 72,36 77,46 82,57 87,67 92,76 97,86 102,95 180 - Apéndices 0,7 1,07 2,41 3,67 4,88 6,06 7,23 8,38 9,52 10,66 11,78 12,90 14,01 15,12 16,22 17,32 18,42 19,51 20,60 21,69 22,78 23,86 24,94 26,02 27,10 28,17 29,25 30,32 31,39 32,46 33,53 44,17 49,45 54,72 59,98 65,23 70,46 75,69 80,91 86,12 91,33 96,52 101,72 106,91 0,75 1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,22 11,39 12,55 13,70 14,85 15,98 17,12 18,25 19,37 20,49 21,61 22,72 23,83 24,94 26,04 27,14 28,24 29,34 30,44 31,53 32,62 33,71 34,80 45,62 50,99 56,33 61,67 66,98 72,29 77,58 82,86 88,13 93,39 98,65 103,90 109,14 Probabilidad acumulada 0,8 0,85 0,9 1,64 2,07 2,71 3,22 3,79 4,61 4,64 5,32 6,25 5,99 6,75 7,78 7,29 8,12 9,24 8,56 9,45 10,65 9,80 10,75 12,02 11,03 12,03 13,36 12,24 13,29 14,68 13,44 14,53 15,99 14,63 15,77 17,28 15,81 16,99 18,55 16,99 18,20 19,81 18,15 19,41 21,06 19,31 20,60 22,31 20,47 21,79 23,54 21,62 22,98 24,77 22,76 24,16 25,99 23,90 25,33 27,20 25,04 26,50 28,41 26,17 27,66 29,62 27,30 28,82 30,81 28,43 29,98 32,01 29,55 31,13 33,20 30,68 32,28 34,38 31,80 33,43 35,56 32,91 34,57 36,74 34,03 35,72 37,92 35,14 36,85 39,09 36,25 37,99 40,26 47,27 49,24 51,81 52,73 54,81 57,51 58,16 60,35 63,17 63,58 65,86 68,80 68,97 71,34 74,40 74,35 76,81 79,97 79,72 82,26 85,53 85,07 87,69 91,06 90,41 93,11 96,58 95,73 98,51 102,08 101,05 103,90 107,57 106,36 109,29 113,04 111,67 114,66 118,50 0,95 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,69 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 61,66 67,51 73,31 79,08 84,82 90,53 96,22 101,88 107,52 113,15 118,75 124,34 0,975 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,54 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,20 44,46 45,72 46,98 59,34 65,41 71,42 77,38 83,30 89,18 95,02 100,84 106,63 112,39 118,14 123,86 129,56 0,99 6,64 9,21 11,35 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 69,96 76,15 82,29 88,38 94,42 100,43 106,39 112,33 118,24 124,12 129,97 135,81 0,995 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,96 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 66,77 73,17 79,49 85,75 91,95 98,11 104,22 110,29 116,32 122,33 128,30 134,25 140,17 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución tν por probabilidad acumulada según grados de libertad ν ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 1000 ∞ 0,55 0,1584 0,1421 0,1366 0,1338 0,1322 0,1311 0,1303 0,1297 0,1293 0,1289 0,1286 0,1283 0,1281 0,1280 0,1278 0,1277 0,1276 0,1274 0,1274 0,1273 0,1272 0,1271 0,1271 0,1270 0,1269 0,1269 0,1268 0,1268 0,1268 0,1267 0,1265 0,1263 0,1262 0,1261 0,1261 0,1260 0,1260 0,1257 0,1257 0,6 0,3249 0,2887 0,2767 0,2707 0,2672 0,2648 0,2632 0,2619 0,2610 0,2602 0,2596 0,2590 0,2586 0,2582 0,2579 0,2576 0,2573 0,2571 0,2569 0,2567 0,2566 0,2564 0,2563 0,2562 0,2561 0,2560 0,2559 0,2558 0,2557 0,2556 0,2550 0,2547 0,2545 0,2543 0,2542 0,2541 0,2540 0,2534 0,2533 0,7 0,7265 0,6172 0,5844 0,5686 0,5594 0,5534 0,5491 0,5459 0,5435 0,5415 0,5399 0,5386 0,5375 0,5366 0,5357 0,5350 0,5344 0,5338 0,5333 0,5329 0,5325 0,5321 0,5317 0,5314 0,5312 0,5309 0,5306 0,5304 0,5302 0,5300 0,5286 0,5278 0,5272 0,5268 0,5265 0,5263 0,5261 0,5246 0,5244 0,75 1,0000 0,8165 0,7649 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,6998 0,6974 0,6955 0,6938 0,6924 0,6912 0,6901 0,6892 0,6884 0,6876 0,6870 0,6864 0,6858 0,6853 0,6848 0,6844 0,6840 0,6837 0,6834 0,6830 0,6828 0,6807 0,6794 0,6786 0,6780 0,6776 0,6772 0,6770 0,6747 0,6745 0,8 1,3764 1,0607 0,9785 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 0,8791 0,8755 0,8726 0,8702 0,8681 0,8662 0,8647 0,8633 0,8620 0,8610 0,8600 0,8591 0,8583 0,8575 0,8569 0,8562 0,8557 0,8551 0,8546 0,8542 0,8538 0,8507 0,8489 0,8477 0,8468 0,8461 0,8456 0,8452 0,8420 0,8416 0,85 1,9626 1,3862 1,2498 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,0931 1,0877 1,0832 1,0795 1,0763 1,0735 1,0711 1,0690 1,0672 1,0655 1,0640 1,0627 1,0614 1,0603 1,0593 1,0584 1,0575 1,0567 1,0560 1,0553 1,0547 1,0500 1,0473 1,0455 1,0442 1,0432 1,0424 1,0418 1,0370 1,0364 Probabilidad acumulada 0,9 0,95 0,975 3,0777 6,3138 12,7062 1,8856 2,9200 4,3027 1,6377 2,3534 3,1824 1,5332 2,1318 2,7764 1,4759 2,0150 2,5706 1,4398 1,9432 2,4469 1,4149 1,8946 2,3646 1,3968 1,8595 2,3060 1,3830 1,8331 2,2622 1,3722 1,8125 2,2281 1,3634 1,7959 2,2010 1,3562 1,7823 2,1788 1,3502 1,7709 2,1604 1,3450 1,7613 2,1448 1,3406 1,7531 2,1314 1,3368 1,7459 2,1199 1,3334 1,7396 2,1098 1,3304 1,7341 2,1009 1,3277 1,7291 2,0930 1,3253 1,7247 2,0860 1,3232 1,7207 2,0796 1,3212 1,7171 2,0739 1,3195 1,7139 2,0687 1,3178 1,7109 2,0639 1,3163 1,7081 2,0595 1,3150 1,7056 2,0555 1,3137 1,7033 2,0518 1,3125 1,7011 2,0484 1,3114 1,6991 2,0452 1,3104 1,6973 2,0423 1,3031 1,6839 2,0211 1,2987 1,6759 2,0086 1,2958 1,6706 2,0003 1,2938 1,6669 1,9944 1,2922 1,6641 1,9901 1,2910 1,6620 1,9867 1,2901 1,6602 1,9840 1,2824 1,6464 1,9623 1,2816 1,6449 1,9600 0,98 15,8945 4,8487 3,4819 2,9985 2,7565 2,6122 2,5168 2,4490 2,3984 2,3593 2,3281 2,3027 2,2816 2,2638 2,2485 2,2354 2,2238 2,2137 2,2047 2,1967 2,1894 2,1829 2,1770 2,1715 2,1666 2,1620 2,1578 2,1539 2,1503 2,1470 2,1229 2,1087 2,0994 2,0927 2,0878 2,0839 2,0809 2,0564 2,0538 0,99 31,8205 6,9646 4,5407 3,7469 3,3649 3,1427 2,9980 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4233 2,4033 2,3901 2,3808 2,3739 2,3685 2,3642 2,3301 2,3264 0,995 63,6567 9,9248 5,8409 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7969 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7045 2,6778 2,6603 2,6479 2,6387 2,6316 2,6259 2,5808 2,5758 0,9975 127,3213 14,0890 7,4533 5,5976 4,7733 4,3168 4,0293 3,8325 3,6897 3,5814 3,4966 3,4284 3,3725 3,3257 3,2860 3,2520 3,2224 3,1966 3,1737 3,1534 3,1352 3,1188 3,1040 3,0905 3,0782 3,0669 3,0565 3,0469 3,0380 3,0298 2,9712 2,9370 2,9146 2,8987 2,8870 2,8779 2,8707 2,8133 2,8070 0,999 318,3088 22,3271 10,2145 7,1732 5,8934 5,2076 4,7853 4,5008 4,2968 4,1437 4,0247 3,9296 3,8520 3,7874 3,7328 3,6862 3,6458 3,6105 3,5794 3,5518 3,5272 3,5050 3,4850 3,4668 3,4502 3,4350 3,4210 3,4082 3,3962 3,3852 3,3069 3,2614 3,2317 3,2108 3,1953 3,1833 3,1737 3,0984 3,0902 Apéndices - 181 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 182 - Apéndices APÉNDICE C TABLAS DE CONTRASTES DE HIPÓTESIS 183 Introducción a la Inferencia Estadı́stica 184 - Apéndices APÉNDICE D INTERVALOS DE CONFIANZA D.1. Intervalos de Confianza 100(1 − α) % 185 Introducción a la Inferencia Estadı́stica 186 - Apéndices APÉNDICE E ESTADÍSTICOS DE ORDEN E.1. Resultados Generales Los siguientes son resultados generales sobre los estadı́sticos de orden de una MA de X ∼ FX . Teorema E.1.1. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX . Entonces, para k = 1, 2, . . . , n n X n FX(k) (x) = [FX (x)]j [1 − FX (x)]n−j . j j=k Demostración. Para un valor de x fijo, defina Zi = I[Xi ≤x] . Por lo tanto, la variable aleatoria n X Z= Zi cuenta el número de Xi que son menores o iguales que x. i=1 La probabilidad de que Xi ≤ x es FX (x) ∀i. Por lo cual para i = 1, . . . , n, Zi ∼Bernoulli(FX (x)) y además son independientes entre sı́. Entonces Z ∼Binomial(n, FX (x)). Note que el suceso {X(k) ≤ x} se puede escribir como la unión de los siguiente sucesos disjuntos: X(k) ≤ x y X(k+1) > x. Por lo tanto las únicas observaciones menores que x son las k más chicas, lo que equivale a que Z = k. X(k+1) ≤ x y X(k+2) > x. Dado que X(k) ≤ X(k+1) , tenemos que X(k) ≤ x. Por lo tanto, las k + 1 observaciones más chicas son las únicas menores o iguales que x, lo que equivale a que Z = k + 1. 187 Introducción a la Inferencia Estadı́stica Extendemos el razonamiento para las estadı́sticas de orden k + 3 en adelante hasta llegar al último caso donde X(n) ≤ x. Dado que X(k) ≤ X(n) , tenemos que X(k) ≤ x. En este caso todas las observaciones son menores o iguales que x, lo que equivale a que Z = n. En consecuencia el evento {X(k) ≤ x} es equivalente al evento {Z ≥ k}. Por lo cual, FX(k) (x) = P(X(k) n X n ≤ x) = P(Z ≥ k) = [FX (x)]j [1 − FX (x)]n−j . j j=k Ejemplo E.1.1. Si verificamos los resultados hallados en las ecuaciones (2.2) y (2.3), tenemos que FX(n) (x) = n X n j=n j [FX (x)]j [1 − FX (x)]n−j = [FX (x)]n y n X n FX(1) (x) = [FX (x)]j [1 − FX (x)]n−j = 1 − [1 − FX (x)]n j j=1 En el caso que X sea una variable aleatoria absolutamente continua, podemos encontrar la función de densidad de X(i) derivando su función de distribución. Una fórmula general se puede obtener usando el teorema siguiente. Teorema E.1.2. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX una variable aleatoria absolutamente continua. Entonces, para k = 1, 2, . . . , n fX(k) (x) = n! [FX (x)]k−1 [1 − FX (x)]n−k fX (x). (k − 1)!(n − k)! Demostración. De aplicar la definición de derivada y propiedades de la función de distribución FX(k) (x + ∆x) − FX(k) (x) P(x < X(k) ≤ x + ∆x) = lı́m . ∆x→0 ∆x→0 ∆x ∆x fX(k) (x) = lı́m 188 - Apéndices Introducción a la Inferencia Estadı́stica Dado que ∆x se puede elegir tan chico como queramos, lo tomamos lo suficientemente pequeño para que solo la k-ésima estadı́stica de orden ocurra en el intervalo (x, x+∆x). Con esto, quedarán k − 1 estadı́sticas de orden por debajo de x y n − k estadı́sticas de orden por encima de x + ∆x. Entonces, P(x < X(k) ≤ x + ∆x) = P(k − 1 obs ≤ x; 1 obs ∈ (x, x + ∆x]; n − k obs > x + ∆x) = P(Z1 = k − 1, Z2 = 1, Z3 = n − k). Donde Z1 = número de observaciones menores o iguales que x, Z2 = número de observaciones en (x, x + ∆x) y Z3 = número de observaciones mayores que x + ∆x. Note lo siguiente: Z1 + Z2 + Z3 = n; Zj ∈ {0, 1, . . . , n}, j = 1, 2, 3. Al trabajar con una MA, que Xi caiga en alguna de las tres clases: “por debajo de x”, “en (x, x + ∆x]” o “por encima de x + ∆x” es independiente de lo que pase con cualquier otra observación Xj , i, j = 1, 2, . . . , n, i 6= j. Al ser las observaciones idénticamente distribuidas, cada observación cae en cada clase con probabilidad FX (x), FX (x + ∆x) − FX (x) y 1 − FX (x + ∆ x) respectivamente. Por lo tanto, (Z1 , Z2 , Z3 ) ∼ Multinomial(n, FX (x), FX (x + ∆x) − FX (x), 1 − FX (x + ∆ x)). y P(Z1 = k−1, Z2 = 1, Z3 = n−k) = n! (FX (x))k−1 (FX (x+∆x)−FX (x)) (1−FX (x+∆x))n−k (k − 1)!1!(n − k)! Ahora, fX(k) (x) = lı́m n! (FX (x))k−1 (k−1)!(n−k)! (FX (x + ∆x) − FX (x)) (1 − FX (x + ∆x))n−k ∆x n! (F (x + ∆x) − FX (x)) (1 − FX (x + ∆x))n−k X = (FX (x))k−1 lı́m ∆x→0 (k − 1)!(n − k)! ∆x : fX (x) FX (x) :n−k n! (F (x + ∆x) − F (x)) X X = (FX (x))k−1 lı́m (1 − F (x + ∆x)) X ∆x ∆x→0 (k − 1)!(n − k)! ∆x→0 = n! (FX (x))k−1 (1 − FX (x))n−k fX (x). (k − 1)!(n − k)! Ejemplo E.1.2. Si k = n tenemos que fX(n) (x) = n! (FX (x))n−1 (1 − FX (x))n−n fX (x) = n(FX (x))n−1 fX (x) (n − 1)!(n − n)! Apéndices - 189 Introducción a la Inferencia Estadı́stica y si k = 1 n! (FX (x))1−1 (1 − FX (x))n−1 fX (x) = n(1 − FX (x))n−1 fX (x). (1 − 1)!(n − 1)! fX(1) (x) = E.2. Distribuciones conjuntas Con el mismo razonamiento que en la demostración del teorema anterior se pueden deducir las distribuciones conjuntas de dos o más estadı́sticas de orden. Teorema E.2.1. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. Para k ∈ {1, 2, . . . , n}, j ∈ {1, 2, . . . , n}, k < j, fX(k) ,X(j) (x, y) = n! (FX (x))(k−1) (FX (y)−FX (x))(j−k−1) (1−FX (y))n−j fX (x)fX (y). (k − 1)!(j − k − 1)!(n − j)! Ejemplo E.2.1. Para k = 1 y j = n tenemos que fX(1) ,X(n) (x, y) = n(n − 1)(FX (y) − FX (x))(n−2) fX (x)fX (y)I[x<y] . (E.1) Teorema E.2.2. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. Sean X(1) ≤ X(2) ≤ . . . ≤ X(n) las correspondientes estadı́sticas de orden. Entonces, fX(1) ,...,X(n) (x(1) , . . . , x(n) ) = n! n Y fX (x(i) )I[x(1) <...<x(n) ] . i=1 Ejemplo E.2.2. Sea X1 , X2 , X3 una MA de X ∼Uniforme(0,1). Entonces: fX(1) ,X(2) ,X(3) (x, y, z) = 6I[0<x<y<z<1] . Por lo tanto, Z 1 fX(1) ,X(2) (x, y) = 6 dz = 6(1 − y)I[0<x<y<1] . (E.2) 6 dy = 6(z − x)I[0<x<z<1] . (E.3) 6 dx = 6yI[0<y<z<1] . (E.4) y Z z fX(1) ,X(3) (x, z) = x Z fX(2) ,X(3) (y, z) = y 0 Usando (E.2) hallamos que Z fX(1) (x) = x 190 - Apéndices 1 6(1 − y) dy = 6(1 − x)2 I[0<x<1] Introducción a la Inferencia Estadı́stica y que y Z 6(1 − y) dx = 6y(1 − y)I[0<y<1] . fX(2) (y) = 0 De manera similar, usando (E.3) tenemos que Z 1 fX(1) (x) = 6(z − x) dz = 6(1 − x)2 I[0<x<1] x y que z Z 6(z − x) dx = 3z 2 I[0<z<1] . fX(3) (z) = 0 Integrando en (E.4) devuelve Z 1 6y dz = 6y(1 − y)I[0<y<1] fX(2) (y) = y y Z fX(3) (z) = z 6y dy = 3z 2 I[0<z<1] . 0 E.3. Funciones de los estadı́sticos de orden La distribución de funciones de las estadı́sticas de orden se consigue utilizando teoremas de transformaciones de variables aleatorias. A modo de ejemplo, encontremos la distribución del rango muestral definido como Rn = X(n) − X(1) . (E.5) El rango contiene información acerca de la dispersión de la distribución de X. Para hallar su distribución usamos, fX(1) ,X(n) (x, y) dada por (E.1) y hacemos uso de una variable aleatoria auxiliar U = X(1) para completar la transformación y encontrar una expresión para fRn ,U (r, u), la cual después integraremos con respecto a u para obtener la distribución marginal de fRn (r). Teorema E.3.1. Sea x1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. La distribución del rango, definido en (E.5), está dada por Z ∞ fRn (r) = n(n − 1) (FX (u + r) − F (u))n−2 fX (u + r)fX (u) du −∞ para r > 0. Ejemplo E.3.1. Sea X1 , . . . , Xn una MA de X ∼Uniforme(0,1). Entonces: Z 1−r fRn (r) = n(n − 1) (u + r − u)n−2 du = n(n − 1)rn−2 (1 − r)I[0<r<1] 0 Apéndices - 191 Introducción a la Inferencia Estadı́stica Ejemplo E.3.2. Sea X1 , . . . , Xn una MA de X ∼Exp(1). Deseamos hallar fX(1) ,X(n) (x, y) y fRn (r). 1 - Para 0 < x < y, n−2 −x −y fX(1) ,X(n) (x, y) = n(n − 1) 1 − e−y − (1 − e−x ) e e n−2 −x −y e e . = n(n − 1) e−x − e−y 2 - Usando el teorema E.3.1 tenemos que para r > 0 Z ∞ n−2 −(2u+r) e du fRn (r) = n(n − 1) e−u − e−(u+r) 0 Z ∞ n−2 −(2u+r) e du e−u(n−2) 1 − e−r = n(n − 1) 0 Z ∞ n−2 −r e−nu du = n(n − 1) 1 − e−r e 0 −r n−2 −r = (n − 1) 1 − e e 192 - Apéndices APÉNDICE F COLECCIONES DE FAMILIAS Siempre respetando el concepto de familia, podemos también definir colecciones más grandes donde agruparemos familias de distribuciones que compartan las mismas propiedades, estructura funcional, etc. Los dos casos que mencionaremos son la familia exponencial y la familia de posiciónescala. F.1. Familia Exponencial Una familia de distribuciones de gran importancia es la llamada familia exponencial. Una familia exponencial posee propiedades algebraicas deseables y un gran número de propiedades que la hacen de gran importancia para el análisis estadı́stico. Algunas de estas propiedades, salvo en casos excepcionales, son únicas de la familia exponencial. Definición F.1.1. Una familia de distribuciones se dice que es una familia exponencial de k parámetros si su función de densidad o cuantı́a se puede escribir de la siguiente manera ( k ) X fX (x|θ) = h(x)c(θ) exp wi (θ)ti (x) θ ∈ Θ ⊂ Rk . (F.1) i=1 Donde h y ti (x), i = 1, . . . , k, son funciones que dependen solamente de x; c(θ) y wi (θ), i = 1, . . . , k, son funciones que dependen solamente de θ. Observación F.1.1. La parametrización no es única dado que al multiplicar y dividir por una constante obtenemos una nueva parametrización. Por ejemplo, wi (θ)ti (x) = wi∗ (θ)t∗i (x) donde wi∗ (θ) = 193 wi (θ) y t∗i (x) = ati (x), a ∈ R a Introducción a la Inferencia Estadı́stica Observación F.1.2. Cuando el recorrido de la variable aleatoria depende del parámetro no existe la descomposición especificada en la ecuación F.1. Por lo cual, estas familias de distribuciones no son familias exponenciales. En el caso de que el recorrido no dependa de θ no es necesario explicitarlo y se asumirá de manera tácita que es parte de h(x). Ejemplo F.1.1. X ∼ Binomial(n, θ), asumimos n conocido. Θ = (0, 1). x n x n θ n−x fX (x|θ) = θ (1 − θ) Ix∈{0,1,...,n} = (1 − θ)n x x 1−θ n θ n = (1 − θ) exp x log . x 1−θ n θ Entonces, h(x) = , c(θ) = (1 − θ)n , w(θ) = log y t(x) = x. Por lo cual, la x 1−θ familia binomial es una familia exponencial de un parámetro. n Si se explicita el recorrido de la variable aleatoria X, h(x) = I[x∈{0,1,...,n}] x Ejemplo F.1.2. X ∼ Normal(µ, σ 2 ), θ = (µ, σ 2 ) desconocida. 1 1 2 fx (x|θ) = √ exp − 2 (x − µ) 2σ 2πσ 2 1 1 2 2 =√ exp − 2 (x − 2xµ + µ ) 2σ 2πσ 2 1 µ2 µ 1 2 =√ exp − 2 exp − 2 x + 2 x 2σ 2σ σ 2πσ 2 µ2 1 En este caso k = 2. Tomamos, h(x) = 1, c(θ) = √ exp − 2 , w1 (θ) = − 2 , 2σ 2σ 2πσ 2 µ 2 w2 (θ) = 2 , t1 (x) = x y t2 (x) = x. Por lo cual la familia de distribuciones normaσ les con media y varianza desconocida es una familia exponencial de dos parámetros. 1 Ejemplo F.1.3. X ∼ fX (x|θ) donde con θ = (γ, λ) ∈ R+2 λ γx γx fX (x|θ) = λe exp − (e − 1) I[x>0] γ Si γ es conocida, θ = λ λ h(x) = eγx I[x>0] , c(λ) = λe γ , w(λ) = −λ y t(x) = eγx . γ Por lo cual, la familia de distribuciones que tienen a fX como densidad común es una familia exponencial de un parámetro. 194 - Apéndices Introducción a la Inferencia Estadı́stica λ γx e no puede ser factorizado de la forma w(θ)t(x). Por lo γ cual, la familia de distribuciones que tienen a fX como densidad común no es una familia exponencial. Si γ es desconocida, F.1.1. Forma canónica Para una familia exponencial se puede utilizar la siguiente reparametrización alternativa ( k ) X fX (x|η) = h(x) exp ηi ti (x) − a(η) . (F.2) i=1 Note que la relación entre esta representación y la dada por (F.1) es: ηi = wi (θ), i = 1, . . . , k, η = (η1 , . . . , ηk ) y a(η) = − log(c(θ))1 . A esta representación se le llama la forma canónica o natural y η es el parámetro natural de la distribución. Observación F.1.3. Note que si usamos la representación (F.2) de fX , tenemos que ( k ) Z ∞ X h(x) exp ηi ti (x) − a(η) dx = 1 −∞ i=1 Por lo cual, ea(η) = Z ∞ h(x) exp −∞ ( k X ) ηi ti (x) dx. i=1 Lo que nos permite afirmar que el conjunto H = {η : a(η) < ∞} no es vacı́o. Definición F.1.2. Al conjunto H = {η = (η1 , . . . , ηk ) : a(η) < ∞} se le llama espacio paramétrico natural. Si H es un conjunto abierto de Rk diremos que la familia exponencial es regular. Cuando una familia exponencial no es regular se dice que es curva. Ejemplo F.1.4. (Continuación del ejemplo F.1.1) n θ n θ n fX (x|θ) = (1 − θ) exp x log = exp x log + n log(1 − θ) x 1−θ x 1−θ η = w(θ) = log θ eη θ ⇒ eη = ⇒ θ= . 1−θ 1−θ 1 + eη Con lo cual, a(η) = −n log(1 − θ) = n log(eη + 1). 1 A lo largo de todas estas notas, log x representa el logaritmo neperiano de x. Apéndices - 195 Introducción a la Inferencia Estadı́stica Note que eη + 1 > 0 ∀η ∈ R, por lo tanto a(η) < ∞ ⇒ H = R. Por lo cual la familia Binomial es una familia exponencial regular. Ejemplo F.1.5. (Continuación del ejemplo F.1.3, con γ conocido) Bajo la nueva reparametrización, λ eγx + log λ + fx (x|θ) = e I[x>0] exp −λ γ γ λ η η = −λ, a(η) = − log λ + = − log(−η) − γ γ η Note que, γ > 0 implica que < ∞ ∀η y que ∀η ∈ R− , log(−η) < ∞. Lo que implica γ que H = R− . γx Teorema F.1.1. Sea una familia exponencial regular de un parámetro. Entonces, d Eη (t(X)) = a(η) dη d2 Varη (t(X)) = 2 a(η). dη y Demostración. Observe que Z E(t(X)) = Z t(x)fX~ (x|θ)dx = Rec(X) t(x)h(x)eηt(x)−a(η) dx. Rec(X) y que d d a(η) = log dη dη Z h(x)e ηt(x) 1 h(x)eηt(x) dx Z dx = Rec(X) = R Rec(X) R Z 1 h(x)eηt(x) dx ∂ h(x)eηt(x) dx ∂η Rec(X) Rec(X) t(x)h(x)eηt(x) dx = Rec(X) Z t(x)h(x)eηt(x)−a(η) dx. Rec(X) Para calcular la varianza, defina Ψ(η) = ea(η) y observe que 0 2 d2 Ψ00 (η) Ψ (η) log Ψ(η) = − . 2 dη Ψ(η) Ψ(η) Intercambiando el signo de derivada con el de integral, tenemos que Z Z Ψ00 (η) 00 2 ηt(x) ~ Ψ (η) = t (x)h(x)e dx =⇒ = t2 (x)h(x)eηt(x)−a(η) dx = E(t2 (X)). Ψ(η) Rec(X) Rec(X) Por lo cual, d2 ~ − E(t(X))2 = Var(t(X)). a(η) = E(t2 (X)) dη 2 196 - Apéndices Introducción a la Inferencia Estadı́stica Ejemplo F.1.6. (Continuación del ejemplo F.1.4). a(η) = n log(eη + 1), t(x) = x ⇒ E(t(X)) = E(X) = Var(X) = d eη a(η) = n = nθ. dη 1 + eη eη (eη + 1) − eη eη 1 eη eη d2 a(η) = n = nθ(1−θ). = n = n 2 η 2 η 2 η η dη (e + 1) (e + 1) (e + 1) (e + 1) x x2 Ejemplo F.1.7. Para θ > 0, fX (x|θ) = 2 exp − 2 I[x>0] . θ 2θ 1 fX (x|θ) = xI[x>0] exp − 2 x2 − log θ2 2θ ⇒ η=− 1 , t(x) = x2 y a(η) = − log(−2η). 2θ2 Por lo tanto, H = R− , lo que implica que la familia de distribuciones que tienen como densidad común a fX es una familia exponencial regular. En consecuencia, E(X 2 ) = d 2 1 a(η) = − = − = 2θ2 dη 2η η Var(X 2 ) = 1 d2 a(η) = 2 = 4θ4 . 2 dη η F.2. Familias de posición y escala Otras familias de distribuciones que juegan un papel importante en inferencia son las familias de posición y escala. Definición F.2.1. Una variable aleatoria X se dice que pertenece a una familia de posición y escala si su función de distribución es una función solo de (x − a)/b, x−a FX (x|a, b) = F a ∈ R, b > 0. b donde F es una función de distribución libre de todo parámetro. Al parámetro (a, b) se le llama el parámetro de posición (a) y escala (b). En el caso de que b = 1 estamos frente a una subfamilia, la familia de posición de parámetro a. En el caso de que a = 0, estamos frente a otra subfamilia, la familia de escala de parámetro b. Apéndices - 197 Introducción a la Inferencia Estadı́stica Definición F.2.2. Si la variable aleatoria X pertenece a una familia de posición y escala, a la X −a variable aletoria Y = se le llama la variable reducida. b Observación F.2.1. La variable reducida tiene a = 0 y b = 1. A su función de distribución FY (y) se le llama la función de distribución reducida. Observación F.2.2. El parámetro de posición es una medida de tendencia central (esperanza, mediana, modo) de una distribución o un parámetro de umbral. Ejemplo F.2.1. Distribución N(a, b) ( 2 ) 1 1 x−a fX (x|a, b) = √ a ∈ R, b > 0. exp − 2 b 2πb a es la esperanza, la mediana y el modo. Ejemplo F.2.2. Distribución Cauchy(a, b) ( fX (x|a, b) = " πb 1 + x−a b 2 #)−1 a ∈ R, b > 0 a es la mediana y el modo. En este caso no existe la esperanza. Ejemplo F.2.3. ( " fX (x|a, b) = exp πb 1 + x−a b 2 #) a ∈ R, b > 0 a es el modo. Ejemplo F.2.4. 1 fX (x|a, b) = I[a≤x≤a+b] a ∈ R, b > 0 b a es el umbral inferior de la distribución. 198 - Apéndices Introducción a la Inferencia Estadı́stica Ejemplo F.2.5. 1 a−x fX (x|a, b) = exp − x ≤ a ∈ R, b > 0 b b a es el umbral superior de la distribución. En todos los ejemplos anteriores, b es el parámetro de escala. Es el responsable por la dispersión de la variable aleatoria X. b puede ser 1 - el desvı́o tı́pico. Ejemplos (F.2.1) y (F.2.5). 2 - Proporcional al desvı́o. Ejemplo (F.2.3). En este ejemplo, 2b es el recorrido intercuartı́lico. 3 - La amplitud del recorrido, el rango. Ejemplo (F.2.4). Proposición F.2.1. Sea X ∼ fX (x|a, b) una familia de posición y escala absolutamente continua de parámetro (a, b). Sea Y la forma reducida de X, entonces 1 x−a fX (x) = fY . b b Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Apéndices - 199 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 200 - Apéndices