Inferencia Estadística: Introducción y Métodos

Introducción a la Inferencia Estadı́stica Material Teórico Facultad de Ciencias Económicas y de Administración Universidad de la República ÍNDICE GENERAL 1. Resultados preliminares 1.1. Introducción . . . . . . . . 1.2. Algunas definiciones . . . 1.3. Transformaciones . . . . . 1.3.1. Variables aleatorias 1.3.2. Variables aleatorias 1.3.3. Vectores aleatorios 1.4. Familias de distribuciones 1.4.1. Distribución χ2n . . 1.4.2. Distribución tn . . 1.4.3. Distribución Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . discretas . . . . . . . . . absolutamente continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Muestreo 2.1. Introducción . . . . . . . . . . . . . . . . . . 2.2. Muestreo . . . . . . . . . . . . . . . . . . . . 2.3. Estadı́sticos y su distribución en el muestreo 2.3.1. Distribución en el muestreo . . . . . 2.4. Muestreo de poblaciones normales . . . . . . 2.5. Estadı́sticos de Orden . . . . . . . . . . . . . 2.5.1. Distribuciones marginales . . . . . . 3. Inferencia Bayesiana 3.1. Introducción . . . . . . . . . . . . . . . . . . 3.2. Distribuciones a priori y a posteriori . . . . 3.2.1. Distribución a priori . . . . . . . . . 3.2.2. Función de verosimilitud . . . . . . . 3.2.3. Distribución a posteriori . . . . . . . 3.3. Suficiencia . . . . . . . . . . . . . . . . . . . 3.3.1. Estadı́stico suficiente . . . . . . . . . 3.3.2. Cálculo de la distribución a posteriori 3.4. Selección de una distribución a priori . . . . 3.5. Métodos de Inferencia Bayesiana . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 4 6 6 8 10 . . . . . . . 13 13 14 16 17 20 23 23 . . . . . . . . . . 27 27 28 28 29 29 30 31 36 39 41 Introducción a la Inferencia Estadı́stica 3.5.1. Estimación por intervalos: Intervalos de 3.5.2. Estimación puntual . . . . . . . . . . . 3.5.3. Prueba de Hipótesis . . . . . . . . . . 3.5.4. Contraste de hipótesis . . . . . . . . . 3.6. Selección de Modelos . . . . . . . . . . . . . . 3.7. Modelos multiparámetro . . . . . . . . . . . . 4. Estimación Puntual 4.1. Introducción . . . . . . . . . . . . . . . 4.2. Métodos para construir estimadores . . 4.2.1. Método de los Momentos . . . . 4.2.2. Función de verosimilitud . . . . 4.2.3. Estimadores máximo verosimiles 4.3. Evaluación de Estimadores . . . . . . . 4.3.1. Información de Fisher . . . . . 4.3.2. Error Cuadrático Medio . . . . 4.3.3. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . credibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 45 45 47 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 52 52 54 56 62 63 69 73 . . . . . . 79 79 79 81 82 82 85 . . . . . . . . . 5. Estimación por Intervalos 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . 5.2. Intervalos de confianza . . . . . . . . . . . . . . . 5.2.1. Interpretación del coeficiente de confianza 5.3. Construcción de estimadores por intervalo . . . . 5.3.1. Cantidades pivotales . . . . . . . . . . . . 5.4. Optimalidad . . . . . . . . . . . . . . . . . . . . . 6. Contraste de Hipótesis 6.1. Introducción . . . . . . . . . . . . . . . . . . . . 6.2. Contraste de hipótesis . . . . . . . . . . . . . . 6.2.1. Hipótesis simple contra hipótesis simple . 6.2.2. Hipótesis compuestas . . . . . . . . . . . 6.2.3. No existencia del la RC UMP . . . . . . 6.3. Contraste de razón de verosimilitudes . . . . . . 6.4. Valor p . . . . . . . . . . . . . . . . . . . . . . . 6.5. Construcción de estimadores por intervalo . . . 6.5.1. Inversión de una RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 89 90 94 99 104 105 113 117 117 7. Inferencia en muestras grandes 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . 7.3. Convergencia en media cuadrática . . . . . . . . . . . . . . . . . . 7.4. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . 7.5. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . 7.5.1. El método delta . . . . . . . . . . . . . . . . . . . . . . . . 7.6. Contrastes e intervalos de confianza asintóticos basados en el TLC 7.6.1. Valor esperado de una v.a. . . . . . . . . . . . . . . . . . . 7.7. Constrastes basados en la función de verosimilitud . . . . . . . . . 7.7.1. Contraste de Wilks . . . . . . . . . . . . . . . . . . . . . . 7.7.2. Contraste de Wald . . . . . . . . . . . . . . . . . . . . . . 7.7.3. Contraste de Rao o de los multiplicadores de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 121 122 126 127 131 132 133 133 134 134 136 137 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción a la Inferencia Estadı́stica 7.8. Contrastes de independencia y bondad de ajuste . . . . . . . . . . . . . . . . . . . 140 7.8.1. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . 140 7.8.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8. Muestreo de Poblaciones Finitas 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Probabilidades de inclusión . . . . . . . . . . . . . . . . . . . 8.3. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . 8.3.1. Estimación del total poblacional . . . . . . . . . . . . . 8.3.2. Estimación de la media poblacional . . . . . . . . . . . 8.3.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . 8.4. Aplicación a algunos diseños de muestreo directo de elementos 8.4.1. Diseño Simple . . . . . . . . . . . . . . . . . . . . . . . 8.4.2. Diseño Estratificado . . . . . . . . . . . . . . . . . . . 8.4.3. Diseño Bernoulli . . . . . . . . . . . . . . . . . . . . . 8.4.4. Diseño Sistemático . . . . . . . . . . . . . . . . . . . . 8.5. Comentarios sobre diseños de muestreo indirecto de elementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 145 146 148 148 149 150 150 150 152 155 156 158 A. Modelos de probabilidad A.1. Modelos Univariados Discretos . . . . . . . . . . . Uniforme Discreta . . . . . . . . . . . . . . . . . Bernoulli . . . . . . . . . . . . . . . . . . . . . . Binomial . . . . . . . . . . . . . . . . . . . . . . . Geométrica . . . . . . . . . . . . . . . . . . . . . Binomial Negativa . . . . . . . . . . . . . . . . . Hipergeométrica . . . . . . . . . . . . . . . . . . Poisson . . . . . . . . . . . . . . . . . . . . . . . A.2. Modelos Univariados Absolutamente Continuos . Uniforme . . . . . . . . . . . . . . . . . . . . . . Triangular . . . . . . . . . . . . . . . . . . . . . . Exponencial . . . . . . . . . . . . . . . . . . . . . Doble Exponencial . . . . . . . . . . . . . . . . . Gamma . . . . . . . . . . . . . . . . . . . . . . . Logı́stica . . . . . . . . . . . . . . . . . . . . . . . Beta . . . . . . . . . . . . . . . . . . . . . . . . . Cauchy . . . . . . . . . . . . . . . . . . . . . . . Normal . . . . . . . . . . . . . . . . . . . . . . . Lognormal . . . . . . . . . . . . . . . . . . . . . . t de Student . . . . . . . . . . . . . . . . . . . . . F de Snedecor . . . . . . . . . . . . . . . . . . . Weibull . . . . . . . . . . . . . . . . . . . . . . . Pareto . . . . . . . . . . . . . . . . . . . . . . . . A.3. Modelos Multivariados Discretos . . . . . . . . . . Multinomial . . . . . . . . . . . . . . . . . . . . . Multihipergeométrica . . . . . . . . . . . . . . . . A.4. Modelos Multivariados Absolutamente Continuos Normal Multivariada . . . . . . . . . . . . . . . . A.5. Relaciones entre distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 161 161 162 162 162 162 163 164 164 164 164 165 165 166 166 166 167 168 168 168 169 169 170 170 170 171 171 172 173 B. Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 C. Tablas de contrastes de hipótesis 183 D. Intervalos de Confianza 185 D.1. Intervalos de Confianza 100(1 − α) % . . . . . . . . . . . . . . . . . . . . . . . . . 185 E. Estadı́sticos de orden 187 E.1. Resultados Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 E.2. Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 E.3. Funciones de los estadı́sticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . 191 F. Colecciones de familias F.1. Familia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F.1.1. Forma canónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F.2. Familias de posición y escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 193 195 197 Introducción a la Inferencia Estadı́stica 2 - Resultados preliminares CAPÍTULO 1 RESULTADOS PRELIMINARES 1.1. Introducción El propósito de este capı́tulo introductorio es establecer ciertas notaciones y terminologı́as que usaremos a lo largo de las notas y presentar diversos resultados que serán necesarios más tarde. El estilo de este capı́tulo es deliberadamente esquemático, dado que está concebido más como una referencia que como una exposición sistemática. 1.2. Algunas definiciones Definición 1.2.1. La función indicatriz del conjunto A se define como ( 1 si x ∈ A I[x∈A] = 0 si x ∈ /A Usaremos la función indicatriz para indicar dónde la función de densidad o cuantı́a es positiva o igual a 0. Por lo tanto, escribiremos a las cuantı́as o densidades de la forma fX (x) = g(x)I[x∈Rec(X)] . En el caso de que Rec(X) = R, tenemos que I[x∈R] ≡ 1 ∀x ∈ R. En este caso omitiremos la indicatriz. Ejemplo 1.2.1. Si X ∼ Exponencial(θ), de E(X)=θ, su función de densidad puede ser escrita de la forma   1 e− xθ si x > 0 1 x o de la forma más sintética fX (x) = e− θ I[x>0] . fX (x) = θ 0 θ en otro caso 1 Introducción a la Inferencia Estadı́stica Definición 1.2.2. Si X es una variable aleatoria, denotaremos con xα el percentil α de la distribución de X. Esto es P(X < xα ) = α. Por ejemplo, si Z ∼ N(0, 1), z0,95 = 1, 645 dado que P(Z < 1, 645) = 0, 95. Definición 1.2.3. Dada una función de cuantı́a o densidad fX (x) se le llama núcleo de fX a la parte de la forma funcional en donde aparece la variable x. Esto es, g : R → R es el núcleo de la distribución si fX (x) = c g(x) donde c una constante. c es la constante de normalización y puede llegar a depender de los parámetros de la distribución. En muchas situaciones conocer el valor de c es innecesario. Ejemplo 1.2.2. Si X ∼ Gamma(α, β), α fX (x) = β xα−1 e−βx I[x>0] ⇒ Γ(α) c = βα Γ(α) g(x) = xα−1 e−βx I[x>0] . Por lo cual, el núcleo de la distribución Gamma es g(x) = xα−1 e−βx I[x>0] . Observación 1.2.1. Decimos que fX (x) es proporcional a su núcleo. Notación: fX (x) ∝ g(x). Observación 1.2.2. En estas notas representaremos con c cualquier función que sea constante. 1.3. 1.3.1. Transformaciones Variables aleatorias discretas Teorema 1.3.1. Sea (Ω, A, P ) un espacio de probabilidad, X una variable aleatoria discreta y g : Rec(X) → D ⊆ R una transformación medible. Entonces, Y = g(X) es también una variable aleatoria discreta con función de cuantı́a: fY (y) = X fX (x) ∀ y ∈ Rec(Y ) x∈g −1 (y) donde g −1 (y) = {x ∈ Rec(X) : g(x) = y}. 2 - Resultados preliminares Introducción a la Inferencia Estadı́stica 1.3.2. Variables aleatorias absolutamente continuas Teorema 1.3.2. Sea X una variable absolutamente continua y Y = g(X), con g medible, entonces: Y = g(X) es una variable aleatoria Z FY (y) = fX (x)dx {g(x)≤y} Teorema 1.3.3. Sea X una variable absolutamente continua y Y = g(X), con g medible y estrictamente monótona, entonces: FX (g −1 (y)) si g es creciente FY (y) = 1 − FX (g −1 (y)) si g es decreciente fY (y) = fX (g −1 (y)) ∂g −1 (y) ∂y Teorema 1.3.4. Sea X una variable absolutamente continua tal que Rec(X) ⊆ A y Y = g(X) con g : A → D ⊆ R medible. Supongamos que existe una partición de Rec(X), denotada por A1 , . . . , An donde la restricción de g en cada Ai , gi , es una función estrictamente monótona (creciente o decreciente) y su inversa gi−1 tiene derivada continua en todo el Rec(Y ) (salvo en un conjunto finito o numerable de puntos). Entonces: fY (y) = n X i=1 ∂gi−1 (y) fX gi−1 (y) ∂y ∀y ∈ R. Note que la cantidad de sumandos es variable. Por ejemplo, si existe g −1 (y) para toda i = 1, . . . , n, la suma tendrá n sumandos. Si no existe g −1 (y) para ninguna i = 1, . . . , n, la suma tendrá 0. Ejemplo 1.3.1. Sea X una v.a. con función de densidad dada por 1 2 fX (x) = √ e−x /2 2π x∈R Se quiere hallar la función de densidad de la v.a. Y = X 2 . En primer lugar observemos que g no es monótona en todo el recorrido de X pero si lo dividimos en R+ y R− obtenemos una partición en la que g es monótona en cada √ √ tramo. Para R+ tenemos que g1−1 (y) = y y para R− tenemos que g1−1 (y) = − y, ambas con derivada continua en sus respectivos dominios salvo en 0. Cómo a los efectos de la integración no importa lo que ocurra con una función en un punto, se impone fY (0) = 0. Entonces:  ∂ √ ∂ √ √ √   y + fX (− y) − y  fX ( y) ∂y ∂y fY (y) =    0 y ∈ (0, +∞) en otro caso Resultados preliminares - 3 Introducción a la Inferencia Estadı́stica ⇔ ⇔ 1.3.3.  1 −y/2 1 1 1   √ + √ e−y/2 − √  √ e 2 y 2 y 2π 2π fY (y) =    0 y ∈ (0, +∞) en otro caso  1 −y/2 1   √ y ∈ (0, +∞)  √ e 1 1 y 2π , ⇒ Y ∼ Gamma fY (y) =  2 2   0 en otro caso Vectores aleatorios ~ : Ω → Rn un vector aleatorio para (Ω, A, P ). Teorema 1.3.5. Sea X Sea g : Rn → Rm una transformación medible. ~ : Ω → Rm verifica: Entonces el vector aleatorio Y~ = g ◦ X ~ . 1. Rec(Y~ ) = g Rec(X) 2. ∀B ∈ Bm PY~ (B) = PX~ g −1 (B) . 3. ∀y ∈ Rm FY~ (y) = PX~ g −1 ((−∞, y1 ] × . . . × (−∞, yn ]) . ~ : Ω → Rn un vector aleatorio discreto con función de cuantı́a f ~ . Teorema 1.3.6. Sea X X Sea g : Rn → Rm una transformación medible. ~ : Ω → Rm es un vector aleatorio m-dimensional discreto, con función de Entonces Y~ = g(X) cuantı́a X fX~ (x), ∀y ∈ Rec(Y~ ) fY~ (y) = x∈g −1 (y) donde g −1 (y) = {x ∈ Rn : g(x) = y}. ~ : Ω → Rn un vector aleatorio absolutamente continuo con función de Teorema 1.3.7. Sea X densidad fX~ . ~ : Ω → Rn . Consideremos la aplicación medible g : Rn → Rn y el vector aleatorio Y~ = g ◦ X ~ en Y~ se puede especificar mediante las siguientes ecuaciones: La transformación de X y1 = g1 (x1 , x2 , . . . , xn ) y2 = g2 (x1 , x2 , . . . , xn ) .. . yn = gn (x1 , x2 , . . . , xn ) Las funciones gi : Rn → R (i = 1, 2, . . . , n) son las componentes de g : Rn → Rn . 4 - Resultados preliminares Introducción a la Inferencia Estadı́stica Para poder calcular una expresión de la función de densidad fY~ en función de fX~ debemos suponer ciertas propiedades en la transformación g: Sea SX~ el conjunto de Rn en donde fX~ no se anula. Supondremos que SX~ es un conjunto propio (de medida positiva) de Rn . Sea SY~ = g(SX~ ). El conjunto SY~ es la imagen de SX~ por g. Supondremos que g es una aplicación biyectiva entre SX~ y SY~ , es decir, a cada punto x ∈ SX~ le corresponde un y solo un punto y ∈ SY~ y viceversa. En las condiciones anteriores existe la transformación inversa de g (que denotaremos h), que transforma al conjunto SY~ en SX~ y que especificamos del siguiente modo: x1 = h1 (y1 , y2 , . . . , yn ) x2 = h2 (y1 , y2 , . . . , yn ) .. . xn = hn (y1 , y2 , . . . , yn ) Vamos a suponer que cada derivada parcial ∂hi ∂yj i = 1, . . . , n; j = 1, . . . , n existe en todo punto y ∈ SY~ . Bajo todas estas condiciones se puede construir el llamado determinante jacobiano de la transformación inversa que viene dado por ∂h1 ∂y1 J= ∂h1 ∂y2 ... ∂h1 ∂yn ∂h2 ∂h2 ∂h2 ... ∂y1 ∂y2 ∂yn ..................... ∂hn ∂hn ∂hn ... ∂y1 ∂y2 ∂yn ∀y ∈ SY~ . Entonces, ∀y ∈ Rn fY~ (y) =   fX~ h1 (y), h2 (y), . . . , hn (y) |J| si y ∈ SY~  si y 6∈ SY~ 0 Observación 1.3.1. Alternativamente, J se puede calcular como: ∂g1 ∂x1 J= ∂g1 ∂g1 ... ∂x2 ∂xn ∂g2 ∂g2 ∂g2 ... ∂x1 ∂x2 ∂xn .................... ∂gn ∂gn ∂gn ... ∂x1 ∂x2 ∂xn −1 ∀x ∈ SX~ . Resultados preliminares - 5 Introducción a la Inferencia Estadı́stica 1.4. Familias de distribuciones Una manera de simplificar cálculos y verificación de si una distribución cumple o no ciertas propiedades es tratar de encontrar un conjunto de distribuciones de probabilidad cuyos miembros compartan las mismas propiedades, están construidos de acuerdo a los mismos principios y tienen la misma estructura funcional. Diremos que este conjunto es una famila de distribuciones. La estructura común suele depender de alguna cantidad o vector real θ que es el parámetro de la familia. Una definición más formal es la siguiente. Definición 1.4.1. Una familia de distribuciones es un conjunto de funciones de distribución definidas sobre el mismo espacio probabilı́stico: F = {FX (·|θ) : θ ∈ Θ ⊂ Rk } Donde Θ es el conjunto de todos los valores posibles para θ. A este conjunto lo llamaremos el espacio paramétrico. Ejemplo 1.4.1. Algunas familias de distribuciones son: Familia Poisson(θ), Θ = R+ . Familia Binomial(n, p), θ = (n, p), Θ = N × (0, 1). Familia Normal(µ, σ 2 ), θ = (µ, σ 2 ), Θ = R × R+ . Existen ciertas familias de distribuciones relacionadas con la normal que son de gran importancia para nuestro curso. Estas son la distribución χ2n , la tn y la Fn,m que serán presentadas a continuación. 1.4.1. Distribución χ2n Definición 1.4.2. Se dice que una variable aleatoria X se distribuye chi cuadrado con n grados n 1 , , con n ∈ Z+ . de libertad, χ2n , si su distribución es la misma que una Gamma 2 2 Al ser la distribución χ2n un caso particular de la distribución Gamma, todas sus propiedades se derivan de esta última. Por ejemplo, si X ∼ χ2n n2 n2 1/2 1 1 E(X) = n, Var(X) = 2n, MX (t) = = t< . 1/2 − t 1 − 2t 2 Observación 1.4.1. Por el ejemplo 1.3.1, si X ∼ N(0,1), entonces X 2 ∼ χ21 . 6 - Resultados preliminares Introducción a la Inferencia Estadı́stica Observación 1.4.2. Si X1 ∼ χ2n y X2 ∼ χ2m , estamos interesados en la distribución de la variable aleatoria Y = X1 + X2 1. Si X1 y X2 son independientes, entonces Y ∼ χ2n+m . MX1 +X2 (t) = MX1 (t)MX2 (t) = 1/2 1/2 − t n2 1/2 1/2 − t m2 = 1/2 1/2 − t n+m 2 si t < 1/2. Esto se generaliza fácilmente para cualquier número de sumandos. Sean X1 , . . . , Xn varian X bles aleatorias independientes con Xi ∼ χ2mi , i = 1, . . . , n. Entonces, Xi ∼ χ2m , con m = n X i=1 mi . Usando este resultado y la observación 1.4.1, tenemos que si X1 , . . . , Xn son i=1 variables aleatorias independientes y con distribución común N(0,1), entonces n X Xi2 ∼ χ2n . (1.1) i=1 2. ¿Qué pasa cuando los sumandos no son independientes? Para ver esto, suponga que tenemos dos variables aleatorias U y V tales que U 0 1 ρ ∼N , − 1 < ρ < 1. ρ 1 V 0 Defina, X1 = U 2 y X2 = V 2 . Entonces, X1 ∼ χ21 y X2 ∼ χ21 . Excepto en el caso en que ρ = 0, X1 y X2 no son independientes. Sea Y = X1 + X2 . Observe que en términos de U y 1 (U + V )2 + (U − V )2 . Observe además que V, Y = 2 U +V U −V U 0 1 1 2(1 + ρ) 0 = ∼N , . 1 −1 0 2(1 − ρ) V 0 Lo que implica que U + V y U − V son independientes. La función generatriz de momentos de Y es 1 2 2 (U + V ) + (U − V ) t MY (t) = E exp 2 1 1 2 2 = E exp (U + V ) t E exp (U − V ) t 2 2 21 21 1 1 = 1 − 2(1 + ρ)t 1 − 2(1 − ρ)t 12 1 = (1 − 2t)2 − 4ρ2 t2 Resultados preliminares - 7 Introducción a la Inferencia Estadı́stica Dado que, E exp t (U + V )2 2  = E exp   2(1 + ρ)t  2 !2   U +V  p 2(1 + ρ)  12 1/2 = 1/2 − (1 + ρ)t 12 1 = 1 − 2(1 + ρ)t (1.2) Donde (1.2) proviene de que U +V ∼ N(0, 1) =⇒ W 2 = W =p 2(1 + ρ) U +V p 2(1 + ρ) !2 ∼ χ21 y  E exp   2(1 + ρ)t  2 !2   U +V  = E exp (1 + ρ)tW 2 = MW 2 ((1 + ρ)t) . p 2(1 + ρ)  12 1 1 2 De manera similar se demuestra que E exp (U − V ) t = . 2 1 − 2(1 − ρ)t Ahora note que si tenemos una variable aleatoria Q ∼ χ22 , su función generatriz de momentos es MQ (t) = (1 − 2t)−1 . Por lo tanto de comparar MQ (t) y MY (t) llegamos a la conclusión de que Y ∼ χ22 ⇔ ρ = 0. Esto es, solo si X1 y X2 son independientes. 1.4.2. Distribución tn Definición 1.4.3. Sea U ∼ N(0,1) y V ∼ χ2n . Además, U y V son independientes. Decimos que una variable aleatoria X se distribuye t de Student con n grados de libertad, si tiene la misma distribución que U p . V /n Teorema 1.4.1. Si X ∼ tn , su función de densidad es Γ n+1 1 2 fX (x) = √ x∈R n+1 n nπΓ 2 1 + x2 2 n Demostración. (bosquejo) Dado que U y V son independientes: 1 1 2 fU,V (u, v) = fU (u)fV (v) = √ e−u /2 n/2 2 Γ 2π 8 - Resultados preliminares n 2 v n/2−1 e−v/2 . (1.3) Introducción a la Inferencia Estadı́stica Aplique la siguiente transformación monótona: U X=p V /n Y =V El cambio inverso es: U =X p Y /n V =Y y el determinante del jacobiano es |J| = Con lo que se obtiene r 1 y 1 1 2y √ exp − x fX,Y (x, y) = n/2 n 2π 2 n 2 Γ n 2 p Y /n. y n/2−1 exp(−y/2) (x, y) ∈ (−∞, ∞) × (0, ∞). Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función gamma) para obtener el resultado deseado. Observación 1.4.3. Algunas de las propiedades de esta distribución son: U 1. Si U ∼ N(0,1), entonces −U ∼ N(0,1). Con lo cual, − p ∼ tn . Lo que muestra que V /n fX (x) es simétrica alrededor del 0. 2. Los momentos de X se pueden calcular fácilmente usando la independencia de U y V E(T k ) = nk/2 E(U k V −k/2 ) = nk/2 E(U k )E(V −k/2 ). Por lo tanto, E(X k ) existirá siempre y cuando exista E(V −k/2 ). Note que, E(U k ) existe para todo k. Dado que la distribución χ2 es un caso particular de la distribución Gamma, calcularemos E(W k ) donde W ∼ Gamma(α, β). Z ∞ (β)α α−1 −βw r w e dw E(W ) = wr Γ(α) 0 Z (β)α ∞ α+r−1 −βw = w e dw Γ(α) 0 (β)α Γ(α + r) = si α + r > 0 Γ(α) (β)α+r Γ(α + r) = β −r (1.4) Γ(α) Dado que V ∼ χ2n = Gamma(n/2,1/2), si aplicamos (1.4) cuando n/2 + r > 0, tenemos que E(V r ) = 2r Γ(n/2 + r) Γ(n/2) (1.5) Para evaluar E(V −k/2 ), usamos (1.5) con r = −k/2. Primero verificamos bajo que condiciones se cumple que n/2 − k/2 > 0. Resultados preliminares - 9 Introducción a la Inferencia Estadı́stica a) Para k = 1 y n = 1, 6 ∃E(V −1/2 ) ⇒ 6 ∃E(X). b) Para k = 1 y n ≥ 2, ∃E(V −1/2 ) ⇒ E(X) = 0. c) Para k = 2 y n = 2, 6 ∃E(V −1 ) ⇒ 6 ∃E(X 2 ) ⇒ 6 ∃Var(X). d ) Para k = 2 y n > 2, ∃E(V −1 ) ⇒ ∃E(X 2 ) ⇒ ∃Var(X). Observación 1.4.4. Si T ∼ tn , si n = 1, fX (X) = [π(1 + x2 )]−1 , X ∼ Cauchy(0,1). si n → ∞, X ∼ N(0,1). Para ver esto, note que la densidad definida en (1.3) es proporcional al producto n − 12 − 12 x2 x2 1 1+ 1+ fX (x) ∝ n+1 = 2 n n 1+ x 2 n 2 Cuando n → ∞, el primer término converge a e−x /2 y el segundo a 1. Para √ converge −1 preservar la integrabilidad a 1, las constantes deben de converger a ( 2π) por lo cual la distribución en el lı́mite es una N(0,1). La aproximación es buena si n ≥ 30. Formalizaremos esto más adelante en el capı́tulo 7. 1.4.3. Distribución Fn,m Definición 1.4.4. Sea U ∼ χ2n y V ∼ χ2m . Además, U y V son independientes. Decimos que una variable aleatoria X se distribuye F de Fisher-Snedecor con n grados de libertad en el numerador y m grados de libertad en el denominador, si tiene la misma distribución que U/n . V /m Se denota X ∼ Fn,m . Teorema 1.4.2. Si X ∼ Fn,m , su función de densidad está dada por n n−2 Γ n+m x n n 2 2 n, m ∈ {1, 2, . . .} fX (x) = n+m I[x>0] m Γ n2 Γ m2 1+ nx 2 m Demostración. (bosquejo) Dado que U y V son independientes: fU,V (u, v) = fU (u)fV (v) = 1 2m/2 Γ m 2 um/2−1 e−u/2 1 2n/2 Γ Aplique la siguiente transformación monótona: X= 10 - Resultados preliminares nU mV Y =V n 2 v n/2−1 e−v/2 . Introducción a la Inferencia Estadı́stica El cambio inverso es: m XY n con lo cual el determinante del jacobiano es U= V = Y, |J| = m Y. n Entonces m xy + y 2−(m+n)/2 m m/2 m/2−1 (m+n)/2−1 n x y exp − fX,Y (x, y) = n 2 Γ m2 Γ n2 (x, y) ∈ (0, ∞) × (0, ∞). Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función gamma) para obtener el resultado deseado. Observación 1.4.5. Algunas propiedades de esta distribución son 1. Si X ∼ Fn,m , entonces 1 ∼ Fm,n . X 2. Si P(X < Fn,m;1−α ) = 1 − α, entonces 1 1 1 > P = 1 − α ⇒ Fm,n;α = . X Fn,m;1−α Fn,m;1−α 3. Si X ∼ tn , entonces X 2 ∼ F1,n . m E(U )E(V −1 ). Por lo n tanto, E(X) existe siempre que exista E(V −1 ). Utilizando (1.5) tenemos que 4. De la definición de la variable aleatoria X se desprende que E(X) = E(X) = m si m > 2. m−2 Observación 1.4.6. En la definición de la distribución F es esencial la independencia entre el numerador y el denominador. Para ver esto, suponga que X1 ∼ χ2n y X2 ∼ χ2m son dos variables aleatorias independientes. Defina Y1 = X1 y Y2 = X1 + X2 . Es fácil ver que P(Y1 < Y2 ) = 1. Por lo cual, Y1 y Y2 no son independientes. Además, Y1 ∼ χ2n y Y2 ∼ χ2n+m . Entonces, 0≤ Y1 /n X1 /n m + n X1 m+n = = ≤ . Y2 /(n + m) (X1 + X2 )/(n + m) n X 1 + X2 n Lo que implica que el recorrido de (Y1 /n)/(Y2 /(n + m)) es el intervalo (0, (m + n)/n) y no (0, ∞), que es el recorrido de una distribución F. Por lo tanto, (Y1 /n)/(Y2 /(n+m)) no se puede distribuir F. Observación 1.4.7. Dada la relación t2n = F1,n , se desprende que enp la definición de la distribución t la independencia entre el numerador (N(0,1)) y el denominador ( χ2n /n) es crucial. Resultados preliminares - 11 Introducción a la Inferencia Estadı́stica Ejemplo 1.4.2. ¿Qué pasa con las restas de variables aleatorias que tienen distribución χ2 ? Suponga que X1 , X2 , X3 , X4 son variables aleatorias iid con distribución común N(0,1). Defina, U1 = X12 + X22 + X32 , U2 = X32 , U3 = X32 + X42 . Entonces, U1 ∼ χ23 , U2 ∼ χ21 y U3 ∼ χ22 . Por lo tanto, U1 − U2 = X12 + X22 ∼ χ22 . U1 − U3 = X12 + X22 − X42 6∼ χ2 , dado que el Rec(U1 − U3 ) = R. Para ver esto, calcule ! 2 X12 +X22 2 + X 1 X 2 1 2 <1 =P < P(X12 + X22 − X42 < 0) = P(X12 + X22 < X42 ) = P X42 X42 2 Z 1 2 1 = P (F2,1 < 1/2) = du = 0, 29289. 3/2 0 (1 + 2u) Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. 12 - Resultados preliminares CAPÍTULO 2 MUESTREO 2.1. Introducción Los avances en la ciencia están usualmente asociados con experimentación. El investigador realiza un experimento y obtiene datos a partir de él. En base a estos datos se elaboran determinadas conclusiones, las cuales usualmente van más allá del experimento en particular. Esto es, el investigador generaliza lo observado en un experimento en particular a la clase de todos los experimentos similares. Esta forma de extensión de lo particular hacia lo general se conoce como inferencia inductiva. En el proceso de inferencia inductiva está siempre presente la incertidumbre dado que no podemos hacer generalizaciones de manera absoluta. Las argumentaciones inductivas no llevan necesariamente a conclusiones verdaderas, no se da el caso de que si las premisas de una inferencia inductiva son verdaderas entonces la conclusión deba de ser verdadera. Es posible que la conclusión de una argumentación inductiva sea falsa y que sus premisas sean verdaderas sin que ello suponga una contradición. Si el experimento se realiza de acuerdo a determinados principios, la incertidumbre puede ser medida. Uno de los objetivos de la Estadı́stica es proporcionar técnicas que permitan realizar el proceso de inferencia inductiva conjuntamente con una medida del grado de incertidumbre de esas inferencias. La incertidumbre será medida en términos de probabilidad. El objetivo de este capı́tulo es introducir el concepto de muestreo y varios conceptos teóricos relacionados. Para nuestro curso, un problema de inferencia estadı́stica es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una determinada distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia acerca de esta. Analizando los datos se intenta obtener información acerca de la distribución que los generó, para realizar inferencias acerca de ciertas propiedades de esta y dadas diferentes distribuciones posibles, determinar la verosimilitud relativa que cada una tiene de ser la correcta. Un caso particular, que es el que abordaremos principalmente en el curso, es cuando la distribución de probabilidad que generó los datos es completamente conocida excepto por los valores de uno o más parámetros de dicha distribución. Tendremos entonces, una población cuyo comportamiento 13 Introducción a la Inferencia Estadı́stica en cierta caracterı́stica de interés está determinado por una determinada variable aleatoria cuya distribución de probabilidad está caracterizada por un parámetro θ, real o vector, cuyo valor es parcialmente o totalmente desconocido. Del parámetro θ, conocemos sin ambigüedad cuál es el conjunto de valores que teóricamente puede llegar a tomar. Definición 2.1.1. Dada una distribución de probabilidad caracterizada por un parámetro θ. Al conjunto de valores que el parámetro θ puede tomar se le llama el espacio paramétrico. Lo denotaremos con Θ. Dada una variable aleatoria X asociada al fenómeno de interés que deseamos estudiar, si su distribución depende de un parámetro θ, lo explicitaremos usando la notación FX (x|θ) o fX (x|θ). Si el valor de una determinada probabilidad es una función de θ la denotaremos Pθ . 2.2. Muestreo Para hacer inferencias diseñaremos un experimento que consiste en seleccionar elementos de la población en estudio y medir sobre ellos la variable aleatoria de interés. En base a lo que observamos haremos nuestras inferencias. Asumimos que cada elemento de la población tiene algún valor numérico asociado a él y que la distribución de probabilidad de estos valores numéricos está dada por una función de distribución F . Existen diferentes esquemas para seleccionar los elementos que vamos a observar de la población. A este subconjunto de elementos le llamaremos muestra. En un principio nos enfocaremos en seleccionar elementos de la población con reposición. Este esquema de muestreo garantiza que las observaciones son independientes y que las extracciones están hechas en idénticas condiciones. Dado que nunca agotamos la población, el tamaño de esta se puede considerar como si fuera infinito. Definición 2.2.1. Las variables aleatorias X1 , . . . , Xn son llamadas una muestra aleatoria (MA) de tamaño n de una población con función de distribución FX si son mutualmente independientes y la función de distribución marginal de cada Xi es la misma función FX . Observación 2.2.1. A las variables aleatorias que componen una MA también se les llaman independientes e idénticamente distribuidas, lo cual se denota iid. Observación 2.2.2. Alternativamente, si X es una variable aleatoria tal que X ∼ FX , se dice que X1 , . . . , Xn es una MA de la variable aleatoria X. También se utiliza decir que es una MA de fX donde fX es la densidad o cuantı́a de X. A la variable aleatoria Xi se le llama la i-ésima observación de la muestra. Es la representación del valor que va a asumir la variable aleatoria X al medirse sobre el i-ésimo elemento muestreado. Después que la muestra es observada, los valores actuales de X1 , . . . , Xn son conocidos y los ~ = (X1 , . . . , Xn ) denotamos con x1 , . . . , xn respectivamente. Para abreviar la notación, definimos X y ~x = (x1 , . . . , xn ). Dada la independencia y la idéntica distribución de las observaciones, se tiene que su distribución conjunta está dada por fX~ (~x) = fX1 ,...,Xn (x1 , . . . , xn ) = n Y i=1 14 - Muestreo fX (xi ). Introducción a la Inferencia Estadı́stica A esta distribución conjunta se le llama la distribución de la muestra. Al soporte de esta distribución conjunta se le llama el espacio muestral y se denota por X . Esto es, X es el conjunto de todas las muestras posibles. Observación 2.2.3. Cuando X es una variable discreta, fX~ (~x) = P(X1 = x1 , . . . , Xn = xn ). Por lo cual, mide la probabilidad con que se observa cada una de las posibles muestras. Ejemplo 2.2.1. Suponga que X es una variable aleatoria que toma los valores 1, 2, 3 y 4 en una determinada población. Se desea obtener una MA de tamaño 2. Tendremos dos observaciones X1 y X2 . Si listamos todos los posibles valores que puede tomar la dupla (X1 , X2 ) tendremos el conjunto de las 16 muestras posibles. Si lo enumeramos por extensión tenemos que X = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)} y si lo hacemos por comprensión: X = {(x1 , x2 )|xi ∈ {1, 2, 3, 4}, i = 1, 2} Si además asumimos que X se distribuye tal que P(X = 1) = 0, 2, P(X = 2) = 0, 25, P(X = 3) = 0, 15 y P(X = 4) = 0, 4. Tendremos, por ejemplo, que la probabilidad de observar la muestra (1,1) es fX1 ,X2 (1, 1) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = P(X = 1)P(X = 1) = 0, 22 = 0, 04. (independencia) (idéntica distribución) Siguiendo este planteo, la distribución de la muestra es x2 fX1 ,X2 (x1 , x2 ) 1 2 x1 3 4 1 0,04 0,05 0,03 0,08 2 0,05 0,06 0,04 0,10 3 0,03 0,04 0,02 0,06 4 0,08 0,10 0,06 0,16 Ejemplo 2.2.2. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), fX1 ,...,Xn (x1 , . . . , xn |θ) = n Y n P xi 1−xi θ (1 − θ) xi n− I[xi ∈{0,1}] = θi=1 (1 − θ) n P i=1 i=1 xi n Y I[xi ∈{0,1}] i=1 X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n} Muestreo - 15 Introducción a la Inferencia Estadı́stica Lo que estamos midiendo es la probabilidad de haber observado la muestra en el orden en que los valores x1 , . . . , xn aparecen. O sea, la probabilidad de una secuencia de ceros y unos en el orden particular en que fueron observados. Note que no aparece el número n combinatorio dado que no estamos midiendo el número de éxitos en las n pruebas. x También observe que la expresión n Y n I[xi ∈{0,1}] es equivalente a I P i=1 xi ∈{0,1,...,n} . i=1 Ejemplo 2.2.3. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), de E(X)=θ fX1 ,...,Xn (x1 , . . . , xn |θ) = n Y 1 i=1 Observe que n Y θ xi e− θ I[xi >0] = 1 − e θn Pn i=1 xi θ I[mı́n xi >0] , i I[xi >0] será igual a 1, siempre que todas las observaciones sean mayores i=1 que 0. Esto es equivalente a pedir que la menor de las observaciones sea mayor que 0. n Y n Entonces, I[xi >0] ≡ I[mı́n xi >0] . El espacio muestral es X = R+ . i i=1 2.3. Estadı́sticos y su distribución en el muestreo Dada una muestra, no necesariamente una MA, se pueden definir funciones de las observaciones. Estas jugarán un papel importante en el proceso de inferencia. En particular, estaremos interesados principalmente en las que denominaremos estadı́sticas. Definición 2.3.1. Una estadı́stica o estadı́stico es una función de las observaciones que no contiene ningúna cantidad desconocida. Ejemplo 2.3.1. Si X1 , . . . , Xn es una muestra de X ∼ fX , entonces ejemplos de estadı́sticos son: n 1X X̄n = Xi , n i=1 n Sn2 1X = (Xi − X̄n )2 , n i=1 X(1) = mı́n(X1 , . . . , Xn ). En general, todas medidas de resumen del conjunto de observaciones son ejemplos de estadı́sticos. ~ Observación 2.3.1. Cuando hablemos de un estadı́stico genérico, lo representaremos con T (X). Ejemplo 2.3.2. Si X1 , . . . , Xn es una muestra de X ∼ N(µ, 1), la función n 1X (Xi − µ)2 n i=1 16 - Muestreo Introducción a la Inferencia Estadı́stica será un estadı́stico solo si el valor del parámetro µ es conocido. Definición 2.3.2. Sea X1 , . . . , Xn una muestra de X ∼ fX . El k-ésimo momento muestral ordinario, denotado por Mk , se define como n Mk = 1X k X . n i=1 i En particular, si k = 1 lo llamaremos la media muestral y estará representado por X̄n . Definición 2.3.3. El k-ésimo momento muestral centrado, denotado por Mk0 , se define como n Mk0 1X (Xi − X̄n )k . = n i=1 En particular, M10 = 0 y si k = 2 lo llamaremos la varianza muestral, representada por S 2 . Observación 2.3.2. Los momentos muestrales ordinarios o centrados son todos estadı́sticos. 2.3.1. Distribución en el muestreo Los estadı́sticos son funciones de las observaciones, las cuales son variables aleatorias. Por lo tanto, los estadı́sticos son a su vez variables aleatorias y su distribución dependerá del esquema de muestreo y de la distribución en particular de la variable aleatoria X muestreada. Dadas estas dos n X ~ componentes, se puede hallar la distribución en el muestreo de un estadı́stico. Si T (X) = Xi , su i=1 distribución dependerá de la distribución de X. Por ejemplo, si tenemos una MA de X ∼ N(θ, σ 2 ), ~ ∼ N(nθ, nσ 2 ). Si en cambio, X ∼ Bernoulli(θ), entonces T (X) ~ ∼ Binomial(n, θ). T (X) Cuando el esquema de muestreo a utilizar es una MA, se garantiza la independencia y la idéntica distribución de las observaciones, lo cual permite muchas veces poder calcular resultados más generales sobre caracterı́sticas de la distribución en el muestreo de determinados estadı́sticos. Estos resultados serán válidos sin importar si la variable aleatoria muestreada es discreta o continua. Dado que los momentos de una variable aleatoria no determinan su distribución, no podremos de estos resultados inferir la distribución de probabilidad exacta de un estadı́stico. Teorema 2.3.1. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea µk = E(X k ) el k-ésimo momento 1 ordinario de X. Si µk existe, entonces E(Mk ) = µk . Si µ2k existe, entonces Var(Mk ) = (µ2k − µ2k ). n Demostración. n 1X k X n i=1 i E(Mk ) = E n Var(Mk ) = Var 1X k X n i=1 i ! ! n n 1X 1X = E Xik = µk = µk . n i=1 n i=1 n Var Xik 1 X (µ2k − µ2k ) k = 2 Var Xi = = . n i=1 n n Muestreo - 17 Introducción a la Inferencia Estadı́stica Corolario 2.3.1. Si, k = 1, M1 es X̄n la media muestral y E(X̄n ) = E(X) y Var(X̄n ) = Var(X) . n Teorema 2.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea Sn2 = M20 la varianza muestral. Si µ4 existe, E(Sn2 ) n−1 (n − 1)2 = Var(X) y Var(Sn2 ) = n n3 n−3 2 2 µ4 − (µ2 − µ1 ) n−1 Demostración. Solo probaremos la primera parte. Por claridad, representaremos E(X) = µ y Var(X) = σ 2 . Primero note que n X 2 (Xi − µ) = i=1 n X (Xi − X̄n + X̄n − µ)2 i=1 = = n X i=1 n X 2 (Xi − X̄n ) + n X 2 (X̄n − µ) + 2 n X i=1 (Xi − X̄n )(X̄n − µ) i=1 (Xi − X̄n )2 + n(X̄n − µ)2 (2.1) i=1 Dado que 2 n X (Xi − X̄n )(X̄n − µ) = 2(X̄n − µ) i=1 n X (Xi − X̄n ) = 2(X̄n − µ)nM10 = 0. i=1 De donde, n E(Sn2 ) = E 1X (Xi − X̄n )2 n i=1 ! n X 1 = E (Xi − µ)2 − n(X̄n − µ)2 n i=1 1 = n 1 = n n X i=1 n X ! ! E(Xi − µ)2 − nE(X̄n − µ)2 ! σ 2 − nVar(X̄n ) i=1 1 σ2 n−1 2 2 = nσ − n = σ . n n n n S 2 , entonces n−1 n 1 n−3 02 02 2 2 E(Sn ) = Var(X) y Var(Sn ) = µ4 − (µ2 − µ1 ) . n n−1 0 Corolario 2.3.2. Si definimos Sn2 = 18 - Muestreo Introducción a la Inferencia Estadı́stica 0 A Sn2 se le llama varianza muestral corregida. Corregida en el sentido que a la varianza muestral se la ha multiplicado por una constante con el fin de que su valor esperado coincida con la varianza de la variable aleatoria X muestreada. Note que los anteriores resultados son válidos cualquiera sea la distribución en particular de X siempre que trabajemos con una MA de esta variable aleatoria. Solo se requiere que existan determinados momentos poblacionales para que se cumplan. Si se tiene mayor información acerca de cuál es la distribución de X, se puede determinar de manera exacta la distribución en particular de los momentos muestrales o de cualquier otro estadı́stico. Para hallar las distribuciones podemos utilizar cualquiera de las técnicas aprendidas en un curso de probabilidad. Teorema 2.3.3. Suponga que X1 , . . . , Xn es una MA de X. Suponga además que existe MX (t), la función generatriz de momentos de X. Entonces, n t . MX̄n (t) = MX n n X Demostración. Note primero que si Y = Xi , i=1 tY MY (t) = E(e ) = E(e t Pn i=1 Xi )= n Y tXi E(e )= i=1 Por lo tanto, dado que X̄n = n Y MX (t) = [MX (t)]n . i=1 Y n t Yn MX̄n (t) = E e =E e t Y n n t t . = MX = MY n n Ejemplo 2.3.3. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). Entonces MX (t) = Con lo cual MX̄n (t) = β β− β β−t α n t n α si t < β. = nβ nβ − t nα si t < nβ. En consecuencia, X̄n ∼ Gamma(nα, nβ). Note también que n X Xi ∼ Gamma(nα, β). i=1 Muestreo - 19 Introducción a la Inferencia Estadı́stica Ejemplo 2.3.4. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Entonces, sabemos que n X Y = Xi ∼ Binomial(n, θ). Con lo cual, i=1 P(X̄n = x) = P Y =x n = P(Y = nx) = n nx 1 2 n−nx θ (1 − θ) x ∈ 0, , , . . . , 1 . nx n n Note que si bien la cuantı́a de X̄n es igual a la cuantı́a de una distribución binomial, su recorrido no coincide con el recorrido de una variable aleatoria con esta distribución. Por lo cual, X̄n no se distribuye Binomial. Ejemplo 2.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces, t2 2 MX (t) = exp µt + σ . t ∈ R 2 Por lo tanto, t t2 2 MX̄n (t) = exp µ + 2 σ n 2n n t2 σ 2 = exp µt + 2 n Esto es, X̄n ∼ N(µ, σ 2 /n). 2.4. . Muestreo de poblaciones normales En el caso de tener una MA de una distribución normal, existen propiedades que son exclusivas de esta distribución. Por ejemplo, la enunciada en el siguiente teorema. Teorema 2.4.1. X1 , . . . , Xn es una MA de X ∼ N(µ, σ 2 ) si y solo si X̄n y Sn2 son independientes. Demostración. Solo se demostrará la necesidad (distribución normal implica independencia de X̄n y Sn2 ). Recordando el resultado: 2 Sean X ∼ N(µX , σX ) y Y ∼ N(µY , σY2 ). Entonces, Cov(X, Y ) = 0 si y solo si X y Y son independientes. Consideramos la covarianza entre X̄n y la variable aleatoria Y1 = X1 − X̄n ∼ N(0, σ 2 (1 − 1/n)), Cov(X̄n , X1 − X̄n ) = Cov(X̄n , X1 ) − Cov(X̄n , X̄n ) = 1 σ2 σ2 Cov(X1 , X1 ) − Var(X̄n ) = − = 0. n n n Este resultado se deriva de que, n Cov(X̄n , X1 ) = Cov 20 - Muestreo 1X Xi , X1 n i=1 ! n 1X 1 Var(X1 ) = Cov(Xi , X1 ) = Cov(X1 , X1 ) = , n i=1 n n Introducción a la Inferencia Estadı́stica dado que Cov(Xi , X1 ) = 0, i = 2, . . . , n. Por lo cual, X̄n y Y1 son independientes, lo que implica que X̄n y Y12 son independientes. De manera similar se puede probar que X̄n y Yi2 , i = 2, . . . , n, son independientes. Por lo cual, X̄n es independiente de cualquier función de Y12 , . . . , Yn2 . Lo que implica el resultado buscado, dado que n 1X 2 2 Sn = Y . n i=1 i Proposición 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces, nSn2 ∼ χ2n−1 . σ2 Demostración. Usando la descomposición hallada en 2.1 y dividiendo cada sumando entre σ 2 , tenemos que n X nSn2 n(X̄n − µ)2 (Xi − µ)2 = + 2 2 σ σ σ2 i=1 2 n X Xi − µ nS 2 n(X̄n − µ)2 Si definimos, W = , V = 2n y U = . Tenemos que, por la ecuación σ σ σ2 i=1 1.1, W ∼ χ2n . Por la observación 1.4.1, U ∼ χ21 . Además, por el teorema 2.4.1, V y U son independientes. Por lo tanto, MW (t) = MV +U (t) = MV (t)MU (t) ⇒ ⇒ para t < 1/2, MV (t) = 1/2 1/2−t 1/2 1/2−t 1/2 1/2 − t n2 = MV (t) n2 12 = 1/2 1/2 − t 1/2 1/2 − t n−1 2 ⇒ V = 21 si t < 1/2. nSn2 ∼ χ2n−1 . σ2 Ejemplo 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Por el ejemplo 2.3.5 √ n(X̄n − µ) 2 X̄n ∼ N(µ, σ /n) ⇒ ∼ N(0, 1). σ Además, (a) nSn2 /σ 2 ∼ χ2n−1 ; (b) X̄n y Sn2 son independientes por el teorema 2.4.1. Con lo cual, √ n(X̄n − µ) √ n − 1(X̄n − µ) σ ∼ tn−1 . T =r = 2 S nSn /(n − 1) σ2 0 Si en lugar de Sn2 se utiliza Sn2 , el resultado es √ n(X̄n − µ) ∼ tn−1 . Sn0 Muestreo - 21 Introducción a la Inferencia Estadı́stica Ejemplo 2.4.2. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σ 2 ). Sea Y1 , . . . , Ym una MA de Y ∼ N(µY , σ 2 ). X y Y independientes. Se definen, de la manera usual, las medias muestrales n n 1 X 1X Xi , Ȳm = Yi , X̄n = n i=1 m i=1 y las varianzas muestrales corregidas (el subı́ndice indica a qué variable está asociada y no el tamaño de la muestra como hemos venido haciendo) n 0 SX2 = m 1 X (Xi − X̄n )2 , n − 1 i=1 0 SY2 = 1 X (Yi − Ȳm )2 . m − 1 i=1 Defina adicionalmente, 0 0 (n − 1)SX2 + (m − 1)SY2 Sp = . n+m−2 Entonces, por la observación 1.4.2 tenemos que 02 0 0 0 0 (n − 1)SX2 (m − 1)SY2 (n − 1)SX2 + (m − 1)SY2 2 2 ∼ χ , ∼ χ ⇒ ∼ χ2n+m−2 n−1 m−1 σ2 σ2 σ2 y X̄n ∼ N(µX , σ 2 /n), Ȳm ∼ N(µY , σ 2 /m) ⇒ X̄n − Ȳm ∼ N(µX − µY , σ 2 /n + σ 2 /m). Por lo cual, X̄n − Ȳm − (µX − µY ) q ∼ tn+m−2 . Sp0 n1 + m1 2 Ejemplo 2.4.3. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σX ). Sea Y1 , . . . , Ym una MA 2 de Y ∼ N(µY , σY ). X y Y independientes. Entonces, 0 0 (m − 1)SY2 (n − 1)SX2 2 ∼ χ , W = ∼ χ2m−1 , W1 = 2 n−1 2 σX σY2 W1 y W2 son independientes. Por lo tanto, 0 W1 /(n − 1) S 2 σY2 F = = X ∼ Fn−1,m−1 . 0 2 W2 /(m − 1) SY2 σX 2 Bajo el supuesto de que σY2 = σX , nos queda que 0 0 SX2 σY2 SX2 F = 0 2 2 = 0 2 ∼ Fn−1,m−1 . SY σX SY 22 - Muestreo Introducción a la Inferencia Estadı́stica 2.5. Estadı́sticos de Orden Asuma que en una carrera de 100 metros el tiempo para recorrerlos de los hombres puede ser modelado por una distribución uniforme en el intervalo (medido en segundos) (9,4;11,0). Suponga que hay 8 competidores en la carrera. Se desea encontrar la probabilidad de que el ganador de la carrera rompa el record mundial de 9,58 segundos. Si Xi representa el tiempo que tarda el corredor i en recorrer los 100 metros, i = 1, . . . , 8, lo que estamos interesados es conocer si el menor de esos 8 tiempos no excede 9,58 segundos. Esto es, si definimos X(1) = mı́n{X1 , X2 , . . . , X8 }, la probabilidad que deseamos encontrar es P(X(1) < 9, 58). También podrı́amos estar interesados en calcular la probabilidad de que el que llega segundo de los 8 corredores no supere el record mundial anterior de 9,69 segundos. En este caso, definiendo X(2) = mı́n{X1 , X2 , . . . , X8 }/X(1) (la más chica de las 8 observaciones habiendo removido de ellas la menor de todas, o sea, la segunda más chica), la probabilidad buscada es P(X(2) > 9, 69). Si X(8) = máx{X1 , X2 , . . . , X8 }, la probabilidad de que el ganador de la carrera rompa el record mundial y que al corredor que llega último le lleve más de 10 segundos terminarla está representada por P(X(1) < 9, 58, X(8) > 10). P(X(8) − X(1) > 3) es la probabilidad de que el ganador de la carrera le saque más de 3 segundos de ventaja al corredor que llega último. Para calcular todas las probabilidades anteriores debemos encontrar la distribución en el muestreo de las nuevas variables X(1) , X(2) , X(8) , (X(1) , X(8) ) y X(8) − X(1) . En esta sección derivaremos en forma general las distribuciones univariadas y conjuntas de estas nuevas variables aleatorias X(1) , X(2) , . . . , X(8) construidas tomando nuestra muestra original, X1 , X2 , . . . , X8 y ordenándola. Definición 2.5.1. Sea X1 , . . . , Xn una muestra de una variable aleatoria X con distribución FX . Para i = 1, 2, . . . , n, defina X(i) = la i-ésima observación más pequeña de X1 , X2 , . . . , Xn . Al vector (X(1) , X(2) , . . . , X(n) ) se le denomina las estadı́sticas de orden. A la variable aleatoria X(i) se le llama la i-ésima estadı́stica de orden. Observación 2.5.1. X(1) ≤ X(2) ≤ . . . ≤ X(n) , las observaciones son ordenadas de acuerdo a un orden creciente. Observación 2.5.2. En particular, los extremos de la muestra son el mı́nimo, X(1) , y el máximo de las observaciones, X(n) . Observación 2.5.3. Dado que las estadı́sticas de orden son observaciones de la variable aleatoria X, el recorrido de las mismas será el recorrido de X. 2.5.1. Distribuciones marginales En el caso de los extremos, si trabajamos con una MA de tamaño n de X, la distribución de cada uno de ellos se puede derivar fácilmente a partir de FX . Muestreo - 23 Introducción a la Inferencia Estadı́stica Para el máximo, X(n) , tenemos FX(n) (x) = P(X(n) ≤ x) = P(X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x) = n Y P(Xi ≤ x) = [FX (x)]n . (2.2) i=1 Los sucesos {X(n) ≤ x} y {X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x} son equivalentes, dado que si la más grande de las observaciones es menor que x, entonces todas las observaciones deberán ser menores que x. Ejemplo 2.5.1. Suponga la distribución dada al principio de la sección. Asumiendo que los tiempos de cada corredor son independientes, la probabilidad de que al corredor que llega último le lleve más de 10 segundos recorrer los 100 metros es P(X(8) > 10) = 1 − P (X(8) 10 − 9, 4 ≤ 10) = 1 − [FX (10)] = 1 − 11 − 9, 4 Dado que si X ∼Uniforme(9,4;11), FX (10) = 8 8 ≈ 0, 9996. 10 − 9, 4 . 11 − 9, 4 En el caso del mı́nimo, note que si la menor de las observaciones es mayor que x, entonces todas las observaciones deberán ser mayores que x. Por lo cual, los sucesos {X1 > x, X2 > x, . . . , Xn > x} y {X(1) > x} son equivalentes. Entonces, FX(1) (x) = P(X(1) ≤ x) = 1 − P(X(1) > x) = 1 − P(X1 > x, X2 > x, . . . , Xn > x) n Y =1− P(Xi > x) = 1 − [1 − FX (x)]n . (2.3) i=1 Ejemplo 2.5.2. Bajo las condiciones anteriores, la probabilidad de que el ganador de la carrera rompa el record mundial es 8 9, 58 − 9, 4 P(X(1) < 9, 58) = 1 − 1 − ≈ 0, 6151 11 − 9, 4 Que esta probabilidad sea alta quizás la podemos usar como evidencia de que quizás la distribución Uniforme(9,4;11) no sea la más apropiada para modelar este problema. Si asumimos que X es una variable aleatoria absolutamente continua, podemos calcular las funciones de densidad de X(1) y X(n) derivando la correspondiente función de distribución. fX(1) (x) = n(1 − FX (x))n−1 fX (x) y fX(n) (x) = n(FX (x))n−1 fX (x). 24 - Muestreo Introducción a la Inferencia Estadı́stica Ejemplo 2.5.3. Sea X ∼Uniforme(0,1). Entonces FX (x) = xI[0≤x<1] +I[x≥1] y fX (x) = I[0<x<1] . Por lo cual, fX(1) (x) = n(1 − x)n−1 I[0<x<1] y fX(n) (x) = nxn−1 I[0<x<1] . Esto es, X(1) ∼ Beta(1,n) y X(n) ∼ Beta(n,1). Más detalles sobre estadı́sticos de orden se pueden encontrar en el apéndice E. Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Ahsanullah, M., Nevzorov, V., Shakil, M. (2013) An Introduction to Order Statistics Atlantic Press. Furio Blasco, E. (2005) Los lenguajes de la Economı́a. Edición digital a texto completo accesible en www.eumed.net/libros/2005/efb/ Gut, A. (2009) An intermediate course in probability. Springer Texts in Statistics. Mood, A., Graybill, F., Boes, D. (1974) Introduction to the theory of statistics 3era. edición. McGraw-Hill International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Muestreo - 25 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 26 - Muestreo CAPÍTULO 3 INFERENCIA BAYESIANA 3.1. Introducción Existen dos enfoques en la Inferencia Estadı́stica, la Clásica o frecuentista y la Bayesiana. La estadı́stica clásica esta basada en la interpretación frecuentista de la probabilidad. El punto de vista frecuentista está basado en los siguientes postulados: 1. La probabilidad se ve como el lı́mite de frecuencias relativas. La probabilidad es un propiedad objetiva del mundo real. 2. Los parámetros son fijos, son constantes desconocidas. Dado que no existe fluctuación en sus valores, no se pueden hacer afirmaciones en probabilidad acerca de ellos. 3. Los métodos estadı́sticos están definidos para tener buenas propiedades asintóticas. Esto es, cuando n → ∞. 4. Los métodos estadśticos clásicos solo usan la información contenida en la muestra para La Inferencia Bayesiana, está basada en los siguientes postulados: 1. La probabilidad es el grado de creencia acerca de un determinado fenómeno. No es el lı́mite de una frecuencia. Como tal, se puede representar de modo numérico el conjunto racional de creencias, de modo que existe una relación directa entre probabilidad e información. La regla de Bayes proporciona un modo natural de actualización de las creencias cuando aparece nueva información. 2. Aún cuando los parámetros de una distribución siguen siendo constantes fijas, podemos hacer afirmaciones en probabilidad acerca de ellos. 3. Haremos inferencias acerca de un parámetro θ construyendo una distribución de probabilidad para este. Inferencias, tales como pruebas de hipótesis, estimaciones puntuales y de intervalo, podrán ser extraı́das de esta distribución. Este capı́tulo hace una breve introducción a la Inferencia Bayesiana. 27 Introducción a la Inferencia Estadı́stica 3.2. 3.2.1. Distribuciones a priori y a posteriori Distribución a priori Suponga que Y es una variable aleatoria cuya distribución está indexada por un parámetro θ (puede ser también un vector de parámetros): Y ∼ fY (y|θ). El parámetro θ toma valores en un conjunto Θ, el espacio paramétrico. Asumamos, por ahora, que Θ ⊂ R. El verdadero valor de θ es desconocido, pero podrı́amos contar con información adicional (conocimiento del problema, estudios anteriores) la cual nos puede dar una idea sobre en qué parte o partes de Θ es más verosimil que se encuentre el verdadero valor de θ. Este conocimieto, o falta de él, será expresado por medio de una distribución de probabilidad f (θ). Note que a pesar que θ será tratado como si fuera una variable aleatoria, es en realidad un número. La distribución de probabilidad asociada es la herramienta que nos permitirá incorporar a nuestros análisis lass creencias a priori que tengamos acerca del verdadero valor de θ. A la distribución f (θ) le llamaremos la distribución a priori de θ. Ejemplo 3.2.1. Suponga que Y ∼ Bernoulli(θ), Θ = (0, 1). Las siguientes gráficas muestran posibles distribuciones a priori para θ. Figura A es una distribución uniforme en (0,1) la cual nos permite representar que no favorecemos a priori ninguna región de Θ, en este caso estamos mostrando que no tenemos ninguna información a priori sobre el valor de θ. La Figura B, representa nuestro creencia a priori de que θ es más verosimil que se encuentre cercano a 1. La Figura C establece como más verosı́miles a priori los valores de θ cercanos al cero y la Figura D, lo más cercanos a 0,5. 2.0 1.5 f(θ) 1.0 1.0 0.0 0.6 0.5 0.8 f(θ) 1.2 2.5 3.0 Fig. B − Beta(3,1) 1.4 Fig. A − Beta(1,1) 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 θ Fig. C − Beta(1,3) Fig. D − Beta(3,3) 0.8 1.0 0.8 1.0 1.0 f(θ) 0.5 1.5 0.0 0.0 0.5 1.0 f(θ) 2.0 2.5 1.5 θ 3.0 0.0 0.0 0.2 0.4 0.6 θ 0.8 1.0 0.0 0.2 0.4 0.6 θ 28 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 3.2.2. Función de verosimilitud Dado un valor de θ, la distribución condicional de Y dado ese valor está dada por fY (y|θ). Suponga que Y = (Y1 , Y2 , . . . , Yn ) es una MA de esta distribución condicional. Es decir, condicional en θ, las observaciones Y1 , Y2 , . . . , Yn son iid1 . La distribución condicional conjunta de las observaciones se puede escribir como f (y|θ) = n Y fY (yi |θ), donde y = (y1 , y2 , . . . , yn ). i=1 A f (y|θ) se le llama la función de verosimilitud. Note que la función de verosimilitud es una función de y y no de θ. θ se ha fijado en un determiando valor dentro de su espacio paramétrico. f (y|θ) es lo que llamamos la distribución de la muestra en el capı́tulo anterior. 3.2.3. Distribución a posteriori Dada la función de verosimilitud podemos construir la distribución de probabilidad conjunta de Yyθ f (Y, θ) = f (y|θ)f (θ), y a partir de esta podemos calcular la distribución marginal de Y. Asumiendo que f (θ) es una densidad sobre Θ, tenemos que2 Z f (y) = f (y|θ)f (θ)dθ. Θ Por lo cual, al aplicar el teorema de Bayes, tenemos que la distribución condicional de θ dada la muestra observada y está dada por f (θ|y) = f (y|θ)f (θ) f (Y, θ) =R . f (y) f (y|θ)f (θ)dθ Θ A f (θ|y) se le llama la distribución a posteriori de θ. La distribución a priori de θ refleja nuestras creencias acerca del valor del parámetro antes de obtener la muestra. La distribución a posteriori refleja nuestras creencias actualizadas en base a lo observado en la muestra. Observación 3.2.1. No es necesario calcular f (y) dado que es una constante con respecto a θ, si a su inverso le llamamos c(y) tenemos que f (θ|y) = c(y)f (y|θ)f (θ) ⇒ f (θ|y) ∝ f (y|θ)f (θ) donde el sı́mbolo ∝ significa “es proporcional a”. Por lo cual c(y) es solo la constante por la cual hay que multiplicar a f (y|θ)f (θ) para convertirla en una densidad. A la función f (y|θ)f (θ) se le llama el núcleo de la distribución a posteriori. Dado el núcleo de una función de densidad, la constante es única dada la unicidad de la función integral. Por lo cual, si “reconocemos” el núcleo como el correspondiente a una distribución conocida, automáticamente sabemos cuánto vale la constante. Recuerde que en la distribución a posteriori, θ es la variable aleatoria y y está fijo en los valores observados en la muestra. 1 2 En estas notas a variables aleatorias que condicional en θ son variables iid le llamaremos intercambiables. Si f (θ) es una función de cuantı́a, sustituimos la integral por una sumatoria. Inferencia Bayesiana - 29 Introducción a la Inferencia Estadı́stica Ejemplo 3.2.2. Suponga y ∈ (0, 1, ...) denota el número de ocurrencias en un proceso de Poisson con tasa θ > 0. La función de cuantı́a de Yi condicional en θ es f (yi |θ) = θyi exp(θ) yi ! Por lo cual, la función de verosimilitud de (y1 , ..., yn ) es f (y|θ) = n Y θyi exp(−θ) i=1 yi ! = θnȳ exp(−nθ) Qn i=1 yi ! Considere como distribución a priori para θ una Gamma(α, β): f (θ) ∝ θα−1 exp(−βθ) Entonces para hallar la distribución a posteriori f (θ|y) ∝ θnȳ exp(−nθ)θα−1 exp(−βθ) = θnȳ+α−1 exp(−(n + β)θ). El núcleo de la distribución a posteriori coincide con el núcleo de una distribución Gamma. Por lo cual, la distribución a posteriori es una Gamma(nȳ + α, n + β) Note: Media a priori de θ es α/β Media a posteriori de θ es E(θ|y) = nȳ + α n+β Si el tamaño muestral n → ∞ entonces E(θ|y) se acerca al EMV de θ. Si éste tiende a cero, entonces E(θ|y) tiende a la media a priori. 3.3. Suficiencia Tanto en el enfoque clásico como en el bayesiano, un principio deseable en la reducción de datos es lo que se conoce como el principio de suficiencia. Este establece, a grandes rasgos, que si un estadı́stico es suficiente para un parámetro θ, este contiene toda la información que tiene la muestra acerca de θ. Esto es, una vez que conocemos qué valor toma el estadı́stico en la muestra observada es irrelevante conocer los valores individuales de las observaciones cuando se van a realizar inferencias acerca de θ. 30 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 3.3.1. Estadı́stico suficiente Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ), θ ∈ Θ. Sea T1 = T1 (X1 , . . . , Xn ) un estadı́stico. Note que T1 particiona X en los conjuntos {(x1 , . . . , xn )|T1 (x1 , . . . , xn ) = t1 }, donde t1 ∈ Rec(T1 ). Por ejemplo, suponga que T1 = X̄n y que observamos x̄n = 8, 32. Puede haber muchas muestras en X que tengan exactamente la misma media 8,32. Por lo tanto, podemos considerar a esas muestras como pertenecientes al conjunto {(x1 , . . . , xn ) : x̄n = 8, 32}. Entonces, para cada valor posible de X̄n tendremos uno de estos conjuntos. A la partición inducida por T1 la llamaremos suficiente para θ si la probabilidad de observar una muestra en particular, dado que sabemos que esta pertenece a un conjunto fijo de la partición, no depende de θ. Esto es, la probabilidad condicional de la muestra dado que sabemos que T1 = t1 , t1 ∈ Rec(T1 ), es independiente de θ. Esto intuitivamente significa que una vez que fijamos T1 = t1 y dentro del espacio muestral solo consideramos el subconjunto de las muestras para las cuales T1 toma ese valor, la distribución de cualquier otro estadı́stico T2 = T2 (X1 , . . . , Xn ), restringida a este subconjunto, no depende de θ dado que la distribución de la muestra no depende de θ. Por lo tanto, es imposible usar T2 |T1 = t1 para hacer inferencias acerca de θ. T1 extrae toda la información acerca de θ que está contenida en la muestra. Ejemplo 3.3.1. Sea X1 , . . . , Xn una MA de X ∼ Ber(θ). Defina T = n X Xi . Sabemos i=1 que T ∼ Binomial(n, θ). Con t ∈ {0, 1, . . . , n}, ¿cuál es la probabilidad condicional P(X1 = x1 , . . . , Xn = xn |T = t) = P (A|B)? Si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad condicional es 0, n X dado que A ∩ B = ∅; en el caso que t = xi , entonces tenemos que A ⊂ B, con lo i=1 cual P(A ∩ B) = P(A) y P(A|B) = P (A)/P (B); por lo tanto, P(X1 = x1 , . . . , Xn = xn |T = t) = 1 θt (1 − θ)n−t = n t n . n−t θ (1 − θ) t t Dado que x1 + . . . + xn es igual al número de unos en las n pruebas independientes, esta es la probabilidad de obtener una n-upla en particular de todas aquellas que contengan t unos y n − t ceros. Esta probabilidad no depende de θ. Por lo tanto, la partición n X inducida por T = Xi es suficiente para θ. i=1 Ejemplo 3.3.2. Continuación ejemplo 3.3.1. Considere el estadı́stico U = X1 X2 + X3 . Dado que Xi ∈ {0, 1}, los valores que puede tomar U son {0, 1, 2}. Inferencia Bayesiana - 31 Introducción a la Inferencia Estadı́stica X1 0 1 0 0 1 1 0 1 X2 0 0 1 0 1 0 1 1 X3 0 0 0 1 0 1 1 1 U 0 0 0 1 1 1 1 2 Por lo cual, P(U = 0) = P ((0, 0, 0) ∪ (1, 0, 0) ∪ (0, 1, 0)) = P ((0, 0, 0)) + P ((1, 0, 0)) + P ((0, 1, 0)) = (1 − θ)3 + 2θ(1 − θ)2 = (1 − θ)2 (1 + θ) Si fijamos que U = 0 tenemos que P ((0, 0, 0)|U = 0) = (1 − θ) (1 − θ)3 = , 2 (1 − θ) (1 + θ) (1 + θ) lo cual depende de θ. La figura 3.1 muestra la probabilidad de observar, cuando U = 0, las muestras (0,0,0) y (1,0,0) o (0,1,0). En el primer caso, cuanto más cerca está θ de 1, menor es la probabilidad de observar (0,0,0) y esta aumenta a medida que θ se acerca a cero. Lo cual muestra que, aún cuando sepamos que U = 0, si observamos (0,0,0) es más verosı́mil que θ esté cercano a cero; si observamos (1,0,0) o (0,1,0) es más verosimil que θ esté cercano a 1. Esto es, existe información adicional acerca de θ que no fue capturada por U . Por lo tanto, la partición no es suficiente. Figura 3.1: Probabilidad de que U = X1 X2 + X3 = 0 Definición 3.3.1. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es suficiente para θ ∈ Θ ⊆ R si y solo si la distribución de la muestra (X1 , . . . , Xn ) condicional en que T = t no depende de θ, para todo t ∈ Rec(T ). 32 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica La definición implica que T induce una partición suficiente sobre X . Esto es, una vez conocido qué valor toma T en la muestra no queda más “información” acerca de θ en ella. En suma, toda la información que la muestra tiene acerca de θ está contenida en T . Ejemplo 3.3.3. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Defina T = n X Xi . ¿Cuál i=1 es la probabilidad condicional P(X1 = x1 , . . . , Xn = xn |T = t))? Sabemos que T ∼ Poisson(nθ). Siguiendo un razonamiento similar al del ejemplo 3.3.1, con t ∈ {0, 1, . . . , n} si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad n X condicional es 0; en el caso que t = xi , entonces tenemos que, i=1 Q e−θn (θ)t / ni=1 xi ! t! = t Qn . P(X1 = x1 , . . . , Xn = xn |T = t) = −θn t e (θn) /t! n i=1 xi ! Esta probabilidad no depende de θ. Por lo tanto, T = n X Xi es suficiente para θ. i=1 Ejemplo 3.3.4. Sea X1 , X2 una MA de X ∼N(θ,1). Defina T = X1 + X2 . Sabemos que X1 θ 1 0 ∼ N2 , 0 1 X2 θ Por lo cual, con X1 X1 θ 1 0 1 1 B= ⇒ B = ∼ N2 , . 1 1 1 2 X2 X1 + X2 2θ Usando el resultado de la distribución condicional de las componentes de un vector con distribución normal multivariada, tenemos que 2 ! 1 t 1 1 1 =N , i = 1, 2. Xi |X1 + X2 = t ∼ N θ + √ √ (t − 2θ) , 1 − √ 2 2 2 2 2 Por lo tanto, la distribución condicional de la muestra dado que X1 +X2 = t no depende de θ. Entonces, X1 + X2 es suficiente para θ. La definición se puede extender para el caso donde θ es un vector de Rk . Definición 3.3.2. Un estadı́stico real T~ = T1 (X1 , . . . , Xn ), . . . , Tk (X1 , . . . , Xn ) se dice que es conjuntamente suficiente para θ ∈ Θ ⊆ Rk si y solo si la distribución de la muestra (X1 , . . . , Xn ) condicional en que T~ = ~t no depende de θ, para todo ~t ∈ Rec(T~ ). Inferencia Bayesiana - 33 Introducción a la Inferencia Estadı́stica Note que la definición, tanto en R o Rn , no es operativa dado que tenemos que empezar definiendo el estadı́stico que queremos probar que es suficiente. El siguiente teorema, no solo prueba si un estadı́stico es suficiente, sino que además identifica al estadı́stico que lo es. Teorema 3.3.1. Teorema de factorización de Neyman. Sea fX~ (~x|θ) la distribución de la muestra. Un estadı́stico real T = T (X1 , . . . , Xn ) es suficiente para θ si y solo si fX~ (~x|θ) = g(T (x1 , . . . , xn ); θ)h(x1 , . . . , xn ) ∀(x1 , . . . , xn ) ∈ X . ~ = ~x} y B = Demostración. Lo demostraremos para el caso discreto. Sean los sucesos A = {X ~ = T (~x)}. Note que A ⊂ B. {T (X) (⇒) Partimos de que T es suficiente para θ y deseamos probar que existe la factorización. f (~x|θ) = P(A|θ) = P(A ∩ B|θ) ~ = T (~x)|θ) P(X ~ = ~x|T (X) ~ = T (~x)) . = P(B)P(A|B) = P(T (X) | {z }| {z } g(T (~ x),θ) h(~ x) ~ = ~x|T (X) ~ = T (~x) no depende de θ. Note que, por la definición de suficiencia, P(X ~ es suficiente. (⇐) Partimos de que la factorización existe y queremos demostrar que T (X) ~ = ~x|T (X) ~ = t no depende de θ. Esto es, que P(X ~ = T (~x)|θ), la cuantı́a de T Suponga que f (~x|θ) = g(T (~x), θ)h(~x). Sea fT (t|θ) = P(T (X) cuando T (~x) = t. Además, X fT (t|θ) = fX~ (~y |θ). ~ y ∈X :T (~ y )=t . ~ = ~x|T (X) ~ = t) = 0. Para toda ~x ∈ X tal que Note que ∀~x ∈ X tal que T (~x) 6= t, P(X T (~x) = t, ~ ~ = ~x|T (X) ~ = t) = P(X = ~x|θ) P(X ft (t|θ) g(t, θ)h(~x) = ft (t|θ) g(t, θ)h(~x) P = g(T (~y ), θ)h(~y ) ~ y ∈X :T (~ y )=t = g(t, θ)h(~x) P h(~y ) g(t, θ) ~ y ∈X :T (~ y )=t = h(~x) P ~ x∈X :T (~ x)=t = q(~x). 34 - Inferencia Bayesiana h(~x) Introducción a la Inferencia Estadı́stica Observación 3.3.1. La factorización no es única, términos constantes, parcialmente o en su totalidad, pueden ser asignados a h o g indistintamente. Observación 3.3.2. La función g que depende solo de θ y T es proporcional a la densidad o cuantı́a de T : g(T (x1 , . . . , xn ); θ) ∝ fT (t|θ). Teorema 3.3.2. Sea T un estadı́stico suficiente para θ. Sea W : R → R una función uno a uno. Entonces, T 0 = W (T ) es suficiente para θ. Observación 3.3.3. Si W es una función arbitraria, T 0 = W (T ) no es necesariamente suficiente. Ejemplo 3.3.5. Continuación del ejemplo 3.3.1. fX~ (~x|θ) = θ Pn i=1 xi (1 − θ) n− Pn i=1 xi n X = g( xi ; θ). i=1 En este caso, h(~x) ≡ 1. Por lo tanto, T (X1 , . . . , Xn ) = n X Xi es suficiente para θ. En i=1 vista del teorema 3.3.2, tenemos que X̄n es suficiente para θ. Ejemplo 3.3.6. Sea X1 , . . . , Xn una MA de X ∼ N(θ,1). n −n 2 fX~ (~x|θ) = (2π) 1X exp − (xi − θ)2 2 ! −n 2 = (2π) i=1 | Por lo tanto, n X ! ! n n n X 1X 2 1X 2 exp − xi exp − θ +θ xi . 2 2 i=1 i=1 i=1 {z }| {z } P h(~ x) g( n i=1 xi ;θ) Xi es suficiente para θ. Lo que implica que X̄n es suficiente para θ. i=1 n n X X 2 También se puede usar la descomposición (xi − θ) = (xi − x̄n )2 + n(x̄n − θ)2 , i=1 n fX~ (y|θ) = (2π) −n 2 1X exp − (xi − θ)2 2 i=1 i=1 ! = (2π) | −n 2 n nSn2 exp − exp − (x̄n − θ)2 . 2 2 {z } {z }| h(~ x) g(x̄n ;θ) Lo que muestra directamente que X̄n es suficiente para θ. Inferencia Bayesiana - 35 Introducción a la Inferencia Estadı́stica Ejemplo 3.3.7. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0,θ). n 1 Y 1 fX~ (~x|θ) = n I[0<xi <θ] = I[x(1) >0] n I[x(n) <θ ] θ i=1 | {z } |θ {z } h(~ x) g(x(n) ;θ) Por lo tanto, X(n) es suficiente para θ. 3.3.2. Cálculo de la distribución a posteriori Si T (Y) es suficiente para θ tenemos, por el teorema de factorización: f (y|θ) = h(y)g(T (y)|θ). Lo que implica que f (θ|y) ∝ g(T (y)|θ)f (θ). Esto nos habilita a trabajar con la densidad o cuantı́a de la estadı́stica suficiente en lugar de la función de verosimilitud. Ejemplo 3.3.8. Considere n pruebas de Bernoulli intercambiables: Y1 , ..., Yn . Si θ n X representa la probabilidad de éxito, Yi |θ ∼ Bernoulli(θ). Defina Y = Yi , con lo cual i=1 Y |θ ∼ Binomial(n, θ): n y f (y|θ) = θ (1 − θ)n−y . y Supongamos que no tenemos información a priori acerca de θ lo cual reflejaremos utilizando como distribución a priori una Uniforme[0,1]: f (θ) = I[0≤θ≤1] . Usando que Y es suficiente para θ, obtenemos que la distribución a posteriori es f (θ|y) ∝ θy (1 − θ)n−y . Como función de θ, la distribución a posteriori es proporcional a la densidad de una variable aleatoria con distribución Beta(y + 1, n − y + 1). Dado que si la ley de la v.a. Z es una Beta(α, β) entonces: f (z|α, β) ∝ z α−1 (1 − z)β−1 . 36 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica También se puede calcular directamente la distribución a posteriori: n y θ (1 − θ)n−y y f (θ|y) = R n y θ (1 − θ)n−y dθ Θ y = (n + 1) n! θy (1 − θ)n−y y!(n − y)! = (n + 1)! y θ (1 − θ)n−y y!(n − y)! = Γ(n + 2) θy+1−1 (1 − θ)n−y+1−1 Γ(y + 1)Γ(n − y + 1) Ejemplo 3.3.9. Sea Y |θ ∼ N (θ, σ 2 ) con σ 2 conocida. La verosimilitud de una sola observación es 1 1 f (y|θ) = √ exp(− 2 (y − θ)2 ) 2 2σ 2πσ Asuma que la distribución a priori de θ es 1 2 f (θ) ∝ exp − 2 (θ − µ0 ) 2τ0 o sea, f (θ) es una N (µ0 , τ02 ). A los parámetros de la distribución a priori se le llaman hiperparámetros. En este caso (µ0 , τ02 ) son los hiperparámetros. Ellos a su vez pueden ser también considerados como si fueran variables aleatorias. Para este curso lo consideraremos fijos. Entonces 1 (y − θ)2 (θ − µ0 )2 + f (θ|y) ∝ exp − 2 σ2 τ02 Desarrolle los cuadrados, agrupe terminos en θ2 y en θ: 1 y 2 − 2yθ + θ2 θ2 − 2µ0 θ + µ20 + f (θ|y) ∝ exp − 2 σ2 τ02 2 1 (τ0 + σ 2 )θ2 − 2(yτ02 + µ0 σ 2 )θ ∝ exp − 2 σ 2 τ02 2 1 (σ 2 + τ02 ) 2 yτ0 + µ0 σ 2 ∝ exp − θ −2 θ 2 σ 2 τ02 σ 2 + τ02 Lo que implica que f (θ|y) es normal con Media: µ1 = (yτ02 + µ0 σ 2 )/(σ 2 + τ02 ) Varianza: τ12 = (σ 2 τ02 )/(σ 2 + τ02 ) Inferencia Bayesiana - 37 Introducción a la Inferencia Estadı́stica Observe que la media a posteriori se puede escribir como, (dividiendo numerador y denominador entre σ 2 τ02 ) yτ 2 + µ0 σ 2 µ1 = 0 2 = σ + τ02 1 y + τ12 µ0 σ2 0 . 1 1 + σ2 τ02 Por lo cual, la media a posteriori es el promedio ponderado de la media a priori y la observación. Los ponderadores están dados por las precisiones3 1/σ 2 y 1/τ02 . Cuanto más grande es la precisión de los datos (σ 2 → 0), µ1 → y. También, observe que yτ 2 + µ0 σ 2 = µ0 µ1 = 0 2 σ + τ02 σ2 σ 2 + τ02 +y τ02 σ 2 + τ02 Sume y reste µ0 τ02 /(σ 2 +τ02 ), para comprobar que la media a posteriori se puede escribir también como τ02 µ1 = µ0 + (y − µ0 ) σ 2 + τ02 Media a posteriori es la media a priori “movida” hacia el valor observado. La magnitud del “movimiento” depende de la magnitud relativa de las precisiones. Con respecto a la varianza a posteriori note que (σ 2 + τ02 ) 1 1 1 = = 2+ 2 2 2 2 τ1 σ τ0 σ τ0 lo que muestra que la precisión a posteriori es la suma de la precisión de la distribución a priori más la precisión de la verosimilitud. Considere ahora n observaciones (Y1 , ..., Yn ) intercambiables. Sabemos que Ȳ es suficiente para θ y dado que Ȳ |θ, σ 2 ∼ N(θ, σ 2 /n) nuestros resultados previos pueden ser utilizados remplazando a σ 2 por σ 2 /n: f (θ|y1 , ..., yn ) = f (θ|ȳ) = N (µn , τn2 ) donde µn = 1 µ + σn2 ȳ τ02 0 1 + σn2 τ02 y 1 1 n = 2+ 2 2 τn τ0 σ En µn , la precisión a priori 1/τ02 y la precisión de los datos n/σ 2 son “equivalentes”. Por lo tanto: Con n lo suficientemente grande, (ȳ, σ 2 ) determina la distribución a posteriori. Con τ02 = σ 2 , la distribución a priori se puede considerar como una observación adicional con valor µ0 . 3 La precisión de una variable aleatoria es el inverso de su varianza. Note que cuanto menor es la varianza, mayor es la precisión (σ 2 → 0 ⇒ 1/σ 2 → ∞) y viceversa. 38 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Cuando τ02 → ∞ con n fijo, o cuando n → ∞ con τ02 fijo: f (θ|ȳ) → N (ȳ, σ 2 /n) Este último resultado es de suma importancia para obtener aproximaciones cuando creencias a priori acerca de θ son imprecisas o cuando el tamaño muestral es grande. 3.4. Selección de una distribución a priori En los ejemplos hemos asumido que las distribuciones a priori son dadas. Sin embargo en la “vida real” este no es el caso. Por lo tanto, dado que la distribución a priori juega un papel importante en la estadı́stica Bayesiana, una pregunta obvia es: ¿Cómo elegimos una distribución a priori? Si θ representa el parámetro de interés, la respuesta a la pregunta anterior se halla en la información disponible a priori acerca del comportamiento de θ. Si tenemos información concreta acerca de éste usaremos una distribución a priori que mejor la refleje. Si carecemos de información, o somos indiferentes a la información que podamos tener, acerca del parámetro usaremos distribuciones que reflejen este estado. ¿Cómo se construyen? Se pueden utilizar diferentes criterios y fuentes de información. Algunos criterios son: De una manera totalmente subjetiva. Usando información disponible (e.g., literatura, conocimiento cientı́fico, opiniones de expertos). Conveniencia matemática. También se puede utilizar un argumento asintótico en el sentido de que a medida que el tamaño muestral aumenta, la verosimilitud deberı́a dominar la a posteriori. Dos casos especiales de distribuciones a priori son: Conjugadas. No informativas. Distribuciones a priori conjugadas Definición 3.4.1. Sean F y P dos familias de distribuciones. P es conjugada para F si f (θ) ∈ P y f (y|θ) ∈ F implica f (θ|y) ∈ P . En un ejemplo anterior θ ∼ Gamma y Y |θ ∼Poisson, lo que derivó en que θ|Y ∼Gamma. Por lo cual, la distribución a priori y la a posteriori son dos miembros de la misma familia de distribuciones. Por lo tanto, la familia de distribuciones Gamma es conjugada para la familia de distribuciones Poisson. El cuadro 3.1 muestra ejemplos de familias conjugadas para muestras de tamaño n = 1. Inferencia Bayesiana - 39 Introducción a la Inferencia Estadı́stica Cuadro 3.1: Familias conjugadas (n = 1) f (y|θ) f (θ) f (θ|y) Normal Normal Normal N(θ, σ 2 ) N(µ, τ 2 ) N((yτ02 + µ0 σ 2 )/(σ 2 + τ02 ), (σ 2 τ02 )/(σ 2 + τ02 )) Poisson Gamma Gamma f(θ) G(α, β) G(α + y, β + 1) Gamma Gamma Gamma G(ν, θ) G(α, β) G(α + ν, β + y) Binomial Beta Beta Bin(m, θ) Beta(α, β) Beta(α + y, β + m − y) Bin. negativa Beta Beta BinN(r, θ) Beta(α, β) Beta(α + r, β + y) Normal Gamma Gamma N(µ, 1/θ) G(α, β) G(α + 0, 5; β + (µ − y)2 /2) Distribuciones a priori no informativas Tienen un impacto mı́nimo en la distribución a posteriori al darle mayor peso a los datos. Se las conoce también como vagas, de referencia, objetivas. Distribuciones a priori conjugadas pueden usarse para construir distribuciones de referencia, haciendo que la varianza de la distribución sea lo suficientemente grande. Si y ∼ N (θ, 1), la conjugada natural para θ es N (µ0 , τ02 ). A posteriori es N (µ1 , τ12 ), donde µ1 = µ0 /τ02 + nȳ/σ 2 2 1 , τ1 = 2 2 2 1/τ0 + n/σ 1/τ0 + n/σ 2 Para τ0 → ∞, µ1 → ȳ y τ12 → σ 2 /n. El mismo resultado podrı́a haberse obtenido usando f (θ) ∝ 1. Este último caso se conoce como Zuna distribución a priori impropia, dado que f (θ) no es estrictamente una densidad al darse que 1 dθ = ∞. Se pueden utilizar distribuciones a priori impropias R 40 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica para reflejar total ignorancia a priori acerca de θ. Se debe tener máximo cuidado para verificar que la distribución a posteriori es propia. Es decir, que f (θ|y) es efectivamente una densidad o cuantı́a. Dos ejemplos de distribuciones impropias: Si θ es un parámetro de localización: f (θ) ∝ 1. Si θ es un parámetro de escala: f (θ) ∝ 1/θ. 3.5. Métodos de Inferencia Bayesiana Veremos varios métodos de Inferencia Bayesiana que tienen a su vez su correspondiente en la Inferencia Clásica. Cada uno de estos métodos se puede describir como un problema de decisión donde entre diversas alternativas tenemos que seleccionar una. Para ello, se debe analizar adecuadamente la información con la que se cuenta y decidir de manera razonable sobre la mejor forma de actuar. Se construyen reglas de decisión que nos indican, de entre todas las acciones posibles, cuál seleccionar. Los métodos que veremos son: 1. Estimación por intervalos: encontrar reglas de decisión que nos permitan, una vez observada la muestra, obtener un subconjunto del espacio paramétrico Θ como estimación de θ. 2. Estimación puntual: encontrar reglas de decisión que nos permitan, una vez observada la muestra, asignarle un valor numérico a θ de entre todos los posibles valores en Θ. 3. Contraste de hipótesis: encontrar reglas de decisión que nos permitan, una vez observada la muestra, elegir entre dos hipótesis excluyentes acerca del valor θ. 3.5.1. Estimación por intervalos: Intervalos de credibilidad Toda la información que tenemos acerca de θ está contenida en la distribución a posteriori. Por lo cual, podemos hacer declaraciones en términos de probabilidad acerca de θ, como por ejemplo f (c1 ≤ θ ≤ c2 |y) = 1 − α, donde c1 y c2 son respectivamente los percentiles α1 y 1 − α2 (α1 + α2 = α) de f (θ|y). Al intervalo [c1 , c2 ] se le llama intervalo de credibilidad al (1-α)100 % para θ. La interpretación del intervalo de credibilidad es con una probabilidad del (1-α)100 % el verdadero valor de θ está entre c1 y c2 . Ejemplo 3.5.1. Suponga que Y |θ ∼ N(θ, 9), f (θ) ∝ 1. Anteriormente se encontró que la distribución a posteriori de θ es un N(ȳ, 9/n). Asuma, además, que para una muestra de tamaño 100, se observa que ȳ = 20, 21. Por lo tanto la distribución a posteriori es una N(20,21;0,09). Tomando α = 0, 05, seleccionamos α1 + α2 = α/2, lo cual nos da Inferencia Bayesiana - 41 Introducción a la Inferencia Estadı́stica que el intervalo de credibilidad para θ al 95 % de probabilidad es (19,62;20.8). Esto es P(19, 62 ≤ θ ≤ 20,8|y) = 0, 95. Intervalo de mayor densidad a posteriori Si definimos el intervalo óptimo como el de menor amplitud, buscamos una región donde en todo punto θ∗ que pertenezca a esta región, f (θ∗ |y) ≥ (θ∗∗ |y) con θ∗∗ un punto fuera de la región. En el caso de distribuciones a posteriori unimodales, la región es un intervalo. El intervalo (a, b) es el intervalo de credibilidad de mayor densidad a posteriori al (1-α)100 % para θ si Z b f (θ|y)dθ = 1 − α. 1. a 2. El modo de f (θ|y) pertenece al intervalo. 3. f (a|y) = f (b|y). 3.5.2. Estimación puntual Un método para construir estimadores es encontrar el estimador máximo a posteriori (MAP). Si θ̂ es el estimador MAP de θ, entonces f (θ̂|y) = argmáx f (θ|y). θ Es decir, el MAP de θ es el modo a posteriori. Note que si la distribución a posteriori es multimodal, el estimador no es único. Otra manera de hallar estimadores es introducir un concepto de “óptimo” y encontrar el mejor estimador de θ bajo este concepto. Funciones de pérdida y riesgo Considere un parámetro θ ∈ Θ. Sea θ̂ un estimador de θ. Mediremos la discrepancia entre θ y θ̂ usado una función de pérdida L(θ, θ̂). Formalmente, L : Θ × Θ → R+4 . Ejemplos de funciones de pérdida son L(θ, θ̂) = (θ − θ̂)2 , pérdida de error cuadrático o pérdida cuadrática. L(θ, θ̂) = |θ − θ̂|, pérdida de error absoluto o pérdida absoluta. L(θ, θ̂) = |θ − θ̂|p , pérdida Lp . L(θ, θ̂) = I[θ=θ̂] , pérdida 0-1. 4 Tomamos las pérdidas como positivas, una pérdida negativa será una ganancia. Por lo cual, se podrı́a también definir todo en términos de funciones de utilidad. 42 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Definición 3.5.1. El riesgo clásico de un estimador θ̂ se define como Z ∞ R(θ, θ̂) = Eθ (L(θ, θ̂)) = L(θ, θ̂(y))f (y|θ)dy −∞ donde θ̂(y) se usa para enfatizar que θ̂ es una función de las observaciones. Observación 3.5.1. El riesgo clásico es una función de θ, por cual estamos comparando funciones. Esto lleva a que pueda no existir un estimador de θ que sea uniformente mejor. Por ejemplo, bajo pérdida cuadrática, si θ̂1 y θ̂2 son dos estimadores de θ, con R(θ, θ̂1 ) ≤ R(θ, θ̂2 ) si θ ∈ Θ0 y R(θ, θ̂1 ) ≥ R(θ, θ̂2 ) si θ ∈ Θc0 entonces no se puede decidir cuál es mejor entre θ̂1 y θ̂2 a menos que se sepa en qué región de Θ se encuentra el verdadero valor de θ. Esto hace que si pudiéramos reducir el riesgo de un estimador a un número la elección serı́a clara. Definición El riesgo de Bayes de un estimador θ̂ se define como Z r(f, θ̂) = R(θ, θ̂)f (θ)dθ Θ donde f (θ) es la distribución a priori de θ. O sea, el riesgo de Bayes es el valor esperado, con respecto a la distribución a priori de θ, del riesgo clásico. Note que para un mismo estimador θ̂, si cambiamos la distribución a priori el riesgo de Bayes también cambia dado que es una función de f (θ). Definición 3.5.2. Al estimador θ̂ que minimiza el riesgo de Bayes se le llama el estimador o regla de Bayes. Formalmente, θ̂ es la regla de Bayes con respecto a la distribución a priori f si r(f, θ̂) = ı́nf r(f, θ̃). θ̃ Definición 3.5.3. Para un estimador θ̂ de θ, su riesgo a posteriori se define como Z r(θ̂|y) = L(θ, θ̂)f (θ|y)dθ. Θ Esto es, es el valor esperado de la función de pérdida con respecto a la distribución a posteriori de θ habiéndose observado y. Teorema 3.5.1. Sea θ̂ el valor de θ que minimiza r(θ̂|y). Entonces, θ̂ es la regla de Bayes. Teorema 3.5.2. El estimador de Bayes de θ, 1. Bajo función de pérdida cuadrática, es E(θ|y), la esperanza de la distribución a posteriori. 2. Bajo función de pérdida absoluta, es la mediana de la distribución a posteriori. 3. Bajo función de pérdida 0-1, es el MAP. Inferencia Bayesiana - 43 Introducción a la Inferencia Estadı́stica Ejemplo 3.5.2. Dada una muestra de tamaño n de v.a. intercambiables con Yi |θ ∼ Ber(θ) y θ ∼ Beta(α, β), la tabla de distribuciones conjugadas muestra que θ|y ∼ Beta(y + α, n − y + β), con y = n X yi . Esto implica que el estimador de Bayes de θ es i=1 θ̂ = E(θ|y) = α+y . α+β+n Note que el estimador de Bayes se puede escribir de la siguiente manera: θ̂ = n α+β α ȳ + . α+β+n α+β+n α+β Esto es, el estimador de Bayes es el promedio ponderado entre la media muestral y la n α+β media a priori. Note que los pesos respectivos son y . Para valores α+β+n α+β+n grandes de n, el estimador de Bayes está cercano a la media muestral ȳ. Esto indica α que α y β deberı́an ser seleccionados no solo para que sea la media a priori, α+β sino también para que la suma α + β indique el peso que tiene la información a priori en relación al tamaño de la muestra. Esto es, si por ejemplo, queremos que nuestra creencia a priori tenga el mismo peso que una muestra de tamaño 20, seleccionaremos α + β = 20. Si nuestra media a priori es 0,75, entonces seleccionaremos α = 15 y β = 5. Observación 3.5.2. De lo anterior se desprende que el estimador de Bayes de g(θ) bajo pérdida cuadrática, es Z g(θ)f (θ|y dθ. E(g(θ)|y) = Θ Ejemplo 3.5.3. En el ejemplo anterior, si asumimos α = β = 1, tenemos que θ|y ∼ Beta(y + 1, n − y + 1). Si deseamos estimar θ(1 − θ), la varianza de Yi |θ, calculamos E(θ(1 − θ)|y) = E(θ − θ2 |y) = E(θ|y) − E(θ2 |y) = E(θ|y) − Var(θ|y) + [E(θ|y)]2 Note que si X ∼ Beta(α, β): 2 E(X) − Var(X) + [E(X)] α αβ = − − 2 α + β (α + β) (α + β + 1) αβ = . (α + β)(α + β + 1) α α+β 2 Por lo cual, el estimador de Bayes de θ(1 − θ), con respecto a la a priori f (θ) = 1, es E(θ(1 − θ)|y) = (y + 1)(n − y + 1) (n + 2)(n + 3) 44 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Error de estimación Para un estimador daremos una medidad de su variabilidad para expresar la precisión de nuestras estimaciones. La medida que daremos es el riesgo a posteriori del estimador. Bajo pérdida cuadrática, el riesgo a posteriori es la varianza a posteriori del estimador. Si θ̂ es la media a posteriori E(θ|y), su varianza es simplemente la varianza a posteriori de θ. 3.5.3. Prueba de Hipótesis 3.5.4. Contraste de hipótesis Contraste de hipótesis es un procedimiento relativamente simple en Inferencia Bayesiana. Suponga que se desea contrastar H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θ1 , Θ0 ∩ Θ1 = ∅ y Θ0 ∪ Θ1 ⊆ Θ5 (note que las hipótesis son disjuntas pero no necesitan ser complementarias, pero trabajaremos con hipótesis complemantarias Θ0 ∪Θ1 = Θ). Si no se favorece a priori ninguna de las hipótesis, esto es P(H0 ) = P(H1 ) = 0, 5, entonces lo único que hay que hacer es comparar las probabilidades a posteriori de los subconjuntos de Θ especificados en las diferentes hipótesis. Esto es, con α0 = P(θ ∈ Θ0 |y) y α1 = P(θ ∈ Θ1 |y), si α0 > α1 ⇒ no rechazo H0 α0 < α1 ⇒ rechazo H0 Ejemplo 3.5.4. Suponga que Y1 , . . . , Y5 son v.a. intercambiables con Yi ∼ N (θ, 4). Asuma como distribución a priori una N(3,1). Se observa en la muestra obtenida ȳ = 1, 25. Por lo tanto, la distribución a posteriori de θ es una N(2,0278;0,4444). Se desea poner a prueba H0 ) θ < 3 contra H1 ) θ > 3 α0 = P(θ < 3|y) = φ 3 − 2, 0556 √ 0, 4444 = Φ(1, 416671) = 0, 9217 α1 = P(θ > 3|y) = 1 − Φ(1, 416671) = 0, 0783. Por lo cual, no rechazamos H0 , dado que α0 > α1 . Note que a priori P(θ < 3) = P(θ > 3) = 0, 5. Una medida que podemos calcular es el odds a posteriori, el cociente entre α0 y α1 : α0 0, 9217 = = 11, 77. α1 0, 0783 Esto significa que a posteriori H0 es 11 veces más probable de ser cierta que H1 . 5 A la hipótesis H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa. Inferencia Bayesiana - 45 Introducción a la Inferencia Estadı́stica Factor de Bayes Asumiendo que las hipótesis son complementarias, se pueden cometer dos tipos de error: Rechazar H0 cuando es cierta. Rechazar H1 cuando es cierta. En prueba de hipótesis Bayesiana no existe un concepto de “peor error”, en el sentido que es más costoso para el investigado rechazar una de ellas cuando esta es cierta. Una manera de introducir el concepto de peor error es asociarle a la hipótesis que reflejarı́a este una probabilidad a priori mayor para expresar nuestra creencia de que esa hipótesis representa el estado actual de la naturaleza. Cuando las probabilidades a priori asignadas a H0 y H1 son desiguales, tenemos que también tenerlas en cuenta. Sea πi = f (Hi ), la probabilidad asignada a Hi , i = 0, 1, bajo la distribución a priori. Defina αi = f (Hi |y), i = 1, 0, como las correspondientes probabilidades bajo la distrtibución a posteriori. Definición 3.5.4. Al cociente α0 /α1 se le llama el odds a posteriori de H0 sobre H1 y al cociente π0 /π1 se le llama el odds a priori. A la cantidad B10 = α1 π0 α1 /α0 = π1 /π0 α0 π1 se le llama el factor de Bayes en favor de H1 . El factor de Bayes es el odds ratio entre los odds a posteriori y a priori. Lo que mide el factor de Bayes es el cambio en los odds entre H0 y H1 antes y después de haber observado Y = y. Para decidir se utiliza la siguiente escala, la cual está definida en base log10 con el fin de que la escala sea simétrica. Esto es, log10 B10 = − log10 B01 : log10 B10 <0 0 a 0,5 0,5 a 1 1a2 >2 Fuerza de la evidencia despreciable pobre sustancial fuerte decisiva Ejemplo 3.5.5. Continuando con el ejemplo anterior, suponga que se desea poner a prueba H0 ) θ < 1 contra H1 ) θ > 1. En este caso π0 = 0, 0228, π1 = 0, 9772, α0 = 0, 0567 y α1 = 0, 9433. Entonces el factor de Bayes es B10 = 0, 3885, y log10 B10 = −0,4106 lo cual nos lleva a no rechazar la hipótesis nula. Observaciones Note que en prueba de hipótesis no es posible usar distribuciones a priori impropias. El factor de Bayes existe solo si π0 6= 0 y π1 6= 0. Si, por ejemplo, π1 = 0 nunca rechazaremos H0 independientemente de lo que observemos, dado que H1 es a priori un evento imposible. 46 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica Si Θ es un espacio continuo, la observación anterior muestra que no se puede utilizar una distribución a priori absolutamente continua para poner a prueba H0 ) θ = θ0 . Esta distribución a priori asignará probabilidad 0 al suceso θ = θ0 . Para solucionar esto, tenemos dos alternativas: 1. Cambiar la hipótesis nula a H0 ) θ ∈ (θ0 −ε, θ0 +ε), para algún ε > 0 lo “suficientemente pequeño”. O sea, la hipótesis nula es ahora el conjunto de valores de θ que son desde un punto de vista práctico, para el investigador, indistinguibles de θ0 . 2. Usar una distribución a priori que sea la composición de una distribución que asigna probabilidad positiva π0 al suceso θ = θ0 y una densidad que asigne probabilidad π1 = 1 − π0 sobre H1 . Este caso no lo trataremos en este curso. Una manera alternativa de probar hipótesis simples versus compuesta, en algunos casos particulares, es la descrita en la siguiente sección. 3.6. Selección de Modelos Suponga que un conjunto de K modelos M = {M1 , . . . , MK } están en consideración para un conjunto de observaciones Y. Bajo el modelo Mk , Y se distribuye según f (y|θk , Mk ), donde θk es un vector de parámetros desconocidos que indexa a los miembros de Mk (aún cuando nos referimos a Mk como modelo, es más precisamente una clase de modelos). Se le asigna una distribución a priori f (θk |Mk ) a los parámetos de cada modelo y una probabilidad a priori f (Mk ) a cada modelo. Este proceso implica tres pasos, primero con probablidad f (Mk ) seleccionamos el modelo Mk , con este generamos los valores de θk a través de f (θk |Mk ) y por último generamos los datos Y usando f (y|θk , Mk ). Nuestro interés se centra en hallar f (Mk |y). Para ello note que la distribución conjunta de Mk , θk y Y está dada por f (Mk , θk , y) = f (y|θk , Mk )f (θk |Mk )f (Mk ). Por lo cual, Z f (y|θk , Mk )f (θk |Mk )f (Mk )dθk . f (Mk , y) = Θk y en consecuencia f (Mk |y) = f (Mk , y) ∝ f (Mk , y) ∝ f (y|Mk )f (Mk ). f (y) Para decidir, calculamos el factor de Bayes para cada par (Mi , Mj ), i, j = 1, . . . , K y en base a estos factores decidimos cuál es el mejor modelo que se ajusta a los datos. Esto es, seleccionamos el modelo Mk que tiene mayor odds de haber generado los datos y. En el caso particular que f (MK ) = 1/K, ningún modelo es preferible a priori, el problema se reduce a seleccionar el modelo Mk que tenga mayor probabilidad a posteriori, Mk = argmáx f (Mk |y). k Dado que el factor de Bayes, por ejemplo, entre el modelo Mk y Ml es Bkl = f (Mk |y)f (Ml ) f (Mk |y) f (y|Mk ) = ∝ , f (Ml |y)f (Mk ) f (Ml |y) f (y|Ml ) Inferencia Bayesiana - 47 Introducción a la Inferencia Estadı́stica alcanza con comparar las funciones de verosimilitud de y dado cada uno de los diferentes modelos. Note que esto es similar al estadı́stico de razón de verosimilitudes clásico. Ejemplo 3.6.1. Suponga el caso en que tenemos dos modelos M1 y M2 . A priori asignamos f (M1 ) = f (M2 ) = 0, 5. M1 es una Bernoulli(0,5) y M2 es una Bernoulli(θ), donde θ es desconocida. θ|M2 ∼ Uniforme(0,1). Suponga, además, que n = 200 y se observaron 115 éxitos. La verosimilitud, bajo cualquier modelo, puede se calculada usando una Binomial(n, θ). Entonces, tenemos que para el Modelo 1, 200 f (y|M1 ) = 0, 5200 = 0, 005955892; 115 en el Modelo 2, Z f (y|M2 ) = 0 1 200 115 θ (1 − θ)85 dθ = 0, 004975124; 115 Por lo cual, el factor de Bayes da 0,8353281 con log10 B21 = −0,07814291, lo que apunta a quedarnos con el Modelo 1. 3.7. Modelos multiparámetro La mayorı́a de las situaciones “reales” requieren modelos con más de un parámetro. Por lo general, estamos interesados solamente en uno o en un subconjunto de ellos. En el enfoque Bayesiano las inferencias se basan en la distribución a posteriori marginal de los parámetros de interés. Los parámetros que no son de interés son llamados parámetros de ruido (nuisance parameters). Considere un modelo con dos parámetros (θ1 , θ2 ) ∈ Θ× Θ2 , por ejemplo, una distribución normal con media y varianza desconocidad. Estamos solamente interesados en θ1 , por lo tanto θ2 es un parámetro de ruido. La distribución a posteriori marginal de interés es f (θ1 |y), la cual puede ser obtenida directamente usando la distribución a posteriori conjunta: f (θ1 , θ2 |y) ∝ f (θ1 , θ2 )f (y|θ1 , θ2 ) integrando con respecto a θ2 : Z f (θ1 |y) = Z f (θ1 , θ2 |y)dθ2 = Θ2 f (θ1 , |θ2 , y)f (θ2 |y)dθ2 Θ2 La distribución marginal de θ1 es un composición de condicionales en θ2 , o un promedio ponderado de la condicional evaluada en diferentes valores de θ2 donde los pesos estan dados por la marginal f (θ2 |y). Este es un enfoque diferente al frequentista, donde se sustituye el verdadero valor del parámetro de ruido por su estimación máximo verosimil. Al promediar condicionalmente f (θ1 , |θ2 , y) sobre todos los valore posibles de θ2 , explicitamente reconocemos nuestra incertidumbre acerca de θ2 . Considere los siguientes dos casos extremos: 48 - Inferencia Bayesiana Introducción a la Inferencia Estadı́stica 1. Seguridad casi absoluta acerca del valor de θ2 : Si a priori observaciones son muy “informativas” acerca de θ2 , la distribución marginal f (θ2 |y) estará concentrada alrededor de algún valor θ̂2 . En ese caso, f (θ1 |y) ≈ f (θ1 |θˆ2 , y). 2. Extrema incertidumbre acerca de θ2 : la distribución marginal f (θ2 |y) asignará relativamente alta probabilidad en un gran rango de valores de θ2 . Estimador puntual θ̂2 es poco “confiable”. Por lo tanto, es importante promediar sobre el recorrido de θ2 . Ejemplo 3.7.1. Suponga que se tienen n observaciones intercambiables Yi |µ, σ 2 ∼ N(µ, σ 2 ), ambas desconocidas. Asumiendo independencia a priori, tomamos como distribución conjunta a priori: f (µ, σ 2 ) ∝ 1 × σ −2 . La a posteriori conjunta: n 1 X f (µ, σ 2 |y) ∝ f (µ, σ 2 )f (y|µ, σ 2 ) ∝ σ −n−2 exp − 2 (yi − µ)2 2σ i=1 Dado que n X i=1 (yi −µ)2 = n X (yi − ȳ)2 +n(ȳ −µ)2 y con s02 = i=1 ! n 1 X (yi − ȳ)2 , podemos n − 1 i=1 escribir la a posteriori de (µ, σ 2 ) de la siguiente manera 1 2 −n−2 02 2 f (µ, σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] 2σ A partir de esta fórmula podemos calcular la distribución condicional a posteriori de µ|σ 2 , y n f (µ|σ 2 , y) ∝ exp − 2 (ȳ − µ)2 . 2σ que es el núcleo de una distribución N (ȳ, σ 2 /n). Este resultado habı́a sido obtenido anteriormente, cuando calculamos la a posteriori de la media de una distribución normal cuya la varianza es conocida. Para obtener f (σ 2 |y) necesitamos integrar f (µ, σ 2 |y) sobre el recorrido de µ: Z 1 2 −n−2 02 2 f (σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] dµ 2σ Z n (n − 1)s02 −n−2 2 = σ exp − exp − (ȳ − µ) dµ 2σ 2 2σ 2 (n − 1)s2 p −n−2 = σ exp − 2πσ 2 /n 2σ 2 Por lo tanto, 2 2 − f (σ |y) ∝ (σ ) (n+1) 2 (n − 1)s02 exp − , 2σ 2 Inferencia Bayesiana - 49 Introducción a la Inferencia Estadı́stica lo cual es proporcional a la función de densidad de una χ2 inversa reescalada con (n−1) grados de libertad y parámetro de escala s2 . Note la similaridad con el resultado clásico: Condicional en σ 2 , la distribución de la estadı́stica suficiente reescalada (n − 1)S 02 /σ 2 se distribuye χ2n−1 . En el caso del modelo normal, también podemos hallar la marginal f (µ|y) analı́ticamente: n/2+1 Z Z 1 1 2 2 02 2 f (µ|y) = f (µ, σ |y)dσ ∝ exp − 2 [(n − 1)s + n(ȳ − µ) ] dσ 2 2σ 2 2σ Tomando A = (n − 1)s02 + n(ȳ − µ)2 y usando la transformación A z = 2, 2σ tenemos que A dσ 2 =− 2 dz 2z y Z ∞ n +1 Z n z 2 A −n/2 f (µ|y) ∝ exp(−z)dz ∝ A z 2 −1 exp(−z)dz 2 A z 0 El integrando es el núcleo de una Gamma(n/2, 1), por lo tanto la integral es constante con respecto a µ. Entonces, −n/2 n(µ − ȳ)2 −n/2 02 2 −n/2 f (µ|y) ∝ A = (n − 1)s + n(ȳ − µ) ∝ 1+ (n − 1)s02 que es a su vez el núcleo de una distribución t con n − 1 grados de libertad, centrada en ȳ y con parametro de escala s02 /n. Por lo cual tenemos que, µ − ȳ √ y ∼ tn−1 . s0 / n Utilizando f (µ|y) y f (σ 2 |y) podemos hacer inferencias individuales acerca de µ y σ 2 respectivamente. Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Chipman, H., George, E. y McCulloch, R. (2001) The practical implementation of Bayesian model selection. IMS Lectures Notes - Monograph Series. Hogg, R., McKean, J. y Craig, A. (2005) Introduction to mathematical statistics. Pearson Prentice Hall. Mukhopadhyay, N (2000) Probability and statistical inference. Marcel Dekker. Roberts, C. (2001) The Bayesian Choice. Springer. Stapleton, J. (2008) Models for probability and statistical inference. Wiley-Interscience. 50 - Inferencia Bayesiana CAPÍTULO 4 ESTIMACIÓN PUNTUAL 4.1. Introducción Tenemos X1 , . . . , Xn variables aleatorias iid que tienen una distribución en común dada por f (x), x ∈ X . n se asume conocido y se le llama el tamaño de la muestra. Se asume además que f está caracterizada por un parámetro θ. La importancia de θ, es que una vez que conocemos su valor, la distribución f (x) estará totalmente determinada. Es por eso que usamos la notación f (x|θ), para hacer explı́cita la dependencia en θ de f . Suponemos que θ es fijo, pero desconocido, el cual toma valores en el espacio paramétrico Θ ⊆ Rk . El propósito de este capı́tulo es encontrar reglas de decisión que nos permitan, una vez observada la muestra, asignarle un valor numérico a θ de entre todos los posibles valores especificados en Θ. Primero daremos el concepto de estimador del parámetro de la distribución y formas de construirlo. Dado que diferentes métodos de construcción pueden llevar a estimadores diferentes, se definirán algunos criterios parar comparar su perfomance y dado un criterio para definir “el mejor”, se tratará bajo este encontrar el mejor estimador de θ . Definición 4.1.1. Un estimador o estimador puntual de un parámetro desconocido θ es una función T = T (X1 , . . . , Xn ) que depende solo de las observaciones X1 , . . . , Xn . Esto es, T es un ~ = ~x, el valor numérico de estadı́stico. Una vez que una muestra en particular es observada, X ~ ~ T (X), T (~x), es calculable. Distinguimos entre T = T (X) y t = T (~x) refiriéndonos a ellos como el estimador y la estimación de θ respectivamente. El estimador es una variable aleatoria y la estimación es el valor numérico que toma esta una vez observada la muestra. La definición establece que cualquier estadı́stico es un estimador. Por ejemplo, X̄n , Sn2 , X(1) y X(n) son estimadores. En lo que refiere a la notación usaremos θ̂ para representar tanto a un estimador de θ como a su correspondiente estimación. Basado en el contexto se discrimina qué es lo que se está representando con θ̂. Es de notar que este abuso de notación enmascara además el hecho de que formalmente, 51 Introducción a la Inferencia Estadı́stica cuando nos referimos al estimador, θ̂ es una función de X1 , . . . , Xn y representa por lo tanto a ~ para representar al una variable aleatoria. Cuando haya ambigüedad, usaremos la notación θ̂(X) estimador de θ. 4.2. Métodos para construir estimadores Hasta este punto, la única restricción que tenemos es que T tiene que ser un estadı́stico para ser candidato a ser llamado un estimador. Presentaremos dos métodos para construir estimadores: el método de los momentos y el método de máxima verosimilitud. 4.2.1. Método de los Momentos Suponga que θ = (θ1 , . . . , θk ). Obtenemos los k primeros momentos ordinarios teóricos de la distribución f (x|θ) y pretendemos que son iguales a los correspondientes momentos ordinarios muestrales. En consecuencia, obtenemos un sistema de k ecuaciones en k incógnitas θ1 , . . . , θk . Resolvemos simultáneamente estas k ecuaciones y las soluciones para θ1 , . . . , θk son los correspondientes estimadores por el método de los momentos. Al correspondiente estimador lo representaremos como θ̂M M . Ejemplo 4.2.1. Sean X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), donde θ es desconocido, 0 < θ < 1. Sabemos que E(X) = θ y M1 = X̄n . Por lo tanto, establecemos que ~ = X̄n es el estimador E(X) = M1 , lo que implica que θ = X̄n . Entonces, θ̂M M = T (X) por el método de los momentos de θ. Ejemplo 4.2.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R y σ 2 > 0 son desconocidos. Sabemos que E(X) = µ, E(X 2 ) = µ2 + σ 2 , M1 = X̄n y n 1X 2 X . Establecemos que M2 = n i=1 i n E(X) = µ = X̄n = M1 E(X 2 ) = µ2 + σ 2 = 1X 2 X = M2 . n i=1 i Al resolver este sistema, nos queda que n µ̂M M = X̄n y 2 σ̂M M = 1X 2 X − X̄n2 = Sn2 . n i=1 i Si cualquiera de los momentos E(X k ) no depende de θ, se trabaja con k momentos que dependan de θ. La elección de qué momentos utilizar es totalmente arbitraria. Esto lleva a que los estimadores por el método de los momentos no sean únicos. 52 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.2.3. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(−θ, θ), θ ∈ R+ . Sabemos que E(X) = 0, por lo cual la ecuación E(X) = M1 no tiene sentido. En este caso debemos buscar un valor de k para el cual E(X k ) dependa de θ. Por ejemplo, E(X 2 ) = θ2 /3. Entonces, establecemos que n θ 1X 2 E(X 2 ) = = X = M2 3 n i=1 i 2 ⇒ θ̂M M v u n u3 X =t X 2. n i=1 i Ejemplo 4.2.4. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ ∈ R+ . Sabemos que tanto E(X), como Var(X) son iguales a θ. Esto nos permite armar dos sistemas diferentes uno con E(X) = M1 y el otro con E(X 2 ) = M2 . Entonces, para cada ecuación obtendremos un estimador de θ diferente: E(X) = M1 ⇒ θ = X̄n ⇒ θ̂M M = X̄n . ⇒ θ + θ2 = M2 i p 1h −1 ± 4M2 + 1 θ̂ = 2 ⇒ θ + θ2 − M2 = 0 i p 1h −1 + 4M2 + 1 θ̂M M = 2 E(X 2 ) = M2 ⇒ ⇒ i h p dado que 0, 5 −1 − 4M2 + 1 < 0 y por lo tanto, no pertenece a Θ. El método de los momentos es una manera sencilla de construir estimadores. Sin embargo, los estimadores obtenidos pueden, en determinadas situaciones, llevarnos a que la estimación de θ no se encuentre dentro del espacio paramétrico. Ejemplo 4.2.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . Sabemos que E(X) = θ/2, por lo cual θ̂M M = 2X̄n . Suponga, que sacamos una muestra de tamaño 4 y observamos (1,1,1,4). Si calculamos X̄n para esta muestra obtenemos que x̄4 = 1,75, los que nos lleva a que θ̂M M = 3, 5. El recorrido de la variable X es el intervalo (0, θ), por lo cual P(X > θ)=0. Basándonos en que observamos un 4, sabemos que el espacio paramétrico es de la forma (a, +∞), donde a ≥ 4. Por lo cual, 3,5 ∈ / Θ y por ende no es un valor aceptable para θ. Estimación Puntual - 53 Introducción a la Inferencia Estadı́stica 4.2.2. Función de verosimilitud Dado un modelo probabilı́stico y valores para los parámetros, podemos derivar una descripción de los datos en términos de la probabilidad de que estos ocurran. En base a este conocimiento podemos, de manera deductiva, derivar las consecuencias de determinados supuestos. Por ejemplo, suponga que realizamos un experimento Binomial con n = 10 y θ = 1/3, si X representa el número de éxitos entonces Pθ (X = 8) = 0, 003. Esto significa que si repetimos 10.000 veces el experimento, esperamos observar alrededor de 30 experimentos donde se observan 8 éxitos. Ahora suponga que tiramos una moneda 10 veces y observamos X = 8 caras. Basándonos en solo esta información, ¿cuál es el valor de θ, la probabilidad de observar cara? (Esto es, no sabemos nada acerca de θ antes de realizar el experimento.) La información acerca de θ no es completa, por lo cual habrá cierta incertidumbre. Sin embargo, sabemos que θ no puede ser cero y es poco razonable que su valor sea muy pequeño. Esto lo podemos deducir dado que si esto pasa, Pθ (X = 8) es cero o muy pequeña. En contraste, θ = 0, 6 o θ = 0, 7 son más verosı́miles dado que Pθ=0,6 (X = 8) = 0, 1209 o Pθ=0,7 (X = 8) = 0, 2335. Por lo tanto, tenemos una manera deductiva de comparar diferentes valores de θ: comparar la probabilidad de los datos observados bajo diferentes valores de θ. Como función del parámetro desconocido, a la función L(θ|8) = Pθ (X = 8) se le llama la función de verosimilitud de x = 8. El gráfico 4.1 muestra que, dado que x = 8, θ es poco verosı́mil que sea menor que 0,5 o mayor que 0,95. Es más verosı́mil que θ esté entre esos dos valores. Dado que observamos x = 8, y ninguna otra información adicional, valores de θ entre 0,5 y 0,95 deberı́an ser preferibles. Está claro que no sabemos cuál es el verdadero valor de θ , pero hemos capturado la información que la muestra nos provee acerca de qué intervalo de valores es más verosı́mil. Figura 4.1: Verosimilitud para x = 8 Definición 4.2.1. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ), θ ∈ Θ ⊂ Rk . Sea X el espacio 54 - Estimación Puntual Introducción a la Inferencia Estadı́stica muestral. Para ~x = (x1 , . . . , xn ) ∈ X , a la función L(·|~x) : Θ → R+ , definida como L(θ|~x) = fX1 ,...,Xn (~x|θ) = n Y f (xi |θ) θ ∈ Θ, i=1 se le llama la función de verosimilitud de ~x. Ejemplo 4.2.6. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Para ~x tal que n X xi ∈ {0, 1, . . . , n} i=1 L(θ|~x) = fX~ (~x|θ) = n Y n P xi 1−xi θ (1 − θ) =θ i=1 xi n− (1 − θ) n P i=1 xi I[θ∈(0,1)] . i=1 X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n} Note que este es exactamente el ejemplo 2.2.2. En los cálculos no hay ningún cambio, solo en la interpretación de la función. Lo cual se refleja en el factor I[θ∈(0,1)] . Observación 4.2.1. La función de verosimilitud no es una función de densidad o cuantı́a. Mide la evidencia contenida en la muestra acerca de cada posible valor del parámetro. Si comparamos valores de la función de verosimilitud en dos valores del parámetro, θ1 y θ2 , y encontramos que L(θ1 |~x) > L(θ2 |~x), entonces la muestra que observamos es más probable que haya ocurrido cuando θ = θ1 que cuando θ = θ2 . Esto es interpretado como que θ1 es más verosı́mil que θ2 . Ejemplo 4.2.7. Sea X ∼ Poisson(θ). Se sabe que en un proceso donde se fabrican pisos flotantes se utilizan dos máquinas, la máquina A y la B. La máquina A tiende a producir en promedio 4 fallas por cada 10m2 , mientras que la B produce en promedio 8 fallas. Se elige al azar un lote de 10m2 producidos y se observa que tiene 6 fallas. La función de verosimilitud, para esta sola observación es e−θ θ6 /6!, donde θ = 4 si la pieza fue fabricada por la máquina A u 8 si la pieza fue fabricada por la máquina B. L(4|6) = 0,104196 < 0,122138 = L(8|6). Por lo tanto, habiéndose observado 6 fallas, es más verosı́mil que la pieza haya sido fabricada por la máquina B. Ejemplo 4.2.8. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ). En este caso θ = (µ, σ 2 ) ∈ R × R+ . Con ~x = (x1 , . . . , xn ) ∈ X = Rn , ( ) n n X Y 1 1 1 √ exp − 2 (xi − µ)2 = (2πσ 2 )−n/2 exp − 2 (xi − µ)2 L(µ, σ 2 |~x) = 2 2σ 2σ 2πσ i=1 i=1 Estimación Puntual - 55 Introducción a la Inferencia Estadı́stica Observación 4.2.2. La verosimilitud se puede definir para otros esquemas de muestreo que no garanticen necesariamente independencia e idéntica distribución. Por ejemplo, suponga que Y1 , . . . , Yn son v.a. que dadas ciertas constantes x1 , . . . , xn , se tiene que Yi = β0 + β1 xi + εi . Donde ε1 , . . . , εn son v.a iid con distribución común N(0, σ 2 ), β0 ∈ R y β1 ∈ R. De esto se desprende que Yi ∼ N(β0 + β1 xi , σ 2 ), i = 1, . . . , n. Note que las Yi son independientes pero no idénticamente distribuidas, ya que su valor esperado es una función de xi . La distribución de Yi depende de tres parámetros β0 , β1 y σ 2 , por lo cual para ~y = (y1 , . . . , yn ) 2 L(β0 , β1 , σ |~y ) = n Y fYi (yi |β0 , β1 , σ 2 ) i=1 n Y 1 2 √ exp − 2 [yi − (β0 + β1 xi )] = 2σ 2πσ 2 i=1 ) ( n 1 X 2 2 −n/2 [yi − (β0 + β1 xi )] = (2πσ ) exp − 2 2σ i=1 4.2.3. 1 Estimadores máximo verosimiles Supongan que nos regalan una bolsa de caramelos M&M’s. Nos dicen que la proporción de caramelos de distinto color es la misma pero no nos dicen de cuántos colores distintos pueden ser los caramelos. Deseamos estimar el numero k de colores diferentes. Supongamos que escogemos tres caramelos y observamos: verde, blanco, verde (x1 = V BV ). ¿Cuál es la probabilidad de observar este resultado en particular si sabemos que hay k colores diferentes? Dado que solo estamos interesados en los colores, a esta probabilidad la podemos calcular de la siguiente manera P(x1 |k) = P(el segundo6= al primero)P(el tercero = al primero) k−11 = k k k−1 = k2 El valor de P (x1 |k) es nuestra función de verosimilitud L(k|V BV ). Si la evaluamos para diferentes valores de k, tenemos k L(k|V BV ) 2 0,25 3 0,22 4 0,1875 5, . . . decreciente en k El valor de k que maximiza la probabilidad de haber observado la muestra que realmente se observó es 2. Que hayamos observado la muestra V BV nos indica que el número de colores en la bolsa que es más verosı́mil es 2. Con lo cual esta es la estimación más verosı́mil de k. Suponga que sacamos otro caramelo. Esto es, ahora tenemos una muestra de tamaño n = 4. Suponga además que el color del caramelo extraı́do es naranja. Por lo tanto, nuestra muestra es x2 = V BV N . Con similar razonamiento que en el cálculo anterior, usando que el cuarto caramelo es de un color distinto a los sacados anteriormente, la función de verosimilitud L(k|V BV N ) ahora será k−11k−2 (k − 1)(k − 2) = . P(x2 |k) = k k k k3 56 - Estimación Puntual Introducción a la Inferencia Estadı́stica k L(k|V BV N ) 3 0,0741 4 0,0938 5 0,096 6 0,0926 7 0,0875 8, . . . decreciente en k En este caso, basado en haber observado V BV N , el valor más verosı́mil para k es 5. De esta manera podemos ir hallando estimaciones para k, buscando el valor de k que maximiza la probabilidad de observar a priori la muestra que se obtuvo. Habiendo construido la función de verosimilitud, escogemos como estimación de k el valor del parámetro que maximiza dicha función. A la estimación hallada de esta manera la llamaremos estimación máximo verosı́mil. Definición 4.2.2. Sea X ∼ f (·|θ). Definimos las siguientes condiciones de regularidad sobre f : C1 - Si θ 6= θ0 ⇒ f (x|θ) 6= f (x|θ0 ). C2 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ. C3 - El verdadero valor de θ, θ0 , es un punto interior de Θ. Teorema 4.2.1. Sea θ0 el verdadero valor de θ. Bajo las condiciones de regularidad ~ > L(θ|X)) ~ = 1 ∀θ 6= θ0 . lı́m Pθ0 (L(θ0 |X) n→∞ Este teorema justifica utilizar el valor que maximiza la función de verosimilitud como estimación de θ. Este razonamiento se extiende a los casos donde no se cumple alguna de las condiciones de regularidad. Definición 4.2.3. Decimos que θ̂M V = T (X1 , . . . , Xn ) es el estimador máximo verosı́mil de θ si θ̂M V = Argmáx L(θ|~x). O sea, L(θ̂M V |~x) = máx L(θ|~x). θ∈Θ En lo que respecta a la definición no existe ninguna directiva de qué método matemático utilizar para hallar el máximo de L(θ|~x). Si L(θ|~x) es diferenciable dos veces, podemos utilizar las técnicas estándar de cálculo diferencial para hallar θ̂M V . En este último caso, a veces es más fácil trabajar con el logaritmo de la función de verosimilitud, dado que al ser el logaritmo una función creciente tiene exactamente los mismos puntos crı́ticos que L(θ|~x). Al logaritmo de L(θ|~x) lo denotaremos l(θ|~x). Ejemplo 4.2.9. Continuación ejemplos 4.2.1 y 4.2.6. Con t = n X Xi , la función de i=1 verosimilitud es θt (1 − θ)n−t . Por lo tanto, l(θ|~x) = t log θ + (n − t) log(1 − θ). Entonces, t n−t t − nθ t d l(θ|~x) = − = = 0 ⇒ θ̂ = = X̄n . dθ θ 1−θ θ(1 − θ) n Estimación Puntual - 57 Introducción a la Inferencia Estadı́stica d log l(θ|~x) depende solo de (X̄n − θ), es fácil comprobar que dθ d2 el punto crı́tico hallado es un máximo. Alternativamente, calculamos 2 log l(θ|~x) = dθ −t/θ2 − (n − t)/(1 − θ)2 < 0, ∀θ. Dado que el signo de La figura 4.2 muestra la figura 4.1 donde se ha marcado la estimación máximo verosı́mil de θ. En ese caso tenı́amos n = 10 y t = 8; con lo cual, x̄n = 0, 8. Figura 4.2: Estimador máximo verosı́mil de θ Ejemplo 4.2.10. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es desconocida y σ 2 > 0 es conocida. En este caso θ = µ ∈ R. Usando L(µ, σ 2 |~x) descrita en el ejemplo 4.2.8, tenemos que n n 1 X d 1 X 2 l(µ|~x) = c − 2 (xi − µ) ⇒ l(µ|~x) = 2 (xi − µ). 2σ i=1 dµ σ i=1 Por lo tanto, si hacemos n X (xi − µ) = 0 tenemos que θ̂M V = X̄n . i=1 d2 n l(µ|~x) = − 2 < 0 ∀µ, lo que garantiza que el punto crı́tico de l(µ|~x) 2 dµ σ hallado es un máximo. Note que Observación 4.2.3. En el ejemplo anterior, en la maximización en µ de l(µ|~x) nunca interviene σ 2 . Por lo tanto, para hallar el estimador máximo verosı́mil de µ no importa si conocemos o no el verdadero valor de σ 2 . 58 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.2.11. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R es conocida y σ 2 es desconocida. En este caso θ = σ 2 > 0. Tenemos que Pn n 2 n 1 X d 1 n 2 2 2 i=1 (xi − µ) l(σ |~x) = c− log σ − 2 (xi −µ) ⇒ l(σ |~x) = − − 2 2σ i=1 d(σ 2 ) 2 σ2 σ4 2 Con lo que tenemos, que si Pn Pn 2 2 1 n 2 i=1 (xi − µ) i=1 (xi − µ) − = 0 ⇒ σ̂ = = Sn2∗ . − 2 4 2 σ σ n 2 2∗ Para verificar que σ̂M V = Sn , basta con notar que Pn 2 d2 n n σ2 2∗ 2 i=1 (xi − µ) − Sn l(σ |~x) = 4 − = 6 d(σ 2 )2 2σ σ6 σ 2 d2 l(σ 2 |~x) d(σ 2 )2 ⇒ =− 2∗ σ 2 =Sn n (Sn2∗ )2 < 0. Ejemplo 4.2.12. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde ambos µ y σ 2 son desconocidos. En este caso θ = (µ, σ 2 ) ∈ R × R+ . En este caso combinamos lo hallado en ejemplos anteriores. En el ejemplo 4.2.10, vimos que para maximizar l(µ, σ 2 |~x) con respecto a µ no hace falta conocer el valor de σ 2 y que θ̂M V = X̄n . 2 Ahora, en el resultado de ejemplo 4.2.11, sustituimos µ por x̄n y obtenemos que σ̂M M = n X (xi − x̄n )2 /n = Sn2 . Solo nos falta verificar que (x̄n , Sn2 ) es un máximo de l(µ, σ 2 |~x). i=1 Para ello calculamos d2 l(µ, σ 2 |~x) = − 2 dµ dσ Pn i=1 (xi σ4 − µ) y verificamos que la matriz Hessiana evaluada en (x̄n , Sn2 ) es definida negativa.    Pn  d2 d2 n 2 i=1 (xi − µ) l(µ|~ x ) l(µ, σ |~ x ) − −    dµ2  dµ dσ 2  =  Pn σ 2 Pnσ 4 H= 2 2 2.  d  d (x − µ) (x − µ) n i i l(µ, σ 2 |~x) l(σ 2 |~x) − i=1 4 − i=1 6 dµ dσ 2 d(σ 2 )2 σ 2σ 4 σ Con lo cual  n 0 2   =  Sn n , 0 − 4 2Sn  G= H 2) (µ,σ 2 )=(x̄n ,Sn G11 = − − n n2 < 0 y |G| = > 0 ⇒ G es definida negativa. Sn2 Sn6 Estimación Puntual - 59 Introducción a la Inferencia Estadı́stica Ejemplo 4.2.13. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). θ ∈ R+2 . l(α, β|~x) = c + nα log β − n log Γ(α) + α n X log xi − β i=1 n X xi . i=1 Por lo tanto, el sistema de ecuaciones a resolver es n Γ0 (α) X d l(α, β|~x) = n log β − n + log xi = 0 dα Γ(α) i=1 (4.1) n nα X d l(α, β|~x) = − xi = 0 dβ β i=1 (4.2) Usando, la ecuación (4.2), podemos despejar nα β = Pn i=1 xi ⇒ β= α . x̄n Desafortunadamente, no existe expresión sencilla en la ecuación (4.1) para Γ0 (α) y por lo tanto, no hay una forma cerrada de expresar el estimador máximo verosı́mil de (α, β). Para determinar, dada una muestra en particular, qué valores toman (α̂, β̂) debemos utilizar métodos numéricos. Cuando no se cumple la condición C2 (θ es parte del Rec(X)), no se puede aplicar el método de la derivada para maximizar la verosimilitud. En algunos de estos casos, una simple inspección de la función nos lleva a encontrar el estimador máximo verosı́mil. Ejemplo 4.2.14. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . La función de verosimilitud es n n Y n 1 1 I[0<xi <θ] = I[x(1) >0] I[x(n) <θ] (4.3) L(θ|~x) = θ θ i=1 donde x(1) = mı́n{x1 , . . . , xn } y x(n) = máx{x1 , . . . , xn } La gráfica de la fórmula 4.3 se muestra en la Figura 4.3. De simple inspección, se observa que si θ es menor que x(n) , L(θ|~x) = 0 dado que existe la restricción de que todas las observaciones deben ser menores o iguales que θ dado que este es el máximo del recorrido de X. Cuando θ ≥ x(n) , L(θ|~x) es decreciente en θ. Por lo cual, cuanto más pequeño sea el valor de θ, mayor será el valor de L(θ|~x). En vista de esto, el mı́nimo valor que le podemos dar a θ es el máximo valor observado. Esto es, θ̂M V = X(n) . Nótese que el punto θ = x(n) es un punto de discontinuidad de L(θ|~x) y por lo tanto no es existe la derivada con respecto a θ en ese punto. 60 - Estimación Puntual Introducción a la Inferencia Estadı́stica Figura 4.3: Función de verosimilitud, X ∼ Uniforme(0, θ), n = 10 y x(10) = 4. Ejemplo 4.2.15. Sean X(1) < . . . < X(n) las estadı́sticas de orden de una MA de X ∼ Uniforme(θ − 1/2, θ + 1/2). La función de verosimilitud está dada por L(θ|~x) = I[θ−1/2<x(1) ] I[x(n) <θ+1/2] = I[θ<x(1) +1/2] I[x(n) −1/2<θ] = I[x(n) −1/2<θ<x(1) +1/2] . ~ que cumpla X(n) − 1/2 < T (X) ~ < X(1) + 1/2 Por lo cual, cualquier estadı́stico T (X) es un EMV de θ. Los estadı́sticos, ~ = T1 (X) 4X(1) + 2X(n) + 1 6 ~ = T2 (X) X(1) + X(n) 2 ~ = T1 (X) 2X(1) + 4X(n) − 1 , 6 cumplen con la restricción y por lo tanto son todos EMV de θ. Este ejemplo muestra que los EMV no necesariamente son únicos. Esto suele suceder cuando no se cumplen las condiciones de regularidad definidas en 4.2.2. Suponga que nos encontramos en la situación del ejemplo 4.2.12.√Pero en lugar de estar interesados en la varianza de X, deseamos estimar su desvı́o estándar, σ = σ 2 . Para ellos debemos plantearnos las dos ecuaciones d/dµ l(µ, σ|, ~x) = 0 y d/dµ l(µ, σ|, ~x) = 0 Vimos que la maximización con respecto a µ no involucraba a σ 2 , por lo cual el estimador máximo verosı́mil de µ sigue siendo el mismo que antes X̄n . Por lo cual para hallar el estimador máximo verosı́mil de σ, resolveremos la ecuación d/dσ l(σ|µ = x̄n , ~x) = 0. Esto es, Pn Pn 2 2 d d n i=1 (xi − x̄n ) i=1 (xi − x̄n ) l(σ|µ = x̄n , ~x) = −n log σ − = − + =0 dσ dσ 2σ 2 σ σ3 r Pn q 2 p i=1 (xi − x̄n ) 2 ⇒ σ̂M V = = Sn2 = σ̂M V n Esto es, el estimador máximo verosı́mil de la raı́z cuadrada de la varianza de X es nada más que la raı́z cuadrada del estimador máximo verosı́mil de la varianza de X. Esto se debe a la propiedad de invarianza de los estimadores máximo verosı́miles. Teorema 4.2.2. Si θ̂M V es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂M V ). Estimación Puntual - 61 Introducción a la Inferencia Estadı́stica Ejemplo 4.2.16. Continuación del ejemplo 4.2.9. Suponga que ahora deseamos estimar Var(X) = nθ(1 − θ). En este caso, τ (θ) = nθ(1 − θ) y sabemos que θ̂M V = X̄n . Por lo tanto, la propiedad de invarianza de los estimadores máximo verosı́mil nos indica que τd (θ) = τ (θ̂M V ) = τ (X̄n ) = nx̄n (1 − X̄n ). Ejemplo 4.2.17. Continuación del ejemplo 4.2.12. Se desea estimar P(X ≤ a). Sabemos que a−µ = τ (µ, σ) P(X ≤ a) = Φ σ p 2 2 y que µ̂M V = X̄n y σ̂M = S . Por lo tanto, σ̂ = Sn2 = Sn y M V V n τ\ (µ, σ)M V = τ (µ̂M V , σ̂M V ) = τ (X̄n , Sn ) = Φ a − X̄n Sn 4.3. Evaluación de Estimadores Hemos desarrollado dos métodos para construir estimadores. Habiéndolos contruidos, surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos criterios. Un criterio fundamental es el principio de suficiencia desarrollado en el capı́tulo anterior. En este nuevo contexto sigue siendo de suma importancia. Si para un problema dado existen estimadores suficientes no tiene sentido prestarle atención a estimadores que no lo sean. Recuerde que la suficiencia de un estimador T para un parámetro θ implicaba que toda la informaci’on que hay en la muestra acerca de θ está está contenida en T . Esto es, una vez que sabemos el valor de T (~x) es irrelevante conocer cuál es la muestra en particualr que obtuvimos. Observación 4.3.1. Note que si T es suficiente para θ L(θ|~x) = g(T (~x); θ)h(~x) ⇒ l(θ|~x) = log g(T (~x); θ) + log h(~x). Esto implica que para encontrar el estimador máximo verosı́mil de θ tenemos que resolver la ecuación d d l(θ|~x) = log g(T (~x); θ) = 0. dθ dθ Por lo tanto, si existe el estimador máximo verosı́mil de θ, este es una función de un estadı́stico suficiente. Este resultado se puede generalizar para el caso donde no se puede usar cálculo diferencial para hallar el estimador máximo verosı́mil de θ. En esta sección definiremos criterios de optimalidad y cómo verificar cuáles estadı́sticos lo alcanzan. 62 - Estimación Puntual Introducción a la Inferencia Estadı́stica 4.3.1. Información de Fisher Decimos que una estadı́stica suficiente extrae “toda la información que tiene la muestra” acerca de θ. La pregunta entonces es ¿cuánta información hay en la muestra acerca de θ que queremos preservar? Para contestarla, nos enfocaremos solo en el caso univariado. Esto puede ser fácilmente generalizado al caso donde θ es un vector de parámetros. Suponga que X es una variable aleatoria real con distribución f (x|θ), con θ ⊆ R, tal que R1 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ. d f (x|θ) < ∞, ∀x ∈ X , θ ∈ Θ. dθ Z Z d d R3 f (x|θ). f (x|θ) = dθ dθ R2 - Definición 4.3.1. Sean X1 , . . . , Xn variables aleatorias. Bajo las condiciones R1, R2 y R3, la información de Fisher, o simplemente la información, acerca de θ contenida en la muestra es " 2 # d ~ . log fX~ (X|θ) IX~ (θ) = Eθ dθ Ejemplo 4.3.1. Cuando X1 , . . . , Xn es una MA de X ∼ Bernoulli(θ), encontramos en el ejemplo 4.2.9 que l(θ|~x) = t log θ + (n − t) log(1 − θ) y d t − nθ l(θ|~x) = . dθ θ(1 − θ) (4.4) Por lo tanto, recordando que Var(X) = θ(1 − θ), " 2 # t − nθ 1 nθ(1 − θ) n IX~ (θ) = E = E (t − nθ)2 = = . 2 2 θ(1 − θ) [θ(1 − θ)] [θ(1 − θ)] θ(1 − θ) ⇒ IX~ (θ) = n Var(X) Esto significa que, dejando n fijo, la información contenida en la muestra acerca de θ es mayor cuanto menor sea la dispersión de la variabale aleatoria X. Esto es, cuanto más concentrada esté su distribución alrededor del valor esperado θ. Note que la varianza de X, vista como una función de θ, alcanza su mayor valor cuando θ = 0, 5. Por lo cual cuanto más se cerca esté el verdadero valor de θ de 0 o 1, más información nos dará la muestra acerca de θ. Ejemplo 4.3.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es desconocida y σ 2 > 0 es conocida. En el ejemplo 4.2.10 hallamos que   !2  !2  n n n X X X d 1 1 ~ = 1 l(µ|X) (Xi −µ) ⇒ IX~ (µ) = E  2 (Xi − µ)  = 4 E  (Xi − µ)  . 2 dµ σ i=1 σ i=1 σ i=1 Estimación Puntual - 63 Introducción a la Inferencia Estadı́stica Note que " n X #2 (Xi − µ) = i=1 n X n X n X (Xi − µ) + 2 (Xi − µ)(Xj − µ) 2 i=1 i=1 j=1 i<j Por lo cual " n #2 n n X n n X X X X 2 E (Xi − µ) = E(Xi −µ) +2 E[(Xi −µ)(Xj −µ)] = E(Xi −µ)2 = nσ 2 i=1 i=1 i=1 j=1 i<j i=1 Dado que E[(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = 0 y E(Xi − µ)2 = σ 2 . n . Note que, para n fijo, IX~ (µ) → 0 si σ 2 → ∞ y que IX~ (µ) → ∞ si 2 σ σ 2 → 0. Con lo cual, la información contenida en la muestra acerca de µ es más grande cuanto más concentrada es la distribución de X alrededor de µ. Dejando σ 2 fijo, se ve que la información aumenta a medida que incrementamos el tamaño de la muestra. Entonces, IX~ (µ) = d ~ se le denomina función score. Esta función mide la l(θ|X) dθ sensibilidad de f (~x|θ) a cambios en valor de θ. Definición 4.3.2. A la función Observación 4.3.2. La derivada de una función mide la rapidez con la que cambia el valor de dicha función matemática, según cambie el valor de su variable independiente. El valor de la derivada de una función en un punto puede interpretarse geométricamente, ya que se corresponde con la pendiente de la recta tangente a la gráfica de la función en dicho punto. En la función score, la variable independiente es el parámetro a estimar θ. Esto es, la función score da una idea de la curvatura de la función de verosimlitud. En lo que sigue asumiremos la siguiente notación Z Z ∞ Z ∞ ... f (x1 , . . . , xn |θ) dx1 . . . dxn = −∞ ∞ f (~x|θ) d~x. −∞ −∞ Asumiendo que X es absolutamente continua (el caso discreto es similar cambiando las integrales por sumatorias) y que se cumplen las condicones R1, R2 y R3. Sabemos que Z ∞ 1= fX~ (~x|θ) dx. −∞ Por lo tanto, d 0 = Zdθ Z ∞ ∞ −∞ fX~ (~x|θ) d~x (derivamos una constante) d f ~ (~x|θ) d~x (se cumple R3) dθ X Z−∞ ∞ f ~ (~x|θ) f ~ (~x|θ) d = fX~ (~x|θ) X d~x (multiplicamos por 1 = X ) dθ fX~ (~x|θ) fX~ (~x|θ) Z−∞ ∞ d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x (definición de derivada de log f ) −∞ dθ d ~ = Eθ log fX~ (X|θ) . dθ = 64 - Estimación Puntual Introducción a la Inferencia Estadı́stica Por lo tanto, Eθ d ~ log fX~ (X|θ) =0 dθ Lo cual a su vez implica que Varθ " 2 # d d ~ ~ log fX~ (X|θ) = Eθ log fX~ (X|θ) = IX~ (θ). dθ dθ (4.5) Se definen las siguientes condiciones adicionales d2 f ~ (~x|θ) < ∞, ∀~x ∈ X , θ ∈ Θ. d θ2 X Z Z d2 d2 R5 fX~ (~x|θ) = f ~ (~x|θ). d θ2 d θ2 X R4 - Si estas condiciones se cumplen, derivando nuevamente tenemos que d2 0 = 2 Zdθ Z ∞ −∞ ∞ 2 fX~ (~x|θ) d~x d f ~ (~x|θ) d~x dθ2X Z−∞ ∞ d d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x dθ dθ −∞ 2 Z ∞ 2 Z ∞ d d = log(fX~ (~x|θ)) fX~ (~x|θ) d~x + log(fX~ (~x|θ)) fX~ (~x|θ) d~x dθ2 dθ −∞ Z−∞ ∞ d2 = log(fX~ (~x|θ)) fX~ (~x|θ) d~x + IX (θ). dθ2 −∞ = De donde, Z IX~ (θ) = − ∞ −∞ 2 d2 d ~ log(fX~ (~x|θ)) fX~ (~x|θ) d~x = −Eθ log(fX~ (X|θ)) dθ2 dθ2 (4.6) Observación 4.3.3. Sea X ∼ fX (x|θ). Si fX (x|θ) pertence a la familia exponencial, entonces, R1, R2, R3, R4 y R5 se cumplen. Entonces, podemos aplicar la fórmula 4.6. Ejemplo 4.3.3. Continuación del ejemplo 4.3.2. ! n n Y d d 1 X d2 n ~ (Xi − µ) ⇒ l(µ|X) = log l(µ|~x) = − 2 fXi (xi ) = 2 2 dµ dµ σ i=1 dµ σ i=1 n n ⇒ IX~ (µ) = −E − 2 = 2 . σ σ Estimación Puntual - 65 Introducción a la Inferencia Estadı́stica Teorema 4.3.1. Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ). Sea " " 2 # 2 # d d ~ IX1 (θ) = Eθ log fX (X|θ) y IX~ (θ) = Eθ log fX~ (X|θ) dθ dθ la información acerca de θ contenida en X1 y la contenida en la muestra respectivamente. Entonces, IX~ (θ) = nIX1 (θ) ∀θ ∈ Θ. (4.7) Demostración. Sabemos que bajo independencia e idéntica distribución n n n Y X d d d X d log fX~ (~x|θ) = log fX (xi |θ) = log fXi (xi |θ) = log fXi (xi |θ). dθ dθ dθ dθ i=1 i=1 i=1 (4.8) Por lo tanto, d ~ IX~ (θ) = Varθ log fX~ (X|θ) (fórmula 4.5) dθ ! n X d = Var log fXi (Xi |θ) (fórmula 4.8) dθ i=1 n X d = Var log fXi (Xi |θ) (independencia) dθ i=1 = n X IXi (θ) (definición de IXi (θ)) (4.9) i=1 = nIX1 (θ) (idéntica distribución). (4.10) Observación 4.3.4. De 4.9 se desprende que bajo independencia la información es aditiva: Si X y Y son v.a. independientes; IX (θ) e IY (θ) representan la información acerca de θ contenida en X y Y respectivamente. Entonces, IX,Y (θ) = IX (θ) + IY (θ). Ejemplo 4.3.4. Continuación del ejemplo 4.3.1. Para una observación, L(θ|x) = θx (1−θ)1−x , de donde l(θ|x) = x log θ+(1−x) log(1−θ). Entonces d x 1−x x−θ [x log θ + (1 − x) log(1 − θ)] = − = . dθ θ 1−θ θ(1 − θ) Entonces, " IX (θ) = E X −θ θ(1 − θ) 2 # = E[(X − θ)2 ] 1 = . 2 2 θ (1 − θ) θ(1 − θ) De donde, por 4.10 IX~ (θ) = nIX (θ) = n θ(1 − θ) 66 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.5. Si se cumplen las condiciones para que se puedan aplicar las fórmulas (4.6) y (4.7), ambas se pueden combinar. Sea X1 , . . . , Xn es una MA de X ∼ Gamma(3, β). En este caso se cumplen las condiciones dado que trabajamos con una MA y además fX (x|β) pertenece a la familia exponencial. Entonces, f (x|β) = ⇒ β 3 2 −βx xe ⇒ log f (x|β) = c + 3 log β − βx Γ(3) d 3 d2 3 log f (x|β) = − x ⇒ log f (x|β) = − 2 . 2 dβ β dβ β Entonces, usando primero la fórmula (4.6) y luego la fórmula (4.7), 2 3 3n d log f (x|β) = ⇒ I (θ) = nI (θ) = . IX (θ) = −E ~ X X dβ 2 β2 β2 Definición 4.3.3. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ). Sea T = T (X1 , . . . , Xn ), un estadı́stico con función de densidad o cuantı́a fT (t|θ). Bajo las condiciones R1, R2 y R3, la información de Fisher, o simplemente la información, acerca de θ contenida en T es " 2 # d log fT (T |θ) . IT (θ) = Eθ dθ Teorema 4.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ) y T = T (X1 , . . . , Xn ) un estadı́stico. Entonces, IX~ (θ) ≥ IT (θ) ∀θ ∈ Θ. La igualdad se cumple si y solo si T es suficiente para θ. Ejemplo 4.3.6. Continuación del ejemplo 4.3.4. T = n X Xi es suficiente para θ. T ∼ Binomial(n, θ). Por lo cual, i=1 n t fT (t|θ) = θ (1 − θ)n−t ⇒ log fT (t|θ) = c + t log θ + (n − t) log(1 − θ). t ⇒ d t n−t t − nθ log fT (t|θ) = − = . dθ θ 1−θ θ(1 − θ) Esta última fórmula es exactamente la ecuación 4.4, que derivamos en el ejemplo 4.3.1 para hallar IX~ (θ). Estimación Puntual - 67 Introducción a la Inferencia Estadı́stica ~ ∼ fT (t|θ) un estadı́stico tal que: 1) fT (t|θ) satisface las condicioTeorema 4.3.3. Sea T = T (X) nes R1, R2 y R3; 2) E(T ) = θ. Entonces, ~ ≥ I−1 (θ). Var(T (X)) ~ X Demostración. Recuerde la desigualdad de Cauchy-Schwarz: Dadas dos variables aleatorias W y Z, [E(W Z)]2 ≤ E(W 2 )E(Z 2 ). Z ∞ Si E(T ) = θ, tenemos que E(T − θ) = −∞ (T (~x) − θ)fX~ (~x|θ) d~x = 0. De donde, Z ∞ Z ∞ d d R3 0= (T (~x) − θ)fX~ (~x|θ) d~x = (T (~x) − θ)fX~ (~x|θ) d~x dθ −∞ −∞ dθ Z ∞ Z ∞ d (T (~x) − θ) fX~ (~x|θ) d~x. fX~ (~x|θ) d~x + =− dθ −∞ −∞ Esta última igualdad la obtenemos de aplicar lafórmula de la derivada de un producto de dos d d funciones. Recordando además que f ~ (~x|θ) = log fX~ (~x|θ) fX~ (~x|θ), tenemos que dθ X dθ Z ∞ d (T (~x) − θ) log fX~ (~x|θ) f (~x|θ) d~x = 1. dθ −∞ d log fX~ (~x|θ), acabamos de mostrar es que E(W Z) = 1. Además dθ " 2 # d ~ ~ − θ)2 = Var(T ) log fX~ (X|θ) = IX~ (θ). E(W 2 ) = E (T (X) E(Z 2 ) = E dθ Tomando W = (T (~x)−θ) y Z = Aplicamos a W y Z la desigualdad de Cauchy-Schwarz y tenemos que ~ ≥ I−1 (θ). Var(T ) IX~ (θ) ≥ 1 ⇒ Var(T (X)) ~ X Ejemplo 4.3.7. Continuación ejemplo 4.3.2. n Sabemos que IX~ (µ) = 2 y que E(X̄n ) = µ. Por lo tanto, el teorema anterior especifica σ n −1 σ2 σ2 que Var(X̄n ) ≥ = . Pero para este problema, sabemos que Var( X̄ ) = . n σ2 n n 0 0 0 Lo que implica que no existe otro estimador T = T (X1 , . . . , Xn ), con E(T ) = µ, tal que Var(X̄n ) > Var(T 0 ). 68 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.8. Sea X1 , . . . , Xn , una MA de X ∼ N(µ, σ 2 ), µ ∈ R, σ 2 ∈ R+ , ambas desconocidas y n > 2. Estamos interesados en calcular IX~ (σ 2 ). 1 2 2 − 21 2 fX (x|µ, σ ) = (2πσ ) exp − 2 (x − µ) 2σ 1 1 log σ 2 − 2 (x − µ)2 2 2σ d 1 1 ⇒ 2 log fX (x|µ, σ 2 ) = − 2 + 4 (x − µ)2 dσ 2σ 2σ 2 d 1 1 ⇒ log fX (x|µ, σ 2 ) = 4 − 6 (x − µ)2 2 2 d(σ ) 2σ σ ⇒ log fX (x|µ, σ 2 ) = c − E d2 1 1 2 2 log fX (x|µ, σ ) = E − (X − µ) d(σ 2 )2 2σ 4 σ 6 1 1 = 4 − 6 E(X − µ)2 2σ σ 1 1 = 4 − 6 σ2 2σ σ 1 =− 4 2σ De donde, 2 IX~ (σ ) = −nE d2 n 2 log fX~ (~x|µ, σ ) = 4 2 2 d(σ ) 2σ . Sabemos que Sn02 es un estimador de σ 2 con E(Sn02 ) = σ 2 . Además, (n−1)Sn02 /σ 2 ∼ χ2n−1 . Por lo tanto, 2σ 4 2σ 4 2 > = I−1 Var(Sn02 ) = ~ (σ ). X n−1 n Esto significa que podrı́a llegar a existir un estimador T 0 = T (X1 , . . . , Xn ) de σ 2 , con E(T 0 ) = σ 2 , tal que Var(T 0 ) < Var(Sn02 ). 4.3.2. Error Cuadrático Medio Necesitamos una medida que nos permita comparar estimadores. ¿Cómo debemos proceder para comparar las perfomances de estimadores de una función τ (θ) y decidir cuál es el “mejor”estimador de entre todos sus posibles estimadores? Definición 4.3.4. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es un estimador insesgado de τ (θ) si y solo si Eθ (T ) = τ (θ), ∀θ ∈ Θ. Si T no es un estimador insesgado entonces diremos que es un estimador sesgado de τ (θ). Definición 4.3.5. Para un estimador real T de τ (θ), el sesgo de T se define como Bθ (T ) = Eθ (T ) − τ (θ), θ ∈ Θ. Estimación Puntual - 69 Introducción a la Inferencia Estadı́stica Intuitivamente un estimador insesgado de τ (θ) alcanza su objetivo τ (θ) en promedio. O sea, la diferencia Eθ (T )−τ (θ) para algunas muestras es positiva, para otras es negativa, pero en promedio, sobre todas las muestras, la diferencia es cero. Es por eso, que la propiedad de insesgamiento es atractiva desde un punto de vista estadı́stico. Ejemplo 4.3.9. El teorema 1.1.1 muestra que los momentos muestrales, Mk , son estimadores insesgados de los correspondientes momentos poblacionales, µk , siempre y 0 cuando estos existan. En particular, X̄n es un estimador insesgado de E(X) y Sn2 es un estimador insesgado de Var(X) Ejemplo 4.3.10. Estimadores insesgados no necesariamente existen. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Deseamos estimar de manera n X insesgada, τ (θ) = θ−1 . Sabemos que T = Xi es suficiente para θ y además que i=1 T ∼ Binomial(n, θ). Dada la suficiencia de T , deseamos construir un estimador h(T ) tal que Eθ (h(T )) = θ−1 . Esto es, n X n t 1 h(t) θ (1 − θ)n−t = Eθ (h(T )) = t θ t=0 Esta ecuación puede ser reescrita como n X n t+1 h(t) θ (1 − θ)n−t − 1 = 0 t t=0 (4.11) El lado izquierdo de (4.11) es un polinomio de grado n + 1 en θ y estamos imponiendo que este sea igual a 0 para todo θ ∈ (0, 1). El Teorema Fundamental del Álgebra establece que un polinomio de grado n tiene a lo sumo n raı́ces reales. Por lo cual, (4.11) tiene a lo sumo n + 1 soluciones en (0,1). En vista de esto, es imposible que se cumpla la igualdad para todo θ ∈ (0, 1) y en consecuencia no existe, bajo este tipo de muestreo, un estimador insesgado para θ−1 . Ejemplo 4.3.11. En algunos casos, estimadores insesgados no son de utilidad. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ > 0. Sea τ (θ) = Pθ (X = 0) = e−θ . n X Se sabe que T = Xi es suficiente para θ y además que T ∼ Poisson(nθ). Dada la i=1 T suficiencia de T , se propone como estimador de τ (θ) a Y = h(T ) = 1 − n−1 . Note que t t ∞ ∞ X X 1 − n1 nθ 1 1 e−nθ (nθ)t −nθ =e = e−nθ e(1− n )nθ = e−θ . E(h(T )) = 1− n t! t! t=0 t=0 70 - Estimación Puntual Introducción a la Inferencia Estadı́stica Por lo tanto, h(T ) es un estimador insesgado de e−θ . Sin embargo, si n = 1, h(T ) = 0 ∈ / Θ = (0, 1). Ejemplo 4.3.12. Estimadores insesgados no son únicos. Sea X1 , . . . , Xn una MA de X 0 1. Si X ∼ Poisson(θ). Tanto, X̄n como Sn2 son estimadores insesgados de θ. 1 2. Si X ∼ N(θ, 1). T1 = X̄n , T2 = (X1 + X2 ) y T3 = X1 + T2 − X4 son algunos 2 estimadores insesgados de θ. 3. Si T1 y T2 son estimadores insesgados de τ (θ), entonces T3 = αT1 + (1 − α)T2 , α ∈ [0, 1], es un estimador insesgado de τ (θ). Definición 4.3.6. Suponga que un estadı́stico real T = T (X1 , . . . , Xn ) es un estimador de τ (θ). Entonces, el error cuadrático medio (ECM) del estimador T está dado por Eθ [(T − τ (θ))2 ]. Teorema 4.3.4. Si T es un estadı́stico usado para estimar τ (θ), entonces su error cuadrático medio se puede descomponer en ECMθ (T ) = Varθ (T ) + (Eθ (T ) − τ (θ))2 . Esto es, la varianza de T más el cuadrado de su sesgo. Demostración. ECMθ (T ) = Eθ [(T − τ (θ))2 ] = Eθ [(T − Eθ (T ) + Eθ (T ) − τ (θ))2 ] = Eθ [(T − Eθ (T ))2 ] + Eθ [(Eθ (T ) − τ (θ))2 ] + 2Eθ [(T − Eθ (T ))(Eθ (T ) − τ (θ))] = Varθ (T ) + (Eθ (T ) − τ (θ))2 + 2(Eθ (T ) − τ (θ)) Eθ [(T − Eθ (T ))] {z } | =0 2 = Varθ (T ) + (Eθ (T ) − τ (θ)) Observación 4.3.5. En el caso que T sea un estimador insesgado de τ (θ), ECMθ (T ) = Varθ (T ). Definición 4.3.7. Sea C una clase no vacı́a de estimadores de τ (θ). Sea T1 ∈ C. Decimos que T1 es el mejor estimador de τ (θ) en términos del ECM, si para cualquier otro estimador T2 ∈ C ECMθ (T1 ) ≤ ECMθ (T2 ) ∀θ ∈ Θ. Estimación Puntual - 71 Introducción a la Inferencia Estadı́stica Ejemplo 4.3.13. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). θ = (µ, σ 2 ) ∈ Θ = R×R+ . Asuma n ≥ 2. Deseamos estimar τ (θ) = σ 2 . Consideramos dos posibles estimadores de τ (θ): n − 1 02 n − 1 0 S = T1 . T1 = Sn2 y T2 = n+1 n n+1 Sabemos que T1 es un estimador insesgado de σ 2 . Además sabemos que 0 (n − 1)Sn2 2σ 4 2 . ∼ χ ⇒ ECM (T ) = Var (T ) = θ 1 θ 1 n−1 σ2 n−1 De la relación que existe entre T1 y T2 , tenemos además que Eθ (T2 ) = n−1 2 σ n+1 y Varθ (T2 ) = 2(n − 1) 4 σ . (n + 1)2 De donde, 2 2σ 4 2(n − 1) 4 n−1 2 2 = ECMθ (T2 ) = σ + σ −σ . n+1 n+1 n+1 Por lo tanto, ECMθ (T1 ) > ECMθ (T2 ). Esto es, en términos del ECM, T2 es preferible a T1 como estimador de σ 2 . Note que en este caso, un estimado sesgado es preferible a uno insesgado. La figura 4,4 muestra la comparación de ECMθ (T1 ) y ECMθ (T2 ), cuando n = 20. Figura 4.4: ECM de estimadores de σ 2 (n = 20) Note que ECMθ es una función de θ. Por lo cual, cuando comparamos estimadores usando el criterio del ECM, lo que hacemos es comparar funciones. Decimos que un estimador T1 es “mejor” que otro estimador T2 , si el ECMθ (T1 ) está uniformemente por debajo del ECMθ (T2 ). En otros casos la elección no es posible. 72 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.14. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Se proponen como estimadores de θ a T1 = X̄n y a T2 = 1/2. Esto es, no importa qué muestra observemos, T2 siempre le asigna a θ el valor 0,5. Note que Varθ (T2 ) = 0, por lo cual ECMθ (T2 ) = (0, 5 − θ)2 . Por su parte, T1 es insesgado. Lo que implica que ECMθ (T1 ) = Varθ (T1 ) = θ(1 − θ)/n. La figura 4.5 muestra que, en términos de ECM, T2 es preferible a T1 si θ ∈ (0, 4; 0, 6). En otro caso, T1 es preferible a T2 . Al desconocerse el verdadero valor de θ, no es posible decidir entre T1 y T2 . Figura 4.5: ECM de estimadores de σ 2 (n = 20) Note que si el verdadero valor de θ es 0,5, no existe mejor estimador de θ que T2 y en ese punto ECMθ (T2 ) = 0. Además, note que ECMθ (T1 ) > 0, ∀θ ∈ (0, 1). 4.3.3. Mejor estimador insesgado Podemos reducir nuestra clase C de estimadores de τ (θ) y dentro de esa clase reducida buscar el “mejor” estimador. Una posible reducción es enfocar nuestra búsqueda dentro de la clase de los estimadores insesgados de τ (θ). Definición 4.3.8. Asuma que existe al menos un estimador insesgado de τ (θ). Sea C la clase de todos los estimadores insesgados de τ (θ). Un estimador T ∈ C es el mejor estimador insesgado o Estimación Puntual - 73 Introducción a la Inferencia Estadı́stica el estimador insesgado de uniformemente mı́nima varianza de τ (θ) si y solo si para cualquier otro estimador T ∗ ∈ C, tenemos que Varθ (T ) ≤ Varθ (T ∗ ) ∀θ ∈ Θ. Ejemplo 4.3.15. Continuación ejemplo 4.3.12. 0 Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Deseamos estimar θ. X̄n y Sn2 son estimadores insesgados de θ. Usando los resultados de los Colorarios 1.1.1 y 1.1.2, sabiendo que µ4 = 3θ2 + θ, tenemos que Varθ (X̄n ) = θ n y 0 Varθ (Sn2 ) = θ 2θ2 + . n n−1 0 Por lo tanto, si n ≥ 2, Varθ (X̄n ) < Varθ (Sn2 ), ∀θ > 0. Por lo tanto, X̄n es preferible a 0 Sn2 como estimador de θ. Existen diferentes métodos para identificar el mejor estimador insesgado. El que discutiremos es una extensión del teorema 4.3.3. Este teorema, bajo ciertas condiciones, establecı́a una cota inferior para la varianza de estimadores insesgados de θ. Usando este resultado, en el ejemplo 4.3.7 mostramos que X̄n alcanzaba la cota inferior. Por lo tanto, podemos afirmar que X̄n es el mejor estimador insesgado para la esperanza de una variable aleatoria con distribución normal. Extenderemos el resultado para estimadores insesgados de τ (θ). ~ = (X1 , . . . , Xn ) una variable aleatoria Teorema 4.3.5. Cota (inferior) de Cramer-Rao. Sea X ~ un estimador insesgado para con función de densidad conjunta fX~ (~x|θ), θ ∈ Θ ⊆ R. Sea T (X) ~ = τ (θ). Donde τ (·) es una función diferenciable en θ. Si además f ~ τ (θ). Es decir, Eθ (T (X)) X satisface las condiciones R1, R2 y R3, entonces 2 τ (θ) ~ ≥ dθ = CCR(τ (θ)) Varθ (T (X)) IX~ (θ) d A la cantidad CCR(τ (θ)) se le llama Cota (inferior) de Cramer-Rao para la varianza de estimadores insesgados de τ (θ). d Observación 4.3.6. En el caso que τ (θ) ≡ θ, tenemos que τ (θ) = 1. Por lo cual, el teorema dθ 4.3.3 es un caso particular del teorema 4.3.5. La demostración del teorema 4.3.5 es similar a la del teorema 4.3.3, sustituyendo (T − θ) por (T − τ (θ)). La demostración involucra a la desigualdad de Cauchy-Schwarz. La igualdad en esta desigualdad, [E(W Z)]2 = E(W 2 )E(Z 2 ), se cumple si y solo si Z = aW + b (alternativamente, d ~ cuando W = cZ + d). En nuestra demostración, Z = log fX~ (X|θ) y W = T − τ (θ), por lo cual dθ podemos establecer las condiciones para que la cota de Cramer-Rao sea alcanzable. 74 - Estimación Puntual Introducción a la Inferencia Estadı́stica ~ = CCR(τ (θ)) si Corolario 4.3.1. Bajo las condiciones del teorema 4.3.5. Entonces Varθ (T (X)) y solo si existe una función a(θ) tal que a(θ)(T (~x) − τ (θ)) = d log fX~ (~x|θ). dθ Observación 4.3.7. La cota es alcanzable si y solo si fX~ pertenece a la familia exponencial. 0 Ejemplo 4.3.16. Continuación ejemplo 4.3.8. Vimos que Sn2 no alcanza la cota de Cramer-Rao. Aplicando el corolario 4.3.1, tenemos que Pn n 2 n d n 1 X 2 2 2 i=1 (xi − µ) (xi − µ) = 4 −σ log fX~ (~x|µ, σ ) = − 2 + 4 dσ 2 2σ 2σ i=1 2σ n Pn (xi − µ)2 Esto es, con a(σ ) = n/2σ , el mejor estimador insesgado de σ es T = i=1 . n Esta cantidad depende de µ, por lo tanto T es un estimador solo si µ es conocido. En otro caso, no existe un estimador insesgado de σ 2 que alcance la cota de Cramer-Rao. 2 4 2 Ejemplo 4.3.17. Continuación ejemplo 4.3.15. Pn Pn n n d i=1 xi i=1 xi log fX~ (~x|θ) = −n + = − θ = (x̄n − θ) . dθ θ θ n θ Por lo tanto, X̄n alcanza la Cota de Cramer-Rao y es, por lo tanto, el mejor estimador insesgado de θ. Para verificarlo, note que T = n X Xi es suficiente para θ con lo cual IX~ (θ) = IT (θ). i=1 Dado que T ∼ Poisson(nθ), tenemos que e−nθ (nθ)t d t fT (t|θ) = ⇒ log fT (t|θ) = c − nθ + t log θ ⇒ log fT (t|θ) = −n + t! dθ θ ⇒ d2 t log fT (t|θ) = − 2 . 2 dθ θ Por lo cual, T n IX~ (θ) = −Eθ − 2 = . θ θ (4.12) Además, Varθ (X̄n ) = Varθ (X)/n = θ/n. Entonces, Varθ (X̄n ) = I−1 ~ (θ) = CCR(θ) X Estimación Puntual - 75 Introducción a la Inferencia Estadı́stica x2 2 Ejemplo 4.3.18. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ) = xe− θ I[x>0] . θ ! Pn 2 n Y Pn 2 n x 2 i=1 xi fX~ (~x|θ) = ⇒ log fX~ (~x|θ) = c − n log θ − i=1 i xi exp − θ θ θ i=1 n d ~ log fX~ (X|θ) =− + dθ θ Pn i=1 θ2 x2i n = 2 θ Pn x2i −θ Xi2 . i=1 n Pn Por lo tanto, el mejor estimador insesgado de θ es T = i=1 n Ejemplo 4.3.19. Continuación ejemplo 4.3.11. Recuerde que X ∼ Poisson(θ) y que deseamos estimar de manera insesgada τ (θ) = e−θ . n X −1 T donde T = Xi es el estadı́stico Se propone el estimador Y = h(T ) = 1 − n i=1 suficiente para θ. Si n ≥ 2 se puede probar, por otros medios, que el estimador propuesto es el mejor estimador insesgado de τ (θ). Sin embargo, su varianza no alcanza la cota de CramerRao para estimadores insesgados de e−θ . Para ver esto, sabemos que T ∼ Poisson(nθ). Por lo cual, su función generatriz de momentos es MT (s) = Eθ esT = exp{nθ(es − 1)} ∀s ∈ R. (4.13) Usando la fórmula (4.13) con s = 2 log(1 − n−1 ) tenemos que h h i i 2 −1 2T T (2 log(1−n−1 )) Eθ (Y ) = Eθ 1 − n = Eθ e = MT (2 log(1 − n−1 )) n o −1 = exp nθ(e2 log(1−n ) − 1) = exp{−2θ + n−1 θ} De donde, Varθ (Y ) = exp{−2θ + n−1 θ} − exp{−2θ} = e−2θ (eθ/n − 1). (4.14) Usando la fórmula (4.12), tenemos que CCR(e−θ ) = d −θ 2 e dθ IX~ (θ) = e−2θ n θ = e−2θ θ . n (4.15) Comparando (4.14) con (4.15) y notando que si x > 0 se cumple que ex > 1+x tenemos que θ e−2θ θ Varθ (Y ) = e−2θ (eθ/n − 1) > e−2θ (1 + − 1) = = CCR(e−θ ). n n Por lo cual, Varθ (Y ) no alcanza la cota de Cramer-Rao 76 - Estimación Puntual Introducción a la Inferencia Estadı́stica Ejemplo 4.3.20. Si las condiciones del teorema no se cumplen, la Cota de CramerRao no se puede calcular. Un caso claro donde no se cumplen las condiciones es cuando X ∼ Uniforme(0, θ). En este caso no se cumple, por ejemplo, R1, ni R3. Asumiendo que n = 1, tenemos que 1 (4.16) fX (x|θ) = I[x>0] I[x<θ] θ Z ∞ Z ∞ d fX (x|θ) dx = 1, tenemos que fX (x|θ) dt = 0. Pero, Entonces, dado que dθ −∞ −∞ Z θ d fX (x|θ) dx no existe, dado que I[x<θ] es discontinua en x = θ y por lo tanto no 0 dθ es derivable con respecto a θ. Definición 4.3.9. Sea T un estimador insesgado de τ (θ). Se dice que T es eficiente u óptimo si su varianza alcanza la Cota de Cramer-Rao. Definición 4.3.10. Sea T un estimador insesgado de τ (θ). El cociente entre su varianza y la CCR(τ (θ)) se le llama la eficiencia de T . Las definiciones 4.3.9 y 4.3.10 solo tienen sentido si la CCR(τ (θ)) es alcanzable. Definición 4.3.11. Sean T1 y T2 dos estimadores insesgados de τ (θ). Al cociente de sus varianzas se le llama la eficiencia relativa de un estimador con respecto al otro. Ejemplo 4.3.21. La eficiencia puede ser utilizada para determinar los tamaños de muestras relativos necesarios para alcanzar la misma precisión, medida por la varianza, de la estimaciones . Suponga que T1 y T2 son dos estimadores. T1 tiene una eficiencia del 80 % y Varθ (T1 ) = g(θ)/n para alguna función g. Si T2 es eficiente, Varθ (T2 ) = 0, 8g(θ)/n. Entonces, el estimador T2 en una muestra de tamaño 80 será tan bueno como el estimador T1 en una muestra de tamaño 100. Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Sahu, P.K., Pal, S.R., Das, A.K. (2015) Estimation and Inferencial Statistics. Springer India. Estimación Puntual - 77 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 78 - Estimación Puntual CAPÍTULO 5 ESTIMACIÓN POR INTERVALOS 5.1. Introducción En el problema de estimación puntual, un único valor era tomado como la estimación del verdadero valor de un parámetro desconocido θ. Por ejemplo, si X ∼ N(θ, 1), θ̂ = X̄n y la estimación es el valor x̄n que toma X̄n en la muestra. En este caso, si θ0 representa el verdadero valor de θ, tenemos que P(X̄n = θ0 ) = 0. Esto es, la probabilidad de asignarle a θ su verdadero valor es 0. Por lo cual, en este capı́tulo abordaremos el problema de estimación desde el punto de vista de obtener un conjunto del espacio paramétrico como estimación de θ. El resultado de una estimación por conjuntos es una afirmación del tipo “θ ∈ C”, donde C = C(~x) es un subconjunto del espacio paramétrico Θ que depende de los datos observados ~x. En el caso de que Θ ⊆ R los conjuntos que se suelen usar para realizar inferencias sobre θ son intervalos. Es por esto que usamos el nombre de estimación por intervalos. Observese que si se estima una parámetro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que antes dábamos un valor concreto como estimación suya. Dado que se pierde en precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un intervalo, con respecto a hacerlo con un estimador puntual. La respuesta es que se gana confianza: en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea estimar es 0, mientras que la probabilidad de que un estimador por intervalos cubra al parámetro será positiva. 5.2. Intervalos de confianza ~ , U (X)], ~ Definición 5.2.1. Un estimador por intervalo de una cantidad real θ está dado por [L(X) ~ y U (X) ~ es cualquier par de funciones de una muestra que satisfacen L(~x) < U (~x), donde L(X) ~ = ~x se observa, se realiza la inferencia L(~x) ≤ θ ≤ U (~x). ∀~x ∈ X . Si X 79 Introducción a la Inferencia Estadı́stica Ejemplo 5.2.1. Sea X1 , . . . , X4 una MA de X ∼ N(µ, 1). Un estimador por intervalo de µ es [X̄4 − 1, X̄4 + 1]. Para toda ~x ∈ X , x̄4 − 1 < x̄4 + 1. Si observamos x1 = 1, 4, x2 = 1, 6, x3 = 2,2 y x4 = 1, 8, tenemos que x̄4 = 1,75. Por lo tanto, se hace la inferencia de que θ ∈ [0, 75 2, 75]. Observación 5.2.1. Note que no existe ~ salvo que L(~x) < U (~x), ∀~x ∈ y U (X), que tendremos un intervalo aleatorio de coincidir con ∞ y el resultante intervalo ~ ninguna restricción sobre qué valores puede tomar L(X) ~ X . Por lo cual, L(X) puede coincidir con −∞, con lo ~ ~ puede la forma (−∞, U (X)); de manera similiar, U (X) ~ ∞). aleatorio es (L(X), ~ y U (X), ~ son funciones de X ~ y Observación 5.2.2. Note que los extremos del intervalo, L(X) ~ , U (X)] ~ sea un intervalo aleatorio y por lo tanto son variables aleatorias. Esto hace que [L(X) ~ , U (X)]) ~ que la expresión Pθ (θ ∈ [L(X) está bien definida, en el sentido de que no es algo que trivialmente valga 0 o 1. Definición 5.2.2. Para un estimador por intervalo de un parámetro θ, se llama probabilidad de ~ , U (X)] ~ a la probabilidad de que el intervalo aleatorio cubra el verdadero valor cobertura de [L(X) de θ. Esto es, ~ , U (X)]). ~ Pθ (θ ∈ [L(X) (5.1) En la expresión (5.1), los extremos del intervalo son aleatorios y θ es un número. ~ , U (X)] ~ de un parámetro θ, el coeficiente Definición 5.2.3. Para un estimador por intervalo [L(X) de confianza del estimador es el ı́nfimo de las probabilidades de cobetura. Lo denotaremos por 1 − α. ~ , U (X)]). ~ 1 − α = ı́nf Pθ (θ ∈ [L(X) θ Ejemplo 5.2.2. Continuación ejemplo 5.2.1. Pµ (µ ∈ [X̄4 − 1, X̄4 + 1]) = Pµ (X̄4 − 1 ≤ µ ≤ X̄4 + 1)) = Pµ (−1 ≤ X̄4 − µ ≤ 1) ! X̄4 − µ ≤ 2 = 0, 9544 = Pµ −2 ≤ p 1/4 Dado que la probabilidad de cobertura del intervalo [X̄4 − 1, X̄4 + 1] no depende del valor de µ, su coeficiente de confianza es 0,9544. ~ ∼ Uniforme(0, θ). Sea X(n) = máx{X1 , . . . , Xn }. Ejemplo 5.2.3. Sea X1 , . . . , Xn una MA de X Se consideran los siguientes dos estimadores por intervalo: I1 = [aX(n) , bX(n) ] (1 ≤ a < b) y I2 = [X(n) + c, X(n) + d] (0 ≤ c < d). 80 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Dado que, para x ∈ (0, θ) Z F X(n) (x) = θ x ntn−1 dt = xn . 0 Entonces, Para I1 , Pθ (θ ∈ I1 ) = Pθ (aX(n) ≤ θ ≤ bX(n) ) = Pθ X(n) 1 1 ≤ ≤ b θ a n n 1 1 = − . a b Dado que la probabilidad de cobertura no depende de θ, el coeficiente de confianza es a−n − b−n . Para I2 , X(n) d c Pθ (θ ∈ I2 ) = Pθ (X(n) + c ≤ θ ≤ X(n) + d) = Pθ 1 − ≤ ≤1− θ θ θ n c n d = 1− − 1− . θ θ La probabilidad de cobertura en este caso es una función de θ. Por lo cual, el coeficiente de confianza es n n d c n d c n − 1− = lı́m 1− − 1− =0 ı́nf 1− n→∞ θ θ θ θ θ ~ , U (X)], ~ junto a su coeficiente de confianza, Definición 5.2.4. A un estimador por intervalo [L(X) se le llama intervalo de confianza. ~ , U (X)] ~ para θ, diremos que Si 1 − α es el nivel de confianza de un estimador por intervalo [L(X) este es un intervalo de confianza 1 − α o (1 − α)100 % para θ. 5.2.1. Interpretación del coeficiente de confianza ~ = ~x, se hace la inferencia de que θ ∈ [L(~x), U (~x)]. Note que tanto L(~x) Una vez que se observa X como U (~x) son ahora números y al igual que θ, que si bien su valor es desconocido, también es una cantidad fija. Por lo cual, ( 1 si θ ∈ [L(~x), U (~x)] P(θ ∈ [L(~x), U (~x)]) = 0 si θ ∈ / [L(~x), U (~x)]. Entonces, no podemos hablar de que tenemos una probabilidad de 1 − α de que θ esté contenida en [L(~x), U (~x)]. En este caso, apelamos a la interpretación frecuentista de la probabilidad, la cual ~ U (X)]) ~ indica que si Pθ (θ ∈ [L(X), = 1 − α, esto significa que si sacamos infinitas muestras de tamaño n y para cada uno de ellas construimos el intervalo [L(~x), U (~x)], el (1 − α)100 % de los intervalos construidos cubrirá el verdadero valor de θ. Pero de los infinitos intervalos que se pueden construir, nosotros solo contamos con uno, el que está asociado a la muestra que hemos efectivamente observado. Por lo cual, cuando decimos que tenemos una confianza 1 − α o (1 − α)100 %, estamos expresando nuestra esperanza de que este intervalo en particular sea uno perteneciente al conjunto de los infinitos intervalos que cubren el verdadero valor de θ. Es por eso que en lugar de expresarnos en términos de probabilidad, hablamos en términos de confianza. Estimación por Intervalos - 81 Introducción a la Inferencia Estadı́stica Ejemplo 5.2.4. Sea X1 , X2 una MA de X ∼ N(θ, 1), θ ∈ R. Considere el siguiente estimador por intervalo de θ: I1 = [X1 − 1, 96, X1 + 1, 96]. Este intervalo tiene la siguiente probabilidad de cobertura, Pθ (X1 − 1, 96 ≤ θ ≤ X1 + 1, 96) = Pθ (|X1 − θ| ≤ 1, 96) = P(|Z|1, 96) = 0, 95, donde Z ∼ N(0, 1). Dado que la probabilidad de cobertura no depende de θ, el coeficiene de confianza de I1 es 0,95. Suponga que se observa x1 = 8 y x2 = 7. Entonces, se hace la inferencia de que el intervalo [6,04,54;9,96] contiene el verdadero valor de θ con una confianza del 95 %. 5.3. Construcción de estimadores por intervalo Presentaremos dos métodos para construir estimadores por intervalo de un parámetro θ ∈ Θ ⊆ R. Uno será descrito en este capı́tulo y el siguiente al final del próximo capı́tulo. 5.3.1. Cantidades pivotales Uno de los métodos más comunes de construcción de intervalos de confianza es el uso de cantidades pivotales. Definición 5.3.1. Sea X1 , . . . , Xn una MA de X. Una función Q : X ×Θ → R, Θ ⊆ R, se dice que ~ θ) no depende del parámetro es una cantidad pivotal, si la distribución de probabilidad de Q(X, ~ θ) tiene la misma distribución cualquiera sea el valor de θ. θ. Es decir, Q(X, ~ θ), para cualquier conjunto A del espacio imagen de Q se tiene Dada una cantidad pivotal Q(X, ~ θ) ∈ A) no depende de θ. Por lo tanto, si se elige un conjunto Aα tal que que Pθ (Q(X, ~ θ) ∈ Aα ) = 1 − α, para todo θ, Pθ (Q(X, ~ = ~x, el conjunto y se observa la muestra X n o ~ θ) ∈ A C(~x) = θ : Q(X, es un conjunto de confianza al 1 − α para θ. En el caso de que θ ∈ R, el uso de cantidades pivotales no garantiza en general que el conjunto de confianza sea un intervalo. Ejemplo 5.3.1. Cantidades pivotales pueden ser construidas fácilmente si fX pertence a una familia de posición y/o escala. Si fX (x|θ) pertenece a una familia de posición de parámetro θ, su forma reducida es Y = X − θ. Por lo cual, si definimos Yi = Xi − θ, para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. 82 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Si fX (x|θ) pertenece a una familia de escala de parámetro θ, su forma reducida es Y = X/θ. Por lo cual, si definimos Yi = Xi /θ, para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. Si fX (x|θ1 , θ2 ) pertenece a una familia de posición y escala de parámetro de posición θ1 y parámetro de escala θ2 , su forma reducida es Y = (X − θ1 )/θ2 . Por lo cual, si definimos Yi = (Xi − θ1 )/θ2 , para i = 1, . . . , n, cualquier función de Y1 , . . . , Yn es una cantidad pivotal. En la práctica, la forma en la que se construye un intervalo de confianza a partir de una cantidad ~ θ) ∈ R y θ ∈ R. Para un valor α dado, se buscan pivotal es la siguiente. Supondremos que Q(X, números a y b tales que ~ θ) < b) = 1 − α. Pθ (a < Q(X, Observe, que a y b no dependen de θ al ser Q una cantidad pivotal, y que la elección de a y b no será única en general. Para cada θ0 , el conjunto n o ~ θ0 ) < b A(θ0 ) = ~x ∈ X : a < Q(X, es la región de no rechazo de un contraste de tamaño α para H0 ) θ = θ0 basado en el estadı́stico ~ θ0 ). Invirtiendo este contraste obtenemos el conjunto de confianza 1 − α para θ: Q(X, n o ~ θ) < b . C(~x) = θ : a < Q(X, ~ θ) es una función monótona de θ para ~x fijo, entonces se tiene garantı́a de que Si g~x (θ) = Q(X, C(~x) es un intervalo. Si g~x (θ) es monótona creciente, entonces C(~x) = [L(~x, a), U (~x, b)], mientras que si g~x (θ) es monótona decreciente, entonces C(~x) = [L(~x, b), U (~x, a)]. Si g~x (θ) es invertible, entonces C(~x) = mı́n g~x−1 (a), g~x−1 (b) ; máx g~x−1 (a), g~x−1 (b) . Ejemplo 5.3.2. Continuación del ejemplo 6.5.1. La cantidad pivotal en este caso es √ n(X̄n − θ) ∼ N(0, 1). σ Entonces, tenemos que a = zα1 y b = z1−α2 , con α1 + α2 = α. Por lo tanto √ n(X̄n − θ) 1 − α = P zα1 < < z1−α2 σ σ σ = P zα1 √ < X̄n − θ < z1−α2 √ n n σ σ = P X̄n − z1−α2 √ < θ < X̄n − zα1 √ n n Por lo tanto el intervalo de confianza al 1 − α es σ σ X̄n − z1−α2 √ ; X̄n − zα1 √ . n n Estimación por Intervalos - 83 Introducción a la Inferencia Estadı́stica Note que, si α < 0, 5 entonces zα1 < 0 por lo cual −zα1 > 0 y de manera similar z1−α2 > 0, lo que implica que −z1−α2 < 0. Ejemplo 5.3.3. Continuación del ejemplo 5.3.2. Si asumimos que σ 2 es desconocido. Entonces la cantidad pivotal es √ n(X̄n − θ) ∼ tn−1 . Sn0 Por lo tanto, operando de manera similiar que en el ejemplo anterior, tenemos que el intervalo de confianza al 1 − α es Sn0 Sn0 X̄n − tn−1;1−α2 √ ; X̄n − tn−1;α1 √ . n n con α1 + α2 = α. Ejemplo 5.3.4. Continuación del ejemplo 6.5.3. En este caso la cantidad pivotal es nSn2 ∼ χ2n−1 . σ2 Entonces, a = χ2n−1; α1 y b = χ2n−1; 1−α2 , con α1 + α2 = α. nSn2 2 2 1 − α = P χn−1; α1 < 2 < χn−1; 1−α2 σ 1 1 σ2 < < 2 = χ2n−1; 1−α2 nSn2 χn−1; α1 2 nSn nSn2 2 = <σ < 2 χ2n−1; 1−α2 χn−1; α1 Por lo tanto el intervalo de confianza al 1 − α es nSn2 χ2n−1;1−α2 ; nSn2 χ2n−1;α1 . 84 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica 5.4. Optimalidad Observe que en los ejemplos de la sección anterior tomamos dos valores α1 > 0 y α2 > 0. Variando estas dos cantidades, sujetas a la restricción α1 + α2 = α, podemos obtener infinitos intervalos de confianza. Por ejemplo, si en el ejemplo 5.3.2, √ hacemos que α1 = 0, tenemos que el intervalo de confianza resultante es (−∞, X̄n + z1−α σ/ n]. A medida que incrementamos α1 vamos construyendo diferentes intervalos y cuando α1 = α (esto es, α2 = 0), tenemos que el intervalo es √ [X̄n − zα σ/ n ; ∞). Entonces, si tenemos diferentes estimadores por intervalos de un parámetro θ, debemos establecer un criterio de optimalidad con el fin de escoger el “mejor” estimador por intervalos de acuerdo al criterio fijado. Ejemplo 5.4.1. Continuación ejemplo 5.2.4. Suponga que se tiene otro estimador por √ √ intervalo de θ, I2 = [X̄2 − 1, 96/ 2, X̄2 + 1, 96/ 2]. Su probabilidad de cobertura es √ 1, 96 1, 96 = Pθ (| 2(X̄2 −θ)| ≤ 1, 96) = P(|Z| ≤ 1, 96) = 0, 95. Pθ X̄2 − √ ≤ θ ≤ X̄2 + √ 2 2 Dado que esta probabilidad no depende de θ, su coeficiente de confianza es también 0,95. De los dos intervalos, I2 parece superior a I1 dado que su amplitud es menor. Esto es, con la misma confianza somos más precisos. Observe que I2 está construido a partir del estadı́stico suficiente para θ. El criterio de “mejor” elegido es seleccionar el intervalo de longitud mı́nima. Se trata de un problema de optimización con restricciones, donde la restricción es que la confianza sea igual a un valor determinado de antemano. Note que es el mismo criterio que se utilizó en el capı́tulo 3 para definir el intervalo de credibilidad “óptimo” al cual llamamos intervalo de mayor densidad a posteriori. En la subsección 3.5.1, se explicitaron ciertas condiciones bajo las cuales era sencillo identificar este intervalo. En este caso, para encontrar el intervalo de confianza de menor amplitud, usaremos el mismo método. El teorema siguiente describe, bajo ciertas condiciones, cómo hallar el intervalo de menor amplitud. Teorema 5.4.1. Sea f (x|θ) un densidad unimodal en el intervalo [a, b] que satisface: Z b C1 f (x|θ) dx = 1 − α. a C2 - f (a|θ) = f (b|θ) > 0. C3 - a ≤ xmo ≤ b, donde xmo es el modo de X. Entonces, el intervalo [a, b] es el de menor amplitud de todos los intervalos que satisfacen (C1). Demostración. Sea [a0 , b0 ] cualquier otro intervalo tal que b0 − a0 < b − a. Necesitamos probar que [a0 , b0 ] no satisfacen (C1). a0 puede ser a0 ≤ a o a0 ≥ a. Veremos el primer caso a0 ≤ a, el segundo se demuestra de manera similar. Si a0 ≤ a, tenemos dos casos b0 ≤ a o b0 > a. Estimación por Intervalos - 85 Introducción a la Inferencia Estadı́stica Caso 1: b0 ≤ a ⇒ a0 ≤ b0 ≤ a ≤ xmo . Entonces, Z b0 f (x|θ) dt ≤ f (b0 |θ)(b0 − a0 ) (si x ≤ b0 ≤ xmo ⇒ f (x|θ) ≤ f (b0 |θ)) a0 ≤ f (a|θ)(b0 − a0 ) < f (a|θ)(b − a) Z b f (x|θ) dx = 1 − α ≤ (b0 ≤ a ≤ xmo ⇒ f (b0 |θ) ≤ f (a|θ)) (f (a|θ) > 0, b0 − a0 < b − a) (por (C2), (C3) y unimodal) a =1−α (por (C1)) Caso 2: b0 > a. Entonces, a0 ≤ a ≤ b0 ≤ b. Dado que si b0 > b, entonces b0 − a0 > b − a.   Z b0 Z b Z b Z   a f (x|θ) dt = f (x|θ) dt +  f (x|θ) dt − f (x|θ) dt  = 1 − α + A.  a0 a a0 b0 {z } | =A Necesitamos probar que A < 0. Para eso note que Z a f (x|θ) dt ≤ f (a|θ)(a − a0 ) (a ≤ xmo ⇒ f (x|θ) ≤ f (a|θ) si x ∈ (a0 , a)) a0 Z b f (x|θ) dt ≥ f (b|θ)(b − b0 ) (f (x|θ) ≥ f (b|θ) si x ∈ (b0 , b)). (5.2) (5.3) b0 Por lo tanto, Z a Z b f (x|θ) dt − A= a0 Z a f (x|θ) dt ≤ b0 f (x|θ) dt − f (b|θ)(b − b0 ) (por 5.3) a0 ≤ f (a|θ)(a − a0 ) − f (b|θ)(b − b0 ) (por 5.2) 0 0 = f (a|θ)(a − a − b + b ) (por (C2)) 0 0 = f (a|θ)[(b − a ) − (b − a)] <0 (por (C2) y b0 − a0 < b − a) Ejemplo 5.4.2. En los ejemplos 5.3.2 y 5.3.3, dada la simetrı́a de la distribución α normal y de la distribución t, tenemos que seleccionar α1 = α2 = . Con estos valores, 2 obtenemos en el ejemplo 5.3.2 el intervalo de menor amplitud. En el ejemplo 5.3.3, note √ 0 que la amplitud del intervalo de confianza es 2tn−1;α1 Sn / n. Por lo cual, al depender de S 0 , la amplitud es aleatoria. En este caso lo que obtenemos es un intervalo de menor amplitud esperada. A los intervalos que dejan la misma probabilidad tanto por debajo del extremo inferior como del extremo superior se les llama simétricos en probabilidad. 86 - Estimación por Intervalos Introducción a la Inferencia Estadı́stica Ejemplo 5.4.3. En el caso que la distribución utilizada para calcular los extremos no es simétrica, como es el caso del ejemplo 5.3.4, los extremos inferior y superior del intervalo de menor amplitud tienen que ser calculados por métodos numéricos. Dado que existe estudios que muestran que la amplitud del intervalo simétrico en probabilidad no es significativamente mayor que la del intervalo de menor amplitud, en estos casos, por simplicidad, se prefieren los intervalos simétricos en probabilidad. En el caso del ejemplo 5.3.4, el intervalo de confianza para σ 2 al 1 − α a utilizar serı́a: # " nSn2 nSn2 ; . χ2n−1;1−α/2 χ2n−1;α/2 Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Gómes, G., Delicado, P. (2006) Curso de Inferencia y Decisión. Departement d’Estatı́stica i Investigació Operativa. Universitat Politècnica de Catalunya. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Estimación por Intervalos - 87 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 88 - Estimación por Intervalos CAPÍTULO 6 CONTRASTE DE HIPÓTESIS 6.1. Introducción Suponga que una persona está acusada de cometer un crimen y va a juicio. El fiscal presenta su caso y el juez debe dar su veredicto en base a la evidencia presentada. El juez debe elegir entre dos hipótesis exhaustivas y excluyentes: H0 ) El acusado es inocente. H1 ) El acusado es culpable. El juez desconoce cuál hipótesis es correcta. Él debe decidir en base a la información presentada por el fiscal y la defensa. Hay solo dos decisiones posibles, condenar o absolver al acusado. Condenar al imputado implica que existe evidencia suficiente para rechazar la hipótesis de que el imputado es inocente en favor de la hipótesis de que el imputado es culpable. Absolver al imputado implica que no existe evidencia suficiente para rechazar la hipótesis de que el imputado es inocente. O sea, para concluir que el imputado es culpable. Note que nunca aceptamos la hipótesis de inocencia. Aceptarla implicarı́a que encontramos al imputado inocente, interpretación que nuestro “sistema judicial” no permite. Nuestro sistema solo permite “rechazar H0 en favor de H1 ” o “no rechazar H0 ”. Asociado a esto existen dos posibles errores, a los que llamaremos de Tipo I y de Tipo II El imputado es: Inocente Culpable H0 cierta Error de Tipo II Absuelve No rechazo H0 El juez decide: Condena Rechazo H0 89 H1 cierta Error de Tipo I Introducción a la Inferencia Estadı́stica Un error de Tipo I ocurre cuando rechazamos H0 y esta es cierta; de Tipo II, cuando no rechazamos H0 y esta es falsa. Esto es, un error de Tipo I es cuando una persona inocente es condenada y uno del Tipo II es cuando una persona culpable es absuelta. En nuestro sistema judicial, errores del Tipo I se consideran más serios que los errores de Tipo II. En consecuencia, nuestro sistema está configurado para que la probabilidad de cometer un error de Tipo I sea pequeña. Esto se consigue imponiendo las siguientes condiciones: 1. Un imputado se presume inocente. 2. Es obligación del fiscal probar que el imputado es culpable. La defensa no tiene que probar nada. 3. El juez debe encontrar al imputado culpable solamente si existe evidencia de culpabilidad más allá de una duda razonable. Esto último significa que en ausencia de evidencia suficiente debe absolver al imputado aún cuando haya alguna evidencia de culpabilidad. Si llamamos α y β a las probabilidades de cometer un error de Tipo I y un error de Tipo II respectivamente, vemos que α y β están inversamente relacionadas en el sentido de que cualquier intento de reducir una aumentará la otra. En un sistema judicial ideal, ambas deberı́an ser iguales a 0. En nuestro sistema judicial, las restricciones impuestas implican que la probabilidad de absolver personas culpables es relativamente alta. El sistema entonces funciona de la siguiente manera: 1. Hay dos hipótesis: H0 , llamada la hipótesis nula, y H1 , la hipótesis alternativa. 2. El proceso empieza asumiendo que la hipótesis nula es verdadera. 3. El objetivo del proceso es determinar si existe evidencia suficiente para inferir que la hipótesis alternativa es cierta. 4. Hay dos posibles conclusiones: a) Concluir que existe evidencia suficiente que soporta la hipótesis alternativa. b) Concluir que no existe evidencia suficiente que soporte la hipótesis alternativa. 5. Dos posibles errores se pueden cometer: Tipo I = rechazo H0 cuando H0 es cierta. Tipo II = no rechazo H0 cuando H1 es cierta. 6. Con α = P(Error Tipo I) y β = P(Error Tipo II). Deseamos mantener α y β tan chicas como sea posible. 6.2. Contraste de hipótesis Basado en el esquema de razonamiento de la sección anterior, si θ ∈ Θ ⊆ R es el parámetro de la distribución de probabilidad de una variable aleatoria X y dada una partición trivial de Θ en dos conjuntos, Θ0 y su complemento Θc0 , decidiremos, basado en lo observado en una MA de X, si es más verosı́mil que el verdadero valor de θ se encuentre en Θ0 (veredicto: no culpable) o en Θc0 (veredicto: culpable). 90 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Más formalmente, suponga que tenemos X ∼ f (x|θ), donde θ ∈ Θ ⊆ R. Deseamos contrastar si θ ∈ Θ0 ⊂ Θ, Θ0 6= ∅, contra θ ∈ / Θ0 . Entonces, nuestras hipótesis serán H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 . Tenemos X1 , . . . , Xn una MA de X, que será nuestra evidencia. Esto es, usaremos la información acerca de θ contenida en X1 , . . . , Xn para decidir si rechazamos o no H0 . Como se dijo anteriormente, la evidencia no será usada para decidir si H0 es cierta. A las hipótesis las podemos clasificar en simples o compuestas. Una hipótesis simple es aquella que asigna a θ un valor especı́fico. Una hipótesis compuesta asigna a θ un rango de valores. Ejemplo 6.2.1. Sea X ∼ f (x|θ), θ ∈ Θ ⊆ R. Sea θ0 un punto en Θ. Podemos tener, 1. Θ = {θ0 , θ1 }, H0 ) θ = θ0 contra H1 ) θ = θ1 . (simple contra simple). 2. Θ ⊆ R, H0 ) θ = θ0 contra H1 ) θ 6= θ0 . (simple contra compuesta). 3. Θ ⊆ R, H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . (compuesta contra compuesta). 4. Θ ⊆ R, H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . (compuesta contra compuesta). La idea es crear una regla de decisión que de forma inambigua nos diga, después de haber observado ~x = (x1 , . . . , xn ) ∈ X , cuál decisión tenemos que tomar: rechazar H0 o no rechazar H0 . Esto significa qué regla particionará el espacio muestral X en dos subconjuntos, a los que llamaremos región crı́tica (RC) y su complemento, la región de aceptación (RA): RC = {~x ∈ X | si observo ~x, rechazo H0 } y RA = RCc = {~x ∈ X | si observo ~x, no rechazo H0 } Ejemplo 6.2.2. Sea X1 , . . . , X9 una MA de X ∼ N(θ, 1), θ ∈ R. Plantee las siguientes hipótesis: H0 ) θ = 5, 5 contra H1 ) θ = 8. Se plantean las siguientes reglas de decisión: Regla #1: Rechazo H0 si x1 > 7. Regla #2: Rechazo H0 si 1 (x1 + x2 ) > 7. 2 Regla #3: Rechazo H0 si x̄9 > 6. Regla #4: Rechazo H0 si x̄9 > 7, 5. Esto significa, Regla #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7}. 1 Regla #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 ) > 7}. 2 Regla #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6}. Contraste de Hipótesis - 91 Introducción a la Inferencia Estadı́stica Regla #4: RC4 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 7, 5}. ~ ∈ RC|H0 cierta) Sean α = P(Error Tipo I) = P(rechazar H0 cuando H0 es cierta) = P(X ~ ∈ y β = P(Error Tipo II) = P(no rechazar H0 cuando H1 es cierta) = P(X / RC|H1 cierta). Para la Regla #1, con Φ la función de distribución de una N(0,1): α = P(X1 > 7|θ = 5, 5) = 1 − Φ(1, 5) = 0, 06681 y β = P(X1 ≤ 7|θ = 8) = Φ(−1) = 0, 15866. Calculamos α y β de manera similar par las otras pruebas y obtenemos: Prueba #1 #2 #3 #4 α 0,06681 0,01696 0,06681 0,00000 β 0,15866 0,07865 0,00000 0,06681 De inspeccionar la tabla podemos concluir: 1. Entre la regla #1 y la #2, la #2 parece ser mejor que la #1, dado que α2 < α1 y β2 < β1 . 2. La regla #3 parece ser que mejor que la regla #1 dado que α1 = α3 y β3 < β1 . 3. Entre la regla #2 y la #3 no existe una respuesta clara acerca de cuál es mejor. 4. La regla #4 se obtuvo “reduciendo el tamaño”de la RC de la regla #3. Esto es, RC4 ⊂ RC3 . Esto resultó en que α4 = 0, pero se consiguió a costo de que el valor de β creciera rápidamente. En conclusión, 1. Todas las reglas que podamos crear no son necesariamente comparables. 2. Ajustando de manera apropiada la RC de una regla, podemos hacer α (o β) tan pequeña como queramos, pero esto implicará que β (o α) aumentará de valor si dejamos fijo el tamaño de la muestra. La pregunta entonces es: ¿cómo, para un tamaño de muestra dado, construimos la “mejor” regla para contrastar H0 contra H1 ? Definición 6.2.1. La función de potencia de un contraste, denotada por β(θ), es la probabilidad de rechazar H0 cuando θ ∈ Θ es el verdadero valor del parámetro. ~ ∈ RC) ∀θ ∈ Θ. β(θ) = Pθ (X 92 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Note que si tomamos θ ∈ Θ0 o θ ∈ Θc0 , tenemos que β(θ) = ~ ∈ RC|θ ∈ Θ0 ) = Pθ (error Tipo I) = α Pθ (X ~ ∈ RC|θ ∈ Θc0 ) = 1 − Pθ (error Tipo II) = 1 − β Pθ (X A α lo llamaremos el nivel de significación del contraste y a 1 − β la potencia del contraste. Note que la potencia de un contraste es una de las componentes de su función de potencia. El contraste ideal tendrı́a α = 0 y 1 − β = 1, algo que salvo en casos triviales es inalcanzable. Ejemplo 6.2.3. Para la Regla #4, β(θ) = 1 − Φ(22, 5 − 3θ), ∀θ ∈ Θ. Definición 6.2.2. A la función ψ : X → {0, 1} definida como, ψ(~x) = I[~x∈RC] , se le llama función crı́tica del contraste. ~ = β(θ). Observación 6.2.1. E(ψ(X)) Si C es la clase de todos los contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 , C contiene contrastes que no son comparables entre sı́. Por lo cual, no existirá una clara elección de cuál es el “mejor” contraste dentro de la clase. Al igual que hicimos en estimación, cuando enfocamos nuestra atención a la clase de estimadores insesgados, podemos también en este problema restringir nuestra búsqueda a una subclase de C. Definición 6.2.3. Para un número fijo α ∈ (0, 1). Un contraste para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 , con función de potencia β(θ), se llama de tamaño o nivel α de acuerdo a si sup β(θ) = α θ∈Θ0 o sup β(θ) ≤ α θ∈Θ0 respectivamente. Note que un contraste de tamaño α es también un contraste de nivel α. Además, sup β(θ) es la θ∈Θ0 “peor” de las probabilidades de error de Tipo I, lo cual indica que para evaluar un contraste nos ponemos en la situación más desfavorable. Esto es, cuando el desempeño del contraste es más débil. Definición 6.2.4. Sea C una clase de contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 . Un contraste de la clase C, con función de potencia β(θ), es uniformemente más potente (UMP) dentro de la clase C, si β(θ) ≥ β 0 (θ) ∀θ ∈ Θc0 , para todo β 0 (θ) que es la función de potencia de un contraste en la clase C. Ejemplo 6.2.4. Continuación del ejemplo 6.2.2. Para H0 ) θ = 5, 5 contra H1 ) θ = 8, definimos los siguientes contrastes Contraste de Hipótesis - 93 Introducción a la Inferencia Estadı́stica Contraste #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7, 1449}. 1 Contraste #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 + x3 + x4 ) > 6, 32245}. 4 Contraste #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6, 0483}. Note que β1 (5, 5) = β2 (5, 5) = β3 (5, 5) = 0, 049995. Por lo tanto, todos los contrastes son de tamaño 0,049995. En cuanto a la potencia, β1 (8) = 0, 80375 β2 (8) = 0, 9996 β3 (8) = 1 Por lo tanto, el contraste #3 es el “mejor” entre los tres considerados. Nosotros restringiremos nuestra atención a la clase C = {contrastes de nivel α}. Es decir, fijaremos la probabilidad error de Tipo I en un valor bajo que consideremos razonable y dentro de todos los contrastes de este nivel buscaremos aquel que tenga la mayor potencia. 6.2.1. Hipótesis simple contra hipótesis simple En el caso que tengamos una hipótesis simple contra otra hipótesis simple, el siguiente teorema nos dice cómo encontrar el “mejor” contraste de tamaño α. Al que llamaremos el más potente (MP). Note que el teorema asume que el espacio parámetrico está compuesto por solo dos puntos, θ0 y θ1 . Si bien esto es una simplificación importante de la realidad, el resultado podrá luego ser extendido a casos más realistas, donde Θ ⊆ R. Lema 6.2.1. Neyman-Pearson Sea X1 , . . . , Xn una MA de X ∼ f (x|θ), θ ∈ Θ = {θ0 , θ1 }. Para ~ = ~x, sea L(θ|~x) la función de verosimilitud de ~x. Considere X H0 ) θ = θ0 contra H1 ) θ = θ1 . Sea un contraste con la siguiente función crı́tica ψ(~x) = I[L(θ1 |~x)>kL(θ0 |~x)] , (6.1) ~ = α. Eθ (ψ(X)) (6.2) donde k está determinado tal que Cualquier contraste que satisfaga (6.1) y (6.2) es el contraste MP de tamaño α. Demostración. Se asume que X es una variable continua. El caso discreto es similar remplazando las integrales por sumatorias. Primero note que cualquier contraste que satisfaga 6.2 es de tamaño α y por lo tanto también es de nivel α. 94 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Sea ψ ∗ (~x) y β ∗ (θ) la función crı́tica y la función de potencia respectivamente de cualquier otro contraste de nivel α. Sea β(θ) la función de potencia del test con función crı́tica dada por 6.1. Observe que (ψ(~x) − ψ ∗ (~x))(L(θ1 |~x) − kL(θ0 |~x)) ≥ 0 ∀~x ∈ X . (6.3) Para ello, note que si ~x ∈ X tal que ψ(~x) = 1, esto implica que L(θ1 |~x) > kL(θ0 |~x) > 0. Además, ψ(~x)−ψ ∗ (~x) ≥ 0 dado que ψ ∗ (~x) ∈ {0, 1}. Por lo cual, se verifica 6.3. Para ~x ∈ X tal que ψ(~x) = 0, se verifica que L(θ1 |~x) > kL(θ0 |~x) < 0 y que ψ(~x) − ψ ∗ (~x) ≤ 0. Por lo cual, se verifica nuevamente 6.3. Por lo tanto, Z 0≤ Z ... ∗ (ψ(~x) − ψ (~x))(L(θ1 |~x) − kL(θ0 |~x)) n Y dxi i=1 Z ∞ Z ∞ ψ(~x)(L(θ1 |~x) − kL(θ0 |~x)) ... = −∞ −∞ n Y i=1 Z ∞ dxi − Z ∞ ... −∞ ψ ∗ (~x)(L(θ1 |~x) − kL(θ0 |~x)) −∞ n Y dxi i=1 ~ − kEθ0 (ψ(X))) ~ ~ − kEθ0 (ψ ∗ (X))) ~ = (Eθ1 (ψ(X)) − (Eθ1 (ψ ∗ (X)) = (β(θ1 ) − β ∗ (t1 )) − k(β(θ0 ) − β ∗ (t0 )) Con lo cual, tenemos que β(θ1 ) − β ∗ (t1 ) ≤ k(β(θ0 ) − β ∗ (t0 )) (6.4) Observación 6.2.2. Note que el contraste MP en este caso se basa en la comparación de funciones de verosimilitud. Favorecemos la hipótesis que tiene asociada una mayor verosimilitud. Corolario 6.2.1. Sea RC la región crı́tica del contraste más potente para H0 ) θ = θ0 contra H1 ) θ = θ1 . Suponga que el nivel de significación del contraste es α. Sea β(θ1 ) la potencia del mismo, entonces α ≤ β(θ1 ). Demostración. Considere el contraste donde los datos son ignorados y se decide en términos de realizar una prueba de Bernoulli. Si observamos éxito rechazamos la hipótesis nula. Si α = P(éxito), entonces el contraste es de tamaño α y su potencia es también α. Pero RC es la mejor región crı́tica de nivel α y por lo tanto tiene que tener una potencia mayor o igual que el contraste descrito. Ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), σ 2 conocido. Suponga que µ ∈ {µ0 , µ1 }, (µ0 < µ1 ). Deseamos constrastar H0 )µ = µ0 contra H1 )µ = µ1 . Para encontrar el contraste MP, para estas hipótesis, aplicamos el Lema de NeymanPearson. Tenemos que ( ) n X n 1 L(µ|~x) = (2πσ 2 )− 2 exp − 2 (xi − µ)2 2σ i=1 Contraste de Hipótesis - 95 Introducción a la Inferencia Estadı́stica Por lo tanto, la RC del contraste MP es el conjunto de las ~x ∈ X tal que P n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ1 )2 P ≥ k, n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2 (6.5) donde k está elegido tal que ( ) ! n 1 X P exp − 2 ≥ k µ = µ0 = α. (Xi − µ1 )2 − (Xi − µ0 )2 2σ i=1 Observación 6.2.3. La condición L(θ1 |~x) > k, k > 0, L(θ0 |~x) también puede escribirse de la forma µ1 (~x) = µ1 (~x, θ0 , θ1 ) ≤ c1 o µ2 (~x) = µ2 (~x, θ0 , θ1 ) ≥ c2 , donde ~ θ0 , θ1 ) ≤ c1 ) = α o P(µ2 (X, ~ θ0 , θ1 ) ≥ c2 ) = α. P(µ1 (X, (6.6) Esto es, simplificaremos lo más posible la expresión L(θ1 |~x)/L(θ0 |~x) ≥ k para reducirla a la forma equivalente µ1 (~x) ≤ c1 o µ2 (~x) ≥ c2 tal que sea sencillo determinar la distribución en el muestreo de µ1 (~x) o µ2 (~x) con el fin de hallar el valor de c1 o c2 , según corresponda, que satisfaga 6.6. Ejemplo 6.2.6. Continuación del ejemplo 6.2.5. Usando la observación 6.2.3, la ecuación 6.5 equivale a que n o 1 Pn 1 n(x̄n −µ1 )2 2 2 2 exp − 2σ2 exp − 2σ2 i=1 (xi − µ1 ) exp − 2σ2 (nSn + n(x̄n − µ1 ) ) o ≥ k. 1 Pn 1 n = = n(x̄n −µ0 )2 exp − 2σ2 i=1 (xi − µ0 )2 exp − 2σ2 (nSn2 + n(x̄n − µ0 )2 ) exp − 2σ2 Por lo tanto rechazamos H0 si n o n(x̄2n −2x̄n µ1 +µ21 ) n n exp − 2σ 2 2 2 n o = exp 2 (µ1 − µ0 )x̄n exp − 2 (µ1 − µ0 ) ≥ k n(x̄2 −2x̄ µ +µ2 ) σ 2σ exp − n 2σn2 0 0 n ⇒ exp 2 (µ1 − µ0 )x̄n ≥ k ∗ ⇒ (µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≥ k ∗∗∗ σ ~ = X̄n , dado que (µ1 − µ0 ) > 0. La simplificación nos lleva, en este caso, a que µ2 (X) cuya distribución en el muestreo es conocida. Por lo tanto, la RC del contraste MP, volviendo a denotar el umbral de la RC con la letra k, es {~x ∈ X |x̄n ≥ k}, donde k está elegido tal que √ √ n(X̄n − µ0 ) n(k − µ0 ) P(X̄n ≥ k|µ = µ0 ) = α ⇒ P ≤ = 1 − α. σ σ Esto √ es, si z1−α es el percentil (1-α)100 % de una N(0,1), rechazo H0 si y solo si n(x̄n − µ0 ) σ ≥ z1−α o, lo que es lo mismo, si x̄n ≥ µ0 + z1−α √ . σ n 96 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Ejemplo 6.2.7. Continuación del ejemplo 6.2.6. Si en el ejemplo 6.2.5 se hubiera asumido que µ1 < µ0 , para hallar la RC del contraste MP los cálculos serı́an idénticos salvo en el último paso. Dado que ahora (µ1 − µ0 ) < 0 tenemos que (µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≤ k ∗∗∗ Entonces, µ1 (~x) = x̄n y la RC={~x ∈ X |x̄n ≤ k}, donde k √está elegido tal que n(x̄n − µ0 ) P(X̄n ≤ k|µ = µ0 ) = α. Esto es, rechazo H0 si y solo si ≤ zα o σ σ x̄n ≤ µ0 + zα √ . n Ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = θ. Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos poner contrastar H0 ) θ = θ0 Sabemos que L(θ|~x) = θ −n exp − n X contra H1 ) θ = θ1 . ! xi /θ . Por lo tanto, la RC del contraste MP de i=1 tamaño α está dada por ( ) P n n θ1−n exp(− ni=1 xi /θ1 ) θ0 1 X 1 P ≥k ⇒ − exp − xi ≥ k θ1 θ1 θ0 i=1 θ0−n exp(− ni=1 xi /θ0 ) ) ( n n n X 1 1 1 X 1 X ∗ ∗∗ ⇒ exp − − xi ≥ k ⇒ − xi ≥ k ⇒ xi ≥ k ∗∗∗ θ1 θ0 i=1 θ0 θ1 i=1 i=1 ( ) n X −1 −1 dado que θ0 −θ1 > 0. Por lo tanto, la RC= ~x ∈ X | xi ≥ k , donde k está elegido i=1 ! n X tal que P Xi ≥ k|θ = θ0 = α. i=1 Sabemos que n X Xi ∼ Gamma (n, 1/θ) ⇒ i=1 2 Pn i=1 θ Xi ∼ Gamma (n, 1/2) = χ22n . Lo que implica que P 2 ni=1 Xi 2 RC = ~x ∈ X ≥ χ2n;1−α . θ0 Contraste de Hipótesis - 97 Introducción a la Inferencia Estadı́stica En los ejemplos 6.2.5 y 6.2.8, la RC quedó expresada en términos del estadı́stico suficiente para el parámetro de interés. Esto es consecuencia de aplicar el teorema 2.3.1 al resultado obtenido en el lema 6.2.1. Corolario 6.2.2. Bajo las condiciones del lema 6.2.1, si T = T (X1 , . . . , Xn ) es un estadı́stico suficiente para θ. Entonces, cualquier contraste cuya función crı́tica es ψ(t) = I[fT (t|θ1 )>kfT (t|θ0 )] , donde k está determinado tal que Eθ (ψ(T )) = α, es el contraste MP de tamaño α. Ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos contrastar H0 ) θ = θ0 contra H1 ) θ = θ1 . nxn−1 I[0<x<θ] , θn ≥ k}. Donde el valor de k está dado por Sabemos que X(n) es suficiente para θ. Por lo cual, dado que fX(n) (x) = tenemos que la RC={~x ∈ X |x(n) Z Pθ (X(n) ≥ k|θ = θ0 ) = k θ0 θ0n − k n nxn−1 dx = = α ⇒ k = θ0 (1 − α)1/n . θ0n θ0n Ejemplo 6.2.10. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos contrastar H0 ) θ = θ0 Sabemos que T = n X contra H1 ) θ = θ1 . Xi es suficiente para θ. Entonces, la RC MP está dada por las i=1 ~x ∈ X , tal que n t n t θ (1 − θ1 )n−t 1 − θ1 θ1 (1 − θ0 ) θ1 (1 − θ0 ) t 1 = ≥ k ⇒ t log ≥ k∗ n t n−t 1 − θ θ (1 − θ ) θ (1 − θ ) θ0 (1 − θ0 ) 0 0 1 0 1 t Dado que θ0 < θ1 tenemos que θ1 /θ0 > 1 y que (1(− θ0 )/(1 − θ1 ) > )1, por lo cual n X log θ1 (1 − θ0 )/[θ0 (1 − θ1 )] > 0. Entonces, la RC es ~x ∈ X | xi ≥ k . Donde k es i=1 tal que α=P n X i=1 98 - Contraste de Hipótesis ! Xi ≥ k θ = θ0 n X n x = θ0 (1 − θ0 )n−x . x x=k Introducción a la Inferencia Estadı́stica Por ejemplo, si θ0 = 1/4, θ1 = 3/4 y n = 10. Para hallar k, α=P n X ! Xi ≥ k θ = 1/4 i=1 ( 10 X 0, 0197 si k = 6 10 = 0, 25x 0, 7510−x = x 0, 0781 si k = 5 x=k Por lo tanto, para α = 0, 05 no existe una RC de la forma especificada por NeymanPearson. Es más, por ejemplo, no existe el contraste MP de nivel α ∈ (0, 0197; 0, 0781). Esta situación es común cuando X es una variable aleatoria discreta. En el curso no nos detenemos en cómo solucionar este problema. 6.2.2. Hipótesis compuestas Suponga que deseamos contrastar, H0 ) θ = θ0 contra H1 ) θ > θ0 . Si bien esto no supone una partición de Θ, dado que estamos dejando fuera los valores de θ < θ0 , verificaremos que la función de potencia es creciente en el conjunto Θ0 = {θ|θ ≤ θ0 }. Esto garantiza que β(θ) alcanza su máximo valor, en Θ0 , cuando θ = θ0 . Por lo tanto, estaremos en realidad trabajando con H0 ) θ ≤ θ0 y buscando contrastes de nivel α. Para hallar el contraste UMP, definido en 6.2.4, fijamos un valor arbitrario de θ, θ∗ , tal que θ∗ > θ0 . Después procedemos a hallar la región crı́tica MP, de tamaño α, para H0 ) θ = θ0 contra H1 ) θ = θ∗ , usando el lema 6.2.1. Si el contraste resultante no depende del valor θ∗ seleccionado, usando la definición 6.2.4, tenemos que el contraste hallado es el UMP. Ejemplo 6.2.11. En los ejemplos 6.2.5, 6.2.8 y 6.2.9, los contrastes resultantes no dependen del valor en particular θ1 , solo se utilizó para construirlos la relación θ0 < θ1 . Por lo tanto, en cada ejemplo las RC halladas son las UMP para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Solo queda mostrar que las respectivas funciones de potencia son funciones crecientes en θ. En el ejemplo 6.2.5, √ √ n(X̄n − θ0 ) n(X̄n − θ + θ − θ0 ) > z1−α = Pθ > z1−α β(θ) = Pθ (X̄n > k) = Pθ σ σ √ = Pθ n(X̄n − θ) > z1−α − σ √ √ n(θ − θ0 ) n(θ − θ0 ) = 1 − Φ z1−α − . σ σ Por lo tanto, β(θ) es una función creciente en θ. Por lo cual, sup β(θ) = β(θ0 ). θ≤θ0 La Figura 6.1 muestra el comportamiento de β(θ), para el caso n = 20, θ0 = 2, σ 2 = 5 y α = 0, 1. Pn θ0 χ22n;1−α θ0 χ22n;1−α 2 i=1 Xi Para el ejemplo 6.2.8, β(θ) = 1−Pθ ≤ = 1−FY , θ θ θ donde Y ∼ χ22n . La Figura 6.2, muestra la gráfica de β(θ) para el caso n = 10, θ0 = 1, 5 y α = 0, 1. Contraste de Hipótesis - 99 Introducción a la Inferencia Estadı́stica Figura 6.1: Función de potencia, X ∼ N(θ,5), α = 0, 1 y n = 20 Figura 6.2: Función de potencia, X ∼ Exp(θ), α = 0, 1 y n = 10 X(n) θ0 (1 − α)1/n θ0 (1 − α)1/n Para el ejemplo 6.2.9, β(θ) = 1−Pθ ≤ = 1−FY , θ θ θ donde Y ∼ Beta(n,1). La Figura 6.3, muestra la gráfica de β(θ) para el caso n = 10, θ0 = 2, 2 y α = 0, 1. Note que en este caso en particular, k = 2, 176942 y dado que Y ∼ Beta, si θ < 2, 176942, entonces 2, 176942/θ > 1 y por lo tanto, para θ < 2, 176942, FY (2, 176942/θ) = 1 lo que implica que β(θ) = 0. Note que todas las figuras muestran que a medida que θ crece y se aleja de θ0 , la potencia tiende rápidamente a 1. Esto es, cuanto más se aleja el verdadero valor de θ por encima de θ0 , mayor es la probabilidad de rechazar la hipótesis nula de que θ = θ0 . La función de potencia es también una función del tamaño de la muestra. Cuanto mayor sea n, mayor información habrá acerca de θ, por lo cual pequeñas desviaciones del verdadero valor de θ 100 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Figura 6.3: Función de potencia, X ∼ Uniforme(0, θ), α = 0, 1 y n = 10 con respecto a θ0 harán que rechacemos H0 . En este sentido, se dice que los contrastes UMP son conservadores. La Figura 6.4 muestra la función de potencia del ejemplo 6.2.5, calculada para tres tamaños de muestra: 10, 100 y 1000. Note que cuando n = 1000 la probabilidad de rechazar H0 es mayor que 0,9 apenas θ sobrepasa, aproximadamente, el valor 2,18. Ejemplo 6.2.12. Sea X1 , . . . , Xn una MA de X ∼ N(0,σ 2 ). Deseamos contrastar H0 ) σ 2 = σ02 contra H1 ) σ 2 > σ02 . Para encontrar el contraste UPM, aplicamos el lema de Neyman-Pearson a las hipótesis H0 ) σ 2 = σ02 contra H1 ) σ 2 = σ12 , con (σ02 < σ12 ). ( ) P 2 n2 n n (2πσ12 )− 2 exp { ni=1 x2i /(2σ12 )} σ0 1 1 1 X 2 L(σ12 |~x) P = = exp − − x ≥ k. n L(σ02 |~x) σ12 2 σ12 σ02 i=1 i (2πσ02 )− 2 exp { ni=1 x2i /(2σ02 )} ⇒ Por lo cual y dado que n X i=1 1 1 − 2 2 σ0 σ1 X n i=1 x2i ≥k ∗ ⇒ n X x2i ≥ k ∗∗ . i=1 ( Xi2 /σ 2 ∼ χ2n , tenemos que la RC= ~x ∈ Rn n X ) x2i ≥ σ02 χ2n;1−α . i=1 Para el cálculo de la RC no importó el valor en particular de σ12 , solo se tuvo en cuenta la relación σ02 < σ12 , para determinar que (1/σ02 − 1/σ12 ) > 0. Por lo tanto, la RC hallada es la RC UMP para las hipótesis planteadas. Observación 6.2.4. Con las modificaciones correspondientes todo lo anterior es válido para H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . En este caso, empezamos con H0 ) θ = θ0 contra H1 ) θ = θ1 , donde θ1 < θ0 . Se construye la RC MP utilizando el lema de Neyman-Pearson. Si esta RC no depende del valor en particular de θ1 , sino solo de la relación θ1 < θ0 , hemos hallado la RC UMP para las hipótesis originales, verificando que su función de potencia sea decreciente en (θ0 , +∞). Contraste de Hipótesis - 101 Introducción a la Inferencia Estadı́stica Figura 6.4: β(θ) como función de n. Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ ≤ 2. Ejemplo 6.2.13. Continuación del ejemplo 6.2.7. Si se desea contrastar H0 ) θ ≥ θ0 conσ tra H1 ) θ < θ0 . La región crı́tica óptima es la que rechaza H0 cuando x̄n ≤ µ0 + zα √ . n Como en caso de estimación puntual, cuando nos circunscribimos a una determinada familia de distribuciones podemos encontrar resultados que son propios de la familia. Por lo tanto, definiremos una nueva familia de distribuciones. Definición 6.2.5. Una familia de distribuciones {f (x|θ)|θ ∈ Θ} se dice que tiene la propiedad de ~ razón de verosimilitudes monótona (MLR, por su sigla en inglés) en un estadı́stico real T = T (X) ∗ si lo siguiente se cumple: para todo {θ, θ } ⊂ Θ, y ~x ∈ X , tenemos que L(θ∗ |~x) es no decreciente en T (~x) siempre que θ∗ > θ. L(θ|~x) Ejemplo 6.2.14. Continuación ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), n X ~ = µ ∈ R, σ > 0 conocida. Considere un valor arbitrario de µ, µ∗ , y defina T (X) Xi . i=1 Entonces, L(µ∗ |~x) = exp (µ∗ − µ)T (~x)/σ 2 + n(µ2 − µ∗2 )/(2σ 2 ) , L(µ|~x) que es creciente en T , siempre que µ∗ > µ. Por lo tanto, tiene la propiedad de MLR en n X ~ T (X) = Xi . i=1 102 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Ejemplo 6.2.15. Continuación ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), n X + ~ con E(X) = θ ∈ R . Defina T (X) = Xi . i=1 L(θ∗ |~x) = L(θ|~x) θ θ∗ n exp (θ∗ − θ)T (~x) θ θ∗ , ~ = es creciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en T (X) n X Xi . i=1 Ejemplo 6.2.16. Continuación ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). ~ = X(n) . Defina, T (X) n I[0<x(n) <θ∗ ] L(θ∗ |~x) θ = , L(θ|~x) θ∗ I[0<x(n) <θ] es no decreciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en ~ = X(n) . T (X) Note que T es siempre un estadı́stico suficiente. Teorema 6.2.1. Teorema de Karlin-Rubin Suponga que deseamos contrastar H0 ) θ ≤ θ0 ~ un estadı́stico real para θ ∈ Θ ⊆ R. Suponga que la familia contra H1 ) θ > θ0 . Sea T = T (X) {f (x|θ)|θ ∈ Θ} tiene la propiedad de MLR (no decreciente). Entones, el test que tiene función crı́tica ~ =I ~ ψ(X) [T (X)>k] , ~ = α. corresponde con el contraste UMP de nivel α, si k es elegido tal que E(ψ(X)) Teorema 6.2.2. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ). Suponga que f (x|θ) pertenece a la familia exponencial de distribuciones, esto es f (x|θ) = h(x)c(θ) exp{w(θ)t(x)}. ~ = Defina T (X) n X t(Xi ). i=1 ~ > k ∗ ) = α. 1. Si w(θ) es una función monótona creciente en θ y si existe k ∗ tal que Pθ0 (T (X) Entonces, el contraste con RC = {~x ∈ X |T (~x) > k ∗ } es el contraste UMP de nivel α para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Contraste de Hipótesis - 103 Introducción a la Inferencia Estadı́stica ~ < k ∗ ) = α. 2. Si w(θ) es una función monótona decreciente en θ y si existe k ∗ tal que Pθ0 (T (X) ∗ Entonces, el contraste con RC = {~x ∈ X |T (~x) < k } es el contraste UMP de nivel α para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . Ejemplo 6.2.17. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). µ ∈ R conocido y σ ∈ R+ desconocido. Deseamos contrastar H0 ) σ ≤ σ0 contra H1 ) σ > σ0 . Note que si escribimos a f (x|σ) como una familia exponencial, entonces w(σ 2 ) = − 1 y t(x) = (x − µ)2 . 2 2σ w(σ 2 ) es una función creciente en σ. Por lo tanto, f (x|σ) tiene la propiedad de MLR n X ~ en T (X) = (Xi − µ)2 . Entonces, el contraste UMP de nivel α es la que tiene función i=1 crı́tica ~ =I ~ P ψ(X) . 2 [T (X)>k] = I[ n i=1 (Xi −µ) >k ] Para determinar k, recordamos que n X (Xi − µ)2 /σ 2 ∼ χ2n . Por lo tanto, la función i=1 crı́tica es de la forma ~ = I Pn ψ(X) [ 2 2 2 i=1 (Xi −µ) >σ0 χn;1−α ]. Ejemplo 6.2.18. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. θ ∈ R+ . Se desea contrastar H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . f (x|θ) pertenece a la familia exponencial con w(θ) = −θ y t(x) = x. Para determinar la región crı́tica del contraste UMP, notamos que w(θ) es decreciente en θ, por lo cual los teoremas 6.2.1 y 6.2.2 ~ = I Pn establecen que la función crı́tica es ψ(X) Xi <k] . [ i=1 6.2.3. No existencia del la RC UMP Suponga X ∼ N(θ, σ 2 ), σ 2 conocida y H0 ) θ = θ0 contra H1 ) θ 6= θ√ 0 . Si tomamos θ1 < θ0 , el contraste UMP, de nivel α, es la que tiene RC={~x|x̄n < θ0 − z1−α σ/ n}. Por lo cual, si existe, esta tendrı́a que ser el contraste UMP en este caso dado que ningun otro tiene mayor potencia en θ = θ1 . Llamémosle Contraste #1 y sea β1 (θ) su función de potencia. √ Suponga ahora que tenemos otro contraste que tiene RC={~x|x̄n > θ0 + z1−α σ/ n} y sea β2 (θ) su 104 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica función de potencia. Si tomamos θ2 > θ0 , tenemos que √ β2 (θ2 ) = Pθ2 (X̄n > θ0 + z1−α σ/ n) X̄n − θ2 θ0 − θ2 √ > z1−α + √ = Pθ2 σ/ n σ/ n > Pθ2 (Z > z1−α ) = Pθ2 (Z < −z1−α ) X̄n − θ2 θ0 − θ2 √ < −z1−α + √ > Pθ2 σ/ n σ/ n √ = Pθ2 (X̄n < θ0 − z1−α σ/ n) = β1 (θ2 ). Por lo tanto, β2 (θ) > β1 (θ) lo que indica que el contraste #1 no es el UMP. Esto contradice lo que habı́amos dicho de que si existı́a el contraste UMP, este deberı́a ser el contraste #1. Entonces, no existe un contraste UMP de nivel α para este problema. La Figura 6.5 muestra la comparación de β1 (θ) y β2 (θ). Figura 6.5: Comparación de β1 (θ) y β2 (θ). Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ 6= 2. 6.3. Contraste de razón de verosimilitudes Hemos visto que existen casos para las cuales no existe el contraste UMP. También hemos asumido hasta ahora que Θ ⊆ R y nos hemos enfocado en hipótesis donde se especificaban en H0 desigualdades del tipo “≥” o “≤”. Deseamos encontrar un método más general, no solo en qué tipo de igualdad o desigualdades especificamos en H0 , sino también en el número de parámetros desconocidos que pueda tener una distribución. Por ejemplo, suponga X ∼ f (x|θ), con θ = (θ1 , θ2 ), θi ∈ R, i = 1, 2. Deseamos contrastar las hipótesis H0 ) θ1 = θ10 contra H1 ) θ1 > θ10 . Note que H0 ) no es una hipótesis simple en este caso. Se ha escrito de esta manera para reflejar que si bien Contraste de Hipótesis - 105 Introducción a la Inferencia Estadı́stica queremos θ1 = θ10 , en cambio θ2 puede tomar cualquier valor. Por lo cual, el verdadero planteo es H0 ) θ1 = θ10 , θ2 ∈ R. Por ejemplo, cuando X ∼ N(θ1 , θ2 ), si asumimos que θ2 es conocido, entonces H1 ) θ1 = θ10 es una hipótesis simple y para este problema hemos mostrado que no existe la RC UMP. A continuación describiremos un método general que permite encontrar contrastes para estas situaciones. Definición 6.3.1. Un estadı́stico de razón de verosimilitudes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 es sup L(θ|~x) θ∈Θ0 . λ(~x) = sup L(θ|~x) θ∈Θ Un contraste de razón de verosimilitudes es cualquier contraste que tenga como RC a un conjunto de la forma {~x ∈ X |λ(~x) ≤ c}, c ∈ (0, 1). Nota: En los casos que estudiamos en el curso, el supremo es siempre alcanzado. Por lo tanto, podemos modificar la definición de λ(~x), sustituyendo “sup” por “máx”. Observación 6.3.1. Note que supθ∈Θ0 L(θ|~x) se puede interpretar como la mejor evidencia en favor de la hipótesis nula. A su vez, supθ∈Θ L(θ|~x) se puede interpretar como la mejor evidencia en favor de θ sin considerar ninguna restricción. Valores pequeños de λ(~x) están asociados a valores pequeños de supθ∈Θ0 L(θ|~x) relativos al valor de supθ∈Θ L(θ|~x). Si la mejor evidencia a favor de H0 parece débil, en comparación a la evidencia sin restringir, se rechaza H0 . Para llevar a cabo el proceso de maximización, primero note que supθ∈Θ L(θ|~x) = L(θ̂M V |~x), donde θ̂M V es el estimador máximo verosı́mil de θ. En el caso de que θ sea un vector, θ = (θ1 , . . . , θk ), fijamos el valor del parámetro θi al cual se refiere la hipótesis nula y con ese valor fijo hallamos los estimadores máximo verosı́mil de las restantes componentes de θ. Por ejemplo, suponemos que las hipótesis son H0 ) θ1 = θ10 contra H1 ) θ1 6= θ10 . Para hallar el supθ∈Θ0 L(θ|~x), primero sustituimos θ1 por θ10 y luego, sujeto a esta restricción, encontramos (θ̂2 , . . . , θ̂k ), los estimadores máximo verosı́miles de (θ2 , . . . , θk ). Entonces, supθ∈Θ0 L(θ|~x) = L(θ10 , θ̂2 , . . . , θ̂k |~x). Ejemplo 6.3.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido. Deseamos contrastar H0 ) µ = µ0 contra H1 ) µ 6= µ0 . El contraste de razón de verosimilitudes, se construye de la siguiente manera ( L(µ|~x) = (2πσ 2 ) −n 2 n 1 X exp − 2 (xi − µ)2 2σ i=1 ) . Dado que σ 2 es conocida, θ = µ, Θ0 = {µ0 } y Θ = R. En este caso, H0 ) es una hipótesis simple. ( ) n X n 1 sup L(θ|~x) = L(µ0 |~x) = (2πσ 2 )− 2 exp − 2 (xi − µ0 )2 , 2σ θ∈Θ0 i=1 106 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica y dado que θ̂M V = X̄n , ( −n 2 sup L(θ|~x) = L(x̄n |~x) = (2πσ 2 ) θ∈Θ Entonces, recordando el resultado 2.1: n X n 1 X exp − 2 (xi − x̄n )2 2σ i=1 ) . (xi − µ0 )2 = nSn2 + n(x̄n − µ0 )2 . i=1 P n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2 P λ(~x) = n (2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − x̄n )2 n n o = exp − 2 (x̄n − µ0 )2 2σ Entonces, rechazamos H0 si o n n n (x̄n − µ0 )2 > c∗ ⇒ exp − 2 (x̄n − µ0 )2 < c ⇒ 2σ 2σ 2 √ n(x̄n − µ0 ) ≥ c∗∗ . σ Donde c∗∗ está elegido tal que √ n(X̄n − µ0 ) ∗∗ ≥c = α ⇒ c∗∗ = z1−α/2 , Pµ0 σ √ dado que n(X̄n − µ0 )/σ ∼ N(0, 1) cuando H0 ) es cierta. La Figura 6.6 muestra la función de potencia de este contraste en el caso de que α = 0, 10, n = 20, σ 2 = 10, para H0 ) µ = 2 contra H1 ) µ 6= 2. Figura 6.6: Función de potencia. Caso: X ∼ N(µ,10), α = 0, 1 y H0 ) µ = 2. Contraste de Hipótesis - 107 Introducción a la Inferencia Estadı́stica Ejemplo 6.3.2. Continuación ejemplo 6.3.1. Suponga ahora que σ > 0 es desconocido. Las hipótesis, escritas explı́citamente son H0 ) µ = µ0 , σ > 0 contra H1 ) µ 6= µ0 , σ > 0. En este caso θ = (µ, σ 2 ), Θ0 = {µ0 }×R+ , Θ = R×R+ . Para calcular λ(~x), maximizamos L(θ|~x) en Θ0 y en Θ: En Θ0 , ( sup L(θ|~x) = L(µ0 , σ̂02 |~x) = (2πσ̂02 ) −n 2 θ∈Θ0 n 1 X (xi − µ0 )2 exp − 2 2σ̂0 i=1 ) n n = (2πσ̂02 )− 2 e− 2 , n donde σ̂02 µ = µ0 . 1X = (xi − µ0 )2 es la estimación máximo verosı́mil de σ 2 sujeto a que n i=1 En Θ: ( −n 2 sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 ) θ∈Θ n 1 X (xi − x̄n )2 exp − 2 2Sn i=1 ) n n = (2πSn2 )− 2 e− 2 . Por lo tanto, n n (2πσ̂02 )− 2 e− 2 λ(~x) = n = n (2πSn2 )− 2 e− 2 Sn2 σ̂02 n2 − n (x̄n − µ0 )2 2 = 1+ . Sn2 Rechazamos H0 ) cuando (x̄n − µ0 )2 1+ Sn2 − n2 <c ⇒ (x̄n − µ0 )2 > c∗ ⇒ Sn2 (x̄n − µ0 ) > c∗∗ . Sn Donde c∗∗ está elegido tal que tn−1;1−α/2 (x̄n − µ0 ) ∗∗ Pµ0 >c , = α ⇒ c∗∗ = √ Sn n−1 √ dado que n − 1(X̄n − µ0 )/Sn ∼ tn−1 cuando H0 ) es cierta. La Figura 6.7 muestra la función de potencia de este contraste, en el caso H0 ) µ = 2, Sn2 = 10, n = 20 y α = 0, 1. También se incluye la gráfica de la función de potencia del ejemplo 6.3.1. Note de comparar ambas gráficas, se aprecia que en el caso de σ desconocido, la potencia tiende más lentamente a 1 a medida que nos alejamos del valor µ = 2. Esto se debe a que se ha incorporado la incertidumbre acerca del verdadero valor de la varianza de la distribución. Ejemplo 6.3.3. Continuación ejemplo 6.3.2. Suponga que ahora queremos encontrar el contraste de razón de verosimilitudes para H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 . En este caso θ = (µ, σ 2 ), Θ0 = R × {σ02 }, Θ = R × R+ . Para calcular λ(~x), maximizamos L(σ 2 |~x) en Θ0 y en Θ: 108 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Figura 6.7: Función de potencia. Caso: X ∼ N(µ, σ 2 ), S10 = 10, α = 0, 1 y H0 ) µ = 2. En Θ0 , recordando que el estimador máximo verosı́mil de µ, X̄n , no depende de cuál es el verdadero valor de σ 2 , tenemos que ( ) n X n 1 sup L(θ|~x) = L(x̄n , σ02 |~x) = (2πσ02 )− 2 exp − 2 (xi − x̄n )2 2σ θ∈Θ0 0 i=1 En Θ, al igual que en el ejemplo anterior: n n sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 )− 2 e− 2 . θ∈Θ De donde, λ(~x) = Sn2 σ02 n2 Sn2 exp − 2 + 1 . σ0 Entonces, rechazamos H0 si Sn2 σ02 Sn2 exp 1 − 2 < c. σ0 Para expresar la forma de esta RC en términos de alguna variable aleatoria con distribución conocida, estudiamos el comportamiento de la función g : R → R+ , definida como g(u) = u exp{1 − u}. Note que, ( > 0 si u < 1 g(1) = 1, g 0 (u) = (1 − u)e1−u ⇒ g 0 (u) . < 0 si u > 1 Por lo tanto, g(u) < c implica que u < a o u > b, donde c = g(a) = g(b). La Figura 6.8 muestra que el caso particular de g(u) < c = 0, 5, lo que equivale a que u < 0, 231961 o u > 2, 67835. Contraste de Hipótesis - 109 Introducción a la Inferencia Estadı́stica Figura 6.8: Gráfica de g(u) = u exp{1 − u}, u > 0 Por lo tanto, rechazo H0 si y solo si tal que P Sn2 Sn2 < a o > b. Donde a y b están determinados σ02 σ02 2 2 2 Sn Sn Sn Sn2 <a ∪ >b =P <a +P > b = α. σ02 σ02 σ02 σ02 Bajo H0 cierta, nSn2 /σ02 ∼ χ2n−1 . Por lo cual, a= χ2n−1;1−α2 χ2n−1;α1 y b= , donde α1 + α2 = α. n n Dado un valor de α, encontrar los valores de a y b, que cumplan 1) g(a) = g(b); 2) P(χ2n−1 < na) = α1 , P(χ2n−1 > nb) = α2 , con α1 + α2 = α; se debe realizar numéricamente. Usualmente, se utiliza la opción, más práctica, de tomar α1 = α2 = α/2. Ejemplo 6.3.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. Se desea contrastar H0 )θ ≤ θ0 contra H1 )θ > θ0 . En este caso Θ = R+ y Θ0 = (0, θ0 ). ( ) n X L(θ|~x) = θn exp −θ xi . i=1 Para calcular λ(~x), maximizamos L(θ|~x) en Θ0 y en Θ, recordando que θ̂M V = X̄n−1 . 110 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica En Θ0 , sup L(θ|~x) = sup θn e−θ θ∈Θ0 Pn i=1 xi = θ∈(0,θ0 )  −n −n  x̄n e   θ0n e−θ0 si x̄−1 n ≤ θ0 Pn i=1 xi si x̄−1 n > θ0 En Θ: −n sup L(θ|~x) = L(X̄n−1 |~x) = x̄−n n e θ∈Θ De donde, λ(~x) =      si x̄−1 n ≤ θ0 1 n  θ0n e−θ0 i=1 xi    −n x̄−n n e P si x̄−1 n > θ0 Por lo tanto, rechazamos H0 si x̄−1 n > θ0 y (θ0 x̄n )n exp {−n (θ0 x̄n − 1)} ≤ c. ~ ≤ c) = α. donde c ∈ (0, 1) y Pθ0 (λ(X)) Note que la función g : R → R+ , definida como g(u) = un exp{−n(u − 1)}, tiene un máximo en 1. Tomando u = θ0 x̄n , vemos que u < 1 y un exp{−n(u − 1)} < c si y solo si u ≤ k, donde k ∈ (0, 1). La Figura 6.9 muestra el comportamiento de g(u), para n = 20. Por lo tanto, la RC={~x ∈ X |θ0 x̄n ≤ k}. Donde ! Z n nc X 1 n−1 −y y e dy. α = sup Pθ (θX̄n ≤ c) = Pθ0 (θX̄n ≤ c) = Pθ0 θ Xi ≤ nc = Γ(n) θ∈Θ0 0 i=1 Figura 6.9: Gráfica de g(u) = un exp{−n(u − 1)}, u > 0 Contraste de Hipótesis - 111 Introducción a la Inferencia Estadı́stica Ejemplo 6.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ1 , σ 2 ). Sea Y1 , . . . , Ym una MA de Y ∼ N(µ2 , σ 2 ). X y Y independientes. θ = (µ1 , µ2 , σ 2 ) ∈ R×R×R+ desconocido. Dado un valor de α ∈ (0, 1), deseamos encontrar el contraste de razón de verosimilitudes para las hipótesis¿H0 ) µ1 = µ2 contra H1 ) µ1 6= µ2 . Asumimos n ≥ 2 y m ≥ 2. Defina, X̄n , 0 0 Ȳm , SX2 y SY2 de la manera usual y adicionalmente defina 0 0 (n − 1)SX2 + (m − 1)SY2 = . n+m Sp2 La función de verosimilitud es, ( L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ 2 ) − n+m 2 n X 1 exp − 2 2σ (xi − µ1 )2 + i=1 m X !) (yi − µ2 )2 . i=1 Para las hipótesis planteadas Θ0 = (µ, µ, σ 2 ), µ ∈ R, σ ∈ R+ . De donde, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = sup L(µ, µ, σ 2 |~x, ~y ). µ∈R,σ∈R+ θ∈Θ0 Se puede demostrar que en este caso, nx̄n + ȳm µ̃ = n+m P 2 − µ̃)2 + m i=1 (yi − µ̃) . n+m Pn 2 y σ̃ = i=1 (xi De donde, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̃ 2 )− n+m 2 exp(−(n + m)/2). (6.7) θ∈Θ0 Si no imponemos restricciones, tenemos que los estimadores máximo!verosı́mil de µ1 , µ2 n m X X 2 2 −1 2 y σ , son X̄n , Ȳm y σ̂ = (n + m) (xi − x̄n ) + (yi − ȳm )2 respectivamente. i=1 i=1 Entonces, sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̂ 2 )− n+m 2 exp(−(n + m)/2). (6.8) θ∈Θ Combinando los resultados de (6.8) y (6.7), tenemos que λ(~x, ~y ) = σ̂ 2 σ̃ 2 − n+m 2 P Pn − n+m 2 (xi − x̄n )2 + m (yi − ȳm )2 i=1 i=1 P = Pn . m 2 2 i=1 (xi − µ̃) + i=1 (yi − µ̃) Por lo tanto, rechazamos H0 si y solo si Pn P 2 (xi − x̄n )2 + m i=1 i=1 (yi − ȳm ) Pn P < k. m 2 2 i=1 (xi − µ̃) + i=1 (yi − µ̃) (6.9) Si tomamos, n X 2 02 2 (xi − µ̃) = (n − 1)SX + n(x̄n − µ̂) y i=1 112 - Contraste de Hipótesis m X i=1 0 (yi − µ̃)2 = (m − 1)SY2 + n(ȳm − µ̂)2 . Introducción a la Inferencia Estadı́stica Tenemos que, Pn P (xi − µ̃)2 + m (yi − µ̃)2 (x̄n − ȳm )2 nm i=1 i=1 Pn P = 1 + (6.10) 0 0 . m 2 2 n + m (n − 1)SX2 + (m − 1)SY2 i=1 (xi − x̄n ) + i=1 (yi − ȳm ) Por lo tanto, valores “pequeños” de la expresión del lado izquierdo de la ecuación (x̄n − ȳm )2 (6.9) corresponden con valores “grandes”de 0 0 . En consecuencia, (n − 1)SX2 + (m − 1)SY2 rechazamos H0 si y solo si |X̄n − Ȳm | p > k. 0 0 (n − 1)SX2 + (m − 1)SY2 Note que, si aceptamos H0 cierta, |X̄n − Ȳm | q ∼ tn+m−2 ⇒ k = tn+m−2;1−α/2 . 1 1 Sp n + m Note que en todos los ejemplos, las RC dependen del estadı́stico suficiente para el parámetro de interés. Esto no nos debe sorprender, dado que utilizando el teorema 2.3.1,tenemos el siguiente resultado. ~ un estadı́stico con distribución dada por fT (t|θ). Entonces defiTeorema 6.3.1. Sea T = T (X) nimos supθ∈Θ0 fT (t|θ) . λ∗ (T (~x)) = supθ∈Θ fT (t|θ) Sea λ(~x) el estadı́stico de razón de verosimilitudes basado en ~x. Si T es suficiente para θ, entonces λ(~x) = λ∗ (T (~x)), ∀~x ∈ X . 6.4. Valor p Una forma alternativa de ver el problema de contraste de hipótesis es mirar cuán probable es observar los datos que observamos si la hipótesis nula es cierta. Si nuestros datos son poco probables de observar bajo las condiciones impuestas por H0 , esto se puede tomar como evidencia a favor de que H0 es falsa. Esto equivaldrı́a a “mostrar por el absurdo” que la hipótesis nula no es cierta. Empezamos asumiendo que lo es y si la probabilidad bajo el modelo propuesto de observar nuestros datos es baja, argumentamos que esto implica una contradicción entre el modelo y lo observado. Suponga que el gasto en energı́a eléctrica de una determinada población se distribuye N(µ, σ 2 ). Por estudios anteriores se ha estimado el consumo medio en $260. Se desea saber si este valor ha aumentado. Se toma una muestra de tamaño 25 y se mide el gasto. Se encuentra, que en la muestra, x̄25 = 330, 6 y s025 = 154, 2. Se contrasta el siguiente par de hipótesis: H0 ) µ ≤ 260 contra H1 ) µ > 260. Dado que X es una variable aleatoria absolutamente continua tenemos que P(X̄25 = 330, 6) = 0. Por lo cual, no tiene sentido investigar la probabilidad de observar un valor de X̄n igual al observado. En lugar de esto, investigamos obtener un valor de X̄n igual o “más Contraste de Hipótesis - 113 Introducción a la Inferencia Estadı́stica extremo” que el observado en la muestra. Note que “más extremo” es relativo a la forma de H0 . En este caso, H0 implica que µ es menor o igual que un valor dado. Por lo cual, algo “más extremo” significa “mayor que”. Si H0 es µ mayor o igual a un valor dado, “más extremo” significa ‘menor que”. En nuestro ejemplo, si aceptamos que H0 es verdadera, la probabilidad de observar una muestra con media mayor o igual que 330,6 es 0,01548. A este valor le llamaremos valor p. Es importante entender que el valor p no es la probabilidad de que H0 sea cierta dado que observamos X̄n = 330,6. Este valor indica que en el caso de que µ = 260, observar un valor de X̄n igual o mayor al efectivamente observado de 330,6 es poco probable, pero no imposible. Por lo tanto, si consideramos que el valor de 0,01548 es “pequeño”, rechazamos H0 en favor de H1 . La pregunta entonces es: ¿qué significa “pequeño”? Para tener un punto de comparación, considere el caso X ∼ N(µ, σ 2 ), µ y σ 2 desconocidos, H0 ) µ ≤ µ0 contra H0 ) µ > µ0 . Utilizando el teorema 6.2.1, tenemos que la RC es de la forma {~x ∈ X |x̄n > k}. Dado que desconocemos el√verdadero valor de σ 2 no podemos utilizar la normalidad de X̄n , pero podemos utilizar√que n(X̄n − µ)/Sn0 ∼ tn−1 . Esto nos lleva a que rechazamos H0 si x̄n > µ0 + tn−1;1−α Sn0 / n. En nuestro ejemplo, µ√ 0 = 260 y asumamos que α = 0, 05. Por lo tanto rechazaremos H0 si x̄n > 260 + t24;0,95 154, 2/ 25 = 312,1477, (t24;0,95 = 1,71088). Dado que observamos x̄n = 330,6, esto indica que ~x ∈ RC y en consecuencia rechazamos la hipótesis nula de que µ = 260. Ahora, si somos coherentes tendremos que, en nuestro primer caso, concluir que 0,01548 es poca evidencia acerca de la validez de H0 . Dado que si consideramos que el valor p es “grande” estarı́amos incurriendo en una contradicción. La figura 6.10.(a), representa con un área sombreada la P(X̄n ≥ 330,6|µ = 260), el valor p y en la figura 6.10.(b) la P(X̄n ≥ 312,1477|µ = 260), el nivel de significación. 0 Figura 6.10: Distribución de X̄25 con µ = 260 y s 2 = 154, 2 114 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica De este razonamiento podemos extraer una regla de decisión: si el valor p asociado al contraste es menor que el nivel de significación, entonces rechazo H0 . En caso contrario, no rechazo H0 . Esto es, si el valor p es inferior al nivel de significación, lo más verosı́mil es que la hipótesis de partida sea falsa. Es de resaltar que basamos nuestros conceptos de “pequeño” y “grande” en referencia a otro concepto a su vez arbitrario, que es el valor que le hemos asignado al nivel de significación. Cuando decidimos restringir nuestra atención a los contrastes de nivel α, se mencionó que el nivel de significación se fija de antemano por el investigador en algún valor bajo que considera razonable. Las condiciones que marcarán lo “razonable de la elección” están basadas en el conocimiento experto del investigador sobre el tema que se está investigando y son externos a la forma en cómo se construye el contraste. En resumen, el valor p se define como la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido (valor del estadı́stico calculado), suponiendo que la hipótesis nula es cierta. Cuanto más chico el valor p, mayor es la significación dado que más evidencia se le proporciona al investigador de que la hipótesis nula en consideración parece no ser la adecuada. La hipótesis H0 es rechazada si el valor p es menor o igual que un pequeño y fijo, pero arbitrariamente predefinido, umbral α. Al revés que el valor p, el nivel de significación α no ese calcula a partir de los datos observados; el valor de α está determinado por el investigador antes de observar los datos. ~ este es a su vez también una variable aleatoria Dado que el valor p depende del valor que toma X, definida uniformemente en el intervalo (0,1), asumiendo X continua. Esto implica que el valor p no es fijo y por lo tanto, no se le puede dar una interpretación frecuentista de la probabilidad. Esto es, si repetimos el experimento manteniendo todas las condiciones (tipo de muestreo, hipótesis, etc.) fijas, obtendremos un valor diferente del valor p. El valor prefijado α puede ser interpretado ~ como la tasa de falsamente rechazar la hipótesis nula, dado que, escribiendo al valor p como p(X) ~ para resaltar que es función de X: ~ ≤ α|H0 cierta) = α. P(rechazar H0 |H0 cierta) = P(p(X) Esto también significa que si fijamos al valor p en un valor determinado y dejamos que α varı́e sobre [0, 1], podemos interpretar el valor p en términos de α: para un conjunto dado de observaciones, es el menor nivel de significación que se puede asumir para el cual la hipótesis nula puede ser rechazada. La definición formal del valor p, es la que sigue. ~ es un estadı́stico de contraste que satisface 0 ≤ p(~x) ≤ 1 Definición 6.4.1. Un valor p, p(X), para todo ~x ∈ X . Valores pequeños de p(~x) aportan evidencia de que H1 es cierta. Un valor p es válido si para cada θ ∈ Θ0 y cada 0 ≤ α ≤ 1, ~ ≤ α) ≥ α. Pθ (p(X) (6.11) ~ La Si tenemos un valor p válido es sencillo construir un contraste de nivel α basado en p(X). ~ fórmula (6.11) asegura que el contraste que rechaza H0 si y solo si p(X) ≤ α es un contraste de nivel α. Para calcular un valor p solo tenemos que saber cuál es la forma de la RC del contraste a utilizar. Suponga que para un determinado par de hipótesis, {H0 , H1 }, la RC está basada en un estadı́stico Contraste de Hipótesis - 115 Introducción a la Inferencia Estadı́stica ~ y es de la forma {~x ∈ X |T (~x) > k}. Se observa X ~ = ~x, evaluamos T (~x) y calculamos el T (X) ~ > T (~x)|H0 ). Note que se asume H0 cierta y se utiliza la misma forma de valor p que es P(T (X) la RC sustituyendo k por T (~x). Ejemplo 6.4.1. Continuación ejemplo 6.3.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, 5), µ ∈ R. Deseamos contrastar H0 ) µ = 10 contra H1 ) µ 6= 10. Se observa una muestra de tamaño 20 y se observa x̄20 = 13, 6. Tomando α = 0, 05, el contraste de razón de verosimilitudes tiene RC ( ) √ 20(x̄n − 10) √ ~x ∈ X : ≥ 1, 96 , 5 ~ > k, donde k = z1−α/2 = z0,975 = 1, 96 y La RC es de la forma T (X) √ √ 20(X̄n − 10) 20(13, 6 − 10) ~ √ √ ⇒ t(~x) = = 7, 2. T (X) = 5 5 Para calcular el valor p, sustituimos 1,96 por t(~x) y calculamos ~ > t(~x) µ = 10 = P(|Z| > 7, 2|µ = 10) = 2 − 2Φ(7, 2) ≈ 0, P T (X) dado que √ 20(X̄n − 10) √ ∼ N(0, 1), 5 cuando H0 es cierta. Hemos encontrado que el valor p es menor que α, por lo tanto rechazamos H0 . Concluimos que, con un nivel de significación del 5 %, existe evidencia (estadı́sticamente significativa) de que µ 6= 10. En 2016, la American Statistical Association publicó seis principios para el correcto uso e interpretación del valor p. Muchos de estos principios abordan concepciones equivocadas y empleos erróneos. Los seis principios son los siguientes: 1. Los valores p pueden indicar cómo son los datos de incompatibles con cierto modelo estadı́stico. 2. Los valores p no miden la probabilidad de que la hipótesis nula sea cierta, ni tampoco la probabilidad de que los datos hayan sido producidos enteramente al azar. 3. Conclusiones cientı́ficas y decisiones polı́ticas o empresariales no deberı́an basarse únicamente en el hecho de que un valor p supere un umbral especificado. 4. Una inferencia apropiada implica un informe completo y transparencia. 5. Ni el valor p ni la significación estadı́stica miden el tamaño de un efecto o la importancia de un resultado. 6. En sı́ mismo, un valor p no es una medida apropiada de la evidencia de un modelo o hipótesis. 116 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica 6.5. Construcción de estimadores por intervalo En el capı́tulo 5 vimos como construir intervalos de confianza usando cantidades pivotales. En esta parte veremos otro método para construir intervalos de confianza a partir de la región crı́tica de un contraste de hipótesis. 6.5.1. Inversión de una RC Existe una estrecha relación entre contraste de hipótesis e intervalos de confianza. Se puede probar que cada intervalo de confianza corresponde a la región de aceptación de un determinado contraste. Antes de dar el resultado general veremos un ejemplo. Ejemplo 6.5.1. En el ejemplo 6.3.1, X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido, para las hipótesis H0 ) µ = µ0 contra H1 ) µ 6= µ0 , calculamos la RC UMP del contraste de nivel α. En base a la RC hallada podemos tambiº’en determinar la región de no rechazo. Llamémosle, a esta región, A(µ0 ). Entonces, √ n(x̄n − µ0 ) < z1−α/2 . A(µ0 ) = ~x ∈ X : σ Observe que A(µ0 ) es el conjunto de las muestras para las cuales no rechazo H0 ) µ = µ0 . Por lo tanto, en A(µ0 ), µ está fijo en un valor µ0 y ~x es variable. Si ahora fijamos el valor de ~x, podemos hallar qué valores le podemos asignar a µ0 de tal manera, que con la región crı́tica hallada no rechazamos H0 ). Esto es, hallar el conjunto de valores que le podemos dar a µ0 , tal que si observamos este valor especı́fico de ~x no rechazamos H0 ) µ = µ0 . Denotemos este conjunto C(~x). Operando tenemos que, √ n(X̄n − µ0 ) > z1−α/2 α = Pµ0 σ √ n(X̄n − µ0 ) ≤ z1−α/2 = 1 − Pµ0 σ σ σ = 1 − Pµ0 −z1−α/2 √ ≤ X̄n − µ0 ≤ z1−α/2 √ n n σ σ = 1 − Pµ0 X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √ . n n De donde, Pµ0 σ σ X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √ n n = 1 − α. Por lo tanto, si fijamos X̄n = x̄n , σ σ C(~x) = µ0 ∈ Θ : µ0 ∈ x̄n − z1−α/2 √ ; x̄n + z1−α/2 √ . n n Hemos entonces encontrado dos conjuntos A(µ0 ) y C(~x) que cumplen la relación: ~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x). ~ = 1 − α, C(X) ~ es un intervalo de confianza (1 − α)100 %. Esto Dado que P(θ ∈ C(X)) σ ~ = X̄n − z1−α/2 √ y U (X) ~ = X̄n + z1−α/2 √σ . es, L(X) n n Contraste de Hipótesis - 117 Introducción a la Inferencia Estadı́stica Observe que al tomar µ = µ0 particionamos X en dos conjuntos, el conjunto de las muestras para las cuales rechazamos H0 (A(µ0 )) y el conjunto para las cuales no rechazamos H0 . Si fijamos X̄n en un valor fijo x̄n particionamos Θ en dos conjuntos, el conjunto de los valores µ0 del parámetro para los cuales no rechazamos H0 )µ = µ0 si se observa X̄n = x̄n (C(x̄n )) y el conjunto de los valores µ1 del parámetro para los cuales rechazamos H0 )µ = µ1 si se observa X̄n = x̄n . La tautologı́a ~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x) se puede extender a casos generales. Aún cuando la región de confianza no sea un intervalo. Teorema 6.5.1. Para cada valor θ0 ∈ Θ se denota A(θ0 ) a la región de aceptación a nivel α de un contraste para H0 ) θ = θ0 . Para cada ~x ∈ X se define el conjunto C(~x) ⊆ Θ como C(~x) = {θ0 ∈ Θ : ~x ∈ A(θ0 )}. ~ es un estimador por conjuntos de confianza 1 − α para θ. Entonces, el conjunto C(X) ~ un estimador por conjuntos de confianza 1 − α para θ. Para cada θ0 Recı́procamente, sea C(X) se define A(θ0 ) = {~x ∈ X : θ0 ∈ C(~x)}. Entonces, A(θ0 ) es la región de no rechazo a nivel α de una prueba que constrasta H0 ) θ = θ0 . Demostración. Para la primera parte. Para ser A(θ0 ) el complementario de la región crı́tica de una prueba de nivel α se tiene que ~ ∈ A(θ0 )) ≥ 1 − α. Pθ0 (X Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar de θ0 . Como ~x ∈ A(θ) si y solo si θ ∈ C(~x), se tiene que ~ = P θ (X ~ ∈ A(θ0 )) ≥ 1 − α, Pθ (θ ∈ C(X)) ~ es un estimador por conjuntos de confianza 1 − α para θ. y se concluye que C(X) En la segunda parte. La probabilidad de error de tipo I del contraste cuya región de aceptación es A(θ0 ) es ~ ∈ ~ ≤ α, Pθ0 (X / A(θ0 )) = Pθ0 (θ0 ∈ / C(X)) ası́ que esta es un contraste de nivel α. Ejemplo 6.5.2. Continuación ejemplo 6.5.1. Asuma ahora que σ 2 es desconocida. Dada H0 ) µ = µ0 y utilizando la RC hallada en el ejemplo 3.3.2 (reexpresada en términos de 0 Sn2 ), tenemos que √ n(x̄n − µ0 ) A(µ0 ) = ~x ∈ X : > tn−1;1−α/2 . Sn0 118 - Contraste de Hipótesis Introducción a la Inferencia Estadı́stica Notando que, √ √ n(x̄n − µ0 ) n(x̄n − µ0 ) ≤ tn−1;1−α/2 ⇒ −tn−1;1−α/2 ≤ ≤ tn−1;1−α/2 0 Sn Sn0 0 0 Sn Sn ⇒ −tn−1;1−α/2 √ ≤ x̄n − µ0 ≤ tn−1;1−α/2 √ n n 0 0 S S ⇒ −tn−1;1−α/2 √n ≤ x̄n − µ0 ≤ tn−1;1−α/2 √n n n Entonces, 0 0 Sn Sn . C(~x) = µ ∈ R : x̄n − tn−1;1−α/2 √ ≤ µ ≤ x̄n + tn−1;1−α/2 √ n n ~ = ~x, calculamos el intervalo Entonces, para una muestra dada, X 0 0 Sn Sn x̄n − tn−1;1−α/2 √ ; x̄n + tn−1;1−α/2 √ . n n Para cualquier valor µ0 de µ, que esté contenido entre los dos extremos no rechazamos H0 ) µ = µ0 . Ejemplo 6.5.3. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 desconocidos. En el ejemplo 6.3.3 encontramos que el contraste de razón de verosimilitudes para H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 hallamos la región crı́tica de tamaño α. En base a esta región crı́tica tenemos que χ2n−1;1−α2 χ2n−1;α1 Sn2 2 ≤ 2 ≤ . A(σ0 ) = ~x ∈ X : n σ0 n con α1 + α2 = α. Por lo tanto, la inversión de la RC nos da que nSn2 nSn2 2 + 2 C(~x) = σ ∈ R : 2 <σ < 2 . χn−1;1−α2 χn−1;α1 Ejemplo 6.5.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ. En el ejemplo 6.3.4 se encontró que la RC para el contraste H0 )θ ≤ θ0 contra H1 )θ > θ0 de donde ( ) n X A(θ0 ) = ~x ∈ X : θ Xi > k , i=1 donde k representa el percentil α de una distribución Gamma(n,1). Por lo tanto, ! n X k 1 − α = Pθ θ Xi > k = Pθ θ > Pn . X i i=1 i=1 Contraste de Hipótesis - 119 Introducción a la Inferencia Estadı́stica Entonces, C(~x) = + θ∈R k : θ > Pn Xi k Observe, que este intervalo de confianza es de la forma Pn i=1 estamos explicitando una cota inferior para θ. i=1 Xi , +∞ , con lo cual Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Stapleton, J.H. (2008) Models for Probability and Statistical Inference. Wiley-Interscience. Wasserstein R.L., Lazar N.A. (2016). The ASA’s statement on p-values: context, process, and purpose. The American Statistician.70:2, 129-133 Wikipedia: https://en.wikipedia.org/wiki/P-value, visitado el 19/04/2017. 120 - Contraste de Hipótesis CAPÍTULO 7 INFERENCIA EN MUESTRAS GRANDES 7.1. Introducción Dado que la estadı́stica está basada en observaciones, es de interés ver qué sucede cuando obtenemos más y más datos. La pregunta básica es ¿cuál es el comportamiento en el lı́mite de la secuencia de variables aleatorias X1 , X2 , X3 , . . .? En cálculo, una secuencia de números reales {xn : n ≥ 1} converge a un lı́mite x si para todo n grande ∀ > 0 |xn − x| < . Si xn = x ∀n, entonces trivialmente lı́m Xn = x. El equivalente probabilı́stico del concepto n→∞ de convergencia necesita algunas modificaciones. Por ejemplo, suponga que X1 , X2 , . . . es una secuencia de variables aleatorias iid, cada una con distribución N(0,1). Dado que todas las variables en la secuencia tienen la misma distribución estaremos tentados a decir que la secuencia “converge” a una variable aleatoria X ∼ N(0, 1). Esto no es cierto dado que P (Xn = X) = 0 ∀n. Como otro ejemplo, considere que X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ). Intuitivamente, para valores grandes de n, la distribución de Xn está muy concentrada alrededor del 0, por lo cual desearı́amos decir que Xn converge a 0. Esto no es ası́ dado que P (Xn = 0) = 0 ∀n. En vista de esto, necesitamos desarrollar herramientas para definir convergencia de sucesiones de variables aleatorias. Este capı́tulo desarrolla dichas herramientas con un propósito claro, establecer dos teoremas: la “ley débil de los grandes números” y el teorema del lı́mite central. Para ello estudiaremos tres tipos de convergencia: 1. Convergencia en probabilidad. 2. Convergencia en media cuadrática. 3. Convergencia en distribución. 121 Introducción a la Inferencia Estadı́stica Si bien no estaremos interesados en convergencia en media cuadrática per se, nos basaremos en las relaciones que existen entre los tres tipos de convergencia para verificar la convergencia en probabilidad o en distribución de una secuencia de variables aleatorias. 7.2. Convergencia en probabilidad Definición 7.2.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn coverge en p probabilidad a X, denotado Xn → X, si ∀ > 0 lı́m P(|Xn − X| > ) = 0. n→∞ Alternativamente, lı́m P(|Xn − X| < ) = 1. n→∞ Observación 7.2.1. Cuando X es una variable aleatoria tal que P(X = c) = 1, con c ∈ R, p diremos que Xn → c. ~ n converja en probabilidad a c significa que la distribución de Xn se va conQue la secuencia X centrando cada vez más en torno a c a medida que n aumenta. Convergencia en probabilidad no significa que Xn = c cuando n → ∞. Ejemplo 7.2.1. Sea X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ). p Queremos probar que Xn → 0. Para ello usaremos la desigualdad de Markov. Markov ↓ E(Xn2 ) 1 n→∞ 2 2 P(|Xn − 0| > ) = P(|Xn | > ) = P (Xn > ) ≤ = 2 −−−→ 0. 2 n Ejemplo 7.2.2. Sea X1 , X2 , . . . Una secuencia de variables aleatorias con Xn = en I[X≥n] , p donde X ∼ Exp(1). Queremos probar que Xn → 0. P(|Xn − 0| < ) = P(|Xn | < ) = P(Xn < ) = P(Xn = 0) = P (X < n) = 1 − e−n → 1. Note que el recorrido de Xn es el conjunto {0, en }. Si tomamos > 0 lo suficientemente pequeño, el suceso {Xn < } es equivalente al suceso {Xn = 0}, dado que 0 es el único punto del recorrido de Xn que está contenido en el intervalo (−∞, ). Además, Xn = 0 si y solo si X < n. 122 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Ejemplo 7.2.3. Sea X1 , X2 , . . . es una secuencia iid de variables aleatorias con distribución común Uniforme(0,1). Defina, X(n) = máx{X1 , . . . , Xn }. Queremos probar que p X(n) → − 1. Recordando que, en este caso, FX(n) (x) = xn I[0<x<1] + I[x≥1] , tenemos que P(|X(n) − 1| < ) = P(− < X(n) − 1 < ) = P(1 − < X(n) < 1 + ) = FX(n) (1 + ) − FX(n) (1 − ) = 1 − (1 − )n (1 + > 1 y 0 < 1 − < 1) Entonces, lı́m P(|X(n) − 1| < ) = lı́m [1 − (1 − )n ] = 1. n→∞ n→∞ p p Teorema 7.2.1. Sea g una función continua en c ∈ R y Xn → c. Entonces, g(Xn ) → − g(c). Demostración. Si g es continua en c, entonces dado > 0, ∃δ > 0 tal que |g(x)−g(c)| < siempre que |x − c| < δ . Por lo tanto el suceso {|g(x) − g(c)| < } incluye al suceso {|x − c| < δ }. Por lo tanto, P(|Xn − c| < δ ) ≤ P(|g(Xn ) − g(c)| < ) ≤ 1. p Dado que Xn → c, tenemos que 1 = lı́m P(|Xn − c| < δ ) ≤ lı́m P(|g(Xn ) − g(c)| < ) ≤ lı́m 1 = 1 n→∞ n→∞ n→∞ =⇒ lı́m P(|g(Xn ) − g(c)| < ) = 1 n→∞ p y por lo tanto, g(Xn ) → − g(c). p Ejemplo 7.2.4. Suponga que Xn → a. Entonces, p − a2 Xn2 → p 1/Xn → − 1/a si a 6= 0 p p √ Xn → − a si a ≥ 0 p p Teorema 7.2.2. Sea g una función continua y Xn → X. Entonces, g(Xn ) → − g(X). ~ n = (X1 , . . . , Xn ). Definición 7.2.2. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Defina X ~ n ) es consistente para τ (θ) si para cualquier θ ∈ Θ, Una secuencia de estimadores Tn = T (X p Tn → − τ (θ) cuando n → ∞. Inferencia en muestras grandes - 123 Introducción a la Inferencia Estadı́stica La definción implica que la distribución de probabilidad de un estimador consistente de τ (θ) tiende a concentrarse alrededor de este valor cuando n se hace grande. Ejemplo 7.2.5. Continuación del ejemplo 7.2.3. Suponga ahora que X ∼ Uniforme(0, θ). Queremos probar que X(n) = máx{X1 , . . . , Xn } p es un estimador consistente de θ. Esto es, X(n) → − θ. P(|X(n) − θ| < ) = P(− < X(n) − θ < ) = P(θ − < X(n) < θ + ) = FX(n) (θ + ) − FX(n) (θ − ) n =1− 1− θ (θ + > θ y 0 < θ − < θ) Entonces, h n i lı́m P(|X(n) − θ| < ) = lı́m 1 − 1 − = 1. n→∞ n→∞ θ p Por lo cual, X(n) → − θ. Teorema 7.2.3. Ley (débil) de los grandes números (caso iid) Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza µ y varianza σ 2 < ∞. Sea n X X̄n = n−1 Xi . Entonces, i=1 p X̄n → − µ Demostración. Recordando que E(X̄n ) = µ y Var(X̄n ) = σ 2 /n, tenemos que Chebychev ↓ Var(X̄n ) σ 2 n→∞ P(|X̄n − µ| > ) ≤ = −−−→ 0. 2 n2 Observación 7.2.2. El teorema anterior indica que si trabajamos con una MA de una variable aleatoria X con distribución de probabilidad tal que su varianza es finita, entonces X̄n es un estimador consistente de la E(X). Ejemplo 7.2.6. Sea un suceso de interés A que ocurre con P(A) en cada uno de n experimentos independientes. Sea Xi = número de veces que ocurre el suceso A en el i-ésimo experimento, i = 1, . . . , n. Entonces, Xi ∼ Bernoulli(P(A)). La frecuencia 124 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica relativa del suceso A, h(A), es el porcentaje de veces que ocurre el suceso en las n repeticiones del experimento. Esto es, n 1X h(A) = Xi = X̄n . n i=1 Por lo tanto, tenemos que E(h(A)) = P(A) y Var(h(A)) = P(A)(1 − P(A)) < ∞. De donde, p h(A) → − P(A). Esto es la fundamentación de la interpretación frecuentista de la probabilidad: Suponga que un experimento se repite infinitas veces en idénticas condiciones. La probabilidad de A es el porcentaje de veces que ocurre el suceso A en esas infinitas repeticiones. Ejemplo 7.2.7. Sea X1 , . . . , Xn una MA de X ∼ FX . Para todo x ∈ R, definimos la función de distribución empı́rica, F ∗ (x), como el porcentaje de observaciones que son menores o iguales que x. Si Yi = I[Xi ≤x] , entonces n 1X F (x) = Yi = Ȳn . n i=1 ∗ Dado que Yi ∼ Bernoulli(FX (x)), tenemos que Var(Yi ) = FX (x)(1 − FX (x)) < ∞. Por lo tanto, p F ∗ (x) → − E(F ∗ (x)) = FX (x). Observación 7.2.3. Otras relaciones que se cumplen son las siguientes: p p p 1. Si Xn → X y Yn → − Y =⇒ Xn + Yn → − X +Y. p p 2. Si Xn → X ∀a ∈ R aXn → − aX. p p p 3. Si Xn → X y Yn → − c =⇒ Xn /Yn → − X/c, si c 6= 0. Ejemplo 7.2.8. Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza n X 2 2 −1 µ y varianza σ < ∞. Sea Sn = n (Xi − X̄n )2 . Dado que, i=1 n Sn2 n 1X 1X 2 = (Xi − X̄n )2 = Xi − X̄n2 . n i=1 n i=1 p Tenemos, por el teorema 7.2.1 y la Ley débil de los grandes números, que X̄n2 → − µ2 y n 1X 2 p X → − E(X 2 ). Por lo tanto, usando la observación 7.2.3 n i=1 i p Sn2 → − E(X 2 ) − µ2 = σ 2 . Inferencia en muestras grandes - 125 Introducción a la Inferencia Estadı́stica 7.3. Convergencia en media cuadrática Definición 7.3.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn converge en mc media cuadrática a X, Xn −→ X, si lı́m E (Xn − X)2 = 0. n→∞ mc Si X está degenerada en c, diremos que Xn −→ c. En nuestro curso, la convergencia en media cuadrática no es de especial interés, salvo para mostrar convergencia en probabilidad. El siguiente teorema muestra la relación entre los dos tipos de convergencia. p mc Teorema 7.3.1. Si Xn −→ X entonces Xn → X. Demostración. Chebychev ↓ E [(Xn − X)2 ] n→∞ ∀ > 0, 0 ≤ P(|Xn − X| ≥ ) ≤ −−−→ 0. 2 De donde, lı́m P(|Xn − X| ≥ ) = 0. n→∞ Ejemplo 7.3.1. El recı́proco √ del teorema no es necesariamente cierto. Suponga que U ∼ Uniforme(0,1). Sea Xn = nI[0<U <1/n] . Entonces, √ √ 1 n→∞ P(|Xn | > ) = P( nI[0<U <1/n] > ) = P(Xn = n) = P(0 < U < 1/n) = −−−→ 0 n p =⇒ Xn → 0. Pero, E(Xn2 ) Z 1/n mc du = 1 ∀n =⇒ Xn −→0. =n 0 p Observación 7.3.1. Si Xn → c no necesariamente E(Xn ) → c. Suponga que {Xn } es una sucesión de variables aleatorias tal que P(Xn = n2 ) = 1 1 P(Xn = 0) = 1 − . n n Entonces, P(|Xn | < ) = P(Xn = 0) = 1 − Sin embargo, E(Xn ) = n2 1 n→∞ = n −−−→ ∞. n 126 - Inferencia en muestras grandes 1 n→∞ p −−−→ 1 =⇒ Xn → 0. n Introducción a la Inferencia Estadı́stica ~ es un estimador de τ (θ), habı́amos definido el error cuadrático Observación 7.3.2. Si Tn = T (X) medio de tn como ECM(Tn ) = E[(Tn − τ (θ))2 ]. También encontramos que este se puede descomponer en la suma de dos componentes, la varianza y el cuadrado del sesgo de Tn . Por lo tanto, mc si cuando n → ∞ tenemos que la Var(Tn ) → 0 y E(Tn ) → τ (θ), entonces Tn −→ τ (θ), lo que a p su vez implica que Tn → − τ (θ). Entonces, si estas condiciones se cumplen, tenemos que Tn es un estimador consistente para τ (θ). 7.4. Convergencia en distribución Definición 7.4.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias, cada una con función de distribución Fn . Diremos que Xn converge en distribución a una variable aleatoria X con función de distribución FX si lı́m Fn (x) = FX (x) ∀x ∈ {x : FX es continua en x}. n→∞ d Lo denotaremos, Xn → − X. −1 Ejemplo 7.4.1. √ Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ N(0, n ). Defina Zn = nXn ∼ N(0, 1). ( √ √ √ 0 si t < 0 Fn (t) = P(Xn ≤ t) = P( nXn ≤ n t) = Φ( n t) → 1 si t > 0 Sea X una variable aleatoria tal que P(X = 0) = 1. Entonces, ( 0 si x < 0 FX (x) = 1 si x ≥ 0. Note que Fn (0) = 1/2 y que FX (0) = 1. Esto no es de importancia, dado que 0 no es un punto de continuidad de FX . Por lo tanto, Fn (t) → FX (t) ∀t 6= 0. Teorema 7.4.1. Se cumplen las siguientes relaciones: p d 1. Si Xn → X =⇒ Xn → − X. d p 2. Si Xn → − c, c ∈ R =⇒ Xn → c. p Demostración. 1. Sea x un punto de continuidad de FX . Sea > 0. Dado que Xn → X, cuando n → ∞, P(|Xn − X| ≥ ) → 0. Por lo tanto, FXn (x) = P(Xn ≤ x) = P [(Xn ≤ x) ∩ (|Xn − X| < ] + P [(Xn ≤ x) ∩ (|Xn − X| ≥ )] :0 ≤ P(X ≤ x + ) + P(|X n− X| ≥ ) → P(X ≤ x + ) = FX (x + ) Inferencia en muestras grandes - 127 Introducción a la Inferencia Estadı́stica Esto es, FXn (x) ≤ FX (x + ). (7.1) De manera similar, :0 x − ) + P(|X − X| ≥ ) n 1 − FXn (x) = P(Xn > x) ≤ P(X ≥ → 1 − P(X ≤ x − ) = 1 − FX (x − ) Lo que implica que, FX (x − ) ≤ FXn (x) (7.2) Usando las fórmulas (7.1) y (7.2) tenemos que FX (x − ) ≤ FXn (x) ≤ FX (x + ). Haciendo que → 0, obtenemos el resultado deseado lı́m Fn (x) = FX (x). n→∞ 2. Sea > 0. Entonces, lı́m P(|Xn − c| ≤ ) = lı́m (FXn (c + ) − FXn (c − )) = FX (c + ) − FX (c − ) = 1 − 0 = 1. n→∞ n→∞ Ejemplo 7.4.2. Convergencia en distribución no necesariamente implica convergencia en probabilidad. Para ver esto, considere X una variable aleatoria absolutamente continua con densidad fX (x) que es simétrica alrededor del 0. Esto es, fX (−x) = fX (x). Entonces, es fácil de demostrar que la variable −X también tiene la misma densidad fX (x). Entonces, X y −X tienen la misma distribución. Defina una secuencia de variables aleatorias de la siguiente manera: ( X si n es par Xn = −X si n es impar. d Claramente, FXn (x) = FX (x) para toda x en el soporte de X. Por lo tanto, Xn → − X. Observe que la secuencia |Xn − X| vale alternadamente 0 o | − 2X| por lo cual no converge en probabilidad. Ejemplo 7.4.3. Aún cuando la secuencia X1 , X2 , . . . converge en distribución a una variable aleatoria X, no se puede en general determinar la distribución de X hallando los lı́mites de la cuantı́a o densidad de Xn . Suponga que X1 , X2 , . . . es una secuencia de variables aleatorias tales que Xn ∼ fn (x) = I[x=2+n−1 ] . Claramente, lı́m fn (x) = 0 n→∞ 128 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica para cualquier valor x. Esto sugerirı́a que Xn no converge en distribución. Sin embargo, la función de distribución de Xn es ( 0 si x < 2 + n−1 Fn (x) = 1 si x ≥ 2 + n−1 . y ( 0 si x ≤ 2 lı́m Fn (x) = n→∞ 1 si x > 2. Dado que, ( 0 si x < 2 FX (x) = 1 si x ≥ 2. es un función de distribución discontinua en x = 2, se cumple que lı́m Fn (x) = FX (x) n→∞ d d en todos los puntos de continuidad de FX . Por lo tanto, Xn → − 2. Esto es, Xn → − X, donde P(X = 2) = 1. Ejemplo 7.4.4. Dado que convergencia en probabilidad implica convergencia en disd tribución, el teorema 7.2.2 implica que si g es una función continua y si Xn → − X, d tenemos que g(Xn ) → − g(X). Por ejemplo, d d − X ∼ N(0, 1) =⇒ Xn2 → − X 2 ∼ χ21 . Xn → Ejemplo 7.4.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Sea, X(n) = máx{X1 , . . . , Xn }. Considere la variable aleatoria Zn = n(θ − Yn ). Observe que Rec(Zn ) = (0, nθ). Sea t ∈ (0, nθ), P(Zn ≤ t) = P(Yn ≥ θ − t/n) = 1 − θ − t/n θ n n t/θ =1− 1− → 1 − e−t/θ . n d Por lo tanto, Zn → − Z ∼ Exp(θ), con E(X) = θ. Teorema 7.4.2. Slutsky d Sea X1 , X2 , . . . una sucesión de variables aleatorias, sea X una variable aleatoria tal que Xn → − X. p Sean Y1 , Y2 , . . . y W1 , W2 , . . . dos sucesiones de variables aleatorias tales que Yn → − a ∈ R y p Wn → − b ∈ R. Entonces, d Yn Xn + W n → − aX + b. Inferencia en muestras grandes - 129 Introducción a la Inferencia Estadı́stica d d d Observación 7.4.1. Si Xn → − X y Yn → − Y , en general no se cumple que Xn + Yn → − X +Y. Para aquellos casos donde exista la función generatriz de momentos, el siguiente teorema explicita una forma alternativa de verificar convergencia en distribución. Es una condición suficiente pero no necesaria. Teorema 7.4.3. Sea X1 , X2 , . . . una secuencia de variables aleatorias con función generatriz de momentos MXn (t), |t| ≤ h. Sea X una variable aleatoria con función generatriz de momentos MX (t), |t| ≤ h1 ≤ h. Si d lı́m MXn (t) = MX (t) |t| ≤ h1 =⇒ Xn → − X. n→∞ ~ n ∼ Binomial(n, θ). Ejemplo 7.4.6. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con X + Sea λ = nθ ∀n. Observe que λ ∈ R y θ = λ/n. Por lo cual, si n → ∞ entonces θ → 0. n λ(et − 1) t n MXn (t) = (1 − θ) + θe = 1 + n Por lo tanto, λ(et − 1) lı́m 1 + n→∞ n n t d − X ∼ Poisson(λ). = eλ(e −1) =⇒ Xn → En la práctica, esta aproximación es buena si θ ≤ 0, 1, n ≥ 50 y nθ ≤ 5. Ejemplo 7.4.7. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ Poisson(λn ), con lı́m λn = ∞. Tenemos que E(Xn ) = λn y Var(Xn ) = λn . Definimos n→∞ Zn = p Xn − λn Xn √ = √ − λn λn λn Entonces, √ −t λn MZn (t) = e x Recordando que e = MXn t √ λn n p √ o = exp −t λn + λn et/ λn − 1 n X xk i=1 x x2 t =1+ + + . . ., tomando x = √ tenemos que k! 1! 2! λn √ p p t t2 t3 t4 t/ λn −t λn + λn e − 1 = −t λn + λn √ + + + + ... λn 2λn 3!λn3/2 4!λn4/2 t2 t3 t4 = + + + ... 1/2 2 4!λn 3!λn | {z } →0 cuando n→∞ 130 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Por lo tanto, t2 d =⇒ Zn → − Z ∼ N(0, 1). lı́m MXn (t) = e 2 n→∞ En la práctica, la aproximación de una distribución de Poisson(λ) por una N(0,1) es buena si λ > 10. 7.5. Teorema del lı́mite central Uno de los resultados más importantes de la Estadı́stica es el Teorema del lı́mite Central1 Este teorema indica que, en condiciones muy generales, la función de distribución de la suma de n variables aleatorias, cada una con varianza no nula pero finita, “se aproxima bien” a la de una distribución normal. Existen varias versiones, dependiendo de cuán generales son los supuestos. En nuestro curso nos interesa la que enunciamos a continuación. Teorema 7.5.1. Teorema del lı́mite central (caso iid) Sea X1 , X2 , . . . una sucesión de variables aleatorias, con E(Xn ) = µ y Var(Xn ) = σ 2 < ∞. Entonces, √ n(X̄n − µ) d → − Z ∼ N(0, 1). σ Demostración. Lo demostraremos en el caso de que ∃MXn (t) ∀n. Esto es suficiente pero no necesario para que se cumpla el teorema. Sea Yi = Xi − µ , i = 1, 2 . . .. Entonces, E(Yi ) = 0 y Var(Yi ) = E(Yi2 ) = 1. Note que, por ejemplo, σ MY1 (t) = 1 + n X E(Y k ) tk 1 k! k=1 √ Podemos reescribir n t2 X E(Y1k ) tk =1+ + . 2 k! k=3 (7.3) n(X̄n − µ) en función de Y1 , . . . , Yn : σ Pn (Xi −µ) Pn Pn Pn √ Pn X X − nµ (X − µ) X̄n − µ n i i i i=1 i=1 i=1 Yi √ = √ σ = √ − µ = i=1 √ = i=1 √ = . σ n σ/ n σ n σ n n n Por lo tanto, n M X̄n√−µ (t) = M Pni=1 Yi = M P √ σ/ n n i=1 Yi t √ n = MY1 t √ n n " n X E(Y k ) tk t2 1 = 1+ + 2n k=3 k! nk/2 #n . 1 Usualmente se lo encuentra también mencionado como el Teorema Central del Lı́mite. Este nombre no es el correcto y proviene de la traducción literal de su nombre en inglés, Central Limit Theorem. Inferencia en muestras grandes - 131 Introducción a la Inferencia Estadı́stica Entonces, " σ/ n n X E(Y k ) tk #n t 1 + 2n k=3 k! nk/2 #) ( " n X E(Y1k ) tk t2 + −1 = lı́m exp n 1 + n→∞ 2n k=3 k! nk/2 #) (" n t2 X E(Y1k ) tk + = lı́m exp n→∞ 2 k! nk/2−1 k=3 lı́m M X̄n√−µ (t) = lı́m 1 + n→∞ 2 n→∞ 2 /2 = et (es de la forma 1∞ ) . Observación 7.5.1. En la práctica si “n es grande” se toma que X̄n ≈ N(µ, σ 2 /n). Observación 7.5.2. El concepto de “n es grande” depende del tipo de variable aleatoria. Si X es absolutamente continua, la aproximación es buena si n ≥ 30. Si X es discreta, depende de cuál es su distribución en particular. Por ejemplo, si X ∼ Binomial(n, θ), se tiene que cumplir las siguiente relación entre n y θ θ aproximadamente igual a 0,5 0,4 o 0,6 0,3 o 0,7 0,2 o 0,8 0,1 o 0,9 0,05 o 0,95 7.5.1. n debe ser mayor o igual que 30 50 80 200 600 1400 El método delta Un resultado central de cálculo es el Teorema de Taylor que permite obtener aproximaciones polinómicas de una función en un entorno de cierto punto en que la función sea diferenciable. Este teorema permite aproximar una función derivable en el entorno reducido alrededor de un punto x ∈ (a, b) mediante un polinomio cuyos coeficientes dependen de las derivadas de la función en ese punto. Más formalmente, si n ≥ 0 es un entero y f una función que es derivable n veces en el intervalo cerrado [a, x] y n + 1 veces en el intervalo abierto (a, x), entonces se cumple que f (x) = f (a) + f 0 (a) f 00 (a) f (n) (a) f (n+1) (ξ) (x − a) + (x − a)2 + · · · + (x − a)n + (x − a)n+1 , 1! 2! n! (n + 1)! donde ξ ∈ (a, x). Además, si f es una función analı́tica (o sea, puede expresarse como una serie de potencias convergente) f (n+1) (ξ) lı́m (x − a)n+1 = 0. n→∞ (n + 1)! Una consecuencia de este teorema es el resultado siguiente que extiende el uso del Teorema del Lı́mite Central. 132 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Teorema 7.5.2. Método Delta Si √ entonces √ d n(Tn − θ) → − N (0, σ 2 ), d n(f (Tn ) − f (θ)) → − N (0, σ 2 [f 0 (θ)]2 ), siempre y cuando f 0 (θ) exista y sea diferente de 0. 7.6. 7.6.1. Contrastes e intervalos de confianza asintóticos basados en el TLC Valor esperado de una v.a. Suponga que X1 , . . . , Xn es una MA de X, tal que E(X) = θ y Var(X) = σ 2 < ∞. Suponga que tanto θ como σ 2 son desconocidos. Para n ≥ 2, considere X̄n y Sn2 la media muestral y varianza muestral respectivamente. Si aplicamos el Teorema del Lı́mite Central, cuando n → ∞, √ n(X̄n − θ) d → − N(0, 1). (7.4) Sn √ De 7.4 podemos concluir que la variable aleatoria n(X̄n − θ)/Sn es aproximadamente un pivot dado que su distribución no depende ni de θ ni de σ 2 . Por lo tanto, para un valor de α ∈ (0, 1) preasignado, tenemos que √ n(X̄n − θ) < z1−α/2 ≈ 1 − α. Pθ Sn Esto nos lleva a que Sn X̄n ± z1−α/2 √ n (7.5) sea un intervalo de confianza aproximado al (1 − α)100 % para el valor esperado de X, θ. Con el mismo razonamiento podemos construir regiones crı́ticas de nivel aproximadamente igual a α. Por ejemplo, 1. Para H0 ) θ = θ0 contra H1 ) θ 6= θ0 , √ n|X̄n − θ0 | > z1−α/2 . RC = ~x ∈ X Sn 2. Para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 , √ n(X̄n − θ0 ) RC = ~x ∈ X > z1−α . Sn 3. Para H0 ) θ ≥ θ0 contra H1 ) θ < θ0 , √ n(X̄n − θ0 ) RC = ~x ∈ X < zα . Sn Inferencia en muestras grandes - 133 Introducción a la Inferencia Estadı́stica En el caso de que X ∼ Bernoulli(θ). Donde θ ∈ (0, 1) es desconocido, todo lo anterior sigue siendo válido. Observe que, en este caso, dado que Xi ∈ {0, 1}, esto implica que Xi2 ∈ {0, 1}. Por lo n n X X tanto, Xi2 = Xi . Entonces, i=1 i=1 n Sn2 n 1X 1X 2 Xi − X̄n2 = Xi − X̄n2 = X̄n − X̄n2 = X̄n (1 − X̄n ). = n i=1 n i=1 Observación 7.6.1. Para aplicar estos resultados recuerde la observación 7.5.2. En ella se explicitan cuándo se considera que “n es lo suficientemente grande” para que en la práctica sea válida la aplicación del Teorema del lı́mite central. 7.7. Constrastes basados en la función de verosimilitud A lo largo de esta sección, θ̂n representa el estimador máximo verosimil de θ calculado con una muestra de tamaño n. 7.7.1. Contraste de Wilks El contraste de Wilks puede utilizarse para contruir intervalos de confianza basados en estimadores máximo verosı́miles o para construir un estadı́stico para hacer un contraste basado en la razón de ~ correspondiente a un contraste particular puede deterverosimilitudes. Si la distribución de λ(X) minarse explı́citamente, el mismo puede utilizarse directamente para contruir regiones de rechazo ~ es difı́cil de determinar. Wilks de H0 . Sin embargo, en muchos casos la distribución exacta de λ(X) d ~ → demostró que bajo H0 cierta, bajo ciertas condiciones, −2 log λ(X) − χ2 con grados de libertad igual a la diferencia en la dimensión de Θ y Θ0 . Ejemplo 7.7.1. Sea X1 , . . . , Xn de X ∼ N(θ, σ 2 ) (σ 2 conocida). Para el contraste H0 ) θ = θ0 contra H1 ) θ 6= θ0 , tenemos que el estadı́stico de razón de verolimilitudes es o n n λ(~x) = exp − 2 (x̄n − θ0 )2 . 2σ Por lo tanto, la RC está dada por n n n o o 2 RC = ~x ∈ X | exp − 2 (x̄n − θ0 ) < k , 2σ donde o n n 2 α = Pθ0 exp − 2 (X̄n − θ0 ) < k n 2σ = Pθ0 − 2 (X̄n − θ0 )2 < log k n 2σ 2 = Pθ0 ( X̄ − θ ) > −2 log k n 0 2 σ ~ > −2 log k = Pθ0 −2 log λ(X) 134 - Inferencia en muestras grandes (7.6) (7.7) Introducción a la Inferencia Estadı́stica √ 2 Dado que X̄n ∼ N(θ, σ /n), bajo H0 cierta, n(X̄n − θ0 ) ∼ N(0, 1). Esto implica, σ n (X̄n − θ0 )2 ∼ χ21 ⇒ −2 log k = χ21;1−α . σ2 Por lo tanto, la RC resultante es RC = ~x ∈ X −2 log λ(~x) > χ21;1−α n(x̄n − θ0 )2 2 = ~x ∈ X > χ1;1−α . σ2 (7.8) El resultado del ejemplo es cierto, independientemente del tamaño de la muestra, siempre que la distribución de X sea una normal. Bajo ciertas condiciones, este resultado se puede generalizar. Teorema 7.7.1. Asumiendo las condiciones de regularidad R1, R2, R3, R4 y R5. Bajo la hipótesis H0 ) θ = θ0 , d ~ → χ2L = −2 log λ(X) − χ21 . ~ se lo conoce como el estadı́stico de Wilks. Este Observación 7.7.1. Al estadı́stico −2 log λ(X) estadı́stico lo que hace es ver cuán “grande” es la distancia entre l(θ0 |~x) y l(θ̂n |~x) dado que L(θ0 |~x) = log (L(θ0 |~x)) − log L(θ̂n |~x) = l(θ0 |~x) − l(θ̂n |~x) log λ(~x) = log L(θ̂n |~x) ~ ⇒ −2 log λ(X) = −2 l(θ0 |~x) − l(θ̂n |~x) . Ejemplo 7.7.2. Sea X1 , . . . , Xn una MA de X ∼ Beta(θ, 1). Deseamos contrastar H0 ) θ = 1 contra H1 ) θ 6= 1. La función de densidad fX (x|θ) = θxθ−1 I[0<x<1] pertenece a la familia exponencial de distribuciones, por lo tanto se cumplen las condiciones de regularidad. Para este problema sabemos que ) ( n X L(θ|~x) = θn exp (θ − 1) log xi i=1 y que θ̂n = P n n . Por lo tanto, con L(1|~x) = 1 − log xi i=1    n      − log x n i     i=1  X L(1|~x) n  exp −   log x λ(~x) = = − 1 . i n  P    n L(θ̂n |~x)    i=1 − log xi    n P i=1 De donde, ( χ2L = −2 log λ(~x) = 2 n log n − n + n log n X i=1 ! − log xi + n X ) − log xi i=1 Inferencia en muestras grandes - 135 Introducción a la Inferencia Estadı́stica 7.7.2. Contraste de Wald Un contraste similar al de Wilks podrı́a construirse desde otra perspectiva. Esta vez viendo cuán “grande” es la distancia entre θ0 y θ̂n . Para ello necesitaremos el siguiente resultado: Teorema 7.7.2. Bajo las condiciones de regularidad R1, R2 y R3 si θ̂n es una secuencia de estimadores máximo verosı́miles consistente para θ, entonces √ d n(θ̂n − θ) → − N 0, I−1 X (θ) . A partir de este resultado tenemos que p d nIX (θ)(θ̂n − θ) → − N(0, 1). Note que IX (θ) depende de θ, por lo cual definimos la Información de Fisher observada como IX (θ̂n ). Note que una vez observada la muestra y habiendo calculado qué valor toma θ̂n , IX (θ̂n ) es un número. Para el contraste de hipótesis H0 ) θ = θ0 contra H1 , θ 6= θ0 , asumiendo H0 cierta q d d nIX (θ̂n )(θ̂n − θ0 ) → − N(0, 1) ⇒ χ2W ≡ nIX (θ̂n )(θ̂n − θ0 )2 → − χ21 . Este resultado permite construir la siguiente RC: RC = ~x ∈ X |χ2W ≥ χ21;1−α . Ejemplo 7.7.3. Sea X1 , . . . , Xn una MA de X ∼ N(θ, σ 2 ), σ 2 conocida. Queremos n contrastar H0 ) θ = θ0 contra H1 , θ 6= θ0 . Sabemos que nIX (θ) = 2 y dado que no σ depende de θ, tenemos que IX (θ) = IX (θ̂n ), con lo cual χ2W = n(x̄n − θ0 )2 . σ2 Por lo cual, la RC es n(x̄n − θ0 )2 2 RC = ~x ∈ X > χ1;1−α . σ2 (7.9) Observe que para este problema, χ2L = χ2W . Por lo tanto, las RC 7.8 y 7.9 coinciden. Ejemplo 7.7.4. Continuación del ejemplo 7.7.2. En este caso X ∼ Beta(θ, 1), con θ0 = 1. Tenemos que  2 n P 2 − log Xi   n n 1 1 i=1 2 2  . ⇒ χW = (θ̂n −1) = n 1 − = n IX (θ) = 2 , θ̂n = P n 1 +  2 θ n θ̂ θ̂ n n − log Xi i=1 136 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica 7.7.3. Contraste de Rao o de los multiplicadores de Lagrange d ~ log fX~ (X|θ) = l0 (θ|~x). También sabemos que dθ Eθ (l0 (θ|~x)) = 0 y por la fórmula 4.5 Var(l0 (θ|~x)) = nIX (θ). Si aplicamo el teorema del lı́mite central, !2 l0 (θ|~x) d l0 (θ|~x) d p → − N(0, 1) ⇒ p → − χ21 . nIX (θ) nIX (θ) Recuerde que la función score se define como Por lo cual, para el contraste H0 ) θ = θ0 contra H1 , θ 6= θ0 . Bajo H0 cierta, tenemos que χ2R = l0 (θ |~x) p 0 nIX (θ0 ) !2 d → − χ21 . y la RC será RC = ~x ∈ X |χ2R ≥ χ21;1−α . Observación 7.7.2. Esta prueba mide la pendiente de la recta tangente a l(θ|~x) en el punto θ0 . Si θ0 está “cerca” de θ̂n se espera que la pendiente sea aproximadamente 0. Observación 7.7.3. Dado que la maximización de funciones sujeto a restricciones se puede resolver planteando el problema en base a los multiplicadores de Lagrange, este contraste puede plantearse como un contraste respecto de la magnitud de los multiplicadores de Lagrange en el que nuevamente, si θ0 está cercano a θn los multiplicadores de Lagrange deben estar cercanos a 0. De ahı́ su denominación como contraste de los multiplicadores de Lagrange. Ejemplo 7.7.5. Continuación del ejemplo 7.7.3. Para este caso tenemos que (c representa una constante que no depende de θ), n 1 X 0 l (θ|~x) = c − 2 (xi − θ)2 ⇒ l0 (θ|~x) = 2σ i=1 2 n X (xi − θ) i=1 2σ 2 = n(x̄n − θ) . σ2 Dado que IX (θ) = σ −2 , tenemos que  n(x̄n − θ) 2 2 2  = n(x̄n − θ) . χ2R =  pσ n σ2 σ2  Entonces, n(x̄n − θ0 )2 2 RC = ~x ∈ X > χ1;1−α . σ2 (7.10) Para este problema, χ2L = χ2W = χ2R . Por lo tanto, las RC 7.8, 7.9 y 7.10 coinciden. Inferencia en muestras grandes - 137 Introducción a la Inferencia Estadı́stica Ejemplo 7.7.6. Continuación del ejemplo 7.7.4. n n 1 X 1 X l (θ|~x) = + log xi = − − log xi . θ i=1 θ i=1 0 Definiendo Yi = − log Xi , 0 l (θ|~x) = n 1 − Ȳn θ ⇒ l0 (1|~x) = n 1 − Ȳn Además, IX (θ) = θ−2 , por lo cual nI(1) = n. Entonces, χ2R n2 (1 − Ȳn )2 = = n(1 − Ȳn )2 = n n Pn i=1 2 − log xi −1 . n Por lo cual, ( ~x ∈ X |n RC = ) 2 − log x i i=1 − 1 > χ21;1−α . n Pn Observe que si X ∼ Beta(θ, 1), Yi = − log Xi ∼ Gamma(1, θ). Usando este resultado, Ȳn ∼ Gamma(n, nθ). Lo que implica que, asumiendo H0 ) θ = 1 cierta, E(Ȳn ) = 1 y Var(Ȳn ) = n−1 . En este caso, el teorema del lı́mite central establece que √ p n(Ȳn − 1) → − N(0, 1). Ejemplo 7.7.7. Sea X1 , . . . , Xn una MA de X ∼ Exp(θ) con E(X) = θ−1 . Se desea contrastar H0 ) θ = θ0 contra H1 ) θ 6= θ0 . l(θ|~x) = n log θ − θ n X xi = n log θ − θnx̄n i=1 n ⇒ l (θ|~x) = − nx̄n = n θ 0 1 − x̄n θ 2 . Dado que IX (θ) = θ−2 tenemos que 2 1 − x̄ ) n( n 0  = n(1 − θ0 x̄n )2 . χ2R =  θq  n θ02 Por lo tanto, RC = ~x ∈ X |n(1 − θ0 x̄n )2 > χ21;1−α . 138 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Ejemplo 7.7.8. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Se desea contrastar H0 ) θ = θ0 contra H1 ) θ 6= θ0 . Para este problema, sabemos que L(θ|~x) = θ nx̄n n(1−x̄n ) (1−θ) ⇒ l(θ|~x) = n X [xi log θ+(1−xi ) log(1−θ)] ⇒ l0 (θ|~x) = i=1 n(x̄n − θ) . θ(1 − θ) Además θ̂n = x̄n , IX (θ) = [θ(1 − θ)]−1 . Por lo cual, Wilks χ2L = 2n x̄n log x̄n θ0 Wald + (1 − x̄n ) log χ2W = n(x̄n − θ0 )2 . x̄n (1 − x̄n ) χ2R = n(x̄n − θ0 )2 . θ0 (1 − θ0 ) Rao 1 − x̄n 1 − θ0 Note que los tres contrastes rechazan H0 para valores “grandes” de (x̄n − θ0 )2 . En el caso del ejemplo donde tenemos una MA de X ∼ N(θ, σ 2 ), si ahora tomamos que σ 2 es desconocida, la hipótesis nula ya no es un hipótesis simple. Ahora H0 es θ = θ0 , σ 2 > 0. En base a esto tenemos que estimar también a σ 2 . 1. Para el contraste de Rao estimaremos σ 2 sujeto a la restricción de que θ = θ0 . La ecuación a maximizar es ( ) n 1 X 2 2 2 −n/2 2 g(θ, σ ) = L(θ, σ ) + λ(θ − θ0 ) = (2πσ ) exp − 2 (xi − θ) + λ(θ − θ0 ). 2σ i=1 n donde λ es un multiplicador de Lagrange. Esto nos da θ̂n = θ0 y lo cual χ2R = σ̂02 1X = (xi − θ0 )2 . Por n i=1 n(x̄n − θ0 )2 . σ̂02 2. Como tanto Wilks and Wald usan la función de verosimilitud maximizada en el espacio sin restringir, tenemos que n(x̄n − θ0 )2 . χ2L = χ2W = Sn2 Observación 7.7.4. Los contrastes de Wald, Rao y Wilks tienen las siguientes propiedades 1. Asumiendo H0 ) θ = θ0 cierta, los tres contrastes son asint]’oticamente equivalentes. En muestras finitas no existen estudios que determinen cuál es el mejor. 2. El contraste de Wald tiene la ventaja que es fácil de calcular pero hay una doble estimación, de de θ y la de la Var(θ̂n ). Inferencia en muestras grandes - 139 Introducción a la Inferencia Estadı́stica 3. Intervalos de confianza asintóticos puede ser construidos invirtiendo la región de no rechazo del contraste de Wald. Un intervalo de confianza al (1 − α)100 % para θ es s 1 θ̂n ± z1−α/2 . nIX (θ̂n ) Intervalos de confianza construidos a partir de las RC generadas por los estadı́sticos χ2L o χ2R se deben de hacer de forma iterativa. 4. Todos estos contrastes tienen un nivel de significación asintótico igual a α. 7.8. Contrastes de independencia y bondad de ajuste Suponga que X1 ∼ Binomial(n, p1 ). Considere la variable X1 − np1 Y =p . np1 (1 − p1 ) d d Cuando n → ∞, Y → − N(0, 1). Por lo cual, Y 2 → − χ21 . Defina X2 = n − X1 y p2 = 1 − p1 . Note que, X1 − np1 = n − X2 − n(1 − p2 ) = −(X2 − np2 ). Entonces, Q1 ≡ (X1 − np1 )2 (X1 − np1 )2 (X1 − np1 )2 (X2 − np2 )2 (X1 − np1 )2 = + = + np1 (1 − p1 ) np1 n(1 − p1 ) np1 np2 d Por lo tanto, Q1 → − χ21 . ~ = (X1 , . . . , Xk ) ∼ Multinomial (n, p1 , . . . , pk ), Esto se puede generalizar de la siguiente manera: Sea X k−1 k−1 X X donde Xk = n − Xi y pk = 1 − pi . Defina, i=1 i=1 Qk−1 = k X (Xi − npi )2 i=1 npi . d Entonces, Qk−1 → − χ2k−1 . Para que esta aproximación funcione se necesita que npi ≥ 5, i = 1, . . . , k. El estadı́stico Qk−1 puede ser usado para construir pruebas de hipótesis relativas a los valores de p1 , . . . , pk . Si H0 asigna valores determinados a p1 , . . . , pk , este tipo de prueba evalúa cuánto se aleja lo que realmente se observa de lo que se esperarı́a haber observado si H0 fuera cierta. En lo que sigue, H1 es la negación de H0 y no se detalla explicı́tamente. 7.8.1. Contrastes de bondad de ajuste Sea Ω el espacio muestral de un experimento aleatorio. Sea A1 , . . . , Ak una partición de Ω. Defina, pi = P(Ai ) > 0, i = 1, . . . , k. El experimento aleatorio se repite en idénticas condiciones y de manera independiente n veces. Sean X1 , . . . , Xk la frecuencia con que se observa un resultado que pertenece a A1 , . . . , Ak respectivamente. Entonces, (X1 , . . . , Xk ) ∼ Multinomial(n, p1 , . . . , pk ), lo que implica que E(Xi ) = npi , i = 1, . . . , k. 140 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica Considere el siguiente contraste de hipótesis H0 ) p1 = p10 , p2 = p20 , . . . , pk = pk0 , donde p10 , . . . , pk0 son constantes tales que pi0 > 0, i = 1, . . . , k y k X pi0 = 1. Si H0 es cierta, i=1 Qk−1 = k X (Xi − npi )2 i=1 d → − χ2k−1 . npi Intuitivamente, si H0 es cierta, Qk−1 no deberı́a ser muy grande. Por lo cual, rechazaremos H0 cuando Qk−1 > c donde α = P(Qk−1 > c|H0 ). Entonces, RC = ~x ∈ X |Qk−1 > χ2k−1;1−α . A este tipo de contraste se le las conoce como “Bondad de ajuste” y los pi0 están calculados de acuerdo a una determinada distribución que se asume como cierta. Como se señaló anteriormente, es crucial que los valores esperados de cada clase sean mayores o iguales que 5. En caso de no cumplirse este requisito tendremos que unir clases, de manera coherente, para lograr que se cumpla esta condición. Ejemplo 7.8.1. Se tira un dado y se desea ver si está cargado. Ai = {x|x = i}, i = 1, . . . , 6. H0 ) pi0 = 1/6, i = 1, . . . , 6. H0 representa que se asume que el dado no está cargado. Suponga que n = 60. Por lo tanto, npi0 = 10, i = 1, . . . , 6. Entonces, bajo H0 cierta k X (Xi − 10)2 d 2 Q5 = → − χ5 . 10 i=1 Si asumimos un nivel de significación del 5 %, tenemos que χ25;0,95 = 11, 1 y por lo tanto, la RC = {~x ∈ X |Qk−1 > 11, 1}. Suponga que se observa, x1 = 13, x2 = 19, x3 = 11, x4 = 8, x5 = 5 y x6 = 4. Para esos valores, Q5 = (13 − 10)2 (19 − 10)2 (11 − 10)2 (8 − 10)2 (5 − 10)2 (4 − 10)2 + + + + + = 15, 6 10 10 10 10 10 10 Por lo tanto, dado que 15, 6 > 11, 1 rechazamos al 5 % de significación la hipótesis nula de que el dado no está cargado. Ejemplo 7.8.2. Un punto es seleccionado al azar en el intervalo (0,1). Sea A1 = {x|0 < x ≤ 0, 25}, A2 = {x|0, 25 < x ≤ 0, 5}, A3 = {x|0, 5 < x ≤ 0, 75} y A4 = {x|0, 75 < x ≤ 1}. Se asume que X ∼ fX (x) = 2xI[0<x<1] . Bajo este supuesto Z p10 = 0 0,25 1 2x dx = , 16 Z 0,5 p20 = 2x dx = 0,25 3 . 16 Inferencia en muestras grandes - 141 Introducción a la Inferencia Estadı́stica De manera similar p30 = 5 7 y p40 = . 16 16 Podemos plantear H0 ) fX (x) = 2xI[0<x<1] , o equivalentemente, H0 ) p10 = 1 3 5 7 , p20 = , p30 = , p40 = . 16 16 16 16 Supongamos que n = 80, α = 0, 05 y que se observa x1 = 6, x2 = 18, x3 = 20 y x4 = 36. Entonces, np10 = 5, np20 = 15, np30 = 25 y np40 = 35, Q3 = (6 − 5)2 (18 − 15)2 (20 − 25)2 (36 − 35)2 + + + = 1, 83. 5 15 25 35 Si H0 es cierta, Q3 ≈ χ23 , χ23,0,95 = 9, 35. Por lo cual, la RC = {~x ∈ X |Q3 > 9, 35}. Dado que 1, 83 6> 9, 35, no rechazamos H0 . Suponga que la probabilidad de pertenecer a cada clase está dada por una distribución que no está totalmente determinada en el sentido de que depende de parámetros desconocidos. Por ejemplo, X ∼ N(µ, σ 2 ) donde µ y σ 2 son desconocidos. La idea es estimar µ y σ 2 de tal manera que Qk−1 sea mı́nima. A estos estimadores se les conoce como estimadores mı́nimo χ2 . Una vez estimados los parámetros, habremos perdido grados de libertad. En este ejemplo, hemos perdido 2 grados de d − χ2k−1−2 = χ2k−3 . En general, libertad (uno por cada parámetro estimado), lo que lleva a que Q3 → d si hay k clases y d parámetros a estimar, Qk−1 → − χ2k−1−d . Observación 7.8.1. Estimadores mı́nimo χ2 son complicados de calcular, y por lo tanto, se usan en su lugar a los estimadores máximo verosimil. Esto produce un valor de Qk−1 que no es mı́nimo, lo que lleva a que la probabilidad de rechazar H0 se incremente con respecto a si el mı́nimo actual de Qk−1 se hubiera usado. 7.8.2. Contrastes de independencia Suponga que el resultado de un experimento aleatorio depende de la clasificación concurrente de dos atributos. Un atributo particiona al espacio muestral Ω, en a clases A1 , . . . , Aa . El otro particiona al espacio muestral en b clases, B1 , . . . , Bb . Un resultado pertenece a Ai ∩ Bj si pertence a la vez a la clase Ai y a la clase Bj . Sea pij = P(Ai ∩ Bj ), i = 1, . . . , a, j = 1, . . . , b. Note que existen k = ab clases diferentes Ai ∩ Bj . Entonces, Qab−1 a X b X (Xij − npij )2 d 2 → − χab−1 . = npij i=1 j=1 Supongamos que deseamos contrastar que A es independiente de B. Si esto es cierto se cumple que b a X X P(Ai ∩ Bj ) = P(Ai )P(Bj ), i = 1, . . . , a, j = 1, . . . , b. Sea pi. = pij , i = 1, . . . , a y p.j = pij , j=1 j = 1, . . . , b. Claramente, a X i=1 pi. = b X i=1 p.j = 1. j=1 Planteamos el siguiente contraste H0 ) pij = pi. p.j , i = 1, . . . , a, j = 1, . . . , b. Supongamos que tenemos una MA de tamaño n y que Xij representa la cantidad de las observaciones que pertenecen 142 - Inferencia en muestras grandes Introducción a la Inferencia Estadı́stica a la clase Ai ∩ Bj . Si pi. y p.j son desconocidos, tenemos que estimarlos por máxima verosimilitud. Esto nos da que b a 1X 1X p̂i. = Xij p̂.j = Xij . n j=1 n i=1 Dado que a X p̂i. = i=1 b X p̂.j = 1 hemos estimado a − 1 + b − 1 = a + b − 2 parámetros. Por lo j=1 cual, si H0 es cierta, Qab−1 ≈ χ2ab−1−(a+b−2) = χ2(a−1)(b−1) . La correspondiente región crı́tica será RC = {~x ∈ X |Qab−1 > χ2(a−1)(b−1);1−α }. Ejemplo 7.8.3. Se tiene una muestra de 12.000 individuos clasificados según sexo (Hombre, Mujer) y grupo sanguı́neo (A, B o O). En la tabla siguiente se muestran los resultados obtenidos Sexo Hombre Mujer Total Grupo sanguı́neo A B O 2400 1900 700 3100 2700 1200 5500 4600 1900 Total 5000 7000 12000 Sea H0 ) los atributos “Sexo” y “Grupo Sanguı́neo” son independientes. Bajo H0 cierta, tenemos que 4600 × 5500 1900 × 5500 5000 × 5500 = 2292; pHB = = 1917; pHO = = 792 12000 12000 12000 7000 × 5500 4600 × 7000 1900 × 7000 = = 3208; pM B = = 2683; pM O = = 1108 12000 12000 12000 pHA = pM A Por lo cual, Q5 = (2400 − 2292)2 (1900 − 1917)2 (700 − 792)2 + + + 2292 1917 792 (3100 − 3208)2 (2700 − 2683)2 (1200 − 1108)2 + + + = 27, 3. 3208 2683 1108 Como todos los valores esperados son mayores que 5, tenemos que Q5 ≈ χ22 bajo H0 cierta. Si asumimos α = 0, 05, χ22;0,95 = 5, 991. Por lo cual, RC = {~x ∈ X |Q5 > 5, 991}. Dado que 27, 3 > 5, 991 concluimos que existe evidencia significativa al 5 % de que los atributos “Sexo” y “Grupo Sanguı́neo” no son independientes. Note que tanto en este tipo de contraste como en el anterior también podemos calcular el valor-p y en base a este decidir. En el ejemplo, valor-p = P(χ22 > 27, 3) ≈ 0 < 0, 05 ⇒ rechazamos H0 . Inferencia en muestras grandes - 143 Introducción a la Inferencia Estadı́stica Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition. Pearson Education International. Keener, R. (2010) Theoretical Statistics. Springer. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Wasserman, L. (2004) All of Statistics A Concise Course in Statistical Inference. Springer 144 - Inferencia en muestras grandes CAPÍTULO 8 MUESTREO DE POBLACIONES FINITAS 8.1. Introducción En este capı́tulo estudiaremos métodos de estimación cuando la población es un conjunto finito de elementos al que llamaremos población finita. Deseamos investigar el comportamiento de cierta variable de estudio Y en la población. En lugar de medir Y en toda la población usaremos un subconjunto de esta al que llamaremos la muestra y llevaremos a cabo una encuesta por muestreo. El término encuesta denota una investigación estadı́stica con las siguientes caracterı́sticas metodológicas: Los elementos de la población se denominan unidades. El número de elementos de la población se anotará como N y se supone conocido. La población se notará con el conjunto {u1 , u2 , . . . , uN }. Adicionalmente se supone que las unidades de la población son identificables y pueden etiquetarse con los naturales de 1 a N . Ası́, la población queda representada por el conjunto de etiquetas U = {1, 2, . . . , k, . . . , N }. Cada unidad de la población tiene asociado el valor de una o más variables de estudio. Se anota yk al valor que toma la variable Y en el k -ésimo elemento de la población. Ası́, para la variable Y tendremos el vector {y1 , y2 , . . . , yk , . . . , yN } de valores poblacionales. La variable Y no es tratada como variable aleatoria. Los valores yk son tratados como valores fijos, dados de antemano aunque desconocidos, para cada unidad de la población. El objetivo de una encuesta es obtener información acerca de caracterı́sticas poblacionales o parámetros desconocidos. Los parámetros son funciones de las variables en estudio (total, media, mediana, tasas, etc.). 145 Introducción a la Inferencia Estadı́stica En la mayorı́a de las encuestas, el acceso a la información de unidades individuales de la población se establece a través de un marco muestral, que es un mecanismo que asocia las unidades de la población con las unidades de muestreo en el marco. En una encuesta por muestreo, la observación de la variable Y está limitada a un subconjunto de la población. Existe un tipo especial de encuesta que es aquella donde se observa a toda la población y es conocida como censo o enumeración completa. Existen diferentes maneras de seleccionar la muestra. Para hacerlo tenemos en cuenta lo siguiente: El conjunto formado por todos los subconjuntos posibles de unidades de U se anota S, conjunto de muestras posibles. S tiene 2N elementos. Una muestra es un elemento particular de S y se anota como s. Se cumple que s ∈ S y que s ⊂ U . El número de elementos de s se anota n y se denomina tamaño de la muestra s. Se observan los elementos de la muestra. Esto es, para cada elemento de s se recoge información acerca de las variables en estudio. Los valores obtenidos son usados para hacer estimaciones de los parámetros de interés en la población finita. Definición 8.1.1. Decimos que una muestra es probabilı́stica o aleatoria si en la elección de una muestra s que cumple que: 1. El conjunto S es conocido. 2. Cada s ∈ S tiene asociada una probabilidad de selección que denotamos p(s). 3. El procedimiento de selección asigna para todo k ∈ U una probabilidad no nula de ser incluido en la muestra s. Ası́, P (k ∈ S) = πk > 0 ∀k ∈ U . 4. Existe un mecanismo aleatorio que asegura que cada una de las posibles muestras de S tiene una probabilidad p(s) de ser seleccionada. Definición 8.1.2. p(·) es una función de probabilidad sobre S; p(·) : S → [0, 1] y constituye lo que denominamos diseño muestral. 8.2. Probabilidades de inclusión Definición 8.2.1. Sea s ∈ S. Para el elemento k de la población se define su función indicadora de inclusión en una muestra de la siguiente manera: ( 1 si k ∈ s Ik = k = 1, . . . , N 0 si k 6∈ s La inclusión de un elemento k ∈ U en una muestra es un evento aleatorio indicado por Ik que es una variable aleatoria ya que la muestra s será seleccionada por algún mecanismo aleatorio. 146 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica Definición 8.2.2. La probabilidad de que un elemento k esté incluido en la muestra se denomina probabilidad de inclusión de primer orden y se define como: X πk = P (k ∈ S) = P (Ik = 1) = p(s) s3k donde sı́mbolo s 3 k indica que la sumatoria es sobre todas las muestras s que incluyen el elemento k. Definición 8.2.3. La probabilidad de que el elemento k y el elemento l estén ambos en la misma muestra se se denomina probabilidad de inclusión de segundo orden y se define como: πkl = P (k&l ∈ S) = P (Ik Il = 1) = X p(s) s3k&l . Observación 8.2.1. πkk = P (Ik Ik = 1) = P (Ik = 1) = πk . Observación 8.2.2. Dada una población con N elementos, existen, para un diseño dado, hay N (N − 1)/2 probabilidades de inclusión de segundo orden: π12 , π13 , . . . , πkl , . . . , πN −1,N . Observación 8.2.3. Se pueden definir probabilidades de inclusión de mayor orden. Sin embargo son muy poco usadas en la práctica. Observación 8.2.4. Para un diseño muestral arbitrario p(s) y para k, l = 1, . . . , N resulta Ik ∼ Bernoulli(πk ) y, por tanto, E(Ik ) = πk ∆kk ≡ Var(Ik ) = πk (1 − πk ) ∆kl ≡ Cov(Ik , Il ) = πkl − πk πl Definición 8.2.4. Un diseño muestral que satisfaga πk > 0 ∀k ∈ U se denomina diseño muestral probabilı́stico. Una muestra obtenida por medio de este diseño se denomina muestra probabilı́stica. Si además el diseño muestral satisface πkl > 0 ∀k 6= l ∈ U, el diseño se llama medible. Observación 8.2.5. Los diseños medibles permiten calcular tanto estimaciones como intervalos de confianza válidos basados en los datos observados. Proposición 8.2.1. En diseños muestrales de tamaño, n, fijo: X πk = n U X πkl = (n − 1)πk l∈U k6=l X πkl = n(n − 1) l,k∈U k6=l Muestreo de Poblaciones Finitas - 147 Introducción a la Inferencia Estadı́stica 8.3. Estimador de Horvitz-Thompson La siguiente notación será utilizada de aquı́ en adelante: y̌k = 8.3.1. yk πk ˇ kl = ∆kl . ∆ πkl ; Estimación del total poblacional El estimador de Horvitz-Thompson del total poblacional, t = X yk , está dado por U t̂π = X y̌k = s X Ik y̌k . U 1 se puede interpretar πk como la cantidad de elementos de la población que representa el elemento k de la muestra. Definición 8.3.1. Al inverso de πk se le llama factor de expansión. Ası́, Observación 8.3.1. Al principio en el que se basa el estimador de Horvitz-Thompson lo denominaremos principio de π expansión y puede resumirse como sigue: para obtener un estimador de un total poblacional pasamos de U a s y “π expandimos” cada uno de los sumandos. Propiedades de t̂π 1. t̂π es insesgado para t. Demostración: ! E(t̂π ) = E X Ik y̌k = U X y̌k E(Ik ) = X U y̌k πk = U X yk X πk = yk = t π k U U 2. ! Var(t̂π ) = Var X Ik y̌k = U X Var(Ik )y̌k2 + U X ∆kl y̌k y̌l = l,k∈U k6=l X ∆kl y̌k y̌l (8.1) k,l∈U 3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por d t̂π ) = Var( X ˇ kl y̌k y̌l ∆ (8.2) k,l∈s Demostración: d t̂π )] = E[Var( X ˇ kl y̌k y̌l = E(Ik Il )∆ k,l∈U . 148 - Muestreo de Poblaciones Finitas X k,l∈U ˇ kl y̌k y̌l = πkl ∆ X k,l∈U ∆kl y̌k y̌l = Var(t̂π ) Introducción a la Inferencia Estadı́stica Proposición 8.3.1. Si p(·) es un diseño de tamaño fijo, la fórmula (8.1) se puede escribir de la siguiente manera: Var(t̂π ) = − 1 X ∆kl (y̌k − y̌l )2 2 k,l∈U (8.3) y por lo tanto un estimador insesgado de la varianza, siempre y cuando πkl > 0 ∀k, l ∈ U , estará dado por X d t̂π ) = − 1 ˇ kl (y̌k − y̌l )2 Var( ∆ (8.4) 2 k,l∈S Observaciones: 1. Si bien las fórmulas (8.1) y (8.3) son idénticas, los estimadores dados por las fórmulas (8.2) y (8.4) podrı́an dar estimaciones diferentes para la varianza de t̂π . Sin embargo, para los diseños que consideraremos, ambas fórmulas producen el mismo valor estimado. 2. Dados los valores muestrales, siempre se pueden evaluar los estimadores dados por (8.2) y (8.4). Sin embargo, si no se cumple la condición de que, en el diseño considerado, πkl > 0 ∀k, l ∈ U , los valores obtenidos serán malas aproximaciones al verdadero valor de la varianza de t̂π . 3. El estimador dado por (8.4) se conoce como el estimador de Yates-Grundin. 4. Tanto el estimador dado por (8.2), como el dado por (8.4) podrı́an devolver estimaciones negativas de la varianza de t̂π , lo cual es inaceptable. 8.3.2. Estimación de la media poblacional El estimador de la media poblacional, ȳU = 1 X t = yk , ası́ como su varianza, está basado en N N U el estimador del total poblacional t̂π . ȳÛ = t̂π 1 X 1 X = y̌k = Ik y̌k N N s N U Propiedades de ȳÛ 1. ȳU es un estimador insesgado. Demostración: t̂π 1 t E(ȳÛ ) = E = E(t̂π ) = = ȳU . N N N 2. Var(ȳÛ ) = 1 X ∆kl y̌k y̌l N 2 k,l∈U 3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por X d ȳÛ ) = 1 ˇ kl y̌k y̌l Var( ∆ N 2 k,l∈s Muestreo de Poblaciones Finitas - 149 Introducción a la Inferencia Estadı́stica 8.3.3. Intervalos de Confianza d θ̂) un estimador insesgado de Si θ̂ es un estimador insesgado del parámetro poblacional θ y Var( su varianza, entonces un intervalo de confianza al 100(1 − α) % para θ viene dado por q d θ̂)◦ θ̂◦ ± z1−α/2 Var( Observaciones: El subı́ndice ◦ indica que se trata de la estimación puntual, o sea, la calculada a partir de la única muestra s observada y z1−α/2 es el valor de tabla que acumula 1 − α/2 de probabilidad en una normal estándar. q d θ̂)◦ se la denomina error de estimación. A la cantidad z1−α/2 Var( Un intervalo de confianza al 100(1 − α) % para t, el total poblacional, está dado por t̂π◦ ± q d t̂π )◦ . z1−α/2 Var( Un intervaloqde confianza al 100(1 − α) % para ȳU , la media poblacional, está dado por d ȳÛ )◦ . ȳÛ ◦ ± z1−α/2 Var( 8.4. Aplicación a algunos diseños de muestreo directo de elementos En esta sección se presentan algunos de los diseños más comunes bajo el supuesto de que se está en condiciones de realizar muestreo directo de elementos. Esto último requiere que se cumplan dos condiciones: 1. existe un marco que identifica a cada uno de los elementos de la población y, 2. en el procedimiento de selección las unidades de muestreo son propiamente los elementos de la población. 8.4.1. Diseño Simple Definición 8.4.1. Se llama diseño simple al diseño de muestreo en el cual de la población U de N elementos se seleccionan aleatoriamente n elementos sucesivamente sin reposición. Este diseño muestral tiene las siguientes caracterı́sticas: 1. La función diseño está dada por p(s) = 1 N n ∀s de tamaño n. N −1 N −2 2. Hay muestras, de tamaño n, que contienen al elemento k y muestras n−1 n−2 que contienen a los elementos k y l (k 6= l) a la vez. 150 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica 3. Para k = 1, . . . , N : πk = X p(s) = s3k X 1 s3k N n N −1 n−1 N n = = n . N 4. Para k, l = 1, . . . , N ; k 6= l: X πkl = X 1 s3k&l N n p(s) = s3k&l N −2 n−2 N n = = n(n − 1) . N (N − 1) 5. El estimador del total poblacional bajo diseño simple resulta: t̂π = N ȳs con ȳs = 1X yk . n s Demostración: t̂π = X y̌k = s X yk X yk 1X = =N yk = N ȳs πk n/N n s s s 6. Dada la fracción de muestreo, esto es f = y̌k = ∆kl = n , se tiene que N N yk yk = n f n (n − 1) n n f (1 − f ) − =− N (N − 1) N N N −1 ∀k 6= l. Haciendo uso de (8.4), se tiene que 1 X ∆kl (y̌k − y̌l )2 2 k,l∈U 1 f (1 − f ) 1 X =− − (yk − yl )2 2 2 N − 1 f k,l∈U Var(t̂π ) = − = donde P (yk − ȳU )2 σy02 = Por lo tanto, con Sy02 = 1−f 1 − f 02 2N (N − 1)σy02 = N 2 σy 2f (N − 1) n U N −1 y ȳU = 1 X yk . N U 1 X (yk − ȳs )2 , se obtiene que n−1 s d t̂π ) = N 2 1 − f Sy02 . Var( n Muestreo de Poblaciones Finitas - 151 Introducción a la Inferencia Estadı́stica 7. Estimación de la media poblacional bajo diseño simple: ȳÛ = t̂π 1 XN 1X = yk = yk = ȳs . N N s n n s Var(ȳs ) = 1 − f 02 σy . n d s ) = 1 − f S 02 . Var(ȳ y n En la fórmula anterior 1 − f = 1 − n se denomina factor de corrección por población finita. N Determinación del tamaño de muestra 1. Para estimar el total poblacional ty con un error de estimación menor o igual que ε al 100(1 − α) % de confianza, se requiere: n≥ 2 N 2 z1−α/2 σy02 2 ε2 + N z1−α/2 σy02 2. Para estimar la media poblacional ȳ U con un error de estimación menor o igual que ε al 100(1 − α) % de confianza, se requiere: n≥ 2 N z1−α/2 σy02 2 N ε2 + z1−α/2 σy02 3. Para estimar ȳ U ó t con un error relativo e = requiere: n≥ donde γ = 8.4.2. ȳˆ U − ȳ U al 100(1 − α) % de confianza, se ȳ U 2 N z1−α/2 γ2 2 N e2 + z1−α/2 γ2 σy0 es el coeficiente de variación poblacional. ȳ U Diseño Estratificado Definición 8.4.2. Se denomina diseño estratificado a un diseño de muestreo que parte de dividir a la población U en H estratos, Uh , con h = 1, 2, . . . , H, de tamaños respectivos Nh . Estos estratos son subconjuntos que constituyen una partición de U . O sea, U = {U1 , . . . , Uh , . . . , UH } y se H H [ X cumple que Uh = U y Ui ∩ Uj = φ ∀i 6= j. Ası́, resulta N = Nh . h=1 152 - Muestreo de Poblaciones Finitas h=1 Introducción a la Inferencia Estadı́stica Dentro de cada estrato, Uh , se toma una muestra sh , de tamaño nh . Las muestras son extraı́das H [ independientemente en cada estrato. Se cumple que sh = s y si ∩ sj = φ ∀i 6= j. El tamaño de h=1 muestra total es n = H X nh . h=1 Por último se computan las estimaciones del parámetro de interés para cada estrato y se suman con ponderadores apropiados para obtener una estimación global. Se representa por yhk el valor que toma la variable Y en la k-ésima observación del estrato h, k = 1, . . . , Nh con h = 1, . . . , H. Expresiones de los parámetros poblacionales de interés: 1. Total poblacional : t = X U donde ȳUh = yk = H X X yhk = h=1 Uh H X th = h=1 H X Nh ȳUh , h=1 1 X y . Nh U hk h H H X Nh 1 X 1 X 2. Media poblacional : ȳ U = th = ȳ . yk = N U N h=1 N Uh h=1 3. Varianza poblacional dentro de cada estrato: σy02 h = 1 X (yk − ȳ Uh )2 . Nh − 1 U h Estimadores del total y la media poblacional, sus varianzas y sus estimadores: 1. Estimador del total : t̂π = H X t̂hπ = h=1 Var t̂π = Var H X Nh ȳˆ Uh . h=1 H X ! t̂hπ = h=1 d t̂π = Var d Var H X H X Var t̂hπ . h=1 ! t̂hπ = h=1 H X d t̂hπ . Var h=1 2. Estimador de la media: ȳˆ U = H X Nh h=1 N ȳˆ Uh . Muestreo de Poblaciones Finitas - 153 Introducción a la Inferencia Estadı́stica H X Nh Var ȳˆ U = Var h=1 N H X Nh d ȳˆ = Var d Var U h=1 N ! ȳˆ Uh = H X N2 h=1 ! ȳˆ Uh = h Var N2 H X N2 h=1 hd Var N2 ˆ ȳ Uh . ˆ ȳ Uh . Definición 8.4.3. Se denomina diseño estratificado simple a un diseño estratificado en el que dentro de cada estrato la muestra se selecciona bajo el diseño simple. En el diseño estratificado simple, los estimadores del total y la media poblacional, sus varianzas y sus estimadores son los siguientes: 1. Estimador del total : t̂π = H X Nh X h=1 Var t̂π = H X nh sh Nh2 (1 h=1 yhk . σy02 h − fh ) . nh H X Sy02 d Var t̂π = Nh2 (1 − fh ) h , nh h=1 donde Sy02 h = 1 X (yk − ȳ sh )2 . nh − 1 s h 2. Estimador de la media: H H X 1 X Nh X Nh ȳˆ U = yhk = ȳ sh . N h=1 nh s N h=1 h H X σy02 h Nh2 ˆ Var ȳ U = (1 − fh ) . N2 nh h=1 H X Sy02 h Nh2 d ˆ Var ȳ U = (1 − fh ) . N2 nh h=1 Determinación del tamaño de muestra En el diseño estratificado simple se debe determinar no solo el tamaño de muestra, n, sino que también hay que determinar el tamaño de muestra dentro de cada estrato: nh . 154 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica 1. Asignación proporcional. El tamaño de muestra dentro de cada estrato es proporcional al tamaño del estrato: nh = n Nh . N El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado para la media poblacional al 100(1 − α) % de confianza es: 2 N z1−α/2 n= H P h=1 2 N 2 ε2 + z1−α/2 Nh σy02 h H P h=1 Nh σy02 h 2. Asignación óptima. Cuanto más homogéneo (con respecto a la variable en estudio) sea un estrato, menos observaciones se deberı́an encuestar dentro del estrato. O lo que es lo mismo, cuanto más heterogéno sea el estrato más observaciones se deberı́an encuestar en dicho estrato: Nh σy0 h nh = n H P Nh σy0 h h=1 El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado para la media poblacional al 100(1 − α) % de confianza es: 2 z1−α/2 n= H P h=1 Nh σy02 h 2 N 2 ε2 + z1−α/2 8.4.3. H P h=1 2 Nh σy02 h Diseño Bernoulli Definición 8.4.4. Se denomina diseño bernoulli a un diseño de muestreo en el que, dada una población U = {1, 2, . . . , N }, el mecanismo de selección consiste en considerar ε1 , ε2 , . . . εN iid Unif (0, 1) y establecer que el elemento k ∈ S si εk < π. Ası́, S = {k : εk < π, k = 1, 2, . . . , N } πk = P (k ∈ S) = P (εk < π) = π ∀k ∈ U πkl = P (k y l ∈ S) = π 2 ∀k 6= l ∈ U π 2 − ππ = 0 ∀k 6= l ∆kl = πkl − πk πl = π − ππ = π(1 − π) si k = l Observación 8.4.1. En este diseño el tamaño de muestra es aleatorio: ns ∼Binomial (N, π). En el diseño Bernoulli: Muestreo de Poblaciones Finitas - 155 Introducción a la Inferencia Estadı́stica 1. La función diseño está dada por p(s) = π ns (1 − π)N −ns ∀s de tamaño ns donde ns = 0, 1, 2, . . . , N . 2. La expresión del estimador π del total poblacional es t̂π = 3. Var t̂π = 1X yk . π s X σy02 σy0 1 1 2 2 −2 −1 yk = N (1 − f ) 1− + CVyU donde CVyU = . π n N ȳ U U 4. El estimador insesgado de la varianza es d t̂π = 1 Var π X Sy02 1 1 2 2 −2 −1 yk = N (1 − f ) 1− + CVyS . π n N S Observación 8.4.2. Si consideramos el tamaño de muestra en su valor esperado, es decir n = N π, el cociente entre la varianza del estimador de Horwitz-Thompson bajo diseño bernoulli y su varianza bajo diseño simple es aproximadamente 1 + CVy−2 lo que sugiere que el diseño bernoulli U es, en general, menos eficiente que el diseño simple. Esto puede atribuı́rse a la naturaleza aleatoria del tamaño de muestra bajo diseño bernoulli. 8.4.4. Diseño Sistemático Consideremos una población U = {1, 2, . . . , N } y dentro de ella ((bloques)) formados por a < N elementos hasta completar los N que la integran, es decir, U = {1, 2, . . . , a, a + 1, . . . , 2a, . . . , N }. Por simplicidad, suponemos que N es divisible entre a y definimos el tamaño de muestra como n = N/a. Definición 8.4.5. Se denomina diseño sistemático a un diseño de muestreo en el que se selecciona aleatoriamente uno de los números naturales comprendidos entre 1 y a con distribución uniforme discreta, al que denominaremos arranque aleatorio r, que determina que la muestra quede conformada por Sr = {k : k = r + (j − 1)a ≤ N, j = 1, 2, . . . , n}. a se denomina intervalo de muestreo. Ası́, en el diseño sistemático hay a muestras posibles disjuntas y exhaustivas, es decir, Si ∩ Sj = φ ∀i 6= j y ∪ai=1 Si = U . Esto que permite representar la población odrenada según las distintas muestras posibles tal como se muestra en el siguiente cuadro. Muestra U Total Media S1 y1 y1+a .. . .. . y1+(n−1)a tS1 ȳS1 ······ ······ ······ ······ ······ ······ ······ ······ 156 - Muestreo de Poblaciones Finitas Sr yr yr+a .. . .. . yr+(n−1)a tSr ȳSr ······ ······ ······ ······ ······ ······ ······ ······ Sa ya y2a .. . .. . yna tSa ȳSa Introducción a la Inferencia Estadı́stica De esta forma podemos expresar el total poblacional de la variable y como t = X con tSr = yk . X yk = U a X tSr r=1 Sr Dada la forma de selección de la muestra en el diseño sistemático, cada una de las posibles muestras se observa con probabilidad a−1 . Ası́, la función diseño está dada por, ( a−1 si s ∈ {S1 , S2 , . . . , Sa } p(s) = 0 en otro caso De lo anterior se desprende que, πk = P (k ∈ S) = a−1 ∀k ∈ U ( a−1 πkl = 0 si k y l ∈ Sr ∈ {S1 , S2 , . . . , Sa } en otro caso Por tanto, dado el intervalo de muestreo a = N/n, el estimador de Horvitz-Thompson del total poblacional puede expresarse como: X X yk X yk = atS = N ȳS = a y̌ = t̂π = a−1 S S S a a X 1X (tSr − t̄)2 = a(a−1)St02 donde t̄ = y puede demostrarse que Var t̂π = a tSr representa el a r=1 r=1 total promedio en las posibles muestras y St02 es la varianza corregida de los totales de las posibles muestras. Observación 8.4.3. La varianza del estimador de Horvitz-Thompson en el diseño sistemático depende de cómo ordene la población. En el caso extremo de que todas las muestras posibles tengan el mismo total resulta que Var t̂π = 0. En el otro extremo, si cada una de las posibles muestras contiene elementos homogéneos entre si en términos de la variable y siendo heterogéneos entre muestras, la varianza del estimador será máxima. Cuando la población está organizada aleatoriamente respecto en términos de la variable y la varianza del estimador de Horvitz-Thomson bajo el diseño sistemático es igual a la que se obtiene bajo el diseño simple. Observación 8.4.4. El diseño sistemático no es un diseño medible ya que no cumple que πkl > 0 ∀k, l ∈ U por lo que no se tiene un estimador insesgado para Var t̂π . Observación 8.4.5. Si N no es divisible entre a se considera n = [N/a], donde [·] significa parte entera, se tiene que N = na + c con 0 < c < a. En esta situación, si 0 < r ≤ c, lo que ocurre con probabilidad c/a, el tamaño de muestra será n + 1, mientras que si c < r ≤ a, que ocurre con probabilidad 1 − c/a, el tamaño de muestra será n. Por ejemplo, supongamos que N = 52 y a = 6 con lo que n = [52/6] = 8 y c = 4. Entonces, Si r = 3 ⇒ s = {3, 9, 15, 21, 27, 33, 39, 45, 51} por lo que el tamaño de muestra es 9. Si r = 5 ⇒ s = {5, 11, 17, 23, 29, 35, 41, 47} por lo que el tamaño de muestra es 8. Muestreo de Poblaciones Finitas - 157 Introducción a la Inferencia Estadı́stica 8.5. Comentarios sobre diseños de muestreo indirecto de elementos Los diseños presentados en la sección anterior asumen que se puede realizar muestreo directo de elementos. Sin embargo, en encuestas de mediana y gran escala el muestreo directo de elementos no es usado por alguna de las siguientes razones: No se dispone de un marco que identifique a todos los elementos y el costo de crear uno es demasiado elevado. Los elementos de la población están muy dispersos en un área geográfica muy extensa. Ası́, el muestreo directo de elementos lleva a costos de relevamiento excesivamente elevados (costo de transporte de los encuestadores). Los diseños de muestreo por conglomerados, en dos etapas y multietapa no requieren realizar muestreo directo de elementos ya que en una primera etapa se muestrean grupos o clusters de elementos, o sea, son aplicables cuando se cuenta con marcos agrupados. Muestreo por conglomerados. En este tipo de diseños la población se particiona en subpoblaciones llamadas conglomerados o clusters. Luego se toma una muestra aleatoria de esos conglomerados y todos los elementos de la población que pertenecen a los conglomerados seleccionados son encuestados. Muestreo en dos etapas. Aquı́, la muestra es resultado de dos etapas de muestreo. En una primera instancia se particiona la población en subpoblaciones llamadas PSUs (primary sampling units) y se toma una muestra probabilı́stica de la población que dichas PSUs forman (muestreo de primera etapa). Luego, para cada PSU seleccionada en la primera etapa se elige un diseño de muestreo (de segunda etapa). Ahora, las unidades que se muestrean en esta segunda etapa, que denominamos SSUs (second-stage sampling units) pueden ser elementos o grupos (clusters) de elementos. Cuando las SSUs son elementos y se toma una muestra aleatoria dentro de cada una de las PSUs seleccionadas en la primera etapa se dice que el diseño es en dos etapas. Muestreo en varias etapas. Consiste en tres o más etapas de muestreo. Si las unidades de última etapa son elementos se habla de muestreo multietapa, mientras qeu si son grupos de elementos hablamos de muestreo por conglomerados en varias etapas. 158 - Muestreo de Poblaciones Finitas Introducción a la Inferencia Estadı́stica Notación Dada una población U y un subconjunto s de elementos de U : X X = (la suma sobre todos los elementos que componen la población U ). U X k∈U = X s X = k,l∈U X = l,k∈s k6=l XX k∈s l∈s = l,k∈U k6=l X XX k∈U l∈U k,l∈s X (la suma sobre todos los elementos que componen el subconjunto s). k∈s XX k∈U l∈U k6=l = XX k∈s l∈s k6=l Nota Bibliográfica Este capı́tulo está basado en los siguientes textos: Galmés, M. Métodos de Muestreo Notas de Estadı́stica II (Plan 90), Oficina de Apuntes del CECEA. Särndal, Sweansson y Wretman. Model Assisted Survey Sampling, fourth printing. Springer, NY, 1994. Muestreo de Poblaciones Finitas - 159 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 160 - Muestreo de Poblaciones Finitas APÉNDICE A MODELOS DE PROBABILIDAD Lo siguiente es una recopilación de los modelos de probabilidad más comunes. Un modelo de probabilidad es la terna (R, B, PX ) que se obtiene al aplicar una variable o vector aleatorio sobre el espacio de probabilidad original (Ω, A, P ). En lo que sigue, para todos los modelos se especifica: la función de cuantı́a o densidad, la esperanza, la varianza, el modo y la mediana de la variable o vector aleatorio. La función generatriz de momentos se incluye para aquellos modelos donde existe. La función de distribución se especifica solo en aquellos casos en que existe en forma cerrada. A.1. Modelos Univariados Discretos A.1.1. Distribución Uniforme discreta: X ∼ U(a, . . . , b) fX (x) = 1 n x ∈ Rec(X) = {a, a + 1, . . . , b − 1, b} a ∈ Z, b ∈ Z a < b n=b−a+1  0 x<a   bxc − a + 1 FX (x) = a≤x<b  n  1 x≥b MX (t) = eat − e(b+1)t n(1 − et ) E(X) = a+b 2 Var(X) = n2 − 1 12 x0,5 = a+b 2 6 ∃xmo Definición A.1.1. Una prueba de Bernoulli, es un experimento aleatorio que da lugar a dos sucesos excluyentes y exhaustivos denominados “éxito” y “fracaso”. Definición A.1.2. Una sucesión de pruebas de Bernoulli es un un conjunto de pruebas de Bernoulli independientes y repetidas en idénticas condiciones. Esto implica que la probabilidad de observar “éxito”, p, se mantiene constante prueba a prueba. 161 Introducción a la Inferencia Estadı́stica A.1.2. Distribución Bernoulli: X ∼ Bernoulli(p) X = “número de éxitos en una prueba de Bernoulli”. fX (x) = px (1 − p)1−x MX (t) = et p + (1 − p) ∀t ∈ R; x ∈ Rec(X) = {0, 1} (0 < p < 1) Var(X) = p(1 − p) E(X) = p xmo = [p] A.1.3. Distribución Binomial: X ∼ Binomial(n, p) X = “número de éxitos en una sucesión de n pruebas de Bernoulli”. n x fX (x) = p (1 − p)n−x x MX (t) = [et p + (1 − p)]n ∀t ∈ R; x ∈ Rec(X) = {0, 1, 2, . . . , n} (n ∈ N) E(X) = np Var(X) = np(1 − p) xmo = b(n + 1)pc Observación A.1.1. Si (n + 1)p ∈ N, entonces la distribución Binomial tiene dos modos: (n + 1)p y (n + 1)p − 1. Para la mediana no existe una fórmula sencilla, sin embargo se sabe que si np ∈ N, la esperanza, el modo y la mediana coinciden. En otro caso se cumple que bnpc ≤ x0,5 ≤ dnpe. Observación A.1.2. Binomial(1,p) ≡ Bernoulli(p). A.1.4. Distribución Geométrica: X ∼ Geométrica(p) X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el primer éxito”. x fX (x) = p(1 − p) MX (t) = p 1 − (1 − p)et x ∈ Rec(X) = {0, 1, 2, . . .} ∀t < − log(1 − p); FX (x) = E(X) = 1−p p 0 x<0 bx+1c 1 − (1 − p) x≥0 Var(X) = 1−p p2 xmo = 0 A.1.5. Distribución Binomial Negativa: X ∼ BN(r, p) X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el r-ésimo éxito”. x+r−1 r fX (x) = p (1 − p)x x ∈ Rec(X) = {0, 1, 2, . . .} r−1 r p r(1 − p) r(1 − p) MX (t) = ∀t < − log(1 − p); E(X) = Var(X) = t 1 − (1 − p)e p p2 (r − 1)(1 − p) xmo = p 162 - Apéndices Introducción a la Inferencia Estadı́stica Observación A.1.3. Geométrica(p) ≡ BN(1,p). Observación A.1.4. En lugar de fracasos antes del r-ésimo éxito también se puede definir la Binomial Negativa como: Y = “número de pruebas necesarias para obtener r éxitos”. La cuantı́a, generatriz de momentos y momentos de Y se deducen utilizando la siguiente relación: Y = X + r. A.1.6. Distribución Hipergeométrica: X ∼ Hipergeométrica(n, N, M ) Considere una población con N elementos, de los cuales M (M < N ) tienen determinada cualidad de interés a la que asociaremos con el suceso “éxito”. Se extraen n elementos de los N SIN reposición. X = “número de éxitos en n pruebas”. fX (x) = M E(X) = n N M x N −M n−x N n x ∈ Rec(X) = {máx(0, n − N + M ), . . . , mı́n(n, M )} M Var(X) = n N M N −n 1− N N −1 xmo (n + 1)(M + 1) = N +2 Observación A.1.5. La función generatriz de momentos de una Hipergeométrica existe siempre, pero su cálculo y forma escapan a los alcances del curso: MX (t) = N −M n 2 F1 (−n, −M ; N N n − M − n, et ) donde 2 F1 es la función generatriz exponencial con p = 2 y q = 1: p Fq (a1 , . . . , ap ; b1 , . . . , bq ; z) = ∞ X (a1 )n . . . (ap )n z n n=0 (b1 )n . . . (bq )n n! , con (a)n = a(a + 1)(a + 2) · · · (a + n − 1) para n ∈ N y (a)0 = 1. Observación A.1.6. Hipergeométrica(1, N, M ) ≡ Bernoulli( M ). N Observación A.1.7. Si X ∼ Hipergeométrica(n, N, M ) y n << N ⇒ X ≈ Binomial(n, M ). N En la práctica, la aproximación es buena cuando n < 0,1N y N > 50. Definición A.1.3. Un proceso de Poisson de tasa λ, es un proceso aleatorio que genera ocurrencias de sucesos sobre un espacio continuo de acuerdo a las siguientes caracterı́sticas: a - El número de ocurrencias en dos intervalos que no se solapan son independientes. Apéndices - 163 Introducción a la Inferencia Estadı́stica b - La probabilidad de que se produzca exactamente un acontecimiento en un intervalo de amplitud lo suficientemente pequeña, h, es λh. c - La probabilidad de que se produzcan dos o más acontecimientos en un intervalo, de amplitud lo suficientemente pequeña, es aproximadamente cero. A.1.7. Distribución Poisson: X ∼ Poisson(λt) X = “número de sucesos generados por un proceso de Poisson de tasa λ en un intervalo de longitud t”. fX (x) = e−λt (λt)x x! u −1) MX (u) = eλt(e x ∈ Rec(X) = {0, 1, 2, . . .} (λ > 0) u ∈ R; E(X) = λt Var(X) = λt xmo = bλc Observación A.1.8. En R2 , la variable aleatoria serı́a X=“número de sucesos generados por un proceso de Poisson de tasa λ en un área de medida t”. Observación A.1.9. Sea X ∼ Binomial(n, p). Si n → ∞, p → 0 y np → λ > 0, entonces X ≈ Poisson(λ) con λ = np. En la práctica, es recomendable la aproximación si p < 0, 1; n > 50 y np < 5. A.2. Modelos Univariados Absolutamente Continuos A.2.1. Distribución Uniforme: X ∼ U[a, b] fX (x) =    1 si a ≤ x ≤ b a, b ∈ R, a < b b−a   0 MX (t) = en otro caso etb − eta t(b − a) ∀t ∈ R; E(X) =  0 si x < a    x−a si a ≤ x < b FX (x) = (b − a)    1 si x ≥ b a+b 2 Var(X) = (b − a)2 12 No existe el modo. A.2.2. Distribución Triangular: X ∼ Triang[a, b, c] Para a, b, c ∈ R, a < c < b:  2(x − a)   si a ≤ x ≤ c    (b − a)(b − c)   2(b − x) fX (x) = si c ≤ x ≤ b    (b − a)(b − c)     0 en otro caso 164 - Apéndices  0      (x − a)2    (b − a)(b − c) FX (x) =  (b − x)2   1 −   (b − a)(b − c)    1 si x < a si a ≤ x < c si c ≤ x < b si x ≥ b Introducción a la Inferencia Estadı́stica 2(b − c)eat/2 − (b − a)ect/2 + (c − a)ebt/2 t2 (b − a)(c − a)(b − c) MX (t) = ∀t ∈ R; a+c+b a2 + b2 + c2 − ab − ac − bc E(X) = Var(X) = 3 18  r  a+b (b − a)(c − a)   a+ si c ≥ 2 2 r x0,5 = xmo = c  (b − a)(c − a) a + b   b− si c ≤ 2 2 A.2.3. Distribución Exponencial: X ∼ Exp(λ)  −λx si x ≥ 0 (λ > 0)  λe fX (x) =  0 en otro caso MX (t) = λ λ−t ∀t < λ; E(X) = ( FX (x) = 1 λ 0 si x < 0 1 − e−λx si x ≥ 0 Var(X) = 1 λ2 xmo = 0 Observación A.2.1. Alternativamente, la función de densidad de una variable aleatoria con distribución exponencial se puede definir como  x   1 e− θ si x ≥ 0 (θ > 0) θ fX (x) =   0 en otro caso y se denota también X ∼ Exp(θ). Por lo cual, para evitar ambigüedades, se suele acompañar del valor de su esperanza, ya que ésta marca como se tiene que escribir el parámetro en la función de densidad, momentos, etc.. Note que la relación entre las dos expresiones está dada por θ = λ−1 . A.2.4. Distribución Doble Exponencial: X ∼ DExp(µ, λ)    λ e−λ|x−µ| si x ∈ R (λ > 0, µ ∈ R) 2 fX (x) =   0 en otro caso MX (t) = λ2 eµt λ2 − t2 ∀|t| < λ; E(X) = µ Var(X) = 2 λ2 xmo = x0,5 = µ Definición A.2.1. La función matemática gamma, Γ, se define como Z +∞ Γ(α) = xα−1 e−x dx para α > 0. 0 Algunas propiedades de esta función son: Para β > 0 Z 0 +∞ xα−1 e−βx dx = Γ(α) . βα Apéndices - 165 Introducción a la Inferencia Estadı́stica Γ(α + 1) = αΓ(α). Si n ∈ N, entonces Γ(n + 1) = n!. √ 1 Γ( ) = π. 2 A.2.5. Distribución Gamma: X ∼ Gamma(α, β) El parámetro α controla la forma de la distribución y β su escala.  α   β xα−1 e−βx si x ≥ 0 (α > 0, β > 0) Γ(α) fX (x) =   0 en otro caso MX (t) = β β−t α ∀t < β; E(X) = α β Var(X) = α β2 xmo   α−1 si α > 1 = β  6∃ si α ≤ 1 Observación A.2.2. X ∼ Exp(β) ≡ Gamma(1, β), con E(X) = β −1 . Observación A.2.3. Si α ∈ N a la distribución Gamma se le llama distribución Erlang. Otro caso n 1 particular es la Gamma( , ), con n ∈ N, a la cual se le conoce con el nombre χ2n (chi-cuadrado 2 2 con n grados de libertad). A.2.6. Distribución Logı́stica: X ∼ Logı́stica(µ, β) x−µ exp − β 1 x ∈ R, fX (x) = h i2 β 1 + exp − x−µ β FX (x) = MX (t) = eµt Γ(1 − βt)Γ(1 + βt) 1 1 + exp − x−µ β ∀t : |t| < 1 ; β µ∈R β>0 x ∈ R. E(X) = µ; Var(X) = Definición A.2.2. La función matemática Beta se define como Z 1 Γ(α)Γ(β) B(α, β) = xα−1 (1 − x)β−1 dx = para α > 0 y β > 0. Γ(α + β) 0 A.2.7. Distribución Beta: X ∼ Beta(α, β) Tanto el parámetro α como β controlan la forma de la distribución.    Γ(β + α) xα−1 (1 − x)β−1 si 0 < x < 1 (α > 0, β > 0) Γ(α)Γ(β) fX (x) =   0 en otro caso E(X) = 166 - Apéndices α β+α Var(X) = αβ (α + β + 1)(α + β)2 (πβ)2 . 3 Introducción a la Inferencia Estadı́stica Observación A.2.4. La forma y cálculo de la función generatriz de momentos de una Beta también está más allá de los contenidos del curso. ! ∞ k−1 X Y α+r tk MX (t) = 1 F1 (α; α + β; t) = 1 + ∀t ∈ R. α + β + r k! r=0 k=1 Observación A.2.5. La función de densidad de una Beta tendrá diferente forma dependiendo de los valores que tomen α y β: Si α < 1 y β < 1 la función de densidad tendrá un único mı́nimo en Si α > 1 y β > 1 tendrá un único máximo (el modo, xmo ) en α−1 . α+β−2 α−1 . α+β−2 Si α = β es simétrica alrededor de 0,5 y por lo tanto E(X) = x0,5 = 0, 5. El modo también será 0,5 siempre y cuando α > 1 y β > 1. Si α < β es asimétrica a la derecha y si α > β lo es a la izquierda. Si α < 1 y β ≥ 1 o α = 1 y β > 1 es monótona decreciente y además: Si α = 1 y β > 2 es estrictamente convexa. Si α = 1 y β = 2 es una lı́nea recta. Si α = 1 y 1 < β < 2 es estrictamente cóncava. Si α = 1 y β < 1 o α > 1 y β ≤ 1 es monótona creciente y además: Si α > 2 y β = 1 es estrictamente convexa. Si α = 2 y β = 1 es una lı́nea recta. Si 1 < α < 2 y β = 1 es estrictamente cóncava. Observación A.2.6. X ∼ Uniforme(0, 1) ≡ Beta(1, 1). A.2.8. Distribución Cauchy: X ∼ Cauchy(a, b) fX (x) = b π[(x − a)2 + b2 ] xmo = a x ∈ R, −∞ < a < ∞, b>0 x0,5 = a Los momentos ordinarios, E(X k ), no existen para ningún k, k = 1, 2, . . .. Apéndices - 167 Introducción a la Inferencia Estadı́stica A.2.9. Distribución Normal: X ∼ N(µ, σ 2 ) fX (x) = √ t2 2 MX (t) = exp µt + σ 2 1 x−µ 2 1 e− 2 ( σ ) 2πσ x ∈ R, −∞ < µ < ∞, si t ∈ R; σ>0 Var(X) = σ 2 E(X) = µ xmo = x0,5 = µ Observación A.2.7. Si µ = 0 y σ = 1 se dice que la variable aleatoria X sigue una distribución normal estándar o tipificada. La letra griega φ se usa para representar su función de densidad y la letra Φ su función de distribución. La distribución normal estándar verifica, como todas las distribuciones simétricas alrededor del cero, que Φ(−x) = 1 − Φ(x) ∀x ∈ R. A.2.10.Distribución LogNormal: X ∼ log-N(µ, σ 2 ) 1 log(x)−µ 2 1 fX (x) = √ e− 2 ( σ ) x 2πσ σ2 E(X) = exp µ + 2 −∞ < µ < ∞, x > 0, 2 2 Var(X) = e2µ+σ (eσ − 1) σ>0 xmo = eµ−σ 2 Observación A.2.8. A pesar de que existen los momentos de cualquier orden, MX (t) no existe. Esto se debe a que E(etX ) existe solo para t ≤ 0 y por lo tanto no es derivable en t = 0. A.2.11.Distribución t de Student: X ∼ tn Γ n+1 1 2 fX (x) = n+1 n √ 2 Γ 2 πn 1 + xn 2 x∈R  n−k k+1 Γ Γ   2 si k es par √2  n πΓ k 2 E(X ) =    0 si k es impar n ∈ {1, 2, . . .} k<n MX (t) no existe, dado que si k ≥ n, E(X k ) no existe. En particular, E(X) = 0 si n > 1 y Var(X) = El modo y la mediana coinciden, xmo = x0,5 = 0. Observación A.2.9. t1 ≡ Cauchy(0,1) y t∞ ≡ N(0,1). 168 - Apéndices n n−2 si n > 2. Introducción a la Inferencia Estadı́stica A.2.12.Distribución F de Snedecor: X ∼ Fn,m Al parámetro n se le llama grados de libertad del numerador y a m grados de libertad del denominador. fX (x) =      Γ     0 Γ n 2 n+m 2 Γ m 2 n n2 m x 1+ n−2 n n x m n, m ∈ {1, 2, . . .} x>0 n+m 2 en otro caso k E(X ) = Γ n+2k Γ 2 Γ n2 Γ m−2k 2 m 2 m k n si k < m 2 No existe MX (t), dado que si k ≥ m/2, E(X k ) no existe. En particular, m E(X) = m−2 si m > 2 y Var(X) = 2 m m−2 2 m+n−2 n(m − 4) si m > 4. Observación A.2.10. Si X ∼ Fn.m , entonces Y = 1 ∼ Fm.n . X 2 Observación A.2.11. F1,m ≡ tm . A.2.13.Distribución Weibull: X ∼ Weibull(α, β) El parámetro α controla la forma de la distribución y β la escala.  β−1 x β   β x exp − si x ≥ 0 (α > 0; β > 0) α α α fX (x) =   0 en otro caso   0 si x < 0 FX (x) = x β  1 − exp − si x ≥ 0 α 1 E(X) = αΓ 1 + β ∞ n n X t α n MX (t) = Γ 1+ ; n! β n=0 2 1 2 Var(X) = α Γ 1 + −Γ 1+ β β 2 xmo = α β−1 β β1 si β > 1; x0,5 = α(log(2))1/β Apéndices - 169 Introducción a la Inferencia Estadı́stica Observación A.2.12. La expresión de MX (t) se obtiene sin evaluar directamente E(etX ). Se hace uso de que se conoce la forma general de E(X k ) ∀k: k k k E(X ) = α Γ 1 + k∈N β y se expresa MX (t) como una serie de potencias. Observación A.2.13. Cuando β = 2, a la distribución Weibull se le llama distribución Rayleigh. A.2.14.Distribución Pareto: X ∼ Pareto(α, β)  α   αβ si x ≥ β (α > 0; β > 0) xα+1 fX (x) =   0 en otro caso αβ k E(X ) = α−k k (k ∈ N) si α > k xmo = β   0 si x < β α FX (x) = β  1− si x ≥ β x β 2α Var(X) = (α − 1)2 (α − 2) √ α x0,5 = β 2 si α > 2 Observación A.2.14. MX (t) no existe en forma cerrada, pero al conocerse E(X k ) ∀k se le podrı́a expresar como una serie de potencias. A.3. Modelos Multivariados Discretos ~ ∼Multinomial(n, p1 , p2 , . . . , pk ) A.3.1. Distribución Multinomial: X La distribución Multinomial es la generalización multivariada de la distribución Binomial. Se repite independientemente n veces un experimento aleatorio en indénticas condiciones. Cada realización del experimento da a lugar a k sucesos {Ai }ki=1 excluyentes y exahustivos. Sea pi = P (Ai ), i = k X 1, . . . , k con pi = 1. i=1 ~ = (X1 , X2 , . . . , Xk ) donde Xi =“números de veces que Ai ocurre en las n Defina el vector X repeticiones del experimento”, i = 1, . . . , k. Entonces, ( ) k X ~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , n} i = 1, . . . , k; Rec(X) xi = n i=1 y pX~ (~x) = n! px1 1 px2 2 . . . pxkk k Q xi ! ~ ~x ∈ Rec(X). i=1 Para i = 1, . . . , k, Xi ∼Binomial(n, pi ), de donde E(Xi ) = npi 170 - Apéndices y Var(Xi ) = npi (1 − pi ). Introducción a la Inferencia Estadı́stica Además, para i 6= j, i, j = 1, . . . , k Cov(Xi , Xj ) = −npi pj . Sea ~t = (t1 , t2 , . . . , tk ), entonces MX~ (~t ) = (p1 et1 + p2 et2 + . . . + pk etk )n ∀~t ∈ Rk . ~ ∼MH(n, N, M1 , M2 , . . . , Mk ) A.3.2. Distribución Multihipergeométrica: X Considere una población de tamaño N , en la cual Mi elementos tienen la caracterı́stica de interés Ci , para i = 1, . . . , k. Cada elemento de la población posee exactamente una de las caracterı́sticas k X Ci , i = 1, . . . , k, esto es Mi = N . i=1 ~ = (X1 , X2 , . . . , Xk ) donde Xi =“números Se extraen n elementos de los N sin reposición. Defina X de elementos extraı́dos en los n con la caracterı́stica Ci ”, i = 1, . . . , k. Entonces, ( ) k X ~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , Mi } i = 1, . . . , k; Rec(X) xi = n i=1 y pX~ (~x) = M1 x1 M2 k ... M x2 xk N n ~ ~x ∈ Rec(X). Para i = 1, . . . , k, Xi ∼Hipergeométrica(n, N, Mi ), de donde Mi Mi N −n Mi y Var(Xi ) = n 1− . E(Xi ) = n N N N N −1 Además, para i 6= j, i, j = 1, . . . , k nMi Mj Cov(Xi , Xj ) = − N2 N −n N −1 . Observación A.3.1. Tanto la distribución Multinomial como la distribución Multihipergeométrik X k−1 k ca son distribuciones en R y no en R . Note que la restricción xi = n implica que, por i=1 ejemplo, dado un valor (x1 , x2 , . . . , xk−1 ) en particular de las primeras (k − 1) componentes del k−1 X vector , la k-ésima componente, Xk , tiene que necesariamente tomar el valor n − xi . i=1 Observación A.3.2. La misma relación que existe entre la Binomial y la Hipergeométrica se ~ ∼MH(n, N, M1 , M2 , . . . , Mk ) y n << N , tenemos que cumple en el caso multivariado: Si X ~ ≈ Multinomial(n, p1 , p2 , . . . , pk ). X En la práctica, la aproximación es buena cuando n < 0,1N y N > 50. A.4. Modelos Multivariados Absolutamente Continuos Apéndices - 171 Introducción a la Inferencia Estadı́stica A.4.1. Distribución Normal Multivariada: k × k simétrica y definida positiva:    2 µ1 σ1 σ12  µ2  σ21 σ 2 2    µ =  ..  y Σ =  .. ..  .   . . µk σk1 σk2 ~ ∼ Nk (µ, Σ). Sean µ ∈ Rk y Σ una matriz de X  · · · σ1k · · · σ2k   ..  .. . .  · · · σk2 con σi > 0 i = 1, . . . , k σij = σji i, j = 1, . . . , k ~ = (X1 , . . . , Xk )0 , se dice que X ~ sigue una distribución normal multivariante no Entonces dado X singular de dimensión k con vector de medias µ y matriz de covarianzas Σ si 1 1 0 −1 − (~x − µ) Σ (~x − µ) ~x ∈ Rk . fX~ (~x) = k 1 exp 2 2 2 (2π) |Σ| Sea ~t = (t1 , t2 , . . . , tk )0 , entonces 1 0 0 MX~ (~t ) = exp ~t µ + ~t Σ~t 2 ∀~t ∈ Rk . Cov(Xi , Xj )=σij , i 6= j, i, j = 1, . . . , k. Si B es una matriz de p × k de rango completo por las filas, esto es rango(B)=p, entonces ~ ∼ Np (Bµ, BΣB0 ). BX De donde, ∀~a = (a1 , a2 , . . . , ak ) ∈ Rk , ~a 6= 0: ~ = ~aX k X ai X i ∼ N i=1 k X ai µ i ; i=1 k X i=1 ! a2i σi2 + 2 X ai aj σij i<j ~ = Xi ∼ N(µi , σi2 ), i = 1, . . . , k. y en particular para ~a = (0, . . . , 0, 1,0, . . . , 0): ~aX i−1 i k−i ~ sigue una Cualquier subvector de m componentes de las k componentes originales de X distribución normal multivariante de dimensión m. ~ 1 al Sea I un subconjunto propio de {1, 2, . . . , k} de m elementos, m = 1, . . . , k − 1. Defina X ~ tal que sus subı́ndices ∈ I. Defina X ~ 2 al vector vector compuesto por las componentes de X ~ tal que sus subı́ndices 6∈ I. Redefina, µ y Σ de tal compuesto por las componentes de X manera que: µ1 Σ11 Σ12 µ= yΣ= µ2 Σ21 Σ22 ~ i ) = µi , Var(X ~ i ) = Σii , i = 1, 2 y Cov(X ~ 1, X ~ 2 ) = Σ12 = Σ0 . Entonces, para un Donde E(X 21 ~ valor fijo ~x2 de X2 0 ~ 1 |X ~ 2 = ~x2 ∼ Nm (µ1 + Σ12 Σ−1 X x2 − µ2 ), Σ11 − Σ12 Σ−1 22 (~ 22 Σ12 ) 172 - Apéndices Introducción a la Inferencia Estadı́stica Para el caso particular de k = 2 y m = 1, con I = {1}, tenemos que σ1 2 2 X1 |X2 = x2 ∼ N µ1 + ρ (x2 − µ2 ), σ1 (1 − ρ ) σ2 y para I = {2} σ2 2 2 X2 |X1 = x1 ∼ N µ2 + ρ (x1 − µ1 ), σ2 (1 − ρ ) σ1 donde ρ = σ12 /(σ1 σ2 ). A.5. Relaciones entre distribuciones 1 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Bernoulli(p), i = 1, . . . , n. Entonces, n X Xi ∼ Binomial(n, p). i=1 2 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, . . . , r. Entonces, r r X X Xi ∼ Binomial(n, p), con n = ni . i=1 i=1 3 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Geométrica(p), i = 1, . . . , r. Entonces, r X Xi ∼ BN(r, p). i=1 4 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ BN(ri , p), i = 1, . . . , n. Entonces, n n X X Xi ∼ BN(r, p), con r = ri . i=1 i=1 5 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, 2. Entonces, X1 |X1 + X2 = k ∼ Hipergeométrica(k, n1 + n2 , n1 ). 6 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, . . . , n. Entonces, n n X X Xi ∼ Poisson(λ), con λ = λi . i=1 i=1 7 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, 2. Entonces, λ1 X1 |X1 + X2 = n ∼ Binomial n, λ1 + λ2 Apéndices - 173 Introducción a la Inferencia Estadı́stica 8 - Si X ∼ Uniforme(a, b), entonces Y = − 1 b−X log ∼ Gamma(1, b − a). b−a b−a 9 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(1, βi ), i = 1, . . . , n. Entonces, n X Y = mı́n(X1 , . . . , Xn ) ∼ Gamma(1, β) con β = βi . i=1 10 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(αi , β), i = 1, . . . , n. Entonces, n n X X Xi ∼ Gamma(α, β), con α = αi . i=1 i=1 1 1 11 - Si X ∼ N(0, 1), entonces Y = X 2 ∼ Gamma( , ) = χ21 (ver obs A.2.3). 2 2 12 - Si X ∼ Poisson(λ) y x ∈ N, entonces P (X ≤ x) = 1 − P (Y ≤ λ), donde Y ∼ χ22(x+1) . 1 13 - Si X ∼ Uniforme(0, 1), entonces Y = X 2 ∼ Beta( , 1). 2 14 - Si X ∼ Gamma(α, β) y Y ∼ Gamma(γ, β). X y Y independientes. Entonces, Z = X ∼ X +Y Beta(α, γ). 15 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ N(µi , σi2 ), i = 1, . . . , n. Entonces, n n n X X X 2 2 Xi ∼ N(µ, σ ), con µ = µi y σ = σi2 . i=1 i=1 i=1 16 - Si X ∼ N(µ, σ 2 ), entonces Y = eX ∼ log-N(µ, σ 2 ). 17 - Si Xi ∼ N(0, 1) i = 1, 2. X1 y X2 independientes, entonces Y = X1 ∼ Cauchy(0, 1). X2 18 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ Cauchy(ai , bi ), i = 1, . . . , n. Entonces, n n n X X X Xi ∼ Cauchy(a, b), con a = ai y b = bi . i=1 i=1 i=1 19 - Si X ∼ log-N(µ, σ 2 ), entonces Y = log(X) ∼ N(µ, σ 2 ). 20 - Si X ∼ log-N(µ, σ 2 ), entonces Y = X −1 ∼ log-N(−µ, σ 2 ). 21 - Si X ∼ log-N(µ, σ 2 ), entonces, con a > 0, Y = aX ∼ log-N(log a + µ, σ 2 ). 174 - Apéndices Introducción a la Inferencia Estadı́stica 22 - Si X ∼ N(0, 1) y W ∼ χ2n . X y W independientes. Entonces: X Y =p ∼ tn . W/n 23 - Si W ∼ χ2n y V ∼ χ2m . W y V independientes. Entonces: Y = W/n mW = ∼ Fn.m . V /m n V 24 - Si X ∼ Weibull(α, β), entonces Y = ( X β ) ∼ Exp(1). α 1 25 - Si X ∼ Uniforme(0, 1), entonces Y = α(− log(X)) β ∼ Weibull(α, β). 26 - Sean X ∼ Pareto(α, β) y un número β0 > β. Entonces X|X > β0 ∼ Pareto(α, β0 ). 27 - Si X ∼ Pareto(α, β), entonces Y = log X ∼ Exp(α) con E(Y ) = α−1 . β ~ ∼Multinomial(n, p1 , p2 , . . . , pk ) y sea I cualquier subconjunto propio de {1, . . . , k}. 28 - Dado X Entonces ! X X Xi ∼ Binomial n, pi . i∈I i∈I ~ = (X1 , . . . , Xi , Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi , αj , . . . , αk ), entonces 29 - Si X Y~ = (X1 , . . . , Xi + Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi + αj , . . . , αk ). 30 - Si Yi ∼ Gamma(αi , β), i = 1, . . . , k. Y1 , . . . , Yk independientes. Para V = k X Yi , defina i=1 Xi = Yi /V , i = 1, . . . , k. Entonces, ~ = (X1 , . . . , Xk ) = X Y1 Yk ,..., V V ∼ Dirichlet(α1 , . . . , αk ). ~ i un vector fila de p componentes tal que X ~ i ∼ Np (0, Σ), i = 1, . . . , m. Asuma que 31 - Sea X ~ 1, . . . , X ~ m son independientes. Sea X la matriz de m × p cuyas filas son X ~ i . Entonces la X matriz, de p × p, X0 X ∼ Wishart(m, Σ). Apéndices - 175 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 176 - Apéndices APÉNDICE B TABLAS 1 - Tabla de la función de distribución de una normal estándar. 2 - Tabla de los valores del recorrido de una distribución χ2ν . 3 - Tabla de los valores del recorrido de una distribución tν . 177 Introducción a la Inferencia Estadı́stica tabla de la función de distribución de una normal estándar Z z x2 1 √ e− 2 dx Φ(z) = 2π −∞ z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0,00 0,50000 0,53983 0,57926 0,61791 0,65542 0,69146 0,72575 0,75804 0,78814 0,81594 0,84134 0,86433 0,88493 0,90320 0,91924 0,93319 0,94520 0,95543 0,96407 0,97128 0,97725 0,98214 0,98610 0,98928 0,99180 0,99379 0,99534 0,99653 0,99744 0,99813 0,99865 0,99903 0,99931 0,99952 0,99966 0,99977 0,99984 0,99989 0,99993 0,99995 0,99997 0,01 0,50399 0,54380 0,58317 0,62172 0,65910 0,69497 0,72907 0,76115 0,79103 0,81859 0,84375 0,86650 0,88686 0,90490 0,92073 0,93448 0,94630 0,95637 0,96485 0,97193 0,97778 0,98257 0,98645 0,98956 0,99202 0,99396 0,99547 0,99664 0,99752 0,99819 0,99869 0,99906 0,99934 0,99953 0,99968 0,99978 0,99985 0,99990 0,99993 0,99995 0,99997 178 - Apéndices 0,02 0,50798 0,54776 0,58706 0,62552 0,66276 0,69847 0,73237 0,76424 0,79389 0,82121 0,84614 0,86864 0,88877 0,90658 0,92220 0,93574 0,94738 0,95728 0,96562 0,97257 0,97831 0,98300 0,98679 0,98983 0,99224 0,99413 0,99560 0,99674 0,99760 0,99825 0,99874 0,99910 0,99936 0,99955 0,99969 0,99978 0,99985 0,99990 0,99993 0,99996 0,99997 0,03 0,51197 0,55172 0,59095 0,62930 0,66640 0,70194 0,73565 0,76730 0,79673 0,82381 0,84849 0,87076 0,89065 0,90824 0,92364 0,93699 0,94845 0,95818 0,96638 0,97320 0,97882 0,98341 0,98713 0,99010 0,99245 0,99430 0,99573 0,99683 0,99767 0,99831 0,99878 0,99913 0,99938 0,99957 0,99970 0,99979 0,99986 0,99990 0,99994 0,99996 0,99997 0,04 0,51595 0,55567 0,59483 0,63307 0,67003 0,70540 0,73891 0,77035 0,79955 0,82639 0,85083 0,87286 0,89251 0,90988 0,92507 0,93822 0,94950 0,95907 0,96712 0,97381 0,97932 0,98382 0,98745 0,99036 0,99266 0,99446 0,99585 0,99693 0,99774 0,99836 0,99882 0,99916 0,99940 0,99958 0,99971 0,99980 0,99986 0,99991 0,99994 0,99996 0,99997 0,05 0,51994 0,55962 0,59871 0,63683 0,67364 0,70884 0,74215 0,77337 0,80234 0,82894 0,85314 0,87493 0,89435 0,91149 0,92647 0,93943 0,95053 0,95994 0,96784 0,97441 0,97982 0,98422 0,98778 0,99061 0,99286 0,99461 0,99598 0,99702 0,99781 0,99841 0,99886 0,99918 0,99942 0,99960 0,99972 0,99981 0,99987 0,99991 0,99994 0,99996 0,99997 0,06 0,52392 0,56356 0,60257 0,64058 0,67724 0,71226 0,74537 0,77637 0,80511 0,83147 0,85543 0,87698 0,89617 0,91309 0,92785 0,94062 0,95154 0,96080 0,96856 0,97500 0,98030 0,98461 0,98809 0,99086 0,99305 0,99477 0,99609 0,99711 0,99788 0,99846 0,99889 0,99921 0,99944 0,99961 0,99973 0,99981 0,99987 0,99992 0,99994 0,99996 0,99998 0,07 0,52790 0,56749 0,60642 0,64431 0,68082 0,71566 0,74857 0,77935 0,80785 0,83398 0,85769 0,87900 0,89796 0,91466 0,92922 0,94179 0,95254 0,96164 0,96926 0,97558 0,98077 0,98500 0,98840 0,99111 0,99324 0,99492 0,99621 0,99720 0,99795 0,99851 0,99893 0,99924 0,99946 0,99962 0,99974 0,99982 0,99988 0,99992 0,99995 0,99996 0,99998 0,08 0,53188 0,57142 0,61026 0,64803 0,68439 0,71904 0,75175 0,78230 0,81057 0,83646 0,85993 0,88100 0,89973 0,91621 0,93056 0,94295 0,95352 0,96246 0,96995 0,97615 0,98124 0,98537 0,98870 0,99134 0,99343 0,99506 0,99632 0,99728 0,99801 0,99856 0,99896 0,99926 0,99948 0,99964 0,99975 0,99983 0,99988 0,99992 0,99995 0,99997 0,99998 0,09 0,53586 0,57535 0,61409 0,65173 0,68793 0,72240 0,75490 0,78524 0,81327 0,83891 0,86214 0,88298 0,90147 0,91774 0,93189 0,94408 0,95449 0,96327 0,97062 0,97670 0,98169 0,98574 0,98899 0,99158 0,99361 0,99520 0,99643 0,99736 0,99807 0,99861 0,99900 0,99929 0,99950 0,99965 0,99976 0,99983 0,99989 0,99992 0,99995 0,99997 0,99998 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución χ2ν por probabilidad acumulada según grados de libertad ν ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 45 50 55 60 65 70 75 80 85 90 95 100 0,001 0,00 0,00 0,02 0,09 0,21 0,38 0,60 0,86 1,15 1,48 1,83 2,21 2,62 3,04 3,48 3,94 4,42 4,91 5,41 5,92 6,45 6,98 7,53 8,09 8,65 9,22 9,80 10,39 10,99 11,59 17,92 21,25 24,67 28,17 31,74 35,36 39,04 42,76 46,52 50,32 54,16 58,02 61,92 0,005 0,00 0,01 0,07 0,21 0,41 0,68 0,99 1,34 1,74 2,16 2,60 3,07 3,57 4,08 4,60 5,14 5,70 6,27 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 20,71 24,31 27,99 31,74 35,53 39,38 43,28 47,21 51,17 55,17 59,20 63,25 67,33 0,01 0,00 0,02 0,12 0,30 0,55 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,02 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,57 14,26 14,95 22,16 25,90 29,71 33,57 37,49 41,44 45,44 49,48 53,54 57,63 61,75 65,90 70,07 0,025 0,00 0,05 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 24,43 28,37 32,36 36,40 40,48 44,60 48,76 52,94 57,15 61,39 65,65 69,93 74,22 Probabilidad acumulada 0,05 0,1 0,15 0,2 0,00 0,02 0,04 0,06 0,10 0,21 0,33 0,45 0,35 0,58 0,80 1,01 0,71 1,06 1,37 1,65 1,15 1,61 1,99 2,34 1,64 2,20 2,66 3,07 2,17 2,83 3,36 3,82 2,73 3,49 4,08 4,59 3,33 4,17 4,82 5,38 3,94 4,87 5,57 6,18 4,58 5,58 6,34 6,99 5,23 6,30 7,11 7,81 5,89 7,04 7,90 8,63 6,57 7,79 8,70 9,47 7,26 8,55 9,50 10,31 7,96 9,31 10,31 11,15 8,67 10,09 11,13 12,00 9,39 10,87 11,95 12,86 10,12 11,65 12,77 13,72 10,85 12,44 13,60 14,58 11,59 13,24 14,44 15,45 12,34 14,04 15,28 16,31 13,09 14,85 16,12 17,19 13,85 15,66 16,97 18,06 14,61 16,47 17,82 18,94 15,38 17,29 18,67 19,82 16,15 18,11 19,53 20,70 16,93 18,94 20,39 21,59 17,71 19,77 21,25 22,48 18,49 20,60 22,11 23,36 26,51 29,05 30,86 32,35 30,61 33,35 35,29 36,88 34,76 37,69 39,75 41,45 38,96 42,06 44,25 46,04 43,19 46,46 48,76 50,64 47,45 50,88 53,29 55,26 51,74 55,33 57,84 59,90 56,05 59,80 62,41 64,55 60,39 64,28 66,99 69,21 64,75 68,78 71,59 73,88 69,13 73,29 76,20 78,56 73,52 77,82 80,81 83,25 77,93 82,36 85,44 87,95 0,25 0,10 0,58 1,21 1,92 2,68 3,46 4,26 5,07 5,90 6,74 7,58 8,44 9,30 10,17 11,04 11,91 12,79 13,68 14,56 15,45 16,34 17,24 18,14 19,04 19,94 20,84 21,75 22,66 23,57 24,48 33,66 38,29 42,94 47,61 52,29 56,99 61,70 66,42 71,15 75,88 80,63 85,38 90,13 0,3 0,15 0,71 1,42 2,20 3,00 3,83 4,67 5,53 6,39 7,27 8,15 9,03 9,93 10,82 11,72 12,62 13,53 14,44 15,35 16,27 17,18 18,10 19,02 19,94 20,87 21,79 22,72 23,65 24,58 25,51 34,87 39,59 44,31 49,06 53,81 58,57 63,35 68,13 72,92 77,71 82,51 87,32 92,13 0,4 0,28 1,02 1,87 2,75 3,66 4,57 5,49 6,42 7,36 8,30 9,24 10,18 11,13 12,08 13,03 13,98 14,94 15,89 16,85 17,81 18,77 19,73 20,69 21,65 22,62 23,58 24,54 25,51 26,48 27,44 37,13 42,00 46,86 51,74 56,62 61,51 66,40 71,29 76,19 81,09 85,99 90,90 95,81 Apéndices - 179 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución χ2ν por probabilidad acumulada según grados de libertad ν (continuación) ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 45 50 55 60 65 70 75 80 85 90 95 100 0,5 0,46 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,34 21,34 22,34 23,34 24,34 25,34 26,34 27,34 28,34 29,34 39,34 44,34 49,34 54,34 59,34 64,34 69,33 74,33 79,33 84,33 89,33 94,33 99,33 0,6 0,71 1,83 2,95 4,05 5,13 6,21 7,28 8,35 9,41 10,47 11,53 12,58 13,64 14,69 15,73 16,78 17,82 18,87 19,91 20,95 21,99 23,03 24,07 25,11 26,14 27,18 28,21 29,25 30,28 31,32 41,62 46,76 51,89 57,02 62,14 67,25 72,36 77,46 82,57 87,67 92,76 97,86 102,95 180 - Apéndices 0,7 1,07 2,41 3,67 4,88 6,06 7,23 8,38 9,52 10,66 11,78 12,90 14,01 15,12 16,22 17,32 18,42 19,51 20,60 21,69 22,78 23,86 24,94 26,02 27,10 28,17 29,25 30,32 31,39 32,46 33,53 44,17 49,45 54,72 59,98 65,23 70,46 75,69 80,91 86,12 91,33 96,52 101,72 106,91 0,75 1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,22 11,39 12,55 13,70 14,85 15,98 17,12 18,25 19,37 20,49 21,61 22,72 23,83 24,94 26,04 27,14 28,24 29,34 30,44 31,53 32,62 33,71 34,80 45,62 50,99 56,33 61,67 66,98 72,29 77,58 82,86 88,13 93,39 98,65 103,90 109,14 Probabilidad acumulada 0,8 0,85 0,9 1,64 2,07 2,71 3,22 3,79 4,61 4,64 5,32 6,25 5,99 6,75 7,78 7,29 8,12 9,24 8,56 9,45 10,65 9,80 10,75 12,02 11,03 12,03 13,36 12,24 13,29 14,68 13,44 14,53 15,99 14,63 15,77 17,28 15,81 16,99 18,55 16,99 18,20 19,81 18,15 19,41 21,06 19,31 20,60 22,31 20,47 21,79 23,54 21,62 22,98 24,77 22,76 24,16 25,99 23,90 25,33 27,20 25,04 26,50 28,41 26,17 27,66 29,62 27,30 28,82 30,81 28,43 29,98 32,01 29,55 31,13 33,20 30,68 32,28 34,38 31,80 33,43 35,56 32,91 34,57 36,74 34,03 35,72 37,92 35,14 36,85 39,09 36,25 37,99 40,26 47,27 49,24 51,81 52,73 54,81 57,51 58,16 60,35 63,17 63,58 65,86 68,80 68,97 71,34 74,40 74,35 76,81 79,97 79,72 82,26 85,53 85,07 87,69 91,06 90,41 93,11 96,58 95,73 98,51 102,08 101,05 103,90 107,57 106,36 109,29 113,04 111,67 114,66 118,50 0,95 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,69 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 61,66 67,51 73,31 79,08 84,82 90,53 96,22 101,88 107,52 113,15 118,75 124,34 0,975 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,54 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,20 44,46 45,72 46,98 59,34 65,41 71,42 77,38 83,30 89,18 95,02 100,84 106,63 112,39 118,14 123,86 129,56 0,99 6,64 9,21 11,35 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 69,96 76,15 82,29 88,38 94,42 100,43 106,39 112,33 118,24 124,12 129,97 135,81 0,995 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,96 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 66,77 73,17 79,49 85,75 91,95 98,11 104,22 110,29 116,32 122,33 128,30 134,25 140,17 Introducción a la Inferencia Estadı́stica tabla de los valores del recorrido de una distribución tν por probabilidad acumulada según grados de libertad ν ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 1000 ∞ 0,55 0,1584 0,1421 0,1366 0,1338 0,1322 0,1311 0,1303 0,1297 0,1293 0,1289 0,1286 0,1283 0,1281 0,1280 0,1278 0,1277 0,1276 0,1274 0,1274 0,1273 0,1272 0,1271 0,1271 0,1270 0,1269 0,1269 0,1268 0,1268 0,1268 0,1267 0,1265 0,1263 0,1262 0,1261 0,1261 0,1260 0,1260 0,1257 0,1257 0,6 0,3249 0,2887 0,2767 0,2707 0,2672 0,2648 0,2632 0,2619 0,2610 0,2602 0,2596 0,2590 0,2586 0,2582 0,2579 0,2576 0,2573 0,2571 0,2569 0,2567 0,2566 0,2564 0,2563 0,2562 0,2561 0,2560 0,2559 0,2558 0,2557 0,2556 0,2550 0,2547 0,2545 0,2543 0,2542 0,2541 0,2540 0,2534 0,2533 0,7 0,7265 0,6172 0,5844 0,5686 0,5594 0,5534 0,5491 0,5459 0,5435 0,5415 0,5399 0,5386 0,5375 0,5366 0,5357 0,5350 0,5344 0,5338 0,5333 0,5329 0,5325 0,5321 0,5317 0,5314 0,5312 0,5309 0,5306 0,5304 0,5302 0,5300 0,5286 0,5278 0,5272 0,5268 0,5265 0,5263 0,5261 0,5246 0,5244 0,75 1,0000 0,8165 0,7649 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,6998 0,6974 0,6955 0,6938 0,6924 0,6912 0,6901 0,6892 0,6884 0,6876 0,6870 0,6864 0,6858 0,6853 0,6848 0,6844 0,6840 0,6837 0,6834 0,6830 0,6828 0,6807 0,6794 0,6786 0,6780 0,6776 0,6772 0,6770 0,6747 0,6745 0,8 1,3764 1,0607 0,9785 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 0,8791 0,8755 0,8726 0,8702 0,8681 0,8662 0,8647 0,8633 0,8620 0,8610 0,8600 0,8591 0,8583 0,8575 0,8569 0,8562 0,8557 0,8551 0,8546 0,8542 0,8538 0,8507 0,8489 0,8477 0,8468 0,8461 0,8456 0,8452 0,8420 0,8416 0,85 1,9626 1,3862 1,2498 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,0931 1,0877 1,0832 1,0795 1,0763 1,0735 1,0711 1,0690 1,0672 1,0655 1,0640 1,0627 1,0614 1,0603 1,0593 1,0584 1,0575 1,0567 1,0560 1,0553 1,0547 1,0500 1,0473 1,0455 1,0442 1,0432 1,0424 1,0418 1,0370 1,0364 Probabilidad acumulada 0,9 0,95 0,975 3,0777 6,3138 12,7062 1,8856 2,9200 4,3027 1,6377 2,3534 3,1824 1,5332 2,1318 2,7764 1,4759 2,0150 2,5706 1,4398 1,9432 2,4469 1,4149 1,8946 2,3646 1,3968 1,8595 2,3060 1,3830 1,8331 2,2622 1,3722 1,8125 2,2281 1,3634 1,7959 2,2010 1,3562 1,7823 2,1788 1,3502 1,7709 2,1604 1,3450 1,7613 2,1448 1,3406 1,7531 2,1314 1,3368 1,7459 2,1199 1,3334 1,7396 2,1098 1,3304 1,7341 2,1009 1,3277 1,7291 2,0930 1,3253 1,7247 2,0860 1,3232 1,7207 2,0796 1,3212 1,7171 2,0739 1,3195 1,7139 2,0687 1,3178 1,7109 2,0639 1,3163 1,7081 2,0595 1,3150 1,7056 2,0555 1,3137 1,7033 2,0518 1,3125 1,7011 2,0484 1,3114 1,6991 2,0452 1,3104 1,6973 2,0423 1,3031 1,6839 2,0211 1,2987 1,6759 2,0086 1,2958 1,6706 2,0003 1,2938 1,6669 1,9944 1,2922 1,6641 1,9901 1,2910 1,6620 1,9867 1,2901 1,6602 1,9840 1,2824 1,6464 1,9623 1,2816 1,6449 1,9600 0,98 15,8945 4,8487 3,4819 2,9985 2,7565 2,6122 2,5168 2,4490 2,3984 2,3593 2,3281 2,3027 2,2816 2,2638 2,2485 2,2354 2,2238 2,2137 2,2047 2,1967 2,1894 2,1829 2,1770 2,1715 2,1666 2,1620 2,1578 2,1539 2,1503 2,1470 2,1229 2,1087 2,0994 2,0927 2,0878 2,0839 2,0809 2,0564 2,0538 0,99 31,8205 6,9646 4,5407 3,7469 3,3649 3,1427 2,9980 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4233 2,4033 2,3901 2,3808 2,3739 2,3685 2,3642 2,3301 2,3264 0,995 63,6567 9,9248 5,8409 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7969 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7045 2,6778 2,6603 2,6479 2,6387 2,6316 2,6259 2,5808 2,5758 0,9975 127,3213 14,0890 7,4533 5,5976 4,7733 4,3168 4,0293 3,8325 3,6897 3,5814 3,4966 3,4284 3,3725 3,3257 3,2860 3,2520 3,2224 3,1966 3,1737 3,1534 3,1352 3,1188 3,1040 3,0905 3,0782 3,0669 3,0565 3,0469 3,0380 3,0298 2,9712 2,9370 2,9146 2,8987 2,8870 2,8779 2,8707 2,8133 2,8070 0,999 318,3088 22,3271 10,2145 7,1732 5,8934 5,2076 4,7853 4,5008 4,2968 4,1437 4,0247 3,9296 3,8520 3,7874 3,7328 3,6862 3,6458 3,6105 3,5794 3,5518 3,5272 3,5050 3,4850 3,4668 3,4502 3,4350 3,4210 3,4082 3,3962 3,3852 3,3069 3,2614 3,2317 3,2108 3,1953 3,1833 3,1737 3,0984 3,0902 Apéndices - 181 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 182 - Apéndices APÉNDICE C TABLAS DE CONTRASTES DE HIPÓTESIS 183 Introducción a la Inferencia Estadı́stica 184 - Apéndices APÉNDICE D INTERVALOS DE CONFIANZA D.1. Intervalos de Confianza 100(1 − α) % 185 Introducción a la Inferencia Estadı́stica 186 - Apéndices APÉNDICE E ESTADÍSTICOS DE ORDEN E.1. Resultados Generales Los siguientes son resultados generales sobre los estadı́sticos de orden de una MA de X ∼ FX . Teorema E.1.1. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX . Entonces, para k = 1, 2, . . . , n n X n FX(k) (x) = [FX (x)]j [1 − FX (x)]n−j . j j=k Demostración. Para un valor de x fijo, defina Zi = I[Xi ≤x] . Por lo tanto, la variable aleatoria n X Z= Zi cuenta el número de Xi que son menores o iguales que x. i=1 La probabilidad de que Xi ≤ x es FX (x) ∀i. Por lo cual para i = 1, . . . , n, Zi ∼Bernoulli(FX (x)) y además son independientes entre sı́. Entonces Z ∼Binomial(n, FX (x)). Note que el suceso {X(k) ≤ x} se puede escribir como la unión de los siguiente sucesos disjuntos: X(k) ≤ x y X(k+1) > x. Por lo tanto las únicas observaciones menores que x son las k más chicas, lo que equivale a que Z = k. X(k+1) ≤ x y X(k+2) > x. Dado que X(k) ≤ X(k+1) , tenemos que X(k) ≤ x. Por lo tanto, las k + 1 observaciones más chicas son las únicas menores o iguales que x, lo que equivale a que Z = k + 1. 187 Introducción a la Inferencia Estadı́stica Extendemos el razonamiento para las estadı́sticas de orden k + 3 en adelante hasta llegar al último caso donde X(n) ≤ x. Dado que X(k) ≤ X(n) , tenemos que X(k) ≤ x. En este caso todas las observaciones son menores o iguales que x, lo que equivale a que Z = n. En consecuencia el evento {X(k) ≤ x} es equivalente al evento {Z ≥ k}. Por lo cual, FX(k) (x) = P(X(k) n X n ≤ x) = P(Z ≥ k) = [FX (x)]j [1 − FX (x)]n−j . j j=k Ejemplo E.1.1. Si verificamos los resultados hallados en las ecuaciones (2.2) y (2.3), tenemos que FX(n) (x) = n X n j=n j [FX (x)]j [1 − FX (x)]n−j = [FX (x)]n y n X n FX(1) (x) = [FX (x)]j [1 − FX (x)]n−j = 1 − [1 − FX (x)]n j j=1 En el caso que X sea una variable aleatoria absolutamente continua, podemos encontrar la función de densidad de X(i) derivando su función de distribución. Una fórmula general se puede obtener usando el teorema siguiente. Teorema E.1.2. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX una variable aleatoria absolutamente continua. Entonces, para k = 1, 2, . . . , n fX(k) (x) = n! [FX (x)]k−1 [1 − FX (x)]n−k fX (x). (k − 1)!(n − k)! Demostración. De aplicar la definición de derivada y propiedades de la función de distribución FX(k) (x + ∆x) − FX(k) (x) P(x < X(k) ≤ x + ∆x) = lı́m . ∆x→0 ∆x→0 ∆x ∆x fX(k) (x) = lı́m 188 - Apéndices Introducción a la Inferencia Estadı́stica Dado que ∆x se puede elegir tan chico como queramos, lo tomamos lo suficientemente pequeño para que solo la k-ésima estadı́stica de orden ocurra en el intervalo (x, x+∆x). Con esto, quedarán k − 1 estadı́sticas de orden por debajo de x y n − k estadı́sticas de orden por encima de x + ∆x. Entonces, P(x < X(k) ≤ x + ∆x) = P(k − 1 obs ≤ x; 1 obs ∈ (x, x + ∆x]; n − k obs > x + ∆x) = P(Z1 = k − 1, Z2 = 1, Z3 = n − k). Donde Z1 = número de observaciones menores o iguales que x, Z2 = número de observaciones en (x, x + ∆x) y Z3 = número de observaciones mayores que x + ∆x. Note lo siguiente: Z1 + Z2 + Z3 = n; Zj ∈ {0, 1, . . . , n}, j = 1, 2, 3. Al trabajar con una MA, que Xi caiga en alguna de las tres clases: “por debajo de x”, “en (x, x + ∆x]” o “por encima de x + ∆x” es independiente de lo que pase con cualquier otra observación Xj , i, j = 1, 2, . . . , n, i 6= j. Al ser las observaciones idénticamente distribuidas, cada observación cae en cada clase con probabilidad FX (x), FX (x + ∆x) − FX (x) y 1 − FX (x + ∆ x) respectivamente. Por lo tanto, (Z1 , Z2 , Z3 ) ∼ Multinomial(n, FX (x), FX (x + ∆x) − FX (x), 1 − FX (x + ∆ x)). y P(Z1 = k−1, Z2 = 1, Z3 = n−k) = n! (FX (x))k−1 (FX (x+∆x)−FX (x)) (1−FX (x+∆x))n−k (k − 1)!1!(n − k)! Ahora, fX(k) (x) = lı́m n! (FX (x))k−1 (k−1)!(n−k)! (FX (x + ∆x) − FX (x)) (1 − FX (x + ∆x))n−k ∆x n! (F (x + ∆x) − FX (x)) (1 − FX (x + ∆x))n−k X = (FX (x))k−1 lı́m ∆x→0 (k − 1)!(n − k)! ∆x : fX (x) FX (x) :n−k n! (F (x + ∆x) − F (x)) X X = (FX (x))k−1 lı́m (1 − F (x + ∆x)) X ∆x ∆x→0 (k − 1)!(n − k)! ∆x→0 = n! (FX (x))k−1 (1 − FX (x))n−k fX (x). (k − 1)!(n − k)! Ejemplo E.1.2. Si k = n tenemos que fX(n) (x) = n! (FX (x))n−1 (1 − FX (x))n−n fX (x) = n(FX (x))n−1 fX (x) (n − 1)!(n − n)! Apéndices - 189 Introducción a la Inferencia Estadı́stica y si k = 1 n! (FX (x))1−1 (1 − FX (x))n−1 fX (x) = n(1 − FX (x))n−1 fX (x). (1 − 1)!(n − 1)! fX(1) (x) = E.2. Distribuciones conjuntas Con el mismo razonamiento que en la demostración del teorema anterior se pueden deducir las distribuciones conjuntas de dos o más estadı́sticas de orden. Teorema E.2.1. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. Para k ∈ {1, 2, . . . , n}, j ∈ {1, 2, . . . , n}, k < j, fX(k) ,X(j) (x, y) = n! (FX (x))(k−1) (FX (y)−FX (x))(j−k−1) (1−FX (y))n−j fX (x)fX (y). (k − 1)!(j − k − 1)!(n − j)! Ejemplo E.2.1. Para k = 1 y j = n tenemos que fX(1) ,X(n) (x, y) = n(n − 1)(FX (y) − FX (x))(n−2) fX (x)fX (y)I[x<y] . (E.1) Teorema E.2.2. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. Sean X(1) ≤ X(2) ≤ . . . ≤ X(n) las correspondientes estadı́sticas de orden. Entonces, fX(1) ,...,X(n) (x(1) , . . . , x(n) ) = n! n Y fX (x(i) )I[x(1) <...<x(n) ] . i=1 Ejemplo E.2.2. Sea X1 , X2 , X3 una MA de X ∼Uniforme(0,1). Entonces: fX(1) ,X(2) ,X(3) (x, y, z) = 6I[0<x<y<z<1] . Por lo tanto, Z 1 fX(1) ,X(2) (x, y) = 6 dz = 6(1 − y)I[0<x<y<1] . (E.2) 6 dy = 6(z − x)I[0<x<z<1] . (E.3) 6 dx = 6yI[0<y<z<1] . (E.4) y Z z fX(1) ,X(3) (x, z) = x Z fX(2) ,X(3) (y, z) = y 0 Usando (E.2) hallamos que Z fX(1) (x) = x 190 - Apéndices 1 6(1 − y) dy = 6(1 − x)2 I[0<x<1] Introducción a la Inferencia Estadı́stica y que y Z 6(1 − y) dx = 6y(1 − y)I[0<y<1] . fX(2) (y) = 0 De manera similar, usando (E.3) tenemos que Z 1 fX(1) (x) = 6(z − x) dz = 6(1 − x)2 I[0<x<1] x y que z Z 6(z − x) dx = 3z 2 I[0<z<1] . fX(3) (z) = 0 Integrando en (E.4) devuelve Z 1 6y dz = 6y(1 − y)I[0<y<1] fX(2) (y) = y y Z fX(3) (z) = z 6y dy = 3z 2 I[0<z<1] . 0 E.3. Funciones de los estadı́sticos de orden La distribución de funciones de las estadı́sticas de orden se consigue utilizando teoremas de transformaciones de variables aleatorias. A modo de ejemplo, encontremos la distribución del rango muestral definido como Rn = X(n) − X(1) . (E.5) El rango contiene información acerca de la dispersión de la distribución de X. Para hallar su distribución usamos, fX(1) ,X(n) (x, y) dada por (E.1) y hacemos uso de una variable aleatoria auxiliar U = X(1) para completar la transformación y encontrar una expresión para fRn ,U (r, u), la cual después integraremos con respecto a u para obtener la distribución marginal de fRn (r). Teorema E.3.1. Sea x1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua. La distribución del rango, definido en (E.5), está dada por Z ∞ fRn (r) = n(n − 1) (FX (u + r) − F (u))n−2 fX (u + r)fX (u) du −∞ para r > 0. Ejemplo E.3.1. Sea X1 , . . . , Xn una MA de X ∼Uniforme(0,1). Entonces: Z 1−r fRn (r) = n(n − 1) (u + r − u)n−2 du = n(n − 1)rn−2 (1 − r)I[0<r<1] 0 Apéndices - 191 Introducción a la Inferencia Estadı́stica Ejemplo E.3.2. Sea X1 , . . . , Xn una MA de X ∼Exp(1). Deseamos hallar fX(1) ,X(n) (x, y) y fRn (r). 1 - Para 0 < x < y, n−2 −x −y fX(1) ,X(n) (x, y) = n(n − 1) 1 − e−y − (1 − e−x ) e e n−2 −x −y e e . = n(n − 1) e−x − e−y 2 - Usando el teorema E.3.1 tenemos que para r > 0 Z ∞ n−2 −(2u+r) e du fRn (r) = n(n − 1) e−u − e−(u+r) 0 Z ∞ n−2 −(2u+r) e du e−u(n−2) 1 − e−r = n(n − 1) 0 Z ∞ n−2 −r e−nu du = n(n − 1) 1 − e−r e 0 −r n−2 −r = (n − 1) 1 − e e 192 - Apéndices APÉNDICE F COLECCIONES DE FAMILIAS Siempre respetando el concepto de familia, podemos también definir colecciones más grandes donde agruparemos familias de distribuciones que compartan las mismas propiedades, estructura funcional, etc. Los dos casos que mencionaremos son la familia exponencial y la familia de posiciónescala. F.1. Familia Exponencial Una familia de distribuciones de gran importancia es la llamada familia exponencial. Una familia exponencial posee propiedades algebraicas deseables y un gran número de propiedades que la hacen de gran importancia para el análisis estadı́stico. Algunas de estas propiedades, salvo en casos excepcionales, son únicas de la familia exponencial. Definición F.1.1. Una familia de distribuciones se dice que es una familia exponencial de k parámetros si su función de densidad o cuantı́a se puede escribir de la siguiente manera ( k ) X fX (x|θ) = h(x)c(θ) exp wi (θ)ti (x) θ ∈ Θ ⊂ Rk . (F.1) i=1 Donde h y ti (x), i = 1, . . . , k, son funciones que dependen solamente de x; c(θ) y wi (θ), i = 1, . . . , k, son funciones que dependen solamente de θ. Observación F.1.1. La parametrización no es única dado que al multiplicar y dividir por una constante obtenemos una nueva parametrización. Por ejemplo, wi (θ)ti (x) = wi∗ (θ)t∗i (x) donde wi∗ (θ) = 193 wi (θ) y t∗i (x) = ati (x), a ∈ R a Introducción a la Inferencia Estadı́stica Observación F.1.2. Cuando el recorrido de la variable aleatoria depende del parámetro no existe la descomposición especificada en la ecuación F.1. Por lo cual, estas familias de distribuciones no son familias exponenciales. En el caso de que el recorrido no dependa de θ no es necesario explicitarlo y se asumirá de manera tácita que es parte de h(x). Ejemplo F.1.1. X ∼ Binomial(n, θ), asumimos n conocido. Θ = (0, 1). x n x n θ n−x fX (x|θ) = θ (1 − θ) Ix∈{0,1,...,n} = (1 − θ)n x x 1−θ n θ n = (1 − θ) exp x log . x 1−θ n θ Entonces, h(x) = , c(θ) = (1 − θ)n , w(θ) = log y t(x) = x. Por lo cual, la x 1−θ familia binomial es una familia exponencial de un parámetro. n Si se explicita el recorrido de la variable aleatoria X, h(x) = I[x∈{0,1,...,n}] x Ejemplo F.1.2. X ∼ Normal(µ, σ 2 ), θ = (µ, σ 2 ) desconocida. 1 1 2 fx (x|θ) = √ exp − 2 (x − µ) 2σ 2πσ 2 1 1 2 2 =√ exp − 2 (x − 2xµ + µ ) 2σ 2πσ 2 1 µ2 µ 1 2 =√ exp − 2 exp − 2 x + 2 x 2σ 2σ σ 2πσ 2 µ2 1 En este caso k = 2. Tomamos, h(x) = 1, c(θ) = √ exp − 2 , w1 (θ) = − 2 , 2σ 2σ 2πσ 2 µ 2 w2 (θ) = 2 , t1 (x) = x y t2 (x) = x. Por lo cual la familia de distribuciones normaσ les con media y varianza desconocida es una familia exponencial de dos parámetros. 1 Ejemplo F.1.3. X ∼ fX (x|θ) donde con θ = (γ, λ) ∈ R+2 λ γx γx fX (x|θ) = λe exp − (e − 1) I[x>0] γ Si γ es conocida, θ = λ λ h(x) = eγx I[x>0] , c(λ) = λe γ , w(λ) = −λ y t(x) = eγx . γ Por lo cual, la familia de distribuciones que tienen a fX como densidad común es una familia exponencial de un parámetro. 194 - Apéndices Introducción a la Inferencia Estadı́stica λ γx e no puede ser factorizado de la forma w(θ)t(x). Por lo γ cual, la familia de distribuciones que tienen a fX como densidad común no es una familia exponencial. Si γ es desconocida, F.1.1. Forma canónica Para una familia exponencial se puede utilizar la siguiente reparametrización alternativa ( k ) X fX (x|η) = h(x) exp ηi ti (x) − a(η) . (F.2) i=1 Note que la relación entre esta representación y la dada por (F.1) es: ηi = wi (θ), i = 1, . . . , k, η = (η1 , . . . , ηk ) y a(η) = − log(c(θ))1 . A esta representación se le llama la forma canónica o natural y η es el parámetro natural de la distribución. Observación F.1.3. Note que si usamos la representación (F.2) de fX , tenemos que ( k ) Z ∞ X h(x) exp ηi ti (x) − a(η) dx = 1 −∞ i=1 Por lo cual, ea(η) = Z ∞ h(x) exp −∞ ( k X ) ηi ti (x) dx. i=1 Lo que nos permite afirmar que el conjunto H = {η : a(η) < ∞} no es vacı́o. Definición F.1.2. Al conjunto H = {η = (η1 , . . . , ηk ) : a(η) < ∞} se le llama espacio paramétrico natural. Si H es un conjunto abierto de Rk diremos que la familia exponencial es regular. Cuando una familia exponencial no es regular se dice que es curva. Ejemplo F.1.4. (Continuación del ejemplo F.1.1) n θ n θ n fX (x|θ) = (1 − θ) exp x log = exp x log + n log(1 − θ) x 1−θ x 1−θ η = w(θ) = log θ eη θ ⇒ eη = ⇒ θ= . 1−θ 1−θ 1 + eη Con lo cual, a(η) = −n log(1 − θ) = n log(eη + 1). 1 A lo largo de todas estas notas, log x representa el logaritmo neperiano de x. Apéndices - 195 Introducción a la Inferencia Estadı́stica Note que eη + 1 > 0 ∀η ∈ R, por lo tanto a(η) < ∞ ⇒ H = R. Por lo cual la familia Binomial es una familia exponencial regular. Ejemplo F.1.5. (Continuación del ejemplo F.1.3, con γ conocido) Bajo la nueva reparametrización, λ eγx + log λ + fx (x|θ) = e I[x>0] exp −λ γ γ λ η η = −λ, a(η) = − log λ + = − log(−η) − γ γ η Note que, γ > 0 implica que < ∞ ∀η y que ∀η ∈ R− , log(−η) < ∞. Lo que implica γ que H = R− . γx Teorema F.1.1. Sea una familia exponencial regular de un parámetro. Entonces, d Eη (t(X)) = a(η) dη d2 Varη (t(X)) = 2 a(η). dη y Demostración. Observe que Z E(t(X)) = Z t(x)fX~ (x|θ)dx = Rec(X) t(x)h(x)eηt(x)−a(η) dx. Rec(X) y que d d a(η) = log dη dη Z h(x)e ηt(x) 1 h(x)eηt(x) dx Z dx = Rec(X) = R Rec(X) R Z 1 h(x)eηt(x) dx ∂ h(x)eηt(x) dx ∂η Rec(X) Rec(X) t(x)h(x)eηt(x) dx = Rec(X) Z t(x)h(x)eηt(x)−a(η) dx. Rec(X) Para calcular la varianza, defina Ψ(η) = ea(η) y observe que 0 2 d2 Ψ00 (η) Ψ (η) log Ψ(η) = − . 2 dη Ψ(η) Ψ(η) Intercambiando el signo de derivada con el de integral, tenemos que Z Z Ψ00 (η) 00 2 ηt(x) ~ Ψ (η) = t (x)h(x)e dx =⇒ = t2 (x)h(x)eηt(x)−a(η) dx = E(t2 (X)). Ψ(η) Rec(X) Rec(X) Por lo cual, d2 ~ − E(t(X))2 = Var(t(X)). a(η) = E(t2 (X)) dη 2 196 - Apéndices Introducción a la Inferencia Estadı́stica Ejemplo F.1.6. (Continuación del ejemplo F.1.4). a(η) = n log(eη + 1), t(x) = x ⇒ E(t(X)) = E(X) = Var(X) = d eη a(η) = n = nθ. dη 1 + eη eη (eη + 1) − eη eη 1 eη eη d2 a(η) = n = nθ(1−θ). = n = n 2 η 2 η 2 η η dη (e + 1) (e + 1) (e + 1) (e + 1) x x2 Ejemplo F.1.7. Para θ > 0, fX (x|θ) = 2 exp − 2 I[x>0] . θ 2θ 1 fX (x|θ) = xI[x>0] exp − 2 x2 − log θ2 2θ ⇒ η=− 1 , t(x) = x2 y a(η) = − log(−2η). 2θ2 Por lo tanto, H = R− , lo que implica que la familia de distribuciones que tienen como densidad común a fX es una familia exponencial regular. En consecuencia, E(X 2 ) = d 2 1 a(η) = − = − = 2θ2 dη 2η η Var(X 2 ) = 1 d2 a(η) = 2 = 4θ4 . 2 dη η F.2. Familias de posición y escala Otras familias de distribuciones que juegan un papel importante en inferencia son las familias de posición y escala. Definición F.2.1. Una variable aleatoria X se dice que pertenece a una familia de posición y escala si su función de distribución es una función solo de (x − a)/b, x−a FX (x|a, b) = F a ∈ R, b > 0. b donde F es una función de distribución libre de todo parámetro. Al parámetro (a, b) se le llama el parámetro de posición (a) y escala (b). En el caso de que b = 1 estamos frente a una subfamilia, la familia de posición de parámetro a. En el caso de que a = 0, estamos frente a otra subfamilia, la familia de escala de parámetro b. Apéndices - 197 Introducción a la Inferencia Estadı́stica Definición F.2.2. Si la variable aleatoria X pertenece a una familia de posición y escala, a la X −a variable aletoria Y = se le llama la variable reducida. b Observación F.2.1. La variable reducida tiene a = 0 y b = 1. A su función de distribución FY (y) se le llama la función de distribución reducida. Observación F.2.2. El parámetro de posición es una medida de tendencia central (esperanza, mediana, modo) de una distribución o un parámetro de umbral. Ejemplo F.2.1. Distribución N(a, b) ( 2 ) 1 1 x−a fX (x|a, b) = √ a ∈ R, b > 0. exp − 2 b 2πb a es la esperanza, la mediana y el modo. Ejemplo F.2.2. Distribución Cauchy(a, b) ( fX (x|a, b) = " πb 1 + x−a b 2 #)−1 a ∈ R, b > 0 a es la mediana y el modo. En este caso no existe la esperanza. Ejemplo F.2.3. ( " fX (x|a, b) = exp πb 1 + x−a b 2 #) a ∈ R, b > 0 a es el modo. Ejemplo F.2.4. 1 fX (x|a, b) = I[a≤x≤a+b] a ∈ R, b > 0 b a es el umbral inferior de la distribución. 198 - Apéndices Introducción a la Inferencia Estadı́stica Ejemplo F.2.5. 1 a−x fX (x|a, b) = exp − x ≤ a ∈ R, b > 0 b b a es el umbral superior de la distribución. En todos los ejemplos anteriores, b es el parámetro de escala. Es el responsable por la dispersión de la variable aleatoria X. b puede ser 1 - el desvı́o tı́pico. Ejemplos (F.2.1) y (F.2.5). 2 - Proporcional al desvı́o. Ejemplo (F.2.3). En este ejemplo, 2b es el recorrido intercuartı́lico. 3 - La amplitud del recorrido, el rango. Ejemplo (F.2.4). Proposición F.2.1. Sea X ∼ fX (x|a, b) una familia de posición y escala absolutamente continua de parámetro (a, b). Sea Y la forma reducida de X, entonces 1 x−a fX (x) = fY . b b Referencia Bibliográfica Este capı́tulo está basado en los siguientes textos: Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press. Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker. Olive, D. (2010) Statistial theory and inference. Springer. Apéndices - 199 Introducción a la Inferencia Estadı́stica esta página fue intencionalmente dejada en blanco 200 - Apéndices

Inferencia Estadística: Introducción y Métodos

Related documents

Products

Support

Inferencia Estadística: Introducción y Métodos

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib