Notas Curso de Estadística (Parte I) Maikol Solís y Luis A. Barboza Actualizado el 25 November, 2021 2 Índice general 1. Introducción 2. Inferencia estadística 2.1. Ejemplo . . . . . . . . . . 2.2. Modelo estadístico . . . . 2.2.1. Tipos de inferencia 2.3. Estadístico . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Densidades previas conjugadas y estimadores 3.1. Distribución previa (distribución a priori) . . . 3.2. Densidad posterior . . . . . . . . . . . . . . . 3.2.1. Proceso de modelación. . . . . . . . . . 3.3. Función de verosimilitud . . . . . . . . . . . . 3.4. Familias conjugadas . . . . . . . . . . . . . . . 3.5. Densidades previas impropias . . . . . . . . . 3.6. Funciones de pérdida . . . . . . . . . . . . . . 3.6.1. Función de pérdida cuadrática . . . . . 3.6.2. Función de pérdida absoluta . . . . . . 3.6.3. Otras funciones de pérdida . . . . . . . 3.7. Efecto de muestras grandes . . . . . . . . . . 3.8. Consistencia . . . . . . . . . . . . . . . . . . . 3.9. Laboratorio . . . . . . . . . . . . . . . . . . . 3.9.1. Distribución previa . . . . . . . . . . . 3.9.2. Distribución conjunta . . . . . . . . . . 3.9.3. Distribución posterior . . . . . . . . . 3.9.4. Agregando nuevos datos . . . . . . . . 3.9.5. Familias conjugadas normales . . . . . 3 . . . . . . . . de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 13 13 . . . . . . . . . . . . . . . . . . 15 15 17 19 20 22 25 26 27 28 28 28 29 30 30 31 32 33 35 4 ÍNDICE GENERAL 3.9.6. Funciones de pérdida . . . . . . . . . . . . . . . . . . . 41 3.9.7. Caso concreto . . . . . . . . . . . . . . . . . . . . . . . 42 4. Estimación por máxima verosimilitud 4.1. Propiedades del MLE . . . . . . . . . 4.1.1. Propiedad de invarianza . . . 4.1.2. Consistencia . . . . . . . . . . 4.2. Temas adicionales . . . . . . . . . . . 4.2.1. Método de los momentos . . . 4.2.2. Método Delta . . . . . . . . . 4.3. Laboratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 54 54 55 56 56 59 61 5. Estadísticos Suficientes y Criterio de Factorización 5.1. Estadísticos suficientes . . . . . . . . . . . . . . . . . 5.2. Teorema de Factorización de Fisher . . . . . . . . . . 5.3. Estadístico suficiente multivariado. . . . . . . . . . . 5.4. Estadísticos minimales . . . . . . . . . . . . . . . . . 5.5. Mejorando estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 66 69 70 72 6. Distribución muestral de un estadístico 6.1. Distribución muestral . . . . . . . . . . . 6.2. Distribución χ2 . . . . . . . . . . . . . . 6.2.1. Ilustración de la distribución χ2 . 6.3. Distribución t . . . . . . . . . . . . . . . 6.3.1. Ilustración de distribución t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 80 83 84 86 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Intervalos de confianza 7.1. Intervalos de confianza para la media de una distribución 7.2. Intervalos de confianza abiertos . . . . . . . . . . . . . 7.3. Intervalos de confianza en otros casos . . . . . . . . . . 7.3.1. Intervalos de confianza aproximados. . . . . . . 7.3.2. Transformaciones estabilizadoras de la varianza 8. Estimación Bayesiana bajo normalidad 8.1. Precisión de una distribución normal . . . . 8.2. Distribución marginal de µ . . . . . . . . . . 8.3. Intervalos de credibilidad. . . . . . . . . . . 8.4. Efecto de previas no informativas (Opcional) . . . . . . . . . . . . . . . . . . . . . . . . 89 normal 89 . . . . 94 . . . . 95 . . . . 98 . . . . 100 . . . . . . . . . . . . 103 . 103 . 106 . 114 . 116 5 ÍNDICE GENERAL 9. Estimación insesgada 9.1. Estimadores insesgados . . . . . . . . 9.2. Estimación insesgada de la varianza . 9.3. Información de Fisher . . . . . . . . . 9.4. Desigualdad de Cramér-Rao . . . . . 9.5. Estimadores eficientes . . . . . . . . 9.6. Comportamiento asintótico del MLE . . . . . . 119 . 119 . 122 . 126 . 133 . 140 . 141 10.Pruebas de hipótesis 10.1. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . 10.2. Regiones críticas y estadísticos de prueba . . . . . . . . . . . 10.3. Función de potencia y tipos de error . . . . . . . . . . . . . 10.4. Valor p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5. Dualidad entre pruebas de hipótesis y regiones de confianza . 10.5.1. Dualidad en pruebas unilaterales . . . . . . . . . . . 10.5.2. Pruebas de cociente de verosimilitud (LRT) . . . . . 145 . 145 . 149 . 153 . 167 . 169 . 172 . 174 11.Pruebas con hipótesis simples 11.1. Hipótesis simples . . . . . . . . . 11.2. Criterio de Neyman-Pearson . . . 11.3. Pruebas insesgadas . . . . . . . . 11.4. Prueba t . . . . . . . . . . . . . . 11.4.1. Propiedades de las pruebas 11.4.2. Prueba t pareada . . . . . 11.4.3. Pruebas t de dos colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 . 179 . 184 . 187 . 191 . 193 . 196 . 197 12.Prueba de comparación de medias en 2 poblaciones 12.1. Comparación de medias normales . . . . . . . . . . . . 12.2. Prueba t de dos muestras . . . . . . . . . . . . . . . . . 12.2.1. Prueba de 2 colas . . . . . . . . . . . . . . . . . 12.3. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . 12.3.1. Prueba de 2 colas (prueba de homocedasticidad) . . . . . . . . . . . . . . . . . . . . . . . . t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 199 199 202 203 208 13.Bondad de ajuste 211 13.1. Prueba χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 13.2. Pruebas χ2 con hipótesis parametrizadas . . . . . . . . . . . . 219 14.Tablas de contingencia 229 6 ÍNDICE GENERAL 14.1. Prueba de independencia . . . . . . . . . . . . 14.2. Prueba de homogeneidad . . . . . . . . . . . . 14.3. Similitudes entre las pruebas de independencia 14.4. Comparación de dos o más proporciones . . . 14.5. Paradoja de Simpson . . . . . . . . . . . . . . 14.5.1. ¿Cómo evitamos esta paradoja? . . . . . . y . . . . . . . . . . . 230 . . . . . . . . 233 homogeneidad234 . . . . . . . . 235 . . . . . . . . 236 . . . . . . . . 238 15.Pruebas de Kolmogorov-Smirnov 241 15.1. Prueba de Kolmogorov-Smirnov para una muestra . . . . . . . 245 15.2. Prueba de 2 muestras . . . . . . . . . . . . . . . . . . . . . . . 248 16.Pruebas no-paramétricas: pruebas de signo y rango 251 16.1. Prueba de signo . . . . . . . . . . . . . . . . . . . . . . . . . . 251 16.2. Prueba de Wilconxon-Mann-Whitney . . . . . . . . . . . . . . 256 Capítulo 1 Introducción 7 8 CAPÍTULO 1. INTRODUCCIÓN Capítulo 2 Inferencia estadística Definición: Hacer afirmaciones probabilísticas respecto a (acerca de) cantidades desconocidas. 2.1. Ejemplo Pregunta: ¿Será posible modelar el tiempo de fallo de un componente electrónico con fines de predicción? Solución: Podemos responder esta pregunta dividiéndola en dos partes: 1. Modelo probabilístico: Asuma que el tiempo de vida del componente es exponencial (en años). 2. Parámetro: Sea θ > 0 la tasa de fallo (unidades: 1/Tiempo(años)). Es decir, tenemos un modelo (exponencial) y buscaremos hacer una escogencia del parámetro θ de manera que el modelo refleje la realidad de la información disponible. Nota: ¿Cómo obtendríamos la información disponible? Muestra: Secuencia (sucesión) de variables aleatorias independientes X1 , X2 , . . . , Xn , . . .. i.i.d En nuestro ejemplo, tomemos una muestra X1 , X2 , . . . , Xn , . . . ∼ Exp(θ). Objetivos 9 10 CAPÍTULO 2. INFERENCIA ESTADÍSTICA Estimar Xm , Xm+1 , . . . si se observa X1 , . . . , Xm (Predicción). Estimar θ usando la muestra observada X1 , . . . , Xm (Estimación). Datos: Realizaciones de variables aleatorias X1 , . . . , Xm pertenecientes a la muestra. Estimación de θ Asumiendo que θ es una constante (enfoque frecuentista) y dado que E(X) = con X ∼ Exp(θ), por la Ley de Grandes Números se tiene que 1 θ 1 1X P Xi −−−→ E(X) = n→∞ n i=1 θ | {z X̄n } Por propiedades de convergencia en probabilidad, un posible candidato para 1 estimar θ es . X̄n Bajo un enfoque bayesiano, θ no necesariamente es determinístico (incertidumbre adicional debido a factores externos, por la naturaleza propia del fenómeno). Asumimos un modelo probabilístico para θ (tasa siempre positiva): θ ∼ Γ(α0 , β0 ) Supongamos que antes de observar los datos la tasa esperada es 0.5/año (según estudios previos). Como E(θ) = 1 α0 = . 2 β0 entonces un primer intento para definir la distribución de θ sería definir por ejemplo α0 = 1 y de β0 = 2. 2.2. Modelo estadístico Un modelo estadístico es una estructura compuesta por los siguientes factores: 11 2.2. MODELO ESTADÍSTICO 1. Variables aleatorias observables / hipotéticamente observables: X t |{z} Observable = Y t |{z} Hip. observable + |{z} Ruido En otras palabras Yt sería la el dato “verdadero” que pasó exactamente en el fenómeno analizado. Esta observación es afectada por muchos factores no observables (por ejemplo: errores de medición, cambio de las condiciones de la economía, etc.). La variable captura toda esa aleatoriedad que no es parte del fénomeno asumiendo una relación aditiva con respecto a la variable hipotética. Claramente ni Yt ni se pueden observar directamente y la mejor representación de nuestro fenómeno en este caso sería a partir de Xt . Otro caso de una variable hipóteticamente observable es aquella que se define usando un número infinito de observaciones, por ejemplo: Yt = ∞ X Xt i=1 y Xt es observable. 2. Distribución conjunta de una muestra de variables observables. Es decir cuál es el supuesto general que estoy usando para describir mis observaciones. La distribución debe estar indexada por el conjunto de parámetros de interés. 3. Parámetros que son hipotéticamente observables (desconocidos). Permiten calibrar la distribución conjunta de modo que el modelo estadístico se ajuste a los datos. 4. (Opcional) Distribución conjunta de los parámetros. Caso bayesiano: los parámetros dejan de ser determinísticos y se convierten en variables aleatorias. En este caso la distribución conjunta de la muestra es condicional en θ. Inferencia estadística: procedimiento que genera afirmaciones probabilísticas de un modelo estadístico. 12 CAPÍTULO 2. INFERENCIA ESTADÍSTICA Ejemplos de inferencias estadísticas: 1. Estimar θ a través de 1 . X̄n 2. ¿Qué tan probable es que el promedio de las siguientes 10 observaciones sea al menos 2? X 1 m+10 Xi > 2 10 i=m+1 3. ¿Qué tan cierto es que θ ≤ 0,4 después de observar la muestra? Parámetro: característica (s) que determinan la distribución conjunta de las variables aleatorias de interés. Especifica el comportamiento general de cualquier muestra o subconjunto de la población (conjunto total de posibles muestras). Espacio paramétrico Ω (espacio de parámetros, puede ser de probabilidad) Ejemplos: θ > 0 (ejemplo anterior); Ω = (0, +∞). X1 , . . . , Xn ∼ N (µ, σ 2 ), (µ, σ 2 ) parámetros; Ω = R × [0, +∞). Ejemplo: Clientes de un banco ¿Qué tan probable es que un cliente no pague su crédito hoy? Datos: Xi = 1 el cliente #i no pagó . 0 el cliente #i pagó Muestra: X1 , . . . , X10000 (realización al día de hoy). i.i.d Modelos: X1 , . . . , X10000 ∼ Ber(p) con p ∈ [0, 1]. Parámetro: p, Ω = [0, 1]. Inferencias: • Estimar p (probabilidad de impago). • Suponga que L(Xi ) es el saldo en la cuenta del cliente #i. P 10000 X i=1 ! L(Xi ) > u = Probabilidad de ruina 2.3. ESTADÍSTICO 2.2.1. 13 Tipos de inferencia Predicción: predicción de variables aleatorias no observadas o bien la predicción es sobre cantidades fijas que indexan el modelo estadístico (parámetros). A este último caso se le llama también estimación. Problemas de decisión estadística: Después de que los datos se han analizado, se tiene que tomar una(s) decisión(es) en función de los parámetros del modelo. Por ejemplo una vez que se observa la muestra de pago de clientes se puede decidir si θ > 1/2 con un cierto nivel de confianza. A este caso se le llama Prueba de hipótesis. Diseño experimental: construcción de estructuras de recolección de dato. A estas estructuras se les llama experimentos. El diseño del experimento depende de la pregunta de investigación y del tipo de modelo que se le quiere aplicar a los datos una vez estos estén disponibles. 2.3. Estadístico Definición. Si X1 , . . . , Xn es una muestra observable. Sea r una función real de n variables: T = r(X1 , . . . , Xn ) es un estadístico. Nota: T también es aleatorio y representa una síntesis o resumen de la información disponible. Ejemplos: X 1 10000 # no pagan p̂ = Xi = = r(X1 , . . . , X10000 ) 10000 i=1 Total Lm = máx L(Xi ) (saldo del cliente más riesgoso). Rm = máx L(Xi ) − mı́n L(Xi ), 1 ≤ i ≤ 10000 14 CAPÍTULO 2. INFERENCIA ESTADÍSTICA Capítulo 3 Densidades previas conjugadas y estimadores de Bayes 3.1. Distribución previa (distribución a priori) Suponga que tenemos un modelo estadístico con parámetro θ. Si θ es una variable aleatoria entonces su densidad (antes de observar cualquier muestra) se llama densidad previa: π. α β Ejemplo: X1 , . . . , Xn ∼ Exp(θ) y θ es aleatorio tal que θ ∼ Γ(1, 2) entonces π(θ) = 1 α α−1 βθ β θ e = 2e−2θ , Γ(α) θ>0 Ejemplo: Sea θ la probabilidad de obtener cara al tirar una moneda. Supongamos que tenemos dos tipos de moneda: Moneda justa: θ = 1 con probabilidad previa 0,8 (π( 21 ) = 0,8). 2 Moneda con solo una cara: θ = 1 con probabilidad previa 0,2 (π(1) = 0,2). 15 16CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES En este ejemplo si tuviéramos 100 monedas con probabilidad previa π entonces se esperaría que 20 tuvieran solo una cara y las 80 restantes serían monedas justas. Notas: π está definida en Ω (espacio paramétrico). π es definida sin conocimiento de la muestra. Ejemplo (Componentes eléctricos) Supoga que se quiere conocer el tiempo de vida de cierto componente eléctrico. Sabemos que este tiempo se puede modelar con una distribución exponencial con parámetro θ desconocido. Este parámetro asumimos que tiene una distribución previa Gamma. Un experto en componentes eléctricos conoce mucho de su área y sabe que el parámetro θ tiene las siguientes características: E[θ] = 0,0002, q Var(θ) = 0,0001. Como sabemos que la previa π es Gamma, podemos deducir lo siguiente: E[θ] = =⇒ α β = s α β2 α α , Var(θ) = 2 β β 2 × 10−4 = 1 × 10−4 =⇒ β = 20000, α = 4 Notación: X = (X1 , . . . , Xn ): vector que contiene la muestra aleatoria. Densidad conjunta de X: fθ (x). Densidad de X condicional en θ: fn (x|θ). Supuesto: X viene de una muestra aleatoria si y solo si X es condicionalmente independiente dado θ. 17 3.2. DENSIDAD POSTERIOR Consecuencia: fn (X|θ) = f (X1 |θ) · f (X2 |θ) · · · f (Xn |θ) Ejemplo Si X = (X1 , . . . , Xn ) es una muestra tal que Xi ∼ Exp(θ), fn (X|θ) = = Q n i=1 θe−θXi 0 Pn θ n e−θ i=1 Xi 0 si Xi > 0 si no Xi > 0 si no independientemente si asumimos o no que θ es una variable aleatoria. 3.2. Densidad posterior Definición. Considere un modelo estadístico con parámetro θ y muestra aleatoria X1 , . . . , Xn . La densidad condicional de θ dado X1 , . . . , Xn se llama densidad posterior: π(θ|X) Teorema. Bajo las condiciones anteriores: π(θ|X) = f (X1 |θ) · · · f (Xn |θ)π(θ) gn (X) para θ ∈ Ω, donde gn es una constante de normalización. Prueba: π(θ, X) P (X|θ) · π(θ) π(θ, X) =R = R marginal de X π(θ, X) dθ π(θ, X) dθ fn (X|θ) · π(θ) f (X1 |θ) · · · f (Xn |θ)π(θ) = gn (X) gn (X) π(θ|X) = 18CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES Siguiendo el último ejemplo: fn (X|θ) = θn e−θy donde y = Xi es función exclusivamente de la muestra (Estadístico). El numerador en este caso sería: P fn (X|θ)π(θ) = θ| n e{z−θy} · fn (X|θ) 2000004 3 −20000·θ 200004 n+3 −(20000+y)θ θ e θ e = 3! | 3! {z } π(θ) y el denominador sería proporcional a: gn (x) = Z +∞ 0 θn+3 e−(20000+y)θ dθ = Γ(n + 4) (20000 + y)n+4 Entonces la posterior corresponde a π(θ|X) = θn+3 e−(20000+y)θ (20000 + y)n+4 Γ(n + 4) que es una Γ(n + 4, 20000 + y). Por otro lado, si tuviéramos 5 observaciones (en horas): 2911, 3403, 3237, 3509, 3118. Entonces: y= 5 X i=1 por lo que θ|X ∼ Γ(9, 36178) Xi = 16478, n=5 19 3.2. DENSIDAD POSTERIOR Densidad Posterior Previa 0 250000 500000 750000 1000000 Es sensible al tamaño de la muestra (una muestra grande implica un efecto de la previa menor). Hiperparámetros: parámetros de la previa o posterior. 3.2.1. Proceso de modelación. Recuerden que un modelo está compuesto por: 1. El conjunto de los datos X1 , . . . , Xn . 2. La función de densidad f . 3. El parámetro de la densidad θ. Con el fin de identificar este modelo estadístico requiere las siguientes fuentes de información: 1. La información previa π(θ) es la información fuera de los datos que puede incluir criterio de investigaciones anteriores o bien información vaga. 2. Los datos es la información observada. En este contexto la función de densidad f filtra y mejora la información de la previa. 3. La densidad posterior es la “mezcla” entre la información previa y los 20CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES datos observados. Es una versión más informada de la distribución del parámetro. 3.3. Función de verosimilitud Bajo el modelo estadístico anterior a fn (X|θ) se le llama verosimilitud o función de verosimilitud. Observación. En el caso de una función de verosimilitud, el argumento es θ. Además, la fórmula de Bayes puede escribirse ignorando la constante de normalización: π(θ|X) ∝ fn (X|θ)π(θ) Ejemplo. Sea θ la proporción de aparatos defectuosos, con θ ∈ [0, 1]. Defina: 0 falló Xi = 1 no falló Note que {Xi }ni=1 es una muestra aleatoria y Xi ∼ Ber(θ). Verosimilitud fn (X|θ) = n Y f (Xi |θ) = i=1 P P θ Xi (1 − θ)n− Xi Xi = 0, 1 ∀i si no 0 Previa: π(θ) = 1{0≤θ≤1} Posterior: Por el teorema de Bayes, β α π(θ|X) ∝ θ (1 − θ) y n−y z }| { z }| { · 1 = θy + 1 −1 (1 − θ)n − y + 1 −1 entonces θ|X ∼ Beta(y + 1, n − y + 1). 21 3.3. FUNCIÓN DE VEROSIMILITUD Predicción. Supuesto: los datos son secuenciales, es decir se observan uno a la vez siguiendo el orden de su índice. Calculamos la distribución posterior usando el supuesto anterior: π(θ|X1 ) ∝ π(θ)f (X1 |θ) π(θ|X1 , X2 ) ∝ π(θ)f (X1 , X2 |θ) = π(θ)f (X1 |θ)f (X2 |θ) (por independencia condicional) = π(θ|X1 )f (X2 |θ) .. . π(θ|X1 , . . . , Xn ) ∝ f (Xn |θ)π(θ|X1 , . . . , Xn−1 ) Por lo tanto bajo independiencia condicional la densidad posterior se actualiza de manera secuencial usando la densidad de la nueva observación. Luego, la densidad marginal de la muestra es: gn (X) = Z Ω f (Xn |θ)π(θ|X1 , . . . , Xn−1 ) dθ = P (Xn |X1 , . . . , Xn−1 ) (Predicción para Xn ) por lo tanto la constante de normalización de la densidad posterior es la densidad predictiva del proceso secuencial. Continuando con el ejemplo de los artefactos, suponga que se quiere calcular P (X6 > 3000|X1 , X2 , X3 , X4 , X5 ). Para esto se necesita calcular f (X6 |X1 , . . . , X5 ). Dado que π(θ|X) = 2,6 × 1036 θ8 e−36178θ se tiene f (X6 |X) = 2,6 × 1036 Z 1 0 −θX6 θe | {z } Densidad de X6 θ8 e−36178θ dθ = 9,55 × 1041 (X6 + 36178)10 22CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES Entonces, P (X6 > 3000|X1 , . . . , X5 ) = Z ∞ 3000 9,55 × 1041 dX6 = 0,4882 (X6 + 36178)10 Usando el mismo razonamiento anterior se puede calcular la vida media resolviendo la ecuación 12 = P (X6 > u|X). 3.4. Familias conjugadas Definición. Sea X1 , . . . , Xn una muestra condicionalmente independiente dado θ con densidad f (X|θ). Sea ψ la familia de posibles densidades previas sobre Ω. Si, sin importar los valores observados de la muestra, la posterior pertenece a ψ, entonces decimos que ψ es una familia conjugada de previas. Ejemplos: La familia Beta es familia conjugada para muestras según una Bernoulli. La familia Gama es familia conjugada para muestras exponenciales. Para el caso Poisson, si X1 , . . . , Xn ∼ P oi(λ), entonces la familia Gamma es familia conjugada: λk La función de densidad de una Poisson es P (Xi = k) = e−λ . La verosimilik! tud corresponde a fn (X|λ) = n Y i=1 e−λ λXi e−n λy . = Qn Xi ! i=1 Xi donde y = i Xi . Asuma que la previa de λ está definida por π(λ) ∝ λα−1 e−βλ . Por lo tanto, la posterior es P π(λ|X) ∝ λy+α−1 e−(β+n)λ =⇒ λ|X ∼ Γ(y + α, β + n) En el caso normal, si X1 , . . . , Xn ∼ N (θ, σ 2 ),entonces la familia normal es conjugada si σ 2 > 0 es conocido. Si θ ∼ N (µ0 , V02 ) =⇒ θ|X ∼ N (µ1 , V12 ) donde, µ1 = σ 2 µ0 + nV02 X̄n σ2 nV02 = µ + X̄n 0 σ 2 + nV02 σ 2 + nV02 σ 2 + nV02 23 3.4. FAMILIAS CONJUGADAS Combina de manera ponderada la previa y la de los datos. Ejemplo Considere una verosimilitud Poisson(λ) y una previa π(λ) = 2e−2λ λ>0 λ≥0 0 es decir λ ∼ Γ(1, 2). Supongamos la muestra tiene tamaño n. ¿Cuál es el tamaño de muestra necesario para reducir la varianza, a lo sumo, a 0.01? Por teorema de Bayes, la posterior es λ|x ∼ Γ(y + 1, n + 2). Luego, la varianza de la Gamma es 1 α xi + 1 xi + 1 = ≤ 0,01 =⇒ ≤ ≤ 0,01 =⇒ 100 ≤ (n+2)2 =⇒ n ≥ 8 β2 (n + 2)2 (n + 2)2 (n + 2)2 P P Teorema. Si X1 , . . . , Xn ∼ N (θ, σ 2 ) con σ 2 conocido y la previa es θ ∼ N (µ0 , V02 ), entonces θ|X ∼ N (µ1 , V12 ) donde σ 2 µ0 + nV02 X̄n , σ 2 + nV02 µ1 = V12 = σ 2 V02 σ 2 + nV02 Prueba: Verosimilitud: n 1 X fn (X|θ) ∝ exp − 2 (Xi − θ)2 2σ i=1 " # Luego, n X n X i=1 i=1 (Xi − θ)2 = (Xi − X̄ + X̄ − θ)2 = n(X̄ − θ)2 + n X n X i=1 i=1 (Xi − X̄)2 + 2 | Entonces fn (X|θ) ∝ exp − (Xi − X̄)(X̄ − θ) =0 pues n (X̄ − θ)2 . 2σ 2 {z P Xi=nX̄ } 24CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES Previa: 1 π(θ) ∝ exp − 2 (θ − µ0 )2 . 2V0 # " Posterior: n 1 π(θ|X) ∝ exp − 2 (X̄ − θ)2 − (θ − µ0 )2 . 2σ 2V02 " # Con µ1 y V12 definidos anteriormente, se puede comprobar la siguiente identidad: n 1 1 n (X̄ − θ)2 + 2 (θ − µ0 )2 = 2 (θ − µ1 )2 + 2 (X̄n − µ0 )2 2 2 σ V0 V1 σ + nV0 {z | } Constante con respecto a θ Por lo tanto, 1 π(θ|X) ∝ exp − 2 (θ − µ1 )2 2V1 " # Media posterior: σ2 nV02 µ1 = 2 µ0 + 2 X̄n σ + nV02 σ + nV02 | {z W1 } | {z W2 } Afirmaciones: 1) Si V02 y σ 2 son fijos, entonces W1 −−−→ 0 (la importancia de la media n→∞ empírica crece conforme aumenta el tamaño de muestra). 2) Si V02 y n son fijos, entonces W2 −−2−−→ 0 (la importancia de la media σ →∞ empírica decrece conforme la muestra es menos precisa). 3) Si σ 2 y n son fijos, entonces W2 −−2−−→ 1 (la importancia de la media V0 →∞ empírica crece conforma la previa es menos precisa). 3.5. DENSIDADES PREVIAS IMPROPIAS 25 Ejemplo (determinación de n) Sean X1 , . . . , Xn ∼ N (θ, 1) y θ ∼ N (µ0 , 4). Sabemos que V12 = σ 2 V02 . σ 2 + nV02 Buscamos que V1 ≤ 0,01, entonces 4 ≤ 0,01 =⇒ n ≥ 99,75 (al menos 100 observaciones) 4n + 1 3.5. Densidades previas impropias Como la constante de normalización no es necesaria para hacer una identificación de la densidad posterior, entonces no es necesario que una densidad sea integrable. Para incluir estos casos, se extiende el concepto de densidad: Definición. Sea π una función positiva cuyo dominio está en Ω. Suponga R que π(θ) dθ = ∞. Entonces decimos que π es una densidad impropia. Ejemplo: θ ∼ Unif(R), λ ∼ Unif(0, ∞). Nota: Una posible manera para formular una distribución impropia es sustituyendo los hiperparámetros previos por 0. Ejemplo: Se presenta el número de muertes de soldados prusianos producto de una patada de caballo, a través de una cantidad definida de conteos (280 en total) en un periodo de 20 años. Los conteos se realizaron sobre un cierto número de unidades del ejército prusiano. Conteos Ocurrencias 144 91 32 11 2 0 1 2 3 4 Se asume que la muestra de conteos es Poisson: X1 = 0, X2 = 1, X3 = 26CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES 1, . . . , X280 = 0 ∼ Poi(λ). Previa: λ ∼ Γ(α, β). Posterior: λ|X ∼ Γ(y + α, n + β) = Γ(196 + α, 280 + β). Sustituyendo, α = β = 0 π(λ) = 1 α α−1 βλ β λ e Γ(α) ∝ λα−1 e−λβ = 1 λ 1 dλ = ∞. λ 0 Por teorema de Bayes, λ|X ∼ Γ(196, 280) y recuerden que Z ∞ Las previas impropias se utilizan en casos en donde los daatos observados contienen mucha más infomación que lo que contiene la densidad previa. 3.6. Funciones de pérdida Definición. Sean X1 , . . . , Xn datos observables cuyo modelo está indexado por θ ∈ Ω. Un estimador de θ es cualquier estadístico δ(X1 , . . . , Xn ). Notación: Estimador → δ(X1 , . . . , Xn ). datos Estimación o estimado: δ(X1 , . . . , Xn )(ω) = δ(x1 , . . . , xn ) z }| { El principal objetivo de un estimador es que esté relativamente cerca del valor verdadero de parámetro de interés, es decir del que ha sido seleccionado por la naturaleza como generador de los datos bajo el modelo asumido. Para introducir la noción de cercanía del estimador al valor real se define: Definición. Una función de pérdida es una función de dos variables: L(θ, a), θ∈Ω 27 3.6. FUNCIONES DE PÉRDIDA con a un número real. Interpretación: es lo que pierde un analista cuando el parámetro es θ y el estimador es a. Asuma que θ tiene una previa π. La pérdida esperada es E[L(θ, a)] = Z L(θ, a)π(θ) dθ Ω la cual es una función de a, que a su vez podemos asumir que es función de X1 , . . . , Xn . Asuma que a se selecciona el minimizar esta esperanza y sea δ ∗ (X1 , . . . , Xn ) = δ ∗ (X) el valor donde alcanza el mínimo. En este caso a es un estimador de θ bajo el criterio de pérdida esperada mínima. Si calculamos el estimador anterior usando la densidad posterior de θ dados los datos en lugar de la previa, entonces a este estimador se le llama estimador bayesiano. Es decir, cumple que: E[L(θ, δ ∗ )|X] = Z Ω L(θ, δ ∗ (X))π(θ|X) dθ = mı́n E[L(θ, a)|X]. a para un conjunto de datos X = x. Noten que el estimador bayesiano depende de la función de pérdida seleccionada así como la densidad posterior de θ. 3.6.1. Función de pérdida cuadrática Se define: L(θ, a) = (θ − a)2 En el caso en que θ es real y E[θ|X] es finita, entonces se puede comprobar que: δ ∗ (X) = δ ∗ (X1 , . . . , Xn ) = E[θ|X] en el caso de una función de pérdida cuadrática. Ejemplo: X1 , . . . , Xn ∼ Ber(θ), θ ∼ Beta(α, β) =⇒ θ|X ∼ Beta(α + y, β + n − y). donde y = P Xi . El estimador bayesiano de θ bajo pérdida cuadrática sería: δ ∗ (X1 , . . . , Xn ) = α+y = α+β+n Esperanza previa X̄ z }| { α+β y n + · . α+β+n n α+β+n α α+β z}|{ · 28CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES 3.6.2. Función de pérdida absoluta Se define como: L(θ, a) = |θ − a| En este caso la pérdida esperada es: E[L(θ, a)|X] = Z +∞ −∞ |θ−a|π(θ|X) dθ = Z +∞ a Z a (θ−a)π(θ|X) dθ+ −∞ (a−θ)π(θ|X) dθ y buscar el punto a que minimice la pérdida esperada posterior es equivalente a resolver para a (Ejercicio): Z a −∞ π(θ|X) dθ = 1 2 es decir es equivalente a encontrar la mediana de la distribución posterior de θ. Corolario. Bajo la función de pérdida absoluta, el estimador bayesiano es la mediana posterior. Ejemplo: En el caso Bernoulli. Z X0,5 1 1 θα+y−1 (1 − θ)β+n−y−1 dθ = Beta(α + y, β + n − y) −∞ 2 se puede resolver numéricamente. A prueba y error en R, resuelva para X0,5 . 3.6.3. Otras funciones de pérdida L(θ, a) = |θ − a|k , k 6= 1, 2 y 0 < k < 1. L(θ, a) = λ(θ)|θ − a|2 (λ(θ) penaliza la magnitud del parámetro). L(θ, a) = 3.7. 3(θ − a)2 (θ − a)2 θ ≤ a (sobreestima) θ ≥ a (subestima) Efecto de muestras grandes Ejemplo: ítems malos (proporción: θ), θ ∈ [0, 1]. Función de pérdida cuadrática. El tamaño de muestra son n = 100 ítemes, de los cuales y = 10 están malos. 29 3.8. CONSISTENCIA X1 , . . . , Xn ∼ Ber(θ) Primer previa. Distribución Beta con α = β = 1 (uniforme). El estimador bayesiano corresponde a E[θ|X] = α+y 1 + 10 = = 0,108 α+β+n 2 + 100 Segunda previa. α = 1, β = 2 =⇒ π(θ) = 2(1 − θ), θ > 0. E[θ|X] = 1 + 10 11 = = 0,107 1 + 2 + 100 103 Los dos estimadores bayesianos anteriores son muy similares entre sí, y son 10 similares a la media empírica que es X̄n = = 0,1, debido a que el tamaño 100 de muestra n = 100 es relativamente grande. 3.8. Consistencia Definición. Un estimador δ(X1 , . . . , Xn ) de θ es consistente si δ(X1 , . . . , Xn ) −−−→ θ. P n→∞ Note que en los ejemplos anteriores y bajo el supuesto de pérdida cuadrática, el estimador bayesiano cumple que: E[θ|X] = W1 E[θ] + W2 X̄n = δ ∗ . Sabemos, P por la ley de grandes números, que X̄n − −−→ θ. Además, W1 − −−→ 0 y n→∞ n→∞ W2 −−−→ 1. n→∞ Por lo tanto en este caso: δ∗ − −−→ θ n→∞ P Teorema. Bajo condiciones generales, los estimadores bayesianos son consistentes. Estimador. Si X1 , . . . , Xn es una muestra en un modelo indexado por θ, θ ∈ Ω (k-dimensiones), sea 30CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES h : Ω → H ⊂ Rd . Sea ψ = h(θ). Un estimador de ψ es un estadístico δ ∗ (X1 , . . . , Xn ) ∈ H. Ejemplo. X1 , . . . , Xn ∼ Exp(θ), θ|X ∼ Γ(α, β) = Γ(4, 8,6). La característica 1 de interés es ψ = , es decir el valor esperado del tiempo de fallo. θ Es estimador se calcula de la siguiente manera: δ ∗ (x) = E[ψ|x] = = = Z ∞ 0 Z ∞ 0 1 π(θ|x) dθ θ 1 8,64 3 −8,6θ θ e dθ θ Γ(4) 8,64 Z ∞ 2 −8,6θ θ e dθ 6 |0 {z } Γ(3) 8,63 8,64 2 = = 2,867 unidades de tiempo. 6 8,63 Por otro lado, note que E(θ|X) = ψ(E(θ|X)) = 3.9. 4 . El estimador plug-in correspondería a 8,6 1 8,6 = = 2,15. E(θ|X) 4 Laboratorio Lo primero es cargar los paquetes necesarios que usaremos en todo el curso library(tidyverse) 3.9.1. Distribución previa En nuestro ejemplo se tenía que E[θ] = 0,0002 y Var(θ) = 0,001. Suponiendo que θ es gamma se puede resolver el sistema de ecuaciones obtenemos que β = 20000 y α = 4. 31 3.9. LABORATORIO alpha_previa <- 4 beta_previa <- 20000 ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) + stat_function(fun = dgamma, args = list(shape = alpha_previa, scale = beta_previa)) + ylab("") + scale_y_continuous(breaks = NULL) + theme_minimal() 0 250000 500000 750000 1000000 x 3.9.2. Distribución conjunta Asumiendo que tenemos algunos datos X1 , ..., Xn , asumimos que estos son exponencial recordando que E[X] = 1/θ, entonces una aproximación de esta densidad es x <- c(2911, 3403, 3237, 3509, 3118) theta <- 1 / mean(x) 32CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES ggplot(data = data.frame(x = c(0, 1e5)), aes(x)) + stat_function(fun = dexp, args = list(rate = theta)) + ylab("") + scale_y_continuous(breaks = NULL) + theme_minimal() 0 3.9.3. 25000 50000 x 75000 100000 Distribución posterior Según los contenidos del curso, se puede estimar los parámetros de la densidad posterior de la forma (y <- sum(x)) ## [1] 16178 (n <- length(x)) ## [1] 5 (alpha_posterior <- n + alpha_previa) ## [1] 9 33 3.9. LABORATORIO (beta_posterior <- beta_previa + y) ## [1] 36178 ggplot(data = data.frame(x = c(0, 7.5e5)), aes(x)) + stat_function(fun = dgamma, args = list(shape = alpha_previa, scale = beta_previa), aes(color = "Previa")) + stat_function(fun = dgamma, args = list(shape = alpha_posterior, scale = beta_posterior), aes(color = "Posterior")) + stat_function(fun = dexp, args = list(rate = theta), aes(color = "Verosimilitud")) + ylim(0, 1.5e-5) + theme_minimal() 1.5e-05 1.0e-05 colour y Posterior Previa Verosimilitud 5.0e-06 0.0e+00 0e+00 2e+05 4e+05 6e+05 x 3.9.4. Agregando nuevos datos Si tenemos un 6to dato, y queremos ver cual es su distribución posterior. Lo primero es estimar la densidad posterior de este 6to dato, pero asumiendo que la previa es la densidad que obtuvimos en el caso anterior. 34CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES Suponga que X6 = 3000 (alpha_previa <- alpha_posterior) ## [1] 9 (beta_previa <- beta_posterior) ## [1] 36178 (alpha_posterior <- alpha_previa + 1) ## [1] 10 (beta_posterior <- beta_previa + 3000) ## [1] 39178 ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) + stat_function(fun = dgamma, args = list(shape = 4, scale = 20000), aes(color = "Previa #1")) + stat_function( fun = dgamma, args = list(shape = alpha_previa, scale = beta_previa), aes(color = "Previa #2") ) + stat_function( fun = dgamma, args = list(shape = alpha_posterior, scale = beta_posterior), aes(color = "Posterior") ) + ylim(0, 1.5e-5) + theme_minimal() 35 3.9. LABORATORIO 1.5e-05 1.0e-05 colour y Posterior Previa #1 Previa #2 5.0e-06 0.0e+00 0 250000 500000 750000 1000000 x 3.9.5. Familias conjugadas normales Si tenemos pocos datos, la información previa es la que “prevalece”. x <- rnorm(n = 3, mean = 10, sd = 1) (mu <- mean(x)) ## [1] 8.774957 (sigma <- sd(x)) ## [1] 1.220284 (n <- length(x)) ## [1] 3 (mu_previa <- 0) ## [1] 0 36CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES (sigma_previa <- 1) ## [1] 1 (mu_posterior <((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa + ((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu) ## [1] 5.864185 (sigma2_posterior <(sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) ## [1] 0.3317135 ggplot(data = data.frame(x = c(-5, 15)), aes(x)) + stat_function( fun = dnorm, args = list(mean = mu_previa, sd = sigma_previa), aes(color = "Previa") ) + stat_function( fun = dnorm, args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)), aes(color = "Posterior") ) + stat_function(fun = dnorm, args = list(mean = mu, sd = sigma), aes(color = "Verosimilitud")) + theme_minimal() 37 3.9. LABORATORIO 0.6 colour 0.4 y Posterior Previa Verosimilitud 0.2 0.0 -5 0 5 10 15 x Con más datos, la distribución se ajusta a esto y le quita importancia a la información previa. x <- rnorm(n = 100, mean = 10, sd = 1) (mu <- mean(x)) ## [1] 9.955318 (sigma <- sd(x)) ## [1] 0.9811633 (n <- length(x)) ## [1] 100 (mu_previa <- 0) ## [1] 0 (sigma_previa <- 1) ## [1] 1 38CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES (mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa + ((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu) ## [1] 9.860393 (sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) ## [1] 0.009535022 ggplot(data = data.frame(x = c(-5, 15)), aes(x)) + stat_function( fun = dnorm, args = list(mean = mu_previa, sd = sigma_previa), aes(color = "Previa") ) + stat_function( fun = dnorm, args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)), aes(color = "Posterior") ) + stat_function(fun = dnorm, args = list(mean = mu, sd = sigma), aes(color = "Verosimilitud")) + theme_minimal() 39 3.9. LABORATORIO 3 colour 2 y Posterior Previa Verosimilitud 1 0 -5 0 5 10 15 x Si los datos por si solo son muy variable, la posterior tiende a parecerse a la distribución previa en lugar que a la verosimilitud. x <- rnorm(n = 10, mean = 10, sd = 5) (mu <- mean(x)) ## [1] 10.34527 (sigma <- sd(x)) ## [1] 4.396509 (n <- length(x)) ## [1] 10 (mu_previa <- 0) ## [1] 0 (sigma_previa <- 1) ## [1] 1 40CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES (mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa + ((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu) ## [1] 3.527283 (sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) ## [1] 0.6590439 ggplot(data = data.frame(x = c(-5, 15)), aes(x)) + stat_function( fun = dnorm, args = list(mean = mu_previa, sd = sigma_previa), aes(color = "Previa") ) + stat_function( fun = dnorm, args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)), aes(color = "Posterior") ) + stat_function(fun = dnorm, args = list(mean = mu, sd = sigma), aes(color = "Verosimilitud")) + theme_minimal() 41 3.9. LABORATORIO 0.5 0.4 0.3 colour y Posterior Previa Verosimilitud 0.2 0.1 0.0 -5 0 5 10 15 x 3.9.6. Funciones de pérdida Lo más importante acá es que dependiendo de la función de pérdida podemos construir una estimador para θ. En el caso de los componentes electrónicos recordemos que la posterior nos daba alpha <- 9 beta <- 36178 Pérdida cuadrática: Recoremos que la media de una gamma es α/β entonces (theta <- alpha / beta) ## [1] 0.00024877 Y por lo tanto el tiempo promedio del componente electrónico es 1/θ=4019.7777778. Pérdidad absoluta: La distribución Gamma no tiene una forma cerrada para la mediana, por que se puede aproximar así, 42CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES m <- rgamma(n = 1000, scale = beta, shape = alpha) (theta <- median (m)) ## [1] 313469.4 Y por lo tanto el tiempo promedio del componente electrónico es 1/θ=3,1901041 × 10−6 . OJO: En este caso la pérdida cuadrática ajusta mejor ya que la distribución que la pérdida absoluta ya que la distribución NO es simétrica. En el caso simétrico los resultados serían muy similares. 3.9.7. Caso concreto Suponga que se que quiere averiguar si los estudiantes de cierto colegio duermen más de 8 horas o menos de 8 horas. Para esto primero cargaremos el siguiente paquete, library(LearnBayes) Suponga que se hace una encuesta a 27 estudiantes y se encuentra que 11 dicen que duermen más de 8 horas diarias y el resto no. Nuestro objetivo es inferir la proporción p de estudiantes que duermen al menos 8 horas diarias. Un posible modelo es f (x|p) ∝ ps (1 − p)f donde s es la cantidad de estudiantes que duermen más de 8 horas y f los que duermen menos de 8 horas. Una primera aproximación para la previa es usar una distribución discreta. En este caso, el investigador asigna una probabilidad a cierta cantidad de horas de sueño, según su experiencia. Así, por ejemplo: p <- seq(0.05, 0.95, by = 0.1) prior <- c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0) prior <- prior / sum(prior) plot(p, prior, type = "h", ylab = "Probabilidad Previa") 43 0.20 0.15 0.10 0.00 0.05 Probabilidad Previa 0.25 3.9. LABORATORIO 0.2 0.4 0.6 0.8 p El paquete LearnBayes tiene la función pdisc que estima la distribución posterior para una previa discreta binomial. Recuerde que el valor 11 representa la cantidad de estudiantes con más de 8 horas de sueño y 16 lo que no duermen esa cantidad. data <- c(11, 16) post <- pdisc(p, prior, data) round(cbind(p, prior, post), 2) ## ## [1,] ## [2,] ## [3,] ## [4,] ## [5,] ## [6,] ## [7,] ## [8,] ## [9,] ## [10,] p prior post 0.05 0.03 0.00 0.15 0.18 0.00 0.25 0.28 0.13 0.35 0.25 0.48 0.45 0.16 0.33 0.55 0.07 0.06 0.65 0.02 0.00 0.75 0.00 0.00 0.85 0.00 0.00 0.95 0.00 0.00 44CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES Y podemos ver la diferencia entre la previa (negro) y la posterior (roja), 0.2 0.0 0.1 post 0.3 0.4 plot(p, post, type = "h", col = "red") lines(p + 0.01, prior, type = "h") 0.2 0.4 0.6 0.8 p ¿Qué se puede deducir de estos resultados? Ejercicio: Suponga que se tiene la base de datos studentdata. Realice los cálculos anteriores con esos datos, data("studentdata") horas_sueno <- studentdata$WakeUp - studentdata$ToSleep horas_sueno <- na.omit(horas_sueno) summary(horas_sueno) ## ## Min. 1st Qu. 2.500 6.500 Median 7.500 hist(horas_sueno, main = "") Mean 3rd Qu. 7.385 8.500 Max. 12.500 45 100 0 50 Frequency 150 3.9. LABORATORIO 2 4 6 8 10 12 horas_sueno Ahora supongamos que se tiene quiere ajustar una previa continua a este modelo. Para esto usaremos una distribución Beta con parámetros α y β, de la forma π(p|α, β) ∝ p1−α (1 − p)1−β . El ajuste de los paramétros de la Beta depende mucho de la información previa que se tenga del modelo. Una forma fácil de estimarlo es a través de cuantiles con los cuales se puede reescribir estos parámetros. Para una explicación detallada revisar https://stats.stackexchange.com/a/237849 En particular, suponga que se cree que el 50 % de las observaciones la proporción será menor que 0.3 y que el 90 % será menor que 0.5. Para esto ajustaremos los siguientes parámetros quantile2 <- list(p = .9, x = .5) quantile1 <- list(p = .5, x = .3) (ab <- beta.select(quantile1, quantile2)) ## [1] 3.26 7.19 46CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES a b s f <<<<- ab[1] ab[2] 11 16 En este caso se obtendra la distribución posterior Beta con paramétros α + s y β + f, 1 2 3 Previa Verosimilitud Posterior 0 Densidad 4 5 curve(dbeta(x, a + s, b + f), from = 0, to = 1, xlab = "p", ylab = "Densidad", lty = 1, lwd = 4) curve(dbeta(x, s + 1, f + 1), add = TRUE, lty = 2, lwd = 4) curve(dbeta(x, a, b), add = TRUE, lty = 3, lwd = 4) legend(.7, 4, c("Previa", "Verosimilitud", "Posterior"), lty = c(3, 2, 1), lwd = c(3, 3, 3)) 0.0 0.2 0.4 0.6 p 0.8 1.0 Capítulo 4 Estimación por máxima verosimilitud ¿Será posible estimar sin una densidad previa y sin una función de pérdida? i.i.d Recuerde que, para X1 , . . . , Xn ∼ f (X|θ) con θ fijo, la función de verosimilitud se define como L(θ|X) := fn (X|θ) = n Y f (Xi |θ). i=1 Si θ1 , θ2 ∈ Ω y además asumimos que θ es el valor real del parámetro. Si la muestra es observada y si observamos que: L(θ1 |X) > L(θ2 |X) Entonces decimos que es θ1 es más verosímil (realista) que θ2 en el sentido de que el verdadero parámetro estaría más cercano a θ1 que a θ2 dada la muestra. (principio de verosimilitud) Definición. Para cada X ∈ X (espacio muestral), sea δ(X) ∈ δ estimador de θ tal que L(θ|X) es máximo. A δ(X) se le llama MLE (estimador de máxima verosimilitud). Ejemplo. Si X1 , . . . , Xn ∼ Exp(θ), estime θ. 47 48 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Determinamos la función de verosimilitud, n 1 −Xi /θ 1 1X L(θ|X) = fn (X|θ) = e = n exp Xi = θ−n e−y/θ . θ θ θ i=1 i=1 n Y ! Considere la log-verosimilitud `(θ|X) = log L(θ|X) = −n log θ − y θ Como es una transformación monótona creciente, la función de verosimilitud se maximiza si la log-verosimilitud es máxima. Entonces, −n y ∂ `(θ|X) = + 2 =0 ∂θ θ θ 1 y =⇒ −n + =0 θ θ y =⇒ θ̂ = = X̄n . n Para verificar que es un máximo: ∂ 2` n 2y = − ∂θ2 θ2 θ3 y θ= n = 1 θ̂2 " n− 2y # y n = −n θ̂2 < 0. Entonces θ̂ = X̄n es el MLE de θ. Laboratorio: Suponga que se tiene 100 valores con distribución exponencial con parámetro θ = 1. x <- rexp(n = 100, rate = 1) n <- length(x) y <- sum(x) theta <- seq(0.5, 1.5, length.out = 1000) 49 4e-49 0e+00 2e-49 L 6e-49 8e-49 L <- thetaˆ(-n) * exp(-y / theta) plot(theta, L) 0.6 0.8 1.0 theta l <- -n * log(theta) - y / theta plot(theta, l) 1.2 1.4 50 -130 -150 -140 l -120 -110 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 0.6 0.8 1.0 1.2 1.4 theta Ejemplo. Una prueba sobre alguna enfermedad es confiable al 90 %, en el sentido de que si una persona tiene la enfermedad entonces hay una probabilidad del 90 % de que la prueba dé un resultado afirmativo (enfermo) y por otro lado hay un 10 % de probabilidad de que la prueba dé un resultado afirmativo si la persona está sana. Considere una variable aleatoria Bernoulli(θ),θ ∈ {0,9, 0,1} que indica el resultado de la prueba, donde θ = 0,9 significa que la persona está efectivamente enferma y θ = 0,1 significa que no. Es decir un elemento x del espacio muestral cumple que: x= 1 0 si la prueba es positiva si no 0,9 Si x = 0, entonces f (0|θ) = si θ = 0,1 . 0,1 si θ = 0,9 0,1 Si x = 1, entonces f (1|θ) = si θ = 0,1 . 0,9 si θ = 0,9 El MLE corresponde a θ̂ = 0,1 0,9 si x = 0 si x = 1 51 Ejemplo. Para el caso normal, X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 conocida, estime µ. 1 (xi − µ)2 √ L(µ|x) = exp − 2σ 2 2πσ 2 i=1 n Y ! n 1 X exp − 2 (xi − µ)2 . 2σ i=1 ! = (2πσ ) 2 −n/2 La log-verosimilitud es de la forma `(µ|x) = n 1 X −n log(2πσ 2 ) − 2 (xi − µ)2 . 2 2σ i=1 Basta con minimizar Q(µ) = i=1 (xi Pn − µ)2 . n n X X ∂Q = −2 (xi − µ) =⇒ nµ = xi =⇒ µ̂ = x̄n . ∂µ i=1 i=1 No hace falta verificar la condición de segundo orden, pues Q es una función cuadrática de µ y tiene un único máximo. µ̂M LE = x̄n (∗) Ahora, si X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido, por (∗), `(σ 2 |X1 , . . . , Xn ) = n n 1 X log(2πσ 2 ) − − 2 (xi − x̄n )2 2 2σ i=1 n n 1 1 X ∂` =− + (xi − x̄n )2 = 0 2 2 2 2 ∂σ 2 2πσ 2(σ ) i=1 Entonces n 1X σ̂ = (xi − µ)2 (varianza muestral) n i=1 2 Las condiciones de segundo orden quedan como ejercicio. Nota. Si θM LE de θ, entonces h(θM LE ) es el MLE de h(θ). 52 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Por ejemplo: h(x, y) = √ y (es inyectiva), entonces h(x̄n , σ̂ 2 ) = Otro ejemplo: el MLE de √ σ̂ 2 = σ̂. σ̂ σ = . µ x̄n Laboratorio: library(scatterplot3d) x <- rnorm(100) n <- length(x) mu <- seq(-0.5, 0.5, length.out = 50) sigma <- seq(0.5, 1.5, length.out = 50) ms <- expand.grid(sigma, mu) l <- -(n / 2) * log(2 * pi / ms[, 1]ˆ2) (1 / (2 * ms[, 1]ˆ2) * sum((x - ms[, 2])ˆ2)) 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 0.4 0.6 0.8 1.0 ms[, 1] 1.2 1.4 1.6 ms[, 2] -6000-5000-4000-3000-2000-1000 l 0 scatterplot3d(ms[, 1], ms[, 2], l, angle = 45) 53 i.i.d Ejemplo. Suponga que X1 , . . . , Xn ∼ Unif(0, θ), con (θ > 0). Estime θ. Suponga que xi > 0, ∀i. f (X|θ) = 1 · 1[0,θ] (X) θ La verosimilitud es L(θ|x) = n Y f (xi |θ) = i=1 n 1 Y 1{0≤xi ≤θ} θn i=1 0 ≤ xi ≤ θ ∀i Lo cual es equivalente a escribir: L(θ|x) = 1 1{x ≤θ} θn (n) donde x(n) := máxi xi . En general x(i) corresponde al i-ésimo valor ordenado de la muestra, cuando los datos son ordenados de menor a mayor (estadístico de orden). Entonces θ̂M LE = x(n) . Laboratorio: x <- runif(100, 0, 2) n <- length(x) theta <- seq(1.5, 2.5, length.out = 1000) L <- numeric(1000) for (k in 1:1000) { L[k] <- 1 / theta[k]ˆn * prod(x < theta[k]) } plot(theta, L) 54 0.0e+00 5.0e-31 L 1.0e-30 1.5e-30 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 1.6 1.8 2.0 2.2 2.4 theta 4.1. Propiedades del MLE 4.1.1. Propiedad de invarianza Teorema. Si θ̂ es el MLE de θ y si g es una función biyectiva, entonces g(θ̂) es el MLE de g(θ). Prueba: Sea Γ ls imagen del espacio paramétrico Ω bajo g, es decir g(Ω). Como g es biyectiva defina h como su inversa, es decir: θ = h(ψ), ψ ∈ Γ. Reparametrizando la verosimilitud, fn (x|θ) = fn (x|h(ψ)). El MLE de ψ : ψ̂ satisface que fn (x|h(ψ̂)) es máximo. Como fn (x|θ) se maximiza cuando θ = θ̂, entonces fn (x|h(ψ)) se maximiza cuando θ̂ = h(ψ) para algún ψ. Se concluye que θ̂ = h(ψ̂) =⇒ ψ̂ = g(θ̂). 55 4.1. PROPIEDADES DEL MLE Ejemplo: g(θ) = 1 θ̂ = 1 1 X̄n 1 es biyectiva si θ > 0. Así, θ = X̄n es parámetro de la tasa, bajo un modelo Exp(θ). ¿Qué pasa si h no es biyectiva? Definicion (Generalización del MLE). Si g es una función de θ y G la imagen de Ω bajo g. Para cada t ∈ G defina Gt = {θ : g(θ) = t} Defina L∗ (t) = máx log fn (x|θ). El MLE de g(θ)(= t̂) se define como el valor θ∈Gt ∗ t̂ que cumple: L (t̂) = máx L∗ (t). t∈G Teorema. Si θ̂ es el MLE de θ entonces g(θ̂) es el MLE de g(θ) (g es arbitraria). Prueba. Basta probar L∗ (t̂) = ln fn (x|θ̂). Se cumple que θ̂ ∈ Gt̂ . Como θ̂ maximiza fn (x|θ) ∀θ, también lo hace si θ ∈ Gt̂ . Entonces t̂ = g(θ̂) (no pueden existir 2 máximos en un conjunto con la misma imagen). Ejemplos.X1 , . . . , Xn ∼ N (µ, σ 2 ). Si h(µ, σ 2 ) = σ (no es biyectiva) =⇒ h(X̄n , σ̂ 2 ) = σ. h(µ, σ 2 ) = √ σ̂ 2 es el MLE de σ σ̂ (coeficiente de variación). es el MLE de CV. µ X̄n h(µ, σ 2 ) = µ2 + σ 2 . E[X 2 ] − µ2 = σ 2 =⇒ E[X 2 ] = µ2 + σ 2 . El MLE de E[X 2 ] es X̄n2 + σ̂ 2 . 4.1.2. Consistencia Como se afirmó anteriormente, bajo ciertas condiciones un estimador bayesiano es un estimador consistente de θ. Por lo tanto si un MLE fuera consistente de θ tanto el MLE como el estimador bayesiano tendrían como límite el mismo valor θ. 56 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Por ejemplo en el caso de una muestra X1 , . . . , Xn ∼ Ber(θ) con una previa Beta entonces el estimador bayesiano bajo pérdida cuadrática se puede escribir como: EB = W1 E[Previa] + W2 X̄n . es decir: |θ̂M LE − EB| = |(1 − W2 )X̄n − W1 E[Previa]| n→∞ −→ 0 Afirmación. Bajo “condiciones usuales”, P θ̂M LE −−−→ θ. n→∞ 4.2. Temas adicionales La estimación por máxima verosimilitud constituye un problema de optimización matemática. Por lo tanto se puede utilizar métodos numéricos clásicos (Newton-Raphson por ejemplo) para resolver el problema de estimación. Una forma de obtener valores iniciales de los algoritmos anteriores es a través del método de momentos, que por sí mismo también constituye un método de estimación. 4.2.1. Método de los momentos Ejemplo. X1 , . . . , Xn ∼ Γ(α, 1). Estime α. fn (x|α) = Verosimilitud: fn (x|α) = 1 α−1 −x x e . Γ(α) P 1 Q xi ( x )e . i Γ(α)n " X ∂ ∂ L(α|x) = − n ln Γ(α) + (α − 1) ln(πxi ) − xi ∂α ∂α Y 1 d = −n Γ(α) + ln( xi ) = 0 Γ(α) dα # 57 4.2. TEMAS ADICIONALES i.i.d. Definición. Asumimos que X1 , . . . , Xn ∼ F indexada con un parámetro θ ∈ Rk y que al menos tiene k momentos finitos. Para j = 1, . . . , k sea µj (θ) = E[X1j |θ]. Suponga que µ(θ) = (µ1 (θ), . . . , µk (θ)) es biyectiva. Sea M la inversa de µ, M (µ(θ)) = θ = M (µ1 (θ), . . . , µ2 (θ)) y defina los momentos empíricos mj = n 1X Xj, n i=1 i j = 1, . . . , k. El estimador según el método de los momentos es θ̂ = M (m1 , . . . , mk ). Nota: Del ejemplo anterior, µ1 (α) = E[x1 |α] = α.Dado que m1 = x̄n , el sistema por resolver es µ1 (α) = m1 ⇐⇒ α = x̄n El estimador por método de momentos es α̂ = X̄n . i.i.d Ejemplo. X1 , . . . , Xn ∼ Γ(α, β). La varianza de X es α2 α 2 2 2 = VarX = E[X ] − E[X] = E[X ] − . β2 β2 Se debe resolver el sistema α = X̄n = m1 β α(α + 1) µ2 (θ) = = m2 β2 µ1 (θ) = (1) (2) De (1), α = m1 β. Sustituyendo en (2), m1 β(m1 β + 1) m1 m1 = m21 + = m2 =⇒ m2 − m21 = . 2 β β β De esta manera, m21 m1 , α̂ = β̂ = m2 − m21 m2 − m21 m2 = 58 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Teorema. Si X1 , X2 , . . . es i.i.d con distribución indexada por θ ∈ Rk . Suponga que los k momentos teóricos son finitos ∀θ y suponga que M es continua. Entonces el estimador por el método de momentos es consistente. ¿Cuál es el comportamiento en la distribución de θ̂ cuando la muestra es grande? Del teorema del límite central, X̄n − θ = σ √ n √ Var(X̄n ) = n(X̄n − θ) d → − N (0, 1) σ 1 X σ2 Var(X ) = 1 n2 n Implica que se debe multiplicar la media muestral por una constante para hacer la desviación de X̄n con respecto a θ visible y, con ello, hacer inferencia del parámetro θ. Caso general. Si f (X|θ) es “suficientemente suave” como función de θ, es puede comprobar que la verosimilitud tiende a una normal conforme n → ∞. Es decir, f (X|θ) ∝ exp −1 2 Vnn(θ) (θ − θ̂)2 , n → ∞ (∗) donde θ̂ es el MLE de θ y Vn (θ) cumple que: Vn (θ) −−−→ V∞ (θ) < ∞ n→∞ Notas: 1) En el caso bayesiano, ninguna previa en θ puede anular el efecto en la verosimilitud cuando n → ∞. 2) Por (∗) el MLE se distribuye asintóticamente como V∞ (θ) N θ, , n ! 59 4.2. TEMAS ADICIONALES En general si Xn es un proceso estocástico que cumple: V ar(Xn ) −−−→ 0 y n→∞ además E[Xn ] = X entonces Xn − −−→ X n→∞ P En el ejemplo anterior, se confirma entonces que el MLE es consistente. 4.2.2. Método Delta Si Y1 , Y2 , . . . es una sucesión de variables aleatorias y sea F ∗ su c.d.f. continua. Sea θ ∈ R y {an } sucesión de números positivos tal que an % ∞. Suponga d que an (Yn − θ) → − F ∗ . Si α es una función tal que α0 (θ) 6= 0, entonces an d [α(Yn ) − α(θ)] → − F∗ 0 α (θ) Ejemplo. Sean X1 , X2 , . . . variables i.i.d. con media µ y varianza σ 2 . Sea α una función tal que α0 (µ) 6= 0. Por el T.L.C, √ n d (X̄n − µ) → − N (0, 1) σ Entonces por el método Delta √ n σα0 (µ) Si α(µ) = d [α(X̄n ) − α(µ)] → − N (0, 1) 1 1 (µ 6= 0) =⇒ − 2 = α0 (µ). Entonces por el método Delta µ µ √ n 2 1 1 d µ − → − N (0, 1) σ X̄n µ " # Ejemplo i.i.d Si X1 , X2 . . . ∼ Exp(θ). Sea Tn = n . Tn P Xi entonces el MLE de θ es θ̂ = 1 = X̄n 60 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Note que 1 θ̂ = X̄n y # √ " n 1 d X̄n − −−−→ N (0, 1). n→∞ σ θ La varianza de una exponencial es σ 2 = Var(X1 ) = 1 , entonces θ2 √ 1 d −−−→ N (0, 1). θ n X̄n − θ n→∞ " # El método Delta nos dice, con α(µ) = asintótico de MLE: 1 0 1 , α (µ) = − 2 , el comportamiento µ µ # √ " √ " # θ n 1 θ n 1 d ᾱ(Xn ) − α − θ −−−→ N (0, 1) = 2 0 n→∞ α (1/θ) θ θ X̄n # √ " n 1 d = −θ − − −→ N (0, 1) n→∞ θ X̄n Por lo tanto el MLE θ̂ = 1 es asintóticamente normal con media θ y varianza X̄n Vn (θ) θ2 = . n n Caso bayesiano. En el ejemplo anterior, tome una previa θ ∼ Γ(α, β). La P distribución posterior es θ ∼ Γ(α + n, β + y), y = Xi . Supongamos que α es entero positivo. Note que la distribución posterior de θ se puede expresar como: Γ(α + n, β + y) ∼ α+n X Exp(β + y) i=1 y las variables exponenciales son independientes. Por lo tanto, por el T.L.C., la distribución posterior θ|X se distribuye asintóticamente como una normal α+n α+n con media y varianza . Tomando una previa poco informativa, β+y (β + y)2 (α, β son cercanos a cero), la media es n 1 = = θ̂M LE y X̄1 61 4.3. LABORATORIO y la varianza 1 θ2 Vn (θ̂) = = . 2 y /n n n que son los mismos obtenidos por la distribución asintótica del MLE de θ. 4.3. Laboratorio Suponga que tenemos una tabla con los siguientes datos, los cuales representan la cantidad de giros hacia la derecha en cierta intersección. (X <- c(rep(0, 14), rep(1, 30), rep(2, 36), rep(3, 68), rep(4, 43), rep(5, 43), rep(6, 30), rep(7, 14), rep(8, 10), rep(9, 6), rep(10, 4), rep(11, 1), rep(12, 1))) ## ## ## ## ## ## ## ## ## ## ## ## [1] [26] [51] [76] [101] [126] [151] [176] [201] [226] [251] [276] 0 1 2 2 3 3 4 4 5 5 6 7 0 1 2 2 3 3 4 4 5 5 6 7 0 1 2 2 3 3 4 4 5 5 6 7 0 1 2 2 3 3 4 4 5 5 6 8 0 1 2 2 3 3 4 4 5 5 6 8 0 1 2 3 3 3 4 4 5 5 6 8 0 1 2 3 3 3 4 4 5 5 6 8 0 1 2 3 3 3 4 4 5 5 6 8 0 1 2 3 3 3 4 4 5 5 6 8 0 1 2 3 3 3 4 4 5 6 6 8 0 1 2 3 3 3 4 4 5 6 6 8 0 1 2 3 3 3 4 4 5 6 6 8 0 1 2 3 3 3 4 4 5 6 6 8 0 1 2 3 3 3 4 4 5 6 6 9 1 1 2 3 3 3 4 4 5 6 7 9 1 1 2 3 3 3 4 4 5 6 7 9 1 1 2 3 3 3 4 5 5 6 7 9 1 1 2 3 3 3 4 5 5 6 7 9 Queremos ajustar esta tabla a una distribución Poisson con función de densidad P(X = x) = λx e−λ x! Se puede comprobar que el MLE para λ es X̄n (Ejercicio). Queremos estimar este parámetro alternativamente maximizando la función de verosimilitud. Primero veamos la forma de los datos, 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 9 10 10 10 10 11 12 62 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD hist(X, main = "histograma del número de giros a la derecha", right = FALSE, prob = TRUE) 0.10 0.00 0.05 Density 0.15 0.20 histograma del número de giros a la derecha 0 2 4 6 8 10 12 X Definamos la función correspondiente a − log(P(X = x)) n <- length(X) negloglike <- function(lambda) { n * lambda - sum(X) * log(lambda) + sum(log(factorial(X))) } Para encontrar el parámetro deseado, basta minimizar la función negloglike usando la rutina de optimización no lineal nlm. lambda.hat <- nlm(negloglike, p = 0.5, hessian = TRUE) Aquí el valor p = 0.5 representa un valor inicial de búsqueda y hessian = TRUE determina que el cálculo de la segunda derivada se puede extraer directamente. Compare el resultado de lambda.hat$estimate con mean(X). lambda.hat$estimate 4.3. LABORATORIO 63 ## [1] 3.893331 mean(X) ## [1] 3.893333 Un resultado similar se puede obtener a través de la función mle2 del paquete bbmle: library(bbmle) lambda.hat2 <- mle2(negloglike, start = list(lambda = 0.5)) lambda.hat2 ## ## ## ## ## ## ## ## ## Call: mle2(minuslogl = negloglike, start = list(lambda = 0.5)) Coefficients: lambda 3.893333 Log-likelihood: -667.18 64 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Capítulo 5 Estadísticos Suficientes y Criterio de Factorización 5.1. Estadísticos suficientes En las secciones anteriores, nos enfocamos en utilizar la densidad posterior de un parámetro o bien a través de la verosimilitud. No siempre es posible hacerlo de esa forma, o bien las propiedades estadísticas de esos estimadores no son las óptimas en algunos casos. Bajo este escenario, podemos asumir que un buen estimador es capaz de sintetizar la información disponible en la muestra, y por lo tanto, generaríamos un estimador competitivo si al asumir un valor del estadístico uno es capaz de “simular” la muestra de manera aceptable, independientemente del valor del parámetro θ. Si un estadístico cumple la condición anterior vamos a decir que es un estadístico “suficiente” para generar la muestra: Definición. Sea X1 , . . . , Xn una muestra según una distribución indexada por θ. Sea T un estadístico, suponga que para cada θ ∈ Ω y para cada t en la imagen de T , la distribución conjunta condicional X1 · · · Xn |T = t depende solamente de t y no de θ. Entonces T es un estadístico suficiente del parámetro θ. 65 66CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN 5.2. Teorema de Factorización de Fisher La principal interrogante que se plantea en este momento es cómo se compara la inferencia de un parámetro usando un criterio de suficiencia con respecto a usar la verosimilitud o la densidad posterior. El siguiente teorema lo contesta: Teorema. Si X1 , . . . , Xn es una muestra aleatoria de f (X|θ), donde el parámetro θ es desconocido. Un estadístico T = r(X1 , . . . , Xn ) es suficiente para θ si y solo si fn (x|θ) = u(x)v(r(x), θ) ∀x ∈ Rn , ∀θ ∈ R. Prueba (Discreta). fn (x|θ) = P(X = x|θ) “⇐” Sea A(t) = {x ∈ R|r(x) = t}. Para θ ∈ R, x ∈ A(t), P(X = x ∩ T = t) P(T = t) fn (x|θ, T = t) = X fn (y|θ) Pθ (X = x|T = t) = y∈A(t) u(x)v(r(x), θ) = X u(y)v(r(y), θ) y∈A(t) = u(x)v(t, θ) X (Como y ∈ A(t) entonces r(y) = t que es constante.) v(t, θ) u(y) y∈A(t) u(x) = X u(y) y∈A(t) no depende de θ. Si x ∈ / A(t) =⇒ P(X = x|T = t) = 0 no depende de θ. “⇒” Si T es un estadístico suficiente, u(x) = P(X = x|T = t) no depende de θ. Sea v(t, θ) = Pθ (T = t). Entonces 67 5.2. TEOREMA DE FACTORIZACIÓN DE FISHER fn (x|θ) = P(X = x|θ) = P(X = x|θ) Pθ (T = t) = u(x)v(t, θ). Pθ (T = t) Consecuencia: fn (x|θ) ∝ v(r(x), θ) (u(x) es una constante con respecto a θ). Aplicando el teorema de Bayes, π(θ|x) ∝ π(θ)v(r(x), θ). Por lo tanto la inferencia realizada usando la posterior o verosimilitud es equivalente a la realizada a través del principio de suficiencia. Corolario. Un estadístico r(x) es suficiente si y solo si la posterior depende solamente de r(x) a través de los datos, sin importar cuál previa de θ se use. Ejemplo. X1 , . . . , Xn ∼ Poi(λ), fn (x|θ) = n Y e−λ λxi i=1 xi ! P e−λn λ = Q xi ( =r(x)) xi ! = Qn 1 e| −λn{zλr(x)} x ! i=1 i | {z u(x) } v(r(x),λ) Si xi < 0 para al menos un i, entonces fn (x|θ) = 0. Tome u(x) = 0. Por el P teorema de factorización, r(x) = xi es un estadístico suficiente para λ. Ejemplo. X1 , . . . , Xn ∼ f (x|θ) f (x|θ) = θxθ−1 0<x<1 otro caso 0 Verosimilitud: (0 < xi < 1 ∀i) #θ−1 " fn (x|θ) = θ n Y xi | {z } = θn (r(x))θ−1 · |{z} 1 | r(x) Por el teorema de factorización r(x) = Q {z v(r(x),θ) } u(x) xi es un estadístico suficiente., Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (σ 2 conocido). 68CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN n 1 X exp − 2 (Xi − µ)2 2σ i=1 " fn (x|θ) = (2πσ ) 2 −n/2 # n n 1 X µ X µ2 n = (2πσ 2 )−n/2 exp − 2 Xi2 + 2 Xi − 2 2σ i=1 σ i=1 2σ " | {z } | {z } r2 (x) Tome r1 (x) n 1 X exp − 2 Xi2 , 2σ i=1 " u(x) = (2πσ ) 2 −n/2 # # " # nµ2 µ v(r1 (x), µ) = exp 2 r1 (x) − 2 . σ 2σ Por teorema de factorización, r1 (x) = µ. P Xi es un estadístico suficiente para Con σ 2 desconocido, θ = (µ, σ 2 ), tome u(x) = 1, −r2 (x) µr1 (x) nµ2 + − 2 exp 2σ 2 σ2 2σ " v(r1 (x), r2 (x), θ) = (2πσ ) 2 −n/2 Entonces r(x) = (r1 (x), r2 (x)) = X xi , X x2i # es un estadístico suficiente para (µ, σ 2 ). 1 i.i.d Ejemplo. X1 , . . . , Xn ∼ Unif(0, θ), θ > 0, f (x|θ) = 1[0,θ] (x) . θ fn (x|θ) = n Y 1[0,θ] (xi ) 1 θ i=1 Nota: si al menos uno de los xi < 0 o xi > θ, u(x) = 0 (f (x|θ) = 0) (Trivial). Si 0 < xi < θ ∀i =⇒ fn (x|θ) = 1[0,θ] (máx{xi }) n 1 θ . Si T = r(x) = X(n) =⇒ fn (x|θ) = u(x)v(r(x), θ), u(x) = 1. Por teorema de factorización, r(x) = x(n) es un estadístico suficiente para θ. 69 5.3. ESTADÍSTICO SUFICIENTE MULTIVARIADO. 5.3. Estadístico suficiente multivariado. Si θ ∈ Rk , k ≥ 1 se necesita al menos k estadísticos (T1 , . . . , Tk ) en donde para cada i = 1, . . . , k: Ti = ri (X1 , . . . , Xn ), con el fin de definir un estadístico suficiente para θ en el siguiente sentido: Definición. Suponga que para cada θ y para cada (t1 , . . . , tk ) en la imagen del estadístico (T1 , . . . , Tk ), la distribución condicional de X1 , . . . , Xn dado (T1 , . . . , Tk ) = (t1 , . . . , tk ) no depende de θ, entonces (T1 , . . . , Tk ) es un estadístico suficiente para θ. Criterio de factorización: Para todo x ∈ Rn y para todo θ ∈ Ω: fn (x|θ) = u(x)v(r1 (x), . . . , rk (x), θ) si y sólo si T = (r1 (x), . . . , rk (x)) es un estadístico suficiente. Nota: Si (T1 , . . . , Tk ) es suficiente para θ y si (T10 , . . . , Tk0 ) = g(T1 , . . . , Tk ) donde g es biyectiva, entonces (T10 , . . . , Tk0 ) es suficiente para θ. Ya que: u(x)v(r(x)|θ) = u(x)v(g −1 (g(r(x))), θ). Ejemplo. Considere los siguientes estadísticos en el caso normal con media y varianza desconocidas. T1 = T2 = n X i=1 n X Xi Xi2 i=1 T10 n 1X Xi = n i=1 T20 = n 1X (Xi − X n )2 n i=1 Entonces defina la siguiente función (T10 , T20 ) = g(T1 , T2 ) = 1 1 1 T1 , T2 − 2 T12 . n n n 70CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN De la primera entrada, T10 = 1 T1 =⇒ T1 = nT10 . n De la segunda, T20 = 2 1X 1 1 1X 2 T2 − 2 T12 = Xi − Xi n n n n 1X 2 = Xi − 2Xi X̄n2 + X̄n n 1X = (Xi − X̄n )2 = σ̂n2 n y además T2 = n(T20 + T102 ). Como g es biyectiva entonces (X̄n , σn2 ) es un estadístico suficiente para (µ, σ 2 ). Ejemplo. X1 , . . . , Xn ∼ Unif(a, b), a < b. Encuentre un estadístico suficiente. 1. Si xi ≤ a o xi > b, tome u(x) = 0. 2. Si a < xi < b ∀i, a. xi > a ∀i ⇔ x(1) > a. b. xi < b ∀i ⇔ x(n) < b. La verosimilitud es de la forma fn (x|(a, b)) = n Y i=1 1[a,b] (xi ) = 1 1{(z,w):z>a,w<b} (X(1) , X(n) ) · |{z} 1 (b − a)n | {z v(r1 (x),r2 (x),(a,b)) } u(x) Por teorema de factorización (r1 (x), r2 (x)) = (X(1) , X(n) ) es un estadístico suficiente para (a, b). 5.4. Estadísticos minimales Idea: un estadístico suficiente que garantice una partición de X (espacio muestral) de la manera más simple posible. 71 5.4. ESTADÍSTICOS MINIMALES i.i.d Definición (Estadístico de orden). Sean X1 , . . . , Xn ∼ f . Al ordenar los datos (Y1 , . . . , Yn ) = (X(1) , . . . , X(n) ) tal que Y1 < . . . < Yn a (X(1) , . . . , X(n) ) se les llama estadísticos de orden de la muestra X1 , . . . , Xn . Nota: (X(1) , . . . , X(n) ) es un estadístico suficiente de θ. Ejemplo. X1 , . . . , Xn ∼ Cauchy(α). f (x|α) = 1 [1 + (x − α)2 ]−1 , x ∈ R π Busque un estimador suficiente para α ∈ R. fn (x|α) = n Y f (xi |α) = i=1 n 1 1 Y [1 + (xi − α)2 ]−1 = n [1 + (x(i) − α)2 ]−1 π π i=1 |{z} i=1 n Y u(x) | {z v(y,α) } donde y = (X(1) , . . . , X(n) ) es suficiente para α. Ejercicio: estime α usando el método de momentos o MLE (use R). Definición. Un estadístico T es suficiente minimal si T es suficiente y es función de cualquier otro estadístico suficiente. La misma definición aplica para el caso multivariado. Ejercicio: en el ejemplo anterior de una Cauchy(α), pruebe que los estadísticos de orden son un estadístico minimal multivariado. Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ, entonces el MLE θ̂ de θ depende de X1 , . . . , Xn solamente a través de T . Además, si θ̂ es suficiente entonces θ̂ es minimal. Prueba. Por teorema de factorización, fn (x|θ) = u(x)v(r(x), θ) ya que T = r(x) es suficiente y además: θ̂ = argmax fn (x|θ) = argmax v(r(x), θ), θ θ (∆) 72CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN Por lo tanto el MLE depende solamente de T = r(x). Lo anterior se puede escribir como: θ̂ = g(T ) para cualquier T estadístico suficiente, entonces θ̂ es minimal. Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ entonces el estimador bayesiano (bajo una escogencia de L) depende de X1 , . . . , Xn solamente a través de T . Además, si el estimador bayesiano es suficiente entonces el estimador bayesiano es minimal. Prueba. Sustituya (∆) por π(θ|x) ∝ v(r(x), θ)·π(θ). Como cualquier estimador bayesiano depende de π(θ|x), cualquier estimador bayesiano es función de cualquier estadístico suficiente T = r(x) y por lo tanto es minimal. 5.5. Mejorando estimadores Pregunta: ¿Será posible mejorar un estimador que no es suficiente? Asuma que queremos estimar el parámetro θ. Considere una función de riesgo o pérdida de la forma: R(θ, δ) = E[(δ(x) − θ)2 ] A esta expresión se le llama “Error cuadrático medio” (MSE). Si δ(x) estima una característica de F : R(θ, δ) = E[(δ(x) − h(θ))2 ] donde h es la característica. Nota: como no estamos asignando una previa sobre θ entonces lo que se busca es un estimador δ(x) para el cual el MSE sea pequeño para cada valor de θ ∈ Ω. Definición. Decimos que δ es inadmisible si ∃δ0 (otro estimador) tal que R(θ, δ0 ) ≤ R(θ, δ) ∀θ ∈ Ω y al menos hay un θ ∈ Ω es donde la desigualdad es estricta. En este caso específico decimos que δ0 “domina” a δ. Por otro lado decimos que δ0 es admisible si no existe otro estimador que domine a δ0 . 5.5. MEJORANDO ESTIMADORES 73 Teorema (Rao-Blackwell). Sea δ(X) un estimador y T un estadístico suficiente para θ y sea δ0 = Eθ [δ(X)|T ] = E[δ(X)|T ]. Entonces R(θ, δ0 ) ≤ R(θ, δ) ∀θ ∈ Ω Prueba. Por la desigualdad de Jensen, Eθ [(δ(X) − θ)2 ] ≥ (Eθ [(δ(X) − θ)])2 . También, Eθ [(δ(X) − θ)2 |T ] ≥ (Eθ [(δ(X)|T )] − θ)2 = (δ0 (T ) − θ)2 . Entonces, R(θ, δ0 )=Eθ [{δ0 (T ) − θ}2 ] ≤ E[E[(δ(X) − θ)2 |T ]] = E[(δ(X) − θ)2 ] = R(θ, δ). Notas: Hay desigualdad estricta en el teorema anterior si δ(X) es función de T Si cambiamos a R(θ, δ) = E[|δ(x) − θ|] (error medio absoluto), el resultado anterior es cierto. i.i.d Ejemplo. Sean X1 , . . . , Xn ∼ Poisson(θ) donde θ es la tasa de “visitas” de clientes por hora. Numericamente podemos hacer el ejemplo con θ = 2 y una muestra de n = 10000, X <- rpois(n = 10000, lambda = 2) head(X, 20) ## [1] 1 3 3 0 3 4 1 1 2 2 1 3 4 2 3 3 3 4 0 2 hist(X) 74CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN 1000 1500 2000 2500 0 500 Frequency Histogram of X 0 2 4 6 8 10 X A partir de la verosimilitud, P e−θn θ Xi fn (X|θ) = Q Xi ! se tiene que T = Sea Yi = P Xi es un estadístico suficiente para θ. 1 si Xi = 1 . 0 si Xi = 6 1 Esta Y se calcula de la forma Y <- X == 1 head(Y, 10) ## [1] TRUE FALSE FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE El objetivo es estimar p donde p es la probabilidad de que Xi = 1 (solo llegue un cliente por hora). Un estimador de p (MLE) es δ(x) = P Yi n 5.5. MEJORANDO ESTIMADORES 75 (delta <- mean(Y)) ## [1] 0.2663 ¿Es el óptimo? Calculamos n 1X E[δ(x)|T ] = E(Yi |T ) n i=1 Vea que P(Xi = 1, T = t) P(T = t) P P(Xi = 1, j6=i Xj = t − 1) = P(T = t) P P(Xi = 1)P( j6=i Xj = t − 1) = =∆ P(T = t) E[Yi |T = t] = P(Xi = 1|T = t) = P(Xi = 1) = θe−θ P( −(n−1)θ j6=i Xj = t − 1) = e P P(T = t) = e−nθ ((n − 1)θ)t−1 (t − 1)! (nθ)t t! Entonces, ((n − 1)θ)t−1 t 1 t−1 (t − 1)! = 1 − (nθ)t n n e−nθ t! θe−nθ ∆= y este último término no depende de i. Por lo tanto el estimador con MSE mínimo es δ0 = ∆. T <- sum(X) n <- length(X) (delta_0 <- (T / n) * (1 - 1 / n)ˆ(T - 1)) ## [1] 0.2690194 En este caso δ0 es mejor que δ bajo una pérdida cuadrática. 76CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN Capítulo 6 Distribución muestral de un estadístico 6.1. Distribución muestral Definición. Suponga que X1 , . . . , Xn es una muestra con parámetro θ (desconocido). Sea T = r(X1 , . . . , Xn , θ). La distribución de T dado θ se llama distribución muestral. Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ). El MLE de µ es X̄n = n 1X Xi . n i=1 La distribución muestral del estadístico X̄n es σ2 X̄n ∼ N µ, n E[X̄n ] = ! n 1X 1 E[Xi ] = · nE[X1 ] = µ. n i=1 n n 1X 1 σ2 Var(X̄n ) = Var Xi = 2 · n · Var(X1 ) = . n i=1 n n ! 77 78 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO i.i.d Ejemplo. Sea Xi : tiempo de vida de un aparato. Suponga que X1 , . . . , Xn ∼ Exp(θ) y que la previa de θ es Γ(1, 2). Solamente observamos n = 3 tiempos. La posterior sería θ|X ∼ Γ(1 + 3, 2 + 3 X Xi ). i=1 El estimador bayesiano, bajo pérdida cuadrática, es E[θ|X] = 4 2+ P Xi = θ̂ Problema: estimar P(|θ̂ − θ| < 0,1). Note que P(|θ̂ − θ| < 0,1) = E[1|θ̂−θ|<0,1|θ) ] = E[E[1|θ̂−θ|<0,1|θ) |θ]] = E[P(|θ̂ − θ| < 0,1|θ)] Debemos definir primero cuál es la función de distribución de θ̂. 4 Fθ̂ (t|θ) = P(θ̂ ≤ t|θ) = P ≤tθ 2+T ! 4 =P 2+T ≥ θ t ! 4 =P T ≥ −2θ t ! Nota: Recuerde que sumas de exponenciales es una gamma. (Ver teorema 5.7.7 deñ DeGroot) Entonces T = i=1 Xi ∼ Γ(3, θ), por lo que F (t|θ) = 1 − GΓ(3,θ) P3 Aqui denotamos como G a la distribución de T . 4 −2 . t 79 6.1. DISTRIBUCIÓN MUESTRAL De esta manera, P[|θ̂ − θ| < 0,1|θ] = P[−0,1 + θ < θ̂ < 0,1 + θ|θ] 4 4 − 2 − GΓ(3,θ) −2 −0,1 + θ 0,1 + θ ! = GΓ(3,θ) ! y la esperanza se calcula al integrar con respecto a la dendidad previa de θ. Esta esperanza no se puede estimar de forma cerrada, sino que se podría aproximar mediante una simulación sobre θ. El valor aproximado de la integral es 0.478 aproximadamente. Otra solución es estimar θ usando el MLE θ̂ = probabilidad de forma que no dependa de θ. P 3 . T Se podría construir esa θ̂M LE −1 | θ {z } Cambio relativo < 0,1 θ 3 − 1 < 0,1 θ = ∆ θT ! =P 80 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Si T ∼ Γ(3, θ) =⇒ θT ∼ Γ(3, 1). Por lo tanto, 3 3 3 ∆ = P 0,9 < < 1,1 θ = P < θT < θT 1,1 0,9 ! ! = 13, 4 % Distribución χ2 6.2. Definición. Para m > 0 definimos χ2m m 1 ∼Γ , 2 2 la distribución chi-cuadrado con m grados de libertad. Propiedades: E[X] = m. Var(X) = 2m. Para Xi ∼ χ2mi , i = 1, . . . , k, independientes, entonces k X Xi ∼ χ2P mi i=1 Si X ∼ N (0, 1) =⇒ Y = X 2 ∼ χ21 . i.i.d Si Xi ∼ N (0, 1) =⇒ Pm i=1 Xi2 = χ2m . Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) =⇒ Z = Entonces es decir X P (Xi −µ)2 σ2 ∼ χ2n Xi − µ ∼ N (0, 1) ∀i. σ Zi2 ∼ χ2n (∗). Por otro lado si µ es conocido y σ 2 desconocido, entonces el MLE de σ 2 es σ̂02 = n 1X (Xi − µ)2 n i=1 81 6.2. DISTRIBUCIÓN χ2 De esta manera, observe que, de (∗), n n 1X σ̂02 2 (X − µ) = n ∼ χ2n i σ 2 n i=1 σ2 La principal limitación del cálculo anterior es que µ es conocida. Al asumir que µ es desconocida: ¿Cuál es la distribución muestral de (X̄n , σ̂ 2 )? Teorema (++) . Bajo las condiciones anteriores, 1. X̄n y σ̂n2 son independientes aunque σ̂n2 es función de X̄n . ! σ2 . 2. La distribución muestral de X̄n es N µ, n σ̂n2 Pn (Xi − X̄n )2 = i=1 ∼ χ2n−1 . σ2 σ2 Nota: De álgebra lineal, recuerde que una matriz An×n es ortogonal si cumple que A−1 = A0 . Como consecuencias: 3. n 1. det(A) = 1. 2. Si X, Y ∈ Rn , Y = AX y A ortogonal, entonces kY k22 = kXk22 (∆∆) i.i.d. Teorema. Si X1 , . . . , Xn ∼ N (0, 1), A es una matriz ortogonal n × n y i.i.d. Y = AX donde X = (X1 , . . . , Xn )T entonces Y1 , . . . , Yn ∼ N (0, 1) y kY k22 = kXk22 . Prueba. Ver Teorema 8.3.4 en el DeGroot. Para justificar el Teorema (++), sea X1 , . . . , Xn ∼ N (0, 1). Usando el método de Gram-Schmidt con vector inicial 1 1 u = √ ,··· , √ n n " # 82 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO u podemos generar una matriz A = .. ortogonal. Defina Y = AX. Entonces . n √ 1 X Y1 = uX = √ Xi = nX̄n . n i=1 Por la propiedad (∆∆), n X = Yi2 i=1 n X Yi2 = i=2 n X n X Xi2 . Entonces, i=1 Yi2 − Y12 = n X Xi2 − nX̄n2 = (Xi − X̄n )2 . i=1 i=1 i=1 n X 1 Pn P 2 Como Y12 y ni=2 Yi2 son independientes, entonces X̄n y i=1 (Xi − X̄n ) n son independientes. Note que Pn i=2 i.i.d Yi2 ∼ χ2n−1 ya que Yi ∼ N (0, 1). Si X1 , . . . , Xn ∼ N (µ, σ 2 ), tome Zi = Xi −µ σ y repita todo lo anterior. Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (µ, σ desconocidos). Los MLE son n 1X (Xi − X̄n )2 σ̂ = n i=1 " µ̂ = X̄n , #1 2 . Encuentre n tal que σ 1 σ ≥ . p = P |µ̂ − µ| < , |σ̂ − σ| < 5 5 2 # " Por independencia de X̄n y σ̂n2 , " # " σ σ p = P |µ̂ − µ| < P |σ̂ − σ| < 5 5 Por un lado, # # " √ √ √ # √ ! √ ! σ n n(µ̂ − µ) n n n P |µ̂ − µ| < =P − ≤ < =Φ −Φ − . 5 5 σ 5 5 5 | {z } " N (0,1) 83 6.2. DISTRIBUCIÓN χ2 Además, " # " # σ σ σ P |σ̂ − σ| < =P − < σ̂ − σ < 5 5 5 " # σ σ =P − + σ < σ̂ < + σ 5 5 " # 4 6 =P − σ < σ̂ < σ 5 5 " # 4 σ̂ 6 =P − < < 5 σ 5 " 2 2 # 2 4 σ̂ 6 < 2 < =P − 5 σ 5 nσ ˆ2 =P 0,64n < 2 < 1,44n σ =Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n). " # Estime n de manera que " √ !# n 1 [Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n)] ≥ . 1 − 2Φ − 5 2 Se resuelve numéricamente, y si n = 21 se cumple. 6.2.1. Ilustración de la distribución χ2 ggplot(data = data.frame(x = seq(0, 40, length.out = 1000)), aes(x)) + stat_function(fun = dchisq, args = list(df = 5), aes(color = "05 grados de libertad")) + stat_function(fun = dchisq, args = list(df = 10), aes(color = "10 grados de libertad")) + stat_function(fun = dchisq, args = list(df = 20), 84 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO aes(color = "20 grados de libertad")) + ylab("") + scale_y_continuous(breaks = NULL) + theme_minimal() colour 05 grados de libertad 10 grados de libertad 20 grados de libertad 0 10 20 30 40 x 6.3. Distribución t Definición. Sea Y y Z dos variables independientes tal que Y ∼ χ2m y Z ∼ N (0, 1). Si Z X := s , Y m entonces decimos que X tiene una distribución t de Student con m grados de libertad. La función de densidad de X es: m+1 ! m+1 Γ 2 − 2 x 2 1 + , fX (x) = √ m m mπΓ 2 x ∈ R. 85 6.3. DISTRIBUCIÓN T Propiedades: 1. fX es simétrica. 2. La media de X no existe si m ≤ 1. Si la media existe, es 0. 3. Las colas de una t de Student son más pesadas que una N (0, 1). 4. Si m es entero, los primeros m − 1 momentos de X existen y no hay momentos de orden superior. m . 5. Si m > 2, Var (X) = m−2 6. Si m = 1, X ∼ Cauchy. 7. Ejercicio: fx (x) −−−→ Φ(x) (sirve como aproximación). La discrepanm→∞ cia de ambas está principalmente en sus colas y se disipa cuando m es grande. Recuerde que, por el teorema 8.3.1 (DeGroot), X̄n y Y = σ2 independientes, con X̄n ∼ N µ, n Z= ! y Y ∼ χ2n−1 . Además, √ X̄n − µ ∼ N (0, 1). n σ Sea Z T =s = Y n−1 √ X̄n − µ n X̄n − µ v σ =s u 2 σ̂ u nσ̂ u t σ2 n−1 n−1 el cual no depende de σ. i.i.d Teorema. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), defina n 1 X σ = (Xi − X̄n )2 n − 1 i=1 " 0 #1 2 . nσ̂ 2 son v.a. σ 86 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Entonces √ Nota. σ 0 = n n−1 1 2 n(X̄n − µ) ∼ tn−1 σ0 σ̂ (si n es grande, σ 0 = σ̂). Prueba. Sean Sn2 = n X (Xi − X̄n )2 , i=1 Dado que Y = Sn2 σ2 Z= √ X̄n − µ . n σ ∼ χ2n−1 , entonces √ n (X̄n − µ) Z σ s s U= = Sn2 Y σ 2 (n − 1) n−1 √ n(X̄n − µ) = s 2 Sn n−1 √ n(X̄n − µ) = ∼ tn−1 . σ0 6.3.1. Ilustración de distribución t. ggplot(data = data.frame(x = seq(-5, 5, length.out = 1000)), aes(x)) + stat_function(fun = dnorm, args = list(mean = 0, sd = 1), aes(color = "Normal(0,1)")) + stat_function(fun = dt, args = list(df = 1), aes(color = " t con 01 grados de libertad")) + stat_function(fun = dt, args = list(df = 5), aes(color = " t con 05 grados de libertad")) + stat_function(fun = dt, args = list(df = 10), 87 6.3. DISTRIBUCIÓN T aes(color = " t con 10 grados de libertad")) + ylab("") + scale_y_continuous(breaks = NULL) + theme_minimal() colour t con 01 grados de libertad t con 05 grados de libertad t con 10 grados de libertad Normal(0,1) -5.0 -2.5 0.0 x 2.5 5.0 88 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Capítulo 7 Intervalos de confianza 7.1. Intervalos de confianza para la media de una distribución normal Dado θ un parámetro en R hemos estudiado procedimientos para encontrar estadísticos T ∈ R que permitan estimarlo. Para incluir más información acerca del parámetro podemos sustituir este estadístico T con otros dos estadísticos T1 y T2 de modo que sepamos que T1 ≤ θ ≤ T2 con una cierta probabilidad. En caso que θ ∈ Rk se puede construir un conjunto de estadísticos T1 , . . . , Tk0 con k 0 = 2k tal que θ ∈ [T1 , T2 ] × · · · × [Tk0 −1 , Tk0 ] En el caso normal, X̄n es un estimador puntual de µ. ¿Será posible encontrar un estimador por intervalo? √ n(X̄n − µ) Defina U = ∼ tn−1 . Si c > 0, σ0 89 90 CAPÍTULO 7. INTERVALOS DE CONFIANZA " √ # n(X̄n − µ) P[−c < U < c] = P − c < <c σ0 # " cσ 0 cσ 0 = P − √ < X̄n − µ < √ n n " # 0 cσ cσ 0 = P X̄n − √ < µ < X̄n + √ n n El intervalo cσ 0 cσ 0 T = X̄n − √ , X̄n + √ n n " # es un intervalo aleatorio que “contiene” a µ. Si queremos restringir la probabilidad anterior, tome γ ∈ (0, 1): P(µ ∈ T ) = γ. Para que se cumpla lo anterior, seleccione c tal que γ = P(µ ∈ T ) = Ftn−1 (c) − Ftn−1 (−c) = Ftn−1 (c) − [1 − Ftn−1 (c)] = 2Ftn−1 (c) − 1 Entonces γ+1 γ+1 = Ftn−1 (c) =⇒ c = Ft−1 . n−1 2 2 Definición. Si X es una variable aleatoria continua con distribución F (monótona creciente), entonces x = F −1 (p) es el cuantil de orden p de F (p-cuantil). El intervalo aleatorio 7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL91 " X̄n − Ft−1 n−1 γ + 1 σ0 γ + 1 σ0 √ , X̄n + Ft−1 √ n−1 2 n 2 n # contiene a µ con probabilidad γ. Definición. Sea X = (X1 , . . . , Xn ) una muestra con parámetro θ. Sea g(θ) una característica de la distribución que genera la muestra. Sea A < B dos estadísticos que cumplen (∀θ): P[A < g(θ) < B] ≥ γ. (∗) Al intervalo aleatorio (A, B) le llamamos intervalo de confianza con coeficiente γ para g(θ) (intervalo de confianza al 100γ % para g(θ)). En el caso que (∗) tenga una igualdad, decimos que el intervalo es exacto. Nota. Si observamos X, calculamos A = a, B = b. Entonces (a, b) es el valor observado de un intervalo de confianza. Ejemplo. Se mide la lluvia con nubes inyectadas con “sulfato de plata” a través de n = 26 observaciones bajo una transformación logarítmica. Se desea hacer inferencia sobre µ, la cantidad de log-lluvia media. Para γ = 0,95, se calcula c= Ft−1 25 1+γ 2 = Ft−1 (0,975) = 2,060 25 Note que 1+γ = 0,975 y el segundo valor se obtiene de una tabla de valor de 2 la t-student o de la expresión qt(p = 0.975, df = 26-1) = 2,06 92 CAPÍTULO 7. INTERVALOS DE CONFIANZA 1.00 (2.060,0.975) t 25 0.75 0.50 0.25 0.00 -2 0 2 El intervalo de confianza para µ al 95 % es X̄n ± 0,404 σ 0 | {z } 2,060 √ 26 Si X̄n = 5,134 y σ 0 = 1,6 el valor observado del intervalo de confianza al 95 % para µ corresponde a [5,134 − 0,404 · 1,6, 5,134 + 0,404 · 1,6] = [4,47, 5,78] Interpretación. El intervalo observado [4,48, 5,78] es una realización del intervalo de confianza que contiene a µ con un nivel de confianza del 95 %. cσ 0 Usualmente a √ se le llama margen de error (MOE). n Interpretación gráfica. Si se repitiera el experimento que genera la muestra muchas veces, en el 100γ % (e.g, 95 % o 99 %) de la veces el intervalo observado contendría al parámetro real de la población θ. 7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL93 Figura 7.1: Ejemplo interactivo sobre intervalos de confianza. Tomado de (R Psycologist)[https://rpsychologist.com/d3/ci/] 94 CAPÍTULO 7. INTERVALOS DE CONFIANZA 7.2. Intervalos de confianza abiertos Si γ √ es el nivel de confianza dado, sea γ1 < γ2 tal que γ2 − γ1 = γ. Sea n U = 0 (X̄n − µ). σ Si σ0 σ0 −1 −1 y B = X̄n + Tn−1 (γ2 ) √ , A = X̄n − Tn−1 (γ1 ) √ n n entonces se cumple que (A, B) es un intervalo de confianza al 100γ % ya que −1 −1 P[µ ∈ (A, B)] = P[Tn−1 (γ1 ) < U < Tn−1 (γ2 )] = γ2 − γ1 = γ. Definición (Intervalos de confianza abiertos). Bajo las condiciones anteriores, si A es un estadístico que satisface ∀θ: P[A < g(θ)] ≥ γ, A A se le llama límite inferior de confianza al 100γ % para g(θ) y al intervalo (A, ∞) es el intervalo de confianza inferior al 100γ % para g(θ). De forma análoga, si B satisface: P[g(θ) < B] ≥ γ, a (−∞, B) se le llama intervalo de confianza superior para g(θ), con nivel 100γ %. Si hay igualdad, el intervalo es exacto. Ejemplo. En el caso normal, encuentra B tal que P(µ < B) = γ. Se sabe que ! √ n(X̄n − µ) Ftn−1 (c) = P(U > −c) = P −c < . σ0 Entonces σ0 √ γ = P µ < X̄n + c . n ! 7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS Tome c tal que 95 Ftn−1 (c) = γ =⇒ c = Ft−1 (γ) n−1 Por lo tanto σ0 B = X̄n + √ Ft−1 (γ). n n−1 es un intervalo de confianza superior para µ al 100γ %. 7.3. Intervalos de confianza en otros casos Ejemplo. Considere el ejemplo de los tiempos de vida Xi en donde n = 3 y Xi ∼ Exp(θ). Si T = P3 i=1 Xi entonces θT ∼ Γ(3, 1). Queremos calcular un intervalo de confianza superior para θ al 100δ % (exacto), es decir queremos encontrar B aleatorio tal que: P[θ < B] = γ. Si G es la función de distribución de Γ(3, 1), sabemos que: G−1 (γ) . γ = P[θT < G−1 (γ)] = P θ < T " El límite superior es # G−1 (γ) . T theta <- 2 X <- rexp(3, rate = theta) T <- sum(X) G_inv <- qgamma(p = 0.95, shape = 3, rate = 1) Entonces el intervalo de confianza observado para este caso es c(0, G_inv / T) ## [1] 0.000000 6.401461 Definición. Sea X = (X1 , . . . , Xn ) una muestra de una distribución Fθ . Sea V (X, θ) una variable aleatoria cuya distribución no depende de θ. Decimos que V es una cantidad pivotal. 96 CAPÍTULO 7. INTERVALOS DE CONFIANZA Un intervalo de confianza para g(θ) se determina a partir de un proceso de inversión de la cantidad pivotal. Es decir, buscamos una función r(v, x) tal que r(V (X, θ), X) = g(θ) (∗) En el ejemplo anterior, V (X, θ) = θT , r(V (X, θ), X) = V (X, θ) = g(θ) = θ. T Teorema. Bajo las condiciones anteriores y si la cantidad pivotal V existe sea G su c.d.f. y asuma que G es continua. Asuma que la función r existe como en (*) y asuma que r(v, x) % en v para cada x. Sea 0 < γ < 1 y γ2 > γ1 tal que γ2 − γ1 = γ. Entonces los extremos del intervalo de confianza para g(θ) al 100γ % son A = r(G−1 (γ1 ), X), B = r(G−1 (γ2 ), X). i.i.d Ejemplo. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Encuentre A, B tales que P[A < σ 2 < B] = γ. Se sabe que nσ̂ 2 ∼ χ2n−1 . σ2 Tome V (X, σ 2 ) = nσ̂ 2 . Entonces σ2 γ = P[χ2n−1,γ1 < V (X, σ 2 ) < χ2n−1,γ2 ] donde γ = γ2 − γ1 . Tome r(v, X) = nσ̂ 2 (Xi − X̄n )2 = . v v P Invirtiendo el intervalo, γ=P (Xi − X̄n )2 < σ2 < 2 χn−1,γ2 "P | {z A } (Xi − X̄n )2 χ2n−1,γ1 P | {z B } # 7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 97 Donde χ2n−1,γ = Fχ−1 (γ). El IC para σ 2 al 100γ % es 2 n−1 P (Xi − X̄n )2 , χ2n−1,γ2 (Xi − X̄n )2 . χ2n−1,γ1 P Por ejemplo X <- rnorm(n = 1000, 0, 2) gamma1 <- 0.025 gamma2 <- 0.975 gamma2 - gamma1 ## [1] 0.95 (chi2_gamma1 <- qchisq(p = gamma1, df = 1000 - 1)) ## [1] 913.301 (chi2_gamma2 <- qchisq(p = gamma2, df = 1000 - 1)) ## [1] 1088.487 (diferencias <- sum((X - mean(X))ˆ2)) ## [1] 3854.307 Finalmente el intervalo es c(diferencias / chi2_gamma2, diferencias / chi2_gamma1) ## [1] 3.540976 4.220193 NOTA: Las cantidades pivotales no siempre existen. Esto ocurre principalemente con las distribuciones discretas 98 7.3.1. CAPÍTULO 7. INTERVALOS DE CONFIANZA Intervalos de confianza aproximados. i.i.d Sean X1 , . . . , Xn ∼ Fµ donde E[Xi ] = µ y Var(Xi ) = σ 2 (conocida). Note que " # √ n(X̄n − µ) T LC D = P[A < µ < B] = P − z 1+γ < < z 1+γ ≈ γ. 2 2 σ Así, D ≈ Φ z 1+γ − Φ −z 1+γ = γ. n→∞ 2 2 Ejercicio. El intervalo de confianza correspondiente para µ es σ X̄n ± z 1+γ √ . 2 n Considere U = Como (σ 0 )2 = X̄n − µ √ . U es pivotal, pero no necesariamente una tn−1 . σ0/ n n σ̂ 2 n−1 y además σ̂ 2 es el MLE de σ 2 y por lo tanto consistente: σ̂ 2 → − σ2 P ((σ 0 )2 → − σ 2 ). P d d Recuerde que si Xn → − Z y Yn → − a, entonces Xn Yn → − aZ. Por lo tanto, P √ X̄n − µ σ/ n d √ · √ → − N (0, 1) σ/ n σ 0 / n | d {z } | {z } → − N (0,1) P → −1 d Entonces U → − N (0, 1). Como consecuencia " P − z 1+γ 2 X̄n − µ < 0 √ < z 1+γ 2 σ/ n # T LC ≈ γ. 7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 99 y el IC aproximado para µ al 100γ %: σ0 X̄n ± z 1+γ √ . 2 n Ejemplo. Si X1 , . . . , Xn ∼ Poi(θ), µ = σ 2 = θ. Por TLC, √ X̄n − θ d n √ → − N (0, 1). θ Entonces √ # √ ! n|X̄n − θ| c n c n √ ≈ 2Φ √ − 1. < √ θ θ θ "√ P[|X̄n − θ| < c] = P Nota: La probabilidad anterior depende del parámetro θ. Explicación del fenómeno: En este caso recuerden que X̄n es una variable aleatoria. Lo que dice el teorema del límite central es que conforme n es grande, la distribución de X̄n (centrada y escalada apropiadamente) converge a una normal estándar. Xbar <- data.frame(n = numeric(), Z = numeric()) idx <- rep(x = c(10, 2000), times = 1000) for (k in 1:length(idx)) { muestra <- rpois(n = idx[k], lambda = 5) Xbar[k, "Z"] <- sqrt(idx[k]) * (mean(muestra) - 5) / sqrt(5) Xbar[k, "n"] <- idx[k] } ggplot(Xbar) + geom_histogram(mapping = aes(x = Z, y = ..density..), color = "white") + stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") + facet_wrap(. ~ n, scales = "free") 100 CAPÍTULO 7. INTERVALOS DE CONFIANZA 10 2000 0.6 0.4 0.3 density 0.4 0.2 0.2 0.1 0.0 0.0 -3 -2 -1 0 1 2 -2 0 2 Z 7.3.2. Transformaciones estabilizadoras de la varianza [Ver página 365 del libro de texto.] En el ejemplo anterior: ¿Cómo transformar X̄n para que tenga varianza constante? Note que en el caso anterior se necesitó saber explícitamente el valor exacto de θ para hacer el ejercicio. Por el método Delta, la varianza “aproximada” de α(X̄n ) es α0 (µ) an !2 = α0 (µ)σ √ n !2 = α0 (µ)2 σ 2 (µ) . n Si se desea que la varianza sea constante con respecto a µ, α0 (u)2 σ 2 (µ) = 1 1 (σ(µ) > 0) σ(µ) Z µ dx =⇒ α(µ) = dx a σ(x) =⇒ α0 (µ) = 7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 101 donde a es una constante arbitraria que hace la integral finita (y fácil de calcular) y se está asumiendo que la varianza σ es función de µ. Del ejemplo anterior (Poisson), recuerde que σ 2 = θ = µ, entonces se podría √ tomar que σ(µ) = µ y por lo tanto: α(µ) = Z µ 0 dx √ √ =2 µ x Por el método Delta, 1 2X̄n ∼ N 2θ , n grande n 1 2 1 2 De esta manera 1 2 1 1 2 P[|2X̄n − 2θ | < c] = P 1 |2X̄n2 − 2θ 2 | q 1/n < √ √ nc ≈ 2Φ( nc) − 1 Desarrollando, 1 1 √ 1 P[−c + 2X̄n2 < 2θ 2 < c + 2X̄n2 ] ≈ 2Φ( nc) − 1 Se despeja c tal que √ 1+γ 1 =⇒ c = √ z 1+γ . Φ( nc) = 2 n 2 1 El intervalo de confianza para 2θ 2 es " 1 1 1 2X̄n − √ z 1+γ , 2X̄n2 + √ z 1+γ n 2 n 2 1 2 # set.seed(42) X <- rpois(n = 1000, lambda = 5) Xbar <- mean(X) z <- qnorm(p = 0.975) c(2 * sqrt(Xbar) - 1 / sqrt(1000) * z, 2 * sqrt(Xbar) + 1 / sqrt(1000) * z) 102 CAPÍTULO 7. INTERVALOS DE CONFIANZA ## [1] 4.371529 4.495488 y2 1 Para estimar el IC para θ, note que si y = 2x 2 =⇒ x = . Aplicando esta 4 transformación al intervalo de confianza anterior, se obtiene " 1 1 1 2X̄n2 − √ z 1+γ 4 n 2 !2 1 1 1 , 2X̄n2 + √ z 1+γ 4 n 2 !2 # . c((1 / 4) * (2 * sqrt(Xbar) - 1 / sqrt(1000) * z)ˆ2, (1 / 4) * (2 * sqrt(Xbar) + 1 / sqrt(1000) * z)ˆ2) ## [1] 4.777567 5.052354 Capítulo 8 Estimación Bayesiana bajo normalidad 8.1. Precisión de una distribución normal Definición. La precisión τ de una variable aleatoria normal se define como τ = σ12 . Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) = N (µ, τ −1 ). Su densidad corresponde a 1 f (x|µ, σ ) = 2πσ 2 2 τ = 2π 1 1 2 2 1 exp − 2 (x − µ)2 2σ " # # " τ exp − (x − µ)2 = f (x|µ, τ ). 2 La verosimilitud es por lo tanto: τ fn (x|µ, τ ) = 2π n 2 n τX exp − (xi − µ)2 . 2 i=1 " # La previa conjunta de (µ, τ ) cumple que [µ, τ ] ∝ [µ|τ ] · [τ ] y la posterior conjunta de la misma variable cumple que [µ, τ |x] ∝ [µ|τ, x] · [τ |x]. 103 104 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD Para el caso normal usaremos previas conjugadas: [µ|τ ] ∼ Normal y [τ ] ∼ Gamma. Recuerde: La distribución Gamma tiene forma ( βα f (x | α, β) = Γ(α) xα−1 e−βx 0 for x > 0 for x ≤ 0 Y la verosimilitud es β nα fn (x | α, β) = Γ(α)n 0 n Y !α−1 e−β xi Pn i=1 xi i=1 for x > 0 for x ≤ 0 i.i.d Teorema. Si X1 , . . . , Xn ∼ N (µ, τ −1 ), µ ∈ R, τ > 0 (precisión) y suponga las siguientes dos densidades previas: µ|τ ∼ N (µ0 , (λ0 τ )−1 ), µ ∈ R, λ0 > 0 τ ∼ Γ(α0 , β0 ), α0 , β0 > 0. Entonces [µ, τ |x] ∝ [µ|τ, x] · [τ |x] donde µ|τ, x ∼ N (µ1 , (λ1 τ )−1 ) con λ1 = λ0 + n, µ1 = λ0 µ0 + nx̄n , λ0 + n y τ |x ∼ Γ(α1 , β1 ), α1 = α0 + donde s2n = i=1 (xi Pn Prueba. Previa: n , 2 − x̄n )2 . 1 nλ0 (X̄n − µ0 )2 β1 = β0 + s2n + . 2 2(λ0 + n) 105 8.1. PRECISIÓN DE UNA DISTRIBUCIÓN NORMAL [µ, τ ] ∝ [µ|τ ] · [τ ] " # λ0 τ = τ exp − (µ − µ0 ) · τ α0 −1 e−β0 τ 2 " # λ0 τ 2 α0 − 21 exp − (µ − µ0 ) − β0 τ =τ 2 1 2 Por Bayes: [µ, τ |x] ∝ [µ, τ ] · [x|µ, τ ] n τX ∝ [µ, τ ] · τ exp − (xi − µ)2 2 i=1 " n 2 ∝τ α0 + n+1 −1 2 # " X τ λ0 [µ − µ0 ]2 + (xi − µ)2 − β0 τ exp − 2 # Además n X (xi − µ) = i=1 2 n X (xi − x̄n + x̄n − µ)2 = s2n + n(x̄n − µ)2 . i=1 Completando cuadrados (queda como ejercicio) se obtiene n(x̄n − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 )2 + nλ0 (x̄n − µ0 ) . λ0 + n Entonces n X (xi − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 ) + s2n + i=1 Entonces | {z } λ1 | nλ0 (x̄n − µ0 ) λ0 + n {z β1 } 106 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD α z }|1 { n # " α0 + − 1 1 λ1 τ 2 [µ, τ |x] ∝ τ exp[−β1 τ ] · τ 2 exp − (µ − µ1 )2 | {z } 2 [τ |x] | {z [µ|τ,x] } Por lo que [τ |x] ∼ Γ(α1 , β1 ) y [µ|τ, x] ∼ N (µ1 , λ1 τ ). Definición Sean µ, τ dos variables aleatorias. Suponga que µ|τ N (µ0 , (λ0 τ )−1 ) y τ ∼ Γ(α0 , β0 ). Entonces decimos que ∼ [µ, τ ] ∼ Normal - Gamma(µ0 , λ0 , α0 , β0 ). Conclusión: la distribución previa Normal-Gamma conjuga con una verosimilitud normal. Limitación: µ y τ no son independientes. Si se quiere utilizar una previa en donde µ y τ son independientes, al combinar la previa con la verosimilitud, cualquier tipo de independencia entre los parámetros se pierde. 8.2. Distribución marginal de µ Teorema. Suponga que [µ, τ ] ∼ Normal-Gamma(µ0 , λ0 , α0 , β0 ). Entonces λ0 α 0 β0 !1 2 (µ − µ0 ) ∼ t2α0 . Prueba. Note que µ|τ ∼ N (µ0 , (λ0 τ )−1 ). Despejando la desviación estándar: λ0 τ = Entonces 1 1 =⇒ σ = (λ0 τ )− 2 . 2 σ Z = (λ0 τ )1/2 (µ − µ0 )|τ ∼ N (0, 1). La densidad conjunta de (Z, τ ) es f (z, τ ) = π2 (τ ) · π1 (z|τ ) 107 8.2. DISTRIBUCIÓN MARGINAL DE µ Si g1 (µ|τ ) es la densidad de µ|τ , por teorema de cambio de variable 1 1 f (z, τ ) = π2 (τ ) · g1 ((λ0 τ )− 2 z + µ0 |τ )(λ0 τ )− 2 = π2 φ(z) | {z } φ(z) Entonces Z y τ son independientes y Z ∼ N (0, 1). Sea Y = 2β0 τ y τ ∼ Γ(α0 , β0 ), entonces 2α0 1 Y ∼Γ , 2 2 y Y es independiente de Z. Por lo tanto, U= =⇒ Y ∼ χ22α0 Z Y 2α0 12 ∼ t2α0 . Observe que 1 U= (λ0 τ ) 2 (µ − µ0 ) 2β0 τ 2α0 !1 2 = λ0 α 0 β0 !1 2 (µ − µ0 ). Consecuencia: µ= β0 λ0 α0 !1 2 U + µ0 , U ∼ t2α0 . Propiedades: E(µ) = µ0 + 0 = µ0 . Var(µ) = β0 α0 β0 · = . α0 λ0 α0 − 1 λ0 (α0 − 1) Ejemplo. Se hizo un experimento para determinar la relación del sabor del queso con respecto a su composición química. Vamos a cargar la base de datos que corresponde a este estudio. 108 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD cheese <- read.table("./data/cheese_data.txt", header = TRUE) head(cheese) ## ## ## ## ## ## ## 1 2 3 4 5 6 Case taste Acetic H2S Lactic 1 12.3 4.543 3.135 0.86 2 20.9 5.159 5.043 1.53 3 39.0 5.366 5.438 1.57 4 47.9 5.759 7.496 1.81 5 5.6 4.663 3.807 0.99 6 25.9 5.697 7.601 1.09 El químico más importante en este estudio es el ácido láctico (Lactic). hist(cheese$Lactic) 4 3 0 1 2 Frequency 5 6 7 Histogram of cheese$Lactic 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 cheese$Lactic Intervalo t-student Queremos construir un intervalo de confianza al 90 % para la media de esta variable. De acuerdo al histograma podemos asumir que las concentraciones de ácido láctico en queso se comportan como: X1 , . . . , Xn ∼ N (µ, σ 2 ) 8.2. DISTRIBUCIÓN MARGINAL DE µ 109 Primero calcularemos un intervalo de confianza frecuentista sobre µ con cuantiles t-Student: (Xbar <- mean(cheese$Lactic)) ## [1] 1.442 (s <- sd(cheese$Lactic)) ## [1] 0.30349 (s2 <- var(cheese$Lactic)) ## [1] 0.09210621 (n <- length(cheese$Lactic)) ## [1] 30 (gamma <- 0.9) ## [1] 0.9 (level <- (gamma + 1) / 2) ## [1] 0.95 (tquantile <- qt(p = level, df = n - 1)) ## [1] 1.699127 c(Xbar - tquantile * s / sqrt(n), Xbar + tquantile * s / sqrt(n)) ## [1] 1.347852 1.536148 Intervalo Gamma-Normal Ahora supongamos que X1 , . . . , Xn es normal con media µ y precisión τ . Suponga que µ, τ ∼ Normal-Gamma(µ0 = 1, λ0 = 1, α0 = 1/2, β0 = 1/2) Los hiperparámetros µ0 , λ0 , α0 , β0 son escogidos basados en la experiencia previa (que puede ser ninguna). 110 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD mu_0 <- lambda_0 <- 1 alpha_0 <- beta_0 <- 1 / 2 Los datos de este experimento son n = 30, x̄n = 1,442, s2n = 0,0921062. Aplicando las fórmulas del teorema anterior: (mu_1 <- (lambda_0 * mu_0 + n * Xbar) / (lambda_0 + n)) ## [1] 1.427742 (lambda_1 <- lambda_0 + n) ## [1] 31 (alpha_1 <- alpha_0 + n / 2) ## [1] 15.5 (beta_1 <- beta_0 + 0.5 * (n - 1) * sˆ2 + n * lambda_0 * (Xbar - mu_0) / (2 * (lambda_0 + n))) ## [1] 2.049411 µ1 = 1,4277419. λ1 = 31. α1 = 15,5. β1 = 2,049411 La posterior es [µ, τ |x] ∼ Normal - Gamma(µ1 , λ1 , α1 , β1 ). library(NormalGamma) previa <dnormgam(par = c(mu_0, sqrt(s2 / lambda_0), alpha_0, 1 / beta_0), plot = FALSE) posterior <dnormgam(par = c(mu_1, sqrt(s2 / lambda_1), alpha_1, 1 / beta_1), plot = FALSE) 111 8.2. DISTRIBUCIÓN MARGINAL DE µ df <rbind( data.frame( distribucion = "Previa", x = previa$xout, y = previa$dout ), data.frame( distribucion = "Posterior", x = posterior$xout, y = posterior$dout ) ) ggplot(df, aes(x, y, color = distribucion)) + geom_point() + theme_minimal() 0.6 0.4 distribucion y Posterior Previa 0.2 0.0 0 5 10 15 20 x Podemos calcular inferencias sobre el σ usando el hecho que la posterior de τ es Gamma. 112 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD "s P[σ > 0,3|x] = P 1 > 0,3 x τ # 1 =P > 0,32 x τ " # 1 =P τ < x 0,32 " # " # = P τ < 11,11 x = 0,9554296 dado que [τ |x] ∼ Γ(α1 , β1 ) = Γ(15,5, 2,049411). En este caso observe que el cálculo es directo usando la función pgamma pgamma(q = 0.3ˆ(-2), shape = alpha_1, rate = beta_1) ## [1] 0.9554296 Lo más importante es que basados en el resultado de la distribución marginal de µ podemos construir un intervalo de confianza para µ. Para la distribución posterior de µ sabemos que: λ1 α1 β1 U= !1 2 (µ − µ1 ) ∼ t2α1 entonces P (t2α1 ,γ1 ≤ U ≤ t2α1 ,γ2 ) = γ Solo basta despejar µ con respecto a U . Como los cuantiles de la t son simétricos, la solución es β1 P µ1 − λ1 α1 !1/2 t 2α1 , γ+1 2 β1 ≤ µ ≤ µ1 + λ1 α1 !1/2 t 2α1 , γ+1 2 8.2. DISTRIBUCIÓN MARGINAL DE µ 113 tquantile2alpha <- qt(p = level, df = 2 * alpha_1) c( mu_1 - tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2), mu_1 + tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2) ) ## [1] 1.317011 1.538473 Noten que para este caso, encontramos un intervalo más pequeño que en el caso frecuentista. Ejemplo. Suponga que X1 , . . . , Xn son los días de hospitalización en 18 centros de salud. (ver ejemplo 8.6.3, pág 500). Asuma que [µ, τ ] ∼ Normal-Gamma(µ0 = 200, λ0 = 2, α0 = 2, β0 = 6300). Encuentre un intervalo para µ centrado en µ0 tal que la probabilidad que µ esté en ese intervalo sea 0,95. α0 λ0 β0 !1 2 (µ − µ0 ) = 0,025(µ − 200) ∼ t2·2 = t4 . Entonces 0,95 = P[l < 0,025(µ − 200) < u] = 2Ft4 (u) − 1 =⇒ u = t4,0,975 = 2,776. Así, P[−2,776 < 0,025(µ − 200) < 2,776] = 0,95 y el intervalo es [89, 311]. Con datos: X̄n = 182,17 y s2n = 88678,5. Los hiperparámetros posteriores son µ1 = 183,95, λ1 = 20, α1 = 11, β1 = 50925,37. Resolvemos el mismo problema: α 1 λ1 β1 !1 2 (µ − µ0 ) = 0,0657(µ − 183,95) ∼ t2α1 =22 . 114 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD Se busca u: Ft22 (u|x) = y 0,95 + 1 =⇒ u = t22,0,975 = 2,074 2 0,95 = P[−2,074 < 0,0657(µ − 183,95) < 2,074|x]. El intervalo de credibilidad o predicción es [152,38, 215,52]. Por otro lado si X1 , . . . , X18 ∼ N (µ, σ 2 ), µ, σ 2 fijos y desconocidos. σ0 X̄n + t17,0,975 √ al 95 %. 18 El intervalo de confianza observado es [146,25, 218,09]. Ejercicio Usando los datos de la variable InPatientDays de la siguiente base de datos. load("./data/Nursing.rda") head(Nursing$InPatientDays) ## [1] 128 155 281 291 238 180 Repita los cálculos númericos del ejercicio igual que el ejemplo pasado. 8.3. Intervalos de credibilidad. El intervalo de credibilidad de una distribución posterior se define como los valores A y B tal que π(A ≤ θ ≤ B|x) = γ para algún γ > 0. Ejemplo: Supongamos que tenemos los tiempos de vida de unos aparatos X1 , X2 , X3 ∼ Exp(θ). La previa de θ es Γ(1, 2). Sabemos desde antes que θ|X ∼ Γ(4, 2 + 3 X i=1 Xi ). 115 8.3. INTERVALOS DE CREDIBILIDAD. Y el estimador bayesiano bajo pérdida cuadrática es: E[θ|X] = θ̂ = 4 2+ P3 i=1 Xi # Valores dados con paramétro desconocido X <- rexp(n = 3, rate = 2) gamma <- 0.95 level <- (gamma + 1) / 2 alpha <- 4 beta <- 2 + sum(X) (theta_hat <- alpha / beta) ## [1] 0.7848404 A <- qgamma(p = 0.025, shape = alpha, rate = beta) B <- qgamma(p = 0.975, shape = alpha, rate = beta) c(A, B) ## [1] 0.2138426 1.7202276 ggplot(data = data.frame(x = c(0, 4)), aes(x)) + stat_function(fun = dgamma, args = list(shape = alpha, rate = beta)) + geom_vline(xintercept = A, color = "red") + geom_vline(xintercept = B, color = "red") + geom_vline(xintercept = theta_hat, color = "blue") + theme_minimal() 116 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD y 0.9 0.6 0.3 0.0 0 1 2 3 4 x Ejercicio Para hacer este ejercicio sin usar bayes, se debe resolver usando una función estabilizadora de la varianza. Encuentre esa función y aplique el procedimiento que vimos el capítulo anterior. 8.4. Efecto de previas no informativas (Opcional) Considere una previa no informativa: [µ, τ ] ∝ [µ] · [τ ] (supuesto de inde1 1 pendencia), con [µ] ∝ 1, τ = 2 y [σ] ∝ . σ σ 1 Dado que σ = (τ )− 2 , usando el teorema de cambio de variables, dσ 1 3 1 −3 1 = − τ − 2 =⇒ τ 2 fσ 1 dτ 2 2 τ2 1 = τ −1 . 2 Entonces [µ, τ ] ∝ τ −1 . Ejercicio. Verifique que [µ, τ ] ∼ Normal-Gamma(µ0 = 0, λ0 = 0, α0 = −1/2, β0 = 0). 8.4. EFECTO DE PREVIAS NO INFORMATIVAS (OPCIONAL) 117 Usando Bayes, X1 , . . . , Xn ∼ N (µ, τ ). π(µ, τ |x) ∝ [µ, τ ] · [x|µ, τ ] 1 X = τ (2πσ ) exp − 2 (Xi − µ)2 2σ " # τ nτ ∝ τ −1 τ n/2 exp − s2n − (µ − X̄n )2 2 2 # " # " n−1 s2n nτ −1 1/2 2 (µ − X̄n ) · τ 2 exp − τ = τ exp − 2 2 " −1 # 2 −n/2 Entonces µ|τ ∼ N (X̄n , nτ ) n − 1 s2n , τ |x ∼ Γ 2 2 . ! Por lo tanto, µ, τ |x ∼ Normal-Gamma(µ1 = X̄n , λ1 = n, α1 = (n − 1)/2, β0 = s2n /2). Ejemplo. Tomando X̄n = 5,134, s2n = 63,96 con una previa no informativa para µ, τ . Entonces la posterior es Normal-Gamma con hiperparámetros: 25 µ1 = 5,134, λ1 = 26, α = , β1 = 31,98. Queremos hacer inferencia sobre µ: 2 0,95 = P[−t25,0,975 < U < t25,0,975 ] " = P − t25,0,975 < El intervalo es [4,488, 5,78]. 26 · 12,5 31,98 !1 2 # (µ − 5,134) < t25,0,975 118 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD α1 λ1 β1 Calculemos P[µ > 4|x]. Sea w = !1 2 = 3,188. P[µ > 4|x] = P [w(µ − X̄n ) > w(4 − X̄n )] = 1 − Tt25 (−3,615) = 0,9993. Generalizando: w= n(n − 1)/2 s2n /2 !1 2 = n(n − 1) s2n !1 2 = n (σ 0 )2 !1 2 . Entonces " !1 # 2 n (µ − X̄n ) < tn−1, 1+γ γ = P − tn−1, 1+γ < 2 2 (σ 0 )2 " # σ0 σ0 = P X̄n − tn−1, 1+γ √ < µ < X̄n + tn−1, 1+γ √ . 2 2 n n Capítulo 9 Estimación insesgada 9.1. Estimadores insesgados Definición. Un estimador δ(x) es un estimador insesgado de g(θ) si Eθ [δ(X)] = g(θ), ∀θ. A Eθ [δ(X)] − g(θ) se le denomina sesgo. i.i.d Ejemplo. Si X1 , . . . , Xn ∼ Fθ , µ = E[X1 ], entonces E[X̄n ] = n 1X E(Xi ) = µ n i=1 X̄n es estimador insesgado de µ. i.i.d Ejemplo. X1 , X2 , X3 ∼ Exp(θ). El MLE de θ es θ̂ = 3 3 = P3 T i=1 Xi ¿Será θ̂ un estimador insesgado? theta_real <- 5 X <- matrix(rexp(n = 1000 * 3, rate = theta_real), ncol = 3) T <- apply(X = X, MARGIN = 1, FUN = sum) 119 120 CAPÍTULO 9. ESTIMACIÓN INSESGADA theta_hat <- 3 / T hist(theta_hat - theta_real, breaks = 100) 0 50 100 150 Frequency 200 250 Histogram of theta_hat - theta_real 0 50 100 theta_hat - theta_real Teoricamente podemos ver que 3 1 E[θ̂] = E = 3E , T T " Como 1 T # " # T ∼ Γ(3, θ) ∼ Gamma Inversa(3, θ)1 , se tiene que 1 θ 3θ E = =⇒ E[θ̂] = 6= θ T 2 2 " # Por lo que θ̂ es un estimador sesgado, con sesgo sesgo(θ̂) = 1 3θ θ −θ = . 2 2 La Gamma Inversa con paramétros α y β tiene media β α−1 . 121 9.1. ESTIMADORES INSESGADOS Si por ejemplo θ = 5, entonces la diferencia debería ser aproximadamente 52 . mean(theta_hat - theta_real) ## [1] 2.252184 Si U = 2θ̂ 3 = 2 3 · 3 T = T2 , 2 2 3 E[U ] = E(θ̂) = · θ = θ. 3 3 2 Entonces U es un estimador insesgado. U <- 2 / T mean(U - theta_real) ## [1] -0.1652107 Importante: El caso ideal es encontrar estimadores en donde Var(δ(x)) → 0 y además que sean insesgados. ¿Cómo controlar sesgo y varianza simultáneamente? Defina la siguiente cantidad Sesgo2 (δ(X)) + Var(δ(X)) = (Eθ [δ(X)] − θ)2 + E[[δ(X) − E[δ(X)]]2 ] = E[(Eθ [δ(X)] − θ)2 + [δ(X) − E[δ(X)]]2 ] | {z A2 2 } | {z B2 } = E[A2 + B − 2(E[δ(X)] − θ)(δ(X) − E[δ(X)])] =0 = E[(E[δ(X)] − θ − E[δ(X)] + δ(X))2 ] = E[(δ(X) − θ)2 ] = M SE(δ(X)) Si δ tiene varianza finita, entonces el error cuadrático medio (MSE) de δ(x) cumple que: M SEθ (δ(X)) = Sesgo2 (δ(X)) + Var(δ(X)). Ejemplo. Comparar θ̂ y U = 2 T en términos del MSE. 122 CAPÍTULO 9. ESTIMACIÓN INSESGADA = θ2 2 , 4 se tiene MSE(U ) = Var = 4 θ4 = θ2 . Dado que Var 1 T 2 T 2 var(U) + mean(U - theta_real)ˆ2 ## [1] 23.42551 MSE(θ̂) = (Sesgo(θ̂))2 + Var 3 T = θ2 4 + 9θ2 4 = 5θ2 . 2 var(theta_hat) + mean(theta_hat - theta_real)ˆ2 ## [1] 57.71831 U es mejor estimador en términos de MSE que θ̂. Nota: El estimado bayesiano es θBayes = MSE. 4 2+T y este es mejor en términos de theta_bayes <- 4 / (2 + T) var(theta_bayes) + mean(theta_bayes - theta_real)ˆ2 ## [1] 11.89967 9.2. Estimación insesgada de la varianza Teorema. Si X1 , . . . , Xn ∼ Fθ con varianza finita y g(θ) = Var(X1 ) entonces σ̂12 = 1 X (Xi − X̄n )2 n−1 es un estimador insesgado de σ 2 . Prueba. Recuerde que: n X (Xi − µ)2 = i=1 Por lo tanto si σ̂02 = 2 n X Xi − X̄n 2 + n X̄n − µ i=1 1 n Pn i=1 2 Xi − X̄n , entonces: Si X ∼ Gamma-Inversa(α, β) entonces Var(X) = β2 (α−1)2 (α−2) . 2 (9.1) 9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA E[σ̂02 ] = E Pn i=1 Xi − X̄n 2 n 123 1X σ2 n−1 2 =E (Xi −µ)2 −E[(X̄n −µ)2 ] = σ 2 − = σ . n n n " # Para que σ̂02 sea insesgado, " # n E σ̂ 2 = E[σ̂12 ] = σ 2 . n−1 0 Entonces σ̂12 es estimador insesgado de σ 2 . i.i.d Ejemplo. Sean X1 , . . . , Xn ∼ Poi(θ). E(Xi ) = Var(Xi ) = θ. Estimadores insesgados de θ son: 1. X̄n . 2. σ̂12 . 3. Si α ∈ (0, 1), T = αX̄n + (1 − α)σ̂12 también es un estimador insesgado. X <- matrix(rpois(n = 1000 * 100, lambda = 2), nrow = 100) m <- apply(X, 1, mean) v <- apply(X, 1, var) a <- apply(X, 1, function(x, alpha) { alpha * mean(x) + (1 - alpha) * var(x) }, alpha = 1 / 3) hist(m) 124 CAPÍTULO 9. ESTIMACIÓN INSESGADA 10 0 5 Frequency 15 20 Histogram of m 1.90 1.95 2.00 2.05 2.10 m hist(v) 20 15 10 5 0 Frequency 25 30 35 Histogram of v 1.7 1.8 1.9 2.0 2.1 v 2.2 2.3 2.4 125 9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA hist(a) 15 10 0 5 Frequency 20 25 Histogram of a 1.8 1.9 2.0 2.1 2.2 2.3 a Ejemplo. En el caso de una muestra normal con media µ y varianza σ 2 desconocidas, ¿Cuál estimador tiene menor MSE, σ̂02 o σ̂12 ? 2 Defina Tc = c ni=1 Xi − X̄n . Si c = 1/n, Tc = σ̂0 y si c = 1/(n − 1), Tc = σ̂1 . De esta manera, P M SEσ2 (Tc ) = E[(Tc − σ 2 )2 ] = (E(Tc ) − σ 2 )2 + Var(Tc ). E[Tc ] = cE " n X Xi − X̄n 2 # i=1 " Pn = c(n − 1)E = c(n − 1)σ 2 . i=1 Xi − X̄n n−1 2 # 126 CAPÍTULO 9. ESTIMACIÓN INSESGADA n X Var(Tc ) = c Var 2 Xi − X̄n 2 ! i=1 = c Varσ 2 2 X | (Xi − X̄n )2 2 {zσ } ∼χ2n−1 = 2(n − 1)c2 σ 4 . Entonces MSEσ2 (Tc ) = [c(n−1)σ 2 −σ 2 ]2 +2c2 σ 4 (n−1) = [[c(n−1)−1]2 +2c2 (n−1)]σ 4 . Optimizando, mı́n MSE(Tc ) = mı́n [(n2 − 1)c2 − 2(n − 1)c + 1], c c 1 . n+1 Pn (Xi −X̄n ) 2 se resuelve tomando ĉ = Así, T 1 = es el mejor estimador n+1 n+1 2 de σ en el sentido de MSE. Aunque se puede demostrar que este estimador es inadmisible. (Stein, 1964) i=1 Ejercicio. Calcule el MSE de σ̂02 y σ̂12 y compare los resultados. 9.3. Información de Fisher ¿Cómo cuantificar la información acerca de un parámetro contenida en la muestra? Sea X ∼ f (x|θ), θ ∈ Ω ⊂ R parámetro fijo. Supuesto 1 : para cada x ∈ X (espacio muestral de X): f (x|θ) > 0 ∀θ ∈ Ω. Esto quiere decir que el conjunto en donde f (x|θ) se anula no depende de θ. Supuesto 2 : f (x|θ) es dos veces diferenciable. 127 9.3. INFORMACIÓN DE FISHER Ejemplo. En el caso de que X ∼ Unif[0, θ] se tiene que f (x|θ) = 1(0,θ) (x). En este caso no aplica el supuesto, ya que si x > θ, f (x|θ) = 0. Definición. Se define: λ(x|θ) := log f (x|θ) cuyas derivadas son ∂ log f (x|θ) ∂θ ∂2 00 λ (x|θ) = 2 log f (x|θ) ∂θ λ0 (x|θ) = (función Score) Definición. Bajo los supuestos 1 y 2, la información de Fisher (I(θ)) de X es I(θ) = E[(λ0 (X|θ))2 ] donde la esperanza es integral o suma, dependiendo de la naturaleza de X. Por ejemplo si X es una v.a. continua: I(θ) = Z X 2 [λ0 (x | θ)] f (x | θ)dx Supuesto 3: Las dos derivadas de calcular de la siguiente forma: R X f (x|θ)dx con respecto a θ se pueden Z d d Z f (x|θ)dx = f (x|θ)dx dθ X X dθ Z d2 d2 Z f (x|θ)dx = f (x|θ)dx dθ2 X X dθ 2 Teorema. Bajo los Supuestos 1,2 y 3 se cumple que: I(θ) = −Eθ [λ00 (X|θ)] = Var[λ0 (X|θ)] . Prueba: (9.2) 128 CAPÍTULO 9. ESTIMACIÓN INSESGADA E[λ (X|θ)] = Z = Z = Z 0 X X X λ0 (x|θ)f (x|θ)dx f 0 (x|θ) f (x|θ)dx f (x|θ) f 0 (x|θ)dx d Z = f (x|θ)dx (por supuesto 3.) dθ X d = 1=0 dθ En consecuencia, Var(λ0 (X|θ)) = E[(λ0 (X|θ))2 ] − 0 = I(θ). Además, λ (x|θ) = 00 f 0 (x|θ) f (x|θ) !0 = f (x|θ)f 00 (x|θ) − f 0 (x|θ)2 f 00 (x|θ) = − (λ0 (x|θ))2 2 f (x|θ) f (x|θ) Note que (por los supuestos 2 y 3), Z f 00 (X|θ) f 00 (x|θ) E = f (x|θ)dx f (X|θ) X f (x|θ) # " d d Z = f (x|θ)dx dθ dθ X " # d d = 1 =0 dθ dθ " # Entonces, f 00 (X|θ) E[λ (X|θ)] = E − E[(λ0 (X|θ))2 ] = −I(θ). f (X|θ) " # 00 Consecuencia: λ0 (X|θ) es una variable aleatoria centrada y su varianza es I(θ). Ejemplo. Suponga que X ∼ Bernoulli(p). 129 9.3. INFORMACIÓN DE FISHER f (x|p) = px (1 − p)1−x , x = 0, 1 satisface supuesto 1. Z X f (x|p)dx = f (0|p) + f (1|p) satisface los supuestos 2 y 3. Entonces, λ(x|p) = ln[px (1 − p)1−x ] = x ln p + (1 − x) ln(1 − p). λ0 (x|p) = x p − 1−x . 1−p λ00 (x|p) = − px2 − 1−x . (1−p)2 De esta manera, 1−X p 1−p 1 1 X + = + = = . I(p) = E p (1 − p)2 p2 (1 − p)2 p(1 − p) Var(X) # " Ejemplo. X ∼ N (µ, σ 2 ), µ desconocida, σ 2 conocida. f (x|µ) = √ 1 1 exp − 2 (x − µ)2 2σ 2πσ 2 Vea que Z d Z f (x|µ)dx = f 0 (x|µ)dx dµ R R Z 1 2(x − µ) 1 2 = −√ exp − 2 (x − µ) dx 2σ R 2πσ 2 2σ 2 x−µ 1 Z u − u2 √ e 2 du = 0 usando el cambio de variable =− 2 σ R 2π σ | {z } E[N (0,1)] por lo que cumple el tercer supuesto (Ejercicio: condición sobre segunda derivada). Entonces λ(x|µ) = 12 ln(2πσ 2 ) − λ0 (x|µ) = 1 2(x 2σ 2 λ00 (x|µ) = − σ12 . 1 (x 2σ 2 − µ) = − µ)2 . x−µ . σ2 130 CAPÍTULO 9. ESTIMACIÓN INSESGADA Por lo que I(µ) = −E[λ00 (x|µ)] = 1 Var(X) Definición. Suponga que X = (X1 , . . . , Xn ) es una muestra independiente de f (x|θ) donde f satisface los tres supuestos anteriores. Defina λn (x|θ) = log fn (x|θ). La información de Fisher de X es In (θ) = E[(λ0n (X|θ))2 ] = −E[λ00n (x|θ)]. Nota. Observe que λn (X|θ) = log fn (X|θ) = n X λ(Xi |θ) i=1 lo que implica que λ00n (X|θ) = n X λ00 (Xi |θ). i=1 De esta forma, In (θ) = −E[λ00 (X|θ)] = − n X E[λ00 (Xi |θ)] = nI(θ). i=1 Ejemplo. Suponga que una compañía quiere conocer como se comportan sus clientes en sus tiendas. Hay dos propuestas para este modelo Un modelo Poisson de parámetro tθ (t es cualquier valor) para determinar la tasa promedio de llegada de clientes por unidad de tiempo θ. Y ∼ Poisson(θt) y Y : número de clientes que llegan a la tienda a lo largo de t unidades de tiempo. Un modelo donde cada cliente es una v.a. exponencial con tasa de llegada por unidad de tiempo θ y al final se sumará todas las variables para P obtener una Gamma(n, θ). X ∼ ni=1 Exp(θ) = Γ(n, θ) y X: tiempo necesario (en unidades de tiempo) para que lleguen n clientes a la tienda. 131 9.3. INFORMACIÓN DE FISHER Se asume que el tiempo de llegada de cada cliente es independiente. ¿Cuál variable contiene más información de θ: X o Y ? Solución: Para Y , y . f (y|θ) = e−tθ (tθ) y! λ(y|θ) = tθ + y ln(tθ) − ln y!. λ0 (y|θ) = −t + ty . tθ λ00 (y|θ) = − θy2 . Entonces, IY (θ) = −E[λ00 (y|θ)] = Como ejercicio, verifique que IX (θ) = E[Y ] t = . 2 θ θ n . θ2 Ambas variables tienen la misma información si IY (θ) = IX (θ) =⇒ n θ2 t t = 2 =⇒ n = = tθ. θ θ θ lo cual es esperable en términos del problema. A partir de este ejercicio vamos a hacer un pequeño ejemplo de simulación. Suponga que t es el tiempo que se quiere medir la cantidad de clientes (minutos), θ es la cantidad de clientes por minuto y n es el número de clientes que entran. t <- 20 theta <- 5 n <- t * theta Y <- rpois(n = 1000, lambda = t * theta) X <- rgamma(n = 1000, shape = n, rate = theta) Ojo que según lo estimado ambas informaciones de Fisher debería dar aproximadamente igualdad. 132 CAPÍTULO 9. ESTIMACIÓN INSESGADA Para Y tenemos que mean(Y / thetaˆ2) ## [1] 3.99104 Para X por otro lado la información de Fisher es constante (¿Por qué?) n / thetaˆ2 ## [1] 4 Entonces bajo este criterio, ambas variables contienen la misma información, aunque modelen el problema desde ópticas diferentes. El proceso Y (Poisson) modela cuántas personas en total entran a la tienda en 20 minutos, asumiendo una tasa de entrada de 5 personas por minuto. hist(Y) 100 0 50 Frequency 150 200 Histogram of Y 70 80 90 100 110 120 130 Y El proceso X (Gamma) modela cuánto tiempo se debe esperar para que 100 personas entren a la tienda, asumiendo una tasa de entrada de 5 por minuto. hist(X) 133 9.4. DESIGUALDAD DE CRAMÉR-RAO 100 0 50 Frequency 150 200 Histogram of X 14 16 18 20 22 24 26 28 X Ejercicio: Basado en los valores de la simulación, proponga dos valores de t para que X tenga más información de θ que Y . Y tenga más información de θ que X. 9.4. Desigualdad de Cramér-Rao Teorema. Si X = (X1 , . . . , Xn ) muestra aleatoria de f (x|θ). Asuma que los tres supuestos anteriores son válidos para f . Sea T = r(X) un estadístico con varianza finita. Sea m(θ) = Eθ [T ] y asuma que m es una función diferenciable de θ. Entonces: [m0 (θ)]2 [m0 (θ)]2 Varθ (T ) ≥ = . In (θ) nI(θ) La igualdad se da si y solo si existen funciones u(θ) y v(θ) que no dependen de X tales que cumplen: T = u(θ)λ0n (X|θ) + v(θ). 134 CAPÍTULO 9. ESTIMACIÓN INSESGADA Prueba. Recuerden que para el caso univariado: Z f 0 (x|θ)dx = 0. X Para el caso multivariado, lo mismo aplica: Z Xn fn0 (x|θ)dx1 Z · · · dxn = Xn [f (x1 |θ) · · · f (xn |θ)]0 dx1 · · · dxn d Z f (x1 |θ) · · · f (xn |θ)dx1 · · · dxn dθ X n d = 1 dθ = 0. = Entonces E[λ0n (X|θ)] = fn0 (x|θ) fn (x|θ)dx1 · · · dxn = 0 f (x|θ) Z Xn Por lo tanto, Covθ [T, λ0n (X | θ)] = Eθ [T λ0n (X | θ)] = Z = Z = Z Xn Xn Xn r(x)λ0n (x | θ)fn (x | θ)dx1 . . . dxn r(x) fn0 (x|θ) fn (x|θ)dx1 · · · dxn fn (x|θ) r(x)fn0 (x | θ)dx1 . . . dxn Sea m(θ) = Z Xn r(x)fn (x | θ)dx1 . . . dxn Usando el supuesto de intercabio de integrales, tenemos que m0 (θ) = Z Xn r(x)fn0 (x | θ)dx1 . . . dxn 135 9.4. DESIGUALDAD DE CRAMÉR-RAO Entonces tenemos que d Z r(x)fn (x|θ)dx1 · · · dxn dθ X n d d = Eθ [r(X)] = Eθ [T ] = m0 (θ) dθ dθ Cov[T, λ0n (X|θ)] = Considere el coeficiente de correlación ρ= q Cov[T, λ0n (X|θ)] q Var(T ) Var(λ0n (X|θ)) . Dado que |ρ| ≤ 1 =⇒ ρ2 ≤ 1, se tiene que Cov[T, λ0n (X|θ)]2 ≤ Var(T )Var(λ0n (X|θ)) =⇒ [m0 (θ)]2 ≤ Var(T )In (θ). Entonces Var(T ) ≥ [m0 (θ)]2 . In (θ) Caso particular. Si T es un estimador insesgado de θ, entonces Varθ (T ) ≥ 1 . In (θ) Ejemplo. X1 , . . . , Xn ∼ Exp(β), n > 2. f (x|β) = βe−βx , x > 0. λ(x|β) = ln f (x|β) = ln β − βx. λ0 (x|β) = 1 β − x. λ00 = − β12 . Vea que 1= Z ∞ 0 βe−βx dx = u→∞ lı́m F (u) = u→∞ lı́m [1 − e−βu ] y el supuesto 3 se puede verificar por la diferenciabilidad de 1 − e−βu . Así, I(β) = −E[λ00 (x|β)] = 1 , β2 In (β) = n . β2 136 CAPÍTULO 9. ESTIMACIÓN INSESGADA Por ejemplo generemos una secuencia de valores de β de 1 hasta 5 para observar el comportamiento de su información de Fisher. beta <- seq(1, 5, length.out = 100) n <- 100 lista_muestras <- lapply( X = beta, FUN = function(b) { matrix(rexp(n = n * 500, rate = b), nrow = 500) } ) 60 40 20 n/beta^2 80 100 plot(beta, n / betaˆ2) 1 2 3 4 5 beta Considere el estadístico T = Pn−1 . Se puede comprobar que T es un n Xi i=1 estimador insesgado de β y la varianza de T es β2 . n−2 (Ejercicio) La cota de Cramér Rao, bajo cualquier estimador insesgado es 137 9.4. DESIGUALDAD DE CRAMÉR-RAO 1 β2 = , In (β) n por lo que T no satisface la cota de Cramér Rao. Este comportamiento podemos observarlo con nuestro ejemplo numérico. estimador1 <- sapply( X = lista_muestras, FUN = function(x) { apply(x, 1, function(xx) (n - 1) / sum(xx)) } ) 5 4 3 2 1 apply(X = estimador1, MARGIN = 2, FUN = mean) plot(beta, apply(X = estimador1, MARGIN = 2, FUN = mean)) 1 2 3 4 beta plot(beta, apply(X = estimador1, MARGIN = 2, FUN = var)) lines(beta, betaˆ2 / n, col = "blue") lines(beta, betaˆ2 / (n - 2), col = "red") 5 0.10 0.15 0.20 0.25 CAPÍTULO 9. ESTIMACIÓN INSESGADA 0.05 apply(X = estimador1, MARGIN = 2, FUN = var) 138 1 2 3 4 5 beta Ahora, estime θ = 1 β = m(β). Un estimador insesgado de θ es T = X̄n : E[X̄n ] = E[X1 ] = 1 = θ, β Var(X̄n ) = Var(X1 ) 1 = . n nβ 2 La cota de Cramér es (m0 (β))2 (−1/β 2 )2 β2 1 = = = . In (β) n/β 2 nβ 4 nβ 2 X̄n satisface la cota de Cramér-Rao y además λ0 (X|β) = n n 1 1 − nX̄n = − nT =⇒ T = − λ0n (X|β) + . β β n β |{z} |{z} u(β) estimador2 <- sapply( X = lista_muestras, FUN = function(x) { apply(x, 1, function(xx) mean(xx)) v(β) 139 9.4. DESIGUALDAD DE CRAMÉR-RAO ) } 1.0 0.8 0.6 0.4 0.2 apply(X = estimador2, MARGIN = 2, FUN = mean) plot(1 / beta, apply(X = estimador2, MARGIN = 2, FUN = mean)) 0.2 0.4 0.6 0.8 1/beta plot(beta, apply(X = estimador2, MARGIN = 2, FUN = var)) lines(beta, 1 / (n * betaˆ2), col = "blue") 1.0 0.004 0.008 CAPÍTULO 9. ESTIMACIÓN INSESGADA 0.000 apply(X = estimador2, MARGIN = 2, FUN = var) 140 1 2 3 4 5 beta 9.5. Estimadores eficientes Definición. T es un estimador eficiente de su esperanza m(θ) si su varianza es la cota de CR. Ejemplo. X1 , . . . , Xn ∼ Poi(θ). X̄n es un estimador eficiente. nX̄n θ . Verosimilitud: fn (X|θ) = enθ Q Xi ! λn (X|θ) = −nθ + nX̄n ln θ − ln λ0n (X|θ) = −n + Q Xi !. cX̄n . θ λ00n (X) = − nθX̄2n . Entonces In (θ) = n n E[ X̄ ] = . n θ2 θ La cota de CR es nθ , pero Var(X̄n ) = Var(X1 ) θ = . n n 9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE 141 Por lo que X̄n es eficiente. Los otros candidatos para estimar θ σ̂12 n 2 1 X = Xi − X̄n n − 1 i=1 y αX̄n + (1 − α)σ̂12 no son lineales con respecto a λ0 (X|θ) por lo que tienen mayor varianza que X̄n . 9.6. Comportamiento asintótico del MLE Teorema. Bajo las mismas condiciones anteriores y si T es un estimador eficiente de m(θ) y m0 (θ) 6= 0, entonces 1 d √ [T − m(θ)] → − N (0, 1) CR donde CR es la cota de Cramér-Rao. Prueba. Recuerde que λ0n (X|θ) = λ0 (Xi |θ) son i.i.d, y E[λ0 (Xi |θ)] = 0, Pn i=1 λ0 (Xi |θ). Como X es una muestra, Var(λ0 (Xi |θ)) = I(θ). Como T es estimador eficiente de m(θ), E[T ] = m(θ), Var(T ) = (m0 (θ))2 nI(θ) y existen u(θ) y v(θ) tal que T = u(θ)λ0n (X|θ) + v(θ). E[T ] = u(θ)E[λ0 (X|θ)] + v(θ) =⇒ v(θ) = m(θ). Var(T ) = u2 (θ)In (θ) =⇒ u(θ) = m0 (θ) . nI(θ) (s.p.d.g.) 142 CAPÍTULO 9. ESTIMACIÓN INSESGADA Entonces T = " m0 (θ) 0 λ (X|θ) nI(θ) n nI(θ) m0 (θ)2 #1 2 + m(θ). Por lo tanto, 1 [T − m(θ)] = nI(θ) " #1 2 −−→ N (0, 1). λ0n (X|θ) − n→∞ por el Teorema del Límite Central. Teorema. Suponga que el MLE θ̂n se obtiene al resolver λ0 (x|θ) = 0. Además, λ00 (x|θ) y λ000 (x|θ) existen y cumplen condiciones de regularidad (algo similar a los tres supuestos sobre f ). Entonces: [nI(θ)]1/2 (θ̂n − θ) → N (0, 1). " Ejemplo. X1 , . . . , Xn ∼ N (0, σ ), con σ desconocida. σ̂n = 2 es MLE de σ y I(σ) = 2 . σ2 s 1 n Pn i=1 Xi − X̄n # 2 1/2 Usando el teorema anterior, 2n (σ̂n − σ) ∼ N (0, 1) . n→∞ σ2 O lo que es equivalente a ! σ2 σ̂n n→∞ ∼ N σ, . 2n Ejercicio: Verifique que s σ2 2 2n es un intervalo de confianza para σ al 100γ %. σ̂n ± z 1+γ Ejercicio: Suponga que se le da los siguientes datos X <- rnorm(n = 1000, mean = 5, sd = 1) Encuentre un intervalo de confianza observado para σ a través de una transformación sobre el estadístico σ̂n . Sugerencia: Note que la varianza de σ̂n depende del parámetro desconocido σ. Aplique el método Delta para encontrar una función que estabilice la varianza. 9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE 143 Consecuencia en estimación bayesiana. Suponga que la previa de θ es positiva y diferenciable con respecto a θ. Bajo condiciones similares a la condiciones de regularidad del teorema anterior: θ|X n→∞ ∼ N θ̂n , 1 nI(θ̂n ) ! . donde θ̂n es el MLE de θ. Nota: un IC para θ en este caso tiene un error estándar que depende del MLE. 144 CAPÍTULO 9. ESTIMACIÓN INSESGADA Capítulo 10 Pruebas de hipótesis 10.1. Pruebas de hipótesis Ejemplo: Suponga que se hace un experimento donde se seleccionan 52 nubes al azar y 26 se les inyecta nitrato de plata y a las otras 26 no. Estamos interesados en saber cuál de los dos grupos produce más lluvia, o bien si en uno de los grupos hay más de un cierto valor de lluvia. Los datos de la cantidad de lluvia para este experimento están acá. nubes <- read.table(file = "./data/clouds.txt", sep = "\t", header = TRUE) head(nubes) ## ## ## ## ## ## ## 1 2 3 4 5 6 Unseeded.Clouds Seeded.Clouds 1202.6 2745.6 830.1 1697.8 372.4 1656.0 345.5 978.0 321.2 703.4 244.3 489.1 Sin embargo usaremos los datos en escala logarítmica para facilitar el cálculo lognubes <- log(nubes) head(lognubes) ## Unseeded.Clouds Seeded.Clouds 145 146 ## ## ## ## ## ## CAPÍTULO 10. PRUEBAS DE HIPÓTESIS 1 2 3 4 5 6 7.092241 6.721546 5.919969 5.844993 5.772064 5.498397 7.917755 7.437089 7.412160 6.885510 6.555926 6.192567 Observe que el comportamiento es distinto en ambos casos. df <- as.data.frame(nubes) %> % pivot_longer( cols = everything(), names_to = "tratamiento", values_to = "lluvia" ) %> % mutate(log_lluvia = log(lluvia)) ggplot(data = df) + geom_histogram(aes( x = lluvia, y = ..density.., fill = tratamiento ), color = "black", bins = 10 ) + facet_wrap(. ~ tratamiento) 147 10.1. PRUEBAS DE HIPÓTESIS Seeded.Clouds Unseeded.Clouds 0.0025 0.0020 0.0015 density tratamiento Seeded.Clouds Unseeded.Clouds 0.0010 0.0005 0.0000 0 1000 2000 3000 0 lluvia ggplot(data = df) + geom_histogram(aes( x = log_lluvia, y = ..density.., fill = tratamiento ), color = "black", bins = 10) + facet_wrap(. ~ tratamiento) 1000 2000 3000 148 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS Seeded.Clouds Unseeded.Clouds density 0.3 tratamiento 0.2 Seeded.Clouds Unseeded.Clouds 0.1 0.0 0 2 4 6 8 0 2 4 6 8 log_lluvia En este caso supondremos que la variable log_lluvia se puede modelar como una N (µ, σ 2 ), donde µ, σ son desconocidos. Ejercicio: Calcule P(µ > 4|X) usando un modelo bayesiano Normal-Gamma. Seleccionen los hiperparámetros de su previa de manera subjetiva. Corrobore que en este caso la probabilidad tiene que dar ≈ 99 %, independientemente de la escogencia de sus hiperparámetros. Nota: La afirmación: µ > 4 nace normalmente a partir de una pregunta de investigación y esta afirmación permite formular una hipótesis con respecto a la población de donde se obtienen los datos. Otra manera de formularlo es asumiendo que θ = (µ, σ 2 ) y cuestionándose: ¿Será cierto que θ ∈ {(µ, σ 2 ) : µ > 4}? Note que para el caso bayesiano, es posible calcular directamente P[µ > 4|X], pero ¿Cómo resolverlo en el caso frecuentista? Suponga que Ω = Ω0 ∪ Ω1 son conjuntos disjuntos tales que 10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA 149 H0 : hipótesis en donde θ ∈ Ω0 . H1 : hipótesis en donde θ ∈ Ω1 . Objetivo. Decidir si H0 o H1 es cierto, con los datos disponibles (problema de pruebas de hipótesis). Si hacemos alguna de las dos afirmaciones posiblemente vamos a incurrir en un error que más adelante trataremos de definir y optimizar. Definiciones. H0 : hipótesis nula. H1 : hipótesis alternativa. Una vez que se ha realizado una prueba de hipótesis si afirmamos θ ∈ Ω1 decimos que rechazamos H0 . Si θ ∈ Ω0 , decimos que no rechazamos H0 . Suponga que X1 , . . . , Xn ∼ f (x|θ), θ ∈ Ω, Ω = Ω0 ∪ Ω1 y queremos probar la hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Definición Para i = 0, 1: 1. Si Ωi contiene solamente un valor de θ decimos que Hi es una hipótesis simple. 2. Si Ωi contiene más de un valor de θ decimos que Hi es una hipótesis compuesta. 3. Hipótesis compuestas de una cola. Si Ω0 = (−∞, θ0 ] decimos que H0 : θ ≤ θ0 es una hipótesis de una cola con hipótesis alternativa H1 : θ > θ0 . Por otro lado si Ω0 = [θ0 , +∞) decimos que H0 : θ ≥ θ0 es una hipótesis de una cola con hipótesis alternativa H1 : θ < θ0 . 4. Cuando la hipótesis nula es simple, es decir H0 : θ = θ0 con hipótesis alternativa H1 : θ 6= θ0 decimos que H1 es una hipótesis de 2 colas. 10.2. Regiones críticas y estadísticos de prueba Ejemplo. Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ) con µ desconocido y σ 2 conocido. 150 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS Queremos probar H0 : µ = µ0 vs H1 : µ 6= µ0 . La lógica de la solución de este problema es: rechace H0 si µ̂ está “muy alejado” de µ0 , donde µ̂ es un estimador de µ, por ejemplo la media empírica. Siguiendo la solución anterior, seleccionamos un número c tal que se rechaza H0 si |X̄n − µ0 | > c. Fin de ejemplo En general, suponga que queremos probar las hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 , lo anterior cuando tenemos una muestra X1 , . . . , Xn ∼ f (x|θ). Sea S0 ⊂ X : conjunto en donde no se rechaza H0 y S1 ⊂ X : conjunto en donde se rechaza H0 . A S1 se le llama región crítica de la prueba de hipótesis. En el ejemplo anterior en donde se rechaza H0 si T > c con T = |X̄n − µ0 |, T es el estadístico de prueba y (c, ∞) es la región de rechazo. X <- matrix(rnorm(1000 * 1000, mean = 2, sd = 3), ncol = 1000) Xbar <- apply(X, 2, mean) mu0 <- 2 T <- abs(Xbar - mu0) c <- seq(-0.25, 0.5, length.out = 1000) df <- data.frame(c = numeric(), test = logical(), region = character()) for (k in 1:length(c)) { df <- rbind(df, data.frame(c = c[k], test = mean(T >= c[k]), region = "S_1")) } df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0")) ggplot(df, aes(x = c, y = test, color = region)) + geom_line(size = 2) + ylab("Promedio de veces donde T >= c") + theme_minimal() 10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA 151 Promedio de veces donde T >= c 1.00 0.75 region 0.50 S_0 S_1 0.25 0.00 -0.25 0.00 0.25 0.50 c En este caso el valor donde decrece la curva es cercano a 0. Eso quiere decir que antes de ese valor, nos encontramos en la región de rechazo. Luego esa región se va haciendo cada vez más pequeña |X − µ| ≈ 0. ¿Qué pasaría si cambiamos a µ = 4? mu0 <- 4 T <- abs(Xbar - mu0) c <- seq(-0.25, 3, length.out = 1000) df <- data.frame(c = numeric(), test = logical(), region = character()) for (k in 1:length(c)) { df <- rbind( df, data.frame(c = c[k], test = mean(T >= c[k]), region = "S_1") ) } df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0")) 152 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS ggplot(df, aes(x = c, y = test, color = region)) + geom_line(size = 2) + ylab("Promedio de veces donde T >= c") + theme_minimal() Promedio de veces donde T >= c 1.00 0.75 region 0.50 S_0 S_1 0.25 0.00 0 1 2 3 c El valor donde comienza a crecer la curva se desvía a un valor cercano a 2. Nota. En la mayoría de los casos, la región crítica se define en términos de un estadístico T = r(x). Definición. Sea X una muestra aleatoria con distribución f (x|θ), T = r(X) un estadístico y R ⊂ R. Suponga que se puede verificar las hipótesis al afirmar “rechazamos H0 si T ∈ R”, entonces definimos T como el estadístico de prueba y R como la región de rechazo de la prueba. Continuación del Ejemplo: Para el caso del ejemplo de la lluvia formulamos las hipótesis: H0 : µ ≤ 4 versus H1 : µ > 4 En este caso podríamos decir que rechazamos H0 si la media empírica es “más 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 153 grande” que 4 y no rechazamos H0 si la media empírica es “más pequeña” que 4. El problema acá es que “más grande” y “más pequeña” no son términos precisos. EN términos relativos, podemos usar el estadístico: U= n1/2 (X̄n − 4) σ0 y rechazar H0 si U “es grande”. 10.3. Función de potencia y tipos de error Sea δ un procedimiento de prueba (basado en una región crítica o en un estadístico de prueba). Sea π(θ|δ) (función de potencia) la probabilidad de que se rechace H0 a través de δ para θ ∈ Ω. Si S1 es la región crítica de δ entonces π(θ|δ) = P(X ∈ S1 |θ) para θ ∈ Ω. Si δ se describe a través de un estadístico de prueba T con región de rechazo R, entonces π(θ|δ) = P(T ∈ R|θ) para θ ∈ Ω. Nota. Función de potencia ideal: π(θ|δ) = 0 si θ ∈ Ω0 , y π(θ|δ) = 1 si θ ∈ Ω1 . Ejemplo. En el caso de X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido, y tomando: Estadístico de prueba: T = |X̄n − µ0 |. Región de rechazo: R = (c, ∞). σ2 Debido a que: X̄n ∼ N µ, n Función de potencia: ! 154 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS π(θ|δ) = P[T ∈ R|µ] = P[|X̄n − µ0 | > c|µ] = P[X̄n > µ0 + c|µ] + P[X̄n < µ0 − c|µ] # " # " √ (X̄n − µ) √ (X̄n − µ) (µ0 + c − µ) √ (µ0 − c − µ) √ > < =P n nµ +P n nµ σ σ σ σ ! ! √ (µ0 + c − µ) √ (µ0 − c − µ) =1−Φ n n +Φ σ σ mu0 <- 4 c <- 2 n <- 100 sigma <- 3 mu <- seq(0, 8, length.out = 1000) funcion_de_poder <- 1 pnorm(sqrt(n) * (mu0 + c - mu) / sigma) + pnorm(sqrt(n) * (mu0 - c - mu) / sigma) df <- data.frame(mu, funcion_de_poder, tipo = "Función de poder") df <- rbind(df, data.frame(mu, funcion_de_poder = 1 - df$funcion_de_poder, tipo = "1 - Función de poder" )) ggplot(df, aes(mu, funcion_de_poder, color = tipo)) + geom_line(size = 2) + theme_minimal() 155 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 1.00 funcion_de_poder 0.75 tipo 0.50 1 - Función de poder Función de poder 0.25 0.00 0 2 4 6 8 mu mu <- seq(0, 8, length.out = 100) c <- seq(0, 4, length.out = 100) mu_c <- expand.grid(mu, c) funcion_de_poder_n_c <- 1 pnorm(sqrt(n) * (mu0 + mu_c[, 2] - mu_c[, 1]) / sigma) + pnorm(sqrt(n) * (mu0 - mu_c[, 2] - mu_c[, 1]) / sigma) library(scatterplot3d) scatterplot3d(mu_c[, 2], mu_c[, 1], funcion_de_poder_n_c, type = "p", angle = 60, xlab = "c", ylab = "mu", zlab = "Función de poder" ) 156 mu 0.8 0.6 0.4 8 6 4 0.2 0.0 Función de poder 1.0 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS 2 0 0 1 2 3 4 c Tipos de error: Al igual que en el proceso de estimación puntual, el proceso de inferencia estadística involucrado en una prueba de hipótesis tiene un error asociado. En este caso se puede cometer dos tipos de errores: Error Tipo I : error de rechazar H0 si θ ∈ Ω0 . Error Tipo II : error de no rechazar H0 si θ ∈ Ω1 . En términos de la función de potencia tenemos que: Si θ ∈ Ω0 : π(θ|δ) es el error tipo I. Si θ ∈ Ω1 : 1 − π(θ|δ) es el error tipo II. El objetivo es seleccionar una procedimiento de prueba o regla de decisión δ que tenga un error pequeño. Es decir buscamos que π(θ|δ) sea pequeño cuando θ ∈ Ω0 y al mismo tiempo requerimos que π(θ|δ) sea grande cuando θ ∈ Ω1 . Una forma de alcanzar ese balance es seleccionar α0 ∈ (0, 1) tal que π(θ|δ) ≤ α0 ∀θ ∈ Ω0 (∗) y entre todas las pruebas que cumplan (∗) se selecciona aquella que maximice la potencia para θ ∈ Ω1 . 157 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR En nuestro ejemplo suponga que elegimos α0 = 0,1. La región roja indica donde estaría ubicado π(θ|δ) ≤ α0 . ggplot() + geom_line( data = df, mapping = aes(x = mu, y = funcion_de_poder, color = tipo), size = 2 ) + geom_rect( data = data.frame(xmin = 0, xmax = 8, ymin = 0, ymax = 0.10), mapping = aes(xmin = xmin, xmax = xmax, ymin = ymin, ymax = ymax), alpha = 0.5, fill = "red" ) + geom_hline(yintercept = 0.05) + theme_minimal() 1.00 funcion_de_poder 0.75 tipo 0.50 1 - Función de poder Función de poder 0.25 0.00 0 2 4 6 mu Otra forma es minimizar; w1 · Error I + w2 · Error II; w1 , w2 constantes. 8 158 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS Nota. Bajo la primera solución se produce una asimetría entre las hipótesis, ya que resulta difícil (o muy costoso) que ambas condiciones se cumplan. Por lo general, se le da más énfasis a (∗), ya que se trata de controlar el error más serio (Error tipo I). En este caso es importante anotar que un científico puede seleccionar su hipótesis nula de manera que el error tipo I sea el más deseable de controlar. Definición. Una prueba que satisface (∗) se llama una prueba de nivel α0 y decimos que la prueba tiene un nivel de significancia α0 . Además el tamaño α(δ) de una prueba δ se define como: α(δ) = sup π(θ|δ). θ∈Ω0 Corolario. Una prueba δ es una prueba de nivel α0 si y solo si su tamaño es a lo sumo α0 (α(δ) ≤ α0 ). En el caso de una hipótesis nula simple: α(δ) = π(θ0 |δ). Ejemplo. Suponga X1 , . . . , Xn ∼ Unif(0, θ), θ > 0 desconocido. Se quiere probar las siguientes hipótesis: H0 : 3 ≤ θ ≤ 4 H1 : θ < 3 o θ > 4. El MLE de θ es Yn = X(n) . Si n es grande, Yn es muy cercano a θ. Suponga que definimos que la prueba δ no rechaza H0 si 2,9 < Yn < 4 y rechaza H0 si Yn ≥ 4 o Yn ≤ 2,9. Entonces R = (−∞, 2,9] ∪ [4, +∞) y la función de potencia π(θ|δ) = P[Yn ≤ 2,9|θ] + P[Yn ≥ 4|θ] π(θ|δ) se calcula en varios casos: Si θ ≤ 2,9 =⇒ P[Yn ≤ 2,9|θ] = 1 y P[Yn ≥ 4|θ] = 0. Si 2,9 < θ ≤ 4 =⇒ P[Yn ≤ 2,9|θ] = P[Yn ≥ 4|θ] = 0. i=1 P[Xi ≤ 2,9|θ] = Qn 2,9 θ n y 159 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR Si θ > 4 =⇒ P[Yn ≤ 2,9|θ] = 4|θ] = 1 − 4 θ n 2,9 θ n y P[Yn ≥ 4|θ] = 1 − n Y P[Xi < i=1 . Entonces 1 2,9 n si θ ≤ 2,9 si 2,9 < θ ≤ 4 π(θ|δ) = θ n 2,9 1 + θ − 4 θ n si θ > 4 theta <- seq(1, 6, length.out = 1000) n <- 5 funcion_poder <- numeric() for (k in 1:length(theta)) { if (theta[k] < 2.9) { funcion_poder[k] <- 1 } else if (theta[k] > 2.9 & theta[k] <= 4) { funcion_poder[k] <- (2.9 / theta[k])ˆn } else if (theta[k] > 4) { funcion_poder[k] <- (2.9 / theta[k])ˆn + 1 - (4 / theta[k])ˆn } } plot(theta, funcion_poder, type = "l") 160 0.6 0.2 0.4 funcion_poder 0.8 1.0 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS 1 2 3 4 5 6 theta Note, además, que el tamaño de prueba es α(δ) = sup π(θ|δ) = sup 3≤θ≤4 n <- 1:100 plot(n, (2.9 / 3)ˆn) 3≤θ≤4 2,9 θ n 2,9 = 3 n . 161 0.6 0.4 0.0 0.2 (2.9/3)^n 0.8 1.0 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 0 20 40 60 80 100 n 2,9 Si n = 68 =⇒ α(δ) = 3 68 = 0,0997. Entonces si n = 68, entonces δ es una prueba con nivel de significancia α0 ≥ 0,0997. Pregunta importante: ¿Cómo diseñar una prueba para que tenga un cierto nivel de significancia? Suponga que queremos probar H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Sea T un estadístico de prueba y suponga que si T ≥ c, c constante, entonces rechazamos H0 . Si queremos que nuestra prueba tenga nivel de significancia α0 entonces: π(θ|δ) = P(T ≥ c|θ) y sup P[T ≥ c|θ] ≤ α0 θ∈Ω0 (∗) Note que π(θ|δ) es función no-creciente de c, entonces (∗) se cumple para valores grandes de c, si θ ∈ Ω0 . Si θ ∈ Ω1 , debemos escoger c pequeño para maximizar π(θ|δ). Ejemplo. En el caso normal, donde H0 : µ = µ0 y rechazamos H0 si |X̄n − µ0 | ≥ c. Entonces: 162 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS sup P[T ≥ c|θ] = Pµ0 [|X̄n − µ0 | ≥ c] ≤ α0 . θ∈Ω0 ! σ2 Como bajo H0 : Y = X̄n − µ0 ∼ N 0, , entonces podemos encontrar c tal n que P[|X̄n − µ0 | ≥ c] = α0 , y cualquier c mayor va a cumplir (∗). De esta manera el problema se convierte en encontrar c∗ tal que P[|Z| > c∗ ] = X̄n − µ0 √ . α0 , donde Z = σ/ n Note que α0 = P(|Z| > c∗ ) = P(Z > c∗ ) + P(Z < −c∗ ) = 1 − P(Z ≤ c∗ ) + P(Z < −c∗ ) = 1 − P(Z ≤ c∗ ) + 1 − P(Z < c∗ ) = 2 − 2P(Z ≤ c∗ ) Entonces P(Z ≤ c∗ ) = 1 − α0 2 Por lo tanto el c∗ que se busca es c∗ = FZ−1 1 − α0 2 En el caso particular de la normal denotaremos F como Φ. Entonces, Φ(c∗ ) = 1 − α0 =⇒ c∗ = z1− α20 . 2 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR Procedimiento: rechazamos H0 si |Z| = X̄n − µ0 √ ≥ z1− α20 . σ/ n n <- 10 alpha0 <- 0.05 X <- rnorm(n = n, mean = 5, sd = 1) Xbar <- mean(X) mu0 <- 5 Z <- sqrt(n) * (Xbar - mu0) / 1 (q <- qnorm(1 - alpha0 / 2)) ## [1] 1.959964 dnorm_limit <- function(x, q) { y <- dnorm(x) y[-q <= x & x <= q] <- NA return(y) } ggplot(data.frame(x = c(-3, 3)), aes(x)) + stat_function( fun = dnorm_limit, geom = "area", args = list(q = q), fill = "blue", alpha = 0.2 ) + stat_function(fun = dnorm) + theme_minimal() 163 164 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS 0.4 y 0.3 0.2 0.1 0.0 -2 0 2 x La pregunta que debemos siempre responder es ¿Rechazamos H0 ? abs(Z) > q ## [1] FALSE Si repetimos el ejercicio anterior, pero los datos tiene media igual a 1 y dejamos que µ0 = 5, entonces n <- 10 alpha0 <- 0.05 X <- rnorm(n = n, mean = 1, sd = 1) Xbar <- mean(X) mu0 <- 5 Z <- sqrt(n) * (Xbar - mu0) / 1 Si preguntamos ¿Rechazamos H0 ? abs(Z) > q ## [1] TRUE 165 10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR mu0 <- 5 n <- 10 sigma <- 1 alpha0 <- 0.05 c <- qnorm(1 - alpha0 / 2) * sigma / sqrt(n) mu <- seq(3, 7, length.out = 1000) funcion_de_poder <- 1 pnorm(sqrt(n) * (mu0 + c - mu) / sigma) + pnorm(sqrt(n) * (mu0 - c - mu) / sigma) 0.6 0.4 0.2 funcion_de_poder 0.8 1.0 plot(mu, funcion_de_poder, type = "l", lwd = 2) abline(h = 0.05, col = "red", lwd = 2) 3 4 5 6 7 mu Ejemplo. Suponga que X1 , . . . , Xn ∼ Ber(p) y se quiere probar las hipótesis: H0 : p ≤ p0 vs H1 : p > p0 Sea Y = ni=1 Xi ∼ Binomial(n, p). Es trivial concluir que entre más grande es p entonces más grande esperamos que sea Y . Podemos definir la regla que P 166 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS rechaza H0 si Y ≥ c para alguna constante c. La potencia de prueba es: P[Y ≥ c|p] = n X y=c n X n y n p (1 − p)n−y = y y=c y ! ! p 1−p | !y (1 − p)n {z g(p) } y además note que g(p) es monótona con respecto a p. Entonces: sup P[Y ≥ c|p] = P[Y ≥ c|p0 ] ≤ α0 . p≤p0 Si n = 10, p0 = 0,3, α0 = 10 %, entonces c 0 P[Y ≥ c|p0 ] 1 1 2 3 4 5 6 0.97 0.85 0.62 0.35 0.15 0.05 Para que el tamaño sea menor que 10 % seleccione c > 5. Si c ∈ [5, 6] entonces el nivel de significancia es a lo sumo 0,15 y la prueba no cambia (ya que Y es una variable discreta). c <- 5 n <- 10 alpha0 <- 0.05 p <- seq(0, 1, length.out = 1000) funcion_de_poder <- 1 - pbinom(q = c, size = n, prob = p) plot(p, funcion_de_poder, type = "l", lwd = 2) abline(h = 0.05, col = "red", lwd = 2) 167 0.6 0.4 0.0 0.2 funcion_de_poder 0.8 1.0 10.4. VALOR P 0.0 0.2 0.4 0.6 0.8 1.0 p Procedimiento: rechazamos H0 : p ≤ 0,3 si Y ≥ c, c ∈ (5, 6] con un nivel de significancia de 10 % a lo sumo. 10.4. Valor p Restricción. El procedimiento de prueba depende de α0 . Pregunta. ¿Será posible construir un estadístico que resuma el grado de evidencia en los datos en contra de H0 ? Respuesta. Cualquier procedimiento usa las siguientes dos fuentes: 1. El valor observado del estadístico de prueba. 2. Todos los valores de α0 en donde rechazamos la nula. Ejemplo (Caso Normal). Se rechaza H0 : µ = µ0 si |Z| > z1− α20 Ahora si α0 = 0,05 y z1− α20 = 1,96, entonces para Z = 1,97 y Z = 2,78 y Z = 6,97 todos cumplen esa condición. Entonces la preguntas son: 168 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS ¿Bajo cuál escogencia de Z estamos más alejados (o más cerca) de no rechazar H0 bajo un α0 fijo? Si otro investigador toma una α0 distinto, ¿cómo se compara la decisión que toma al observar Z con la que hizo el primer investigador? Solución: no reportar el valor α0 sobre el cual se determina la decisión δ, sino reportar todos los valores α0 para los cuales habria rechazo de H0 bajo una realización de Z. Por ejemplo, si se observa Z = z entonces reportamos todos los α0 que cumplen: α0 z>Φ 1− 2 α0 Φ(z) > 1 − 2 α0 > 2(1 − Φ(z)) −1 Si Z = 1,97 entonces α0 > 0,0488384 Si Z = 2,78 entonces α0 > 0,0054359 Si Z = 6,97 entonces α0 > 3,1694647 × 10−12 Nota: En cada caso se estimó usando el comando 2*(1-pnorm(Z)). Definición. El valor-p es el nivel más pequeño de significancia en donde rechazaríamos H0 bajo los datos observados. Nota. El valor-p es un estadístico. Si valor-p < α0 , rechazo H0 . (El valor-p es muy pequeño). Si valor-p > α0 , no rechazo H0 . (El valor-p es muy grande). Cálculo del valor-p En los casos en donde la región de rechazo tiene la forma T ≥ c se puede calcular el valor-p fácilmente. Para cada t, sea δt la prueba que rechaza H0 si T ≥ t. Note que el valor-p cuando se observa T = t se calcula a partir de la regla de decisión de rechazo (θ ∈ Ω0 ): t ≥ Fθ−1 (1 − α0 ) 10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA169 lo cual es equivalente a: Fθ (t) ≥ 1 − α0 =⇒ α0 ≥ Pθ [T ≥ t] =⇒ α0 ≥ sup Pθ [T ≥ t] θ∈Ω0 El cual es el tamaño de la prueba cuando c = t. Ejemplo. Retomando el ejemplo con las variables aleatorias Bernoulli, rechazamos H0 : p ≤ p0 si Y ≥ c. Así el valor-p cuando Y = y es observado es: valor-p = sup Pp [Y ≥ y] = Pp0 [Y ≥ y] p∈Ω0 Si p0 = 0,3, n = 10, y = 6, entonces el valor correspondiente es Pp0 [Y ≥ 6] = 0,047349. El código R es pbinom(q = 5, size = 10, prob = 0.3, lower.tail = FALSE) 10.5. Dualidad entre pruebas de hipótesis y regiones de confianza Teorema. Sea X = (X1 , . . . , Xn ) una muestra con distribución Fθ . Sea g(θ) una función tal que para cada valor g0 de g(θ), existe una prueba δg0 con nivel α0 de las hipótesis: H0,g0 : g(θ) = g0 vs H1,g0 : g(θ) 6= g0 . Defina para cada x ∈ X ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x es observado} (∗) Sea γ = 1 − α0 . Entonces ω(X) cumple que: P[g(θ0 ) ∈ ω(X)|θ = θ0 ] ≥ γ, ∀θ0 ∈ Ω. Definición. Si ω(X) satisface (∗) ∀θ0 ∈ Ω, entonces ω(X) es un conjunto de confianza con coeficiente γ donde γ = 1 − α0 . 170 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS Teorema. Bajo las condiciones anteriores, si ω(X) es un conjunto de confianza para g0 , entonces construimos δg0 : no rechazo H0,g0 si y solo si g0 ∈ ω(X), entonces δg0 es una prueba con nivel α0 = 1 − γ para las hipótesis H0,g0 y H1,g0 . Ejemplo. En el caso en que X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) (desconocidos). Considere g(θ) = µ. El intervalo de confianza con nivel γ para µ es σ0 X̄n ± tn−1, 1+γ √ . 2 n 1/2 n 1 2 donde σ 0 = n−1 . Para cada µ0 , podemos usar el intervalo i=1 (Xi − X̄n ) anterior para encontrar una prueba a las hipótesis: P H0 : µ = µ0 vs H1 : µ 6= µ0 . Por los teoremas anteriores, H0 se rechaza si µ0 no está en el IC, es decir, si y solo si σ0 µ0 > X̄n + tn−1, 1+γ √ 2 n o σ0 µ0 < X̄n − tn−1, 1+γ √ , 2 n que se puede resumir como X̄n − µ0 √ > tn−1, 1+γ 2 σ0/ n es decir 1+γ =1− 2 de Student. α 2 es el nivel de confianza en el cálculo del cuantil de la t n <- 1000 gamma <- 0.95 alpha <- 0.95 X <- rnorm(n = n, mean = 1, sd = 2) mu0 <- 1 Xbar <- mean(X) 10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA171 sigma_prima <- sd(X) t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1) El intervalo de confianza es c(Xbar - t_quantil * sigma_prima / sqrt(n), Xbar + t_quantil * sigma_prima / sqrt(n)) ## [1] 0.8097168 1.0572793 H0 : µ = 1 vs H1 : µ 6= 1. Para probar esta prueba se debe comprobar que Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n))) Preguntamos ¿Rechazamos H0 ? Z > t_quantil ## [1] FALSE Si tuvieramos otros datos con otra media, el resultado será diferente. n <- 1000 gamma <- 0.95 alpha <- 0.95 X <- rnorm(n = n, mean = 5, sd = 2) mu0 <- 1 Xbar <- mean(X) sigma_prima <- sd(X) t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1) c(Xbar - t_quantil * sigma_prima / sqrt(n), Xbar + t_quantil * sigma_prima / sqrt(n)) ## [1] 4.828233 5.081358 172 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS ¿Rechazamos H0 ? Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n))) Z > t_quantil ## [1] TRUE Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido. Construya un intervalo de confianza con nivel γ a partir de H0 : µ = µ0 vs H1 : µ 6= µ0 . Rechazamos H0 si X̄n − µ0 √ ≥ z1− α20 . σ/ n al nivel α0 . Usando los teoremas anteriores, una región de confianza con nivel γ = 1 − α0 satisface: ( X̄n − µ √ < z1− α20 µ∈ X: σ/ n ) = ω(X) Por tanto, X̄n − µ σ σ √ < z1− α20 ⇔ − √ z1− α20 < X̄n − µ < √ z1− α20 σ/ n n n σ σ ⇔ X̄n − √ z1− α20 < µ < X̄n + √ z1− α20 n n que es el IC con nivel de confianza γ = 1 − α0 para µ. 10.5.1. Dualidad en pruebas unilaterales Si X = (X1 , . . . , Xn ) es una muestra según Fθ y g(θ) es una función de variable real, suponga que para cada g0 ∈ Im(g) existe una prueba δg0 con nivel α0 de las hipótesis: H0,g0 : g(θ) ≤ g0 H1,g0 : g(θ) > g0 10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA173 Si ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x} y si γ = 1 − α0 , entonces ω(X) es una región de confianza para g(θ) con nivel γ. Ejemplo (Bernoulli). H0 : p ≤ p0 vs H1 : p > p0 , p0 ∈ (0, 1) El criterio de rechazo al nivel α0 es Y = n X Xi ≥ c(p0 ) i=1 donde sup Pp [Y ≥ c] = Pp0 [Y ≥ c] ≤ α0 . p≤p0 Entonces ω(X) = {X : Y < c(p0 )} = {p0 : valor-p > α0 }. es una región de confianza para p al (1 − α0 ) %. Si n = 10, Y = 6, α0 = 10 %, ω(x) = {p0 : Pp0 [Y ≥ 6] > 0,1}. Numéricamente, si p0 > 35,42 % =⇒ p0 ∈ ω(x), entonces ω(x) = (0,3542, 1] si α0 = 10 % y es un IC observado para p0 con nivel de 90 %. Ejemplo. X = (X1 , . . . , Xn ) ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido. Queremos probar H0 : µ ≤ µ0 vs H1 : µ > µ0 . Por dualidad, basta con conocer un IC unilateral para µ: 174 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS σ0 X̄n − tn−1,γ √ , ∞ . n ! para rechazar H0 al nivel de confianza γ si: σ0 X̄n − µ0 µ0 ≤ X̄n − tn−1,γ √ ⇔ T = 0 √ ≥ tn−1,γ n σ/ n (rechazando en la cola derecha de T). 10.5.2. Pruebas de cociente de verosimilitud (LRT) Si H0 : θ ∈ Ω0 vs H1 : θ ∈ Ωc0 = Ω1 . El estadístico LRT o estadístico de cociente de verosimilitud se define como Λ(x) = supθ∈Ω0 fn (x|θ) . supθ∈Ω fn (x|θ) Una prueba de cociente de verosimilitud rechaza H0 si Λ(x) ≤ k, para una constante k. Ejemplo. Supongamos que se observa Y : el número de éxitos en el experimento Bernoulli(θ) con tamaño de muestra n. Considere las hipótesis: H0 : θ = θ0 vs H1 : θ 6= θ0 . Verosimilitud: f (y|θ) = n y θy (1 − θ)n−y . Ω0 = {θ0 }, Ω1 = [0, 1] \ {θ0 }. Numerador: f (y|θ0 ). ! n y ȳ (1 − ȳ)n−y . Denominador: f (y|ȳ) = y f (y|θ0 ) Λ(y) = = f (y|ȳ) nθ0 y !y n(1 − θ0 ) n−y Si n = 10, θ0 = 0,3, y = 6, α0 = 0,05. !n−y , y = 0, . . . , n. 10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA175 n <- 10 p0 <- 0.3 y <- 0:10 alpha0 <- 0.05 p <- choose(n, y) * p0ˆy * (1 - p0)ˆ(n - y) Lambda <- numeric(n) Lambda[y == 0] <- (1 - p0)ˆn ym1 <- y[y != 0] Lambda[y != 0] <- (n * p0 / ym1)ˆym1 * ((n * (1 - p0)) / (n - ym1))ˆ(n - ym1) 0.6 0.4 0.0 0.2 Lambda 0.8 1.0 plot(y, Lambda, type = "l", col = "blue") lines(y, p, type = "l", col = "red") 0 2 4 6 y knitr::kable(cbind(y, Lambda, p)) 8 10 176 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS y Lambda p 0 0.0282475 0.0282475 1 0.3124791 0.1210608 2 0.7731201 0.2334744 3 1.0000000 0.2668279 4 0.7978583 0.2001209 5 0.4182119 0.1029193 6 0.1465454 0.0367569 7 0.0337359 0.0090017 8 0.0047906 0.0014467 9 0.0003556 0.0001378 10 0.0000059 0.0000059 ix <- order(p) knitr::kable(cbind(y[ix], cumsum(p[ix]))) 10 9 8 7 0 6 5 1 4 2 3 0.0000059 0.0001437 0.0015904 0.0105921 0.0388396 0.0755965 0.1785159 0.2995767 0.4996976 0.7331721 1.0000000 Rechazamos H0 con nivel α0 = 0,05 en y ∈ {10, 9, 8, 7, 0} y k ∈ [0,028, 0,147) si rechazo cuando Λ(y) ≤ k. El tamaño de prueba es P0,3 [Rechazo] = P0,3 [Y ∈ {10, 9, 8, 7, 0}] = 0,039. Teorema. Sea Ω un abierto en Rp y suponga que H0 especifica k coordenadas de θ, igualándolas a valores fijos. Asuma que H0 es cierto y que todas las condiciones de regularidad sobre el MLE de θ son ciertas para que este sea asintóticamente normal y eficiente. Entonces: d −2 ln Λ(X) −→ χ2k . H0 10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA177 Ejemplo. Del ejemplo anterior, k = 1, α0 = 5 %. Rechazamos H0 : −2 ln Λ(y) > χ21,1−0,05 = Fχ−1 2 (0,95) = 3,841. 1 Rechazamos H0 bajo la misma región del ejemplo anterior. -2 * log(Lambda) ## ## [1] [7] 7.1334989 3.8408399 2.3264351 0.5146418 0.0000000 0.4516484 6.7783829 10.6822162 15.8832009 24.0794561 1.7435339 qchisq(p = 0.95, df = 1) ## [1] 3.841459 ¿Rechazamos H0 ? knitr::kable(data.frame(y, test = -2 * log(Lambda) > qchisq(p = 0.95, df = 1))) y 0 1 2 3 4 5 6 7 8 9 10 test TRUE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE 178 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS Capítulo 11 Pruebas con hipótesis simples 11.1. Hipótesis simples Ejemplo. Sea X1 , . . . , Xn : tiempos de servicio a clientes en un sistema. El administrador del sistema no está seguro si la distribución conjunta con que se atienden a los clientes es: 2(n!) P f1 (x) = (2 + Xi )n+1 0 Xi > 0 si no O bien si es una Exp(1/2): 1 − 1 P Xi e 2 f0 (x) = 2n 0 si Xi > 0 si no Si H0 : f = f0 vs H1 : f = f1 , ¿Cuál hipótesis es cierta? n <- 1 x <- seq(0, 10, length.out = 1000) f1 <- 2 / (2 + x)ˆ2 179 180 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES f0 <- 1 / 2 * exp(-1 / 2 * x) df <- data.frame(x = c(x, x), f = c(f0, f1), `Distribución` = c(rep("f_0", 1000), rep("f_1", 1000))) ggplot(df, aes(x, f, color = `Distribución`)) + geom_line() + theme_minimal() 0.5 0.4 0.3 Distribución f f_0 f_1 0.2 0.1 0.0 0.0 2.5 5.0 7.5 10.0 x Podemos redefinir las hipótesis si Ω = {θ0 , θ1 } donde si θ = θi , seleccionamos f = fi y se prueba H0 : θ = θ0 vs H1 : θ = θ1 . Asuma que X1 , . . . , Xn ∼ fi (X) donde se pueden tener dos posibilidades (i = 0, 1). Sea Ω = {θ0 , θ1 } donde θ1 es el parámetro que indica a cuál densidad se selecciona como hipótesis. H0 : θ = θ0 vs H1 : θ = θ1 Si δ es un procedimiento de prueba, se denota los errores tipo I y II: α(δ) = P[Rechazo H0 |θ = θ0 ]. 181 11.1. HIPÓTESIS SIMPLES β(δ) = P[No rechazo H0 |θ = θ1 ]. Del ejemplo anterior, se nota que f1 da probabilidades más altas que f0 cuando los tiempos de servicio son altos. Entonces un criterio de rechazo puede ser X1 > 4 si se observa solo n = 1. En este caso, α(δ) = P[X1 > 4|θ = θ0 ] = 1 − (1 − e−0,5·4 ) = 0,135 1 - pexp(q = 4, rate = 1 / 2) ## [1] 0.1353353 β(δ) = P[X1 < 4|θ = θ1 ] = Z 4 0 2 dx1 = 0,667. (2 + x1 )2 Observación: Para densidades no usuales, hay dos formas de calcular los valores Teóricamente calculando la integral directamente. Si la integral es muy díficil y solo se necesita una aproximación númerica se puede usar integrate: densidad_f1 <- function(x) { 2 / (x + 2)ˆ2 } integrate(densidad_f1, lower = 0, upper = 4) ## 0.6666667 with absolute error < 2.9e-12 Nota: Esta distribución se debe estimar teóricamente ya que no hay fórmula predefinida en R. Objetivo. Encontrar un procedimiento de prueba δ tal que α(δ) y β(δ) se reduzcan simultáneamente o al menos si a, b > 0, que aα(δ) + bβ(δ) sea mínimo. Teorema. Sea δ ∗ un procedimiento de prueba tal que no se rechaza H0 : θ = θ0 si af0 (x) > bf1 (x) y se rechaza H0 si af0 (x) < bf1 (x). Si af0 (x) = bf1 (x) 182 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES se puede rechazar o no H0 . Entonces para cualquier otro procedimiento de prueba δ aα(δ ∗ ) + bβ(δ ∗ ) ≤ aα(δ) + bβ(δ). Prueba. Caso discreto solamente. Sea S1 región crítica de una prueba arbitraria δ. Entonces: aα(δ) + bβ(δ) = a X f0 (x) + b X f1 (x) x∈S1c x∈S1 " =a X f0 (x) + b 1 − x∈S1 =b+ X # X f1 (x) x∈S1 (af0 − bf1 (x)) x∈S1 y lo anterior es mínimo si seleccionamos S1 de manera que af0 (x) − bf1 (x) < 0 dentro de S1 y S1 que no tiene puntos x en donde af0 (x) − bf1 (x) > 0. Definición. Defina el Cociente de verosimilitud como: f1 (x) . f0 (x) Note que el estadístico del cociente de verosimilitud (LR) está relacionado con el anterior de la siguiente forma: Λ(x) = supΩ0 f (x|θ) f0 (x) = . máx{f0 (x), f1 (x)} supΩ f (x|θ) Corolario. Bajo las condiciones del teorema anterior, si a, b > 0 entonces la prueba δ para la cual aα(δ) + bβ(δ) es un mínimo rechaza H0 si el cociente a de verosimilitud es mayor a . b Ejemplo: Continuando con el ejemplo de los tiempos de servicio al cliente. En lugar de rechazar H0 : θ = θ0 si X1 > 4 hay que encontrar a y b que puedan balancear ambos tipos de errores. 183 11.1. HIPÓTESIS SIMPLES Supogamos que tomamos a = b, entonces basado en el colorario anterior rechazamos H0 si f1 (x) 4 X1 >1⇔ exp f0 (x) (2 + X1 )2 2 > 1 (∗) g(X 1 ) 1 0 1 2 3 x 4 5 6 Entonces (∗) es cierto si X1 > c. Se puede comprobar numéricamente que c ≈ 5,03. Por lo tanto, rechazamos H0 si X1 > 5,03. En este caso α(δ ∗ ) es igual a 1 - pexp(q = 5.03, rate = 1 / 2) ## [1] 0.08086291 y β(δ ∗ ) densidad_f1 <- function(x) { 2 / (x + 2)ˆ2 } 184 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES integrate(densidad_f1, lower = 0, upper = 5.03) ## 0.715505 with absolute error < 1.3e-10 11.2. Criterio de Neyman-Pearson Queremos encontrar un procedimiento δ para hipótesis simples tal que: 1) α(δ) ≤ α0 (α0 : nivel de significancia). 2) β(δ) es mínimo. La respuesta está en el siguiente resultado: Lema de Neyman-Pearson. Suponga que δ 0 es un procedimiento de prueba que tiene la siguiente forma para alguna constante k > 0: no rechaza H0 si f1 (x) < kf0 (x), la hipótesis H0 es rechazada si f1 (x) > kf0 (x) y H0 puede ser rechazada o no si f1 (x) = kf0 (x). Si δ es otro procedimiento de prueba tal que α(δ) ≤ α(δ 0 ), entonces β(δ) ≥ β(δ 0 ). Específicamente, si α(δ) < α(δ 0 ) entonces β(δ) > β(δ 0 ). Prueba. Tome a = k y b = 1 en el corolario y teoremas anteriores. Entonces para cualquier procedimiento δ: kα(δ 0 ) + β(δ 0 ) ≤ kα(δ) + β(δ), por lo tanto si α(δ) ≤ α(δ 0 ) entonces necesariamente β(δ) ≥ β(δ 0 ). Consecuencia. Si queremos encontrar una prueba δ 0 que satisfaga el criterio de Neyman-Pearson, debemos encontrar k tal que α(δ 0 ) = α0 , y se rechace f0 (x) H0 si f1 (x) > kf0 (x) ⇔ < k −1 . f1 (x) Ejemplo. Suponga que X1 , . . . , Xn ∼ N (θ, 1) y se quiere probar H0 : θ = 0 vs H1 : θ = 1 usando una prueba según el criterio de Neyman-Pearson con α = 0,05. Note que 1 Pn 2 exp − i=1 Xi . 2 " f0 (x) = (2π) −n/2 # 185 11.2. CRITERIO DE NEYMAN-PEARSON 1 Pn (Xi − 1)2 . exp − 2 i=1 " f1 (x) = (2π) −n/2 # Entonces n f1 (x) 1X = exp − (Xi2 − 2Xi + 1 − X12 ) f0 (x) 2 i=1 " # " n = exp nX̄n − 2 # 1 = exp n X̄n − 2 " # Rechazamos H0 si f1 (x) 1 = exp n X̄n − f0 (x) 2 " # > k ⇔ X̄n > 1 ln k + . 2 n | {z } k0 Entonces buscamos k 0 tal que X̄n k0 √ > √ θ = 0 = 0,05 P[X̄n > k 0 |θ = 0] = 0,05 ⇔ P 1/ n 1/ n " Despejando, # √ z0,95 k 0 n = z0,95 =⇒ k 0 = √ . n Entonces, entre todas las pruebas en donde α(δ) ≤ 0,05, la que tiene el error tipo II más pequeño es la que rechaza H0 si z0,95 1,645 X̄n > √ = √ . n n El error tipo II de esta prueba sería β(δ 0 ) = P[X̄n < 1,645n−1/2 |θ = 1] 1,645n−1/2 − 1 =P Z< = Φ(1,645 − n1/2 ) n−1/2 " # 186 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES Si n = 9, por ejemplo, β(δ 0 ) = Φ(1,645 − 3) = 0,0877. Ejemplo. X1 , . . . , Xn ∼ Ber(p) y considere las hipótesis H0 : p = 0,2 vs H1 : p = 0,4. Queremos encontrar un procedimiento de prueba en donde α(δ) = 0,05 y β(δ) P es mínimo. Sea y = ni=1 Xi . f0 (x) = 0,2y 0,8n−y f1 (x) = 0,4y 0,6n−y Entonces el cociente de verosimilitud es 3 f1 (x) = f0 (x) 4 n y 8 3 y se rechaza H0 si f1 (x) 4 8 > k ⇔ −n ln + y ln > ln k f0 (x) 3 3 ln k + n ln(4/3) = k0. ⇔y> ln(8/3) Entonces basta con encontrar k 0 tal que P(Y > k 0 |p = 0,2) = 0,05, pero como Y es una variable discreta (Binomial), no es posible encontrar ese k 0 . Note que en el caso en que n = 10: P(Y > 4|p = 0,2) = 0,0328 P(Y > 3|p = 0,2) = 0,1209 Por lo tanto, se puede especificar una prueba con nivel 0.05, y con tamaño α(δ) = 0,0328 y potencia mínima si tiene como región de rechazo Y > 4. 187 11.3. PRUEBAS INSESGADAS 11.3. Pruebas insesgadas Definición. Considere las hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Decimos que una prueba de hipótesis δ es insesgada si ∀θ ∈ Ω0 y ∀θ0 ∈ Ω1 : π(θ|δ) ≤ π(θ0 |δ). Esto quiere decir que la probabilidad de que la prueba δ rechace la hipótesis nula es siempre más alta cuando la hipótesis alternativa es verdadera que cuando la hipótesis nula es verdadera. Una forma fácil de crear pruebas insesgadas es resolviendo númericamente las ecuaciones π (θ0 | δ) = α0 d π(θ | δ) =0 dθ θ=θ0 donde la segunda ecuación es la derivada con respecto al parámetro evaluada en θ0 . Ejemplo: Retomando el ejemplo del servicio al cliente, suponga que se quiere ver si H0 : θ = 1 2 vs H1 : θ 6= 1 2 La pregunta sería cómo encontrar un test que sea insesgado? Primero podemos hacer una prueba del cociente de verosimilitud para enconP trar que tipo de prueba es más adecuada. Tomando t = ni=1 Xi : (1/2)n exp(−t/2) t Λ(x) = = n (n/t) exp(−n) 2n n exp(n − t/2) Esta prueba rechaza H0 si Λ(x) ≤ c para algún c Por ejemplo, poniendo n = 10 y c = 0,2, vemos que Λ(x) tiene esta forma. 188 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES n <- 10 t <- 1:50 f <- (t / (2 * n))ˆn * exp(n - t / 2) 0.0 0.2 0.4 f 0.6 0.8 1.0 plot(t, f) abline(h = 0.2, col = "red") 0 10 20 30 40 50 t Para resolver correctamente el ejercicio se deben encontrar valores c1 y c2 de modo que c1 2n n exp (n − c1 /2) = Además, recuerde que T = Pn i=1 c2 2n n exp (n − c2 /2) Xi es Γ(n, 21 ) bajo H0 . Para obtener un nivel α (e.g. 5 %), c1 y c2 deben satisfacer P(T ≤ c1 ) + P(T ≥ c2 ) = αG (c1 ; n, 1/2) + 1 − G (c2 ; n, 1/2) = α 11.3. PRUEBAS INSESGADAS 189 Donde G es la función de distribución de una gamma. Se debe resolver esta dos ecuaciones simultáneamente para c1 y c2 fn <- function(c1, c2, n) { zero <abs((c1 / (2 * n))ˆn * exp(n - c1 / 2) (c2 / (2 * n))ˆn * exp(n - c2 / 2)) alpha <- pgamma(q = c1, shape = n, rate = 1 / 2) + pgamma( q = c2, shape = n, rate = 1 / 2, lower.tail = FALSE ) } return(c(zero, alpha)) fn2 <- function(x, n) { crossprod(fn(x[1], x[2], n) - c(0, 0.05)) } sol <- optim(c(1, 1), fn2, n = 3) sol$par ## [1] 1.425302 15.895757 Entonces rechazamos H0 si T ≥ 15,895757 o T ≤ 1,4253018. Ahora si se desea encontrar una prueba insesgada, lo que se debe considerar es encontrar una prueba de modo que se cumplan las ecuaciones vistas en la definición 190 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES π(θ | δ) = G (c1 ; n, θ) + 1 − G (c2 ; n, θ) = α ⇐⇒ G (c1 ; 3, 1/2) + 1 − G (c2 ; 3, 1/2) = 0,05 Derivando (ver 9.4.13 del libro), se plantea la segunda ecuación del sistema: ∂ n G(x; n, θ) = [G(x; n, θ) − G(x; n + 1, θ)] ∂θ θ por lo tanto d π(θ | δ) =0 dθ θ=θ0 ⇐⇒ G0 (c1 ; 3, 1/2) − G0 (c2 ; 3, 1/2) = 0 lo cual es equivalente a: 3 3 [G(c1 ; 3, 1/2) − G(c1 ; 4, 1/2)] − [G(c2 ; 3, 1/2) − G(c2 ; 4, 1/2)] = 0 1/2 1/2 ! fn <- function(c1, c2, n) { zero <- n / 0.5 * abs( pgamma(q = c1, shape = pgamma(q = c1, shape pgamma(q = c2, shape pgamma(q = c2, shape ) n, rate = 1 / = n + 1, rate = n, rate = 1 = n + 1, rate 2) = 1 / 2) / 2) + = 1 / 2) alpha <- pgamma(q = c1, shape = n, rate = 1 / 2) + pgamma( 191 11.4. PRUEBA T ) } q = c2, shape = n, rate = 1 / 2, lower.tail = FALSE return(c(zero, alpha)) fn2 <- function(x, n) { crossprod(fn(x[1], x[2], n) - c(0, 0.05)) } sol <- optim(c(1, 1), fn2, n = 3) sol$par ## [1] 1.424926 15.896302 Que resulta en valores prácticamente iguales a los de la prueba anterior. 11.4. Prueba t La prueba t se aplica cuando tanto la media µ como la desviación estándar σ son desconocidas en el caso de una muestra normal, y se busca hacer inferencia sobre µ. Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ), con (µ, σ 2 ) desconocidos, y considere las siguientes hipótesis: H0 : µ ≤ µ0 vs H1 : µ > µ0 . X̄n − µ0 √ , entonces la prueba rechaza H0 si U ≥ c. Si σ0/ n µ = µ0 entonces U ∼ tn−1 . Recuerde que si U = Si H0 : µ ≥ µ0 vs H1 : µ < µ0 , entonces se rechaza H0 si U ≤ c. 192 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES Ejemplo: Recordemos el ejemplo de los días que un paciente tarda en una casa de cuido en Nuevo México load("./data/Nursing.rda") hist(Nursing$InPatientDays) 6 0 2 4 Frequency 8 10 12 Histogram of Nursing$InPatientDays 0 100 200 300 400 500 Nursing$InPatientDays Se quiere probar la hipótesis de H0 : µ ≤ 200 versus H1 : µ > 200, es decir queremos saber si los pacientes duran más de 200 días en cuidados. El estadístico de prueba sería U= √ (X − µ) n σ0 y el test rechaza H0 si U > tn−1,1−α . x <- Nursing$InPatientDays n <- length(x) xbar <- mean(x) sigma_prima <- sd(x) alpha <- 0.1 mu0 <- 200 193 11.4. PRUEBA T quantil_t <- qt(p = 1 - alpha, df = n - 1) U <- sqrt(n) * (xbar - 200) / sigma_prima ¿Rechazamos H0 ? U > quantil_t ## [1] FALSE Entonces no tenemos suficiente evidencia en la muestra para rechazar la hipótesis H0 con un nivel de significancia del 10 %. 11.4.1. Propiedades de las pruebas t Teorema. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Sea el estadístico U definido anteriormente y c = tn−1,1−α0 . Sea δ la prueba que rechaza H0 si U ≥ c. Entonces i) π(µ, σ 2 |δ) = α0 si µ = µ0 . ii) π(µ, σ 2 |δ) < α0 si µ < µ0 . iii) π(µ, σ 2 |δ) > α0 si µ > µ0 . iv) π(µ, σ 2 |δ) → 0 si µ → −∞. v) π(µ, σ 2 |δ) → 1 si µ → +∞. Entonces, la prueba δ tiene tamaño α0 y es insesgada. Prueba. Ver en el libro. En el caso en donde H0 : µ ≥ µ0 las desigualdades se intercambian y la prueba también tiene tamaño α0 y es insesgada. Teorema. Bajo cualquiera de los dos casos anteriores, sea u el valor observado de U . Entonces, el valor-p de la prueba δ que rechaza H0 : µ ≤ µ0 es 1−Tn−1 (u) donde Tn−1 es c.d.f de tn−1 y si la prueba rechaza H0 : µ ≥ µ0 entonces el valor-p es Tn−1 (u). Prueba. El caso H0 : µ ≤ µ0 es análogo al cálculo del valor-p que se hizo en el capítulo anterior. El caso H0 : µ ≥ µ0 se rechaza si −1 U ≤ Tn−1 (α0 ) ⇔ Tn−1 (u) ≤ α0 . 194 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES Es decir, el nivel más pequeño de significancia observada es Tn−1 (u) Ejemplo: ¿Cuál es el valor p del ejemplo de casas de cuido? 1 - pt(q = U, df = n - 1) ## [1] 0.9064029 t.test(x, alternative = "greater", mu = 200) ## ## ## ## ## ## ## ## ## ## ## One Sample t-test data: x t = -1.3369, df = 51, p-value = 0.9064 alternative hypothesis: true mean is greater than 200 95 percent confidence interval: 163.6466 Inf sample estimates: mean of x 183.8654 entonces el mínimo valor de significancia en donde hay rechazo de H0 es 0.9064. Considere el caso H0 : µ ≤ µ0 vs H1 : µ > µ0 . Región de rechazo: δ: U ≥ c con U = X̄n − µ0 √ . σ0/ n Recuerden que δ es una prueba insesgada con nivel α0 si c = tn−1,1−α0 . Valor-p: si observamos U = u, se rechaza H0 si u ≥ tn−1,1−α0 , Tn−1 (u) ≥ Tn−1 (tn−1,1−α0 ) = 1 − α0 =⇒ 1 − Tn−1(u) = T̄n−1 (u). Función de potencia: 195 11.4. PRUEBA T " X̄n − µ0 √ ≥ tn−1,1−α0 µ P[Rechazo|µ] = P σ0/ n # X̄n + µ − µ − µ0 √ == P ≥ tn−1,1−α0 µ σ0/ n " " # X̄n − µ µ − µ0 √ + 0 √ ψ̂ ≥ tn−1,1−α0 µ =P σ0/ n σ/ n | {z ∆ } # | {z } Observe que √ n(X̄n − µ) X̄n − µ σ N (0, 1) σ ∆= 0 √ · = ∼s 2 ∼ tn−1 . 0 σ σ/ n σ χn−1 σ n−1 De igual forma, vea que ψ z√ }| { √ √ n(X̄n − µ0 ) n n (X̄n − µ) + (µ − µ0 ) N (ψ, 1) σ σ σ = ∼s 2 . U= 0 0 σ σ χn−1 σ σ n−1 Definición. Si Y , W son independientes con W ∼ N (ψ, 1) y Y ∼ χ2m , entonces X se distribuye como una t-Student no centrada con parámetro ψ si W X=s . Y m Si Tm (t|ψ) es c.d.f de X, entonces π(µ|δ) = T̄n−1 (tn−1,1−α0 , ψ̂). 196 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES En el caso que la prueba sea H0 : µ ≥ µ0 vs H1 : µ < µ0 . π(µ|δ) = P[U ≤ tn−1,1−α0 ] = Tn−1 (tn−1,α0 , ψ̂). Conclusión: a partir del error tipo II se puede determinar un tamaño de muestra dado, siempre y cuando existan restricciones sobre µ y σ 2 . En el caso de las casas de cuido, suponga que queremos ver el poder cuando √ µ = 200 + σ/2, entonces el parámetro de no centralidad queda en ψ̂ = 2n . n <- length(x) alpha0 <- 0.05 q <- qt(p = 1 - alpha0, df = n - 1) parametro_no_central <- sqrt(n) / 2 (poder <- pt(q = q, df = n - 1, ncp = parametro_no_central)) ## [1] 0.02792138 11.4.2. Prueba t pareada A veces se quiere comparar la misma variable pero medida bajo dos condiciones distintas o bien para cada individuo se midió una variable en donde momentos distintos. Una de las posibles preguntas de interés es verificar si la media de un experimento/condición /momento es menor o mayor que la otra. Lo usual en estos casos es restar ambas medias y hacer una prueba de hipótesis con µ0 = 0 y trabajar con una muestra compuesta por la diferencias de las muestras ordenadas por individuos. Ejemplo: Suponga que se tiene los datos de muñecos de prueba para probar carros en simulaciones de accidentes de tránsito. Defina Dit1 el daño reportado al conductor y Dit2 el daño al pasajero. Defina el logaritmo !del daño como Yit1 = ln(Dit1 ) y Yit2 = ln(Dit2 ) Xi = Dit1 t1 t2 Yi − Yi = ln =⇒ Dit2 · eXi = Dit1 t2 Di 197 11.4. PRUEBA T Evaluemos la prueba H0 : µ ≤ 0 vs H1 : µ > 0 al 1 %, donde µ: diferencia media en el log-daño entre los muñecos. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) ambos parámetros desconocidos, y n = 164, X̄n = 0,2199, σ 0 = 0,5342, rechazamos H0 si U= 0,2199 − 0 0,5342 = 5,271 > t163,1−0,01 = 2,35. √ 164 El valor-p de la prueba es 1 − P[t163 < 5,271] = 1 × 10−6 Entonces rechazo H0 con cualquier nivel de significancia superior a 1 × 10−6 . σ Suponga que la diferencia media entre conductor y pasajero es . ¿Cuál es el 4 error tipo II? µ − µ0 σ/4 − 0 σ √ = √ =⇒ ψ = µ= = 4 σ/ n σ/ 164 √ 164 = 3,2. 3 El error tipo II es T̄163 (2,35|ψ = 3,2) = 1 − 0,802 = 0,198. 11.4.3. Pruebas t de dos colas Región de rechazo: |U | ≥ tn−1,1− α20 . Función de potencia: π(µ|δ) = P[U ≥ tn−1,1− α20 |µ]+P[U ≤ −tn−1,1− α20 |µ] = Tn−1 (−c|ψ)+1−Tn−1 (c|ψ). Valor-p: si observamos U = u, rechazamos H0 si |u| ≥ tn−1,1− α20 ⇔ Tn−1 (|U |) ≥ 1 − α0 ⇔ α0 ≥ 2[1 − Tn−1 (|u|)] . | {z } 2 valor-p 198 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES Propiedad. La prueba-t unilateral es equivalente a una prueba de cociente de verosimilitud (LRT). (Ejercicio) En general cualquier prueba t es una LRT. Capítulo 12 Prueba de comparación de medias en 2 poblaciones 12.1. Comparación de medias normales i.i.d i.i.d Asuma que X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ). Los parámetros desconocidos son µ1 , µ2 , σ 2 . Asuma que (Xi , Yi ) son independientes y la varianza es la misma (homocedasticidad). Hipótesis: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 . 2 Notación: X̄m , Ȳn , SX = m X n X i=1 i=1 (Xi − X̄m )2 , SY2 = (Yi − Ȳn )2 . Teorema. Considere (m + n − 2)1/2 (X̄m − Ȳn ) U= . 1 1 1/2 2 2 1/2 + (SX + SY ) m n Si µ1 = µ2 =⇒ U ∼ tm+n−2 . 12.2. Prueba t de dos muestras Dada una región de rechazo U ≥ c, 199 200CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES sup P[U ≥ c|µ1 , µ2 , σ 2 ] ≤ α0 =⇒ P[U ≥ c|µ1 = µ2 , σ 2 ] = 1 − Tn+m−2 (c) = α0 µ1 ≤µ2 −1 =⇒ c = Tn+m−2 (1 − α0 ) −1 δ: Rechazo H0 si U > Tn+m−2 (1 − α0 ). Teorema. Si δ es la prueba definida anteriormente, entonces la función de potencia π(µ1 , µ2 , σ 2 |δ) tiene las siguientes propiedades: i. π(µ1 , µ2 , σ 2 |δ) = α0 si µ1 = µ2 . ii. π(µ1 , µ2 , σ 2 |δ) < α0 si µ1 < µ2 . iii. π(µ1 , µ2 , σ 2 |δ) > α0 si µ1 > µ2 . Conclusión. δ es una prueba insesgada con tamaño α0 . iv. Los límites cuando µ1 − µ2 → −∞(+∞) son los mismos del caso de una muestra. Observe que para el caso II: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 . −1 −1 δ : Rechazo H0 si U < Tn+m−2 (α0 ) = −Tn+m−2 (1 − α0 ). Los p-valores son: Caso I: 1 − Tn+m−2 (u) si observamos U = u. Caso II: Tn+m−2 (u). Ejemplo: En el caso de las lluvia suponga que queremos probar H0 : µcon trat. ≤ µsin trat. nubes <- read.table( file = "./data/clouds.txt", sep = "\t", header = TRUE ) log_lluvia <- log(nubes) vs H1 : µcon trat. > µsin trat. 12.2. PRUEBA T DE DOS MUESTRAS 201 n <- nrow(nubes) con_tratamiento <- log_lluvia$Seeded.Clouds sin_tratamiento <- log_lluvia$Unseeded.Clouds (Xbar <- mean(con_tratamiento)) ## [1] 5.134187 (Ybar <- mean(sin_tratamiento)) ## [1] 3.990406 (S2_X <- (n - 1) * var(con_tratamiento)) ## [1] 63.96109 (S2_Y <- (n - 1) * var(sin_tratamiento)) ## [1] 67.39158 Entonces el estadístico que queremos construir para comparar la medias es (OJO en este caso m = n porque tienen la misma cantidad de datos: ) (U <- sqrt(n + n - 2) * (Xbar - Ybar) / (sqrt(1 / n + 1 / n) * sqrt(S2_X + S2_Y))) ## [1] 2.544369 Por tanto se debe comparar con una t-student con 26 + 26 − 2 = 50 grados de libertad. Asuma un α = 0,01 (qnt <- qt(p = 1 - 0.01, df = n + n - 2)) ## [1] 2.403272 ¿ Rechazamos H0 ? U > qnt ## [1] TRUE ¿Cuál es el p-valor? 202CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES 1 - pt(q = U, df = n + n - 2) ## [1] 0.007041329 Interpretación: rechazamos al nivel 1 % de significancia la hipótesis de que las nubes irradiadas tienen una log-precipitación media menor a la de las nubes no irradiadas. En general se rechaza la hipótesis nula ante cualquier nivel de significancia superior a 0.007. 12.2.1. Prueba de 2 colas Hipótesis. H0 : µ1 = µ2 vs H1 : µ1 6= µ2 (Prueba ANOVA con dos grupos). Prueba. δ : Rechazo H0 si |U | ≥ −1 Tm+n−2 α0 1− . 2 Valor-p: 2[1 − Tm+n−2 (|u|)] donde U = u. Ejemplo. Minas de cobre. Sean X1 , . . . , X8 la cantidad de cobre (gramos) en 8 minas en un lugar 1, y Y1 , . . . , Y10 en 10 minas en un lugar 2. Después de recolectar los datos se obtiene lo siguiente X̄8 = 2,6 Ȳ10 = 2,3 2 = 0,32 y SX SY2 = 0,22 El ingeniero de la mina se pregunta: ¿Las dos localizaciones generan el mismo nivel de cobre? Entonces plantea hacer la prueba de hipótesis H0 : µ1 = µ2 H1 : µ1 6= µ2 Con el supuesto que Xi ∼ N (µ1 , σ 2 ), Yj ∼ N (µ2 , σ 2 ) y las dos poblaciones son independientes: n <- 8 m <- 10 n + m - 2 12.3. PRUEBA F 203 ## [1] 16 Xbar <- 2.6 Ybar <- 2.3 S2_X <- 0.32 S2_Y <- 0.22 (U <- sqrt(n + m - 2) * (Xbar - Ybar) / (sqrt(1 / n + 1 / m) * sqrt(S2_X + S2_Y))) ## [1] 3.442652 Si α0 = 1 % (qnt <- qt(p = 1 - 0.01 / 2, df = n + m - 2)) ## [1] 2.920782 Entonces, ¿Rechazamos H0 ? abs(U) > qnt ## [1] TRUE El valor p es 2[1 − T16 (|3,442|)] 2 * (1 - pt(q = U, df = n + m - 2)) ## [1] 0.003345064 Interpretación: Rechazamos al 1 % de significancia la hipótesis de una diferencia no significativa entre las cantidades medias de cobre en cada localización. En general, rechazamos la misma hipótesis para cualquier nivel de significancia superior a 0.0033. Ejercicio. La prueba t de 2 muestras es un LRT. 12.3. Prueba F Definición Si Y y W son variables aleatorias independientes, Y ∼ χ2m y W ∼ χ2n , m, n ∈ Z+ . Defina 204CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES X= Y /m ∼ Fm,n W/n X tiene una distribución F con m y n grados de libertad. La función de densidad es f (x) = i h 1 (m + n) mm/2 nn/2 Γ 2 0 Γ 1 m 2 Γ 1 n 2 · x(m/2)−1 (mx + n)(m+n)/2 x>0 (12.1) x ≤ 0. Propiedades: 1. Si X ∼ Fm,n =⇒ 1/X ∼ Fn,m . 2. Si Y ∼ tn =⇒ Y 2 ∼ F1,n . 3. Los siguientes esquemas son equivalentes: U ∼ tn−1 U 2 ∼ F1,n−1 H0 : µ = µ0 ⇔ H0 : µ = µ0 |U | ≥ |c| U 2 ≥ c∗ i.i.d i.i.d Sean X1 , . . . , Xn ∼ N (µ1 , σ12 ) y Y1 , . . . , Yn ∼ N (µ2 , σ22 ). Si (X, Y ) son independientes, considere: H0 : σ12 ≤ σ22 vs H1 : σ12 > σ22 y tome α0 ∈ (0, 1). Defina el estadístico: 2 SX 1 V = m− SY2 n−1 La siguiente prueba tiene sentido: δ : Rechazo H0 si V ≥ c. (Prueba F) Propiedades de la prueba F: 205 12.3. PRUEBA F Teorema. La distribución de V ∗ = (σ22 /σ12 )V ∼ Fm−1,n−1 y si σ1 = σ2 entonces V ∼ Fm−1,n−1 . La justificación de este teorema va en la línea de que como SY2 ∼ χ2n−1 , calculamos σ22 2 SX ∼ χ2m−1 y σ12 2 SX /σ12 V ∗ = m2 − 12 ∼ Fm−1,n−1 SY /σ2 n−1 2 SX 1 ∼F y bajo el supuesto de homocedasticidad: V = m − m−1,n−1 . SY2 n−1 Por otro lado, note que usando el procedimiento de prueba δ anterior: sup P[V ≥ c|µ1 µ2 , σ12 , σ22 ] ≤ α0 , σ12 ≤σ22 y c se puede obtener resolviendo: −1 P[V ≥ c|µ1 , µ2 , σ12 = σ22 ] = α0 =⇒ c = Fm−1,n−1 (1−α0 ) = G−1 m−1,n−1 (1−α0 ). donde Gm−1,n−1 es el cdf cd una Fm−1,n−1 . Teorema. Si δ se define según lo anterior, i. π(µ1 , µ2 , σ12 , σ22 |δ) = P[V ≥ G−1 m−1,n−1 (1 − α0 )] " σ2 = P V ≥ 22 c σ1 # ∗ = 1 − Gm−1,n−1 ii. π(µ1 , µ2 , σ12 , σ22 , |δ) = α0 si σ12 = σ22 . σ22 c σ12 ! 206CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES iii. π(µ1 , µ2 , σ12 , σ22 |δ) < α0 si σ12 < σ22 . iv. π(µ1 , µ2 , σ12 , σ22 |δ) > α0 si σ12 > σ22 . v. σ12 → 0 =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 0. σ22 vi. σ12 → ∞ =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 1. σ22 Por (i)-(iv) δ es insesgada con tamaño α0 . El valor-p es 1 − Gm−1,n−1 (v), donde V = v es el valor observado. 2 Ejemplo. X1 , . . . , X6 ∼ N (µ1 , σ12 ), SX = 30, Y1 , . . . , Y21 ∼ N (µ2 , σ22 ), SY2 = 30. La hipótesis nula es H0 : σ12 ≤ σ22 . Se calcula V = 30/5 −1 = 3 y F5,20 (1 − 0,05) = 2,71. 40/20 El valor-p corresponde a 1 − G5,20 (3) = 0,035. Interpretación? Ejemplo: Suponga que se tienen los siguientes datos m <- 20 X <- rnorm(n = m, mean = 0, sd = sqrt(6)) head(X) ## [1] 0.1584997 -0.6609568 -0.8543737 0.2095187 -0.8134797 0.2113794 n <- 40 Y <- rnorm(n = n, mean = 10, sd = sqrt(2)) head(Y) ## [1] 8.210181 8.418592 12.318912 10.224731 9.214239 11.166383 Es decir tener 20 datos normales con σ12 = 6 y 40 datos normales con σ22 = 2. En todo caso asuma que σ es desconocidos para cada caso y solo tenemos los datos. Además queremos hacer la prueba de hipótesis 207 12.3. PRUEBA F H0 : σ12 ≤ σ22 H1 : σ12 > σ22 Según la forma que planteamos el ejercicio, deberíamos de rechazar H0 ya que σ12 = 6 > 2 = σ22 Calculamos el estadístico V (S2_X_divido_m_1 <- var(X)) ## [1] 7.319257 (S2_Y_divido_n_1 <- var(Y)) ## [1] 1.712337 (V <- S2_X_divido_m_1 / S2_Y_divido_n_1) ## [1] 4.274424 Para calcular un cuantil te tamaño 1 − α = 0,95 se usa la siguiente función (qnt <- qf(p = 1 - 0.05, df1 = m - 1, df2 = n - 1)) ## [1] 1.85992 ¿Rechazamos H0 ? V > qnt ## [1] TRUE y el valor-p de la prueba es 1 - pf(q = V, df1 = m - 1, df2 = n - 1) ## [1] 6.111004e-05 Interpretación: Rechazamos la hipótesis que σ12 ≤ σ22 con cualquier nivel de significancia superior a 0.02. 208CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES 12.3.1. Prueba de 2 colas (prueba de homocedasticidad) Bajo las hipótesis H0 : σ12 = σ22 vs H1 : σ12 = 6 σ22 , se rechaza si V ≥ c2 o V ≤ c1 con c1 , c2 tales que α0 α0 α0 P[V ≤ c1 ] = y P[V ≥ c2 ] = =⇒ c1 = G−1 m−1,n−1 2 2 2 y c2 = G−1 m−1,n−1 Ejemplo. Mismo ejemplo de las nubes. 2 2 H0 : σcon trat. = σsin trat. 2 2 vs H1 : σcon trat. 6= σsin trat. (m <- length(con_tratamiento)) ## [1] 26 (n <- length(sin_tratamiento)) ## [1] 26 (S2_X_divido_m_1 <- var(con_tratamiento)) ## [1] 2.558444 (S2_Y_divido_n_1 <- var(sin_tratamiento)) ## [1] 2.695663 (V <- S2_X_divido_m_1 / S2_Y_divido_n_1) ## [1] 0.9490963 63,96 25 = 0,9491 V = 67,39 25 −1 Se tiene que c1 = G−1 25,25 (0,0025) = 0,4484 y c2 = G25,25 (0,975) = 2,23. α0 1− 2 209 12.3. PRUEBA F (c1 <- qf(0.025, df1 = m - 1, df2 = n - 1)) ## [1] 0.4483698 (c2 <- qf(0.975, df1 = m - 1, df2 = n - 1)) ## [1] 2.230302 ¿Rechazamos H0 ? V < c1 ## [1] FALSE V > c2 ## [1] FALSE No rechazamos la hipótesis nula. Si observamos V = v, podemos rechazar si v≤ G−1 m−1,n−1 α0 2 =⇒ 2Gm−1,n−1 (v) ≤ α0 o tambien si v≥ G−1 m−1,n−1 α0 1− 2 =⇒ Gm−1,n−1 (v) ≥ 1− α0 =⇒ α0 ≥ 2Ḡm−1,n−1 (v) 2 Por lo tanto, el p-valor es valor-p = 2 mı́n[1 − Gm−1,n−1 (v), Gm−1,n−1 (v)] 2 * min(1 - pf(q = V, df1 = m - 1, df2 = n - 1), pf(q = V, df1 = m - 1, df2 = n - 1)) ## [1] 0.8971154 Interpretación: La prueba de hipótesis rechaza la hipótesis de homocedasticidad con niveles de significancia de al menos 0.897. Es decir no se rechaza la hipótesis con un nivel de 0.05. Propiedad. La prueba F es un LRT. 210CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES Capítulo 13 Bondad de ajuste Hasta el momento, hemos necesitado una distribución indexada por un parámetro para modelar los datos disponibles. Sin embargo, es posible que ese supuesto no se cumpla. En estos casos aún es posible probar la hipótesis de que los datos provienen de una distribución particular versus la hipótesis alternativa de que no provienen de esa distribución. 13.1. Prueba χ2 Suponga que se tienen datos categóricos, es decir datos en los cuales el rango de la variable asume un número finito de categorías o estados (niveles). Ejemplo: Por ejemplo suponga que tenemos información del tipo de sangre en la población de un lugar específico, entonces Categoría Tipo de sangre 1 2 3 4 A B AB O en este caso la variable categórica es el Tipo de sangre con 4 niveles o categorías. 211 212 CAPÍTULO 13. BONDAD DE AJUSTE En general, suponga que tenemos k categorías para una variable categórica en una población dada, pi = P[Categoría i], i = 1, . . . , k es la probabilidad de que un elemento de la población pertenezca a la categoría P i-ésima. Note que ki=1 pi = 1. Sea p01 , . . . , p0k probabilidades propuestas tal Pk que i=1 p0i . Suponga que se consideran las siguientes alternativas: H0 : pi = p0i para i = 1, . . . , k H1 : pi 6= p0i para al menos un i Ejemplo: Siguiendo con el ejemplo, suponga que se quiere hacer la siguiente hipótesis de la población Categoría Tipo de sangre Hipótesis (p0i ) 1 2 3 4 A B AB O 1/3 1/8 1/24 1/2 Suponga una muestra de n elementos. Suponga que Ni es el número de P elementos en la categoría i, ki=1 Ni = n. Note que (N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk ) Nota: Una distribución multinomial tiene la siguiente forma: ( Pr (X1 = x1 , . . . , Xk = xk ) = donde n x1 ,...,xk px1 1 · · · pxkk 0 if x1 + · · · + xk = n otherwise. 213 13.1. PRUEBA χ2 ! n n! = x1 , . . . , x k x1 !x2 ! · · · xk ! El número esperado de elementos del grupo (o celda) i es n · p0i . Si Ni − np0i es cercano a 0 para todo i, entonces tendríamos evidencia a favor de la hipótesis H0 . El estadístico χ2 se define como Q= (Ni − np0i )2 . np0i i=1 k X En 1900, Karl Pearson probó que bajo H0 y conforme n → ∞, entonces: Q −→ χ2k−1 . H0 La prueba χ2 se define a partir de la decisión δ: Rechazo H0 si Q ≥ c. Dado un nivel de significancia α0 , PH0 [Q ≥ c] ≤ α0 =⇒ c = Fχ−1 (1 − α0 ) 2 k−1 A esta prueba también se le llama prueba de bondad de ajuste χ2 . Nota: El estadístico Q se puede interpretar de la forma Q= (observadoi − esperadoi )2 . esperadoi i=1 k X Reglas empíricas 1. La aproximación (Q ∼ χ2k−1 ) funciona muy bien si np0i ≥ 5. 2. La aproximación es buena si np0i ≥ 1,5, i = 1, . . . , k. Ejemplo: Continuando con el ejemplo, suponga que se observan 6004 personas de raza blanca en California y tienen las siguientes estadísticas e hipótesis: 214 CAPÍTULO 13. BONDAD DE AJUSTE Grupo Observado (ni ) Teórico (p0i ) A B AB O 2162 738 228 2876 1/3 1/8 1/24 1/2 Queremos probar H0 : pi = p0i , i = 1, 2, 3, 4. np01 = 6004 · 1/3 = 2001,3. np02 = 6004 · 1/8 = 750,5. np03 = 6004 · 1/24 = 250,2. np04 = 6004 · 1/2 = 3002. (2162 − 2001,3)2 (738 − 750,5)2 (228 − 250,2)2 (2876 − 3002)2 Q= + + + = 20,37. 2001,3 750,5 250,2 3002 El valor-p es F̄χ23 (20,37) = 1,42 × 10−4 . En R el test se puede hacer con la función chisq.test: observado <- c(2162, 738, 228, 2876) probabilidad_hipotetica <- c(1 / 3, 1 / 8, 1 / 24, 1 / 2) chisq.test(x = observado, p = probabilidad_hipotetica) ## ## Chi-squared test for given probabilities ## ## data: observado ## X-squared = 20.359, df = 3, p-value = 0.000143 Rechazamos la hipótesis de que las probabilidades teóricas de tipo de sangre son iguales a los valores hipotéticos. Ejemplo. Sean 0 < Xi < 1, i = 1, 2, . . . , 100. Asuma que Xi ∼ f donde f una densidad continua. Considere las alternativas: 215 13.1. PRUEBA χ2 H0 : f = Unif(0, 1) vs H1 : f 6= Unif(0, 1). Se definen 20 niveles, que corresponden a sub-intervalos de [0,1]. Una observación Xj está en el nivel i si i i−1 ≤ Xj < 20 20 . Nivel 1 2 ··· 20 Frecuencia N1 N2 ··· N20 donde Ni es el número de observaciones que están en el intervalo i. i Xi Grupo 1 2 3 .. . X1 X2 X3 .. . 2 4 17 .. . 100 X100 20 La hipótesis nula anterior es equivalente a H0 : pi = y además note que np0i = 100 · 1 , i = 1, . . . , 20. 20 1 = 5, i = 1, . . . , 20. 20 Entonces el estadístico χ2 es: Q= (Ni − 5)2 . 5 i=1 20 X Rechazamos la hipótesis H0 : f = Unif(0, 1) si Q > χ219 (1 − α0 ). 216 CAPÍTULO 13. BONDAD DE AJUSTE Nota: Este método funciona para cualquier tipo de distribución. El siguiente procedimiento se debe seguir para estos casos i. Particione en k subintervalos disjuntos la recta real o cualquier intervalo en el que la probabilidad de que los datos estén contenidos sea 1. Generalmente k se selecciona de forma que el número esperado de observaciones en cada intervalo sea al menos 5, bajo H0 . ii. Determine las probabilidades p0i hipotéticas que se asignará cada subintervalo. El valor teórico para cada subintervalo será np0i iii. Cuente las observaciones que caen en cada subintervalo. Llame este valor Ni iv. Calcule Q según el procedimiento anterior y tome una decisión con respecto a la hipótesis nula. La hipótesis nula deberá tener una distribución χ2 con k − 1 grados de libertad. Ejemplo. Supongamos que tenemos 23 datos de tiempos de vida útil de partes mecánicas para automóvil. Se aplica una transformación logarítmica en los datos, y los datos transformados son: x <- c( 17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56, 67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.4 ) log_x <- log(x) hist(x) 217 13.1. PRUEBA χ2 4 0 2 Frequency 6 8 Histogram of x 0 50 100 150 x hist(log_x) 4 3 0 1 2 Frequency 5 6 7 Histogram of log_x 2.5 3.0 3.5 4.0 4.5 log_x Suponga que se quiere hacer la prueba de hipótesis 5.0 5.5 218 CAPÍTULO 13. BONDAD DE AJUSTE H0 : f = N (log(50); 0,25) vs H1 : f 6= N (log(50); 0,25) Seleccione k tal que p0i = P[log-tiempo pertenezca al i-ésimo intervalo] ≥ 5 1 ≈ . 23 4 Es decir, podemos tomar k = 4 grupos (intervalos regulares) usando los cuartiles de la distribución bajo H0 : 1. Grupo 1: (FH−10 (0), FH−10 (0,25)] = (−∞, 3,575]. 2. Grupo 2: (FH−10 (0,25), FH−10 (0,5)] = (3,575, 3,912]. 3. Grupo 3: (FH−10 (0,5), FH−10 (0,75)] = (3,912, 4,249]. 4. Grupo 4: (FH−10 (0,75), FH−10 (1)) = (4,249, +∞). Entonces solo para efectos de construir la partición cortes <- qnorm( p = c(0, 1 / 4, 2 / 4, 3 / 4, 1), mean = log(50), sd = sqrt(0.25) ) (intervalos <- cut(c(0, 10), breaks = cortes)) ## [1] (-Inf,3.57] (4.25, Inf] ## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf] (conteos <- cut(log_x, breaks = cortes)) ## [1] (-Inf,3.57] (-Inf,3.57] (-Inf,3.57] (3.57,3.91] (3.57,3.91] (3.57,3.91 ## [7] (3.57,3.91] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25 ## [13] (3.91,4.25] (3.91,4.25] (3.91,4.25] (4.25, Inf] (4.25, Inf] (4.25, Inf ## [19] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf] ## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf] summary(conteos) 13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 219 ## (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf] ## 3 4 8 8 Q= G1 G2 G3 G4 3 4 8 8 (3 − 23 · 1/4)2 (4 − 23 · 1/4)2 (8 − 23 · 1/4)2 (8 − 23 · 1/4)2 + + + = 3,609. 23 · 1/4 23 · 1/4 23 · 1/4 23 · 1/4 El valor-p corresponde a Fχ23 (3,609) = 0,307. conteos <- summary(conteos) chisq.test(conteos) ## ## Chi-squared test for given probabilities ## ## data: conteos ## X-squared = 3.6087, df = 3, p-value = 0.3069 Nota: La función chisq.test si no se llama con ninguna hipótesis nula p, esta asume que p = 1/n para cada categoría. En este caso como son 4 categorías sería 1/4. Con un nivel de significancia de al menos un 31 % aproximadamente, se rechazaría la hipótesis de normalidad con esa escogencia de parámetros. Nota: Otra escogencia de paramétros podría dar un resultado distinto. 13.2. Pruebas χ2 con hipótesis parametrizadas Ejemplo. En el caso anterior, probamos que la distribución Normal con media log(50) = 3,912023 y desviación estándar 0,25 no tenía suficiente evidencia bajo niveles usuales de significancia. La pregunta es entonces, ¿Cuáles serían los parámetros más idóneos en este caso? ¿Los datos pertenecen a una familia normal? 220 CAPÍTULO 13. BONDAD DE AJUSTE En esta sección veremos una técnica para lidiar con este problema. Escriba cada pi (i = 1, . . . , k) como pi = πi (θ), θ = (θ1 , . . . , θs ) Es decir, cada probabilidad es igual a una función particular con respecto a un vector de paramétros θ. Asuma que s < k − 1. Y asuma que una entrada de θ no se puede escribir P como función de las s − 1 restantes. Además suponga que πi (θ) = 1. Las hipótesis a probar son: H0 : pi = πi (θ) para algún parámetro θ ∈ Ω, i = 1, . . . , k H1 : lo anterior no es cierto El estadístico de prueba es Q= k X [Ni − nπi (θ̂)]2 i=1 nπi (θ̂) con θ̂ el MLE de θ usando la distribución de (N1 , . . . , Nk ). En 1924, Fisher probó lo siguiente: Teorema. Bajo H0 y bajo condiciones de regularidad, conforme n → ∞, Q → χ2k−1−s . Ejemplo. Suponga que se tienen 3 grupos para una variable categórica y defina una parámetro 0 < θ < 1. El analista hace el siguiente supuesto: p1 = θ2 = π1 (θ), p2 = 2θ(1 − θ) = π2 (θ), p3 = (1 − θ)2 = π3 (θ). Se observa que p1 + p2 + p3 = θ2 + 2θ(1 − θ) + (1 − θ)2 = [θ + (1 − θ)]2 = 1. 221 13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS s = 1, Ω = [0, 1]. Como la distribución de (N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk ), se obtiene H0 la verosimilitud ! n L(θ|N1 , . . . , Nk ) = (π1 (θ))N1 · · · (πk (θ))Nk N1 · · · Nk ` = log(L) ∝ N1 ln π1 (θ) + · · · + Nk ln πk (θ) Retomando el ejemplo, ln L(θ) ∝ N1 ln θ2 + N2 ln 2θ(1 − θ) + N3 ln(1 − θ)2 = (2N1 + N2 ) ln θ + (2N3 + N2 ) ln(1 − θ) + N2 ln 2 ∂ ln L(θ) 2N1 + N2 2N3 + N2 2N1 + N2 = − = 0 =⇒ θ̂ = ∂θ θ 1−θ 2n Con esto se calcula π1 (θ̂),π2 (θ̂),π3 (θ̂) y Q. Ejemplo (Partes de automóvil). Sean X1 , . . . , Xn ∼ f , H0 : f = N (µ, σ 2 ) donde µ y σ 2 son desconocidos. Vamos a construir las funciones π tratando de ajustar los cuartiles que habíamos definido antes con los valores teóricos de µ y σ. Entonces, πi (µ, σ ) = 2 Z bi ai (2πσ ) 2 −1/2 1 bi − µ ai − µ exp − 2 (x − µ)2 dx = Φ −Φ 2σ σ σ ! Asumiendo que la i-ésima partición es (ai , bi ), los 4 intervalos son (−∞, 3,575], (3,575, 3,912], (3,912, 4,249], (4,249, +∞). La verosimilitud es 222 CAPÍTULO 13. BONDAD DE AJUSTE ln L(µ, σ 2 ) = N1 ln π1 (µ, σ 2 ) + · · · + N4 ln π4 (µ, σ 2 ) y se optimiza numéricamente. cortes <- qnorm( p = c(0, 1 / 4, 2 / 4, 3 / 4, 1), mean = log(50), sd = sqrt(0.25) ) log_versomilitud <- function(par, cortes, log_x) { G <- length(cortes) mu <- par[1] sigma <- par[2] pi <- numeric() for (k in 1:(G - 1)) { pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) pnorm(q = cortes[k], mean = mu, sd = sigma) } conteos <- cut(log_x, breaks = cortes) conteos <- summary(conteos) l <- -sum(conteos * log(pi)) return(l) } sol <- optim( par = c(0, 1), fn = log_versomilitud, cortes = cortes, log_x = log_x ) sol$par 13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 223 ## [1] 4.0926455 0.4331326 Para otra solución, considere el siguiente teorema: Teorema (Chernoff y Lehmann, 1954). Sea X1 , . . . , Xn ∼ Fθ , θ : pdimensional. Denote θ̂n como el MLE de θ (basado en X1 , . . . , Xn ). Tome una partición de R con k > p + 1 intervalos disjuntos I1 , . . . , Ik . Sea Ni la cantidad de Xi ’s que pertenecen a Ii y sea πi (θ) = Pθ [Xi ∈ Ii |θ]. Si Q = 0 k X [Ni − nπi (θ̂n )]2 i=1 nπi (θ̂n ) Entonces, bajo las condiciones de regularidad del MLE, si n → ∞, el cdf de Q0 bajo H0 está entre χ2k−p−1 y χ2k−1 . Del ejemplo anterior (tiempo de vida de los dispositivos), tome µ̂ = X̄n = S2 4,1506137 y σ̂ 2 = n = 0,5332049. n 3,575 − 4,15 π1 (µ̂, σ̂ ) = Φ − Φ(−∞) = 0,14. 0,28431/2 ! 2 3,912 − 4,15 3,575 − 4,15 π2 (µ̂, σ̂ ) = Φ −Φ 1/2 0,2843 0,28431/2 ! 4,249 − 4,15 3,912 − 4,15 π3 (µ̂, σ̂ 2 ) = Φ −Φ 1/2 0,2843 0,28431/2 ! ! = 0,187. 2 ! 4,249 − 4,15 π4 (µ̂, σ̂ ) = 1 − Φ 0,28431/2 2 = 0,246. ! = 0,4266. Es decir podemos calcular lo siguiente en R G <- length(cortes) mu <- mean(log_x) sigma <- sd(log_x) pi <- numeric() for (k in 1:(G - 1)) { pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) pnorm(q = cortes[k], mean = mu, sd = sigma) } 224 CAPÍTULO 13. BONDAD DE AJUSTE pi ## [1] 0.1400819 0.1871877 0.2461242 0.4266062 chisq.test(conteos, p = pi) ## ## Chi-squared test for given probabilities ## ## data: conteos ## X-squared = 1.3381, df = 3, p-value = 0.7201 Entonces Q0 = (3 − 23 · 0,14)2 (4 − 23 · 0,187)2 (8 − 23 · 0,246)2 (8 − 23 · 0,4266)2 + + + = 1,3381. 23 · 0,14 23 · 0,187 23 · 0,246 23 · 0,4266 valor-p1 = Fχ24−2−1 (1,3381) = 0,7526307. valor-p2 = Fχ24−1 (1,3381) = 0,2798937. Rechazamos H0 (hipótesis de normalidad) si α0 < 0,2798. ggplot(data = data.frame(x = c(2.5, 6)), aes(x)) + geom_histogram( data = data.frame(x = log_x), aes(x, y = ..density..), color = "white" ) + stat_function( fun = dnorm, args = list(mean = log(50), sd = sqrt(0.25)), aes(color = "Hipótesis Manual"), size = 2 ) + stat_function( fun = dnorm, args = list(mean = sol$par[1], sd = sol$par[2]), aes(color = "Hipótesis con Optimización"), 13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 225 size = 2 ) + stat_function( fun = dnorm, args = list(mean = mean(log_x), sd = sd(log_x)), aes(color = "Hipótesis con MLE"), size = 2 ) + theme_minimal() 1.5 1.0 density colour Hipótesis con MLE Hipótesis con Optimización Hipótesis Manual 0.5 0.0 3 4 5 6 x Ejemplo. Suponga que se tiene el número de muertes por patadas de caballo en el ejercito Prusiano. Conteos 0 Núm. de obs. 144 ¿Será la variable Poisson? 1 2 3 ≥ 4 Total 91 32 11 2 280 226 CAPÍTULO 13. BONDAD DE AJUSTE df <- data.frame( conteos = c(0, 1, 2, 3, 4), observaciones = c(144, 91, 32, 11, 2) ) ggplot(df, aes(x = conteos, y = observaciones)) + geom_col() + theme_minimal() 150 observaciones 100 50 0 0 1 2 3 conteos H0 : f = Poisson(θ), θ > 0. El MLE de θ̂ es 0 · 144 + 1 · 91 + 2 · 32 + 3 · 11 + 2 · 4 196 = = 0,7 280 280 π1 (θ̂) = e−θ̂ = e−0,7 = 0,4966. π2 (θ̂) = e−θ̂ θ̂ = 0,3476. 1! 4 13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS π3 (θ̂) = e−θ̂ θ̂2 = 0,1217. 2! π4 (θ̂) = e−θ̂ θ̂3 = 0,0283. 3! 227 π5 (θ̂) = F̄Poisson(θ̂) (4) = 0,0058 (144 − 280 · 0,4966)2 (91 − 280 · 0,3476)2 (32 − 280 · 0,1217)2 + + 280 · 0,4966 280 · 0,3476 280 · 0,1217 2 2 (11 − 280 · 0,0283) (2 − 280 · 0,0058) + + = 1,979. 280 · 0,0283 280 · 0,0058 Q0 = valor-p1 = Fχ25−1−1 (1,979) = 0,5768. valor-p2 = Fχ25−1 (1,979) = 0,7396. Interpretación: con un nivel de significancia del 5 % no rechazamos la hipótesis Poisson en los datos. En general se rechaza H0 para niveles de signficancia superiores a 0.576. total <- sum(df$observaciones) ggplot(data = data.frame(x = c(0, 4)), aes(x)) + geom_col(data = df, aes(x = conteos, y = observaciones / total)) + stat_function( fun = dpois, args = list(lambda = 0.7), aes(color = "Hipótesis con MLE"), size = 2, geom = "col" ) + theme_minimal() 228 CAPÍTULO 13. BONDAD DE AJUSTE 0.5 observaciones/total 0.4 0.3 colour Hipótesis con MLE 0.2 0.1 0.0 0 1 2 x 3 4 Capítulo 14 Tablas de contingencia En este capítulo veremos cómo hacer un prueba para determinar si dos variables categóricas son independientes. Ejemplo. Considere una muestra de 200 estudiantes de una población universitaria, según currículum (área de estudio) y candidato preferido en unas elecciones universitarias (A, B o indeciso). Área/Candidato A B Indeciso Ingeniería Humanidades Artes Administración Totales 24 24 17 27 92 23 14 8 19 64 12 10 13 9 44 Totales 59 48 38 55 200 Antes de continuar con este ejemplo, definimos lo siguiente: Tabla de contingencia: arreglo en donde cada observación se puede clasificar de dos o más formas (vías). Declaramos la siguiente notación: R = El número de filas en la tabla. C = El número de columnas en la tabla. 229 230 CAPÍTULO 14. TABLAS DE CONTINGENCIA Nij = número de individuos en la muestra clasificados en la fila i y columna j. Ni+ = C X Nij . j=1 N+j = R X Nij . i=1 R X C X Nij = n. i=1 j=1 pij = P[Individuo en la población pertenezca a la celda i, j], i 1, . . . , R; j = 1, . . . , C. pi+ = P[Individuo se clasifique en la fila i] = C X = pij . j=1 p+j = P[Individuo se clasifique en la columna j] = R X pij . i=1 columna j. C R X X pij = 1. i=1 j=1 Por ejemplo para la tabla anterior N11 = 24 son los estudiantes de ingeniería que van a votar por el candidato A. N2+ = 48 son todos los estudiantes de Humanidades. N+3 = 44 son todos los estudiantes indecisos para votar. n = N++ = 200 es el número total de estudiantes en la muestra. 14.1. Prueba de independencia La hipótesis nula que queremos probar es: H0 : pij = pi+ · p+j , i = 1, . . . , R ; j = 1, . . . , C 231 14.1. PRUEBA DE INDEPENDENCIA Es decir, que las probabilidades conjuntas de la tabla es el producto de las probabilidades individuales, i.e., que ambas variables son independientes. Vectorizando la tabla de contingencia se puede utilizar la hipótesis de distribución multinomial. El número de celdas es k = RC. El número de parámetros bajo H0 es R − 1 + C − 1 = R + C − 2. Ni+ N+j y p̂+j = . n n El MLE del conteo en la celda i, j (valor esperado bajo H0 ) es El MLE corresponde a p̂i+ = Êij = np̂i+ p̂+j = n Ni+ N+j Ni+ N+j = . n n n El estadístico χ2 se calcula como Q= (Nij − Êij )2 Êij i=1 j=1 C R X X ∼ n grande, H0 χ2k−s−1 donde k − s − 1 = RC − (R + C − 2) − 1 = (R − 1)(C − 1). Dado α0 , rechazamos H0 si Q > χ2(R−1)(C−1) (1 − α0 ). Del ejemplo anterior, 59 · 92 = 27,14 200 38 · 64 = = 12,165 200 Ê11 = Ê32 La tabla de valores esperados bajo H0 es Área/Candidato Ingeniería Humanidades Artes Administración Totales A B 27.14 18.88 22.08 15.36 17.48 12.16 25.30 17.60 92 64 Indeciso Totales 12.98 10.56 8.36 12.10 44 59 48 38 55 200 232 CAPÍTULO 14. TABLAS DE CONTINGENCIA Q= (24 − 27,14)2 (8 − 12,16)2 + ··· + + · · · = 6,68 27,14 12,16 El valor-p es F̄χ26 (6,68) = 0,351. No rechazamos la hipótesis de independencia entre el currículum y la preferencia electoral con un nivel de significancia del 10 %, por ejemplo y en general se rechaza H0 con niveles de significancia superiores a 0.35. En R este análisis se hace con la función chisq.test Primero definamos la tabla de datos M <- as.table(rbind( c(24, 23, 12), c(24, 14, 10), c(17, 8, 13), c(27, 19, 9) )) dimnames(M) <- list( Carrera = c( "Ingeniería", "Humanidades", "Artes", "Administración" ), Voto = c("A", "B", "Indeciso") ) ## knitr::kable(M) Luego el test se ejecuta sobre la matriz de los datos chisq.test(M) ## ## Pearson’s Chi-squared test ## ## data: M ## X-squared = 6.6849, df = 6, p-value = 0.351 14.2. PRUEBA DE HOMOGENEIDAD 14.2. 233 Prueba de homogeneidad Suponga que seleccionamos algunos individuos de distintas poblaciones y observamos una variable aleatoria discreta para cada individuo. La pregunta que nos interesa es ver si la distribución de esa variable discreta es la misma para cada población. Ejemplo: Siguiendo con el ejemplo anterior, se toma muestras de tamaño 59,48,38 y 55 de cada área. ¿La distribución de la variable preferencia es la misma sin importar el área? Es decir, la forma en que votan los estudiantes es homogénea sin importar la carrera que cursan? Sean R el número de poblaciones y cada observación en cada muestra puede ser clasificada en C tipos de celdas (categorías). Entonces podemos representar los datos en una tabla R × C. Definimos, para i = 1, . . . , R y j = 1, . . . , C: pij = P[una observación pertenece a la i-ésima población y a la categoríaj] Estas probabilidades cumplen PC j=1 pij = 1, para un i = 1, . . . , R fijo. La hipótesis de homogeneidad es H0 : p1j = p2j = · · · = pRj para j = 1, . . . , C es decir, bajo H0 las R distribuciones son la misma. Con el fin de construir el estadístico de prueba, considere una población fija i y probabilidades pij conocidas. Considere el estadístico de Pearson asumiendo una muestra de tamaño Ni+ de la población i-ésima: Q(i) = (Nij − Ni+ pij )2 Ni+ pij j=1 C X Por lo tanto si Ni+ es grande: Q(i) ∼ χ2C−1 . 234 CAPÍTULO 14. TABLAS DE CONTINGENCIA Supuesto. Las R muestras son independientes. Esto implica que {Q(i) }i son variables independientes y Q= (Nij − Ni+ pij )2 ∼ χ2R(C−1) N p i+ ij i=1 i=1 R X C X para tamaños de muestra grandes. Nota: Este resultado viene del hecho que la suma de variables χ2 independientes es una variable χ2 con grados de libertad igual a la suma de los grados de libertad de las variables individuales. Como los valores pij no son conocidos, tenemos que estimarlos usando un MLE sobre Nij como muestra y asumiendo H0 . Entonces los MLEs serían: N+j . p̂ij = n Sustituyendo, R X C X (Nij − Êij )2 Q= Êij i=1 j=1 Ni+ · N+j donde Êij = . Como estamos estimando C − 1 parámetros, entonces n los grados de libertad de Q para muestras grandes son R(C − 1) − (C − 1) = (R − 1)(C − 1). Se rechaza H0 bajo el mismo criterio de la prueba de independencia. 14.3. Similitudes entre las pruebas de independencia y homogeneidad La prueba de independencia y de homogeneidad se estiman exactamente igual. Sin embargo la interpretación de ambos es ligeramente diferente. Para la prueba de independencia, se analiza la hipótesis de que la distribución condicional sobre las columnas dada una fila no depende de la fila. Sin embargo, para la prueba de homogeneidad cada fila es considerada como una subpoblación y se desea analizar si para cada una de esta subpoblaciones la distribución de las columnas es la misma. 14.4. COMPARACIÓN DE DOS O MÁS PROPORCIONES 235 Por lo tanto en términos de muestreo dentro de cada subpoblación, asumiendo independencia u homogeneidad, las distribuciones obtenidas de las distribuciones condicionales en cada subpoblación es la misma que la distribución obtenida sobre la población total. 14.4. Comparación de dos o más proporciones Ejemplo. Suponga que se hace una encuesta y se pregunta si vieron cierto programa o no en varias ciudades (R ≥ 2). Entonces se tiene la siguiente tabla. Ciudad Vio el programa No lo vio 1 .. . N11 .. . N12 .. . R N R1 NR2 Pregunta: ¿La proporción de audiencia es la misma en todas las ciudades? Esta pregunta equivale a la hipótesis de homogeneidad entre ciudades. Y el estadístico de prueba es: Q= . (Nij − Êij )2 ∼ χ2R−1 H 0 Êij i=1 j=1 R X 2 X Ejemplo. 100 personas se seleccionan aleatoriamente en una ciudad. Se les pregunta si los bomberos trabajan bien. Ocurre un incendio y después se les pregunta lo mismo. Antes del incendio Después del incendio Satisfactoria No satisfactoria 80 72 20 28 En este caso no es apropiado hacer una prueba de independencia u homo- 236 CAPÍTULO 14. TABLAS DE CONTINGENCIA geneidad χ2 porque se sabe directamente que los datos son correlacionados (tabla 2 × 2 correlacionada). Para sintetizar la información del problema, se debe responder las siguientes preguntas: ¿Cuál es la proporción de personas en la ciudad cambió su opinión sobre el servicio de bomberos después de un incendio? ¿Cuál cambio de opinión fue la más predominante entre los que cambiaron de decisión? Se puede enfocar el análisis usando una tabla de confusión: Después del incendio Antes del incendio Satisfactorio No Satisfactorio Satisfactoria 70 2 No satisfactoria 10 18 En este caso tenemos que el MLE θ̂ de la proporción de personas que cam12 biaron de opinión es = 0,12. Ya que 10+2 = 12 fueron las personas que 100 cambiaron de opinión y teniamos 100 personas encuestadas. De las personas 10 5 que cambiaron de opinión = = 0,83 fueron las que cambiaron la opinión 12 6 de satisfactoria insatisfactoria. Esto nos permite dar inferencias sobre el comportamiento general de la población. 14.5. Paradoja de Simpson Cuando tabulamos datos discretos, hay que tener cuidado con la forma en que se compara los datos agregados totales con respecto a la agregación en grupos específicos. Ejemplo Hacemos un experimento para comparar dos tratamientos (nuevo y viejo). La muestra fue de 80 sujetos, a los cuales 40 se les aplicó el tratamiento nuevo y a 40 el viejo. Se evalúa la evolución de cada paciente. 237 14.5. PARADOJA DE SIMPSON Nuevo Viejo Mejoró No mejoró % mejora 20 24 20 16 50 60 Conclusión: el tratamiento viejo tiene un porcentaje de mejora mayor. Si vemos estos resultados según el sexo, para hombres Nuevo Viejo Mejoró No mejoró % mejora 12 3 18 7 40 30 Mejoró No mejoró % mejora 8 21 2 9 80 70 y para mujeres Nuevo Viejo A este proceso de separar las tablas se le conoce como desagregación. Paradoja de Simpson. Desagregar tablas de contingencia algunas veces pone en evidencia variables “ocultas” dentro de los datos. La variable “sexo” influye en la capacidad de recuperación. Las mujeres se recuperan más rápido que los hombres en cualquiera de los procedimientos. Además la mayoría de las mujeres recibieron la mayor parte del tratamiento viejo, mientras que la mayoría de los hombres recibieron la mayor parte del tratamiento nuevo. Sin embargo, proporcionalmente el efecto total es mayor porque los hombres tuvieron una mayor influencia globalmente con respecto a la efectividad del tratamiento viejo. Nota. La paradoja puede persistir en muestras grandes. Es decir, se puede obtener este mismo resultado con bases de datos grandes o pequeñas. El problema no es la escala de los datos pero si su proporción. 238 CAPÍTULO 14. TABLAS DE CONTINGENCIA 14.5.1. ¿Cómo evitamos esta paradoja? Hay un par de condiciones que se deben cumplir para evitar problemas en este caso Considere los eventos: “Hombre” si se selecciona a un hombre. “Hombrec ” si se selecciona a una mujer. “Nuevo” si es el tratamiento nuevo. “Mejora” si hubo una mejora en el tratamiento. La paradora de Simpson nos dice que es posible tener las siguientes desigualdades: P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevo ] c c P[Mejora|Nuevo] < P[Mejora|Nuevo ] c c (?) (??) (? ? ?) Si tenemos el supuesto que P[Hombre|Nuevo] = P[Hombre|Nuevoc ] (4) entonces P[Mejora|Nuevo] = P[Mejora|Hombre ∩ Nuevo] · P[Hombre|Nuevo] + P[Mejora|Hombrec ∩ Nuevo] · P[Hombrec |Nuevo] Usando (?) y (??), vemos que tenemos la desigualdad: P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevo] + P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevo] Usando el supuesto en (4), la igualdad se convierte en: P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevoc ] + P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevoc ] 14.5. PARADOJA DE SIMPSON 239 Finalmente usando la propiedades de probabilidades condicionales, esta expresión se puede escribir como: P[Mejora|Nuevo] > P[Mejora|Nuevoc ] por lo que no se cumple la paradoja. Nota: Otra forma de que la paradoja nos se cumple es si P[Nuevo|Hombre] = P[Nuevo|Hombrec ]. (Tarea) 240 CAPÍTULO 14. TABLAS DE CONTINGENCIA Capítulo 15 Pruebas de Kolmogorov-Smirnov En capítulos anteriores, hicimos una prueba χ2 para determinar si cierto conjunto de datos se ajustaba a una distribución continua o no. Una mejor alternatva para este caso es la prueba Kolmogorov-Smirnov. Sean X1 , . . . , Xn ∼ F , F una distribución continua. Asumimos por simplicidad que los valores observados x1 , . . . , xn son diferentes (como la distribución es continua la probabilidad de que eso pase es 0). Definición. Sean x1 , . . . , xn los valores observados de la muestra aleatoria X1 , . . . , Xn . Para cada x defina Fn (x) como la proporción de valores observados en la muestra que son menores o iguales a x. Es decir, si hay k valores observados menores o iguales a x, Fn (x) = k . n La función Fn (x) se conoce como la función de distribución de la muestra 1 (empírica). Fn es una distribución a pasos con salto de magnitud entre los n valores x1 , . . . , xn . Se puede expresar como 241 242 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV Fn (x) = 0 n 1 X 1{x ≤x} n i=1 i 1 si x < x(1) si x(1) ≤ x < x(n) si x(n) ≥ x Como {Xi }ni=1 son independientes, {1{Xi ≤x} }ni=1 son independientes. Entonces, por la ley de grandes números n 1X P 1{Xi ≤x} −−−→ E[1Xi ≤x ] = F (x) Fn (x) = n→∞ n i=1 por lo que Fn (x) es un estimador consistente de F (x). Ejemplo Recuerden el ejemplo de los 23 tiempos de vida útil para una parte mecánica de un automóvil. x <- c( 17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56, 67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.4 ) df <- as.data.frame(x) Para este ejemplo tenemos que Fn (x) se ve de la forma: ggplot() + stat_ecdf( data = df, mapping = aes(x, color = "F_n(x)"), size = 2 ) + theme_minimal() 243 1.00 0.75 y colour 0.50 F_n(x) 0.25 0.00 50 100 150 x Y en los capítulos anteriores hicimos una comprobación de que los parámetros µ = 3,912 y σ 2 = 0,25 se ajustaban bien para los log-valores asumiendo un modelo normal. En este caso podemos comprobar este ajuste ggplot() + stat_ecdf( data = df, mapping = aes(log(x), color = "F_n(x)"), size = 2 ) + stat_function( data = data.frame(x = c(3, 5)), fun = pnorm, aes(color = "F(x)"), size = 2, args = list(mean = 3.912, sd = sqrt(0.25)) ) + theme_minimal() 244 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV 1.00 0.75 y colour 0.50 F_n(x) F(x) 0.25 0.00 3.0 3.5 4.0 4.5 5.0 log(x) La prueba de Kolmogorov-Smirnov está basada en el siguiente teorema. Teorema (Lema de Glivenko-Cantelli) Sea Fn (x) la distribución empírica de una muestra X1 , . . . , Xn provenientes de la distribución F . Defina Dn = sup −∞<x<∞ |Fn (x) − F (x)| Entonces Dn → − 0. P Esto quiere decir que conforme el tamaño de muestra es grande, la distribución empírica será muy cercana a la distribución poblacional sobre toda la recta real. El principal inconveniente de Fn (x) como estimador de F (x) es su comportamiento escalonado para muestras finitas. 15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA245 15.1. Prueba de Kolmogorov-Smirnov para una muestra La pregunta que responde esta prueba es ¿Será que F = F ∗ , donde F ∗ es una distribución hipotética?. Las alternativas de interés son: H0 : F = F ∗ vs H1 : F 6= F ∗ En este caso se define el estadístico Dn∗ = sup −∞<x<∞ |Fn (x) − F ∗ (x)| Nota: Si H0 es cierto, la distribución del estadístico Dn∗ no depende de F ∗ . Note que si Zi = F ∗ (Xi ), i = 1, . . . , n (X1 , . . . , Xn ∼ F ): P(Zi ≤ z) = P(F ∗ (Xi ) ≤ z) = P(Xi ≤ ((F ∗ )−1 (z))) = z Entonces Z1 , . . . , Zn ∼ Unif(0, 1) H0 Considere la hipótesis H0Z : G = Unif(0, 1) donde G es la distribución de Zi . Entonces Dn∗,G = sup |Gn (z)−G∗ (z)| = sup |Gn (z)−FUnif(0,1) (z)| = sup |Gn (z)−z| 0<z<1 0<z<1 0<z<1 Observe que Gn (z) = n n n 1X 1X 1X 1{Zi ≤z} = 1{F ∗ (Xi )≤z} = 1{Xi ≤(F ∗ )−1 (z)} = Fn ((F ∗ )−1 (z)) n i=1 n i=1 n i=1 Entonces tomando x = (F ∗ )−1 (z): 246 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV Dn∗,G = sup |Fn (x) − F ∗ (x)| = Dn∗ H0 por lo que Dn∗ no depende de F ∗ bajo H0 . De manera práctica si la distribución Fn (x) es cercano a F ∗ entonces Dn∗ será 1 cercano a 0. Entonces podemos rechazar la hipótesis nula H0 si n 2 Dn∗ ≥ c, para algún valor c particular. Este valor en particular se debe estimar a partir de la distribución de Kolmogorov-Smirnov. Teorema (Kolmogorov-Smirnov (1930)). Si H0 es cierto, para t > 0, lı́m P(n1/2 Dn∗ ≤ t) = 1 − 2 n→∞ ∞ X (−1)i−1 e−2i 2 t2 =: H(t). i=1 Rechazamos H0 si n1/2 Dn∗ ≥ c, para n grande. Para un nivel de significancia α0 seleccionamos c = H −1 (1 − α0 ). La función H(t) es algo complicada de estimar, y sus cuantiles lo son aún más. Estos normalmente son definidos a través de métodos númericos que están fuera del alcance del este curso. La siguiente tabla muestra el conjunto de valores estimados para cada t 15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA247 t 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.05 1.10 1.15 H(t) 0.0000 0.0003 0.0028 0.0126 0.0361 0.0772 0.1357 0.2080 0.2888 0.3728 0.4559 0.5347 0.6073 0.6725 0.7300 0.7798 0.8223 0.8580 t 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 H(t) 0.8878 0.9121 0.9319 0.9478 0.9603 0.9702 0.9778 0.9880 0.9938 0.9969 0.9985 0.9993 0.9997 0.9999 0.9999 1.0000 1.0000 Los valores más comunes de cuantiles para las pruebas son α H −1 (1 − α) 0.01 0.05 0.1 1.63 1.36 1.22 Ejemplo: En el caso de las partes mecánicas quisiéramos saber si los log-valores siguen o no una distribución normal. 02 Dado que queremos comparar estos valores con un N (µ̂, σ ), entonces ks.test( x = log(x), y = "pnorm", mean = mean(log(x)), 248 ) CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV sd = sd(log(x)) ## ## One-sample Kolmogorov-Smirnov test ## ## data: log(x) ## D = 0.091246, p-value = 0.9815 ## alternative hypothesis: two-sided Note que estos parámetros de localización y escala son muy importantes ya que si se quisiera comparar con una distribución N (0, 1) el resultado es diferente. ks.test( x = log(x), y = "pnorm", mean = 0, sd = 1 ) ## ## One-sample Kolmogorov-Smirnov test ## ## data: log(x) ## D = 0.99803, p-value = 4.441e-16 ## alternative hypothesis: two-sided 15.2. Prueba de 2 muestras Suponga que se tiene X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ) y se desea saber si ambas muestras tienen la misma distribución. Una opción es probar que H0 : µ1 = µ2 vs H1 : µ1 6= µ2 y mantener el supuesto fuerte de normalidad a la hora de realizar la prueba de comparación de medias. 249 15.2. PRUEBA DE 2 MUESTRAS Otra opción a analizar es comparar las distribuciones en general. Es decir, para X1 , . . . , Xm ∼ F y Y1 , . . . , Ym ∼ G continuas, probar H0 : F (x) = G(x), x ∈ R. Considere Dmn = sup −∞<x<∞ |Fm (x) − Gn (x)| Se tiene por el teorema de Glivenko-Cantelli que Dmn → − 0, m, n → ∞ cuando H0 es verdadera P Para el caso de dos muestras se puede probar que si H(t) es la distribución límite en el caso de una muestra y t > 0, entonces se cumple que lı́m P m,n→∞ mn m+n 1 2 ! Dmn ≤ t = H(t) 1 mn 2 En este caso se rechaza la hipótesis nula si Dmn ≥ H −1 (1 − α0 ). m+n Ejemplo Suponga que se tienen dos grupos de personas a las cuales a unas se les dio un tratamiento para la presión arterial y al otro se le dio un placebo. A cada persona en cada grupo se le midió las diferencias en las presiones arteriales al inicio y al final de 12 semanas de tratamiento con un suplemento con calcio. Los resultados fueron estos Medicina <- c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2) Placebo <- c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1, -3) La pregunta es si ambos conjuntos de datos vienen de la misma distribución. ks.test(Medicina, Placebo) ## ## Two-sample Kolmogorov-Smirnov test ## ## data: Medicina and Placebo ## D = 0.40909, p-value = 0.3446 ## alternative hypothesis: two-sided 250 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV En este caso rechazamos la hipótesis nula de que ambas distribuciones son iguales con un nivel de α ≥ 0,346. df <- rbind( data.frame(x = Medicina, Tratamiento = "Medicina"), data.frame(x = Placebo, Tratamiento = "Placebo") ) ggplot(df) + stat_ecdf(aes(x, color = Tratamiento)) + theme_minimal() 1.00 0.75 y Tratamiento 0.50 Medicina Placebo 0.25 0.00 -10 0 10 x Capítulo 16 Pruebas no-paramétricas: pruebas de signo y rango En este capítulo se explorará como hacer hipótesis sobre la distribución de un conjunto de datos cuando no se sabe con exactitud la distribución teórica a la cual pertenece. 16.1. Prueba de signo Sean X1 , . . . , Xn una muestra aleatoria de una distribución desconocida continua. Recordemos que no toda distribución tiene media, por ejemplo la distribución Cauchy1 . Sin embargo, toda distribución continua si tiene una mediana µ2 definida. La mediana es una popular medida de ubicación, que satisface P(Xi ≤ µ) = 0, 5. 1 La densidad de una distribución Cauchy se define como f (x; x0 , γ) = 1 γ2 ,, donde x0 y γ son parámetros de localización y escala respectiπγ (x − x0 )2 + γ 2 vamente. Esta distribución no tiene ningún momento definido y su mediana es x0 . 2 Importante: Aunque normalmente se denota µ como la media, en este capítulo µ es la mediana. 251 252CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO Suponga que queremos probar H0 :µ ≤ µ0 H1 :µ > µ0 ¿Por qué esta prueba? Note que esta se basa en el hecho de que µ ≤ µ0 si y solo si P(Xi < µ0 ) ≥ 0, 5 para i = 1, . . . , n. Es decir, que la mediana µ es menor que algún valor µ0 si y solo si, la probabilidad de que los valores Xi sean menores que µ0 sea mayor de 0.5. De forma más gráfica, si tiraramos una moneda, aproximadamente la mitad de la veces un valor de X caería por debajo de µ0 y la otra mitad por encima de µ0 Usando esta última observación, para i = 1, . . . , n, sea Yi = 1 si Xi ≤ µ0 y Yi = 0 si no. Defina p = P(Yi = 1). Entonces, probar que µ ≤ µ0 es equivalente a probar p ≥ 0, 5. Como X1 , . . . , Xn son independientes, Y1 , . . . , Yn lo son, entonces Y1 , . . . , Yn ∼ Bernoulli(p). Calculamos W = Y1 + · · · + Yn y decimos que rechazamos la hipótesis nula si W es pequeño. Para tener una prueba de tamaño α0 , escoja c tal que c X w=0 n w 1 2 ! n ≤ α0 < c+1 X w=0 n w 1 2 ! n Se rechaza H0 si W ≤ c. La prueba descrita es llamada prueba de signo pues está basada en el número de observaciones en las cuales Xi − µ0 es negativo. Si se desea hacer una prueba de dos colas 253 16.1. PRUEBA DE SIGNO H0 :µ 6= µ0 H1 :µ 6= µ0 1 p= 2 1 p 6= 2 Se rechaza H0 si W ≤ c o W ≥ n − c (simetría de Binomial(n, p)) y para obtener un nivel de significacia del α0 seleccionamos c tal que c X w=0 n w ! 1 n 2 c+1 X n α0 ≤ < 2 w=0 w 1 2 ! n Note que la función de potencia en el caso unilateral es: P(W ≤ c) = c X w=0 ! n (1 − p)n−w pw w Ejemplo: En junio de 1986 la revista Consumer Reports reportó las calorías de 20 marcas de salchichas. Estos son los datos reportados: x <- c( 186, 181, 176, 149, 184, 190, 158, 139, 175, 148, 152, 111, 141, 153, 190, 157, 131, 149, 135, 132 ) ggplot(as.data.frame(x), aes(y = x)) + geom_boxplot() + theme_minimal() 254CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO x 175 150 125 -0.4 -0.2 0.0 0.2 0.4 Suponga que se quiere probar la hipótesis de que la mediana es igual a 150 (µ = 150). Entonces se plantea la hipótesis H0 :µ = 150 H1 :µ = 6 150 La prueba de signo cuenta cuantas veces Xi − 150 es negativo. Observe que para estos datos tenemos que M <- data.frame( diferencias = x - 150, signo_negativo = x - 150 < 0) M ## ## ## ## ## ## 1 2 3 4 5 diferencias signo_negativo 36 FALSE 31 FALSE 26 FALSE -1 TRUE 34 FALSE 255 16.1. PRUEBA DE SIGNO ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 40 8 -11 25 -2 2 -39 -9 3 40 7 -19 -1 -15 -18 FALSE FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE FALSE FALSE TRUE TRUE TRUE TRUE summary(M$signo_negativo) ## Mode ## logical FALSE 11 TRUE 9 Y el valor p correspondiente es: 2 * pbinom(q = 9, size = 20, prob = 1 / 2) ## [1] 0.8238029 Rechazamos la hipótesis nula con un nivel α0 ≥ 0,8238. Este mismo problema se puede resolver con la función binom.test de R (x es el número de signos negativos y n es el número total de datos). binom.test(x = 9, n = 20) ## ## ## ## ## ## ## Exact binomial test data: 9 and 20 number of successes = 9, number of trials = 20, p-value = 0.8238 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 256CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO ## 0.2305779 0.6847219 ## sample estimates: ## probability of success ## 0.45 16.2. Prueba de Wilconxon-Mann-Whitney i.i.d i.i.d Dadas dos muestras independientes X1 , . . . , Xm ∼ F y Y1 , . . . , Yn ∼ G, queremos verificar las alternativas: H0 :F = G H1 :F = 6 G Esta hipótesis se puede hacer con las pruebas de Kolmogorov-Smirnov o la prueba t (dependiendo de la naturaleza de F y G). Otra forma de hacerlo es usando la prueba de Wilconxon-Mann-Whitney (prueba de rango) descubierta por F. Wilcoxon, H. B. Mann y D. R. Whitney en la década de 1940. La lógica de la prueba reside en que si unimos los dos conjuntos de valores y ambos tienen la misma distribución, entonces los datos agregados al ordenarse estarían dispersos equitativamente entre las dos muestras. Asumiendo que H0 es cierto y uniendo las dos muestras: W = (W1 , . . . , Wn+m ) = (X1 , . . . , Xm , Y1 , . . . , Yn ) Sobre esta muestra agregada calculamos los estadísticos de orden (ordenamos los datos agregados): (W(1) , . . . , W(n+m) ) Para una muestra como X1 , . . . , Xm se tiene que las posiciones de cada uno los datos se puede escribir como variables aleatorias 257 16.2. PRUEBA DE WILCONXON-MANN-WHITNEY X1 , . . . , Xm → (XI1 , . . . , XIm ) = (X(1) , . . . , X(m) ). Note que estas posiciones se pueden modelar como (I1 , . . . , Im ) ∼ Unif. Discreta(1, . . . , m) Por lo tanto, bajo H0 , W1 , . . . , Wn+m tiene índices de posición uniformemente distribuidos sobre los enteros 1, . . . , m + n. Defina S como la suma de todos los índices de posición (rangos) de la muestra X = (X1 , . . . , Xm ) dentro de la muestra agregada W . Se puede probar que m+n+1 E[S] = m . 2 m+n+1 H Var(S) =0 mn . 12 El resultado importante de Mann y Whitney en 1947 fue probar que si m, n son grandes, entonces H0 m(m + n + 1) mn(m + n + 1) , . 2 12 ! S ∼N H0 Por lo tanto la prueba se convierte en una prueba de normalidad sobre los rangos de los datos. Rechazamos la hipótesis nula si S se desvía mucho del valor de la media E[S]. En otra palabras rechazamos H0 si: S− m(m + n + 1) ≥c 2 bajo la aproximación normal de Mann y Whitney, el valor c es: 1 c = (Var(S)) 2 Φ−1 1 − α 2 y de esta forma la prueba tendría nivel de significancia α. 258CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO Ejemplo: Supongamos que tenemos estos dos conjuntos de datos y queremos ver si tienen la misma distribución. x <- c(2.183, 2.431, 2.556, 2.629, 2.641, 2.715, 2.805, 2.840) y <- c(2.120, 2.153, 2.213, 2.240, 2.245, 2.266, 2.281, 2.336, 2.558, 2.587) dfx <- data.frame(W = x, variable = "x") dfy <- data.frame(W = y, variable = "y") Lo primero sería unirlos dfw <- full_join(dfx, dfy) Y luego ordenarlos y calcular su rango dfw <- dfw %> % arrange(W) %> % mutate(rango = 1:n()) dfw ## ## ## ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 11 12 13 W variable rango 2.120 y 1 2.153 y 2 2.183 x 3 2.213 y 4 2.240 y 5 2.245 y 6 2.266 y 7 2.281 y 8 2.336 y 9 2.431 x 10 2.556 x 11 2.558 y 12 2.587 y 13 16.2. PRUEBA DE WILCONXON-MANN-WHITNEY ## ## ## ## ## 14 15 16 17 18 2.629 2.641 2.715 2.805 2.840 x x x x x 259 14 15 16 17 18 ggplot(dfw, aes(y = W, fill = variable)) + geom_boxplot() + theme_minimal() 2.7 W variable 2.5 x y 2.3 2.1 -0.2 0.0 (m <- length(x)) ## [1] 8 (n <- length(y)) ## [1] 10 Calculamos la media y varianza de S bajo H0 : (media_S <- m * (m + n + 1) / 2) ## [1] 76 0.2 260CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO (var_S <- m * n * (m + n + 1) / 12) ## [1] 126.6667 Tomamos la suma de todos los rangos de la muestra X: S <- dfw %> % filter(variable == "x") %> % summarise (S = sum(rango)) (S <- as.numeric(S)) ## [1] 104 √ La variable S sigue una distribución N (76, 126,67). Por lo tanto su p-valor es 2 * (1 - pnorm(q = (S - media_S) / sqrt(var_S))) ## [1] 0.01285124 Rechazamos H0 si el nivel de significacia α0 > 0,0128 La función en R wilcox.test calcula la misma prueba, aunque esta hace algunos ajustes adicionales a los rangos, por eso los valores son ligeramente diferentes. Los detalles los pueden consultar en la ayuda de la función. wilcox.test(x, y) ## ## Wilcoxon rank sum exact test ## ## data: x and y ## W = 68, p-value = 0.01166 ## alternative hypothesis: true location shift is not equal to 0