Uploaded by Hermenepondio Florimegildo

Notas-Curso-Estadistica

advertisement
Notas Curso de Estadística (Parte I)
Maikol Solís y Luis A. Barboza
Actualizado el 25 November, 2021
2
Índice general
1. Introducción
2. Inferencia estadística
2.1. Ejemplo . . . . . . . . . .
2.2. Modelo estadístico . . . .
2.2.1. Tipos de inferencia
2.3. Estadístico . . . . . . . . .
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Densidades previas conjugadas y estimadores
3.1. Distribución previa (distribución a priori) . . .
3.2. Densidad posterior . . . . . . . . . . . . . . .
3.2.1. Proceso de modelación. . . . . . . . . .
3.3. Función de verosimilitud . . . . . . . . . . . .
3.4. Familias conjugadas . . . . . . . . . . . . . . .
3.5. Densidades previas impropias . . . . . . . . .
3.6. Funciones de pérdida . . . . . . . . . . . . . .
3.6.1. Función de pérdida cuadrática . . . . .
3.6.2. Función de pérdida absoluta . . . . . .
3.6.3. Otras funciones de pérdida . . . . . . .
3.7. Efecto de muestras grandes . . . . . . . . . .
3.8. Consistencia . . . . . . . . . . . . . . . . . . .
3.9. Laboratorio . . . . . . . . . . . . . . . . . . .
3.9.1. Distribución previa . . . . . . . . . . .
3.9.2. Distribución conjunta . . . . . . . . . .
3.9.3. Distribución posterior . . . . . . . . .
3.9.4. Agregando nuevos datos . . . . . . . .
3.9.5. Familias conjugadas normales . . . . .
3
.
.
.
.
.
.
.
.
de
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bayes
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
17
19
20
22
25
26
27
28
28
28
29
30
30
31
32
33
35
4
ÍNDICE GENERAL
3.9.6. Funciones de pérdida . . . . . . . . . . . . . . . . . . . 41
3.9.7. Caso concreto . . . . . . . . . . . . . . . . . . . . . . . 42
4. Estimación por máxima verosimilitud
4.1. Propiedades del MLE . . . . . . . . .
4.1.1. Propiedad de invarianza . . .
4.1.2. Consistencia . . . . . . . . . .
4.2. Temas adicionales . . . . . . . . . . .
4.2.1. Método de los momentos . . .
4.2.2. Método Delta . . . . . . . . .
4.3. Laboratorio . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
54
54
55
56
56
59
61
5. Estadísticos Suficientes y Criterio de Factorización
5.1. Estadísticos suficientes . . . . . . . . . . . . . . . . .
5.2. Teorema de Factorización de Fisher . . . . . . . . . .
5.3. Estadístico suficiente multivariado. . . . . . . . . . .
5.4. Estadísticos minimales . . . . . . . . . . . . . . . . .
5.5. Mejorando estimadores . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
66
69
70
72
6. Distribución muestral de un estadístico
6.1. Distribución muestral . . . . . . . . . . .
6.2. Distribución χ2 . . . . . . . . . . . . . .
6.2.1. Ilustración de la distribución χ2 .
6.3. Distribución t . . . . . . . . . . . . . . .
6.3.1. Ilustración de distribución t. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
80
83
84
86
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7. Intervalos de confianza
7.1. Intervalos de confianza para la media de una distribución
7.2. Intervalos de confianza abiertos . . . . . . . . . . . . .
7.3. Intervalos de confianza en otros casos . . . . . . . . . .
7.3.1. Intervalos de confianza aproximados. . . . . . .
7.3.2. Transformaciones estabilizadoras de la varianza
8. Estimación Bayesiana bajo normalidad
8.1. Precisión de una distribución normal . . . .
8.2. Distribución marginal de µ . . . . . . . . . .
8.3. Intervalos de credibilidad. . . . . . . . . . .
8.4. Efecto de previas no informativas (Opcional)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
normal 89
. . . . 94
. . . . 95
. . . . 98
. . . . 100
.
.
.
.
.
.
.
.
.
.
.
.
103
. 103
. 106
. 114
. 116
5
ÍNDICE GENERAL
9. Estimación insesgada
9.1. Estimadores insesgados . . . . . . . .
9.2. Estimación insesgada de la varianza .
9.3. Información de Fisher . . . . . . . . .
9.4. Desigualdad de Cramér-Rao . . . . .
9.5. Estimadores eficientes . . . . . . . .
9.6. Comportamiento asintótico del MLE
.
.
.
.
.
.
119
. 119
. 122
. 126
. 133
. 140
. 141
10.Pruebas de hipótesis
10.1. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . .
10.2. Regiones críticas y estadísticos de prueba . . . . . . . . . . .
10.3. Función de potencia y tipos de error . . . . . . . . . . . . .
10.4. Valor p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.5. Dualidad entre pruebas de hipótesis y regiones de confianza .
10.5.1. Dualidad en pruebas unilaterales . . . . . . . . . . .
10.5.2. Pruebas de cociente de verosimilitud (LRT) . . . . .
145
. 145
. 149
. 153
. 167
. 169
. 172
. 174
11.Pruebas con hipótesis simples
11.1. Hipótesis simples . . . . . . . . .
11.2. Criterio de Neyman-Pearson . . .
11.3. Pruebas insesgadas . . . . . . . .
11.4. Prueba t . . . . . . . . . . . . . .
11.4.1. Propiedades de las pruebas
11.4.2. Prueba t pareada . . . . .
11.4.3. Pruebas t de dos colas . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
. 179
. 184
. 187
. 191
. 193
. 196
. 197
12.Prueba de comparación de medias en 2 poblaciones
12.1. Comparación de medias normales . . . . . . . . . . . .
12.2. Prueba t de dos muestras . . . . . . . . . . . . . . . . .
12.2.1. Prueba de 2 colas . . . . . . . . . . . . . . . . .
12.3. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . .
12.3.1. Prueba de 2 colas (prueba de homocedasticidad)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
t
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
199
199
199
202
203
208
13.Bondad de ajuste
211
13.1. Prueba χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.2. Pruebas χ2 con hipótesis parametrizadas . . . . . . . . . . . . 219
14.Tablas de contingencia
229
6
ÍNDICE GENERAL
14.1. Prueba de independencia . . . . . . . . . . . .
14.2. Prueba de homogeneidad . . . . . . . . . . . .
14.3. Similitudes entre las pruebas de independencia
14.4. Comparación de dos o más proporciones . . .
14.5. Paradoja de Simpson . . . . . . . . . . . . . .
14.5.1. ¿Cómo evitamos esta paradoja? . . . .
.
.
y
.
.
.
. . . . . . . . 230
. . . . . . . . 233
homogeneidad234
. . . . . . . . 235
. . . . . . . . 236
. . . . . . . . 238
15.Pruebas de Kolmogorov-Smirnov
241
15.1. Prueba de Kolmogorov-Smirnov para una muestra . . . . . . . 245
15.2. Prueba de 2 muestras . . . . . . . . . . . . . . . . . . . . . . . 248
16.Pruebas no-paramétricas: pruebas de signo y rango
251
16.1. Prueba de signo . . . . . . . . . . . . . . . . . . . . . . . . . . 251
16.2. Prueba de Wilconxon-Mann-Whitney . . . . . . . . . . . . . . 256
Capítulo 1
Introducción
7
8
CAPÍTULO 1. INTRODUCCIÓN
Capítulo 2
Inferencia estadística
Definición: Hacer afirmaciones probabilísticas respecto a (acerca de) cantidades desconocidas.
2.1.
Ejemplo
Pregunta: ¿Será posible modelar el tiempo de fallo de un componente
electrónico con fines de predicción?
Solución: Podemos responder esta pregunta dividiéndola en dos partes:
1. Modelo probabilístico: Asuma que el tiempo de vida del componente
es exponencial (en años).
2. Parámetro: Sea θ > 0 la tasa de fallo (unidades: 1/Tiempo(años)).
Es decir, tenemos un modelo (exponencial) y buscaremos hacer una escogencia
del parámetro θ de manera que el modelo refleje la realidad de la información
disponible.
Nota: ¿Cómo obtendríamos la información disponible?
Muestra: Secuencia (sucesión) de variables aleatorias independientes
X1 , X2 , . . . , Xn , . . ..
i.i.d
En nuestro ejemplo, tomemos una muestra X1 , X2 , . . . , Xn , . . . ∼ Exp(θ).
Objetivos
9
10
CAPÍTULO 2. INFERENCIA ESTADÍSTICA
Estimar Xm , Xm+1 , . . . si se observa X1 , . . . , Xm (Predicción).
Estimar θ usando la muestra observada X1 , . . . , Xm (Estimación).
Datos: Realizaciones de variables aleatorias X1 , . . . , Xm pertenecientes a la
muestra.
Estimación de θ
Asumiendo que θ es una constante (enfoque frecuentista) y dado que E(X) =
con X ∼ Exp(θ), por la Ley de Grandes Números se tiene que
1
θ
1
1X
P
Xi −−−→ E(X) =
n→∞
n i=1
θ
|
{z
X̄n
}
Por propiedades de convergencia en probabilidad, un posible candidato para
1
estimar θ es
.
X̄n
Bajo un enfoque bayesiano, θ no necesariamente es determinístico (incertidumbre adicional debido a factores externos, por la naturaleza propia del
fenómeno).
Asumimos un modelo probabilístico para θ (tasa siempre positiva):
θ ∼ Γ(α0 , β0 )
Supongamos que antes de observar los datos la tasa esperada es 0.5/año
(según estudios previos). Como
E(θ) =
1
α0
= .
2
β0
entonces un primer intento para definir la distribución de θ sería definir por
ejemplo α0 = 1 y de β0 = 2.
2.2.
Modelo estadístico
Un modelo estadístico es una estructura compuesta por los siguientes
factores:
11
2.2. MODELO ESTADÍSTICO
1. Variables aleatorias observables / hipotéticamente observables:
X
t
|{z}
Observable
=
Y
t
|{z}
Hip. observable
+ |{z}
Ruido
En otras palabras Yt sería la el dato “verdadero” que pasó exactamente
en el fenómeno analizado. Esta observación es afectada por muchos
factores no observables (por ejemplo: errores de medición, cambio de
las condiciones de la economía, etc.). La variable captura toda esa
aleatoriedad que no es parte del fénomeno asumiendo una relación
aditiva con respecto a la variable hipotética.
Claramente ni Yt ni se pueden observar directamente y la mejor
representación de nuestro fenómeno en este caso sería a partir de Xt .
Otro caso de una variable hipóteticamente observable es aquella que se
define usando un número infinito de observaciones, por ejemplo:
Yt =
∞
X
Xt
i=1
y Xt es observable.
2. Distribución conjunta de una muestra de variables observables.
Es decir cuál es el supuesto general que estoy usando para describir mis
observaciones. La distribución debe estar indexada por el conjunto de
parámetros de interés.
3. Parámetros que son hipotéticamente observables (desconocidos).
Permiten calibrar la distribución conjunta de modo que el modelo
estadístico se ajuste a los datos.
4. (Opcional) Distribución conjunta de los parámetros.
Caso bayesiano: los parámetros dejan de ser determinísticos y se convierten en variables aleatorias. En este caso la distribución conjunta de
la muestra es condicional en θ.
Inferencia estadística: procedimiento que genera afirmaciones probabilísticas de un modelo estadístico.
12
CAPÍTULO 2. INFERENCIA ESTADÍSTICA
Ejemplos de inferencias estadísticas:
1. Estimar θ a través de
1
.
X̄n
2. ¿Qué tan probable es que el promedio de las siguientes 10 observaciones
sea al menos 2?
X
1 m+10
Xi > 2
10 i=m+1
3. ¿Qué tan cierto es que θ ≤ 0,4 después de observar la muestra?
Parámetro: característica (s) que determinan la distribución conjunta de
las variables aleatorias de interés. Especifica el comportamiento general de
cualquier muestra o subconjunto de la población (conjunto total de posibles
muestras).
Espacio paramétrico Ω (espacio de parámetros, puede ser de probabilidad)
Ejemplos:
θ > 0 (ejemplo anterior); Ω = (0, +∞).
X1 , . . . , Xn ∼ N (µ, σ 2 ), (µ, σ 2 ) parámetros; Ω = R × [0, +∞).
Ejemplo: Clientes de un banco
¿Qué tan probable es que un cliente no pague su crédito hoy?
Datos: Xi =

1
el cliente #i no pagó
.
0 el cliente #i pagó
Muestra: X1 , . . . , X10000 (realización al día de hoy).
i.i.d
Modelos: X1 , . . . , X10000 ∼ Ber(p) con p ∈ [0, 1].
Parámetro: p, Ω = [0, 1].
Inferencias:
• Estimar p (probabilidad de impago).
• Suponga que L(Xi ) es el saldo en la cuenta del cliente #i.
P
10000
X
i=1
!
L(Xi ) > u = Probabilidad de ruina
2.3. ESTADÍSTICO
2.2.1.
13
Tipos de inferencia
Predicción: predicción de variables aleatorias no observadas o bien la
predicción es sobre cantidades fijas que indexan el modelo estadístico
(parámetros). A este último caso se le llama también estimación.
Problemas de decisión estadística: Después de que los datos se han
analizado, se tiene que tomar una(s) decisión(es) en función de los
parámetros del modelo. Por ejemplo una vez que se observa la muestra
de pago de clientes se puede decidir si θ > 1/2 con un cierto nivel de
confianza. A este caso se le llama Prueba de hipótesis.
Diseño experimental: construcción de estructuras de recolección de dato.
A estas estructuras se les llama experimentos. El diseño del experimento
depende de la pregunta de investigación y del tipo de modelo que se le
quiere aplicar a los datos una vez estos estén disponibles.
2.3.
Estadístico
Definición. Si X1 , . . . , Xn es una muestra observable. Sea r una función real
de n variables:
T = r(X1 , . . . , Xn )
es un estadístico.
Nota: T también es aleatorio y representa una síntesis o resumen de la
información disponible.
Ejemplos:
X
1 10000
# no pagan
p̂ =
Xi =
= r(X1 , . . . , X10000 )
10000 i=1
Total
Lm = máx L(Xi ) (saldo del cliente más riesgoso).
Rm = máx L(Xi ) − mı́n L(Xi ), 1 ≤ i ≤ 10000
14
CAPÍTULO 2. INFERENCIA ESTADÍSTICA
Capítulo 3
Densidades previas conjugadas
y estimadores de Bayes
3.1.
Distribución previa (distribución a priori)
Suponga que tenemos un modelo estadístico con parámetro θ. Si θ es una
variable aleatoria entonces su densidad (antes de observar cualquier muestra)
se llama densidad previa: π.
α β
Ejemplo: X1 , . . . , Xn ∼ Exp(θ) y θ es aleatorio tal que θ ∼ Γ(1, 2) entonces
π(θ) =
1 α α−1 βθ
β θ e = 2e−2θ ,
Γ(α)
θ>0
Ejemplo: Sea θ la probabilidad de obtener cara al tirar una moneda.
Supongamos que tenemos dos tipos de moneda:
Moneda justa: θ =
1
con probabilidad previa 0,8 (π( 21 ) = 0,8).
2
Moneda con solo una cara: θ = 1 con probabilidad previa 0,2 (π(1) =
0,2).
15
16CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
En este ejemplo si tuviéramos 100 monedas con probabilidad previa π entonces
se esperaría que 20 tuvieran solo una cara y las 80 restantes serían monedas
justas.
Notas:
π está definida en Ω (espacio paramétrico).
π es definida sin conocimiento de la muestra.
Ejemplo (Componentes eléctricos) Supoga que se quiere conocer el tiempo
de vida de cierto componente eléctrico. Sabemos que este tiempo se puede
modelar con una distribución exponencial con parámetro θ desconocido. Este
parámetro asumimos que tiene una distribución previa Gamma.
Un experto en componentes eléctricos conoce mucho de su área y sabe que el
parámetro θ tiene las siguientes características:
E[θ] = 0,0002,
q
Var(θ) = 0,0001.
Como sabemos que la previa π es Gamma, podemos deducir lo siguiente:
E[θ] =
=⇒

α



β =
s
α



 β2
α
α
, Var(θ) = 2
β
β
2 × 10−4
= 1 × 10−4
=⇒ β = 20000, α = 4
Notación:
X = (X1 , . . . , Xn ): vector que contiene la muestra aleatoria.
Densidad conjunta de X: fθ (x).
Densidad de X condicional en θ: fn (x|θ).
Supuesto: X viene de una muestra aleatoria si y solo si X es condicionalmente
independiente dado θ.
17
3.2. DENSIDAD POSTERIOR
Consecuencia:
fn (X|θ) = f (X1 |θ) · f (X2 |θ) · · · f (Xn |θ)
Ejemplo
Si X = (X1 , . . . , Xn ) es una muestra tal que Xi ∼ Exp(θ),
fn (X|θ) =
=
Q
 n
i=1
θe−θXi
0

Pn
θ n e−θ i=1 Xi
0
si Xi > 0
si no
Xi > 0
si no
independientemente si asumimos o no que θ es una variable aleatoria.
3.2.
Densidad posterior
Definición. Considere un modelo estadístico con parámetro θ y muestra
aleatoria X1 , . . . , Xn . La densidad condicional de θ dado X1 , . . . , Xn se llama
densidad posterior: π(θ|X)
Teorema. Bajo las condiciones anteriores:
π(θ|X) =
f (X1 |θ) · · · f (Xn |θ)π(θ)
gn (X)
para θ ∈ Ω, donde gn es una constante de normalización.
Prueba:
π(θ, X)
P (X|θ) · π(θ)
π(θ, X)
=R
= R
marginal de X
π(θ, X) dθ
π(θ, X) dθ
fn (X|θ) · π(θ)
f (X1 |θ) · · · f (Xn |θ)π(θ)
=
gn (X)
gn (X)
π(θ|X) =
18CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Siguiendo el último ejemplo:
fn (X|θ) = θn e−θy
donde y = Xi es función exclusivamente de la muestra (Estadístico). El
numerador en este caso sería:
P
fn (X|θ)π(θ) = θ| n e{z−θy} ·
fn (X|θ)
2000004 3 −20000·θ 200004 n+3 −(20000+y)θ
θ e
θ e
=
3!
| 3!
{z
}
π(θ)
y el denominador sería proporcional a:
gn (x) =
Z +∞
0
θn+3 e−(20000+y)θ dθ =
Γ(n + 4)
(20000 + y)n+4
Entonces la posterior corresponde a
π(θ|X) =
θn+3 e−(20000+y)θ
(20000 + y)n+4
Γ(n + 4)
que es una Γ(n + 4, 20000 + y).
Por otro lado, si tuviéramos 5 observaciones (en horas): 2911, 3403, 3237,
3509, 3118. Entonces:
y=
5
X
i=1
por lo que θ|X ∼ Γ(9, 36178)
Xi = 16478,
n=5
19
3.2. DENSIDAD POSTERIOR
Densidad
Posterior
Previa
0
250000
500000
750000
1000000
Es sensible al tamaño de la muestra (una muestra grande implica un efecto
de la previa menor).
Hiperparámetros: parámetros de la previa o posterior.
3.2.1.
Proceso de modelación.
Recuerden que un modelo está compuesto por:
1. El conjunto de los datos X1 , . . . , Xn .
2. La función de densidad f .
3. El parámetro de la densidad θ.
Con el fin de identificar este modelo estadístico requiere las siguientes fuentes
de información:
1. La información previa π(θ) es la información fuera de los datos que
puede incluir criterio de investigaciones anteriores o bien información
vaga.
2. Los datos es la información observada. En este contexto la función de
densidad f filtra y mejora la información de la previa.
3. La densidad posterior es la “mezcla” entre la información previa y los
20CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
datos observados. Es una versión más informada de la distribución del
parámetro.
3.3.
Función de verosimilitud
Bajo el modelo estadístico anterior a fn (X|θ) se le llama verosimilitud o
función de verosimilitud.
Observación. En el caso de una función de verosimilitud, el argumento es
θ. Además, la fórmula de Bayes puede escribirse ignorando la constante de
normalización:
π(θ|X) ∝ fn (X|θ)π(θ)
Ejemplo.
Sea θ la proporción de aparatos defectuosos, con θ ∈ [0, 1]. Defina:

0
falló
Xi = 
1 no falló
Note que {Xi }ni=1 es una muestra aleatoria y Xi ∼ Ber(θ).
Verosimilitud
fn (X|θ) =
n
Y
f (Xi |θ) =
i=1
 P
P
θ Xi (1 − θ)n− Xi
Xi = 0, 1 ∀i
si no
0
Previa:
π(θ) = 1{0≤θ≤1}
Posterior:
Por el teorema de Bayes,
β
α
π(θ|X) ∝ θ (1 − θ)
y
n−y
z }| {
z
}|
{
· 1 = θy + 1 −1 (1 − θ)n − y + 1 −1
entonces θ|X ∼ Beta(y + 1, n − y + 1).
21
3.3. FUNCIÓN DE VEROSIMILITUD
Predicción.
Supuesto: los datos son secuenciales, es decir se observan uno a la vez siguiendo
el orden de su índice.
Calculamos la distribución posterior usando el supuesto anterior:
π(θ|X1 ) ∝ π(θ)f (X1 |θ)
π(θ|X1 , X2 ) ∝ π(θ)f (X1 , X2 |θ)
= π(θ)f (X1 |θ)f (X2 |θ) (por independencia condicional)
= π(θ|X1 )f (X2 |θ)
..
.
π(θ|X1 , . . . , Xn ) ∝ f (Xn |θ)π(θ|X1 , . . . , Xn−1 )
Por lo tanto bajo independiencia condicional la densidad posterior se actualiza
de manera secuencial usando la densidad de la nueva observación.
Luego, la densidad marginal de la muestra es:
gn (X) =
Z
Ω
f (Xn |θ)π(θ|X1 , . . . , Xn−1 ) dθ
= P (Xn |X1 , . . . , Xn−1 ) (Predicción para Xn )
por lo tanto la constante de normalización de la densidad posterior es la
densidad predictiva del proceso secuencial.
Continuando con el ejemplo de los artefactos, suponga que se quiere
calcular P (X6 > 3000|X1 , X2 , X3 , X4 , X5 ). Para esto se necesita calcular
f (X6 |X1 , . . . , X5 ). Dado que
π(θ|X) = 2,6 × 1036 θ8 e−36178θ
se tiene
f (X6 |X) = 2,6 × 1036
Z 1
0
−θX6
θe
| {z }
Densidad de X6
θ8 e−36178θ dθ =
9,55 × 1041
(X6 + 36178)10
22CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Entonces,
P (X6 > 3000|X1 , . . . , X5 ) =
Z ∞
3000
9,55 × 1041
dX6 = 0,4882
(X6 + 36178)10
Usando el mismo razonamiento anterior se puede calcular la vida media
resolviendo la ecuación 12 = P (X6 > u|X).
3.4.
Familias conjugadas
Definición. Sea X1 , . . . , Xn una muestra condicionalmente independiente
dado θ con densidad f (X|θ). Sea ψ la familia de posibles densidades previas
sobre Ω. Si, sin importar los valores observados de la muestra, la posterior
pertenece a ψ, entonces decimos que ψ es una familia conjugada de previas.
Ejemplos:
La familia Beta es familia conjugada para muestras según una Bernoulli.
La familia Gama es familia conjugada para muestras exponenciales.
Para el caso Poisson, si X1 , . . . , Xn ∼ P oi(λ), entonces la familia Gamma es familia conjugada:
λk
La función de densidad de una Poisson es P (Xi = k) = e−λ . La verosimilik!
tud corresponde a
fn (X|λ) =
n
Y
i=1
e−λ
λXi
e−n λy
.
= Qn
Xi !
i=1 Xi
donde y = i Xi . Asuma que la previa de λ está definida por π(λ) ∝ λα−1 e−βλ .
Por lo tanto, la posterior es
P
π(λ|X) ∝ λy+α−1 e−(β+n)λ =⇒ λ|X ∼ Γ(y + α, β + n)
En el caso normal, si X1 , . . . , Xn ∼ N (θ, σ 2 ),entonces la familia normal
es conjugada si σ 2 > 0 es conocido.
Si θ ∼ N (µ0 , V02 ) =⇒ θ|X ∼ N (µ1 , V12 ) donde,
µ1 =
σ 2 µ0 + nV02 X̄n
σ2
nV02
=
µ
+
X̄n
0
σ 2 + nV02
σ 2 + nV02
σ 2 + nV02
23
3.4. FAMILIAS CONJUGADAS
Combina de manera ponderada la previa y la de los datos.
Ejemplo
Considere una verosimilitud Poisson(λ) y una previa
π(λ) =

2e−2λ
λ>0
λ≥0
0
es decir λ ∼ Γ(1, 2). Supongamos la muestra tiene tamaño n. ¿Cuál es el
tamaño de muestra necesario para reducir la varianza, a lo sumo, a 0.01?
Por teorema de Bayes, la posterior es λ|x ∼ Γ(y + 1, n + 2). Luego, la varianza
de la Gamma es
1
α
xi + 1
xi + 1
=
≤
0,01
=⇒
≤
≤ 0,01 =⇒ 100 ≤ (n+2)2 =⇒ n ≥ 8
β2
(n + 2)2
(n + 2)2
(n + 2)2
P
P
Teorema. Si X1 , . . . , Xn ∼ N (θ, σ 2 ) con σ 2 conocido y la previa es θ ∼
N (µ0 , V02 ), entonces θ|X ∼ N (µ1 , V12 ) donde
σ 2 µ0 + nV02 X̄n
,
σ 2 + nV02
µ1 =
V12 =
σ 2 V02
σ 2 + nV02
Prueba:
Verosimilitud:
n
1 X
fn (X|θ) ∝ exp − 2
(Xi − θ)2
2σ i=1
"
#
Luego,
n
X
n
X
i=1
i=1
(Xi − θ)2 =
(Xi − X̄ + X̄ − θ)2
= n(X̄ − θ)2 +
n
X
n
X
i=1
i=1
(Xi − X̄)2 + 2
|
Entonces
fn (X|θ) ∝ exp −
(Xi − X̄)(X̄ − θ)
=0 pues
n
(X̄ − θ)2 .
2σ 2
{z
P
Xi=nX̄
}
24CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Previa:
1
π(θ) ∝ exp − 2 (θ − µ0 )2 .
2V0
#
"
Posterior:
n
1
π(θ|X) ∝ exp − 2 (X̄ − θ)2 −
(θ − µ0 )2 .
2σ
2V02
"
#
Con µ1 y V12 definidos anteriormente, se puede comprobar la siguiente identidad:
n
1
1
n
(X̄ − θ)2 + 2 (θ − µ0 )2 = 2 (θ − µ1 )2 + 2
(X̄n − µ0 )2
2
2
σ
V0
V1
σ + nV0
{z
|
}
Constante con respecto a θ
Por lo tanto,
1
π(θ|X) ∝ exp − 2 (θ − µ1 )2
2V1
"
#
Media posterior:
σ2
nV02
µ1 = 2
µ0 + 2
X̄n
σ + nV02
σ + nV02
|
{z
W1
}
|
{z
W2
}
Afirmaciones:
1) Si V02 y σ 2 son fijos, entonces W1 −−−→ 0 (la importancia de la media
n→∞
empírica crece conforme aumenta el tamaño de muestra).
2) Si V02 y n son fijos, entonces W2 −−2−−→ 0 (la importancia de la media
σ →∞
empírica decrece conforme la muestra es menos precisa).
3) Si σ 2 y n son fijos, entonces W2 −−2−−→ 1 (la importancia de la media
V0 →∞
empírica crece conforma la previa es menos precisa).
3.5. DENSIDADES PREVIAS IMPROPIAS
25
Ejemplo (determinación de n)
Sean X1 , . . . , Xn ∼ N (θ, 1) y θ ∼ N (µ0 , 4). Sabemos que
V12 =
σ 2 V02
.
σ 2 + nV02
Buscamos que V1 ≤ 0,01, entonces
4
≤ 0,01 =⇒ n ≥ 99,75 (al menos 100 observaciones)
4n + 1
3.5.
Densidades previas impropias
Como la constante de normalización no es necesaria para hacer una identificación de la densidad posterior, entonces no es necesario que una densidad
sea integrable. Para incluir estos casos, se extiende el concepto de densidad:
Definición.
Sea π una función positiva cuyo dominio está en Ω. Suponga
R
que π(θ) dθ = ∞. Entonces decimos que π es una densidad impropia.
Ejemplo: θ ∼ Unif(R), λ ∼ Unif(0, ∞).
Nota: Una posible manera para formular una distribución impropia es sustituyendo los hiperparámetros previos por 0.
Ejemplo:
Se presenta el número de muertes de soldados prusianos producto de una
patada de caballo, a través de una cantidad definida de conteos (280 en total)
en un periodo de 20 años. Los conteos se realizaron sobre un cierto número
de unidades del ejército prusiano.
Conteos
Ocurrencias
144
91
32
11
2
0
1
2
3
4
Se asume que la muestra de conteos es Poisson: X1 = 0, X2 = 1, X3 =
26CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
1, . . . , X280 = 0 ∼ Poi(λ).
Previa: λ ∼ Γ(α, β).
Posterior: λ|X ∼ Γ(y + α, n + β) = Γ(196 + α, 280 + β).
Sustituyendo, α = β = 0
π(λ) =
1 α α−1 βλ
β λ e
Γ(α)
∝ λα−1 e−λβ =
1
λ
1
dλ = ∞.
λ
0
Por teorema de Bayes,
λ|X ∼ Γ(196, 280)
y recuerden que
Z ∞
Las previas impropias se utilizan en casos en donde los daatos observados
contienen mucha más infomación que lo que contiene la densidad previa.
3.6.
Funciones de pérdida
Definición. Sean X1 , . . . , Xn datos observables cuyo modelo está indexado
por θ ∈ Ω. Un estimador de θ es cualquier estadístico δ(X1 , . . . , Xn ).
Notación:
Estimador → δ(X1 , . . . , Xn ).
datos
Estimación o estimado: δ(X1 , . . . , Xn )(ω) = δ(x1 , . . . , xn )
z
}|
{
El principal objetivo de un estimador es que esté relativamente cerca del
valor verdadero de parámetro de interés, es decir del que ha sido seleccionado
por la naturaleza como generador de los datos bajo el modelo asumido. Para
introducir la noción de cercanía del estimador al valor real se define:
Definición. Una función de pérdida es una función de dos variables:
L(θ, a),
θ∈Ω
27
3.6. FUNCIONES DE PÉRDIDA
con a un número real.
Interpretación: es lo que pierde un analista cuando el parámetro es θ y el
estimador es a.
Asuma que θ tiene una previa π. La pérdida esperada es
E[L(θ, a)] =
Z
L(θ, a)π(θ) dθ
Ω
la cual es una función de a, que a su vez podemos asumir que es función
de X1 , . . . , Xn . Asuma que a se selecciona el minimizar esta esperanza y sea
δ ∗ (X1 , . . . , Xn ) = δ ∗ (X) el valor donde alcanza el mínimo. En este caso a es
un estimador de θ bajo el criterio de pérdida esperada mínima.
Si calculamos el estimador anterior usando la densidad posterior de θ dados los
datos en lugar de la previa, entonces a este estimador se le llama estimador
bayesiano. Es decir, cumple que:
E[L(θ, δ ∗ )|X] =
Z
Ω
L(θ, δ ∗ (X))π(θ|X) dθ = mı́n E[L(θ, a)|X].
a
para un conjunto de datos X = x. Noten que el estimador bayesiano depende
de la función de pérdida seleccionada así como la densidad posterior de θ.
3.6.1.
Función de pérdida cuadrática
Se define:
L(θ, a) = (θ − a)2
En el caso en que θ es real y E[θ|X] es finita, entonces se puede comprobar
que:
δ ∗ (X) = δ ∗ (X1 , . . . , Xn ) = E[θ|X]
en el caso de una función de pérdida cuadrática.
Ejemplo: X1 , . . . , Xn ∼ Ber(θ), θ ∼ Beta(α, β) =⇒ θ|X ∼ Beta(α + y, β +
n − y).
donde y =
P
Xi . El estimador bayesiano de θ bajo pérdida cuadrática sería:
δ ∗ (X1 , . . . , Xn ) =
α+y
=
α+β+n
Esperanza previa
X̄
z }| {
α+β
y
n
+
·
.
α+β+n
n α+β+n
α
α+β
z}|{
·
28CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
3.6.2.
Función de pérdida absoluta
Se define como:
L(θ, a) = |θ − a|
En este caso la pérdida esperada es:
E[L(θ, a)|X] =
Z +∞
−∞
|θ−a|π(θ|X) dθ =
Z +∞
a
Z a
(θ−a)π(θ|X) dθ+
−∞
(a−θ)π(θ|X) dθ
y buscar el punto a que minimice la pérdida esperada posterior es equivalente
a resolver para a (Ejercicio):
Z a
−∞
π(θ|X) dθ =
1
2
es decir es equivalente a encontrar la mediana de la distribución posterior de
θ.
Corolario. Bajo la función de pérdida absoluta, el estimador bayesiano es la
mediana posterior.
Ejemplo: En el caso Bernoulli.
Z X0,5
1
1
θα+y−1 (1 − θ)β+n−y−1 dθ =
Beta(α + y, β + n − y) −∞
2
se puede resolver numéricamente. A prueba y error en R, resuelva para X0,5 .
3.6.3.
Otras funciones de pérdida
L(θ, a) = |θ − a|k , k 6= 1, 2 y 0 < k < 1.
L(θ, a) = λ(θ)|θ − a|2 (λ(θ) penaliza la magnitud del parámetro).
L(θ, a) =
3.7.

3(θ − a)2
(θ − a)2
θ ≤ a (sobreestima)
θ ≥ a (subestima)
Efecto de muestras grandes
Ejemplo: ítems malos (proporción: θ), θ ∈ [0, 1]. Función de pérdida cuadrática. El tamaño de muestra son n = 100 ítemes, de los cuales y = 10 están
malos.
29
3.8. CONSISTENCIA
X1 , . . . , Xn ∼ Ber(θ)
Primer previa. Distribución Beta con α = β = 1 (uniforme). El estimador bayesiano corresponde a
E[θ|X] =
α+y
1 + 10
=
= 0,108
α+β+n
2 + 100
Segunda previa. α = 1, β = 2 =⇒ π(θ) = 2(1 − θ), θ > 0.
E[θ|X] =
1 + 10
11
=
= 0,107
1 + 2 + 100
103
Los dos estimadores bayesianos anteriores son muy similares entre sí, y son
10
similares a la media empírica que es X̄n =
= 0,1, debido a que el tamaño
100
de muestra n = 100 es relativamente grande.
3.8.
Consistencia
Definición. Un estimador δ(X1 , . . . , Xn ) de θ es consistente si
δ(X1 , . . . , Xn ) −−−→ θ.
P
n→∞
Note que en los ejemplos anteriores y bajo el supuesto de pérdida cuadrática,
el estimador bayesiano cumple que: E[θ|X] = W1 E[θ] + W2 X̄n = δ ∗ . Sabemos,
P
por la ley de grandes números, que X̄n −
−−→ θ. Además, W1 −
−−→ 0 y
n→∞
n→∞
W2 −−−→ 1.
n→∞
Por lo tanto en este caso:
δ∗ −
−−→ θ
n→∞
P
Teorema. Bajo condiciones generales, los estimadores bayesianos son consistentes.
Estimador. Si X1 , . . . , Xn es una muestra en un modelo indexado por θ,
θ ∈ Ω (k-dimensiones), sea
30CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
h : Ω → H ⊂ Rd .
Sea ψ = h(θ). Un estimador de ψ es un estadístico δ ∗ (X1 , . . . , Xn ) ∈ H.
Ejemplo. X1 , . . . , Xn ∼ Exp(θ), θ|X ∼ Γ(α, β) = Γ(4, 8,6). La característica
1
de interés es ψ = , es decir el valor esperado del tiempo de fallo.
θ
Es estimador se calcula de la siguiente manera:
δ ∗ (x) = E[ψ|x] =
=
=
Z ∞
0
Z ∞
0
1
π(θ|x) dθ
θ
1 8,64 3 −8,6θ
θ e
dθ
θ Γ(4)
8,64 Z ∞ 2 −8,6θ
θ e
dθ
6 |0
{z
}
Γ(3)
8,63
8,64 2
=
= 2,867 unidades de tiempo.
6 8,63
Por otro lado, note que E(θ|X) =
ψ(E(θ|X)) =
3.9.
4
. El estimador plug-in correspondería a
8,6
1
8,6
=
= 2,15.
E(θ|X)
4
Laboratorio
Lo primero es cargar los paquetes necesarios que usaremos en todo el curso
library(tidyverse)
3.9.1.
Distribución previa
En nuestro ejemplo se tenía que E[θ] = 0,0002 y Var(θ) = 0,001. Suponiendo
que θ es gamma se puede resolver el sistema de ecuaciones obtenemos que
β = 20000 y α = 4.
31
3.9. LABORATORIO
alpha_previa <- 4
beta_previa <- 20000
ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) +
stat_function(fun = dgamma, args = list(shape = alpha_previa,
scale = beta_previa)) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()
0
250000
500000
750000
1000000
x
3.9.2.
Distribución conjunta
Asumiendo que tenemos algunos datos X1 , ..., Xn , asumimos que estos son
exponencial recordando que E[X] = 1/θ, entonces una aproximación de esta
densidad es
x
<- c(2911, 3403, 3237, 3509, 3118)
theta <- 1 / mean(x)
32CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
ggplot(data = data.frame(x = c(0, 1e5)), aes(x)) +
stat_function(fun = dexp, args = list(rate = theta)) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()
0
3.9.3.
25000
50000
x
75000
100000
Distribución posterior
Según los contenidos del curso, se puede estimar los parámetros de la densidad
posterior de la forma
(y
<- sum(x))
## [1] 16178
(n <- length(x))
## [1] 5
(alpha_posterior <- n + alpha_previa)
## [1] 9
33
3.9. LABORATORIO
(beta_posterior <- beta_previa + y)
## [1] 36178
ggplot(data = data.frame(x = c(0, 7.5e5)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = alpha_previa,
scale = beta_previa), aes(color = "Previa")) +
stat_function(fun = dgamma,
args = list(shape = alpha_posterior,
scale = beta_posterior), aes(color = "Posterior")) +
stat_function(fun = dexp, args = list(rate = theta),
aes(color = "Verosimilitud")) +
ylim(0, 1.5e-5) +
theme_minimal()
1.5e-05
1.0e-05
colour
y
Posterior
Previa
Verosimilitud
5.0e-06
0.0e+00
0e+00
2e+05
4e+05
6e+05
x
3.9.4.
Agregando nuevos datos
Si tenemos un 6to dato, y queremos ver cual es su distribución posterior. Lo
primero es estimar la densidad posterior de este 6to dato, pero asumiendo
que la previa es la densidad que obtuvimos en el caso anterior.
34CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Suponga que X6 = 3000
(alpha_previa <- alpha_posterior)
## [1] 9
(beta_previa <- beta_posterior)
## [1] 36178
(alpha_posterior <- alpha_previa + 1)
## [1] 10
(beta_posterior <- beta_previa + 3000)
## [1] 39178
ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = 4, scale = 20000),
aes(color = "Previa #1")) +
stat_function(
fun = dgamma,
args = list(shape = alpha_previa, scale = beta_previa),
aes(color = "Previa #2")
) +
stat_function(
fun = dgamma,
args = list(shape = alpha_posterior, scale = beta_posterior),
aes(color = "Posterior")
) +
ylim(0, 1.5e-5) +
theme_minimal()
35
3.9. LABORATORIO
1.5e-05
1.0e-05
colour
y
Posterior
Previa #1
Previa #2
5.0e-06
0.0e+00
0
250000
500000
750000
1000000
x
3.9.5.
Familias conjugadas normales
Si tenemos pocos datos, la información previa es la que “prevalece”.
x <- rnorm(n = 3, mean = 10, sd = 1)
(mu <- mean(x))
## [1] 8.774957
(sigma <- sd(x))
## [1] 1.220284
(n <- length(x))
## [1] 3
(mu_previa <- 0)
## [1] 0
36CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
(sigma_previa <- 1)
## [1] 1
(mu_posterior <((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +
((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)
## [1] 5.864185
(sigma2_posterior <(sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.3317135
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
37
3.9. LABORATORIO
0.6
colour
0.4
y
Posterior
Previa
Verosimilitud
0.2
0.0
-5
0
5
10
15
x
Con más datos, la distribución se ajusta a esto y le quita importancia a la
información previa.
x <- rnorm(n = 100, mean = 10, sd = 1)
(mu <- mean(x))
## [1] 9.955318
(sigma <- sd(x))
## [1] 0.9811633
(n <- length(x))
## [1] 100
(mu_previa <- 0)
## [1] 0
(sigma_previa <- 1)
## [1] 1
38CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
(mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +
((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)
## [1] 9.860393
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.009535022
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
39
3.9. LABORATORIO
3
colour
2
y
Posterior
Previa
Verosimilitud
1
0
-5
0
5
10
15
x
Si los datos por si solo son muy variable, la posterior tiende a parecerse a la
distribución previa en lugar que a la verosimilitud.
x <- rnorm(n = 10, mean = 10, sd = 5)
(mu <- mean(x))
## [1] 10.34527
(sigma <- sd(x))
## [1] 4.396509
(n <- length(x))
## [1] 10
(mu_previa <- 0)
## [1] 0
(sigma_previa <- 1)
## [1] 1
40CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
(mu_posterior <- ((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +
((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)
## [1] 3.527283
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.6590439
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
41
3.9. LABORATORIO
0.5
0.4
0.3
colour
y
Posterior
Previa
Verosimilitud
0.2
0.1
0.0
-5
0
5
10
15
x
3.9.6.
Funciones de pérdida
Lo más importante acá es que dependiendo de la función de pérdida podemos
construir una estimador para θ. En el caso de los componentes electrónicos
recordemos que la posterior nos daba
alpha <- 9
beta <- 36178
Pérdida cuadrática: Recoremos que la media de una gamma es α/β
entonces
(theta <- alpha / beta)
## [1] 0.00024877
Y por lo tanto el tiempo promedio del componente electrónico es
1/θ=4019.7777778.
Pérdidad absoluta: La distribución Gamma no tiene una forma cerrada para la mediana, por que se puede aproximar así,
42CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
m <- rgamma(n = 1000, scale = beta, shape = alpha)
(theta <- median (m))
## [1] 313469.4
Y por lo tanto el tiempo promedio del componente electrónico es
1/θ=3,1901041 × 10−6 .
OJO: En este caso la pérdida cuadrática ajusta mejor ya que la
distribución que la pérdida absoluta ya que la distribución NO es
simétrica. En el caso simétrico los resultados serían muy similares.
3.9.7.
Caso concreto
Suponga que se que quiere averiguar si los estudiantes de cierto colegio
duermen más de 8 horas o menos de 8 horas.
Para esto primero cargaremos el siguiente paquete,
library(LearnBayes)
Suponga que se hace una encuesta a 27 estudiantes y se encuentra que 11
dicen que duermen más de 8 horas diarias y el resto no. Nuestro objetivo es
inferir la proporción p de estudiantes que duermen al menos 8 horas diarias.
Un posible modelo es
f (x|p) ∝ ps (1 − p)f
donde s es la cantidad de estudiantes que duermen más de 8 horas y f los
que duermen menos de 8 horas.
Una primera aproximación para la previa es usar una distribución discreta.
En este caso, el investigador asigna una probabilidad a cierta cantidad de
horas de sueño, según su experiencia. Así, por ejemplo:
p <- seq(0.05, 0.95, by = 0.1)
prior <- c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
prior <- prior / sum(prior)
plot(p, prior, type = "h", ylab = "Probabilidad Previa")
43
0.20
0.15
0.10
0.00
0.05
Probabilidad Previa
0.25
3.9. LABORATORIO
0.2
0.4
0.6
0.8
p
El paquete LearnBayes tiene la función pdisc que estima la distribución
posterior para una previa discreta binomial. Recuerde que el valor 11 representa la cantidad de estudiantes con más de 8 horas de sueño y 16 lo que no
duermen esa cantidad.
data <- c(11, 16)
post <- pdisc(p, prior, data)
round(cbind(p, prior, post), 2)
##
## [1,]
## [2,]
## [3,]
## [4,]
## [5,]
## [6,]
## [7,]
## [8,]
## [9,]
## [10,]
p prior post
0.05 0.03 0.00
0.15 0.18 0.00
0.25 0.28 0.13
0.35 0.25 0.48
0.45 0.16 0.33
0.55 0.07 0.06
0.65 0.02 0.00
0.75 0.00 0.00
0.85 0.00 0.00
0.95 0.00 0.00
44CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Y podemos ver la diferencia entre la previa (negro) y la posterior (roja),
0.2
0.0
0.1
post
0.3
0.4
plot(p, post, type = "h", col = "red")
lines(p + 0.01, prior, type = "h")
0.2
0.4
0.6
0.8
p
¿Qué se puede deducir de estos resultados?
Ejercicio: Suponga que se tiene la base de datos studentdata. Realice los
cálculos anteriores con esos datos,
data("studentdata")
horas_sueno <- studentdata$WakeUp - studentdata$ToSleep
horas_sueno <- na.omit(horas_sueno)
summary(horas_sueno)
##
##
Min. 1st Qu.
2.500
6.500
Median
7.500
hist(horas_sueno, main = "")
Mean 3rd Qu.
7.385
8.500
Max.
12.500
45
100
0
50
Frequency
150
3.9. LABORATORIO
2
4
6
8
10
12
horas_sueno
Ahora supongamos que se tiene quiere ajustar una previa continua a este
modelo. Para esto usaremos una distribución Beta con parámetros α y β, de
la forma
π(p|α, β) ∝ p1−α (1 − p)1−β .
El ajuste de los paramétros de la Beta depende mucho de la información
previa que se tenga del modelo. Una forma fácil de estimarlo es a través
de cuantiles con los cuales se puede reescribir estos parámetros. Para una
explicación detallada revisar https://stats.stackexchange.com/a/237849
En particular, suponga que se cree que el 50 % de las observaciones la proporción será menor que 0.3 y que el 90 % será menor que 0.5.
Para esto ajustaremos los siguientes parámetros
quantile2 <- list(p = .9, x = .5)
quantile1 <- list(p = .5, x = .3)
(ab <- beta.select(quantile1, quantile2))
## [1] 3.26 7.19
46CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
a
b
s
f
<<<<-
ab[1]
ab[2]
11
16
En este caso se obtendra la distribución posterior Beta con paramétros α + s
y β + f,
1
2
3
Previa
Verosimilitud
Posterior
0
Densidad
4
5
curve(dbeta(x, a + s, b + f), from = 0, to = 1,
xlab = "p", ylab = "Densidad", lty = 1, lwd = 4)
curve(dbeta(x, s + 1, f + 1), add = TRUE, lty = 2, lwd = 4)
curve(dbeta(x, a, b), add = TRUE, lty = 3, lwd = 4)
legend(.7, 4, c("Previa", "Verosimilitud", "Posterior"),
lty = c(3, 2, 1), lwd = c(3, 3, 3))
0.0
0.2
0.4
0.6
p
0.8
1.0
Capítulo 4
Estimación por máxima
verosimilitud
¿Será posible estimar sin una densidad previa y sin una función de pérdida?
i.i.d
Recuerde que, para X1 , . . . , Xn ∼ f (X|θ) con θ fijo, la función de
verosimilitud se define como
L(θ|X) := fn (X|θ) =
n
Y
f (Xi |θ).
i=1
Si θ1 , θ2 ∈ Ω y además asumimos que θ es el valor real del parámetro. Si la
muestra es observada y si observamos que:
L(θ1 |X) > L(θ2 |X)
Entonces decimos que es θ1 es más verosímil (realista) que θ2 en el sentido de
que el verdadero parámetro estaría más cercano a θ1 que a θ2 dada la muestra.
(principio de verosimilitud)
Definición. Para cada X ∈ X (espacio muestral), sea δ(X) ∈ δ estimador
de θ tal que L(θ|X) es máximo. A δ(X) se le llama MLE (estimador de
máxima verosimilitud).
Ejemplo. Si X1 , . . . , Xn ∼ Exp(θ), estime θ.
47
48
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Determinamos la función de verosimilitud,
n
1 −Xi /θ
1
1X
L(θ|X) = fn (X|θ) =
e
= n exp
Xi = θ−n e−y/θ .
θ
θ
θ
i=1
i=1
n
Y
!
Considere la log-verosimilitud
`(θ|X) = log L(θ|X) = −n log θ −
y
θ
Como es una transformación monótona creciente, la función de verosimilitud
se maximiza si la log-verosimilitud es máxima. Entonces,
−n
y
∂
`(θ|X) =
+ 2 =0
∂θ
θ
θ
1
y
=⇒
−n +
=0
θ
θ
y
=⇒ θ̂ = = X̄n .
n
Para verificar que es un máximo:
∂ 2`
n
2y
=
−
∂θ2
θ2
θ3
y
θ= n
=
1
θ̂2
"
n−
2y
#
y
n
=
−n
θ̂2
< 0.
Entonces θ̂ = X̄n es el MLE de θ.
Laboratorio:
Suponga que se tiene 100 valores con distribución exponencial con parámetro
θ = 1.
x <- rexp(n = 100, rate = 1)
n <- length(x)
y <- sum(x)
theta <- seq(0.5, 1.5, length.out = 1000)
49
4e-49
0e+00 2e-49
L
6e-49
8e-49
L <- thetaˆ(-n) * exp(-y / theta)
plot(theta, L)
0.6
0.8
1.0
theta
l <- -n * log(theta) - y / theta
plot(theta, l)
1.2
1.4
50
-130
-150
-140
l
-120
-110
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
0.6
0.8
1.0
1.2
1.4
theta
Ejemplo. Una prueba sobre alguna enfermedad es confiable al 90 %, en el sentido de que si una persona tiene la enfermedad entonces hay una probabilidad
del 90 % de que la prueba dé un resultado afirmativo (enfermo) y por otro lado
hay un 10 % de probabilidad de que la prueba dé un resultado afirmativo si la
persona está sana. Considere una variable aleatoria Bernoulli(θ),θ ∈ {0,9, 0,1}
que indica el resultado de la prueba, donde θ = 0,9 significa que la persona
está efectivamente enferma y θ = 0,1 significa que no. Es decir un elemento x
del espacio muestral cumple que:
x=

1
0
si la prueba es positiva
si no

0,9
Si x = 0, entonces f (0|θ) = 
si θ = 0,1
.
0,1 si θ = 0,9

0,1
Si x = 1, entonces f (1|θ) = 
si θ = 0,1
.
0,9 si θ = 0,9
El MLE corresponde a
θ̂ =

0,1
0,9
si x = 0
si x = 1
51
Ejemplo. Para el caso normal, X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 conocida, estime
µ.
1
(xi − µ)2
√
L(µ|x) =
exp −
2σ 2
2πσ 2
i=1
n
Y
!
n
1 X
exp − 2
(xi − µ)2 .
2σ i=1
!
= (2πσ )
2 −n/2
La log-verosimilitud es de la forma
`(µ|x) =
n
1 X
−n
log(2πσ 2 ) − 2
(xi − µ)2 .
2
2σ i=1
Basta con minimizar Q(µ) =
i=1 (xi
Pn
− µ)2 .
n
n
X
X
∂Q
= −2 (xi − µ) =⇒ nµ =
xi =⇒ µ̂ = x̄n .
∂µ
i=1
i=1
No hace falta verificar la condición de segundo orden, pues Q es una función
cuadrática de µ y tiene un único máximo.
µ̂M LE = x̄n
(∗)
Ahora, si X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido, por (∗),
`(σ 2 |X1 , . . . , Xn ) =
n
n
1 X
log(2πσ 2 ) − − 2
(xi − x̄n )2
2
2σ i=1
n
n 1
1 X
∂`
=−
+
(xi − x̄n )2 = 0
2
2
2
2
∂σ
2 2πσ
2(σ ) i=1
Entonces
n
1X
σ̂ =
(xi − µ)2 (varianza muestral)
n i=1
2
Las condiciones de segundo orden quedan como ejercicio.
Nota. Si θM LE de θ, entonces h(θM LE ) es el MLE de h(θ).
52
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Por ejemplo: h(x, y) =
√
y (es inyectiva), entonces h(x̄n , σ̂ 2 ) =
Otro ejemplo: el MLE de
√
σ̂ 2 = σ̂.
σ̂
σ
=
.
µ
x̄n
Laboratorio:
library(scatterplot3d)
x <- rnorm(100)
n <- length(x)
mu <- seq(-0.5, 0.5, length.out = 50)
sigma <- seq(0.5, 1.5, length.out = 50)
ms <- expand.grid(sigma, mu)
l <- -(n / 2) * log(2 * pi / ms[, 1]ˆ2) (1 / (2 * ms[, 1]ˆ2) * sum((x - ms[, 2])ˆ2))
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
0.4
0.6
0.8
1.0
ms[, 1]
1.2
1.4
1.6
ms[, 2]
-6000-5000-4000-3000-2000-1000
l
0
scatterplot3d(ms[, 1], ms[, 2], l, angle = 45)
53
i.i.d
Ejemplo. Suponga que X1 , . . . , Xn ∼ Unif(0, θ), con (θ > 0). Estime θ.
Suponga que xi > 0, ∀i.
f (X|θ) =
1
· 1[0,θ] (X)
θ
La verosimilitud es
L(θ|x) =
n
Y
f (xi |θ) =
i=1
n
1 Y
1{0≤xi ≤θ}
θn i=1
0 ≤ xi ≤ θ
∀i
Lo cual es equivalente a escribir:
L(θ|x) =
1
1{x ≤θ}
θn (n)
donde x(n) := máxi xi . En general x(i) corresponde al i-ésimo valor ordenado
de la muestra, cuando los datos son ordenados de menor a mayor (estadístico
de orden). Entonces θ̂M LE = x(n) .
Laboratorio:
x <- runif(100, 0, 2)
n <- length(x)
theta <- seq(1.5, 2.5, length.out = 1000)
L <- numeric(1000)
for (k in 1:1000) {
L[k] <- 1 / theta[k]ˆn * prod(x < theta[k])
}
plot(theta, L)
54
0.0e+00
5.0e-31
L
1.0e-30
1.5e-30
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
1.6
1.8
2.0
2.2
2.4
theta
4.1.
Propiedades del MLE
4.1.1.
Propiedad de invarianza
Teorema. Si θ̂ es el MLE de θ y si g es una función biyectiva, entonces g(θ̂)
es el MLE de g(θ).
Prueba:
Sea Γ ls imagen del espacio paramétrico Ω bajo g, es decir g(Ω). Como g es
biyectiva defina h como su inversa, es decir: θ = h(ψ), ψ ∈ Γ.
Reparametrizando la verosimilitud,
fn (x|θ) = fn (x|h(ψ)).
El MLE de ψ : ψ̂ satisface que fn (x|h(ψ̂)) es máximo.
Como fn (x|θ) se maximiza cuando θ = θ̂, entonces fn (x|h(ψ)) se maximiza
cuando θ̂ = h(ψ) para algún ψ.
Se concluye que θ̂ = h(ψ̂) =⇒ ψ̂ = g(θ̂).
55
4.1. PROPIEDADES DEL MLE
Ejemplo: g(θ) =
1
θ̂
=
1
1
X̄n
1
es biyectiva si θ > 0. Así,
θ
= X̄n es parámetro de la tasa, bajo un modelo Exp(θ).
¿Qué pasa si h no es biyectiva?
Definicion (Generalización del MLE). Si g es una función de θ y G la
imagen de Ω bajo g. Para cada t ∈ G defina
Gt = {θ : g(θ) = t}
Defina L∗ (t) = máx log fn (x|θ). El MLE de g(θ)(= t̂) se define como el valor
θ∈Gt
∗
t̂ que cumple: L (t̂) = máx L∗ (t).
t∈G
Teorema. Si θ̂ es el MLE de θ entonces g(θ̂) es el MLE de g(θ) (g es
arbitraria).
Prueba. Basta probar L∗ (t̂) = ln fn (x|θ̂). Se cumple que θ̂ ∈ Gt̂ . Como θ̂
maximiza fn (x|θ) ∀θ, también lo hace si θ ∈ Gt̂ . Entonces t̂ = g(θ̂) (no
pueden existir 2 máximos en un conjunto con la misma imagen).
Ejemplos.X1 , . . . , Xn ∼ N (µ, σ 2 ).
Si h(µ, σ 2 ) = σ (no es biyectiva) =⇒ h(X̄n , σ̂ 2 ) =
σ.
h(µ, σ 2 ) =
√
σ̂ 2 es el MLE de
σ
σ̂
(coeficiente de variación).
es el MLE de CV.
µ
X̄n
h(µ, σ 2 ) = µ2 + σ 2 . E[X 2 ] − µ2 = σ 2 =⇒ E[X 2 ] = µ2 + σ 2 . El MLE de
E[X 2 ] es X̄n2 + σ̂ 2 .
4.1.2.
Consistencia
Como se afirmó anteriormente, bajo ciertas condiciones un estimador bayesiano
es un estimador consistente de θ. Por lo tanto si un MLE fuera consistente de
θ tanto el MLE como el estimador bayesiano tendrían como límite el mismo
valor θ.
56
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Por ejemplo en el caso de una muestra X1 , . . . , Xn ∼ Ber(θ) con una previa
Beta entonces el estimador bayesiano bajo pérdida cuadrática se puede escribir
como:
EB = W1 E[Previa] + W2 X̄n .
es decir:
|θ̂M LE − EB| = |(1 − W2 )X̄n − W1 E[Previa]|
n→∞
−→ 0
Afirmación. Bajo “condiciones usuales”,
P
θ̂M LE −−−→ θ.
n→∞
4.2.
Temas adicionales
La estimación por máxima verosimilitud constituye un problema de optimización matemática. Por lo tanto se puede utilizar métodos numéricos
clásicos (Newton-Raphson por ejemplo) para resolver el problema de estimación. Una forma de obtener valores iniciales de los algoritmos anteriores es
a través del método de momentos, que por sí mismo también constituye un
método de estimación.
4.2.1.
Método de los momentos
Ejemplo. X1 , . . . , Xn ∼ Γ(α, 1). Estime α.
fn (x|α) =
Verosimilitud: fn (x|α) =
1 α−1 −x
x e .
Γ(α)
P
1 Q
xi
(
x
)e
.
i
Γ(α)n
"
X
∂
∂
L(α|x) =
− n ln Γ(α) + (α − 1) ln(πxi ) −
xi
∂α
∂α
Y
1 d
= −n
Γ(α) + ln( xi ) = 0
Γ(α) dα
#
57
4.2. TEMAS ADICIONALES
i.i.d.
Definición. Asumimos que X1 , . . . , Xn ∼ F indexada con un parámetro
θ ∈ Rk y que al menos tiene k momentos finitos. Para j = 1, . . . , k sea
µj (θ) = E[X1j |θ]. Suponga que µ(θ) = (µ1 (θ), . . . , µk (θ)) es biyectiva. Sea M
la inversa de µ,
M (µ(θ)) = θ = M (µ1 (θ), . . . , µ2 (θ))
y defina los momentos empíricos
mj =
n
1X
Xj,
n i=1 i
j = 1, . . . , k.
El estimador según el método de los momentos es
θ̂ = M (m1 , . . . , mk ).
Nota: Del ejemplo anterior, µ1 (α) = E[x1 |α] = α.Dado que m1 = x̄n , el
sistema por resolver es
µ1 (α) = m1 ⇐⇒ α = x̄n
El estimador por método de momentos es α̂ = X̄n .
i.i.d
Ejemplo. X1 , . . . , Xn ∼ Γ(α, β). La varianza de X es
α2
α
2
2
2
=
VarX
=
E[X
]
−
E[X]
=
E[X
]
−
.
β2
β2
Se debe resolver el sistema
α
= X̄n = m1
β
α(α + 1)


µ2 (θ) =
= m2
β2



µ1 (θ)
=
(1)
(2)
De (1), α = m1 β. Sustituyendo en (2),
m1 β(m1 β + 1)
m1
m1
= m21 +
= m2 =⇒ m2 − m21 =
.
2
β
β
β
De esta manera,
m21
m1
,
α̂
=
β̂ =
m2 − m21
m2 − m21
m2 =
58
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Teorema. Si X1 , X2 , . . . es i.i.d con distribución indexada por θ ∈ Rk . Suponga que los k momentos teóricos son finitos ∀θ y suponga que M es continua.
Entonces el estimador por el método de momentos es consistente.
¿Cuál es el comportamiento en la distribución de θ̂ cuando la muestra es
grande?
Del teorema del límite central,
X̄n − θ
=
σ
√
n
√
Var(X̄n ) =
n(X̄n − θ) d
→
− N (0, 1)
σ
1 X
σ2
Var(X
)
=
1
n2
n
Implica que se debe multiplicar la media muestral por una constante para
hacer la desviación de X̄n con respecto a θ visible y, con ello, hacer inferencia
del parámetro θ.
Caso general. Si f (X|θ) es “suficientemente suave” como función de θ, es
puede comprobar que la verosimilitud tiende a una normal conforme n → ∞.
Es decir,


f (X|θ) ∝ exp 
−1
2 Vnn(θ)
(θ − θ̂)2 ,
n → ∞ (∗)
donde θ̂ es el MLE de θ y Vn (θ) cumple que:
Vn (θ) −−−→ V∞ (θ) < ∞
n→∞
Notas:
1) En el caso bayesiano, ninguna previa en θ puede anular el efecto en la
verosimilitud cuando n → ∞.
2) Por (∗) el MLE se distribuye asintóticamente como
V∞ (θ)
N θ,
,
n
!
59
4.2. TEMAS ADICIONALES
En general si Xn es un proceso estocástico que cumple: V ar(Xn ) −−−→ 0 y
n→∞
además E[Xn ] = X entonces Xn −
−−→ X
n→∞
P
En el ejemplo anterior, se confirma entonces que el MLE es consistente.
4.2.2.
Método Delta
Si Y1 , Y2 , . . . es una sucesión de variables aleatorias y sea F ∗ su c.d.f. continua.
Sea θ ∈ R y {an } sucesión de números positivos tal que an % ∞. Suponga
d
que an (Yn − θ) →
− F ∗ . Si α es una función tal que α0 (θ) 6= 0, entonces
an
d
[α(Yn ) − α(θ)] →
− F∗
0
α (θ)
Ejemplo. Sean X1 , X2 , . . . variables i.i.d. con media µ y varianza σ 2 . Sea α
una función tal que α0 (µ) 6= 0. Por el T.L.C,
√
n
d
(X̄n − µ) →
− N (0, 1)
σ
Entonces por el método Delta
√
n
σα0 (µ)
Si α(µ) =
d
[α(X̄n ) − α(µ)] →
− N (0, 1)
1
1
(µ 6= 0) =⇒ − 2 = α0 (µ). Entonces por el método Delta
µ
µ
√
n 2 1
1 d
µ
−
→
− N (0, 1)
σ
X̄n µ
"
#
Ejemplo
i.i.d
Si X1 , X2 . . . ∼ Exp(θ). Sea Tn =
n
.
Tn
P
Xi entonces el MLE de θ es θ̂ =
1
=
X̄n
60
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Note que
1
θ̂
= X̄n y
#
√ "
n
1
d
X̄n −
−−−→ N (0, 1).
n→∞
σ
θ
La varianza de una exponencial es σ 2 = Var(X1 ) =
1
, entonces
θ2
√
1
d
−−−→ N (0, 1).
θ n X̄n −
θ n→∞
"
#
El método Delta nos dice, con α(µ) =
asintótico de MLE:
1 0
1
, α (µ) = − 2 , el comportamiento
µ
µ
#
√ "
√ "
#
θ n
1
θ n 1
d
ᾱ(Xn ) − α
− θ −−−→ N (0, 1)
= 2
0
n→∞
α (1/θ)
θ
θ
X̄n
#
√ "
n 1
d
=
−θ −
−
−→ N (0, 1)
n→∞
θ X̄n
Por lo tanto el MLE θ̂ =
1
es asintóticamente normal con media θ y varianza
X̄n
Vn (θ)
θ2
= .
n
n
Caso bayesiano. En el ejemplo anterior, tome una previa θ ∼ Γ(α, β). La
P
distribución posterior es θ ∼ Γ(α + n, β + y), y = Xi . Supongamos que α
es entero positivo. Note que la distribución posterior de θ se puede expresar
como:
Γ(α + n, β + y) ∼
α+n
X
Exp(β + y)
i=1
y las variables exponenciales son independientes. Por lo tanto, por el T.L.C.,
la distribución posterior θ|X se distribuye asintóticamente como una normal
α+n
α+n
con media
y varianza
. Tomando una previa poco informativa,
β+y
(β + y)2
(α, β son cercanos a cero), la media es
n
1
=
= θ̂M LE
y
X̄1
61
4.3. LABORATORIO
y la varianza
1
θ2
Vn (θ̂)
=
=
.
2
y /n
n
n
que son los mismos obtenidos por la distribución asintótica del MLE de θ.
4.3.
Laboratorio
Suponga que tenemos una tabla con los siguientes datos, los cuales representan
la cantidad de giros hacia la derecha en cierta intersección.
(X <- c(rep(0, 14), rep(1, 30), rep(2, 36), rep(3, 68), rep(4, 43), rep(5, 43),
rep(6, 30), rep(7, 14), rep(8, 10), rep(9, 6), rep(10, 4), rep(11, 1), rep(12, 1)))
##
##
##
##
##
##
##
##
##
##
##
##
[1]
[26]
[51]
[76]
[101]
[126]
[151]
[176]
[201]
[226]
[251]
[276]
0
1
2
2
3
3
4
4
5
5
6
7
0
1
2
2
3
3
4
4
5
5
6
7
0
1
2
2
3
3
4
4
5
5
6
7
0
1
2
2
3
3
4
4
5
5
6
8
0
1
2
2
3
3
4
4
5
5
6
8
0
1
2
3
3
3
4
4
5
5
6
8
0
1
2
3
3
3
4
4
5
5
6
8
0
1
2
3
3
3
4
4
5
5
6
8
0
1
2
3
3
3
4
4
5
5
6
8
0
1
2
3
3
3
4
4
5
6
6
8
0
1
2
3
3
3
4
4
5
6
6
8
0
1
2
3
3
3
4
4
5
6
6
8
0
1
2
3
3
3
4
4
5
6
6
8
0
1
2
3
3
3
4
4
5
6
6
9
1
1
2
3
3
3
4
4
5
6
7
9
1
1
2
3
3
3
4
4
5
6
7
9
1
1
2
3
3
3
4
5
5
6
7
9
1
1
2
3
3
3
4
5
5
6
7
9
Queremos ajustar esta tabla a una distribución Poisson con función de densidad
P(X = x) =
λx e−λ
x!
Se puede comprobar que el MLE para λ es X̄n (Ejercicio). Queremos estimar
este parámetro alternativamente maximizando la función de verosimilitud.
Primero veamos la forma de los datos,
1 1 1 1 1 1 1
1 2 2 2 2 2 2
2 2 2 2 2 2 2
3 3 3 3 3 3 3
3 3 3 3 3 3 3
3 3 3 3 3 4 4
4 4 4 4 4 4 4
5 5 5 5 5 5 5
5 5 5 5 5 5 5
6 6 6 6 6 6 6
7 7 7 7 7 7 7
9 10 10 10 10 11 12
62
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
hist(X, main = "histograma del número de giros a la derecha",
right = FALSE, prob = TRUE)
0.10
0.00
0.05
Density
0.15
0.20
histograma del número de giros a la derecha
0
2
4
6
8
10
12
X
Definamos la función correspondiente a − log(P(X = x))
n <- length(X)
negloglike <- function(lambda) {
n * lambda - sum(X) * log(lambda) + sum(log(factorial(X)))
}
Para encontrar el parámetro deseado, basta minimizar la función negloglike
usando la rutina de optimización no lineal nlm.
lambda.hat <- nlm(negloglike, p = 0.5, hessian = TRUE)
Aquí el valor p = 0.5 representa un valor inicial de búsqueda y hessian
= TRUE determina que el cálculo de la segunda derivada se puede extraer
directamente.
Compare el resultado de lambda.hat$estimate con mean(X).
lambda.hat$estimate
4.3. LABORATORIO
63
## [1] 3.893331
mean(X)
## [1] 3.893333
Un resultado similar se puede obtener a través de la función mle2 del paquete
bbmle:
library(bbmle)
lambda.hat2 <- mle2(negloglike, start = list(lambda = 0.5))
lambda.hat2
##
##
##
##
##
##
##
##
##
Call:
mle2(minuslogl = negloglike, start = list(lambda = 0.5))
Coefficients:
lambda
3.893333
Log-likelihood: -667.18
64
CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Capítulo 5
Estadísticos Suficientes y
Criterio de Factorización
5.1.
Estadísticos suficientes
En las secciones anteriores, nos enfocamos en utilizar la densidad posterior
de un parámetro o bien a través de la verosimilitud. No siempre es posible
hacerlo de esa forma, o bien las propiedades estadísticas de esos estimadores
no son las óptimas en algunos casos. Bajo este escenario, podemos asumir
que un buen estimador es capaz de sintetizar la información disponible en la
muestra, y por lo tanto, generaríamos un estimador competitivo si al asumir
un valor del estadístico uno es capaz de “simular” la muestra de manera
aceptable, independientemente del valor del parámetro θ.
Si un estadístico cumple la condición anterior vamos a decir que es un
estadístico “suficiente” para generar la muestra:
Definición. Sea X1 , . . . , Xn una muestra según una distribución indexada
por θ. Sea T un estadístico, suponga que para cada θ ∈ Ω y para cada t en la
imagen de T , la distribución conjunta condicional X1 · · · Xn |T = t depende
solamente de t y no de θ. Entonces T es un estadístico suficiente del parámetro
θ.
65
66CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
5.2.
Teorema de Factorización de Fisher
La principal interrogante que se plantea en este momento es cómo se compara
la inferencia de un parámetro usando un criterio de suficiencia con respecto a
usar la verosimilitud o la densidad posterior. El siguiente teorema lo contesta:
Teorema. Si X1 , . . . , Xn es una muestra aleatoria de f (X|θ), donde el
parámetro θ es desconocido. Un estadístico T = r(X1 , . . . , Xn ) es suficiente
para θ si y solo si
fn (x|θ) = u(x)v(r(x), θ) ∀x ∈ Rn , ∀θ ∈ R.
Prueba (Discreta). fn (x|θ) = P(X = x|θ)
“⇐” Sea A(t) = {x ∈ R|r(x) = t}. Para θ ∈ R, x ∈ A(t),
P(X = x ∩ T = t)
P(T = t)
fn (x|θ, T = t)
= X
fn (y|θ)
Pθ (X = x|T = t) =
y∈A(t)
u(x)v(r(x), θ)
= X
u(y)v(r(y), θ)
y∈A(t)
=
u(x)v(t, θ)
X
(Como y ∈ A(t) entonces r(y) = t que es constante.)
v(t, θ)
u(y)
y∈A(t)
u(x)
= X
u(y)
y∈A(t)
no depende de θ.
Si x ∈
/ A(t) =⇒ P(X = x|T = t) = 0 no depende de θ.
“⇒” Si T es un estadístico suficiente, u(x) = P(X = x|T = t) no depende de
θ. Sea v(t, θ) = Pθ (T = t). Entonces
67
5.2. TEOREMA DE FACTORIZACIÓN DE FISHER
fn (x|θ) = P(X = x|θ) =
P(X = x|θ)
Pθ (T = t) = u(x)v(t, θ).
Pθ (T = t)
Consecuencia: fn (x|θ) ∝ v(r(x), θ) (u(x) es una constante con respecto a
θ). Aplicando el teorema de Bayes,
π(θ|x) ∝ π(θ)v(r(x), θ).
Por lo tanto la inferencia realizada usando la posterior o verosimilitud es
equivalente a la realizada a través del principio de suficiencia.
Corolario. Un estadístico r(x) es suficiente si y solo si la posterior depende
solamente de r(x) a través de los datos, sin importar cuál previa de θ se use.
Ejemplo. X1 , . . . , Xn ∼ Poi(λ),
fn (x|θ) =
n
Y
e−λ λxi
i=1
xi !
P
e−λn λ
=
Q
xi ( =r(x))
xi !
= Qn
1
e| −λn{zλr(x)}
x
!
i=1 i
|
{z
u(x)
} v(r(x),λ)
Si xi < 0 para al menos un i, entonces fn (x|θ) = 0. Tome u(x) = 0. Por el
P
teorema de factorización, r(x) = xi es un estadístico suficiente para λ.
Ejemplo. X1 , . . . , Xn ∼ f (x|θ)
f (x|θ) =

θxθ−1
0<x<1
otro caso
0
Verosimilitud: (0 < xi < 1 ∀i)
#θ−1
"
fn (x|θ) = θ
n
Y
xi
| {z }
= θn (r(x))θ−1 · |{z}
1
|
r(x)
Por el teorema de factorización r(x) =
Q
{z
v(r(x),θ)
}
u(x)
xi es un estadístico suficiente.,
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (σ 2 conocido).
68CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
n
1 X
exp − 2
(Xi − µ)2
2σ i=1
"
fn (x|θ) = (2πσ )
2 −n/2
#
n
n
1 X
µ X
µ2 n
= (2πσ 2 )−n/2 exp − 2
Xi2 + 2
Xi − 2
2σ i=1
σ i=1
2σ
"
| {z }
| {z }
r2 (x)
Tome
r1 (x)
n
1 X
exp − 2
Xi2 ,
2σ i=1
"
u(x) = (2πσ )
2 −n/2
#
#
"
#
nµ2
µ
v(r1 (x), µ) = exp 2 r1 (x) − 2 .
σ
2σ
Por teorema de factorización, r1 (x) =
µ.
P
Xi es un estadístico suficiente para
Con σ 2 desconocido, θ = (µ, σ 2 ), tome u(x) = 1,
−r2 (x) µr1 (x) nµ2
+
− 2
exp
2σ 2
σ2
2σ
"
v(r1 (x), r2 (x), θ) = (2πσ )
2 −n/2
Entonces
r(x) = (r1 (x), r2 (x)) =
X
xi ,
X
x2i
#
es un estadístico suficiente para (µ, σ 2 ).
1
i.i.d
Ejemplo. X1 , . . . , Xn ∼ Unif(0, θ), θ > 0, f (x|θ) = 1[0,θ] (x) .
θ
fn (x|θ) =
n
Y
1[0,θ] (xi )
1
θ
i=1
Nota: si al menos uno de los xi < 0 o xi > θ, u(x) = 0 (f (x|θ) = 0) (Trivial).
Si 0 < xi < θ ∀i =⇒ fn (x|θ) = 1[0,θ] (máx{xi })
n
1
θ
.
Si T = r(x) = X(n) =⇒ fn (x|θ) = u(x)v(r(x), θ), u(x) = 1. Por teorema de
factorización, r(x) = x(n) es un estadístico suficiente para θ.
69
5.3. ESTADÍSTICO SUFICIENTE MULTIVARIADO.
5.3.
Estadístico suficiente multivariado.
Si θ ∈ Rk , k ≥ 1 se necesita al menos k estadísticos (T1 , . . . , Tk ) en donde
para cada i = 1, . . . , k: Ti = ri (X1 , . . . , Xn ), con el fin de definir un estadístico
suficiente para θ en el siguiente sentido:
Definición. Suponga que para cada θ y para cada (t1 , . . . , tk ) en la imagen del estadístico (T1 , . . . , Tk ), la distribución condicional de X1 , . . . , Xn
dado (T1 , . . . , Tk ) = (t1 , . . . , tk ) no depende de θ, entonces (T1 , . . . , Tk ) es un
estadístico suficiente para θ.
Criterio de factorización:
Para todo x ∈ Rn y para todo θ ∈ Ω: fn (x|θ) = u(x)v(r1 (x), . . . , rk (x), θ) si
y sólo si T = (r1 (x), . . . , rk (x)) es un estadístico suficiente.
Nota: Si (T1 , . . . , Tk ) es suficiente para θ y si (T10 , . . . , Tk0 ) = g(T1 , . . . , Tk )
donde g es biyectiva, entonces (T10 , . . . , Tk0 ) es suficiente para θ. Ya que:
u(x)v(r(x)|θ) = u(x)v(g −1 (g(r(x))), θ).
Ejemplo. Considere los siguientes estadísticos en el caso normal con media y
varianza desconocidas.
T1 =
T2 =
n
X
i=1
n
X
Xi
Xi2
i=1
T10
n
1X
Xi
=
n i=1
T20 =
n
1X
(Xi − X n )2
n i=1
Entonces defina la siguiente función
(T10 , T20 ) = g(T1 , T2 ) =
1
1
1
T1 , T2 − 2 T12 .
n
n
n
70CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
De la primera entrada,
T10 =
1
T1 =⇒ T1 = nT10 .
n
De la segunda,
T20 =
2
1X
1
1
1X 2
T2 − 2 T12 =
Xi −
Xi
n
n
n
n
1X 2
=
Xi − 2Xi X̄n2 + X̄n
n
1X
=
(Xi − X̄n )2 = σ̂n2
n
y además T2 = n(T20 + T102 ).
Como g es biyectiva entonces (X̄n , σn2 ) es un estadístico suficiente para (µ, σ 2 ).
Ejemplo. X1 , . . . , Xn ∼ Unif(a, b), a < b. Encuentre un estadístico suficiente.
1. Si xi ≤ a o xi > b, tome u(x) = 0.
2. Si a < xi < b ∀i,
a. xi > a ∀i ⇔ x(1) > a.
b. xi < b ∀i ⇔ x(n) < b.
La verosimilitud es de la forma
fn (x|(a, b)) =
n
Y
i=1
1[a,b] (xi ) =
1
1{(z,w):z>a,w<b} (X(1) , X(n) ) · |{z}
1
(b − a)n
|
{z
v(r1 (x),r2 (x),(a,b))
} u(x)
Por teorema de factorización (r1 (x), r2 (x)) = (X(1) , X(n) ) es un estadístico
suficiente para (a, b).
5.4.
Estadísticos minimales
Idea: un estadístico suficiente que garantice una partición de X (espacio
muestral) de la manera más simple posible.
71
5.4. ESTADÍSTICOS MINIMALES
i.i.d
Definición (Estadístico de orden). Sean X1 , . . . , Xn ∼ f . Al ordenar los
datos
(Y1 , . . . , Yn ) = (X(1) , . . . , X(n) ) tal que Y1 < . . . < Yn
a (X(1) , . . . , X(n) ) se les llama estadísticos de orden de la muestra X1 , . . . , Xn .
Nota: (X(1) , . . . , X(n) ) es un estadístico suficiente de θ.
Ejemplo. X1 , . . . , Xn ∼ Cauchy(α).
f (x|α) =
1
[1 + (x − α)2 ]−1 , x ∈ R
π
Busque un estimador suficiente para α ∈ R.
fn (x|α) =
n
Y
f (xi |α) =
i=1
n
1
1 Y
[1 + (xi − α)2 ]−1 = n
[1 + (x(i) − α)2 ]−1
π
π
i=1
|{z} i=1
n
Y
u(x)
|
{z
v(y,α)
}
donde y = (X(1) , . . . , X(n) ) es suficiente para α.
Ejercicio: estime α usando el método de momentos o MLE (use R).
Definición. Un estadístico T es suficiente minimal si T es suficiente y es
función de cualquier otro estadístico suficiente. La misma definición aplica
para el caso multivariado.
Ejercicio: en el ejemplo anterior de una Cauchy(α), pruebe que los estadísticos
de orden son un estadístico minimal multivariado.
Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ, entonces
el MLE θ̂ de θ depende de X1 , . . . , Xn solamente a través de T . Además, si θ̂
es suficiente entonces θ̂ es minimal.
Prueba. Por teorema de factorización, fn (x|θ) = u(x)v(r(x), θ) ya que T = r(x)
es suficiente y además:
θ̂ = argmax fn (x|θ) = argmax v(r(x), θ),
θ
θ
(∆)
72CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
Por lo tanto el MLE depende solamente de T = r(x). Lo anterior se puede
escribir como: θ̂ = g(T ) para cualquier T estadístico suficiente, entonces θ̂ es
minimal.
Teorema. Si T = r(X1 , . . . , Xn ) es un estadístico suficiente para θ entonces
el estimador bayesiano (bajo una escogencia de L) depende de X1 , . . . , Xn
solamente a través de T . Además, si el estimador bayesiano es suficiente
entonces el estimador bayesiano es minimal.
Prueba. Sustituya (∆) por π(θ|x) ∝ v(r(x), θ)·π(θ). Como cualquier estimador
bayesiano depende de π(θ|x), cualquier estimador bayesiano es función de
cualquier estadístico suficiente T = r(x) y por lo tanto es minimal.
5.5.
Mejorando estimadores
Pregunta: ¿Será posible mejorar un estimador que no es suficiente?
Asuma que queremos estimar el parámetro θ. Considere una función de
riesgo o pérdida de la forma:
R(θ, δ) = E[(δ(x) − θ)2 ]
A esta expresión se le llama “Error cuadrático medio” (MSE). Si δ(x) estima
una característica de F :
R(θ, δ) = E[(δ(x) − h(θ))2 ]
donde h es la característica.
Nota: como no estamos asignando una previa sobre θ entonces lo que se
busca es un estimador δ(x) para el cual el MSE sea pequeño para cada valor
de θ ∈ Ω.
Definición.
Decimos que δ es inadmisible si ∃δ0 (otro estimador) tal que R(θ, δ0 ) ≤
R(θ, δ) ∀θ ∈ Ω y al menos hay un θ ∈ Ω es donde la desigualdad es estricta.
En este caso específico decimos que δ0 “domina” a δ. Por otro lado decimos
que δ0 es admisible si no existe otro estimador que domine a δ0 .
5.5. MEJORANDO ESTIMADORES
73
Teorema (Rao-Blackwell). Sea δ(X) un estimador y T un estadístico
suficiente para θ y sea δ0 = Eθ [δ(X)|T ] = E[δ(X)|T ]. Entonces
R(θ, δ0 ) ≤ R(θ, δ) ∀θ ∈ Ω
Prueba. Por la desigualdad de Jensen,
Eθ [(δ(X) − θ)2 ] ≥ (Eθ [(δ(X) − θ)])2 .
También,
Eθ [(δ(X) − θ)2 |T ] ≥ (Eθ [(δ(X)|T )] − θ)2 = (δ0 (T ) − θ)2 .
Entonces,
R(θ, δ0 )=Eθ [{δ0 (T ) − θ}2 ] ≤ E[E[(δ(X) − θ)2 |T ]] = E[(δ(X) − θ)2 ] = R(θ, δ).
Notas:
Hay desigualdad estricta en el teorema anterior si δ(X) es función de T
Si cambiamos a R(θ, δ) = E[|δ(x) − θ|] (error medio absoluto), el
resultado anterior es cierto.
i.i.d
Ejemplo. Sean X1 , . . . , Xn ∼ Poisson(θ) donde θ es la tasa de “visitas” de
clientes por hora.
Numericamente podemos hacer el ejemplo con θ = 2 y una muestra de
n = 10000,
X <- rpois(n = 10000, lambda = 2)
head(X, 20)
##
[1] 1 3 3 0 3 4 1 1 2 2 1 3 4 2 3 3 3 4 0 2
hist(X)
74CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
1000 1500 2000 2500
0
500
Frequency
Histogram of X
0
2
4
6
8
10
X
A partir de la verosimilitud,
P
e−θn θ Xi
fn (X|θ) = Q
Xi !
se tiene que T =
Sea Yi =
P
Xi es un estadístico suficiente para θ.

1
si Xi = 1
.
0 si Xi =
6 1
Esta Y se calcula de la forma
Y <- X == 1
head(Y, 10)
##
[1]
TRUE FALSE FALSE FALSE FALSE FALSE
TRUE
TRUE FALSE FALSE
El objetivo es estimar p donde p es la probabilidad de que Xi = 1 (solo llegue
un cliente por hora). Un estimador de p (MLE) es
δ(x) =
P
Yi
n
5.5. MEJORANDO ESTIMADORES
75
(delta <- mean(Y))
## [1] 0.2663
¿Es el óptimo?
Calculamos
n
1X
E[δ(x)|T ] =
E(Yi |T )
n i=1
Vea que
P(Xi = 1, T = t)
P(T = t)
P
P(Xi = 1, j6=i Xj = t − 1)
=
P(T = t)
P
P(Xi = 1)P( j6=i Xj = t − 1)
=
=∆
P(T = t)
E[Yi |T = t] = P(Xi = 1|T = t) =
P(Xi = 1) = θe−θ
P(
−(n−1)θ
j6=i Xj = t − 1) = e
P
P(T = t) = e−nθ
((n − 1)θ)t−1
(t − 1)!
(nθ)t
t!
Entonces,
((n − 1)θ)t−1
t
1 t−1
(t − 1)!
=
1
−
(nθ)t
n
n
e−nθ
t!
θe−nθ
∆=
y este último término no depende de i. Por lo tanto el estimador con MSE
mínimo es δ0 = ∆.
T <- sum(X)
n <- length(X)
(delta_0 <- (T / n) * (1 - 1 / n)ˆ(T - 1))
## [1] 0.2690194
En este caso δ0 es mejor que δ bajo una pérdida cuadrática.
76CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
Capítulo 6
Distribución muestral de un
estadístico
6.1.
Distribución muestral
Definición. Suponga que X1 , . . . , Xn es una muestra con parámetro θ (desconocido). Sea T = r(X1 , . . . , Xn , θ). La distribución de T dado θ se llama
distribución muestral.
Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ). El MLE de µ es
X̄n =
n
1X
Xi .
n i=1
La distribución muestral del estadístico X̄n es
σ2
X̄n ∼ N µ,
n
E[X̄n ] =
!
n
1X
1
E[Xi ] = · nE[X1 ] = µ.
n i=1
n
n
1X
1
σ2
Var(X̄n ) = Var
Xi = 2 · n · Var(X1 ) = .
n i=1
n
n
!
77
78 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
i.i.d
Ejemplo. Sea Xi : tiempo de vida de un aparato. Suponga que X1 , . . . , Xn ∼
Exp(θ) y que la previa de θ es Γ(1, 2). Solamente observamos n = 3 tiempos.
La posterior sería
θ|X ∼ Γ(1 + 3, 2 +
3
X
Xi ).
i=1
El estimador bayesiano, bajo pérdida cuadrática, es
E[θ|X] =
4
2+
P
Xi
= θ̂
Problema: estimar P(|θ̂ − θ| < 0,1).
Note que
P(|θ̂ − θ| < 0,1) = E[1|θ̂−θ|<0,1|θ) ]
= E[E[1|θ̂−θ|<0,1|θ) |θ]]
= E[P(|θ̂ − θ| < 0,1|θ)]
Debemos definir primero cuál es la función de distribución de θ̂.
4
Fθ̂ (t|θ) = P(θ̂ ≤ t|θ) = P
≤tθ
2+T
!
4
=P 2+T ≥ θ
t
!
4
=P T ≥ −2θ
t
!
Nota: Recuerde que sumas de exponenciales es una gamma. (Ver
teorema 5.7.7 deñ DeGroot)
Entonces T =
i=1 Xi ∼ Γ(3, θ), por lo que F (t|θ) = 1 − GΓ(3,θ)
P3
Aqui denotamos como G a la distribución de T .
4
−2 .
t
79
6.1. DISTRIBUCIÓN MUESTRAL
De esta manera,
P[|θ̂ − θ| < 0,1|θ] = P[−0,1 + θ < θ̂ < 0,1 + θ|θ]
4
4
− 2 − GΓ(3,θ)
−2
−0,1 + θ
0,1 + θ
!
= GΓ(3,θ)
!
y la esperanza se calcula al integrar con respecto a la dendidad previa de
θ. Esta esperanza no se puede estimar de forma cerrada, sino que se podría
aproximar mediante una simulación sobre θ. El valor aproximado de la integral
es 0.478 aproximadamente.
Otra solución es estimar θ usando el MLE θ̂ =
probabilidad de forma que no dependa de θ.



P

3
.
T
Se podría construir esa

θ̂M LE
−1
| θ {z
}
Cambio relativo
< 0,1


θ

3
− 1 < 0,1 θ = ∆
θT
!
=P
80 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Si T ∼ Γ(3, θ) =⇒ θT ∼ Γ(3, 1).
Por lo tanto,
3
3
3
∆ = P 0,9 <
< 1,1 θ = P
< θT <
θT
1,1
0,9
!
!
= 13, 4 %
Distribución χ2
6.2.
Definición. Para m > 0 definimos
χ2m
m 1
∼Γ
,
2 2
la distribución chi-cuadrado con m grados de libertad.
Propiedades:
E[X] = m.
Var(X) = 2m.
Para Xi ∼ χ2mi , i = 1, . . . , k, independientes, entonces
k
X
Xi ∼ χ2P mi
i=1
Si X ∼ N (0, 1) =⇒ Y = X 2 ∼ χ21 .
i.i.d
Si Xi ∼ N (0, 1) =⇒
Pm
i=1
Xi2 = χ2m .
Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) =⇒ Z =
Entonces
es decir
X
P (Xi −µ)2
σ2
∼ χ2n
Xi − µ
∼ N (0, 1) ∀i.
σ
Zi2 ∼ χ2n
(∗).
Por otro lado si µ es conocido y σ 2 desconocido, entonces el MLE de σ 2 es
σ̂02 =
n
1X
(Xi − µ)2
n i=1
81
6.2. DISTRIBUCIÓN χ2
De esta manera, observe que, de (∗),
n
n 1X
σ̂02
2
(X
−
µ)
=
n
∼ χ2n
i
σ 2 n i=1
σ2
La principal limitación del cálculo anterior es que µ es conocida. Al asumir
que µ es desconocida: ¿Cuál es la distribución muestral de (X̄n , σ̂ 2 )?
Teorema (++) . Bajo las condiciones anteriores,
1. X̄n y σ̂n2 son independientes aunque σ̂n2 es función de X̄n .
!
σ2
.
2. La distribución muestral de X̄n es N µ,
n
σ̂n2 Pn (Xi − X̄n )2
= i=1
∼ χ2n−1 .
σ2
σ2
Nota: De álgebra lineal, recuerde que una matriz An×n es ortogonal si cumple
que A−1 = A0 . Como consecuencias:
3. n
1. det(A) = 1.
2. Si X, Y ∈ Rn , Y = AX y A ortogonal, entonces
kY k22 = kXk22
(∆∆)
i.i.d.
Teorema. Si X1 , . . . , Xn ∼ N (0, 1), A es una matriz ortogonal n × n y
i.i.d.
Y = AX donde X = (X1 , . . . , Xn )T entonces Y1 , . . . , Yn ∼ N (0, 1) y
kY k22 = kXk22
.
Prueba. Ver Teorema 8.3.4 en el DeGroot.
Para justificar el Teorema (++), sea X1 , . . . , Xn ∼ N (0, 1). Usando el método
de Gram-Schmidt con vector inicial
1
1
u = √ ,··· , √
n
n
"
#
82 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
 
u
podemos generar una matriz A =  ..  ortogonal. Defina Y = AX. Entonces
.
n
√
1 X
Y1 = uX = √
Xi = nX̄n .
n i=1
Por la propiedad (∆∆),
n
X
=
Yi2
i=1
n
X
Yi2 =
i=2
n
X
n
X
Xi2 . Entonces,
i=1
Yi2 − Y12 =
n
X
Xi2 − nX̄n2 =
(Xi − X̄n )2 .
i=1
i=1
i=1
n
X
1 Pn
P
2
Como Y12 y ni=2 Yi2 son independientes, entonces X̄n y
i=1 (Xi − X̄n )
n
son independientes.
Note que
Pn
i=2
i.i.d
Yi2 ∼ χ2n−1 ya que Yi ∼ N (0, 1).
Si X1 , . . . , Xn ∼ N (µ, σ 2 ), tome Zi =
Xi −µ
σ
y repita todo lo anterior.
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (µ, σ desconocidos). Los MLE son
n
1X
(Xi − X̄n )2
σ̂ =
n i=1
"
µ̂ = X̄n ,
#1
2
.
Encuentre n tal que
σ
1
σ
≥ .
p = P |µ̂ − µ| < , |σ̂ − σ| <
5
5
2
#
"
Por independencia de X̄n y σ̂n2 ,
"
# "
σ
σ
p = P |µ̂ − µ| <
P |σ̂ − σ| <
5
5
Por un lado,
#
#
" √
√
√ #
√ !
√ !
σ
n
n(µ̂ − µ)
n
n
n
P |µ̂ − µ| <
=P −
≤
<
=Φ
−Φ −
.
5
5
σ
5
5
5
|
{z
}
"
N (0,1)
83
6.2. DISTRIBUCIÓN χ2
Además,
"
#
"
#
σ
σ
σ
P |σ̂ − σ| <
=P − < σ̂ − σ <
5
5
5
"
#
σ
σ
=P − + σ < σ̂ < + σ
5
5
"
#
4
6
=P − σ < σ̂ < σ
5
5
"
#
4
σ̂
6
=P − < <
5
σ
5
"
2
2 #
2
4
σ̂
6
< 2 <
=P −
5
σ
5
nσ
ˆ2
=P 0,64n < 2 < 1,44n
σ
=Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n).
"
#
Estime n de manera que
"
√ !#
n
1
[Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n)] ≥ .
1 − 2Φ −
5
2
Se resuelve numéricamente, y si n = 21 se cumple.
6.2.1.
Ilustración de la distribución χ2
ggplot(data = data.frame(x = seq(0, 40, length.out = 1000)), aes(x)) +
stat_function(fun = dchisq,
args = list(df = 5),
aes(color = "05 grados de libertad")) +
stat_function(fun = dchisq,
args = list(df = 10),
aes(color = "10 grados de libertad")) +
stat_function(fun = dchisq,
args = list(df = 20),
84 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
aes(color = "20 grados de libertad")) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()
colour
05 grados de libertad
10 grados de libertad
20 grados de libertad
0
10
20
30
40
x
6.3.
Distribución t
Definición. Sea Y y Z dos variables independientes tal que Y ∼ χ2m y
Z ∼ N (0, 1). Si
Z
X := s ,
Y
m
entonces decimos que X tiene una distribución t de Student con m grados
de libertad. La función de densidad de X es:
m+1
! m+1
Γ
2 − 2
x
2 1 +
,
fX (x) = √
m
m
mπΓ
2
x ∈ R.
85
6.3. DISTRIBUCIÓN T
Propiedades:
1. fX es simétrica.
2. La media de X no existe si m ≤ 1. Si la media existe, es 0.
3. Las colas de una t de Student son más pesadas que una N (0, 1).
4. Si m es entero, los primeros m − 1 momentos de X existen y no hay
momentos de orden superior.
m
.
5. Si m > 2, Var (X) =
m−2
6. Si m = 1, X ∼ Cauchy.
7. Ejercicio: fx (x) −−−→ Φ(x) (sirve como aproximación). La discrepanm→∞
cia de ambas está principalmente en sus colas y se disipa cuando m es
grande.
Recuerde que, por el teorema 8.3.1 (DeGroot), X̄n y Y =
σ2
independientes, con X̄n ∼ N µ,
n
Z=
!
y Y ∼ χ2n−1 . Además,
√ X̄n − µ
∼ N (0, 1).
n
σ
Sea
Z
T =s
=
Y
n−1
√ X̄n − µ
n
X̄n − µ
v σ
=s
u
2
σ̂
u nσ̂
u
t σ2
n−1
n−1
el cual no depende de σ.
i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), defina
n
1 X
σ =
(Xi − X̄n )2
n − 1 i=1
"
0
#1
2
.
nσ̂ 2
son v.a.
σ
86 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Entonces
√
Nota. σ 0 =
n
n−1
1
2
n(X̄n − µ)
∼ tn−1
σ0
σ̂ (si n es grande, σ 0 = σ̂).
Prueba. Sean
Sn2 =
n
X
(Xi − X̄n )2 ,
i=1
Dado que Y =
Sn2
σ2
Z=
√ X̄n − µ
.
n
σ
∼ χ2n−1 , entonces
√
n
(X̄n − µ)
Z
σ
s
s
U=
=
Sn2
Y
σ 2 (n − 1)
n−1
√
n(X̄n − µ)
= s 2
Sn
n−1
√
n(X̄n − µ)
=
∼ tn−1 .
σ0
6.3.1.
Ilustración de distribución t.
ggplot(data = data.frame(x = seq(-5, 5, length.out = 1000)), aes(x)) +
stat_function(fun = dnorm,
args = list(mean = 0, sd = 1),
aes(color = "Normal(0,1)")) +
stat_function(fun = dt,
args = list(df = 1),
aes(color = " t con 01 grados de libertad")) +
stat_function(fun = dt,
args = list(df = 5),
aes(color = " t con 05 grados de libertad")) +
stat_function(fun = dt,
args = list(df = 10),
87
6.3. DISTRIBUCIÓN T
aes(color = " t con 10 grados de libertad")) +
ylab("") +
scale_y_continuous(breaks = NULL) +
theme_minimal()
colour
t con 01 grados de libertad
t con 05 grados de libertad
t con 10 grados de libertad
Normal(0,1)
-5.0
-2.5
0.0
x
2.5
5.0
88 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Capítulo 7
Intervalos de confianza
7.1.
Intervalos de confianza para la media de
una distribución normal
Dado θ un parámetro en R hemos estudiado procedimientos para encontrar
estadísticos T ∈ R que permitan estimarlo. Para incluir más información
acerca del parámetro podemos sustituir este estadístico T con otros dos
estadísticos T1 y T2 de modo que sepamos que
T1 ≤ θ ≤ T2
con una cierta probabilidad. En caso que θ ∈ Rk se puede construir un
conjunto de estadísticos T1 , . . . , Tk0 con k 0 = 2k tal que
θ ∈ [T1 , T2 ] × · · · × [Tk0 −1 , Tk0 ]
En el caso normal, X̄n es un estimador puntual de µ. ¿Será posible encontrar
un estimador por intervalo?
√
n(X̄n − µ)
Defina U =
∼ tn−1 . Si c > 0,
σ0
89
90
CAPÍTULO 7. INTERVALOS DE CONFIANZA
"
√
#
n(X̄n − µ)
P[−c < U < c] = P − c <
<c
σ0
#
"
cσ 0
cσ 0
= P − √ < X̄n − µ < √
n
n
"
#
0
cσ
cσ 0
= P X̄n − √ < µ < X̄n + √
n
n
El intervalo
cσ 0
cσ 0
T = X̄n − √ , X̄n + √
n
n
"
#
es un intervalo aleatorio que “contiene” a µ. Si queremos restringir la probabilidad anterior, tome γ ∈ (0, 1):
P(µ ∈ T ) = γ.
Para que se cumpla lo anterior, seleccione c tal que
γ = P(µ ∈ T ) = Ftn−1 (c) − Ftn−1 (−c)
= Ftn−1 (c) − [1 − Ftn−1 (c)]
= 2Ftn−1 (c) − 1
Entonces
γ+1
γ+1
= Ftn−1 (c) =⇒ c = Ft−1
.
n−1
2
2
Definición. Si X es una variable aleatoria continua con distribución F
(monótona creciente), entonces x = F −1 (p) es el cuantil de orden p de F
(p-cuantil).
El intervalo aleatorio
7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL91
"
X̄n −
Ft−1
n−1
γ + 1 σ0
γ + 1 σ0
√ , X̄n + Ft−1
√
n−1
2
n
2
n
#
contiene a µ con probabilidad γ.
Definición. Sea X = (X1 , . . . , Xn ) una muestra con parámetro θ. Sea g(θ)
una característica de la distribución que genera la muestra. Sea A < B dos
estadísticos que cumplen (∀θ):
P[A < g(θ) < B] ≥ γ. (∗)
Al intervalo aleatorio (A, B) le llamamos intervalo de confianza con coeficiente γ para g(θ) (intervalo de confianza al 100γ % para g(θ)). En el caso
que (∗) tenga una igualdad, decimos que el intervalo es exacto.
Nota. Si observamos X, calculamos A = a, B = b. Entonces (a, b) es el valor
observado de un intervalo de confianza.
Ejemplo. Se mide la lluvia con nubes inyectadas con “sulfato de plata” a
través de n = 26 observaciones bajo una transformación logarítmica. Se desea
hacer inferencia sobre µ, la cantidad de log-lluvia media. Para γ = 0,95, se
calcula
c=
Ft−1
25
1+γ
2
= Ft−1
(0,975) = 2,060
25
Note que 1+γ
= 0,975 y el segundo valor se obtiene de una tabla de valor de
2
la t-student o de la expresión qt(p = 0.975, df = 26-1) = 2,06
92
CAPÍTULO 7. INTERVALOS DE CONFIANZA
1.00
(2.060,0.975)
t 25
0.75
0.50
0.25
0.00
-2
0
2
El intervalo de confianza para µ al 95 % es
X̄n ± 0,404 σ 0
| {z }
2,060
√
26
Si X̄n = 5,134 y σ 0 = 1,6 el valor observado del intervalo de confianza al 95 %
para µ corresponde a
[5,134 − 0,404 · 1,6, 5,134 + 0,404 · 1,6] = [4,47, 5,78]
Interpretación. El intervalo observado [4,48, 5,78] es una realización del
intervalo de confianza que contiene a µ con un nivel de confianza del 95 %.
cσ 0
Usualmente a √ se le llama margen de error (MOE).
n
Interpretación gráfica. Si se repitiera el experimento que genera la muestra
muchas veces, en el 100γ % (e.g, 95 % o 99 %) de la veces el intervalo observado
contendría al parámetro real de la población θ.
7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL93
Figura 7.1: Ejemplo interactivo sobre intervalos de confianza. Tomado de (R
Psycologist)[https://rpsychologist.com/d3/ci/]
94
CAPÍTULO 7. INTERVALOS DE CONFIANZA
7.2.
Intervalos de confianza abiertos
Si γ √
es el nivel de confianza dado, sea γ1 < γ2 tal que γ2 − γ1 = γ. Sea
n
U = 0 (X̄n − µ).
σ
Si
σ0
σ0
−1
−1
y B = X̄n + Tn−1
(γ2 ) √ ,
A = X̄n − Tn−1
(γ1 ) √
n
n
entonces se cumple que (A, B) es un intervalo de confianza al 100γ % ya que
−1
−1
P[µ ∈ (A, B)] = P[Tn−1
(γ1 ) < U < Tn−1
(γ2 )] = γ2 − γ1 = γ.
Definición (Intervalos de confianza abiertos). Bajo las condiciones anteriores, si A es un estadístico que satisface ∀θ:
P[A < g(θ)] ≥ γ,
A A se le llama límite inferior de confianza al 100γ % para g(θ) y al
intervalo (A, ∞) es el intervalo de confianza inferior al 100γ % para
g(θ).
De forma análoga, si B satisface:
P[g(θ) < B] ≥ γ,
a (−∞, B) se le llama intervalo de confianza superior para g(θ), con
nivel 100γ %. Si hay igualdad, el intervalo es exacto.
Ejemplo. En el caso normal, encuentra B tal que P(µ < B) = γ. Se sabe
que
!
√
n(X̄n − µ)
Ftn−1 (c) = P(U > −c) = P −c <
.
σ0
Entonces
σ0
√
γ = P µ < X̄n +
c .
n
!
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS
Tome c tal que
95
Ftn−1 (c) = γ =⇒ c = Ft−1
(γ)
n−1
Por lo tanto
σ0
B = X̄n + √ Ft−1
(γ).
n n−1
es un intervalo de confianza superior para µ al 100γ %.
7.3.
Intervalos de confianza en otros casos
Ejemplo. Considere el ejemplo de los tiempos de vida Xi en donde n = 3 y
Xi ∼ Exp(θ).
Si T =
P3
i=1
Xi entonces θT ∼ Γ(3, 1).
Queremos calcular un intervalo de confianza superior para θ al 100δ % (exacto),
es decir queremos encontrar B aleatorio tal que: P[θ < B] = γ.
Si G es la función de distribución de Γ(3, 1), sabemos que:
G−1 (γ)
.
γ = P[θT < G−1 (γ)] = P θ <
T
"
El límite superior es
#
G−1 (γ)
.
T
theta <- 2
X <- rexp(3, rate = theta)
T <- sum(X)
G_inv <- qgamma(p = 0.95, shape = 3, rate = 1)
Entonces el intervalo de confianza observado para este caso es
c(0, G_inv / T)
## [1] 0.000000 6.401461
Definición. Sea X = (X1 , . . . , Xn ) una muestra de una distribución Fθ . Sea
V (X, θ) una variable aleatoria cuya distribución no depende de θ. Decimos
que V es una cantidad pivotal.
96
CAPÍTULO 7. INTERVALOS DE CONFIANZA
Un intervalo de confianza para g(θ) se determina a partir de un proceso de
inversión de la cantidad pivotal. Es decir, buscamos una función r(v, x) tal
que
r(V (X, θ), X) = g(θ) (∗)
En el ejemplo anterior, V (X, θ) = θT ,
r(V (X, θ), X) =
V (X, θ)
= g(θ) = θ.
T
Teorema. Bajo las condiciones anteriores y si la cantidad pivotal V existe
sea G su c.d.f. y asuma que G es continua. Asuma que la función r existe
como en (*) y asuma que r(v, x) % en v para cada x. Sea 0 < γ < 1 y γ2 > γ1
tal que γ2 − γ1 = γ. Entonces los extremos del intervalo de confianza para
g(θ) al 100γ % son
A = r(G−1 (γ1 ), X),
B = r(G−1 (γ2 ), X).
i.i.d
Ejemplo. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Encuentre A, B tales que P[A < σ 2 <
B] = γ.
Se sabe que
nσ̂ 2
∼ χ2n−1 .
σ2
Tome V (X, σ 2 ) =
nσ̂ 2
. Entonces
σ2
γ = P[χ2n−1,γ1 < V (X, σ 2 ) < χ2n−1,γ2 ]
donde γ = γ2 − γ1 . Tome
r(v, X) =
nσ̂ 2
(Xi − X̄n )2
=
.
v
v
P
Invirtiendo el intervalo,
γ=P
(Xi − X̄n )2
< σ2 <
2
χn−1,γ2
"P
|
{z
A
}
(Xi − X̄n )2
χ2n−1,γ1
P
|
{z
B
}
#
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS
97
Donde χ2n−1,γ = Fχ−1
(γ). El IC para σ 2 al 100γ % es
2
n−1
P
(Xi − X̄n )2

,
χ2n−1,γ2

(Xi − X̄n )2 
.
χ2n−1,γ1
P
Por ejemplo
X <- rnorm(n = 1000, 0, 2)
gamma1 <- 0.025
gamma2 <- 0.975
gamma2 - gamma1
## [1] 0.95
(chi2_gamma1 <- qchisq(p = gamma1, df = 1000 - 1))
## [1] 913.301
(chi2_gamma2 <- qchisq(p = gamma2, df = 1000 - 1))
## [1] 1088.487
(diferencias <- sum((X - mean(X))ˆ2))
## [1] 3854.307
Finalmente el intervalo es
c(diferencias / chi2_gamma2, diferencias / chi2_gamma1)
## [1] 3.540976 4.220193
NOTA: Las cantidades pivotales no siempre existen. Esto ocurre principalemente con las distribuciones discretas
98
7.3.1.
CAPÍTULO 7. INTERVALOS DE CONFIANZA
Intervalos de confianza aproximados.
i.i.d
Sean X1 , . . . , Xn ∼ Fµ donde E[Xi ] = µ y Var(Xi ) = σ 2 (conocida). Note
que
"
#
√
n(X̄n − µ)
T LC
D = P[A < µ < B] = P − z 1+γ <
< z 1+γ ≈ γ.
2
2
σ
Así,
D ≈ Φ z 1+γ − Φ −z 1+γ = γ.
n→∞
2
2
Ejercicio. El intervalo de confianza correspondiente para µ es
σ
X̄n ± z 1+γ √ .
2
n
Considere U =
Como (σ 0 )2 =
X̄n − µ
√ . U es pivotal, pero no necesariamente una tn−1 .
σ0/ n
n
σ̂ 2
n−1
y además σ̂ 2 es el MLE de σ 2 y por lo tanto consistente:
σ̂ 2 →
− σ2
P
((σ 0 )2 →
− σ 2 ).
P
d
d
Recuerde que si Xn →
− Z y Yn →
− a, entonces Xn Yn →
− aZ.
Por lo tanto,
P
√
X̄n − µ σ/ n d
√ ·
√ →
− N (0, 1)
σ/ n σ 0 / n
|
d
{z
} | {z }
→
− N (0,1)
P
→
−1
d
Entonces U →
− N (0, 1).
Como consecuencia
"
P − z 1+γ
2
X̄n − µ
< 0 √ < z 1+γ
2
σ/ n
#
T LC
≈ γ.
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS
99
y el IC aproximado para µ al 100γ %:
σ0
X̄n ± z 1+γ √ .
2
n
Ejemplo. Si X1 , . . . , Xn ∼ Poi(θ), µ = σ 2 = θ. Por TLC,
√ X̄n − θ d
n √
→
− N (0, 1).
θ
Entonces
√ #
√ !
n|X̄n − θ|
c n
c n
√
≈ 2Φ √
− 1.
< √
θ
θ
θ
"√
P[|X̄n − θ| < c] = P
Nota: La probabilidad anterior depende del parámetro θ.
Explicación del fenómeno: En este caso recuerden que X̄n es una variable
aleatoria. Lo que dice el teorema del límite central es que conforme n es
grande, la distribución de X̄n (centrada y escalada apropiadamente) converge
a una normal estándar.
Xbar <- data.frame(n = numeric(), Z = numeric())
idx <- rep(x = c(10, 2000), times = 1000)
for (k in 1:length(idx)) {
muestra <- rpois(n = idx[k], lambda = 5)
Xbar[k, "Z"] <- sqrt(idx[k]) * (mean(muestra) - 5) / sqrt(5)
Xbar[k, "n"] <- idx[k]
}
ggplot(Xbar) +
geom_histogram(mapping = aes(x = Z, y = ..density..), color = "white") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
facet_wrap(. ~ n, scales = "free")
100
CAPÍTULO 7. INTERVALOS DE CONFIANZA
10
2000
0.6
0.4
0.3
density
0.4
0.2
0.2
0.1
0.0
0.0
-3
-2
-1
0
1
2
-2
0
2
Z
7.3.2.
Transformaciones estabilizadoras de la varianza
[Ver página 365 del libro de texto.]
En el ejemplo anterior: ¿Cómo transformar X̄n para que tenga varianza
constante? Note que en el caso anterior se necesitó saber explícitamente el
valor exacto de θ para hacer el ejercicio.
Por el método Delta, la varianza “aproximada” de α(X̄n ) es
α0 (µ)
an
!2
=
α0 (µ)σ
√
n
!2
=
α0 (µ)2 σ 2 (µ)
.
n
Si se desea que la varianza sea constante con respecto a µ,
α0 (u)2 σ 2 (µ) = 1
1
(σ(µ) > 0)
σ(µ)
Z µ
dx
=⇒ α(µ) =
dx
a σ(x)
=⇒ α0 (µ) =
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS
101
donde a es una constante arbitraria que hace la integral finita (y fácil de
calcular) y se está asumiendo que la varianza σ es función de µ.
Del ejemplo anterior (Poisson), recuerde que σ 2 = θ = µ, entonces se podría
√
tomar que σ(µ) = µ y por lo tanto:
α(µ) =
Z µ
0
dx
√
√ =2 µ
x
Por el método Delta,
1
2X̄n ∼ N 2θ ,
n grande
n
1
2
1
2
De esta manera
1
2
1

1
2
P[|2X̄n − 2θ | < c] = P
1
|2X̄n2 − 2θ 2 |

q
1/n
<
√

√
nc ≈ 2Φ( nc) − 1
Desarrollando,
1
1
√
1
P[−c + 2X̄n2 < 2θ 2 < c + 2X̄n2 ] ≈ 2Φ( nc) − 1
Se despeja c tal que
√
1+γ
1
=⇒ c = √ z 1+γ .
Φ( nc) =
2
n 2
1
El intervalo de confianza para 2θ 2 es
"
1
1
1
2X̄n − √ z 1+γ , 2X̄n2 + √ z 1+γ
n 2
n 2
1
2
#
set.seed(42)
X <- rpois(n = 1000, lambda = 5)
Xbar <- mean(X)
z <- qnorm(p = 0.975)
c(2 * sqrt(Xbar) - 1 / sqrt(1000) * z, 2 * sqrt(Xbar) + 1 / sqrt(1000) * z)
102
CAPÍTULO 7. INTERVALOS DE CONFIANZA
## [1] 4.371529 4.495488
y2
1
Para estimar el IC para θ, note que si y = 2x 2 =⇒ x = . Aplicando esta
4
transformación al intervalo de confianza anterior, se obtiene
"
1
1
1
2X̄n2 − √ z 1+γ
4
n 2
!2
1
1
1
,
2X̄n2 + √ z 1+γ
4
n 2
!2 #
.
c((1 / 4) * (2 * sqrt(Xbar) - 1 / sqrt(1000) * z)ˆ2,
(1 / 4) * (2 * sqrt(Xbar) + 1 / sqrt(1000) * z)ˆ2)
## [1] 4.777567 5.052354
Capítulo 8
Estimación Bayesiana bajo
normalidad
8.1.
Precisión de una distribución normal
Definición. La precisión τ de una variable aleatoria normal se define como
τ = σ12 .
Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) = N (µ, τ −1 ). Su densidad corresponde a
1
f (x|µ, σ ) =
2πσ 2
2
τ
=
2π
1
1
2
2
1
exp − 2 (x − µ)2
2σ
"
#
#
"
τ
exp − (x − µ)2 = f (x|µ, τ ).
2
La verosimilitud es por lo tanto:
τ
fn (x|µ, τ ) =
2π
n
2
n
τX
exp −
(xi − µ)2 .
2 i=1
"
#
La previa conjunta de (µ, τ ) cumple que [µ, τ ] ∝ [µ|τ ] · [τ ] y la posterior
conjunta de la misma variable cumple que [µ, τ |x] ∝ [µ|τ, x] · [τ |x].
103
104
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
Para el caso normal usaremos previas conjugadas: [µ|τ ] ∼ Normal y [τ ] ∼
Gamma.
Recuerde: La distribución Gamma tiene forma
( βα
f (x | α, β) =
Γ(α)
xα−1 e−βx
0
for x > 0
for x ≤ 0
Y la verosimilitud es




β nα
fn (x | α, β) =
Γ(α)n


 0
n
Y
!α−1
e−β
xi
Pn
i=1
xi
i=1
for x > 0
for x ≤ 0
i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, τ −1 ), µ ∈ R, τ > 0 (precisión) y suponga
las siguientes dos densidades previas:
µ|τ ∼ N (µ0 , (λ0 τ )−1 ), µ ∈ R, λ0 > 0
τ ∼ Γ(α0 , β0 ), α0 , β0 > 0.
Entonces
[µ, τ |x] ∝ [µ|τ, x] · [τ |x]
donde µ|τ, x ∼ N (µ1 , (λ1 τ )−1 ) con
λ1 = λ0 + n,
µ1 =
λ0 µ0 + nx̄n
,
λ0 + n
y τ |x ∼ Γ(α1 , β1 ),
α1 = α0 +
donde s2n =
i=1 (xi
Pn
Prueba.
Previa:
n
,
2
− x̄n )2 .
1
nλ0 (X̄n − µ0 )2
β1 = β0 + s2n +
.
2
2(λ0 + n)
105
8.1. PRECISIÓN DE UNA DISTRIBUCIÓN NORMAL
[µ, τ ] ∝ [µ|τ ] · [τ ]
"
#
λ0 τ
= τ exp −
(µ − µ0 ) · τ α0 −1 e−β0 τ
2
"
#
λ0 τ
2
α0 − 21
exp −
(µ − µ0 ) − β0 τ
=τ
2
1
2
Por Bayes:
[µ, τ |x] ∝ [µ, τ ] · [x|µ, τ ]
n
τX
∝ [µ, τ ] · τ exp −
(xi − µ)2
2 i=1
"
n
2
∝τ
α0 + n+1
−1
2
#
"
X
τ
λ0 [µ − µ0 ]2 + (xi − µ)2 − β0 τ
exp −
2
#
Además
n
X
(xi − µ) =
i=1
2
n
X
(xi − x̄n + x̄n − µ)2 = s2n + n(x̄n − µ)2 .
i=1
Completando cuadrados (queda como ejercicio) se obtiene
n(x̄n − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 )2 +
nλ0 (x̄n − µ0 )
.
λ0 + n
Entonces
n
X
(xi − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 ) + s2n +
i=1
Entonces
| {z }
λ1
|
nλ0 (x̄n − µ0 )
λ0 + n
{z
β1
}
106
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
α
z
}|1
{
n
#
"
α0 + − 1
1
λ1 τ
2
[µ, τ |x] ∝ τ
exp[−β1 τ ] · τ 2 exp −
(µ − µ1 )2
|
{z
}
2
[τ |x]
|
{z
[µ|τ,x]
}
Por lo que [τ |x] ∼ Γ(α1 , β1 ) y [µ|τ, x] ∼ N (µ1 , λ1 τ ).
Definición Sean µ, τ dos variables aleatorias. Suponga que µ|τ
N (µ0 , (λ0 τ )−1 ) y τ ∼ Γ(α0 , β0 ). Entonces decimos que
∼
[µ, τ ] ∼ Normal - Gamma(µ0 , λ0 , α0 , β0 ).
Conclusión: la distribución previa Normal-Gamma conjuga con una
verosimilitud normal.
Limitación: µ y τ no son independientes. Si se quiere utilizar una
previa en donde µ y τ son independientes, al combinar la previa con la
verosimilitud, cualquier tipo de independencia entre los parámetros se
pierde.
8.2.
Distribución marginal de µ
Teorema. Suponga que [µ, τ ] ∼ Normal-Gamma(µ0 , λ0 , α0 , β0 ). Entonces
λ0 α 0
β0
!1
2
(µ − µ0 ) ∼ t2α0 .
Prueba. Note que µ|τ ∼ N (µ0 , (λ0 τ )−1 ). Despejando la desviación estándar:
λ0 τ =
Entonces
1
1
=⇒ σ = (λ0 τ )− 2 .
2
σ
Z = (λ0 τ )1/2 (µ − µ0 )|τ ∼ N (0, 1).
La densidad conjunta de (Z, τ ) es
f (z, τ ) = π2 (τ ) · π1 (z|τ )
107
8.2. DISTRIBUCIÓN MARGINAL DE µ
Si g1 (µ|τ ) es la densidad de µ|τ , por teorema de cambio de variable
1
1
f (z, τ ) = π2 (τ ) · g1 ((λ0 τ )− 2 z + µ0 |τ )(λ0 τ )− 2 = π2 φ(z)
|
{z
}
φ(z)
Entonces Z y τ son independientes y Z ∼ N (0, 1).
Sea Y = 2β0 τ y τ ∼ Γ(α0 , β0 ), entonces
2α0 1
Y ∼Γ
,
2 2
y Y es independiente de Z.
Por lo tanto,
U=
=⇒ Y ∼ χ22α0
Z
Y
2α0
12
∼ t2α0 .
Observe que
1
U=
(λ0 τ ) 2 (µ − µ0 )
2β0 τ
2α0
!1
2
=
λ0 α 0
β0
!1
2
(µ − µ0 ).
Consecuencia:
µ=
β0
λ0 α0
!1
2
U + µ0 ,
U ∼ t2α0 .
Propiedades:
E(µ) = µ0 + 0 = µ0 .
Var(µ) =
β0
α0
β0
·
=
.
α0 λ0 α0 − 1
λ0 (α0 − 1)
Ejemplo. Se hizo un experimento para determinar la relación del sabor del
queso con respecto a su composición química.
Vamos a cargar la base de datos que corresponde a este estudio.
108
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
cheese <- read.table("./data/cheese_data.txt", header = TRUE)
head(cheese)
##
##
##
##
##
##
##
1
2
3
4
5
6
Case taste Acetic
H2S Lactic
1 12.3 4.543 3.135
0.86
2 20.9 5.159 5.043
1.53
3 39.0 5.366 5.438
1.57
4 47.9 5.759 7.496
1.81
5
5.6 4.663 3.807
0.99
6 25.9 5.697 7.601
1.09
El químico más importante en este estudio es el ácido láctico (Lactic).
hist(cheese$Lactic)
4
3
0
1
2
Frequency
5
6
7
Histogram of cheese$Lactic
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
cheese$Lactic
Intervalo t-student
Queremos construir un intervalo de confianza al 90 % para la media de esta
variable.
De acuerdo al histograma podemos asumir que las concentraciones de ácido
láctico en queso se comportan como: X1 , . . . , Xn ∼ N (µ, σ 2 )
8.2. DISTRIBUCIÓN MARGINAL DE µ
109
Primero calcularemos un intervalo de confianza frecuentista sobre µ con
cuantiles t-Student:
(Xbar <- mean(cheese$Lactic))
## [1] 1.442
(s <- sd(cheese$Lactic))
## [1] 0.30349
(s2 <- var(cheese$Lactic))
## [1] 0.09210621
(n <- length(cheese$Lactic))
## [1] 30
(gamma <- 0.9)
## [1] 0.9
(level <- (gamma + 1) / 2)
## [1] 0.95
(tquantile <- qt(p = level, df = n - 1))
## [1] 1.699127
c(Xbar - tquantile * s / sqrt(n), Xbar + tquantile * s / sqrt(n))
## [1] 1.347852 1.536148
Intervalo Gamma-Normal
Ahora supongamos que X1 , . . . , Xn es normal con media µ y precisión τ .
Suponga que
µ, τ ∼ Normal-Gamma(µ0 = 1, λ0 = 1, α0 = 1/2, β0 = 1/2)
Los hiperparámetros µ0 , λ0 , α0 , β0 son escogidos basados en la experiencia
previa (que puede ser ninguna).
110
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
mu_0 <- lambda_0 <- 1
alpha_0 <- beta_0 <- 1 / 2
Los datos de este experimento son n = 30, x̄n = 1,442, s2n = 0,0921062.
Aplicando las fórmulas del teorema anterior:
(mu_1 <- (lambda_0 * mu_0 + n * Xbar) / (lambda_0 + n))
## [1] 1.427742
(lambda_1 <- lambda_0 + n)
## [1] 31
(alpha_1 <- alpha_0 + n / 2)
## [1] 15.5
(beta_1 <- beta_0 + 0.5 * (n - 1) * sˆ2 +
n * lambda_0 * (Xbar - mu_0) / (2 * (lambda_0 + n)))
## [1] 2.049411
µ1 = 1,4277419.
λ1 = 31.
α1 = 15,5.
β1 = 2,049411
La posterior es
[µ, τ |x] ∼ Normal - Gamma(µ1 , λ1 , α1 , β1 ).
library(NormalGamma)
previa <dnormgam(par = c(mu_0, sqrt(s2 / lambda_0), alpha_0, 1 / beta_0),
plot = FALSE)
posterior <dnormgam(par = c(mu_1, sqrt(s2 / lambda_1), alpha_1, 1 / beta_1),
plot = FALSE)
111
8.2. DISTRIBUCIÓN MARGINAL DE µ
df <rbind(
data.frame(
distribucion = "Previa",
x = previa$xout,
y = previa$dout
),
data.frame(
distribucion = "Posterior",
x = posterior$xout,
y = posterior$dout
)
)
ggplot(df, aes(x, y, color = distribucion)) +
geom_point() +
theme_minimal()
0.6
0.4
distribucion
y
Posterior
Previa
0.2
0.0
0
5
10
15
20
x
Podemos calcular inferencias sobre el σ usando el hecho que la posterior de τ
es Gamma.
112
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
"s
P[σ > 0,3|x] = P
1
> 0,3 x
τ
#
1
=P
> 0,32 x
τ
"
#
1
=P τ <
x
0,32
"
#
"
#
= P τ < 11,11 x
= 0,9554296
dado que [τ |x] ∼ Γ(α1 , β1 ) = Γ(15,5, 2,049411).
En este caso observe que el cálculo es directo usando la función pgamma
pgamma(q = 0.3ˆ(-2), shape = alpha_1, rate = beta_1)
## [1] 0.9554296
Lo más importante es que basados en el resultado de la distribución marginal
de µ podemos construir un intervalo de confianza para µ. Para la distribución
posterior de µ sabemos que:
λ1 α1
β1
U=
!1
2
(µ − µ1 ) ∼ t2α1
entonces
P (t2α1 ,γ1 ≤ U ≤ t2α1 ,γ2 ) = γ
Solo basta despejar µ con respecto a U . Como los cuantiles de la t son
simétricos, la solución es

β1
P µ1 −
λ1 α1
!1/2
t
2α1 ,
γ+1
2
β1
≤ µ ≤ µ1 +
λ1 α1

!1/2
t
2α1 ,
γ+1 
2
8.2. DISTRIBUCIÓN MARGINAL DE µ
113
tquantile2alpha <- qt(p = level, df = 2 * alpha_1)
c(
mu_1 - tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2),
mu_1 + tquantile2alpha * (beta_1 / (lambda_1 * alpha_1))ˆ(1 / 2)
)
## [1] 1.317011 1.538473
Noten que para este caso, encontramos un intervalo más pequeño
que en el caso frecuentista.
Ejemplo. Suponga que X1 , . . . , Xn son los días de hospitalización en 18
centros de salud. (ver ejemplo 8.6.3, pág 500). Asuma que
[µ, τ ] ∼ Normal-Gamma(µ0 = 200, λ0 = 2, α0 = 2, β0 = 6300).
Encuentre un intervalo para µ centrado en µ0 tal que la probabilidad que µ
esté en ese intervalo sea 0,95.
α0 λ0
β0
!1
2
(µ − µ0 ) = 0,025(µ − 200) ∼ t2·2 = t4 .
Entonces
0,95 = P[l < 0,025(µ − 200) < u] = 2Ft4 (u) − 1 =⇒ u = t4,0,975 = 2,776.
Así,
P[−2,776 < 0,025(µ − 200) < 2,776] = 0,95
y el intervalo es [89, 311].
Con datos: X̄n = 182,17 y s2n = 88678,5. Los hiperparámetros posteriores son
µ1 = 183,95, λ1 = 20, α1 = 11, β1 = 50925,37.
Resolvemos el mismo problema:
α 1 λ1
β1
!1
2
(µ − µ0 ) = 0,0657(µ − 183,95) ∼ t2α1 =22 .
114
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
Se busca u:
Ft22 (u|x) =
y
0,95 + 1
=⇒ u = t22,0,975 = 2,074
2
0,95 = P[−2,074 < 0,0657(µ − 183,95) < 2,074|x].
El intervalo de credibilidad o predicción es [152,38, 215,52].
Por otro lado si X1 , . . . , X18 ∼ N (µ, σ 2 ), µ, σ 2 fijos y desconocidos.
σ0
X̄n + t17,0,975 √ al 95 %.
18
El intervalo de confianza observado es [146,25, 218,09].
Ejercicio Usando los datos de la variable InPatientDays de la siguiente base
de datos.
load("./data/Nursing.rda")
head(Nursing$InPatientDays)
## [1] 128 155 281 291 238 180
Repita los cálculos númericos del ejercicio igual que el ejemplo pasado.
8.3.
Intervalos de credibilidad.
El intervalo de credibilidad de una distribución posterior se define como los
valores A y B tal que
π(A ≤ θ ≤ B|x) = γ
para algún γ > 0.
Ejemplo: Supongamos que tenemos los tiempos de vida de unos aparatos
X1 , X2 , X3 ∼ Exp(θ). La previa de θ es Γ(1, 2). Sabemos desde antes que
θ|X ∼ Γ(4, 2 +
3
X
i=1
Xi ).
115
8.3. INTERVALOS DE CREDIBILIDAD.
Y el estimador bayesiano bajo pérdida cuadrática es:
E[θ|X] = θ̂ =
4
2+
P3
i=1
Xi
# Valores dados con paramétro desconocido
X <- rexp(n = 3, rate = 2)
gamma <- 0.95
level <- (gamma + 1) / 2
alpha <- 4
beta <- 2 + sum(X)
(theta_hat <- alpha / beta)
## [1] 0.7848404
A <- qgamma(p = 0.025, shape = alpha, rate = beta)
B <- qgamma(p = 0.975, shape = alpha, rate = beta)
c(A, B)
## [1] 0.2138426 1.7202276
ggplot(data = data.frame(x = c(0, 4)), aes(x)) +
stat_function(fun = dgamma, args = list(shape = alpha, rate = beta)) +
geom_vline(xintercept = A, color = "red") +
geom_vline(xintercept = B, color = "red") +
geom_vline(xintercept = theta_hat, color = "blue") +
theme_minimal()
116
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
y
0.9
0.6
0.3
0.0
0
1
2
3
4
x
Ejercicio Para hacer este ejercicio sin usar bayes, se debe resolver usando
una función estabilizadora de la varianza. Encuentre esa función y aplique el
procedimiento que vimos el capítulo anterior.
8.4.
Efecto de previas no informativas (Opcional)
Considere una previa no informativa: [µ, τ ] ∝ [µ] · [τ ] (supuesto de inde1
1
pendencia), con [µ] ∝ 1, τ = 2 y [σ] ∝ .
σ
σ
1
Dado que σ = (τ )− 2 , usando el teorema de cambio de variables,
dσ
1 3
1 −3
1
= − τ − 2 =⇒
τ 2 fσ
1
dτ
2
2
τ2
1
= τ −1 .
2
Entonces [µ, τ ] ∝ τ −1 .
Ejercicio. Verifique que [µ, τ ] ∼ Normal-Gamma(µ0 = 0, λ0 = 0, α0 =
−1/2, β0 = 0).
8.4. EFECTO DE PREVIAS NO INFORMATIVAS (OPCIONAL)
117
Usando Bayes, X1 , . . . , Xn ∼ N (µ, τ ).
π(µ, τ |x) ∝ [µ, τ ] · [x|µ, τ ]
1 X
= τ (2πσ )
exp − 2
(Xi − µ)2
2σ
"
#
τ
nτ
∝ τ −1 τ n/2 exp − s2n −
(µ − X̄n )2
2
2
#
"
#
"
n−1
s2n
nτ
−1
1/2
2
(µ − X̄n ) · τ 2
exp − τ
= τ exp −
2
2
"
−1
#
2 −n/2
Entonces
µ|τ ∼ N (X̄n , nτ )
n − 1 s2n
,
τ |x ∼ Γ
2
2
.
!
Por lo tanto,
µ, τ |x ∼ Normal-Gamma(µ1 = X̄n , λ1 = n, α1 = (n − 1)/2, β0 = s2n /2).
Ejemplo. Tomando X̄n = 5,134, s2n = 63,96 con una previa no informativa
para µ, τ . Entonces la posterior es Normal-Gamma con hiperparámetros:
25
µ1 = 5,134, λ1 = 26, α = , β1 = 31,98. Queremos hacer inferencia sobre µ:
2
0,95 = P[−t25,0,975 < U < t25,0,975 ]
"
= P − t25,0,975 <
El intervalo es [4,488, 5,78].
26 · 12,5
31,98
!1
2
#
(µ − 5,134) < t25,0,975
118
CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
α1 λ1
β1
Calculemos P[µ > 4|x]. Sea w =
!1
2
= 3,188.
P[µ > 4|x] = P [w(µ − X̄n ) > w(4 − X̄n )] = 1 − Tt25 (−3,615) = 0,9993.
Generalizando:
w=
n(n − 1)/2
s2n /2
!1
2
=
n(n − 1)
s2n
!1
2
=
n
(σ 0 )2
!1
2
.
Entonces
"
!1
#
2
n
(µ − X̄n ) < tn−1, 1+γ
γ = P − tn−1, 1+γ <
2
2
(σ 0 )2
"
#
σ0
σ0
= P X̄n − tn−1, 1+γ √ < µ < X̄n + tn−1, 1+γ √ .
2
2
n
n
Capítulo 9
Estimación insesgada
9.1.
Estimadores insesgados
Definición. Un estimador δ(x) es un estimador insesgado de g(θ) si
Eθ [δ(X)] = g(θ), ∀θ. A Eθ [δ(X)] − g(θ) se le denomina sesgo.
i.i.d
Ejemplo. Si X1 , . . . , Xn ∼ Fθ , µ = E[X1 ], entonces
E[X̄n ] =
n
1X
E(Xi ) = µ
n i=1
X̄n es estimador insesgado de µ.
i.i.d
Ejemplo. X1 , X2 , X3 ∼ Exp(θ). El MLE de θ es
θ̂ =
3
3
= P3
T
i=1 Xi
¿Será θ̂ un estimador insesgado?
theta_real <- 5
X <- matrix(rexp(n = 1000 * 3, rate = theta_real), ncol = 3)
T <- apply(X = X, MARGIN = 1, FUN = sum)
119
120
CAPÍTULO 9. ESTIMACIÓN INSESGADA
theta_hat <- 3 / T
hist(theta_hat - theta_real, breaks = 100)
0
50
100
150
Frequency
200
250
Histogram of theta_hat - theta_real
0
50
100
theta_hat - theta_real
Teoricamente podemos ver que
3
1
E[θ̂] = E
= 3E
,
T
T
"
Como
1
T
#
"
#
T ∼ Γ(3, θ)
∼ Gamma Inversa(3, θ)1 , se tiene que
1
θ
3θ
E
=
=⇒ E[θ̂] =
6= θ
T
2
2
"
#
Por lo que θ̂ es un estimador sesgado, con sesgo
sesgo(θ̂) =
1
3θ
θ
−θ = .
2
2
La Gamma Inversa con paramétros α y β tiene media
β
α−1 .
121
9.1. ESTIMADORES INSESGADOS
Si por ejemplo θ = 5, entonces la diferencia debería ser aproximadamente 52 .
mean(theta_hat - theta_real)
## [1] 2.252184
Si U =
2θ̂
3
=
2
3
·
3
T
= T2 ,
2
2 3
E[U ] = E(θ̂) = · θ = θ.
3
3 2
Entonces U es un estimador insesgado.
U <- 2 / T
mean(U - theta_real)
## [1] -0.1652107
Importante: El caso ideal es encontrar estimadores en donde Var(δ(x)) → 0
y además que sean insesgados.
¿Cómo controlar sesgo y varianza simultáneamente?
Defina la siguiente cantidad
Sesgo2 (δ(X)) + Var(δ(X)) = (Eθ [δ(X)] − θ)2 + E[[δ(X) − E[δ(X)]]2 ]
= E[(Eθ [δ(X)] − θ)2 + [δ(X) − E[δ(X)]]2 ]
|
{z
A2
2
}
|
{z
B2
}
= E[A2 + B − 2(E[δ(X)] − θ)(δ(X) − E[δ(X)])]
=0
= E[(E[δ(X)] − θ − E[δ(X)] + δ(X))2 ]
= E[(δ(X) − θ)2 ] = M SE(δ(X))
Si δ tiene varianza finita, entonces el error cuadrático medio (MSE) de δ(x)
cumple que:
M SEθ (δ(X)) = Sesgo2 (δ(X)) + Var(δ(X)).
Ejemplo. Comparar θ̂ y U =
2
T
en términos del MSE.
122
CAPÍTULO 9. ESTIMACIÓN INSESGADA
=
θ2 2
,
4
se tiene
MSE(U ) = Var
= 4 θ4 = θ2 .
Dado que Var
1
T
2
T
2
var(U) + mean(U - theta_real)ˆ2
## [1] 23.42551
MSE(θ̂) = (Sesgo(θ̂))2 + Var
3
T
=
θ2
4
+
9θ2
4
=
5θ2
.
2
var(theta_hat) + mean(theta_hat - theta_real)ˆ2
## [1] 57.71831
U es mejor estimador en términos de MSE que θ̂.
Nota: El estimado bayesiano es θBayes =
MSE.
4
2+T
y este es mejor en términos de
theta_bayes <- 4 / (2 + T)
var(theta_bayes) + mean(theta_bayes - theta_real)ˆ2
## [1] 11.89967
9.2.
Estimación insesgada de la varianza
Teorema. Si X1 , . . . , Xn ∼ Fθ con varianza finita y g(θ) = Var(X1 ) entonces
σ̂12 =
1 X
(Xi − X̄n )2
n−1
es un estimador insesgado de σ 2 .
Prueba. Recuerde que:
n
X
(Xi − µ)2 =
i=1
Por lo tanto si σ̂02 =
2
n X
Xi − X̄n
2
+ n X̄n − µ
i=1
1
n
Pn
i=1
2
Xi − X̄n , entonces:
Si X ∼ Gamma-Inversa(α, β) entonces Var(X) =
β2
(α−1)2 (α−2) .
2
(9.1)
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA

E[σ̂02 ]
=

E
Pn
i=1
Xi − X̄n
2 


n
123
1X
σ2
n−1 2
=E
(Xi −µ)2 −E[(X̄n −µ)2 ] = σ 2 − =
σ .
n
n
n
"
#
Para que σ̂02 sea insesgado,
"
#
n
E
σ̂ 2 = E[σ̂12 ] = σ 2 .
n−1 0
Entonces σ̂12 es estimador insesgado de σ 2 .
i.i.d
Ejemplo. Sean X1 , . . . , Xn ∼ Poi(θ). E(Xi ) = Var(Xi ) = θ. Estimadores
insesgados de θ son:
1. X̄n .
2. σ̂12 .
3. Si α ∈ (0, 1), T = αX̄n + (1 − α)σ̂12 también es un estimador insesgado.
X <- matrix(rpois(n = 1000 * 100, lambda = 2), nrow = 100)
m <- apply(X, 1, mean)
v <- apply(X, 1, var)
a <- apply(X, 1, function(x, alpha) {
alpha * mean(x) + (1 - alpha) * var(x)
}, alpha = 1 / 3)
hist(m)
124
CAPÍTULO 9. ESTIMACIÓN INSESGADA
10
0
5
Frequency
15
20
Histogram of m
1.90
1.95
2.00
2.05
2.10
m
hist(v)
20
15
10
5
0
Frequency
25
30
35
Histogram of v
1.7
1.8
1.9
2.0
2.1
v
2.2
2.3
2.4
125
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA
hist(a)
15
10
0
5
Frequency
20
25
Histogram of a
1.8
1.9
2.0
2.1
2.2
2.3
a
Ejemplo. En el caso de una muestra normal con media µ y varianza σ 2
desconocidas, ¿Cuál estimador tiene menor MSE, σ̂02 o σ̂12 ?
2
Defina Tc = c ni=1 Xi − X̄n . Si c = 1/n, Tc = σ̂0 y si c = 1/(n − 1),
Tc = σ̂1 . De esta manera,
P
M SEσ2 (Tc ) = E[(Tc − σ 2 )2 ] = (E(Tc ) − σ 2 )2 + Var(Tc ).
E[Tc ] = cE
" n
X
Xi − X̄n
2
#
i=1
" Pn
= c(n − 1)E
= c(n − 1)σ 2 .
i=1
Xi − X̄n
n−1
2 #
126
CAPÍTULO 9. ESTIMACIÓN INSESGADA
n X
Var(Tc ) = c Var
2
Xi − X̄n
2
!
i=1

= c Varσ
2

2
X
|
(Xi − X̄n )2 
2
{zσ
}
∼χ2n−1
= 2(n − 1)c2 σ 4 .
Entonces
MSEσ2 (Tc ) = [c(n−1)σ 2 −σ 2 ]2 +2c2 σ 4 (n−1) = [[c(n−1)−1]2 +2c2 (n−1)]σ 4 .
Optimizando,
mı́n
MSE(Tc ) = mı́n
[(n2 − 1)c2 − 2(n − 1)c + 1],
c
c
1
.
n+1
Pn
(Xi −X̄n )
2
se resuelve tomando ĉ =
Así, T 1 =
es el mejor estimador
n+1
n+1
2
de σ en el sentido de MSE. Aunque se puede demostrar que este estimador
es inadmisible. (Stein, 1964)
i=1
Ejercicio. Calcule el MSE de σ̂02 y σ̂12 y compare los resultados.
9.3.
Información de Fisher
¿Cómo cuantificar la información acerca de un parámetro contenida en la
muestra?
Sea X ∼ f (x|θ), θ ∈ Ω ⊂ R parámetro fijo.
Supuesto 1 : para cada x ∈ X (espacio muestral de X): f (x|θ) > 0
∀θ ∈ Ω. Esto quiere decir que el conjunto en donde f (x|θ) se anula no
depende de θ.
Supuesto 2 : f (x|θ) es dos veces diferenciable.
127
9.3. INFORMACIÓN DE FISHER
Ejemplo. En el caso de que X ∼ Unif[0, θ] se tiene que f (x|θ) = 1(0,θ) (x).
En este caso no aplica el supuesto, ya que si x > θ, f (x|θ) = 0.
Definición. Se define:
λ(x|θ) := log f (x|θ)
cuyas derivadas son
∂
log f (x|θ)
∂θ
∂2
00
λ (x|θ) = 2 log f (x|θ)
∂θ
λ0 (x|θ) =
(función Score)
Definición. Bajo los supuestos 1 y 2, la información de Fisher (I(θ)) de
X es
I(θ) = E[(λ0 (X|θ))2 ]
donde la esperanza es integral o suma, dependiendo de la naturaleza de X.
Por ejemplo si X es una v.a. continua:
I(θ) =
Z
X
2
[λ0 (x | θ)] f (x | θ)dx
Supuesto 3: Las dos derivadas de
calcular de la siguiente forma:
R
X
f (x|θ)dx con respecto a θ se pueden
Z
d
d Z
f (x|θ)dx =
f (x|θ)dx
dθ X
X dθ
Z
d2
d2 Z
f
(x|θ)dx
=
f (x|θ)dx
dθ2 X
X dθ 2
Teorema. Bajo los Supuestos 1,2 y 3 se cumple que:
I(θ) = −Eθ [λ00 (X|θ)] = Var[λ0 (X|θ)]
.
Prueba:
(9.2)
128
CAPÍTULO 9. ESTIMACIÓN INSESGADA
E[λ (X|θ)] =
Z
=
Z
=
Z
0
X
X
X
λ0 (x|θ)f (x|θ)dx
f 0 (x|θ)
f (x|θ)dx
f (x|θ)
f 0 (x|θ)dx
d Z
=
f (x|θ)dx (por supuesto 3.)
dθ X
d
= 1=0
dθ
En consecuencia,
Var(λ0 (X|θ)) = E[(λ0 (X|θ))2 ] − 0 = I(θ).
Además,
λ (x|θ) =
00
f 0 (x|θ)
f (x|θ)
!0
=
f (x|θ)f 00 (x|θ) − f 0 (x|θ)2
f 00 (x|θ)
=
− (λ0 (x|θ))2
2
f (x|θ)
f (x|θ)
Note que (por los supuestos 2 y 3),
Z
f 00 (X|θ)
f 00 (x|θ)
E
=
f (x|θ)dx
f (X|θ)
X f (x|θ)
#
"
d d Z
=
f (x|θ)dx
dθ dθ X
"
#
d d
=
1 =0
dθ dθ
"
#
Entonces,
f 00 (X|θ)
E[λ (X|θ)] = E
− E[(λ0 (X|θ))2 ] = −I(θ).
f (X|θ)
"
#
00
Consecuencia: λ0 (X|θ) es una variable aleatoria centrada y su varianza es
I(θ).
Ejemplo. Suponga que X ∼ Bernoulli(p).
129
9.3. INFORMACIÓN DE FISHER
f (x|p) = px (1 − p)1−x , x = 0, 1 satisface supuesto 1.
Z
X
f (x|p)dx = f (0|p) + f (1|p) satisface los supuestos 2 y 3.
Entonces,
λ(x|p) = ln[px (1 − p)1−x ] = x ln p + (1 − x) ln(1 − p).
λ0 (x|p) =
x
p
−
1−x
.
1−p
λ00 (x|p) = − px2 −
1−x
.
(1−p)2
De esta manera,
1−X
p
1−p
1
1
X
+
=
+
=
=
.
I(p) = E
p
(1 − p)2
p2 (1 − p)2
p(1 − p)
Var(X)
#
"
Ejemplo. X ∼ N (µ, σ 2 ), µ desconocida, σ 2 conocida.
f (x|µ) = √
1
1
exp − 2 (x − µ)2
2σ
2πσ 2
Vea que
Z
d Z
f (x|µ)dx = f 0 (x|µ)dx
dµ R
R
Z
1 2(x − µ)
1
2
= −√
exp − 2 (x − µ) dx
2σ
R
2πσ 2 2σ 2
x−µ
1 Z u − u2
√ e 2 du = 0 usando el cambio de variable
=− 2
σ R 2π
σ
|
{z
}
E[N (0,1)]
por lo que cumple el tercer supuesto (Ejercicio: condición sobre segunda
derivada).
Entonces
λ(x|µ) = 12 ln(2πσ 2 ) −
λ0 (x|µ) =
1
2(x
2σ 2
λ00 (x|µ) = − σ12 .
1
(x
2σ 2
− µ) =
− µ)2 .
x−µ
.
σ2
130
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Por lo que
I(µ) = −E[λ00 (x|µ)] =
1
Var(X)
Definición. Suponga que X = (X1 , . . . , Xn ) es una muestra independiente
de f (x|θ) donde f satisface los tres supuestos anteriores. Defina λn (x|θ) =
log fn (x|θ). La información de Fisher de X es
In (θ) = E[(λ0n (X|θ))2 ] = −E[λ00n (x|θ)].
Nota. Observe que
λn (X|θ) = log fn (X|θ) =
n
X
λ(Xi |θ)
i=1
lo que implica que
λ00n (X|θ) =
n
X
λ00 (Xi |θ).
i=1
De esta forma,
In (θ) = −E[λ00 (X|θ)] = −
n
X
E[λ00 (Xi |θ)] = nI(θ).
i=1
Ejemplo. Suponga que una compañía quiere conocer como se comportan sus
clientes en sus tiendas. Hay dos propuestas para este modelo
Un modelo Poisson de parámetro tθ (t es cualquier valor) para determinar la tasa promedio de llegada de clientes por unidad de tiempo θ.
Y ∼ Poisson(θt) y Y : número de clientes que llegan a la tienda a lo
largo de t unidades de tiempo.
Un modelo donde cada cliente es una v.a. exponencial con tasa de llegada
por unidad de tiempo θ y al final se sumará todas las variables para
P
obtener una Gamma(n, θ). X ∼ ni=1 Exp(θ) = Γ(n, θ) y X: tiempo
necesario (en unidades de tiempo) para que lleguen n clientes a la tienda.
131
9.3. INFORMACIÓN DE FISHER
Se asume que el tiempo de llegada de cada cliente es independiente.
¿Cuál variable contiene más información de θ: X o Y ?
Solución:
Para Y ,
y
.
f (y|θ) = e−tθ (tθ)
y!
λ(y|θ) = tθ + y ln(tθ) − ln y!.
λ0 (y|θ) = −t +
ty
.
tθ
λ00 (y|θ) = − θy2 .
Entonces,
IY (θ) = −E[λ00 (y|θ)] =
Como ejercicio, verifique que IX (θ) =
E[Y ]
t
= .
2
θ
θ
n
.
θ2
Ambas variables tienen la misma información si
IY (θ) = IX (θ) =⇒
n
θ2 t
t
= 2 =⇒ n =
= tθ.
θ
θ
θ
lo cual es esperable en términos del problema. A partir de este ejercicio vamos
a hacer un pequeño ejemplo de simulación.
Suponga que t es el tiempo que se quiere medir la cantidad de clientes
(minutos), θ es la cantidad de clientes por minuto y n es el número de clientes
que entran.
t <- 20
theta <- 5
n <- t * theta
Y <- rpois(n = 1000, lambda = t * theta)
X <- rgamma(n = 1000, shape = n, rate = theta)
Ojo que según lo estimado ambas informaciones de Fisher debería dar aproximadamente igualdad.
132
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Para Y tenemos que
mean(Y / thetaˆ2)
## [1] 3.99104
Para X por otro lado la información de Fisher es constante (¿Por qué?)
n / thetaˆ2
## [1] 4
Entonces bajo este criterio, ambas variables contienen la misma información,
aunque modelen el problema desde ópticas diferentes.
El proceso Y (Poisson) modela cuántas personas en total entran a la tienda
en 20 minutos, asumiendo una tasa de entrada de 5 personas por minuto.
hist(Y)
100
0
50
Frequency
150
200
Histogram of Y
70
80
90
100
110
120
130
Y
El proceso X (Gamma) modela cuánto tiempo se debe esperar para que 100
personas entren a la tienda, asumiendo una tasa de entrada de 5 por minuto.
hist(X)
133
9.4. DESIGUALDAD DE CRAMÉR-RAO
100
0
50
Frequency
150
200
Histogram of X
14
16
18
20
22
24
26
28
X
Ejercicio: Basado en los valores de la simulación, proponga dos valores de t
para que
X tenga más información de θ que Y .
Y tenga más información de θ que X.
9.4.
Desigualdad de Cramér-Rao
Teorema. Si X = (X1 , . . . , Xn ) muestra aleatoria de f (x|θ). Asuma que los
tres supuestos anteriores son válidos para f . Sea T = r(X) un estadístico con
varianza finita. Sea m(θ) = Eθ [T ] y asuma que m es una función diferenciable
de θ. Entonces:
[m0 (θ)]2
[m0 (θ)]2
Varθ (T ) ≥
=
.
In (θ)
nI(θ)
La igualdad se da si y solo si existen funciones u(θ) y v(θ) que no dependen
de X tales que cumplen:
T = u(θ)λ0n (X|θ) + v(θ).
134
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Prueba. Recuerden que para el caso univariado:
Z
f 0 (x|θ)dx = 0.
X
Para el caso multivariado, lo mismo aplica:
Z
Xn
fn0 (x|θ)dx1
Z
· · · dxn =
Xn
[f (x1 |θ) · · · f (xn |θ)]0 dx1 · · · dxn
d Z
f (x1 |θ) · · · f (xn |θ)dx1 · · · dxn
dθ X n
d
= 1
dθ
= 0.
=
Entonces
E[λ0n (X|θ)] =
fn0 (x|θ)
fn (x|θ)dx1 · · · dxn = 0
f (x|θ)
Z
Xn
Por lo tanto,
Covθ [T, λ0n (X | θ)] = Eθ [T λ0n (X | θ)]
=
Z
=
Z
=
Z
Xn
Xn
Xn
r(x)λ0n (x | θ)fn (x | θ)dx1 . . . dxn
r(x)
fn0 (x|θ)
fn (x|θ)dx1 · · · dxn
fn (x|θ)
r(x)fn0 (x | θ)dx1 . . . dxn
Sea
m(θ) =
Z
Xn
r(x)fn (x | θ)dx1 . . . dxn
Usando el supuesto de intercabio de integrales, tenemos que
m0 (θ) =
Z
Xn
r(x)fn0 (x | θ)dx1 . . . dxn
135
9.4. DESIGUALDAD DE CRAMÉR-RAO
Entonces tenemos que
d Z
r(x)fn (x|θ)dx1 · · · dxn
dθ X n
d
d
= Eθ [r(X)] = Eθ [T ] = m0 (θ)
dθ
dθ
Cov[T, λ0n (X|θ)] =
Considere el coeficiente de correlación
ρ= q
Cov[T, λ0n (X|θ)]
q
Var(T ) Var(λ0n (X|θ))
.
Dado que |ρ| ≤ 1 =⇒ ρ2 ≤ 1, se tiene que
Cov[T, λ0n (X|θ)]2 ≤ Var(T )Var(λ0n (X|θ)) =⇒ [m0 (θ)]2 ≤ Var(T )In (θ).
Entonces Var(T ) ≥
[m0 (θ)]2
.
In (θ)
Caso particular. Si T es un estimador insesgado de θ, entonces Varθ (T ) ≥
1
.
In (θ)
Ejemplo. X1 , . . . , Xn ∼ Exp(β), n > 2.
f (x|β) = βe−βx , x > 0.
λ(x|β) = ln f (x|β) = ln β − βx.
λ0 (x|β) =
1
β
− x.
λ00 = − β12 .
Vea que
1=
Z ∞
0
βe−βx dx = u→∞
lı́m F (u) = u→∞
lı́m [1 − e−βu ]
y el supuesto 3 se puede verificar por la diferenciabilidad de 1 − e−βu .
Así,
I(β) = −E[λ00 (x|β)] =
1
,
β2
In (β) =
n
.
β2
136
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Por ejemplo generemos una secuencia de valores de β de 1 hasta 5 para
observar el comportamiento de su información de Fisher.
beta <- seq(1, 5, length.out = 100)
n <- 100
lista_muestras <- lapply(
X = beta,
FUN = function(b) {
matrix(rexp(n = n * 500, rate = b), nrow = 500)
}
)
60
40
20
n/beta^2
80
100
plot(beta, n / betaˆ2)
1
2
3
4
5
beta
Considere el estadístico T = Pn−1
. Se puede comprobar que T es un
n
Xi
i=1
estimador insesgado de β y la varianza de T es
β2
.
n−2
(Ejercicio)
La cota de Cramér Rao, bajo cualquier estimador insesgado es
137
9.4. DESIGUALDAD DE CRAMÉR-RAO
1
β2
= ,
In (β)
n
por lo que T no satisface la cota de Cramér Rao.
Este comportamiento podemos observarlo con nuestro ejemplo numérico.
estimador1 <- sapply(
X = lista_muestras,
FUN = function(x) {
apply(x, 1, function(xx) (n - 1) / sum(xx))
}
)
5
4
3
2
1
apply(X = estimador1, MARGIN = 2, FUN = mean)
plot(beta, apply(X = estimador1, MARGIN = 2, FUN = mean))
1
2
3
4
beta
plot(beta, apply(X = estimador1, MARGIN = 2, FUN = var))
lines(beta, betaˆ2 / n, col = "blue")
lines(beta, betaˆ2 / (n - 2), col = "red")
5
0.10
0.15
0.20
0.25
CAPÍTULO 9. ESTIMACIÓN INSESGADA
0.05
apply(X = estimador1, MARGIN = 2, FUN = var)
138
1
2
3
4
5
beta
Ahora, estime θ =
1
β
= m(β). Un estimador insesgado de θ es T = X̄n :
E[X̄n ] = E[X1 ] =
1
= θ,
β
Var(X̄n ) =
Var(X1 )
1
=
.
n
nβ 2
La cota de Cramér es
(m0 (β))2
(−1/β 2 )2
β2
1
=
=
=
.
In (β)
n/β 2
nβ 4
nβ 2
X̄n satisface la cota de Cramér-Rao y además
λ0 (X|β) =
n
n
1
1
− nX̄n = − nT =⇒ T = − λ0n (X|β) +
.
β
β
n
β
|{z}
|{z}
u(β)
estimador2 <- sapply(
X = lista_muestras,
FUN = function(x) {
apply(x, 1, function(xx) mean(xx))
v(β)
139
9.4. DESIGUALDAD DE CRAMÉR-RAO
)
}
1.0
0.8
0.6
0.4
0.2
apply(X = estimador2, MARGIN = 2, FUN = mean)
plot(1 / beta, apply(X = estimador2, MARGIN = 2, FUN = mean))
0.2
0.4
0.6
0.8
1/beta
plot(beta, apply(X = estimador2, MARGIN = 2, FUN = var))
lines(beta, 1 / (n * betaˆ2), col = "blue")
1.0
0.004
0.008
CAPÍTULO 9. ESTIMACIÓN INSESGADA
0.000
apply(X = estimador2, MARGIN = 2, FUN = var)
140
1
2
3
4
5
beta
9.5.
Estimadores eficientes
Definición. T es un estimador eficiente de su esperanza m(θ) si su varianza
es la cota de CR.
Ejemplo. X1 , . . . , Xn ∼ Poi(θ). X̄n es un estimador eficiente.
nX̄n
θ
.
Verosimilitud: fn (X|θ) = enθ Q
Xi !
λn (X|θ) = −nθ + nX̄n ln θ − ln
λ0n (X|θ) = −n +
Q
Xi !.
cX̄n
.
θ
λ00n (X) = − nθX̄2n .
Entonces
In (θ) =
n
n
E[
X̄
]
=
.
n
θ2
θ
La cota de CR es nθ , pero
Var(X̄n ) =
Var(X1 )
θ
= .
n
n
9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE
141
Por lo que X̄n es eficiente.
Los otros candidatos para estimar θ
σ̂12
n 2
1 X
=
Xi − X̄n
n − 1 i=1
y
αX̄n + (1 − α)σ̂12
no son lineales con respecto a λ0 (X|θ) por lo que tienen mayor varianza que
X̄n .
9.6.
Comportamiento asintótico del MLE
Teorema. Bajo las mismas condiciones anteriores y si T es un estimador
eficiente de m(θ) y m0 (θ) 6= 0, entonces
1
d
√
[T − m(θ)] →
− N (0, 1)
CR
donde CR es la cota de Cramér-Rao.
Prueba. Recuerde que λ0n (X|θ) =
λ0 (Xi |θ) son i.i.d, y
E[λ0 (Xi |θ)] = 0,
Pn
i=1
λ0 (Xi |θ). Como X es una muestra,
Var(λ0 (Xi |θ)) = I(θ).
Como T es estimador eficiente de m(θ),
E[T ] = m(θ),
Var(T ) =
(m0 (θ))2
nI(θ)
y existen u(θ) y v(θ) tal que
T = u(θ)λ0n (X|θ) + v(θ).
E[T ] = u(θ)E[λ0 (X|θ)] + v(θ) =⇒ v(θ) = m(θ).
Var(T ) = u2 (θ)In (θ) =⇒ u(θ) =
m0 (θ)
.
nI(θ)
(s.p.d.g.)
142
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Entonces T =
"
m0 (θ) 0
λ (X|θ)
nI(θ) n
nI(θ)
m0 (θ)2
#1
2
+ m(θ). Por lo tanto,
1
[T − m(θ)] =
nI(θ)
"
#1
2
−−→ N (0, 1).
λ0n (X|θ) −
n→∞
por el Teorema del Límite Central.
Teorema. Suponga que el MLE θ̂n se obtiene al resolver λ0 (x|θ) = 0. Además,
λ00 (x|θ) y λ000 (x|θ) existen y cumplen condiciones de regularidad (algo similar
a los tres supuestos sobre f ). Entonces:
[nI(θ)]1/2 (θ̂n − θ) → N (0, 1).
"
Ejemplo. X1 , . . . , Xn ∼ N (0, σ ), con σ desconocida. σ̂n =
2
es MLE de σ y I(σ) =
2
.
σ2
s
1
n
Pn
i=1
Xi − X̄n
#
2 1/2
Usando el teorema anterior,
2n
(σ̂n − σ) ∼ N (0, 1) .
n→∞
σ2
O lo que es equivalente a
!
σ2
σ̂n n→∞
∼ N σ,
.
2n
Ejercicio: Verifique que
s
σ2
2
2n
es un intervalo de confianza para σ al 100γ %.
σ̂n ± z 1+γ
Ejercicio: Suponga que se le da los siguientes datos
X <- rnorm(n = 1000, mean = 5, sd = 1)
Encuentre un intervalo de confianza observado para σ a través de una transformación sobre el estadístico σ̂n .
Sugerencia: Note que la varianza de σ̂n depende del parámetro desconocido σ.
Aplique el método Delta para encontrar una función que estabilice la varianza.
9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE
143
Consecuencia en estimación bayesiana. Suponga que la previa de θ es
positiva y diferenciable con respecto a θ. Bajo condiciones similares a la
condiciones de regularidad del teorema anterior:
θ|X n→∞
∼ N θ̂n ,
1
nI(θ̂n )
!
.
donde θ̂n es el MLE de θ.
Nota: un IC para θ en este caso tiene un error estándar que depende del
MLE.
144
CAPÍTULO 9. ESTIMACIÓN INSESGADA
Capítulo 10
Pruebas de hipótesis
10.1.
Pruebas de hipótesis
Ejemplo: Suponga que se hace un experimento donde se seleccionan 52
nubes al azar y 26 se les inyecta nitrato de plata y a las otras 26 no. Estamos
interesados en saber cuál de los dos grupos produce más lluvia, o bien si en
uno de los grupos hay más de un cierto valor de lluvia.
Los datos de la cantidad de lluvia para este experimento están acá.
nubes <- read.table(file = "./data/clouds.txt", sep = "\t", header = TRUE)
head(nubes)
##
##
##
##
##
##
##
1
2
3
4
5
6
Unseeded.Clouds Seeded.Clouds
1202.6
2745.6
830.1
1697.8
372.4
1656.0
345.5
978.0
321.2
703.4
244.3
489.1
Sin embargo usaremos los datos en escala logarítmica para facilitar el cálculo
lognubes <- log(nubes)
head(lognubes)
##
Unseeded.Clouds Seeded.Clouds
145
146
##
##
##
##
##
##
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
1
2
3
4
5
6
7.092241
6.721546
5.919969
5.844993
5.772064
5.498397
7.917755
7.437089
7.412160
6.885510
6.555926
6.192567
Observe que el comportamiento es distinto en ambos casos.
df <- as.data.frame(nubes) %> %
pivot_longer(
cols = everything(),
names_to = "tratamiento", values_to = "lluvia"
) %> %
mutate(log_lluvia = log(lluvia))
ggplot(data = df) +
geom_histogram(aes(
x = lluvia,
y = ..density..,
fill = tratamiento
),
color = "black", bins = 10
) +
facet_wrap(. ~ tratamiento)
147
10.1. PRUEBAS DE HIPÓTESIS
Seeded.Clouds
Unseeded.Clouds
0.0025
0.0020
0.0015
density
tratamiento
Seeded.Clouds
Unseeded.Clouds
0.0010
0.0005
0.0000
0
1000
2000
3000
0
lluvia
ggplot(data = df) +
geom_histogram(aes(
x = log_lluvia,
y = ..density..,
fill = tratamiento
), color = "black", bins = 10) +
facet_wrap(. ~ tratamiento)
1000
2000
3000
148
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Seeded.Clouds
Unseeded.Clouds
density
0.3
tratamiento
0.2
Seeded.Clouds
Unseeded.Clouds
0.1
0.0
0
2
4
6
8
0
2
4
6
8
log_lluvia
En este caso supondremos que la variable log_lluvia se puede modelar como
una N (µ, σ 2 ), donde µ, σ son desconocidos.
Ejercicio: Calcule P(µ > 4|X) usando un modelo bayesiano Normal-Gamma.
Seleccionen los hiperparámetros de su previa de manera subjetiva. Corrobore
que en este caso la probabilidad tiene que dar ≈ 99 %, independientemente
de la escogencia de sus hiperparámetros.
Nota: La afirmación: µ > 4 nace normalmente a partir de una pregunta de
investigación y esta afirmación permite formular una hipótesis con respecto
a la población de donde se obtienen los datos. Otra manera de formularlo es
asumiendo que θ = (µ, σ 2 ) y cuestionándose: ¿Será cierto que θ ∈ {(µ, σ 2 ) :
µ > 4}?
Note que para el caso bayesiano, es posible calcular directamente P[µ > 4|X],
pero
¿Cómo resolverlo en el caso frecuentista?
Suponga que Ω = Ω0 ∪ Ω1 son conjuntos disjuntos tales que
10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA
149
H0 : hipótesis en donde θ ∈ Ω0 .
H1 : hipótesis en donde θ ∈ Ω1 .
Objetivo. Decidir si H0 o H1 es cierto, con los datos disponibles (problema
de pruebas de hipótesis). Si hacemos alguna de las dos afirmaciones posiblemente vamos a incurrir en un error que más adelante trataremos de definir y
optimizar.
Definiciones. H0 : hipótesis nula. H1 : hipótesis alternativa. Una vez que
se ha realizado una prueba de hipótesis si afirmamos θ ∈ Ω1 decimos que
rechazamos H0 . Si θ ∈ Ω0 , decimos que no rechazamos H0 .
Suponga que X1 , . . . , Xn ∼ f (x|θ), θ ∈ Ω, Ω = Ω0 ∪ Ω1 y queremos probar la
hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 .
Definición Para i = 0, 1:
1. Si Ωi contiene solamente un valor de θ decimos que Hi es una hipótesis
simple.
2. Si Ωi contiene más de un valor de θ decimos que Hi es una hipótesis
compuesta.
3. Hipótesis compuestas de una cola. Si Ω0 = (−∞, θ0 ] decimos que
H0 : θ ≤ θ0 es una hipótesis de una cola con hipótesis alternativa
H1 : θ > θ0 . Por otro lado si Ω0 = [θ0 , +∞) decimos que H0 : θ ≥ θ0 es
una hipótesis de una cola con hipótesis alternativa H1 : θ < θ0 .
4. Cuando la hipótesis nula es simple, es decir H0 : θ = θ0 con hipótesis
alternativa H1 : θ 6= θ0 decimos que H1 es una hipótesis de 2 colas.
10.2.
Regiones críticas y estadísticos de prueba
Ejemplo. Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ) con µ desconocido y σ 2
conocido.
150
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Queremos probar H0 : µ = µ0 vs H1 : µ 6= µ0 . La lógica de la solución de
este problema es: rechace H0 si µ̂ está “muy alejado” de µ0 , donde µ̂ es un
estimador de µ, por ejemplo la media empírica.
Siguiendo la solución anterior, seleccionamos un número c tal que se rechaza
H0 si |X̄n − µ0 | > c.
Fin de ejemplo
En general, suponga que queremos probar las hipótesis H0 : θ ∈ Ω0 vs
H1 : θ ∈ Ω1 , lo anterior cuando tenemos una muestra X1 , . . . , Xn ∼ f (x|θ).
Sea
S0 ⊂ X : conjunto en donde no se rechaza H0 y S1 ⊂ X : conjunto en donde
se rechaza H0 . A S1 se le llama región crítica de la prueba de hipótesis.
En el ejemplo anterior en donde se rechaza H0 si T > c con T = |X̄n − µ0 |, T
es el estadístico de prueba y (c, ∞) es la región de rechazo.
X <- matrix(rnorm(1000 * 1000, mean = 2, sd = 3), ncol = 1000)
Xbar <- apply(X, 2, mean)
mu0 <- 2
T <- abs(Xbar - mu0)
c <- seq(-0.25, 0.5, length.out = 1000)
df <- data.frame(c = numeric(), test = logical(), region = character())
for (k in 1:length(c)) {
df <- rbind(df, data.frame(c = c[k], test = mean(T >= c[k]),
region = "S_1"))
}
df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0"))
ggplot(df, aes(x = c, y = test, color = region)) +
geom_line(size = 2) +
ylab("Promedio de veces donde T >= c") +
theme_minimal()
10.2. REGIONES CRÍTICAS Y ESTADÍSTICOS DE PRUEBA
151
Promedio de veces donde T >= c
1.00
0.75
region
0.50
S_0
S_1
0.25
0.00
-0.25
0.00
0.25
0.50
c
En este caso el valor donde decrece la curva es cercano a 0. Eso quiere decir
que antes de ese valor, nos encontramos en la región de rechazo. Luego esa
región se va haciendo cada vez más pequeña |X − µ| ≈ 0.
¿Qué pasaría si cambiamos a µ = 4?
mu0 <- 4
T <- abs(Xbar - mu0)
c <- seq(-0.25, 3, length.out = 1000)
df <- data.frame(c = numeric(), test = logical(), region = character())
for (k in 1:length(c)) {
df <- rbind(
df,
data.frame(c = c[k], test = mean(T >= c[k]), region = "S_1")
)
}
df <- rbind(df, data.frame(c, test = 1 - df$test, region = "S_0"))
152
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
ggplot(df, aes(x = c, y = test, color = region)) +
geom_line(size = 2) +
ylab("Promedio de veces donde T >= c") +
theme_minimal()
Promedio de veces donde T >= c
1.00
0.75
region
0.50
S_0
S_1
0.25
0.00
0
1
2
3
c
El valor donde comienza a crecer la curva se desvía a un valor cercano a 2.
Nota. En la mayoría de los casos, la región crítica se define en términos de
un estadístico T = r(x).
Definición. Sea X una muestra aleatoria con distribución f (x|θ), T = r(X)
un estadístico y R ⊂ R. Suponga que se puede verificar las hipótesis al
afirmar “rechazamos H0 si T ∈ R”, entonces definimos T como el estadístico
de prueba y R como la región de rechazo de la prueba.
Continuación del Ejemplo: Para el caso del ejemplo de la lluvia formulamos
las hipótesis:
H0 : µ ≤ 4 versus H1 : µ > 4
En este caso podríamos decir que rechazamos H0 si la media empírica es “más
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
153
grande” que 4 y no rechazamos H0 si la media empírica es “más pequeña”
que 4.
El problema acá es que “más grande” y “más pequeña” no son términos
precisos. EN términos relativos, podemos usar el estadístico:
U=
n1/2 (X̄n − 4)
σ0
y rechazar H0 si U “es grande”.
10.3.
Función de potencia y tipos de error
Sea δ un procedimiento de prueba (basado en una región crítica o en un
estadístico de prueba). Sea π(θ|δ) (función de potencia) la probabilidad
de que se rechace H0 a través de δ para θ ∈ Ω.
Si S1 es la región crítica de δ entonces π(θ|δ) = P(X ∈ S1 |θ) para θ ∈ Ω.
Si δ se describe a través de un estadístico de prueba T con región de rechazo
R, entonces π(θ|δ) = P(T ∈ R|θ) para θ ∈ Ω.
Nota. Función de potencia ideal: π(θ|δ) = 0 si θ ∈ Ω0 , y π(θ|δ) = 1 si θ ∈ Ω1 .
Ejemplo. En el caso de X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido,
y tomando:
Estadístico de prueba: T = |X̄n − µ0 |.
Región de rechazo: R = (c, ∞).
σ2
Debido a que: X̄n ∼ N µ,
n
Función de potencia:
!
154
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
π(θ|δ) = P[T ∈ R|µ] = P[|X̄n − µ0 | > c|µ]
= P[X̄n > µ0 + c|µ] + P[X̄n < µ0 − c|µ]
#
"
#
"
√ (X̄n − µ)
√ (X̄n − µ)
(µ0 + c − µ) √
(µ0 − c − µ) √
>
<
=P n
nµ +P n
nµ
σ
σ
σ
σ
!
!
√ (µ0 + c − µ)
√ (µ0 − c − µ)
=1−Φ
n
n
+Φ
σ
σ
mu0 <- 4
c <- 2
n <- 100
sigma <- 3
mu <- seq(0, 8, length.out = 1000)
funcion_de_poder <- 1 pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)
df <- data.frame(mu, funcion_de_poder, tipo = "Función de poder")
df <- rbind(df, data.frame(mu,
funcion_de_poder = 1 - df$funcion_de_poder,
tipo = "1 - Función de poder"
))
ggplot(df, aes(mu, funcion_de_poder, color = tipo)) +
geom_line(size = 2) +
theme_minimal()
155
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
1.00
funcion_de_poder
0.75
tipo
0.50
1 - Función de poder
Función de poder
0.25
0.00
0
2
4
6
8
mu
mu <- seq(0, 8, length.out = 100)
c <- seq(0, 4, length.out = 100)
mu_c <- expand.grid(mu, c)
funcion_de_poder_n_c <- 1 pnorm(sqrt(n) * (mu0 + mu_c[, 2] - mu_c[, 1]) / sigma) +
pnorm(sqrt(n) * (mu0 - mu_c[, 2] - mu_c[, 1]) / sigma)
library(scatterplot3d)
scatterplot3d(mu_c[, 2], mu_c[, 1], funcion_de_poder_n_c,
type = "p", angle = 60,
xlab = "c", ylab = "mu", zlab = "Función de poder"
)
156
mu
0.8
0.6
0.4
8
6
4
0.2
0.0
Función de poder
1.0
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
2
0
0
1
2
3
4
c
Tipos de error:
Al igual que en el proceso de estimación puntual, el proceso de inferencia
estadística involucrado en una prueba de hipótesis tiene un error asociado.
En este caso se puede cometer dos tipos de errores:
Error Tipo I : error de rechazar H0 si θ ∈ Ω0 .
Error Tipo II : error de no rechazar H0 si θ ∈ Ω1 .
En términos de la función de potencia tenemos que:
Si θ ∈ Ω0 : π(θ|δ) es el error tipo I.
Si θ ∈ Ω1 : 1 − π(θ|δ) es el error tipo II.
El objetivo es seleccionar una procedimiento de prueba o regla de decisión
δ que tenga un error pequeño. Es decir buscamos que π(θ|δ) sea pequeño
cuando θ ∈ Ω0 y al mismo tiempo requerimos que π(θ|δ) sea grande cuando
θ ∈ Ω1 . Una forma de alcanzar ese balance es seleccionar α0 ∈ (0, 1) tal que
π(θ|δ) ≤ α0
∀θ ∈ Ω0
(∗)
y entre todas las pruebas que cumplan (∗) se selecciona aquella que maximice
la potencia para θ ∈ Ω1 .
157
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
En nuestro ejemplo suponga que elegimos α0 = 0,1. La región roja indica
donde estaría ubicado π(θ|δ) ≤ α0 .
ggplot() +
geom_line(
data = df,
mapping = aes(x = mu, y = funcion_de_poder, color = tipo), size = 2
) +
geom_rect(
data = data.frame(xmin = 0, xmax = 8, ymin = 0, ymax = 0.10),
mapping = aes(xmin = xmin, xmax = xmax, ymin = ymin, ymax = ymax),
alpha = 0.5, fill = "red"
) +
geom_hline(yintercept = 0.05) +
theme_minimal()
1.00
funcion_de_poder
0.75
tipo
0.50
1 - Función de poder
Función de poder
0.25
0.00
0
2
4
6
mu
Otra forma es minimizar;
w1 · Error I + w2 · Error II;
w1 , w2 constantes.
8
158
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Nota. Bajo la primera solución se produce una asimetría entre las hipótesis,
ya que resulta difícil (o muy costoso) que ambas condiciones se cumplan. Por
lo general, se le da más énfasis a (∗), ya que se trata de controlar el error
más serio (Error tipo I). En este caso es importante anotar que un científico
puede seleccionar su hipótesis nula de manera que el error tipo I sea el más
deseable de controlar.
Definición. Una prueba que satisface (∗) se llama una prueba de nivel
α0 y decimos que la prueba tiene un nivel de significancia α0 . Además el
tamaño α(δ) de una prueba δ se define como:
α(δ) = sup π(θ|δ).
θ∈Ω0
Corolario. Una prueba δ es una prueba de nivel α0 si y solo si su tamaño
es a lo sumo α0 (α(δ) ≤ α0 ). En el caso de una hipótesis nula simple:
α(δ) = π(θ0 |δ).
Ejemplo. Suponga X1 , . . . , Xn ∼ Unif(0, θ), θ > 0 desconocido. Se quiere
probar las siguientes hipótesis:
H0 : 3 ≤ θ ≤ 4 H1 : θ < 3 o θ > 4.
El MLE de θ es Yn = X(n) . Si n es grande, Yn es muy cercano a θ.
Suponga que definimos que la prueba δ no rechaza H0 si 2,9 < Yn < 4 y
rechaza H0 si Yn ≥ 4 o Yn ≤ 2,9. Entonces R = (−∞, 2,9] ∪ [4, +∞) y la
función de potencia
π(θ|δ) = P[Yn ≤ 2,9|θ] + P[Yn ≥ 4|θ]
π(θ|δ) se calcula en varios casos:
Si θ ≤ 2,9 =⇒ P[Yn ≤ 2,9|θ] = 1 y P[Yn ≥ 4|θ] = 0.
Si 2,9 < θ ≤ 4 =⇒ P[Yn ≤ 2,9|θ] =
P[Yn ≥ 4|θ] = 0.
i=1 P[Xi ≤ 2,9|θ] =
Qn
2,9
θ
n
y
159
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
Si θ > 4 =⇒ P[Yn ≤ 2,9|θ] =
4|θ] = 1 −
4
θ
n
2,9
θ
n
y P[Yn ≥ 4|θ] = 1 −
n
Y
P[Xi <
i=1
.
Entonces


1




 2,9 n
si θ ≤ 2,9
si 2,9 < θ ≤ 4
π(θ|δ) = 
θ n


2,9


1 +
θ
−
4
θ
n
si θ > 4
theta <- seq(1, 6, length.out = 1000)
n <- 5
funcion_poder <- numeric()
for (k in 1:length(theta)) {
if (theta[k] < 2.9) {
funcion_poder[k] <- 1
} else if (theta[k] > 2.9 & theta[k] <= 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn
} else if (theta[k] > 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn + 1 - (4 / theta[k])ˆn
}
}
plot(theta, funcion_poder, type = "l")
160
0.6
0.2
0.4
funcion_poder
0.8
1.0
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
1
2
3
4
5
6
theta
Note, además, que el tamaño de prueba es
α(δ) = sup π(θ|δ) = sup
3≤θ≤4
n <- 1:100
plot(n, (2.9 / 3)ˆn)
3≤θ≤4
2,9
θ
n
2,9
=
3
n
.
161
0.6
0.4
0.0
0.2
(2.9/3)^n
0.8
1.0
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
0
20
40
60
80
100
n
2,9
Si n = 68 =⇒ α(δ) =
3
68
= 0,0997.
Entonces si n = 68, entonces δ es una prueba con nivel de significancia
α0 ≥ 0,0997.
Pregunta importante: ¿Cómo diseñar una prueba para que tenga un cierto
nivel de significancia?
Suponga que queremos probar H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Sea T un estadístico
de prueba y suponga que si T ≥ c, c constante, entonces rechazamos H0 .
Si queremos que nuestra prueba tenga nivel de significancia α0 entonces:
π(θ|δ) = P(T ≥ c|θ) y sup P[T ≥ c|θ] ≤ α0
θ∈Ω0
(∗)
Note que π(θ|δ) es función no-creciente de c, entonces (∗) se cumple para
valores grandes de c, si θ ∈ Ω0 . Si θ ∈ Ω1 , debemos escoger c pequeño para
maximizar π(θ|δ).
Ejemplo. En el caso normal, donde H0 : µ = µ0 y rechazamos H0 si |X̄n −
µ0 | ≥ c. Entonces:
162
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
sup P[T ≥ c|θ] = Pµ0 [|X̄n − µ0 | ≥ c] ≤ α0 .
θ∈Ω0
!
σ2
Como bajo H0 : Y = X̄n − µ0 ∼ N 0,
, entonces podemos encontrar c tal
n
que
P[|X̄n − µ0 | ≥ c] = α0 ,
y cualquier c mayor va a cumplir (∗).
De esta manera el problema se convierte en encontrar c∗ tal que P[|Z| > c∗ ] =
X̄n − µ0
√ .
α0 , donde Z =
σ/ n
Note que
α0 = P(|Z| > c∗ )
= P(Z > c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + 1 − P(Z < c∗ )
= 2 − 2P(Z ≤ c∗ )
Entonces
P(Z ≤ c∗ ) = 1 −
α0
2
Por lo tanto el c∗ que se busca es
c∗ = FZ−1 1 −
α0
2
En el caso particular de la normal denotaremos F como Φ. Entonces,
Φ(c∗ ) = 1 −
α0
=⇒ c∗ = z1− α20 .
2
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
Procedimiento: rechazamos H0 si
|Z| =
X̄n − µ0
√
≥ z1− α20 .
σ/ n
n <- 10
alpha0 <- 0.05
X <- rnorm(n = n, mean = 5, sd = 1)
Xbar <- mean(X)
mu0 <- 5
Z <- sqrt(n) * (Xbar - mu0) / 1
(q <- qnorm(1 - alpha0 / 2))
## [1] 1.959964
dnorm_limit <- function(x, q) {
y <- dnorm(x)
y[-q <= x & x <= q] <- NA
return(y)
}
ggplot(data.frame(x = c(-3, 3)), aes(x)) +
stat_function(
fun = dnorm_limit, geom = "area", args = list(q = q),
fill = "blue", alpha = 0.2
) +
stat_function(fun = dnorm) +
theme_minimal()
163
164
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
0.4
y
0.3
0.2
0.1
0.0
-2
0
2
x
La pregunta que debemos siempre responder es ¿Rechazamos H0 ?
abs(Z) > q
## [1] FALSE
Si repetimos el ejercicio anterior, pero los datos tiene media igual a 1 y
dejamos que µ0 = 5, entonces
n <- 10
alpha0 <- 0.05
X <- rnorm(n = n, mean = 1, sd = 1)
Xbar <- mean(X)
mu0 <- 5
Z <- sqrt(n) * (Xbar - mu0) / 1
Si preguntamos ¿Rechazamos H0 ?
abs(Z) > q
## [1] TRUE
165
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR
mu0 <- 5
n <- 10
sigma <- 1
alpha0 <- 0.05
c <- qnorm(1 - alpha0 / 2) * sigma / sqrt(n)
mu <- seq(3, 7, length.out = 1000)
funcion_de_poder <- 1 pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)
0.6
0.4
0.2
funcion_de_poder
0.8
1.0
plot(mu, funcion_de_poder, type = "l", lwd = 2)
abline(h = 0.05, col = "red", lwd = 2)
3
4
5
6
7
mu
Ejemplo. Suponga que X1 , . . . , Xn ∼ Ber(p) y se quiere probar las hipótesis:
H0 : p ≤ p0 vs H1 : p > p0
Sea Y = ni=1 Xi ∼ Binomial(n, p). Es trivial concluir que entre más grande
es p entonces más grande esperamos que sea Y . Podemos definir la regla que
P
166
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
rechaza H0 si Y ≥ c para alguna constante c.
La potencia de prueba es:
P[Y ≥ c|p] =
n
X
y=c
n
X
n y
n
p (1 − p)n−y =
y
y=c y
!
!
p
1−p
|
!y
(1 − p)n
{z
g(p)
}
y además note que g(p) es monótona con respecto a p. Entonces:
sup P[Y ≥ c|p] = P[Y ≥ c|p0 ] ≤ α0 .
p≤p0
Si n = 10, p0 = 0,3, α0 = 10 %, entonces
c
0
P[Y ≥ c|p0 ] 1
1
2
3
4
5
6
0.97
0.85
0.62
0.35
0.15
0.05
Para que el tamaño sea menor que 10 % seleccione c > 5. Si c ∈ [5, 6] entonces
el nivel de significancia es a lo sumo 0,15 y la prueba no cambia (ya que Y es
una variable discreta).
c <- 5
n <- 10
alpha0 <- 0.05
p <- seq(0, 1, length.out = 1000)
funcion_de_poder <- 1 - pbinom(q = c, size = n, prob = p)
plot(p, funcion_de_poder, type = "l", lwd = 2)
abline(h = 0.05, col = "red", lwd = 2)
167
0.6
0.4
0.0
0.2
funcion_de_poder
0.8
1.0
10.4. VALOR P
0.0
0.2
0.4
0.6
0.8
1.0
p
Procedimiento: rechazamos H0 : p ≤ 0,3 si Y ≥ c, c ∈ (5, 6] con un nivel de
significancia de 10 % a lo sumo.
10.4.
Valor p
Restricción. El procedimiento de prueba depende de α0 .
Pregunta. ¿Será posible construir un estadístico que resuma el grado de
evidencia en los datos en contra de H0 ?
Respuesta. Cualquier procedimiento usa las siguientes dos fuentes:
1. El valor observado del estadístico de prueba.
2. Todos los valores de α0 en donde rechazamos la nula.
Ejemplo (Caso Normal). Se rechaza H0 : µ = µ0 si |Z| > z1− α20
Ahora si α0 = 0,05 y z1− α20 = 1,96, entonces para Z = 1,97 y Z = 2,78 y
Z = 6,97 todos cumplen esa condición.
Entonces la preguntas son:
168
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
¿Bajo cuál escogencia de Z estamos más alejados (o más cerca) de no
rechazar H0 bajo un α0 fijo?
Si otro investigador toma una α0 distinto, ¿cómo se compara la decisión
que toma al observar Z con la que hizo el primer investigador?
Solución: no reportar el valor α0 sobre el cual se determina la decisión δ, sino
reportar todos los valores α0 para los cuales habria rechazo de H0 bajo una
realización de Z.
Por ejemplo, si se observa Z = z entonces reportamos todos los α0 que
cumplen:
α0
z>Φ
1−
2
α0
Φ(z) > 1 −
2
α0 > 2(1 − Φ(z))
−1
Si Z = 1,97 entonces α0 > 0,0488384
Si Z = 2,78 entonces α0 > 0,0054359
Si Z = 6,97 entonces α0 > 3,1694647 × 10−12
Nota: En cada caso se estimó usando el comando 2*(1-pnorm(Z)).
Definición. El valor-p es el nivel más pequeño de significancia en donde
rechazaríamos H0 bajo los datos observados.
Nota. El valor-p es un estadístico.
Si valor-p < α0 , rechazo H0 . (El valor-p es muy pequeño).
Si valor-p > α0 , no rechazo H0 . (El valor-p es muy grande).
Cálculo del valor-p
En los casos en donde la región de rechazo tiene la forma T ≥ c se puede
calcular el valor-p fácilmente. Para cada t, sea δt la prueba que rechaza H0 si
T ≥ t. Note que el valor-p cuando se observa T = t se calcula a partir de la
regla de decisión de rechazo (θ ∈ Ω0 ):
t ≥ Fθ−1 (1 − α0 )
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA169
lo cual es equivalente a:
Fθ (t) ≥ 1 − α0 =⇒ α0 ≥ Pθ [T ≥ t] =⇒ α0 ≥ sup Pθ [T ≥ t]
θ∈Ω0
El cual es el tamaño de la prueba cuando c = t.
Ejemplo. Retomando el ejemplo con las variables aleatorias Bernoulli, rechazamos H0 : p ≤ p0 si Y ≥ c. Así el valor-p cuando Y = y es observado
es:
valor-p = sup Pp [Y ≥ y] = Pp0 [Y ≥ y]
p∈Ω0
Si p0 = 0,3, n = 10, y = 6, entonces el valor correspondiente es Pp0 [Y ≥
6] = 0,047349. El código R es pbinom(q = 5, size = 10, prob = 0.3,
lower.tail = FALSE)
10.5.
Dualidad entre pruebas de hipótesis y
regiones de confianza
Teorema. Sea X = (X1 , . . . , Xn ) una muestra con distribución Fθ . Sea g(θ)
una función tal que para cada valor g0 de g(θ), existe una prueba δg0 con
nivel α0 de las hipótesis:
H0,g0 : g(θ) = g0 vs H1,g0 : g(θ) 6= g0 .
Defina para cada x ∈ X
ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x es observado} (∗)
Sea γ = 1 − α0 . Entonces ω(X) cumple que:
P[g(θ0 ) ∈ ω(X)|θ = θ0 ] ≥ γ, ∀θ0 ∈ Ω.
Definición. Si ω(X) satisface (∗) ∀θ0 ∈ Ω, entonces ω(X) es un conjunto
de confianza con coeficiente γ donde γ = 1 − α0 .
170
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Teorema. Bajo las condiciones anteriores, si ω(X) es un conjunto de confianza
para g0 , entonces construimos δg0 : no rechazo H0,g0 si y solo si g0 ∈ ω(X),
entonces δg0 es una prueba con nivel α0 = 1 − γ para las hipótesis H0,g0 y
H1,g0 .
Ejemplo. En el caso en que X1 , . . . , Xn ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) (desconocidos). Considere g(θ) = µ. El intervalo de confianza con nivel γ para µ
es
σ0
X̄n ± tn−1, 1+γ √ .
2
n
1/2
n
1
2
donde σ 0 = n−1
. Para cada µ0 , podemos usar el intervalo
i=1 (Xi − X̄n )
anterior para encontrar una prueba a las hipótesis:
P
H0 : µ = µ0 vs H1 : µ 6= µ0 .
Por los teoremas anteriores, H0 se rechaza si µ0 no está en el IC, es decir, si
y solo si
σ0
µ0 > X̄n + tn−1, 1+γ √
2
n
o
σ0
µ0 < X̄n − tn−1, 1+γ √ ,
2
n
que se puede resumir como
X̄n − µ0
√
> tn−1, 1+γ
2
σ0/ n
es decir 1+γ
=1−
2
de Student.
α
2
es el nivel de confianza en el cálculo del cuantil de la t
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 1, sd = 2)
mu0 <- 1
Xbar <- mean(X)
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA171
sigma_prima <- sd(X)
t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1)
El intervalo de confianza es
c(Xbar - t_quantil * sigma_prima / sqrt(n), Xbar + t_quantil * sigma_prima / sqrt(n))
## [1] 0.8097168 1.0572793
H0 : µ = 1 vs H1 : µ 6= 1.
Para probar esta prueba se debe comprobar que
Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n)))
Preguntamos ¿Rechazamos H0 ?
Z > t_quantil
## [1] FALSE
Si tuvieramos otros datos con otra media, el resultado será diferente.
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 5, sd = 2)
mu0 <- 1
Xbar <- mean(X)
sigma_prima <- sd(X)
t_quantil <- qt(p = (1 + gamma) / 2, df = n - 1)
c(Xbar - t_quantil * sigma_prima / sqrt(n),
Xbar + t_quantil * sigma_prima / sqrt(n))
## [1] 4.828233 5.081358
172
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
¿Rechazamos H0 ?
Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n)))
Z > t_quantil
## [1] TRUE
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido. Construya un
intervalo de confianza con nivel γ a partir de
H0 : µ = µ0 vs H1 : µ 6= µ0 .
Rechazamos H0 si
X̄n − µ0
√
≥ z1− α20 .
σ/ n
al nivel α0 . Usando los teoremas anteriores, una región de confianza con nivel
γ = 1 − α0 satisface:
(
X̄n − µ
√
< z1− α20
µ∈ X:
σ/ n
)
= ω(X)
Por tanto,
X̄n − µ
σ
σ
√
< z1− α20 ⇔ − √ z1− α20 < X̄n − µ < √ z1− α20
σ/ n
n
n
σ
σ
⇔ X̄n − √ z1− α20 < µ < X̄n + √ z1− α20
n
n
que es el IC con nivel de confianza γ = 1 − α0 para µ.
10.5.1.
Dualidad en pruebas unilaterales
Si X = (X1 , . . . , Xn ) es una muestra según Fθ y g(θ) es una función de
variable real, suponga que para cada g0 ∈ Im(g) existe una prueba δg0 con
nivel α0 de las hipótesis:
H0,g0 : g(θ) ≤ g0
H1,g0 : g(θ) > g0
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA173
Si
ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x}
y si γ = 1 − α0 , entonces ω(X) es una región de confianza para g(θ) con nivel
γ.
Ejemplo (Bernoulli).
H0 : p ≤ p0 vs H1 : p > p0 ,
p0 ∈ (0, 1)
El criterio de rechazo al nivel α0 es
Y =
n
X
Xi ≥ c(p0 )
i=1
donde
sup Pp [Y ≥ c] = Pp0 [Y ≥ c] ≤ α0 .
p≤p0
Entonces
ω(X) = {X : Y < c(p0 )} = {p0 : valor-p > α0 }.
es una región de confianza para p al (1 − α0 ) %.
Si n = 10, Y = 6, α0 = 10 %,
ω(x) = {p0 : Pp0 [Y ≥ 6] > 0,1}.
Numéricamente, si p0 > 35,42 % =⇒ p0 ∈ ω(x), entonces ω(x) = (0,3542, 1]
si α0 = 10 % y es un IC observado para p0 con nivel de 90 %.
Ejemplo. X = (X1 , . . . , Xn ) ∼ N (µ, σ 2 ), θ = (µ, σ 2 ) desconocido. Queremos
probar
H0 : µ ≤ µ0 vs H1 : µ > µ0 .
Por dualidad, basta con conocer un IC unilateral para µ:
174
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
σ0
X̄n − tn−1,γ √ , ∞ .
n
!
para rechazar H0 al nivel de confianza γ si:
σ0
X̄n − µ0
µ0 ≤ X̄n − tn−1,γ √ ⇔ T = 0 √ ≥ tn−1,γ
n
σ/ n
(rechazando en la cola derecha de T).
10.5.2.
Pruebas de cociente de verosimilitud (LRT)
Si H0 : θ ∈ Ω0 vs H1 : θ ∈ Ωc0 = Ω1 . El estadístico LRT o estadístico de
cociente de verosimilitud se define como
Λ(x) =
supθ∈Ω0 fn (x|θ)
.
supθ∈Ω fn (x|θ)
Una prueba de cociente de verosimilitud rechaza H0 si Λ(x) ≤ k, para una
constante k.
Ejemplo. Supongamos que se observa Y : el número de éxitos en el experimento Bernoulli(θ) con tamaño de muestra n. Considere las hipótesis:
H0 : θ = θ0 vs H1 : θ 6= θ0 .
Verosimilitud: f (y|θ) =
n
y
θy (1 − θ)n−y .
Ω0 = {θ0 }, Ω1 = [0, 1] \ {θ0 }.
Numerador: f (y|θ0 ).
!
n y
ȳ (1 − ȳ)n−y .
Denominador: f (y|ȳ) =
y
f (y|θ0 )
Λ(y) =
=
f (y|ȳ)
nθ0
y
!y
n(1 − θ0 )
n−y
Si n = 10, θ0 = 0,3, y = 6, α0 = 0,05.
!n−y
,
y = 0, . . . , n.
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA175
n <- 10
p0 <- 0.3
y <- 0:10
alpha0 <- 0.05
p <- choose(n, y) * p0ˆy * (1 - p0)ˆ(n - y)
Lambda <- numeric(n)
Lambda[y == 0] <- (1 - p0)ˆn
ym1 <- y[y != 0]
Lambda[y != 0] <- (n * p0 / ym1)ˆym1 * ((n * (1 - p0)) / (n - ym1))ˆ(n - ym1)
0.6
0.4
0.0
0.2
Lambda
0.8
1.0
plot(y, Lambda, type = "l", col = "blue")
lines(y, p, type = "l", col = "red")
0
2
4
6
y
knitr::kable(cbind(y, Lambda, p))
8
10
176
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
y
Lambda
p
0 0.0282475 0.0282475
1 0.3124791 0.1210608
2 0.7731201 0.2334744
3 1.0000000 0.2668279
4 0.7978583 0.2001209
5 0.4182119 0.1029193
6 0.1465454 0.0367569
7 0.0337359 0.0090017
8 0.0047906 0.0014467
9 0.0003556 0.0001378
10 0.0000059 0.0000059
ix <- order(p)
knitr::kable(cbind(y[ix], cumsum(p[ix])))
10
9
8
7
0
6
5
1
4
2
3
0.0000059
0.0001437
0.0015904
0.0105921
0.0388396
0.0755965
0.1785159
0.2995767
0.4996976
0.7331721
1.0000000
Rechazamos H0 con nivel α0 = 0,05 en y ∈ {10, 9, 8, 7, 0} y k ∈ [0,028, 0,147)
si rechazo cuando Λ(y) ≤ k. El tamaño de prueba es
P0,3 [Rechazo] = P0,3 [Y ∈ {10, 9, 8, 7, 0}] = 0,039.
Teorema. Sea Ω un abierto en Rp y suponga que H0 especifica k coordenadas
de θ, igualándolas a valores fijos. Asuma que H0 es cierto y que todas las
condiciones de regularidad sobre el MLE de θ son ciertas para que este sea
asintóticamente normal y eficiente. Entonces:
d
−2 ln Λ(X) −→ χ2k .
H0
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA177
Ejemplo. Del ejemplo anterior, k = 1, α0 = 5 %. Rechazamos H0 :
−2 ln Λ(y) > χ21,1−0,05 = Fχ−1
2 (0,95) = 3,841.
1
Rechazamos H0 bajo la misma región del ejemplo anterior.
-2 * log(Lambda)
##
##
[1]
[7]
7.1334989
3.8408399
2.3264351 0.5146418 0.0000000 0.4516484
6.7783829 10.6822162 15.8832009 24.0794561
1.7435339
qchisq(p = 0.95, df = 1)
## [1] 3.841459
¿Rechazamos H0 ?
knitr::kable(data.frame(y, test = -2 * log(Lambda) > qchisq(p = 0.95, df = 1)))
y
0
1
2
3
4
5
6
7
8
9
10
test
TRUE
FALSE
FALSE
FALSE
FALSE
FALSE
FALSE
TRUE
TRUE
TRUE
TRUE
178
CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Capítulo 11
Pruebas con hipótesis simples
11.1.
Hipótesis simples
Ejemplo. Sea X1 , . . . , Xn : tiempos de servicio a clientes en un sistema. El
administrador del sistema no está seguro si la distribución conjunta con que
se atienden a los clientes es:
2(n!)
P
f1 (x) =  (2 + Xi )n+1

0



Xi > 0
si no
O bien si es una Exp(1/2):
1 − 1 P Xi
e 2
f0 (x) = 2n

0



si Xi > 0
si no
Si H0 : f = f0 vs H1 : f = f1 , ¿Cuál hipótesis es cierta?
n <- 1
x <- seq(0, 10, length.out = 1000)
f1 <-
2 / (2 + x)ˆ2
179
180
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
f0 <- 1 / 2 * exp(-1 / 2 * x)
df <- data.frame(x = c(x, x), f = c(f0, f1),
`Distribución` = c(rep("f_0", 1000), rep("f_1", 1000)))
ggplot(df, aes(x, f, color = `Distribución`)) +
geom_line() +
theme_minimal()
0.5
0.4
0.3
Distribución
f
f_0
f_1
0.2
0.1
0.0
0.0
2.5
5.0
7.5
10.0
x
Podemos redefinir las hipótesis si Ω = {θ0 , θ1 } donde si θ = θi , seleccionamos
f = fi y se prueba H0 : θ = θ0 vs H1 : θ = θ1 .
Asuma que X1 , . . . , Xn ∼ fi (X) donde se pueden tener dos posibilidades
(i = 0, 1). Sea Ω = {θ0 , θ1 } donde θ1 es el parámetro que indica a cuál
densidad se selecciona como hipótesis.
H0 : θ = θ0 vs H1 : θ = θ1
Si δ es un procedimiento de prueba, se denota los errores tipo I y II:
α(δ) = P[Rechazo H0 |θ = θ0 ].
181
11.1. HIPÓTESIS SIMPLES
β(δ) = P[No rechazo H0 |θ = θ1 ].
Del ejemplo anterior, se nota que f1 da probabilidades más altas que f0
cuando los tiempos de servicio son altos. Entonces un criterio de rechazo
puede ser X1 > 4 si se observa solo n = 1.
En este caso,
α(δ) = P[X1 > 4|θ = θ0 ] = 1 − (1 − e−0,5·4 ) = 0,135
1 - pexp(q = 4, rate = 1 / 2)
## [1] 0.1353353
β(δ) = P[X1 < 4|θ = θ1 ] =
Z 4
0
2
dx1 = 0,667.
(2 + x1 )2
Observación: Para densidades no usuales, hay dos formas de calcular los
valores
Teóricamente calculando la integral directamente.
Si la integral es muy díficil y solo se necesita una aproximación númerica
se puede usar integrate:
densidad_f1 <- function(x) {
2 / (x + 2)ˆ2
}
integrate(densidad_f1, lower = 0, upper = 4)
## 0.6666667 with absolute error < 2.9e-12
Nota: Esta distribución se debe estimar teóricamente ya que no hay fórmula
predefinida en R.
Objetivo. Encontrar un procedimiento de prueba δ tal que α(δ) y β(δ) se
reduzcan simultáneamente o al menos si a, b > 0, que aα(δ) + bβ(δ) sea
mínimo.
Teorema. Sea δ ∗ un procedimiento de prueba tal que no se rechaza H0 : θ = θ0
si af0 (x) > bf1 (x) y se rechaza H0 si af0 (x) < bf1 (x). Si af0 (x) = bf1 (x)
182
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
se puede rechazar o no H0 . Entonces para cualquier otro procedimiento de
prueba δ
aα(δ ∗ ) + bβ(δ ∗ ) ≤ aα(δ) + bβ(δ).
Prueba. Caso discreto solamente.
Sea S1 región crítica de una prueba arbitraria δ. Entonces:
aα(δ) + bβ(δ) = a
X
f0 (x) + b
X
f1 (x)
x∈S1c
x∈S1
"
=a
X
f0 (x) + b 1 −
x∈S1
=b+
X
#
X
f1 (x)
x∈S1
(af0 − bf1 (x))
x∈S1
y lo anterior es mínimo si seleccionamos S1 de manera que af0 (x) − bf1 (x) < 0
dentro de S1 y S1 que no tiene puntos x en donde af0 (x) − bf1 (x) > 0.
Definición. Defina el Cociente de verosimilitud como:
f1 (x)
.
f0 (x)
Note que el estadístico del cociente de verosimilitud (LR) está relacionado
con el anterior de la siguiente forma:
Λ(x) =
supΩ0 f (x|θ)
f0 (x)
=
.
máx{f0 (x), f1 (x)}
supΩ f (x|θ)
Corolario. Bajo las condiciones del teorema anterior, si a, b > 0 entonces la
prueba δ para la cual aα(δ) + bβ(δ) es un mínimo rechaza H0 si el cociente
a
de verosimilitud es mayor a .
b
Ejemplo: Continuando con el ejemplo de los tiempos de servicio al cliente.
En lugar de rechazar H0 : θ = θ0 si X1 > 4 hay que encontrar a y b que
puedan balancear ambos tipos de errores.
183
11.1. HIPÓTESIS SIMPLES
Supogamos que tomamos a = b, entonces basado en el colorario anterior
rechazamos H0 si
f1 (x)
4
X1
>1⇔
exp
f0 (x)
(2 + X1 )2
2
> 1 (∗)
g(X 1 )
1
0
1
2
3
x
4
5
6
Entonces (∗) es cierto si X1 > c. Se puede comprobar numéricamente que
c ≈ 5,03.
Por lo tanto, rechazamos H0 si X1 > 5,03.
En este caso α(δ ∗ ) es igual a
1 - pexp(q = 5.03, rate = 1 / 2)
## [1] 0.08086291
y β(δ ∗ )
densidad_f1 <- function(x) {
2 / (x + 2)ˆ2
}
184
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
integrate(densidad_f1, lower = 0, upper = 5.03)
## 0.715505 with absolute error < 1.3e-10
11.2.
Criterio de Neyman-Pearson
Queremos encontrar un procedimiento δ para hipótesis simples tal que:
1) α(δ) ≤ α0 (α0 : nivel de significancia).
2) β(δ) es mínimo.
La respuesta está en el siguiente resultado:
Lema de Neyman-Pearson. Suponga que δ 0 es un procedimiento de prueba
que tiene la siguiente forma para alguna constante k > 0: no rechaza H0 si
f1 (x) < kf0 (x), la hipótesis H0 es rechazada si f1 (x) > kf0 (x) y H0 puede
ser rechazada o no si f1 (x) = kf0 (x). Si δ es otro procedimiento de prueba
tal que α(δ) ≤ α(δ 0 ), entonces β(δ) ≥ β(δ 0 ). Específicamente, si α(δ) < α(δ 0 )
entonces β(δ) > β(δ 0 ).
Prueba. Tome a = k y b = 1 en el corolario y teoremas anteriores. Entonces
para cualquier procedimiento δ:
kα(δ 0 ) + β(δ 0 ) ≤ kα(δ) + β(δ),
por lo tanto si α(δ) ≤ α(δ 0 ) entonces necesariamente β(δ) ≥ β(δ 0 ).
Consecuencia. Si queremos encontrar una prueba δ 0 que satisfaga el criterio
de Neyman-Pearson, debemos encontrar k tal que α(δ 0 ) = α0 , y se rechace
f0 (x)
H0 si f1 (x) > kf0 (x) ⇔
< k −1 .
f1 (x)
Ejemplo. Suponga que X1 , . . . , Xn ∼ N (θ, 1) y se quiere probar H0 : θ = 0
vs H1 : θ = 1 usando una prueba según el criterio de Neyman-Pearson con
α = 0,05.
Note que
1 Pn
2
exp −
i=1 Xi .
2
"
f0 (x) = (2π)
−n/2
#
185
11.2. CRITERIO DE NEYMAN-PEARSON
1 Pn
(Xi − 1)2 .
exp −
2 i=1
"
f1 (x) = (2π)
−n/2
#
Entonces
n
f1 (x)
1X
= exp −
(Xi2 − 2Xi + 1 − X12 )
f0 (x)
2 i=1
"
#
"
n
= exp nX̄n −
2
#
1
= exp n X̄n −
2
" #
Rechazamos H0 si
f1 (x)
1
= exp n X̄n −
f0 (x)
2
" #
> k ⇔ X̄n >
1 ln k
+
.
2
n
| {z }
k0
Entonces buscamos k 0 tal que
X̄n
k0
√ > √ θ = 0 = 0,05
P[X̄n > k 0 |θ = 0] = 0,05 ⇔ P
1/ n
1/ n
"
Despejando,
#
√
z0,95
k 0 n = z0,95 =⇒ k 0 = √ .
n
Entonces, entre todas las pruebas en donde α(δ) ≤ 0,05, la que tiene el error
tipo II más pequeño es la que rechaza H0 si
z0,95
1,645
X̄n > √ = √ .
n
n
El error tipo II de esta prueba sería
β(δ 0 ) = P[X̄n < 1,645n−1/2 |θ = 1]
1,645n−1/2 − 1
=P Z<
= Φ(1,645 − n1/2 )
n−1/2
"
#
186
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Si n = 9, por ejemplo, β(δ 0 ) = Φ(1,645 − 3) = 0,0877.
Ejemplo. X1 , . . . , Xn ∼ Ber(p) y considere las hipótesis
H0 : p = 0,2 vs H1 : p = 0,4.
Queremos encontrar un procedimiento de prueba en donde α(δ) = 0,05 y β(δ)
P
es mínimo. Sea y = ni=1 Xi .
f0 (x) = 0,2y 0,8n−y
f1 (x) = 0,4y 0,6n−y
Entonces el cociente de verosimilitud es
3
f1 (x)
=
f0 (x)
4
n y
8
3
y se rechaza H0 si
f1 (x)
4
8
> k ⇔ −n ln
+ y ln
> ln k
f0 (x)
3
3
ln k + n ln(4/3)
= k0.
⇔y>
ln(8/3)
Entonces basta con encontrar k 0 tal que
P(Y > k 0 |p = 0,2) = 0,05,
pero como Y es una variable discreta (Binomial), no es posible encontrar ese
k 0 . Note que en el caso en que n = 10:
P(Y > 4|p = 0,2) = 0,0328
P(Y > 3|p = 0,2) = 0,1209
Por lo tanto, se puede especificar una prueba con nivel 0.05, y con tamaño
α(δ) = 0,0328 y potencia mínima si tiene como región de rechazo Y > 4.
187
11.3. PRUEBAS INSESGADAS
11.3.
Pruebas insesgadas
Definición. Considere las hipótesis H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Decimos que
una prueba de hipótesis δ es insesgada si ∀θ ∈ Ω0 y ∀θ0 ∈ Ω1 :
π(θ|δ) ≤ π(θ0 |δ).
Esto quiere decir que la probabilidad de que la prueba δ rechace la hipótesis
nula es siempre más alta cuando la hipótesis alternativa es verdadera que
cuando la hipótesis nula es verdadera.
Una forma fácil de crear pruebas insesgadas es resolviendo númericamente
las ecuaciones
π (θ0 | δ) = α0
d
π(θ | δ)
=0
dθ
θ=θ0
donde la segunda ecuación es la derivada con respecto al parámetro evaluada
en θ0 .
Ejemplo: Retomando el ejemplo del servicio al cliente, suponga que se quiere
ver si
H0 : θ =
1
2
vs H1 : θ 6=
1
2
La pregunta sería cómo encontrar un test que sea insesgado?
Primero podemos hacer una prueba del cociente de verosimilitud para enconP
trar que tipo de prueba es más adecuada. Tomando t = ni=1 Xi :
(1/2)n exp(−t/2)
t
Λ(x) =
=
n
(n/t) exp(−n)
2n
n
exp(n − t/2)
Esta prueba rechaza H0 si Λ(x) ≤ c para algún c
Por ejemplo, poniendo n = 10 y c = 0,2, vemos que Λ(x) tiene esta forma.
188
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
n <- 10
t <- 1:50
f <- (t / (2 * n))ˆn * exp(n - t / 2)
0.0
0.2
0.4
f
0.6
0.8
1.0
plot(t, f)
abline(h = 0.2, col = "red")
0
10
20
30
40
50
t
Para resolver correctamente el ejercicio se deben encontrar valores c1 y c2 de
modo que
c1
2n
n
exp (n − c1 /2) =
Además, recuerde que T =
Pn
i=1
c2
2n
n
exp (n − c2 /2)
Xi es Γ(n, 21 ) bajo H0 .
Para obtener un nivel α (e.g. 5 %), c1 y c2 deben satisfacer
P(T ≤ c1 ) + P(T ≥ c2 ) = αG (c1 ; n, 1/2) + 1 − G (c2 ; n, 1/2) = α
11.3. PRUEBAS INSESGADAS
189
Donde G es la función de distribución de una gamma.
Se debe resolver esta dos ecuaciones simultáneamente para c1 y c2
fn <- function(c1, c2, n) {
zero <abs((c1 / (2 * n))ˆn * exp(n - c1 / 2) (c2 / (2 * n))ˆn * exp(n - c2 / 2))
alpha <- pgamma(q = c1,
shape = n,
rate = 1 / 2) +
pgamma(
q = c2,
shape = n,
rate = 1 / 2,
lower.tail = FALSE
)
}
return(c(zero, alpha))
fn2 <- function(x, n) {
crossprod(fn(x[1], x[2], n) - c(0, 0.05))
}
sol <- optim(c(1, 1), fn2, n = 3)
sol$par
## [1]
1.425302 15.895757
Entonces rechazamos H0 si T ≥ 15,895757 o T ≤ 1,4253018.
Ahora si se desea encontrar una prueba insesgada, lo que se debe considerar
es encontrar una prueba de modo que se cumplan las ecuaciones vistas en la
definición
190
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
π(θ | δ) = G (c1 ; n, θ) + 1 − G (c2 ; n, θ) = α
⇐⇒ G (c1 ; 3, 1/2) + 1 − G (c2 ; 3, 1/2) = 0,05
Derivando (ver 9.4.13 del libro), se plantea la segunda ecuación del sistema:
∂
n
G(x; n, θ) = [G(x; n, θ) − G(x; n + 1, θ)]
∂θ
θ
por lo tanto
d
π(θ | δ)
=0
dθ
θ=θ0
⇐⇒ G0 (c1 ; 3, 1/2) − G0 (c2 ; 3, 1/2) = 0
lo cual es equivalente a:
3
3
[G(c1 ; 3, 1/2) − G(c1 ; 4, 1/2)] −
[G(c2 ; 3, 1/2) − G(c2 ; 4, 1/2)] = 0
1/2
1/2
!
fn <- function(c1, c2, n) {
zero <- n / 0.5 *
abs(
pgamma(q = c1, shape =
pgamma(q = c1, shape
pgamma(q = c2, shape
pgamma(q = c2, shape
)
n, rate = 1 /
= n + 1, rate
= n, rate = 1
= n + 1, rate
2) = 1 / 2) / 2) +
= 1 / 2)
alpha <- pgamma(q = c1, shape = n, rate = 1 / 2) +
pgamma(
191
11.4. PRUEBA T
)
}
q = c2,
shape = n,
rate = 1 / 2,
lower.tail = FALSE
return(c(zero, alpha))
fn2 <- function(x, n) {
crossprod(fn(x[1], x[2], n) - c(0, 0.05))
}
sol <- optim(c(1, 1), fn2, n = 3)
sol$par
## [1]
1.424926 15.896302
Que resulta en valores prácticamente iguales a los de la prueba anterior.
11.4.
Prueba t
La prueba t se aplica cuando tanto la media µ como la desviación estándar σ
son desconocidas en el caso de una muestra normal, y se busca hacer inferencia
sobre µ.
Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ), con (µ, σ 2 ) desconocidos, y considere
las siguientes hipótesis:
H0 : µ ≤ µ0 vs H1 : µ > µ0 .
X̄n − µ0
√ , entonces la prueba rechaza H0 si U ≥ c. Si
σ0/ n
µ = µ0 entonces U ∼ tn−1 .
Recuerde que si U =
Si H0 : µ ≥ µ0 vs H1 : µ < µ0 , entonces se rechaza H0 si U ≤ c.
192
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Ejemplo: Recordemos el ejemplo de los días que un paciente tarda en una
casa de cuido en Nuevo México
load("./data/Nursing.rda")
hist(Nursing$InPatientDays)
6
0
2
4
Frequency
8
10
12
Histogram of Nursing$InPatientDays
0
100
200
300
400
500
Nursing$InPatientDays
Se quiere probar la hipótesis de H0 : µ ≤ 200 versus H1 : µ > 200, es decir
queremos saber si los pacientes duran más de 200 días en cuidados.
El estadístico de prueba sería
U=
√ (X − µ)
n
σ0
y el test rechaza H0 si U > tn−1,1−α .
x <- Nursing$InPatientDays
n <- length(x)
xbar <- mean(x)
sigma_prima <- sd(x)
alpha <- 0.1
mu0 <- 200
193
11.4. PRUEBA T
quantil_t <- qt(p = 1 - alpha, df = n - 1)
U <- sqrt(n) * (xbar - 200) / sigma_prima
¿Rechazamos H0 ?
U > quantil_t
## [1] FALSE
Entonces no tenemos suficiente evidencia en la muestra para rechazar la
hipótesis H0 con un nivel de significancia del 10 %.
11.4.1.
Propiedades de las pruebas t
Teorema. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Sea el estadístico U definido anteriormente y c = tn−1,1−α0 . Sea δ la prueba que rechaza H0 si U ≥ c. Entonces
i) π(µ, σ 2 |δ) = α0 si µ = µ0 .
ii) π(µ, σ 2 |δ) < α0 si µ < µ0 .
iii) π(µ, σ 2 |δ) > α0 si µ > µ0 .
iv) π(µ, σ 2 |δ) → 0 si µ → −∞.
v) π(µ, σ 2 |δ) → 1 si µ → +∞.
Entonces, la prueba δ tiene tamaño α0 y es insesgada.
Prueba. Ver en el libro.
En el caso en donde H0 : µ ≥ µ0 las desigualdades se intercambian y la prueba
también tiene tamaño α0 y es insesgada.
Teorema. Bajo cualquiera de los dos casos anteriores, sea u el valor observado
de U . Entonces, el valor-p de la prueba δ que rechaza H0 : µ ≤ µ0 es 1−Tn−1 (u)
donde Tn−1 es c.d.f de tn−1 y si la prueba rechaza H0 : µ ≥ µ0 entonces el
valor-p es Tn−1 (u).
Prueba. El caso H0 : µ ≤ µ0 es análogo al cálculo del valor-p que se hizo en el
capítulo anterior. El caso H0 : µ ≥ µ0 se rechaza si
−1
U ≤ Tn−1
(α0 ) ⇔ Tn−1 (u) ≤ α0 .
194
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Es decir, el nivel más pequeño de significancia observada es Tn−1 (u)
Ejemplo:
¿Cuál es el valor p del ejemplo de casas de cuido?
1 - pt(q = U, df = n - 1)
## [1] 0.9064029
t.test(x, alternative = "greater", mu = 200)
##
##
##
##
##
##
##
##
##
##
##
One Sample t-test
data: x
t = -1.3369, df = 51, p-value = 0.9064
alternative hypothesis: true mean is greater than 200
95 percent confidence interval:
163.6466
Inf
sample estimates:
mean of x
183.8654
entonces el mínimo valor de significancia en donde hay rechazo de H0 es
0.9064.
Considere el caso H0 : µ ≤ µ0 vs H1 : µ > µ0 .
Región de rechazo: δ: U ≥ c con U =
X̄n − µ0
√ .
σ0/ n
Recuerden que δ es una prueba insesgada con nivel α0 si c = tn−1,1−α0 .
Valor-p: si observamos U = u, se rechaza H0 si u ≥ tn−1,1−α0 ,
Tn−1 (u) ≥ Tn−1 (tn−1,1−α0 ) = 1 − α0 =⇒ 1 − Tn−1(u) = T̄n−1 (u).
Función de potencia:
195
11.4. PRUEBA T
"
X̄n − µ0
√ ≥ tn−1,1−α0 µ
P[Rechazo|µ] = P
σ0/ n
#
X̄n + µ − µ − µ0
√
== P
≥ tn−1,1−α0 µ
σ0/ n
"
"
#
X̄n − µ µ − µ0
√ + 0 √ ψ̂ ≥ tn−1,1−α0 µ
=P
σ0/ n
σ/ n
|
{z
∆
}
#
| {z }
Observe que
√
n(X̄n − µ)
X̄n − µ σ
N (0, 1)
σ
∆= 0 √ · =
∼s 2
∼ tn−1 .
0
σ
σ/ n σ
χn−1
σ
n−1
De igual forma, vea que
ψ
z√
}|
{
√
√
n(X̄n − µ0 )
n
n
(X̄n − µ) +
(µ − µ0 )
N (ψ, 1)
σ
σ
σ
=
∼s 2 .
U=
0
0
σ
σ
χn−1
σ
σ
n−1
Definición. Si Y , W son independientes con W ∼ N (ψ, 1) y Y ∼ χ2m ,
entonces X se distribuye como una t-Student no centrada con parámetro
ψ si
W
X=s .
Y
m
Si Tm (t|ψ) es c.d.f de X, entonces
π(µ|δ) = T̄n−1 (tn−1,1−α0 , ψ̂).
196
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
En el caso que la prueba sea H0 : µ ≥ µ0 vs H1 : µ < µ0 .
π(µ|δ) = P[U ≤ tn−1,1−α0 ] = Tn−1 (tn−1,α0 , ψ̂).
Conclusión: a partir del error tipo II se puede determinar un tamaño de
muestra dado, siempre y cuando existan restricciones sobre µ y σ 2 .
En el caso de las casas de cuido, suponga que queremos ver el poder cuando
√
µ = 200 + σ/2, entonces el parámetro de no centralidad queda en ψ̂ = 2n .
n <- length(x)
alpha0 <- 0.05
q <- qt(p = 1 - alpha0, df = n - 1)
parametro_no_central <- sqrt(n) / 2
(poder <- pt(q = q, df = n - 1, ncp = parametro_no_central))
## [1] 0.02792138
11.4.2.
Prueba t pareada
A veces se quiere comparar la misma variable pero medida bajo dos condiciones
distintas o bien para cada individuo se midió una variable en donde momentos
distintos. Una de las posibles preguntas de interés es verificar si la media de
un experimento/condición /momento es menor o mayor que la otra.
Lo usual en estos casos es restar ambas medias y hacer una prueba de hipótesis
con µ0 = 0 y trabajar con una muestra compuesta por la diferencias de las
muestras ordenadas por individuos.
Ejemplo: Suponga que se tiene los datos de muñecos de prueba para probar
carros en simulaciones de accidentes de tránsito. Defina Dit1 el daño reportado
al conductor y Dit2 el daño al pasajero.
Defina el logaritmo !del daño como Yit1 = ln(Dit1 ) y Yit2 = ln(Dit2 ) Xi =
Dit1
t1
t2
Yi − Yi = ln
=⇒ Dit2 · eXi = Dit1
t2
Di
197
11.4. PRUEBA T
Evaluemos la prueba H0 : µ ≤ 0 vs H1 : µ > 0 al 1 %, donde µ: diferencia
media en el log-daño entre los muñecos. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) ambos
parámetros desconocidos, y n = 164, X̄n = 0,2199, σ 0 = 0,5342, rechazamos
H0 si
U=
0,2199 − 0
0,5342 = 5,271 > t163,1−0,01 = 2,35.
√
164
El valor-p de la prueba es
1 − P[t163 < 5,271] = 1 × 10−6
Entonces rechazo H0 con cualquier nivel de significancia superior a 1 × 10−6 .
σ
Suponga que la diferencia media entre conductor y pasajero es . ¿Cuál es el
4
error tipo II?
µ − µ0
σ/4 − 0
σ
√ = √
=⇒ ψ =
µ=
=
4
σ/ n
σ/ 164
√
164
= 3,2.
3
El error tipo II es T̄163 (2,35|ψ = 3,2) = 1 − 0,802 = 0,198.
11.4.3.
Pruebas t de dos colas
Región de rechazo: |U | ≥ tn−1,1− α20 .
Función de potencia:
π(µ|δ) = P[U ≥ tn−1,1− α20 |µ]+P[U ≤ −tn−1,1− α20 |µ] = Tn−1 (−c|ψ)+1−Tn−1 (c|ψ).
Valor-p: si observamos U = u, rechazamos H0 si
|u| ≥ tn−1,1− α20 ⇔ Tn−1 (|U |) ≥ 1 −
α0
⇔ α0 ≥ 2[1 − Tn−1 (|u|)] .
|
{z
}
2
valor-p
198
CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Propiedad. La prueba-t unilateral es equivalente a una prueba de cociente
de verosimilitud (LRT). (Ejercicio)
En general cualquier prueba t es una LRT.
Capítulo 12
Prueba de comparación de
medias en 2 poblaciones
12.1.
Comparación de medias normales
i.i.d
i.i.d
Asuma que X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ). Los parámetros desconocidos son µ1 , µ2 , σ 2 . Asuma que (Xi , Yi ) son independientes y la
varianza es la misma (homocedasticidad).
Hipótesis: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 .
2
Notación: X̄m , Ȳn , SX
=
m
X
n
X
i=1
i=1
(Xi − X̄m )2 , SY2 =
(Yi − Ȳn )2 .
Teorema. Considere
(m + n − 2)1/2 (X̄m − Ȳn )
U=
.
1
1 1/2 2
2 1/2
+
(SX + SY )
m n
Si µ1 = µ2 =⇒ U ∼ tm+n−2 .
12.2.
Prueba t de dos muestras
Dada una región de rechazo U ≥ c,
199
200CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
sup P[U ≥ c|µ1 , µ2 , σ 2 ] ≤ α0 =⇒ P[U ≥ c|µ1 = µ2 , σ 2 ] = 1 − Tn+m−2 (c) = α0
µ1 ≤µ2
−1
=⇒ c = Tn+m−2
(1 − α0 )
−1
δ: Rechazo H0 si U > Tn+m−2
(1 − α0 ).
Teorema. Si δ es la prueba definida anteriormente, entonces la función de
potencia π(µ1 , µ2 , σ 2 |δ) tiene las siguientes propiedades:
i. π(µ1 , µ2 , σ 2 |δ) = α0 si µ1 = µ2 .
ii. π(µ1 , µ2 , σ 2 |δ) < α0 si µ1 < µ2 .
iii. π(µ1 , µ2 , σ 2 |δ) > α0 si µ1 > µ2 .
Conclusión. δ es una prueba insesgada con tamaño α0 .
iv. Los límites cuando µ1 − µ2 → −∞(+∞) son los mismos del caso de
una muestra.
Observe que para el caso II: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 .
−1
−1
δ : Rechazo H0 si U < Tn+m−2
(α0 ) = −Tn+m−2
(1 − α0 ).
Los p-valores son:
Caso I: 1 − Tn+m−2 (u) si observamos U = u.
Caso II: Tn+m−2 (u).
Ejemplo: En el caso de las lluvia suponga que queremos probar
H0 : µcon trat. ≤ µsin trat.
nubes <- read.table(
file = "./data/clouds.txt",
sep = "\t", header = TRUE
)
log_lluvia <- log(nubes)
vs H1 : µcon trat. > µsin trat.
12.2. PRUEBA T DE DOS MUESTRAS
201
n <- nrow(nubes)
con_tratamiento <- log_lluvia$Seeded.Clouds
sin_tratamiento <- log_lluvia$Unseeded.Clouds
(Xbar <- mean(con_tratamiento))
## [1] 5.134187
(Ybar <- mean(sin_tratamiento))
## [1] 3.990406
(S2_X <- (n - 1) * var(con_tratamiento))
## [1] 63.96109
(S2_Y <- (n - 1) * var(sin_tratamiento))
## [1] 67.39158
Entonces el estadístico que queremos construir para comparar la medias es
(OJO en este caso m = n porque tienen la misma cantidad de datos: )
(U <- sqrt(n + n - 2) * (Xbar - Ybar) /
(sqrt(1 / n + 1 / n) * sqrt(S2_X + S2_Y)))
## [1] 2.544369
Por tanto se debe comparar con una t-student con 26 + 26 − 2 = 50 grados
de libertad. Asuma un α = 0,01
(qnt <- qt(p = 1 - 0.01, df = n + n - 2))
## [1] 2.403272
¿ Rechazamos H0 ?
U > qnt
## [1] TRUE
¿Cuál es el p-valor?
202CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
1 - pt(q = U, df = n + n - 2)
## [1] 0.007041329
Interpretación: rechazamos al nivel 1 % de significancia la hipótesis de que las
nubes irradiadas tienen una log-precipitación media menor a la de las nubes
no irradiadas. En general se rechaza la hipótesis nula ante cualquier nivel de
significancia superior a 0.007.
12.2.1.
Prueba de 2 colas
Hipótesis. H0 : µ1 = µ2 vs H1 : µ1 6= µ2 (Prueba ANOVA con dos grupos).
Prueba. δ : Rechazo H0 si |U | ≥
−1
Tm+n−2
α0
1−
.
2
Valor-p: 2[1 − Tm+n−2 (|u|)] donde U = u.
Ejemplo. Minas de cobre. Sean X1 , . . . , X8 la cantidad de cobre (gramos) en
8 minas en un lugar 1, y Y1 , . . . , Y10 en 10 minas en un lugar 2. Después de
recolectar los datos se obtiene lo siguiente
X̄8 = 2,6
Ȳ10 = 2,3
2
= 0,32 y
SX
SY2 = 0,22
El ingeniero de la mina se pregunta: ¿Las dos localizaciones generan el mismo
nivel de cobre?
Entonces plantea hacer la prueba de hipótesis
H0 : µ1 = µ2
H1 : µ1 6= µ2
Con el supuesto que Xi ∼ N (µ1 , σ 2 ), Yj ∼ N (µ2 , σ 2 ) y las dos poblaciones
son independientes:
n <- 8
m <- 10
n + m - 2
12.3. PRUEBA F
203
## [1] 16
Xbar <- 2.6
Ybar <- 2.3
S2_X <- 0.32
S2_Y <- 0.22
(U <- sqrt(n + m - 2) * (Xbar - Ybar) /
(sqrt(1 / n + 1 / m) * sqrt(S2_X + S2_Y)))
## [1] 3.442652
Si α0 = 1 %
(qnt <- qt(p = 1 - 0.01 / 2, df = n + m - 2))
## [1] 2.920782
Entonces, ¿Rechazamos H0 ?
abs(U) > qnt
## [1] TRUE
El valor p es 2[1 − T16 (|3,442|)]
2 * (1 - pt(q = U, df = n + m - 2))
## [1] 0.003345064
Interpretación: Rechazamos al 1 % de significancia la hipótesis de una diferencia no significativa entre las cantidades medias de cobre en cada localización.
En general, rechazamos la misma hipótesis para cualquier nivel de significancia
superior a 0.0033.
Ejercicio. La prueba t de 2 muestras es un LRT.
12.3.
Prueba F
Definición Si Y y W son variables aleatorias independientes, Y ∼ χ2m y
W ∼ χ2n , m, n ∈ Z+ . Defina
204CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
X=
Y /m
∼ Fm,n
W/n
X tiene una distribución F con m y n grados de libertad.
La función de densidad es
f (x) =
i
 h
1

(m
+
n)
mm/2 nn/2
Γ


2




0
Γ
1
m
2
Γ
1
n
2
·
x(m/2)−1
(mx + n)(m+n)/2
x>0
(12.1)
x ≤ 0.
Propiedades:
1. Si X ∼ Fm,n =⇒ 1/X ∼ Fn,m .
2. Si Y ∼ tn =⇒ Y 2 ∼ F1,n .
3. Los siguientes esquemas son equivalentes:
U ∼ tn−1
U 2 ∼ F1,n−1
H0 : µ = µ0 ⇔ H0 : µ = µ0
|U | ≥ |c|
U 2 ≥ c∗
i.i.d
i.i.d
Sean X1 , . . . , Xn ∼ N (µ1 , σ12 ) y Y1 , . . . , Yn ∼ N (µ2 , σ22 ). Si (X, Y ) son
independientes, considere:
H0 : σ12 ≤ σ22 vs H1 : σ12 > σ22
y tome α0 ∈ (0, 1). Defina el estadístico:
2
SX
1
V = m−
SY2
n−1
La siguiente prueba tiene sentido: δ : Rechazo H0 si V ≥ c. (Prueba F)
Propiedades de la prueba F:
205
12.3. PRUEBA F
Teorema. La distribución de V ∗ = (σ22 /σ12 )V ∼ Fm−1,n−1 y si σ1 = σ2
entonces V ∼ Fm−1,n−1 .
La justificación de este teorema va en la línea de que como
SY2
∼ χ2n−1 , calculamos
σ22
2
SX
∼ χ2m−1 y
σ12
2
SX
/σ12
V ∗ = m2 − 12 ∼ Fm−1,n−1
SY /σ2
n−1
2
SX
1 ∼F
y bajo el supuesto de homocedasticidad: V = m −
m−1,n−1 .
SY2
n−1
Por otro lado, note que usando el procedimiento de prueba δ anterior:
sup P[V ≥ c|µ1 µ2 , σ12 , σ22 ] ≤ α0 ,
σ12 ≤σ22
y c se puede obtener resolviendo:
−1
P[V ≥ c|µ1 , µ2 , σ12 = σ22 ] = α0 =⇒ c = Fm−1,n−1
(1−α0 ) = G−1
m−1,n−1 (1−α0 ).
donde Gm−1,n−1 es el cdf cd una Fm−1,n−1 .
Teorema. Si δ se define según lo anterior,
i.
π(µ1 , µ2 , σ12 , σ22 |δ) = P[V ≥ G−1
m−1,n−1 (1 − α0 )]
"
σ2
= P V ≥ 22 c
σ1
#
∗
= 1 − Gm−1,n−1
ii. π(µ1 , µ2 , σ12 , σ22 , |δ) = α0 si σ12 = σ22 .
σ22
c
σ12
!
206CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
iii. π(µ1 , µ2 , σ12 , σ22 |δ) < α0 si σ12 < σ22 .
iv. π(µ1 , µ2 , σ12 , σ22 |δ) > α0 si σ12 > σ22 .
v.
σ12
→ 0 =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 0.
σ22
vi.
σ12
→ ∞ =⇒ π(µ1 , µ2 , σ12 , σ22 |δ) → 1.
σ22
Por (i)-(iv) δ es insesgada con tamaño α0 .
El valor-p es 1 − Gm−1,n−1 (v), donde V = v es el valor observado.
2
Ejemplo. X1 , . . . , X6 ∼ N (µ1 , σ12 ), SX
= 30, Y1 , . . . , Y21 ∼ N (µ2 , σ22 ), SY2 =
30.
La hipótesis nula es H0 : σ12 ≤ σ22 .
Se calcula V =
30/5
−1
= 3 y F5,20
(1 − 0,05) = 2,71.
40/20
El valor-p corresponde a 1 − G5,20 (3) = 0,035.
Interpretación?
Ejemplo: Suponga que se tienen los siguientes datos
m <- 20
X <- rnorm(n = m, mean = 0, sd = sqrt(6))
head(X)
## [1]
0.1584997 -0.6609568 -0.8543737
0.2095187 -0.8134797
0.2113794
n <- 40
Y <- rnorm(n = n, mean = 10, sd = sqrt(2))
head(Y)
## [1]
8.210181
8.418592 12.318912 10.224731
9.214239 11.166383
Es decir tener 20 datos normales con σ12 = 6 y 40 datos normales con σ22 = 2.
En todo caso asuma que σ es desconocidos para cada caso y solo tenemos los
datos. Además queremos hacer la prueba de hipótesis
207
12.3. PRUEBA F
H0 : σ12 ≤ σ22
H1 : σ12 > σ22
Según la forma que planteamos el ejercicio, deberíamos de rechazar
H0 ya que σ12 = 6 > 2 = σ22
Calculamos el estadístico V
(S2_X_divido_m_1 <- var(X))
## [1] 7.319257
(S2_Y_divido_n_1 <- var(Y))
## [1] 1.712337
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)
## [1] 4.274424
Para calcular un cuantil te tamaño 1 − α = 0,95 se usa la siguiente función
(qnt <- qf(p = 1 - 0.05, df1 = m - 1, df2 = n - 1))
## [1] 1.85992
¿Rechazamos H0 ?
V > qnt
## [1] TRUE
y el valor-p de la prueba es
1 - pf(q = V, df1 = m - 1, df2 = n - 1)
## [1] 6.111004e-05
Interpretación: Rechazamos la hipótesis que σ12 ≤ σ22 con cualquier nivel
de significancia superior a 0.02.
208CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
12.3.1.
Prueba de 2 colas (prueba de homocedasticidad)
Bajo las hipótesis H0 : σ12 = σ22 vs H1 : σ12 =
6 σ22 , se rechaza si V ≥ c2 o V ≤ c1
con c1 , c2 tales que
α0
α0
α0
P[V ≤ c1 ] =
y P[V ≥ c2 ] =
=⇒ c1 = G−1
m−1,n−1
2
2
2
y c2 =
G−1
m−1,n−1
Ejemplo. Mismo ejemplo de las nubes.
2
2
H0 : σcon
trat. = σsin trat.
2
2
vs H1 : σcon
trat. 6= σsin trat.
(m <- length(con_tratamiento))
## [1] 26
(n <- length(sin_tratamiento))
## [1] 26
(S2_X_divido_m_1 <- var(con_tratamiento))
## [1] 2.558444
(S2_Y_divido_n_1 <- var(sin_tratamiento))
## [1] 2.695663
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)
## [1] 0.9490963
63,96
25 = 0,9491
V = 67,39
25
−1
Se tiene que c1 = G−1
25,25 (0,0025) = 0,4484 y c2 = G25,25 (0,975) = 2,23.
α0
1−
2
209
12.3. PRUEBA F
(c1 <- qf(0.025, df1 = m - 1, df2 = n - 1))
## [1] 0.4483698
(c2 <- qf(0.975, df1 = m - 1, df2 = n - 1))
## [1] 2.230302
¿Rechazamos H0 ?
V < c1
## [1] FALSE
V > c2
## [1] FALSE
No rechazamos la hipótesis nula.
Si observamos V = v, podemos rechazar si
v≤
G−1
m−1,n−1
α0
2
=⇒ 2Gm−1,n−1 (v) ≤ α0
o tambien si
v≥
G−1
m−1,n−1
α0
1−
2
=⇒ Gm−1,n−1 (v) ≥ 1−
α0
=⇒ α0 ≥ 2Ḡm−1,n−1 (v)
2
Por lo tanto, el p-valor es
valor-p = 2 mı́n[1 − Gm−1,n−1 (v), Gm−1,n−1 (v)]
2 * min(1 - pf(q = V, df1 = m - 1, df2 = n - 1),
pf(q = V, df1 = m - 1, df2 = n - 1))
## [1] 0.8971154
Interpretación: La prueba de hipótesis rechaza la hipótesis de homocedasticidad con niveles de significancia de al menos 0.897. Es decir no se rechaza
la hipótesis con un nivel de 0.05.
Propiedad. La prueba F es un LRT.
210CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
Capítulo 13
Bondad de ajuste
Hasta el momento, hemos necesitado una distribución indexada por un
parámetro para modelar los datos disponibles. Sin embargo, es posible que
ese supuesto no se cumpla. En estos casos aún es posible probar la hipótesis
de que los datos provienen de una distribución particular versus la hipótesis
alternativa de que no provienen de esa distribución.
13.1.
Prueba χ2
Suponga que se tienen datos categóricos, es decir datos en los cuales el
rango de la variable asume un número finito de categorías o estados (niveles).
Ejemplo: Por ejemplo suponga que tenemos información del tipo de sangre
en la población de un lugar específico, entonces
Categoría
Tipo de sangre
1
2
3
4
A
B
AB
O
en este caso la variable categórica es el Tipo de sangre con 4 niveles o
categorías.
211
212
CAPÍTULO 13. BONDAD DE AJUSTE
En general, suponga que tenemos k categorías para una variable categórica
en una población dada,
pi = P[Categoría i], i = 1, . . . , k
es la probabilidad de que un elemento de la población pertenezca a la categoría
P
i-ésima. Note que ki=1 pi = 1. Sea p01 , . . . , p0k probabilidades propuestas tal
Pk
que i=1 p0i .
Suponga que se consideran las siguientes alternativas:
H0 : pi = p0i para i = 1, . . . , k
H1 : pi 6= p0i para al menos un i
Ejemplo: Siguiendo con el ejemplo, suponga que se quiere hacer la siguiente
hipótesis de la población
Categoría
Tipo de sangre
Hipótesis (p0i )
1
2
3
4
A
B
AB
O
1/3
1/8
1/24
1/2
Suponga una muestra de n elementos. Suponga que Ni es el número de
P
elementos en la categoría i, ki=1 Ni = n. Note que
(N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk )
Nota: Una distribución multinomial tiene la siguiente forma:
( Pr (X1 = x1 , . . . , Xk = xk ) =
donde
n
x1 ,...,xk
px1 1 · · · pxkk
0
if x1 + · · · + xk = n
otherwise.
213
13.1. PRUEBA χ2
!
n
n!
=
x1 , . . . , x k
x1 !x2 ! · · · xk !
El número esperado de elementos del grupo (o celda) i es n · p0i . Si Ni − np0i es
cercano a 0 para todo i, entonces tendríamos evidencia a favor de la hipótesis
H0 .
El estadístico χ2 se define como
Q=
(Ni − np0i )2
.
np0i
i=1
k
X
En 1900, Karl Pearson probó que bajo H0 y conforme n → ∞, entonces:
Q −→ χ2k−1 .
H0
La prueba χ2 se define a partir de la decisión δ: Rechazo H0 si Q ≥ c. Dado
un nivel de significancia α0 ,
PH0 [Q ≥ c] ≤ α0 =⇒ c = Fχ−1
(1 − α0 )
2
k−1
A esta prueba también se le llama prueba de bondad de ajuste χ2 .
Nota: El estadístico Q se puede interpretar de la forma
Q=
(observadoi − esperadoi )2
.
esperadoi
i=1
k
X
Reglas empíricas
1. La aproximación (Q ∼ χ2k−1 ) funciona muy bien si np0i ≥ 5.
2. La aproximación es buena si np0i ≥ 1,5, i = 1, . . . , k.
Ejemplo: Continuando con el ejemplo, suponga que se observan 6004 personas
de raza blanca en California y tienen las siguientes estadísticas e hipótesis:
214
CAPÍTULO 13. BONDAD DE AJUSTE
Grupo
Observado (ni )
Teórico (p0i )
A
B
AB
O
2162
738
228
2876
1/3
1/8
1/24
1/2
Queremos probar H0 : pi = p0i , i = 1, 2, 3, 4.
np01 = 6004 · 1/3 = 2001,3.
np02 = 6004 · 1/8 = 750,5.
np03 = 6004 · 1/24 = 250,2.
np04 = 6004 · 1/2 = 3002.
(2162 − 2001,3)2 (738 − 750,5)2 (228 − 250,2)2 (2876 − 3002)2
Q=
+
+
+
= 20,37.
2001,3
750,5
250,2
3002
El valor-p es F̄χ23 (20,37) = 1,42 × 10−4 .
En R el test se puede hacer con la función chisq.test:
observado <- c(2162, 738, 228, 2876)
probabilidad_hipotetica <- c(1 / 3, 1 / 8, 1 / 24, 1 / 2)
chisq.test(x = observado, p = probabilidad_hipotetica)
##
## Chi-squared test for given probabilities
##
## data: observado
## X-squared = 20.359, df = 3, p-value = 0.000143
Rechazamos la hipótesis de que las probabilidades teóricas de tipo de sangre
son iguales a los valores hipotéticos.
Ejemplo. Sean 0 < Xi < 1, i = 1, 2, . . . , 100. Asuma que Xi ∼ f donde f
una densidad continua. Considere las alternativas:
215
13.1. PRUEBA χ2
H0 : f = Unif(0, 1) vs H1 : f 6= Unif(0, 1).
Se definen 20 niveles, que corresponden a sub-intervalos de [0,1]. Una observación Xj está en el nivel i si
i
i−1
≤ Xj <
20
20
.
Nivel
1
2
···
20
Frecuencia
N1
N2
···
N20
donde Ni es el número de observaciones que están en el intervalo i.
i
Xi
Grupo
1
2
3
..
.
X1
X2
X3
..
.
2
4
17
..
.
100
X100
20
La hipótesis nula anterior es equivalente a
H0 : pi =
y además note que np0i = 100 ·
1
, i = 1, . . . , 20.
20
1
= 5, i = 1, . . . , 20.
20
Entonces el estadístico χ2 es:
Q=
(Ni − 5)2
.
5
i=1
20
X
Rechazamos la hipótesis H0 : f = Unif(0, 1) si Q > χ219 (1 − α0 ).
216
CAPÍTULO 13. BONDAD DE AJUSTE
Nota: Este método funciona para cualquier tipo de distribución. El siguiente
procedimiento se debe seguir para estos casos
i. Particione en k subintervalos disjuntos la recta real o cualquier intervalo
en el que la probabilidad de que los datos estén contenidos sea 1.
Generalmente k se selecciona de forma que el número esperado de
observaciones en cada intervalo sea al menos 5, bajo H0 .
ii. Determine las probabilidades p0i hipotéticas que se asignará cada subintervalo. El valor teórico para cada subintervalo será np0i
iii. Cuente las observaciones que caen en cada subintervalo. Llame este
valor Ni
iv. Calcule Q según el procedimiento anterior y tome una decisión con
respecto a la hipótesis nula. La hipótesis nula deberá tener una distribución χ2 con k − 1 grados de libertad.
Ejemplo. Supongamos que tenemos 23 datos de tiempos de vida útil de
partes mecánicas para automóvil.
Se aplica una transformación logarítmica en los datos, y los datos transformados son:
x <- c(
17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56,
67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92,
128.04, 173.4
)
log_x <- log(x)
hist(x)
217
13.1. PRUEBA χ2
4
0
2
Frequency
6
8
Histogram of x
0
50
100
150
x
hist(log_x)
4
3
0
1
2
Frequency
5
6
7
Histogram of log_x
2.5
3.0
3.5
4.0
4.5
log_x
Suponga que se quiere hacer la prueba de hipótesis
5.0
5.5
218
CAPÍTULO 13. BONDAD DE AJUSTE
H0 : f = N (log(50); 0,25) vs H1 : f 6= N (log(50); 0,25)
Seleccione k tal que
p0i = P[log-tiempo pertenezca al i-ésimo intervalo] ≥
5
1
≈ .
23
4
Es decir, podemos tomar k = 4 grupos (intervalos regulares) usando los
cuartiles de la distribución bajo H0 :
1. Grupo 1: (FH−10 (0), FH−10 (0,25)] = (−∞, 3,575].
2. Grupo 2: (FH−10 (0,25), FH−10 (0,5)] = (3,575, 3,912].
3. Grupo 3: (FH−10 (0,5), FH−10 (0,75)] = (3,912, 4,249].
4. Grupo 4: (FH−10 (0,75), FH−10 (1)) = (4,249, +∞).
Entonces solo para efectos de construir la partición
cortes <- qnorm(
p = c(0, 1 / 4, 2 / 4, 3 / 4, 1),
mean = log(50),
sd = sqrt(0.25)
)
(intervalos <- cut(c(0, 10), breaks = cortes))
## [1] (-Inf,3.57] (4.25, Inf]
## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]
(conteos <- cut(log_x, breaks = cortes))
## [1] (-Inf,3.57] (-Inf,3.57] (-Inf,3.57] (3.57,3.91] (3.57,3.91] (3.57,3.91
## [7] (3.57,3.91] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25] (3.91,4.25
## [13] (3.91,4.25] (3.91,4.25] (3.91,4.25] (4.25, Inf] (4.25, Inf] (4.25, Inf
## [19] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf] (4.25, Inf]
## Levels: (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]
summary(conteos)
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS
219
## (-Inf,3.57] (3.57,3.91] (3.91,4.25] (4.25, Inf]
##
3
4
8
8
Q=
G1
G2
G3
G4
3
4
8
8
(3 − 23 · 1/4)2 (4 − 23 · 1/4)2 (8 − 23 · 1/4)2 (8 − 23 · 1/4)2
+
+
+
= 3,609.
23 · 1/4
23 · 1/4
23 · 1/4
23 · 1/4
El valor-p corresponde a Fχ23 (3,609) = 0,307.
conteos <- summary(conteos)
chisq.test(conteos)
##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 3.6087, df = 3, p-value = 0.3069
Nota: La función chisq.test si no se llama con ninguna hipótesis nula
p, esta asume que p = 1/n para cada categoría. En este caso como son 4
categorías sería 1/4.
Con un nivel de significancia de al menos un 31 % aproximadamente, se
rechazaría la hipótesis de normalidad con esa escogencia de parámetros.
Nota: Otra escogencia de paramétros podría dar un resultado distinto.
13.2.
Pruebas χ2 con hipótesis parametrizadas
Ejemplo. En el caso anterior, probamos que la distribución Normal con media
log(50) = 3,912023 y desviación estándar 0,25 no tenía suficiente evidencia
bajo niveles usuales de significancia.
La pregunta es entonces, ¿Cuáles serían los parámetros más idóneos en este
caso? ¿Los datos pertenecen a una familia normal?
220
CAPÍTULO 13. BONDAD DE AJUSTE
En esta sección veremos una técnica para lidiar con este problema.
Escriba cada pi (i = 1, . . . , k) como
pi = πi (θ),
θ = (θ1 , . . . , θs )
Es decir, cada probabilidad es igual a una función particular con respecto a
un vector de paramétros θ.
Asuma que s < k − 1. Y asuma que una entrada de θ no se puede escribir
P
como función de las s − 1 restantes. Además suponga que πi (θ) = 1. Las
hipótesis a probar son:
H0 : pi = πi (θ) para algún parámetro θ ∈ Ω, i = 1, . . . , k
H1 : lo anterior no es cierto
El estadístico de prueba es
Q=
k
X
[Ni − nπi (θ̂)]2
i=1
nπi (θ̂)
con θ̂ el MLE de θ usando la distribución de (N1 , . . . , Nk ). En 1924, Fisher
probó lo siguiente:
Teorema. Bajo H0 y bajo condiciones de regularidad, conforme n → ∞,
Q → χ2k−1−s .
Ejemplo. Suponga que se tienen 3 grupos para una variable categórica y
defina una parámetro 0 < θ < 1. El analista hace el siguiente supuesto:
p1 = θ2 = π1 (θ),
p2 = 2θ(1 − θ) = π2 (θ),
p3 = (1 − θ)2 = π3 (θ).
Se observa que p1 + p2 + p3 = θ2 + 2θ(1 − θ) + (1 − θ)2 = [θ + (1 − θ)]2 = 1.
221
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS
s = 1, Ω = [0, 1].
Como la distribución de (N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk ), se obtiene
H0
la verosimilitud
!
n
L(θ|N1 , . . . , Nk ) =
(π1 (θ))N1 · · · (πk (θ))Nk
N1 · · · Nk
` = log(L) ∝ N1 ln π1 (θ) + · · · + Nk ln πk (θ)
Retomando el ejemplo,
ln L(θ) ∝ N1 ln θ2 + N2 ln 2θ(1 − θ) + N3 ln(1 − θ)2
= (2N1 + N2 ) ln θ + (2N3 + N2 ) ln(1 − θ) + N2 ln 2
∂ ln L(θ)
2N1 + N2 2N3 + N2
2N1 + N2
=
−
= 0 =⇒ θ̂ =
∂θ
θ
1−θ
2n
Con esto se calcula π1 (θ̂),π2 (θ̂),π3 (θ̂) y Q.
Ejemplo (Partes de automóvil). Sean X1 , . . . , Xn ∼ f , H0 : f = N (µ, σ 2 )
donde µ y σ 2 son desconocidos.
Vamos a construir las funciones π tratando de ajustar los cuartiles que
habíamos definido antes con los valores teóricos de µ y σ. Entonces,
πi (µ, σ ) =
2
Z bi
ai
(2πσ )
2 −1/2
1
bi − µ
ai − µ
exp − 2 (x − µ)2 dx = Φ
−Φ
2σ
σ
σ
!
Asumiendo que la i-ésima partición es (ai , bi ), los 4 intervalos son
(−∞, 3,575], (3,575, 3,912], (3,912, 4,249], (4,249, +∞).
La verosimilitud es
222
CAPÍTULO 13. BONDAD DE AJUSTE
ln L(µ, σ 2 ) = N1 ln π1 (µ, σ 2 ) + · · · + N4 ln π4 (µ, σ 2 )
y se optimiza numéricamente.
cortes <- qnorm(
p = c(0, 1 / 4, 2 / 4, 3 / 4, 1),
mean = log(50),
sd = sqrt(0.25)
)
log_versomilitud <- function(par, cortes, log_x) {
G <- length(cortes)
mu <- par[1]
sigma <- par[2]
pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) pnorm(q = cortes[k], mean = mu, sd = sigma)
}
conteos <- cut(log_x, breaks = cortes)
conteos <- summary(conteos)
l <- -sum(conteos * log(pi))
return(l)
}
sol <- optim(
par = c(0, 1),
fn = log_versomilitud,
cortes = cortes,
log_x = log_x
)
sol$par
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS
223
## [1] 4.0926455 0.4331326
Para otra solución, considere el siguiente teorema:
Teorema (Chernoff y Lehmann, 1954). Sea X1 , . . . , Xn ∼ Fθ , θ : pdimensional. Denote θ̂n como el MLE de θ (basado en X1 , . . . , Xn ). Tome
una partición de R con k > p + 1 intervalos disjuntos I1 , . . . , Ik . Sea Ni la
cantidad de Xi ’s que pertenecen a Ii y sea πi (θ) = Pθ [Xi ∈ Ii |θ]. Si
Q =
0
k
X
[Ni − nπi (θ̂n )]2
i=1
nπi (θ̂n )
Entonces, bajo las condiciones de regularidad del MLE, si n → ∞, el cdf de
Q0 bajo H0 está entre χ2k−p−1 y χ2k−1 .
Del ejemplo anterior (tiempo de vida de los dispositivos), tome µ̂ = X̄n =
S2
4,1506137 y σ̂ 2 = n = 0,5332049.
n
3,575 − 4,15
π1 (µ̂, σ̂ ) = Φ
− Φ(−∞) = 0,14.
0,28431/2
!
2
3,912 − 4,15
3,575 − 4,15
π2 (µ̂, σ̂ ) = Φ
−Φ
1/2
0,2843
0,28431/2
!
4,249 − 4,15
3,912 − 4,15
π3 (µ̂, σ̂ 2 ) = Φ
−Φ
1/2
0,2843
0,28431/2
!
!
= 0,187.
2
!
4,249 − 4,15
π4 (µ̂, σ̂ ) = 1 − Φ
0,28431/2
2
= 0,246.
!
= 0,4266.
Es decir podemos calcular lo siguiente en R
G <- length(cortes)
mu <- mean(log_x)
sigma <- sd(log_x)
pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) pnorm(q = cortes[k], mean = mu, sd = sigma)
}
224
CAPÍTULO 13. BONDAD DE AJUSTE
pi
## [1] 0.1400819 0.1871877 0.2461242 0.4266062
chisq.test(conteos, p = pi)
##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 1.3381, df = 3, p-value = 0.7201
Entonces
Q0 =
(3 − 23 · 0,14)2 (4 − 23 · 0,187)2 (8 − 23 · 0,246)2 (8 − 23 · 0,4266)2
+
+
+
= 1,3381.
23 · 0,14
23 · 0,187
23 · 0,246
23 · 0,4266
valor-p1 = Fχ24−2−1 (1,3381) = 0,7526307.
valor-p2 = Fχ24−1 (1,3381) = 0,2798937.
Rechazamos H0 (hipótesis de normalidad) si α0 < 0,2798.
ggplot(data = data.frame(x = c(2.5, 6)), aes(x)) +
geom_histogram(
data = data.frame(x = log_x),
aes(x, y = ..density..),
color = "white"
) +
stat_function(
fun = dnorm,
args = list(mean = log(50), sd = sqrt(0.25)),
aes(color = "Hipótesis Manual"),
size = 2
) +
stat_function(
fun = dnorm,
args = list(mean = sol$par[1], sd = sol$par[2]),
aes(color = "Hipótesis con Optimización"),
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS
225
size = 2
) +
stat_function(
fun = dnorm,
args = list(mean = mean(log_x), sd = sd(log_x)),
aes(color = "Hipótesis con MLE"),
size = 2
) +
theme_minimal()
1.5
1.0
density
colour
Hipótesis con MLE
Hipótesis con Optimización
Hipótesis Manual
0.5
0.0
3
4
5
6
x
Ejemplo. Suponga que se tiene el número de muertes por patadas de caballo
en el ejercito Prusiano.
Conteos
0
Núm. de obs. 144
¿Será la variable Poisson?
1
2
3
≥ 4 Total
91
32
11
2
280
226
CAPÍTULO 13. BONDAD DE AJUSTE
df <- data.frame(
conteos = c(0, 1, 2, 3, 4),
observaciones = c(144, 91, 32, 11, 2)
)
ggplot(df, aes(x = conteos, y = observaciones)) +
geom_col() +
theme_minimal()
150
observaciones
100
50
0
0
1
2
3
conteos
H0 : f = Poisson(θ), θ > 0.
El MLE de θ̂ es
0 · 144 + 1 · 91 + 2 · 32 + 3 · 11 + 2 · 4
196
=
= 0,7
280
280
π1 (θ̂) = e−θ̂ = e−0,7 = 0,4966.
π2 (θ̂) =
e−θ̂ θ̂
= 0,3476.
1!
4
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS
π3 (θ̂) =
e−θ̂ θ̂2
= 0,1217.
2!
π4 (θ̂) =
e−θ̂ θ̂3
= 0,0283.
3!
227
π5 (θ̂) = F̄Poisson(θ̂) (4) = 0,0058
(144 − 280 · 0,4966)2 (91 − 280 · 0,3476)2 (32 − 280 · 0,1217)2
+
+
280 · 0,4966
280 · 0,3476
280 · 0,1217
2
2
(11 − 280 · 0,0283)
(2 − 280 · 0,0058)
+
+
= 1,979.
280 · 0,0283
280 · 0,0058
Q0 =
valor-p1 = Fχ25−1−1 (1,979) = 0,5768.
valor-p2 = Fχ25−1 (1,979) = 0,7396.
Interpretación: con un nivel de significancia del 5 % no rechazamos la hipótesis
Poisson en los datos. En general se rechaza H0 para niveles de signficancia
superiores a 0.576.
total <- sum(df$observaciones)
ggplot(data = data.frame(x = c(0, 4)), aes(x)) +
geom_col(data = df, aes(x = conteos, y = observaciones / total)) +
stat_function(
fun = dpois,
args = list(lambda = 0.7),
aes(color = "Hipótesis con MLE"),
size = 2,
geom = "col"
) +
theme_minimal()
228
CAPÍTULO 13. BONDAD DE AJUSTE
0.5
observaciones/total
0.4
0.3
colour
Hipótesis con MLE
0.2
0.1
0.0
0
1
2
x
3
4
Capítulo 14
Tablas de contingencia
En este capítulo veremos cómo hacer un prueba para determinar si dos
variables categóricas son independientes.
Ejemplo. Considere una muestra de 200 estudiantes de una población universitaria, según currículum (área de estudio) y candidato preferido en unas
elecciones universitarias (A, B o indeciso).
Área/Candidato
A
B
Indeciso
Ingeniería
Humanidades
Artes
Administración
Totales
24
24
17
27
92
23
14
8
19
64
12
10
13
9
44
Totales
59
48
38
55
200
Antes de continuar con este ejemplo, definimos lo siguiente:
Tabla de contingencia: arreglo en donde cada observación se puede
clasificar de dos o más formas (vías).
Declaramos la siguiente notación:
R = El número de filas en la tabla.
C = El número de columnas en la tabla.
229
230
CAPÍTULO 14. TABLAS DE CONTINGENCIA
Nij = número de individuos en la muestra clasificados en la fila i y
columna j.
Ni+ =
C
X
Nij .
j=1
N+j =
R
X
Nij .
i=1
R X
C
X
Nij = n.
i=1 j=1
pij = P[Individuo en la población pertenezca a la celda i, j], i
1, . . . , R; j = 1, . . . , C.
pi+ = P[Individuo se clasifique en la fila i] =
C
X
=
pij .
j=1
p+j = P[Individuo se clasifique en la columna j] =
R
X
pij .
i=1
columna j.
C
R X
X
pij = 1.
i=1 j=1
Por ejemplo para la tabla anterior
N11 = 24 son los estudiantes de ingeniería que van a votar por el
candidato A.
N2+ = 48 son todos los estudiantes de Humanidades.
N+3 = 44 son todos los estudiantes indecisos para votar.
n = N++ = 200 es el número total de estudiantes en la muestra.
14.1.
Prueba de independencia
La hipótesis nula que queremos probar es:
H0 : pij = pi+ · p+j , i = 1, . . . , R ; j = 1, . . . , C
231
14.1. PRUEBA DE INDEPENDENCIA
Es decir, que las probabilidades conjuntas de la tabla es el producto de las
probabilidades individuales, i.e., que ambas variables son independientes.
Vectorizando la tabla de contingencia se puede utilizar la hipótesis de distribución multinomial. El número de celdas es k = RC. El número de parámetros
bajo H0 es R − 1 + C − 1 = R + C − 2.
Ni+
N+j
y p̂+j =
.
n
n
El MLE del conteo en la celda i, j (valor esperado bajo H0 ) es
El MLE corresponde a p̂i+ =
Êij = np̂i+ p̂+j = n
Ni+ N+j
Ni+ N+j
=
.
n n
n
El estadístico χ2 se calcula como
Q=
(Nij − Êij )2
Êij
i=1 j=1
C
R X
X
∼
n grande, H0
χ2k−s−1
donde k − s − 1 = RC − (R + C − 2) − 1 = (R − 1)(C − 1).
Dado α0 , rechazamos H0 si Q > χ2(R−1)(C−1) (1 − α0 ).
Del ejemplo anterior,
59 · 92
= 27,14
200
38 · 64
=
= 12,165
200
Ê11 =
Ê32
La tabla de valores esperados bajo H0 es
Área/Candidato
Ingeniería
Humanidades
Artes
Administración
Totales
A
B
27.14 18.88
22.08 15.36
17.48 12.16
25.30 17.60
92
64
Indeciso Totales
12.98
10.56
8.36
12.10
44
59
48
38
55
200
232
CAPÍTULO 14. TABLAS DE CONTINGENCIA
Q=
(24 − 27,14)2
(8 − 12,16)2
+ ··· +
+ · · · = 6,68
27,14
12,16
El valor-p es F̄χ26 (6,68) = 0,351. No rechazamos la hipótesis de independencia
entre el currículum y la preferencia electoral con un nivel de significancia
del 10 %, por ejemplo y en general se rechaza H0 con niveles de significancia
superiores a 0.35.
En R este análisis se hace con la función chisq.test
Primero definamos la tabla de datos
M <- as.table(rbind(
c(24, 23, 12),
c(24, 14, 10),
c(17, 8, 13),
c(27, 19, 9)
))
dimnames(M) <- list(
Carrera = c(
"Ingeniería",
"Humanidades",
"Artes",
"Administración"
),
Voto = c("A", "B", "Indeciso")
)
## knitr::kable(M)
Luego el test se ejecuta sobre la matriz de los datos
chisq.test(M)
##
## Pearson’s Chi-squared test
##
## data: M
## X-squared = 6.6849, df = 6, p-value = 0.351
14.2. PRUEBA DE HOMOGENEIDAD
14.2.
233
Prueba de homogeneidad
Suponga que seleccionamos algunos individuos de distintas poblaciones y
observamos una variable aleatoria discreta para cada individuo. La pregunta
que nos interesa es ver si la distribución de esa variable discreta es la misma
para cada población.
Ejemplo: Siguiendo con el ejemplo anterior, se toma muestras de tamaño
59,48,38 y 55 de cada área. ¿La distribución de la variable preferencia es la
misma sin importar el área? Es decir, la forma en que votan los estudiantes
es homogénea sin importar la carrera que cursan?
Sean R el número de poblaciones y cada observación en cada muestra puede
ser clasificada en C tipos de celdas (categorías). Entonces podemos representar
los datos en una tabla R × C.
Definimos, para i = 1, . . . , R y j = 1, . . . , C:
pij = P[una observación pertenece a la i-ésima población y a la categoríaj]
Estas probabilidades cumplen
PC
j=1
pij = 1, para un i = 1, . . . , R fijo.
La hipótesis de homogeneidad es
H0 : p1j = p2j = · · · = pRj para j = 1, . . . , C
es decir, bajo H0 las R distribuciones son la misma.
Con el fin de construir el estadístico de prueba, considere una población fija i
y probabilidades pij conocidas. Considere el estadístico de Pearson asumiendo
una muestra de tamaño Ni+ de la población i-ésima:
Q(i) =
(Nij − Ni+ pij )2
Ni+ pij
j=1
C
X
Por lo tanto si Ni+ es grande: Q(i) ∼ χ2C−1 .
234
CAPÍTULO 14. TABLAS DE CONTINGENCIA
Supuesto. Las R muestras son independientes. Esto implica que {Q(i) }i son
variables independientes y
Q=
(Nij − Ni+ pij )2
∼ χ2R(C−1)
N
p
i+
ij
i=1 i=1
R X
C
X
para tamaños de muestra grandes.
Nota: Este resultado viene del hecho que la suma de variables χ2 independientes es una variable χ2 con grados de libertad igual a la suma de los grados
de libertad de las variables individuales.
Como los valores pij no son conocidos, tenemos que estimarlos usando un
MLE sobre Nij como muestra y asumiendo H0 . Entonces los MLEs serían:
N+j
.
p̂ij =
n
Sustituyendo,
R X
C
X
(Nij − Êij )2
Q=
Êij
i=1 j=1
Ni+ · N+j
donde Êij =
. Como estamos estimando C − 1 parámetros, entonces
n
los grados de libertad de Q para muestras grandes son
R(C − 1) − (C − 1) = (R − 1)(C − 1).
Se rechaza H0 bajo el mismo criterio de la prueba de independencia.
14.3.
Similitudes entre las pruebas de independencia y homogeneidad
La prueba de independencia y de homogeneidad se estiman exactamente igual.
Sin embargo la interpretación de ambos es ligeramente diferente.
Para la prueba de independencia, se analiza la hipótesis de que la distribución
condicional sobre las columnas dada una fila no depende de la fila.
Sin embargo, para la prueba de homogeneidad cada fila es considerada como
una subpoblación y se desea analizar si para cada una de esta subpoblaciones
la distribución de las columnas es la misma.
14.4. COMPARACIÓN DE DOS O MÁS PROPORCIONES
235
Por lo tanto en términos de muestreo dentro de cada subpoblación, asumiendo
independencia u homogeneidad, las distribuciones obtenidas de las distribuciones condicionales en cada subpoblación es la misma que la distribución
obtenida sobre la población total.
14.4.
Comparación de dos o más proporciones
Ejemplo. Suponga que se hace una encuesta y se pregunta si vieron cierto
programa o no en varias ciudades (R ≥ 2). Entonces se tiene la siguiente
tabla.
Ciudad
Vio el programa
No lo vio
1
..
.
N11
..
.
N12
..
.
R
N R1
NR2
Pregunta: ¿La proporción de audiencia es la misma en todas las ciudades?
Esta pregunta equivale a la hipótesis de homogeneidad entre ciudades. Y el
estadístico de prueba es:
Q=
.
(Nij − Êij )2
∼ χ2R−1
H
0
Êij
i=1 j=1
R X
2
X
Ejemplo. 100 personas se seleccionan aleatoriamente en una ciudad. Se les
pregunta si los bomberos trabajan bien. Ocurre un incendio y después se les
pregunta lo mismo.
Antes del incendio
Después del incendio
Satisfactoria
No satisfactoria
80
72
20
28
En este caso no es apropiado hacer una prueba de independencia u homo-
236
CAPÍTULO 14. TABLAS DE CONTINGENCIA
geneidad χ2 porque se sabe directamente que los datos son correlacionados
(tabla 2 × 2 correlacionada). Para sintetizar la información del problema, se
debe responder las siguientes preguntas:
¿Cuál es la proporción de personas en la ciudad cambió su opinión sobre
el servicio de bomberos después de un incendio?
¿Cuál cambio de opinión fue la más predominante entre los que cambiaron de decisión?
Se puede enfocar el análisis usando una tabla de confusión:
Después del incendio
Antes del incendio
Satisfactorio
No Satisfactorio
Satisfactoria
70
2
No satisfactoria
10
18
En este caso tenemos que el MLE θ̂ de la proporción de personas que cam12
biaron de opinión es
= 0,12. Ya que 10+2 = 12 fueron las personas que
100
cambiaron de opinión y teniamos 100 personas encuestadas. De las personas
10
5
que cambiaron de opinión
= = 0,83 fueron las que cambiaron la opinión
12
6
de satisfactoria insatisfactoria.
Esto nos permite dar inferencias sobre el comportamiento general de la
población.
14.5.
Paradoja de Simpson
Cuando tabulamos datos discretos, hay que tener cuidado con la forma en
que se compara los datos agregados totales con respecto a la agregación en
grupos específicos.
Ejemplo Hacemos un experimento para comparar dos tratamientos (nuevo y
viejo). La muestra fue de 80 sujetos, a los cuales 40 se les aplicó el tratamiento
nuevo y a 40 el viejo. Se evalúa la evolución de cada paciente.
237
14.5. PARADOJA DE SIMPSON
Nuevo
Viejo
Mejoró
No mejoró
% mejora
20
24
20
16
50
60
Conclusión: el tratamiento viejo tiene un porcentaje de mejora mayor.
Si vemos estos resultados según el sexo, para hombres
Nuevo
Viejo
Mejoró
No mejoró
% mejora
12
3
18
7
40
30
Mejoró
No mejoró
% mejora
8
21
2
9
80
70
y para mujeres
Nuevo
Viejo
A este proceso de separar las tablas se le conoce como desagregación.
Paradoja de Simpson. Desagregar tablas de contingencia algunas veces
pone en evidencia variables “ocultas” dentro de los datos.
La variable “sexo” influye en la capacidad de recuperación. Las mujeres se
recuperan más rápido que los hombres en cualquiera de los procedimientos.
Además la mayoría de las mujeres recibieron la mayor parte del tratamiento
viejo, mientras que la mayoría de los hombres recibieron la mayor parte del
tratamiento nuevo.
Sin embargo, proporcionalmente el efecto total es mayor porque los hombres
tuvieron una mayor influencia globalmente con respecto a la efectividad del
tratamiento viejo.
Nota. La paradoja puede persistir en muestras grandes. Es decir, se puede
obtener este mismo resultado con bases de datos grandes o pequeñas. El
problema no es la escala de los datos pero si su proporción.
238
CAPÍTULO 14. TABLAS DE CONTINGENCIA
14.5.1.
¿Cómo evitamos esta paradoja?
Hay un par de condiciones que se deben cumplir para evitar problemas en
este caso
Considere los eventos:
“Hombre” si se selecciona a un hombre.
“Hombrec ” si se selecciona a una mujer.
“Nuevo” si es el tratamiento nuevo.
“Mejora” si hubo una mejora en el tratamiento.
La paradora de Simpson nos dice que es posible tener las siguientes desigualdades:
P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevoc ]
P[Mejora|Hombre ∩ Nuevo] > P[Mejora|Hombre ∩ Nuevo ]
c
c
P[Mejora|Nuevo] < P[Mejora|Nuevo ]
c
c
(?)
(??)
(? ? ?)
Si tenemos el supuesto que
P[Hombre|Nuevo] = P[Hombre|Nuevoc ]
(4)
entonces
P[Mejora|Nuevo] = P[Mejora|Hombre ∩ Nuevo] · P[Hombre|Nuevo]
+ P[Mejora|Hombrec ∩ Nuevo] · P[Hombrec |Nuevo]
Usando (?) y (??), vemos que tenemos la desigualdad:
P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevo]
+ P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevo]
Usando el supuesto en (4), la igualdad se convierte en:
P[Mejora|Nuevo] > P[Mejora|Hombre ∩ Nuevoc ] · P[Hombre|Nuevoc ]
+ P[Mejora|Hombrec ∩ Nuevoc ] · P[Hombrec |Nuevoc ]
14.5. PARADOJA DE SIMPSON
239
Finalmente usando la propiedades de probabilidades condicionales, esta expresión se puede escribir como:
P[Mejora|Nuevo] > P[Mejora|Nuevoc ]
por lo que no se cumple la paradoja.
Nota: Otra forma de que la paradoja nos se cumple es si P[Nuevo|Hombre] =
P[Nuevo|Hombrec ]. (Tarea)
240
CAPÍTULO 14. TABLAS DE CONTINGENCIA
Capítulo 15
Pruebas de
Kolmogorov-Smirnov
En capítulos anteriores, hicimos una prueba χ2 para determinar si cierto
conjunto de datos se ajustaba a una distribución continua o no.
Una mejor alternatva para este caso es la prueba Kolmogorov-Smirnov.
Sean X1 , . . . , Xn ∼ F , F una distribución continua. Asumimos por simplicidad
que los valores observados x1 , . . . , xn son diferentes (como la distribución es
continua la probabilidad de que eso pase es 0).
Definición. Sean x1 , . . . , xn los valores observados de la muestra aleatoria
X1 , . . . , Xn . Para cada x defina Fn (x) como la proporción de valores observados
en la muestra que son menores o iguales a x. Es decir, si hay k valores
observados menores o iguales a x,
Fn (x) =
k
.
n
La función Fn (x) se conoce como la función de distribución de la muestra
1
(empírica). Fn es una distribución a pasos con salto de magnitud entre los
n
valores x1 , . . . , xn . Se puede expresar como
241
242
CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
Fn (x) =



0



n
1 X
1{x ≤x}

n i=1 i





1
si x < x(1)
si x(1) ≤ x < x(n)
si x(n) ≥ x
Como {Xi }ni=1 son independientes, {1{Xi ≤x} }ni=1 son independientes. Entonces,
por la ley de grandes números
n
1X
P
1{Xi ≤x} −−−→ E[1Xi ≤x ] = F (x)
Fn (x) =
n→∞
n i=1
por lo que Fn (x) es un estimador consistente de F (x).
Ejemplo Recuerden el ejemplo de los 23 tiempos de vida útil para una parte
mecánica de un automóvil.
x <- c(
17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56,
67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92,
128.04, 173.4
)
df <- as.data.frame(x)
Para este ejemplo tenemos que Fn (x) se ve de la forma:
ggplot() +
stat_ecdf(
data = df,
mapping = aes(x, color = "F_n(x)"),
size = 2
) +
theme_minimal()
243
1.00
0.75
y
colour
0.50
F_n(x)
0.25
0.00
50
100
150
x
Y en los capítulos anteriores hicimos una comprobación de que los parámetros
µ = 3,912 y σ 2 = 0,25 se ajustaban bien para los log-valores asumiendo un
modelo normal. En este caso podemos comprobar este ajuste
ggplot() +
stat_ecdf(
data = df,
mapping = aes(log(x), color = "F_n(x)"),
size = 2
) +
stat_function(
data = data.frame(x = c(3, 5)),
fun = pnorm,
aes(color = "F(x)"),
size = 2,
args = list(mean = 3.912, sd = sqrt(0.25))
) +
theme_minimal()
244
CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
1.00
0.75
y
colour
0.50
F_n(x)
F(x)
0.25
0.00
3.0
3.5
4.0
4.5
5.0
log(x)
La prueba de Kolmogorov-Smirnov está basada en el siguiente teorema.
Teorema (Lema de Glivenko-Cantelli)
Sea Fn (x) la distribución empírica de una muestra X1 , . . . , Xn provenientes
de la distribución F . Defina
Dn =
sup
−∞<x<∞
|Fn (x) − F (x)|
Entonces
Dn →
− 0.
P
Esto quiere decir que conforme el tamaño de muestra es grande, la distribución
empírica será muy cercana a la distribución poblacional sobre toda la recta
real. El principal inconveniente de Fn (x) como estimador de F (x) es su
comportamiento escalonado para muestras finitas.
15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA245
15.1.
Prueba de Kolmogorov-Smirnov para
una muestra
La pregunta que responde esta prueba es
¿Será que F = F ∗ , donde F ∗ es una distribución hipotética?.
Las alternativas de interés son:
H0 : F = F ∗ vs H1 : F 6= F ∗
En este caso se define el estadístico
Dn∗ =
sup
−∞<x<∞
|Fn (x) − F ∗ (x)|
Nota: Si H0 es cierto, la distribución del estadístico Dn∗ no depende de F ∗ .
Note que si Zi = F ∗ (Xi ), i = 1, . . . , n (X1 , . . . , Xn ∼ F ):
P(Zi ≤ z) = P(F ∗ (Xi ) ≤ z) = P(Xi ≤ ((F ∗ )−1 (z))) = z
Entonces Z1 , . . . , Zn ∼ Unif(0, 1)
H0
Considere la hipótesis H0Z : G = Unif(0, 1) donde G es la distribución de Zi .
Entonces
Dn∗,G = sup |Gn (z)−G∗ (z)| = sup |Gn (z)−FUnif(0,1) (z)| = sup |Gn (z)−z|
0<z<1
0<z<1
0<z<1
Observe que
Gn (z) =
n
n
n
1X
1X
1X
1{Zi ≤z} =
1{F ∗ (Xi )≤z} =
1{Xi ≤(F ∗ )−1 (z)} = Fn ((F ∗ )−1 (z))
n i=1
n i=1
n i=1
Entonces tomando x = (F ∗ )−1 (z):
246
CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
Dn∗,G = sup |Fn (x) − F ∗ (x)| = Dn∗
H0
por lo que Dn∗ no depende de F ∗ bajo H0 .
De manera práctica si la distribución Fn (x) es cercano a F ∗ entonces Dn∗ será
1
cercano a 0. Entonces podemos rechazar la hipótesis nula H0 si n 2 Dn∗ ≥ c,
para algún valor c particular.
Este valor en particular se debe estimar a partir de la distribución de
Kolmogorov-Smirnov.
Teorema (Kolmogorov-Smirnov (1930)). Si H0 es cierto, para t > 0,
lı́m P(n1/2 Dn∗ ≤ t) = 1 − 2
n→∞
∞
X
(−1)i−1 e−2i
2 t2
=: H(t).
i=1
Rechazamos H0 si n1/2 Dn∗ ≥ c, para n grande. Para un nivel de significancia
α0 seleccionamos c = H −1 (1 − α0 ).
La función H(t) es algo complicada de estimar, y sus cuantiles lo son aún
más. Estos normalmente son definidos a través de métodos númericos que
están fuera del alcance del este curso. La siguiente tabla muestra el conjunto
de valores estimados para cada t
15.1. PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA247
t
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
0.95
1.00
1.05
1.10
1.15
H(t)
0.0000
0.0003
0.0028
0.0126
0.0361
0.0772
0.1357
0.2080
0.2888
0.3728
0.4559
0.5347
0.6073
0.6725
0.7300
0.7798
0.8223
0.8580
t
1.20
1.25
1.30
1.35
1.40
1.45
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
H(t)
0.8878
0.9121
0.9319
0.9478
0.9603
0.9702
0.9778
0.9880
0.9938
0.9969
0.9985
0.9993
0.9997
0.9999
0.9999
1.0000
1.0000
Los valores más comunes de cuantiles para las pruebas son
α
H −1 (1 − α)
0.01
0.05
0.1
1.63
1.36
1.22
Ejemplo:
En el caso de las partes mecánicas quisiéramos saber si los log-valores siguen
o no una distribución normal.
02
Dado que queremos comparar estos valores con un N (µ̂, σ ), entonces
ks.test(
x = log(x),
y = "pnorm",
mean = mean(log(x)),
248
)
CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
sd = sd(log(x))
##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.091246, p-value = 0.9815
## alternative hypothesis: two-sided
Note que estos parámetros de localización y escala son muy importantes
ya que si se quisiera comparar con una distribución N (0, 1) el resultado es
diferente.
ks.test(
x = log(x),
y = "pnorm",
mean = 0,
sd = 1
)
##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.99803, p-value = 4.441e-16
## alternative hypothesis: two-sided
15.2.
Prueba de 2 muestras
Suponga que se tiene X1 , . . . , Xm ∼ N (µ1 , σ 2 ) y Y1 , . . . , Yn ∼ N (µ2 , σ 2 ) y se
desea saber si ambas muestras tienen la misma distribución.
Una opción es probar que
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
y mantener el supuesto fuerte de normalidad a la hora de realizar la prueba
de comparación de medias.
249
15.2. PRUEBA DE 2 MUESTRAS
Otra opción a analizar es comparar las distribuciones en general. Es decir,
para X1 , . . . , Xm ∼ F y Y1 , . . . , Ym ∼ G continuas, probar H0 : F (x) = G(x),
x ∈ R.
Considere
Dmn =
sup
−∞<x<∞
|Fm (x) − Gn (x)|
Se tiene por el teorema de Glivenko-Cantelli que Dmn →
− 0, m, n → ∞ cuando
H0 es verdadera
P
Para el caso de dos muestras se puede probar que si H(t) es la distribución
límite en el caso de una muestra y t > 0, entonces se cumple que
lı́m P
m,n→∞
mn
m+n
1
2
!
Dmn ≤ t = H(t)
1
mn 2
En este caso se rechaza la hipótesis nula si
Dmn ≥ H −1 (1 − α0 ).
m+n
Ejemplo Suponga que se tienen dos grupos de personas a las cuales a unas se
les dio un tratamiento para la presión arterial y al otro se le dio un placebo.
A cada persona en cada grupo se le midió las diferencias en las presiones
arteriales al inicio y al final de 12 semanas de tratamiento con un suplemento
con calcio.
Los resultados fueron estos
Medicina <- c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2)
Placebo <- c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1, -3)
La pregunta es si ambos conjuntos de datos vienen de la misma distribución.
ks.test(Medicina, Placebo)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: Medicina and Placebo
## D = 0.40909, p-value = 0.3446
## alternative hypothesis: two-sided
250
CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
En este caso rechazamos la hipótesis nula de que ambas distribuciones son
iguales con un nivel de α ≥ 0,346.
df <- rbind(
data.frame(x = Medicina, Tratamiento = "Medicina"),
data.frame(x = Placebo, Tratamiento = "Placebo")
)
ggplot(df) +
stat_ecdf(aes(x, color = Tratamiento)) +
theme_minimal()
1.00
0.75
y
Tratamiento
0.50
Medicina
Placebo
0.25
0.00
-10
0
10
x
Capítulo 16
Pruebas no-paramétricas:
pruebas de signo y rango
En este capítulo se explorará como hacer hipótesis sobre la distribución de
un conjunto de datos cuando no se sabe con exactitud la distribución teórica
a la cual pertenece.
16.1.
Prueba de signo
Sean X1 , . . . , Xn una muestra aleatoria de una distribución desconocida continua. Recordemos que no toda distribución tiene media, por ejemplo la
distribución Cauchy1 . Sin embargo, toda distribución continua si tiene una
mediana µ2 definida.
La mediana es una popular medida de ubicación, que satisface
P(Xi ≤ µ) = 0, 5.
1
La densidad
de una distribución Cauchy se define como f (x; x0 , γ) =
1
γ2
,, donde x0 y γ son parámetros de localización y escala respectiπγ (x − x0 )2 + γ 2
vamente. Esta distribución no tiene ningún momento definido y su mediana es x0 .
2
Importante: Aunque normalmente se denota µ como la media, en este capítulo µ es
la mediana.
251
252CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
Suponga que queremos probar
H0 :µ ≤ µ0
H1 :µ > µ0
¿Por qué esta prueba? Note que esta se basa en el hecho de que µ ≤ µ0 si y
solo si P(Xi < µ0 ) ≥ 0, 5 para i = 1, . . . , n.
Es decir, que la mediana µ es menor que algún valor µ0 si y solo si, la
probabilidad de que los valores Xi sean menores que µ0 sea mayor de 0.5. De
forma más gráfica, si tiraramos una moneda, aproximadamente la mitad de la
veces un valor de X caería por debajo de µ0 y la otra mitad por encima de µ0
Usando esta última observación, para i = 1, . . . , n, sea Yi = 1 si Xi ≤ µ0 y
Yi = 0 si no. Defina p = P(Yi = 1). Entonces, probar que µ ≤ µ0 es equivalente
a probar p ≥ 0, 5. Como X1 , . . . , Xn son independientes, Y1 , . . . , Yn lo son,
entonces
Y1 , . . . , Yn ∼ Bernoulli(p).
Calculamos W = Y1 + · · · + Yn y decimos que rechazamos la hipótesis nula si
W es pequeño.
Para tener una prueba de tamaño α0 , escoja c tal que
c
X
w=0
n
w
1
2
! n
≤ α0 <
c+1
X
w=0
n
w
1
2
! n
Se rechaza H0 si W ≤ c.
La prueba descrita es llamada prueba de signo pues está basada en el
número de observaciones en las cuales Xi − µ0 es negativo.
Si se desea hacer una prueba de dos colas
253
16.1. PRUEBA DE SIGNO
H0 :µ 6= µ0
H1 :µ 6= µ0
1
p=
2
1
p 6=
2
Se rechaza H0 si W ≤ c o W ≥ n − c (simetría de Binomial(n, p)) y para
obtener un nivel de significacia del α0 seleccionamos c tal que
c
X
w=0
n
w
! 1 n
2
c+1
X n
α0
≤
<
2
w=0 w
1
2
! n
Note que la función de potencia en el caso unilateral es:
P(W ≤ c) =
c
X
w=0
!
n
(1 − p)n−w pw
w
Ejemplo: En junio de 1986 la revista Consumer Reports reportó las calorías
de 20 marcas de salchichas. Estos son los datos reportados:
x <- c(
186, 181, 176, 149, 184, 190, 158,
139, 175, 148, 152, 111, 141, 153,
190, 157, 131, 149, 135, 132
)
ggplot(as.data.frame(x), aes(y = x)) +
geom_boxplot() +
theme_minimal()
254CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
x
175
150
125
-0.4
-0.2
0.0
0.2
0.4
Suponga que se quiere probar la hipótesis de que la mediana es igual a 150
(µ = 150). Entonces se plantea la hipótesis
H0 :µ = 150
H1 :µ =
6 150
La prueba de signo cuenta cuantas veces Xi − 150 es negativo. Observe que
para estos datos tenemos que
M <- data.frame(
diferencias = x - 150,
signo_negativo = x - 150 < 0)
M
##
##
##
##
##
##
1
2
3
4
5
diferencias signo_negativo
36
FALSE
31
FALSE
26
FALSE
-1
TRUE
34
FALSE
255
16.1. PRUEBA DE SIGNO
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
40
8
-11
25
-2
2
-39
-9
3
40
7
-19
-1
-15
-18
FALSE
FALSE
TRUE
FALSE
TRUE
FALSE
TRUE
TRUE
FALSE
FALSE
FALSE
TRUE
TRUE
TRUE
TRUE
summary(M$signo_negativo)
##
Mode
## logical
FALSE
11
TRUE
9
Y el valor p correspondiente es:
2 * pbinom(q = 9, size = 20, prob = 1 / 2)
## [1] 0.8238029
Rechazamos la hipótesis nula con un nivel α0 ≥ 0,8238.
Este mismo problema se puede resolver con la función binom.test de R (x
es el número de signos negativos y n es el número total de datos).
binom.test(x = 9, n = 20)
##
##
##
##
##
##
##
Exact binomial test
data: 9 and 20
number of successes = 9, number of trials = 20, p-value = 0.8238
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
256CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
## 0.2305779 0.6847219
## sample estimates:
## probability of success
##
0.45
16.2.
Prueba de Wilconxon-Mann-Whitney
i.i.d
i.i.d
Dadas dos muestras independientes X1 , . . . , Xm ∼ F y Y1 , . . . , Yn ∼ G,
queremos verificar las alternativas:
H0 :F = G
H1 :F =
6 G
Esta hipótesis se puede hacer con las pruebas de Kolmogorov-Smirnov o la
prueba t (dependiendo de la naturaleza de F y G).
Otra forma de hacerlo es usando la prueba de Wilconxon-Mann-Whitney
(prueba de rango) descubierta por F. Wilcoxon, H. B. Mann y D. R. Whitney
en la década de 1940.
La lógica de la prueba reside en que si unimos los dos conjuntos de valores y
ambos tienen la misma distribución, entonces los datos agregados al ordenarse
estarían dispersos equitativamente entre las dos muestras.
Asumiendo que H0 es cierto y uniendo las dos muestras:
W = (W1 , . . . , Wn+m ) = (X1 , . . . , Xm , Y1 , . . . , Yn )
Sobre esta muestra agregada calculamos los estadísticos de orden (ordenamos
los datos agregados):
(W(1) , . . . , W(n+m) )
Para una muestra como X1 , . . . , Xm se tiene que las posiciones de cada uno
los datos se puede escribir como variables aleatorias
257
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY
X1 , . . . , Xm → (XI1 , . . . , XIm ) = (X(1) , . . . , X(m) ).
Note que estas posiciones se pueden modelar como
(I1 , . . . , Im ) ∼ Unif. Discreta(1, . . . , m)
Por lo tanto, bajo H0 , W1 , . . . , Wn+m tiene índices de posición uniformemente
distribuidos sobre los enteros 1, . . . , m + n.
Defina S como la suma de todos los índices de posición (rangos) de la muestra
X = (X1 , . . . , Xm ) dentro de la muestra agregada W . Se puede probar que
m+n+1
E[S] = m
.
2
m+n+1
H
Var(S) =0 mn
.
12
El resultado importante de Mann y Whitney en 1947 fue probar que si m, n
son grandes, entonces
H0
m(m + n + 1) mn(m + n + 1)
,
.
2
12
!
S ∼N
H0
Por lo tanto la prueba se convierte en una prueba de normalidad sobre los
rangos de los datos.
Rechazamos la hipótesis nula si S se desvía mucho del valor de la media E[S].
En otra palabras rechazamos H0 si:
S−
m(m + n + 1)
≥c
2
bajo la aproximación normal de Mann y Whitney, el valor c es:
1
c = (Var(S)) 2 Φ−1 1 −
α
2
y de esta forma la prueba tendría nivel de significancia α.
258CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
Ejemplo: Supongamos que tenemos estos dos conjuntos de datos y queremos
ver si tienen la misma distribución.
x <- c(2.183, 2.431, 2.556, 2.629,
2.641, 2.715, 2.805, 2.840)
y <- c(2.120, 2.153, 2.213, 2.240,
2.245, 2.266, 2.281, 2.336,
2.558, 2.587)
dfx <- data.frame(W = x, variable = "x")
dfy <- data.frame(W = y, variable = "y")
Lo primero sería unirlos
dfw <- full_join(dfx, dfy)
Y luego ordenarlos y calcular su rango
dfw <- dfw %> %
arrange(W) %> %
mutate(rango = 1:n())
dfw
##
##
##
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
7
8
9
10
11
12
13
W variable rango
2.120
y
1
2.153
y
2
2.183
x
3
2.213
y
4
2.240
y
5
2.245
y
6
2.266
y
7
2.281
y
8
2.336
y
9
2.431
x
10
2.556
x
11
2.558
y
12
2.587
y
13
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY
##
##
##
##
##
14
15
16
17
18
2.629
2.641
2.715
2.805
2.840
x
x
x
x
x
259
14
15
16
17
18
ggplot(dfw, aes(y = W, fill = variable)) +
geom_boxplot() +
theme_minimal()
2.7
W
variable
2.5
x
y
2.3
2.1
-0.2
0.0
(m <- length(x))
## [1] 8
(n <- length(y))
## [1] 10
Calculamos la media y varianza de S bajo H0 :
(media_S <- m * (m + n + 1) / 2)
## [1] 76
0.2
260CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
(var_S <- m * n * (m + n + 1) / 12)
## [1] 126.6667
Tomamos la suma de todos los rangos de la muestra X:
S <- dfw %> %
filter(variable == "x") %> %
summarise (S = sum(rango))
(S <- as.numeric(S))
## [1] 104
√
La variable S sigue una distribución N (76, 126,67). Por lo tanto su p-valor
es
2 * (1 - pnorm(q = (S - media_S) / sqrt(var_S)))
## [1] 0.01285124
Rechazamos H0 si el nivel de significacia α0 > 0,0128
La función en R wilcox.test calcula la misma prueba, aunque esta hace
algunos ajustes adicionales a los rangos, por eso los valores son ligeramente
diferentes. Los detalles los pueden consultar en la ayuda de la función.
wilcox.test(x, y)
##
## Wilcoxon rank sum exact test
##
## data: x and y
## W = 68, p-value = 0.01166
## alternative hypothesis: true location shift is not equal to 0
Related documents
Download