Uploaded by bernardo oberlander

Estadistica II notas 2023

advertisement
Introducción a la Inferencia Estadı́stica
Material Teórico
Facultad de Ciencias Económicas y de Administración
Universidad de la República
ÍNDICE GENERAL
1. Resultados preliminares
1.1. Introducción . . . . . . . .
1.2. Algunas definiciones . . .
1.3. Transformaciones . . . . .
1.3.1. Variables aleatorias
1.3.2. Variables aleatorias
1.3.3. Vectores aleatorios
1.4. Familias de distribuciones
1.4.1. Distribución χ2n . .
1.4.2. Distribución tn . .
1.4.3. Distribución Fn,m .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
discretas . . . . . . . . .
absolutamente continuas
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
2. Muestreo
2.1. Introducción . . . . . . . . . . . . . . . . . .
2.2. Muestreo . . . . . . . . . . . . . . . . . . . .
2.3. Estadı́sticos y su distribución en el muestreo
2.3.1. Distribución en el muestreo . . . . .
2.4. Muestreo de poblaciones normales . . . . . .
2.5. Estadı́sticos de Orden . . . . . . . . . . . . .
2.5.1. Distribuciones marginales . . . . . .
3. Inferencia Bayesiana
3.1. Introducción . . . . . . . . . . . . . . . . . .
3.2. Distribuciones a priori y a posteriori . . . .
3.2.1. Distribución a priori . . . . . . . . .
3.2.2. Función de verosimilitud . . . . . . .
3.2.3. Distribución a posteriori . . . . . . .
3.3. Suficiencia . . . . . . . . . . . . . . . . . . .
3.3.1. Estadı́stico suficiente . . . . . . . . .
3.3.2. Cálculo de la distribución a posteriori
3.4. Selección de una distribución a priori . . . .
3.5. Métodos de Inferencia Bayesiana . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
4
6
6
8
10
.
.
.
.
.
.
.
13
13
14
16
17
20
23
23
.
.
.
.
.
.
.
.
.
.
27
27
28
28
29
29
30
31
36
39
41
Introducción a la Inferencia Estadı́stica
3.5.1. Estimación por intervalos: Intervalos de
3.5.2. Estimación puntual . . . . . . . . . . .
3.5.3. Prueba de Hipótesis . . . . . . . . . .
3.5.4. Contraste de hipótesis . . . . . . . . .
3.6. Selección de Modelos . . . . . . . . . . . . . .
3.7. Modelos multiparámetro . . . . . . . . . . . .
4. Estimación Puntual
4.1. Introducción . . . . . . . . . . . . . . .
4.2. Métodos para construir estimadores . .
4.2.1. Método de los Momentos . . . .
4.2.2. Función de verosimilitud . . . .
4.2.3. Estimadores máximo verosimiles
4.3. Evaluación de Estimadores . . . . . . .
4.3.1. Información de Fisher . . . . .
4.3.2. Error Cuadrático Medio . . . .
4.3.3. Mejor estimador insesgado . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
credibilidad
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
42
45
45
47
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
52
52
54
56
62
63
69
73
.
.
.
.
.
.
79
79
79
81
82
82
85
.
.
.
.
.
.
.
.
.
5. Estimación por Intervalos
5.1. Introducción . . . . . . . . . . . . . . . . . . . . .
5.2. Intervalos de confianza . . . . . . . . . . . . . . .
5.2.1. Interpretación del coeficiente de confianza
5.3. Construcción de estimadores por intervalo . . . .
5.3.1. Cantidades pivotales . . . . . . . . . . . .
5.4. Optimalidad . . . . . . . . . . . . . . . . . . . . .
6. Contraste de Hipótesis
6.1. Introducción . . . . . . . . . . . . . . . . . . . .
6.2. Contraste de hipótesis . . . . . . . . . . . . . .
6.2.1. Hipótesis simple contra hipótesis simple .
6.2.2. Hipótesis compuestas . . . . . . . . . . .
6.2.3. No existencia del la RC UMP . . . . . .
6.3. Contraste de razón de verosimilitudes . . . . . .
6.4. Valor p . . . . . . . . . . . . . . . . . . . . . . .
6.5. Construcción de estimadores por intervalo . . .
6.5.1. Inversión de una RC . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
90
94
99
104
105
113
117
117
7. Inferencia en muestras grandes
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . .
7.3. Convergencia en media cuadrática . . . . . . . . . . . . . . . . . .
7.4. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . .
7.5. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . .
7.5.1. El método delta . . . . . . . . . . . . . . . . . . . . . . . .
7.6. Contrastes e intervalos de confianza asintóticos basados en el TLC
7.6.1. Valor esperado de una v.a. . . . . . . . . . . . . . . . . . .
7.7. Constrastes basados en la función de verosimilitud . . . . . . . . .
7.7.1. Contraste de Wilks . . . . . . . . . . . . . . . . . . . . . .
7.7.2. Contraste de Wald . . . . . . . . . . . . . . . . . . . . . .
7.7.3. Contraste de Rao o de los multiplicadores de Lagrange . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
122
126
127
131
132
133
133
134
134
136
137
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Introducción a la Inferencia Estadı́stica
7.8. Contrastes de independencia y bondad de ajuste . . . . . . . . . . . . . . . . . . . 140
7.8.1. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . 140
7.8.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8. Muestreo de Poblaciones Finitas
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2. Probabilidades de inclusión . . . . . . . . . . . . . . . . . . .
8.3. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . .
8.3.1. Estimación del total poblacional . . . . . . . . . . . . .
8.3.2. Estimación de la media poblacional . . . . . . . . . . .
8.3.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . .
8.4. Aplicación a algunos diseños de muestreo directo de elementos
8.4.1. Diseño Simple . . . . . . . . . . . . . . . . . . . . . . .
8.4.2. Diseño Estratificado . . . . . . . . . . . . . . . . . . .
8.4.3. Diseño Bernoulli . . . . . . . . . . . . . . . . . . . . .
8.4.4. Diseño Sistemático . . . . . . . . . . . . . . . . . . . .
8.5. Comentarios sobre diseños de muestreo indirecto de elementos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
145
146
148
148
149
150
150
150
152
155
156
158
A. Modelos de probabilidad
A.1. Modelos Univariados Discretos . . . . . . . . . . .
Uniforme Discreta . . . . . . . . . . . . . . . . .
Bernoulli . . . . . . . . . . . . . . . . . . . . . .
Binomial . . . . . . . . . . . . . . . . . . . . . . .
Geométrica . . . . . . . . . . . . . . . . . . . . .
Binomial Negativa . . . . . . . . . . . . . . . . .
Hipergeométrica . . . . . . . . . . . . . . . . . .
Poisson . . . . . . . . . . . . . . . . . . . . . . .
A.2. Modelos Univariados Absolutamente Continuos .
Uniforme . . . . . . . . . . . . . . . . . . . . . .
Triangular . . . . . . . . . . . . . . . . . . . . . .
Exponencial . . . . . . . . . . . . . . . . . . . . .
Doble Exponencial . . . . . . . . . . . . . . . . .
Gamma . . . . . . . . . . . . . . . . . . . . . . .
Logı́stica . . . . . . . . . . . . . . . . . . . . . . .
Beta . . . . . . . . . . . . . . . . . . . . . . . . .
Cauchy . . . . . . . . . . . . . . . . . . . . . . .
Normal . . . . . . . . . . . . . . . . . . . . . . .
Lognormal . . . . . . . . . . . . . . . . . . . . . .
t de Student . . . . . . . . . . . . . . . . . . . . .
F de Snedecor . . . . . . . . . . . . . . . . . . .
Weibull . . . . . . . . . . . . . . . . . . . . . . .
Pareto . . . . . . . . . . . . . . . . . . . . . . . .
A.3. Modelos Multivariados Discretos . . . . . . . . . .
Multinomial . . . . . . . . . . . . . . . . . . . . .
Multihipergeométrica . . . . . . . . . . . . . . . .
A.4. Modelos Multivariados Absolutamente Continuos
Normal Multivariada . . . . . . . . . . . . . . . .
A.5. Relaciones entre distribuciones . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
161
161
161
162
162
162
162
163
164
164
164
164
165
165
166
166
166
167
168
168
168
169
169
170
170
170
171
171
172
173
B. Tablas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
177
Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
C. Tablas de contrastes de hipótesis
183
D. Intervalos de Confianza
185
D.1. Intervalos de Confianza 100(1 − α) % . . . . . . . . . . . . . . . . . . . . . . . . . 185
E. Estadı́sticos de orden
187
E.1. Resultados Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
E.2. Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
E.3. Funciones de los estadı́sticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . 191
F. Colecciones de familias
F.1. Familia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F.1.1. Forma canónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F.2. Familias de posición y escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
193
193
195
197
Introducción a la Inferencia Estadı́stica
2 - Resultados preliminares
CAPÍTULO 1
RESULTADOS PRELIMINARES
1.1.
Introducción
El propósito de este capı́tulo introductorio es establecer ciertas notaciones y terminologı́as que
usaremos a lo largo de las notas y presentar diversos resultados que serán necesarios más tarde.
El estilo de este capı́tulo es deliberadamente esquemático, dado que está concebido más como una
referencia que como una exposición sistemática.
1.2.
Algunas definiciones
Definición 1.2.1. La función indicatriz del conjunto A se define como
(
1 si x ∈ A
I[x∈A] =
0 si x ∈
/A
Usaremos la función indicatriz para indicar dónde la función de densidad o cuantı́a es positiva o
igual a 0. Por lo tanto, escribiremos a las cuantı́as o densidades de la forma
fX (x) = g(x)I[x∈Rec(X)] .
En el caso de que Rec(X) = R, tenemos que I[x∈R] ≡ 1 ∀x ∈ R. En este caso omitiremos la
indicatriz.
Ejemplo 1.2.1. Si X ∼ Exponencial(θ), de E(X)=θ, su función de densidad puede
ser escrita de la forma

 1 e− xθ si x > 0
1 x
o de la forma más sintética fX (x) = e− θ I[x>0] .
fX (x) = θ
0
θ
en otro caso
1
Introducción a la Inferencia Estadı́stica
Definición 1.2.2. Si X es una variable aleatoria, denotaremos con xα el percentil α de la distribución de X. Esto es P(X < xα ) = α.
Por ejemplo, si Z ∼ N(0, 1), z0,95 = 1, 645 dado que P(Z < 1, 645) = 0, 95.
Definición 1.2.3. Dada una función de cuantı́a o densidad fX (x) se le llama núcleo de fX a la
parte de la forma funcional en donde aparece la variable x. Esto es, g : R → R es el núcleo de la
distribución si fX (x) = c g(x) donde c una constante. c es la constante de normalización y puede
llegar a depender de los parámetros de la distribución. En muchas situaciones conocer el valor de
c es innecesario.
Ejemplo 1.2.2. Si X ∼ Gamma(α, β),
α
fX (x) =
β
xα−1 e−βx I[x>0] ⇒
Γ(α)
c =
βα
Γ(α)
g(x) = xα−1 e−βx I[x>0] .
Por lo cual, el núcleo de la distribución Gamma es g(x) = xα−1 e−βx I[x>0] .
Observación 1.2.1. Decimos que fX (x) es proporcional a su núcleo. Notación: fX (x) ∝ g(x).
Observación 1.2.2. En estas notas representaremos con c cualquier función que sea constante.
1.3.
1.3.1.
Transformaciones
Variables aleatorias discretas
Teorema 1.3.1. Sea (Ω, A, P ) un espacio de probabilidad, X una variable aleatoria discreta y
g : Rec(X) → D ⊆ R una transformación medible.
Entonces, Y = g(X) es también una variable aleatoria discreta con función de cuantı́a:
fY (y) =
X
fX (x) ∀ y ∈ Rec(Y )
x∈g −1 (y)
donde
g −1 (y) = {x ∈ Rec(X) : g(x) = y}.
2 - Resultados preliminares
Introducción a la Inferencia Estadı́stica
1.3.2.
Variables aleatorias absolutamente continuas
Teorema 1.3.2. Sea X una variable absolutamente continua y Y = g(X), con g medible, entonces:
Y = g(X) es una variable aleatoria
Z
FY (y) =
fX (x)dx
{g(x)≤y}
Teorema 1.3.3. Sea X una variable absolutamente continua y Y = g(X), con g medible y
estrictamente monótona, entonces:
FX (g −1 (y))
si g es creciente
FY (y) =
1 − FX (g −1 (y)) si g es decreciente
fY (y) = fX (g −1 (y))
∂g −1 (y)
∂y
Teorema 1.3.4. Sea X una variable absolutamente continua tal que Rec(X) ⊆ A y Y = g(X)
con g : A → D ⊆ R medible. Supongamos que existe una partición de Rec(X), denotada por
A1 , . . . , An donde la restricción de g en cada Ai , gi , es una función estrictamente monótona (creciente o decreciente) y su inversa gi−1 tiene derivada continua en todo el Rec(Y ) (salvo en un
conjunto finito o numerable de puntos). Entonces:
fY (y) =
n
X
i=1
∂gi−1 (y)
fX gi−1 (y)
∂y
∀y ∈ R.
Note que la cantidad de sumandos es variable. Por ejemplo, si existe g −1 (y) para toda i = 1, . . . , n,
la suma tendrá n sumandos. Si no existe g −1 (y) para ninguna i = 1, . . . , n, la suma tendrá 0.
Ejemplo 1.3.1. Sea X una v.a. con función de densidad dada por
1
2
fX (x) = √ e−x /2
2π
x∈R
Se quiere hallar la función de densidad de la v.a. Y = X 2 .
En primer lugar observemos que g no es monótona en todo el recorrido de X pero
si lo dividimos en R+ y R− obtenemos una partición en la que g es monótona en cada
√
√
tramo. Para R+ tenemos que g1−1 (y) = y y para R− tenemos que g1−1 (y) = − y,
ambas con derivada continua en sus respectivos dominios salvo en 0. Cómo a los efectos
de la integración no importa lo que ocurra con una función en un punto, se impone
fY (0) = 0. Entonces:

∂ √
∂ √
√
√


y + fX (− y) −
y
 fX ( y)
∂y
∂y
fY (y) =



0
y ∈ (0, +∞)
en otro caso
Resultados preliminares - 3
Introducción a la Inferencia Estadı́stica
⇔
⇔
1.3.3.

1 −y/2 1
1
1


√ + √ e−y/2 − √
 √ e
2 y
2 y
2π
2π
fY (y) =



0
y ∈ (0, +∞)
en otro caso

1 −y/2 1


√ y ∈ (0, +∞)
 √ e
1 1
y
2π
,
⇒ Y ∼ Gamma
fY (y) =

2 2


0
en otro caso
Vectores aleatorios
~ : Ω → Rn un vector aleatorio para (Ω, A, P ).
Teorema 1.3.5. Sea X
Sea g : Rn → Rm una transformación medible.
~ : Ω → Rm verifica:
Entonces el vector aleatorio Y~ = g ◦ X
~ .
1. Rec(Y~ ) = g Rec(X)
2. ∀B ∈ Bm
PY~ (B) = PX~ g −1 (B) .
3. ∀y ∈ Rm
FY~ (y) = PX~ g −1 ((−∞, y1 ] × . . . × (−∞, yn ]) .
~ : Ω → Rn un vector aleatorio discreto con función de cuantı́a f ~ .
Teorema 1.3.6. Sea X
X
Sea g : Rn → Rm una transformación medible.
~ : Ω → Rm es un vector aleatorio m-dimensional discreto, con función de
Entonces Y~ = g(X)
cuantı́a
X
fX~ (x),
∀y ∈ Rec(Y~ )
fY~ (y) =
x∈g −1 (y)
donde
g −1 (y) = {x ∈ Rn : g(x) = y}.
~ : Ω → Rn un vector aleatorio absolutamente continuo con función de
Teorema 1.3.7. Sea X
densidad fX~ .
~ : Ω → Rn .
Consideremos la aplicación medible g : Rn → Rn y el vector aleatorio Y~ = g ◦ X
~ en Y~ se puede especificar mediante las siguientes ecuaciones:
La transformación de X
y1 = g1 (x1 , x2 , . . . , xn )
y2 = g2 (x1 , x2 , . . . , xn )
..
.
yn = gn (x1 , x2 , . . . , xn )
Las funciones gi : Rn → R (i = 1, 2, . . . , n) son las componentes de g : Rn → Rn .
4 - Resultados preliminares
Introducción a la Inferencia Estadı́stica
Para poder calcular una expresión de la función de densidad fY~ en función de fX~ debemos suponer
ciertas propiedades en la transformación g:
Sea SX~ el conjunto de Rn en donde fX~ no se anula.
Supondremos que SX~ es un conjunto propio (de medida positiva) de Rn .
Sea SY~ = g(SX~ ). El conjunto SY~ es la imagen de SX~ por g.
Supondremos que g es una aplicación biyectiva entre SX~ y SY~ , es decir, a cada punto x ∈ SX~
le corresponde un y solo un punto y ∈ SY~ y viceversa.
En las condiciones anteriores existe la transformación inversa de g (que denotaremos h), que
transforma al conjunto SY~ en SX~ y que especificamos del siguiente modo:
x1 = h1 (y1 , y2 , . . . , yn )
x2 = h2 (y1 , y2 , . . . , yn )
..
.
xn = hn (y1 , y2 , . . . , yn )
Vamos a suponer que cada derivada parcial
∂hi
∂yj
i = 1, . . . , n;
j = 1, . . . , n
existe en todo punto y ∈ SY~ .
Bajo todas estas condiciones se puede construir el llamado determinante jacobiano de la transformación inversa que viene dado por
∂h1
∂y1
J=
∂h1
∂y2
...
∂h1
∂yn
∂h2 ∂h2
∂h2
...
∂y1 ∂y2
∂yn
.....................
∂hn
∂hn ∂hn
...
∂y1 ∂y2
∂yn
∀y ∈ SY~ .
Entonces, ∀y ∈ Rn
fY~ (y) =

 fX~ h1 (y), h2 (y), . . . , hn (y) |J| si y ∈ SY~

si y 6∈ SY~
0
Observación 1.3.1. Alternativamente, J se puede calcular como:
∂g1
∂x1
J=
∂g1
∂g1
...
∂x2
∂xn
∂g2 ∂g2
∂g2
...
∂x1 ∂x2
∂xn
....................
∂gn ∂gn
∂gn
...
∂x1 ∂x2
∂xn
−1
∀x ∈ SX~ .
Resultados preliminares - 5
Introducción a la Inferencia Estadı́stica
1.4.
Familias de distribuciones
Una manera de simplificar cálculos y verificación de si una distribución cumple o no ciertas propiedades es tratar de encontrar un conjunto de distribuciones de probabilidad cuyos miembros
compartan las mismas propiedades, están construidos de acuerdo a los mismos principios y tienen
la misma estructura funcional. Diremos que este conjunto es una famila de distribuciones. La
estructura común suele depender de alguna cantidad o vector real θ que es el parámetro de la
familia. Una definición más formal es la siguiente.
Definición 1.4.1. Una familia de distribuciones es un conjunto de funciones de distribución
definidas sobre el mismo espacio probabilı́stico:
F = {FX (·|θ) : θ ∈ Θ ⊂ Rk }
Donde Θ es el conjunto de todos los valores posibles para θ. A este conjunto lo llamaremos el
espacio paramétrico.
Ejemplo 1.4.1. Algunas familias de distribuciones son:
Familia Poisson(θ), Θ = R+ .
Familia Binomial(n, p), θ = (n, p), Θ = N × (0, 1).
Familia Normal(µ, σ 2 ), θ = (µ, σ 2 ), Θ = R × R+ .
Existen ciertas familias de distribuciones relacionadas con la normal que son de gran importancia para nuestro curso. Estas son la distribución χ2n , la tn y la Fn,m que serán presentadas a
continuación.
1.4.1.
Distribución χ2n
Definición 1.4.2. Se dice que una variable aleatoria X se distribuye
chi cuadrado con n grados
n
1
,
, con n ∈ Z+ .
de libertad, χ2n , si su distribución es la misma que una Gamma
2 2
Al ser la distribución χ2n un caso particular de la distribución Gamma, todas sus propiedades se
derivan de esta última. Por ejemplo, si X ∼ χ2n
n2 n2
1/2
1
1
E(X) = n, Var(X) = 2n, MX (t) =
=
t< .
1/2 − t
1 − 2t
2
Observación 1.4.1. Por el ejemplo 1.3.1, si X ∼ N(0,1), entonces X 2 ∼ χ21 .
6 - Resultados preliminares
Introducción a la Inferencia Estadı́stica
Observación 1.4.2. Si X1 ∼ χ2n y X2 ∼ χ2m , estamos interesados en la distribución de la variable
aleatoria Y = X1 + X2
1. Si X1 y X2 son independientes, entonces Y ∼ χ2n+m .
MX1 +X2 (t) = MX1 (t)MX2 (t) =
1/2
1/2 − t
n2 1/2
1/2 − t
m2
=
1/2
1/2 − t
n+m
2
si t < 1/2.
Esto se generaliza fácilmente para cualquier número de sumandos. Sean X1 , . . . , Xn varian
X
bles aleatorias independientes con Xi ∼ χ2mi , i = 1, . . . , n. Entonces,
Xi ∼ χ2m , con
m =
n
X
i=1
mi . Usando este resultado y la observación 1.4.1, tenemos que si X1 , . . . , Xn son
i=1
variables aleatorias independientes y con distribución común N(0,1), entonces
n
X
Xi2 ∼ χ2n .
(1.1)
i=1
2. ¿Qué pasa cuando los sumandos no son independientes? Para ver esto, suponga que tenemos
dos variables aleatorias U y V tales que
U
0
1 ρ
∼N
,
− 1 < ρ < 1.
ρ 1
V
0
Defina, X1 = U 2 y X2 = V 2 . Entonces, X1 ∼ χ21 y X2 ∼ χ21 . Excepto en el caso en que
ρ = 0, X1 y X2 no son independientes. Sea Y = X1 + X2 . Observe que en términos de U y
1
(U + V )2 + (U − V )2 . Observe además que
V, Y =
2
U +V
U −V
U
0
1
1
2(1 + ρ)
0
=
∼N
,
.
1 −1
0
2(1 − ρ)
V
0
Lo que implica que U + V y U − V son independientes.
La función generatriz de momentos de Y es
1
2
2
(U + V ) + (U − V ) t
MY (t) = E exp
2
1
1
2
2
= E exp
(U + V ) t
E exp
(U − V ) t
2
2
21 21
1
1
=
1 − 2(1 + ρ)t
1 − 2(1 − ρ)t
12
1
=
(1 − 2t)2 − 4ρ2 t2
Resultados preliminares - 7
Introducción a la Inferencia Estadı́stica
Dado que,
E exp
t
(U + V )2
2

= E exp

 2(1 + ρ)t

2
!2 

U +V

p
2(1 + ρ) 
12
1/2
=
1/2 − (1 + ρ)t
12
1
=
1 − 2(1 + ρ)t
(1.2)
Donde (1.2) proviene de que
U +V
∼ N(0, 1) =⇒ W 2 =
W =p
2(1 + ρ)
U +V
p
2(1 + ρ)
!2
∼ χ21
y

E exp

 2(1 + ρ)t

2
!2 

U +V
 = E exp (1 + ρ)tW 2 = MW 2 ((1 + ρ)t) .
p
2(1 + ρ) 
12
1
1
2
De manera similar se demuestra que E exp
(U − V ) t
=
.
2
1 − 2(1 − ρ)t
Ahora note que si tenemos una variable aleatoria Q ∼ χ22 , su función generatriz de momentos
es MQ (t) = (1 − 2t)−1 . Por lo tanto de comparar MQ (t) y MY (t) llegamos a la conclusión de
que
Y ∼ χ22 ⇔ ρ = 0.
Esto es, solo si X1 y X2 son independientes.
1.4.2.
Distribución tn
Definición 1.4.3. Sea U ∼ N(0,1) y V ∼ χ2n . Además, U y V son independientes. Decimos que
una variable aleatoria X se distribuye t de Student con n grados de libertad, si tiene la misma
distribución que
U
p
.
V /n
Teorema 1.4.1. Si X ∼ tn , su función de densidad es
Γ n+1
1
2
fX (x) = √
x∈R
n+1
n
nπΓ 2 1 + x2 2
n
Demostración. (bosquejo)
Dado que U y V son independientes:
1
1
2
fU,V (u, v) = fU (u)fV (v) = √ e−u /2 n/2
2 Γ
2π
8 - Resultados preliminares
n
2
v n/2−1 e−v/2 .
(1.3)
Introducción a la Inferencia Estadı́stica
Aplique la siguiente transformación monótona:
U
X=p
V /n
Y =V
El cambio inverso es:
U =X
p
Y /n
V =Y
y el determinante del jacobiano es
|J| =
Con lo que se obtiene
r
1
y 1
1 2y
√ exp − x
fX,Y (x, y) =
n/2
n 2π
2 n 2 Γ
n
2
p
Y /n.
y n/2−1 exp(−y/2) (x, y) ∈ (−∞, ∞) × (0, ∞).
Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función
gamma) para obtener el resultado deseado.
Observación 1.4.3. Algunas de las propiedades de esta distribución son:
U
1. Si U ∼ N(0,1), entonces −U ∼ N(0,1). Con lo cual, − p
∼ tn . Lo que muestra que
V /n
fX (x) es simétrica alrededor del 0.
2. Los momentos de X se pueden calcular fácilmente usando la independencia de U y V
E(T k ) = nk/2 E(U k V −k/2 ) = nk/2 E(U k )E(V −k/2 ).
Por lo tanto, E(X k ) existirá siempre y cuando exista E(V −k/2 ). Note que, E(U k ) existe para
todo k.
Dado que la distribución χ2 es un caso particular de la distribución Gamma, calcularemos
E(W k ) donde W ∼ Gamma(α, β).
Z ∞
(β)α α−1 −βw
r
w e
dw
E(W ) =
wr
Γ(α)
0
Z
(β)α ∞ α+r−1 −βw
=
w
e
dw
Γ(α) 0
(β)α Γ(α + r)
=
si α + r > 0
Γ(α) (β)α+r
Γ(α + r)
= β −r
(1.4)
Γ(α)
Dado que V ∼ χ2n = Gamma(n/2,1/2), si aplicamos (1.4) cuando n/2 + r > 0, tenemos que
E(V r ) = 2r
Γ(n/2 + r)
Γ(n/2)
(1.5)
Para evaluar E(V −k/2 ), usamos (1.5) con r = −k/2. Primero verificamos bajo que condiciones
se cumple que n/2 − k/2 > 0.
Resultados preliminares - 9
Introducción a la Inferencia Estadı́stica
a) Para k = 1 y n = 1, 6 ∃E(V −1/2 ) ⇒ 6 ∃E(X).
b) Para k = 1 y n ≥ 2, ∃E(V −1/2 ) ⇒ E(X) = 0.
c) Para k = 2 y n = 2, 6 ∃E(V −1 ) ⇒ 6 ∃E(X 2 ) ⇒ 6 ∃Var(X).
d ) Para k = 2 y n > 2, ∃E(V −1 ) ⇒ ∃E(X 2 ) ⇒ ∃Var(X).
Observación 1.4.4. Si T ∼ tn ,
si n = 1, fX (X) = [π(1 + x2 )]−1 , X ∼ Cauchy(0,1).
si n → ∞, X ∼ N(0,1). Para ver esto, note que la densidad definida en (1.3) es proporcional
al producto
n − 12 − 12
x2
x2
1
1+
1+
fX (x) ∝
n+1 =
2
n
n
1+ x 2
n
2
Cuando n → ∞, el primer término converge a e−x /2 y el segundo
a 1. Para
√ converge
−1
preservar la integrabilidad a 1, las constantes deben de converger a ( 2π) por lo cual la
distribución en el lı́mite es una N(0,1). La aproximación es buena si n ≥ 30. Formalizaremos
esto más adelante en el capı́tulo 7.
1.4.3.
Distribución Fn,m
Definición 1.4.4. Sea U ∼ χ2n y V ∼ χ2m . Además, U y V son independientes. Decimos que una
variable aleatoria X se distribuye F de Fisher-Snedecor con n grados de libertad en el numerador
y m grados de libertad en el denominador, si tiene la misma distribución que
U/n
.
V /m
Se denota X ∼ Fn,m .
Teorema 1.4.2. Si X ∼ Fn,m , su función de densidad está dada por
n
n−2
Γ n+m
x n
n 2
2
n, m ∈ {1, 2, . . .}
fX (x) =
n+m I[x>0]
m
Γ n2 Γ m2
1+ nx 2
m
Demostración. (bosquejo)
Dado que U y V son independientes:
fU,V (u, v) = fU (u)fV (v) =
1
2m/2 Γ
m
2
um/2−1 e−u/2
1
2n/2 Γ
Aplique la siguiente transformación monótona:
X=
10 - Resultados preliminares
nU
mV
Y =V
n
2
v n/2−1 e−v/2 .
Introducción a la Inferencia Estadı́stica
El cambio inverso es:
m
XY
n
con lo cual el determinante del jacobiano es
U=
V = Y,
|J| =
m
Y.
n
Entonces
m
xy + y
2−(m+n)/2 m m/2 m/2−1 (m+n)/2−1
n
x
y
exp −
fX,Y (x, y) =
n
2
Γ m2 Γ n2
(x, y) ∈ (0, ∞) × (0, ∞).
Integre fX,Y (x, y) con respecto a y (la integral se resuelve utilizando propiedades de la función
gamma) para obtener el resultado deseado.
Observación 1.4.5. Algunas propiedades de esta distribución son
1. Si X ∼ Fn,m , entonces
1
∼ Fm,n .
X
2. Si P(X < Fn,m;1−α ) = 1 − α, entonces
1
1
1
>
P
= 1 − α ⇒ Fm,n;α =
.
X
Fn,m;1−α
Fn,m;1−α
3. Si X ∼ tn , entonces X 2 ∼ F1,n .
m
E(U )E(V −1 ). Por lo
n
tanto, E(X) existe siempre que exista E(V −1 ). Utilizando (1.5) tenemos que
4. De la definición de la variable aleatoria X se desprende que E(X) =
E(X) =
m
si m > 2.
m−2
Observación 1.4.6. En la definición de la distribución F es esencial la independencia entre el
numerador y el denominador. Para ver esto, suponga que X1 ∼ χ2n y X2 ∼ χ2m son dos variables
aleatorias independientes. Defina Y1 = X1 y Y2 = X1 + X2 . Es fácil ver que P(Y1 < Y2 ) = 1. Por
lo cual, Y1 y Y2 no son independientes. Además, Y1 ∼ χ2n y Y2 ∼ χ2n+m . Entonces,
0≤
Y1 /n
X1 /n
m + n X1
m+n
=
=
≤
.
Y2 /(n + m)
(X1 + X2 )/(n + m)
n X 1 + X2
n
Lo que implica que el recorrido de (Y1 /n)/(Y2 /(n + m)) es el intervalo (0, (m + n)/n) y no (0, ∞),
que es el recorrido de una distribución F. Por lo tanto, (Y1 /n)/(Y2 /(n+m)) no se puede distribuir F.
Observación 1.4.7. Dada la relación t2n = F1,n , se desprende que enp
la definición de la distribución
t la independencia entre el numerador (N(0,1)) y el denominador ( χ2n /n) es crucial.
Resultados preliminares - 11
Introducción a la Inferencia Estadı́stica
Ejemplo 1.4.2. ¿Qué pasa con las restas de variables aleatorias que tienen distribución
χ2 ? Suponga que X1 , X2 , X3 , X4 son variables aleatorias iid con distribución común
N(0,1). Defina,
U1 = X12 + X22 + X32 ,
U2 = X32 ,
U3 = X32 + X42 .
Entonces, U1 ∼ χ23 , U2 ∼ χ21 y U3 ∼ χ22 . Por lo tanto,
U1 − U2 = X12 + X22 ∼ χ22 .
U1 − U3 = X12 + X22 − X42 6∼ χ2 , dado que el Rec(U1 − U3 ) = R. Para ver esto,
calcule
!
2
X12 +X22
2
+
X
1
X
2
1
2
<1 =P
<
P(X12 + X22 − X42 < 0) = P(X12 + X22 < X42 ) = P
X42
X42
2
Z 1
2
1
= P (F2,1 < 1/2) =
du = 0, 29289.
3/2
0 (1 + 2u)
Referencia Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Olive, D. (2010) Statistial theory and inference. Springer.
12 - Resultados preliminares
CAPÍTULO 2
MUESTREO
2.1.
Introducción
Los avances en la ciencia están usualmente asociados con experimentación. El investigador realiza
un experimento y obtiene datos a partir de él. En base a estos datos se elaboran determinadas
conclusiones, las cuales usualmente van más allá del experimento en particular. Esto es, el investigador generaliza lo observado en un experimento en particular a la clase de todos los experimentos
similares. Esta forma de extensión de lo particular hacia lo general se conoce como inferencia inductiva. En el proceso de inferencia inductiva está siempre presente la incertidumbre dado que
no podemos hacer generalizaciones de manera absoluta. Las argumentaciones inductivas no llevan
necesariamente a conclusiones verdaderas, no se da el caso de que si las premisas de una inferencia
inductiva son verdaderas entonces la conclusión deba de ser verdadera. Es posible que la conclusión
de una argumentación inductiva sea falsa y que sus premisas sean verdaderas sin que ello suponga
una contradición.
Si el experimento se realiza de acuerdo a determinados principios, la incertidumbre puede ser
medida. Uno de los objetivos de la Estadı́stica es proporcionar técnicas que permitan realizar
el proceso de inferencia inductiva conjuntamente con una medida del grado de incertidumbre de
esas inferencias. La incertidumbre será medida en términos de probabilidad. El objetivo de este
capı́tulo es introducir el concepto de muestreo y varios conceptos teóricos relacionados.
Para nuestro curso, un problema de inferencia estadı́stica es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una determinada distribución de probabilidad
desconocida y en el que se debe realizar algún tipo de inferencia acerca de esta. Analizando los
datos se intenta obtener información acerca de la distribución que los generó, para realizar inferencias acerca de ciertas propiedades de esta y dadas diferentes distribuciones posibles, determinar
la verosimilitud relativa que cada una tiene de ser la correcta.
Un caso particular, que es el que abordaremos principalmente en el curso, es cuando la distribución
de probabilidad que generó los datos es completamente conocida excepto por los valores de uno o
más parámetros de dicha distribución. Tendremos entonces, una población cuyo comportamiento
13
Introducción a la Inferencia Estadı́stica
en cierta caracterı́stica de interés está determinado por una determinada variable aleatoria cuya
distribución de probabilidad está caracterizada por un parámetro θ, real o vector, cuyo valor es
parcialmente o totalmente desconocido. Del parámetro θ, conocemos sin ambigüedad cuál es el
conjunto de valores que teóricamente puede llegar a tomar.
Definición 2.1.1. Dada una distribución de probabilidad caracterizada por un parámetro θ.
Al conjunto de valores que el parámetro θ puede tomar se le llama el espacio paramétrico. Lo
denotaremos con Θ.
Dada una variable aleatoria X asociada al fenómeno de interés que deseamos estudiar, si su
distribución depende de un parámetro θ, lo explicitaremos usando la notación FX (x|θ) o fX (x|θ).
Si el valor de una determinada probabilidad es una función de θ la denotaremos Pθ .
2.2.
Muestreo
Para hacer inferencias diseñaremos un experimento que consiste en seleccionar elementos de la
población en estudio y medir sobre ellos la variable aleatoria de interés. En base a lo que observamos haremos nuestras inferencias. Asumimos que cada elemento de la población tiene algún valor
numérico asociado a él y que la distribución de probabilidad de estos valores numéricos está dada
por una función de distribución F . Existen diferentes esquemas para seleccionar los elementos
que vamos a observar de la población. A este subconjunto de elementos le llamaremos muestra.
En un principio nos enfocaremos en seleccionar elementos de la población con reposición. Este
esquema de muestreo garantiza que las observaciones son independientes y que las extracciones
están hechas en idénticas condiciones. Dado que nunca agotamos la población, el tamaño de esta
se puede considerar como si fuera infinito.
Definición 2.2.1. Las variables aleatorias X1 , . . . , Xn son llamadas una muestra aleatoria (MA)
de tamaño n de una población con función de distribución FX si son mutualmente independientes
y la función de distribución marginal de cada Xi es la misma función FX .
Observación 2.2.1. A las variables aleatorias que componen una MA también se les llaman
independientes e idénticamente distribuidas, lo cual se denota iid.
Observación 2.2.2. Alternativamente, si X es una variable aleatoria tal que X ∼ FX , se dice
que X1 , . . . , Xn es una MA de la variable aleatoria X. También se utiliza decir que es una MA de
fX donde fX es la densidad o cuantı́a de X.
A la variable aleatoria Xi se le llama la i-ésima observación de la muestra. Es la representación
del valor que va a asumir la variable aleatoria X al medirse sobre el i-ésimo elemento muestreado.
Después que la muestra es observada, los valores actuales de X1 , . . . , Xn son conocidos y los
~ = (X1 , . . . , Xn )
denotamos con x1 , . . . , xn respectivamente. Para abreviar la notación, definimos X
y ~x = (x1 , . . . , xn ).
Dada la independencia y la idéntica distribución de las observaciones, se tiene que su distribución
conjunta está dada por
fX~ (~x) = fX1 ,...,Xn (x1 , . . . , xn ) =
n
Y
i=1
14 - Muestreo
fX (xi ).
Introducción a la Inferencia Estadı́stica
A esta distribución conjunta se le llama la distribución de la muestra. Al soporte de esta distribución conjunta se le llama el espacio muestral y se denota por X . Esto es, X es el conjunto de
todas las muestras posibles.
Observación 2.2.3. Cuando X es una variable discreta, fX~ (~x) = P(X1 = x1 , . . . , Xn = xn ). Por
lo cual, mide la probabilidad con que se observa cada una de las posibles muestras.
Ejemplo 2.2.1. Suponga que X es una variable aleatoria que toma los valores 1, 2, 3
y 4 en una determinada población. Se desea obtener una MA de tamaño 2. Tendremos
dos observaciones X1 y X2 . Si listamos todos los posibles valores que puede tomar la
dupla (X1 , X2 ) tendremos el conjunto de las 16 muestras posibles. Si lo enumeramos
por extensión tenemos que
X = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4),
(3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)}
y si lo hacemos por comprensión:
X = {(x1 , x2 )|xi ∈ {1, 2, 3, 4}, i = 1, 2}
Si además asumimos que X se distribuye tal que P(X = 1) = 0, 2, P(X = 2) = 0, 25,
P(X = 3) = 0, 15 y P(X = 4) = 0, 4. Tendremos, por ejemplo, que la probabilidad de
observar la muestra (1,1) es
fX1 ,X2 (1, 1) = P(X1 = 1, X2 = 1)
= P(X1 = 1)P(X2 = 1)
= P(X = 1)P(X = 1)
= 0, 22
= 0, 04.
(independencia)
(idéntica distribución)
Siguiendo este planteo, la distribución de la muestra es
x2
fX1 ,X2 (x1 , x2 )
1
2
x1
3
4
1
0,04
0,05
0,03
0,08
2
0,05
0,06
0,04
0,10
3
0,03
0,04
0,02
0,06
4
0,08
0,10
0,06
0,16
Ejemplo 2.2.2. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ),
fX1 ,...,Xn (x1 , . . . , xn |θ) =
n
Y
n
P
xi
1−xi
θ (1 − θ)
xi
n−
I[xi ∈{0,1}] = θi=1 (1 − θ)
n
P
i=1
i=1
xi
n
Y
I[xi ∈{0,1}]
i=1
X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n}
Muestreo - 15
Introducción a la Inferencia Estadı́stica
Lo que estamos midiendo es la probabilidad de haber observado la muestra en el orden
en que los valores x1 , . . . , xn aparecen. O sea, la probabilidad de una secuencia de ceros
y unos en el orden
particular en que fueron observados. Note que no aparece el número
n
combinatorio
dado que no estamos midiendo el número de éxitos en las n pruebas.
x
También observe que la expresión
n
Y
n
I[xi ∈{0,1}] es equivalente a I P
i=1
xi ∈{0,1,...,n}
.
i=1
Ejemplo 2.2.3. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), de E(X)=θ
fX1 ,...,Xn (x1 , . . . , xn |θ) =
n
Y
1
i=1
Observe que
n
Y
θ
xi
e− θ I[xi >0] =
1 −
e
θn
Pn
i=1 xi
θ
I[mı́n xi >0] ,
i
I[xi >0] será igual a 1, siempre que todas las observaciones sean mayores
i=1
que 0. Esto es equivalente a pedir que la menor de las observaciones sea mayor que 0.
n
Y
n
Entonces,
I[xi >0] ≡ I[mı́n xi >0] . El espacio muestral es X = R+ .
i
i=1
2.3.
Estadı́sticos y su distribución en el muestreo
Dada una muestra, no necesariamente una MA, se pueden definir funciones de las observaciones.
Estas jugarán un papel importante en el proceso de inferencia. En particular, estaremos interesados principalmente en las que denominaremos estadı́sticas.
Definición 2.3.1. Una estadı́stica o estadı́stico es una función de las observaciones que no contiene
ningúna cantidad desconocida.
Ejemplo 2.3.1. Si X1 , . . . , Xn es una muestra de X ∼ fX , entonces ejemplos de
estadı́sticos son:
n
1X
X̄n =
Xi ,
n i=1
n
Sn2
1X
=
(Xi − X̄n )2 ,
n i=1
X(1) = mı́n(X1 , . . . , Xn ).
En general, todas medidas de resumen del conjunto de observaciones son ejemplos de
estadı́sticos.
~
Observación 2.3.1. Cuando hablemos de un estadı́stico genérico, lo representaremos con T (X).
Ejemplo 2.3.2. Si X1 , . . . , Xn es una muestra de X ∼ N(µ, 1), la función
n
1X
(Xi − µ)2
n i=1
16 - Muestreo
Introducción a la Inferencia Estadı́stica
será un estadı́stico solo si el valor del parámetro µ es conocido.
Definición 2.3.2. Sea X1 , . . . , Xn una muestra de X ∼ fX . El k-ésimo momento muestral ordinario, denotado por Mk , se define como
n
Mk =
1X k
X .
n i=1 i
En particular, si k = 1 lo llamaremos la media muestral y estará representado por X̄n .
Definición 2.3.3. El k-ésimo momento muestral centrado, denotado por Mk0 , se define como
n
Mk0
1X
(Xi − X̄n )k .
=
n i=1
En particular, M10 = 0 y si k = 2 lo llamaremos la varianza muestral, representada por S 2 .
Observación 2.3.2. Los momentos muestrales ordinarios o centrados son todos estadı́sticos.
2.3.1.
Distribución en el muestreo
Los estadı́sticos son funciones de las observaciones, las cuales son variables aleatorias. Por lo
tanto, los estadı́sticos son a su vez variables aleatorias y su distribución dependerá del esquema de
muestreo y de la distribución en particular de la variable aleatoria X muestreada. Dadas estas dos
n
X
~
componentes, se puede hallar la distribución en el muestreo de un estadı́stico. Si T (X) =
Xi , su
i=1
distribución dependerá de la distribución de X. Por ejemplo, si tenemos una MA de X ∼ N(θ, σ 2 ),
~ ∼ N(nθ, nσ 2 ). Si en cambio, X ∼ Bernoulli(θ), entonces T (X)
~ ∼ Binomial(n, θ).
T (X)
Cuando el esquema de muestreo a utilizar es una MA, se garantiza la independencia y la idéntica
distribución de las observaciones, lo cual permite muchas veces poder calcular resultados más generales sobre caracterı́sticas de la distribución en el muestreo de determinados estadı́sticos. Estos
resultados serán válidos sin importar si la variable aleatoria muestreada es discreta o continua.
Dado que los momentos de una variable aleatoria no determinan su distribución, no podremos de
estos resultados inferir la distribución de probabilidad exacta de un estadı́stico.
Teorema 2.3.1. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea µk = E(X k ) el k-ésimo momento
1
ordinario de X. Si µk existe, entonces E(Mk ) = µk . Si µ2k existe, entonces Var(Mk ) = (µ2k − µ2k ).
n
Demostración.
n
1X k
X
n i=1 i
E(Mk ) = E
n
Var(Mk ) = Var
1X k
X
n i=1 i
!
!
n
n
1X
1X
=
E Xik =
µk = µk .
n i=1
n i=1
n
Var Xik
1 X
(µ2k − µ2k )
k
= 2
Var Xi =
=
.
n i=1
n
n
Muestreo - 17
Introducción a la Inferencia Estadı́stica
Corolario 2.3.1. Si, k = 1, M1 es X̄n la media muestral y
E(X̄n ) = E(X) y Var(X̄n ) =
Var(X)
.
n
Teorema 2.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX . Sea Sn2 = M20 la varianza muestral. Si µ4
existe,
E(Sn2 )
n−1
(n − 1)2
=
Var(X) y Var(Sn2 ) =
n
n3
n−3
2 2
µ4 −
(µ2 − µ1 )
n−1
Demostración. Solo probaremos la primera parte. Por claridad, representaremos E(X) = µ y
Var(X) = σ 2 .
Primero note que
n
X
2
(Xi − µ) =
i=1
n
X
(Xi − X̄n + X̄n − µ)2
i=1
=
=
n
X
i=1
n
X
2
(Xi − X̄n ) +
n
X
2
(X̄n − µ) + 2
n
X
i=1
(Xi − X̄n )(X̄n − µ)
i=1
(Xi − X̄n )2 + n(X̄n − µ)2
(2.1)
i=1
Dado que
2
n
X
(Xi − X̄n )(X̄n − µ) = 2(X̄n − µ)
i=1
n
X
(Xi − X̄n ) = 2(X̄n − µ)nM10 = 0.
i=1
De donde,
n
E(Sn2 ) = E
1X
(Xi − X̄n )2
n i=1
!
n
X
1
= E
(Xi − µ)2 − n(X̄n − µ)2
n
i=1
1
=
n
1
=
n
n
X
i=1
n
X
!
!
E(Xi − µ)2 − nE(X̄n − µ)2
!
σ 2 − nVar(X̄n )
i=1
1
σ2
n−1 2
2
=
nσ − n
=
σ .
n
n
n
n
S 2 , entonces
n−1 n
1
n−3
02
02
2 2
E(Sn ) = Var(X) y Var(Sn ) =
µ4 −
(µ2 − µ1 ) .
n
n−1
0
Corolario 2.3.2. Si definimos Sn2 =
18 - Muestreo
Introducción a la Inferencia Estadı́stica
0
A Sn2 se le llama varianza muestral corregida. Corregida en el sentido que a la varianza muestral se
la ha multiplicado por una constante con el fin de que su valor esperado coincida con la varianza
de la variable aleatoria X muestreada.
Note que los anteriores resultados son válidos cualquiera sea la distribución en particular de X
siempre que trabajemos con una MA de esta variable aleatoria. Solo se requiere que existan determinados momentos poblacionales para que se cumplan. Si se tiene mayor información acerca de
cuál es la distribución de X, se puede determinar de manera exacta la distribución en particular
de los momentos muestrales o de cualquier otro estadı́stico. Para hallar las distribuciones podemos
utilizar cualquiera de las técnicas aprendidas en un curso de probabilidad.
Teorema 2.3.3. Suponga que X1 , . . . , Xn es una MA de X. Suponga además que existe MX (t),
la función generatriz de momentos de X. Entonces,
n
t
.
MX̄n (t) = MX
n
n
X
Demostración. Note primero que si Y =
Xi ,
i=1
tY
MY (t) = E(e ) = E(e
t
Pn
i=1
Xi
)=
n
Y
tXi
E(e
)=
i=1
Por lo tanto, dado que X̄n =
n
Y
MX (t) = [MX (t)]n .
i=1
Y
n
t Yn
MX̄n (t) = E e
=E e
t
Y
n
n
t
t
.
= MX
= MY
n
n
Ejemplo 2.3.3. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). Entonces
MX (t) =
Con lo cual
MX̄n (t) =
β
β−
β
β−t
α n
t
n
α
si t < β.
=
nβ
nβ − t
nα
si t < nβ.
En consecuencia, X̄n ∼ Gamma(nα, nβ). Note también que
n
X
Xi ∼ Gamma(nα, β).
i=1
Muestreo - 19
Introducción a la Inferencia Estadı́stica
Ejemplo 2.3.4. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Entonces, sabemos que
n
X
Y =
Xi ∼ Binomial(n, θ). Con lo cual,
i=1
P(X̄n = x) = P
Y
=x
n
= P(Y = nx) =
n nx
1 2
n−nx
θ (1 − θ)
x ∈ 0, , , . . . , 1 .
nx
n n
Note que si bien la cuantı́a de X̄n es igual a la cuantı́a de una distribución binomial, su
recorrido no coincide con el recorrido de una variable aleatoria con esta distribución.
Por lo cual, X̄n no se distribuye Binomial.
Ejemplo 2.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces,
t2 2
MX (t) = exp µt + σ . t ∈ R
2
Por lo tanto,
t
t2 2
MX̄n (t) = exp µ + 2 σ
n 2n
n
t2 σ 2
= exp µt +
2 n
Esto es, X̄n ∼ N(µ, σ 2 /n).
2.4.
.
Muestreo de poblaciones normales
En el caso de tener una MA de una distribución normal, existen propiedades que son exclusivas
de esta distribución. Por ejemplo, la enunciada en el siguiente teorema.
Teorema 2.4.1. X1 , . . . , Xn es una MA de X ∼ N(µ, σ 2 ) si y solo si X̄n y Sn2 son independientes.
Demostración. Solo se demostrará la necesidad (distribución normal implica independencia de X̄n
y Sn2 ).
Recordando el resultado:
2
Sean X ∼ N(µX , σX
) y Y ∼ N(µY , σY2 ). Entonces, Cov(X, Y ) = 0 si y solo si X y Y son
independientes.
Consideramos la covarianza entre X̄n y la variable aleatoria Y1 = X1 − X̄n ∼ N(0, σ 2 (1 − 1/n)),
Cov(X̄n , X1 − X̄n ) = Cov(X̄n , X1 ) − Cov(X̄n , X̄n ) =
1
σ2 σ2
Cov(X1 , X1 ) − Var(X̄n ) =
−
= 0.
n
n
n
Este resultado se deriva de que,
n
Cov(X̄n , X1 ) = Cov
20 - Muestreo
1X
Xi , X1
n i=1
!
n
1X
1
Var(X1 )
=
Cov(Xi , X1 ) = Cov(X1 , X1 ) =
,
n i=1
n
n
Introducción a la Inferencia Estadı́stica
dado que Cov(Xi , X1 ) = 0, i = 2, . . . , n.
Por lo cual, X̄n y Y1 son independientes, lo que implica que X̄n y Y12 son independientes. De
manera similar se puede probar que X̄n y Yi2 , i = 2, . . . , n, son independientes. Por lo cual, X̄n es
independiente de cualquier función de Y12 , . . . , Yn2 . Lo que implica el resultado buscado, dado que
n
1X 2
2
Sn =
Y .
n i=1 i
Proposición 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Entonces,
nSn2
∼ χ2n−1 .
σ2
Demostración. Usando la descomposición hallada en 2.1 y dividiendo cada sumando entre σ 2 ,
tenemos que
n
X
nSn2 n(X̄n − µ)2
(Xi − µ)2
=
+
2
2
σ
σ
σ2
i=1
2
n X
Xi − µ
nS 2
n(X̄n − µ)2
Si definimos, W =
, V = 2n y U =
. Tenemos que, por la ecuación
σ
σ
σ2
i=1
1.1, W ∼ χ2n . Por la observación 1.4.1, U ∼ χ21 . Además, por el teorema 2.4.1, V y U son
independientes. Por lo tanto,
MW (t) = MV +U (t) = MV (t)MU (t) ⇒
⇒ para t < 1/2, MV (t) = 1/2
1/2−t
1/2
1/2−t
1/2
1/2 − t
n2
= MV (t)
n2
12 =
1/2
1/2 − t
1/2
1/2 − t
n−1
2
⇒ V =
21
si t < 1/2.
nSn2
∼ χ2n−1 .
σ2
Ejemplo 2.4.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). Por el ejemplo 2.3.5
√
n(X̄n − µ)
2
X̄n ∼ N(µ, σ /n) ⇒
∼ N(0, 1).
σ
Además, (a) nSn2 /σ 2 ∼ χ2n−1 ; (b) X̄n y Sn2 son independientes por el teorema 2.4.1. Con
lo cual,
√
n(X̄n − µ)
√
n − 1(X̄n − µ)
σ
∼ tn−1 .
T =r
=
2
S
nSn
/(n − 1)
σ2
0
Si en lugar de Sn2 se utiliza Sn2 , el resultado es
√
n(X̄n − µ)
∼ tn−1 .
Sn0
Muestreo - 21
Introducción a la Inferencia Estadı́stica
Ejemplo 2.4.2. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σ 2 ). Sea Y1 , . . . , Ym una MA
de Y ∼ N(µY , σ 2 ). X y Y independientes. Se definen, de la manera usual, las medias
muestrales
n
n
1 X
1X
Xi ,
Ȳm =
Yi ,
X̄n =
n i=1
m i=1
y las varianzas muestrales corregidas (el subı́ndice indica a qué variable está asociada
y no el tamaño de la muestra como hemos venido haciendo)
n
0
SX2 =
m
1 X
(Xi − X̄n )2 ,
n − 1 i=1
0
SY2 =
1 X
(Yi − Ȳm )2 .
m − 1 i=1
Defina adicionalmente,
0
0
(n − 1)SX2 + (m − 1)SY2
Sp =
.
n+m−2
Entonces, por la observación 1.4.2 tenemos que
02
0
0
0
0
(n − 1)SX2
(m − 1)SY2
(n − 1)SX2 + (m − 1)SY2
2
2
∼
χ
,
∼
χ
⇒
∼ χ2n+m−2
n−1
m−1
σ2
σ2
σ2
y
X̄n ∼ N(µX , σ 2 /n), Ȳm ∼ N(µY , σ 2 /m) ⇒ X̄n − Ȳm ∼ N(µX − µY , σ 2 /n + σ 2 /m).
Por lo cual,
X̄n − Ȳm − (µX − µY )
q
∼ tn+m−2 .
Sp0 n1 + m1
2
Ejemplo 2.4.3. Sea X1 , . . . , Xn una MA de X ∼ N(µX , σX
). Sea Y1 , . . . , Ym una MA
2
de Y ∼ N(µY , σY ). X y Y independientes. Entonces,
0
0
(m − 1)SY2
(n − 1)SX2
2
∼
χ
,
W
=
∼ χ2m−1 ,
W1 =
2
n−1
2
σX
σY2
W1 y W2 son independientes. Por lo tanto,
0
W1 /(n − 1)
S 2 σY2
F =
= X
∼ Fn−1,m−1 .
0
2
W2 /(m − 1)
SY2 σX
2
Bajo el supuesto de que σY2 = σX
, nos queda que
0
0
SX2 σY2
SX2
F = 0 2 2 = 0 2 ∼ Fn−1,m−1 .
SY σX
SY
22 - Muestreo
Introducción a la Inferencia Estadı́stica
2.5.
Estadı́sticos de Orden
Asuma que en una carrera de 100 metros el tiempo para recorrerlos de los hombres puede ser
modelado por una distribución uniforme en el intervalo (medido en segundos) (9,4;11,0). Suponga
que hay 8 competidores en la carrera. Se desea encontrar la probabilidad de que el ganador de la
carrera rompa el record mundial de 9,58 segundos. Si Xi representa el tiempo que tarda el corredor
i en recorrer los 100 metros, i = 1, . . . , 8, lo que estamos interesados es conocer si el menor de
esos 8 tiempos no excede 9,58 segundos. Esto es, si definimos X(1) = mı́n{X1 , X2 , . . . , X8 }, la
probabilidad que deseamos encontrar es P(X(1) < 9, 58). También podrı́amos estar interesados en
calcular la probabilidad de que el que llega segundo de los 8 corredores no supere el record mundial
anterior de 9,69 segundos. En este caso, definiendo X(2) = mı́n{X1 , X2 , . . . , X8 }/X(1) (la más chica
de las 8 observaciones habiendo removido de ellas la menor de todas, o sea, la segunda más chica),
la probabilidad buscada es P(X(2) > 9, 69). Si X(8) = máx{X1 , X2 , . . . , X8 }, la probabilidad de que
el ganador de la carrera rompa el record mundial y que al corredor que llega último le lleve más
de 10 segundos terminarla está representada por P(X(1) < 9, 58, X(8) > 10). P(X(8) − X(1) > 3) es
la probabilidad de que el ganador de la carrera le saque más de 3 segundos de ventaja al corredor
que llega último.
Para calcular todas las probabilidades anteriores debemos encontrar la distribución en el muestreo
de las nuevas variables X(1) , X(2) , X(8) , (X(1) , X(8) ) y X(8) − X(1) .
En esta sección derivaremos en forma general las distribuciones univariadas y conjuntas de estas nuevas variables aleatorias X(1) , X(2) , . . . , X(8) construidas tomando nuestra muestra original,
X1 , X2 , . . . , X8 y ordenándola.
Definición 2.5.1. Sea X1 , . . . , Xn una muestra de una variable aleatoria X con distribución FX .
Para i = 1, 2, . . . , n, defina
X(i) = la i-ésima observación más pequeña de X1 , X2 , . . . , Xn .
Al vector (X(1) , X(2) , . . . , X(n) ) se le denomina las estadı́sticas de orden. A la variable aleatoria
X(i) se le llama la i-ésima estadı́stica de orden.
Observación 2.5.1. X(1) ≤ X(2) ≤ . . . ≤ X(n) , las observaciones son ordenadas de acuerdo a un
orden creciente.
Observación 2.5.2. En particular, los extremos de la muestra son el mı́nimo, X(1) , y el máximo
de las observaciones, X(n) .
Observación 2.5.3. Dado que las estadı́sticas de orden son observaciones de la variable aleatoria
X, el recorrido de las mismas será el recorrido de X.
2.5.1.
Distribuciones marginales
En el caso de los extremos, si trabajamos con una MA de tamaño n de X, la distribución de cada
uno de ellos se puede derivar fácilmente a partir de FX .
Muestreo - 23
Introducción a la Inferencia Estadı́stica
Para el máximo, X(n) , tenemos
FX(n) (x) = P(X(n) ≤ x) = P(X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x) =
n
Y
P(Xi ≤ x) = [FX (x)]n .
(2.2)
i=1
Los sucesos {X(n) ≤ x} y {X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x} son equivalentes, dado que si la más
grande de las observaciones es menor que x, entonces todas las observaciones deberán ser menores
que x.
Ejemplo 2.5.1. Suponga la distribución dada al principio de la sección. Asumiendo
que los tiempos de cada corredor son independientes, la probabilidad de que al corredor
que llega último le lleve más de 10 segundos recorrer los 100 metros es
P(X(8) > 10) = 1 − P (X(8)
10 − 9, 4
≤ 10) = 1 − [FX (10)] = 1 −
11 − 9, 4
Dado que si X ∼Uniforme(9,4;11), FX (10) =
8
8
≈ 0, 9996.
10 − 9, 4
.
11 − 9, 4
En el caso del mı́nimo, note que si la menor de las observaciones es mayor que x, entonces todas las
observaciones deberán ser mayores que x. Por lo cual, los sucesos {X1 > x, X2 > x, . . . , Xn > x}
y {X(1) > x} son equivalentes. Entonces,
FX(1) (x) = P(X(1) ≤ x) = 1 − P(X(1) > x) = 1 − P(X1 > x, X2 > x, . . . , Xn > x)
n
Y
=1−
P(Xi > x) = 1 − [1 − FX (x)]n .
(2.3)
i=1
Ejemplo 2.5.2. Bajo las condiciones anteriores, la probabilidad de que el ganador de
la carrera rompa el record mundial es
8
9, 58 − 9, 4
P(X(1) < 9, 58) = 1 − 1 −
≈ 0, 6151
11 − 9, 4
Que esta probabilidad sea alta quizás la podemos usar como evidencia de que quizás la
distribución Uniforme(9,4;11) no sea la más apropiada para modelar este problema. Si asumimos que X es una variable aleatoria absolutamente continua, podemos calcular las funciones de densidad de X(1) y X(n) derivando la correspondiente función de distribución.
fX(1) (x) = n(1 − FX (x))n−1 fX (x) y fX(n) (x) = n(FX (x))n−1 fX (x).
24 - Muestreo
Introducción a la Inferencia Estadı́stica
Ejemplo 2.5.3. Sea X ∼Uniforme(0,1). Entonces FX (x) = xI[0≤x<1] +I[x≥1] y fX (x) =
I[0<x<1] . Por lo cual,
fX(1) (x) = n(1 − x)n−1 I[0<x<1]
y fX(n) (x) = nxn−1 I[0<x<1] .
Esto es, X(1) ∼ Beta(1,n) y X(n) ∼ Beta(n,1).
Más detalles sobre estadı́sticos de orden se pueden encontrar en el apéndice E.
Referencia Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Ahsanullah, M., Nevzorov, V., Shakil, M. (2013) An Introduction to Order Statistics Atlantic
Press.
Furio Blasco, E. (2005) Los lenguajes de la Economı́a. Edición digital a texto completo accesible
en www.eumed.net/libros/2005/efb/
Gut, A. (2009) An intermediate course in probability. Springer Texts in Statistics.
Mood, A., Graybill, F., Boes, D. (1974) Introduction to the theory of statistics 3era. edición.
McGraw-Hill International.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Olive, D. (2010) Statistial theory and inference. Springer.
Muestreo - 25
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
26 - Muestreo
CAPÍTULO 3
INFERENCIA BAYESIANA
3.1.
Introducción
Existen dos enfoques en la Inferencia Estadı́stica, la Clásica o frecuentista y la Bayesiana. La
estadı́stica clásica esta basada en la interpretación frecuentista de la probabilidad. El punto de
vista frecuentista está basado en los siguientes postulados:
1. La probabilidad se ve como el lı́mite de frecuencias relativas. La probabilidad es un propiedad
objetiva del mundo real.
2. Los parámetros son fijos, son constantes desconocidas. Dado que no existe fluctuación en
sus valores, no se pueden hacer afirmaciones en probabilidad acerca de ellos.
3. Los métodos estadı́sticos están definidos para tener buenas propiedades asintóticas. Esto es,
cuando n → ∞.
4. Los métodos estadśticos clásicos solo usan la información contenida en la muestra para
La Inferencia Bayesiana, está basada en los siguientes postulados:
1. La probabilidad es el grado de creencia acerca de un determinado fenómeno. No es el lı́mite
de una frecuencia. Como tal, se puede representar de modo numérico el conjunto racional
de creencias, de modo que existe una relación directa entre probabilidad e información. La
regla de Bayes proporciona un modo natural de actualización de las creencias cuando aparece
nueva información.
2. Aún cuando los parámetros de una distribución siguen siendo constantes fijas, podemos
hacer afirmaciones en probabilidad acerca de ellos.
3. Haremos inferencias acerca de un parámetro θ construyendo una distribución de probabilidad
para este. Inferencias, tales como pruebas de hipótesis, estimaciones puntuales y de intervalo,
podrán ser extraı́das de esta distribución.
Este capı́tulo hace una breve introducción a la Inferencia Bayesiana.
27
Introducción a la Inferencia Estadı́stica
3.2.
3.2.1.
Distribuciones a priori y a posteriori
Distribución a priori
Suponga que Y es una variable aleatoria cuya distribución está indexada por un parámetro θ
(puede ser también un vector de parámetros): Y ∼ fY (y|θ). El parámetro θ toma valores en un
conjunto Θ, el espacio paramétrico. Asumamos, por ahora, que Θ ⊂ R. El verdadero valor de
θ es desconocido, pero podrı́amos contar con información adicional (conocimiento del problema,
estudios anteriores) la cual nos puede dar una idea sobre en qué parte o partes de Θ es más
verosimil que se encuentre el verdadero valor de θ. Este conocimieto, o falta de él, será expresado
por medio de una distribución de probabilidad f (θ). Note que a pesar que θ será tratado como si
fuera una variable aleatoria, es en realidad un número. La distribución de probabilidad asociada es
la herramienta que nos permitirá incorporar a nuestros análisis lass creencias a priori que tengamos
acerca del verdadero valor de θ. A la distribución f (θ) le llamaremos la distribución a priori de θ.
Ejemplo 3.2.1. Suponga que Y ∼ Bernoulli(θ), Θ = (0, 1). Las siguientes gráficas
muestran posibles distribuciones a priori para θ. Figura A es una distribución uniforme
en (0,1) la cual nos permite representar que no favorecemos a priori ninguna región
de Θ, en este caso estamos mostrando que no tenemos ninguna información a priori
sobre el valor de θ. La Figura B, representa nuestro creencia a priori de que θ es más
verosimil que se encuentre cercano a 1. La Figura C establece como más verosı́miles a
priori los valores de θ cercanos al cero y la Figura D, lo más cercanos a 0,5.
2.0
1.5
f(θ)
1.0
1.0
0.0
0.6
0.5
0.8
f(θ)
1.2
2.5
3.0
Fig. B − Beta(3,1)
1.4
Fig. A − Beta(1,1)
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
θ
Fig. C − Beta(1,3)
Fig. D − Beta(3,3)
0.8
1.0
0.8
1.0
1.0
f(θ)
0.5
1.5
0.0
0.0
0.5
1.0
f(θ)
2.0
2.5
1.5
θ
3.0
0.0
0.0
0.2
0.4
0.6
θ
0.8
1.0
0.0
0.2
0.4
0.6
θ
28 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
3.2.2.
Función de verosimilitud
Dado un valor de θ, la distribución condicional de Y dado ese valor está dada por fY (y|θ). Suponga
que Y = (Y1 , Y2 , . . . , Yn ) es una MA de esta distribución condicional. Es decir, condicional en θ,
las observaciones Y1 , Y2 , . . . , Yn son iid1 . La distribución condicional conjunta de las observaciones
se puede escribir como
f (y|θ) =
n
Y
fY (yi |θ), donde y = (y1 , y2 , . . . , yn ).
i=1
A f (y|θ) se le llama la función de verosimilitud. Note que la función de verosimilitud es una
función de y y no de θ. θ se ha fijado en un determiando valor dentro de su espacio paramétrico.
f (y|θ) es lo que llamamos la distribución de la muestra en el capı́tulo anterior.
3.2.3.
Distribución a posteriori
Dada la función de verosimilitud podemos construir la distribución de probabilidad conjunta de
Yyθ
f (Y, θ) = f (y|θ)f (θ),
y a partir de esta podemos calcular la distribución marginal de Y. Asumiendo que f (θ) es una
densidad sobre Θ, tenemos que2
Z
f (y) =
f (y|θ)f (θ)dθ.
Θ
Por lo cual, al aplicar el teorema de Bayes, tenemos que la distribución condicional de θ dada la
muestra observada y está dada por
f (θ|y) =
f (y|θ)f (θ)
f (Y, θ)
=R
.
f (y)
f (y|θ)f (θ)dθ
Θ
A f (θ|y) se le llama la distribución a posteriori de θ.
La distribución a priori de θ refleja nuestras creencias acerca del valor del parámetro antes de
obtener la muestra. La distribución a posteriori refleja nuestras creencias actualizadas en base a
lo observado en la muestra.
Observación 3.2.1. No es necesario calcular f (y) dado que es una constante con respecto a θ,
si a su inverso le llamamos c(y) tenemos que
f (θ|y) = c(y)f (y|θ)f (θ) ⇒ f (θ|y) ∝ f (y|θ)f (θ)
donde el sı́mbolo ∝ significa “es proporcional a”. Por lo cual c(y) es solo la constante por la cual
hay que multiplicar a f (y|θ)f (θ) para convertirla en una densidad. A la función f (y|θ)f (θ) se
le llama el núcleo de la distribución a posteriori. Dado el núcleo de una función de densidad, la
constante es única dada la unicidad de la función integral. Por lo cual, si “reconocemos” el núcleo
como el correspondiente a una distribución conocida, automáticamente sabemos cuánto vale la
constante. Recuerde que en la distribución a posteriori, θ es la variable aleatoria y y está fijo en
los valores observados en la muestra.
1
2
En estas notas a variables aleatorias que condicional en θ son variables iid le llamaremos intercambiables.
Si f (θ) es una función de cuantı́a, sustituimos la integral por una sumatoria.
Inferencia Bayesiana - 29
Introducción a la Inferencia Estadı́stica
Ejemplo 3.2.2. Suponga y ∈ (0, 1, ...) denota el número de ocurrencias en un proceso
de Poisson con tasa θ > 0. La función de cuantı́a de Yi condicional en θ es
f (yi |θ) =
θyi exp(θ)
yi !
Por lo cual, la función de verosimilitud de (y1 , ..., yn ) es
f (y|θ) =
n
Y
θyi exp(−θ)
i=1
yi !
=
θnȳ exp(−nθ)
Qn
i=1 yi !
Considere como distribución a priori para θ una Gamma(α, β):
f (θ) ∝ θα−1 exp(−βθ)
Entonces para hallar la distribución a posteriori
f (θ|y) ∝ θnȳ exp(−nθ)θα−1 exp(−βθ) = θnȳ+α−1 exp(−(n + β)θ).
El núcleo de la distribución a posteriori coincide con el núcleo de una distribución
Gamma. Por lo cual, la distribución a posteriori es una Gamma(nȳ + α, n + β)
Note:
Media a priori de θ es α/β
Media a posteriori de θ es
E(θ|y) =
nȳ + α
n+β
ˆ Si el tamaño muestral n → ∞ entonces E(θ|y) se acerca al EMV de θ.
ˆ Si éste tiende a cero, entonces E(θ|y) tiende a la media a priori.
3.3.
Suficiencia
Tanto en el enfoque clásico como en el bayesiano, un principio deseable en la reducción de datos
es lo que se conoce como el principio de suficiencia. Este establece, a grandes rasgos, que si
un estadı́stico es suficiente para un parámetro θ, este contiene toda la información que tiene la
muestra acerca de θ. Esto es, una vez que conocemos qué valor toma el estadı́stico en la muestra
observada es irrelevante conocer los valores individuales de las observaciones cuando se van a
realizar inferencias acerca de θ.
30 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
3.3.1.
Estadı́stico suficiente
Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ), θ ∈ Θ. Sea T1 = T1 (X1 , . . . , Xn ) un estadı́stico.
Note que T1 particiona X en los conjuntos {(x1 , . . . , xn )|T1 (x1 , . . . , xn ) = t1 }, donde t1 ∈ Rec(T1 ).
Por ejemplo, suponga que T1 = X̄n y que observamos x̄n = 8, 32. Puede haber muchas muestras en
X que tengan exactamente la misma media 8,32. Por lo tanto, podemos considerar a esas muestras
como pertenecientes al conjunto {(x1 , . . . , xn ) : x̄n = 8, 32}. Entonces, para cada valor posible de
X̄n tendremos uno de estos conjuntos.
A la partición inducida por T1 la llamaremos suficiente para θ si la probabilidad de observar una
muestra en particular, dado que sabemos que esta pertenece a un conjunto fijo de la partición, no
depende de θ. Esto es, la probabilidad condicional de la muestra dado que sabemos que T1 = t1 ,
t1 ∈ Rec(T1 ), es independiente de θ.
Esto intuitivamente significa que una vez que fijamos T1 = t1 y dentro del espacio muestral solo
consideramos el subconjunto de las muestras para las cuales T1 toma ese valor, la distribución de
cualquier otro estadı́stico T2 = T2 (X1 , . . . , Xn ), restringida a este subconjunto, no depende de θ
dado que la distribución de la muestra no depende de θ. Por lo tanto, es imposible usar T2 |T1 = t1
para hacer inferencias acerca de θ. T1 extrae toda la información acerca de θ que está contenida
en la muestra.
Ejemplo 3.3.1. Sea X1 , . . . , Xn una MA de X ∼ Ber(θ). Defina T =
n
X
Xi . Sabemos
i=1
que T ∼ Binomial(n, θ). Con t ∈ {0, 1, . . . , n}, ¿cuál es la probabilidad condicional
P(X1 = x1 , . . . , Xn = xn |T = t) = P (A|B)?
Si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad condicional es 0,
n
X
dado que A ∩ B = ∅; en el caso que t =
xi , entonces tenemos que A ⊂ B, con lo
i=1
cual P(A ∩ B) = P(A) y P(A|B) = P (A)/P (B); por lo tanto,
P(X1 = x1 , . . . , Xn = xn |T = t) =
1
θt (1 − θ)n−t
=
n t
n .
n−t
θ
(1
−
θ)
t
t
Dado que x1 + . . . + xn es igual al número de unos en las n pruebas independientes, esta
es la probabilidad de obtener una n-upla en particular de todas aquellas que contengan
t unos y n − t ceros. Esta probabilidad no depende de θ. Por lo tanto, la partición
n
X
inducida por T =
Xi es suficiente para θ.
i=1
Ejemplo 3.3.2. Continuación ejemplo 3.3.1. Considere el estadı́stico U = X1 X2 + X3 .
Dado que Xi ∈ {0, 1}, los valores que puede tomar U son {0, 1, 2}.
Inferencia Bayesiana - 31
Introducción a la Inferencia Estadı́stica
X1
0
1
0
0
1
1
0
1
X2
0
0
1
0
1
0
1
1
X3
0
0
0
1
0
1
1
1
U
0
0
0
1
1
1
1
2
Por lo cual,
P(U = 0) = P ((0, 0, 0) ∪ (1, 0, 0) ∪ (0, 1, 0))
= P ((0, 0, 0)) + P ((1, 0, 0)) + P ((0, 1, 0))
= (1 − θ)3 + 2θ(1 − θ)2
= (1 − θ)2 (1 + θ)
Si fijamos que U = 0 tenemos que
P ((0, 0, 0)|U = 0) =
(1 − θ)
(1 − θ)3
=
,
2
(1 − θ) (1 + θ)
(1 + θ)
lo cual depende de θ. La figura 3.1 muestra la probabilidad de observar, cuando U = 0,
las muestras (0,0,0) y (1,0,0) o (0,1,0). En el primer caso, cuanto más cerca está θ de 1,
menor es la probabilidad de observar (0,0,0) y esta aumenta a medida que θ se acerca
a cero. Lo cual muestra que, aún cuando sepamos que U = 0, si observamos (0,0,0) es
más verosı́mil que θ esté cercano a cero; si observamos (1,0,0) o (0,1,0) es más verosimil
que θ esté cercano a 1. Esto es, existe información adicional acerca de θ que no fue
capturada por U . Por lo tanto, la partición no es suficiente.
Figura 3.1: Probabilidad de que U = X1 X2 + X3 = 0
Definición 3.3.1. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es suficiente para θ ∈ Θ ⊆ R
si y solo si la distribución de la muestra (X1 , . . . , Xn ) condicional en que T = t no depende de θ,
para todo t ∈ Rec(T ).
32 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
La definición implica que T induce una partición suficiente sobre X . Esto es, una vez conocido
qué valor toma T en la muestra no queda más “información” acerca de θ en ella. En suma, toda
la información que la muestra tiene acerca de θ está contenida en T .
Ejemplo 3.3.3. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Defina T =
n
X
Xi . ¿Cuál
i=1
es la probabilidad condicional P(X1 = x1 , . . . , Xn = xn |T = t))?
Sabemos que T ∼ Poisson(nθ). Siguiendo un razonamiento similar al del ejemplo 3.3.1,
con t ∈ {0, 1, . . . , n} si la suma de los elementos de (x1 , . . . , xn ) no da t, la probabilidad
n
X
condicional es 0; en el caso que t =
xi , entonces tenemos que,
i=1
Q
e−θn (θ)t / ni=1 xi !
t!
= t Qn
.
P(X1 = x1 , . . . , Xn = xn |T = t) =
−θn
t
e (θn) /t!
n i=1 xi !
Esta probabilidad no depende de θ. Por lo tanto, T =
n
X
Xi es suficiente para θ.
i=1
Ejemplo 3.3.4. Sea X1 , X2 una MA de X ∼N(θ,1). Defina T = X1 + X2 . Sabemos
que
X1
θ
1 0
∼ N2
,
0 1
X2
θ
Por lo cual, con
X1
X1
θ
1 0
1 1
B=
⇒ B
=
∼ N2
,
.
1 1
1 2
X2
X1 + X2
2θ
Usando el resultado de la distribución condicional de las componentes de un vector con
distribución normal multivariada, tenemos que
2 !
1
t 1
1 1
=N
,
i = 1, 2.
Xi |X1 + X2 = t ∼ N θ + √ √ (t − 2θ) , 1 − √
2 2
2 2
2
Por lo tanto, la distribución condicional de la muestra dado que X1 +X2 = t no depende
de θ. Entonces, X1 + X2 es suficiente para θ.
La definición se puede extender para el caso donde θ es un vector de Rk .
Definición 3.3.2. Un estadı́stico real T~ = T1 (X1 , . . . , Xn ), . . . , Tk (X1 , . . . , Xn ) se dice que es
conjuntamente suficiente para θ ∈ Θ ⊆ Rk si y solo si la distribución de la muestra (X1 , . . . , Xn )
condicional en que T~ = ~t no depende de θ, para todo ~t ∈ Rec(T~ ).
Inferencia Bayesiana - 33
Introducción a la Inferencia Estadı́stica
Note que la definición, tanto en R o Rn , no es operativa dado que tenemos que empezar definiendo
el estadı́stico que queremos probar que es suficiente. El siguiente teorema, no solo prueba si un
estadı́stico es suficiente, sino que además identifica al estadı́stico que lo es.
Teorema 3.3.1. Teorema de factorización de Neyman. Sea fX~ (~x|θ) la distribución de la
muestra. Un estadı́stico real T = T (X1 , . . . , Xn ) es suficiente para θ si y solo si
fX~ (~x|θ) = g(T (x1 , . . . , xn ); θ)h(x1 , . . . , xn ) ∀(x1 , . . . , xn ) ∈ X .
~ = ~x} y B =
Demostración. Lo demostraremos para el caso discreto. Sean los sucesos A = {X
~ = T (~x)}. Note que A ⊂ B.
{T (X)
(⇒) Partimos de que T es suficiente para θ y deseamos probar que existe la factorización.
f (~x|θ) = P(A|θ)
= P(A ∩ B|θ)
~ = T (~x)|θ) P(X
~ = ~x|T (X)
~ = T (~x)) .
= P(B)P(A|B) = P(T (X)
|
{z
}|
{z
}
g(T (~
x),θ)
h(~
x)
~ = ~x|T (X)
~ = T (~x) no depende de θ.
Note que, por la definición de suficiencia, P(X
~ es suficiente.
(⇐) Partimos de que la factorización existe y queremos demostrar que T (X)
~ = ~x|T (X)
~ = t no depende de θ.
Esto es, que P(X
~ = T (~x)|θ), la cuantı́a de T
Suponga que f (~x|θ) = g(T (~x), θ)h(~x). Sea fT (t|θ) = P(T (X)
cuando T (~x) = t. Además,
X
fT (t|θ) =
fX~ (~y |θ).
~
y ∈X :T (~
y )=t
.
~ = ~x|T (X)
~ = t) = 0. Para toda ~x ∈ X tal que
Note que ∀~x ∈ X tal que T (~x) 6= t, P(X
T (~x) = t,
~
~ = ~x|T (X)
~ = t) = P(X = ~x|θ)
P(X
ft (t|θ)
g(t, θ)h(~x)
=
ft (t|θ)
g(t, θ)h(~x)
P
=
g(T (~y ), θ)h(~y )
~
y ∈X :T (~
y )=t
=
g(t, θ)h(~x)
P
h(~y )
g(t, θ)
~
y ∈X :T (~
y )=t
=
h(~x)
P
~
x∈X :T (~
x)=t
= q(~x).
34 - Inferencia Bayesiana
h(~x)
Introducción a la Inferencia Estadı́stica
Observación 3.3.1. La factorización no es única, términos constantes, parcialmente o en su totalidad, pueden ser asignados a h o g indistintamente.
Observación 3.3.2. La función g que depende solo de θ y T es proporcional a la densidad o
cuantı́a de T : g(T (x1 , . . . , xn ); θ) ∝ fT (t|θ).
Teorema 3.3.2. Sea T un estadı́stico suficiente para θ. Sea W : R → R una función uno a uno.
Entonces, T 0 = W (T ) es suficiente para θ.
Observación 3.3.3. Si W es una función arbitraria, T 0 = W (T ) no es necesariamente suficiente.
Ejemplo 3.3.5. Continuación del ejemplo 3.3.1.
fX~ (~x|θ) = θ
Pn
i=1
xi
(1 − θ)
n−
Pn
i=1
xi
n
X
= g(
xi ; θ).
i=1
En este caso, h(~x) ≡ 1. Por lo tanto, T (X1 , . . . , Xn ) =
n
X
Xi es suficiente para θ. En
i=1
vista del teorema 3.3.2, tenemos que X̄n es suficiente para θ.
Ejemplo 3.3.6. Sea X1 , . . . , Xn una MA de X ∼ N(θ,1).
n
−n
2
fX~ (~x|θ) = (2π)
1X
exp −
(xi − θ)2
2
!
−n
2
= (2π)
i=1
|
Por lo tanto,
n
X
!
!
n
n
n
X
1X 2
1X 2
exp −
xi exp −
θ +θ
xi .
2
2
i=1
i=1
i=1
{z
}|
{z
}
P
h(~
x)
g(
n
i=1
xi ;θ)
Xi es suficiente para θ. Lo que implica que X̄n es suficiente para θ.
i=1
n
n
X
X
2
También se puede usar la descomposición
(xi − θ) =
(xi − x̄n )2 + n(x̄n − θ)2 ,
i=1
n
fX~ (y|θ) = (2π)
−n
2
1X
exp −
(xi − θ)2
2 i=1
i=1
!
= (2π)
|
−n
2
n
nSn2
exp −
exp − (x̄n − θ)2 .
2
2 {z
}
{z
}|
h(~
x)
g(x̄n ;θ)
Lo que muestra directamente que X̄n es suficiente para θ.
Inferencia Bayesiana - 35
Introducción a la Inferencia Estadı́stica
Ejemplo 3.3.7. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0,θ).
n
1 Y
1
fX~ (~x|θ) = n
I[0<xi <θ] = I[x(1) >0] n I[x(n) <θ ]
θ i=1
| {z } |θ {z }
h(~
x)
g(x(n) ;θ)
Por lo tanto, X(n) es suficiente para θ.
3.3.2.
Cálculo de la distribución a posteriori
Si T (Y) es suficiente para θ tenemos, por el teorema de factorización:
f (y|θ) = h(y)g(T (y)|θ).
Lo que implica que
f (θ|y) ∝ g(T (y)|θ)f (θ).
Esto nos habilita a trabajar con la densidad o cuantı́a de la estadı́stica suficiente en lugar de la
función de verosimilitud.
Ejemplo 3.3.8. Considere n pruebas de Bernoulli intercambiables: Y1 , ..., Yn . Si θ
n
X
representa la probabilidad de éxito, Yi |θ ∼ Bernoulli(θ). Defina Y =
Yi , con lo cual
i=1
Y |θ ∼ Binomial(n, θ):
n y
f (y|θ) =
θ (1 − θ)n−y .
y
Supongamos que no tenemos información a priori acerca de θ lo cual reflejaremos
utilizando como distribución a priori una Uniforme[0,1]:
f (θ) = I[0≤θ≤1] .
Usando que Y es suficiente para θ, obtenemos que la distribución a posteriori es
f (θ|y) ∝ θy (1 − θ)n−y .
Como función de θ, la distribución a posteriori es proporcional a la densidad de una
variable aleatoria con distribución Beta(y + 1, n − y + 1). Dado que si la ley de la v.a.
Z es una Beta(α, β) entonces:
f (z|α, β) ∝ z α−1 (1 − z)β−1 .
36 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
También se puede calcular directamente la distribución a posteriori:
n y
θ (1 − θ)n−y
y
f (θ|y) = R n y
θ (1 − θ)n−y dθ
Θ y
= (n + 1)
n!
θy (1 − θ)n−y
y!(n − y)!
=
(n + 1)! y
θ (1 − θ)n−y
y!(n − y)!
=
Γ(n + 2)
θy+1−1 (1 − θ)n−y+1−1
Γ(y + 1)Γ(n − y + 1)
Ejemplo 3.3.9. Sea Y |θ ∼ N (θ, σ 2 ) con σ 2 conocida. La verosimilitud de una sola
observación es
1
1
f (y|θ) = √
exp(− 2 (y − θ)2 )
2
2σ
2πσ
Asuma que la distribución a priori de θ es
1
2
f (θ) ∝ exp − 2 (θ − µ0 )
2τ0
o sea, f (θ) es una N (µ0 , τ02 ). A los parámetros de la distribución a priori se le llaman
hiperparámetros. En este caso (µ0 , τ02 ) son los hiperparámetros. Ellos a su vez pueden ser también considerados como si fueran variables aleatorias. Para este curso lo
consideraremos fijos.
Entonces
1 (y − θ)2 (θ − µ0 )2
+
f (θ|y) ∝ exp −
2
σ2
τ02
Desarrolle los cuadrados, agrupe terminos en θ2 y en θ:
1 y 2 − 2yθ + θ2 θ2 − 2µ0 θ + µ20
+
f (θ|y) ∝ exp −
2
σ2
τ02
2
1 (τ0 + σ 2 )θ2 − 2(yτ02 + µ0 σ 2 )θ
∝ exp −
2
σ 2 τ02
2
1 (σ 2 + τ02 ) 2
yτ0 + µ0 σ 2
∝ exp −
θ −2
θ
2 σ 2 τ02
σ 2 + τ02
Lo que implica que f (θ|y) es normal con
Media: µ1 = (yτ02 + µ0 σ 2 )/(σ 2 + τ02 )
Varianza: τ12 = (σ 2 τ02 )/(σ 2 + τ02 )
Inferencia Bayesiana - 37
Introducción a la Inferencia Estadı́stica
Observe que la media a posteriori se puede escribir como, (dividiendo numerador y
denominador entre σ 2 τ02 )
yτ 2 + µ0 σ 2
µ1 = 0 2
=
σ + τ02
1
y + τ12 µ0
σ2
0
.
1
1
+
σ2
τ02
Por lo cual, la media a posteriori es el promedio ponderado de la media a priori y la
observación. Los ponderadores están dados por las precisiones3 1/σ 2 y 1/τ02 . Cuanto
más grande es la precisión de los datos (σ 2 → 0), µ1 → y.
También, observe que
yτ 2 + µ0 σ 2
= µ0
µ1 = 0 2
σ + τ02
σ2
σ 2 + τ02
+y
τ02
σ 2 + τ02
Sume y reste µ0 τ02 /(σ 2 +τ02 ), para comprobar que la media a posteriori se puede escribir
también como
τ02
µ1 = µ0 + (y − µ0 )
σ 2 + τ02
Media a posteriori es la media a priori “movida” hacia el valor observado. La magnitud
del “movimiento” depende de la magnitud relativa de las precisiones.
Con respecto a la varianza a posteriori note que
(σ 2 + τ02 )
1
1
1
=
= 2+ 2
2
2
2
τ1
σ τ0
σ
τ0
lo que muestra que la precisión a posteriori es la suma de la precisión de la distribución
a priori más la precisión de la verosimilitud.
Considere ahora n observaciones (Y1 , ..., Yn ) intercambiables. Sabemos que Ȳ es suficiente para θ y dado que Ȳ |θ, σ 2 ∼ N(θ, σ 2 /n) nuestros resultados previos pueden ser
utilizados remplazando a σ 2 por σ 2 /n:
f (θ|y1 , ..., yn ) = f (θ|ȳ) = N (µn , τn2 )
donde
µn =
1
µ + σn2 ȳ
τ02 0
1
+ σn2
τ02
y
1
1
n
= 2+ 2
2
τn
τ0
σ
En µn , la precisión a priori 1/τ02 y la precisión de los datos n/σ 2 son “equivalentes”.
Por lo tanto:
Con n lo suficientemente grande, (ȳ, σ 2 ) determina la distribución a posteriori.
Con τ02 = σ 2 , la distribución a priori se puede considerar como una observación
adicional con valor µ0 .
3
La precisión de una variable aleatoria es el inverso de su varianza. Note que cuanto menor es la varianza, mayor
es la precisión (σ 2 → 0 ⇒ 1/σ 2 → ∞) y viceversa.
38 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
Cuando τ02 → ∞ con n fijo, o cuando n → ∞ con τ02 fijo:
f (θ|ȳ) → N (ȳ, σ 2 /n)
Este último resultado es de suma importancia para obtener aproximaciones cuando creencias a priori acerca de θ son imprecisas o cuando el tamaño muestral es
grande.
3.4.
Selección de una distribución a priori
En los ejemplos hemos asumido que las distribuciones a priori son dadas. Sin embargo en la “vida
real” este no es el caso. Por lo tanto, dado que la distribución a priori juega un papel importante
en la estadı́stica Bayesiana, una pregunta obvia es: ¿Cómo elegimos una distribución a priori? Si
θ representa el parámetro de interés, la respuesta a la pregunta anterior se halla en la información
disponible a priori acerca del comportamiento de θ. Si tenemos información concreta acerca de
éste usaremos una distribución a priori que mejor la refleje. Si carecemos de información, o somos
indiferentes a la información que podamos tener, acerca del parámetro usaremos distribuciones
que reflejen este estado.
¿Cómo se construyen? Se pueden utilizar diferentes criterios y fuentes de información. Algunos
criterios son:
De una manera totalmente subjetiva.
Usando información disponible (e.g., literatura, conocimiento cientı́fico, opiniones de expertos).
Conveniencia matemática.
También se puede utilizar un argumento asintótico en el sentido de que a medida que el tamaño
muestral aumenta, la verosimilitud deberı́a dominar la a posteriori.
Dos casos especiales de distribuciones a priori son:
Conjugadas.
No informativas.
Distribuciones a priori conjugadas
Definición 3.4.1. Sean F y P dos familias de distribuciones. P es conjugada para F si f (θ) ∈ P
y f (y|θ) ∈ F implica f (θ|y) ∈ P .
En un ejemplo anterior θ ∼ Gamma y Y |θ ∼Poisson, lo que derivó en que θ|Y ∼Gamma. Por
lo cual, la distribución a priori y la a posteriori son dos miembros de la misma familia de distribuciones. Por lo tanto, la familia de distribuciones Gamma es conjugada para la familia de
distribuciones Poisson.
El cuadro 3.1 muestra ejemplos de familias conjugadas para muestras de tamaño n = 1.
Inferencia Bayesiana - 39
Introducción a la Inferencia Estadı́stica
Cuadro 3.1: Familias conjugadas (n = 1)
f (y|θ)
f (θ)
f (θ|y)
Normal
Normal
Normal
N(θ, σ 2 )
N(µ, τ 2 )
N((yτ02 + µ0 σ 2 )/(σ 2 + τ02 ), (σ 2 τ02 )/(σ 2 + τ02 ))
Poisson
Gamma
Gamma
f(θ)
G(α, β)
G(α + y, β + 1)
Gamma
Gamma
Gamma
G(ν, θ)
G(α, β)
G(α + ν, β + y)
Binomial
Beta
Beta
Bin(m, θ)
Beta(α, β)
Beta(α + y, β + m − y)
Bin. negativa
Beta
Beta
BinN(r, θ)
Beta(α, β)
Beta(α + r, β + y)
Normal
Gamma
Gamma
N(µ, 1/θ)
G(α, β)
G(α + 0, 5; β + (µ − y)2 /2)
Distribuciones a priori no informativas
Tienen un impacto mı́nimo en la distribución a posteriori al darle mayor peso a los datos. Se las
conoce también como vagas, de referencia, objetivas.
Distribuciones a priori conjugadas pueden usarse para construir distribuciones de referencia, haciendo que la varianza de la distribución sea lo suficientemente grande. Si y ∼ N (θ, 1), la conjugada
natural para θ es N (µ0 , τ02 ). A posteriori es N (µ1 , τ12 ), donde
µ1 =
µ0 /τ02 + nȳ/σ 2 2
1
, τ1 =
2
2
2
1/τ0 + n/σ
1/τ0 + n/σ 2
Para τ0 → ∞, µ1 → ȳ y τ12 → σ 2 /n. El mismo resultado podrı́a haberse obtenido usando f (θ) ∝ 1.
Este último caso se conoce como Zuna distribución a priori impropia, dado que f (θ) no es estrictamente una densidad al darse que
1 dθ = ∞. Se pueden utilizar distribuciones a priori impropias
R
40 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
para reflejar total ignorancia a priori acerca de θ. Se debe tener máximo cuidado para verificar
que la distribución a posteriori es propia. Es decir, que f (θ|y) es efectivamente una densidad o
cuantı́a.
Dos ejemplos de distribuciones impropias:
Si θ es un parámetro de localización: f (θ) ∝ 1.
Si θ es un parámetro de escala: f (θ) ∝ 1/θ.
3.5.
Métodos de Inferencia Bayesiana
Veremos varios métodos de Inferencia Bayesiana que tienen a su vez su correspondiente en la
Inferencia Clásica. Cada uno de estos métodos se puede describir como un problema de decisión
donde entre diversas alternativas tenemos que seleccionar una. Para ello, se debe analizar adecuadamente la información con la que se cuenta y decidir de manera razonable sobre la mejor forma
de actuar. Se construyen reglas de decisión que nos indican, de entre todas las acciones posibles,
cuál seleccionar.
Los métodos que veremos son:
1. Estimación por intervalos: encontrar reglas de decisión que nos permitan, una vez observada la muestra, obtener un subconjunto del espacio paramétrico Θ como estimación de
θ.
2. Estimación puntual: encontrar reglas de decisión que nos permitan, una vez observada la
muestra, asignarle un valor numérico a θ de entre todos los posibles valores en Θ.
3. Contraste de hipótesis: encontrar reglas de decisión que nos permitan, una vez observada
la muestra, elegir entre dos hipótesis excluyentes acerca del valor θ.
3.5.1.
Estimación por intervalos: Intervalos de credibilidad
Toda la información que tenemos acerca de θ está contenida en la distribución a posteriori. Por
lo cual, podemos hacer declaraciones en términos de probabilidad acerca de θ, como por ejemplo
f (c1 ≤ θ ≤ c2 |y) = 1 − α,
donde c1 y c2 son respectivamente los percentiles α1 y 1 − α2 (α1 + α2 = α) de f (θ|y).
Al intervalo [c1 , c2 ] se le llama intervalo de credibilidad al (1-α)100 % para θ.
La interpretación del intervalo de credibilidad es con una probabilidad del (1-α)100 % el verdadero
valor de θ está entre c1 y c2 .
Ejemplo 3.5.1. Suponga que Y |θ ∼ N(θ, 9), f (θ) ∝ 1. Anteriormente se encontró que
la distribución a posteriori de θ es un N(ȳ, 9/n). Asuma, además, que para una muestra
de tamaño 100, se observa que ȳ = 20, 21. Por lo tanto la distribución a posteriori es
una N(20,21;0,09). Tomando α = 0, 05, seleccionamos α1 + α2 = α/2, lo cual nos da
Inferencia Bayesiana - 41
Introducción a la Inferencia Estadı́stica
que el intervalo de credibilidad para θ al 95 % de probabilidad es (19,62;20.8). Esto
es
P(19, 62 ≤ θ ≤ 20,8|y) = 0, 95.
Intervalo de mayor densidad a posteriori
Si definimos el intervalo óptimo como el de menor amplitud, buscamos una región donde en todo
punto θ∗ que pertenezca a esta región, f (θ∗ |y) ≥ (θ∗∗ |y) con θ∗∗ un punto fuera de la región.
En el caso de distribuciones a posteriori unimodales, la región es un intervalo. El intervalo (a, b)
es el intervalo de credibilidad de mayor densidad a posteriori al (1-α)100 % para θ si
Z
b
f (θ|y)dθ = 1 − α.
1.
a
2. El modo de f (θ|y) pertenece al intervalo.
3. f (a|y) = f (b|y).
3.5.2.
Estimación puntual
Un método para construir estimadores es encontrar el estimador máximo a posteriori (MAP). Si
θ̂ es el estimador MAP de θ, entonces
f (θ̂|y) = argmáx f (θ|y).
θ
Es decir, el MAP de θ es el modo a posteriori. Note que si la distribución a posteriori es multimodal,
el estimador no es único.
Otra manera de hallar estimadores es introducir un concepto de “óptimo” y encontrar el mejor
estimador de θ bajo este concepto.
Funciones de pérdida y riesgo
Considere un parámetro θ ∈ Θ. Sea θ̂ un estimador de θ. Mediremos la discrepancia entre θ y θ̂
usado una función de pérdida L(θ, θ̂). Formalmente, L : Θ × Θ → R+4 .
Ejemplos de funciones de pérdida son
L(θ, θ̂) = (θ − θ̂)2 , pérdida de error cuadrático o pérdida cuadrática.
L(θ, θ̂) = |θ − θ̂|, pérdida de error absoluto o pérdida absoluta.
L(θ, θ̂) = |θ − θ̂|p , pérdida Lp .
L(θ, θ̂) = I[θ=θ̂] , pérdida 0-1.
4
Tomamos las pérdidas como positivas, una pérdida negativa será una ganancia. Por lo cual, se podrı́a también
definir todo en términos de funciones de utilidad.
42 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
Definición 3.5.1. El riesgo clásico de un estimador θ̂ se define como
Z ∞
R(θ, θ̂) = Eθ (L(θ, θ̂)) =
L(θ, θ̂(y))f (y|θ)dy
−∞
donde θ̂(y) se usa para enfatizar que θ̂ es una función de las observaciones.
Observación 3.5.1. El riesgo clásico es una función de θ, por cual estamos comparando funciones.
Esto lleva a que pueda no existir un estimador de θ que sea uniformente mejor. Por ejemplo, bajo
pérdida cuadrática, si θ̂1 y θ̂2 son dos estimadores de θ, con R(θ, θ̂1 ) ≤ R(θ, θ̂2 ) si θ ∈ Θ0 y
R(θ, θ̂1 ) ≥ R(θ, θ̂2 ) si θ ∈ Θc0 entonces no se puede decidir cuál es mejor entre θ̂1 y θ̂2 a menos
que se sepa en qué región de Θ se encuentra el verdadero valor de θ. Esto hace que si pudiéramos
reducir el riesgo de un estimador a un número la elección serı́a clara.
Definición El riesgo de Bayes de un estimador θ̂ se define como
Z
r(f, θ̂) =
R(θ, θ̂)f (θ)dθ
Θ
donde f (θ) es la distribución a priori de θ. O sea, el riesgo de Bayes es el valor esperado, con
respecto a la distribución a priori de θ, del riesgo clásico. Note que para un mismo estimador θ̂, si
cambiamos la distribución a priori el riesgo de Bayes también cambia dado que es una función de
f (θ).
Definición 3.5.2. Al estimador θ̂ que minimiza el riesgo de Bayes se le llama el estimador o regla
de Bayes. Formalmente, θ̂ es la regla de Bayes con respecto a la distribución a priori f si
r(f, θ̂) = ı́nf r(f, θ̃).
θ̃
Definición 3.5.3. Para un estimador θ̂ de θ, su riesgo a posteriori se define como
Z
r(θ̂|y) =
L(θ, θ̂)f (θ|y)dθ.
Θ
Esto es, es el valor esperado de la función de pérdida con respecto a la distribución a posteriori
de θ habiéndose observado y.
Teorema 3.5.1. Sea θ̂ el valor de θ que minimiza r(θ̂|y). Entonces, θ̂ es la regla de Bayes.
Teorema 3.5.2. El estimador de Bayes de θ,
1. Bajo función de pérdida cuadrática, es E(θ|y), la esperanza de la distribución a posteriori.
2. Bajo función de pérdida absoluta, es la mediana de la distribución a posteriori.
3. Bajo función de pérdida 0-1, es el MAP.
Inferencia Bayesiana - 43
Introducción a la Inferencia Estadı́stica
Ejemplo 3.5.2. Dada una muestra de tamaño n de v.a. intercambiables con Yi |θ ∼
Ber(θ) y θ ∼ Beta(α, β), la tabla de distribuciones conjugadas muestra que
θ|y ∼ Beta(y + α, n − y + β),
con y =
n
X
yi . Esto implica que el estimador de Bayes de θ es
i=1
θ̂ = E(θ|y) =
α+y
.
α+β+n
Note que el estimador de Bayes se puede escribir de la siguiente manera:
θ̂ =
n
α+β
α
ȳ +
.
α+β+n
α+β+n α+β
Esto es, el estimador de Bayes es el promedio ponderado entre la media muestral y la
n
α+β
media a priori. Note que los pesos respectivos son
y
. Para valores
α+β+n α+β+n
grandes de n, el estimador de Bayes está cercano a la media muestral ȳ. Esto indica
α
que α y β deberı́an ser seleccionados no solo para que
sea la media a priori,
α+β
sino también para que la suma α + β indique el peso que tiene la información a priori
en relación al tamaño de la muestra. Esto es, si por ejemplo, queremos que nuestra
creencia a priori tenga el mismo peso que una muestra de tamaño 20, seleccionaremos
α + β = 20. Si nuestra media a priori es 0,75, entonces seleccionaremos α = 15 y β = 5.
Observación 3.5.2. De lo anterior se desprende que el estimador de Bayes de g(θ) bajo pérdida
cuadrática, es
Z
g(θ)f (θ|y dθ.
E(g(θ)|y) =
Θ
Ejemplo 3.5.3. En el ejemplo anterior, si asumimos α = β = 1, tenemos que θ|y ∼
Beta(y + 1, n − y + 1). Si deseamos estimar θ(1 − θ), la varianza de Yi |θ, calculamos
E(θ(1 − θ)|y) = E(θ − θ2 |y) = E(θ|y) − E(θ2 |y) = E(θ|y) − Var(θ|y) + [E(θ|y)]2
Note que si X ∼ Beta(α, β):
2
E(X) − Var(X) + [E(X)]
α
αβ
=
−
−
2
α + β (α + β) (α + β + 1)
αβ
=
.
(α + β)(α + β + 1)
α
α+β
2
Por lo cual, el estimador de Bayes de θ(1 − θ), con respecto a la a priori f (θ) = 1, es
E(θ(1 − θ)|y) =
(y + 1)(n − y + 1)
(n + 2)(n + 3)
44 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
Error de estimación
Para un estimador daremos una medidad de su variabilidad para expresar la precisión de nuestras estimaciones. La medida que daremos es el riesgo a posteriori del estimador. Bajo pérdida
cuadrática, el riesgo a posteriori es la varianza a posteriori del estimador. Si θ̂ es la media a
posteriori E(θ|y), su varianza es simplemente la varianza a posteriori de θ.
3.5.3.
Prueba de Hipótesis
3.5.4.
Contraste de hipótesis
Contraste de hipótesis es un procedimiento relativamente simple en Inferencia Bayesiana. Suponga
que se desea contrastar H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θ1 , Θ0 ∩ Θ1 = ∅ y Θ0 ∪ Θ1 ⊆ Θ5 (note que las
hipótesis son disjuntas pero no necesitan ser complementarias, pero trabajaremos con hipótesis
complemantarias Θ0 ∪Θ1 = Θ). Si no se favorece a priori ninguna de las hipótesis, esto es P(H0 ) =
P(H1 ) = 0, 5, entonces lo único que hay que hacer es comparar las probabilidades a posteriori de
los subconjuntos de Θ especificados en las diferentes hipótesis. Esto es, con α0 = P(θ ∈ Θ0 |y) y
α1 = P(θ ∈ Θ1 |y), si
α0 > α1 ⇒ no rechazo H0
α0 < α1 ⇒ rechazo H0
Ejemplo 3.5.4. Suponga que Y1 , . . . , Y5 son v.a. intercambiables con Yi ∼ N (θ, 4).
Asuma como distribución a priori una N(3,1). Se observa en la muestra obtenida ȳ =
1, 25. Por lo tanto, la distribución a posteriori de θ es una N(2,0278;0,4444).
Se desea poner a prueba H0 ) θ < 3 contra H1 ) θ > 3
α0 = P(θ < 3|y) = φ
3 − 2, 0556
√
0, 4444
= Φ(1, 416671) = 0, 9217
α1 = P(θ > 3|y) = 1 − Φ(1, 416671) = 0, 0783.
Por lo cual, no rechazamos H0 , dado que α0 > α1 . Note que a priori P(θ < 3) = P(θ >
3) = 0, 5.
Una medida que podemos calcular es el odds a posteriori, el cociente entre α0 y α1 :
α0
0, 9217
=
= 11, 77.
α1
0, 0783
Esto significa que a posteriori H0 es 11 veces más probable de ser cierta que H1 .
5
A la hipótesis H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa.
Inferencia Bayesiana - 45
Introducción a la Inferencia Estadı́stica
Factor de Bayes
Asumiendo que las hipótesis son complementarias, se pueden cometer dos tipos de error:
Rechazar H0 cuando es cierta.
Rechazar H1 cuando es cierta.
En prueba de hipótesis Bayesiana no existe un concepto de “peor error”, en el sentido que es
más costoso para el investigado rechazar una de ellas cuando esta es cierta. Una manera de introducir el concepto de peor error es asociarle a la hipótesis que reflejarı́a este una probabilidad
a priori mayor para expresar nuestra creencia de que esa hipótesis representa el estado actual de
la naturaleza. Cuando las probabilidades a priori asignadas a H0 y H1 son desiguales, tenemos
que también tenerlas en cuenta. Sea πi = f (Hi ), la probabilidad asignada a Hi , i = 0, 1, bajo la
distribución a priori. Defina αi = f (Hi |y), i = 1, 0, como las correspondientes probabilidades bajo
la distrtibución a posteriori.
Definición 3.5.4. Al cociente α0 /α1 se le llama el odds a posteriori de H0 sobre H1 y al cociente
π0 /π1 se le llama el odds a priori. A la cantidad
B10 =
α1 π0
α1 /α0
=
π1 /π0
α0 π1
se le llama el factor de Bayes en favor de H1 . El factor de Bayes es el odds ratio entre los odds a
posteriori y a priori.
Lo que mide el factor de Bayes es el cambio en los odds entre H0 y H1 antes y después de haber
observado Y = y. Para decidir se utiliza la siguiente escala, la cual está definida en base log10 con
el fin de que la escala sea simétrica. Esto es, log10 B10 = − log10 B01 :
log10 B10
<0
0 a 0,5
0,5 a 1
1a2
>2
Fuerza de la evidencia
despreciable
pobre
sustancial
fuerte
decisiva
Ejemplo 3.5.5. Continuando con el ejemplo anterior, suponga que se desea poner a
prueba H0 ) θ < 1 contra H1 ) θ > 1. En este caso π0 = 0, 0228, π1 = 0, 9772, α0 = 0, 0567
y α1 = 0, 9433. Entonces el factor de Bayes es B10 = 0, 3885, y log10 B10 = −0,4106 lo
cual nos lleva a no rechazar la hipótesis nula.
Observaciones
Note que en prueba de hipótesis no es posible usar distribuciones a priori impropias.
El factor de Bayes existe solo si π0 6= 0 y π1 6= 0. Si, por ejemplo, π1 = 0 nunca rechazaremos
H0 independientemente de lo que observemos, dado que H1 es a priori un evento imposible.
46 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
Si Θ es un espacio continuo, la observación anterior muestra que no se puede utilizar una
distribución a priori absolutamente continua para poner a prueba H0 ) θ = θ0 . Esta distribución a priori asignará probabilidad 0 al suceso θ = θ0 . Para solucionar esto, tenemos dos
alternativas:
1. Cambiar la hipótesis nula a H0 ) θ ∈ (θ0 −ε, θ0 +ε), para algún ε > 0 lo “suficientemente
pequeño”. O sea, la hipótesis nula es ahora el conjunto de valores de θ que son desde
un punto de vista práctico, para el investigador, indistinguibles de θ0 .
2. Usar una distribución a priori que sea la composición de una distribución que asigna
probabilidad positiva π0 al suceso θ = θ0 y una densidad que asigne probabilidad
π1 = 1 − π0 sobre H1 . Este caso no lo trataremos en este curso.
Una manera alternativa de probar hipótesis simples versus compuesta, en algunos casos
particulares, es la descrita en la siguiente sección.
3.6.
Selección de Modelos
Suponga que un conjunto de K modelos M = {M1 , . . . , MK } están en consideración para un
conjunto de observaciones Y. Bajo el modelo Mk , Y se distribuye según f (y|θk , Mk ), donde θk es
un vector de parámetros desconocidos que indexa a los miembros de Mk (aún cuando nos referimos
a Mk como modelo, es más precisamente una clase de modelos). Se le asigna una distribución a
priori f (θk |Mk ) a los parámetos de cada modelo y una probabilidad a priori f (Mk ) a cada modelo.
Este proceso implica tres pasos, primero con probablidad f (Mk ) seleccionamos el modelo Mk , con
este generamos los valores de θk a través de f (θk |Mk ) y por último generamos los datos Y usando
f (y|θk , Mk ).
Nuestro interés se centra en hallar f (Mk |y). Para ello note que la distribución conjunta de Mk , θk
y Y está dada por
f (Mk , θk , y) = f (y|θk , Mk )f (θk |Mk )f (Mk ).
Por lo cual,
Z
f (y|θk , Mk )f (θk |Mk )f (Mk )dθk .
f (Mk , y) =
Θk
y en consecuencia
f (Mk |y) =
f (Mk , y)
∝ f (Mk , y) ∝ f (y|Mk )f (Mk ).
f (y)
Para decidir, calculamos el factor de Bayes para cada par (Mi , Mj ), i, j = 1, . . . , K y en base a
estos factores decidimos cuál es el mejor modelo que se ajusta a los datos. Esto es, seleccionamos
el modelo Mk que tiene mayor odds de haber generado los datos y.
En el caso particular que f (MK ) = 1/K, ningún modelo es preferible a priori, el problema se
reduce a seleccionar el modelo Mk que tenga mayor probabilidad a posteriori,
Mk = argmáx f (Mk |y).
k
Dado que el factor de Bayes, por ejemplo, entre el modelo Mk y Ml es
Bkl =
f (Mk |y)f (Ml )
f (Mk |y)
f (y|Mk )
=
∝
,
f (Ml |y)f (Mk )
f (Ml |y)
f (y|Ml )
Inferencia Bayesiana - 47
Introducción a la Inferencia Estadı́stica
alcanza con comparar las funciones de verosimilitud de y dado cada uno de los diferentes modelos.
Note que esto es similar al estadı́stico de razón de verosimilitudes clásico.
Ejemplo 3.6.1. Suponga el caso en que tenemos dos modelos M1 y M2 . A priori
asignamos f (M1 ) = f (M2 ) = 0, 5. M1 es una Bernoulli(0,5) y M2 es una Bernoulli(θ),
donde θ es desconocida. θ|M2 ∼ Uniforme(0,1). Suponga, además, que n = 200 y se
observaron 115 éxitos.
La verosimilitud, bajo cualquier modelo, puede se calculada usando una Binomial(n, θ).
Entonces, tenemos que para el Modelo 1,
200
f (y|M1 ) =
0, 5200 = 0, 005955892;
115
en el Modelo 2,
Z
f (y|M2 ) =
0
1
200 115
θ (1 − θ)85 dθ = 0, 004975124;
115
Por lo cual, el factor de Bayes da 0,8353281 con log10 B21 = −0,07814291, lo que apunta
a quedarnos con el Modelo 1.
3.7.
Modelos multiparámetro
La mayorı́a de las situaciones “reales” requieren modelos con más de un parámetro. Por lo general,
estamos interesados solamente en uno o en un subconjunto de ellos. En el enfoque Bayesiano las
inferencias se basan en la distribución a posteriori marginal de los parámetros de interés. Los
parámetros que no son de interés son llamados parámetros de ruido (nuisance parameters).
Considere un modelo con dos parámetros (θ1 , θ2 ) ∈ Θ× Θ2 , por ejemplo, una distribución normal
con media y varianza desconocidad. Estamos solamente interesados en θ1 , por lo tanto θ2 es un
parámetro de ruido. La distribución a posteriori marginal de interés es f (θ1 |y), la cual puede ser
obtenida directamente usando la distribución a posteriori conjunta:
f (θ1 , θ2 |y) ∝ f (θ1 , θ2 )f (y|θ1 , θ2 )
integrando con respecto a θ2 :
Z
f (θ1 |y) =
Z
f (θ1 , θ2 |y)dθ2 =
Θ2
f (θ1 , |θ2 , y)f (θ2 |y)dθ2
Θ2
La distribución marginal de θ1 es un composición de condicionales en θ2 , o un promedio ponderado
de la condicional evaluada en diferentes valores de θ2 donde los pesos estan dados por la marginal
f (θ2 |y).
Este es un enfoque diferente al frequentista, donde se sustituye el verdadero valor del parámetro
de ruido por su estimación máximo verosimil. Al promediar condicionalmente f (θ1 , |θ2 , y) sobre
todos los valore posibles de θ2 , explicitamente reconocemos nuestra incertidumbre acerca de θ2 .
Considere los siguientes dos casos extremos:
48 - Inferencia Bayesiana
Introducción a la Inferencia Estadı́stica
1. Seguridad casi absoluta acerca del valor de θ2 : Si a priori observaciones son muy “informativas” acerca de θ2 , la distribución marginal f (θ2 |y) estará concentrada alrededor de algún
valor θ̂2 . En ese caso,
f (θ1 |y) ≈ f (θ1 |θˆ2 , y).
2. Extrema incertidumbre acerca de θ2 : la distribución marginal f (θ2 |y) asignará relativamente
alta probabilidad en un gran rango de valores de θ2 . Estimador puntual θ̂2 es poco “confiable”. Por lo tanto, es importante promediar sobre el recorrido de θ2 .
Ejemplo 3.7.1. Suponga que se tienen n observaciones intercambiables Yi |µ, σ 2 ∼
N(µ, σ 2 ), ambas desconocidas. Asumiendo independencia a priori, tomamos como distribución conjunta a priori:
f (µ, σ 2 ) ∝ 1 × σ −2 .
La a posteriori conjunta:
n
1 X
f (µ, σ 2 |y) ∝ f (µ, σ 2 )f (y|µ, σ 2 ) ∝ σ −n−2 exp − 2
(yi − µ)2
2σ i=1
Dado que
n
X
i=1
(yi −µ)2 =
n
X
(yi − ȳ)2 +n(ȳ −µ)2 y con s02 =
i=1
!
n
1 X
(yi − ȳ)2 , podemos
n − 1 i=1
escribir la a posteriori de (µ, σ 2 ) de la siguiente manera
1
2
−n−2
02
2
f (µ, σ |y) ∝ σ
exp − 2 [(n − 1)s + n(ȳ − µ) ]
2σ
A partir de esta fórmula podemos calcular la distribución condicional a posteriori de
µ|σ 2 , y
n
f (µ|σ 2 , y) ∝ exp − 2 (ȳ − µ)2 .
2σ
que es el núcleo de una distribución N (ȳ, σ 2 /n).
Este resultado habı́a sido obtenido anteriormente, cuando calculamos la a posteriori de
la media de una distribución normal cuya la varianza es conocida.
Para obtener f (σ 2 |y) necesitamos integrar f (µ, σ 2 |y) sobre el recorrido de µ:
Z
1
2
−n−2
02
2
f (σ |y) ∝
σ
exp − 2 [(n − 1)s + n(ȳ − µ) ] dµ
2σ
Z
n
(n − 1)s02
−n−2
2
= σ
exp −
exp
−
(ȳ
−
µ)
dµ
2σ 2
2σ 2
(n − 1)s2 p
−n−2
= σ
exp −
2πσ 2 /n
2σ 2
Por lo tanto,
2
2 −
f (σ |y) ∝ (σ )
(n+1)
2
(n − 1)s02
exp −
,
2σ 2
Inferencia Bayesiana - 49
Introducción a la Inferencia Estadı́stica
lo cual es proporcional a la función de densidad de una χ2 inversa reescalada con (n−1)
grados de libertad y parámetro de escala s2 .
Note la similaridad con el resultado clásico: Condicional en σ 2 , la distribución de la
estadı́stica suficiente reescalada (n − 1)S 02 /σ 2 se distribuye χ2n−1 .
En el caso del modelo normal, también podemos hallar la marginal f (µ|y) analı́ticamente:
n/2+1
Z
Z 1
1
2
2
02
2
f (µ|y) = f (µ, σ |y)dσ ∝
exp − 2 [(n − 1)s + n(ȳ − µ) ] dσ 2
2σ 2
2σ
Tomando A = (n − 1)s02 + n(ȳ − µ)2 y usando la transformación
A
z = 2,
2σ
tenemos que
A
dσ 2
=− 2
dz
2z
y
Z ∞ n +1
Z
n
z 2 A
−n/2
f (µ|y) ∝
exp(−z)dz ∝ A
z 2 −1 exp(−z)dz
2
A
z
0
El integrando es el núcleo de una Gamma(n/2, 1), por lo tanto la integral es constante
con respecto a µ. Entonces,
−n/2
n(µ − ȳ)2
−n/2
02
2 −n/2
f (µ|y) ∝ A
= (n − 1)s + n(ȳ − µ)
∝ 1+
(n − 1)s02
que es a su vez el núcleo de una distribución t con n − 1 grados de libertad, centrada
en ȳ y con parametro de escala s02 /n. Por lo cual tenemos que,
µ − ȳ
√ y ∼ tn−1 .
s0 / n
Utilizando f (µ|y) y f (σ 2 |y) podemos hacer inferencias individuales acerca de µ y σ 2
respectivamente.
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Chipman, H., George, E. y McCulloch, R. (2001) The practical implementation of Bayesian model
selection. IMS Lectures Notes - Monograph Series.
Hogg, R., McKean, J. y Craig, A. (2005) Introduction to mathematical statistics. Pearson Prentice
Hall.
Mukhopadhyay, N (2000) Probability and statistical inference. Marcel Dekker.
Roberts, C. (2001) The Bayesian Choice. Springer.
Stapleton, J. (2008) Models for probability and statistical inference. Wiley-Interscience.
50 - Inferencia Bayesiana
CAPÍTULO 4
ESTIMACIÓN PUNTUAL
4.1.
Introducción
Tenemos X1 , . . . , Xn variables aleatorias iid que tienen una distribución en común dada por f (x),
x ∈ X . n se asume conocido y se le llama el tamaño de la muestra. Se asume además que f está
caracterizada por un parámetro θ. La importancia de θ, es que una vez que conocemos su valor, la
distribución f (x) estará totalmente determinada. Es por eso que usamos la notación f (x|θ), para
hacer explı́cita la dependencia en θ de f . Suponemos que θ es fijo, pero desconocido, el cual toma
valores en el espacio paramétrico Θ ⊆ Rk .
El propósito de este capı́tulo es encontrar reglas de decisión que nos permitan, una vez observada la muestra, asignarle un valor numérico a θ de entre todos los posibles valores especificados
en Θ. Primero daremos el concepto de estimador del parámetro de la distribución y formas de
construirlo. Dado que diferentes métodos de construcción pueden llevar a estimadores diferentes,
se definirán algunos criterios parar comparar su perfomance y dado un criterio para definir “el
mejor”, se tratará bajo este encontrar el mejor estimador de θ .
Definición 4.1.1. Un estimador o estimador puntual de un parámetro desconocido θ es una
función T = T (X1 , . . . , Xn ) que depende solo de las observaciones X1 , . . . , Xn . Esto es, T es un
~ = ~x, el valor numérico de
estadı́stico. Una vez que una muestra en particular es observada, X
~
~
T (X), T (~x), es calculable. Distinguimos entre T = T (X) y t = T (~x) refiriéndonos a ellos como el
estimador y la estimación de θ respectivamente.
El estimador es una variable aleatoria y la estimación es el valor numérico que toma esta una
vez observada la muestra. La definición establece que cualquier estadı́stico es un estimador. Por
ejemplo, X̄n , Sn2 , X(1) y X(n) son estimadores.
En lo que refiere a la notación usaremos θ̂ para representar tanto a un estimador de θ como a su
correspondiente estimación. Basado en el contexto se discrimina qué es lo que se está representando
con θ̂. Es de notar que este abuso de notación enmascara además el hecho de que formalmente,
51
Introducción a la Inferencia Estadı́stica
cuando nos referimos al estimador, θ̂ es una función de X1 , . . . , Xn y representa por lo tanto a
~ para representar al
una variable aleatoria. Cuando haya ambigüedad, usaremos la notación θ̂(X)
estimador de θ.
4.2.
Métodos para construir estimadores
Hasta este punto, la única restricción que tenemos es que T tiene que ser un estadı́stico para ser
candidato a ser llamado un estimador. Presentaremos dos métodos para construir estimadores: el
método de los momentos y el método de máxima verosimilitud.
4.2.1.
Método de los Momentos
Suponga que θ = (θ1 , . . . , θk ). Obtenemos los k primeros momentos ordinarios teóricos de la distribución f (x|θ) y pretendemos que son iguales a los correspondientes momentos ordinarios muestrales. En consecuencia, obtenemos un sistema de k ecuaciones en k incógnitas θ1 , . . . , θk . Resolvemos
simultáneamente estas k ecuaciones y las soluciones para θ1 , . . . , θk son los correspondientes estimadores por el método de los momentos. Al correspondiente estimador lo representaremos como
θ̂M M .
Ejemplo 4.2.1. Sean X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), donde θ es desconocido, 0 < θ < 1. Sabemos que E(X) = θ y M1 = X̄n . Por lo tanto, establecemos que
~ = X̄n es el estimador
E(X) = M1 , lo que implica que θ = X̄n . Entonces, θ̂M M = T (X)
por el método de los momentos de θ.
Ejemplo 4.2.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R
y σ 2 > 0 son desconocidos. Sabemos que E(X) = µ, E(X 2 ) = µ2 + σ 2 , M1 = X̄n y
n
1X 2
X . Establecemos que
M2 =
n i=1 i
n
E(X) = µ = X̄n = M1
E(X 2 ) = µ2 + σ 2 =
1X 2
X = M2 .
n i=1 i
Al resolver este sistema, nos queda que
n
µ̂M M = X̄n
y
2
σ̂M
M =
1X 2
X − X̄n2 = Sn2 .
n i=1 i
Si cualquiera de los momentos E(X k ) no depende de θ, se trabaja con k momentos que dependan
de θ. La elección de qué momentos utilizar es totalmente arbitraria. Esto lleva a que los estimadores
por el método de los momentos no sean únicos.
52 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.2.3. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(−θ, θ), θ ∈ R+ . Sabemos
que E(X) = 0, por lo cual la ecuación E(X) = M1 no tiene sentido. En este caso
debemos buscar un valor de k para el cual E(X k ) dependa de θ. Por ejemplo, E(X 2 ) =
θ2 /3. Entonces, establecemos que
n
θ
1X 2
E(X 2 ) =
=
X = M2
3
n i=1 i
2
⇒
θ̂M M
v
u n
u3 X
=t
X 2.
n i=1 i
Ejemplo 4.2.4. Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ ∈ R+ . Sabemos que
tanto E(X), como Var(X) son iguales a θ. Esto nos permite armar dos sistemas diferentes uno con E(X) = M1 y el otro con E(X 2 ) = M2 . Entonces, para cada ecuación
obtendremos un estimador de θ diferente:
E(X) = M1
⇒
θ = X̄n
⇒
θ̂M M = X̄n .
⇒ θ + θ2 = M2
i
p
1h
−1 ± 4M2 + 1
θ̂ =
2
⇒
θ + θ2 − M2 = 0
i
p
1h
−1 + 4M2 + 1
θ̂M M =
2
E(X 2 ) = M2
⇒
⇒
i
h
p
dado que 0, 5 −1 − 4M2 + 1 < 0 y por lo tanto, no pertenece a Θ.
El método de los momentos es una manera sencilla de construir estimadores. Sin embargo, los
estimadores obtenidos pueden, en determinadas situaciones, llevarnos a que la estimación de θ no
se encuentre dentro del espacio paramétrico.
Ejemplo 4.2.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . Sabemos que
E(X) = θ/2, por lo cual θ̂M M = 2X̄n . Suponga, que sacamos una muestra de tamaño 4
y observamos (1,1,1,4). Si calculamos X̄n para esta muestra obtenemos que x̄4 = 1,75,
los que nos lleva a que θ̂M M = 3, 5. El recorrido de la variable X es el intervalo (0, θ),
por lo cual P(X > θ)=0. Basándonos en que observamos un 4, sabemos que el espacio
paramétrico es de la forma (a, +∞), donde a ≥ 4. Por lo cual, 3,5 ∈
/ Θ y por ende no
es un valor aceptable para θ.
Estimación Puntual - 53
Introducción a la Inferencia Estadı́stica
4.2.2.
Función de verosimilitud
Dado un modelo probabilı́stico y valores para los parámetros, podemos derivar una descripción
de los datos en términos de la probabilidad de que estos ocurran. En base a este conocimiento
podemos, de manera deductiva, derivar las consecuencias de determinados supuestos. Por ejemplo,
suponga que realizamos un experimento Binomial con n = 10 y θ = 1/3, si X representa el número
de éxitos entonces Pθ (X = 8) = 0, 003. Esto significa que si repetimos 10.000 veces el experimento,
esperamos observar alrededor de 30 experimentos donde se observan 8 éxitos. Ahora suponga que
tiramos una moneda 10 veces y observamos X = 8 caras. Basándonos en solo esta información,
¿cuál es el valor de θ, la probabilidad de observar cara? (Esto es, no sabemos nada acerca de θ
antes de realizar el experimento.) La información acerca de θ no es completa, por lo cual habrá
cierta incertidumbre. Sin embargo, sabemos que θ no puede ser cero y es poco razonable que su
valor sea muy pequeño. Esto lo podemos deducir dado que si esto pasa, Pθ (X = 8) es cero o muy
pequeña. En contraste, θ = 0, 6 o θ = 0, 7 son más verosı́miles dado que Pθ=0,6 (X = 8) = 0, 1209
o Pθ=0,7 (X = 8) = 0, 2335. Por lo tanto, tenemos una manera deductiva de comparar diferentes
valores de θ: comparar la probabilidad de los datos observados bajo diferentes valores de θ.
Como función del parámetro desconocido, a la función
L(θ|8) = Pθ (X = 8)
se le llama la función de verosimilitud de x = 8. El gráfico 4.1 muestra que, dado que x = 8, θ es
poco verosı́mil que sea menor que 0,5 o mayor que 0,95. Es más verosı́mil que θ esté entre esos dos
valores. Dado que observamos x = 8, y ninguna otra información adicional, valores de θ entre 0,5
y 0,95 deberı́an ser preferibles. Está claro que no sabemos cuál es el verdadero valor de θ , pero
hemos capturado la información que la muestra nos provee acerca de qué intervalo de valores es
más verosı́mil.
Figura 4.1: Verosimilitud para x = 8
Definición 4.2.1. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ), θ ∈ Θ ⊂ Rk . Sea X el espacio
54 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
muestral. Para ~x = (x1 , . . . , xn ) ∈ X , a la función L(·|~x) : Θ → R+ , definida como
L(θ|~x) = fX1 ,...,Xn (~x|θ) =
n
Y
f (xi |θ) θ ∈ Θ,
i=1
se le llama la función de verosimilitud de ~x.
Ejemplo 4.2.6. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ).
Para ~x tal que
n
X
xi ∈ {0, 1, . . . , n}
i=1
L(θ|~x) = fX~ (~x|θ) =
n
Y
n
P
xi
1−xi
θ (1 − θ)
=θ
i=1
xi
n−
(1 − θ)
n
P
i=1
xi
I[θ∈(0,1)] .
i=1
X = {0, 1}n = {(x1 , . . . , xn )|xi ∈ {0, 1}, i = 1, . . . , n}
Note que este es exactamente el ejemplo 2.2.2. En los cálculos no hay ningún cambio,
solo en la interpretación de la función. Lo cual se refleja en el factor I[θ∈(0,1)] .
Observación 4.2.1. La función de verosimilitud no es una función de densidad o cuantı́a. Mide
la evidencia contenida en la muestra acerca de cada posible valor del parámetro. Si comparamos
valores de la función de verosimilitud en dos valores del parámetro, θ1 y θ2 , y encontramos que
L(θ1 |~x) > L(θ2 |~x), entonces la muestra que observamos es más probable que haya ocurrido cuando
θ = θ1 que cuando θ = θ2 . Esto es interpretado como que θ1 es más verosı́mil que θ2 .
Ejemplo 4.2.7. Sea X ∼ Poisson(θ). Se sabe que en un proceso donde se fabrican
pisos flotantes se utilizan dos máquinas, la máquina A y la B. La máquina A tiende a
producir en promedio 4 fallas por cada 10m2 , mientras que la B produce en promedio
8 fallas. Se elige al azar un lote de 10m2 producidos y se observa que tiene 6 fallas.
La función de verosimilitud, para esta sola observación es e−θ θ6 /6!, donde θ = 4 si la
pieza fue fabricada por la máquina A u 8 si la pieza fue fabricada por la máquina B.
L(4|6) = 0,104196 < 0,122138 = L(8|6). Por lo tanto, habiéndose observado 6 fallas,
es más verosı́mil que la pieza haya sido fabricada por la máquina B.
Ejemplo 4.2.8. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ). En este caso
θ = (µ, σ 2 ) ∈ R × R+ . Con ~x = (x1 , . . . , xn ) ∈ X = Rn ,
(
)
n
n
X
Y
1
1
1
√
exp − 2 (xi − µ)2 = (2πσ 2 )−n/2 exp − 2
(xi − µ)2
L(µ, σ 2 |~x) =
2
2σ
2σ
2πσ
i=1
i=1
Estimación Puntual - 55
Introducción a la Inferencia Estadı́stica
Observación 4.2.2. La verosimilitud se puede definir para otros esquemas de muestreo que
no garanticen necesariamente independencia e idéntica distribución. Por ejemplo, suponga que
Y1 , . . . , Yn son v.a. que dadas ciertas constantes x1 , . . . , xn , se tiene que Yi = β0 + β1 xi + εi . Donde
ε1 , . . . , εn son v.a iid con distribución común N(0, σ 2 ), β0 ∈ R y β1 ∈ R.
De esto se desprende que Yi ∼ N(β0 + β1 xi , σ 2 ), i = 1, . . . , n. Note que las Yi son independientes
pero no idénticamente distribuidas, ya que su valor esperado es una función de xi .
La distribución de Yi depende de tres parámetros β0 , β1 y σ 2 , por lo cual para ~y = (y1 , . . . , yn )
2
L(β0 , β1 , σ |~y ) =
n
Y
fYi (yi |β0 , β1 , σ 2 )
i=1
n
Y
1
2
√
exp − 2 [yi − (β0 + β1 xi )]
=
2σ
2πσ 2
i=1
)
(
n
1 X
2
2 −n/2
[yi − (β0 + β1 xi )]
= (2πσ )
exp − 2
2σ i=1
4.2.3.
1
Estimadores máximo verosimiles
Supongan que nos regalan una bolsa de caramelos M&M’s. Nos dicen que la proporción de caramelos de distinto color es la misma pero no nos dicen de cuántos colores distintos pueden ser los
caramelos. Deseamos estimar el numero k de colores diferentes.
Supongamos que escogemos tres caramelos y observamos: verde, blanco, verde (x1 = V BV ). ¿Cuál
es la probabilidad de observar este resultado en particular si sabemos que hay k colores diferentes?
Dado que solo estamos interesados en los colores, a esta probabilidad la podemos calcular de la
siguiente manera
P(x1 |k) = P(el segundo6= al primero)P(el tercero = al primero)
k−11
=
k k
k−1
=
k2
El valor de P (x1 |k) es nuestra función de verosimilitud L(k|V BV ). Si la evaluamos para diferentes
valores de k, tenemos
k
L(k|V BV )
2
0,25
3
0,22
4
0,1875
5, . . .
decreciente en k
El valor de k que maximiza la probabilidad de haber observado la muestra que realmente se
observó es 2. Que hayamos observado la muestra V BV nos indica que el número de colores en la
bolsa que es más verosı́mil es 2. Con lo cual esta es la estimación más verosı́mil de k.
Suponga que sacamos otro caramelo. Esto es, ahora tenemos una muestra de tamaño n = 4.
Suponga además que el color del caramelo extraı́do es naranja. Por lo tanto, nuestra muestra es
x2 = V BV N . Con similar razonamiento que en el cálculo anterior, usando que el cuarto caramelo
es de un color distinto a los sacados anteriormente, la función de verosimilitud L(k|V BV N ) ahora
será
k−11k−2
(k − 1)(k − 2)
=
.
P(x2 |k) =
k k k
k3
56 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
k
L(k|V BV N )
3
0,0741
4
0,0938
5
0,096
6
0,0926
7
0,0875
8, . . .
decreciente en k
En este caso, basado en haber observado V BV N , el valor más verosı́mil para k es 5.
De esta manera podemos ir hallando estimaciones para k, buscando el valor de k que maximiza
la probabilidad de observar a priori la muestra que se obtuvo. Habiendo construido la función de
verosimilitud, escogemos como estimación de k el valor del parámetro que maximiza dicha función.
A la estimación hallada de esta manera la llamaremos estimación máximo verosı́mil.
Definición 4.2.2. Sea X ∼ f (·|θ). Definimos las siguientes condiciones de regularidad sobre f :
C1 - Si θ 6= θ0 ⇒ f (x|θ) 6= f (x|θ0 ).
C2 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ.
C3 - El verdadero valor de θ, θ0 , es un punto interior de Θ.
Teorema 4.2.1. Sea θ0 el verdadero valor de θ. Bajo las condiciones de regularidad
~ > L(θ|X))
~ = 1 ∀θ 6= θ0 .
lı́m Pθ0 (L(θ0 |X)
n→∞
Este teorema justifica utilizar el valor que maximiza la función de verosimilitud como estimación
de θ. Este razonamiento se extiende a los casos donde no se cumple alguna de las condiciones de
regularidad.
Definición 4.2.3. Decimos que θ̂M V = T (X1 , . . . , Xn ) es el estimador máximo verosı́mil de θ si
θ̂M V = Argmáx L(θ|~x).
O sea,
L(θ̂M V |~x) = máx L(θ|~x).
θ∈Θ
En lo que respecta a la definición no existe ninguna directiva de qué método matemático utilizar
para hallar el máximo de L(θ|~x). Si L(θ|~x) es diferenciable dos veces, podemos utilizar las técnicas
estándar de cálculo diferencial para hallar θ̂M V . En este último caso, a veces es más fácil trabajar
con el logaritmo de la función de verosimilitud, dado que al ser el logaritmo una función creciente
tiene exactamente los mismos puntos crı́ticos que L(θ|~x). Al logaritmo de L(θ|~x) lo denotaremos
l(θ|~x).
Ejemplo 4.2.9. Continuación ejemplos 4.2.1 y 4.2.6. Con t =
n
X
Xi , la función de
i=1
verosimilitud es θt (1 − θ)n−t . Por lo tanto, l(θ|~x) = t log θ + (n − t) log(1 − θ). Entonces,
t
n−t
t − nθ
t
d
l(θ|~x) = −
=
= 0 ⇒ θ̂ = = X̄n .
dθ
θ 1−θ
θ(1 − θ)
n
Estimación Puntual - 57
Introducción a la Inferencia Estadı́stica
d
log l(θ|~x) depende solo de (X̄n − θ), es fácil comprobar que
dθ
d2
el punto crı́tico hallado es un máximo. Alternativamente, calculamos 2 log l(θ|~x) =
dθ
−t/θ2 − (n − t)/(1 − θ)2 < 0, ∀θ.
Dado que el signo de
La figura 4.2 muestra la figura 4.1 donde se ha marcado la estimación máximo verosı́mil
de θ. En ese caso tenı́amos n = 10 y t = 8; con lo cual, x̄n = 0, 8.
Figura 4.2: Estimador máximo verosı́mil de θ
Ejemplo 4.2.10. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es
desconocida y σ 2 > 0 es conocida. En este caso θ = µ ∈ R. Usando L(µ, σ 2 |~x) descrita
en el ejemplo 4.2.8, tenemos que
n
n
1 X
d
1 X
2
l(µ|~x) = c − 2
(xi − µ) ⇒
l(µ|~x) = 2
(xi − µ).
2σ i=1
dµ
σ i=1
Por lo tanto, si hacemos
n
X
(xi − µ) = 0 tenemos que θ̂M V = X̄n .
i=1
d2
n
l(µ|~x) = − 2 < 0 ∀µ, lo que garantiza que el punto crı́tico de l(µ|~x)
2
dµ
σ
hallado es un máximo.
Note que
Observación 4.2.3. En el ejemplo anterior, en la maximización en µ de l(µ|~x) nunca interviene
σ 2 . Por lo tanto, para hallar el estimador máximo verosı́mil de µ no importa si conocemos o no el
verdadero valor de σ 2 .
58 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.2.11. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ ∈ R es
conocida y σ 2 es desconocida. En este caso θ = σ 2 > 0. Tenemos que
Pn
n
2
n
1 X
d
1 n
2
2
2
i=1 (xi − µ)
l(σ |~x) = c− log σ − 2
(xi −µ) ⇒
l(σ |~x) = −
−
2
2σ i=1
d(σ 2 )
2 σ2
σ4
2
Con lo que tenemos, que si
Pn
Pn
2
2
1 n
2
i=1 (xi − µ)
i=1 (xi − µ)
−
=
0
⇒
σ̂
=
= Sn2∗ .
−
2
4
2 σ
σ
n
2
2∗
Para verificar que σ̂M
V = Sn , basta con notar que
Pn
2
d2
n
n σ2
2∗
2
i=1 (xi − µ)
− Sn
l(σ |~x) = 4 −
= 6
d(σ 2 )2
2σ
σ6
σ
2
d2
l(σ 2 |~x)
d(σ 2 )2
⇒
=−
2∗
σ 2 =Sn
n
(Sn2∗ )2
< 0.
Ejemplo 4.2.12. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde ambos µ
y σ 2 son desconocidos. En este caso θ = (µ, σ 2 ) ∈ R × R+ . En este caso combinamos
lo hallado en ejemplos anteriores. En el ejemplo 4.2.10, vimos que para maximizar
l(µ, σ 2 |~x) con respecto a µ no hace falta conocer el valor de σ 2 y que θ̂M V = X̄n .
2
Ahora, en el resultado de ejemplo 4.2.11, sustituimos µ por x̄n y obtenemos que σ̂M
M =
n
X
(xi − x̄n )2 /n = Sn2 . Solo nos falta verificar que (x̄n , Sn2 ) es un máximo de l(µ, σ 2 |~x).
i=1
Para ello calculamos
d2
l(µ, σ 2 |~x) = −
2
dµ dσ
Pn
i=1 (xi
σ4
− µ)
y verificamos que la matriz Hessiana evaluada en (x̄n , Sn2 ) es definida negativa.

 
Pn

d2
d2
n
2
i=1 (xi − µ)
l(µ|~
x
)
l(µ,
σ
|~
x
)
−
−
 
 dµ2

dµ dσ 2
 =  Pn σ 2
Pnσ 4
H=
2
2
2.
 d

d
(x
−
µ)
(x
−
µ)
n
i
i
l(µ, σ 2 |~x)
l(σ 2 |~x)
− i=1 4
− i=1 6
dµ dσ 2
d(σ 2 )2
σ
2σ 4
σ
Con lo cual

n
0
2


=  Sn
n ,
0
− 4
2Sn

G=
H
2)
(µ,σ 2 )=(x̄n ,Sn
G11 = −
−
n
n2
<
0
y
|G|
=
> 0 ⇒ G es definida negativa.
Sn2
Sn6
Estimación Puntual - 59
Introducción a la Inferencia Estadı́stica
Ejemplo 4.2.13. Sea X1 , . . . , Xn una MA de X ∼ Gamma(α, β). θ ∈ R+2 .
l(α, β|~x) = c + nα log β − n log Γ(α) + α
n
X
log xi − β
i=1
n
X
xi .
i=1
Por lo tanto, el sistema de ecuaciones a resolver es
n
Γ0 (α) X
d
l(α, β|~x) = n log β − n
+
log xi = 0
dα
Γ(α)
i=1
(4.1)
n
nα X
d
l(α, β|~x) =
−
xi = 0
dβ
β
i=1
(4.2)
Usando, la ecuación (4.2), podemos despejar
nα
β = Pn
i=1
xi
⇒ β=
α
.
x̄n
Desafortunadamente, no existe expresión sencilla en la ecuación (4.1) para Γ0 (α) y por
lo tanto, no hay una forma cerrada de expresar el estimador máximo verosı́mil de (α, β).
Para determinar, dada una muestra en particular, qué valores toman (α̂, β̂) debemos
utilizar métodos numéricos.
Cuando no se cumple la condición C2 (θ es parte del Rec(X)), no se puede aplicar el método de
la derivada para maximizar la verosimilitud. En algunos de estos casos, una simple inspección de
la función nos lleva a encontrar el estimador máximo verosı́mil.
Ejemplo 4.2.14. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ), θ ∈ R+ . La función
de verosimilitud es
n
n Y
n
1
1
I[0<xi <θ] =
I[x(1) >0] I[x(n) <θ]
(4.3)
L(θ|~x) =
θ
θ
i=1
donde x(1) = mı́n{x1 , . . . , xn } y x(n) = máx{x1 , . . . , xn }
La gráfica de la fórmula 4.3 se muestra en la Figura 4.3. De simple inspección, se
observa que si θ es menor que x(n) , L(θ|~x) = 0 dado que existe la restricción de que
todas las observaciones deben ser menores o iguales que θ dado que este es el máximo
del recorrido de X. Cuando θ ≥ x(n) , L(θ|~x) es decreciente en θ. Por lo cual, cuanto más
pequeño sea el valor de θ, mayor será el valor de L(θ|~x). En vista de esto, el mı́nimo
valor que le podemos dar a θ es el máximo valor observado. Esto es, θ̂M V = X(n) .
Nótese que el punto θ = x(n) es un punto de discontinuidad de L(θ|~x) y por lo tanto
no es existe la derivada con respecto a θ en ese punto.
60 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Figura 4.3: Función de verosimilitud, X ∼ Uniforme(0, θ), n = 10 y x(10) = 4.
Ejemplo 4.2.15. Sean X(1) < . . . < X(n) las estadı́sticas de orden de una MA de
X ∼ Uniforme(θ − 1/2, θ + 1/2). La función de verosimilitud está dada por
L(θ|~x) = I[θ−1/2<x(1) ] I[x(n) <θ+1/2] = I[θ<x(1) +1/2] I[x(n) −1/2<θ] = I[x(n) −1/2<θ<x(1) +1/2] .
~ que cumpla X(n) − 1/2 < T (X)
~ < X(1) + 1/2
Por lo cual, cualquier estadı́stico T (X)
es un EMV de θ. Los estadı́sticos,
~ =
T1 (X)
4X(1) + 2X(n) + 1
6
~ =
T2 (X)
X(1) + X(n)
2
~ =
T1 (X)
2X(1) + 4X(n) − 1
,
6
cumplen con la restricción y por lo tanto son todos EMV de θ.
Este ejemplo muestra que los EMV no necesariamente son únicos. Esto suele suceder
cuando no se cumplen las condiciones de regularidad definidas en 4.2.2.
Suponga que nos encontramos en la situación del ejemplo 4.2.12.√Pero en lugar de estar interesados
en la varianza de X, deseamos estimar su desvı́o estándar, σ = σ 2 . Para ellos debemos plantearnos las dos ecuaciones d/dµ l(µ, σ|, ~x) = 0 y d/dµ l(µ, σ|, ~x) = 0 Vimos que la maximización con
respecto a µ no involucraba a σ 2 , por lo cual el estimador máximo verosı́mil de µ sigue siendo el
mismo que antes X̄n . Por lo cual para hallar el estimador máximo verosı́mil de σ, resolveremos la
ecuación d/dσ l(σ|µ = x̄n , ~x) = 0. Esto es,
Pn
Pn
2
2
d
d
n
i=1 (xi − x̄n )
i=1 (xi − x̄n )
l(σ|µ = x̄n , ~x) =
−n log σ −
=
−
+
=0
dσ
dσ
2σ 2
σ
σ3
r Pn
q
2
p
i=1 (xi − x̄n )
2
⇒ σ̂M V =
= Sn2 = σ̂M
V
n
Esto es, el estimador máximo verosı́mil de la raı́z cuadrada de la varianza de X es nada más que
la raı́z cuadrada del estimador máximo verosı́mil de la varianza de X. Esto se debe a la propiedad
de invarianza de los estimadores máximo verosı́miles.
Teorema 4.2.2. Si θ̂M V es el estimador máximo verosı́mil de θ, entonces para cualquier función
τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂M V ).
Estimación Puntual - 61
Introducción a la Inferencia Estadı́stica
Ejemplo 4.2.16. Continuación del ejemplo 4.2.9. Suponga que ahora deseamos estimar
Var(X) = nθ(1 − θ). En este caso, τ (θ) = nθ(1 − θ) y sabemos que θ̂M V = X̄n . Por lo
tanto, la propiedad de invarianza de los estimadores máximo verosı́mil nos indica que
τd
(θ) = τ (θ̂M V ) = τ (X̄n ) = nx̄n (1 − X̄n ).
Ejemplo 4.2.17. Continuación del ejemplo 4.2.12. Se desea estimar P(X ≤ a). Sabemos que
a−µ
= τ (µ, σ)
P(X ≤ a) = Φ
σ
p
2
2
y que µ̂M V = X̄n y σ̂M
=
S
.
Por
lo
tanto,
σ̂
=
Sn2 = Sn y
M
V
V
n
τ\
(µ, σ)M V = τ (µ̂M V , σ̂M V ) = τ (X̄n , Sn ) = Φ
a − X̄n
Sn
4.3.
Evaluación de Estimadores
Hemos desarrollado dos métodos para construir estimadores. Habiéndolos contruidos, surge la
necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos criterios. Un
criterio fundamental es el principio de suficiencia desarrollado en el capı́tulo anterior. En este
nuevo contexto sigue siendo de suma importancia. Si para un problema dado existen estimadores
suficientes no tiene sentido prestarle atención a estimadores que no lo sean. Recuerde que la
suficiencia de un estimador T para un parámetro θ implicaba que toda la informaci’on que hay en
la muestra acerca de θ está está contenida en T . Esto es, una vez que sabemos el valor de T (~x) es
irrelevante conocer cuál es la muestra en particualr que obtuvimos.
Observación 4.3.1. Note que si T es suficiente para θ
L(θ|~x) = g(T (~x); θ)h(~x) ⇒ l(θ|~x) = log g(T (~x); θ) + log h(~x).
Esto implica que para encontrar el estimador máximo verosı́mil de θ tenemos que resolver la
ecuación
d
d
l(θ|~x) =
log g(T (~x); θ) = 0.
dθ
dθ
Por lo tanto, si existe el estimador máximo verosı́mil de θ, este es una función de un estadı́stico
suficiente. Este resultado se puede generalizar para el caso donde no se puede usar cálculo diferencial para hallar el estimador máximo verosı́mil de θ.
En esta sección definiremos criterios de optimalidad y cómo verificar cuáles estadı́sticos lo alcanzan.
62 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
4.3.1.
Información de Fisher
Decimos que una estadı́stica suficiente extrae “toda la información que tiene la muestra” acerca
de θ. La pregunta entonces es ¿cuánta información hay en la muestra acerca de θ que queremos
preservar? Para contestarla, nos enfocaremos solo en el caso univariado. Esto puede ser fácilmente
generalizado al caso donde θ es un vector de parámetros. Suponga que X es una variable aleatoria
real con distribución f (x|θ), con θ ⊆ R, tal que
R1 - f tiene el mismo soporte ∀θ ∈ Θ. Esto es, el recorrido de X no depende de θ.
d
f (x|θ) < ∞, ∀x ∈ X , θ ∈ Θ.
dθ
Z
Z
d
d
R3 f (x|θ).
f (x|θ) =
dθ
dθ
R2 -
Definición 4.3.1. Sean X1 , . . . , Xn variables aleatorias. Bajo las condiciones R1, R2 y R3, la
información de Fisher, o simplemente la información, acerca de θ contenida en la muestra es
"
2 #
d
~
.
log fX~ (X|θ)
IX~ (θ) = Eθ
dθ
Ejemplo 4.3.1. Cuando X1 , . . . , Xn es una MA de X ∼ Bernoulli(θ), encontramos en
el ejemplo 4.2.9 que l(θ|~x) = t log θ + (n − t) log(1 − θ) y
d
t − nθ
l(θ|~x) =
.
dθ
θ(1 − θ)
(4.4)
Por lo tanto, recordando que Var(X) = θ(1 − θ),
"
2 #
t − nθ
1
nθ(1 − θ)
n
IX~ (θ) = E
=
E (t − nθ)2 =
=
.
2
2
θ(1 − θ)
[θ(1 − θ)]
[θ(1 − θ)]
θ(1 − θ)
⇒ IX~ (θ) =
n
Var(X)
Esto significa que, dejando n fijo, la información contenida en la muestra acerca de θ es
mayor cuanto menor sea la dispersión de la variabale aleatoria X. Esto es, cuanto más
concentrada esté su distribución alrededor del valor esperado θ. Note que la varianza
de X, vista como una función de θ, alcanza su mayor valor cuando θ = 0, 5. Por lo cual
cuanto más se cerca esté el verdadero valor de θ de 0 o 1, más información nos dará la
muestra acerca de θ.
Ejemplo 4.3.2. Sea X1 , . . . , Xn (n > 2) una MA de X ∼ N(µ, σ 2 ), donde µ es desconocida y σ 2 > 0 es conocida. En el ejemplo 4.2.10 hallamos que


!2 
!2 
n
n
n
X
X
X
d
1
1
~ = 1
l(µ|X)
(Xi −µ) ⇒ IX~ (µ) = E  2
(Xi − µ)  = 4 E 
(Xi − µ)  .
2
dµ
σ i=1
σ i=1
σ
i=1
Estimación Puntual - 63
Introducción a la Inferencia Estadı́stica
Note que
"
n
X
#2
(Xi − µ)
=
i=1
n
X
n X
n
X
(Xi − µ) + 2
(Xi − µ)(Xj − µ)
2
i=1
i=1 j=1
i<j
Por lo cual
" n
#2
n
n X
n
n
X
X
X
X
2
E
(Xi − µ) =
E(Xi −µ) +2
E[(Xi −µ)(Xj −µ)] =
E(Xi −µ)2 = nσ 2
i=1
i=1
i=1 j=1
i<j
i=1
Dado que E[(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = 0 y E(Xi − µ)2 = σ 2 .
n
. Note que, para n fijo, IX~ (µ) → 0 si σ 2 → ∞ y que IX~ (µ) → ∞ si
2
σ
σ 2 → 0. Con lo cual, la información contenida en la muestra acerca de µ es más grande
cuanto más concentrada es la distribución de X alrededor de µ. Dejando σ 2 fijo, se ve
que la información aumenta a medida que incrementamos el tamaño de la muestra. Entonces, IX~ (µ) =
d
~ se le denomina función score. Esta función mide la
l(θ|X)
dθ
sensibilidad de f (~x|θ) a cambios en valor de θ.
Definición 4.3.2. A la función
Observación 4.3.2. La derivada de una función mide la rapidez con la que cambia el valor de
dicha función matemática, según cambie el valor de su variable independiente. El valor de la derivada de una función en un punto puede interpretarse geométricamente, ya que se corresponde con
la pendiente de la recta tangente a la gráfica de la función en dicho punto. En la función score,
la variable independiente es el parámetro a estimar θ. Esto es, la función score da una idea de la
curvatura de la función de verosimlitud.
En lo que sigue asumiremos la siguiente notación
Z
Z ∞
Z ∞
...
f (x1 , . . . , xn |θ) dx1 . . . dxn =
−∞
∞
f (~x|θ) d~x.
−∞
−∞
Asumiendo que X es absolutamente continua (el caso discreto es similar cambiando las integrales
por sumatorias) y que se cumplen las condicones R1, R2 y R3. Sabemos que
Z ∞
1=
fX~ (~x|θ) dx.
−∞
Por lo tanto,
d
0 =
Zdθ
Z
∞
∞
−∞
fX~ (~x|θ) d~x
(derivamos una constante)
d
f ~ (~x|θ) d~x
(se cumple R3)
dθ X
Z−∞
∞
f ~ (~x|θ)
f ~ (~x|θ)
d
=
fX~ (~x|θ) X
d~x
(multiplicamos por 1 = X
)
dθ
fX~ (~x|θ)
fX~ (~x|θ)
Z−∞
∞
d
=
log(fX~ (~x|θ)) fX~ (~x|θ) d~x (definición de derivada de log f )
−∞
dθ
d
~
= Eθ
log fX~ (X|θ) .
dθ
=
64 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Por lo tanto,
Eθ
d
~
log fX~ (X|θ)
=0
dθ
Lo cual a su vez implica que
Varθ
"
2 #
d
d
~
~
log fX~ (X|θ)
= Eθ
log fX~ (X|θ)
= IX~ (θ).
dθ
dθ
(4.5)
Se definen las siguientes condiciones adicionales
d2
f ~ (~x|θ) < ∞, ∀~x ∈ X , θ ∈ Θ.
d θ2 X
Z
Z
d2
d2
R5 fX~ (~x|θ) =
f ~ (~x|θ).
d θ2
d θ2 X
R4 -
Si estas condiciones se cumplen, derivando nuevamente tenemos que
d2
0 = 2
Zdθ
Z
∞
−∞
∞
2
fX~ (~x|θ) d~x
d
f ~ (~x|θ) d~x
dθ2X
Z−∞
∞
d
d
=
log(fX~ (~x|θ)) fX~ (~x|θ) d~x
dθ
dθ
−∞
2
Z ∞ 2
Z ∞
d
d
=
log(fX~ (~x|θ)) fX~ (~x|θ) d~x +
log(fX~ (~x|θ)) fX~ (~x|θ) d~x
dθ2
dθ
−∞
Z−∞
∞
d2
=
log(fX~ (~x|θ)) fX~ (~x|θ) d~x + IX (θ).
dθ2
−∞
=
De donde,
Z
IX~ (θ) = −
∞
−∞
2
d2
d
~
log(fX~ (~x|θ)) fX~ (~x|θ) d~x = −Eθ
log(fX~ (X|θ))
dθ2
dθ2
(4.6)
Observación 4.3.3. Sea X ∼ fX (x|θ). Si fX (x|θ) pertence a la familia exponencial, entonces,
R1, R2, R3, R4 y R5 se cumplen. Entonces, podemos aplicar la fórmula 4.6.
Ejemplo 4.3.3. Continuación del ejemplo 4.3.2.
!
n
n
Y
d
d
1 X
d2
n
~
(Xi − µ) ⇒
l(µ|X) =
log
l(µ|~x) = − 2
fXi (xi ) = 2
2
dµ
dµ
σ i=1
dµ
σ
i=1
n
n
⇒ IX~ (µ) = −E − 2 = 2 .
σ
σ
Estimación Puntual - 65
Introducción a la Inferencia Estadı́stica
Teorema 4.3.1. Suponga que X1 , . . . , Xn es una MA de X ∼ f (x|θ). Sea
"
"
2 #
2 #
d
d
~
IX1 (θ) = Eθ
log fX (X|θ)
y IX~ (θ) = Eθ
log fX~ (X|θ)
dθ
dθ
la información acerca de θ contenida en X1 y la contenida en la muestra respectivamente. Entonces,
IX~ (θ) = nIX1 (θ) ∀θ ∈ Θ.
(4.7)
Demostración. Sabemos que bajo independencia e idéntica distribución
n
n
n
Y
X d
d
d X
d
log fX~ (~x|θ) =
log
fX (xi |θ) =
log fXi (xi |θ) =
log fXi (xi |θ).
dθ
dθ
dθ
dθ
i=1
i=1
i=1
(4.8)
Por lo tanto,
d
~
IX~ (θ)
= Varθ
log fX~ (X|θ)
(fórmula 4.5)
dθ
!
n
X
d
= Var
log fXi (Xi |θ)
(fórmula 4.8)
dθ
i=1
n
X
d
=
Var
log fXi (Xi |θ)
(independencia)
dθ
i=1
=
n
X
IXi (θ)
(definición de IXi (θ))
(4.9)
i=1
= nIX1 (θ)
(idéntica distribución).
(4.10)
Observación 4.3.4. De 4.9 se desprende que bajo independencia la información es aditiva: Si X
y Y son v.a. independientes; IX (θ) e IY (θ) representan la información acerca de θ contenida en X
y Y respectivamente. Entonces,
IX,Y (θ) = IX (θ) + IY (θ).
Ejemplo 4.3.4. Continuación del ejemplo 4.3.1.
Para una observación, L(θ|x) = θx (1−θ)1−x , de donde l(θ|x) = x log θ+(1−x) log(1−θ).
Entonces
d
x 1−x
x−θ
[x log θ + (1 − x) log(1 − θ)] = −
=
.
dθ
θ
1−θ
θ(1 − θ)
Entonces,
"
IX (θ) = E
X −θ
θ(1 − θ)
2 #
=
E[(X − θ)2 ]
1
=
.
2
2
θ (1 − θ)
θ(1 − θ)
De donde, por 4.10
IX~ (θ) = nIX (θ) =
n
θ(1 − θ)
66 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.3.5. Si se cumplen las condiciones para que se puedan aplicar las fórmulas
(4.6) y (4.7), ambas se pueden combinar.
Sea X1 , . . . , Xn es una MA de X ∼ Gamma(3, β). En este caso se cumplen las condiciones dado que trabajamos con una MA y además fX (x|β) pertenece a la familia
exponencial. Entonces,
f (x|β) =
⇒
β 3 2 −βx
xe
⇒ log f (x|β) = c + 3 log β − βx
Γ(3)
d
3
d2
3
log f (x|β) = − x ⇒
log f (x|β) = − 2 .
2
dβ
β
dβ
β
Entonces, usando primero la fórmula (4.6) y luego la fórmula (4.7),
2
3
3n
d
log
f
(x|β)
=
⇒
I
(θ)
=
nI
(θ)
=
.
IX (θ) = −E
~
X
X
dβ 2
β2
β2
Definición 4.3.3. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ). Sea T = T (X1 , . . . , Xn ), un estadı́stico con función de densidad o cuantı́a fT (t|θ). Bajo las condiciones R1, R2 y R3, la información
de Fisher, o simplemente la información, acerca de θ contenida en T es
"
2 #
d
log fT (T |θ)
.
IT (θ) = Eθ
dθ
Teorema 4.3.2. Sea X1 , . . . , Xn una MA de X ∼ fX (x|θ) y T = T (X1 , . . . , Xn ) un estadı́stico.
Entonces,
IX~ (θ) ≥ IT (θ) ∀θ ∈ Θ.
La igualdad se cumple si y solo si T es suficiente para θ.
Ejemplo 4.3.6. Continuación del ejemplo 4.3.4.
T =
n
X
Xi es suficiente para θ. T ∼ Binomial(n, θ). Por lo cual,
i=1
n t
fT (t|θ) =
θ (1 − θ)n−t ⇒ log fT (t|θ) = c + t log θ + (n − t) log(1 − θ).
t
⇒
d
t
n−t
t − nθ
log fT (t|θ) = −
=
.
dθ
θ 1−θ
θ(1 − θ)
Esta última fórmula es exactamente la ecuación 4.4, que derivamos en el ejemplo 4.3.1
para hallar IX~ (θ).
Estimación Puntual - 67
Introducción a la Inferencia Estadı́stica
~ ∼ fT (t|θ) un estadı́stico tal que: 1) fT (t|θ) satisface las condicioTeorema 4.3.3. Sea T = T (X)
nes R1, R2 y R3; 2) E(T ) = θ. Entonces,
~ ≥ I−1 (θ).
Var(T (X))
~
X
Demostración. Recuerde la desigualdad de Cauchy-Schwarz:
Dadas dos variables aleatorias W y Z, [E(W Z)]2 ≤ E(W 2 )E(Z 2 ).
Z
∞
Si E(T ) = θ, tenemos que E(T − θ) =
−∞
(T (~x) − θ)fX~ (~x|θ) d~x = 0. De donde,
Z ∞
Z ∞
d
d
R3
0=
(T (~x) − θ)fX~ (~x|θ) d~x =
(T (~x) − θ)fX~ (~x|θ) d~x
dθ −∞
−∞ dθ
Z ∞
Z ∞
d
(T (~x) − θ) fX~ (~x|θ) d~x.
fX~ (~x|θ) d~x +
=−
dθ
−∞
−∞
Esta última igualdad la obtenemos de aplicar lafórmula de la derivada
de un producto de dos
d
d
funciones. Recordando además que
f ~ (~x|θ) =
log fX~ (~x|θ) fX~ (~x|θ), tenemos que
dθ X
dθ
Z ∞
d
(T (~x) − θ)
log fX~ (~x|θ) f (~x|θ) d~x = 1.
dθ
−∞
d
log fX~ (~x|θ), acabamos de mostrar es que E(W Z) = 1. Además
dθ
"
2 #
d
~
~ − θ)2 = Var(T )
log fX~ (X|θ)
= IX~ (θ).
E(W 2 ) = E (T (X)
E(Z 2 ) = E
dθ
Tomando W = (T (~x)−θ) y Z =
Aplicamos a W y Z la desigualdad de Cauchy-Schwarz y tenemos que
~ ≥ I−1 (θ).
Var(T ) IX~ (θ) ≥ 1 ⇒ Var(T (X))
~
X
Ejemplo 4.3.7. Continuación ejemplo 4.3.2.
n
Sabemos que IX~ (µ) = 2 y que E(X̄n ) = µ. Por lo tanto, el teorema anterior especifica
σ
n −1
σ2
σ2
que Var(X̄n ) ≥
=
.
Pero
para
este
problema,
sabemos
que
Var(
X̄
)
=
.
n
σ2
n
n
0
0
0
Lo que implica que no existe otro estimador T = T (X1 , . . . , Xn ), con E(T ) = µ, tal
que Var(X̄n ) > Var(T 0 ).
68 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.3.8. Sea X1 , . . . , Xn , una MA de X ∼ N(µ, σ 2 ), µ ∈ R, σ 2 ∈ R+ , ambas
desconocidas y n > 2. Estamos interesados en calcular IX~ (σ 2 ).
1
2
2 − 21
2
fX (x|µ, σ ) = (2πσ ) exp − 2 (x − µ)
2σ
1
1
log σ 2 − 2 (x − µ)2
2
2σ
d
1
1
⇒ 2 log fX (x|µ, σ 2 ) = − 2 + 4 (x − µ)2
dσ
2σ
2σ
2
d
1
1
⇒
log fX (x|µ, σ 2 ) = 4 − 6 (x − µ)2
2
2
d(σ )
2σ
σ
⇒ log fX (x|µ, σ 2 ) = c −
E
d2
1
1
2
2
log fX (x|µ, σ ) = E
− (X − µ)
d(σ 2 )2
2σ 4 σ 6
1
1
= 4 − 6 E(X − µ)2
2σ
σ
1
1
= 4 − 6 σ2
2σ
σ
1
=− 4
2σ
De donde,
2
IX~ (σ ) = −nE
d2
n
2
log fX~ (~x|µ, σ ) = 4
2
2
d(σ )
2σ .
Sabemos que Sn02 es un estimador de σ 2 con E(Sn02 ) = σ 2 . Además, (n−1)Sn02 /σ 2 ∼ χ2n−1 .
Por lo tanto,
2σ 4
2σ 4
2
>
= I−1
Var(Sn02 ) =
~ (σ ).
X
n−1
n
Esto significa que podrı́a llegar a existir un estimador T 0 = T (X1 , . . . , Xn ) de σ 2 , con
E(T 0 ) = σ 2 , tal que Var(T 0 ) < Var(Sn02 ).
4.3.2.
Error Cuadrático Medio
Necesitamos una medida que nos permita comparar estimadores. ¿Cómo debemos proceder para
comparar las perfomances de estimadores de una función τ (θ) y decidir cuál es el “mejor”estimador
de entre todos sus posibles estimadores?
Definición 4.3.4. Un estadı́stico real T = T (X1 , . . . , Xn ) se dice que es un estimador insesgado
de τ (θ) si y solo si Eθ (T ) = τ (θ), ∀θ ∈ Θ. Si T no es un estimador insesgado entonces diremos
que es un estimador sesgado de τ (θ).
Definición 4.3.5. Para un estimador real T de τ (θ), el sesgo de T se define como
Bθ (T ) = Eθ (T ) − τ (θ), θ ∈ Θ.
Estimación Puntual - 69
Introducción a la Inferencia Estadı́stica
Intuitivamente un estimador insesgado de τ (θ) alcanza su objetivo τ (θ) en promedio. O sea, la
diferencia Eθ (T )−τ (θ) para algunas muestras es positiva, para otras es negativa, pero en promedio,
sobre todas las muestras, la diferencia es cero. Es por eso, que la propiedad de insesgamiento es
atractiva desde un punto de vista estadı́stico.
Ejemplo 4.3.9. El teorema 1.1.1 muestra que los momentos muestrales, Mk , son estimadores insesgados de los correspondientes momentos poblacionales, µk , siempre y
0
cuando estos existan. En particular, X̄n es un estimador insesgado de E(X) y Sn2 es
un estimador insesgado de Var(X)
Ejemplo 4.3.10. Estimadores insesgados no necesariamente existen.
Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Deseamos estimar de manera
n
X
insesgada, τ (θ) = θ−1 . Sabemos que T =
Xi es suficiente para θ y además que
i=1
T ∼ Binomial(n, θ). Dada la suficiencia de T , deseamos construir un estimador h(T )
tal que Eθ (h(T )) = θ−1 . Esto es,
n
X
n t
1
h(t)
θ (1 − θ)n−t =
Eθ (h(T )) =
t
θ
t=0
Esta ecuación puede ser reescrita como
n
X
n t+1
h(t)
θ (1 − θ)n−t − 1 = 0
t
t=0
(4.11)
El lado izquierdo de (4.11) es un polinomio de grado n + 1 en θ y estamos imponiendo
que este sea igual a 0 para todo θ ∈ (0, 1). El Teorema Fundamental del Álgebra
establece que un polinomio de grado n tiene a lo sumo n raı́ces reales. Por lo cual,
(4.11) tiene a lo sumo n + 1 soluciones en (0,1). En vista de esto, es imposible que se
cumpla la igualdad para todo θ ∈ (0, 1) y en consecuencia no existe, bajo este tipo de
muestreo, un estimador insesgado para θ−1 .
Ejemplo 4.3.11. En algunos casos, estimadores insesgados no son de utilidad.
Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ), θ > 0. Sea τ (θ) = Pθ (X = 0) = e−θ .
n
X
Se sabe que T =
Xi es suficiente para θ y además que T ∼ Poisson(nθ). Dada la
i=1
T
suficiencia de T , se propone como estimador de τ (θ) a Y = h(T ) = 1 − n−1 . Note
que
t
t
∞ ∞ X
X
1 − n1 nθ
1
1 e−nθ (nθ)t
−nθ
=e
= e−nθ e(1− n )nθ = e−θ .
E(h(T )) =
1−
n
t!
t!
t=0
t=0
70 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Por lo tanto, h(T ) es un estimador insesgado de e−θ . Sin embargo, si n = 1,
h(T ) = 0 ∈
/ Θ = (0, 1).
Ejemplo 4.3.12. Estimadores insesgados no son únicos.
Sea X1 , . . . , Xn una MA de X
0
1. Si X ∼ Poisson(θ). Tanto, X̄n como Sn2 son estimadores insesgados de θ.
1
2. Si X ∼ N(θ, 1). T1 = X̄n , T2 = (X1 + X2 ) y T3 = X1 + T2 − X4 son algunos
2
estimadores insesgados de θ.
3. Si T1 y T2 son estimadores insesgados de τ (θ), entonces T3 = αT1 + (1 − α)T2 ,
α ∈ [0, 1], es un estimador insesgado de τ (θ).
Definición 4.3.6. Suponga que un estadı́stico real T = T (X1 , . . . , Xn ) es un estimador de τ (θ).
Entonces, el error cuadrático medio (ECM) del estimador T está dado por Eθ [(T − τ (θ))2 ].
Teorema 4.3.4. Si T es un estadı́stico usado para estimar τ (θ), entonces su error cuadrático
medio se puede descomponer en
ECMθ (T ) = Varθ (T ) + (Eθ (T ) − τ (θ))2 .
Esto es, la varianza de T más el cuadrado de su sesgo.
Demostración.
ECMθ (T ) = Eθ [(T − τ (θ))2 ]
= Eθ [(T − Eθ (T ) + Eθ (T ) − τ (θ))2 ]
= Eθ [(T − Eθ (T ))2 ] + Eθ [(Eθ (T ) − τ (θ))2 ] + 2Eθ [(T − Eθ (T ))(Eθ (T ) − τ (θ))]
= Varθ (T ) + (Eθ (T ) − τ (θ))2 + 2(Eθ (T ) − τ (θ)) Eθ [(T − Eθ (T ))]
{z
}
|
=0
2
= Varθ (T ) + (Eθ (T ) − τ (θ))
Observación 4.3.5. En el caso que T sea un estimador insesgado de τ (θ), ECMθ (T ) = Varθ (T ).
Definición 4.3.7. Sea C una clase no vacı́a de estimadores de τ (θ). Sea T1 ∈ C. Decimos que T1
es el mejor estimador de τ (θ) en términos del ECM, si para cualquier otro estimador T2 ∈ C
ECMθ (T1 ) ≤ ECMθ (T2 ) ∀θ ∈ Θ.
Estimación Puntual - 71
Introducción a la Inferencia Estadı́stica
Ejemplo 4.3.13. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). θ = (µ, σ 2 ) ∈ Θ = R×R+ .
Asuma n ≥ 2. Deseamos estimar τ (θ) = σ 2 . Consideramos dos posibles estimadores de
τ (θ):
n − 1 02 n − 1
0
S =
T1 .
T1 = Sn2 y T2 =
n+1 n
n+1
Sabemos que T1 es un estimador insesgado de σ 2 . Además sabemos que
0
(n − 1)Sn2
2σ 4
2
.
∼
χ
⇒
ECM
(T
)
=
Var
(T
)
=
θ
1
θ
1
n−1
σ2
n−1
De la relación que existe entre T1 y T2 , tenemos además que
Eθ (T2 ) =
n−1 2
σ
n+1
y Varθ (T2 ) =
2(n − 1) 4
σ .
(n + 1)2
De donde,
2
2σ 4
2(n − 1) 4
n−1 2
2
=
ECMθ (T2 ) =
σ +
σ −σ
.
n+1
n+1
n+1
Por lo tanto, ECMθ (T1 ) > ECMθ (T2 ). Esto es, en términos del ECM, T2 es preferible
a T1 como estimador de σ 2 . Note que en este caso, un estimado sesgado es preferible a
uno insesgado. La figura 4,4 muestra la comparación de ECMθ (T1 ) y ECMθ (T2 ), cuando
n = 20.
Figura 4.4: ECM de estimadores de σ 2 (n = 20)
Note que ECMθ es una función de θ. Por lo cual, cuando comparamos estimadores usando el
criterio del ECM, lo que hacemos es comparar funciones. Decimos que un estimador T1 es “mejor”
que otro estimador T2 , si el ECMθ (T1 ) está uniformemente por debajo del ECMθ (T2 ). En otros
casos la elección no es posible.
72 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.3.14. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ), θ ∈ (0, 1). Se proponen
como estimadores de θ a T1 = X̄n y a T2 = 1/2. Esto es, no importa qué muestra
observemos, T2 siempre le asigna a θ el valor 0,5. Note que Varθ (T2 ) = 0, por lo cual
ECMθ (T2 ) = (0, 5 − θ)2 . Por su parte, T1 es insesgado. Lo que implica que ECMθ (T1 ) =
Varθ (T1 ) = θ(1 − θ)/n. La figura 4.5 muestra que, en términos de ECM, T2 es preferible
a T1 si θ ∈ (0, 4; 0, 6). En otro caso, T1 es preferible a T2 . Al desconocerse el verdadero
valor de θ, no es posible decidir entre T1 y T2 .
Figura 4.5: ECM de estimadores de σ 2 (n = 20)
Note que si el verdadero valor de θ es 0,5, no existe mejor estimador de θ que T2 y en
ese punto ECMθ (T2 ) = 0. Además, note que ECMθ (T1 ) > 0, ∀θ ∈ (0, 1).
4.3.3.
Mejor estimador insesgado
Podemos reducir nuestra clase C de estimadores de τ (θ) y dentro de esa clase reducida buscar el
“mejor” estimador. Una posible reducción es enfocar nuestra búsqueda dentro de la clase de los
estimadores insesgados de τ (θ).
Definición 4.3.8. Asuma que existe al menos un estimador insesgado de τ (θ). Sea C la clase de
todos los estimadores insesgados de τ (θ). Un estimador T ∈ C es el mejor estimador insesgado o
Estimación Puntual - 73
Introducción a la Inferencia Estadı́stica
el estimador insesgado de uniformemente mı́nima varianza de τ (θ) si y solo si para cualquier otro
estimador T ∗ ∈ C, tenemos que
Varθ (T ) ≤ Varθ (T ∗ ) ∀θ ∈ Θ.
Ejemplo 4.3.15. Continuación ejemplo 4.3.12.
0
Sea X1 , . . . , Xn una MA de X ∼ Poisson(θ). Deseamos estimar θ. X̄n y Sn2 son estimadores insesgados de θ. Usando los resultados de los Colorarios 1.1.1 y 1.1.2, sabiendo
que µ4 = 3θ2 + θ, tenemos que
Varθ (X̄n ) =
θ
n
y
0
Varθ (Sn2 ) =
θ
2θ2
+
.
n n−1
0
Por lo tanto, si n ≥ 2, Varθ (X̄n ) < Varθ (Sn2 ), ∀θ > 0. Por lo tanto, X̄n es preferible a
0
Sn2 como estimador de θ.
Existen diferentes métodos para identificar el mejor estimador insesgado. El que discutiremos es
una extensión del teorema 4.3.3. Este teorema, bajo ciertas condiciones, establecı́a una cota inferior para la varianza de estimadores insesgados de θ. Usando este resultado, en el ejemplo 4.3.7
mostramos que X̄n alcanzaba la cota inferior. Por lo tanto, podemos afirmar que X̄n es el mejor
estimador insesgado para la esperanza de una variable aleatoria con distribución normal. Extenderemos el resultado para estimadores insesgados de τ (θ).
~ = (X1 , . . . , Xn ) una variable aleatoria
Teorema 4.3.5. Cota (inferior) de Cramer-Rao. Sea X
~ un estimador insesgado para
con función de densidad conjunta fX~ (~x|θ), θ ∈ Θ ⊆ R. Sea T (X)
~ = τ (θ). Donde τ (·) es una función diferenciable en θ. Si además f ~
τ (θ). Es decir, Eθ (T (X))
X
satisface las condiciones R1, R2 y R3, entonces
2
τ
(θ)
~ ≥ dθ
= CCR(τ (θ))
Varθ (T (X))
IX~ (θ)
d
A la cantidad CCR(τ (θ)) se le llama Cota (inferior) de Cramer-Rao para la varianza de estimadores insesgados de τ (θ).
d
Observación 4.3.6. En el caso que τ (θ) ≡ θ, tenemos que
τ (θ) = 1. Por lo cual, el teorema
dθ
4.3.3 es un caso particular del teorema 4.3.5.
La demostración del teorema 4.3.5 es similar a la del teorema 4.3.3, sustituyendo (T − θ) por
(T − τ (θ)). La demostración involucra a la desigualdad de Cauchy-Schwarz. La igualdad en esta
desigualdad, [E(W Z)]2 = E(W 2 )E(Z 2 ), se cumple si y solo si Z = aW + b (alternativamente,
d
~
cuando W = cZ + d). En nuestra demostración, Z =
log fX~ (X|θ)
y W = T − τ (θ), por lo cual
dθ
podemos establecer las condiciones para que la cota de Cramer-Rao sea alcanzable.
74 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
~ = CCR(τ (θ)) si
Corolario 4.3.1. Bajo las condiciones del teorema 4.3.5. Entonces Varθ (T (X))
y solo si existe una función a(θ) tal que
a(θ)(T (~x) − τ (θ)) =
d
log fX~ (~x|θ).
dθ
Observación 4.3.7. La cota es alcanzable si y solo si fX~ pertenece a la familia exponencial.
0
Ejemplo 4.3.16. Continuación ejemplo 4.3.8. Vimos que Sn2 no alcanza la cota de
Cramer-Rao. Aplicando el corolario 4.3.1, tenemos que
Pn
n
2
n
d
n
1 X
2
2
2
i=1 (xi − µ)
(xi − µ) = 4
−σ
log fX~ (~x|µ, σ ) = − 2 + 4
dσ 2
2σ
2σ i=1
2σ
n
Pn
(xi − µ)2
Esto es, con a(σ ) = n/2σ , el mejor estimador insesgado de σ es T = i=1
.
n
Esta cantidad depende de µ, por lo tanto T es un estimador solo si µ es conocido. En
otro caso, no existe un estimador insesgado de σ 2 que alcance la cota de Cramer-Rao.
2
4
2
Ejemplo 4.3.17. Continuación ejemplo 4.3.15.
Pn
Pn
n
n
d
i=1 xi
i=1 xi
log fX~ (~x|θ) = −n +
=
− θ = (x̄n − θ) .
dθ
θ
θ
n
θ
Por lo tanto, X̄n alcanza la Cota de Cramer-Rao y es, por lo tanto, el mejor estimador
insesgado de θ.
Para verificarlo, note que T =
n
X
Xi es suficiente para θ con lo cual IX~ (θ) = IT (θ).
i=1
Dado que T ∼ Poisson(nθ), tenemos que
e−nθ (nθ)t
d
t
fT (t|θ) =
⇒ log fT (t|θ) = c − nθ + t log θ ⇒
log fT (t|θ) = −n +
t!
dθ
θ
⇒
d2
t
log fT (t|θ) = − 2 .
2
dθ
θ
Por lo cual,
T
n
IX~ (θ) = −Eθ − 2 = .
θ
θ
(4.12)
Además, Varθ (X̄n ) = Varθ (X)/n = θ/n. Entonces, Varθ (X̄n ) = I−1
~ (θ) = CCR(θ)
X
Estimación Puntual - 75
Introducción a la Inferencia Estadı́stica
x2
2
Ejemplo 4.3.18. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ) = xe− θ I[x>0] .
θ
!
Pn 2
n Y
Pn 2 n
x
2
i=1 xi
fX~ (~x|θ) =
⇒ log fX~ (~x|θ) = c − n log θ − i=1 i
xi exp −
θ
θ
θ
i=1
n
d
~
log fX~ (X|θ)
=− +
dθ
θ
Pn
i=1
θ2
x2i
n
= 2
θ
Pn
x2i
−θ
Xi2
.
i=1
n
Pn
Por lo tanto, el mejor estimador insesgado de θ es T =
i=1
n
Ejemplo 4.3.19. Continuación ejemplo 4.3.11.
Recuerde que X ∼ Poisson(θ) y que deseamos estimar de manera insesgada τ (θ) = e−θ .
n
X
−1 T
donde T =
Xi es el estadı́stico
Se propone el estimador Y = h(T ) = 1 − n
i=1
suficiente para θ.
Si n ≥ 2 se puede probar, por otros medios, que el estimador propuesto es el mejor
estimador insesgado de τ (θ). Sin embargo, su varianza no alcanza la cota de CramerRao para estimadores insesgados de e−θ . Para ver esto, sabemos que T ∼ Poisson(nθ).
Por lo cual, su función generatriz de momentos es
MT (s) = Eθ esT = exp{nθ(es − 1)} ∀s ∈ R.
(4.13)
Usando la fórmula (4.13) con s = 2 log(1 − n−1 ) tenemos que
h
h
i
i
2
−1 2T
T (2 log(1−n−1 ))
Eθ (Y ) = Eθ 1 − n
= Eθ e
= MT (2 log(1 − n−1 ))
n
o
−1
= exp nθ(e2 log(1−n ) − 1) = exp{−2θ + n−1 θ}
De donde,
Varθ (Y ) = exp{−2θ + n−1 θ} − exp{−2θ} = e−2θ (eθ/n − 1).
(4.14)
Usando la fórmula (4.12), tenemos que
CCR(e−θ ) =
d −θ 2
e
dθ
IX~ (θ)
=
e−2θ
n
θ
=
e−2θ θ
.
n
(4.15)
Comparando (4.14) con (4.15) y notando que si x > 0 se cumple que ex > 1+x tenemos
que
θ
e−2θ θ
Varθ (Y ) = e−2θ (eθ/n − 1) > e−2θ (1 + − 1) =
= CCR(e−θ ).
n
n
Por lo cual, Varθ (Y ) no alcanza la cota de Cramer-Rao
76 - Estimación Puntual
Introducción a la Inferencia Estadı́stica
Ejemplo 4.3.20. Si las condiciones del teorema no se cumplen, la Cota de CramerRao no se puede calcular. Un caso claro donde no se cumplen las condiciones es cuando
X ∼ Uniforme(0, θ). En este caso no se cumple, por ejemplo, R1, ni R3. Asumiendo
que n = 1, tenemos que
1
(4.16)
fX (x|θ) = I[x>0] I[x<θ]
θ
Z ∞
Z ∞
d
fX (x|θ) dx = 1, tenemos que
fX (x|θ) dt = 0. Pero,
Entonces, dado que
dθ −∞
−∞
Z θ
d
fX (x|θ) dx no existe, dado que I[x<θ] es discontinua en x = θ y por lo tanto no
0 dθ
es derivable con respecto a θ.
Definición 4.3.9. Sea T un estimador insesgado de τ (θ). Se dice que T es eficiente u óptimo si
su varianza alcanza la Cota de Cramer-Rao.
Definición 4.3.10. Sea T un estimador insesgado de τ (θ). El cociente entre su varianza y la
CCR(τ (θ)) se le llama la eficiencia de T .
Las definiciones 4.3.9 y 4.3.10 solo tienen sentido si la CCR(τ (θ)) es alcanzable.
Definición 4.3.11. Sean T1 y T2 dos estimadores insesgados de τ (θ). Al cociente de sus varianzas
se le llama la eficiencia relativa de un estimador con respecto al otro.
Ejemplo 4.3.21. La eficiencia puede ser utilizada para determinar los tamaños de
muestras relativos necesarios para alcanzar la misma precisión, medida por la varianza,
de la estimaciones .
Suponga que T1 y T2 son dos estimadores. T1 tiene una eficiencia del 80 % y Varθ (T1 ) =
g(θ)/n para alguna función g. Si T2 es eficiente, Varθ (T2 ) = 0, 8g(θ)/n. Entonces, el
estimador T2 en una muestra de tamaño 80 será tan bueno como el estimador T1 en
una muestra de tamaño 100.
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition.
Pearson Education International.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Olive, D. (2010) Statistial theory and inference. Springer.
Sahu, P.K., Pal, S.R., Das, A.K. (2015) Estimation and Inferencial Statistics. Springer India.
Estimación Puntual - 77
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
78 - Estimación Puntual
CAPÍTULO 5
ESTIMACIÓN POR INTERVALOS
5.1.
Introducción
En el problema de estimación puntual, un único valor era tomado como la estimación del verdadero
valor de un parámetro desconocido θ. Por ejemplo, si X ∼ N(θ, 1), θ̂ = X̄n y la estimación es
el valor x̄n que toma X̄n en la muestra. En este caso, si θ0 representa el verdadero valor de θ,
tenemos que P(X̄n = θ0 ) = 0. Esto es, la probabilidad de asignarle a θ su verdadero valor es 0.
Por lo cual, en este capı́tulo abordaremos el problema de estimación desde el punto de vista de
obtener un conjunto del espacio paramétrico como estimación de θ. El resultado de una estimación
por conjuntos es una afirmación del tipo “θ ∈ C”, donde C = C(~x) es un subconjunto del espacio
paramétrico Θ que depende de los datos observados ~x. En el caso de que Θ ⊆ R los conjuntos que
se suelen usar para realizar inferencias sobre θ son intervalos. Es por esto que usamos el nombre
de estimación por intervalos.
Observese que si se estima una parámetro θ mediante un intervalo, la inferencia es menos precisa
que si se estima con un estimador puntual: ahora nos limitamos a afirmar que el parámetro está
en un cierto conjunto, mientras que antes dábamos un valor concreto como estimación suya. Dado
que se pierde en precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un
intervalo, con respecto a hacerlo con un estimador puntual. La respuesta es que se gana confianza:
en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea
estimar es 0, mientras que la probabilidad de que un estimador por intervalos cubra al parámetro
será positiva.
5.2.
Intervalos de confianza
~ , U (X)],
~
Definición 5.2.1. Un estimador por intervalo de una cantidad real θ está dado por [L(X)
~ y U (X)
~ es cualquier par de funciones de una muestra que satisfacen L(~x) < U (~x),
donde L(X)
~ = ~x se observa, se realiza la inferencia L(~x) ≤ θ ≤ U (~x).
∀~x ∈ X . Si X
79
Introducción a la Inferencia Estadı́stica
Ejemplo 5.2.1. Sea X1 , . . . , X4 una MA de X ∼ N(µ, 1). Un estimador por intervalo
de µ es [X̄4 − 1, X̄4 + 1]. Para toda ~x ∈ X , x̄4 − 1 < x̄4 + 1. Si observamos x1 = 1, 4,
x2 = 1, 6, x3 = 2,2 y x4 = 1, 8, tenemos que x̄4 = 1,75. Por lo tanto, se hace la inferencia
de que θ ∈ [0, 75 2, 75].
Observación 5.2.1. Note que no existe
~ salvo que L(~x) < U (~x), ∀~x ∈
y U (X),
que tendremos un intervalo aleatorio de
coincidir con ∞ y el resultante intervalo
~
ninguna restricción sobre qué valores puede tomar L(X)
~
X . Por lo cual, L(X) puede coincidir con −∞, con lo
~
~ puede
la forma (−∞, U (X));
de manera similiar, U (X)
~ ∞).
aleatorio es (L(X),
~ y U (X),
~ son funciones de X
~ y
Observación 5.2.2. Note que los extremos del intervalo, L(X)
~ , U (X)]
~ sea un intervalo aleatorio y
por lo tanto son variables aleatorias. Esto hace que [L(X)
~ , U (X)])
~
que la expresión Pθ (θ ∈ [L(X)
está bien definida, en el sentido de que no es algo que
trivialmente valga 0 o 1.
Definición 5.2.2. Para un estimador por intervalo de un parámetro θ, se llama probabilidad de
~ , U (X)]
~ a la probabilidad de que el intervalo aleatorio cubra el verdadero valor
cobertura de [L(X)
de θ. Esto es,
~ , U (X)]).
~
Pθ (θ ∈ [L(X)
(5.1)
En la expresión (5.1), los extremos del intervalo son aleatorios y θ es un número.
~ , U (X)]
~ de un parámetro θ, el coeficiente
Definición 5.2.3. Para un estimador por intervalo [L(X)
de confianza del estimador es el ı́nfimo de las probabilidades de cobetura. Lo denotaremos por
1 − α.
~ , U (X)]).
~
1 − α = ı́nf Pθ (θ ∈ [L(X)
θ
Ejemplo 5.2.2. Continuación ejemplo 5.2.1.
Pµ (µ ∈ [X̄4 − 1, X̄4 + 1]) = Pµ (X̄4 − 1 ≤ µ ≤ X̄4 + 1)) = Pµ (−1 ≤ X̄4 − µ ≤ 1)
!
X̄4 − µ
≤ 2 = 0, 9544
= Pµ −2 ≤ p
1/4
Dado que la probabilidad de cobertura del intervalo [X̄4 − 1, X̄4 + 1] no depende del
valor de µ, su coeficiente de confianza es 0,9544.
~ ∼ Uniforme(0, θ). Sea X(n) = máx{X1 , . . . , Xn }.
Ejemplo 5.2.3. Sea X1 , . . . , Xn una MA de X
Se consideran los siguientes dos estimadores por intervalo:
I1 = [aX(n) , bX(n) ] (1 ≤ a < b) y I2 = [X(n) + c, X(n) + d] (0 ≤ c < d).
80 - Estimación por Intervalos
Introducción a la Inferencia Estadı́stica
Dado que, para x ∈ (0, θ)
Z
F X(n) (x) =
θ
x
ntn−1 dt = xn .
0
Entonces,
Para I1 ,
Pθ (θ ∈ I1 ) = Pθ (aX(n) ≤ θ ≤ bX(n) ) = Pθ
X(n)
1
1
≤
≤
b
θ
a
n n
1
1
=
−
.
a
b
Dado que la probabilidad de cobertura no depende de θ, el coeficiente de confianza
es a−n − b−n .
Para I2 ,
X(n)
d
c
Pθ (θ ∈ I2 ) = Pθ (X(n) + c ≤ θ ≤ X(n) + d) = Pθ 1 − ≤
≤1−
θ
θ
θ
n
c n
d
= 1−
− 1−
.
θ
θ
La probabilidad de cobertura en este caso es una función de θ. Por lo cual, el
coeficiente de confianza es
n n d
c n
d
c n
− 1−
= lı́m
1−
− 1−
=0
ı́nf
1−
n→∞
θ
θ
θ
θ
θ
~ , U (X)],
~ junto a su coeficiente de confianza,
Definición 5.2.4. A un estimador por intervalo [L(X)
se le llama intervalo de confianza.
~ , U (X)]
~ para θ, diremos que
Si 1 − α es el nivel de confianza de un estimador por intervalo [L(X)
este es un intervalo de confianza 1 − α o (1 − α)100 % para θ.
5.2.1.
Interpretación del coeficiente de confianza
~ = ~x, se hace la inferencia de que θ ∈ [L(~x), U (~x)]. Note que tanto L(~x)
Una vez que se observa X
como U (~x) son ahora números y al igual que θ, que si bien su valor es desconocido, también es
una cantidad fija. Por lo cual,
(
1 si θ ∈ [L(~x), U (~x)]
P(θ ∈ [L(~x), U (~x)]) =
0 si θ ∈
/ [L(~x), U (~x)].
Entonces, no podemos hablar de que tenemos una probabilidad de 1 − α de que θ esté contenida
en [L(~x), U (~x)]. En este caso, apelamos a la interpretación frecuentista de la probabilidad, la cual
~ U (X)])
~
indica que si Pθ (θ ∈ [L(X),
= 1 − α, esto significa que si sacamos infinitas muestras de
tamaño n y para cada uno de ellas construimos el intervalo [L(~x), U (~x)], el (1 − α)100 % de los
intervalos construidos cubrirá el verdadero valor de θ. Pero de los infinitos intervalos que se pueden
construir, nosotros solo contamos con uno, el que está asociado a la muestra que hemos efectivamente observado. Por lo cual, cuando decimos que tenemos una confianza 1 − α o (1 − α)100 %,
estamos expresando nuestra esperanza de que este intervalo en particular sea uno perteneciente
al conjunto de los infinitos intervalos que cubren el verdadero valor de θ. Es por eso que en lugar
de expresarnos en términos de probabilidad, hablamos en términos de confianza.
Estimación por Intervalos - 81
Introducción a la Inferencia Estadı́stica
Ejemplo 5.2.4. Sea X1 , X2 una MA de X ∼ N(θ, 1), θ ∈ R. Considere el siguiente
estimador por intervalo de θ: I1 = [X1 − 1, 96, X1 + 1, 96]. Este intervalo tiene la
siguiente probabilidad de cobertura,
Pθ (X1 − 1, 96 ≤ θ ≤ X1 + 1, 96) = Pθ (|X1 − θ| ≤ 1, 96) = P(|Z|1, 96) = 0, 95,
donde Z ∼ N(0, 1). Dado que la probabilidad de cobertura no depende de θ, el coeficiene
de confianza de I1 es 0,95. Suponga que se observa x1 = 8 y x2 = 7. Entonces, se hace
la inferencia de que el intervalo [6,04,54;9,96] contiene el verdadero valor de θ con una
confianza del 95 %.
5.3.
Construcción de estimadores por intervalo
Presentaremos dos métodos para construir estimadores por intervalo de un parámetro θ ∈ Θ ⊆ R.
Uno será descrito en este capı́tulo y el siguiente al final del próximo capı́tulo.
5.3.1.
Cantidades pivotales
Uno de los métodos más comunes de construcción de intervalos de confianza es el uso de cantidades
pivotales.
Definición 5.3.1. Sea X1 , . . . , Xn una MA de X. Una función Q : X ×Θ → R, Θ ⊆ R, se dice que
~ θ) no depende del parámetro
es una cantidad pivotal, si la distribución de probabilidad de Q(X,
~ θ) tiene la misma distribución cualquiera sea el valor de θ.
θ. Es decir, Q(X,
~ θ), para cualquier conjunto A del espacio imagen de Q se tiene
Dada una cantidad pivotal Q(X,
~ θ) ∈ A) no depende de θ. Por lo tanto, si se elige un conjunto Aα tal que
que Pθ (Q(X,
~ θ) ∈ Aα ) = 1 − α, para todo θ,
Pθ (Q(X,
~ = ~x, el conjunto
y se observa la muestra X
n
o
~ θ) ∈ A
C(~x) = θ : Q(X,
es un conjunto de confianza al 1 − α para θ.
En el caso de que θ ∈ R, el uso de cantidades pivotales no garantiza en general que el conjunto
de confianza sea un intervalo.
Ejemplo 5.3.1. Cantidades pivotales pueden ser construidas fácilmente si fX pertence
a una familia de posición y/o escala.
Si fX (x|θ) pertenece a una familia de posición de parámetro θ, su forma reducida
es Y = X − θ. Por lo cual, si definimos Yi = Xi − θ, para i = 1, . . . , n, cualquier
función de Y1 , . . . , Yn es una cantidad pivotal.
82 - Estimación por Intervalos
Introducción a la Inferencia Estadı́stica
Si fX (x|θ) pertenece a una familia de escala de parámetro θ, su forma reducida es
Y = X/θ. Por lo cual, si definimos Yi = Xi /θ, para i = 1, . . . , n, cualquier función
de Y1 , . . . , Yn es una cantidad pivotal.
Si fX (x|θ1 , θ2 ) pertenece a una familia de posición y escala de parámetro de posición θ1 y parámetro de escala θ2 , su forma reducida es Y = (X − θ1 )/θ2 . Por
lo cual, si definimos Yi = (Xi − θ1 )/θ2 , para i = 1, . . . , n, cualquier función de
Y1 , . . . , Yn es una cantidad pivotal.
En la práctica, la forma en la que se construye un intervalo de confianza a partir de una cantidad
~ θ) ∈ R y θ ∈ R. Para un valor α dado, se buscan
pivotal es la siguiente. Supondremos que Q(X,
números a y b tales que
~ θ) < b) = 1 − α.
Pθ (a < Q(X,
Observe, que a y b no dependen de θ al ser Q una cantidad pivotal, y que la elección de a y b no
será única en general.
Para cada θ0 , el conjunto
n
o
~ θ0 ) < b
A(θ0 ) = ~x ∈ X : a < Q(X,
es la región de no rechazo de un contraste de tamaño α para H0 ) θ = θ0 basado en el estadı́stico
~ θ0 ). Invirtiendo este contraste obtenemos el conjunto de confianza 1 − α para θ:
Q(X,
n
o
~ θ) < b .
C(~x) = θ : a < Q(X,
~ θ) es una función monótona de θ para ~x fijo, entonces se tiene garantı́a de que
Si g~x (θ) = Q(X,
C(~x) es un intervalo. Si g~x (θ) es monótona creciente, entonces C(~x) = [L(~x, a), U (~x, b)], mientras
que si g~x (θ) es monótona decreciente, entonces C(~x) = [L(~x, b), U (~x, a)]. Si g~x (θ) es invertible,
entonces
C(~x) = mı́n g~x−1 (a), g~x−1 (b) ; máx g~x−1 (a), g~x−1 (b) .
Ejemplo 5.3.2. Continuación del ejemplo 6.5.1. La cantidad pivotal en este caso es
√
n(X̄n − θ)
∼ N(0, 1).
σ
Entonces, tenemos que a = zα1 y b = z1−α2 , con α1 + α2 = α. Por lo tanto
√
n(X̄n − θ)
1 − α = P zα1 <
< z1−α2
σ
σ
σ
= P zα1 √ < X̄n − θ < z1−α2 √
n
n
σ
σ
= P X̄n − z1−α2 √ < θ < X̄n − zα1 √
n
n
Por lo tanto el intervalo de confianza al 1 − α es
σ
σ
X̄n − z1−α2 √ ; X̄n − zα1 √ .
n
n
Estimación por Intervalos - 83
Introducción a la Inferencia Estadı́stica
Note que, si α < 0, 5 entonces zα1 < 0 por lo cual −zα1 > 0 y de manera similar
z1−α2 > 0, lo que implica que −z1−α2 < 0.
Ejemplo 5.3.3. Continuación del ejemplo 5.3.2. Si asumimos que σ 2 es desconocido.
Entonces la cantidad pivotal es
√
n(X̄n − θ)
∼ tn−1 .
Sn0
Por lo tanto, operando de manera similiar que en el ejemplo anterior, tenemos que el
intervalo de confianza al 1 − α es
Sn0
Sn0
X̄n − tn−1;1−α2 √ ; X̄n − tn−1;α1 √ .
n
n
con α1 + α2 = α.
Ejemplo 5.3.4. Continuación del ejemplo 6.5.3. En este caso la cantidad pivotal es
nSn2
∼ χ2n−1 .
σ2
Entonces, a = χ2n−1; α1 y b = χ2n−1; 1−α2 , con α1 + α2 = α.
nSn2
2
2
1 − α = P χn−1; α1 < 2 < χn−1; 1−α2
σ
1
1
σ2
<
< 2
=
χ2n−1; 1−α2
nSn2
χn−1; α1
2
nSn
nSn2
2
=
<σ < 2
χ2n−1; 1−α2
χn−1; α1
Por lo tanto el intervalo de confianza al 1 − α es
nSn2
χ2n−1;1−α2
;
nSn2
χ2n−1;α1
.
84 - Estimación por Intervalos
Introducción a la Inferencia Estadı́stica
5.4.
Optimalidad
Observe que en los ejemplos de la sección anterior tomamos dos valores α1 > 0 y α2 > 0. Variando
estas dos cantidades, sujetas a la restricción α1 + α2 = α, podemos obtener infinitos intervalos
de confianza. Por ejemplo, si en el ejemplo 5.3.2,
√ hacemos que α1 = 0, tenemos que el intervalo
de confianza resultante es (−∞, X̄n + z1−α σ/ n]. A medida que incrementamos α1 vamos construyendo diferentes
intervalos y cuando α1 = α (esto es, α2 = 0), tenemos que el intervalo es
√
[X̄n − zα σ/ n ; ∞). Entonces, si tenemos diferentes estimadores por intervalos de un parámetro
θ, debemos establecer un criterio de optimalidad con el fin de escoger el “mejor” estimador por
intervalos de acuerdo al criterio fijado.
Ejemplo 5.4.1. Continuación ejemplo
5.2.4. Suponga
que se tiene otro estimador por
√
√
intervalo de θ, I2 = [X̄2 − 1, 96/ 2, X̄2 + 1, 96/ 2]. Su probabilidad de cobertura es
√
1, 96
1, 96
= Pθ (| 2(X̄2 −θ)| ≤ 1, 96) = P(|Z| ≤ 1, 96) = 0, 95.
Pθ X̄2 − √ ≤ θ ≤ X̄2 + √
2
2
Dado que esta probabilidad no depende de θ, su coeficiente de confianza es también
0,95. De los dos intervalos, I2 parece superior a I1 dado que su amplitud es menor.
Esto es, con la misma confianza somos más precisos. Observe que I2 está construido a
partir del estadı́stico suficiente para θ.
El criterio de “mejor” elegido es seleccionar el intervalo de longitud mı́nima. Se trata de un
problema de optimización con restricciones, donde la restricción es que la confianza sea igual a
un valor determinado de antemano. Note que es el mismo criterio que se utilizó en el capı́tulo 3
para definir el intervalo de credibilidad “óptimo” al cual llamamos intervalo de mayor densidad
a posteriori. En la subsección 3.5.1, se explicitaron ciertas condiciones bajo las cuales era sencillo
identificar este intervalo. En este caso, para encontrar el intervalo de confianza de menor amplitud,
usaremos el mismo método. El teorema siguiente describe, bajo ciertas condiciones, cómo hallar
el intervalo de menor amplitud.
Teorema 5.4.1. Sea f (x|θ) un densidad unimodal en el intervalo [a, b] que satisface:
Z b
C1 f (x|θ) dx = 1 − α.
a
C2 - f (a|θ) = f (b|θ) > 0.
C3 - a ≤ xmo ≤ b, donde xmo es el modo de X.
Entonces, el intervalo [a, b] es el de menor amplitud de todos los intervalos que satisfacen (C1).
Demostración. Sea [a0 , b0 ] cualquier otro intervalo tal que b0 − a0 < b − a. Necesitamos probar que
[a0 , b0 ] no satisfacen (C1).
a0 puede ser a0 ≤ a o a0 ≥ a. Veremos el primer caso a0 ≤ a, el segundo se demuestra de manera
similar.
Si a0 ≤ a, tenemos dos casos b0 ≤ a o b0 > a.
Estimación por Intervalos - 85
Introducción a la Inferencia Estadı́stica
Caso 1: b0 ≤ a ⇒ a0 ≤ b0 ≤ a ≤ xmo . Entonces,
Z
b0
f (x|θ) dt ≤ f (b0 |θ)(b0 − a0 )
(si x ≤ b0 ≤ xmo ⇒ f (x|θ) ≤ f (b0 |θ))
a0
≤ f (a|θ)(b0 − a0 )
< f (a|θ)(b − a)
Z b
f (x|θ) dx = 1 − α
≤
(b0 ≤ a ≤ xmo ⇒ f (b0 |θ) ≤ f (a|θ))
(f (a|θ) > 0, b0 − a0 < b − a)
(por (C2), (C3) y unimodal)
a
=1−α
(por (C1))
Caso 2: b0 > a. Entonces, a0 ≤ a ≤ b0 ≤ b. Dado que si b0 > b, entonces b0 − a0 > b − a.


Z b0
Z b
Z b
Z

 a
f (x|θ) dt =
f (x|θ) dt + 
f (x|θ) dt −
f (x|θ) dt
 = 1 − α + A.

a0
a
a0
b0
{z
}
|
=A
Necesitamos probar que A < 0. Para eso note que
Z a
f (x|θ) dt ≤ f (a|θ)(a − a0 )
(a ≤ xmo ⇒ f (x|θ) ≤ f (a|θ) si x ∈ (a0 , a))
a0
Z b
f (x|θ) dt ≥ f (b|θ)(b − b0 )
(f (x|θ) ≥ f (b|θ) si x ∈ (b0 , b)).
(5.2)
(5.3)
b0
Por lo tanto,
Z
a
Z
b
f (x|θ) dt −
A=
a0
Z
a
f (x|θ) dt ≤
b0
f (x|θ) dt − f (b|θ)(b − b0 )
(por 5.3)
a0
≤ f (a|θ)(a − a0 ) − f (b|θ)(b − b0 )
(por 5.2)
0
0
= f (a|θ)(a − a − b + b )
(por (C2))
0
0
= f (a|θ)[(b − a ) − (b − a)]
<0
(por (C2) y b0 − a0 < b − a)
Ejemplo 5.4.2. En los ejemplos 5.3.2 y 5.3.3, dada la simetrı́a de la distribución
α
normal y de la distribución t, tenemos que seleccionar α1 = α2 = . Con estos valores,
2
obtenemos en el ejemplo 5.3.2 el intervalo de menor amplitud.
En
el
ejemplo 5.3.3, note
√
0
que la amplitud del intervalo de confianza es 2tn−1;α1 Sn / n. Por lo cual, al depender
de S 0 , la amplitud es aleatoria. En este caso lo que obtenemos es un intervalo de menor
amplitud esperada.
A los intervalos que dejan la misma probabilidad tanto por debajo del extremo inferior como del
extremo superior se les llama simétricos en probabilidad.
86 - Estimación por Intervalos
Introducción a la Inferencia Estadı́stica
Ejemplo 5.4.3. En el caso que la distribución utilizada para calcular los extremos
no es simétrica, como es el caso del ejemplo 5.3.4, los extremos inferior y superior del
intervalo de menor amplitud tienen que ser calculados por métodos numéricos. Dado
que existe estudios que muestran que la amplitud del intervalo simétrico en probabilidad
no es significativamente mayor que la del intervalo de menor amplitud, en estos casos,
por simplicidad, se prefieren los intervalos simétricos en probabilidad. En el caso del
ejemplo 5.3.4, el intervalo de confianza para σ 2 al 1 − α a utilizar serı́a:
#
"
nSn2
nSn2
;
.
χ2n−1;1−α/2 χ2n−1;α/2
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Gómes, G., Delicado, P. (2006) Curso de Inferencia y Decisión. Departement d’Estatı́stica i Investigació Operativa. Universitat Politècnica de Catalunya.
Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition.
Pearson Education International.
Estimación por Intervalos - 87
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
88 - Estimación por Intervalos
CAPÍTULO 6
CONTRASTE DE HIPÓTESIS
6.1.
Introducción
Suponga que una persona está acusada de cometer un crimen y va a juicio. El fiscal presenta su
caso y el juez debe dar su veredicto en base a la evidencia presentada. El juez debe elegir entre
dos hipótesis exhaustivas y excluyentes:
H0 ) El acusado es inocente.
H1 ) El acusado es culpable.
El juez desconoce cuál hipótesis es correcta. Él debe decidir en base a la información presentada por
el fiscal y la defensa. Hay solo dos decisiones posibles, condenar o absolver al acusado. Condenar
al imputado implica que existe evidencia suficiente para rechazar la hipótesis de que el imputado
es inocente en favor de la hipótesis de que el imputado es culpable. Absolver al imputado implica
que no existe evidencia suficiente para rechazar la hipótesis de que el imputado es inocente. O sea,
para concluir que el imputado es culpable.
Note que nunca aceptamos la hipótesis de inocencia. Aceptarla implicarı́a que encontramos al
imputado inocente, interpretación que nuestro “sistema judicial” no permite. Nuestro sistema solo
permite “rechazar H0 en favor de H1 ” o “no rechazar H0 ”. Asociado a esto existen dos posibles
errores, a los que llamaremos de Tipo I y de Tipo II
El imputado es:
Inocente Culpable
H0 cierta
Error de
Tipo II
Absuelve
No rechazo H0
El juez decide:
Condena
Rechazo H0
89
H1 cierta
Error de
Tipo I
Introducción a la Inferencia Estadı́stica
Un error de Tipo I ocurre cuando rechazamos H0 y esta es cierta; de Tipo II, cuando no rechazamos
H0 y esta es falsa. Esto es, un error de Tipo I es cuando una persona inocente es condenada y uno
del Tipo II es cuando una persona culpable es absuelta. En nuestro sistema judicial, errores del
Tipo I se consideran más serios que los errores de Tipo II. En consecuencia, nuestro sistema está
configurado para que la probabilidad de cometer un error de Tipo I sea pequeña. Esto se consigue
imponiendo las siguientes condiciones:
1. Un imputado se presume inocente.
2. Es obligación del fiscal probar que el imputado es culpable. La defensa no tiene que probar
nada.
3. El juez debe encontrar al imputado culpable solamente si existe evidencia de culpabilidad
más allá de una duda razonable.
Esto último significa que en ausencia de evidencia suficiente debe absolver al imputado aún cuando
haya alguna evidencia de culpabilidad. Si llamamos α y β a las probabilidades de cometer un error
de Tipo I y un error de Tipo II respectivamente, vemos que α y β están inversamente relacionadas
en el sentido de que cualquier intento de reducir una aumentará la otra. En un sistema judicial
ideal, ambas deberı́an ser iguales a 0. En nuestro sistema judicial, las restricciones impuestas
implican que la probabilidad de absolver personas culpables es relativamente alta.
El sistema entonces funciona de la siguiente manera:
1. Hay dos hipótesis: H0 , llamada la hipótesis nula, y H1 , la hipótesis alternativa.
2. El proceso empieza asumiendo que la hipótesis nula es verdadera.
3. El objetivo del proceso es determinar si existe evidencia suficiente para inferir que la hipótesis
alternativa es cierta.
4. Hay dos posibles conclusiones:
a) Concluir que existe evidencia suficiente que soporta la hipótesis alternativa.
b) Concluir que no existe evidencia suficiente que soporte la hipótesis alternativa.
5. Dos posibles errores se pueden cometer:
Tipo I = rechazo H0 cuando H0 es cierta.
Tipo II = no rechazo H0 cuando H1 es cierta.
6. Con α = P(Error Tipo I) y β = P(Error Tipo II). Deseamos mantener α y β tan chicas
como sea posible.
6.2.
Contraste de hipótesis
Basado en el esquema de razonamiento de la sección anterior, si θ ∈ Θ ⊆ R es el parámetro de
la distribución de probabilidad de una variable aleatoria X y dada una partición trivial de Θ en
dos conjuntos, Θ0 y su complemento Θc0 , decidiremos, basado en lo observado en una MA de X,
si es más verosı́mil que el verdadero valor de θ se encuentre en Θ0 (veredicto: no culpable) o en
Θc0 (veredicto: culpable).
90 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Más formalmente, suponga que tenemos X ∼ f (x|θ), donde θ ∈ Θ ⊆ R. Deseamos contrastar si
θ ∈ Θ0 ⊂ Θ, Θ0 6= ∅, contra θ ∈
/ Θ0 . Entonces, nuestras hipótesis serán
H0 ) θ ∈ Θ0
contra H1 ) θ ∈ Θc0 .
Tenemos X1 , . . . , Xn una MA de X, que será nuestra evidencia. Esto es, usaremos la información
acerca de θ contenida en X1 , . . . , Xn para decidir si rechazamos o no H0 . Como se dijo anteriormente, la evidencia no será usada para decidir si H0 es cierta.
A las hipótesis las podemos clasificar en simples o compuestas. Una hipótesis simple es aquella
que asigna a θ un valor especı́fico. Una hipótesis compuesta asigna a θ un rango de valores.
Ejemplo 6.2.1. Sea X ∼ f (x|θ), θ ∈ Θ ⊆ R. Sea θ0 un punto en Θ. Podemos tener,
1. Θ = {θ0 , θ1 }, H0 ) θ = θ0 contra H1 ) θ = θ1 . (simple contra simple).
2. Θ ⊆ R, H0 ) θ = θ0 contra H1 ) θ 6= θ0 . (simple contra compuesta).
3. Θ ⊆ R, H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . (compuesta contra compuesta).
4. Θ ⊆ R, H0 ) θ ≤ θ0 contra H1 ) θ > θ0 . (compuesta contra compuesta).
La idea es crear una regla de decisión que de forma inambigua nos diga, después de haber observado
~x = (x1 , . . . , xn ) ∈ X , cuál decisión tenemos que tomar: rechazar H0 o no rechazar H0 . Esto
significa qué regla particionará el espacio muestral X en dos subconjuntos, a los que llamaremos
región crı́tica (RC) y su complemento, la región de aceptación (RA):
RC = {~x ∈ X | si observo ~x, rechazo H0 } y RA = RCc = {~x ∈ X | si observo ~x, no rechazo H0 }
Ejemplo 6.2.2. Sea X1 , . . . , X9 una MA de X ∼ N(θ, 1), θ ∈ R. Plantee las siguientes
hipótesis: H0 ) θ = 5, 5 contra H1 ) θ = 8.
Se plantean las siguientes reglas de decisión:
Regla #1: Rechazo H0 si x1 > 7.
Regla #2: Rechazo H0 si
1
(x1 + x2 ) > 7.
2
Regla #3: Rechazo H0 si x̄9 > 6.
Regla #4: Rechazo H0 si x̄9 > 7, 5.
Esto significa,
Regla #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7}.
1
Regla #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 ) > 7}.
2
Regla #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6}.
Contraste de Hipótesis - 91
Introducción a la Inferencia Estadı́stica
Regla #4: RC4 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 7, 5}.
~ ∈ RC|H0 cierta)
Sean α = P(Error Tipo I) = P(rechazar H0 cuando H0 es cierta) = P(X
~ ∈
y β = P(Error Tipo II) = P(no rechazar H0 cuando H1 es cierta) = P(X
/ RC|H1 cierta).
Para la Regla #1, con Φ la función de distribución de una N(0,1):
α = P(X1 > 7|θ = 5, 5) = 1 − Φ(1, 5) = 0, 06681
y β = P(X1 ≤ 7|θ = 8) = Φ(−1) = 0, 15866.
Calculamos α y β de manera similar par las otras pruebas y obtenemos:
Prueba
#1
#2
#3
#4
α
0,06681
0,01696
0,06681
0,00000
β
0,15866
0,07865
0,00000
0,06681
De inspeccionar la tabla podemos concluir:
1. Entre la regla #1 y la #2, la #2 parece ser mejor que la #1, dado que α2 < α1 y
β2 < β1 .
2. La regla #3 parece ser que mejor que la regla #1 dado que α1 = α3 y β3 < β1 .
3. Entre la regla #2 y la #3 no existe una respuesta clara acerca de cuál es mejor.
4. La regla #4 se obtuvo “reduciendo el tamaño”de la RC de la regla #3. Esto es,
RC4 ⊂ RC3 . Esto resultó en que α4 = 0, pero se consiguió a costo de que el valor
de β creciera rápidamente.
En conclusión,
1. Todas las reglas que podamos crear no son necesariamente comparables.
2. Ajustando de manera apropiada la RC de una regla, podemos hacer α (o β) tan pequeña
como queramos, pero esto implicará que β (o α) aumentará de valor si dejamos fijo el tamaño
de la muestra.
La pregunta entonces es: ¿cómo, para un tamaño de muestra dado, construimos la “mejor” regla
para contrastar H0 contra H1 ?
Definición 6.2.1. La función de potencia de un contraste, denotada por β(θ), es la probabilidad
de rechazar H0 cuando θ ∈ Θ es el verdadero valor del parámetro.
~ ∈ RC) ∀θ ∈ Θ.
β(θ) = Pθ (X
92 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Note que si tomamos θ ∈ Θ0 o θ ∈ Θc0 , tenemos que
β(θ) =
~ ∈ RC|θ ∈ Θ0 ) = Pθ (error Tipo I) = α
Pθ (X
~ ∈ RC|θ ∈ Θc0 ) = 1 − Pθ (error Tipo II) = 1 − β
Pθ (X
A α lo llamaremos el nivel de significación del contraste y a 1 − β la potencia del contraste. Note
que la potencia de un contraste es una de las componentes de su función de potencia.
El contraste ideal tendrı́a α = 0 y 1 − β = 1, algo que salvo en casos triviales es inalcanzable.
Ejemplo 6.2.3. Para la Regla #4, β(θ) = 1 − Φ(22, 5 − 3θ), ∀θ ∈ Θ.
Definición 6.2.2. A la función ψ : X → {0, 1} definida como, ψ(~x) = I[~x∈RC] , se le llama función
crı́tica del contraste.
~ = β(θ).
Observación 6.2.1. E(ψ(X))
Si C es la clase de todos los contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 , C contiene contrastes
que no son comparables entre sı́. Por lo cual, no existirá una clara elección de cuál es el “mejor”
contraste dentro de la clase. Al igual que hicimos en estimación, cuando enfocamos nuestra atención a la clase de estimadores insesgados, podemos también en este problema restringir nuestra
búsqueda a una subclase de C.
Definición 6.2.3. Para un número fijo α ∈ (0, 1). Un contraste para H0 ) θ ∈ Θ0 contra H1 ) θ ∈
Θc0 , con función de potencia β(θ), se llama de tamaño o nivel α de acuerdo a si
sup β(θ) = α
θ∈Θ0
o
sup β(θ) ≤ α
θ∈Θ0
respectivamente.
Note que un contraste de tamaño α es también un contraste de nivel α. Además, sup β(θ) es la
θ∈Θ0
“peor” de las probabilidades de error de Tipo I, lo cual indica que para evaluar un contraste nos
ponemos en la situación más desfavorable. Esto es, cuando el desempeño del contraste es más débil.
Definición 6.2.4. Sea C una clase de contrastes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0 . Un contraste
de la clase C, con función de potencia β(θ), es uniformemente más potente (UMP) dentro de la
clase C, si
β(θ) ≥ β 0 (θ) ∀θ ∈ Θc0 ,
para todo β 0 (θ) que es la función de potencia de un contraste en la clase C.
Ejemplo 6.2.4. Continuación del ejemplo 6.2.2. Para H0 ) θ = 5, 5 contra H1 ) θ = 8,
definimos los siguientes contrastes
Contraste de Hipótesis - 93
Introducción a la Inferencia Estadı́stica
Contraste #1: RC1 = {(x1 , . . . , x9 ) ∈ X |x1 > 7, 1449}.
1
Contraste #2: RC2 = {(x1 , . . . , x9 ) ∈ X | (x1 + x2 + x3 + x4 ) > 6, 32245}.
4
Contraste #3: RC3 = {(x1 , . . . , x9 ) ∈ X |x̄9 > 6, 0483}.
Note que β1 (5, 5) = β2 (5, 5) = β3 (5, 5) = 0, 049995. Por lo tanto, todos los contrastes
son de tamaño 0,049995. En cuanto a la potencia,
β1 (8) = 0, 80375
β2 (8) = 0, 9996
β3 (8) = 1
Por lo tanto, el contraste #3 es el “mejor” entre los tres considerados.
Nosotros restringiremos nuestra atención a la clase C = {contrastes de nivel α}. Es decir, fijaremos
la probabilidad error de Tipo I en un valor bajo que consideremos razonable y dentro de todos los
contrastes de este nivel buscaremos aquel que tenga la mayor potencia.
6.2.1.
Hipótesis simple contra hipótesis simple
En el caso que tengamos una hipótesis simple contra otra hipótesis simple, el siguiente teorema
nos dice cómo encontrar el “mejor” contraste de tamaño α. Al que llamaremos el más potente
(MP). Note que el teorema asume que el espacio parámetrico está compuesto por solo dos puntos,
θ0 y θ1 . Si bien esto es una simplificación importante de la realidad, el resultado podrá luego ser
extendido a casos más realistas, donde Θ ⊆ R.
Lema 6.2.1. Neyman-Pearson Sea X1 , . . . , Xn una MA de X ∼ f (x|θ), θ ∈ Θ = {θ0 , θ1 }. Para
~ = ~x, sea L(θ|~x) la función de verosimilitud de ~x. Considere
X
H0 ) θ = θ0
contra H1 ) θ = θ1 .
Sea un contraste con la siguiente función crı́tica
ψ(~x) = I[L(θ1 |~x)>kL(θ0 |~x)] ,
(6.1)
~ = α.
Eθ (ψ(X))
(6.2)
donde k está determinado tal que
Cualquier contraste que satisfaga (6.1) y (6.2) es el contraste MP de tamaño α.
Demostración. Se asume que X es una variable continua. El caso discreto es similar remplazando
las integrales por sumatorias.
Primero note que cualquier contraste que satisfaga 6.2 es de tamaño α y por lo tanto también es
de nivel α.
94 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Sea ψ ∗ (~x) y β ∗ (θ) la función crı́tica y la función de potencia respectivamente de cualquier otro
contraste de nivel α. Sea β(θ) la función de potencia del test con función crı́tica dada por 6.1.
Observe que
(ψ(~x) − ψ ∗ (~x))(L(θ1 |~x) − kL(θ0 |~x)) ≥ 0 ∀~x ∈ X .
(6.3)
Para ello, note que si ~x ∈ X tal que ψ(~x) = 1, esto implica que L(θ1 |~x) > kL(θ0 |~x) > 0. Además,
ψ(~x)−ψ ∗ (~x) ≥ 0 dado que ψ ∗ (~x) ∈ {0, 1}. Por lo cual, se verifica 6.3. Para ~x ∈ X tal que ψ(~x) = 0,
se verifica que L(θ1 |~x) > kL(θ0 |~x) < 0 y que ψ(~x) − ψ ∗ (~x) ≤ 0. Por lo cual, se verifica nuevamente
6.3. Por lo tanto,
Z
0≤
Z
...
∗
(ψ(~x) − ψ (~x))(L(θ1 |~x) − kL(θ0 |~x))
n
Y
dxi
i=1
Z
∞
Z
∞
ψ(~x)(L(θ1 |~x) − kL(θ0 |~x))
...
=
−∞
−∞
n
Y
i=1
Z
∞
dxi −
Z
∞
...
−∞
ψ ∗ (~x)(L(θ1 |~x) − kL(θ0 |~x))
−∞
n
Y
dxi
i=1
~ − kEθ0 (ψ(X)))
~
~ − kEθ0 (ψ ∗ (X)))
~
= (Eθ1 (ψ(X))
− (Eθ1 (ψ ∗ (X))
= (β(θ1 ) − β ∗ (t1 )) − k(β(θ0 ) − β ∗ (t0 ))
Con lo cual, tenemos que
β(θ1 ) − β ∗ (t1 ) ≤ k(β(θ0 ) − β ∗ (t0 ))
(6.4)
Observación 6.2.2. Note que el contraste MP en este caso se basa en la comparación de funciones de verosimilitud. Favorecemos la hipótesis que tiene asociada una mayor verosimilitud.
Corolario 6.2.1. Sea RC la región crı́tica del contraste más potente para H0 ) θ = θ0 contra
H1 ) θ = θ1 . Suponga que el nivel de significación del contraste es α. Sea β(θ1 ) la potencia del
mismo, entonces
α ≤ β(θ1 ).
Demostración. Considere el contraste donde los datos son ignorados y se decide en términos de
realizar una prueba de Bernoulli. Si observamos éxito rechazamos la hipótesis nula. Si α = P(éxito),
entonces el contraste es de tamaño α y su potencia es también α. Pero RC es la mejor región crı́tica
de nivel α y por lo tanto tiene que tener una potencia mayor o igual que el contraste descrito.
Ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), σ 2 conocido. Suponga que
µ ∈ {µ0 , µ1 }, (µ0 < µ1 ). Deseamos constrastar
H0 )µ = µ0
contra H1 )µ = µ1 .
Para encontrar el contraste MP, para estas hipótesis, aplicamos el Lema de NeymanPearson. Tenemos que
(
)
n
X
n
1
L(µ|~x) = (2πσ 2 )− 2 exp − 2
(xi − µ)2
2σ i=1
Contraste de Hipótesis - 95
Introducción a la Inferencia Estadı́stica
Por lo tanto, la RC del contraste MP es el conjunto de las ~x ∈ X tal que
P
n
(2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ1 )2
P
≥ k,
n
(2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2
(6.5)
donde k está elegido tal que
(
)
!
n
1 X
P exp − 2
≥ k µ = µ0 = α.
(Xi − µ1 )2 − (Xi − µ0 )2
2σ i=1
Observación 6.2.3. La condición
L(θ1 |~x)
> k, k > 0,
L(θ0 |~x)
también puede escribirse de la forma
µ1 (~x) = µ1 (~x, θ0 , θ1 ) ≤ c1 o µ2 (~x) = µ2 (~x, θ0 , θ1 ) ≥ c2 ,
donde
~ θ0 , θ1 ) ≤ c1 ) = α o P(µ2 (X,
~ θ0 , θ1 ) ≥ c2 ) = α.
P(µ1 (X,
(6.6)
Esto es, simplificaremos lo más posible la expresión L(θ1 |~x)/L(θ0 |~x) ≥ k para reducirla a la forma
equivalente µ1 (~x) ≤ c1 o µ2 (~x) ≥ c2 tal que sea sencillo determinar la distribución en el muestreo
de µ1 (~x) o µ2 (~x) con el fin de hallar el valor de c1 o c2 , según corresponda, que satisfaga 6.6.
Ejemplo 6.2.6. Continuación del ejemplo 6.2.5. Usando la observación 6.2.3, la ecuación 6.5 equivale a que
n
o
1 Pn
1
n(x̄n −µ1 )2
2
2
2
exp − 2σ2
exp − 2σ2 i=1 (xi − µ1 )
exp − 2σ2 (nSn + n(x̄n − µ1 ) )
o ≥ k.
1 Pn
1
n
=
=
n(x̄n −µ0 )2
exp − 2σ2 i=1 (xi − µ0 )2
exp − 2σ2 (nSn2 + n(x̄n − µ0 )2 )
exp − 2σ2
Por lo tanto rechazamos H0 si
n
o
n(x̄2n −2x̄n µ1 +µ21 )
n
n
exp −
2σ 2
2
2
n
o = exp 2 (µ1 − µ0 )x̄n exp − 2 (µ1 − µ0 ) ≥ k
n(x̄2 −2x̄ µ +µ2 )
σ
2σ
exp − n 2σn2 0 0
n
⇒ exp 2 (µ1 − µ0 )x̄n ≥ k ∗ ⇒ (µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≥ k ∗∗∗
σ
~ = X̄n ,
dado que (µ1 − µ0 ) > 0. La simplificación nos lleva, en este caso, a que µ2 (X)
cuya distribución en el muestreo es conocida. Por lo tanto, la RC del contraste MP,
volviendo a denotar el umbral de la RC con la letra k, es {~x ∈ X |x̄n ≥ k}, donde k
está elegido tal que
√
√
n(X̄n − µ0 )
n(k − µ0 )
P(X̄n ≥ k|µ = µ0 ) = α ⇒ P
≤
= 1 − α.
σ
σ
Esto
√ es, si z1−α es el percentil (1-α)100 % de una N(0,1), rechazo H0 si y solo si
n(x̄n − µ0 )
σ
≥ z1−α o, lo que es lo mismo, si x̄n ≥ µ0 + z1−α √ .
σ
n
96 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Ejemplo 6.2.7. Continuación del ejemplo 6.2.6.
Si en el ejemplo 6.2.5 se hubiera asumido que µ1 < µ0 , para hallar la RC del contraste
MP los cálculos serı́an idénticos salvo en el último paso. Dado que ahora (µ1 − µ0 ) < 0
tenemos que
(µ1 − µ0 )x̄n ≥ k ∗∗ ⇒ x̄n ≤ k ∗∗∗
Entonces, µ1 (~x) = x̄n y la RC={~x ∈ X |x̄n ≤ k}, donde k √está elegido tal que
n(x̄n − µ0 )
P(X̄n ≤ k|µ = µ0 ) = α. Esto es, rechazo H0 si y solo si
≤ zα o
σ
σ
x̄n ≤ µ0 + zα √ .
n
Ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = θ.
Suponga que θ ∈ {θ0 , θ1 }, (θ0 < θ1 ). Deseamos poner contrastar
H0 ) θ = θ0
Sabemos que L(θ|~x) = θ
−n
exp −
n
X
contra H1 ) θ = θ1 .
!
xi /θ . Por lo tanto, la RC del contraste MP de
i=1
tamaño α está dada por
( )
P
n
n
θ1−n exp(− ni=1 xi /θ1 )
θ0
1 X
1
P
≥k ⇒
−
exp −
xi ≥ k
θ1
θ1 θ0 i=1
θ0−n exp(− ni=1 xi /θ0 )
)
( n
n
n
X
1
1
1 X
1 X
∗
∗∗
⇒ exp −
−
xi ≥ k ⇒
−
xi ≥ k ⇒
xi ≥ k ∗∗∗
θ1 θ0 i=1
θ0 θ1 i=1
i=1
(
)
n
X
−1
−1
dado que θ0 −θ1 > 0. Por lo tanto, la RC= ~x ∈ X |
xi ≥ k , donde k está elegido
i=1
!
n
X
tal que P
Xi ≥ k|θ = θ0 = α.
i=1
Sabemos que
n
X
Xi ∼ Gamma (n, 1/θ) ⇒
i=1
2
Pn
i=1
θ
Xi
∼ Gamma (n, 1/2) = χ22n .
Lo que implica que
P
2 ni=1 Xi
2
RC = ~x ∈ X
≥ χ2n;1−α .
θ0
Contraste de Hipótesis - 97
Introducción a la Inferencia Estadı́stica
En los ejemplos 6.2.5 y 6.2.8, la RC quedó expresada en términos del estadı́stico suficiente para
el parámetro de interés. Esto es consecuencia de aplicar el teorema 2.3.1 al resultado obtenido en
el lema 6.2.1.
Corolario 6.2.2. Bajo las condiciones del lema 6.2.1, si T = T (X1 , . . . , Xn ) es un estadı́stico
suficiente para θ. Entonces, cualquier contraste cuya función crı́tica es
ψ(t) = I[fT (t|θ1 )>kfT (t|θ0 )] ,
donde k está determinado tal que
Eθ (ψ(T )) = α,
es el contraste MP de tamaño α.
Ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Suponga que θ ∈ {θ0 , θ1 },
(θ0 < θ1 ). Deseamos contrastar
H0 ) θ = θ0
contra H1 ) θ = θ1 .
nxn−1
I[0<x<θ] ,
θn
≥ k}. Donde el valor de k está dado por
Sabemos que X(n) es suficiente para θ. Por lo cual, dado que fX(n) (x) =
tenemos que la RC={~x ∈ X |x(n)
Z
Pθ (X(n) ≥ k|θ = θ0 ) =
k
θ0
θ0n − k n
nxn−1
dx
=
= α ⇒ k = θ0 (1 − α)1/n .
θ0n
θ0n
Ejemplo 6.2.10. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Suponga que θ ∈ {θ0 , θ1 },
(θ0 < θ1 ). Deseamos contrastar
H0 ) θ = θ0
Sabemos que T =
n
X
contra H1 ) θ = θ1 .
Xi es suficiente para θ. Entonces, la RC MP está dada por las
i=1
~x ∈ X , tal que
n t
n t
θ (1 − θ1 )n−t
1 − θ1
θ1 (1 − θ0 )
θ1 (1 − θ0 )
t 1
=
≥ k ⇒ t log
≥ k∗
n t
n−t
1
−
θ
θ
(1
−
θ
)
θ
(1
−
θ
)
θ0 (1 − θ0 )
0
0
1
0
1
t
Dado que θ0 < θ1 tenemos que θ1 /θ0 > 1 y que (1(− θ0 )/(1 − θ1 ) > )1, por lo cual
n
X
log θ1 (1 − θ0 )/[θ0 (1 − θ1 )] > 0. Entonces, la RC es ~x ∈ X |
xi ≥ k . Donde k es
i=1
tal que
α=P
n
X
i=1
98 - Contraste de Hipótesis
!
Xi ≥ k θ = θ0
n X
n x
=
θ0 (1 − θ0 )n−x .
x
x=k
Introducción a la Inferencia Estadı́stica
Por ejemplo, si θ0 = 1/4, θ1 = 3/4 y n = 10. Para hallar k,
α=P
n
X
!
Xi ≥ k θ = 1/4
i=1
(
10 X
0, 0197 si k = 6
10
=
0, 25x 0, 7510−x =
x
0, 0781 si k = 5
x=k
Por lo tanto, para α = 0, 05 no existe una RC de la forma especificada por NeymanPearson. Es más, por ejemplo, no existe el contraste MP de nivel α ∈ (0, 0197; 0, 0781).
Esta situación es común cuando X es una variable aleatoria discreta. En el curso no
nos detenemos en cómo solucionar este problema.
6.2.2.
Hipótesis compuestas
Suponga que deseamos contrastar, H0 ) θ = θ0 contra H1 ) θ > θ0 . Si bien esto no supone una
partición de Θ, dado que estamos dejando fuera los valores de θ < θ0 , verificaremos que la función
de potencia es creciente en el conjunto Θ0 = {θ|θ ≤ θ0 }. Esto garantiza que β(θ) alcanza su máximo
valor, en Θ0 , cuando θ = θ0 . Por lo tanto, estaremos en realidad trabajando con H0 ) θ ≤ θ0 y
buscando contrastes de nivel α.
Para hallar el contraste UMP, definido en 6.2.4, fijamos un valor arbitrario de θ, θ∗ , tal que θ∗ > θ0 .
Después procedemos a hallar la región crı́tica MP, de tamaño α, para H0 ) θ = θ0 contra H1 ) θ = θ∗ ,
usando el lema 6.2.1. Si el contraste resultante no depende del valor θ∗ seleccionado, usando la
definición 6.2.4, tenemos que el contraste hallado es el UMP.
Ejemplo 6.2.11. En los ejemplos 6.2.5, 6.2.8 y 6.2.9, los contrastes resultantes no
dependen del valor en particular θ1 , solo se utilizó para construirlos la relación θ0 < θ1 .
Por lo tanto, en cada ejemplo las RC halladas son las UMP para H0 ) θ ≤ θ0 contra
H1 ) θ > θ0 . Solo queda mostrar que las respectivas funciones de potencia son funciones
crecientes en θ.
En el ejemplo 6.2.5,
√
√
n(X̄n − θ0 )
n(X̄n − θ + θ − θ0 )
> z1−α = Pθ
> z1−α
β(θ) = Pθ (X̄n > k) = Pθ
σ
σ
√
= Pθ
n(X̄n − θ)
> z1−α −
σ
√
√
n(θ − θ0 )
n(θ − θ0 )
= 1 − Φ z1−α −
.
σ
σ
Por lo tanto, β(θ) es una función creciente en θ. Por lo cual, sup β(θ) = β(θ0 ).
θ≤θ0
La Figura 6.1 muestra el comportamiento de β(θ), para el caso n = 20, θ0 = 2,
σ 2 = 5 y α = 0, 1.
Pn
θ0 χ22n;1−α
θ0 χ22n;1−α
2 i=1 Xi
Para el ejemplo 6.2.8, β(θ) = 1−Pθ
≤
= 1−FY
,
θ
θ
θ
donde Y ∼ χ22n . La Figura 6.2, muestra la gráfica de β(θ) para el caso n = 10,
θ0 = 1, 5 y α = 0, 1.
Contraste de Hipótesis - 99
Introducción a la Inferencia Estadı́stica
Figura 6.1: Función de potencia, X ∼ N(θ,5), α = 0, 1 y n = 20
Figura 6.2: Función de potencia, X ∼ Exp(θ), α = 0, 1 y n = 10
X(n)
θ0 (1 − α)1/n
θ0 (1 − α)1/n
Para el ejemplo 6.2.9, β(θ) = 1−Pθ
≤
= 1−FY
,
θ
θ
θ
donde Y ∼ Beta(n,1). La Figura 6.3, muestra la gráfica de β(θ) para el caso
n = 10, θ0 = 2, 2 y α = 0, 1. Note que en este caso en particular, k = 2, 176942
y dado que Y ∼ Beta, si θ < 2, 176942, entonces 2, 176942/θ > 1 y por lo tanto,
para θ < 2, 176942, FY (2, 176942/θ) = 1 lo que implica que β(θ) = 0.
Note que todas las figuras muestran que a medida que θ crece y se aleja de θ0 , la potencia tiende
rápidamente a 1. Esto es, cuanto más se aleja el verdadero valor de θ por encima de θ0 , mayor es
la probabilidad de rechazar la hipótesis nula de que θ = θ0 .
La función de potencia es también una función del tamaño de la muestra. Cuanto mayor sea n,
mayor información habrá acerca de θ, por lo cual pequeñas desviaciones del verdadero valor de θ
100 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Figura 6.3: Función de potencia, X ∼ Uniforme(0, θ), α = 0, 1 y n = 10
con respecto a θ0 harán que rechacemos H0 . En este sentido, se dice que los contrastes UMP son
conservadores. La Figura 6.4 muestra la función de potencia del ejemplo 6.2.5, calculada para tres
tamaños de muestra: 10, 100 y 1000. Note que cuando n = 1000 la probabilidad de rechazar H0
es mayor que 0,9 apenas θ sobrepasa, aproximadamente, el valor 2,18.
Ejemplo 6.2.12. Sea X1 , . . . , Xn una MA de X ∼ N(0,σ 2 ). Deseamos contrastar
H0 ) σ 2 = σ02 contra H1 ) σ 2 > σ02 . Para encontrar el contraste UPM, aplicamos el lema
de Neyman-Pearson a las hipótesis H0 ) σ 2 = σ02 contra H1 ) σ 2 = σ12 , con (σ02 < σ12 ).
(
)
P
2 n2
n
n
(2πσ12 )− 2 exp { ni=1 x2i /(2σ12 )}
σ0
1 1
1 X 2
L(σ12 |~x)
P
=
=
exp −
−
x ≥ k.
n
L(σ02 |~x)
σ12
2 σ12 σ02 i=1 i
(2πσ02 )− 2 exp { ni=1 x2i /(2σ02 )}
⇒
Por lo cual y dado que
n
X
i=1
1
1
− 2
2
σ0 σ1
X
n
i=1
x2i
≥k
∗
⇒
n
X
x2i ≥ k ∗∗ .
i=1
(
Xi2 /σ 2 ∼ χ2n , tenemos que la RC= ~x ∈ Rn
n
X
)
x2i ≥ σ02 χ2n;1−α
.
i=1
Para el cálculo de la RC no importó el valor en particular de σ12 , solo se tuvo en cuenta
la relación σ02 < σ12 , para determinar que (1/σ02 − 1/σ12 ) > 0. Por lo tanto, la RC hallada
es la RC UMP para las hipótesis planteadas.
Observación 6.2.4. Con las modificaciones correspondientes todo lo anterior es válido para
H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . En este caso, empezamos con H0 ) θ = θ0 contra H1 ) θ = θ1 , donde
θ1 < θ0 . Se construye la RC MP utilizando el lema de Neyman-Pearson. Si esta RC no depende
del valor en particular de θ1 , sino solo de la relación θ1 < θ0 , hemos hallado la RC UMP para las
hipótesis originales, verificando que su función de potencia sea decreciente en (θ0 , +∞).
Contraste de Hipótesis - 101
Introducción a la Inferencia Estadı́stica
Figura 6.4: β(θ) como función de n. Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ ≤ 2.
Ejemplo 6.2.13. Continuación del ejemplo 6.2.7. Si se desea contrastar H0 ) θ ≥ θ0 conσ
tra H1 ) θ < θ0 . La región crı́tica óptima es la que rechaza H0 cuando x̄n ≤ µ0 + zα √ .
n
Como en caso de estimación puntual, cuando nos circunscribimos a una determinada familia de
distribuciones podemos encontrar resultados que son propios de la familia. Por lo tanto, definiremos una nueva familia de distribuciones.
Definición 6.2.5. Una familia de distribuciones {f (x|θ)|θ ∈ Θ} se dice que tiene la propiedad de
~
razón de verosimilitudes monótona (MLR, por su sigla en inglés) en un estadı́stico real T = T (X)
∗
si lo siguiente se cumple: para todo {θ, θ } ⊂ Θ, y ~x ∈ X , tenemos que
L(θ∗ |~x)
es no decreciente en T (~x) siempre que θ∗ > θ.
L(θ|~x)
Ejemplo 6.2.14. Continuación ejemplo 6.2.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ),
n
X
~ =
µ ∈ R, σ > 0 conocida. Considere un valor arbitrario de µ, µ∗ , y defina T (X)
Xi .
i=1
Entonces,
L(µ∗ |~x)
= exp (µ∗ − µ)T (~x)/σ 2 + n(µ2 − µ∗2 )/(2σ 2 ) ,
L(µ|~x)
que es creciente en T , siempre que µ∗ > µ. Por lo tanto, tiene la propiedad de MLR en
n
X
~
T (X) =
Xi .
i=1
102 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Ejemplo 6.2.15. Continuación ejemplo 6.2.8. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ),
n
X
+
~
con E(X) = θ ∈ R . Defina T (X) =
Xi .
i=1
L(θ∗ |~x)
=
L(θ|~x)
θ
θ∗
n
exp
(θ∗ − θ)T (~x)
θ θ∗
,
~ =
es creciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en T (X)
n
X
Xi .
i=1
Ejemplo 6.2.16. Continuación ejemplo 6.2.9. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ).
~ = X(n) .
Defina, T (X)
n
I[0<x(n) <θ∗ ]
L(θ∗ |~x)
θ
=
,
L(θ|~x)
θ∗
I[0<x(n) <θ]
es no decreciente en T , siempre que θ∗ > θ. Entonces, tiene la propiedad de MLR en
~ = X(n) .
T (X)
Note que T es siempre un estadı́stico suficiente.
Teorema 6.2.1. Teorema de Karlin-Rubin Suponga que deseamos contrastar H0 ) θ ≤ θ0
~ un estadı́stico real para θ ∈ Θ ⊆ R. Suponga que la familia
contra H1 ) θ > θ0 . Sea T = T (X)
{f (x|θ)|θ ∈ Θ} tiene la propiedad de MLR (no decreciente). Entones, el test que tiene función
crı́tica
~ =I ~
ψ(X)
[T (X)>k] ,
~ = α.
corresponde con el contraste UMP de nivel α, si k es elegido tal que E(ψ(X))
Teorema 6.2.2. Sea X1 , . . . , Xn una MA de X ∼ f (x|θ). Suponga que f (x|θ) pertenece a la
familia exponencial de distribuciones, esto es
f (x|θ) = h(x)c(θ) exp{w(θ)t(x)}.
~ =
Defina T (X)
n
X
t(Xi ).
i=1
~ > k ∗ ) = α.
1. Si w(θ) es una función monótona creciente en θ y si existe k ∗ tal que Pθ0 (T (X)
Entonces, el contraste con RC = {~x ∈ X |T (~x) > k ∗ } es el contraste UMP de nivel α para
H0 ) θ ≤ θ0 contra H1 ) θ > θ0 .
Contraste de Hipótesis - 103
Introducción a la Inferencia Estadı́stica
~ < k ∗ ) = α.
2. Si w(θ) es una función monótona decreciente en θ y si existe k ∗ tal que Pθ0 (T (X)
∗
Entonces, el contraste con RC = {~x ∈ X |T (~x) < k } es el contraste UMP de nivel α para
H0 ) θ ≤ θ0 contra H1 ) θ > θ0 .
Ejemplo 6.2.17. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ). µ ∈ R conocido y σ ∈ R+
desconocido. Deseamos contrastar H0 ) σ ≤ σ0 contra H1 ) σ > σ0 . Note que si escribimos
a f (x|σ) como una familia exponencial, entonces
w(σ 2 ) = −
1
y t(x) = (x − µ)2 .
2
2σ
w(σ 2 ) es una función creciente en σ. Por lo tanto, f (x|σ) tiene la propiedad de MLR
n
X
~
en T (X) =
(Xi − µ)2 . Entonces, el contraste UMP de nivel α es la que tiene función
i=1
crı́tica
~ =I ~
P
ψ(X)
.
2
[T (X)>k] = I[ n
i=1 (Xi −µ) >k ]
Para determinar k, recordamos que
n
X
(Xi − µ)2 /σ 2 ∼ χ2n . Por lo tanto, la función
i=1
crı́tica es de la forma
~ = I Pn
ψ(X)
[
2 2
2
i=1 (Xi −µ) >σ0 χn;1−α
].
Ejemplo 6.2.18. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ.
θ ∈ R+ . Se desea contrastar H0 ) θ ≥ θ0 contra H1 ) θ < θ0 . f (x|θ) pertenece a la familia
exponencial con w(θ) = −θ y t(x) = x. Para determinar la región crı́tica del contraste
UMP, notamos que w(θ) es decreciente en θ, por lo cual los teoremas 6.2.1 y 6.2.2
~ = I Pn
establecen que la función crı́tica es ψ(X)
Xi <k] .
[
i=1
6.2.3.
No existencia del la RC UMP
Suponga X ∼ N(θ, σ 2 ), σ 2 conocida y H0 ) θ = θ0 contra H1 ) θ 6= θ√
0 . Si tomamos θ1 < θ0 , el
contraste UMP, de nivel α, es la que tiene RC={~x|x̄n < θ0 − z1−α σ/ n}. Por lo cual, si existe,
esta tendrı́a que ser el contraste UMP en este caso dado que ningun otro tiene mayor potencia en
θ = θ1 . Llamémosle Contraste #1 y sea β1 (θ) su función de potencia.
√
Suponga ahora que tenemos otro contraste que tiene RC={~x|x̄n > θ0 + z1−α σ/ n} y sea β2 (θ) su
104 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
función de potencia. Si tomamos θ2 > θ0 , tenemos que
√
β2 (θ2 ) = Pθ2 (X̄n > θ0 + z1−α σ/ n)
X̄n − θ2
θ0 − θ2
√ > z1−α +
√
= Pθ2
σ/ n
σ/ n
> Pθ2 (Z > z1−α )
= Pθ2 (Z < −z1−α )
X̄n − θ2
θ0 − θ2
√ < −z1−α +
√
> Pθ2
σ/ n
σ/ n
√
= Pθ2 (X̄n < θ0 − z1−α σ/ n)
= β1 (θ2 ).
Por lo tanto, β2 (θ) > β1 (θ) lo que indica que el contraste #1 no es el UMP. Esto contradice lo que
habı́amos dicho de que si existı́a el contraste UMP, este deberı́a ser el contraste #1. Entonces, no
existe un contraste UMP de nivel α para este problema. La Figura 6.5 muestra la comparación de
β1 (θ) y β2 (θ).
Figura 6.5: Comparación de β1 (θ) y β2 (θ). Caso: X ∼ N(θ,5), α = 0, 1 y H0 ) θ 6= 2.
6.3.
Contraste de razón de verosimilitudes
Hemos visto que existen casos para las cuales no existe el contraste UMP. También hemos asumido hasta ahora que Θ ⊆ R y nos hemos enfocado en hipótesis donde se especificaban en H0
desigualdades del tipo “≥” o “≤”. Deseamos encontrar un método más general, no solo en qué
tipo de igualdad o desigualdades especificamos en H0 , sino también en el número de parámetros
desconocidos que pueda tener una distribución. Por ejemplo, suponga X ∼ f (x|θ), con θ = (θ1 , θ2 ),
θi ∈ R, i = 1, 2. Deseamos contrastar las hipótesis H0 ) θ1 = θ10 contra H1 ) θ1 > θ10 . Note que
H0 ) no es una hipótesis simple en este caso. Se ha escrito de esta manera para reflejar que si bien
Contraste de Hipótesis - 105
Introducción a la Inferencia Estadı́stica
queremos θ1 = θ10 , en cambio θ2 puede tomar cualquier valor. Por lo cual, el verdadero planteo
es H0 ) θ1 = θ10 , θ2 ∈ R. Por ejemplo, cuando X ∼ N(θ1 , θ2 ), si asumimos que θ2 es conocido,
entonces H1 ) θ1 = θ10 es una hipótesis simple y para este problema hemos mostrado que no existe
la RC UMP. A continuación describiremos un método general que permite encontrar contrastes
para estas situaciones.
Definición 6.3.1. Un estadı́stico de razón de verosimilitudes para H0 ) θ ∈ Θ0 contra H1 ) θ ∈ Θc0
es
sup L(θ|~x)
θ∈Θ0
.
λ(~x) =
sup L(θ|~x)
θ∈Θ
Un contraste de razón de verosimilitudes es cualquier contraste que tenga como RC a un conjunto
de la forma
{~x ∈ X |λ(~x) ≤ c}, c ∈ (0, 1).
Nota: En los casos que estudiamos en el curso, el supremo es siempre alcanzado. Por lo tanto,
podemos modificar la definición de λ(~x), sustituyendo “sup” por “máx”.
Observación 6.3.1. Note que supθ∈Θ0 L(θ|~x) se puede interpretar como la mejor evidencia en
favor de la hipótesis nula. A su vez, supθ∈Θ L(θ|~x) se puede interpretar como la mejor evidencia en
favor de θ sin considerar ninguna restricción. Valores pequeños de λ(~x) están asociados a valores
pequeños de supθ∈Θ0 L(θ|~x) relativos al valor de supθ∈Θ L(θ|~x). Si la mejor evidencia a favor de
H0 parece débil, en comparación a la evidencia sin restringir, se rechaza H0 .
Para llevar a cabo el proceso de maximización, primero note que supθ∈Θ L(θ|~x) = L(θ̂M V |~x), donde
θ̂M V es el estimador máximo verosı́mil de θ. En el caso de que θ sea un vector, θ = (θ1 , . . . , θk ),
fijamos el valor del parámetro θi al cual se refiere la hipótesis nula y con ese valor fijo hallamos los
estimadores máximo verosı́mil de las restantes componentes de θ. Por ejemplo, suponemos que las
hipótesis son H0 ) θ1 = θ10 contra H1 ) θ1 6= θ10 . Para hallar el supθ∈Θ0 L(θ|~x), primero sustituimos
θ1 por θ10 y luego, sujeto a esta restricción, encontramos (θ̂2 , . . . , θ̂k ), los estimadores máximo
verosı́miles de (θ2 , . . . , θk ). Entonces, supθ∈Θ0 L(θ|~x) = L(θ10 , θ̂2 , . . . , θ̂k |~x).
Ejemplo 6.3.1. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido.
Deseamos contrastar H0 ) µ = µ0 contra H1 ) µ 6= µ0 . El contraste de razón de
verosimilitudes, se construye de la siguiente manera
(
L(µ|~x) = (2πσ 2 )
−n
2
n
1 X
exp − 2
(xi − µ)2
2σ i=1
)
.
Dado que σ 2 es conocida, θ = µ, Θ0 = {µ0 } y Θ = R. En este caso, H0 ) es una hipótesis
simple.
(
)
n
X
n
1
sup L(θ|~x) = L(µ0 |~x) = (2πσ 2 )− 2 exp − 2
(xi − µ0 )2 ,
2σ
θ∈Θ0
i=1
106 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
y dado que θ̂M V = X̄n ,
(
−n
2
sup L(θ|~x) = L(x̄n |~x) = (2πσ 2 )
θ∈Θ
Entonces, recordando el resultado 2.1:
n
X
n
1 X
exp − 2
(xi − x̄n )2
2σ i=1
)
.
(xi − µ0 )2 = nSn2 + n(x̄n − µ0 )2 .
i=1
P
n
(2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − µ0 )2
P
λ(~x) =
n
(2πσ 2 )− 2 exp − 2σ1 2 ni=1 (xi − x̄n )2
n n
o
= exp − 2 (x̄n − µ0 )2
2σ
Entonces, rechazamos H0 si
o
n n
n
(x̄n − µ0 )2 > c∗ ⇒
exp − 2 (x̄n − µ0 )2 < c ⇒
2σ
2σ 2
√
n(x̄n − µ0 )
≥ c∗∗ .
σ
Donde c∗∗ está elegido tal que
√
n(X̄n − µ0 )
∗∗
≥c
= α ⇒ c∗∗ = z1−α/2 ,
Pµ0
σ
√
dado que n(X̄n − µ0 )/σ ∼ N(0, 1) cuando H0 ) es cierta. La Figura 6.6 muestra la
función de potencia de este contraste en el caso de que α = 0, 10, n = 20, σ 2 = 10,
para H0 ) µ = 2 contra H1 ) µ 6= 2.
Figura 6.6: Función de potencia. Caso: X ∼ N(µ,10), α = 0, 1 y H0 ) µ = 2.
Contraste de Hipótesis - 107
Introducción a la Inferencia Estadı́stica
Ejemplo 6.3.2. Continuación ejemplo 6.3.1. Suponga ahora que σ > 0 es desconocido.
Las hipótesis, escritas explı́citamente son H0 ) µ = µ0 , σ > 0 contra H1 ) µ 6= µ0 , σ > 0.
En este caso θ = (µ, σ 2 ), Θ0 = {µ0 }×R+ , Θ = R×R+ . Para calcular λ(~x), maximizamos
L(θ|~x) en Θ0 y en Θ:
En Θ0 ,
(
sup L(θ|~x) = L(µ0 , σ̂02 |~x) = (2πσ̂02 )
−n
2
θ∈Θ0
n
1 X
(xi − µ0 )2
exp − 2
2σ̂0 i=1
)
n
n
= (2πσ̂02 )− 2 e− 2 ,
n
donde
σ̂02
µ = µ0 .
1X
=
(xi − µ0 )2 es la estimación máximo verosı́mil de σ 2 sujeto a que
n i=1
En Θ:
(
−n
2
sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 )
θ∈Θ
n
1 X
(xi − x̄n )2
exp − 2
2Sn i=1
)
n
n
= (2πSn2 )− 2 e− 2 .
Por lo tanto,
n
n
(2πσ̂02 )− 2 e− 2
λ(~x) =
n =
n
(2πSn2 )− 2 e− 2
Sn2
σ̂02
n2
− n
(x̄n − µ0 )2 2
= 1+
.
Sn2
Rechazamos H0 ) cuando
(x̄n − µ0 )2
1+
Sn2
− n2
<c ⇒
(x̄n − µ0 )2
> c∗ ⇒
Sn2
(x̄n − µ0 )
> c∗∗ .
Sn
Donde c∗∗ está elegido tal que
tn−1;1−α/2
(x̄n − µ0 )
∗∗
Pµ0
>c
,
= α ⇒ c∗∗ = √
Sn
n−1
√
dado que n − 1(X̄n − µ0 )/Sn ∼ tn−1 cuando H0 ) es cierta.
La Figura 6.7 muestra la función de potencia de este contraste, en el caso H0 ) µ = 2,
Sn2 = 10, n = 20 y α = 0, 1. También se incluye la gráfica de la función de potencia
del ejemplo 6.3.1. Note de comparar ambas gráficas, se aprecia que en el caso de σ
desconocido, la potencia tiende más lentamente a 1 a medida que nos alejamos del
valor µ = 2. Esto se debe a que se ha incorporado la incertidumbre acerca del verdadero
valor de la varianza de la distribución.
Ejemplo 6.3.3. Continuación ejemplo 6.3.2. Suponga que ahora queremos encontrar
el contraste de razón de verosimilitudes para H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 . En este
caso θ = (µ, σ 2 ), Θ0 = R × {σ02 }, Θ = R × R+ . Para calcular λ(~x), maximizamos
L(σ 2 |~x) en Θ0 y en Θ:
108 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Figura 6.7: Función de potencia. Caso: X ∼ N(µ, σ 2 ), S10 = 10, α = 0, 1 y H0 ) µ = 2.
En Θ0 , recordando que el estimador máximo verosı́mil de µ, X̄n , no depende de
cuál es el verdadero valor de σ 2 , tenemos que
(
)
n
X
n
1
sup L(θ|~x) = L(x̄n , σ02 |~x) = (2πσ02 )− 2 exp − 2
(xi − x̄n )2
2σ
θ∈Θ0
0 i=1
En Θ, al igual que en el ejemplo anterior:
n
n
sup L(θ|~x) = L(x̄n , Sn2 |~x) = (2πSn2 )− 2 e− 2 .
θ∈Θ
De donde,
λ(~x) =
Sn2
σ02
n2
Sn2
exp − 2 + 1
.
σ0
Entonces, rechazamos H0 si
Sn2
σ02
Sn2
exp 1 − 2 < c.
σ0
Para expresar la forma de esta RC en términos de alguna variable aleatoria con distribución conocida, estudiamos el comportamiento de la función g : R → R+ , definida
como g(u) = u exp{1 − u}. Note que,
(
> 0 si u < 1
g(1) = 1, g 0 (u) = (1 − u)e1−u ⇒ g 0 (u)
.
< 0 si u > 1
Por lo tanto, g(u) < c implica que u < a o u > b, donde c = g(a) = g(b). La Figura 6.8
muestra que el caso particular de g(u) < c = 0, 5, lo que equivale a que u < 0, 231961
o u > 2, 67835.
Contraste de Hipótesis - 109
Introducción a la Inferencia Estadı́stica
Figura 6.8: Gráfica de g(u) = u exp{1 − u}, u > 0
Por lo tanto, rechazo H0 si y solo si
tal que
P
Sn2
Sn2
<
a
o
> b. Donde a y b están determinados
σ02
σ02
2
2
2
Sn
Sn
Sn
Sn2
<a ∪
>b
=P
<a +P
> b = α.
σ02
σ02
σ02
σ02
Bajo H0 cierta, nSn2 /σ02 ∼ χ2n−1 . Por lo cual,
a=
χ2n−1;1−α2
χ2n−1;α1
y b=
, donde α1 + α2 = α.
n
n
Dado un valor de α, encontrar los valores de a y b, que cumplan 1) g(a) = g(b);
2) P(χ2n−1 < na) = α1 , P(χ2n−1 > nb) = α2 , con α1 + α2 = α; se debe realizar
numéricamente. Usualmente, se utiliza la opción, más práctica, de tomar α1 = α2 =
α/2.
Ejemplo 6.3.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ.
Se desea contrastar H0 )θ ≤ θ0 contra H1 )θ > θ0 . En este caso Θ = R+ y Θ0 = (0, θ0 ).
(
)
n
X
L(θ|~x) = θn exp −θ
xi .
i=1
Para calcular λ(~x), maximizamos L(θ|~x) en Θ0 y en Θ, recordando que θ̂M V = X̄n−1 .
110 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
En Θ0 ,
sup L(θ|~x) = sup θn e−θ
θ∈Θ0
Pn
i=1
xi
=
θ∈(0,θ0 )

−n −n

x̄n e


θ0n e−θ0
si x̄−1
n ≤ θ0
Pn
i=1
xi
si x̄−1
n > θ0
En Θ:
−n
sup L(θ|~x) = L(X̄n−1 |~x) = x̄−n
n e
θ∈Θ
De donde,
λ(~x) =





si x̄−1
n ≤ θ0
1
n

θ0n e−θ0 i=1 xi



−n
x̄−n
n e
P
si x̄−1
n > θ0
Por lo tanto, rechazamos H0 si x̄−1
n > θ0 y
(θ0 x̄n )n exp {−n (θ0 x̄n − 1)} ≤ c.
~ ≤ c) = α.
donde c ∈ (0, 1) y Pθ0 (λ(X))
Note que la función g : R → R+ , definida como g(u) = un exp{−n(u − 1)}, tiene un
máximo en 1. Tomando u = θ0 x̄n , vemos que u < 1 y un exp{−n(u − 1)} < c si y solo
si u ≤ k, donde k ∈ (0, 1). La Figura 6.9 muestra el comportamiento de g(u), para
n = 20. Por lo tanto, la RC={~x ∈ X |θ0 x̄n ≤ k}. Donde
! Z
n
nc
X
1 n−1 −y
y e dy.
α = sup Pθ (θX̄n ≤ c) = Pθ0 (θX̄n ≤ c) = Pθ0 θ
Xi ≤ nc =
Γ(n)
θ∈Θ0
0
i=1
Figura 6.9: Gráfica de g(u) = un exp{−n(u − 1)}, u > 0
Contraste de Hipótesis - 111
Introducción a la Inferencia Estadı́stica
Ejemplo 6.3.5. Sea X1 , . . . , Xn una MA de X ∼ N(µ1 , σ 2 ). Sea Y1 , . . . , Ym una MA de
Y ∼ N(µ2 , σ 2 ). X y Y independientes. θ = (µ1 , µ2 , σ 2 ) ∈ R×R×R+ desconocido. Dado
un valor de α ∈ (0, 1), deseamos encontrar el contraste de razón de verosimilitudes para
las hipótesis¿H0 ) µ1 = µ2 contra H1 ) µ1 6= µ2 . Asumimos n ≥ 2 y m ≥ 2. Defina, X̄n ,
0
0
Ȳm , SX2 y SY2 de la manera usual y adicionalmente defina
0
0
(n − 1)SX2 + (m − 1)SY2
=
.
n+m
Sp2
La función de verosimilitud es,
(
L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ 2 )
− n+m
2
n
X
1
exp − 2
2σ
(xi − µ1 )2 +
i=1
m
X
!)
(yi − µ2 )2
.
i=1
Para las hipótesis planteadas Θ0 = (µ, µ, σ 2 ), µ ∈ R, σ ∈ R+ . De donde,
sup L(µ1 , µ2 , σ 2 |~x, ~y ) =
sup
L(µ, µ, σ 2 |~x, ~y ).
µ∈R,σ∈R+
θ∈Θ0
Se puede demostrar que en este caso,
nx̄n + ȳm
µ̃ =
n+m
P
2
− µ̃)2 + m
i=1 (yi − µ̃)
.
n+m
Pn
2
y σ̃ =
i=1 (xi
De donde,
sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̃ 2 )−
n+m
2
exp(−(n + m)/2).
(6.7)
θ∈Θ0
Si no imponemos restricciones, tenemos que los estimadores máximo!verosı́mil de µ1 , µ2
n
m
X
X
2
2
−1
2
y σ , son X̄n , Ȳm y σ̂ = (n + m)
(xi − x̄n ) +
(yi − ȳm )2 respectivamente.
i=1
i=1
Entonces,
sup L(µ1 , µ2 , σ 2 |~x, ~y ) = (2πσ̂ 2 )−
n+m
2
exp(−(n + m)/2).
(6.8)
θ∈Θ
Combinando los resultados de (6.8) y (6.7), tenemos que
λ(~x, ~y ) =
σ̂ 2
σ̃ 2
− n+m
2
P
Pn
− n+m
2
(xi − x̄n )2 + m
(yi − ȳm )2
i=1
i=1
P
= Pn
.
m
2
2
i=1 (xi − µ̃) +
i=1 (yi − µ̃)
Por lo tanto, rechazamos H0 si y solo si
Pn
P
2
(xi − x̄n )2 + m
i=1
i=1 (yi − ȳm )
Pn
P
< k.
m
2
2
i=1 (xi − µ̃) +
i=1 (yi − µ̃)
(6.9)
Si tomamos,
n
X
2
02
2
(xi − µ̃) = (n − 1)SX + n(x̄n − µ̂) y
i=1
112 - Contraste de Hipótesis
m
X
i=1
0
(yi − µ̃)2 = (m − 1)SY2 + n(ȳm − µ̂)2 .
Introducción a la Inferencia Estadı́stica
Tenemos que,
Pn
P
(xi − µ̃)2 + m
(yi − µ̃)2
(x̄n − ȳm )2
nm
i=1
i=1
Pn
P
=
1
+
(6.10)
0
0 .
m
2
2
n + m (n − 1)SX2 + (m − 1)SY2
i=1 (xi − x̄n ) +
i=1 (yi − ȳm )
Por lo tanto, valores “pequeños” de la expresión del lado izquierdo de la ecuación
(x̄n − ȳm )2
(6.9) corresponden con valores “grandes”de
0
0 . En consecuencia,
(n − 1)SX2 + (m − 1)SY2
rechazamos H0 si y solo si
|X̄n − Ȳm |
p
> k.
0
0
(n − 1)SX2 + (m − 1)SY2
Note que, si aceptamos H0 cierta,
|X̄n − Ȳm |
q
∼ tn+m−2 ⇒ k = tn+m−2;1−α/2 .
1
1
Sp n + m
Note que en todos los ejemplos, las RC dependen del estadı́stico suficiente para el parámetro de
interés. Esto no nos debe sorprender, dado que utilizando el teorema 2.3.1,tenemos el siguiente
resultado.
~ un estadı́stico con distribución dada por fT (t|θ). Entonces defiTeorema 6.3.1. Sea T = T (X)
nimos
supθ∈Θ0 fT (t|θ)
.
λ∗ (T (~x)) =
supθ∈Θ fT (t|θ)
Sea λ(~x) el estadı́stico de razón de verosimilitudes basado en ~x. Si T es suficiente para θ, entonces
λ(~x) = λ∗ (T (~x)), ∀~x ∈ X .
6.4.
Valor p
Una forma alternativa de ver el problema de contraste de hipótesis es mirar cuán probable es
observar los datos que observamos si la hipótesis nula es cierta. Si nuestros datos son poco probables
de observar bajo las condiciones impuestas por H0 , esto se puede tomar como evidencia a favor
de que H0 es falsa. Esto equivaldrı́a a “mostrar por el absurdo” que la hipótesis nula no es cierta.
Empezamos asumiendo que lo es y si la probabilidad bajo el modelo propuesto de observar nuestros
datos es baja, argumentamos que esto implica una contradicción entre el modelo y lo observado.
Suponga que el gasto en energı́a eléctrica de una determinada población se distribuye N(µ, σ 2 ).
Por estudios anteriores se ha estimado el consumo medio en $260. Se desea saber si este valor
ha aumentado. Se toma una muestra de tamaño 25 y se mide el gasto. Se encuentra, que en la
muestra, x̄25 = 330, 6 y s025 = 154, 2. Se contrasta el siguiente par de hipótesis: H0 ) µ ≤ 260
contra H1 ) µ > 260. Dado que X es una variable aleatoria absolutamente continua tenemos que
P(X̄25 = 330, 6) = 0. Por lo cual, no tiene sentido investigar la probabilidad de observar un valor
de X̄n igual al observado. En lugar de esto, investigamos obtener un valor de X̄n igual o “más
Contraste de Hipótesis - 113
Introducción a la Inferencia Estadı́stica
extremo” que el observado en la muestra. Note que “más extremo” es relativo a la forma de H0 . En
este caso, H0 implica que µ es menor o igual que un valor dado. Por lo cual, algo “más extremo”
significa “mayor que”. Si H0 es µ mayor o igual a un valor dado, “más extremo” significa ‘menor
que”. En nuestro ejemplo, si aceptamos que H0 es verdadera, la probabilidad de observar una
muestra con media mayor o igual que 330,6 es 0,01548. A este valor le llamaremos valor p. Es
importante entender que el valor p no es la probabilidad de que H0 sea cierta dado que observamos
X̄n = 330,6. Este valor indica que en el caso de que µ = 260, observar un valor de X̄n igual o
mayor al efectivamente observado de 330,6 es poco probable, pero no imposible. Por lo tanto, si
consideramos que el valor de 0,01548 es “pequeño”, rechazamos H0 en favor de H1 . La pregunta
entonces es: ¿qué significa “pequeño”?
Para tener un punto de comparación, considere el caso X ∼ N(µ, σ 2 ), µ y σ 2 desconocidos,
H0 ) µ ≤ µ0 contra H0 ) µ > µ0 . Utilizando el teorema 6.2.1, tenemos que la RC es de la forma
{~x ∈ X |x̄n > k}. Dado que desconocemos el√verdadero valor de σ 2 no podemos utilizar la
normalidad de X̄n , pero podemos utilizar√que n(X̄n − µ)/Sn0 ∼ tn−1 . Esto nos lleva a que
rechazamos H0 si x̄n > µ0 + tn−1;1−α Sn0 / n. En nuestro ejemplo, µ√
0 = 260 y asumamos que
α = 0, 05. Por lo tanto rechazaremos H0 si x̄n > 260 + t24;0,95 154, 2/ 25 = 312,1477, (t24;0,95 =
1,71088). Dado que observamos x̄n = 330,6, esto indica que ~x ∈ RC y en consecuencia rechazamos
la hipótesis nula de que µ = 260.
Ahora, si somos coherentes tendremos que, en nuestro primer caso, concluir que 0,01548 es poca
evidencia acerca de la validez de H0 . Dado que si consideramos que el valor p es “grande” estarı́amos incurriendo en una contradicción. La figura 6.10.(a), representa con un área sombreada
la P(X̄n ≥ 330,6|µ = 260), el valor p y en la figura 6.10.(b) la P(X̄n ≥ 312,1477|µ = 260), el nivel
de significación.
0
Figura 6.10: Distribución de X̄25 con µ = 260 y s 2 = 154, 2
114 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
De este razonamiento podemos extraer una regla de decisión: si el valor p asociado al contraste es
menor que el nivel de significación, entonces rechazo H0 . En caso contrario, no rechazo H0 . Esto
es, si el valor p es inferior al nivel de significación, lo más verosı́mil es que la hipótesis de partida
sea falsa.
Es de resaltar que basamos nuestros conceptos de “pequeño” y “grande” en referencia a otro
concepto a su vez arbitrario, que es el valor que le hemos asignado al nivel de significación.
Cuando decidimos restringir nuestra atención a los contrastes de nivel α, se mencionó que el nivel
de significación se fija de antemano por el investigador en algún valor bajo que considera razonable.
Las condiciones que marcarán lo “razonable de la elección” están basadas en el conocimiento
experto del investigador sobre el tema que se está investigando y son externos a la forma en cómo
se construye el contraste.
En resumen, el valor p se define como la probabilidad de obtener un resultado al menos tan
extremo como el que realmente se ha obtenido (valor del estadı́stico calculado), suponiendo que
la hipótesis nula es cierta. Cuanto más chico el valor p, mayor es la significación dado que más
evidencia se le proporciona al investigador de que la hipótesis nula en consideración parece no ser
la adecuada. La hipótesis H0 es rechazada si el valor p es menor o igual que un pequeño y fijo,
pero arbitrariamente predefinido, umbral α. Al revés que el valor p, el nivel de significación α no
ese calcula a partir de los datos observados; el valor de α está determinado por el investigador
antes de observar los datos.
~ este es a su vez también una variable aleatoria
Dado que el valor p depende del valor que toma X,
definida uniformemente en el intervalo (0,1), asumiendo X continua. Esto implica que el valor p
no es fijo y por lo tanto, no se le puede dar una interpretación frecuentista de la probabilidad. Esto
es, si repetimos el experimento manteniendo todas las condiciones (tipo de muestreo, hipótesis,
etc.) fijas, obtendremos un valor diferente del valor p. El valor prefijado α puede ser interpretado
~
como la tasa de falsamente rechazar la hipótesis nula, dado que, escribiendo al valor p como p(X)
~
para resaltar que es función de X:
~ ≤ α|H0 cierta) = α.
P(rechazar H0 |H0 cierta) = P(p(X)
Esto también significa que si fijamos al valor p en un valor determinado y dejamos que α varı́e sobre
[0, 1], podemos interpretar el valor p en términos de α: para un conjunto dado de observaciones,
es el menor nivel de significación que se puede asumir para el cual la hipótesis nula puede ser
rechazada.
La definición formal del valor p, es la que sigue.
~ es un estadı́stico de contraste que satisface 0 ≤ p(~x) ≤ 1
Definición 6.4.1. Un valor p, p(X),
para todo ~x ∈ X . Valores pequeños de p(~x) aportan evidencia de que H1 es cierta. Un valor p es
válido si para cada θ ∈ Θ0 y cada 0 ≤ α ≤ 1,
~ ≤ α) ≥ α.
Pθ (p(X)
(6.11)
~ La
Si tenemos un valor p válido es sencillo construir un contraste de nivel α basado en p(X).
~
fórmula (6.11) asegura que el contraste que rechaza H0 si y solo si p(X) ≤ α es un contraste de
nivel α.
Para calcular un valor p solo tenemos que saber cuál es la forma de la RC del contraste a utilizar.
Suponga que para un determinado par de hipótesis, {H0 , H1 }, la RC está basada en un estadı́stico
Contraste de Hipótesis - 115
Introducción a la Inferencia Estadı́stica
~ y es de la forma {~x ∈ X |T (~x) > k}. Se observa X
~ = ~x, evaluamos T (~x) y calculamos el
T (X)
~ > T (~x)|H0 ). Note que se asume H0 cierta y se utiliza la misma forma de
valor p que es P(T (X)
la RC sustituyendo k por T (~x).
Ejemplo 6.4.1. Continuación ejemplo 6.3.1.
Sea X1 , . . . , Xn una MA de X ∼ N(µ, 5), µ ∈ R. Deseamos contrastar H0 ) µ = 10
contra H1 ) µ 6= 10. Se observa una muestra de tamaño 20 y se observa x̄20 = 13, 6.
Tomando α = 0, 05, el contraste de razón de verosimilitudes tiene RC
(
)
√
20(x̄n − 10)
√
~x ∈ X :
≥ 1, 96 ,
5
~ > k, donde k = z1−α/2 = z0,975 = 1, 96 y
La RC es de la forma T (X)
√
√
20(X̄n − 10)
20(13, 6 − 10)
~
√
√
⇒ t(~x) =
= 7, 2.
T (X) =
5
5
Para calcular el valor p, sustituimos 1,96 por t(~x) y calculamos
~ > t(~x) µ = 10 = P(|Z| > 7, 2|µ = 10) = 2 − 2Φ(7, 2) ≈ 0,
P T (X)
dado que
√
20(X̄n − 10)
√
∼ N(0, 1),
5
cuando H0 es cierta.
Hemos encontrado que el valor p es menor que α, por lo tanto rechazamos H0 . Concluimos que, con un nivel de significación del 5 %, existe evidencia (estadı́sticamente
significativa) de que µ 6= 10.
En 2016, la American Statistical Association publicó seis principios para el correcto uso e interpretación del valor p. Muchos de estos principios abordan concepciones equivocadas y empleos
erróneos. Los seis principios son los siguientes:
1. Los valores p pueden indicar cómo son los datos de incompatibles con cierto modelo estadı́stico.
2. Los valores p no miden la probabilidad de que la hipótesis nula sea cierta, ni tampoco la
probabilidad de que los datos hayan sido producidos enteramente al azar.
3. Conclusiones cientı́ficas y decisiones polı́ticas o empresariales no deberı́an basarse únicamente
en el hecho de que un valor p supere un umbral especificado.
4. Una inferencia apropiada implica un informe completo y transparencia.
5. Ni el valor p ni la significación estadı́stica miden el tamaño de un efecto o la importancia de
un resultado.
6. En sı́ mismo, un valor p no es una medida apropiada de la evidencia de un modelo o hipótesis.
116 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
6.5.
Construcción de estimadores por intervalo
En el capı́tulo 5 vimos como construir intervalos de confianza usando cantidades pivotales. En
esta parte veremos otro método para construir intervalos de confianza a partir de la región crı́tica
de un contraste de hipótesis.
6.5.1.
Inversión de una RC
Existe una estrecha relación entre contraste de hipótesis e intervalos de confianza. Se puede probar
que cada intervalo de confianza corresponde a la región de aceptación de un determinado contraste.
Antes de dar el resultado general veremos un ejemplo.
Ejemplo 6.5.1. En el ejemplo 6.3.1, X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 conocido, para las
hipótesis H0 ) µ = µ0 contra H1 ) µ 6= µ0 , calculamos la RC UMP del contraste de nivel
α. En base a la RC hallada podemos tambiº’en determinar la región de no rechazo.
Llamémosle, a esta región, A(µ0 ). Entonces,
√
n(x̄n − µ0 )
< z1−α/2 .
A(µ0 ) = ~x ∈ X :
σ
Observe que A(µ0 ) es el conjunto de las muestras para las cuales no rechazo H0 ) µ = µ0 .
Por lo tanto, en A(µ0 ), µ está fijo en un valor µ0 y ~x es variable. Si ahora fijamos el
valor de ~x, podemos hallar qué valores le podemos asignar a µ0 de tal manera, que con
la región crı́tica hallada no rechazamos H0 ). Esto es, hallar el conjunto de valores que
le podemos dar a µ0 , tal que si observamos este valor especı́fico de ~x no rechazamos
H0 ) µ = µ0 . Denotemos este conjunto C(~x). Operando tenemos que,
√
n(X̄n − µ0 )
> z1−α/2
α = Pµ0
σ
√
n(X̄n − µ0 )
≤ z1−α/2
= 1 − Pµ0
σ
σ
σ
= 1 − Pµ0 −z1−α/2 √ ≤ X̄n − µ0 ≤ z1−α/2 √
n
n
σ
σ
= 1 − Pµ0 X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √
.
n
n
De donde,
Pµ0
σ
σ
X̄n − z1−α/2 √ ≤ µ0 ≤ X̄n + z1−α/2 √
n
n
= 1 − α.
Por lo tanto, si fijamos X̄n = x̄n ,
σ
σ
C(~x) = µ0 ∈ Θ : µ0 ∈ x̄n − z1−α/2 √ ; x̄n + z1−α/2 √
.
n
n
Hemos entonces encontrado dos conjuntos A(µ0 ) y C(~x) que cumplen la relación:
~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x).
~ = 1 − α, C(X)
~ es un intervalo de confianza (1 − α)100 %. Esto
Dado que P(θ ∈ C(X))
σ
~ = X̄n − z1−α/2 √ y U (X)
~ = X̄n + z1−α/2 √σ .
es, L(X)
n
n
Contraste de Hipótesis - 117
Introducción a la Inferencia Estadı́stica
Observe que al tomar µ = µ0 particionamos X en dos conjuntos, el conjunto de las muestras para
las cuales rechazamos H0 (A(µ0 )) y el conjunto para las cuales no rechazamos H0 . Si fijamos X̄n
en un valor fijo x̄n particionamos Θ en dos conjuntos, el conjunto de los valores µ0 del parámetro
para los cuales no rechazamos H0 )µ = µ0 si se observa X̄n = x̄n (C(x̄n )) y el conjunto de los
valores µ1 del parámetro para los cuales rechazamos H0 )µ = µ1 si se observa X̄n = x̄n .
La tautologı́a ~x ∈ A(µ0 ) si y solo si µ0 ∈ C(~x) se puede extender a casos generales. Aún cuando
la región de confianza no sea un intervalo.
Teorema 6.5.1. Para cada valor θ0 ∈ Θ se denota A(θ0 ) a la región de aceptación a nivel α de
un contraste para H0 ) θ = θ0 . Para cada ~x ∈ X se define el conjunto C(~x) ⊆ Θ como
C(~x) = {θ0 ∈ Θ : ~x ∈ A(θ0 )}.
~ es un estimador por conjuntos de confianza 1 − α para θ.
Entonces, el conjunto C(X)
~ un estimador por conjuntos de confianza 1 − α para θ. Para cada θ0
Recı́procamente, sea C(X)
se define
A(θ0 ) = {~x ∈ X : θ0 ∈ C(~x)}.
Entonces, A(θ0 ) es la región de no rechazo a nivel α de una prueba que constrasta H0 ) θ = θ0 .
Demostración. Para la primera parte. Para ser A(θ0 ) el complementario de la región crı́tica de
una prueba de nivel α se tiene que
~ ∈ A(θ0 )) ≥ 1 − α.
Pθ0 (X
Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar de θ0 . Como ~x ∈ A(θ)
si y solo si θ ∈ C(~x), se tiene que
~ = P θ (X
~ ∈ A(θ0 )) ≥ 1 − α,
Pθ (θ ∈ C(X))
~ es un estimador por conjuntos de confianza 1 − α para θ.
y se concluye que C(X)
En la segunda parte. La probabilidad de error de tipo I del contraste cuya región de aceptación
es A(θ0 ) es
~ ∈
~ ≤ α,
Pθ0 (X
/ A(θ0 )) = Pθ0 (θ0 ∈
/ C(X))
ası́ que esta es un contraste de nivel α.
Ejemplo 6.5.2. Continuación ejemplo 6.5.1. Asuma ahora que σ 2 es desconocida. Dada
H0 ) µ = µ0 y utilizando la RC hallada en el ejemplo 3.3.2 (reexpresada en términos de
0
Sn2 ), tenemos que
√
n(x̄n − µ0 )
A(µ0 ) = ~x ∈ X :
> tn−1;1−α/2 .
Sn0
118 - Contraste de Hipótesis
Introducción a la Inferencia Estadı́stica
Notando que,
√
√
n(x̄n − µ0 )
n(x̄n − µ0 )
≤ tn−1;1−α/2 ⇒ −tn−1;1−α/2 ≤
≤ tn−1;1−α/2
0
Sn
Sn0
0
0
Sn
Sn
⇒ −tn−1;1−α/2 √ ≤ x̄n − µ0 ≤ tn−1;1−α/2 √
n
n
0
0
S
S
⇒ −tn−1;1−α/2 √n ≤ x̄n − µ0 ≤ tn−1;1−α/2 √n
n
n
Entonces,
0 0
Sn
Sn
.
C(~x) = µ ∈ R : x̄n − tn−1;1−α/2 √ ≤ µ ≤ x̄n + tn−1;1−α/2 √
n
n
~ = ~x, calculamos el intervalo
Entonces, para una muestra dada, X
0
0 Sn
Sn
x̄n − tn−1;1−α/2 √ ; x̄n + tn−1;1−α/2 √ .
n
n
Para cualquier valor µ0 de µ, que esté contenido entre los dos extremos no rechazamos
H0 ) µ = µ0 .
Ejemplo 6.5.3. Sea X1 , . . . , Xn una MA de X ∼ N(µ, σ 2 ), µ ∈ R y σ 2 > 0 desconocidos. En el ejemplo 6.3.3 encontramos que el contraste de razón de verosimilitudes para
H0 ) σ 2 = σ02 contra H1 ) σ 2 6= σ02 hallamos la región crı́tica de tamaño α. En base a esta
región crı́tica tenemos que
χ2n−1;1−α2
χ2n−1;α1
Sn2
2
≤ 2 ≤
.
A(σ0 ) = ~x ∈ X :
n
σ0
n
con α1 + α2 = α. Por lo tanto, la inversión de la RC nos da que
nSn2
nSn2
2
+
2
C(~x) = σ ∈ R : 2
<σ < 2
.
χn−1;1−α2
χn−1;α1
Ejemplo 6.5.4. Sea X1 , . . . , Xn una MA de X ∼ Exponencial(θ), con E(X) = 1/θ.
En el ejemplo 6.3.4 se encontró que la RC para el contraste H0 )θ ≤ θ0 contra H1 )θ > θ0
de donde
(
)
n
X
A(θ0 ) = ~x ∈ X : θ
Xi > k ,
i=1
donde k representa el percentil α de una distribución Gamma(n,1). Por lo tanto,
!
n
X
k
1 − α = Pθ θ
Xi > k = Pθ θ > Pn
.
X
i
i=1
i=1
Contraste de Hipótesis - 119
Introducción a la Inferencia Estadı́stica
Entonces,
C(~x) =
+
θ∈R
k
: θ > Pn
Xi
k
Observe, que este intervalo de confianza es de la forma Pn
i=1
estamos explicitando una cota inferior para θ.
i=1
Xi
, +∞ , con lo cual
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition.
Pearson Education International.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Stapleton, J.H. (2008) Models for Probability and Statistical Inference. Wiley-Interscience.
Wasserstein R.L., Lazar N.A. (2016). The ASA’s statement on p-values: context, process, and
purpose. The American Statistician.70:2, 129-133
Wikipedia: https://en.wikipedia.org/wiki/P-value, visitado el 19/04/2017.
120 - Contraste de Hipótesis
CAPÍTULO 7
INFERENCIA EN MUESTRAS GRANDES
7.1.
Introducción
Dado que la estadı́stica está basada en observaciones, es de interés ver qué sucede cuando obtenemos más y más datos. La pregunta básica es ¿cuál es el comportamiento en el lı́mite de la
secuencia de variables aleatorias X1 , X2 , X3 , . . .?
En cálculo, una secuencia de números reales {xn : n ≥ 1} converge a un lı́mite x si para todo n
grande
∀ > 0 |xn − x| < .
Si xn = x ∀n, entonces trivialmente lı́m Xn = x. El equivalente probabilı́stico del concepto
n→∞
de convergencia necesita algunas modificaciones. Por ejemplo, suponga que X1 , X2 , . . . es una
secuencia de variables aleatorias iid, cada una con distribución N(0,1). Dado que todas las variables
en la secuencia tienen la misma distribución estaremos tentados a decir que la secuencia “converge”
a una variable aleatoria X ∼ N(0, 1). Esto no es cierto dado que P (Xn = X) = 0 ∀n. Como otro
ejemplo, considere que X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ).
Intuitivamente, para valores grandes de n, la distribución de Xn está muy concentrada alrededor
del 0, por lo cual desearı́amos decir que Xn converge a 0. Esto no es ası́ dado que P (Xn = 0) = 0 ∀n.
En vista de esto, necesitamos desarrollar herramientas para definir convergencia de sucesiones de
variables aleatorias.
Este capı́tulo desarrolla dichas herramientas con un propósito claro, establecer dos teoremas: la
“ley débil de los grandes números” y el teorema del lı́mite central. Para ello estudiaremos tres
tipos de convergencia:
1. Convergencia en probabilidad.
2. Convergencia en media cuadrática.
3. Convergencia en distribución.
121
Introducción a la Inferencia Estadı́stica
Si bien no estaremos interesados en convergencia en media cuadrática per se, nos basaremos en
las relaciones que existen entre los tres tipos de convergencia para verificar la convergencia en
probabilidad o en distribución de una secuencia de variables aleatorias.
7.2.
Convergencia en probabilidad
Definición 7.2.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable
aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn coverge en
p
probabilidad a X, denotado Xn → X, si
∀ > 0 lı́m P(|Xn − X| > ) = 0.
n→∞
Alternativamente, lı́m P(|Xn − X| < ) = 1.
n→∞
Observación 7.2.1. Cuando X es una variable aleatoria tal que P(X = c) = 1, con c ∈ R,
p
diremos que Xn → c.
~ n converja en probabilidad a c significa que la distribución de Xn se va conQue la secuencia X
centrando cada vez más en torno a c a medida que n aumenta. Convergencia en probabilidad no
significa que Xn = c cuando n → ∞.
Ejemplo 7.2.1. Sea X1 , X2 , . . . es una secuencia de variables aleatorias donde Xn ∼ N(0, n−1 ).
p
Queremos probar que Xn → 0. Para ello usaremos la desigualdad de Markov.
Markov
↓
E(Xn2 )
1 n→∞
2
2
P(|Xn − 0| > ) = P(|Xn | > ) = P (Xn > ) ≤
= 2 −−−→ 0.
2
n
Ejemplo 7.2.2. Sea X1 , X2 , . . . Una secuencia de variables aleatorias con Xn = en I[X≥n] ,
p
donde X ∼ Exp(1). Queremos probar que Xn → 0.
P(|Xn − 0| < ) = P(|Xn | < ) = P(Xn < ) = P(Xn = 0) = P (X < n) = 1 − e−n → 1.
Note que el recorrido de Xn es el conjunto {0, en }. Si tomamos > 0 lo suficientemente
pequeño, el suceso {Xn < } es equivalente al suceso {Xn = 0}, dado que 0 es el único
punto del recorrido de Xn que está contenido en el intervalo (−∞, ). Además, Xn = 0
si y solo si X < n.
122 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
Ejemplo 7.2.3. Sea X1 , X2 , . . . es una secuencia iid de variables aleatorias con distribución común Uniforme(0,1). Defina, X(n) = máx{X1 , . . . , Xn }. Queremos probar que
p
X(n) →
− 1. Recordando que, en este caso, FX(n) (x) = xn I[0<x<1] + I[x≥1] , tenemos que
P(|X(n) − 1| < ) = P(− < X(n) − 1 < )
= P(1 − < X(n) < 1 + )
= FX(n) (1 + ) − FX(n) (1 − )
= 1 − (1 − )n
(1 + > 1 y 0 < 1 − < 1)
Entonces,
lı́m P(|X(n) − 1| < ) = lı́m [1 − (1 − )n ] = 1.
n→∞
n→∞
p
p
Teorema 7.2.1. Sea g una función continua en c ∈ R y Xn → c. Entonces, g(Xn ) →
− g(c).
Demostración. Si g es continua en c, entonces dado > 0, ∃δ > 0 tal que |g(x)−g(c)| < siempre
que |x − c| < δ . Por lo tanto el suceso {|g(x) − g(c)| < } incluye al suceso {|x − c| < δ }. Por lo
tanto,
P(|Xn − c| < δ ) ≤ P(|g(Xn ) − g(c)| < ) ≤ 1.
p
Dado que Xn → c, tenemos que
1 = lı́m P(|Xn − c| < δ ) ≤ lı́m P(|g(Xn ) − g(c)| < ) ≤ lı́m 1 = 1
n→∞
n→∞
n→∞
=⇒ lı́m P(|g(Xn ) − g(c)| < ) = 1
n→∞
p
y por lo tanto, g(Xn ) →
− g(c).
p
Ejemplo 7.2.4. Suponga que Xn → a. Entonces,
p
− a2
Xn2 →
p
1/Xn →
− 1/a si a 6= 0
p
p √
Xn →
− a si a ≥ 0
p
p
Teorema 7.2.2. Sea g una función continua y Xn → X. Entonces, g(Xn ) →
− g(X).
~ n = (X1 , . . . , Xn ).
Definición 7.2.2. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Defina X
~ n ) es consistente para τ (θ) si para cualquier θ ∈ Θ,
Una secuencia de estimadores Tn = T (X
p
Tn →
− τ (θ)
cuando n → ∞.
Inferencia en muestras grandes - 123
Introducción a la Inferencia Estadı́stica
La definción implica que la distribución de probabilidad de un estimador consistente de τ (θ) tiende
a concentrarse alrededor de este valor cuando n se hace grande.
Ejemplo 7.2.5. Continuación del ejemplo 7.2.3.
Suponga ahora que X ∼ Uniforme(0, θ). Queremos probar que X(n) = máx{X1 , . . . , Xn }
p
es un estimador consistente de θ. Esto es, X(n) →
− θ.
P(|X(n) − θ| < ) = P(− < X(n) − θ < )
= P(θ − < X(n) < θ + )
= FX(n) (θ + ) − FX(n) (θ − )
n
=1− 1−
θ
(θ + > θ y 0 < θ − < θ)
Entonces,
h
n i
lı́m P(|X(n) − θ| < ) = lı́m 1 − 1 −
= 1.
n→∞
n→∞
θ
p
Por lo cual, X(n) →
− θ.
Teorema 7.2.3. Ley (débil) de los grandes números (caso iid)
Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza µ y varianza σ 2 < ∞. Sea
n
X
X̄n = n−1
Xi . Entonces,
i=1
p
X̄n →
− µ
Demostración. Recordando que E(X̄n ) = µ y Var(X̄n ) = σ 2 /n, tenemos que
Chebychev
↓
Var(X̄n )
σ 2 n→∞
P(|X̄n − µ| > ) ≤
=
−−−→ 0.
2
n2
Observación 7.2.2. El teorema anterior indica que si trabajamos con una MA de una variable
aleatoria X con distribución de probabilidad tal que su varianza es finita, entonces X̄n es un estimador consistente de la E(X).
Ejemplo 7.2.6. Sea un suceso de interés A que ocurre con P(A) en cada uno de n
experimentos independientes. Sea Xi = número de veces que ocurre el suceso A en
el i-ésimo experimento, i = 1, . . . , n. Entonces, Xi ∼ Bernoulli(P(A)). La frecuencia
124 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
relativa del suceso A, h(A), es el porcentaje de veces que ocurre el suceso en las n
repeticiones del experimento. Esto es,
n
1X
h(A) =
Xi = X̄n .
n i=1
Por lo tanto, tenemos que E(h(A)) = P(A) y Var(h(A)) = P(A)(1 − P(A)) < ∞. De
donde,
p
h(A) →
− P(A).
Esto es la fundamentación de la interpretación frecuentista de la probabilidad: Suponga
que un experimento se repite infinitas veces en idénticas condiciones. La probabilidad
de A es el porcentaje de veces que ocurre el suceso A en esas infinitas repeticiones.
Ejemplo 7.2.7. Sea X1 , . . . , Xn una MA de X ∼ FX . Para todo x ∈ R, definimos la
función de distribución empı́rica, F ∗ (x), como el porcentaje de observaciones que son
menores o iguales que x. Si Yi = I[Xi ≤x] , entonces
n
1X
F (x) =
Yi = Ȳn .
n i=1
∗
Dado que Yi ∼ Bernoulli(FX (x)), tenemos que Var(Yi ) = FX (x)(1 − FX (x)) < ∞. Por
lo tanto,
p
F ∗ (x) →
− E(F ∗ (x)) = FX (x).
Observación 7.2.3. Otras relaciones que se cumplen son las siguientes:
p
p
p
1. Si Xn → X y Yn →
− Y =⇒ Xn + Yn →
− X +Y.
p
p
2. Si Xn → X ∀a ∈ R aXn →
− aX.
p
p
p
3. Si Xn → X y Yn →
− c =⇒ Xn /Yn →
− X/c, si c 6= 0.
Ejemplo 7.2.8. Sea X1 , X2 , . . . una secuencia de variables aleatorias iid, con esperanza
n
X
2
2
−1
µ y varianza σ < ∞. Sea Sn = n
(Xi − X̄n )2 . Dado que,
i=1
n
Sn2
n
1X
1X 2
=
(Xi − X̄n )2 =
Xi − X̄n2 .
n i=1
n i=1
p
Tenemos, por el teorema 7.2.1 y la Ley débil de los grandes números, que X̄n2 →
− µ2 y
n
1X 2 p
X →
− E(X 2 ). Por lo tanto, usando la observación 7.2.3
n i=1 i
p
Sn2 →
− E(X 2 ) − µ2 = σ 2 .
Inferencia en muestras grandes - 125
Introducción a la Inferencia Estadı́stica
7.3.
Convergencia en media cuadrática
Definición 7.3.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias. Sea X otra variable
aleatoria. Todas definidas sobre el mismo espacio de probabilidad. Diremos que Xn converge en
mc
media cuadrática a X, Xn −→ X, si
lı́m E (Xn − X)2 = 0.
n→∞
mc
Si X está degenerada en c, diremos que Xn −→ c.
En nuestro curso, la convergencia en media cuadrática no es de especial interés, salvo para mostrar convergencia en probabilidad. El siguiente teorema muestra la relación entre los dos tipos de
convergencia.
p
mc
Teorema 7.3.1. Si Xn −→ X entonces Xn → X.
Demostración.
Chebychev
↓
E [(Xn − X)2 ] n→∞
∀ > 0, 0 ≤ P(|Xn − X| ≥ ) ≤
−−−→ 0.
2
De donde, lı́m P(|Xn − X| ≥ ) = 0.
n→∞
Ejemplo 7.3.1. El recı́proco √
del teorema no es necesariamente cierto. Suponga que
U ∼ Uniforme(0,1). Sea Xn = nI[0<U <1/n] . Entonces,
√
√
1 n→∞
P(|Xn | > ) = P( nI[0<U <1/n] > ) = P(Xn = n) = P(0 < U < 1/n) = −−−→ 0
n
p
=⇒ Xn → 0.
Pero,
E(Xn2 )
Z
1/n
mc
du = 1 ∀n =⇒ Xn
−→0.
=n
0
p
Observación 7.3.1. Si Xn → c no necesariamente E(Xn ) → c. Suponga que {Xn } es una sucesión
de variables aleatorias tal que
P(Xn = n2 ) =
1
1
P(Xn = 0) = 1 − .
n
n
Entonces,
P(|Xn | < ) = P(Xn = 0) = 1 −
Sin embargo, E(Xn ) = n2
1
n→∞
= n −−−→ ∞.
n
126 - Inferencia en muestras grandes
1 n→∞
p
−−−→ 1 =⇒ Xn → 0.
n
Introducción a la Inferencia Estadı́stica
~ es un estimador de τ (θ), habı́amos definido el error cuadrático
Observación 7.3.2. Si Tn = T (X)
medio de tn como ECM(Tn ) = E[(Tn − τ (θ))2 ]. También encontramos que este se puede descomponer en la suma de dos componentes, la varianza y el cuadrado del sesgo de Tn . Por lo tanto,
mc
si cuando n → ∞ tenemos que la Var(Tn ) → 0 y E(Tn ) → τ (θ), entonces Tn −→ τ (θ), lo que a
p
su vez implica que Tn →
− τ (θ). Entonces, si estas condiciones se cumplen, tenemos que Tn es un
estimador consistente para τ (θ).
7.4.
Convergencia en distribución
Definición 7.4.1. Sea X1 , X2 , . . . una secuencia de variables aleatorias, cada una con función de
distribución Fn . Diremos que Xn converge en distribución a una variable aleatoria X con función
de distribución FX si
lı́m Fn (x) = FX (x) ∀x ∈ {x : FX es continua en x}.
n→∞
d
Lo denotaremos, Xn →
− X.
−1
Ejemplo 7.4.1.
√ Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ N(0, n ).
Defina Zn = nXn ∼ N(0, 1).
(
√
√
√
0 si t < 0
Fn (t) = P(Xn ≤ t) = P( nXn ≤ n t) = Φ( n t) →
1 si t > 0
Sea X una variable aleatoria tal que P(X = 0) = 1. Entonces,
(
0 si x < 0
FX (x) =
1 si x ≥ 0.
Note que Fn (0) = 1/2 y que FX (0) = 1. Esto no es de importancia, dado que 0 no es
un punto de continuidad de FX . Por lo tanto, Fn (t) → FX (t) ∀t 6= 0.
Teorema 7.4.1. Se cumplen las siguientes relaciones:
p
d
1. Si Xn → X =⇒ Xn →
− X.
d
p
2. Si Xn →
− c, c ∈ R =⇒ Xn → c.
p
Demostración.
1. Sea x un punto de continuidad de FX . Sea > 0. Dado que Xn → X, cuando
n → ∞, P(|Xn − X| ≥ ) → 0. Por lo tanto,
FXn (x) = P(Xn ≤ x) = P [(Xn ≤ x) ∩ (|Xn − X| < ] + P [(Xn ≤ x) ∩ (|Xn − X| ≥ )]
:0
≤ P(X ≤ x + ) + P(|X
n− X| ≥ )
→ P(X ≤ x + )
= FX (x + )
Inferencia en muestras grandes - 127
Introducción a la Inferencia Estadı́stica
Esto es,
FXn (x) ≤ FX (x + ).
(7.1)
De manera similar,
:0
x − ) + P(|X
− X| ≥ )
n
1 − FXn (x) = P(Xn > x) ≤ P(X ≥
→ 1 − P(X ≤ x − )
= 1 − FX (x − )
Lo que implica que,
FX (x − ) ≤ FXn (x)
(7.2)
Usando las fórmulas (7.1) y (7.2) tenemos que
FX (x − ) ≤ FXn (x) ≤ FX (x + ).
Haciendo que → 0, obtenemos el resultado deseado
lı́m Fn (x) = FX (x).
n→∞
2. Sea > 0. Entonces,
lı́m P(|Xn − c| ≤ ) = lı́m (FXn (c + ) − FXn (c − )) = FX (c + ) − FX (c − ) = 1 − 0 = 1.
n→∞
n→∞
Ejemplo 7.4.2. Convergencia en distribución no necesariamente implica convergencia
en probabilidad. Para ver esto, considere X una variable aleatoria absolutamente continua con densidad fX (x) que es simétrica alrededor del 0. Esto es, fX (−x) = fX (x).
Entonces, es fácil de demostrar que la variable −X también tiene la misma densidad fX (x). Entonces, X y −X tienen la misma distribución. Defina una secuencia de
variables aleatorias de la siguiente manera:
(
X si n es par
Xn =
−X si n es impar.
d
Claramente, FXn (x) = FX (x) para toda x en el soporte de X. Por lo tanto, Xn →
− X.
Observe que la secuencia |Xn − X| vale alternadamente 0 o | − 2X| por lo cual no
converge en probabilidad.
Ejemplo 7.4.3. Aún cuando la secuencia X1 , X2 , . . . converge en distribución a una
variable aleatoria X, no se puede en general determinar la distribución de X hallando
los lı́mites de la cuantı́a o densidad de Xn . Suponga que X1 , X2 , . . . es una secuencia
de variables aleatorias tales que Xn ∼ fn (x) = I[x=2+n−1 ] . Claramente, lı́m fn (x) = 0
n→∞
128 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
para cualquier valor x. Esto sugerirı́a que Xn no converge en distribución. Sin embargo,
la función de distribución de Xn es
(
0 si x < 2 + n−1
Fn (x) =
1 si x ≥ 2 + n−1 .
y
(
0 si x ≤ 2
lı́m Fn (x) =
n→∞
1 si x > 2.
Dado que,
(
0 si x < 2
FX (x) =
1 si x ≥ 2.
es un función de distribución discontinua en x = 2, se cumple que lı́m Fn (x) = FX (x)
n→∞
d
d
en todos los puntos de continuidad de FX . Por lo tanto, Xn →
− 2. Esto es, Xn →
− X,
donde P(X = 2) = 1.
Ejemplo 7.4.4. Dado que convergencia en probabilidad implica convergencia en disd
tribución, el teorema 7.2.2 implica que si g es una función continua y si Xn →
− X,
d
tenemos que g(Xn ) →
− g(X). Por ejemplo,
d
d
− X ∼ N(0, 1) =⇒ Xn2 →
− X 2 ∼ χ21 .
Xn →
Ejemplo 7.4.5. Sea X1 , . . . , Xn una MA de X ∼ Uniforme(0, θ). Sea, X(n) = máx{X1 , . . . , Xn }.
Considere la variable aleatoria Zn = n(θ − Yn ). Observe que Rec(Zn ) = (0, nθ).
Sea t ∈ (0, nθ),
P(Zn ≤ t) = P(Yn ≥ θ − t/n) = 1 −
θ − t/n
θ
n
n
t/θ
=1− 1−
→ 1 − e−t/θ .
n
d
Por lo tanto, Zn →
− Z ∼ Exp(θ), con E(X) = θ.
Teorema 7.4.2. Slutsky
d
Sea X1 , X2 , . . . una sucesión de variables aleatorias, sea X una variable aleatoria tal que Xn →
− X.
p
Sean Y1 , Y2 , . . . y W1 , W2 , . . . dos sucesiones de variables aleatorias tales que Yn →
− a ∈ R y
p
Wn →
− b ∈ R. Entonces,
d
Yn Xn + W n →
− aX + b.
Inferencia en muestras grandes - 129
Introducción a la Inferencia Estadı́stica
d
d
d
Observación 7.4.1. Si Xn →
− X y Yn →
− Y , en general no se cumple que Xn + Yn →
− X +Y.
Para aquellos casos donde exista la función generatriz de momentos, el siguiente teorema explicita
una forma alternativa de verificar convergencia en distribución. Es una condición suficiente pero
no necesaria.
Teorema 7.4.3. Sea X1 , X2 , . . . una secuencia de variables aleatorias con función generatriz de
momentos MXn (t), |t| ≤ h. Sea X una variable aleatoria con función generatriz de momentos
MX (t), |t| ≤ h1 ≤ h. Si
d
lı́m MXn (t) = MX (t) |t| ≤ h1 =⇒ Xn →
− X.
n→∞
~ n ∼ Binomial(n, θ).
Ejemplo 7.4.6. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con X
+
Sea λ = nθ ∀n. Observe que λ ∈ R y θ = λ/n. Por lo cual, si n → ∞ entonces θ → 0.
n
λ(et − 1)
t n
MXn (t) = (1 − θ) + θe = 1 +
n
Por lo tanto,
λ(et − 1)
lı́m 1 +
n→∞
n
n
t
d
− X ∼ Poisson(λ).
= eλ(e −1) =⇒ Xn →
En la práctica, esta aproximación es buena si θ ≤ 0, 1, n ≥ 50 y nθ ≤ 5.
Ejemplo 7.4.7. Sea X1 , X2 , . . . una secuencia de variables aleatorias, con Xn ∼ Poisson(λn ),
con lı́m λn = ∞. Tenemos que E(Xn ) = λn y Var(Xn ) = λn . Definimos
n→∞
Zn =
p
Xn − λn
Xn
√
= √ − λn
λn
λn
Entonces,
√
−t λn
MZn (t) = e
x
Recordando que e =
MXn
t
√
λn
n p
√
o
= exp −t λn + λn et/ λn − 1
n
X
xk
i=1
x
x2
t
=1+ +
+ . . ., tomando x = √ tenemos que
k!
1!
2!
λn
√
p
p
t
t2
t3
t4
t/ λn
−t λn + λn e
− 1 = −t λn + λn √ +
+
+
+ ...
λn 2λn 3!λn3/2 4!λn4/2
t2
t3
t4
= +
+
+ ...
1/2
2
4!λn
3!λn
|
{z
}
→0 cuando n→∞
130 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
Por lo tanto,
t2
d
=⇒ Zn →
− Z ∼ N(0, 1).
lı́m MXn (t) = e 2
n→∞
En la práctica, la aproximación de una distribución de Poisson(λ) por una N(0,1) es
buena si λ > 10.
7.5.
Teorema del lı́mite central
Uno de los resultados más importantes de la Estadı́stica es el Teorema del lı́mite Central1 Este
teorema indica que, en condiciones muy generales, la función de distribución de la suma de n
variables aleatorias, cada una con varianza no nula pero finita, “se aproxima bien” a la de una
distribución normal.
Existen varias versiones, dependiendo de cuán generales son los supuestos. En nuestro curso nos
interesa la que enunciamos a continuación.
Teorema 7.5.1. Teorema del lı́mite central (caso iid)
Sea X1 , X2 , . . . una sucesión de variables aleatorias, con E(Xn ) = µ y Var(Xn ) = σ 2 < ∞.
Entonces,
√
n(X̄n − µ) d
→
− Z ∼ N(0, 1).
σ
Demostración. Lo demostraremos en el caso de que ∃MXn (t) ∀n. Esto es suficiente pero no necesario para que se cumpla el teorema.
Sea Yi =
Xi − µ
, i = 1, 2 . . .. Entonces, E(Yi ) = 0 y Var(Yi ) = E(Yi2 ) = 1. Note que, por ejemplo,
σ
MY1 (t) = 1 +
n
X
E(Y k ) tk
1
k!
k=1
√
Podemos reescribir
n
t2 X E(Y1k ) tk
=1+ +
.
2
k!
k=3
(7.3)
n(X̄n − µ)
en función de Y1 , . . . , Yn :
σ
Pn (Xi −µ)
Pn
Pn
Pn
√ Pn
X
X
−
nµ
(X
−
µ)
X̄n − µ
n
i
i
i
i=1
i=1
i=1 Yi
√ =
√ σ = √
− µ = i=1 √
= i=1 √
=
.
σ
n
σ/ n
σ n
σ n
n
n
Por lo tanto,
n
M X̄n√−µ (t) = M Pni=1
Yi = M P
√
σ/ n
n
i=1
Yi
t
√
n
= MY1
t
√
n
n
"
n
X E(Y k ) tk
t2
1
= 1+
+
2n k=3 k! nk/2
#n
.
1
Usualmente se lo encuentra también mencionado como el Teorema Central del Lı́mite. Este nombre no es el
correcto y proviene de la traducción literal de su nombre en inglés, Central Limit Theorem.
Inferencia en muestras grandes - 131
Introducción a la Inferencia Estadı́stica
Entonces,
"
σ/ n
n
X
E(Y k ) tk
#n
t
1
+
2n k=3 k! nk/2
#)
( "
n
X
E(Y1k ) tk
t2
+
−1
= lı́m exp n 1 +
n→∞
2n k=3 k! nk/2
#)
("
n
t2 X E(Y1k ) tk
+
= lı́m exp
n→∞
2
k! nk/2−1
k=3
lı́m M X̄n√−µ (t) = lı́m 1 +
n→∞
2
n→∞
2 /2
= et
(es de la forma 1∞ )
.
Observación 7.5.1. En la práctica si “n es grande” se toma que X̄n ≈ N(µ, σ 2 /n).
Observación 7.5.2. El concepto de “n es grande” depende del tipo de variable aleatoria. Si X
es absolutamente continua, la aproximación es buena si n ≥ 30. Si X es discreta, depende de
cuál es su distribución en particular. Por ejemplo, si X ∼ Binomial(n, θ), se tiene que cumplir las
siguiente relación entre n y θ
θ aproximadamente
igual a
0,5
0,4 o 0,6
0,3 o 0,7
0,2 o 0,8
0,1 o 0,9
0,05 o 0,95
7.5.1.
n debe ser mayor
o igual que
30
50
80
200
600
1400
El método delta
Un resultado central de cálculo es el Teorema de Taylor que permite obtener aproximaciones
polinómicas de una función en un entorno de cierto punto en que la función sea diferenciable. Este
teorema permite aproximar una función derivable en el entorno reducido alrededor de un punto
x ∈ (a, b) mediante un polinomio cuyos coeficientes dependen de las derivadas de la función en
ese punto. Más formalmente, si n ≥ 0 es un entero y f una función que es derivable n veces en el
intervalo cerrado [a, x] y n + 1 veces en el intervalo abierto (a, x), entonces se cumple que
f (x) = f (a) +
f 0 (a)
f 00 (a)
f (n) (a)
f (n+1) (ξ)
(x − a) +
(x − a)2 + · · · +
(x − a)n +
(x − a)n+1 ,
1!
2!
n!
(n + 1)!
donde ξ ∈ (a, x). Además, si f es una función analı́tica (o sea, puede expresarse como una serie
de potencias convergente)
f (n+1) (ξ)
lı́m
(x − a)n+1 = 0.
n→∞ (n + 1)!
Una consecuencia de este teorema es el resultado siguiente que extiende el uso del Teorema del
Lı́mite Central.
132 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
Teorema 7.5.2. Método Delta
Si
√
entonces
√
d
n(Tn − θ) →
− N (0, σ 2 ),
d
n(f (Tn ) − f (θ)) →
− N (0, σ 2 [f 0 (θ)]2 ),
siempre y cuando f 0 (θ) exista y sea diferente de 0.
7.6.
7.6.1.
Contrastes e intervalos de confianza asintóticos basados en el TLC
Valor esperado de una v.a.
Suponga que X1 , . . . , Xn es una MA de X, tal que E(X) = θ y Var(X) = σ 2 < ∞. Suponga que
tanto θ como σ 2 son desconocidos. Para n ≥ 2, considere X̄n y Sn2 la media muestral y varianza
muestral respectivamente. Si aplicamos el Teorema del Lı́mite Central, cuando n → ∞,
√
n(X̄n − θ) d
→
− N(0, 1).
(7.4)
Sn
√
De 7.4 podemos concluir que la variable aleatoria n(X̄n − θ)/Sn es aproximadamente un pivot
dado que su distribución no depende ni de θ ni de σ 2 . Por lo tanto, para un valor de α ∈ (0, 1)
preasignado, tenemos que
√
n(X̄n − θ)
< z1−α/2 ≈ 1 − α.
Pθ
Sn
Esto nos lleva a que
Sn
X̄n ± z1−α/2 √
n
(7.5)
sea un intervalo de confianza aproximado al (1 − α)100 % para el valor esperado de X, θ.
Con el mismo razonamiento podemos construir regiones crı́ticas de nivel aproximadamente igual
a α. Por ejemplo,
1. Para H0 ) θ = θ0 contra H1 ) θ 6= θ0 ,
√
n|X̄n − θ0 |
> z1−α/2 .
RC = ~x ∈ X
Sn
2. Para H0 ) θ ≤ θ0 contra H1 ) θ > θ0 ,
√
n(X̄n − θ0 )
RC = ~x ∈ X
> z1−α .
Sn
3. Para H0 ) θ ≥ θ0 contra H1 ) θ < θ0 ,
√
n(X̄n − θ0 )
RC = ~x ∈ X
< zα .
Sn
Inferencia en muestras grandes - 133
Introducción a la Inferencia Estadı́stica
En el caso de que X ∼ Bernoulli(θ). Donde θ ∈ (0, 1) es desconocido, todo lo anterior sigue siendo
válido. Observe que, en este caso, dado que Xi ∈ {0, 1}, esto implica que Xi2 ∈ {0, 1}. Por lo
n
n
X
X
tanto,
Xi2 =
Xi . Entonces,
i=1
i=1
n
Sn2
n
1X
1X 2
Xi − X̄n2 =
Xi − X̄n2 = X̄n − X̄n2 = X̄n (1 − X̄n ).
=
n i=1
n i=1
Observación 7.6.1. Para aplicar estos resultados recuerde la observación 7.5.2. En ella se explicitan cuándo se considera que “n es lo suficientemente grande” para que en la práctica sea válida
la aplicación del Teorema del lı́mite central.
7.7.
Constrastes basados en la función de verosimilitud
A lo largo de esta sección, θ̂n representa el estimador máximo verosimil de θ calculado con una
muestra de tamaño n.
7.7.1.
Contraste de Wilks
El contraste de Wilks puede utilizarse para contruir intervalos de confianza basados en estimadores
máximo verosı́miles o para construir un estadı́stico para hacer un contraste basado en la razón de
~ correspondiente a un contraste particular puede deterverosimilitudes. Si la distribución de λ(X)
minarse explı́citamente, el mismo puede utilizarse directamente para contruir regiones de rechazo
~ es difı́cil de determinar. Wilks
de H0 . Sin embargo, en muchos casos la distribución exacta de λ(X)
d
~ →
demostró que bajo H0 cierta, bajo ciertas condiciones, −2 log λ(X)
− χ2 con grados de libertad
igual a la diferencia en la dimensión de Θ y Θ0 .
Ejemplo 7.7.1. Sea X1 , . . . , Xn de X ∼ N(θ, σ 2 ) (σ 2 conocida). Para el contraste
H0 ) θ = θ0 contra H1 ) θ 6= θ0 , tenemos que el estadı́stico de razón de verolimilitudes es
o
n n
λ(~x) = exp − 2 (x̄n − θ0 )2 .
2σ
Por lo tanto, la RC está dada por
n
n n
o
o
2
RC = ~x ∈ X | exp − 2 (x̄n − θ0 ) < k ,
2σ
donde
o
n n
2
α = Pθ0 exp − 2 (X̄n − θ0 ) < k
n 2σ
= Pθ0 − 2 (X̄n − θ0 )2 < log k
n 2σ
2
= Pθ0
(
X̄
−
θ
)
>
−2
log
k
n
0
2
σ
~ > −2 log k
= Pθ0 −2 log λ(X)
134 - Inferencia en muestras grandes
(7.6)
(7.7)
Introducción a la Inferencia Estadı́stica
√
2
Dado que X̄n ∼ N(θ, σ /n), bajo H0 cierta,
n(X̄n − θ0 )
∼ N(0, 1). Esto implica,
σ
n
(X̄n − θ0 )2 ∼ χ21 ⇒ −2 log k = χ21;1−α .
σ2
Por lo tanto, la RC resultante es
RC = ~x ∈ X −2 log λ(~x) > χ21;1−α
n(x̄n − θ0 )2
2
= ~x ∈ X
> χ1;1−α .
σ2
(7.8)
El resultado del ejemplo es cierto, independientemente del tamaño de la muestra, siempre que la
distribución de X sea una normal. Bajo ciertas condiciones, este resultado se puede generalizar.
Teorema 7.7.1. Asumiendo las condiciones de regularidad R1, R2, R3, R4 y R5. Bajo la hipótesis
H0 ) θ = θ0 ,
d
~ →
χ2L = −2 log λ(X)
− χ21 .
~ se lo conoce como el estadı́stico de Wilks. Este
Observación 7.7.1. Al estadı́stico −2 log λ(X)
estadı́stico lo que hace es ver cuán “grande” es la distancia entre l(θ0 |~x) y l(θ̂n |~x) dado que
L(θ0 |~x)
= log (L(θ0 |~x)) − log L(θ̂n |~x) = l(θ0 |~x) − l(θ̂n |~x)
log λ(~x) = log
L(θ̂n |~x)
~
⇒ −2 log λ(X) = −2 l(θ0 |~x) − l(θ̂n |~x) .
Ejemplo 7.7.2. Sea X1 , . . . , Xn una MA de X ∼ Beta(θ, 1). Deseamos contrastar
H0 ) θ = 1 contra H1 ) θ 6= 1. La función de densidad fX (x|θ) = θxθ−1 I[0<x<1] pertenece
a la familia exponencial de distribuciones, por lo tanto se cumplen las condiciones de
regularidad. Para este problema sabemos que
)
(
n
X
L(θ|~x) = θn exp (θ − 1)
log xi
i=1
y que θ̂n = P
n
n
. Por lo tanto, con L(1|~x) = 1
− log xi
i=1
 

n





−
log
x
n
i
 

 i=1

X
L(1|~x)
n
 exp − 

log
x
λ(~x) =
=
−
1
.
i
n

P



n
L(θ̂n |~x) 


i=1
− log xi



n
P
i=1
De donde,
(
χ2L = −2 log λ(~x) = 2 n log n − n + n log
n
X
i=1
!
− log xi
+
n
X
)
− log xi
i=1
Inferencia en muestras grandes - 135
Introducción a la Inferencia Estadı́stica
7.7.2.
Contraste de Wald
Un contraste similar al de Wilks podrı́a construirse desde otra perspectiva. Esta vez viendo cuán
“grande” es la distancia entre θ0 y θ̂n . Para ello necesitaremos el siguiente resultado:
Teorema 7.7.2. Bajo las condiciones de regularidad R1, R2 y R3 si θ̂n es una secuencia de
estimadores máximo verosı́miles consistente para θ, entonces
√
d
n(θ̂n − θ) →
− N 0, I−1
X (θ) .
A partir de este resultado tenemos que
p
d
nIX (θ)(θ̂n − θ) →
− N(0, 1).
Note que IX (θ) depende de θ, por lo cual definimos la Información de Fisher observada como
IX (θ̂n ). Note que una vez observada la muestra y habiendo calculado qué valor toma θ̂n , IX (θ̂n )
es un número.
Para el contraste de hipótesis H0 ) θ = θ0 contra H1 , θ 6= θ0 , asumiendo H0 cierta
q
d
d
nIX (θ̂n )(θ̂n − θ0 ) →
− N(0, 1) ⇒ χ2W ≡ nIX (θ̂n )(θ̂n − θ0 )2 →
− χ21 .
Este resultado permite construir la siguiente RC:
RC = ~x ∈ X |χ2W ≥ χ21;1−α .
Ejemplo 7.7.3. Sea X1 , . . . , Xn una MA de X ∼ N(θ, σ 2 ), σ 2 conocida. Queremos
n
contrastar H0 ) θ = θ0 contra H1 , θ 6= θ0 . Sabemos que nIX (θ) = 2 y dado que no
σ
depende de θ, tenemos que IX (θ) = IX (θ̂n ), con lo cual
χ2W =
n(x̄n − θ0 )2
.
σ2
Por lo cual, la RC es
n(x̄n − θ0 )2
2
RC = ~x ∈ X
> χ1;1−α .
σ2
(7.9)
Observe que para este problema, χ2L = χ2W . Por lo tanto, las RC 7.8 y 7.9 coinciden.
Ejemplo 7.7.4. Continuación del ejemplo 7.7.2. En este caso X ∼ Beta(θ, 1), con
θ0 = 1. Tenemos que

2
n
P
2
− log Xi 

n
n
1
1
i=1
2
2
 .
⇒ χW = (θ̂n −1) = n 1 −
= n
IX (θ) = 2 , θ̂n = P
n
1 +

2
θ
n
θ̂
θ̂
n
n
− log Xi
i=1
136 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
7.7.3.
Contraste de Rao o de los multiplicadores de Lagrange
d
~
log fX~ (X|θ)
= l0 (θ|~x). También sabemos que
dθ
Eθ (l0 (θ|~x)) = 0 y por la fórmula 4.5 Var(l0 (θ|~x)) = nIX (θ). Si aplicamo el teorema del lı́mite
central,
!2
l0 (θ|~x) d
l0 (θ|~x)
d
p
→
− N(0, 1) ⇒ p
→
− χ21 .
nIX (θ)
nIX (θ)
Recuerde que la función score se define como
Por lo cual, para el contraste H0 ) θ = θ0 contra H1 , θ 6= θ0 . Bajo H0 cierta, tenemos que
χ2R =
l0 (θ |~x)
p 0
nIX (θ0 )
!2
d
→
− χ21 .
y la RC será
RC = ~x ∈ X |χ2R ≥ χ21;1−α .
Observación 7.7.2. Esta prueba mide la pendiente de la recta tangente a l(θ|~x) en el punto θ0 .
Si θ0 está “cerca” de θ̂n se espera que la pendiente sea aproximadamente 0.
Observación 7.7.3. Dado que la maximización de funciones sujeto a restricciones se puede resolver planteando el problema en base a los multiplicadores de Lagrange, este contraste puede
plantearse como un contraste respecto de la magnitud de los multiplicadores de Lagrange en el
que nuevamente, si θ0 está cercano a θn los multiplicadores de Lagrange deben estar cercanos a 0.
De ahı́ su denominación como contraste de los multiplicadores de Lagrange.
Ejemplo 7.7.5. Continuación del ejemplo 7.7.3. Para este caso tenemos que (c representa una constante que no depende de θ),
n
1 X
0
l (θ|~x) = c − 2
(xi − θ)2 ⇒ l0 (θ|~x) =
2σ i=1
2
n
X
(xi − θ)
i=1
2σ 2
=
n(x̄n − θ)
.
σ2
Dado que IX (θ) = σ −2 , tenemos que

n(x̄n − θ) 2
2
2
 = n(x̄n − θ) .
χ2R =  pσ n
σ2
σ2

Entonces,
n(x̄n − θ0 )2
2
RC = ~x ∈ X
> χ1;1−α .
σ2
(7.10)
Para este problema, χ2L = χ2W = χ2R . Por lo tanto, las RC 7.8, 7.9 y 7.10 coinciden.
Inferencia en muestras grandes - 137
Introducción a la Inferencia Estadı́stica
Ejemplo 7.7.6. Continuación del ejemplo 7.7.4.
n
n
1 X
1 X
l (θ|~x) = +
log xi = −
− log xi .
θ i=1
θ
i=1
0
Definiendo Yi = − log Xi ,
0
l (θ|~x) = n
1
− Ȳn
θ
⇒ l0 (1|~x) = n 1 − Ȳn
Además, IX (θ) = θ−2 , por lo cual nI(1) = n. Entonces,
χ2R
n2 (1 − Ȳn )2
=
= n(1 − Ȳn )2 = n
n
Pn
i=1
2
− log xi
−1 .
n
Por lo cual,
(
~x ∈ X |n
RC =
)
2
−
log
x
i
i=1
− 1 > χ21;1−α .
n
Pn
Observe que si X ∼ Beta(θ, 1), Yi = − log Xi ∼ Gamma(1, θ). Usando este resultado,
Ȳn ∼ Gamma(n, nθ). Lo que implica que, asumiendo H0 ) θ = 1 cierta, E(Ȳn ) = 1 y
Var(Ȳn ) = n−1 . En este caso, el teorema del lı́mite central establece que
√
p
n(Ȳn − 1) →
− N(0, 1).
Ejemplo 7.7.7. Sea X1 , . . . , Xn una MA de X ∼ Exp(θ) con E(X) = θ−1 . Se desea
contrastar H0 ) θ = θ0 contra H1 ) θ 6= θ0 .
l(θ|~x) = n log θ − θ
n
X
xi = n log θ − θnx̄n
i=1
n
⇒ l (θ|~x) = − nx̄n = n
θ
0
1
− x̄n
θ
2
.
Dado que IX (θ) = θ−2 tenemos que
2
1
−
x̄
)
n(
n
0
 = n(1 − θ0 x̄n )2 .
χ2R =  θq

n
θ02
Por lo tanto,
RC = ~x ∈ X |n(1 − θ0 x̄n )2 > χ21;1−α .
138 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
Ejemplo 7.7.8. Sea X1 , . . . , Xn una MA de X ∼ Bernoulli(θ). Se desea contrastar
H0 ) θ = θ0 contra H1 ) θ 6= θ0 . Para este problema, sabemos que
L(θ|~x) = θ
nx̄n
n(1−x̄n )
(1−θ)
⇒ l(θ|~x) =
n
X
[xi log θ+(1−xi ) log(1−θ)] ⇒ l0 (θ|~x) =
i=1
n(x̄n − θ)
.
θ(1 − θ)
Además θ̂n = x̄n , IX (θ) = [θ(1 − θ)]−1 . Por lo cual,
Wilks
χ2L
= 2n x̄n log
x̄n
θ0
Wald
+ (1 − x̄n ) log
χ2W =
n(x̄n − θ0 )2
.
x̄n (1 − x̄n )
χ2R =
n(x̄n − θ0 )2
.
θ0 (1 − θ0 )
Rao
1 − x̄n
1 − θ0
Note que los tres contrastes rechazan H0 para valores “grandes” de (x̄n − θ0 )2 .
En el caso del ejemplo donde tenemos una MA de X ∼ N(θ, σ 2 ), si ahora tomamos que σ 2 es
desconocida, la hipótesis nula ya no es un hipótesis simple. Ahora H0 es θ = θ0 , σ 2 > 0. En base
a esto tenemos que estimar también a σ 2 .
1. Para el contraste de Rao estimaremos σ 2 sujeto a la restricción de que θ = θ0 . La ecuación
a maximizar es
(
)
n
1 X
2
2
2 −n/2
2
g(θ, σ ) = L(θ, σ ) + λ(θ − θ0 ) = (2πσ )
exp − 2
(xi − θ) + λ(θ − θ0 ).
2σ i=1
n
donde λ es un multiplicador de Lagrange. Esto nos da θ̂n = θ0 y
lo cual
χ2R =
σ̂02
1X
=
(xi − θ0 )2 . Por
n i=1
n(x̄n − θ0 )2
.
σ̂02
2. Como tanto Wilks and Wald usan la función de verosimilitud maximizada en el espacio sin
restringir, tenemos que
n(x̄n − θ0 )2
.
χ2L = χ2W =
Sn2
Observación 7.7.4. Los contrastes de Wald, Rao y Wilks tienen las siguientes propiedades
1. Asumiendo H0 ) θ = θ0 cierta, los tres contrastes son asint]’oticamente equivalentes. En
muestras finitas no existen estudios que determinen cuál es el mejor.
2. El contraste de Wald tiene la ventaja que es fácil de calcular pero hay una doble estimación,
de de θ y la de la Var(θ̂n ).
Inferencia en muestras grandes - 139
Introducción a la Inferencia Estadı́stica
3. Intervalos de confianza asintóticos puede ser construidos invirtiendo la región de no rechazo
del contraste de Wald. Un intervalo de confianza al (1 − α)100 % para θ es
s
1
θ̂n ± z1−α/2
.
nIX (θ̂n )
Intervalos de confianza construidos a partir de las RC generadas por los estadı́sticos χ2L o
χ2R se deben de hacer de forma iterativa.
4. Todos estos contrastes tienen un nivel de significación asintótico igual a α.
7.8.
Contrastes de independencia y bondad de ajuste
Suponga que X1 ∼ Binomial(n, p1 ). Considere la variable
X1 − np1
Y =p
.
np1 (1 − p1 )
d
d
Cuando n → ∞, Y →
− N(0, 1). Por lo cual, Y 2 →
− χ21 .
Defina X2 = n − X1 y p2 = 1 − p1 . Note que, X1 − np1 = n − X2 − n(1 − p2 ) = −(X2 − np2 ).
Entonces,
Q1 ≡
(X1 − np1 )2 (X1 − np1 )2
(X1 − np1 )2 (X2 − np2 )2
(X1 − np1 )2
=
+
=
+
np1 (1 − p1 )
np1
n(1 − p1 )
np1
np2
d
Por lo tanto, Q1 →
− χ21 .
~ = (X1 , . . . , Xk ) ∼ Multinomial (n, p1 , . . . , pk ),
Esto se puede generalizar de la siguiente manera: Sea X
k−1
k−1
X
X
donde Xk = n −
Xi y pk = 1 −
pi . Defina,
i=1
i=1
Qk−1 =
k
X
(Xi − npi )2
i=1
npi
.
d
Entonces, Qk−1 →
− χ2k−1 . Para que esta aproximación funcione se necesita que npi ≥ 5, i = 1, . . . , k.
El estadı́stico Qk−1 puede ser usado para construir pruebas de hipótesis relativas a los valores de
p1 , . . . , pk . Si H0 asigna valores determinados a p1 , . . . , pk , este tipo de prueba evalúa cuánto se
aleja lo que realmente se observa de lo que se esperarı́a haber observado si H0 fuera cierta. En lo
que sigue, H1 es la negación de H0 y no se detalla explicı́tamente.
7.8.1.
Contrastes de bondad de ajuste
Sea Ω el espacio muestral de un experimento aleatorio. Sea A1 , . . . , Ak una partición de Ω. Defina,
pi = P(Ai ) > 0, i = 1, . . . , k. El experimento aleatorio se repite en idénticas condiciones y de
manera independiente n veces. Sean X1 , . . . , Xk la frecuencia con que se observa un resultado que
pertenece a A1 , . . . , Ak respectivamente. Entonces, (X1 , . . . , Xk ) ∼ Multinomial(n, p1 , . . . , pk ), lo
que implica que E(Xi ) = npi , i = 1, . . . , k.
140 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
Considere el siguiente contraste de hipótesis
H0 ) p1 = p10 , p2 = p20 , . . . , pk = pk0 ,
donde p10 , . . . , pk0 son constantes tales que pi0 > 0, i = 1, . . . , k y
k
X
pi0 = 1. Si H0 es cierta,
i=1
Qk−1 =
k
X
(Xi − npi )2
i=1
d
→
− χ2k−1 .
npi
Intuitivamente, si H0 es cierta, Qk−1 no deberı́a ser muy grande. Por lo cual, rechazaremos H0
cuando Qk−1 > c donde α = P(Qk−1 > c|H0 ). Entonces,
RC = ~x ∈ X |Qk−1 > χ2k−1;1−α .
A este tipo de contraste se le las conoce como “Bondad de ajuste” y los pi0 están calculados de
acuerdo a una determinada distribución que se asume como cierta.
Como se señaló anteriormente, es crucial que los valores esperados de cada clase sean mayores
o iguales que 5. En caso de no cumplirse este requisito tendremos que unir clases, de manera
coherente, para lograr que se cumpla esta condición.
Ejemplo 7.8.1. Se tira un dado y se desea ver si está cargado. Ai = {x|x = i},
i = 1, . . . , 6. H0 ) pi0 = 1/6, i = 1, . . . , 6. H0 representa que se asume que el dado no
está cargado. Suponga que n = 60. Por lo tanto, npi0 = 10, i = 1, . . . , 6. Entonces,
bajo H0 cierta
k
X
(Xi − 10)2 d 2
Q5 =
→
− χ5 .
10
i=1
Si asumimos un nivel de significación del 5 %, tenemos que χ25;0,95 = 11, 1 y por lo tanto,
la RC = {~x ∈ X |Qk−1 > 11, 1}. Suponga que se observa, x1 = 13, x2 = 19, x3 = 11,
x4 = 8, x5 = 5 y x6 = 4. Para esos valores,
Q5 =
(13 − 10)2 (19 − 10)2 (11 − 10)2 (8 − 10)2 (5 − 10)2 (4 − 10)2
+
+
+
+
+
= 15, 6
10
10
10
10
10
10
Por lo tanto, dado que 15, 6 > 11, 1 rechazamos al 5 % de significación la hipótesis nula
de que el dado no está cargado.
Ejemplo 7.8.2. Un punto es seleccionado al azar en el intervalo (0,1). Sea A1 = {x|0 <
x ≤ 0, 25}, A2 = {x|0, 25 < x ≤ 0, 5}, A3 = {x|0, 5 < x ≤ 0, 75} y A4 = {x|0, 75 <
x ≤ 1}. Se asume que X ∼ fX (x) = 2xI[0<x<1] . Bajo este supuesto
Z
p10 =
0
0,25
1
2x dx = ,
16
Z
0,5
p20 =
2x dx =
0,25
3
.
16
Inferencia en muestras grandes - 141
Introducción a la Inferencia Estadı́stica
De manera similar p30 =
5
7
y p40 = .
16
16
Podemos plantear H0 ) fX (x) = 2xI[0<x<1] , o equivalentemente,
H0 ) p10 =
1
3
5
7
, p20 = , p30 = , p40 = .
16
16
16
16
Supongamos que n = 80, α = 0, 05 y que se observa x1 = 6, x2 = 18, x3 = 20 y
x4 = 36. Entonces, np10 = 5, np20 = 15, np30 = 25 y np40 = 35,
Q3 =
(6 − 5)2 (18 − 15)2 (20 − 25)2 (36 − 35)2
+
+
+
= 1, 83.
5
15
25
35
Si H0 es cierta, Q3 ≈ χ23 , χ23,0,95 = 9, 35. Por lo cual, la RC = {~x ∈ X |Q3 > 9, 35}.
Dado que 1, 83 6> 9, 35, no rechazamos H0 .
Suponga que la probabilidad de pertenecer a cada clase está dada por una distribución que no está
totalmente determinada en el sentido de que depende de parámetros desconocidos. Por ejemplo,
X ∼ N(µ, σ 2 ) donde µ y σ 2 son desconocidos. La idea es estimar µ y σ 2 de tal manera que Qk−1
sea mı́nima. A estos estimadores se les conoce como estimadores mı́nimo χ2 . Una vez estimados
los parámetros, habremos perdido grados de libertad. En este ejemplo, hemos perdido 2 grados de
d
− χ2k−1−2 = χ2k−3 . En general,
libertad (uno por cada parámetro estimado), lo que lleva a que Q3 →
d
si hay k clases y d parámetros a estimar, Qk−1 →
− χ2k−1−d .
Observación 7.8.1. Estimadores mı́nimo χ2 son complicados de calcular, y por lo tanto, se usan
en su lugar a los estimadores máximo verosimil. Esto produce un valor de Qk−1 que no es mı́nimo,
lo que lleva a que la probabilidad de rechazar H0 se incremente con respecto a si el mı́nimo actual
de Qk−1 se hubiera usado.
7.8.2.
Contrastes de independencia
Suponga que el resultado de un experimento aleatorio depende de la clasificación concurrente
de dos atributos. Un atributo particiona al espacio muestral Ω, en a clases A1 , . . . , Aa . El otro
particiona al espacio muestral en b clases, B1 , . . . , Bb . Un resultado pertenece a Ai ∩ Bj si pertence
a la vez a la clase Ai y a la clase Bj . Sea pij = P(Ai ∩ Bj ), i = 1, . . . , a, j = 1, . . . , b. Note que
existen k = ab clases diferentes Ai ∩ Bj . Entonces,
Qab−1
a X
b
X
(Xij − npij )2 d 2
→
− χab−1 .
=
npij
i=1 j=1
Supongamos que deseamos contrastar que A es independiente de B. Si esto es cierto se cumple que
b
a
X
X
P(Ai ∩ Bj ) = P(Ai )P(Bj ), i = 1, . . . , a, j = 1, . . . , b. Sea pi. =
pij , i = 1, . . . , a y p.j =
pij ,
j=1
j = 1, . . . , b. Claramente,
a
X
i=1
pi. =
b
X
i=1
p.j = 1.
j=1
Planteamos el siguiente contraste H0 ) pij = pi. p.j , i = 1, . . . , a, j = 1, . . . , b. Supongamos que
tenemos una MA de tamaño n y que Xij representa la cantidad de las observaciones que pertenecen
142 - Inferencia en muestras grandes
Introducción a la Inferencia Estadı́stica
a la clase Ai ∩ Bj . Si pi. y p.j son desconocidos, tenemos que estimarlos por máxima verosimilitud.
Esto nos da que
b
a
1X
1X
p̂i. =
Xij p̂.j =
Xij .
n j=1
n i=1
Dado que
a
X
p̂i. =
i=1
b
X
p̂.j = 1 hemos estimado a − 1 + b − 1 = a + b − 2 parámetros. Por lo
j=1
cual, si H0 es cierta, Qab−1 ≈ χ2ab−1−(a+b−2) = χ2(a−1)(b−1) . La correspondiente región crı́tica será
RC = {~x ∈ X |Qab−1 > χ2(a−1)(b−1);1−α }.
Ejemplo 7.8.3. Se tiene una muestra de 12.000 individuos clasificados según sexo
(Hombre, Mujer) y grupo sanguı́neo (A, B o O). En la tabla siguiente se muestran los
resultados obtenidos
Sexo
Hombre
Mujer
Total
Grupo sanguı́neo
A
B
O
2400 1900 700
3100 2700 1200
5500 4600 1900
Total
5000
7000
12000
Sea H0 ) los atributos “Sexo” y “Grupo Sanguı́neo” son independientes. Bajo H0 cierta,
tenemos que
4600 × 5500
1900 × 5500
5000 × 5500
= 2292; pHB =
= 1917; pHO =
= 792
12000
12000
12000
7000 × 5500
4600 × 7000
1900 × 7000
=
= 3208; pM B =
= 2683; pM O =
= 1108
12000
12000
12000
pHA =
pM A
Por lo cual,
Q5 =
(2400 − 2292)2 (1900 − 1917)2 (700 − 792)2
+
+
+
2292
1917
792
(3100 − 3208)2 (2700 − 2683)2 (1200 − 1108)2
+
+
+
= 27, 3.
3208
2683
1108
Como todos los valores esperados son mayores que 5, tenemos que Q5 ≈ χ22 bajo H0
cierta. Si asumimos α = 0, 05, χ22;0,95 = 5, 991. Por lo cual, RC = {~x ∈ X |Q5 > 5, 991}.
Dado que 27, 3 > 5, 991 concluimos que existe evidencia significativa al 5 % de que los
atributos “Sexo” y “Grupo Sanguı́neo” no son independientes.
Note que tanto en este tipo de contraste como en el anterior también podemos calcular
el valor-p y en base a este decidir. En el ejemplo,
valor-p = P(χ22 > 27, 3) ≈ 0 < 0, 05 ⇒ rechazamos H0 .
Inferencia en muestras grandes - 143
Introducción a la Inferencia Estadı́stica
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Hogg, R., McKean, J., Craig, A. (2005) Introduction to Mathematical Statistics. Sixth Edition.
Pearson Education International.
Keener, R. (2010) Theoretical Statistics. Springer.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Wasserman, L. (2004) All of Statistics A Concise Course in Statistical Inference. Springer
144 - Inferencia en muestras grandes
CAPÍTULO 8
MUESTREO DE POBLACIONES FINITAS
8.1.
Introducción
En este capı́tulo estudiaremos métodos de estimación cuando la población es un conjunto finito
de elementos al que llamaremos población finita. Deseamos investigar el comportamiento de cierta
variable de estudio Y en la población. En lugar de medir Y en toda la población usaremos un
subconjunto de esta al que llamaremos la muestra y llevaremos a cabo una encuesta por muestreo. El término encuesta denota una investigación estadı́stica con las siguientes caracterı́sticas
metodológicas:
Los elementos de la población se denominan unidades.
El número de elementos de la población se anotará como N y se supone conocido.
La población se notará con el conjunto {u1 , u2 , . . . , uN }.
Adicionalmente se supone que las unidades de la población son identificables y pueden
etiquetarse con los naturales de 1 a N . Ası́, la población queda representada por el conjunto
de etiquetas U = {1, 2, . . . , k, . . . , N }.
Cada unidad de la población tiene asociado el valor de una o más variables de estudio. Se
anota yk al valor que toma la variable Y en el k -ésimo elemento de la población. Ası́, para
la variable Y tendremos el vector {y1 , y2 , . . . , yk , . . . , yN } de valores poblacionales.
La variable Y no es tratada como variable aleatoria. Los valores yk son tratados como valores
fijos, dados de antemano aunque desconocidos, para cada unidad de la población.
El objetivo de una encuesta es obtener información acerca de caracterı́sticas poblacionales
o parámetros desconocidos. Los parámetros son funciones de las variables en estudio (total,
media, mediana, tasas, etc.).
145
Introducción a la Inferencia Estadı́stica
En la mayorı́a de las encuestas, el acceso a la información de unidades individuales de la
población se establece a través de un marco muestral, que es un mecanismo que asocia las
unidades de la población con las unidades de muestreo en el marco.
En una encuesta por muestreo, la observación de la variable Y está limitada a un subconjunto de la
población. Existe un tipo especial de encuesta que es aquella donde se observa a toda la población
y es conocida como censo o enumeración completa. Existen diferentes maneras de seleccionar la
muestra. Para hacerlo tenemos en cuenta lo siguiente:
El conjunto formado por todos los subconjuntos posibles de unidades de U se anota S,
conjunto de muestras posibles.
S tiene 2N elementos.
Una muestra es un elemento particular de S y se anota como s.
Se cumple que s ∈ S y que s ⊂ U .
El número de elementos de s se anota n y se denomina tamaño de la muestra s.
Se observan los elementos de la muestra. Esto es, para cada elemento de s se recoge información acerca de las variables en estudio. Los valores obtenidos son usados para hacer
estimaciones de los parámetros de interés en la población finita.
Definición 8.1.1. Decimos que una muestra es probabilı́stica o aleatoria si en la elección de una
muestra s que cumple que:
1. El conjunto S es conocido.
2. Cada s ∈ S tiene asociada una probabilidad de selección que denotamos p(s).
3. El procedimiento de selección asigna para todo k ∈ U una probabilidad no nula de ser
incluido en la muestra s. Ası́, P (k ∈ S) = πk > 0 ∀k ∈ U .
4. Existe un mecanismo aleatorio que asegura que cada una de las posibles muestras de S tiene
una probabilidad p(s) de ser seleccionada.
Definición 8.1.2. p(·) es una función de probabilidad sobre S; p(·) : S → [0, 1] y constituye lo
que denominamos diseño muestral.
8.2.
Probabilidades de inclusión
Definición 8.2.1. Sea s ∈ S. Para el elemento k de la población se define su función indicadora
de inclusión en una muestra de la siguiente manera:
(
1 si k ∈ s
Ik =
k = 1, . . . , N
0 si k 6∈ s
La inclusión de un elemento k ∈ U en una muestra es un evento aleatorio indicado por Ik que es
una variable aleatoria ya que la muestra s será seleccionada por algún mecanismo aleatorio.
146 - Muestreo de Poblaciones Finitas
Introducción a la Inferencia Estadı́stica
Definición 8.2.2. La probabilidad de que un elemento k esté incluido en la muestra se denomina
probabilidad de inclusión de primer orden y se define como:
X
πk = P (k ∈ S) = P (Ik = 1) =
p(s)
s3k
donde sı́mbolo s 3 k indica que la sumatoria es sobre todas las muestras s que incluyen el elemento
k.
Definición 8.2.3. La probabilidad de que el elemento k y el elemento l estén ambos en la misma
muestra se se denomina probabilidad de inclusión de segundo orden y se define como:
πkl = P (k&l ∈ S) = P (Ik Il = 1) =
X
p(s)
s3k&l
.
Observación 8.2.1. πkk = P (Ik Ik = 1) = P (Ik = 1) = πk .
Observación 8.2.2. Dada una población con N elementos, existen, para un diseño dado, hay
N (N − 1)/2 probabilidades de inclusión de segundo orden: π12 , π13 , . . . , πkl , . . . , πN −1,N .
Observación 8.2.3. Se pueden definir probabilidades de inclusión de mayor orden. Sin embargo
son muy poco usadas en la práctica.
Observación 8.2.4. Para un diseño muestral arbitrario p(s) y para k, l = 1, . . . , N resulta
Ik ∼ Bernoulli(πk ) y, por tanto,
E(Ik ) = πk
∆kk ≡ Var(Ik ) = πk (1 − πk )
∆kl ≡ Cov(Ik , Il ) = πkl − πk πl
Definición 8.2.4. Un diseño muestral que satisfaga
πk > 0 ∀k ∈ U
se denomina diseño muestral probabilı́stico. Una muestra obtenida por medio de este diseño se
denomina muestra probabilı́stica. Si además el diseño muestral satisface
πkl > 0 ∀k 6= l ∈ U,
el diseño se llama medible.
Observación 8.2.5. Los diseños medibles permiten calcular tanto estimaciones como intervalos
de confianza válidos basados en los datos observados.
Proposición 8.2.1. En diseños muestrales de tamaño, n, fijo:
X
πk = n
U
X
πkl = (n − 1)πk
l∈U
k6=l
X
πkl = n(n − 1)
l,k∈U
k6=l
Muestreo de Poblaciones Finitas - 147
Introducción a la Inferencia Estadı́stica
8.3.
Estimador de Horvitz-Thompson
La siguiente notación será utilizada de aquı́ en adelante:
y̌k =
8.3.1.
yk
πk
ˇ kl = ∆kl .
∆
πkl
;
Estimación del total poblacional
El estimador de Horvitz-Thompson del total poblacional, t =
X
yk , está dado por
U
t̂π =
X
y̌k =
s
X
Ik y̌k .
U
1
se puede interpretar
πk
como la cantidad de elementos de la población que representa el elemento k de la muestra.
Definición 8.3.1. Al inverso de πk se le llama factor de expansión. Ası́,
Observación 8.3.1. Al principio en el que se basa el estimador de Horvitz-Thompson lo denominaremos principio de π expansión y puede resumirse como sigue: para obtener un estimador de
un total poblacional pasamos de U a s y “π expandimos” cada uno de los sumandos.
Propiedades de t̂π
1. t̂π es insesgado para t. Demostración:
!
E(t̂π ) = E
X
Ik y̌k
=
U
X
y̌k E(Ik ) =
X
U
y̌k πk =
U
X yk
X
πk =
yk = t
π
k
U
U
2.
!
Var(t̂π ) = Var
X
Ik y̌k
=
U
X
Var(Ik )y̌k2 +
U
X
∆kl y̌k y̌l =
l,k∈U
k6=l
X
∆kl y̌k y̌l
(8.1)
k,l∈U
3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por
d t̂π ) =
Var(
X
ˇ kl y̌k y̌l
∆
(8.2)
k,l∈s
Demostración:
d t̂π )] =
E[Var(
X
ˇ kl y̌k y̌l =
E(Ik Il )∆
k,l∈U
.
148 - Muestreo de Poblaciones Finitas
X
k,l∈U
ˇ kl y̌k y̌l =
πkl ∆
X
k,l∈U
∆kl y̌k y̌l = Var(t̂π )
Introducción a la Inferencia Estadı́stica
Proposición 8.3.1. Si p(·) es un diseño de tamaño fijo, la fórmula (8.1) se puede escribir de la
siguiente manera:
Var(t̂π ) = −
1 X
∆kl (y̌k − y̌l )2
2 k,l∈U
(8.3)
y por lo tanto un estimador insesgado de la varianza, siempre y cuando πkl > 0 ∀k, l ∈ U , estará
dado por
X
d t̂π ) = − 1
ˇ kl (y̌k − y̌l )2
Var(
∆
(8.4)
2 k,l∈S
Observaciones:
1. Si bien las fórmulas (8.1) y (8.3) son idénticas, los estimadores dados por las fórmulas (8.2)
y (8.4) podrı́an dar estimaciones diferentes para la varianza de t̂π . Sin embargo, para los
diseños que consideraremos, ambas fórmulas producen el mismo valor estimado.
2. Dados los valores muestrales, siempre se pueden evaluar los estimadores dados por (8.2) y
(8.4). Sin embargo, si no se cumple la condición de que, en el diseño considerado, πkl > 0
∀k, l ∈ U , los valores obtenidos serán malas aproximaciones al verdadero valor de la varianza
de t̂π .
3. El estimador dado por (8.4) se conoce como el estimador de Yates-Grundin.
4. Tanto el estimador dado por (8.2), como el dado por (8.4) podrı́an devolver estimaciones
negativas de la varianza de t̂π , lo cual es inaceptable.
8.3.2.
Estimación de la media poblacional
El estimador de la media poblacional, ȳU =
1 X
t
=
yk , ası́ como su varianza, está basado en
N
N U
el estimador del total poblacional t̂π .
ȳˆU =
t̂π
1 X
1 X
=
y̌k =
Ik y̌k
N
N s
N U
Propiedades de ȳˆU
1. ȳU es un estimador insesgado. Demostración:
t̂π
1
t
E(ȳˆU ) = E
= E(t̂π ) =
= ȳU .
N
N
N
2. Var(ȳˆU ) =
1 X
∆kl y̌k y̌l
N 2 k,l∈U
3. Siempre y cuando πkl > 0 ∀k, l ∈ U , un estimador insesgado de la varianza está dado por
X
d ȳˆU ) = 1
ˇ kl y̌k y̌l
Var(
∆
N 2 k,l∈s
Muestreo de Poblaciones Finitas - 149
Introducción a la Inferencia Estadı́stica
8.3.3.
Intervalos de Confianza
d θ̂) un estimador insesgado de
Si θ̂ es un estimador insesgado del parámetro poblacional θ y Var(
su varianza, entonces un intervalo de confianza al 100(1 − α) % para θ viene dado por
q
d θ̂)◦
θ̂◦ ± z1−α/2 Var(
Observaciones:
El subı́ndice ◦ indica que se trata de la estimación puntual, o sea, la calculada a partir de la
única muestra s observada y z1−α/2 es el valor de tabla que acumula 1 − α/2 de probabilidad
en una normal estándar.
q
d θ̂)◦ se la denomina error de estimación.
A la cantidad z1−α/2 Var(
Un intervalo
de confianza al 100(1 − α) % para t, el total poblacional, está dado por t̂π◦ ±
q
d t̂π )◦ .
z1−α/2 Var(
Un intervaloqde confianza al 100(1 − α) % para ȳU , la media poblacional, está dado por
d ȳˆU )◦ .
ȳˆU ◦ ± z1−α/2 Var(
8.4.
Aplicación a algunos diseños de muestreo directo de
elementos
En esta sección se presentan algunos de los diseños más comunes bajo el supuesto de que se está
en condiciones de realizar muestreo directo de elementos. Esto último requiere que se cumplan dos
condiciones:
1. existe un marco que identifica a cada uno de los elementos de la población y,
2. en el procedimiento de selección las unidades de muestreo son propiamente los elementos de
la población.
8.4.1.
Diseño Simple
Definición 8.4.1. Se llama diseño simple al diseño de muestreo en el cual de la población U de
N elementos se seleccionan aleatoriamente n elementos sucesivamente sin reposición.
Este diseño muestral tiene las siguientes caracterı́sticas:
1. La función diseño está dada por p(s) =
1
N
n
∀s de tamaño n.
N −1
N −2
2. Hay
muestras, de tamaño n, que contienen al elemento k y
muestras
n−1
n−2
que contienen a los elementos k y l (k 6= l) a la vez.
150 - Muestreo de Poblaciones Finitas
Introducción a la Inferencia Estadı́stica
3. Para k = 1, . . . , N :
πk =
X
p(s) =
s3k
X 1
s3k
N
n
N −1
n−1
N
n
=
=
n
.
N
4. Para k, l = 1, . . . , N ; k 6= l:
X
πkl =
X
1
s3k&l
N
n
p(s) =
s3k&l
N −2
n−2
N
n
=
=
n(n − 1)
.
N (N − 1)
5. El estimador del total poblacional bajo diseño simple resulta: t̂π = N ȳs con ȳs =
1X
yk .
n s
Demostración:
t̂π =
X
y̌k =
s
X yk
X yk
1X
=
=N
yk = N ȳs
πk
n/N
n s
s
s
6. Dada la fracción de muestreo, esto es f =
y̌k =
∆kl =
n
, se tiene que
N
N
yk
yk =
n
f
n (n − 1)
n n
f (1 − f )
−
=−
N (N − 1) N N
N −1
∀k 6= l.
Haciendo uso de (8.4), se tiene que
1 X
∆kl (y̌k − y̌l )2
2 k,l∈U
1
f (1 − f ) 1 X
=− −
(yk − yl )2
2
2
N − 1 f k,l∈U
Var(t̂π ) = −
=
donde
P
(yk − ȳU )2
σy02 =
Por lo tanto, con Sy02 =
1−f
1 − f 02
2N (N − 1)σy02 = N 2
σy
2f (N − 1)
n
U
N −1
y
ȳU =
1 X
yk .
N U
1 X
(yk − ȳs )2 , se obtiene que
n−1 s
d t̂π ) = N 2 1 − f Sy02 .
Var(
n
Muestreo de Poblaciones Finitas - 151
Introducción a la Inferencia Estadı́stica
7. Estimación de la media poblacional bajo diseño simple:
ȳˆU =
t̂π
1 XN
1X
=
yk =
yk = ȳs .
N
N s n
n s
Var(ȳs ) =
1 − f 02
σy .
n
d s ) = 1 − f S 02 .
Var(ȳ
y
n
En la fórmula anterior 1 − f = 1 −
n
se denomina factor de corrección por población finita.
N
Determinación del tamaño de muestra
1. Para estimar el total poblacional ty con un error de estimación menor o igual que ε al
100(1 − α) % de confianza, se requiere:
n≥
2
N 2 z1−α/2
σy02
2
ε2 + N z1−α/2
σy02
2. Para estimar la media poblacional ȳ U con un error de estimación menor o igual que ε al
100(1 − α) % de confianza, se requiere:
n≥
2
N z1−α/2
σy02
2
N ε2 + z1−α/2
σy02
3. Para estimar ȳ U ó t con un error relativo e =
requiere:
n≥
donde γ =
8.4.2.
ȳˆ U − ȳ U
al 100(1 − α) % de confianza, se
ȳ U
2
N z1−α/2
γ2
2
N e2 + z1−α/2
γ2
σy0
es el coeficiente de variación poblacional.
ȳ U
Diseño Estratificado
Definición 8.4.2. Se denomina diseño estratificado a un diseño de muestreo que parte de dividir a
la población U en H estratos, Uh , con h = 1, 2, . . . , H, de tamaños respectivos Nh . Estos estratos
son subconjuntos que constituyen una partición de U . O sea, U = {U1 , . . . , Uh , . . . , UH } y se
H
H
[
X
cumple que
Uh = U y Ui ∩ Uj = φ ∀i 6= j. Ası́, resulta N =
Nh .
h=1
152 - Muestreo de Poblaciones Finitas
h=1
Introducción a la Inferencia Estadı́stica
Dentro de cada estrato, Uh , se toma una muestra sh , de tamaño nh . Las muestras son extraı́das
H
[
independientemente en cada estrato. Se cumple que
sh = s y si ∩ sj = φ ∀i 6= j. El tamaño de
h=1
muestra total es n =
H
X
nh .
h=1
Por último se computan las estimaciones del parámetro de interés para cada estrato y se suman
con ponderadores apropiados para obtener una estimación global.
Se representa por yhk el valor que toma la variable Y en la k-ésima observación del estrato h,
k = 1, . . . , Nh con h = 1, . . . , H.
Expresiones de los parámetros poblacionales de interés:
1. Total poblacional : t =
X
U
donde ȳUh =
yk =
H X
X
yhk =
h=1 Uh
H
X
th =
h=1
H
X
Nh ȳUh ,
h=1
1 X
y .
Nh U hk
h
H
H
X
Nh
1 X
1 X
2. Media poblacional : ȳ U =
th =
ȳ .
yk =
N U
N h=1
N Uh
h=1
3. Varianza poblacional dentro de cada estrato: σy02 h =
1 X
(yk − ȳ Uh )2 .
Nh − 1 U
h
Estimadores del total y la media poblacional, sus varianzas y sus estimadores:
1. Estimador del total :
t̂π =
H
X
t̂hπ =
h=1
Var t̂π = Var
H
X
Nh ȳˆ Uh .
h=1
H
X
!
t̂hπ
=
h=1
d t̂π = Var
d
Var
H
X
H
X
Var t̂hπ .
h=1
!
t̂hπ
=
h=1
H
X
d t̂hπ .
Var
h=1
2. Estimador de la media:
ȳˆ U =
H
X
Nh
h=1
N
ȳˆ Uh .
Muestreo de Poblaciones Finitas - 153
Introducción a la Inferencia Estadı́stica
H
X
Nh
Var ȳˆ U = Var
h=1
N
H
X
Nh
d ȳˆ = Var
d
Var
U
h=1
N
!
ȳˆ Uh
=
H
X
N2
h=1
!
ȳˆ Uh
=
h
Var
N2
H
X
N2
h=1
hd
Var
N2
ˆ
ȳ Uh .
ˆ
ȳ Uh .
Definición 8.4.3. Se denomina diseño estratificado simple a un diseño estratificado en el que
dentro de cada estrato la muestra se selecciona bajo el diseño simple.
En el diseño estratificado simple, los estimadores del total y la media poblacional, sus varianzas y
sus estimadores son los siguientes:
1. Estimador del total :
t̂π =
H
X
Nh X
h=1
Var t̂π =
H
X
nh
sh
Nh2 (1
h=1
yhk .
σy02 h
− fh )
.
nh
H
X
Sy02
d
Var t̂π =
Nh2 (1 − fh ) h ,
nh
h=1
donde
Sy02 h =
1 X
(yk − ȳ sh )2 .
nh − 1 s
h
2. Estimador de la media:
H
H
X
1 X Nh X
Nh
ȳˆ U =
yhk =
ȳ sh .
N h=1 nh s
N
h=1
h
H
X
σy02 h
Nh2
ˆ
Var ȳ U =
(1 − fh )
.
N2
nh
h=1
H
X
Sy02 h
Nh2
d
ˆ
Var ȳ U =
(1 − fh )
.
N2
nh
h=1
Determinación del tamaño de muestra
En el diseño estratificado simple se debe determinar no solo el tamaño de muestra, n, sino que
también hay que determinar el tamaño de muestra dentro de cada estrato: nh .
154 - Muestreo de Poblaciones Finitas
Introducción a la Inferencia Estadı́stica
1. Asignación proporcional.
El tamaño de muestra dentro de cada estrato es proporcional al tamaño del estrato:
nh = n
Nh
.
N
El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado
para la media poblacional al 100(1 − α) % de confianza es:
2
N z1−α/2
n=
H
P
h=1
2
N 2 ε2 + z1−α/2
Nh σy02 h
H
P
h=1
Nh σy02 h
2. Asignación óptima.
Cuanto más homogéneo (con respecto a la variable en estudio) sea un estrato, menos observaciones se deberı́an encuestar dentro del estrato. O lo que es lo mismo, cuanto más
heterogéno sea el estrato más observaciones se deberı́an encuestar en dicho estrato:
Nh σy0 h
nh = n H
P
Nh σy0 h
h=1
El tamaño de muestra para un error de estimación ε fijo para obtener un intervalo estimado
para la media poblacional al 100(1 − α) % de confianza es:
2
z1−α/2
n=
H
P
h=1
Nh σy02 h
2
N 2 ε2 + z1−α/2
8.4.3.
H
P
h=1
2
Nh σy02 h
Diseño Bernoulli
Definición 8.4.4. Se denomina diseño bernoulli a un diseño de muestreo en el que, dada una
población U = {1, 2, . . . , N }, el mecanismo de selección consiste en considerar ε1 , ε2 , . . . εN iid
Unif (0, 1) y establecer que el elemento k ∈ S si εk < π. Ası́,
S = {k : εk < π, k = 1, 2, . . . , N }
πk = P (k ∈ S) = P (εk < π) = π
∀k ∈ U
πkl = P (k y l ∈ S) = π 2 ∀k 6= l ∈ U
π 2 − ππ = 0
∀k 6= l
∆kl = πkl − πk πl =
π − ππ = π(1 − π) si k = l
Observación 8.4.1. En este diseño el tamaño de muestra es aleatorio: ns ∼Binomial (N, π).
En el diseño Bernoulli:
Muestreo de Poblaciones Finitas - 155
Introducción a la Inferencia Estadı́stica
1. La función diseño está dada por
p(s) = π ns (1 − π)N −ns ∀s de tamaño ns donde ns = 0, 1, 2, . . . , N .
2. La expresión del estimador π del total poblacional es t̂π =
3. Var t̂π =
1X
yk .
π s
X
σy02
σy0
1
1
2
2
−2
−1
yk = N (1 − f )
1−
+ CVyU donde CVyU =
.
π
n
N
ȳ
U
U
4. El estimador insesgado de la varianza es
d t̂π = 1
Var
π
X
Sy02
1
1
2
2
−2
−1
yk = N (1 − f )
1−
+ CVyS .
π
n
N
S
Observación 8.4.2. Si consideramos el tamaño de muestra en su valor esperado, es decir n =
N π, el cociente entre la varianza del estimador de Horwitz-Thompson bajo diseño bernoulli y su
varianza bajo diseño simple es aproximadamente 1 + CVy−2
lo que sugiere que el diseño bernoulli
U
es, en general, menos eficiente que el diseño simple. Esto puede atribuı́rse a la naturaleza aleatoria
del tamaño de muestra bajo diseño bernoulli.
8.4.4.
Diseño Sistemático
Consideremos una población U = {1, 2, . . . , N } y dentro de ella ((bloques)) formados por a < N
elementos hasta completar los N que la integran, es decir, U = {1, 2, . . . , a, a + 1, . . . , 2a, . . . , N }.
Por simplicidad, suponemos que N es divisible entre a y definimos el tamaño de muestra como
n = N/a.
Definición 8.4.5. Se denomina diseño sistemático a un diseño de muestreo en el que se selecciona aleatoriamente uno de los números naturales comprendidos entre 1 y a con distribución
uniforme discreta, al que denominaremos arranque aleatorio r, que determina que la muestra quede conformada por Sr = {k : k = r + (j − 1)a ≤ N, j = 1, 2, . . . , n}. a se denomina intervalo de
muestreo.
Ası́, en el diseño sistemático hay a muestras posibles disjuntas y exhaustivas, es decir, Si ∩ Sj = φ
∀i 6= j y ∪ai=1 Si = U . Esto que permite representar la población odrenada según las distintas
muestras posibles tal como se muestra en el siguiente cuadro.
Muestra
U
Total
Media
S1
y1
y1+a
..
.
..
.
y1+(n−1)a
tS1
ȳS1
······
······
······
······
······
······
······
······
156 - Muestreo de Poblaciones Finitas
Sr
yr
yr+a
..
.
..
.
yr+(n−1)a
tSr
ȳSr
······
······
······
······
······
······
······
······
Sa
ya
y2a
..
.
..
.
yna
tSa
ȳSa
Introducción a la Inferencia Estadı́stica
De esta forma podemos expresar el total poblacional de la variable y como t =
X
con tSr =
yk .
X
yk =
U
a
X
tSr
r=1
Sr
Dada la forma de selección de la muestra en el diseño sistemático, cada una de las posibles muestras
se observa con probabilidad a−1 . Ası́, la función diseño está dada por,
(
a−1 si s ∈ {S1 , S2 , . . . , Sa }
p(s) =
0
en otro caso
De lo anterior se desprende que,
πk = P (k ∈ S) = a−1 ∀k ∈ U
(
a−1
πkl =
0
si k y l ∈ Sr ∈ {S1 , S2 , . . . , Sa }
en otro caso
Por tanto, dado el intervalo de muestreo a = N/n, el estimador de Horvitz-Thompson del total
poblacional puede expresarse como:
X
X yk
X
yk = atS = N ȳS
=
a
y̌ =
t̂π =
a−1
S
S
S
a
a
X
1X
(tSr − t̄)2 = a(a−1)St02 donde t̄ =
y puede demostrarse que Var t̂π = a
tSr representa el
a
r=1
r=1
total promedio en las posibles muestras y St02 es la varianza corregida de los totales de las posibles
muestras.
Observación 8.4.3. La varianza del estimador de Horvitz-Thompson en el diseño sistemático
depende de cómo ordene la población. En
el caso extremo de que todas las muestras posibles
tengan el mismo total resulta que Var t̂π = 0. En el otro extremo, si cada una de las posibles
muestras contiene elementos homogéneos entre si en términos de la variable y siendo heterogéneos
entre muestras, la varianza del estimador será máxima. Cuando la población está organizada
aleatoriamente respecto en términos de la variable y la varianza del estimador de Horvitz-Thomson
bajo el diseño sistemático es igual a la que se obtiene bajo el diseño simple.
Observación 8.4.4. El diseño sistemático no es un diseño medible ya
que no cumple que πkl > 0
∀k, l ∈ U por lo que no se tiene un estimador insesgado para Var t̂π .
Observación 8.4.5. Si N no es divisible entre a se considera n = [N/a], donde [·] significa parte
entera, se tiene que N = na + c con 0 < c < a. En esta situación, si 0 < r ≤ c, lo que ocurre
con probabilidad c/a, el tamaño de muestra será n + 1, mientras que si c < r ≤ a, que ocurre con
probabilidad 1 − c/a, el tamaño de muestra será n. Por ejemplo, supongamos que N = 52 y a = 6
con lo que n = [52/6] = 8 y c = 4. Entonces,
Si r = 3 ⇒ s = {3, 9, 15, 21, 27, 33, 39, 45, 51} por lo que el tamaño de muestra es 9.
Si r = 5 ⇒ s = {5, 11, 17, 23, 29, 35, 41, 47} por lo que el tamaño de muestra es 8.
Muestreo de Poblaciones Finitas - 157
Introducción a la Inferencia Estadı́stica
8.5.
Comentarios sobre diseños de muestreo indirecto de
elementos
Los diseños presentados en la sección anterior asumen que se puede realizar muestreo directo de
elementos. Sin embargo, en encuestas de mediana y gran escala el muestreo directo de elementos
no es usado por alguna de las siguientes razones:
No se dispone de un marco que identifique a todos los elementos y el costo de crear uno es
demasiado elevado.
Los elementos de la población están muy dispersos en un área geográfica muy extensa. Ası́, el
muestreo directo de elementos lleva a costos de relevamiento excesivamente elevados (costo
de transporte de los encuestadores).
Los diseños de muestreo por conglomerados, en dos etapas y multietapa no requieren realizar
muestreo directo de elementos ya que en una primera etapa se muestrean grupos o clusters de
elementos, o sea, son aplicables cuando se cuenta con marcos agrupados.
Muestreo por conglomerados. En este tipo de diseños la población se particiona en subpoblaciones llamadas conglomerados o clusters. Luego se toma una muestra aleatoria de esos conglomerados y todos los elementos de la población que pertenecen a los conglomerados seleccionados
son encuestados.
Muestreo en dos etapas. Aquı́, la muestra es resultado de dos etapas de muestreo. En una
primera instancia se particiona la población en subpoblaciones llamadas PSUs (primary sampling
units) y se toma una muestra probabilı́stica de la población que dichas PSUs forman (muestreo
de primera etapa). Luego, para cada PSU seleccionada en la primera etapa se elige un diseño de
muestreo (de segunda etapa). Ahora, las unidades que se muestrean en esta segunda etapa, que
denominamos SSUs (second-stage sampling units) pueden ser elementos o grupos (clusters) de
elementos. Cuando las SSUs son elementos y se toma una muestra aleatoria dentro de cada una
de las PSUs seleccionadas en la primera etapa se dice que el diseño es en dos etapas.
Muestreo en varias etapas. Consiste en tres o más etapas de muestreo. Si las unidades de última
etapa son elementos se habla de muestreo multietapa, mientras qeu si son grupos de elementos
hablamos de muestreo por conglomerados en varias etapas.
158 - Muestreo de Poblaciones Finitas
Introducción a la Inferencia Estadı́stica
Notación
Dada una población U y un subconjunto s de elementos de U :
X X
=
(la suma sobre todos los elementos que componen la población U ).
U
X
k∈U
=
X
s
X
=
k,l∈U
X
=
l,k∈s
k6=l
XX
k∈s l∈s
=
l,k∈U
k6=l
X
XX
k∈U l∈U
k,l∈s
X
(la suma sobre todos los elementos que componen el subconjunto s).
k∈s
XX
k∈U l∈U
k6=l
=
XX
k∈s l∈s
k6=l
Nota Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Galmés, M. Métodos de Muestreo Notas de Estadı́stica II (Plan 90), Oficina de Apuntes del CECEA.
Särndal, Sweansson y Wretman. Model Assisted Survey Sampling, fourth printing. Springer, NY,
1994.
Muestreo de Poblaciones Finitas - 159
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
160 - Muestreo de Poblaciones Finitas
APÉNDICE A
MODELOS DE PROBABILIDAD
Lo siguiente es una recopilación de los modelos de probabilidad más comunes. Un modelo de
probabilidad es la terna (R, B, PX ) que se obtiene al aplicar una variable o vector aleatorio sobre
el espacio de probabilidad original (Ω, A, P ).
En lo que sigue, para todos los modelos se especifica: la función de cuantı́a o densidad, la esperanza,
la varianza, el modo y la mediana de la variable o vector aleatorio. La función generatriz de
momentos se incluye para aquellos modelos donde existe. La función de distribución se especifica
solo en aquellos casos en que existe en forma cerrada.
A.1.
Modelos Univariados Discretos
A.1.1. Distribución Uniforme discreta: X ∼ U(a, . . . , b)
fX (x) =
1
n
x ∈ Rec(X) = {a, a + 1, . . . , b − 1, b}
a ∈ Z, b ∈ Z a < b
n=b−a+1

0
x<a


bxc − a + 1
FX (x) =
a≤x<b

n

1
x≥b
MX (t) =
eat − e(b+1)t
n(1 − et )
E(X) =
a+b
2
Var(X) =
n2 − 1
12
x0,5 =
a+b
2
6 ∃xmo
Definición A.1.1. Una prueba de Bernoulli, es un experimento aleatorio que da lugar a dos sucesos excluyentes y exhaustivos denominados “éxito” y “fracaso”.
Definición A.1.2. Una sucesión de pruebas de Bernoulli es un un conjunto de pruebas de Bernoulli independientes y repetidas en idénticas condiciones. Esto implica que la probabilidad de
observar “éxito”, p, se mantiene constante prueba a prueba.
161
Introducción a la Inferencia Estadı́stica
A.1.2. Distribución Bernoulli: X ∼ Bernoulli(p)
X = “número de éxitos en una prueba de Bernoulli”.
fX (x) = px (1 − p)1−x
MX (t) = et p + (1 − p) ∀t ∈ R;
x ∈ Rec(X) = {0, 1} (0 < p < 1)
Var(X) = p(1 − p)
E(X) = p
xmo = [p]
A.1.3. Distribución Binomial: X ∼ Binomial(n, p)
X = “número de éxitos en una sucesión de n pruebas de Bernoulli”.
n x
fX (x) =
p (1 − p)n−x
x
MX (t) = [et p + (1 − p)]n
∀t ∈ R;
x ∈ Rec(X) = {0, 1, 2, . . . , n} (n ∈ N)
E(X) = np
Var(X) = np(1 − p)
xmo = b(n + 1)pc
Observación A.1.1. Si (n + 1)p ∈ N, entonces la distribución Binomial tiene dos modos: (n + 1)p
y (n + 1)p − 1. Para la mediana no existe una fórmula sencilla, sin embargo se sabe que si np ∈ N,
la esperanza, el modo y la mediana coinciden. En otro caso se cumple que bnpc ≤ x0,5 ≤ dnpe.
Observación A.1.2. Binomial(1,p) ≡ Bernoulli(p).
A.1.4. Distribución Geométrica: X ∼ Geométrica(p)
X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el primer
éxito”.
x
fX (x) = p(1 − p)
MX (t) =
p
1 − (1 − p)et
x ∈ Rec(X) = {0, 1, 2, . . .}
∀t < − log(1 − p);
FX (x) =
E(X) =
1−p
p
0
x<0
bx+1c
1 − (1 − p)
x≥0
Var(X) =
1−p
p2
xmo = 0
A.1.5. Distribución Binomial Negativa: X ∼ BN(r, p)
X = “número de fracasos en una sucesión de pruebas de Bernoulli antes de obtener el r-ésimo
éxito”.
x+r−1 r
fX (x) =
p (1 − p)x x ∈ Rec(X) = {0, 1, 2, . . .}
r−1
r
p
r(1 − p)
r(1 − p)
MX (t) =
∀t < − log(1 − p);
E(X) =
Var(X) =
t
1 − (1 − p)e
p
p2
(r − 1)(1 − p)
xmo =
p
162 - Apéndices
Introducción a la Inferencia Estadı́stica
Observación A.1.3. Geométrica(p) ≡ BN(1,p).
Observación A.1.4. En lugar de fracasos antes del r-ésimo éxito también se puede definir la
Binomial Negativa como: Y = “número de pruebas necesarias para obtener r éxitos”.
La cuantı́a, generatriz de momentos y momentos de Y se deducen utilizando la siguiente relación:
Y = X + r.
A.1.6. Distribución Hipergeométrica: X ∼ Hipergeométrica(n, N, M )
Considere una población con N elementos, de los cuales M (M < N ) tienen determinada cualidad
de interés a la que asociaremos con el suceso “éxito”. Se extraen n elementos de los N SIN
reposición.
X = “número de éxitos en n pruebas”.
fX (x) =
M
E(X) = n
N
M
x
N −M
n−x
N
n
x ∈ Rec(X) = {máx(0, n − N + M ), . . . , mı́n(n, M )}
M
Var(X) = n
N
M
N −n
1−
N
N −1
xmo
(n + 1)(M + 1)
=
N +2
Observación A.1.5. La función generatriz de momentos de una Hipergeométrica existe siempre,
pero su cálculo y forma escapan a los alcances del curso:
MX (t) =
N −M
n
2 F1 (−n, −M ; N
N
n
− M − n, et )
donde 2 F1 es la función generatriz exponencial con p = 2 y q = 1:
p Fq (a1 , . . . , ap ; b1 , . . . , bq ; z)
=
∞
X
(a1 )n . . . (ap )n z n
n=0
(b1 )n . . . (bq )n n!
,
con (a)n = a(a + 1)(a + 2) · · · (a + n − 1) para n ∈ N y (a)0 = 1.
Observación A.1.6. Hipergeométrica(1, N, M ) ≡ Bernoulli(
M
).
N
Observación A.1.7. Si X ∼ Hipergeométrica(n, N, M ) y n << N ⇒ X ≈ Binomial(n,
M
).
N
En la práctica, la aproximación es buena cuando n < 0,1N y N > 50.
Definición A.1.3. Un proceso de Poisson de tasa λ, es un proceso aleatorio que genera ocurrencias
de sucesos sobre un espacio continuo de acuerdo a las siguientes caracterı́sticas:
a - El número de ocurrencias en dos intervalos que no se solapan son independientes.
Apéndices - 163
Introducción a la Inferencia Estadı́stica
b - La probabilidad de que se produzca exactamente un acontecimiento en un intervalo de
amplitud lo suficientemente pequeña, h, es λh.
c - La probabilidad de que se produzcan dos o más acontecimientos en un intervalo, de amplitud
lo suficientemente pequeña, es aproximadamente cero.
A.1.7. Distribución Poisson: X ∼ Poisson(λt)
X = “número de sucesos generados por un proceso de Poisson de tasa λ en un intervalo de
longitud t”.
fX (x) =
e−λt (λt)x
x!
u −1)
MX (u) = eλt(e
x ∈ Rec(X) = {0, 1, 2, . . .} (λ > 0)
u ∈ R;
E(X) = λt
Var(X) = λt
xmo = bλc
Observación A.1.8. En R2 , la variable aleatoria serı́a X=“número de sucesos generados por un
proceso de Poisson de tasa λ en un área de medida t”.
Observación A.1.9.
Sea X ∼ Binomial(n, p). Si n → ∞, p → 0 y np → λ > 0, entonces X ≈ Poisson(λ) con λ = np.
En la práctica, es recomendable la aproximación si p < 0, 1; n > 50 y np < 5.
A.2.
Modelos Univariados Absolutamente Continuos
A.2.1. Distribución Uniforme: X ∼ U[a, b]
fX (x) =



1
si a ≤ x ≤ b a, b ∈ R, a < b
b−a

 0
MX (t) =
en otro caso
etb − eta
t(b − a)
∀t ∈ R;
E(X) =

0
si x < a


 x−a
si a ≤ x < b
FX (x) =
(b − a)



1
si x ≥ b
a+b
2
Var(X) =
(b − a)2
12
No existe el modo.
A.2.2. Distribución Triangular: X ∼ Triang[a, b, c]
Para a, b, c ∈ R, a < c < b:

2(x − a)


si a ≤ x ≤ c



(b − a)(b − c)


2(b − x)
fX (x) =
si c ≤ x ≤ b



(b − a)(b − c)




0
en otro caso
164 - Apéndices

0





(x − a)2



(b − a)(b − c)
FX (x) =

(b − x)2


1
−


(b − a)(b − c)



1
si x < a
si a ≤ x < c
si c ≤ x < b
si x ≥ b
Introducción a la Inferencia Estadı́stica
2(b − c)eat/2 − (b − a)ect/2 + (c − a)ebt/2
t2 (b − a)(c − a)(b − c)
MX (t) =
∀t ∈ R;
a+c+b
a2 + b2 + c2 − ab − ac − bc
E(X) =
Var(X) =
3
18

r

a+b
(b − a)(c − a)

 a+
si c ≥
2
2
r
x0,5 =
xmo = c

(b
−
a)(c
−
a)
a
+
b

 b−
si c ≤
2
2
A.2.3. Distribución Exponencial: X ∼ Exp(λ)
 −λx
si x ≥ 0 (λ > 0)
 λe
fX (x) =

0
en otro caso
MX (t) =
λ
λ−t
∀t < λ;
E(X) =
(
FX (x) =
1
λ
0
si x < 0
1 − e−λx si x ≥ 0
Var(X) =
1
λ2
xmo = 0
Observación A.2.1. Alternativamente, la función de densidad de una variable aleatoria con
distribución exponencial se puede definir como

x

 1 e− θ si x ≥ 0 (θ > 0)
θ
fX (x) =

 0
en otro caso
y se denota también X ∼ Exp(θ). Por lo cual, para evitar ambigüedades, se suele acompañar del
valor de su esperanza, ya que ésta marca como se tiene que escribir el parámetro en la función de
densidad, momentos, etc.. Note que la relación entre las dos expresiones está dada por θ = λ−1 .
A.2.4. Distribución Doble Exponencial: X ∼ DExp(µ, λ)


 λ e−λ|x−µ| si x ∈ R (λ > 0, µ ∈ R)
2
fX (x) =


0
en otro caso
MX (t) =
λ2 eµt
λ2 − t2
∀|t| < λ;
E(X) = µ
Var(X) =
2
λ2
xmo = x0,5 = µ
Definición A.2.1. La función matemática gamma, Γ, se define como
Z +∞
Γ(α) =
xα−1 e−x dx para α > 0.
0
Algunas propiedades de esta función son:
Para β > 0
Z
0
+∞
xα−1 e−βx dx =
Γ(α)
.
βα
Apéndices - 165
Introducción a la Inferencia Estadı́stica
Γ(α + 1) = αΓ(α).
Si n ∈ N, entonces Γ(n + 1) = n!.
√
1
Γ( ) = π.
2
A.2.5. Distribución Gamma: X ∼ Gamma(α, β)
El parámetro α controla la forma de la distribución y β su escala.

α

 β xα−1 e−βx si x ≥ 0 (α > 0, β > 0)
Γ(α)
fX (x) =


0
en otro caso
MX (t) =
β
β−t
α
∀t < β;
E(X) =
α
β
Var(X) =
α
β2
xmo

 α−1
si α > 1
=
β
 6∃
si α ≤ 1
Observación A.2.2. X ∼ Exp(β) ≡ Gamma(1, β), con E(X) = β −1 .
Observación A.2.3. Si α ∈ N a la distribución Gamma se le llama distribución Erlang. Otro caso
n 1
particular es la Gamma( , ), con n ∈ N, a la cual se le conoce con el nombre χ2n (chi-cuadrado
2 2
con n grados de libertad).
A.2.6. Distribución Logı́stica: X ∼ Logı́stica(µ, β)
x−µ
exp − β
1
x ∈ R,
fX (x) = h
i2
β
1 + exp − x−µ
β
FX (x) =
MX (t) = eµt Γ(1 − βt)Γ(1 + βt)
1
1 + exp − x−µ
β
∀t : |t| <
1
;
β
µ∈R
β>0
x ∈ R.
E(X) = µ;
Var(X) =
Definición A.2.2. La función matemática Beta se define como
Z 1
Γ(α)Γ(β)
B(α, β) =
xα−1 (1 − x)β−1 dx =
para α > 0 y β > 0.
Γ(α + β)
0
A.2.7. Distribución Beta: X ∼ Beta(α, β)
Tanto el parámetro α como β controlan la forma de la distribución.


 Γ(β + α) xα−1 (1 − x)β−1 si 0 < x < 1 (α > 0, β > 0)
Γ(α)Γ(β)
fX (x) =


0
en otro caso
E(X) =
166 - Apéndices
α
β+α
Var(X) =
αβ
(α + β + 1)(α + β)2
(πβ)2
.
3
Introducción a la Inferencia Estadı́stica
Observación A.2.4. La forma y cálculo de la función generatriz de momentos de una Beta
también está más allá de los contenidos del curso.
!
∞
k−1
X
Y α+r
tk
MX (t) = 1 F1 (α; α + β; t) = 1 +
∀t ∈ R.
α + β + r k!
r=0
k=1
Observación A.2.5. La función de densidad de una Beta tendrá diferente forma dependiendo
de los valores que tomen α y β:
Si α < 1 y β < 1 la función de densidad tendrá un único mı́nimo en
Si α > 1 y β > 1 tendrá un único máximo (el modo, xmo ) en
α−1
.
α+β−2
α−1
.
α+β−2
Si α = β es simétrica alrededor de 0,5 y por lo tanto E(X) = x0,5 = 0, 5. El modo también
será 0,5 siempre y cuando α > 1 y β > 1.
Si α < β es asimétrica a la derecha y si α > β lo es a la izquierda.
Si α < 1 y β ≥ 1 o α = 1 y β > 1 es monótona decreciente y además:
ˆ Si α = 1 y β > 2 es estrictamente convexa.
ˆ Si α = 1 y β = 2 es una lı́nea recta.
ˆ Si α = 1 y 1 < β < 2 es estrictamente cóncava.
Si α = 1 y β < 1 o α > 1 y β ≤ 1 es monótona creciente y además:
ˆ Si α > 2 y β = 1 es estrictamente convexa.
ˆ Si α = 2 y β = 1 es una lı́nea recta.
ˆ Si 1 < α < 2 y β = 1 es estrictamente cóncava.
Observación A.2.6. X ∼ Uniforme(0, 1) ≡ Beta(1, 1).
A.2.8. Distribución Cauchy: X ∼ Cauchy(a, b)
fX (x) =
b
π[(x − a)2 + b2 ]
xmo = a
x ∈ R,
−∞ < a < ∞,
b>0
x0,5 = a
Los momentos ordinarios, E(X k ), no existen para ningún k, k = 1, 2, . . ..
Apéndices - 167
Introducción a la Inferencia Estadı́stica
A.2.9. Distribución Normal: X ∼ N(µ, σ 2 )
fX (x) = √
t2 2
MX (t) = exp µt + σ
2
1 x−µ 2
1
e− 2 ( σ )
2πσ
x ∈ R,
−∞ < µ < ∞,
si t ∈ R;
σ>0
Var(X) = σ 2
E(X) = µ
xmo = x0,5 = µ
Observación A.2.7. Si µ = 0 y σ = 1 se dice que la variable aleatoria X sigue una distribución
normal estándar o tipificada. La letra griega φ se usa para representar su función de densidad
y la letra Φ su función de distribución. La distribución normal estándar verifica, como todas las
distribuciones simétricas alrededor del cero, que Φ(−x) = 1 − Φ(x) ∀x ∈ R.
A.2.10.Distribución LogNormal: X ∼ log-N(µ, σ 2 )
1 log(x)−µ 2
1
fX (x) = √
e− 2 ( σ )
x 2πσ
σ2
E(X) = exp µ +
2
−∞ < µ < ∞,
x > 0,
2
2
Var(X) = e2µ+σ (eσ − 1)
σ>0
xmo = eµ−σ
2
Observación A.2.8. A pesar de que existen los momentos de cualquier orden, MX (t) no existe.
Esto se debe a que E(etX ) existe solo para t ≤ 0 y por lo tanto no es derivable en t = 0.
A.2.11.Distribución t de Student: X ∼ tn
Γ n+1
1
2
fX (x) =
n+1
n
√
2
Γ 2
πn 1 + xn 2
x∈R

n−k
k+1
Γ
Γ


2
si k es par
√2

n
πΓ
k
2
E(X ) =



0
si k es impar
n ∈ {1, 2, . . .}
k<n
MX (t) no existe, dado que si k ≥ n, E(X k ) no existe.
En particular,
E(X) = 0 si n > 1
y
Var(X) =
El modo y la mediana coinciden, xmo = x0,5 = 0.
Observación A.2.9. t1 ≡ Cauchy(0,1) y t∞ ≡ N(0,1).
168 - Apéndices
n
n−2
si n > 2.
Introducción a la Inferencia Estadı́stica
A.2.12.Distribución F de Snedecor: X ∼ Fn,m
Al parámetro n se le llama grados de libertad del numerador y a m grados de libertad
del denominador.
fX (x) =





Γ




0
Γ
n
2
n+m
2
Γ
m
2
n n2
m
x
1+
n−2
n
n
x
m
n, m ∈ {1, 2, . . .}
x>0
n+m
2
en otro caso
k
E(X ) =
Γ
n+2k
Γ
2 Γ n2 Γ
m−2k
2
m
2
m k
n
si k <
m
2
No existe MX (t), dado que si k ≥ m/2, E(X k ) no existe.
En particular,
m
E(X) =
m−2
si m > 2
y
Var(X) = 2
m
m−2
2
m+n−2
n(m − 4)
si m > 4.
Observación A.2.10. Si X ∼ Fn.m , entonces
Y =
1
∼ Fm.n .
X
2
Observación A.2.11. F1,m ≡ tm .
A.2.13.Distribución Weibull: X ∼ Weibull(α, β)
El parámetro α controla la forma de la distribución y β la escala.
 β−1
x β

 β x
exp −
si x ≥ 0 (α > 0; β > 0)
α α
α
fX (x) =


0
en otro caso

 0
si x < 0
FX (x) =
x β
 1 − exp −
si x ≥ 0
α
1
E(X) = αΓ 1 +
β
∞ n n X
t α
n
MX (t) =
Γ 1+
;
n!
β
n=0
2
1
2
Var(X) = α Γ 1 +
−Γ 1+
β
β
2
xmo = α
β−1
β
β1
si β > 1;
x0,5 = α(log(2))1/β
Apéndices - 169
Introducción a la Inferencia Estadı́stica
Observación A.2.12. La expresión de MX (t) se obtiene sin evaluar directamente E(etX ). Se
hace uso de que se conoce la forma general de E(X k ) ∀k:
k
k
k
E(X ) = α Γ 1 +
k∈N
β
y se expresa MX (t) como una serie de potencias.
Observación A.2.13. Cuando β = 2, a la distribución Weibull se le llama distribución Rayleigh.
A.2.14.Distribución Pareto: X ∼ Pareto(α, β)

α

 αβ
si x ≥ β (α > 0; β > 0)
xα+1
fX (x) =


0
en otro caso
αβ k
E(X ) =
α−k
k
(k ∈ N)
si α > k
xmo = β

 0
si x < β
α
FX (x) =
β
 1−
si x ≥ β
x
β 2α
Var(X) =
(α − 1)2 (α − 2)
√
α
x0,5 = β 2
si α > 2
Observación A.2.14. MX (t) no existe en forma cerrada, pero al conocerse E(X k ) ∀k se le podrı́a
expresar como una serie de potencias.
A.3.
Modelos Multivariados Discretos
~ ∼Multinomial(n, p1 , p2 , . . . , pk )
A.3.1. Distribución Multinomial: X
La distribución Multinomial es la generalización multivariada de la distribución Binomial. Se repite
independientemente n veces un experimento aleatorio en indénticas condiciones. Cada realización
del experimento da a lugar a k sucesos {Ai }ki=1 excluyentes y exahustivos. Sea pi = P (Ai ), i =
k
X
1, . . . , k con
pi = 1.
i=1
~ = (X1 , X2 , . . . , Xk ) donde Xi =“números de veces que Ai ocurre en las n
Defina el vector X
repeticiones del experimento”, i = 1, . . . , k. Entonces,
(
)
k
X
~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , n} i = 1, . . . , k;
Rec(X)
xi = n
i=1
y
pX~ (~x) =
n!
px1 1 px2 2 . . . pxkk
k
Q
xi !
~
~x ∈ Rec(X).
i=1
Para i = 1, . . . , k, Xi ∼Binomial(n, pi ), de donde
E(Xi ) = npi
170 - Apéndices
y
Var(Xi ) = npi (1 − pi ).
Introducción a la Inferencia Estadı́stica
Además, para i 6= j, i, j = 1, . . . , k
Cov(Xi , Xj ) = −npi pj .
Sea ~t = (t1 , t2 , . . . , tk ), entonces
MX~ (~t ) = (p1 et1 + p2 et2 + . . . + pk etk )n
∀~t ∈ Rk .
~ ∼MH(n, N, M1 , M2 , . . . , Mk )
A.3.2. Distribución Multihipergeométrica: X
Considere una población de tamaño N , en la cual Mi elementos tienen la caracterı́stica de interés
Ci , para i = 1, . . . , k. Cada elemento de la población posee exactamente una de las caracterı́sticas
k
X
Ci , i = 1, . . . , k, esto es
Mi = N .
i=1
~ = (X1 , X2 , . . . , Xk ) donde Xi =“números
Se extraen n elementos de los N sin reposición. Defina X
de elementos extraı́dos en los n con la caracterı́stica Ci ”, i = 1, . . . , k. Entonces,
(
)
k
X
~ = ~x = (x1 , x2 , . . . , xk ) ∈ Rk xi ∈ {0, 1, . . . , Mi } i = 1, . . . , k;
Rec(X)
xi = n
i=1
y
pX~ (~x) =
M1
x1
M2
k
... M
x2
xk
N
n
~
~x ∈ Rec(X).
Para i = 1, . . . , k, Xi ∼Hipergeométrica(n, N, Mi ), de donde
Mi
Mi
N −n
Mi
y
Var(Xi ) = n
1−
.
E(Xi ) = n
N
N
N
N −1
Además, para i 6= j, i, j = 1, . . . , k
nMi Mj
Cov(Xi , Xj ) = −
N2
N −n
N −1
.
Observación A.3.1. Tanto la distribución Multinomial como la distribución Multihipergeométrik
X
k−1
k
ca son distribuciones en R
y no en R . Note que la restricción
xi = n implica que, por
i=1
ejemplo, dado un valor (x1 , x2 , . . . , xk−1 ) en particular de las primeras (k − 1) componentes del
k−1
X
vector , la k-ésima componente, Xk , tiene que necesariamente tomar el valor n −
xi .
i=1
Observación A.3.2. La misma relación que existe entre la Binomial y la Hipergeométrica se
~ ∼MH(n, N, M1 , M2 , . . . , Mk ) y n << N , tenemos que
cumple en el caso multivariado: Si X
~ ≈ Multinomial(n, p1 , p2 , . . . , pk ).
X
En la práctica, la aproximación es buena cuando n < 0,1N y N > 50.
A.4.
Modelos Multivariados Absolutamente Continuos
Apéndices - 171
Introducción a la Inferencia Estadı́stica
A.4.1. Distribución Normal Multivariada:
k × k simétrica y definida positiva:


 2
µ1
σ1 σ12
 µ2 
σ21 σ 2
2



µ =  .. 
y
Σ =  ..
..
 . 
 .
.
µk
σk1 σk2
~ ∼ Nk (µ, Σ). Sean µ ∈ Rk y Σ una matriz de
X

· · · σ1k
· · · σ2k 

.. 
..
. . 
· · · σk2
con
σi > 0 i = 1, . . . , k
σij = σji i, j = 1, . . . , k
~ = (X1 , . . . , Xk )0 , se dice que X
~ sigue una distribución normal multivariante no
Entonces dado X
singular de dimensión k con vector de medias µ y matriz de covarianzas Σ si
1
1
0 −1
− (~x − µ) Σ (~x − µ)
~x ∈ Rk .
fX~ (~x) =
k
1 exp
2
2
2
(2π) |Σ|
Sea ~t = (t1 , t2 , . . . , tk )0 , entonces
1
0
0
MX~ (~t ) = exp ~t µ + ~t Σ~t
2
∀~t ∈ Rk .
Cov(Xi , Xj )=σij , i 6= j, i, j = 1, . . . , k.
Si B es una matriz de p × k de rango completo por las filas, esto es rango(B)=p, entonces
~ ∼ Np (Bµ, BΣB0 ).
BX
De donde,
ˆ ∀~a = (a1 , a2 , . . . , ak ) ∈ Rk , ~a 6= 0:
~ =
~aX
k
X
ai X i ∼ N
i=1
k
X
ai µ i ;
i=1
k
X
i=1
!
a2i σi2 + 2
X
ai aj σij
i<j
~ = Xi ∼ N(µi , σi2 ), i = 1, . . . , k.
y en particular para ~a = (0, . . . , 0, 1,0, . . . , 0): ~aX
i−1
i
k−i
~ sigue una
ˆ Cualquier subvector de m componentes de las k componentes originales de X
distribución normal multivariante de dimensión m.
~ 1 al
Sea I un subconjunto propio de {1, 2, . . . , k} de m elementos, m = 1, . . . , k − 1. Defina X
~ tal que sus subı́ndices ∈ I. Defina X
~ 2 al vector
vector compuesto por las componentes de X
~ tal que sus subı́ndices 6∈ I. Redefina, µ y Σ de tal
compuesto por las componentes de X
manera que:
µ1
Σ11 Σ12
µ=
yΣ=
µ2
Σ21 Σ22
~ i ) = µi , Var(X
~ i ) = Σii , i = 1, 2 y Cov(X
~ 1, X
~ 2 ) = Σ12 = Σ0 . Entonces, para un
Donde E(X
21
~
valor fijo ~x2 de X2
0
~ 1 |X
~ 2 = ~x2 ∼ Nm (µ1 + Σ12 Σ−1
X
x2 − µ2 ), Σ11 − Σ12 Σ−1
22 (~
22 Σ12 )
172 - Apéndices
Introducción a la Inferencia Estadı́stica
ˆ Para el caso particular de k = 2 y m = 1, con I = {1}, tenemos que
σ1
2
2
X1 |X2 = x2 ∼ N µ1 + ρ (x2 − µ2 ), σ1 (1 − ρ )
σ2
y para I = {2}
σ2
2
2
X2 |X1 = x1 ∼ N µ2 + ρ (x1 − µ1 ), σ2 (1 − ρ )
σ1
donde ρ = σ12 /(σ1 σ2 ).
A.5.
Relaciones entre distribuciones
1 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Bernoulli(p), i = 1, . . . , n.
Entonces,
n
X
Xi ∼ Binomial(n, p).
i=1
2 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, . . . , r.
Entonces,
r
r
X
X
Xi ∼ Binomial(n, p), con n =
ni .
i=1
i=1
3 - Sean X1 , . . . , Xr variables aleatorias independientes, con Xi ∼ Geométrica(p), i = 1, . . . , r.
Entonces,
r
X
Xi ∼ BN(r, p).
i=1
4 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ BN(ri , p), i = 1, . . . , n. Entonces,
n
n
X
X
Xi ∼ BN(r, p), con r =
ri .
i=1
i=1
5 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Binomial(ni , p), i = 1, 2.
Entonces,
X1 |X1 + X2 = k ∼ Hipergeométrica(k, n1 + n2 , n1 ).
6 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, . . . , n.
Entonces,
n
n
X
X
Xi ∼ Poisson(λ), con λ =
λi .
i=1
i=1
7 - Sean X1 , X2 dos variables aleatorias independientes, con Xi ∼ Poisson(λi ), i = 1, 2. Entonces,
λ1
X1 |X1 + X2 = n ∼ Binomial n,
λ1 + λ2
Apéndices - 173
Introducción a la Inferencia Estadı́stica
8 - Si X ∼ Uniforme(a, b), entonces Y = −
1
b−X
log
∼ Gamma(1, b − a).
b−a
b−a
9 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(1, βi ), i = 1, . . . , n.
Entonces,
n
X
Y = mı́n(X1 , . . . , Xn ) ∼ Gamma(1, β)
con β =
βi .
i=1
10 - Sean X1 , . . . , Xn variables aleatorias independientes, con Xi ∼ Gamma(αi , β), i = 1, . . . , n.
Entonces,
n
n
X
X
Xi ∼ Gamma(α, β), con α =
αi .
i=1
i=1
1 1
11 - Si X ∼ N(0, 1), entonces Y = X 2 ∼ Gamma( , ) = χ21 (ver obs A.2.3).
2 2
12 - Si X ∼ Poisson(λ) y x ∈ N, entonces
P (X ≤ x) = 1 − P (Y ≤ λ),
donde Y ∼ χ22(x+1) .
1
13 - Si X ∼ Uniforme(0, 1), entonces Y = X 2 ∼ Beta( , 1).
2
14 - Si X ∼ Gamma(α, β) y Y ∼ Gamma(γ, β). X y Y independientes. Entonces, Z =
X
∼
X +Y
Beta(α, γ).
15 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ N(µi , σi2 ), i = 1, . . . , n.
Entonces,
n
n
n
X
X
X
2
2
Xi ∼ N(µ, σ ), con µ =
µi y σ =
σi2 .
i=1
i=1
i=1
16 - Si X ∼ N(µ, σ 2 ), entonces Y = eX ∼ log-N(µ, σ 2 ).
17 - Si Xi ∼ N(0, 1) i = 1, 2. X1 y X2 independientes, entonces Y =
X1
∼ Cauchy(0, 1).
X2
18 - Sean X1 , . . . , Xn variables aleatorias independientes, donde Xi ∼ Cauchy(ai , bi ), i = 1, . . . , n.
Entonces,
n
n
n
X
X
X
Xi ∼ Cauchy(a, b), con a =
ai y b =
bi .
i=1
i=1
i=1
19 - Si X ∼ log-N(µ, σ 2 ), entonces Y = log(X) ∼ N(µ, σ 2 ).
20 - Si X ∼ log-N(µ, σ 2 ), entonces Y = X −1 ∼ log-N(−µ, σ 2 ).
21 - Si X ∼ log-N(µ, σ 2 ), entonces, con a > 0, Y = aX ∼ log-N(log a + µ, σ 2 ).
174 - Apéndices
Introducción a la Inferencia Estadı́stica
22 - Si X ∼ N(0, 1) y W ∼ χ2n . X y W independientes. Entonces:
X
Y =p
∼ tn .
W/n
23 - Si W ∼ χ2n y V ∼ χ2m . W y V independientes. Entonces:
Y =
W/n
mW
=
∼ Fn.m .
V /m
n V
24 - Si X ∼ Weibull(α, β), entonces Y = (
X β
) ∼ Exp(1).
α
1
25 - Si X ∼ Uniforme(0, 1), entonces Y = α(− log(X)) β ∼ Weibull(α, β).
26 - Sean X ∼ Pareto(α, β) y un número β0 > β. Entonces X|X > β0 ∼ Pareto(α, β0 ).
27 - Si X ∼ Pareto(α, β), entonces Y = log
X
∼ Exp(α) con E(Y ) = α−1 .
β
~ ∼Multinomial(n, p1 , p2 , . . . , pk ) y sea I cualquier subconjunto propio de {1, . . . , k}.
28 - Dado X
Entonces
!
X
X
Xi ∼ Binomial n,
pi .
i∈I
i∈I
~ = (X1 , . . . , Xi , Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi , αj , . . . , αk ), entonces
29 - Si X
Y~ = (X1 , . . . , Xi + Xj , . . . , Xk ) ∼ Dirichlet(α1 , . . . , αi + αj , . . . , αk ).
30 - Si Yi ∼ Gamma(αi , β), i = 1, . . . , k. Y1 , . . . , Yk independientes. Para V =
k
X
Yi , defina
i=1
Xi = Yi /V , i = 1, . . . , k. Entonces,
~ = (X1 , . . . , Xk ) =
X
Y1
Yk
,...,
V
V
∼ Dirichlet(α1 , . . . , αk ).
~ i un vector fila de p componentes tal que X
~ i ∼ Np (0, Σ), i = 1, . . . , m. Asuma que
31 - Sea X
~ 1, . . . , X
~ m son independientes. Sea X la matriz de m × p cuyas filas son X
~ i . Entonces la
X
matriz, de p × p, X0 X ∼ Wishart(m, Σ).
Apéndices - 175
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
176 - Apéndices
APÉNDICE B
TABLAS
1 - Tabla de la función de distribución de una normal estándar.
2 - Tabla de los valores del recorrido de una distribución χ2ν .
3 - Tabla de los valores del recorrido de una distribución tν .
177
Introducción a la Inferencia Estadı́stica
tabla de la función de distribución de una normal estándar
Z z
x2
1
√ e− 2 dx
Φ(z) =
2π
−∞
z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0
0,00
0,50000
0,53983
0,57926
0,61791
0,65542
0,69146
0,72575
0,75804
0,78814
0,81594
0,84134
0,86433
0,88493
0,90320
0,91924
0,93319
0,94520
0,95543
0,96407
0,97128
0,97725
0,98214
0,98610
0,98928
0,99180
0,99379
0,99534
0,99653
0,99744
0,99813
0,99865
0,99903
0,99931
0,99952
0,99966
0,99977
0,99984
0,99989
0,99993
0,99995
0,99997
0,01
0,50399
0,54380
0,58317
0,62172
0,65910
0,69497
0,72907
0,76115
0,79103
0,81859
0,84375
0,86650
0,88686
0,90490
0,92073
0,93448
0,94630
0,95637
0,96485
0,97193
0,97778
0,98257
0,98645
0,98956
0,99202
0,99396
0,99547
0,99664
0,99752
0,99819
0,99869
0,99906
0,99934
0,99953
0,99968
0,99978
0,99985
0,99990
0,99993
0,99995
0,99997
178 - Apéndices
0,02
0,50798
0,54776
0,58706
0,62552
0,66276
0,69847
0,73237
0,76424
0,79389
0,82121
0,84614
0,86864
0,88877
0,90658
0,92220
0,93574
0,94738
0,95728
0,96562
0,97257
0,97831
0,98300
0,98679
0,98983
0,99224
0,99413
0,99560
0,99674
0,99760
0,99825
0,99874
0,99910
0,99936
0,99955
0,99969
0,99978
0,99985
0,99990
0,99993
0,99996
0,99997
0,03
0,51197
0,55172
0,59095
0,62930
0,66640
0,70194
0,73565
0,76730
0,79673
0,82381
0,84849
0,87076
0,89065
0,90824
0,92364
0,93699
0,94845
0,95818
0,96638
0,97320
0,97882
0,98341
0,98713
0,99010
0,99245
0,99430
0,99573
0,99683
0,99767
0,99831
0,99878
0,99913
0,99938
0,99957
0,99970
0,99979
0,99986
0,99990
0,99994
0,99996
0,99997
0,04
0,51595
0,55567
0,59483
0,63307
0,67003
0,70540
0,73891
0,77035
0,79955
0,82639
0,85083
0,87286
0,89251
0,90988
0,92507
0,93822
0,94950
0,95907
0,96712
0,97381
0,97932
0,98382
0,98745
0,99036
0,99266
0,99446
0,99585
0,99693
0,99774
0,99836
0,99882
0,99916
0,99940
0,99958
0,99971
0,99980
0,99986
0,99991
0,99994
0,99996
0,99997
0,05
0,51994
0,55962
0,59871
0,63683
0,67364
0,70884
0,74215
0,77337
0,80234
0,82894
0,85314
0,87493
0,89435
0,91149
0,92647
0,93943
0,95053
0,95994
0,96784
0,97441
0,97982
0,98422
0,98778
0,99061
0,99286
0,99461
0,99598
0,99702
0,99781
0,99841
0,99886
0,99918
0,99942
0,99960
0,99972
0,99981
0,99987
0,99991
0,99994
0,99996
0,99997
0,06
0,52392
0,56356
0,60257
0,64058
0,67724
0,71226
0,74537
0,77637
0,80511
0,83147
0,85543
0,87698
0,89617
0,91309
0,92785
0,94062
0,95154
0,96080
0,96856
0,97500
0,98030
0,98461
0,98809
0,99086
0,99305
0,99477
0,99609
0,99711
0,99788
0,99846
0,99889
0,99921
0,99944
0,99961
0,99973
0,99981
0,99987
0,99992
0,99994
0,99996
0,99998
0,07
0,52790
0,56749
0,60642
0,64431
0,68082
0,71566
0,74857
0,77935
0,80785
0,83398
0,85769
0,87900
0,89796
0,91466
0,92922
0,94179
0,95254
0,96164
0,96926
0,97558
0,98077
0,98500
0,98840
0,99111
0,99324
0,99492
0,99621
0,99720
0,99795
0,99851
0,99893
0,99924
0,99946
0,99962
0,99974
0,99982
0,99988
0,99992
0,99995
0,99996
0,99998
0,08
0,53188
0,57142
0,61026
0,64803
0,68439
0,71904
0,75175
0,78230
0,81057
0,83646
0,85993
0,88100
0,89973
0,91621
0,93056
0,94295
0,95352
0,96246
0,96995
0,97615
0,98124
0,98537
0,98870
0,99134
0,99343
0,99506
0,99632
0,99728
0,99801
0,99856
0,99896
0,99926
0,99948
0,99964
0,99975
0,99983
0,99988
0,99992
0,99995
0,99997
0,99998
0,09
0,53586
0,57535
0,61409
0,65173
0,68793
0,72240
0,75490
0,78524
0,81327
0,83891
0,86214
0,88298
0,90147
0,91774
0,93189
0,94408
0,95449
0,96327
0,97062
0,97670
0,98169
0,98574
0,98899
0,99158
0,99361
0,99520
0,99643
0,99736
0,99807
0,99861
0,99900
0,99929
0,99950
0,99965
0,99976
0,99983
0,99989
0,99992
0,99995
0,99997
0,99998
Introducción a la Inferencia Estadı́stica
tabla de los valores del recorrido de una distribución χ2ν por probabilidad
acumulada según grados de libertad ν
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
45
50
55
60
65
70
75
80
85
90
95
100
0,001
0,00
0,00
0,02
0,09
0,21
0,38
0,60
0,86
1,15
1,48
1,83
2,21
2,62
3,04
3,48
3,94
4,42
4,91
5,41
5,92
6,45
6,98
7,53
8,09
8,65
9,22
9,80
10,39
10,99
11,59
17,92
21,25
24,67
28,17
31,74
35,36
39,04
42,76
46,52
50,32
54,16
58,02
61,92
0,005
0,00
0,01
0,07
0,21
0,41
0,68
0,99
1,34
1,74
2,16
2,60
3,07
3,57
4,08
4,60
5,14
5,70
6,27
6,84
7,43
8,03
8,64
9,26
9,89
10,52
11,16
11,81
12,46
13,12
13,79
20,71
24,31
27,99
31,74
35,53
39,38
43,28
47,21
51,17
55,17
59,20
63,25
67,33
0,01
0,00
0,02
0,12
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,02
7,63
8,26
8,90
9,54
10,20
10,86
11,52
12,20
12,88
13,57
14,26
14,95
22,16
25,90
29,71
33,57
37,49
41,44
45,44
49,48
53,54
57,63
61,75
65,90
70,07
0,025
0,00
0,05
0,22
0,48
0,83
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
24,43
28,37
32,36
36,40
40,48
44,60
48,76
52,94
57,15
61,39
65,65
69,93
74,22
Probabilidad acumulada
0,05
0,1
0,15
0,2
0,00
0,02
0,04
0,06
0,10
0,21
0,33
0,45
0,35
0,58
0,80
1,01
0,71
1,06
1,37
1,65
1,15
1,61
1,99
2,34
1,64
2,20
2,66
3,07
2,17
2,83
3,36
3,82
2,73
3,49
4,08
4,59
3,33
4,17
4,82
5,38
3,94
4,87
5,57
6,18
4,58
5,58
6,34
6,99
5,23
6,30
7,11
7,81
5,89
7,04
7,90
8,63
6,57
7,79
8,70
9,47
7,26
8,55
9,50 10,31
7,96
9,31 10,31 11,15
8,67 10,09 11,13 12,00
9,39 10,87 11,95 12,86
10,12 11,65 12,77 13,72
10,85 12,44 13,60 14,58
11,59 13,24 14,44 15,45
12,34 14,04 15,28 16,31
13,09 14,85 16,12 17,19
13,85 15,66 16,97 18,06
14,61 16,47 17,82 18,94
15,38 17,29 18,67 19,82
16,15 18,11 19,53 20,70
16,93 18,94 20,39 21,59
17,71 19,77 21,25 22,48
18,49 20,60 22,11 23,36
26,51 29,05 30,86 32,35
30,61 33,35 35,29 36,88
34,76 37,69 39,75 41,45
38,96 42,06 44,25 46,04
43,19 46,46 48,76 50,64
47,45 50,88 53,29 55,26
51,74 55,33 57,84 59,90
56,05 59,80 62,41 64,55
60,39 64,28 66,99 69,21
64,75 68,78 71,59 73,88
69,13 73,29 76,20 78,56
73,52 77,82 80,81 83,25
77,93 82,36 85,44 87,95
0,25
0,10
0,58
1,21
1,92
2,68
3,46
4,26
5,07
5,90
6,74
7,58
8,44
9,30
10,17
11,04
11,91
12,79
13,68
14,56
15,45
16,34
17,24
18,14
19,04
19,94
20,84
21,75
22,66
23,57
24,48
33,66
38,29
42,94
47,61
52,29
56,99
61,70
66,42
71,15
75,88
80,63
85,38
90,13
0,3
0,15
0,71
1,42
2,20
3,00
3,83
4,67
5,53
6,39
7,27
8,15
9,03
9,93
10,82
11,72
12,62
13,53
14,44
15,35
16,27
17,18
18,10
19,02
19,94
20,87
21,79
22,72
23,65
24,58
25,51
34,87
39,59
44,31
49,06
53,81
58,57
63,35
68,13
72,92
77,71
82,51
87,32
92,13
0,4
0,28
1,02
1,87
2,75
3,66
4,57
5,49
6,42
7,36
8,30
9,24
10,18
11,13
12,08
13,03
13,98
14,94
15,89
16,85
17,81
18,77
19,73
20,69
21,65
22,62
23,58
24,54
25,51
26,48
27,44
37,13
42,00
46,86
51,74
56,62
61,51
66,40
71,29
76,19
81,09
85,99
90,90
95,81
Apéndices - 179
Introducción a la Inferencia Estadı́stica
tabla de los valores del recorrido de una distribución χ2ν por probabilidad
acumulada según grados de libertad ν (continuación)
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
45
50
55
60
65
70
75
80
85
90
95
100
0,5
0,46
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,34
11,34
12,34
13,34
14,34
15,34
16,34
17,34
18,34
19,34
20,34
21,34
22,34
23,34
24,34
25,34
26,34
27,34
28,34
29,34
39,34
44,34
49,34
54,34
59,34
64,34
69,33
74,33
79,33
84,33
89,33
94,33
99,33
0,6
0,71
1,83
2,95
4,05
5,13
6,21
7,28
8,35
9,41
10,47
11,53
12,58
13,64
14,69
15,73
16,78
17,82
18,87
19,91
20,95
21,99
23,03
24,07
25,11
26,14
27,18
28,21
29,25
30,28
31,32
41,62
46,76
51,89
57,02
62,14
67,25
72,36
77,46
82,57
87,67
92,76
97,86
102,95
180 - Apéndices
0,7
1,07
2,41
3,67
4,88
6,06
7,23
8,38
9,52
10,66
11,78
12,90
14,01
15,12
16,22
17,32
18,42
19,51
20,60
21,69
22,78
23,86
24,94
26,02
27,10
28,17
29,25
30,32
31,39
32,46
33,53
44,17
49,45
54,72
59,98
65,23
70,46
75,69
80,91
86,12
91,33
96,52
101,72
106,91
0,75
1,32
2,77
4,11
5,39
6,63
7,84
9,04
10,22
11,39
12,55
13,70
14,85
15,98
17,12
18,25
19,37
20,49
21,61
22,72
23,83
24,94
26,04
27,14
28,24
29,34
30,44
31,53
32,62
33,71
34,80
45,62
50,99
56,33
61,67
66,98
72,29
77,58
82,86
88,13
93,39
98,65
103,90
109,14
Probabilidad acumulada
0,8
0,85
0,9
1,64
2,07
2,71
3,22
3,79
4,61
4,64
5,32
6,25
5,99
6,75
7,78
7,29
8,12
9,24
8,56
9,45
10,65
9,80
10,75
12,02
11,03
12,03
13,36
12,24
13,29
14,68
13,44
14,53
15,99
14,63
15,77
17,28
15,81
16,99
18,55
16,99
18,20
19,81
18,15
19,41
21,06
19,31
20,60
22,31
20,47
21,79
23,54
21,62
22,98
24,77
22,76
24,16
25,99
23,90
25,33
27,20
25,04
26,50
28,41
26,17
27,66
29,62
27,30
28,82
30,81
28,43
29,98
32,01
29,55
31,13
33,20
30,68
32,28
34,38
31,80
33,43
35,56
32,91
34,57
36,74
34,03
35,72
37,92
35,14
36,85
39,09
36,25
37,99
40,26
47,27
49,24
51,81
52,73
54,81
57,51
58,16
60,35
63,17
63,58
65,86
68,80
68,97
71,34
74,40
74,35
76,81
79,97
79,72
82,26
85,53
85,07
87,69
91,06
90,41
93,11
96,58
95,73
98,51 102,08
101,05 103,90 107,57
106,36 109,29 113,04
111,67 114,66 118,50
0,95
3,84
5,99
7,82
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,69
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
61,66
67,51
73,31
79,08
84,82
90,53
96,22
101,88
107,52
113,15
118,75
124,34
0,975
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,54
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,20
44,46
45,72
46,98
59,34
65,41
71,42
77,38
83,30
89,18
95,02
100,84
106,63
112,39
118,14
123,86
129,56
0,99
6,64
9,21
11,35
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
69,96
76,15
82,29
88,38
94,42
100,43
106,39
112,33
118,24
124,12
129,97
135,81
0,995
7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,96
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
66,77
73,17
79,49
85,75
91,95
98,11
104,22
110,29
116,32
122,33
128,30
134,25
140,17
Introducción a la Inferencia Estadı́stica
tabla de los valores del recorrido de una distribución tν por probabilidad
acumulada según grados de libertad ν
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
1000
∞
0,55
0,1584
0,1421
0,1366
0,1338
0,1322
0,1311
0,1303
0,1297
0,1293
0,1289
0,1286
0,1283
0,1281
0,1280
0,1278
0,1277
0,1276
0,1274
0,1274
0,1273
0,1272
0,1271
0,1271
0,1270
0,1269
0,1269
0,1268
0,1268
0,1268
0,1267
0,1265
0,1263
0,1262
0,1261
0,1261
0,1260
0,1260
0,1257
0,1257
0,6
0,3249
0,2887
0,2767
0,2707
0,2672
0,2648
0,2632
0,2619
0,2610
0,2602
0,2596
0,2590
0,2586
0,2582
0,2579
0,2576
0,2573
0,2571
0,2569
0,2567
0,2566
0,2564
0,2563
0,2562
0,2561
0,2560
0,2559
0,2558
0,2557
0,2556
0,2550
0,2547
0,2545
0,2543
0,2542
0,2541
0,2540
0,2534
0,2533
0,7
0,7265
0,6172
0,5844
0,5686
0,5594
0,5534
0,5491
0,5459
0,5435
0,5415
0,5399
0,5386
0,5375
0,5366
0,5357
0,5350
0,5344
0,5338
0,5333
0,5329
0,5325
0,5321
0,5317
0,5314
0,5312
0,5309
0,5306
0,5304
0,5302
0,5300
0,5286
0,5278
0,5272
0,5268
0,5265
0,5263
0,5261
0,5246
0,5244
0,75
1,0000
0,8165
0,7649
0,7407
0,7267
0,7176
0,7111
0,7064
0,7027
0,6998
0,6974
0,6955
0,6938
0,6924
0,6912
0,6901
0,6892
0,6884
0,6876
0,6870
0,6864
0,6858
0,6853
0,6848
0,6844
0,6840
0,6837
0,6834
0,6830
0,6828
0,6807
0,6794
0,6786
0,6780
0,6776
0,6772
0,6770
0,6747
0,6745
0,8
1,3764
1,0607
0,9785
0,9410
0,9195
0,9057
0,8960
0,8889
0,8834
0,8791
0,8755
0,8726
0,8702
0,8681
0,8662
0,8647
0,8633
0,8620
0,8610
0,8600
0,8591
0,8583
0,8575
0,8569
0,8562
0,8557
0,8551
0,8546
0,8542
0,8538
0,8507
0,8489
0,8477
0,8468
0,8461
0,8456
0,8452
0,8420
0,8416
0,85
1,9626
1,3862
1,2498
1,1896
1,1558
1,1342
1,1192
1,1081
1,0997
1,0931
1,0877
1,0832
1,0795
1,0763
1,0735
1,0711
1,0690
1,0672
1,0655
1,0640
1,0627
1,0614
1,0603
1,0593
1,0584
1,0575
1,0567
1,0560
1,0553
1,0547
1,0500
1,0473
1,0455
1,0442
1,0432
1,0424
1,0418
1,0370
1,0364
Probabilidad acumulada
0,9
0,95
0,975
3,0777 6,3138 12,7062
1,8856 2,9200
4,3027
1,6377 2,3534
3,1824
1,5332 2,1318
2,7764
1,4759 2,0150
2,5706
1,4398 1,9432
2,4469
1,4149 1,8946
2,3646
1,3968 1,8595
2,3060
1,3830 1,8331
2,2622
1,3722 1,8125
2,2281
1,3634 1,7959
2,2010
1,3562 1,7823
2,1788
1,3502 1,7709
2,1604
1,3450 1,7613
2,1448
1,3406 1,7531
2,1314
1,3368 1,7459
2,1199
1,3334 1,7396
2,1098
1,3304 1,7341
2,1009
1,3277 1,7291
2,0930
1,3253 1,7247
2,0860
1,3232 1,7207
2,0796
1,3212 1,7171
2,0739
1,3195 1,7139
2,0687
1,3178 1,7109
2,0639
1,3163 1,7081
2,0595
1,3150 1,7056
2,0555
1,3137 1,7033
2,0518
1,3125 1,7011
2,0484
1,3114 1,6991
2,0452
1,3104 1,6973
2,0423
1,3031 1,6839
2,0211
1,2987 1,6759
2,0086
1,2958 1,6706
2,0003
1,2938 1,6669
1,9944
1,2922 1,6641
1,9901
1,2910 1,6620
1,9867
1,2901 1,6602
1,9840
1,2824 1,6464
1,9623
1,2816 1,6449
1,9600
0,98
15,8945
4,8487
3,4819
2,9985
2,7565
2,6122
2,5168
2,4490
2,3984
2,3593
2,3281
2,3027
2,2816
2,2638
2,2485
2,2354
2,2238
2,2137
2,2047
2,1967
2,1894
2,1829
2,1770
2,1715
2,1666
2,1620
2,1578
2,1539
2,1503
2,1470
2,1229
2,1087
2,0994
2,0927
2,0878
2,0839
2,0809
2,0564
2,0538
0,99
31,8205
6,9646
4,5407
3,7469
3,3649
3,1427
2,9980
2,8965
2,8214
2,7638
2,7181
2,6810
2,6503
2,6245
2,6025
2,5835
2,5669
2,5524
2,5395
2,5280
2,5176
2,5083
2,4999
2,4922
2,4851
2,4786
2,4727
2,4671
2,4620
2,4573
2,4233
2,4033
2,3901
2,3808
2,3739
2,3685
2,3642
2,3301
2,3264
0,995
63,6567
9,9248
5,8409
4,6041
4,0321
3,7074
3,4995
3,3554
3,2498
3,1693
3,1058
3,0545
3,0123
2,9768
2,9467
2,9208
2,8982
2,8784
2,8609
2,8453
2,8314
2,8188
2,8073
2,7969
2,7874
2,7787
2,7707
2,7633
2,7564
2,7500
2,7045
2,6778
2,6603
2,6479
2,6387
2,6316
2,6259
2,5808
2,5758
0,9975
127,3213
14,0890
7,4533
5,5976
4,7733
4,3168
4,0293
3,8325
3,6897
3,5814
3,4966
3,4284
3,3725
3,3257
3,2860
3,2520
3,2224
3,1966
3,1737
3,1534
3,1352
3,1188
3,1040
3,0905
3,0782
3,0669
3,0565
3,0469
3,0380
3,0298
2,9712
2,9370
2,9146
2,8987
2,8870
2,8779
2,8707
2,8133
2,8070
0,999
318,3088
22,3271
10,2145
7,1732
5,8934
5,2076
4,7853
4,5008
4,2968
4,1437
4,0247
3,9296
3,8520
3,7874
3,7328
3,6862
3,6458
3,6105
3,5794
3,5518
3,5272
3,5050
3,4850
3,4668
3,4502
3,4350
3,4210
3,4082
3,3962
3,3852
3,3069
3,2614
3,2317
3,2108
3,1953
3,1833
3,1737
3,0984
3,0902
Apéndices - 181
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
182 - Apéndices
APÉNDICE C
TABLAS DE CONTRASTES DE HIPÓTESIS
183
Introducción a la Inferencia Estadı́stica
184 - Apéndices
APÉNDICE D
INTERVALOS DE CONFIANZA
D.1.
Intervalos de Confianza 100(1 − α) %
185
Introducción a la Inferencia Estadı́stica
186 - Apéndices
APÉNDICE E
ESTADÍSTICOS DE ORDEN
E.1.
Resultados Generales
Los siguientes son resultados generales sobre los estadı́sticos de orden de una MA de X ∼ FX .
Teorema E.1.1. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX .
Entonces, para k = 1, 2, . . . , n
n X
n
FX(k) (x) =
[FX (x)]j [1 − FX (x)]n−j .
j
j=k
Demostración. Para un valor de x fijo, defina Zi = I[Xi ≤x] . Por lo tanto, la variable aleatoria
n
X
Z=
Zi cuenta el número de Xi que son menores o iguales que x.
i=1
La probabilidad de que Xi ≤ x es FX (x) ∀i. Por lo cual para i = 1, . . . , n, Zi ∼Bernoulli(FX (x))
y además son independientes entre sı́. Entonces Z ∼Binomial(n, FX (x)).
Note que el suceso {X(k) ≤ x} se puede escribir como la unión de los siguiente sucesos disjuntos:
X(k) ≤ x y X(k+1) > x. Por lo tanto las únicas observaciones menores que x son las k más
chicas, lo que equivale a que Z = k.
X(k+1) ≤ x y X(k+2) > x. Dado que X(k) ≤ X(k+1) , tenemos que X(k) ≤ x. Por lo tanto, las
k + 1 observaciones más chicas son las únicas menores o iguales que x, lo que equivale a que
Z = k + 1.
187
Introducción a la Inferencia Estadı́stica
Extendemos el razonamiento para las estadı́sticas de orden k + 3 en adelante hasta llegar
al último caso donde X(n) ≤ x. Dado que X(k) ≤ X(n) , tenemos que X(k) ≤ x. En este caso
todas las observaciones son menores o iguales que x, lo que equivale a que Z = n.
En consecuencia el evento {X(k) ≤ x} es equivalente al evento {Z ≥ k}. Por lo cual,
FX(k) (x) = P(X(k)
n X
n
≤ x) = P(Z ≥ k) =
[FX (x)]j [1 − FX (x)]n−j .
j
j=k
Ejemplo E.1.1. Si verificamos los resultados hallados en las ecuaciones (2.2) y (2.3),
tenemos que
FX(n) (x) =
n X
n
j=n
j
[FX (x)]j [1 − FX (x)]n−j = [FX (x)]n
y
n X
n
FX(1) (x) =
[FX (x)]j [1 − FX (x)]n−j = 1 − [1 − FX (x)]n
j
j=1
En el caso que X sea una variable aleatoria absolutamente continua, podemos encontrar la función
de densidad de X(i) derivando su función de distribución. Una fórmula general se puede obtener
usando el teorema siguiente.
Teorema E.1.2. Sean X(1) , X(2) , . . . , X(n) las estadı́sticas de orden de una MA de X ∼ FX una
variable aleatoria absolutamente continua.
Entonces, para k = 1, 2, . . . , n
fX(k) (x) =
n!
[FX (x)]k−1 [1 − FX (x)]n−k fX (x).
(k − 1)!(n − k)!
Demostración. De aplicar la definición de derivada y propiedades de la función de distribución
FX(k) (x + ∆x) − FX(k) (x)
P(x < X(k) ≤ x + ∆x)
= lı́m
.
∆x→0
∆x→0
∆x
∆x
fX(k) (x) = lı́m
188 - Apéndices
Introducción a la Inferencia Estadı́stica
Dado que ∆x se puede elegir tan chico como queramos, lo tomamos lo suficientemente pequeño
para que solo la k-ésima estadı́stica de orden ocurra en el intervalo (x, x+∆x). Con esto, quedarán
k − 1 estadı́sticas de orden por debajo de x y n − k estadı́sticas de orden por encima de x + ∆x.
Entonces,
P(x < X(k) ≤ x + ∆x) = P(k − 1 obs ≤ x; 1 obs ∈ (x, x + ∆x]; n − k obs > x + ∆x)
= P(Z1 = k − 1, Z2 = 1, Z3 = n − k).
Donde Z1 = número de observaciones menores o iguales que x, Z2 = número de observaciones en
(x, x + ∆x) y Z3 = número de observaciones mayores que x + ∆x.
Note lo siguiente:
Z1 + Z2 + Z3 = n; Zj ∈ {0, 1, . . . , n}, j = 1, 2, 3.
Al trabajar con una MA, que Xi caiga en alguna de las tres clases: “por debajo de x”, “en
(x, x + ∆x]” o “por encima de x + ∆x” es independiente de lo que pase con cualquier otra
observación Xj , i, j = 1, 2, . . . , n, i 6= j. Al ser las observaciones idénticamente distribuidas, cada observación cae en cada clase con probabilidad FX (x), FX (x + ∆x) − FX (x) y
1 − FX (x + ∆ x) respectivamente.
Por lo tanto,
(Z1 , Z2 , Z3 ) ∼ Multinomial(n, FX (x), FX (x + ∆x) − FX (x), 1 − FX (x + ∆ x)).
y
P(Z1 = k−1, Z2 = 1, Z3 = n−k) =
n!
(FX (x))k−1 (FX (x+∆x)−FX (x)) (1−FX (x+∆x))n−k
(k − 1)!1!(n − k)!
Ahora,
fX(k) (x) = lı́m
n!
(FX (x))k−1
(k−1)!(n−k)!
(FX (x + ∆x) − FX (x)) (1 − FX (x + ∆x))n−k
∆x
n!
(F
(x
+ ∆x) − FX (x)) (1 − FX (x + ∆x))n−k
X
=
(FX (x))k−1 lı́m
∆x→0
(k − 1)!(n − k)!
∆x
: fX (x)
FX (x)
:n−k
n!
(F
(x
+
∆x)
−
F
(x))
X
X
=
(FX (x))k−1 lı́m
(1
−
F
(x
+
∆x))
X
∆x
∆x→0 (k − 1)!(n − k)!
∆x→0
=
n!
(FX (x))k−1 (1 − FX (x))n−k fX (x).
(k − 1)!(n − k)!
Ejemplo E.1.2.
Si k = n tenemos que
fX(n) (x) =
n!
(FX (x))n−1 (1 − FX (x))n−n fX (x) = n(FX (x))n−1 fX (x)
(n − 1)!(n − n)!
Apéndices - 189
Introducción a la Inferencia Estadı́stica
y si k = 1
n!
(FX (x))1−1 (1 − FX (x))n−1 fX (x) = n(1 − FX (x))n−1 fX (x).
(1 − 1)!(n − 1)!
fX(1) (x) =
E.2.
Distribuciones conjuntas
Con el mismo razonamiento que en la demostración del teorema anterior se pueden deducir las
distribuciones conjuntas de dos o más estadı́sticas de orden.
Teorema E.2.1. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua.
Para k ∈ {1, 2, . . . , n}, j ∈ {1, 2, . . . , n}, k < j,
fX(k) ,X(j) (x, y) =
n!
(FX (x))(k−1) (FX (y)−FX (x))(j−k−1) (1−FX (y))n−j fX (x)fX (y).
(k − 1)!(j − k − 1)!(n − j)!
Ejemplo E.2.1. Para k = 1 y j = n tenemos que
fX(1) ,X(n) (x, y) = n(n − 1)(FX (y) − FX (x))(n−2) fX (x)fX (y)I[x<y] .
(E.1)
Teorema E.2.2. Sea X1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua.
Sean X(1) ≤ X(2) ≤ . . . ≤ X(n) las correspondientes estadı́sticas de orden. Entonces,
fX(1) ,...,X(n) (x(1) , . . . , x(n) ) = n!
n
Y
fX (x(i) )I[x(1) <...<x(n) ] .
i=1
Ejemplo E.2.2. Sea X1 , X2 , X3 una MA de X ∼Uniforme(0,1). Entonces:
fX(1) ,X(2) ,X(3) (x, y, z) = 6I[0<x<y<z<1] .
Por lo tanto,
Z
1
fX(1) ,X(2) (x, y) =
6 dz = 6(1 − y)I[0<x<y<1] .
(E.2)
6 dy = 6(z − x)I[0<x<z<1] .
(E.3)
6 dx = 6yI[0<y<z<1] .
(E.4)
y
Z
z
fX(1) ,X(3) (x, z) =
x
Z
fX(2) ,X(3) (y, z) =
y
0
Usando (E.2) hallamos que
Z
fX(1) (x) =
x
190 - Apéndices
1
6(1 − y) dy = 6(1 − x)2 I[0<x<1]
Introducción a la Inferencia Estadı́stica
y que
y
Z
6(1 − y) dx = 6y(1 − y)I[0<y<1] .
fX(2) (y) =
0
De manera similar, usando (E.3) tenemos que
Z 1
fX(1) (x) =
6(z − x) dz = 6(1 − x)2 I[0<x<1]
x
y que
z
Z
6(z − x) dx = 3z 2 I[0<z<1] .
fX(3) (z) =
0
Integrando en (E.4) devuelve
Z
1
6y dz = 6y(1 − y)I[0<y<1]
fX(2) (y) =
y
y
Z
fX(3) (z) =
z
6y dy = 3z 2 I[0<z<1] .
0
E.3.
Funciones de los estadı́sticos de orden
La distribución de funciones de las estadı́sticas de orden se consigue utilizando teoremas de transformaciones de variables aleatorias. A modo de ejemplo, encontremos la distribución del rango
muestral definido como
Rn = X(n) − X(1) .
(E.5)
El rango contiene información acerca de la dispersión de la distribución de X. Para hallar su
distribución usamos, fX(1) ,X(n) (x, y) dada por (E.1) y hacemos uso de una variable aleatoria auxiliar
U = X(1) para completar la transformación y encontrar una expresión para fRn ,U (r, u), la cual
después integraremos con respecto a u para obtener la distribución marginal de fRn (r).
Teorema E.3.1. Sea x1 , . . . , Xn una MA de X ∼ FX , variable aleatoria absolutamente continua.
La distribución del rango, definido en (E.5), está dada por
Z ∞
fRn (r) = n(n − 1)
(FX (u + r) − F (u))n−2 fX (u + r)fX (u) du
−∞
para r > 0.
Ejemplo E.3.1. Sea X1 , . . . , Xn una MA de X ∼Uniforme(0,1). Entonces:
Z 1−r
fRn (r) = n(n − 1)
(u + r − u)n−2 du = n(n − 1)rn−2 (1 − r)I[0<r<1]
0
Apéndices - 191
Introducción a la Inferencia Estadı́stica
Ejemplo E.3.2. Sea X1 , . . . , Xn una MA de X ∼Exp(1). Deseamos hallar fX(1) ,X(n) (x, y)
y fRn (r).
1 - Para 0 < x < y,
n−2 −x −y
fX(1) ,X(n) (x, y) = n(n − 1) 1 − e−y − (1 − e−x )
e e
n−2 −x −y
e e .
= n(n − 1) e−x − e−y
2 - Usando el teorema E.3.1 tenemos que para r > 0
Z ∞
n−2 −(2u+r)
e
du
fRn (r) = n(n − 1)
e−u − e−(u+r)
0
Z ∞
n−2 −(2u+r)
e
du
e−u(n−2) 1 − e−r
= n(n − 1)
0
Z ∞
n−2 −r
e−nu du
= n(n − 1) 1 − e−r
e
0
−r n−2 −r
= (n − 1) 1 − e
e
192 - Apéndices
APÉNDICE F
COLECCIONES DE FAMILIAS
Siempre respetando el concepto de familia, podemos también definir colecciones más grandes
donde agruparemos familias de distribuciones que compartan las mismas propiedades, estructura
funcional, etc. Los dos casos que mencionaremos son la familia exponencial y la familia de posiciónescala.
F.1.
Familia Exponencial
Una familia de distribuciones de gran importancia es la llamada familia exponencial. Una familia
exponencial posee propiedades algebraicas deseables y un gran número de propiedades que la hacen de gran importancia para el análisis estadı́stico. Algunas de estas propiedades, salvo en casos
excepcionales, son únicas de la familia exponencial.
Definición F.1.1. Una familia de distribuciones se dice que es una familia exponencial de k
parámetros si su función de densidad o cuantı́a se puede escribir de la siguiente manera
( k
)
X
fX (x|θ) = h(x)c(θ) exp
wi (θ)ti (x)
θ ∈ Θ ⊂ Rk .
(F.1)
i=1
Donde h y ti (x), i = 1, . . . , k, son funciones que dependen solamente de x; c(θ) y wi (θ), i = 1, . . . , k,
son funciones que dependen solamente de θ.
Observación F.1.1. La parametrización no es única dado que al multiplicar y dividir por una
constante obtenemos una nueva parametrización. Por ejemplo,
wi (θ)ti (x) = wi∗ (θ)t∗i (x) donde wi∗ (θ) =
193
wi (θ)
y t∗i (x) = ati (x), a ∈ R
a
Introducción a la Inferencia Estadı́stica
Observación F.1.2. Cuando el recorrido de la variable aleatoria depende del parámetro no existe la descomposición especificada en la ecuación F.1. Por lo cual, estas familias de distribuciones
no son familias exponenciales. En el caso de que el recorrido no dependa de θ no es necesario
explicitarlo y se asumirá de manera tácita que es parte de h(x).
Ejemplo F.1.1. X ∼ Binomial(n, θ), asumimos n conocido. Θ = (0, 1).
x
n x
n
θ
n−x
fX (x|θ) =
θ (1 − θ) Ix∈{0,1,...,n} =
(1 − θ)n
x
x
1−θ
n
θ
n
=
(1 − θ) exp x log
.
x
1−θ
n
θ
Entonces, h(x) =
, c(θ) = (1 − θ)n , w(θ) = log
y t(x) = x. Por lo cual, la
x
1−θ
familia binomial es una familia exponencial de un parámetro.
n
Si se explicita el recorrido de la variable aleatoria X, h(x) =
I[x∈{0,1,...,n}]
x
Ejemplo F.1.2. X ∼ Normal(µ, σ 2 ), θ = (µ, σ 2 ) desconocida.
1
1
2
fx (x|θ) = √
exp − 2 (x − µ)
2σ
2πσ 2
1
1
2
2
=√
exp − 2 (x − 2xµ + µ )
2σ
2πσ 2
1
µ2
µ
1 2
=√
exp − 2 exp − 2 x + 2 x
2σ
2σ
σ
2πσ 2
µ2
1
En este caso k = 2. Tomamos, h(x) = 1, c(θ) = √
exp − 2 , w1 (θ) = − 2 ,
2σ
2σ
2πσ 2
µ
2
w2 (θ) = 2 , t1 (x) = x y t2 (x) = x. Por lo cual la familia de distribuciones normaσ
les con media y varianza desconocida es una familia exponencial de dos parámetros. 1
Ejemplo F.1.3. X ∼ fX (x|θ) donde con θ = (γ, λ) ∈ R+2
λ γx
γx
fX (x|θ) = λe exp − (e − 1) I[x>0]
γ
Si γ es conocida, θ = λ
λ
h(x) = eγx I[x>0] , c(λ) = λe γ , w(λ) = −λ y t(x) =
eγx
.
γ
Por lo cual, la familia de distribuciones que tienen a fX como densidad común es
una familia exponencial de un parámetro.
194 - Apéndices
Introducción a la Inferencia Estadı́stica
λ γx
e no puede ser factorizado de la forma w(θ)t(x). Por lo
γ
cual, la familia de distribuciones que tienen a fX como densidad común no es una
familia exponencial.
Si γ es desconocida,
F.1.1.
Forma canónica
Para una familia exponencial se puede utilizar la siguiente reparametrización alternativa
( k
)
X
fX (x|η) = h(x) exp
ηi ti (x) − a(η) .
(F.2)
i=1
Note que la relación entre esta representación y la dada por (F.1) es: ηi = wi (θ), i = 1, . . . , k,
η = (η1 , . . . , ηk ) y a(η) = − log(c(θ))1 . A esta representación se le llama la forma canónica o
natural y η es el parámetro natural de la distribución.
Observación F.1.3. Note que si usamos la representación (F.2) de fX , tenemos que
( k
)
Z ∞
X
h(x) exp
ηi ti (x) − a(η) dx = 1
−∞
i=1
Por lo cual,
ea(η) =
Z
∞
h(x) exp
−∞
( k
X
)
ηi ti (x)
dx.
i=1
Lo que nos permite afirmar que el conjunto H = {η : a(η) < ∞} no es vacı́o.
Definición F.1.2. Al conjunto H = {η = (η1 , . . . , ηk ) : a(η) < ∞} se le llama espacio paramétrico natural. Si H es un conjunto abierto de Rk diremos que la familia exponencial es regular. Cuando
una familia exponencial no es regular se dice que es curva.
Ejemplo F.1.4. (Continuación del ejemplo F.1.1)
n
θ
n
θ
n
fX (x|θ) =
(1 − θ) exp x log
=
exp x log
+ n log(1 − θ)
x
1−θ
x
1−θ
η = w(θ) = log
θ
eη
θ
⇒ eη =
⇒ θ=
.
1−θ
1−θ
1 + eη
Con lo cual,
a(η) = −n log(1 − θ) = n log(eη + 1).
1
A lo largo de todas estas notas, log x representa el logaritmo neperiano de x.
Apéndices - 195
Introducción a la Inferencia Estadı́stica
Note que eη + 1 > 0 ∀η ∈ R, por lo tanto a(η) < ∞ ⇒ H = R.
Por lo cual la familia Binomial es una familia exponencial regular.
Ejemplo F.1.5. (Continuación del ejemplo F.1.3, con γ conocido)
Bajo la nueva reparametrización,
λ
eγx
+ log λ +
fx (x|θ) = e I[x>0] exp −λ
γ
γ
λ
η
η = −λ, a(η) = − log λ +
= − log(−η) −
γ
γ
η
Note que, γ > 0 implica que < ∞ ∀η y que ∀η ∈ R− , log(−η) < ∞. Lo que implica
γ
que H = R− .
γx
Teorema F.1.1. Sea una familia exponencial regular de un parámetro. Entonces,
d
Eη (t(X)) =
a(η)
dη
d2
Varη (t(X)) = 2 a(η).
dη
y
Demostración. Observe que
Z
E(t(X)) =
Z
t(x)fX~ (x|θ)dx =
Rec(X)
t(x)h(x)eηt(x)−a(η) dx.
Rec(X)
y que
d
d
a(η) =
log
dη
dη
Z
h(x)e
ηt(x)
1
h(x)eηt(x) dx
Z
dx =
Rec(X)
=
R
Rec(X)
R
Z
1
h(x)eηt(x) dx
∂
h(x)eηt(x) dx
∂η
Rec(X)
Rec(X)
t(x)h(x)eηt(x) dx =
Rec(X)
Z
t(x)h(x)eηt(x)−a(η) dx.
Rec(X)
Para calcular la varianza, defina Ψ(η) = ea(η) y observe que
0 2
d2
Ψ00 (η)
Ψ (η)
log Ψ(η) =
−
.
2
dη
Ψ(η)
Ψ(η)
Intercambiando el signo de derivada con el de integral, tenemos que
Z
Z
Ψ00 (η)
00
2
ηt(x)
~
Ψ (η) =
t (x)h(x)e
dx =⇒
=
t2 (x)h(x)eηt(x)−a(η) dx = E(t2 (X)).
Ψ(η)
Rec(X)
Rec(X)
Por lo cual,
d2
~ − E(t(X))2 = Var(t(X)).
a(η) = E(t2 (X))
dη 2
196 - Apéndices
Introducción a la Inferencia Estadı́stica
Ejemplo F.1.6. (Continuación del ejemplo F.1.4).
a(η) = n log(eη + 1), t(x) = x ⇒ E(t(X)) = E(X) =
Var(X) =
d
eη
a(η) = n
= nθ.
dη
1 + eη
eη (eη + 1) − eη eη
1
eη
eη
d2
a(η)
=
n
= nθ(1−θ).
=
n
=
n
2
η
2
η
2
η
η
dη
(e + 1)
(e + 1)
(e + 1) (e + 1)
x
x2
Ejemplo F.1.7. Para θ > 0, fX (x|θ) = 2 exp − 2 I[x>0] .
θ
2θ
1
fX (x|θ) = xI[x>0] exp − 2 x2 − log θ2
2θ
⇒ η=−
1
, t(x) = x2 y a(η) = − log(−2η).
2θ2
Por lo tanto, H = R− , lo que implica que la familia de distribuciones que tienen como
densidad común a fX es una familia exponencial regular. En consecuencia,
E(X 2 ) =
d
2
1
a(η) = − = − = 2θ2
dη
2η
η
Var(X 2 ) =
1
d2
a(η) = 2 = 4θ4 .
2
dη
η
F.2.
Familias de posición y escala
Otras familias de distribuciones que juegan un papel importante en inferencia son las familias de
posición y escala.
Definición F.2.1. Una variable aleatoria X se dice que pertenece a una familia de posición y
escala si su función de distribución es una función solo de (x − a)/b,
x−a
FX (x|a, b) = F
a ∈ R, b > 0.
b
donde F es una función de distribución libre de todo parámetro.
Al parámetro (a, b) se le llama el parámetro de posición (a) y escala (b). En el caso de que b = 1
estamos frente a una subfamilia, la familia de posición de parámetro a. En el caso de que a = 0,
estamos frente a otra subfamilia, la familia de escala de parámetro b.
Apéndices - 197
Introducción a la Inferencia Estadı́stica
Definición F.2.2. Si la variable aleatoria X pertenece a una familia de posición y escala, a la
X −a
variable aletoria Y =
se le llama la variable reducida.
b
Observación F.2.1. La variable reducida tiene a = 0 y b = 1. A su función de distribución FY (y)
se le llama la función de distribución reducida.
Observación F.2.2. El parámetro de posición es una medida de tendencia central (esperanza,
mediana, modo) de una distribución o un parámetro de umbral.
Ejemplo F.2.1. Distribución N(a, b)
(
2 )
1
1 x−a
fX (x|a, b) = √
a ∈ R, b > 0.
exp −
2
b
2πb
a es la esperanza, la mediana y el modo.
Ejemplo F.2.2. Distribución Cauchy(a, b)
(
fX (x|a, b) =
"
πb 1 +
x−a
b
2 #)−1
a ∈ R, b > 0
a es la mediana y el modo. En este caso no existe la esperanza.
Ejemplo F.2.3.
(
"
fX (x|a, b) = exp πb 1 +
x−a
b
2 #)
a ∈ R, b > 0
a es el modo.
Ejemplo F.2.4.
1
fX (x|a, b) = I[a≤x≤a+b] a ∈ R, b > 0
b
a es el umbral inferior de la distribución.
198 - Apéndices
Introducción a la Inferencia Estadı́stica
Ejemplo F.2.5.
1
a−x
fX (x|a, b) = exp −
x ≤ a ∈ R, b > 0
b
b
a es el umbral superior de la distribución.
En todos los ejemplos anteriores, b es el parámetro de escala. Es el responsable por la dispersión
de la variable aleatoria X. b puede ser
1 - el desvı́o tı́pico. Ejemplos (F.2.1) y (F.2.5).
2 - Proporcional al desvı́o. Ejemplo (F.2.3). En este ejemplo, 2b es el recorrido intercuartı́lico.
3 - La amplitud del recorrido, el rango. Ejemplo (F.2.4).
Proposición F.2.1. Sea X ∼ fX (x|a, b) una familia de posición y escala absolutamente continua
de parámetro (a, b). Sea Y la forma reducida de X, entonces
1
x−a
fX (x) = fY
.
b
b
Referencia Bibliográfica
Este capı́tulo está basado en los siguientes textos:
Casella, G., Berger, R.L. (2001) Statistical Inference 2da. Edición. Duxbury Press.
Mukhopadhyay, N. (2000) Probability and statistical inference. Statistics, textbooks and monographs; v. 162. Marcel Dekker.
Olive, D. (2010) Statistial theory and inference. Springer.
Apéndices - 199
Introducción a la Inferencia Estadı́stica
esta página fue intencionalmente dejada en blanco
200 - Apéndices
Download