Uploaded by Samantha Barreto

Febrero 8 Inferencia Estadistica para Estudiantes de Ciencias

advertisement
70
3. Estadı́sticas y distribuciones muestrales
3.4.2.
El teorema de factorización
El siguiente resultado conocido como el teorema de factorización de Neyman
o simplemente teorema de factorización, permite encontrar una estadı́stica
suficiente sin hallar la función de densidad de la estadı́stica de interés y, más
aún, sin tener que proponer dicha estadı́stica.
Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de
densidad conjunta de X1 , . . . , Xn puede factorizarse como:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) ,
donde g y h son funciones no negativas tales que g (S(x); θ) depende de la
muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no
depende de θ.
Es decir, el teorema de factorización establece que
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
g (S(x); θ)
| {z }
depende de θ y de la
muestra sólo a través de S
·
h (x1 , . . . , xn )
|
{z
}
depende sólo de la muestra
Demostración. (Caso discreto):
⇒ S(X) es suficiente.
Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad conjunta de X1 , . . . , Xn puede escribirse como
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) .
Usando la definición de probabilidad condicional, la expresión anterior es
equivalente a
P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)
Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende
de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como:
P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ),
donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
71
3.4. Estadı́sticas suficientes
y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que
P [ X1 = x1 , . . . , Xn = xn | S(X)]
no depende de θ, bajo el supuesto de que la factorización es válida.
Se tiene que
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P [X1 = x1 , . . . , Xn = xn , S(X) = s]
P[S(X) = s]
pero
P[S(X) = s] =
X
P[X1 = x1 , . . . , Xn = xn ],
(3.15)
As
donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X
X
P[S(X) = s] =
g(S(x); θ)h(x) = g(s; θ)
h(x)
As
As
y
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
=
g(S(x); θ)h(x)
P
g(s; θ) As h(x)
=
g(s; θ)h(x)
P
g(s; θ) As h(x)
=
P
h(x)
,
As h(x)
si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir,
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
no depende de θ, por lo que S(X) es una estadı́stica suficiente.
Demostración. (Caso continuo):
72
3. Estadı́sticas y distribuciones muestrales
Se supone primero la factorización, es decir,
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
=
Πni=1 f (xi , θ)
=
g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .
Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida
de la siguiente manera
v1 = S (x1 , x2 , . . . , xn ) ,
vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas
xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n
y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz.
Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada
por:
kV1 ,...,Vn (v1 , . . . , vn ; θ)
= |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) .
Ası́, la densidad de V1 puede obtenerse como
kV1 (v1 ; θ)
Z ∞
Z ∞
=
···
kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞
−∞
Z ∞
Z ∞
= g (v1 ; θ)
···
|J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞
−∞
Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de
integración, además de que la función h no depende de θ. Por lo tanto, la
integral múltiple es una función exclusivamente de v1 . Sea
m (v1 )
Z ∞
Z
=
···
−∞
∞
|J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞
con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
73
3.4. Estadı́sticas suficientes
Note que si m (v1 ) > 0, es posible escribir:
g (v1 ; θ) =
kV1 (v1 ; θ)
,
m (v1 )
o
g (S (x) ; θ) =
kV1 (S (x) ; θ)
,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
= g (S (x) ; θ) h (x1 , x2 , . . . , xn )
kV1 (S (x) ; θ)
=
h (x1 , x2 , . . . , xn )
m [S (x)]
h (x1 , x2 , . . . , xn )
,
= kV1 (S (x) ; θ)
m [S (x)]
de donde:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
h (x1 , x2 , . . . , xn )
=
kV1 (S (x) ; θ)
m [S (x)]
no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente
(ver observación 3.3).
Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer
tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .
Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ.
Usando el teorema de factorización:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Pn
i=1 Xi
n
i=1 xi !
e−nθ
Qθ
(xi )
i=1 I{0,1,... }
Qn
n
Y
Pn
1
(xi )
= e|−nθ θ{z i=1 X}i Qn
I{0,1,...
}
x
!
i
i=1
i=1
g(S(x);θ)
|
{z
}
h(x1 ,...,xn )
∴ S(X) =
Pn
i=1
Xi es una estadı́stica suficiente para θ.
74
3. Estadı́sticas y distribuciones muestrales
Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para
θ, se tiene que:
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n
Y
f (xi ; θ) =
i=1
n
1 Y (xi )
I
.
θn i=1 (0,θ)
Como todas las observaciones son positivas, es decir xi > 0, para i =
1, 2, . . . , n, se tiene que
n
Y
(x )
i
I(0,θ)
=1
i=1
siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad
conjunta puede escribirse como
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
1 (yn )
I
,
θn (0,θ)
concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn }
(yn )
es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ)
y h (x1 , x2 , . . . , xn ) = 1.
Observe que esta factorización no es única, pueden proponerse otras; pero
Yn será la estadı́stica suficiente.
Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad:
θxθ−1 , 0 < x < 1, 0 < θ
f (x; θ) =
0,
en otro caso.
Se usará el teorema de factorización para probar que el producto
S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn
es una estadı́stica suficiente para θ. La función de densidad conjunta de
X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1
i
= θn Πni=1 xθ−1
i
θ
n
n
=
θ (Πi=1 xi )
1
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean:
θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
75
3.4. Estadı́sticas suficientes
y
h (x1 , x2 , . . . , xn ) =
1
.
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la estadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́stica suficiente, pues en el esquema de muestreo aleatorio que se está considerando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la muestra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
f (x; µ, σ) =
e−(x−µ)/σ
, − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y
e−(xi −µ)/σ
=
σ[1 + e−(xi −µ)/σ ]2
i=1
= n!
n
Y
e−(yi −µ)/σ
,
σ[1 + e−(yi −µ)/σ ]2
i=1
76
3. Estadı́sticas y distribuciones muestrales
donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factorizar la función de densidad conjunta de otra manera tal que se pueda aplicar
el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es
una estadı́stica suficiente.
Cabe aclarar que la muestra ordenada se usará como la estadı́stica suficiente sólo cuando no sea posible obtener otra estadı́stica suficiente.
3.4.3.
La familia exponencial
Hay un conjunto de familias paramétricas de distribuciones que, por sus
propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este
conjunto se conoce como la clase exponencial o la familia exponencial y su
importancia en este momento es que las densidades de esta clase tienen una
relación con el concepto de suficiencia, en el sentido de que si se sabe que
una densidad pertenece a la familia exponencial, es posible encontrar una
estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso
de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el
caso de dos o más parámetros. Algunas de las distribuciones más conocidas
como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama,
la Normal y la Beta, pertenecen a la familia exponencial.
Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o
clase exponencial) si puede factorizarse como:
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
θ ∈ Θ, − ∞ < x < ∞,
donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x.
Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia exponencial:
1. Si X tiene distribución Exponencial con parámetro θ, es decir,
X ∼ exp (θ),
su función de densidad está dada por
(x)
f (x; θ) = θ · e−θ·x · I(0,∞) .
(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
77
3.4. Estadı́sticas suficientes
2. Si X tiene distribución Poisson con parámetro θ, es decir
X ∼ Poisson (θ),
su función de densidad es
f (x; θ) =
e−θ θx (x)
1 (x)
I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) ,
x!
x!
de donde puede verse que pertenece a la familia exponencial.
3. Si X tiene distribución Bernoulli con parámetro θ, es decir
X ∼ Bernoulli (θ),
con
f (x; θ) = θx (1 − θ)
1−x
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
(x)
θ
se tiene que pertenece a la familia exponencial.
4. Si X tiene distribución Geométrica con parámetro θ, es decir
X ∼ Geométrica(θ),
su función de densidad se puede escribir como
x (x)
(x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) ,
con lo que se concluye que la distribución Geométrica pertenece a la
familia exponencial.
Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la
familia exponencial.
El resultado que se enuncia a continuación proporciona la relación entre
los miembros de la familia exponencial y la suficiencia.
Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población
con función de densidad de la forma
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
es decir, f (x; θ) pertenece a la familia exponencial. Entonces
una estadı́stica suficiente.
Pn
i=1
d(xi ) es
78
3. Estadı́sticas y distribuciones muestrales
Demostración. Usando el teorema de factorización, se tiene que:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Qn
a(θ)b(xi )ec(θ)d(xi )
=
h
n
i=1
Pn
a (θ) ec(θ)
|
{z
i=1
d(xi )
i
·
}
g(S(X);θ)
n
Y
b(xi )
i=1
| {z }
h(X1 ,...,Xn )
∴ S(X) =
n
P
d(Xi ) es una estadı́stica suficiente para θ.
i=1
En la siguiente tabla se muestran algunas de las distribuciones más conocidas que pertenecen a la familia o clase exponencial, aunque en la sección
3.6 se ampliará esta lista.
Algunos miembros de la familia exponencial
f (x; θ) = a (θ) b (x) exp [c (θ) d (x)]
Distribución
f (x; θ)
a (θ)
b (x)
c(θ) 1−x
θ
x
Bernoulli (θ)
θ (1 − θ)
1−θ
1
ln 1−θ
n−x
n
n x
n
θ
Binomial (n, θ)
(1 − θ)
ln 1−θ
x θ (1 − θ)
x
x
Geométrica (θ)
θ (1 − θ)
θ
1
ln (1 − θ)
−θ x
1
e θ
−θ
e
ln θ
Poisson (θ)
x!
x!
Exponencial (θ)
θe−θx
θ
1
−θ
2
Rayleigh (θ)
3.4.4.
x
x − 2θ
2
θ2 e
1
θ2
x
− 2θ12
d (x)
x
x
x
x
x
x2
Suficiencia minimal
La idea de la suficiencia es no perder información relevante del parámetro
(contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes
estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que
condense más la información. A tales estadı́sticas se les llama suficientes
minimales.
Intuitivamente, una estadı́stica es suficiente minimal si cualquier reducción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir,
ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a información contenida en la muestra acerca del parámetro. Lo anterior también
está asociado con la noción de clases de equivalencia o partición del espacio
Download