70 3. Estadı́sticas y distribuciones muestrales 3.4.2. El teorema de factorización El siguiente resultado conocido como el teorema de factorización de Neyman o simplemente teorema de factorización, permite encontrar una estadı́stica suficiente sin hallar la función de densidad de la estadı́stica de interés y, más aún, sin tener que proponer dicha estadı́stica. Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de densidad conjunta de X1 , . . . , Xn puede factorizarse como: fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) , donde g y h son funciones no negativas tales que g (S(x); θ) depende de la muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no depende de θ. Es decir, el teorema de factorización establece que fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) | {z } depende de θ y de la muestra sólo a través de S · h (x1 , . . . , xn ) | {z } depende sólo de la muestra Demostración. (Caso discreto): ⇒ S(X) es suficiente. Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad conjunta de X1 , . . . , Xn puede escribirse como P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) . Usando la definición de probabilidad condicional, la expresión anterior es equivalente a P (X1 = x1 , . . . , Xn = xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14) Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como: P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ), donde h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s) 71 3.4. Estadı́sticas suficientes y g(S(x); θ) = P [S(X) = s] . ⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que P [ X1 = x1 , . . . , Xn = xn | S(X)] no depende de θ, bajo el supuesto de que la factorización es válida. Se tiene que P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P [X1 = x1 , . . . , Xn = xn , S(X) = s] P[S(X) = s] pero P[S(X) = s] = X P[X1 = x1 , . . . , Xn = xn ], (3.15) As donde: As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s} y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver, por ejemplo, (3.11) y (3.12)). Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como: X X P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x) As As y P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = g(S(x); θ)h(x) P g(s; θ) As h(x) = g(s; θ)h(x) P g(s; θ) As h(x) = P h(x) , As h(x) si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir, P [ X1 = x1 , . . . , Xn = xn | S(X) = s] no depende de θ, por lo que S(X) es una estadı́stica suficiente. Demostración. (Caso continuo): 72 3. Estadı́sticas y distribuciones muestrales Se supone primero la factorización, es decir, fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = Πni=1 f (xi , θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn ) . Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida de la siguiente manera v1 = S (x1 , x2 , . . . , xn ) , vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n; con funciones inversas xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz. Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada por: kV1 ,...,Vn (v1 , . . . , vn ; θ) = |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) . Ası́, la densidad de V1 puede obtenerse como kV1 (v1 ; θ) Z ∞ Z ∞ = ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn −∞ −∞ Z ∞ Z ∞ = g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn . −∞ −∞ Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de integración, además de que la función h no depende de θ. Por lo tanto, la integral múltiple es una función exclusivamente de v1 . Sea m (v1 ) Z ∞ Z = ··· −∞ ∞ |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn , −∞ con lo que kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) . 73 3.4. Estadı́sticas suficientes Note que si m (v1 ) > 0, es posible escribir: g (v1 ; θ) = kV1 (v1 ; θ) , m (v1 ) o g (S (x) ; θ) = kV1 (S (x) ; θ) , m [S (x)] con lo que la factorización que se ha supuesto como hipótesis, se puede reescribir como: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn ) kV1 (S (x) ; θ) = h (x1 , x2 , . . . , xn ) m [S (x)] h (x1 , x2 , . . . , xn ) , = kV1 (S (x) ; θ) m [S (x)] de donde: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn ) = kV1 (S (x) ; θ) m [S (x)] no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente (ver observación 3.3). Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) . Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ. Usando el teorema de factorización: fX1 ,...,Xn (x1 , . . . , xn ; θ) = Pn i=1 Xi n i=1 xi ! e−nθ Qθ (xi ) i=1 I{0,1,... } Qn n Y Pn 1 (xi ) = e|−nθ θ{z i=1 X}i Qn I{0,1,... } x ! i i=1 i=1 g(S(x);θ) | {z } h(x1 ,...,xn ) ∴ S(X) = Pn i=1 Xi es una estadı́stica suficiente para θ. 74 3. Estadı́sticas y distribuciones muestrales Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para θ, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ) = n Y f (xi ; θ) = i=1 n 1 Y (xi ) I . θn i=1 (0,θ) Como todas las observaciones son positivas, es decir xi > 0, para i = 1, 2, . . . , n, se tiene que n Y (x ) i I(0,θ) =1 i=1 siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad conjunta puede escribirse como fX1 ,...,Xn (x1 , . . . , xn ; θ) = 1 (yn ) I , θn (0,θ) concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn } (yn ) es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1. Observe que esta factorización no es única, pueden proponerse otras; pero Yn será la estadı́stica suficiente. Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad: θxθ−1 , 0 < x < 1, 0 < θ f (x; θ) = 0, en otro caso. Se usará el teorema de factorización para probar que el producto S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn es una estadı́stica suficiente para θ. La función de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1 i = θn Πni=1 xθ−1 i θ n n = θ (Πi=1 xi ) 1 Πni=1 xi donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean: θ g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi ) 75 3.4. Estadı́sticas suficientes y h (x1 , x2 , . . . , xn ) = 1 . Πni=1 xi Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar la definición para este ejercicio, era necesario obtener la densidad de la estadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo valioso del teorema de factorización. Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́stica suficiente, pues en el esquema de muestreo aleatorio que se está considerando, la función de densidad conjunta no depende del orden de las variables. A pesar de que la muestra ordenada tiene la misma dimensión que la muestra original, al ordenar se elimina la información irrelevante con relación a la posición con la que se produce cada observación. Una forma de comprobarlo es usando el teorema de factorización. La función de densidad conjunta de X1 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) . En el teorema de factorización, sean: g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) y h (x1 , x2 , . . . , xn ) = n!. Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn ) es una estadı́stica suficiente. Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Logı́stica(µ,σ): f (x; µ, σ) = e−(x−µ)/σ , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0. σ[1 + e−(x−µ)/σ ]2 La función de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) n Y e−(xi −µ)/σ = σ[1 + e−(xi −µ)/σ ]2 i=1 = n! n Y e−(yi −µ)/σ , σ[1 + e−(yi −µ)/σ ]2 i=1 76 3. Estadı́sticas y distribuciones muestrales donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factorizar la función de densidad conjunta de otra manera tal que se pueda aplicar el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es una estadı́stica suficiente. Cabe aclarar que la muestra ordenada se usará como la estadı́stica suficiente sólo cuando no sea posible obtener otra estadı́stica suficiente. 3.4.3. La familia exponencial Hay un conjunto de familias paramétricas de distribuciones que, por sus propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este conjunto se conoce como la clase exponencial o la familia exponencial y su importancia en este momento es que las densidades de esta clase tienen una relación con el concepto de suficiencia, en el sentido de que si se sabe que una densidad pertenece a la familia exponencial, es posible encontrar una estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el caso de dos o más parámetros. Algunas de las distribuciones más conocidas como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama, la Normal y la Beta, pertenecen a la familia exponencial. Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o clase exponencial) si puede factorizarse como: f (x; θ) = a(θ)b(x)ec(θ)d(x) , θ ∈ Θ, − ∞ < x < ∞, donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x. Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia exponencial: 1. Si X tiene distribución Exponencial con parámetro θ, es decir, X ∼ exp (θ), su función de densidad está dada por (x) f (x; θ) = θ · e−θ·x · I(0,∞) . (x) En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x. 77 3.4. Estadı́sticas suficientes 2. Si X tiene distribución Poisson con parámetro θ, es decir X ∼ Poisson (θ), su función de densidad es f (x; θ) = e−θ θx (x) 1 (x) I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) , x! x! de donde puede verse que pertenece a la familia exponencial. 3. Si X tiene distribución Bernoulli con parámetro θ, es decir X ∼ Bernoulli (θ), con f (x; θ) = θx (1 − θ) 1−x = (1 − θ) · I{0,1} · ex·ln( 1−θ ) , (x) θ se tiene que pertenece a la familia exponencial. 4. Si X tiene distribución Geométrica con parámetro θ, es decir X ∼ Geométrica(θ), su función de densidad se puede escribir como x (x) (x) f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) , con lo que se concluye que la distribución Geométrica pertenece a la familia exponencial. Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la familia exponencial. El resultado que se enuncia a continuación proporciona la relación entre los miembros de la familia exponencial y la suficiencia. Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad de la forma f (x; θ) = a(θ)b(x)ec(θ)d(x) , es decir, f (x; θ) pertenece a la familia exponencial. Entonces una estadı́stica suficiente. Pn i=1 d(xi ) es 78 3. Estadı́sticas y distribuciones muestrales Demostración. Usando el teorema de factorización, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ) = Qn a(θ)b(xi )ec(θ)d(xi ) = h n i=1 Pn a (θ) ec(θ) | {z i=1 d(xi ) i · } g(S(X);θ) n Y b(xi ) i=1 | {z } h(X1 ,...,Xn ) ∴ S(X) = n P d(Xi ) es una estadı́stica suficiente para θ. i=1 En la siguiente tabla se muestran algunas de las distribuciones más conocidas que pertenecen a la familia o clase exponencial, aunque en la sección 3.6 se ampliará esta lista. Algunos miembros de la familia exponencial f (x; θ) = a (θ) b (x) exp [c (θ) d (x)] Distribución f (x; θ) a (θ) b (x) c(θ) 1−x θ x Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ n−x n n x n θ Binomial (n, θ) (1 − θ) ln 1−θ x θ (1 − θ) x x Geométrica (θ) θ (1 − θ) θ 1 ln (1 − θ) −θ x 1 e θ −θ e ln θ Poisson (θ) x! x! Exponencial (θ) θe−θx θ 1 −θ 2 Rayleigh (θ) 3.4.4. x x − 2θ 2 θ2 e 1 θ2 x − 2θ12 d (x) x x x x x x2 Suficiencia minimal La idea de la suficiencia es no perder información relevante del parámetro (contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que condense más la información. A tales estadı́sticas se les llama suficientes minimales. Intuitivamente, una estadı́stica es suficiente minimal si cualquier reducción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir, ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a información contenida en la muestra acerca del parámetro. Lo anterior también está asociado con la noción de clases de equivalencia o partición del espacio