Uploaded by Gonzalo Oropeza

Resumen final Probabilidad y Estadística 2 - UCASAL - S. Fernandez

advertisement
Resumen final - Probabilidad y estadística II
Contenido
Distribuciones de probabilidad discretas............................................................................................1
Distribuciones especiales continuas....................................................................................................6
Distribuciones en el muestreo .......................................................................................................... 14
Estimación puntual y por intervalos..................................................................................................20
Test de hipótesis ............................................................................................................................... 32
Demostraciones extra.......................................................................................................................39
Distribuciones de probabilidad discretas
Para recordar: Sean 𝑋 una variable aleatoria discreta, y 𝑓(π‘₯) una función de masa probabilidad, la
media de 𝑋 es
𝑛
𝐸 𝑋 =
π‘₯𝑖 𝑓(π‘₯ 𝑖 )
𝑖=1
Y la varianza de 𝑋 es
𝑛
𝑉 𝑋 =𝐸 𝑋−πœ‡
2
2
=
π‘₯𝑖 − πœ‡ 𝑓(π‘₯ 𝑖 )
𝑖=1
La distribución de probabilidad discreta describe el comportamiento de una variable aleatoria
discreta, independientemente de si se representa de forma gráfica o mediante un histograma, en
forma tabular o con una fórmula. En general, se necesitan sólo unas cuantas distribuciones de
probabilidad importantes para describir muchas de las variables aleatorias discretas que se
encuentran en la práctica.
Distribución Bernoulli
Con frecuencia un experimento consta de pruebas repetidas, cada una con dos resultados posibles
que se pueden denominar éxito o fracaso. El proceso se conoce como proceso de Bernoulli y cada
ensayo se denomina experimento de Bernoulli.
En términos estrictos el proceso de Bernoulli se caracteriza por lo siguiente:
1. El experimento consta de ensayos repetidos.
2. Cada ensayo produce un resultado que se puede clasificar como éxito o fracaso.
3. La probabilidad de un éxito, que se denota con 𝑝, permanece constante de un ensayo a
otro.
4. Los ensayos repetidos son independientes.
1
Sea 𝑋 la variale aleatoria cuyos valores pueden ser 1 o 0, es decir un éxito o un fracaso y sea 𝑝 el
valor de la probabilidad de que el resultado sea un éxito, la distribución de probabilidad de 𝑋 será
1−π‘₯
π‘₯
𝑠𝑖 π‘₯ = 0,1
𝑝 π‘₯ = 𝑝 1−𝑝
0 𝑒𝑛 π‘œπ‘‘π‘Ÿπ‘œ π‘π‘Žπ‘ π‘œ
Lo que es equivalente a decir que la probabilidad de ocurrencia de 𝑋 es 𝑝 cuando π‘₯ = 1, y será 1 − 𝑝
en el caso de que π‘₯ = 0.
La media y la varianza están determinadas por:
𝐸 𝑋 = 1𝑝 + 0 1 − 𝑝 = 𝑝
𝑉 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋
2
= 𝑝 − 𝑝2 = 𝑝 1 − 𝑝
Distribución binomial 𝒃(𝒙; 𝒏, 𝒑)
El número 𝑋 de éxitos en 𝑛 experimentos de Bernoulli se denomina variable aleatoria binomial. La
distribución de probabilidad de esta variable aleatoria discreta se llama distribución binomial y sus
valores se denotarán como 𝑏(π‘₯;𝑛,𝑝), ya que dependen del número de ensayos y de la probabilidad
de éxito en un ensayo dado. La distribución binomial, por lo tanto, debe satisfacer las mismas
condiciones planteadas para un proceso de Bernoulli.
La distribución de probabilidad de la variable aleatoria binomial 𝑋, el número de éxitos en 𝑛
ensayos independientes, es
𝑛−π‘₯
𝑛 π‘₯
𝑠𝑖 π‘₯ = 0,1,2,…,𝑛
𝑝 1−𝑝
π‘₯
0 𝑒𝑛 π‘œπ‘‘π‘Ÿπ‘œ π‘π‘Žπ‘ π‘œ
𝑝 π‘₯;𝑛,𝑝 =
Demostración
En los 𝑛 ensayos se han producido π‘₯ éxitos y 𝑛 − π‘₯ fracasos, por lo tanto siendo ensayos
𝑛−π‘₯
. Pero, en los 𝑛 ensayos
independientes la probabilidad de obtener estos resultados es 𝑝π‘₯ 1 − 𝑝
𝑛
realizados hay π‘₯ formas diferentes de obtener los π‘₯ éxitos y los 𝑛 − π‘₯ fracasos. Este número es
entonces un factor para el valor de probabilidad anterior.
Por lo tanto, la distribución de probabilidad acumulada es
π‘Ÿ
𝑃[𝑋 ≤ π‘Ÿ] =
π‘₯=0
𝑛 π‘₯ 𝑛−π‘₯
𝑝 π‘ž
π‘₯
La media y la varianza de esta distribución de probabilidad son:
𝑛
𝑛
𝐸 𝑋 =𝐸
𝑋𝑖 =
𝑖=1
𝑛
𝐸 𝑋𝑖 =
𝑖=1
𝑝 = 𝑛𝑝
𝑖=1
2
𝑛
𝑛
𝑉 𝑋 =𝑉
𝑛
𝑋𝑖 =
𝑖=1
𝑉 𝑋𝑖 =
𝑖=1
𝑝(1 − 𝑝) = 𝑛𝑝(1 − 𝑝)
𝑖=1
Distribución hipergeométrica 𝒉(𝒙; 𝑡, 𝒏, π’Œ)
Los tipos de aplicaciones de la distribución hipergeométrica son muy similares a los de la
distribución binomial. Nos interesa el cálculo de probabilidades para el número de observaciones
que caen en una categoría específica. La distribución binomial requiere que los ensayos sean
independientes, a diferencia de la distribución hipergeométrica, la cual no requiere independencia
y se basa en el muestreo que se realiza sin reemplazo.
El experimentó hipergeométrico posee las siguientes dos propiedades:
1. De un lote de 𝑁 artículos se selecciona una muestra aleatoria de tamaño 𝑛 sin reemplazo.
2. π‘˜ de los 𝑁 artículos se pueden clasificar como éxitos y 𝑁 − π‘˜ se clasifican como fracasos.
La distribución de probabilidad de la variable aleatoria hipergeométrica 𝑋, el número de éxitos en
una muestra aleatoria de tamaño 𝑛 que se selecciona de 𝑁 artículos, en los que π‘˜ se denomina
éxito y 𝑁 – π‘˜ fracaso, es
π‘˜
β„Ž π‘₯; 𝑁, 𝑛, π‘˜ = π‘₯
𝑁−π‘˜
𝑛−π‘₯
𝑁
𝑛
π‘šáπ‘₯ {0, 𝑛 − (𝑁 − π‘˜)} ≤ π‘₯ ≤ π‘ší𝑛{𝑛, π‘˜}
Demostración
El número total de muestras de tamaño 𝑛 elegidas de 𝑁 artículos es
muestras tienen la misma probabilidad. Hay
π‘˜
π‘₯
𝑁
𝑛
. Se supone que estas
formas de seleccionar π‘₯ éxitos de los π‘˜
3
disponibles, y por cada una de estas formas podemos elegir 𝑛 − π‘₯ fracasos en formas 𝑁 − π‘˜ . De
𝑛−π‘₯
𝑁
esta manera, el número total de muestras favorables entre las 𝑛 muestras posibles, está dado
por π‘˜
𝑛
𝑁 − π‘˜ . En consecuencia, se plantea la distribución de probabilidad anterior.
𝑛−π‘₯
La media y la varianza de la distribución hipergeométrica son:
𝐸 𝑋 =
π‘›π‘˜
𝑁
𝑉 𝑋 =
π‘›π‘˜
𝑁
1−
π‘˜
𝑁
𝑁−𝑛
𝑁−𝑛
= π‘›π‘π‘ž
𝑁−1
𝑁−1
‍ Demostración:
Además, como 𝐸 𝑋 = π‘›π‘˜/𝑁, podemos concluir que
π‘‰π‘Žπ‘Ÿ π‘₯ =
π‘›π‘˜ 𝑛 − 1 π‘˜ − 1
π‘›π‘˜
+1−
𝑁
𝑁−1
𝑁
Tomando 𝑝 = π‘˜/𝑁 y usando la identidad
1−𝑝
π‘˜ − 1 𝑁𝑝 − 1
=𝑝−
=
𝑁−1
𝑁−1 𝑁−1
obtenemos
π‘‰π‘Žπ‘Ÿ 𝑋 = 𝑛𝑝 𝑛 − 1 𝑝 − 𝑛 − 1
1−𝑝
+ 1 − 𝑛𝑝 = 𝑛𝑝 1 − 𝑝
𝑁−1
𝑁−𝑛
𝑁−1
4
Aproximación de la distribución hipergeométrica por medio de una distribución binomial:
Si 𝑛 es pequeña comparada con 𝑁, la naturaleza de los 𝑁 artículos cambia muy poco en cada
prueba. De esta forma se puede utilizar una distribución binomial para aproximar la distribución
hipergeométrica. De hecho, por regla general la aproximación es buena cuando 𝑛/𝑁 ≤ 0,05.
Por lo tanto, la cantidad π‘˜/𝑁 desempeña el papel del parámetro binomial 𝑝 y, como consecuencia,
la distribución binomial se podría considerar una versión de población grande de la distribución
hipergeométrica.
𝑏 π‘₯; 𝑛, 𝑝 ≈ β„Ž(π‘₯; 𝑁, 𝑛, π‘˜)
La media y la varianza entonces se obtienen de las fórmulas:
πœ‡ = 𝑛𝑝 = 𝑁 y 𝜎 2 = π‘›π‘π‘ž = 𝑁 1 − 𝑁
π‘›π‘˜
π‘›π‘˜
π‘˜
Distribución de Poisson 𝒑(𝒙; 𝝀𝒕)
El proceso de Poisson es una sucesión de fallas o acontecimientos puntuales, que ocupan
individualmente una porción despreciable en un medio continuo. Ese medio continuo puede ser
un intervalo dado de tiempo o una región específica. Por ejemplo, un experimento de Poisson
podría generar observaciones para la variable aleatoria 𝑋 que representa el número de llamadas
telefónicas por hora que recibe una oficina.
Un experimento de Poisson se deriva del proceso de Poisson y tiene las siguientes propiedades:
1. El número de resultados que ocurren en un intervalo o región específica es independiente
del número que ocurre en cualquier otro intervalo de tiempo o región del espacio
disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria.
2. La probabilidad de que ocurra un solo resultado durante un intervalo de tiempo muy corto
o en una región pequeña es proporcional a la longitud del intervalo o al tamaño de la
región, y no depende del número de resultados que ocurren fuera de este intervalo de
tiempo o región.
3. La probabilidad de que ocurra más de un resultado en tal intervalo de tiempo corto o que
caiga en tal región pequeña es insignificante.
De modo que la probabilidad de que ocurra un número dado 𝑋 de fallas (acontecimientos) en una
extensión 𝑇 de continuo es independiente de la posición de 𝑇 dentro del continuo y de la
ocurrencia de fallas en otros tramos. El número medio de resultados se calcula a partir de πœ‡ = πœ†π‘‘,
donde 𝑑 es el tiempo o la región de interés; y donde πœ† es el número promedio de resultados por
unidad de tiempo, distancia, área o volumen:
πœ†=
𝑛úπ‘šπ‘’π‘Ÿπ‘œ 𝑑𝑒 π‘“π‘Žπ‘™π‘™π‘Žπ‘ 
π‘’π‘›π‘–π‘‘π‘Žπ‘‘ 𝑑𝑒 𝑒π‘₯𝑑𝑒𝑛𝑠𝑖ó𝑛 𝑑𝑒𝑙 π‘π‘œπ‘›π‘‘íπ‘›π‘’π‘œ
La distribución de probabilidad de la variable aleatoria de Poisson está dada por
𝑝(π‘₯;πœ†π‘‘) =
𝑒 −πœ†π‘‘ πœ†π‘‘ π‘₯
π‘₯!
=
𝑒 −πœ‡πœ‡ π‘₯
, π‘₯ = 0,1,2,3, …
π‘₯!
5
Y por ende, su probabilidad acumulada será
π‘Ÿ
𝑝 π‘Ÿ ≤ π‘₯;πœ†π‘‘ =
𝑝(π‘₯;πœ†π‘‘)
π‘₯=0
Tanto la media como la varianza de la distribución de Poisson son
𝐸 𝑋 = πœ†π‘‘ = πœ‡
𝑉(𝑋) = πœ†π‘‘ = πœ‡
Demostración
Al igual que muchas distribuciones discretas y continuas, la forma de la distribución de Poisson se
vuelve cada vez más simétrica, incluso con forma de campana, a medida que la media se hace más
grande.
Aproximación de una distribución binomial por medio de una distribución de Poisson:
En el caso de la distribución binomial, si 𝑛 es bastante grande y 𝑝 es pequeña, las condiciones
comienzan a simular las implicaciones de espacio o tiempo continuos del proceso de Poisson. La
independencia entre las pruebas de Bernoulli en el caso binomial es consistente con la segunda
propiedad del proceso de Poisson. Permitir que el parámetro 𝑝 se acerque a cero se relaciona con
la tercera propiedad del proceso de Poisson. De hecho, si 𝑛 es grande y 𝑝 es cercana a 0, se puede
usar la distribución de Poisson, con πœ‡ = 𝑛𝑝, para aproximar probabilidades binomiales.
Sea 𝑋 una variable aleatoria binomial con distribución de probabilidad 𝑏(π‘₯; 𝑛, 𝑝). Cuando 𝑛 → ∞,
𝑝 → 0, y 𝑛𝑝 → πœ‡ permanece constante,
𝑛 → ∞
𝑏 π‘₯; 𝑛, 𝑝 → 𝑝(π‘₯; πœ‡)
Esta aproximación es aceptable para la distribución binomial si 𝑛 ≥ 20 y 𝑝 ≤ 0,05.
6
Como la variable aleatoria binomial tiene un valor esperado 𝑛𝑝 = πœ† y una varianza 𝑛𝑝 1 − 𝑝 =
πœ†(1 − 𝑝) ≈ πœ† (porque 𝑝 es pequeño), parecería que tanto la esperanza y la varianza de la variable
aleatoria de Poisson son iguales al parámetro πœ†.
Distribuciones especiales continuas
Para recordar: Sean 𝑋 una variable aleatoria continua, y 𝑓(π‘₯) una función de densidad de
probabilidad, la media de 𝑋 es
∞
πœ‡ =𝐸 𝑋 =
π‘₯𝑓 π‘₯ 𝑑π‘₯
−∞
y la varianza de 𝑋 es
∞
𝜎2 = 𝑉 𝑋 = 𝐸 𝑋 − πœ‡
2
Distribución uniforme 𝒇(𝒙 ; 𝑨, 𝑩 )
2
=
π‘₯ − πœ‡ 𝑓 π‘₯ 𝑑π‘₯
−∞
Una de las distribuciones continuas más simples de la estadística es la distribución uniforme
continua. Esta distribución se caracteriza por una función de densidad que es “plana”, por lo cual
la probabilidad es uniforme en un intervalo cerrado, digamos [𝐴, 𝐡].
La función de densidad de la variable aleatoria uniforme continua 𝑋 en el intervalo [𝐴, 𝐡] es
1
, 𝐴 ≤π‘₯ ≤𝐡
𝑓 π‘₯ ; 𝐴, 𝐡 = 𝐡 − 𝐴
0, 𝑒𝑛 π‘œπ‘‘π‘Ÿπ‘œ π‘π‘Žπ‘ π‘œ
La distribución de densidad será:
𝛽
𝑓 𝛼 ≤𝑋 ≤𝛽 =
1
β…†π‘₯
𝛼𝐡−𝐴
La función de densidad forma un rectángulo con base 𝐡 − 𝐴 y altura constante 𝐡−𝐴 . La aplicación
1
de esta distribución se basa en el supuesto de que la probabilidad de caer en un intervalo de
longitud fija dentro de [𝐴, 𝐡] es constante. A continuación se muestra un ejemplo del gráfico de la
función de densidad para una variable aleatoria en el intervalo [1,3].
7
La media y la varianza de la distribución uniforme son:
𝐸(𝑋) =
𝐴+𝐡
2
𝑉 𝑋 =
𝐡−𝐴
12
2
Demostración
Para el caso de la esperanza:
Ahora, para calcular la varianza es necesario calcular primero 𝐸[𝑋 2 ]:
Entonces:
Distribución normal 𝒏(𝒙; 𝝁, 𝝈𝟐 )
8
La ecuación matemática para la distribución de probabilidad de la variable normal depende de los
dos parámetros πœ‡ y 𝜎 2, su media y su varianza, respectivamente. Por ello, denotamos los valores
de la densidad de 𝑋 por 𝑛(π‘₯; πœ‡, 𝜎 2 ).
La densidad de la variable aleatoria normal 𝑋, con media πœ‡ y varianza 𝜎 2, es
𝑛 π‘₯;πœ‡,𝜎 2 =
1
β…‡
𝜎 2πœ‹
−
π‘₯−πœ‡
2𝜎2
2
,
−∞ <π‘₯ <∞
Su esperanza varianza son, por lo tanto
𝐸(𝑋) = πœ‡
π‘‰π‘Žπ‘Ÿ(𝑋) = 𝜎 2
Demostración
Empecemos encontrando la media y la varianza de la variable aleatoria normal estándar 𝑧 =
Tenemos:
𝑋−πœ‡
.
𝜎
Por lo tanto
Integrando por partes (con 𝑒 = π‘₯ y 𝑑𝑣 = π‘₯𝑒 −π‘₯ /2) nos da como resultado
2
Y como 𝑋 = πœ‡ + πœŽπ‘, se obtienen los resultados
𝐸 𝑋 = πœ‡ + 𝜎𝐸 𝑍 = πœ‡
y
π‘‰π‘Žπ‘Ÿ 𝑋 = 𝜎 2 π‘‰π‘Žπ‘Ÿ 𝑍 = 𝜎 2
9
Una vez que se especifican πœ‡ y 𝜎, la curva normal queda determinada por completo. Su gráfica es
de forma de campana, centrada alrededor de πœ‡. Como el área total bajo la distribución normal de
probabilidad es igual a 1, la simetría implica que el área a la derecha de πœ‡ es 0,5 y el área a la
izquierda de πœ‡ es también 0,5. La forma de la distribución está determinada por 𝜎, la desviación
estándar de la población. Como se puede ver en la figura, valores grandes de 𝜎 reducen la altura
de la curva y aumentan la dispersión; valores pequeños de 𝜎 aumentan la altura de la curva y
reducen la dispersión. Observamos el factor de posición, cuando las medias son diferentes, y el
factor de dispersión cuando las varianzas son diferentes.
Propiedades de la curva normal:
1. La moda, que es el punto sobre el eje horizontal donde la curva tiene su punto máximo,
ocurre en π‘₯ = πœ‡.
2. La curva es simétrica alrededor de un eje vertical a través de la media πœ‡.
3. La curva tiene sus puntos de inflexión en π‘₯ = πœ‡ ± 𝜎, es cóncava hacia abajo si πœ‡ − 𝜎 < 𝑋 <
πœ‡ + 𝜎, y es cóncava hacia arriba en otro caso.
4. La curva normal se aproxima al eje horizontal de manera asintótica, conforme nos
alejamos de la media en cualquier dirección.
5. El área total bajo la curva y sobre el eje horizontal es igual a uno.
Área bajo la curva
La curva de cualquier distribución continua de probabilidad o función de densidad se construye de
manera que el área bajo la curva limitada por las dos ordenadas π‘₯ = π‘₯1 y π‘₯ = π‘₯2 sea igual a la
probabilidad de que la variable aleatoria 𝑋 tome un valor entre las ordenadas. Por consiguiente,
para la curva normal de la figura
π‘₯2
𝑃 π‘₯1 < 𝑋 < π‘₯2 =
𝑛 π‘₯;πœ‡,𝜎 𝑑π‘₯ =
π‘₯1
1
𝜎 2πœ‹
π‘₯2
β…‡
−
(π‘₯−πœ‡) 2
2𝜎 2
𝑑π‘₯
π‘₯1
es representada por el área de la región sombreada.
10
Distribución normal estándar 𝒁~𝒏 𝟎,𝟏
Sea 𝑋 una variable aleatoria normal, es decir
𝑋~𝑛(πœ‡,𝜎 2 )
podemos transformar todas las observaciones de esta variable en un nuevo conjunto de
observaciones de una variable aleatoria normal 𝑍 con media 0 y varianza 1. Esto se puede realizar
mediante la transformación:
𝑍=
𝑋−πœ‡
𝜎
Siempre que 𝑋 tome un valor π‘₯, el valor correspondiente de 𝑍 es dado por 𝑧 =
π‘₯−πœ‡
. Por lo tanto, si
𝜎
𝑋 cae entre los valores π‘₯ = π‘₯1 y π‘₯ = π‘₯2 , la variable aleatoria 𝑍 caerá entre los valores
correspondientes 𝑧1 =
π‘₯ 1−πœ‡
y 𝑧2
𝜎
=
π‘₯ 2−πœ‡
.
𝜎
La distribución de una variable aleatoria normal con media 0 y varianza 1 se llama distribución
normal estándar y se representa como
𝑍~𝑛(0,1)
Aproximación normal a la binomial
La distribución normal a menudo es una buena aproximación a una distribución discreta cuando la
última adquiere una forma de campana simétrica. Desde un punto de vista teórico, algunas
distribuciones convergen a la normal a medida que sus parámetros se aproximan a ciertos límites.
Si 𝑋 es una variable aleatoria binomial con media πœ‡ = 𝑛𝑝 y varianza 𝜎 2 = π‘›π‘π‘ž, entonces la forma
limitante de la distribución de
𝑍=
𝑋 − 𝑛𝑝
π‘›π‘π‘ž
conforme 𝑛 → ∞, es la distribución normal estándar 𝑛(𝑧;0,1).
Para ilustrar la aproximación normal a la distribución binomial primero dibujamos el histograma
para 𝑏(π‘₯; 15, 0,4) y después superponemos la curva normal particular con la misma media y
varianza. El grado de exactitud, que depende de qué tan bien se ajuste la curva al histograma, se
incrementa a medida que aumenta 𝑛.
11
Si buscamos el área bajo la curva normal hacia la izquierda de, digamos π‘₯, es más preciso utilizar
π‘₯ + 0,5, para así abarcar el rectángulo completo correspondiente a la distribución binomial. Esto es
una corrección para dar cabida al hecho de que una distribución discreta se aproxima mediante
una distribución continua. La corrección + 0,5 se llama corrección de continuidad. La explicación
anterior conduce a la siguiente aproximación normal formal a la binomial.
Sea 𝑋 una variable aleatoria binomial con parámetros 𝑛 y 𝑝. Para una 𝑛 grande, 𝑋 tiene
aproximadamente una distribución normal con πœ‡ = 𝑛𝑝 y 𝜎 2 = 𝑛𝑝(1 – 𝑝):
π‘₯
𝑏 π‘˜; 𝑛, 𝑝 ≈ 𝑃 𝑍 ≤
𝑃 𝑋 ≤ π‘₯ =
𝑋 + 0,5 − 𝑛𝑝
π‘˜=0
π‘›π‘π‘ž
y la aproximación será buena si 𝑛𝑝 y 𝑛(1 – 𝑝) son mayores o iguales a 5.
Distribución gamma 𝒇(𝒙 ; 𝜢, 𝜷)
Se define la función gama como
∞
𝑦𝛼−1 𝑒 −π‘₯ 𝑑π‘₯, 𝛼 > 0
𝛀 𝛼 =
0
Algunas propiedades de ella son:
1) 𝛀(𝑛) = (𝑛 − 1)! para una integral positiva 𝑛.
2) 𝛀(1) = 1.
3) 𝛀(1/2) = πœ‹.
La variable aleatoria continua 𝑋 tiene una distribución gamma, con parámetros 𝛼 y 𝛽, si su función
de densidad está dada por
1
π‘₯𝛼−1 ⋅ 𝑒 −π‘₯ 𝛽 , π‘₯ > 0
𝑓 π‘₯; 𝛼, 𝛽 = 𝛽 π‘Ž 𝛀 𝛼
0,
𝑒𝑛 π‘œπ‘‘π‘Ÿπ‘œ π‘π‘Žπ‘ π‘œ
donde 𝛼 > 0 y 𝛽 > 0.
En la figura se muestran gráficas de varias distribuciones gamma para ciertos valores específicos
de los parámetros 𝛼 y 𝛽. La distribución gamma especial para la que 𝛼 = 1 se llama distribución
exponencial.
12
La media y la varianza de la distribución gamma son:
𝐸(𝑋) = 𝛼𝛽
π‘‰π‘Žπ‘Ÿ(𝑋) = 𝛼𝛽 2
‍ Demostración
La distribución gamma generalmente representa la cantidad de tiempo que hay que esperar para
que un total de 𝑛 eventos ocurran. Observe que la media de la distribución exponencial es el
parámetro 𝛽, el recíproco del parámetro en la distribución de Poisson. Debemos recordar que con
frecuencia se dice que la distribución de Poisson no tiene memoria, lo cual implica que las
ocurrencias en periodos sucesivos son independientes. El importante parámetro 𝛽 es el tiempo
promedio entre eventos. En la teoría de confiabilidad, donde la falla de equipo con frecuencia se
ajusta a este proceso de Poisson, 𝛽 se denomina tiempo medio entre fallas.
Distribución chi cuadrada 𝒇 𝒙;𝒗
13
Un caso especial muy importante de la distribución gamma se obtiene al permitir que 𝛼 = 𝑣/2 y 𝛽 =
2, donde 𝑣 es un entero positivo. Este resultado se conoce como distribución chi cuadrada. La
distribución tiene un solo parámetro, 𝑣, denominado grados de libertad.
La variable aleatoria continua 𝑋 tiene una distribución chi cuadrada, con 𝑣 grados de libertad, si su
función de densidad es dada por
1
𝑓 π‘₯;𝑣 = 2
𝑣/2
𝛀 𝑣/2
0,
π‘₯𝑣/2−1 ⋅ 𝑒 −π‘₯ 2 , π‘₯ > 0
𝑒𝑛 π‘œπ‘‘π‘Ÿπ‘œ π‘π‘Žπ‘ π‘œ
donde 𝑣 es un entero positivo.
La distribución chi cuadrada es un componente importante de la prueba estadística de hipótesis y
de la estimación estadística. Los temas en los que se trata con distribuciones de muestreo, análisis
de varianza y estadística no paramétrica implican el uso extenso de la distribución chi cuadrada.
La media y la varianza de la distribución chi cuadrada son
𝐸(𝑋) = 𝑣
𝑉(𝑋) = 2𝑣
Se puede demostrar fácilmente con el uso de la función generatriz de momentos y de la relación
de la chi-cuadrado con la distribución Gamma, la media y varianza de la distribución chi cuadrada.
La probabilidad de que una muestra aleatoria produzca un valor πœ’2 mayor que algún valor
específico es igual al área bajo la curva a la derecha de este valor. El valor πœ’2 por arriba del cual se
encuentra un área de 𝛼 a la derecha por lo general se representa con πœ’2𝛼 . Esto se ilustra mediante
la región sombreada de la figura.
Exactamente 95% de una distribución chi cuadrada cae entre πœ’20,975 y πœ’20,025. Un valor fuera de
este intervalo no tiene probabilidad de ocurrir, a menos que el valor de 𝜎 2, lo que probablemente
sea un error.
Distribuciones en el muestreo
Una población consta de la totalidad de las observaciones en las que estamos interesados. El
número de observaciones en la población se define como el tamaño de la población. Una muestra
es un subconjunto de una población.
14
La inferencia estadística se interesa por sacar conclusiones a partir de la población usando una
muestra. Para que las inferencias que hacemos sobre la población sean válidas, debemos obtener
muestras que sean representativas de ella. Con mucha frecuencia nos sentimos tentados a elegir
una muestra seleccionando a los miembros más convenientes de la población. Tal procedimiento
podría conducir a inferencias erróneas respecto a la población. Se dice que cualquier
procedimiento de muestreo que produzca inferencias que sobreestimen o subestimen de forma
consistente alguna característica de la población está sesgado. Para eliminar cualquier posibilidad
de sesgo en el procedimiento de muestreo es deseable elegir una muestra aleatoria, lo cual
significa que las observaciones se realicen de forma independiente y al azar.
Sean 𝑋 1 , 𝑋 2 ,…, 𝑋 𝑛 variables aleatorias independientes 𝑛, cada una con la misma distribución de
probabilidad 𝑓(π‘₯). Definimos π‘₯1 , π‘₯2 ,…, π‘₯𝑛 como una muestra aleatoria de tamaño 𝑛 de la
población y escribimos su distribución de probabilidad conjunta como
𝑓(π‘₯ 1 , π‘₯2 ,…, π‘₯𝑛 ) = 𝑓(π‘₯ 1 ) 𝑓(π‘₯ 2 )···π‘“(π‘₯ 𝑛 )
Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama
estadístico. Este es una función que, para valores de estas variables, devuelve un número real. En
el campo de la inferencia estadística, el estadístico se interesa en llegar a conclusiones respecto a
una población, cuando es imposible o poco práctico conocer todo el conjunto de observaciones
que la constituyen. Hay muchos estadísticos con diferentes objetivos. Uno de estos es
el estimador. Los más utilizados son:
a) Media muestral:
𝑋=
∑ 𝑛𝑖=1 𝑋 𝑖
𝑛
El término media muestral se aplica tanto al estadístico 𝑋 como a su valor calculado π‘₯.
b) Mediana muestral: indica el valor central de la muestra.
c) Moda muestral: es el valor que ocurre con mayor frecuencia en la muestra.
d) Varianza muestral:
𝑛
1
𝑆 =
𝑛−1
2
𝑋 𝑖 − 𝑋̄
2
𝑖=1
El valor calculado de 𝑆 2 para una muestra dada se denota con 𝑠 2 . Observe que 𝑆 2 se define
esencialmente como el promedio de los cuadrados de las desviaciones de las observaciones a
partir de su media, dividido por 𝑛 − 1, y no por 𝑛.
e) Desviación estándar muestral:
f)
Rango muestral:
𝑆 = 𝑆2
𝑅 = 𝑋 π‘šáπ‘₯ − 𝑋 π‘ší𝑛
15
La distribución de probabilidad de un estadístico se denomina distribución muestral. Se deberían
considerar las distribuciones muestrales de 𝑋 y 𝑆 2 como los mecanismos a partir de los cuales se
puede hacer inferencias acerca de los parámetros πœ‡ y 𝜎 2 respectivamente.
Distribución muestral de la media
Sea una población con media πœ‡ y varianza 𝜎 2, y sea una variable aleatoria 𝑋 tal que
𝑋~π‘›π‘œπ‘Ÿπ‘šπ‘Žπ‘™ πœ‡,𝜎 2
La distribución de las medias de las muestras aleatorias (con reposición) de tamaño 𝑛 tiene por
media πœ‡ y varianza 𝑛 . Escribimos
𝜎2
𝑋~π‘›π‘œπ‘Ÿπ‘šπ‘Žπ‘™ πœ‡,
𝜎2
𝑛
Esta distribución muestral describe la variabilidad de los promedios muestrales alrededor de la
media de la población πœ‡. La aproximación normal para 𝑋 por lo general será buena si 𝑛 ≥ 30. Si 𝑛 <
30, la aproximación será buena solo si la población no es muy diferente de una distribución
normal. Si se sabe que la población es normal, la distribución muestral de 𝑋 seguirá siendo una
distribución normal exacta, sin importar qué tan pequeño sea el tamaño de las muestras.
Teorema del límite central
Dada una población, con media πœ‡ y desviación típica 𝜎 finitas, y seleccionamos al azar muestras
aleatorias de tamaño 𝑛 con media 𝑋, entonces a medida que 𝑛 crece, la distribución
𝑍=
𝑋−πœ‡
𝜎 𝑛
se aproxima a una distribución normal estándar.
Distribución muestral para la diferencia entre dos medias
Si se extraen al azar muestras independientes de tamaños 𝑛 1 y 𝑛 2 de dos poblaciones, discretas
o continuas, con medias πœ‡1 y πœ‡2 y varianzas 𝜎21 y 𝜎22, respectivamente, entonces la distribución
muestral de las diferencias de las medias, 𝑋 1 − 𝑋 2, tiene una distribución aproximadamente
normal, con media y varianza dadas por
πœ‡π‘‹
1−𝑋 2
= πœ‡1 − πœ‡2
y
𝜎2
𝑋 1−𝑋 2
=
𝜎 21
𝑛1
+
𝜎 22
𝑛2
De aquí,
16
𝑍=
𝑋 1 − 𝑋 2 − (πœ‡1 − πœ‡2 )
(𝜎 21/𝑛 1 ) + (𝜎 22/𝑛 2 )
es aproximadamente una variable normal estándar.
Si tanto 𝑛 1 como 𝑛 2 son mayores o iguales que 30, la aproximación normal para la distribución de
𝑋 1 − 𝑋 2 es muy buena cuando las distribuciones subyacentes no están tan alejadas de la normal.
Distribución muestral de la varianza
La distribución muestral de la varianza produce información acerca de la variabilidad de los valores
de 𝑆 2 alrededor de 𝜎 2 en experimentos que se repiten.
Si 𝑆 2 es la varianza de una muestra aleatoria de tamaño 𝑛 que se toma de una población normal
que tiene la varianza 𝜎 2 entonces el estadístico
2
πœ’ =
(𝑛 − 1)𝑆 2
𝜎2
𝑛
=
𝑖=1
𝑋𝑖 − 𝑋
2
𝜎2
tiene una distribución chi cuadrada con 𝑛 − 1 grados de libertad. hay 1 grado menos de libertad, o
se pierde un grado de libertad al estimar πœ‡.
Demostración
Distribución t
Sea 𝑍 una variable aleatoria normal estándar y 𝑉 una variable aleatoria chi cuadrada con 𝑣 grados
de libertad. Si 𝑍 y 𝑉 son independientes, entonces la distribución de la variable aleatoria 𝑇, donde
17
𝑇=
𝑍
=
(𝑋 − πœ‡)/(𝜎/ 𝑛)
𝑆 2 /𝜎 2
𝑉
𝑣
es dada por la función de densidad
𝑣+1
2
𝑑 =
𝑣
πœ‹π‘£ 𝛀
2
𝛀
𝑓𝑇
𝑑2
1+
𝑣
−
𝑣+1
2
,
−∞ <𝑑 <∞
Se conoce como la distribución t con 𝑣 grados de libertad.
La media y la varianza de la distribución t son:
𝐸(𝑑) = 0
π‘‰π‘Žπ‘Ÿ(𝑑) =
𝑛
𝑛−2
La distribución de 𝑇 se parece a la distribución de 𝑍 en que ambas son simétricas alrededor de una
media de cero. Ambas distribuciones tienen forma de campana, pero la distribución t es más
variable debido al hecho de que los valores 𝑇 dependen de las fluctuaciones de dos cantidades, 𝑋
y 𝑆 2; mientras que los valores 𝑍 dependen sólo de los cambios en 𝑋 de una muestra a otra. Si el
tamaño de la muestra es pequeño, los valores de 𝑆 2 fluctúan de forma considerable de una
muestra a otra y la distribución de 𝑇 se desvía de forma apreciable de la de una distribución
normal estándar. Sólo cuando el tamaño de la muestra 𝑛 → ∞ las dos distribuciones serán iguales.
En la primera figura se presenta la relación entre una distribución normal estándar (𝑣 = ∞) y las
distribuciones t con 2 y 5 grados de libertad.
El valor 𝑑 por arriba del cual se encuentra un área igual a 𝛼 por lo general se representa con 𝑑𝛼.
Como la distribución t es simétrica alrededor de una media de cero, tenemos 𝑑1−𝛼 = − 𝑑𝛼 (segunda
figura).
Exactamente 95% de los valores de una distribución t con 𝑣 = 𝑛 − 1 grados de libertad caen entre
− 𝑑0,025 y 𝑑0,025. Si esto no ocurriera, tendríamos que tomar la decisión de que el valor de πœ‡ que
supusimos es erróneo.
¿Para qué se utiliza la distribución t?
18
Si el tamaño de la muestra es suficientemente grande, digamos 𝑛 ≥ 30, la distribución de 𝑇 no
difiere mucho de la normal estándar. Supongamos que la población es normal con media y
varianza desconocidas y que se desea hacer inferencias acerca de πœ‡, basada en una muestra
pequeña (𝑛 < 30) tomada de la población. En este caso la distribución de la media muestral 𝑋 ya
no es normal, sino que sigue la distribución t. Entonces el estadístico
𝑇=
𝑋−πœ‡
𝑆/ 𝑛
se distribuye como una t de Student con 𝑛 − 1 grados de libertad.
Distribución F
El estadístico 𝐹 se define como el cociente de dos variables aleatorias chi cuadradas
independientes, dividida cada una entre su número de grados de libertad. En consecuencia,
podemos escribir
𝐹=
π‘ˆ 𝑣1
𝑉 𝑣2
≡
𝐹(𝑛,π‘š)
donde π‘ˆ y 𝑉 son variables aleatorias independientes que tienen distribuciones chi cuadrada con
𝑣1 y 𝑣2 grados de libertad.
La distribución de 𝐹 es dada por la función de densidad
h(𝑓) =
𝑣1
𝑣2
𝑣1
2
𝑣1 + 𝑣2 𝑣
𝑣 +𝑣
1
−1
− 1 2
2
2
𝑓
(𝑣1 + 𝑣2 ) 2 ,𝑓 > 0
𝑣1
𝑣2
𝛀
𝛀
2
2
𝛀
Esta se conoce como la distribución F con 𝑣1 y 𝑣2 grados de libertad.
Su media y varianza están determinadas por:
𝐸(𝑓) =
𝑣2
𝑣2 − 2
π‘‰π‘Žπ‘Ÿ(𝑓) =
2𝑣22 (𝑣1 + 𝑣2 − 2)
𝑣1 (𝑣2 − 2)2 (𝑣2 − 4)
Sea 𝑓 𝛼 el valor 𝑓 por arriba del cual encontramos un área igual a 𝛼. Esto se ilustra mediante la
región sombreada de la figura.
19
Al escribir 𝑓 𝛼 (𝑣1 , 𝑣2 ) para 𝑓 𝛼 con 𝑣1 y 𝑣2 grados de libertad, obtenemos
𝑓 1−𝛼 𝑣1 , 𝑣2 =
1
𝑓 𝛼 (𝑣2 , 𝑣1 )
La distribución F con dos varianzas muestrales
Si 𝑆21 y 𝑆22 son las varianzas de muestras aleatorias independientes de tamaño 𝑛 1 y 𝑛 2 tomadas de
poblaciones normales con varianzas 𝜎21 y 𝜎22, respectivamente, entonces
𝐹=
𝑆 21/𝜎 21
𝑆 22/𝜎 22
=
𝜎 22𝑆 21
𝜎 21𝑆 22
tiene una distribución F con 𝑣1 = 𝑛 1 − 1 y 𝑣2 = 𝑛 2 − 1 grados de libertad.
Aclaraciones
ο‚·
ο‚·
ο‚·
ο‚·
Suponga que se quiere utilizar el estadístico 𝑋 para hacer inferencias acerca de la media de
la población πœ‡, lo cual se hace utilizando el valor observado π‘₯ de una sola muestra de
tamaño 𝑛. Luego, cualquier inferencia deberá hacerse tomando en cuenta no sólo el valor
único, sino también la estructura teórica o la distribución de todos los valores 𝒙 que se
podrían observar a partir de las muestras de tamaño 𝒏. Como resultado de lo anterior
surge el concepto de distribución muestral, que es la base del teorema del límite central.
La información muestral que conforma los estadísticos para las distribuciones t, F y πœ’2 es la
normal. Por lo tanto, se podría afirmar que donde haya una t, F o 𝝌𝟐 la fuente era una
muestra de una distribución normal.
No se puede usar el teorema del límite central a menos que se conozca 𝜎. Para usar el
teorema del límite central cuando no se conoce 𝜎 se debe reemplazar con 𝑠, la desviación
estándar de la muestra.
El estadístico 𝑇 no es un resultado del teorema del límite central y π‘₯1 , π‘₯2 ,…, π‘₯𝑛 deben
provenir de una distribución 𝑛(π‘₯; πœ‡, 𝜎 2 ) para que
π‘₯Μ„−πœ‡
𝑠/ 𝑛
sea una distribución t.
20
Estimación puntual y por intervalos
La inferencia estadística comprende los métodos que son usados para obtener conclusiones
acerca de la población en base a una muestra tomada de ella. Se puede dividir en dos áreas
principales:
ο‚·
ο‚·
Problema de estimación: Se busca precisar una característica totalmente desconocida de
la población a partir de los datos obtenidos sobre una muestra.
Problema de test de hipótesis: Se busca comprobar alguna información sobre la población
a partir de los datos obtenidos de una muestra.
La estimación de parámetros puede ser puntual y por intervalos.
Estimación puntual
Se estudian los diversos métodos de encontrar estimadores y las propiedades óptimas que deben
tener éstos. Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.)
que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Sea πœƒ una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una
muestra. Sea Θ un estadístico que utilizamos para estimar el valor de πœƒ. El estadístico Θ =
𝑇(π‘₯1 ,π‘₯2 ,...,π‘₯𝑛 ) es una función que depende de la muestra y lo llamaremos estimador. El valor
concreto de Θ, representado por πœƒ es la estimación.
La estimación puntual de algún parámetro de la población πœƒ es un solo valor πœƒ de un estadístico
Θ.
Parámetro
Estimación
Estimador
πœƒ
πœƒ
Θ
πœ‡
π‘₯
𝑋
𝑝
𝑝
𝑃
𝜎2
𝑠2
𝑆2
No se espera que un estimador logre estimar el parámetro de la población sin error, sino que se
espera que no esté muy alejado. Entre dos o más estimadores del mismo parámetro, el mejor
estimador se obtendrá considerando la ausencia de sesgo, consistencia y eficiencia.
El sesgo es la diferencia entre lo que dice el estimador y lo que dice el parámetro real.
𝑏(πœƒ) = 𝐸(Θ) − πœƒ se llama sesgo de 𝛩
Si la diferencia es muy grande, el estimador está sesgado para ese parámetro. Se dice que un
estadístico Θ es un estimador insesgado del parámetro πœƒ si la distribución muestral de Θ tiene
una media igual al parámetro estimado. Es decir:
𝐸 Θ =πœƒ
21
Podemos destacar que:
ο‚·
ο‚·
La media muestral 𝑋 es un estimador insesgado de la media poblacional πœ‡.
𝑆 2 es un estimador insesgado de 𝜎 2. 𝑆, por otro lado, suele ser un estimador sesgado de 𝜎,
un sesgo que en el caso de muestras grandes se vuelve insignificante. Esta es la razón por
la cual dividimos entre 𝑛 − 1 en vez de entre 𝑛 cuando estimamos la varianza.
Demostración en pág. 289.
Si consideramos todos los posibles estimadores insesgados de algún parámetro πœƒ, al que tiene la
menor varianza lo llamamos estimador más eficaz de πœƒ. Menor varianza para una variable
aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media. Menor
varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente
más deseable porque, en promedio, está más cerca del verdadero valor de πœƒ.
En la fi gura 9.1 se ilustran las distribuciones muestrales de tres estimadores diferentes Θ1, Θ2y
Θ3, todos para πœƒ. Es evidente que sólo los primeros dos son insesgados, ya que sus distribuciones
están centradas en πœƒ. El estimador Θ1 tiene menor varianza que Θ2 y, en consecuencia, el
estimador más eficaz es Θ1.
Estimación por intervalo
Una estimación por intervalo de un parámetro de la población πœƒ es un intervalo de la forma
πœƒπΏ < πœƒ < πœƒπ‘ˆ
donde πœƒπΏ y πœƒπ‘ˆ dependen del valor del estadístico Θ para una muestra específica. Estos puntos
extremos del intervalo son valores de las variables aleatorias correspondientes Θ L y ΘU. De la
distribución muestral de Θ seremos capaces de determinar Θ L y ΘU, de manera que 𝑃 ΘL < πœƒ <
ΘU sea igual a cualquier valor positivo de una fracción que queramos especificar. Si, por ejemplo,
si calculamos
𝑃 ΘL < πœƒ < ΘU = 1 − 𝛼
donde 0 < 𝛼 < 1, tenemos entonces una probabilidad de 1 − 𝛼 de seleccionar una muestra
aleatoria que produzca un intervalo que contenga πœƒ. La fracción 1 − 𝛼 se denomina grado de
confianza y los extremos, 𝛩𝐿 y π›©π‘ˆ, se denominan límites de confianza inferior y superior. 𝛼
representa la probabilidad de error, así, cuando 𝛼 = 0,05, tenemos un intervalo de confianza del
22
95%, y cuando 𝛼 = 0,01 obtenemos un intervalo de confianza más amplio del 99%. Cuanto más
amplio sea el intervalo de confianza, más confiaremos en que contiene el parámetro desconocido.
Intervalo de confianza para la media poblacional
1. Varianza conocida
Si seleccionamos nuestra muestra a partir de una población normal o, a falta de ésta, si 𝑛 es
suficientemente grande, podemos establecer un intervalo de confianza para πœ‡ considerando la
distribución muestral de 𝑋 .
De una población normal con media desconocida πœ‡ y varianza conocida 𝜎 2 se extrae una muestra
de tamaño 𝑛, entonces de la distribución muestral de la media se obtiene que
𝑍=
𝑋 −πœ‡
𝜎/ 𝑛
se distribuye como una normal estándar. Al escribir π‘§π‘Ž/2 para el valor 𝑧 por arriba del cual
encontramos una área de 𝛼/2 bajo la curva normal, podemos ver que
𝑃(− 𝑧 π‘Ž/2 < 𝑍 < π‘§π‘Ž/2 ) = 1 − 𝛼
Sustituyendo la fórmula de 𝑍, se obtiene
𝜎
𝜎
𝑃 𝑋̄ − 𝑧𝛼 2
< πœ‡ < 𝑋̄ + 𝑧𝛼 2
𝑛
𝑛
=1−𝛼
Si π‘₯Μ„ es la media de una muestra aleatoria de tamaño 𝑛 de una población de la que se conoce su
varianza 𝜎 2, el intervalo de confianza de 100(1 − 𝛼)% para πœ‡ de
π‘₯Μ„ − 𝑧 𝛼 2
𝜎
𝜎
< πœ‡ < π‘₯Μ„ + 𝑧 𝛼 2
𝑛
𝑛
donde 𝑧/2 es un valor de 𝑧 tal que el área a la derecha de dicho valor es /2.
El inervalo de confianza en la curva normal se ilustra a continuación:
23
Cuanto más grande sea el valor de 𝑧𝛼 2 que elijamos, más anchos haremos todos los intervalos, y
podremos tener más confianza en que la muestra particular que seleccionemos producirá un
intervalo que contenga el parámetro desconocido πœ‡.
En el caso de muestras pequeñas que se seleccionan de poblaciones no normales, no podemos
esperar que nuestro grado de confianza sea preciso. Sin embargo, para muestras de tamaño 𝑛 ≥
30, en las que la forma de las distribuciones no esté muy sesgada, la teoría de muestreo garantiza
buenos resultados.
Si utilizamos 𝑋̄ como una estimación de πœ‡, podemos tener 100(1 − 𝛼)% de confianza en que el
error no excederá
𝑒 = 𝑧𝛼 2
cuando el tamaño de la muestra sea
𝑛=
2. Varianza desconocida
𝜎
𝑛
𝑧𝛼 2 𝜎
𝑒
2
Recordemos que si tenemos una muestra aleatoria a partir de una distribución normal, entonces
la variable aleatoria
𝑇=
𝑋̄ − πœ‡
𝑆 𝑛
tiene una distribución t de Student con 𝑛–1 grados de libertad. En esta situación, en la que se
desconoce 𝜎, se puede utilizar 𝑇 para construir un intervalo de confianza para πœ‡. El procedimiento
es igual que cuando se conoce 𝜎, sólo que en este caso 𝜎 se reemplaza con 𝑆 y la distribución
normal estándar se reemplaza con la distribución t.
Podemos afirmar que
𝑃(− π‘‘π‘Ž/2 < 𝑇 < π‘‘π‘Ž/2 ) = 1 − 𝛼
Donde π‘‘π‘Ž/2 es el valor de t con 𝑛 − 1 grados de libertad, tal que el área a la derecha de dicho valor
es /2. Al sustituir por T escribimos
𝑆
𝑆
< πœ‡ < 𝑋̄ + 𝑑𝛼 2
𝑃 𝑋̄ − 𝑑𝛼 2
𝑛
𝑛
=1−𝛼
Si π‘₯ y s son la media y la desviación estándar de una muestra aleatoria de una población normal de
la que se desconoce la varianza 𝜎 2, un intervalo de confianza del 100(1 − 𝛼)% para πœ‡ es
π‘₯Μ„ − 𝑑𝛼 2
𝑠
𝑠
< πœ‡ < π‘₯Μ„ + 𝑑 𝛼 2
𝑛
𝑛
Donde 𝑑/2 es un valor de t con 𝑛–1 grados de libertad y tal que el área a la derecha de dicho valor
es /2.
24
Intervalo de confianza para una muestra grande
Con frecuencia los estadísticos recomiendan que incluso cuando no sea posible suponer la
normalidad, se desconozca 𝜎 y 𝑛 ≥ 30, 𝜎 se puede reemplazar con 𝑠 para poder utilizar el intervalo
de confianza
π‘₯Μ„ ± 𝑧 𝛼 2
𝑠
𝑛
A menudo se hace referencia a esto como un intervalo de confianza para una muestra grande. La
justificación para esto reside sólo en la presunción de que, con una muestra tan grande como 30 y
una distribución de la población no muy sesgada, 𝑠 estará muy cerca de la 𝜎 verdadera y, de esta
manera, el teorema del límite central continuará siendo válido. En caso de que la muestra tomada
sea chica (𝑛 < 30), y se desconozca 𝜎 sí utilizaremos el inervalo de confianza de la forma
π‘₯Μ„ ± 𝑑𝛼 2
𝑠
𝑛
Estimación de la diferencia entre dos medias poblacionales
1. Varianzas conocidas
Si tenemos dos poblaciones con medias πœ‡1 y πœ‡2, y varianzas 𝜎21 y 𝜎22, respectivamente, el
estadístico que da un estimador puntual de la diferencia entre πœ‡1 y πœ‡2 es 𝑋̄ 1 − 𝑋̄ 2. Por lo tanto,
para obtener una estimación puntual de πœ‡1 y πœ‡2, se seleccionan dos muestras aleatorias
independientes de tamaño 𝑛 1 y 𝑛 2 y se calcula π‘₯1 − π‘₯2, la diferencia de las medias muestrales.
Podemos esperar que la distribución muestral de 𝑋̄ 1 − 𝑋̄ 2 esté distribuida de forma
aproximadamente normal con media πœ‡1 − πœ‡2 y desviación estándar
podemos asegurar, con una probabilidad de 1 – 𝛼, que el estadístico
𝑍=
𝜎 21 𝜎 22
+ . Por lo tanto,
𝑛1 𝑛2
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
𝜎 21 𝜎 22
𝑛1 + 𝑛2
se distribuye como una normal estándar y caerá entre − 𝑧𝛼 2 y 𝑧𝛼 2. Por lo tanto, obtenemos la
probabilidad
𝑃 − 𝑧𝛼 2 <
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
< 𝑧𝛼 2
=1−𝛼
𝜎 21 𝜎 22
𝑛1 + 𝑛2
25
Si π‘₯Μ„ 1y π‘₯Μ„ 2 son las medias de muestras aleatorias independientes de tamaños 𝑛 1 y 𝑛 2 , de
poblaciones que tienen varianzas conocidas 𝜎21 y 𝜎22 , respectivamente, un intervalo de confianza
del 100(1 – 𝛼)% para πœ‡ 1 − πœ‡ 2 está dado por
𝜎 21 𝜎 22
𝜎 21 𝜎 22
+ < πœ‡ 1 − πœ‡ 2 < π‘₯Μ„ 1 − π‘₯Μ„ 2 + 𝑧 𝛼 2
+
𝑛1 𝑛2
𝑛1 𝑛2
π‘₯Μ„ 1 − π‘₯Μ„ 2 − 𝑧 𝛼 2
Donde π‘§π‘Ž/2 es el valor de la normal estándar tal que el área a la derecha de dicho valor es 𝛼/2.
2. Varianzas desconocidas pero iguales
Consideremos el caso donde varianzas de las poblaciones son desconocidas, pero se consideran
iguales, es decir
𝜎21 = 𝜎22 = 𝜎 2
Obtenemos una variable normal estándar de la forma
𝑍=
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
𝜎2 𝜎2
𝑛1 + 𝑛2
Que se distribuye como una normal estándar. Las dos variables aleatorias
(𝑛 1 − 1)𝑆 21
𝜎2
~
(𝑛 2 − 1)𝑆 22
πœ’2𝑛 −1
1
𝜎2
~ πœ’2𝑛
2−1
tienen distribuciones chi cuadrada con 𝑛 1 − 1y 𝑛 2 − 1 grados de libertad, respectivamente. En
consecuencia, su suma
𝑆2𝑃
=
(𝑛 1 − 1)𝑆 21
𝜎
2
+
(𝑛 2 − 1)𝑆 22
𝜎
2
𝑛 1 − 1 𝑆 21 + 𝑛 2 − 1 𝑆 22
=
𝜎
2
𝑛1 + 𝑛2 − 2
~ πœ’2𝑛
1+𝑛 2−2
tiene distribución chi cuadrada con 𝑛 1 + 𝑛 2 − 2 grados de libertad. Así se sigue que el estadístico
𝑇=
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
1 1
𝜎2 𝑛 + 𝑛
1
2
𝑛 1 − 1 𝑆 21 + 𝑛 2 − 1 𝑆 22
𝜎2 𝑛1 + 𝑛2 − 2
se distribuye como una t de Student con 𝑛 1 + 𝑛 2 − 2 grados de libertad. Al sustituir 𝑆2𝑃 en el
estadístico 𝑇, obtenemos la forma más simple
𝑇=
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
𝑆𝑝
1 𝑛1 + 1 𝑛2
Si usamos el estadístico 𝑇, tenemos
26
𝑃 − 𝑑𝛼 2 <
(𝑋̄ 1 − 𝑋̄ 2 ) − (πœ‡1 − πœ‡2 )
𝑆𝑝
1 𝑛1 + 1 𝑛2
< 𝑑𝛼 2 = 1 − 𝛼
donde 𝑑𝛼 2 es el valor t con 𝑛 1 + 𝑛 2 − 2 grados de libertad, que deja un área de 𝛼/2.
Si π‘₯Μ„ 1 y π‘₯Μ„ 2 son las medias de muestras aleatorias independientes con tamaños 𝑛 1 y 𝑛 2 ,
respectivamente, tomadas de poblaciones más o menos normales con varianzas iguales pero
desconocidas, un intervalo de confianza del 100(1 – 𝛼)% para πœ‡1 − πœ‡2 es dado por
π‘₯Μ„ 1 − π‘₯Μ„ 2 ± 𝑑(𝛼/2,𝑛
1+𝑛 2−2)
𝑠𝑝
1
1
1
1
+ < πœ‡1 − πœ‡2 < π‘₯Μ„ 1 − π‘₯Μ„ 2 + 𝑑(𝛼/2,𝑛 +𝑛 −2) 𝑠 𝑝
+
1
2
𝑛1 𝑛2
𝑛1 𝑛2
donde 𝑠 𝑝 es la estimación agrupada de la desviación estándar de la población y 𝑑(𝛼/2,𝑛
valor t con 𝑛 1 + 𝑛 2 − 2 grados de libertad, que deja un área de 𝛼/2 a la derecha.
1+𝑛 2−2)
es el
3. Varianzas desconocidas y distintas
El estadístico que se utiliza con mayor frecuencia en el caso de varianzas desconocidas para un
intervalo de πœ‡ 1 − πœ‡ 2 es
𝑇' =
𝑋̄ 1 − 𝑋̄ 2 − (πœ‡1 − πœ‡2 )
𝑆 21 𝑆 22
𝑛1 + 𝑛2
que tiene aproximadamente una distribución t con 𝑣 grados de libertad, donde
𝑣=
(𝑐1 + 𝑐2 )2
𝑐1 =
𝑐 21
𝑐 22
+
𝑛1 − 1 𝑛2 − 1
𝑠 21
𝑐2 =
𝑛1
𝑠 22
𝑛2
Como 𝑣 rara vez es un entero, lo redondeamos al número entero menor más cercano. Con el
estadístico 𝑇’, escribimos
𝑃 − 𝑑𝛼 2 <
𝑋̄ 1 − 𝑋̄ 2
< 𝑑𝛼 2
≈1−𝛼
𝑠 21 𝑠 22
𝑛1 + 𝑛2
donde 𝑑𝛼 2 es el valor de la distribución t con 𝑣 grados de libertad por arriba del cual encontramos
un área de 𝛼/2.
Si π‘₯Μ„ 1 y 𝑠21 y π‘₯Μ„ 1 y 𝑠22 s son las medias y varianzas de muestras aleatorias independientes de tamaños
𝑛 1 y 𝑛 2, respectivamente, tomadas de poblaciones aproximadamente normales con varianzas
27
desconocidas y diferentes, un intervalo de confianza aproximado del 100(1 − 𝛼)% para πœ‡1 − πœ‡2 es
dado por
π‘₯Μ„ 1 − π‘₯Μ„ 2 − 𝑑𝛼/2
𝑠 21 𝑠 22
𝑠 21 𝑠 22
+ < πœ‡ 1 − πœ‡ 2 < π‘₯Μ„ 1 − π‘₯Μ„ 2 + 𝑑𝛼/2
+
𝑛1 𝑛2
𝑛1 𝑛2
donde 𝑑𝛼/2 deja un área de 𝛼/2 a la derecha, con
𝑠 21 𝑠 22
𝑛1 + 𝑛2
𝑣=
𝑠 21
𝑛1
2
𝑛1 − 1
2
𝑠 22
𝑛2
+
2
𝑛2 − 1
grados de libertad.
Interpretación de los intervalos de confianza
Para el caso de un solo parámetro el intervalo de confianza simplemente produce límites de error
del parámetro. Los valores contenidos en el intervalo se deberían ver como valores razonables,
dados los datos experimentales. En el caso de una diferencia entre dos medias, la interpretación
se puede extender a una comparación de las dos medias. Por ejemplo, si tenemos gran confianza
en que una diferencia πœ‡1 − πœ‡2 es positiva, sin duda inferiremos que πœ‡1 > πœ‡2 con poco riesgo de
incurrir en un error.
Comparación de medias de dos poblaciones usando muestras pareadas
Ahora estudiaremos los procedimientos de estimación para la diferencia de dos medias cuando las
muestras no son independientes. A diferencia de la situación que se describió antes, las
condiciones de las dos poblaciones no se asignan de forma aleatoria a las unidades
experimentales. Más bien, cada unidad experimental homogénea recibe ambas condiciones de la
población; como resultado, cada unidad experimental tiene un par de observaciones.
Sea 𝑋 𝑖 el valor del tratamiento 𝐼 y π‘Œπ‘– el valor del tratamiento 𝐼𝐼 en el i-ésimo sujeto, puede
visualizar la i-ésima diferencia del par como
𝑑𝑖 = 𝑋𝑖 − π‘Œπ‘–
Las inferencias que se hacen son acerca del promedio poblacional 𝑑 de las 𝑑𝑖. Estas diferencias
son los valores de una muestra aleatoria 𝐷𝑖 de una población de diferencias, que supondremos
distribuidas normalmente, con media
𝑛
𝑑=
𝑖=1
𝑑𝑖
𝑛
y varianza
28
∑ (𝑑 𝑖 − 𝑑)Μ„ 2
𝑖
𝑠𝑑 =
𝑛−1
Un intervalo de confianza del 100(1 − 𝛼)% para la diferencia poblacional
tamaño 𝑛 es de la forma
𝑑 dada una muestra de
𝑃 𝑑𝛼 2 < 𝑇 < 𝑑𝛼 2 = 1 − 𝛼
Donde 𝑑𝛼/2 es el valor t con 𝑛 − 1 grados de libertad, que deja un área de 𝛼/2 a la derecha.
𝑇=
𝑑 − πœ‡π‘‘
𝑠𝑑 βˆ• 𝑛
Sustituyendo entonces el estadístico 𝑇, obtenemos
𝑃 𝑑 − 𝑑𝛼 2,𝑛−1
𝑠𝑑
< πœ‡π‘‘ < 𝑑 + 𝑑𝛼 2,𝑛−1
𝑛
𝑠𝑑
𝑛
=1−𝛼
Si πœ‡π‘‘ = 0, significa que no hay diferencia entre los dos tratamientos.
Si 𝑑 y 𝑠 𝑑 son la media y la desviación estándar, respectivamente, de las diferencias distribuidas
normalmente de 𝑛 pares aleatorios de mediciones, un intervalo de confianza del 100(1 − 𝛼)% para
πœ‡π‘‘ = πœ‡1 − πœ‡2 es
𝑑 − 𝑑𝛼/2
𝑠𝑑
< πœ‡π‘‘ < 𝑑 + 𝑑𝛼/2
𝑛
𝑠𝑑
𝑛
donde 𝑑𝛼/2 es el valor t con 𝑛 − 1 grados de libertad, que deja un área de 𝛼/2 a la derecha.
Intervalo de confianza de una proporción
Estamos interesados en estimar la proporción 𝑝 (o el porcentaje) de ocurrencia de un evento. El
estadístico 𝑃 = 𝑋/𝑛, en donde 𝑋 representa el número de éxitos en 𝑛 ensayos, provee un
estimador puntual de la proporción 𝑝 en un experimento binomial. Se puede establecer un
intervalo de confianza para 𝑝 considerando la distribución muestral de 𝑃. Se puede mostrar que
cuando el tamaño de muestra es grande 𝑃 está distribuida de forma casi normal con media
𝑛𝑝
𝑋
=
=𝑝
𝑛
𝑛
𝐸 𝑃 =𝐸
y varianza
𝜎2𝑋/𝑛
=
𝜎 2𝑋
𝑛
2
=
π‘›π‘π‘ž
𝑛
2
=
π‘π‘ž
𝑛
Podemos demostrar que el estadístico
29
𝑍=
𝑃−𝑝
π‘π‘ž
𝑛
se distribuye como una normal estándar; donde 𝑝 representa la proporción poblacional que se
desea estimar y 𝑃 = 𝑋 𝑛 es la proporción muestral. Al sustituir para 𝑍 en la fórmula del intervalo
de confianza ya conocida obtenemos
𝑃 − 𝑧𝛼 2 <
𝑃−𝑝
π‘π‘ž
𝑛
< 𝑧𝛼 2 = 1 − 𝛼
donde 𝑧 𝛼 2 es el valor por arriba del cual encontramos una área de 𝛼/2 debajo de la curva normal
estándar. Cuando 𝑛 es grande se introduce un error muy pequeño sustituyendo el estimado
puntual 𝑝 = π‘₯/𝑛 para la 𝑝 debajo del signo de radical. Por lo que nos queda
𝑃 𝑃 − 𝑧𝛼 2
π‘π‘ž
π‘π‘ž
< 𝑝 < 𝑃 + 𝑧𝛼/2
≈1−𝛼
𝑛
𝑛
Si 𝑝 es la proporción de éxitos en una muestra aleatoria de tamaño 𝑛, y π‘ž = 1 − 𝑝, un intervalo de
confianza aproximado del 100 (1 − 𝛼) % para la proporción poblacional 𝑝 es:
𝑝 − 𝑧𝛼/2
π‘π‘ž
π‘π‘ž
< 𝑝 < 𝑝 + 𝑧𝛼/2
𝑛
𝑛
donde 𝑧𝛼/2 es el valor z que deja una área de 𝛼/2 a la derecha.
Cuando 𝑛 es pequeña y se cree que la proporción desconocida 𝑝 se acerca a 0 o a 1, el
procedimiento del intervalo de confianza que se establece aquí no es confiable y, por lo tanto, no
se debería emplear. Para estar seguros se requiere que tanto 𝑛𝑝 como π‘›π‘ž sean mayores que o
iguales a 5.
Si 𝑝 se utiliza como un estimado de 𝑝, podemos tener un 100(1 − 𝛼)% de confianza en que el error
no excederá
𝑒 = 𝑧𝛼/2
π‘π‘ž
𝑛
y el tamaño de la muestra será
𝑛=
𝑧 2𝛼/2π‘π‘ž
𝑒2
Intervalo de confianza de la diferencia entre dos proporciones
Considere el problema en el que se busca estimar la diferencia entre dos parámetros binomiales
𝑝1 y 𝑝2 . Se puede establecer un intervalo de confianza para 𝑝1 − 𝑝2 considerando la distribución
30
muestral de 𝑃1 − 𝑃2. Sabemos que 𝑃1 y 𝑃2están distribuidos cada uno de forma aproximadamente
normal, con medias 𝑝1 y 𝑝2, y varianzas 𝑝1 π‘ž 1 /𝑛 1 y 𝑝2 π‘ž 2 /𝑛 2,respectivamente. Por lo tanto, podemos
asegurar que
𝑃 − 𝑧𝛼 2 < 𝑍 < 𝑧𝛼 2 = 1 − 𝛼
Donde
𝑍=
𝑃1 − 𝑃2 − (𝑝1 − 𝑝2 )
𝑝1 π‘ž1 𝑝2 π‘ž2
𝑛1 + 𝑛2
y 𝑧 𝛼 2 es un valor por arriba del cual encontramos una área de 𝛼/2 debajo de la curva normal
estándar. Al sustituir para 𝑍 escribimos
𝑃 − 𝑧𝛼 2 <
𝑃1 − 𝑃2 − (𝑝1 − 𝑝2 )
𝑝1 π‘ž1 𝑝2 π‘ž2
𝑛1 + 𝑛2
< 𝑧𝛼 2 = 1 − 𝛼
Si 𝑝1 y 𝑝2 son las proporciones de éxitos en muestras aleatorias de tamaños 𝑛 1 y 𝑛 2,
respectivamente, π‘ž 1 = 1 − 𝑝1 y π‘ž 2 = 1 − 𝑝2, un intervalo de confianza aproximado del 100(1 − 𝛼)%
para la diferencia de dos parámetros binomiales 𝑝1 − 𝑝2 es dado por
𝑝1 − 𝑝2 − 𝑧𝛼 2
𝑝1 π‘ž1 𝑝2 π‘ž2
𝑝 π‘ž
𝑝 π‘ž
+
< 𝑝1 − 𝑝2 < 𝑝1 − 𝑝2 + 𝑧𝛼 2 1 1 + 2 2
𝑛1
𝑛2
𝑛1
𝑛2
donde 𝑧 𝛼 2 es el valor 𝑧 que deja una área de 𝛼/2 a la derecha.
Intervalo de confianza para la varianza poblacional
Si extraemos una muestra de tamaño 𝑛 de una población normal con varianza 𝜎 2 y calculamos la
varianza muestral 𝑠 2, obtenemos un valor del estadístico 𝑆 2. Esta varianza muestral calculada se
utiliza como una estimación puntual de 𝜎 2.
Se puede establecer una estimación por intervalos de 𝜎 2 utilizando el estadístico
πœ’2 =
(𝑛 − 1)𝑆 2
𝜎2
Cuando las muestras se toman de una población normal el estadístico πœ’2 tiene una distribución chi
cuadrada con 𝑛 − 1 grados de libertad. Podemos escribir
𝑃 πœ’21−𝛼/2 < πœ’2 < πœ’2𝛼/2 = 1 − 𝛼
donde πœ’21−𝛼/2 y πœ’2𝛼/2 son valores de la distribución chi cuadrada con 𝑛 − 1 grados de libertad, que
dejan áreas de 1 − 𝛼/2 y 𝛼/2, respectivamente, a la derecha, como muestra la figura.
31
Al sustituir para πœ’2 escribimos
𝑃 πœ’21−𝛼/2 <
(𝑛 − 1)𝑆 2
𝜎
2
< πœ’2𝛼/2 = 1 − 𝛼
Si dividimos cada término de la desigualdad entre (𝑛 − 1)𝑆 2 obtenemos
𝑃
(𝑛 − 1)𝑆 2
πœ’ 2𝛼/2
< 𝜎2 <
(𝑛 − 1)𝑆 2
πœ’ 21−𝛼/2
=1−𝛼
Si 𝑠 2 es la varianza de una muestra aleatoria de tamaño 𝑛 de una población normal, un intervalo
de confianza del 100(1 − 𝛼)% para 𝜎 2 es
(𝑛 − 1)𝑆 2
πœ’ 2𝛼/2
< 𝜎2 <
(𝑛 − 1)𝑆 2
πœ’ 21−𝛼/2
donde πœ’2𝛼/2 y πœ’21−𝛼/2 son valores chi cuadrados con 𝑛 − 1 grados de libertad, que dejan áreas de 𝛼/2 y
1 − 𝛼/2, respectivamente, a la derecha.
Observaciones
ο‚·
Cuando se desconoce 𝜎 y no se está convencido de que la distribución que se muestrea es
normal, se puede calcular un intervalo de confianza para πœ‡ a partir de
π‘₯Μ„ ± 𝑧 𝛼 2
𝑠
𝑛
En la práctica es común que se utilice esta fórmula cuando la muestra es demasiado
pequeña, sin embargo, logramos mayor precisión cuando 𝑛 ≥ 30.
ο‚·
El uso de la distribución t requiere que la distribución de donde se toma la muestra sea
normal. Sin embargo, la aplicación de la distribución t es robusta a la suposición de
normalidad y no es necesario que la población lo sea siempre y cuando no se desvíe
mucho.
32
ο‚·
En el caso de la distribución πœ’2, la prueba para esta aplicación no es robusta para la
suposición de normalidad. Si la población no se distribuye normalmente, la distribución
muestral 𝑛 − 1 𝑆 2 /𝜎 2 se aparta mucho de πœ’2.
Test de hipótesis
Una hipótesis estadística es una aseveración o conjetura respecto a una o más poblaciones. La
verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta certeza, a menos que se
examine toda la población, lo cual, por supuesto, sería poco práctico en la mayoría de las
situaciones. En vez de eso se toma una muestra aleatoria de la población de interés y se utilizan
los datos contenidos en ella para proporcionar evidencia que respalde o no la hipótesis.
La aceptación de una hipótesis implica que los datos no dan suficiente evidencia para rechazarla.
El rechazo implica que la evidencia muestral es suficiente para rechazarla.
La estructura de la prueba de hipótesis se establece usando el término hipótesis nula, el cual se
refiere a cualquier hipótesis que se desea probar y se denota con 𝐻0. Se espera que sea rechazada
después de aplicar una prueba estadística. El rechazo de 𝐻0 conduce a la aceptación de una
hipótesis alternativa, que se denota con 𝐻1. Cuando se realiza un test de hipótesis se puede llegar
a dos conclusiones:
rechazar 𝐻0 a favor de 𝐻1 debido a evidencia suficiente en los datos o
no rechazar 𝐻0 debido a evidencia insuficiente en los datos.
Un conjunto formado de valores que apoyan la hipótesis alternativa y llevan a rechazar 𝐻0, se
denomina región de rechazo o región crítica. El otro, formado de valores que apoyan la hipótesis
nula, recibe el nombre de región de aceptación. Cuando la región de rechazo está en la cola
izquierda de la distribución, la prueba se llama prueba de cola izquierda. Una prueba con su región
de rechazo en la cola derecha recibe el nombre de prueba de cola derecha.
Si el estadístico de prueba cae en la región de rechazo, entonces se rechaza la hipótesis nula. Si el
estadístico de prueba cae en la región de aceptación, entonces la hipótesis nula se acepta o la
prueba se juzga como no concluyente
Tipos de errores
El procedimiento de toma de decisiones recién descrito podría conducir a cualquiera de dos
conclusiones erróneas:
ο‚·
ο‚·
El rechazo de la hipótesis nula cuando es verdadera se denomina error tipo I (cae en la
región crítica).
No rechazar la hipótesis nula cuando es falsa se denomina error tipo II.
La probabilidad de cometer un error tipo I, también llamada nivel de significancia, se denota con la
letra griega 𝛼:
𝛼 = 𝑃(π‘…π‘’π‘β„Žπ‘Žπ‘§π‘Žπ‘Ÿ 𝐻 0 /𝐻0 𝑒𝑠 𝑉)
33
Este valor a representa el máximo riesgo tolerable de rechazar incorrectamente 𝐻0. Una vez fijo
este nivel de significancia, la región de rechazo se puede fijar para permitir que el investigador
rechace 𝐻0 con un grado fijo de confianza en la decisión.
La probabilidad de cometer un error tipo II se denota con 𝛽:
𝛽 = 𝑃(π‘π‘œ π‘Ÿπ‘’π‘β„Žπ‘Žπ‘§π‘Žπ‘Ÿ 𝐻 0 /𝐻0 𝑒𝑠 𝐹)
Cuyo valor es imposible de calcular a menos que tengamos una hipótesis alternativa específica.
Los errores tipo I y tipo II están relacionados. Por lo general una disminución en la probabilidad de
cometer uno da como resultado un incremento en la probabilidad de cometer el otro. Por fortuna,
la probabilidad de cometer ambos tipos de errores se puede reducir aumentando el tamaño de la
muestra. Siempre es posible reducir 𝛽 aumentando el tamaño de la región crítica, es decir, la
probabilidad de cometer un error tipo I.
Nota: ver ejemplo de cálculo de errores tipo I y II en el libro. Pág. 384.
Regla general:
ο‚·
ο‚·
El nivel de error tipo II es aproximadamente cuatro veces el nivel de error tipo I.
Si el nivel de error tipo I es 5%, un adecuado nivel de error tipo II es 20% (potencia 80%).
Potencia de una prueba
La potencia de una prueba mide la probabilidad de tomar la acción que deseamos que ocurra,
esto es, la probabilidad de rechazar 𝐻0 cuando esta es falsa y 𝐻1 es verdadera. La potencia de una
prueba se puede calcular como 1 − 𝛽. A menudo diferentes tipos de pruebas se comparan
contrastando propiedades de potencia. Una buena prueba estadística es aquella que tiene una
potencia de prueba alta. Para producir una potencia deseable es necesario incrementar 𝛼 o
aumentar el tamaño de la muestra.
La única forma de aumentar la potencia para una 𝛼 fija es aumentar el tamaño muestral 𝑛.
Pruebas de una y dos colas
Una prueba de cualquier hipótesis estadística donde la alternativa es unilateral, como
𝐻0 : πœƒ = πœƒ0
𝐻1 :πœƒ > πœƒ0
o quizás
𝐻0 : πœƒ = πœƒ0
𝐻1 :πœƒ < πœƒ0
se denomina prueba de una sola cola. Por lo general la región crítica para la hipótesis alternativa
πœƒ > πœƒ0 yace en la cola derecha de la distribución del estadístico de prueba, en tanto que la región
crítica para la hipótesis alternativa πœƒ < πœƒ0 yace por completo en la cola izquierda.
La prueba de cualquier hipótesis alternativa donde la alternativa es bilateral, como
34
𝐻0 : πœƒ = πœƒ0
𝐻1 :πœƒ ≠ πœƒ0
se denomina prueba de dos colas, ya que la región crítica se divide en dos partes, a menudo con
probabilidades iguales en cada cola de la distribución del estadístico de prueba. La hipótesis
alternativa πœƒ ≠ πœƒ0 establece que πœƒ < πœƒ0 o que πœƒ > πœƒ0.
Con frecuencia la hipótesis nula 𝐻0 se plantea usando el signo de igualdad. Con este método se
observa claramente cómo se controla la probabilidad de cometer un error tipo I.
Prueba de hipótesis usando el método del valor P
El valor P o nivel de significancia observado de una prueba estadística es el valor más pequeño de
𝛼 para el cual 𝐻0 se puede rechazar. Es el riesgo real de cometer un error tipo I, si 𝐻0 es rechazada
con base en el valor observado del estadístico de prueba.
En la prueba de cola derecha con estadística observada de prueba 𝑧 = 2.03, el valor crítico más
pequeño que se puede usar y todavía rechazar 𝐻0 es 𝑧 = 2.03. Para este valor crítico, el riesgo de
una decisión incorrecta es 𝑃 𝑧 ≥ 2.03 = 1 − 0.9788 = .0212. Esta probabilidad es el valor P para la
prueba. Observe que es en realidad el área a la derecha del valor calculado del estadístico de
prueba.
Un valor de P menor o igual a un nivel de significancia 𝛼 asignado previamente, indicará que se
rechaza la hipótesis nula. Valores de P grandes indican que la estadística observada de prueba no
está alejada de la media hipotética y no apoya el rechazo de 𝐻0.
Fórmulas para calcular el valor P
Caso I: 𝐻0 : πœ‡ = πœ‡0
y
𝐻1 : πœ‡ < πœ‡0, entonces 𝑃 π‘£π‘Žπ‘™π‘’π‘’ = 𝑃(𝑍 < 𝑍 π‘π‘Žπ‘™π‘ ).
Caso II: 𝐻0 : πœ‡ = πœ‡0
y
𝐻1 : πœ‡ > πœ‡0, entonces 𝑃 π‘£π‘Žπ‘™π‘’π‘’ = 𝑃(𝑍 > 𝑍 π‘π‘Žπ‘™π‘ ).
y
𝐻1 : πœ‡ ≠ πœ‡0, entonces 𝑃 π‘£π‘Žπ‘™π‘’π‘’ = 2𝑃(𝑍 > 𝑍 π‘π‘Žπ‘™π‘ ).
Caso III: 𝐻0 : πœ‡ = πœ‡0
Procedimientos de prueba de hipótesis
El procedimiento de test de hipótesis para el método clásico es:
1.
2.
3.
4.
5.
Establecer la hipótesis nula 𝐻0 y alternativa 𝐻1.
Elegir un nivel de significancia 𝛼 fijo.
Seleccionar el estadístico de prueba apropiada y establecer la región crítica en base a 𝛼.
Calcular el valor del estadístico de prueba a partir de la muestra.
Rechazar 𝐻0 si la estadística de prueba tiene un valor en la región crítica.
El procedimiento de prueba de hipótesis con el método del valor P es:
1. Establecer la hipótesis nula 𝐻0 y alternativa 𝐻1.
2. Elegir un estadístico de prueba adecuado.
3. Calcular el valor 𝑃 con base en los valores calculados del estadístico de prueba.
35
4. Sacar conclusiones con base en el valor 𝑃.
Prueba de hipótesis de una media
1. varianza conocida
Es conveniente estandarizar 𝑋 e incluir de manera formal la variable aleatoria normal estándar 𝑍,
donde
π‘₯Μ„ − πœ‡π‘œ
𝑧=
𝜎 𝑛
Y por lo tanto la expresión
𝑃 − 𝑧𝛼 <
2
π‘₯Μ„ − πœ‡π‘œ
𝜎 𝑛
< 𝑧𝛼 = 1 − 𝛼
2
se puede utilizar para escribir una región de no rechazo adecuada. Así, dado un valor calculado π‘₯,
la prueba formal implica rechazar 𝐻0 si el estadístico de prueba 𝑧 calculado cae en la región crítica
anterior. Se pueden presentar tres casos:
Caso I: 𝐻0 : πœ‡ = πœ‡0
y
Caso II: 𝐻0 : πœ‡ = πœ‡0
Caso III: 𝐻0 : πœ‡ = πœ‡0
y
y
𝐻1 : πœ‡ < πœ‡0.
𝐻1 : πœ‡ > πœ‡0.
𝐻1 : πœ‡ ≠ πœ‡0.
Si 𝑧 < − 𝑧𝛼 se rechaza 𝐻0 .
Si 𝑧 > 𝑧𝛼 se rechaza 𝐻0 .
Si 𝑧 < − 𝑧𝛼/2 o 𝑧 > 𝑧𝛼/2 se rechaza 𝐻0 .
2. Varianza desconocida
Ciertamente sospecharíamos que las pruebas sobre una media de la población πœ‡ con 𝜎 2
desconocida, como la estimación del intervalo de confianza, deberían incluir el uso de la
distribución t de Student. Usando el estadístico
𝑑=
π‘₯Μ„ − πœ‡π‘œ
𝑠 𝑛
con 𝑛 − 1 grados de libertad. Los casos que se pueden presentar son
Caso I: 𝐻0 : πœ‡ = πœ‡0
Caso II: 𝐻0 : πœ‡ = πœ‡0
Caso III: 𝐻0 : πœ‡ = πœ‡0
y
y
y
𝐻1 : πœ‡ < πœ‡0.
𝐻1 : πœ‡ > πœ‡0.
𝐻1 : πœ‡ ≠ πœ‡0.
Si 𝑑 < − 𝑑𝛼 se rechaza 𝐻0 .
Si 𝑑 > 𝑑𝛼 se rechaza 𝐻0 .
Si 𝑑 < − 𝑑𝛼/2 o 𝑑 > 𝑑𝛼/2 se rechaza 𝐻0 .
Prueba de hipótesis para la diferencia entre dos medias
1. Varianzas conocidas
Se calculan los valores π‘₯1 y π‘₯2, y para 𝜎1 y 𝜎2 conocidas, el estadístico de prueba es dado
por
36
𝑧=
π‘₯1 − π‘₯2 − 𝑑0
𝜎 21 𝜎 22
𝑛1 + 𝑛2
El rechazo de la hipótesis nula se da en tres casos:
Caso I: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
y
2
Caso II: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
1
y
2
1
y
2
Caso III: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
𝐻1 : πœ‡ − πœ‡ < 𝑑0.
2
Si 𝑧 < − 𝑧𝛼 se rechaza 𝐻0 .
𝐻1 : πœ‡ − πœ‡ > 𝑑0.
1
𝐻1 : πœ‡ − πœ‡ ≠ 𝑑0.
1
Si 𝑧 > 𝑧𝛼 se rechaza 𝐻0 .
2
Si 𝑧 < − 𝑧𝛼/2 o 𝑧 > 𝑧𝛼/2 se rechaza 𝐻0 .
2
2. Varianzas desconocidas pero iguales
Si se supone que ambas distribuciones son normales y que sus varianzas son iguales, utilizamos el
estadístico de prueba
𝑑' =
(π‘₯Μ„ 1 − π‘₯Μ„ 2 ) − 𝑑0
1 1
𝑠𝑝 𝑛 + 𝑛
1
2
con 𝑛 1 + 𝑛 2 − 2 grados de libertad, donde
𝑠𝑝 =
La prueba depende de tres casos:
Caso I: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
y
2
Caso II: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
Caso III: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
2
2
y
y
𝑛 1 − 1 𝑆 21 + 𝑛 2 − 1 𝑆 22
𝑛1 + 𝑛2 − 2
𝐻1 : πœ‡ − πœ‡ < 𝑑0.
1
2
𝐻1 : πœ‡ − πœ‡ > 𝑑0.
1
2
𝐻1 : πœ‡ − πœ‡ ≠ 𝑑0.
1
2
Si 𝑑′ < − 𝑑′𝛼 se rechaza 𝐻0 .
Si 𝑑′ > 𝑑′𝛼 se rechaza 𝐻0 .
Si 𝑑′ < − 𝑑′𝛼/2 o 𝑑′ > 𝑑′𝛼/2 se rechaza 𝐻0 .
3. Varianzas desconocidas y distintas
Si las poblaciones son normales, y sus varianzas distintas, el estadístico
𝑑' =
(π‘₯Μ„ 1 − π‘₯Μ„ 2 ) − 𝑑0
𝑠 21 𝑠 22
𝑛1 + 𝑛2
tiene una distribución t aproximada con grados de libertad aproximados por la siguiente fórmula
𝑔𝑙 =
(𝑐1 + 𝑐2 )2
𝑐 21
𝑐2
+ 2
π‘š−1 𝑛−1
37
𝑐1 =
𝑠 21
𝑐2 =
π‘š
Como resultado, los casos posibles son:
Caso I: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
y
2
Caso II: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
1
1
2
y
1
y
2
Caso III: 𝐻0 : πœ‡ − πœ‡ = 𝑑0
𝐻1 : πœ‡ − πœ‡ < 𝑑0.
2
𝐻1 : πœ‡ − πœ‡ > 𝑑0.
1
2
𝐻1 : πœ‡ − πœ‡ ≠ 𝑑0.
1
2
𝑠 22
𝑛
Si 𝑑′ < − 𝑑′𝛼 se rechaza 𝐻0 .
Si 𝑑′ > 𝑑′𝛼 se rechaza 𝐻0 .
Si 𝑑′ < − 𝑑′𝛼/2 o 𝑑′ > 𝑑′𝛼/2 se rechaza 𝐻0 .
Prueba de hipótesis para observaciones pareadas
En esta estructura de pareado las condiciones de las dos poblaciones (tratamientos) se asignan de
forma aleatoria dentro de unidades homogéneas. El cálculo del intervalo de confianza para πœ‡ 1 −
πœ‡ 2 en la situación con observaciones pareadas se basa en el estadístico de prueba dado por
𝑑=
𝑑 − πœ‡π‘‘
𝑠𝑑
𝑛
con 𝑛 − 1 grados de libertad, y donde 𝑑 y 𝑠 𝑑 son variables aleatorias que representan la media
muestral y la desviación estándar de las diferencias de las observaciones en las unidades
experimentales. Como en el caso de la prueba t agrupada, la suposición es que las observaciones
de cada población son normales.
Caso I: 𝐻0 : πœ‡π‘‘ = 𝑑0
y
𝐻1 : πœ‡π‘‘ < 𝑑0.
Caso II: 𝐻0 : πœ‡π‘‘ = 𝑑0 y
Caso III: 𝐻0 : πœ‡π‘‘ = 𝑑0
y
𝐻1 : πœ‡π‘‘ > 𝑑0.
𝐻1 : πœ‡π‘‘ ≠ 𝑑0.
Si 𝑑 < − 𝑑𝛼 se rechaza 𝐻0 .
Si 𝑑 > 𝑑𝛼 se rechaza 𝐻0 .
Si 𝑑 < − 𝑑𝛼/2 o 𝑑 > 𝑑𝛼/2 se rechaza 𝐻0 .
Prueba de hipótesis para una proporción
La variable aleatoria adecuada sobre la que basamos nuestro criterio de decisión es la variable
aleatoria binomial 𝑋. Los valores de 𝑋 que están lejos de la media πœ‡ = 𝑛𝑝0 conducirán al rechazo
de la hipótesis nula. Para 𝑛 grande por lo general se prefiere la aproximación de la curva normal, la
cual es muy precisa, siempre y cuando 𝑝0 no esté demasiado cerca de 0 o de 1. Si utilizamos la
aproximación normal, el valor 𝑧 para probar 𝑝 = 𝑝0 es dado por
𝑧=
𝑝 − 𝑝0
𝑝0 π‘ž0
𝑛
que es un valor de la variable normal estándar Z. los casos posibles son
Caso I: 𝐻0 : 𝑝 = 𝑝0
Caso II: 𝐻0 : 𝑝 = 𝑝0
y
𝐻1 : 𝑝 < 𝑝0. Si 𝑧 < − 𝑍𝛼 se rechaza 𝐻0 .
y
𝐻1 : 𝑝 > 𝑝0. Si 𝑧 > 𝑍𝛼 se rechaza 𝐻0 .
38
Caso III: 𝐻0 : 𝑝 = 𝑝0
y
𝐻1 : 𝑝 ≠ 𝑝0. Si 𝑧 < − 𝑧𝛼/2 o 𝑧 > 𝑧𝛼/2 se rechaza 𝐻0 .
Prueba de hipótesis para dos proporciones
En general, deseamos probar la hipótesis nula de que dos proporciones, o parámetros binomiales,
son iguales. Es decir, probamos 𝑝1 = 𝑝2 contra una de las alternativas. Se seleccionan al azar
muestras independientes de tamaños 𝑛 1 y 𝑛 2 de dos poblaciones binomiales y se calcula la
proporción de éxitos 𝑝1 y 𝑝2para las dos muestras.
En la construcción de intervalos de confianza para 𝑝1 y 𝑝2 observamos, para 𝑛 1 y 𝑛 2
suficientemente grandes, se pueden establecer sus regiones críticas usando la variable normal
estándar
𝑝1 − 𝑝2
𝑧=
1 1
π‘π‘ž 𝑛 + 𝑛
1
2
Donde el estimado agrupado de la proporción 𝑝 es
𝑝=
π‘₯1 + π‘₯2
𝑛1 + 𝑛2
Por lo tanto, re rechaza 𝐻0 cuando:
Caso I: 𝐻0 :𝑝1 = 𝑝2
Caso II: 𝐻0 :𝑝1 = 𝑝2
Caso III: 𝐻0 : 𝑝1 = 𝑝2
y
y
y
𝐻1 : 𝑝1 < 𝑝2.
𝐻1 : 𝑝1 > 𝑝2.
𝐻1 : 𝑝1 ≠ 𝑝2.
Si 𝑧 < − 𝑍𝛼 se rechaza 𝐻0 .
Si 𝑧 > 𝑍𝛼 se rechaza 𝐻0 .
Si 𝑧 < − 𝑧𝛼/2 o 𝑧 > 𝑧𝛼/2 se rechaza 𝐻0 .
Prueba de hipótesis para la varianza
Empecemos por considerar el problema de probar la hipótesis nula de que la varianza de la
población 𝜎 2 es igual a un valor específico 𝜎20contra una de las alternativas. Si suponemos que la
distribución de la población que se muestrea es normal, el estadístico de prueba a utilizar será
πœ’2 =
𝑛 − 1 𝑠2
𝜎 20
con 𝑛 − 1 grados de libertad. Para un nivel de significancia 𝛼 las regiones críticas serán:
Caso I: 𝐻0 : 𝜎 2 = 𝜎20
Caso II: 𝐻0 : 𝜎 2 = 𝜎20
Caso III: 𝐻0 : 𝜎 2 = 𝜎20
y
y
𝐻1 : 𝜎 2 < 𝜎20. Si πœ’2π‘π‘Žπ‘™π‘ < πœ’21−𝛼 se rechaza 𝐻0 .
y
𝐻1 : 𝜎 2 > 𝜎20. Si πœ’2π‘π‘Žπ‘™π‘ > πœ’2𝛼 se rechaza 𝐻0 .
𝐻1 : 𝜎 2 ≠ 𝜎20. Si πœ’2π‘π‘Žπ‘™π‘ < πœ’21−𝛼/2 o πœ’2π‘π‘Žπ‘™π‘ > πœ’2𝛼/2 se rechaza 𝐻0 .
Prueba de la bondad de ajuste
39
Hasta ahora nos ocupamos de la prueba de hipótesis estadística acerca de parámetros de una sola
población, como πœ‡, 𝜎 2 y 𝑝. Ahora consideraremos una prueba para determinar si una población
tiene una distribución teórica específica. La prueba se basa en el nivel de ajuste que existe entre la
frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias
esperadas que se obtienen a partir de la distribución hipotética.
Una prueba de la bondad de ajuste entre las frecuencias observadas y esperadas se basa en la
cantidad
π‘˜
2
πœ’ =
𝑖=1
(π‘œπ‘– − 𝑒 𝑖 )2
𝑒𝑖
donde πœ’2 es un valor de una variable aleatoria cuya distribución muestral se aproxima muy de
cerca a la distribución chi cuadrada con 𝑣 = π‘˜ − 1 grados de libertad, siendo π‘˜ las posibilidades del
experimento (seis en un dado, dos en una moneda). Los símbolos π‘œπ‘– y 𝑒 𝑖 representan las
frecuencias observada y esperada para la i-ésima celda, respectivamente.
Si las frecuencias observadas se acercan a las frecuencias esperadas correspondientes, el valor πœ’2
será pequeño, lo cual indica un buen ajuste. Un buen ajuste conduce a la aceptación de 𝐻0. Por lo
tanto, la región crítica caerá en la cola derecha de la distribución chi cuadrada. Para un nivel de
significancia igual a 𝛼 encontramos el valor crítico πœ’2𝛼 en la distribución chi cuadrada, entonces,
πœ’2 > πœ’2𝛼 constituye la región crítica. El criterio de decisión que aquí se describe no se debería
utilizar a menos que cada una de las frecuencias esperadas sea por lo menos igual a 5.
Demostraciones extra
40
El signo de la covarianza indica si la relación entre dos variables aleatorias dependientes es
positiva o negativa. Cuando 𝑋 y π‘Œ son estadísticamente independientes, se puede demostrar que
la covarianza es cero.
41
Download