97578639-Probabilidad-y-Estadistica

advertisement
Probabilidad y Estadística
César Amarilla
1 de agosto de 2011
Índice general
1. Estadística y tipos de estadística
1.1. Introducción . . . . . . . . . .
1.2. Definiciones y ejemplos . . . .
1.2.1. Estadística . . . . . .
1.2.2. Estadística Descriptiva
1.2.3. Estadística Inferencial
1.2.4. Población y muestra .
1.3. Variables . . . . . . . . . . .
1.3.1. Tipos de variables . .
1.3.2. Escalas de medición .
1.4. Problemas . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
9
9
9
9
10
10
12
14
2. Distribuciones de Frecuencia
2.1. Estadística descriptiva . . . . .
2.2. Construcción . . . . . . . . .
2.2.1. Representación Gráfica
2.3. Problemas . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
20
22
3. Medidas de tendencia central
3.1. La Media . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. La Media Geométrica . . . . . . . . . . . . . .
3.1.2. La Media Aritmética . . . . . . . . . . . . . . .
3.1.3. Propiedades de la media aritmética . . . . . . . .
3.1.4. Desventajas de la media aritmética . . . . . . . .
3.1.5. La media para datos no agrupados . . . . . . . .
3.1.6. La media para datos agrupados . . . . . . . . . .
3.1.7. La media de la población . . . . . . . . . . . . .
3.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Propiedades de la mediana . . . . . . . . . . . .
3.2.2. La mediana para datos agrupados . . . . . . . .
3.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Propiedades de la moda . . . . . . . . . . . . .
3.3.2. Desventajas de la moda . . . . . . . . . . . . . .
3.3.3. La moda para datos agrupados . . . . . . . . . .
3.3.4. Comparación entre medidas de tendencia central
3.3.5. Relación entre las medidas de tendencia central .
3.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
25
26
26
26
26
27
28
28
29
29
31
31
31
31
32
33
33
1
ÍNDICE GENERAL
2
4. Medidas de Variabilidad
4.1. Introducción . . . . . . . . . . . . . . . . . . .
4.2. Variabilidad . . . . . . . . . . . . . . . . . . .
4.2.1. Rango y rango intercuartílico . . . . . .
4.2.2. Desviación media . . . . . . . . . . . .
4.2.3. Desviación media para datos agrupados
4.2.4. Varianza y desviación estándar . . . . .
4.3. Problemas . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
5. Probabilidad
5.1. Introducción . . . . . . . . . . . . . . . . . . . .
5.2. Definiciones y ejemplos . . . . . . . . . . . . . .
5.3. Operaciones entre eventos . . . . . . . . . . . .
5.4. Definciones de probabilidad . . . . . . . . . . .
5.4.1. Concepto Clásico de Probabilidad . . . .
5.4.2. Concepto frecuentista de probabilidad . .
5.4.3. Probabilidad subjetiva . . . . . . . . . .
5.4.4. Concepto axiomático de probabilidad . .
5.5. Teoremas de Probabilidad . . . . . . . . . . . . .
5.5.1. Teorema 1: Regla de la Adición . . . . .
5.5.2. Teorema 2: Regla de la complementación
5.5.3. Teorema 3: Regla de Diferenciación . . .
5.5.4. Probabilidad Condicional . . . . . . . .
5.5.5. Teorema 4: Reglas de Multiplicación . .
5.6. Problemas . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6. Variables aleatorias
6.1. Definiciones y ejemplos . . . . . . . . . . . . . . . . . . . . .
6.2. Distribución de probabilidad . . . . . . . . . . . . . . . . . .
6.2.1. Propiedades de la función de probabilidad . . . . . . .
6.2.2. Propiedades de la función de densidad de probabilidad
6.2.3. Distribuciones discretas . . . . . . . . . . . . . . . .
6.2.4. Distribuciones continuas . . . . . . . . . . . . . . . .
6.3. Esperanza, varianza y momentos . . . . . . . . . . . . . . . .
6.3.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . .
6.3.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.3. Momentos . . . . . . . . . . . . . . . . . . . . . . .
6.4. Función generadora de momentos . . . . . . . . . . . . . . .
6.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7. Distribuciones de probabilidad
7.1. Distribuciones discretas de probabilidad
7.1.1. Distribución Bernoulli . . . . .
7.1.2. Distribución binomial . . . . .
7.1.3. Distribución Poisson . . . . . .
7.1.4. Distribución geométrica . . . .
7.1.5. Distribución binomial negativa .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
35
35
36
36
37
39
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
42
43
44
45
45
46
46
47
47
48
48
48
49
51
.
.
.
.
.
.
.
.
.
.
.
.
63
63
66
66
68
72
72
72
72
76
78
80
83
.
.
.
.
.
.
91
91
91
92
95
99
101
ÍNDICE GENERAL
7.1.6. Distribución hipergeométrica . . . .
7.2. Distribuciones continuas de probabilidad . .
7.2.1. Distribución uniforme continua . .
7.2.2. Distribución Normal . . . . . . . .
7.2.3. Aproximación normal a la binomial.
7.2.4. Distribución ji-cuadrada . . . . . .
7.2.5. Distribución t de Student . . . . . .
7.2.6. Distribución exponencial . . . . . .
7.3. Problemas . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8. Muestras aleatorias y distribuciones de muestreo.
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2. Muestras aleatorias y estadísticos muestrales . . . . . . . . . . . . .
8.3. Métodos de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . .
8.3.2. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . .
8.3.3. Muestreo aleatorio estratificado . . . . . . . . . . . . . . .
8.3.4. Muestreo aleatorio por conglomerados . . . . . . . . . . . .
8.3.5. Error de Muestreo . . . . . . . . . . . . . . . . . . . . . .
8.4. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . .
8.4.1. Distribución Muestral de Medias . . . . . . . . . . . . . . .
8.4.2. Teorema del Límite Central . . . . . . . . . . . . . . . . .
8.4.3. Distribución Muestral de Varianzas . . . . . . . . . . . . .
8.4.4. Distribución F . . . . . . . . . . . . . . . . . . . . . . . .
8.4.5. Distribución Muestral de Proporciones . . . . . . . . . . .
8.4.6. Distribución Muestral de Sumas y de Diferencias de medias
8.4.7. Distribución Muestral de Relaciones de Varianzas . . . . . .
8.4.8. Distribución Muestral de Diferencias de Proporciones . . .
8.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9. Estimación
9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2. Estimadores y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1. Propiedades de un buen estimador . . . . . . . . . . . . . . . . . .
9.3. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.1. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . .
9.3.2. Estimadores por el método de los momentos . . . . . . . . . . . .
9.4. Estimación por Intervalos de Confianza . . . . . . . . . . . . . . . . . . .
9.4.1. Intervalos de confianza para estimar la media de una población . . .
9.4.2. Intervalos de confianza para la varianza y la desviación típica de una
población. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.4.3. Intervalos de confianza para estimar Proporciones . . . . . . . . . .
9.4.4. Intervalos de confianza para estimar Diferencias de Medias . . . . .
9.4.5. Intervalos de confianza para Relaciones de Varianzas . . . . . . . .
9.4.6. Intervalos de confianza para Diferencias de Proporciones . . . . . .
9.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
103
107
107
110
117
120
122
125
128
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
150
150
150
151
152
153
154
155
155
155
156
158
161
164
166
169
173
173
174
.
.
.
.
.
.
.
.
175
175
175
176
179
179
181
182
183
.
.
.
.
.
.
188
191
193
196
199
201
ÍNDICE GENERAL
4
10. Prueba de Hipótesis
10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2. Definiciones y ejemplos . . . . . . . . . . . . . . . . . . . .
10.2.1. ¿Qué es una hipótesis? . . . . . . . . . . . . . . . .
10.2.2. Hipotesis nula y alternativa . . . . . . . . . . . . . .
10.2.3. Dos tipos de errores . . . . . . . . . . . . . . . . .
10.2.4. Región Crítica . . . . . . . . . . . . . . . . . . . .
10.2.5. Función de Potencia . . . . . . . . . . . . . . . . .
10.2.6. Función Característica de Operación . . . . . . . . .
10.2.7. Hipótesis simples y compuestas . . . . . . . . . . .
10.2.8. Procedimiento de 4 pasos para contraste de hipótesis
10.3. Pruebas de hipótesis para grandes muestras (n ≥ 30) . . . .
10.3.1. Prueba de hipótesis para Medias . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
208
208
208
208
209
209
210
210
211
212
212
213
213
11. Análisis de la Varianza (ANOVA)
216
11.1. Suposiciones de ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
11.2. Procedimiento del análisis de la varianza . . . . . . . . . . . . . . . . . . . . 216
12. Análisis de regresión y de correlación
12.1. Introducción . . . . . . . . . . . . . . . . . .
12.2. Modelo Estadístico . . . . . . . . . . . . . .
12.3. Modelo de regresión simple . . . . . . . . . .
12.3.1. Ajuste de curva . . . . . . . . . . . .
12.3.2. El método de los mínimos cuadrados
12.3.3. Análisis de regresión simple . . . . .
12.4. Análisis de correlación . . . . . . . . . . . .
12.4.1. Análisis de correlación simple . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
218
218
218
220
220
221
224
224
225
Índice de figuras
2.1.
2.2.
2.3.
2.4.
2.5.
Representación gráfica de un histograma de frecuencia . . . .
Representación gráfica de un histograma de frecuencia relativa
Representación gráfica de un polígono de frecuencia . . . . .
Representación gráfica de un polígono de frecuencia relativa .
Representación gráfica de una ojiva de frecuencia acumulada .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
21
22
5.1.
5.2.
5.3.
5.4.
Representación gráfica de la intersección de dos eventos
Representación gráfica de la unión de dos eventos . . . .
Representación gráfica de complementos de eventos . . .
Representación gráfica de la diferencia de dos eventos . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
44
44
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
6.7.
Representación gráfica de la definición de una variable aleatoria
Representación gráfica del espacio muestral del ejemplo 6.1.2 .
Representación gráfica de la función del ejemplo 6.2.1 . . . . .
Representación gráfica de la probabilidad como un aréa . . . . .
Representación gráfica de f (x) (ejemplo 6.2.3 . . . . . . . . . .
Representación gráfica de F(x) del ejemplo 6.2.5 . . . . . . . .
Representación gráfica de F(x) del ejemplo 6.2.6 . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
64
67
68
69
70
70
Gráfica de f (x) de la distribución Poisson . . . . . . . . . . . . . . . . . . .
Gráfica de f (x) de la distribución exponencial . . . . . . . . . . . . . . . . .
Gráfica de F(x) de la distribución exponencial . . . . . . . . . . . . . . . . .
Gráfica de f (x) del ejemplo 7.2.1 . . . . . . . . . . . . . . . . . . . . . . . .
Gráfica de F(x) del ejemplo 7.2.1 . . . . . . . . . . . . . . . . . . . . . . .
Representación gráfica de f (x) para ciertos valores de µ y σ2 de una variable
aleatoria normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7. Representación gráfica de f (x) de una variable aleatoria normal . . . . . . .
7.8. Curvas normales que tienen medias iguales y desviaciones estándar diferentes
7.9. Curvas normales que tienen medias diferentes y desviaciones estándar iguales
7.10. Curvas normales que tienen medias diferentes y desviaciones estándar diferentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.11. Gráfica de f (x) cuando el parámetro k toma los valores 1,2,3,4 y 5 . . . . . .
7.12. Distribución t versus distribución normal . . . . . . . . . . . . . . . . . . . .
7.13. Gráfica de f (x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . .
7.14. Gráfica de F(x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . .
96
107
109
109
110
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.
.
.
.
.
.
.
.
.
.
.
.
.
111
112
112
113
113
121
124
126
126
8.1. Gráfica de f (x) cuando los parámetros m y n toman diferentes pares de valores.165
5
ÍNDICE DE FIGURAS
6
9.1. Gráfica del proceso de elección de los valores χ2c y χ2l . . . . . . . . . . . . . 189
9.2. Gráfica de la distribución acumulada de la χ2 . . . . . . . . . . . . . . . . . . 190
12.1. Gráfico de la relación entre el número de años que se estudió alemán y la
calificación obtenida en la prueba. . . . . . . . . . . . . . . . . . . . . . . . 223
Índice de cuadros
7
Capítulo 1
Estadística y tipos de estadística
1.1.
Introducción
¿Qué significa la palabra estadística?
La encontramos frecuentemente en nuestro lenguaje cotidiano. En su uso más común,
estadística se refiere a informaciones numéricas. Ejemplos serían; el salario inicial promedio
de un graduado de una escuela superior, el número de decesos anuales debido al alcoholismo,
el porcentaje de alumnos no graduados que estudian en la Universidad Nacional de Asunción,
la variación de ayer a hoy de los precios de los productos de la canasta familiar, etc. En estos
ejemplos la estadística consiste en números o porcentajes. A estos números se les denomina
estadísticos.
La Estadística se divide en dos grandes áreas (descripción de datos y realización de inferencias) que reflejan la propia historia del desarrollo de esta ciencia. La Estadística actual es el
producto del encuentro de dos ramas distintas del saber, la antigua estadística y el cálculo de
probabilidades, que se encontraron en el siglo XIX. Etimológicamente, la palabra estadística
procede de la palabra estado, ya que desde la antigüedad los romanos hicieron recolecciones
de datos que posteriormente tenían que resumir de una forma comprensiva y que permitiera
proporcionar informaciones útiles. Este tipo de estudios dio lugar a la estadística descriptiva
cuya misión consiste en describir situaciones y procesos dados; para ello se sirve de tablas,
representaciones gráficas, proporciones, números índice y medidas típicas.
Sin embargo las conclusiones extraídas se agotan en el propio conjunto de datos observados, pues el objetivo consistía en hacerse una idea clara de lo que había, y lo que había se
contaba y se medía. Lo que posibilitó el cálculo de probabilidades fue, precisamente, el desarrollo de un conjunto de métodos para extrapolar las conclusiones a entidades no observadas.
Es decir, proporcionó el instrumento adecuado para poder hacer inferencias acerca de grandes
cantidades de observaciones potenciales a partir de unas pocas observaciones reales. Estas
técnicas tuvieron su fundamento en el desarrollo de la curva normal por Gauss, en su aplicación por Galton a los problemas de herencia, etc. Sin embargo los auténticos fundadores
de estas técnicas fueron Karl Pearson (1857-1936) y Sir Ronald Fisher (1890-1962). Así se
ha desarrollado la estadística analítica o inferencial basada en la teoría de probabilidades que
trata de obtener leyes generales a partir de la observación de algunos datos. Precisamente
este fundamento probabilístico condiciona el que los resultados obtenidos se vean sujetos a
unos márgenes de error. Ahora se puede dar una definición de Estadística en la que aparecen
algunos términos no definidos lo cual no impedirá entender su significado.
8
1.2. DEFINICIONES Y EJEMPLOS
1.2.
Definiciones y ejemplos
1.2.1.
Estadística
9
Definición 1.2.1 Es la ciencia que se ocupa de la ordenación y análisis de datos procedentes
de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas
proceden. Es la ciencia que estudia los fenómenos aleatorios.
1.2.2.
Estadística Descriptiva
La primer parte de la definición de estadísticas, es comúnmente conocida como Estadística Descriptiva. La definición es la siguiente: “Es el conjunto de procedimientos utilizados
para organizar, resumir y presentar grupos de datos numéricos”. Los grupos de datos numéricos no organizados son de poca utilidad. Sin embargo, técnicas estadísticas están disponibles
para organizar estos datos en distribuciones de frecuencia, presentarlos en gráficas, resumirlos en promedios y medidas de variabilidad o dispersión.
1.2.3.
Estadística Inferencial
Otra faceta de las estadísticas es la estadística inferencial también llamada estadística
inductiva. La principal utilidad de la estadística inferencial es conocer algo acerca de una
población basándose en una muestra tomada de esa población. La definición es la siguiente:
Es el conjunto de métodos utilizados para obtener conclusiones relativas a una población,
basándose en el conocimiento de las características de una muestra. Una población puede
consistir de individuos, tales como todos los estudiantes de la universidad, todos los estudiantes que estudian Estadísticas o todos los internos de la penitenciaria. Una población puede
también consistir de objetos, tales como todos los motores producidos por la planta Ford
o todas las truchas en un estanque. Una población también puede consistir en un grupo de
medidas, tales como las estaturas equipo de básquetbol "Dorados de Chihuahua".
1.2.4.
Población y muestra
Definición 1.2.2 : Individuo
Es cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos
el precio de la vivienda, cada vivienda es un individuo.
Definición 1.2.3 : Población
Es el conjunto de todos los individuos (personas, objetos, animales, etc.) que portan información sobre el fenómeno que se estudia. Para inferir algo acerca de una población, usualmente tomamos una muestra de ella.
Definición 1.2.4 : Muestra
Es un subconjunto de la población de interés.
1.3. VARIABLES
10
Por ejemplo una población en estudio podría ser el conjunto de todos los estudiantes que
estudian administración en la Facultad de Ciencias Económicas de la Universidad Nacional
de Asunción y una muestra podría consistir en el conjunto de estudiantes de primer año de
dicha población.
1.3.
Variables
Definición 1.3.1 : Variables
Es una característica que puede tomar diferentes valores. Las variables son características
observables, susceptibles de adoptar distintos valores o ser expresados en categorías. Variable
es un aspecto especifico de la realidad referido a la unidad del análisis y puede ser medidos
o cuantificados. La variable adquiere un valor determinado en cada unidad de análisis. Si
una característica, se encuentra que toma valores diferentes en personas, lugares o cosas
diferentes, se dice que esta característica es variable, es decir la característica no es la misma
cuando se observa en diferentes poseedoras de ellas.
Ejemplo 1.3.1 Las siguientes características son ejemplos de variables
Estatura de las personas
Edad de los niños
El precio y la demanda de un producto
Definición 1.3.2 : Variables Aleatorias
Cuando los valores obtenidos de la variable son el resultado de factores fortuitos o al azar.
Ejemplo 1.3.2 Las siguientes características son ejemplos de variables aleatorias
El número de caras obtenidas en tres lanzamientos de una moneda
El número de hijos en un matrimonio determinado
1.3.1.
Tipos de variables
Definición 1.3.3 : Variable Cualitativa
Cuando la variable estudiada es no numérica es decir una característica que no puede ser
medido sino solo catalogarse, esta es llamada variable cualitativa también llamada atributo.
Ejemplo 1.3.3 Las siguientes características son ejemplos de variables cualitativas
lugar de nacimiento
religión
color de ojos
1.3. VARIABLES
11
Definición 1.3.4 : Variable Cuantitativa
Cuando la variable estudiada puede expresarse en forma numérica es decir puede ser medido, esta es llamada variable cuantitativa. Las variables cuantitativas pueden ser discretas o
continuas.
Ejemplo 1.3.4 Las siguientes características son ejemplos de variables cualitativas
el saldo de una cuenta bancario,
la duración de una batería,
la velocidad de los automóviles en el periférico de la juventud
Definición 1.3.5 : Variables Discretas
Las variables discretas pueden asumir solo ciertos valores, y hay usualmente huecos entre
los valores (valores puntuales).
Ejemplo 1.3.5 Las siguientes características son ejemplos de variables discretas
número de cuartos en una casa
número de carros en el estacionamiento del claustro
número de estudiantes en la clase de estadísticas.
Note que cada una de estas variables puede valer un número entero (por ejemplo: 1,2,3,
etc.) pero no puede valer números fraccionarios (por ejemplo: 1,5). Típicamente, las variables
discretas resultan de un conteo.
Definición 1.3.6 : Variables Continuas
Las variables continuas pueden asumir todos los valores dentro de un rango específico
(valores dentro de un intervalo)
Ejemplo 1.3.6 Las siguientes características son ejemplos de variables continuas
presión del aire en una llanta
el tiempo que se toma en viajar de Itá a San Lorenzo
el peso de los jugadores de fútbol del club Cerro Porteño
Típicamente, las variables continuas resultan de medir algo, y lógicamente dependen de
la exactitud del instrumento de medición.
1.3. VARIABLES
1.3.2.
12
Escalas de medición
La estadística no realiza sus funciones directamente sobre las modalidades observadas,
sino que éstas se representan por valores numéricos, y la estadística realiza sus funciones
sobre esos valores numéricos.
Se llama medición al proceso de atribuir números a las características. La medición estudia las condiciones de construcción de representaciones numéricas, y los modelos desarrollados para la medición se llaman escalas. Por lo tanto los datos se pueden clasificar de
acuerdo con niveles de medición. Hay cuatro escalas de medición que son: nominal, ordinal,
de intervalo y de razón.
Definición 1.3.7 : Escala Nominal
El término nivel nominal es normalmente usado para referirse a datos que solamente
pueden clasificarse en categorías. Es la escala de medición más bajo o más primitiva. Sin
embargo, no hay mediciones y no hay escalas involucradas, solo hay conteo. En este tipo de
nivel de medición el orden en que están acomodadas las categorías es totalmente arbitrario.
Ejemplo 1.3.7 Religiones en México (población con 5 años o más, censo del 2000)
Categoría
Religión Católica
Religión no católica
Sin religión
total
Seguidores
74 612 373
3 483 593
2 982 929
81 078 895
Definición 1.3.8 : Escala Ordinal
Este tipo de nivel de medición tiene características similares al nivel nominal con la diferencia de que en el nivel ordinal las categorías indican que unas son más que las otras.
Ejemplo 1.3.8 Evaluación de la atención médica en Uruguay en el año 2006
Categoría
Buena / muy buena
regular
mala / muy mala
no sabe / no contesta
total
Calificación ( %)
75,7
17,1
2
5,2
100
Definición 1.3.9 : Escala cuantitativa intervalar
En este nivel de medición, las categorías están definidas por intervalos de valores, y están
acomodadas en orden a la magnitud de los valores. El tamaño de los intervalos es el mismo.
Propiedades de la escala de intervalos
a) Las categorías de datos son mutuamente excluyentes y exhaustivas.
b) Las categorías de datos están ordenadas de acuerdo con la cantidad de la características
que poseen.
1.3. VARIABLES
13
c) Diferencias iguales en la característica están representadas por diferencias iguales en
los números asignados a las categorías
Ejemplo 1.3.9 Calificaciones de los aspirantes a la academia militar
Calificación
90 - 99
80 - 89
70 - 79
60 - 69
Número de aspirantes
42
19
7
4
Definición 1.3.10 : Escala cuantitativa Racional
La escala de razón es el de nivel más alto. En este nivel al igual que en el nivel intervalar,
las categorías son del mismo tamaño. La diferencia es que este nivel tiene un punto cero
significativo y el valor de las categorías es en relación a ese punto, por lo que la relación entre
dos números tiene sentido.
Propiedades de la escala de Razón
a) Las categorías de datos son mutuamente excluyentes y exhaustivas.
b) Las categorías de datos están ordenadas de acuerdo con la cantidad de las características que poseen.
c) Diferencias iguales en la característica están representadas por diferencias iguales en
los números asignados a las categorías.
d) El punto cero refleja la ausencia de estas características.
Ejemplo 1.3.10 Ingreso de los empleados de la compañía en relación a la media de la industria
Ingreso en relación a la media
2000
1000
0
-1000
-2000
Número de empleados
12
25
32
17
10
Observación
En la escala de medición de una variable; sea cualitativa o cuantitativa; las categorías
deben ser mutuamente excluyentes. Esto significa que un individuo ó medición pertenece
únicamente a una de las categorias. Además las categorías deben ser exhaustivas, esto es
cada individuo ó medición debe pertenecer a una de las categorías.
1.4. PROBLEMAS
1.4.
14
Problemas
1. ¿Cuál es el nivel de medición de cada una de las siguientes variables?
a) Distancia que recorren los estudiantes para llegar a clases
b) Calificaciones de los estudiantes en la primera prueba de estadística
c) Una clasificación de los estudiantes según el departamento en que nacieron
d) El número de horas que estudia por semana un estudiante
2. ¿Cúal es el nivel de medición de estos incisos relacionados con la industria periodística?
a) El número de periódicos vendidos cada domingo durante el año 2010
b) El número de empleados en cada departamento, editorial, propaganda, deportes,
etcétera.
c) Un resumen, por ciudad, del número de periódicos vendidos
d) El número de años que lleva cada empleado en el periódico
3. En cada uno de los siguientes puntos determine si el grupo es una muestra o una
población
a) Los participantes en un estudio de un nuevo medicamento para la diabetes
b) Todos los automovilistas que fueron multados por exceso de velocidad en la ciudad de San Lorenzo el mes pasado.
c) Todos los que reciben asistencia médica en el Hospital Nacional de Itaugua
d) Número de artículos defectuosos encontrados en los embarques.
4. Las diferentes variables cuantitativas, ¿A qué tipo de datos corresponden?
a) Número de clientes que llegan en un Banco antes del medio día
b) Sueldos que se pagan a los diferentes jubilados Bancarios
c) Superfice de tierra que corresponden a los Campesinos de San Pedro
d) Nivel de presión arterial de los varones mayores a 30 años
5. En los ejemplos a continuación establezca la muestra o población
a) 50 ama de casa que utilizan determinada marca de detergentes en una ciudad de
800 habitantes.
b) Los montos de sueldos de cada uno de los trabajadores de una compañía
c) 100 estudiantes de la Universidad Nacional de Asunción con sus respectivas calificaciones en Estadística.
6. Diga cuál es la variable y a qué naturaleza corresponde
a) Un estudiante recorre una distancia de 25 km para llegar a la Universidad
b) Distancia recorrida por un grupo de estudiantes para llegar a la Universidad
1.4. PROBLEMAS
15
c) Preferencia de color de cabello en las mujeres en tiempo de verano
d) Estado de ánimo de los trabajadores de una compañia en horas de la siesta
e) Precios de los calzados de vestir masculino en una ciudad
f) Número de niños que no acuden diariamente en la semana en una escuela
7. Explique la diferencia entre variables cualitativas y cuantitativas.
8. Explique la diferencia entre población y muestra
9. Defina el término mutuamente excluyentes
10. Defina el término mutuamente exhaustivo
11. A una muestra aleatoria de 500 clientes se le pidió probar una nueva pasta dental. De
los 500, 400 dijeron que era excelente, 32 pensaron que era buena y el resto de los
clientes no dieron ninguna opinión. Basandose en lo encontrado en la muestra haga
una diferencia de la reacción de todos los clientes a la nueva pasta dental.
12. Una muestra aleatoria de 300 ejecutivos de los 2500 empleados en una empresa grande
mostró que 270 se mudarían a otro sitio si ello significara un ascenso importante.
Basándose en los hallazgos en la muestra describa la reacción de todos los ejecutivo de la empresa.
13. Explique la diferencia entre variables discretas y continuas.
14. Defina el término escala
15. Cita los tipos de niveles de medición
16. Identificar las escalas de medición de las siguientes variables
a) Número de jugadores de fútbol
b) Ansiedad
c) Presión arterial
d) Estado de conciencia
e) Dolor
f) Grupo saguíneo
g) Temperatura
Capítulo 2
Distribuciones de Frecuencia
2.1.
Estadística descriptiva
Como su nombre lo indica, la estadística descriptiva es la parte de la estadística que
describe y resume una serie de datos. La estadística descriptiva hace énfasis en tres aspectos:
1. La forma de la distribución. Para describir como están distribuidos los datos utiliza una
herramienta llamada “distribución de frecuencia” y presenta la información por medio
de tablas y gráficas.
2. Las medidas de tendencia central: que resumen la información a una cifra que es representativa de la serie de datos.
3. Las medidas de variabilidad: que nos indican que tan variables son los datos respecto
a las medidas de tendencia central.
En este capítulo se presenta una manera de elaborar una distribución de frecuencia, en
las secciones siguientes se abordarán los temas de medidas de tendencia central y medidas
de variabilidad.
2.2.
Construcción
Una distribución de frecuencias es una serie de datos agrupados en categorías, en las
cuales se muestra el número de observaciones que contiene cada categoría.
Los pasos para la construcción de una distribución de frecuencias son mejor explicados
con un ejemplo.
Ejemplo 2.2.1 Los siguientes datos son el número de meses de duración de una muestra de
40 baterías para coche.
22
34
25
33
47
41
16
43
31
38
35
31
34
37
32
45
33
36
44
26
32
38
29
32
39
16
37
31
33
41
30
30
47
39
19
42
26
37
31
34
35
2.2. CONSTRUCCIÓN
17
1. Ordenación de datos, que puede ser en orden ascendente o descendente
16
19
22
25
26
26
29
30
30
31
31
31
31
32
32
32
33
33
33
34
34
34
35
35
36
37
37
37
38
38
39
39
41
41
42
43
44
45
47
47
2. El rango (amplitud)
Rango = Dato mayor - Dato menor = 47 - 16 = 31
3. Número tentativo de los intervalos de clase (nic)
El número de intervalos (nic) puede ser como mínimo 5 y como máximo 15 de acuerdo
a la fórmula : 2nic
Número de intervalos (nic)
5
6
7
8
9
10
Número máximo de datos (2nic )
32
64
128
256
512
1024
En este ejercicio, puesto que tenemos 40 datos el nic sería de 6.
También al nic le podemos calcular de la siguiente manera:
nic = 1 + 3, 322log10 N = 1 + 3, 3222log10 40 = 6, 32 ' 6
4. Tamaño de los intervalos de Clase (tic)
tic =
Rango
nic
=
31
6
= 5,16 que se redondea a 6
Para facilitar la clasificación de los datos, el tic se redondea siempre al entero posterior.
5. Límite inferior (LI)
Usualmente, el límite inferior del primer intervalo de clase es el dato más chico, que en
este ejemplo es 16.
El límite inferior de los siguientes intervalos se calcula sumando el tic al límite inferior
del intervalo anterior hasta llegar a un número no mayor al dato más grande.
6. Límite superior (LS)
El límite superior se calcula con la siguiente fórmula LS = LI + tic − 1
2.2. CONSTRUCCIÓN
18
LI
16
22
28
34
40
46
LS
21
27
33
39
45
51
7. Límite Superior Real (LSR)
Los límites anteriores son los límites nominales pero no son los reales. Los límites
reales son el punto medio entre el límite superior (LS) y el límite inferior del siguiente
³
LS + LIsig ´
intervalo (LIsig), entonces LSR =
2
LI
16
22
28
34
40
46
LS
21
27
33
39
45
51
LSR
21,5
27,5
33,5
39,5
45,5
51,5
8. Marca de clase (X)
La marca de clase, también llamada punto medio del intervalo es la mitad de la distancia
entre los límites inferior y superior de cada intervalo. La marca de clase es el valor más
LI + LS
representativo de los valores del intervalo. Con lo cual X =
2
LI
16
22
28
34
40
46
LS
21
27
33
39
45
51
LSR
21,5
27,5
33,5
39,5
45,5
51,5
X
18,5
24,5
30,5
36,5
42,5
48,5
9. Clasificación de los datos y conteo de frecuencias
Clasificar las observaciones en los intervalos. La práctica usual es marcar con una línea
( / ) que representa una observación. En el ejemplo la observación 22 se clasifica en el
intervalo 20 - 24 porque se encuentra entre el 20 y el 24 inclusive. Una vez clasificados
todos los datos se cuentan las líneas de cada intervalo y el resultado es la frecuencia de
cada intervalo de clase.
2.2. CONSTRUCCIÓN
19
LI
16
22
28
34
40
46
LS
21
27
33
39
45
51
LSR
21,5
27,5
33,5
39,5
45,5
51,5
X
18,5
24,5
30,5
36,5
42,5
48,5
cuenta
//
////
///// ///// ///
///// ///// ///
///// /
//
F
2
4
13
13
6
2
10. Distribución de frecuencia relativa (FR)
Se pueden convertir las frecuencias de clase en frecuencias relativas de clase para
mostrar los porcentajes de observaciones en cada intervalo de clase. Para convertir
una distribución de frecuencia en una distribución de frecuencia relativa cada una de
³
F´
las frecuencias de clase se dividen entre el número total de observaciones FR =
n
LI
16
22
28
34
40
46
LS
21
27
33
39
45
51
LSR
21,5
27,5
33,5
39,5
45,5
51,5
X
cuenta
18,5
//
24,5
////
30,5 ///// ///// ///
36,5 ///// ///// ///
42,5
///// /
48,5
//
F
2
4
13
13
6
2
FR
2/40 = 0, 05
4/40 = 0, 1
13/40 = 0, 325
13/40 = 0, 325
6/40 = 0, 15
2/40 = 0, 05
11. Distribuciones de frecuencia acumulada
Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuantas observaciones, o que porcentaje de observaciones están debajo de cierto valor.
La distribución de frecuencia acumulada (FA) de cierto intervalo se calcula sumando
las frecuencias de clase desde el primer intervalo hasta la frecuencia de clase del intervalo de interés. Si queremos la frecuencia acumulada del intervalo 25 - 29, sumamos
las frecuencias de clase 2 + 1 + 4 = 7.
La distribución de frecuencia relativa acumulada (FAR) de cierto intervalo se calcula
dividiendo la frecuencia acumulada entre el número total de observaciones
FA
FRA =
n
LI LS
16 21
22 27
28 33
34 39
40 45
46 51
LSR
21,5
27,5
33,5
39,5
45,5
51,5
X
18,5
24,5
30,5
36,5
42,5
48,5
cuenta
//
////
///// ///// ///
///// ///// ///
///// /
//
F
2
4
13
13
6
2
FR
0,05
0,1
0,325
0,325
0,15
0,05
FA FRA
2
0,05
6
0,15
19 0,475
32
0,8
38 0,95
40
1
2.2. CONSTRUCCIÓN
2.2.1.
20
Representación Gráfica
Tres gráficas que nos ayudarán a representar gráficamente una distribución de frecuencias
son el histograma, el polígono de frecuencia y la ojiva de frecuencia acumulada.
El histograma
El histograma es una de las gráficas más ampliamente utilizadas y una de las mas fáciles
de entender. Un histograma describe una distribución de frecuencia utilizando una serie de
rectángulos adyacentes donde la altura de cada rectángulo es proporcional a la frecuencia de
clase que representa.
Figura 2.1: Representación gráfica de un histograma de frecuencia
Figura 2.2: Representación gráfica de un histograma de frecuencia relativa
2.2. CONSTRUCCIÓN
21
Polígono de frecuencia
El polígono de frecuencia consiste de segmentos de línea conectando los puntos formados
por la intersección de las marcas de clase y las frecuencias de clase.
Figura 2.3: Representación gráfica de un polígono de frecuencia
El polígono de frecuencia relativa
Es similar al anterior solo que en este se muestran porcentajes, es decir las frecuencias
relativas de cada clase.
Figura 2.4: Representación gráfica de un polígono de frecuencia relativa
2.3. PROBLEMAS
22
Ojivas de Frecuencia Acumulada
Las distribuciones de frecuencia acumulada y frecuencia relativa acumulada se presentan
gráficamente con las ojivas de frecuencia acumulada y frecuencia relativa acumulada, que es
una gráfica de segmentos de línea que une los puntos donde se cruzan los límites reales con
las frecuencias acumuladas y relativas acumuladas de cada intervalo de clase.
Figura 2.5: Representación gráfica de una ojiva de frecuencia acumulada
2.3.
Problemas
Elabore la distribución de frecuencias de las siguientes series de datos, con sus respectivas
gráficas:
1. Los resultados siguientes representan las calificaciones del examen final de un curso
de estadística elemental.
23
80
52
41
60
34
60
77
10
71
78
67
79
81
64
83
89
17
32
95
75
54
76
82
57
41
78
64
84
69
74
65
25
72
48
74
52
92
80
88
84
63
70
85
98
62
90
80
82
55
81
74
15
85
36
76
67
43
79
61
2. Una compañía de cambio de aceite tiene varias sucursales en la zona metropolitana. El
número de cambios de aceite en la sucursal de la calle Roble en los pasados 20 días
son:
66 98 55 62 79 59 51 90 72 56
70 62 66 80 94 79 63 73 71 85
2.3. PROBLEMAS
23
3. El gerente de una firma especializada en renta de condominios para vacacionistas,
quiere saber como están distribuidas los montos de las rentas mensuales de los departamentos de la firma. Seleccionó una muestra de departamentos cuyas muestras son
mostradas abajo.
1170
1332
1471
1826
1440
1119
1352
Rentas mensuales de los condominios
1581 1277 1305 1472 1077 1319
1949 1403 1744 1532 1219 896
1041 1379 821 1558 1118 1533
1426 1288 1394 1545 1032 1289
1329 1407 718 1457 1449 1455
1400 1442 1593 1962 1263 1788
1459 1823 1451 1138 1592 982
1207
1418
1399
1309
1421
1020
1340
1537
1500
1510
695
2051
1501
1981
1849
1671
1760
803
1677
1668
1091
4. Los siguientes datos representan la duración de la vida en meses de 30 bombas de
combustible similares.
24
3
18
36
72
48
4
66
71
40 16
78 3
22 57
5 18
28 67
9 54
6
72
4
30 60
15 3
12 72
5. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas
sometidas a un nuevo atomizador en un experimento de laboratorio controlado.
17
12
16
13
7
20
14
18
7
10
10
6
8
18
5
9
9
13
7
14
23
13
3
10
15
13 12
6 7
32 9
4 27
10 9
19
10
7
19
6
18 24
13 7
10 11
16 8
7 15
6. Se aplicó una encuesta donde se les pide indicar el número de amigos o parientes que
visitan cuando menos una vez al mes. Los resultados son los siguientes:
3
2
5
4
9
4
5
4
6
14
4
3
2
2
4
3
1
5
3
5
3
5
4
7
3
3
2
6
2
3
4
3
2
3
4
5
1
3
6
4
3
6
8
0
3
2
5
2
4
3
5
4
0
2
7. El gerente de un negocio de comida rápida esta interesado en el número de veces que
un cliente compra en su tienda durante un periodo de dos semanas. Las respuestas de
los 51 clientes fueron:
5
1
5
3
2
9
3
4
11
1
4
3
4
4
12
4
5
4
5
6
7
6
3
6
4 2
5 3
5 15
6
4
1
6 6
5 6
1 10
7 1
8 4
8 9
1
7
2
14
6
12
2.3. PROBLEMAS
24
8. El presidente de una agencia de viajes, quiere información sobre las edades de la gente
que toma cruceros por el Caribe. Una muestra de 40 clientes que tomaron un crucero
el año pasado reveló estas edades:
77
36
62
60
18
26
43
45
63
50
52
66
84
34
53
83
38
44
63
71
54
41
62
63
50
58
62
58
59
58
65
61
54
53
61
71
56
51
52
60
9. Una cadena de tiendas de artículos deportivos al servicio de esquiadores principiantes,
planea hacer un estudio de cuanto gasta un esquiador principiante en su primera compra de equipo. Una muestra de recibos de sus cajas registradoras reveló esas compras
iniciales.
140
235
162
87
82
212
126
128
265
171
216
126
168
149
195
175
90
156
127
127
114
162
161
149
172
118
135
126
230
139
172
121
142
149
220
118
86
132
229
172
125
105
129
126
10. Se conduce un estudio de los efectos de fumar sobre los patrones de sueño. La medición
que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos
datos:
69 56 22 28 41 28 47 53 48
30 34 13 52 34 60 25 21 37
43 23 13 31 29 38 26 36 30
11. Un banco seleccionó una muestra de 40 cuentas de cheques de estudiantes. Abajo
aparecen sus saldos de fin de mes.
404
87
703
968
74
234
125
712
234
68
350
503
149
489
440
498
279
57
37
327
215
185
252
608
123
141
27
358
55
758
521
425
43
72
302
303
321
863
127
203
12. Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los siguientes datos son las cuentas que se les facturó el mes pasado:
54
67
48
68
58
39
50 25
35 56
47 75
66 33
46
62
60 70
65 67
13. Una muestra de suscriptores de una compañía telefónica reveló los siguientes números
de llamadas recibidas en la última semana.
52
39
43
37
30 38
34 46
30 42
32 18
12
41
46
5
Capítulo 3
Medidas de tendencia central
Promedios
A las medidas de tendencia central con frecuencia se les llama promedios. El propósito
de una medida de tendencia central es indicar con toda precisión el centro de un conjunto de
observaciones.
3.1.
La Media
3.1.1.
La Media Geométrica
La media geométrica es útil para encontrar el promedio de porcentajes, proporciones,
índices, o tasas de crecimiento. Tiene mucha aplicación en el comercio y la economía porque
nos interesa encontrar el porcentaje de cambio en ventas, salarios o datos económicos como el
producto nacional bruto. La media geométrica de un conjunto de "n"números enteros positivo
se define como la n-ésima raíz del producto de los n valores es decir:
p
n
X1 , X2 , . . . , Xn
Ejemplo 3.1.1 Suponga que usted recibe un 5 % de aumento en su salario este año y un
15 % de aumento el año próximo y quiere saber cual es el incremento porcentual promedio.
Si tiene un aumento del 5 % entonces su salario es 1,05 y si tiene un p
aumento del 15 %
su salario es de 1,15 entonces calculando la media geométrica se obtiene (1, 05)(1, 15) =
1, 09886, por lo que el aumento promedio anual es del 9, 886 %.
Ejemplo 3.1.2 Las ganancias obtenidas por Atkins Construction Company en cuatro proyectos recientes fueron 3 %, 2 %, 4 % y 6 %. ¿ Cuál es la media de las ganancias?
Por lo que la media de ganancias obtenidas por Atkins Construction Company en los
cuatro proyectos esta dada por
p
4
(0, 03)(0, 2)(0, 4)(0, 6) = 0, 03464
o sea 3,464 %
25
3.1. LA MEDIA
3.1.2.
26
La Media Aritmética
La medida de tendencia central mas ampliamente usada es la media aritmética, usualmente abreviada como media.
La media aritmética de un conjunto de n valores (observaciones) es el resultado de la
suma de todos ellos dividido entre n.
3.1.3.
Propiedades de la media aritmética
1. Puede ser calculada en distribuciones con escala relativa e intervalar.
2. Todos los valores son incluidos en el cómputo de la media.
3. Una serie de datos solo tiene una media.
4. Es una medida muy útil para comparar dos o más poblaciones.
5. Es la única medida de tendencia central donde la suma de las desviaciones de cada
valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media
como el punto de balance de una serie de datos.
3.1.4.
Desventajas de la media aritmética
1. Si alguno de los valores es extremadamente grande o extremadamente pequeño, la
media no es el promedio apropiado para representar la serie de datos.
2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase
abiertos.
3.1.5.
La media para datos no agrupados
Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores
dividido entre el número total de valores. Para encontrar la media de una muestra se usa la
siguiente fórmula:
n
∑ Xi
X=
i=1
n
Donde:
X : es la media de la muestra
n
∑ Xi : es la suma de todos los valores de la muestra
i=1
n : es el número de elementos de la muestra
Ejemplo 3.1.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria
de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la media
aritmética de estas observaciones?
3.1. LA MEDIA
27
n
∑ Xi
X=
3.1.6.
i=1
n
=
85, 4 + 85, 3 + 84, 9 + 85, 4 + 84, 0
= 85, 0
5
La media para datos agrupados
Frecuentemente los datos estás agrupados y presentados en forma de distribución de frecuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por
consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base
a la distribución de frecuencias.
La media aritmética de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera:
X=
∑ fi Xi
n
Donde:
X : simboliza la media de la muestra
Xi : es la marca de clase del intervalo i-ésimo
fi : es la frecuencia de clase del intervalo i-ésimo
∑ fiXi : es la suma de los productos de fi por Xi
n = ∑ f : es la suma de las frecuencias de clase
Ejemplo 3.1.4 Calcular la media aritmética de la siguiente distribución de frecuencia del
número de meses de duración de una muestra de 40 baterías para coche.
duración de las baterías (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
Número de baterías
2
1
4
15
10
5
3
Damos como un hecho que ya sabemos elaborar una distribución de frecuencias, si se
quiere ver como se elaboró vaya a la sección de ese tema en este mismo sitio.
Primeramente, de la distribución de frecuencias que ya tenemos, utilizaremos las marcas de clases y la frecuencias de clases, para después calcular el producto fi Xi y proceder
3.2. LA MEDIANA
28
finalmente a calcular la sumatoria ∑ fi Xi y aplicar la fórmula.
LI
15
20
25
30
35
40
45
3.1.7.
LS
19
24
29
34
39
44
49
Xi
17
22
27
32
37
42
47
fi
2
1
4
15
10
5
3
n =40
fi Xi
34
22
108
480
370
210
141
∑ fiXi = 1365
X=
∑ fi Xi 1365
=
= 34, 12
n
40
La media de la población
Las medidas características de una muestra son llamadas estadísticos y las medidas características de una población se denominan parámetros. La media de la población se calcula
de la misma manera que la media de la muestra, que calculamos arriba, pero tiene diferente
notación:
N
∑ Xi
µ=
i=1
N
Donde:
µ : es la media de la población
N
∑ Xi : es la suma de todos los valores de la población
i=1
N : es el número de elementos de la población
3.2.
La mediana
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la
media aritmética no es representativa. El valor central en tales problemas puede ser mejor
descrito usando una medida de tendencia central llamada mediana.
La mediana es el punto medio de los valores de una serie de datos después de haber
sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como
posteriores en el arreglo de datos.
Ejemplo 3.2.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de
la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la mediana de
las observaciones muestreadas?
3.2. LA MEDIANA
29
85,9
85,4
85,4 ↓→↓ X̃
84,3
84,0
Por lo que la mediana es X̃ = 85, 4
Ejemplo 3.2.2 Una muestra de los honorarios de paramédicos cargados por la clínica Baltimore reveló las siguientes cantidades: 35,29, 30,25, 32,35. ¿Cuál es la mediana?
25
29
30
32
35
35
↓→↓ X̃
En este caso la mediana se calcula obteniendo la media de las dos observaciones centrales
X̃ =
3.2.1.
30 + 32
= 31
2
Propiedades de la mediana
1. Hay solo una mediana en una serie de datos.
2. No es afectada por los valores extremos ( altos o bajos )
3. Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se
encuentra en el intervalo abierto.
4. Puede ser calculada en distribuciones con escala relativa, intervalar, y ordinal.
3.2.2.
La mediana para datos agrupados
Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes
pasos:
1. Calcular el valor
n
2
2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano).
Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada
n
es igual o mayor que .
2
3.2. LA MEDIANA
30
3. Aplicando la siguiente fórmula con los valores del intervalo mediano:
X̃ = LRI +
( n2 − FA)tic
F
Donde:
X̃ : mediana de la muestra
LRI : Limite real inferior del intervalo mediano
FA : frecuencia acumulada anterior a la frecuencia del intervalo mediano
tic : tamaño de los intervalos de clase
F : frecuencia del intervalo mediano
Ejemplo 3.2.3 Calcular mediana de la siguiente distribución de frecuencia del número de
meses de duración de una muestra de 40 baterías para coche.
Duración de las baterías (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
Número de baterías
2
1
4
15
10
5
3
Para calcular la mediana de una distribución de frecuencias necesitamos obtener el intervalo el intervalo mediano para luego obtener el límite superior real (LSR), la frecuencia
acumulada anterior a la frecuencia de la mediana (FA) y la frecuencia absoluta de la mediana
(F).
Procedamos entonces a localizar el intervalo mediano a través de los siguientes pasos
1. El valor de
n 40
=
= 20
2
2
2. El intervalo mediano es:
LI LS
15 19
20 24
25 29
30 34
35 39
40 44
45 49
LSR
19,5
24,5
29,5
34,5
39,5
44,5
49,5
X
17
22
27
32
37
42
47
F
2
1
4
15
10
5
3
FA
2
3
7
22 ↓→↓ intervalo mediano
32
37
40
3.3. LA MODA
31
Aplicar la fórmula con los datos del intervalo mediano:
X̃ = LRI +
3.3.
( n2 − FA)tic
(20 − 7)(5)
= 29, 5 +
= 33, 83
F
15
La moda
La moda es la medida de tendencia central especialmente útil para describir mediciones
de tipo ordinal y nominal. Es el valor de la observación que aparece más frecuentemente.
3.3.1.
Propiedades de la moda
1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y relativa).
2. La moda tiene la ventaja de no ser afectada por valores extremos.
3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.
3.3.2.
Desventajas de la moda
1. En muchas series de datos no hay moda porque ningún valor aparece más de una vez.
2. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse
¿cual es el valor representativo de la serie de datos?
Ejemplo 3.3.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de
la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la moda de las
observaciones muestreadas?
La moda de esta secuencia de observaciones es X̂=85,4
3.3.3.
La moda para datos agrupados
Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada siguiendo los siguientes pasos:
1. Localizar la clase del intervalo que contenga la frecuencia de clase más grande.
2. Aplicando la siguiente fórmula con los valores del intervalo de la moda:
³
∆1 ´
X̂ = LRI +
tic
∆1 + ∆2
Donde:
X̂ : la moda de los datos de la muestra
LRI : Limite real inferior de la clase modal
3.3. LA MODA
32
∆1 : diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
∆2 : diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.
tic : tamaño de los intervalos de clase
Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética
de las dos marcas de clases. Si hay dos o más intervalos no contiguos con frecuencia de clase
máxima habrá dos o más modas que serán las marcas de clases de dichos intervalos.
Ejemplo 3.3.2 Calcular las modas de las siguientes distribuciones de frecuencia:
X
5
10
15
20
25
30
X F
5 4
10 8
15 6
20 7
25 8
30 8
X
5
10
15
20
25
30
3.3.4.
F
4
3
15
9
10
7
X̂= 15
hay dos moda
X̂= 10
X̂ =
F
4
4
4
4
4
4
(25+30)
2
= 27, 5
no hay moda
Comparación entre medidas de tendencia central
Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos
razones para apoyar esta norma general. La primera es que en ella se basan otros estadísticos
y la segunda es que es mejor estimador de su parámetro que la mediana y la moda.
Hay al menos tres situaciones en las que se preferirá la mediana a la media:
Cuando la variable esté medida en escala ordinal
Cuando haya valores extremos que distorsionen la interpretación de la media
3.4. PROBLEMAS
33
Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de
límite superior, el intervalo inferior carece de límite inferior o ambos.
La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas
supone un cambio en la media aritmética, mientras que la mediana sólo se vería alterada por
cambios en los valores centrales.
La mediana será la segunda candidata para representar la tendencia central y se preferirá
la mediana a la moda, a menos de que:
a) Se trate de una variable medida en escala nominal
b) Haya intervalos abiertos y la mediana pertenezca a uno de ellos.
3.3.5.
Relación entre las medidas de tendencia central
1. Para una distribución simétrica los valores de la media, la mediana y la moda coinciden
es decir: X = X̃ = X̂, con lo cual la distribución de datos no presenta sesgo.
Observación : Esta igualdad no es exacta, sino que se cumple con mayor o menor
aproximación en función del grado de simetría de la curva que represente gráficamente
la distribución.
2. Para una distribución asimétrica negativa se tiene que: X < X̃ < X̂, con lo cual la
distribución de datos presenta un sesgo negativo.
3. Para una distribución asimétrica positiva se tiene que: X̂ < X̃ < X, con lo cual la distribución de datos presenta un sesgo positivo.
Observación: La regla empírica se acepta como válida siempre que el grado de curva
no sea muy acentuado.
3.4.
Problemas
1. El departamento de agricultura, tiene los siguientes datos que representan el crecimiento mensual (en pulgadas) de muestras de maíz recien plantados
0,4
0,9
1,9
0,7
1,5
0,9
0,9
0,7
0,3
0,7
1,6
1,5
0,4
0,5
1,5
1,5
1,2
1,7
0,8
1,8
a) Organice los datos en un ordenamiento ascendente
b) calcula las medidas de tendencia central considerando los a datos como simples
2. Un fabricante de neumáticos quiere determinar el diámetro interior de cierto grado de
los neumáticos. Idealmente el diámetro sería 570mm. Los datos son los siguientes:
572
572
573
568
569
575
565
570
Encuentre las medidas de tendencia central y analice la relación entre ellas
3.4. PROBLEMAS
34
3. A continuación presentamos los datos de una muestra de la tasa de producción diaria
de de botes de fibra de vidrio de la Hidrosport Lt. Un fabricante de Miami.
17
21
18
27
17
21
20
22
18
23
a) Calcule las mediadas de tendencia central e interprete los resultados
b) Compare las mediadas de tendencia central
4. Dada la distribución de frecuencia de rentas mensuales de 200 departamentos (en miles
de pesos)
Renta mensual (en miles de pesos)
350-379
380-409
410-439
440-469
470-499
500-529
530-559
560-589
590-619
620-649
Total
No de departamentos
3
8
10
13
33
40
35
30
16
12
200
Determine las medidas de tendencia central y analice la relación entre ellas
5. las edades de 60 personas que trabajan en una fábrica textil se han tabulado dando la
siguiente tabla de frecuencias:
Edades
13-17
18-22
23-27
28-32
33-37
38-42
43-47
48-52
53-57
Total
No de personas
2
6
10
13
18
6
2
2
16
60
a) Hallar las mediadas de tendencia central
b) Interpretar los resultados de la parte a)
c) Comparar las mediadas de tendencia central
Capítulo 4
Medidas de Variabilidad
4.1.
Introducción
¿Qué son las medidas de variabilidad?
Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de
tendencia central.
Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar
una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una
medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de
la media. La media, por lo tanto es considerada bastante representativa de la serie de datos.
Inversamente, una gran medida de variabilidad indica que la media no es muy representativa
de los datos.
Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar
como están esparcidos los datos en dos o más distribuciones. Por ejemplo, la calificación
promedio de dos estudiantes, A = {90, 80, 75, 75} y B = {90, 55, 85, 90}, es de 80. Basados
en esto podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el detalle de
sus calificaciones vemos que esta conclusión no es correcta.
4.2.
Variabilidad
4.2.1.
Rango y rango intercuartílico
Definición 4.2.1 : Amplitud o Rango
Es la diferencia entre observaciones extremas, es decir la diferencia entre el mayor y el
menor valor. Es muy sensible a los valores extremos.
Ejemplo 4.2.1 Dadas las siguientes observaciones 2,1,4,3,8,4. Calcular el rango
R = 8−1 = 7
Definición 4.2.2 : Rango intercuartílico
35
4.2. VARIABILIDAD
36
Es parecida al rango, pero eliminando las observaciones más extremas o sea las inferiores
y superiores. Por lo que no es tan sensible a valores extremos. Es la distancia entre primer y
tercer cuartil.
Rango intercuartil = Q3 − Q1
4.2.2.
(4.2.1)
Desviación media
La desviación media mide la cantidad promedio que varían los datos respecto a su media.
Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su
media. La fórmula de la desviación media ( Dm ) es:
n
∑ |Xi − X|
Dm =
i=1
(4.2.2)
n
Ejemplo 4.2.2 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria
de la línea de producción son (en ml): 85,4 ; 85,3; 84,9 ; 85,4 y 84,0. ¿Cuál es la desviación
media de las observaciones muestreadas?
X
X −X
85,4 + 0.4
85,4 + 0.4
85,3 + 0.3
84,9 - 0.1
84,0 - 1.0
|X − X|
0.4
0.4
0.3
0.1
1.0
n
∑ |Xi − X|
Dm =
4.2.3.
i=1
n
=
2, 2
= 0, 44
5
Desviación media para datos agrupados
En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la
fórmula es :
Dm =
∑ fi|Xi − X|
n
(4.2.3)
Ventajas y desventajas de la desviación media
La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de
la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos
y por ello la desviación media no es usada frecuentemente.
Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación
media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos:
A = {0, 50, 100} y B = {49, 50, 51}
4.2. VARIABILIDAD
37
Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin
embargo en ambos casos la desviación media es cero.
4.2.4.
Varianza y desviación estándar
La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra
midiendo su dispersión alrededor de la media.
Varianza
Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media.
Desviación estándar
Es la raíz cuadrada de la varianza.
Varianza y desviación estándar para datos no agrupados
Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes.
Las fórmulas son:
N
N
∑ (Xi − µ)2
i=1
σ2 =
∑ Xi2
=
N
i=1
N
− µ2
(4.2.4)
2
(4.2.5)
para la varianza de una población y
n
S2 =
n
∑ (Xi − X)2
i=1
∑ Xi2
=
n
i=1
n
−X
para la varianza de una muestra.
Las desviaciones estándar de la población y muestra se calculan simplemente sacando la
raíz cuadrada a la respectiva varianza.
p
σ = σ2
(4.2.6)
desviación estándar de una población y
S=
√
S2
(4.2.7)
desviación estándar de una muestra
Ejemplo 4.2.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de
la línea de producción son (en ml): 85,4; 85,3; 84,9; 85,4; y 84,0. ¿Cuál es la varianza y la
desviación estándar de las observaciones muestreadas?
4.2. VARIABILIDAD
38
X2
7293,16
7276,09
7208,01
7293.16
7056.00
2
∑ X = 36126, 42
X
85,4
85,3
84.9
85.4
84.0
∑ Xi = 425, 0
Con lo cual la media de la muestra es
X=
425, 0
= 85
5
entonces la varianza está dada por
n
S2 =
∑ Xi2
i=1
2
−X =
n
36126, 42
− 852 = 0, 284
5
la cual arroja una desviación estándar muestral de
S = 0, 595818764
Varianza y desviación estándar para datos agrupados
Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación
estándar de la muestra se pueden aproximar sustituyendo S fi Xi2 por SXi2 y S fi Xi por SXi . Las
fórmulas quedarían de la siguiente manera:
N
σ2 =
∑
N
fi (Xi − µ)2
∑ fiXi2
i=1
i=1
=
N
N
− µ2
(4.2.8)
2
(4.2.9)
N
∑ fiXi
para la varianza de una población, en donde µ =
n
S2 =
∑
i=1
n
fi (Xi − X)2
i=1
n
,y
N
∑ fiXi2
=
i=1
n
−X
n
∑ fiXi
para la varianza de una muestra, en donde X =
i=1
n
Al igual que en la situación anterior las desviaciones estándar de la población y muestra
se calculan sacando la raíz cuadrada a la respectiva varianza.
p
σ = σ2
(4.2.10)
desviación estándar de una población y
4.3. PROBLEMAS
39
S=
√
S2
(4.2.11)
desviación estándar de una muestra
Ejemplo 4.2.4 Calcular la varianza y la desviación estándar de la siguiente distribución de
frecuencia del número de meses de duración de una muestra de 40 baterías para coche.
duración de las baterías (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
Número de baterías
2
1
4
15
10
5
3
Primeramente, calculamos la marca de clase, para después calcular los productos fi Xi y
para proceder finalmente a calcular las sumatorias ∑ fi Xi y ∑ fi Xi2 y aplicar las fórmulas.
fi Xi2
LI
15
20
25
30
35
40
45
LS
19
24
29
34
39
44
49
X
17
22
27
32
37
42
47
fi
2
1
4
15
10
5
3
n =40
fi Xi
34
22
108
480
370
210
141
f
X
∑ i i = 1365
fi Xi2
588
484
2916
15360
13690
8820
6627
fi Xi2 = 48475
Entonces la media de la muestra es
X=
1365
= 34, 125
40
con lo cual la varianza muestral es
n
S2 =
∑ fiXi2
i=1
n
2
−X =
48475
− (34, 125)2 = 47, 359375
40
que arroja una desviación estándar de
S = 6, 881814804
4.3.
Problemas
1. Se conduce un estudio de los efectos de fumar sobre los patrones de sueños. La medición que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtiene
4.3. PROBLEMAS
40
estos datos:
Fumadores
No fumadores
69,3 56,0
28,6 25,1
22,1
26,4
47,6
34,9
53,2 48,1
29,8 38,5
52,7
30,2
34,4
30,6
60,2 43,8
31,8 41,6
a) Encuentre las medidas de tendencia central para cada grupo
b) Encuentre la varianza y desviación estándar de cada grupo
c) Diga cual de los dos grupos de datos está más concentrada
2. La compañía National Tire tiene fondos de reserva en valores negociable a corto plazo.
El saldo diario de cierre (en millones de dólares) de la cuenta de valores negociables
en lapso de dos semanas es el que mostramos a continuación
Semana 1
Semana 2
1973
1969
1970
1892
1972 1975
1893 1887
1976
1895
a) Calcula las mediadas de tendencia central para cada grupo e interprete los resultados obtenidos.
b) Calcula la desviación media, la varianza, la desviación típica y el coeficiente de
variación de cada grupo.
c) Diga cual de los grupos tiene mejor concentración
Capítulo 5
Probabilidad
5.1.
Introducción
La teoría de probabilidad tuvo como uno de sus primeros puntos de partida el intentar
resolver un problema particular concerniente a una apuesta de juego de dados entre dos personas. El problema al que nos referimos involucraba una gran cantidad de dinero y puede
plantearse de la siguiente forma: Dos jugadores escogen cada uno de ellos un número del 1
al 6, distinto uno del otro, y apuestan 32 doblones de oro a que el número escogido por uno
de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente
un dado. Suponga que el número de uno de los jugadores ha aparecido dos veces y el número
del otro una sola vez. ¿Cómo debe dividirse el total de la apuesta si el juego se suspende?
Uno de los apostadores, Antonio de Gombaud, popularmente conocido como el caballero
De Mere, deseando conocer la respuesta al problema plantea a Blaise Pascal (1623-1662) la
situación. Pascal a su vez consulta con Pierre de Fermat (1601-1665) e inician un intercambio
de cartas a propósito del problema. Esto sucede en el año de 1654. Los historiadores de
la matemática éstan generalmente de acuerdo en considerar este hecho como el origen del
estudio de las probabilidades. Con lo anteriormente mencionado se inician algunos esfuerzos
por dar solución a éste y otros problemas similares que se plantean. Con el paso del tiempo
se sientan las bases y las experiencias necesarias para la búsqueda de una teoría matemática
que sintetice los conceptos y los métodos de solución de los muchos problemas particulares
resueltos a lo largo de varios años.
Las ideas de probabilidades permanecen circunscritas a los problemas de juegos de azar
hasta que Pierre Laplace (1749-1827) y Friedrich Gauss (1777-1855) hacen notar que las
teorias desarrolladas son aplicables también a otras actividades diferentes de los juegos de
azar. En el segundo congreso internacional de matemáticas, celebrado en la ciudad de Paris
en el año 1900, el matemático David Hilbert (1862-1943) plantea 23 problemas matemáticos
de importancia. Uno de estos problemas es el de encontrar axiomas o postulados a partir
de los cuales se pueda construir una teoría matemática de la probabilidad. Aproximadamente treinta años después, en 1933, el matemático ruso Andrei Nikolaevich Kolmogorov
(1903-1987) propone ciertos axiomas basados en la teoría de la medida desarrollada por
H. Lebesgue(1875-1941), que a la postre resultaron adecuados para la construcción de una
teoría de la probabilidad. Esta teoría prevalece hoy en día y ha adquirido el calificativo de
teoría clásica. Actualmente la teoría clásica de la probabilidad se ha desarrollado y exten41
5.2. DEFINICIONES Y EJEMPLOS
42
dido enormemente gracias a muchos pensadores que han contribuído a su crecimiento, y es
sin duda una parte importante y bien establecida de las matemáticas. Ha resultado útil para
resolver problemas puramente matemáticos, pero sobre todo y principalmente, para modelar
situaciones reales o imaginarias, en donde el azar es relevante.
5.2.
Definiciones y ejemplos
Definición 5.2.1 Experimento: Es cualquier procedimiento mediante el cual obtenemos
una observación. En particular, para el estudio de la probabilidad nos interesa observar aquellos experimentos cuyos resultados no son pronosticables con certeza , esto es aquellos experimentos tales que cuando se les repite bajo las mismas condiciones iniciales, el resultado que
se obtiene no siempre es el mismo, es decir aquellos en que existe aleatoriedad. Este tipo de
experimento se denomina “experimentos aleatorios” simbolizado por ξ.
Ejemplo 5.2.1 A continuación presentamos algunos ejemplos posibles de experimentos
Lanzamiento de una moneda
Tomar un punto de un circulo
Elegir un alumno en el campus para preguntarle cuántos libros ha solicitado a préstamo en la biblioteca universitaria durante el último mes.
Contar el número de cabellos en la cabeza de una persona.
Medir la resistencia eléctrica de un componente electrónico
Definición 5.2.2 Espacio Muestral: Es el conjunto de todos los resultados individuales
que puede tener un experimento aleatorio. El espacio muestral simbolizado por Ω puede no
ser único. A cada uno de los elementos del espacio muestral se le llama punto muestral.
Definición 5.2.3 Evento: Es cualquier resultado posible al realizar un experimento aleatorio. Si un evento tiene un único elemento, se le llama evento simple. En general, a cualquier
subconjunto del espacio muestral se le llama evento compuesto.
Ejemplo 5.2.2 Si un experimento aleatorio consiste en lanzar un dado y observar el número
que aparece en la cara superior, entonces claramente el espacio muestral es el conjunto
Ω = {1; 2; 3; 4; 5; 6}. Como ejemplo de un evento para este experimento podemos definir el
conjunto A = {2; 4; 6}, que corresponde al suceso de obtener como resultado un número par.
Si al lanzar el dado una vez se obtiene el número 4, decimos entonces que se observó la ocurrencia del evento A, y si se obtiene por ejemplo el resultado 1, decimos que no se observó la
ocurrencia del evento A.
Ejemplo 5.2.3 Considere el experimento aleatorio de participar en un juego de lotería. Suponga que hay un millón de números en esta lotería y un jugador participa con un boleto.
¿Cuál es un posible espacio muestral para este experimento?. Naturalmente al jugador le
interesa conocer su suerte en este juego y puede proponer como espacio muestral el conjunto
Ω = {ganar; perder}. Sin embargo puede también tomarse como espacio muestral el conjunto que contiene a todos los posibles números de esta lotería, es decir, Ω = {1; 2; :::; 1000000}.
5.3. OPERACIONES ENTRE EVENTOS
43
Este ejemplo sencillo muestra que el espacio muestral de un experimento aleatorio no es
único y depende del interés del observador.
Puesto que los conceptos de espacio muestral y evento involucran forzosamente la terminología de conjuntos, recordaremos a continuación algunas operaciones entre estos objetos, y
algunas propiedades que nos serían de utilidad en el estudio de la probabilidad y la estadítica.
5.3.
Operaciones entre eventos
Intersección
La intersección de dos eventos dados A y B de un espacio muestral Ω; es el conjunto de
resultados de un experimento aleatorio que pertenece a los dos eventos dados. El símbolo de
la intersección es ∩.
Figura 5.1: Representación gráfica de la intersección de dos eventos
Unión
La unión de dos eventos dados A y B de un espacio muestral Ω; es el conjunto de resultados de un experimento aleatorio que pertenece a alguno de estos dos eventos dados. El
símbolo de la unión es ∪.
Figura 5.2: Representación gráfica de la unión de dos eventos
5.4. DEFINCIONES DE PROBABILIDAD
44
Complemento
El complemento de un evento A de un espacio muestral Ω; es el conjunto de resultados de
un experimento aleatorio que no pertenece a dicho evento dado. El símbolo del complemento
es − .
Figura 5.3: Representación gráfica de complementos de eventos
Diferencia
Diferencia de dos eventos A y B de un espacio muestral Ω; es el conjunto de resultados
de un evento dado que no pertenece a otro evento dado. El operador de la diferencia es el
signo "menos"(−).
Figura 5.4: Representación gráfica de la diferencia de dos eventos
5.4.
Definciones de probabilidad
La teoría de la probabilidad es la parte de las matemáticas que se encarga del estudio de
los fenómenos o experimentos aleatorios. La probabilidad de un evento A, es un número real
en el intervalo [0; 1] que denotaremos por P(A), y representa una medida de la frecuencia
con la que se observa la ocurrencia del evento A cuando se efectúa el experimento aleatorio
en cuestión. Existen al menos cuatro definiciones de probabilidad las cuales explicamos a
continuación.
5.4. DEFINCIONES DE PROBABILIDAD
5.4.1.
45
Concepto Clásico de Probabilidad
El primero en dar una definición clásica de probabilidad fue Jakob Bernoulli en 1713,
reformulada después por Abraham De Moivre como: “una fracción; en la que el numerador
es igual al número de apariciones del suceso dado y el denominador es igual al número total
de casos en los que es suceso pueda o no pueda ocurrir. Tal fracción expresa la probabilidad
de que ocurra el suceso dado”.
El enfoque clásico de la probabilidad está basado en la suposición de que todos los resultados del experimento son igualmente posibles o tienen el mismo peso. La definición clásica
de la probabilidad es la siguiente: Sea A un subconjunto de un espacio muestral Ω de cardinalidad ω finita. Se define la probabilidad del evento A como el cociente:
P(A) =
#A
#Ω
(5.4.1)
lo que usualmente se expresa como
P(A) =
número de casos favorables al evento A
número total de resultados posibles del experimento
en donde el símbolo #A denota la cardinalidad o número de elementos del conjunto A. Claramente esta definición es sólo válida para espacios muestrales finitos, pues forzosamente necesitamos suponer que el número de elementos en Ω es finito. El espacio muestral debe ser
equiprobable como ya se mencionó, pues para calcular la probabilidad de un evento A dado, únicamente necesitamos contar cuántos elementos tiene A respecto del total, sin importar
exactamente qué elementos particulares sean.
Ejemplo 5.4.1 El experimento consiste en el lanzamiento de un dado. ¿Cuál es la probabilidad de que se obtenga como resultado un dos?
Las caras del dado están numeradas del 1 al 6, entonces hay solo una posibilidad de entre
un total de seis de que el resultado del experimento sea el número 2, entonces la probabilidad
de obtener el número 2 es
1
P(cae 2) = = 0, 16667
6
La principal dificultad que presenta esta interpretación de la probabilidad es que se basa
en sucesos equiprobables (todos los posibles resultados tienen la misma probabilidad de ocurrencia ), siendo fácil para problemas sencillos, como los de cartas, dados o urnas, es casi
imposible para problemas más complejos.
5.4.2.
Concepto frecuentista de probabilidad
Bernoulli resolvió la cuestión de cómo hallar la probabilidad de ocurrencia de un suceso
aun siendo imposible contar los casos favorables:
“ Aquí hay otro camino disponible para alcanzar el resultado deseado. Lo que no se puede
hallar a priori se puede obtener a posteriori, es decir, mediante la observación múltiple de los
resultados de pruebas similares”.
5.4. DEFINCIONES DE PROBABILIDAD
46
De esta manera, Bernoulli introdujo el concepto de probabilidad “frecuentista” o “estadística” que consiste en asignar como probabilidad de un suceso, el resultado que se obtendría
si el proceso se repitiera en condiciones similares un número grande de veces. Por lo tanto
supongamos que se realizan n repeticiones de un cierto experimento aleatorio y sea A un
evento cualquiera. Denotemos por n(A) el número de veces que ocurre el evento A en las
n realizaciones del experimento. Se define entonces la probabilidad frecuentista de A como
indica el siguiente límite
n(A)
P(A) = lı́m
n∞ n
En este caso, debemos hacer notar que no es humanamente posible llevar a cabo una infinidad de veces el experimento aleatorio, de modo que en la práctica no es posible encontrar
mediante este mecanismo la probabilidad de un evento cualquiera. Esta limitación hace que
esta definición de probabilidad no sea enteramente formal, pero tiene algunas ventajas.
Ejemplo 5.4.2 Se quiere saber si una moneda está cargada. Para determinar la probabilidad
de que caiga cara se lanza 60 veces la moneda al aire, de las cuales 25 veces cayó cara. Si
aplicamos la fórmula
25
= 0, 4167
P(cae cara) =
60
Algunas dificultades que presenta este enfoque de la probabilidad es que no dice cual es
el número grande de observaciones necesario, o que se entiende por condiciones similares,
porque si las condiciones son las mismas los resultados serán también los mismos.
5.4.3.
Probabilidad subjetiva
En el segundo cuarto del siglo XX surgió una nueva interpretación de la probabilidad llamada “subjetiva”, según la cual la probabilidad mide el grado de creencia de un individuo en
la verdad de una proposición, variando entre 0 (el individuo cree que es falso) a 1 (cree que es
cierto), es decir de lo que el observador conoce del fenómeno en estudio. Esta interpretación
fue propuesta por primera vez por el filósofo Frank P. Ramsey. Para los subjetivistas la probabilidad de un suceso debe variar en función de la nueva información recibida respecto del
suceso.
Según este enfoque la probabilidad de que un evento en particular suceda es asignada
basándose en cualquier información disponible, como intuición, opiniones etc.
Ejemplo 5.4.3 ¿Cuál es la probabilidad de que un cierto equipo de fútbol gane en su próximo partido?. Ciertas circunstancias internas del equipo, las condiciones del equipo rival o
cualquier otra condición externa, son elementos que sólo algunas personas conocen y que
podrían darnos una idea más exacta de esta probabilidad.
5.4.4.
Concepto axiomático de probabilidad
En la definición axiomática de la probabilidad no se establece la forma explícita de calcular las probabilidades sino únicamente se proponen las reglas que el cálculo de probabilidades
debe satisfacer. Esta teoría axiomática de la probabilidad fue desarrollada por el matemático
ruso Andrei N. Kolmogorov basandose como dijimos en la introducción de este capítulo en
5.5. TEOREMAS DE PROBABILIDAD
47
la teoría de la medida estructurada por H. Lebesgue. El modelo matemático propuesto por
Kolmogorov en el año 1933 para estudiar los experimentos aleatorios es el llamado “ espacio
de probabilidad ”.
Axiomas de Probabilidad
Axioma 1: P(A) ≥ 0, con A ⊂ Ω
Axioma 2: P(Ω) = 1
/ con i distintos de j, entonces
Axioma 3: Si A1 , A2 , · · · ⊂ Ω , tales que Ai ∩ A j = 0,
P(
∞
[
∞
)=
n=1
∑ P(Ai)
n=1
5.5.
Teoremas de Probabilidad
5.5.1.
Teorema 1: Regla de la Adición
La probabilidad de que alguno de dos eventos pertenecientes a un mismo espacio muestral
ocurra se determina mediante la siguiente ecuación:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Ejemplo 5.5.1 Si el experimento es lanzar un dado una vez, el espacio muestral es:
S = {1, 2, 3, 4, 5, 6}
Si el evento A es el resultado es un número par entonces
A = {2, 4, 6}
Si el evento B es el resultado es un número menor de 3
B = {1, 2}
¿Cuál será la probabilidad de que suceda alguno de estos dos eventos?
La probabilidad de que ocurra A y la probabilidad de que ocurra B son respectivamente:
3 1
2 1
P(A) = =
y P(B) = =
6 2
6 3
Para aplicar este teorema es necesario conocer la probabilidad de la intersección de estos dos eventos, para así poder conocer la probabilidad de la unión, o de manera inversa,
conociendo la probabilidad de la unión se puede calcular la probabilidad de la intersección.
En este caso queremos saber la probabilidad de la unión conociendo la probabilidad de
la intersección, entonces es necesario conocer la intersección de estos dos eventos, que es “
número par y menor de 3”, con lo cual
A ∩ B = {2}
5.5. TEOREMAS DE PROBABILIDAD
48
1
6
Si aplicamos la regla de adición:
por lo que P(A ∩ B) =
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
P(A ∪ B) =
5.5.2.
1 1 1 2
+ − =
2 3 6 3
Teorema 2: Regla de la complementación
La probabilidad de que el complemento de un evento A ocurra está dada por la siguiente
ecuación:
P(A) = 1 − P(A)
Ejemplo 5.5.2 Si A es cae cara en el experimento consistente en lanzar un moneda, entonces
la probabilidad de que no caiga cara es:
P(A) = 1 − P(A) = 1 −
5.5.3.
1 1
=
2 2
Teorema 3: Regla de Diferenciación
La probabilidad de que un evento dado A ocurra pero no ocurra otro evento dado B
pertenecientes al mismo espacio muestral está dada por
P(A − B) = P(A) − P(A ∩ B)
Ejemplo 5.5.3 Si el evento A es cae un número par y si el evento B es cae un número
menor de 3, ambos pertenecientes al espacio muestral Ω = {1, 2, 3, 4, 5, 6} que resulta del
experimento aleatorio consistente en el lanzamiento de un dado, entonces la probabilidad de
que caiga un número par pero no es menor que tres es:
P(A − B) = P(A) − P(A ∩ B) =
3 1
− = 0, 3333
6 6
Y la probabilidad de que caiga un número menor que tres pero no sea par es:
P(B − A) = P(B) − P(AB) =
5.5.4.
2 1
− = 0,167
6 6
Probabilidad Condicional
La probabilidad condicional, es la probabilidad de que un evento dado ocurra dado que
otro evento ocurre. El operador de la probabilidad condicional es el signo |, esto es, la probabilidad condicional del evento A dado que ha ocurrido el evento B, denotada por P(A|B), se
define como sigue:
P(A ∩ B)
P(A|B) =
P(B)
5.5. TEOREMAS DE PROBABILIDAD
49
Ejemplo 5.5.4 Considere el experimento de extraer un naipe de un mazo de 40 (baraja española), sean los eventos A = {se extrae un as} y B = {el naipe extraido es de copas}. Calcular P(A|B)
Como en el mazo de 40 barajas hay un solo as de copas y 10 naipes de copas en total se
tiene que
1
10 1
P(A ∩ B) =
y P(B) =
=
40
40 4
entonces la probabilidad de que ocurra A dado que se sabe que ocurrió B es
P(A|B) =
5.5.5.
P(A ∩ B)
=
P(B)
1
40
1
4
=
1
10
Teorema 4: Reglas de Multiplicación
Regla de multiplicación para eventos independientes
Dos eventos son independientes si la ocurrencia de uno no altera la probabilidad de ocurrencia del otro. Para dos eventos independientes A y B, la probabilidad de que ambos eventos
sucedan es encontrada mediante la multiplicación de sus respectivas probabilidades, esto es
P(A ∩ B) = P(A) · P(B)
Ejemplo 5.5.5 Una maquina empaca vegetales en una bolsa de plástico. Experiencias anteriores revelan que en ocasiones los paquetes tienen menos del peso correcto, y en otras más,
pero la mayoría de las veces tiene el peso satisfactorio. Como muestra la siguiente tabla:
Peso
Probabilidad
debajo del correcto
0,025
correcto
0,900
arriba del correcto
0,075
Supongamos que queremos saber la probabilidad de que al inspeccionar tres paquetes, los
tres pesen correctamente. Establezcamos los siguientes eventos:
A = {el primer paquete pesa correctamente}
B = {el segundo paquete pesa correctamente}
C = {el tercer paquete pesa correctamente}
La probabilidad de cada uno de estos eventos independientes es:
P(A) = 0, 900
P(B) = 0, 900
P(C) = 0, 900
Según el teorema de multiplicación la probabilidad de que los tres eventos ocurran es:
P(A ∩ B ∩C) = P(A) · P(B) · P(C) = (0, 900) · (0, 900) · (0, 900) = 0, 729
5.5. TEOREMAS DE PROBABILIDAD
50
Regla de multiplicación para probabilidad condicional
Para dos eventos A y B, donde A depende de la ocurrencia de B, la probabilidad de que
sucedan ambos eventos está dada por la fórmula:
P(A ∩ B) = P(B) · P(A|B)
Ejemplo 5.5.6 Cierto departamento de una compañía esta compuesto por 8 hombres y 4
mujeres, de entre ellos se va elegir al nuevo jefe del departamento, para lo cual se entrevistará
a dos de ellos. Si todos tienen la misma probabilidad de ser elegidos, ¿cual es la probabilidad
de que las dos personas entrevistadas sean mujeres?
Definamos entonces los siguientes eventos
A = {el primer entrevistado es mujer}
B = {el segundo entrevistado es mujer}
La probabilidad de que suceda el evento A = {el primer entrevistado es mujer} es:
P(A) =
4
1
=
12 3
La probabilidad de que suceda el evento B = {el segundo entrevistado es mujer} dado
que ya sucedió A, y solo hay tres mujeres de 11 elementos es:
P(B|A) =
3
11
Según el teorema de multiplicación, la probabilidad de que los dos eventos ocurran es:
P(A ∩ B) = P(A) · P(B|A) =
1 3
1
·
=
3 11 11
Teorema de Bayes
En el siglo XVIII el reverendo Thomas Bayes, un ministro presbiteriano inglés, se hizo esta pregunta: ¿realmente existe Dios?. Siendo el, un entusiasta matemático se evocó a
desarrollar una fórmula para encontrar la probabilidad de que Dios existe, basándose en la
evidencia disponible sobre la tierra. Años después de la muerte de Bayes, Laplace desarrolló el trabajo del reverendo, y por vez primera, se logra la determinación de la probabilidad
de las causas a partir de los efectos que han podido ser observados. El cálculo de dichas
probabilidades recibe el nombre de teorema de Bayes. La fórmula del teorema de Bayes es:
P(A1 |B) =
P(A1 )P(B|A1 )
P(A1 )P(B|A1 ) + P(A2 )P(B|A2 ) + ... + P(An )P(B|An )
Ejemplo 5.5.7 : Don Pepe tiene una tienda, en el trabajan tres cajeras, Andrea, Bianca, y
Consuelo. Andrea realiza el 50 % de los cobros, Bianca el 30 % y Consuelo el 20 %. Cuando
cobra Andrea hay un 1 % de probabilidad de que lo haga mal, cuando lo hace Bianca hay un
2 % de que cobre mal, y si cobra Consuelo hay un 3 % de probabilidad de que se equivoque.
Un cliente se quejó con Don Pepe porque le cobraron mal. ¿Cuál es la probabilidad de que
el mal cobro lo haya hecho Andrea?
5.6. PROBLEMAS
51
Para responder a la pregunta vamos a considerar los siguientes eventos:
M = {se hizo un mal cobro}
A = {el cobro fue hecho por Andrea}
B = {el cobro fue hecho por Bianca}
C = {el cobro fue hecho por Consuelo}
De los eventos anteriores podemos obtener las siguientes probabilidades:
P(A) = 0, 5
P(B) = 0, 3
P(C) = 0, 2
P(M|A) = 0, 01
P(M|B) = 0, 02
P(M|C) = 0, 03
Utilizando el teorema de Bayes para encontrar la probabilidad de que el cobro lo haya
hecho Andrea dado que fue un mal cobro, tenemos que
P(A|M) =
P(A)P(M|A)
P(A)P(M|A) + P(B)P(M|B) + P(C)P(M|C)
Sustituyendo los valores:
P(A|M) =
5.6.
(0, 5)(0, 01)
0, 005
=
= 0, 2941
(0, 5)(0, 01) + (0, 3)(0, 02) + (0, 2)(0, 03) 0, 017
Problemas
1. Suponga que de un grupo de 500 estudiantes universitarios se encuentra que 300 fuman, que 350 consumen bebidas alcohólicas y que 250 tienen estos dos hábitos nocivos
para la salud. ¿Cuál es la probabilidad de que un estudiante seleccionado aleatoriamente
a) tenga alguno de estos dos malos hábitos?
b) no tenga ninguno de estos dos pésimos hábitos?
c) fume pero no tome?
d) tome pero no fume?
e) No fume?
f) Fume dado que toma?
g) Toma dado que fuma?
h) No tenga alguno de estos nefastos hábitos?
2. La probabilidad de que una compañía norteamericana ubique una de sus plantas en
Juárez es 0,7, la probabilidad de que instale una planta en Chihuahua es 0,4, la probabilidad de que no se ubique ni en Juárez ni en Chihuahua es 0,20. ¿Cuál es la probabilidad
de que
a) Se ubique en alguna de estas dos ciudades?
5.6. PROBLEMAS
52
b) Se ubique en ambas ciudades?
c) No se ubique en alguna de estas dos ciudades?
d) Se ubique en Chihuahua pero no en Juárez?
e) Se ubique en Juárez pero no en Chihuahua?
f) Ubique una planta en Juárez dado que ya se ubicó en Chihuahua?
g) Ubique una planta en Chihuahua dado que ya se ubicó en Juárez?
3. En cierta escuela de 45 estudiantes que reprobaron Estadísticas I, 32 dijeron que reprobaron por no estudiar, 18 porque no le entienden al maestro, 9 por causas diferentes a
estas dos. Encuentre la probabilidad de los siguientes eventos:
a) Reprobó porque no estudió o porque no le entiende al maestro
b) Reprobó porque no estudió y porque no le entiende al maestro
c) Reprobó porque no estudió y no porque no le entiende al maestro
d) Reprobó porque no le entiende al maestro y no porque no estudió
4. Se realizó una encuesta sobre preferencias en materia de periódicos, de 350 personas
entrevistadas, 200 leen el Heraldo, 140 leen el Diario y 105 leen los dos periódicos.
Encontrar la probabilidad de los siguientes eventos:
a) Lee alguno de estos dos periódicos
b) No lee ninguno de estos dos periódicos
c) Lee el Diario pero el Heraldo no
d) Lee el Heraldo pero el Diario no
e) Lee el Heraldo dado que lee el Diario
f) Lee el Diario dado que lee el Heraldo
g) No lee alguno de estos dos Periódicos
5. La probabilidad de que en un matrimonio, el esposo vea cierto programa de TV es 0.4,
la probabilidad de que la esposa lo haga es de 0.5. La probabilidad de que el esposo
vea el programa de TV dado que la esposa lo hace es de 0.7. Encuentre la probabilidad
de que:
a) Ambos vean el programa de TV
b) Alguno de los dos vea el programa de TV
c) Ninguno vea el programa de TV
d) El esposo vea el programa pero la esposa no
e) La esposa vea el programa pero el esposo no
f) La esposa vea el programa dado que el esposo lo hace
g) Alguno de los dos no ve el programa
5.6. PROBLEMAS
53
6. El profesor Ramos tiene muchos años impartiendo la clase de matemáticas, por experiencia sabe que el 80 % de los estudiantes contestan los problemas que les encarga de
tarea. También sabe que el 90 % de los estudiantes que hacen la tarea aprueban el curso
y que el 60 % de los estudiantes que no hacen la tarea reprueban. Manuel aprobó el
curso, ¿cual es la probabilidad de que hizo la tarea?
7. Un equipo de béisbol juega el 70 % de las veces de noche y el 30 % de día. Ellos ganan
el 50 % de los juegos nocturnos y el 90 % de los juegos diurnos. El día de ayer ganaron,
¿cual es la probabilidad de que el juego fue en la noche?
8. El 30 % de las ventas de una tienda departamental son en efectivo, el 30 % son pagadas
con cheque en el momento de la compra y el 40 % son a crédito. El 20 % de las compras
en efectivo, 90 % de las compras con cheque y el 60 % de las compras a crédito son
mayores a $500. En este momento se está realizando una compra por $1000, cual es la
probabilidad de que sea en efectivo?
9. Una urna contiene 5 bolillas blancas, 4 negras, 6 rojas y 10 verdes. Se extrae una bolilla
de la urna. Calcular la probabilidad de que:
a) la bolilla extraída sea blanca
Respuesta: 0,20
b) la bolilla extraída no sea verde
Respuesta: 0,60
c) la bolilla extraída no sea ni roja ni negra
Respuesta: 0,60
d) la bolilla extraída sea negra
Respuesta: 0,16
10. Cierta población de 1500 habitantes, fue clasificado, según su nacionalidad, resultando:
950 paraguayos, 200 españoles, 300 italianos y 50 franceses. Si se elige un habitante
al azar, calcular la probabilidad de que:
a) resulte de habla castellana
Respuesta: 0,77
b) resulte extranjero
Respuesta: 0,77
11. Se arrojan dos monedas. Calcular la probabilidad de obtener:
a) una cara
Respuesta: 0,50
b) dos caras
Respuesta: 0,25
c) mas de dos caras
Respuesta: 0,00
d) ninguna cara
Respuesta: 0,25
12. Se arroja un dado. Calcular la probabilidad de obtener:
a) un número par, mayor de 3
Respuesta: 0,33
b) un número impar
Respuesta: 0,5
13. Se arrojan simultáneamente tres monedas. Calcular la probabilidad de obtener:
a) exactamente 2 caras
Respuesta :0,375
b) 2 o mas caras
Respuesta :0,50
c) mas de 2 caras
Respuesta :0,125
5.6. PROBLEMAS
d) a lo sumo 2 caras
54
Respuesta :0,875
14. De un conjunto de 21 tarjetas numeradas del 1 al 21, se extrae una al azar. Calcular la
probabilidad de que la tarjeta extraida un número:
a) sea múltiplo de 3 o de 7
Respuesta: 0,4762
b) sea múltiplo de 5 o de 7
Respuesta: 0,3333
c) sea múltiplo de 4 o de 11
Respuesta: 0,2857
d) sea par o múltiplo de 3
Respuesta: 0,8095
e) sea múltiplo de 3 o de 4
Respuesta: 0,5714
f) sea múltiplo de 3 o de 5
Respuesta: 0,5238
15. Supóngase que el Señor Gómez planea salir la noche del sábado próximo. Las probabilidades de que baya a un juego de baloncesto, al cine o a una carrera de caballo son
0,35; 0,30 y 0,20 respectivamente. Determinar la probabilidad de que:
a) haga cual quiera de estas tres cosas
Respuesta: 0,85
b) que no haga ninguna de estas tres cosas
Respuesta: 0,15
16. En un grupo de colegio han suspendido las matemáticas el 60 % de los niños, física el
50 % y ambas asignaturas el 20 %. Calcular la probabilidad de que elegido un niño al
azar, haya suspendido las matemáticas, la física o ambas.
Respuesta:0,90
17. Durante una semana dada las probabilidades de que unas acciones aumenten su precio,
permanezcan constantes o disminuyan su precio son estimados en 0,30; 0,20 y 0,50
respectivamente.
a) ¿ Cuál es la probabilidad que estas acciones aumenten su precio o permanezcan
sin cambios?
Respuesta: 0,50
b) ¿ Cuál es la probabilidad de que esas acciones, el precio cambie durante las semana?
Respuesta: 0,80
18. Suponga que el 80 % de los norteamericanos, que pasan vacaciones en Europa visitan
Paris, el 70 % Berlín y el 60 % visitan Paris y Berlín.
a) ¿ Cuál es la probabilidad de que un norteamericano que pasa vacaciones en Europa visite Paris o Berlín o ambos?
Respuesta: 0,90
b) ¿ Cuál es la probabilidad de que no visite ninguna de esas ciudades?
Rta: 0,10
19. Suponga que la probabilidad de que llegue a asistir a una universidad es 0,60, la probabilidad de que trabaje tiempo completo es 0,70, la probabilidad de que llegue a asistir
a una universidad y trabaje tiempo completo es 0,50.¿ Cuál es la probabilidad de que
asista a una universidad o trabaje tiempo completo?
Respuesta: 0,80
20. Una caja contiene 10 esferas, 5 de ellas son blancas, 3 rojas y 2 negras. Se selecciona
aleatoriamente esferas de la caja sin reemplazo:
a) Si se extraen dos esferas de la caja. ¿ Cuál es la probabilidad de que las 2 esferas
blancas?
Respuesta: 0,2222
5.6. PROBLEMAS
55
b) Si se extraen dos esferas de la caja. ¿ Cuál es la probabilidad de que extraer una
roja y después una negra?
Respuesta: 0,0667
c) Si se extraen 3 esferas de la caja ¿ Cuál es la probabilidad de que las tres sean
rojas?
Respuesta: 0,0083
d) Si se extraen 3 esferas de la caja.¿ Cuál es la probabilidad de extraer una negra,
después una roja y finalmente una blanca?
Respuesta: 0,0417
21. Se tiene un grupo de 12 tornillos, de los cuales 4 son defectuosos. Se recogen 2 tornillos
al azar.¿ Cuál es la probabilidad de que:
a) los 2 sean defectuosos
Respuesta: 0,091
b) ninguno de los 2 sean defectuosos
Respuesta: 0,4242
22. Se tiene tres urnas, la primera contiene 50 bolas rojas y 50 bolas blancas; la segunda 60
bolas amarillas y 40 blancas, la tercera 70 bolas verdes y 30 blancas. Si se selecciona
aleatorimente una de las urnas y se extraen dos bolas con reposición:
a) ¿ Cuál es la probabilidad de que ninguna sea blanca?
Respuesta: 0,3667
b) ¿ Cuál es la probabilidad de que ambas sean blancas?
Respuesta: 0,1667
23. Se arrojan dos dados legales. Calcular la probabilidad de que:
a) ocurra una suma de 7 puntos
Respuesta:0,1667
b) ocurra una suma de 2 o 3 puntos
Respuesta:0,0833
c) ocurra una suma de menos de 5 puntos
Respuesta:0,1667
d) ocurra una suma de al menos 10 puntos
Respuesta:0,1667
24. De 100 individuos que presenten su solicitud para ocupar puestos de analista de sistemas en una gran empresa en el ultimo año. 40 contaban con experiencia laboral
previa y 30 tenían titulo profesional. Sin embargo 20 de los solicitantes tenían tanto
experiencia laboral como titulo profesional, de modo que han sido incluidos en ambos
conteos.
a) ¿Cuál es la probabilidad de que un solicitante aleatoriamente elegido tenga ya sea
experiencia laboral o titulo profesional o ambos?
Respuesta: 0,50
b) ¿Cuál es la probabilidad de que un solicitante aleatoriamente elegido tenga ya sea
experiencia laboral o titulo profesional pero no ambos?
Respuesta: 0,30
25. De 300 estudiantes de administración 100 están actualmente inscritos en contabilidad
y 80 están actualmente inscritos en estadística aplicada a la administración. Estas cifras
de inscripción incluyen a 30 estudiantes inscritos en ambos cursos.
a) ¿Cuál es la probabilidad de que un estudiante aleatoriamente elegido este inscrito
ya sea en contabilidad o en estadística o en ambos?
Respuesta: 0,50
b) ¿Cuál es la probabilidad de que un estudiante aleatoriamente elegido este inscrito
ya sea en contabilidad o en estadística pero no en ambos?
Respuesta: 0,40
5.6. PROBLEMAS
56
26. En una caja hay 15 lapiceras con las plumas en buen estado, de los cuales 5 no tienen
tinta, además 6 lapiceras con las plumas rotas. Al sacar una lapicera. Calcular la probabilidad de que la lapicera no escriba.
Respuesta: 0,5238
27. Para la señalización de emergencia se ha instalado dos indicadores que funcionan independientemente; la probabilidad de que un indicador se accione durante la avería es
igual a 0,95 para el primero y 0,90 para el segundo. Hallar las siguientes probabilidades
que durante una avería:
a) accione solo un indicador
Respuesta: 0,14
b) accione por lo menos un indicador
Respuesta: 0,995
28. Una caja contiene 20 unidades de cierto producto electrónico, 4 de ellos son defectuosos y 16 son buenas. Se seleccionarán aleatoriamente 4 unidades y se venderán.
Obténgase la probabilidad de que:
a) las cuatro unidades vendidas sean defectuosos
1
Respuesta: 4845
b) entre las cuatro unidades vendidas 2 sean buenas
48
Respuesta: 323
c) se vendan al menos tres unidades defectuosas
13
Respuesta: 969
29. De 12 cuentas contables que se tienen en un archivo, 4 contienen un error de procedimientos en la elaboración de los saldos:
a) Si el auditor elige al azar 2 cuentas. ¿ Cuál es la probabilidad de que ninguna
cuenta contenga error de procesamiento? Respuesta: 14
33
b) Si el auditor elige al azar 3 cuentas. ¿ Cuál es la probabilidad de que ninguna
cuenta contenga error de procesamiento? Respuesta: 14
55
c) Si el auditor muestrea 2 cuentas. ¿ Cuál es la probabilidad de que las cuenta
1
elegidas contenga errores? Respuesta: 11
d) Si el auditor muestrea 2 cuentas. ¿ Cuál es la probabilidad de que al menos una
de ellas contenga error? Respuesta: 19
33
e) Si el auditor muestrea 3 cuentas. ¿ Cuál es la probabilidad de que al menos una
de ellas contenga error? Respuesta: 41
55
29. En un deposito hay 3000 cajas de plumas de las marcas A, B, C, D y E y en ellas hay
cajas de plumas deterioradas. Las cajas se distinguen de la siguiente manera:
Marca A: hay 200 cajas: 50 son deterioradas
Marca B: hay 300 cajas: 40 son deterioradas
Marca C: hay 1000 cajas: 300 son deterioradas
Marca D: hay 800 cajas: 80 son deterioradas
Marca E: hay 700 cajas: 30 son deterioradas
Si se elige una caja al azar, y resulta deteriorada, calcular la probabilidad de que
pertenezca:
a) a la marca A
Respuesta: 0,1
5.6. PROBLEMAS
57
b) a la marca B
Respuesta: 0,08
c) a la marca C
Respuesta: 0,6
d) a la marca A o D
Respuesta: 0,26
e) a la marca B o E
Respuesta: 0,24
30. La urna A tiene 2 boletines rojos y 3 azules; la urna B contiene 4 rojas y 1 azul y la urna
C 3 rojas y 4 azules. Se selecciona aleatoriamente una urna y un boletín es extraído y
que resulta ser rojo. Hallar la probabilidad de haber escogido:
a) la urna A
Respuesta: 14
57
b) la urna B
Respuesta: 28
57
c) la urna C
5
Respuesta: 19
d) la urna A o B
Respuesta: 14
19
e) la urna A o C
Respuesta: 29
57
31. Un agente de una compañía de seguros vende pólizas a 5 personas, todas de edad idéntica y con buena salud. De acuerdo con la tabla de los actuarios la probabilidad de que
una persona de esta edad especifica esté viva en 30 años es 23 . Hallar la probabilidad
de que en 30 años estén vivas:
a) las 5 personas
32
Respuesta: 243
b) al menos 3 personas
Respuesta: 64
81
c) solamente 2 personas
40
Respuesta: 243
d) al menos una persona
Respuesta: 242
243
32. En una exhibición canina, 3 de los 10 perros premiados deben seleccionarse para que
aparezcan en un comercial de comida para perros. Se han otorgados premios a tres
coolíes, cuatro pastores alemán, dos perros galeces y un perro de agua.
a) ¿Cual es la probabilidad de que los tres perros elegidos sean de la misma raza?
Respuesta: 0,042
b) ¿Cual es la probabilidad de que se seleccionen dos coolíes y un pastor alemán?
Respuesta: 0,10
33. Una caja con guantes de béisbol contiene 2 guantes para jugadores zurdos y 7 para
diestros. Si se seleccionan 3 guantes al azar:
a) ¿ Cuál es la probabilidad de que los tres sean para jugadores diestros?
Respuesta: 0,417
b) ¿ Cuál es la probabilidad de que se escogiera un guante para un jugador diestro y
2 para zurdos?
Respuesta: 0,083
34. En una caja hay 18 artículos de los cuales cuatro son defectuosas. Si se extrae aleatoriamente tres artículos al mismo tiempo. Calcular las siguientes probabilidades
a) los tres artículos sean buenos
Respuesta: 0,4461
5.6. PROBLEMAS
58
b) no mas de dos artículos sean defectuosos
c) al menos dos artículos serán buenos
Respuesta: 0,9951
Respuesta: 0,8922
35. Un distribuidor recibe un embarque de 24 aparatos de televisión, de los cuales 6 son
defectuosas. El distribuidor selecciona cuatro aparatos del embarque para ponerlos en
exhibición. Obténgase la probabilidad de que:
a) 2 de los 4 aparatos sean defectuosas
Respuesta: 0,216
b) no hay mas de 2 defectuosas en los 4 aparatos
Respuesta: 0,9647
36. Un vendedor de automóviles acaba de recibir un embarque de 20 automóviles nuevos
de los cuales 15 son sedan y 5 convertibles. Si se venden aleatoriamente 2 automóviles.¿
Cuál es la probabilidad de que los 2 vendidos sean del mismo modelo?
Rta: 23
38
37. Un articulo se produce utilizando los componentes A y B. La probabilidad de que A
tenga defectos es 0,03 y la probabilidad de que B tenga defectos es 0,02. ¿ Cuál es la
probabilidad de que el producto tenga defectos después de armado? Rta: 0,0494
38. La probabilidad de que un hombre vivirá 10 años más es 14 y la probabilidad de que su
esposa vivirá 10 años mas es 13 . Hallar la probabilidad de que:
a) ambos estén vivos dentro de 10 años
Respuesta: 0,0833
b) al menos uno estará vivo a los 10 años
Respuesta: 0,50
c) ninguno estarán vivos a los 10 años
Respuesta: 0,50
d) solamente la esposa estará viva a los 10 años
Respuesta: 0,25
39. La probabilidad de que en los hogares de una población tengan lava vajilla es 0,40 y
de que tengan video es de 0,30. Calcular las siguientes probabilidades:
a) que tengan lava vajilla y video
Respuesta: 0,12
b) que tengan lava vajilla o tengan video
Respuesta: 0,58
c) que en tres hogares elegidos al azar haya lava vajilla
Respuesta: 0,064
d) que en dos hogares haya dos lava vajilla o dos videos
Respuesta: 0,25
40. Se extrae tres cartas de un mazo de 40. Calcular las siguientes probabilidades:
a) Que sean de distintos palos
Respuesta: 0,4049
b) sota, caballo y rey en ese orden
Respuesta: 0,00108
c) a lo sumo dos copas
Respuesta: 0,988
41. De un baraja española de 40 naipes bien mezcladas, se saca 4 naipes sucesivamente.
Hallar la probabilidad de que:
a) sean un as y tres reyes
Respuesta: 0,000175
b) dos sean reyes y dos sotas
Respuesta: 0,000394
42. De una baraja de 40 naipes bien mezcladas, se sacan al azar 5 cartas. Hallar la probabilidad de que:
5.6. PROBLEMAS
59
a) 4 sean sotas
Respuesta: 0,000055
b) al menos uno sea un as
Respuesta: 0,4271
c) tres sean caballos y tres reyes
Respuesta: 0,0000365
43. Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de extraer:
a) 4 aces
1
54145
1
Respuesta: 649740
1
Respuesta: 108290
64
Respuesta: 162435
18472
Respuesta: 54145
Respuesta:
b) 4 aces y un rey
c) 3 dieses y dos jotas
d) un nueve, diez, jota, reina y rey en cualquier orden
e) al menos un as
44. El 80 % de la población es morena y el 70 % es de ojos oscuro. Si se selecciona una
persona al azar, calcular la probabilidad de:
a) no ser de piel morena o tener los ojos oscuros
Respuesta: 0,76
b) ser de piel morena y tener los ojos oscuros
Respuesta: 0,56
45. En una zapatería hay tres estanterías A, B y C, la primera tiene 50 pares de zapatos
negros y 25 marrones, la segunda tiene 40 de cada color y la ultima 20 negros y 30
marrones. Si un cliente no tiene preferencia especial respecto a las estanterías ni respecto al color elige un par de zapatos y es marrón. Calcule la probabilidad de que
15
proceda de la estantería B.
Respuesta: 43
46. Dos seres humanos y ocho elefantes se sientan al azar entorno a una mesa circular.
Calcular la probabilidad de que los humanos esten juntos.
Respuesta:
47. Si A y B son dos sucesos tales que P(A) = 0, 6 y P(B) = 0, 7. Calcular: P(A ∪ B) y
P(A ∩ B) sabiendo que P(A ∪ B) · P(A ∩ B) = 0, 4
Respuesta: P(A ∪ B) = 0, 8 y
P(A ∩ B) =0,5 o P(A ∪ B) = 0, 5 y P(A ∩ B) = 0, 8
48. Al lanzar un dado al aire, sea A el suceso de obtener un múltiplo de 3 y B el suceso de
obtener un número par. Justificar si los sucesos son o no independientes.
Respuesta:
Son independientes
49. Un jugador lleva en el bolsillo dos monedas, una normal y otras con dos caras. Elige al
azar una de las monedas y la lanza al aire.
Calcular la probabilidad de que caiga cara
Respuesta:
Si el resultado es cara, calcular la probabilidad de haber elegido la moneda con
dos caras
Respuesta:
50. De los 250 empleados de una compañía, 130 fuman cigarrillos. Hay 150 hombres que
trabajan en esta compañía de los cuales 85 fuman cigarrillos. ¿ Cuál es la probabilidad
de que un empleado seleccionado en forma aleatoria,
no fume cigarrillo?
5.6. PROBLEMAS
60
sea mujer y fume cigarrillo?
sea hombre o fume cigarrillo?
digamos que se encuentra con una empleada de la compañía. ¿ Cuál es la probabilidad de que no fume cigarrillo?
51. Se desea determinar si hay una relación entre el interés de un estudiante por la estadística y su capacidad para las matemáticas, se selecciona una muestra aleatoria de 200
estudiantes y se les pregunta si su capacidad para las matemáticas y su interés por la
estadística es bajo, promedio o alto. Los resultados fueron como sigue:
Interés en estadística
Bajo
Promedio
Alto
Total
Capacidad para las matemáticas
Bajo Promedio Alto Total
60
15
15
90
15
45
10
70
5
10
25
40
80
70
50
200
Si se selecciona un estudiante al azar,¿ cuál es la probabilidad de que él o ella:
tenga alta capacidad para las matemáticas?
tenga un interés promedio para la estadística?
tenga baja capacidad para las matemáticas y bajo interés promedio en la estadística?
Suponga que se sabe que la persona seleccionada tiene alta capacidad para las
matemáticas, ¿ cuál es la probabilidad de que tenga un alto interés en la estadística?
52. Una moneda esta cargada de modo que la posibilidad de salir cara (H) sea el doble de
salir sello (S). Hallar P(H) y P(T )
Respuesta:
53. Tres caballos A, B y C intervienen en una carrera; A tiene el doble de posibilidad de
ganar que B; y B el doble de ganar que C. ¿ Cuál ea la probabilidad de ganar, esto es;
P(A), P(B) y P(C)?
Respuesta:
54. Dos hombres y tres mujeres intervienen en un torneo de ajedrez. Los del mismo sexo
tienen igual probabilidad de ganar pero cada hombre tiene el doble de probabilidad de
ganar que una mujer.
Hallar la probabilidad de una mujer gane el torneo
Respuesta:
Si y son casados, hallar la probabilidad de que uno de ellos gane el torneo.
spuesta:
Re-
55. Una clase consta de 10 hombres y 20 mujeres de los cuales la mitad de los hombres y
la mitad de las mujeres tienen ojos castaños. Hallar la probabilidad de que una persona
escogida al azar sea un hombre o tenga los ojos castaños.
Respuesta:
56. La probabilidad de que A de en el blanco es 0,4 y la de B es 0,5. Si A y B disparan, ¿
Cuál es la probabilidad de que uno de ellos pegue en el blanco?
Respuesta:
5.6. PROBLEMAS
61
57. Se escogen al azar dos dígitos desde del conjunto {1, 2, 3, ...., 9}. Si la suma es par,
hallar la probabilidad de que ambos sean números impares.
Respuesta:
58. Se escogen al azar tres lamparas entre 15 de las cuales 5 son defectuosos. Hallar la
probabilidad de que:
ninguna sea defectuosa
Respuesta:
una por lo menos sea defectuosa
Respuesta:
59. Se selecciona al azar dos cartas entre 10 cartas numeradas de 1 a 10. Hallar la probabilidad de que la suma sea impar si:
las dos cartas se sacan juntas
Respuesta:
se sacan una tras otra sin reposición
Respuesta:
se sacan una tras otra con reposición
Respuesta:
60. Una clase tiene 12 niños y 4 niñas. Se seleccionan tres estudiantes de la clase al azar. ¿
Cuál es la probabilidad de que todas sean niñas?
Respuesta:
61. En cierta facultad, 4 % de los hombres y 1 % de las mujeres tienen más de 6 pies de
estatura . Además, 60 % de los estudiantes son mujeres. Ahora bien si se selecciona al
azar un estudiante y es más alto que 6 pies, ¿Cuál es la probabilidad de que el estudiante
seleccionado sea mujer?
Respuesta:
62. Una caja contiene tres monedas; una de las monedas es corriente, otra tiene dos caras
y la tercera esta cargada de modo que la probabilidad de obtener cara sea 0,6 . Se
selecciona una de las monedas y se lanza al aire. Hallar la probabilidad de que salga
cara.
Respuesta:
63. Una urna contiene 3 bolas rojas y 7 blancas. Se saca una bola de la urna y se reemplaza
por una de otro color. Se saca de la urna una segunda bola.
Hallar la probabilidad de que la segunda bola sea roja
Respuesta:
Si ambas son del mismo color. ¿ Cuál es la probabilidad de que las dos sean
blancas?
Respuesta:
64. Se nos da dos urnas como sigue: La urna A contiene 3 bolas rojas y 2 bolas blancas y la
urna B contiene 2 bolas rojas y 5 bolas blancas. Se selecciona al azar una urna; se saca
una bola y se coloca en la otra urna, luego se saca una bola de la segunda urna. Hallar
la probabilidad de que las dos bolas sacadas sean del mismo color.
Respuesta:
65. En una carretera entre las ciudades A y B hay tres semáforos, a una distancia de unos
kilómetros entre si. Los ciclos de los mismos son de un minuto cada uno. Los tres
semáforos están prendidos en verde durante 30, 40 y 50 segundos respectivamente.
Suponiendo que un auto observa los reglamentos de transito. Calcular la probabilidad
de que el auto:
haga el viaje sin parar por causa del semáforo
deba parar exactamente ante un semáforo
Respuesta:
Respuesta:
5.6. PROBLEMAS
62
deba parar exactamente ante dos semáforos
deba parar en todos los semáforos
Respuesta:
Respuesta:
66. La suma de las probabilidades de que tres hombres H1 , H2 y H3 peguen en el blanco es
0,95. Además la posibilidad de que H1 de en el blanco es el doble de que lo haga H2 y
H2 tiene la misma posibilidad de dar en el blanco que H3 , cada uno dispara una vez al
blanco.
Hallar la probabilidad de que exactamente uno de ellos pegue en el blanco.
spuesta:
Re-
Si solo un pega en el blanco. ¿ Cuál es la probabilidad de que sea el primer
hombre?
Respuesta:
67. La probabilidad de que cierto componente electrónico funcione es de 0,90. Un aparato
contiene dos de estos componentes. El aparato funciona si por lo menos uno de los
componentes funciona.
Sin importar cual de los componentes funcione o no. ¿ Cuáles son los posibles
resultados? ( Puede suponer independencia en la operación de los componentes).
¿ Cuál es la probabilidad de que el aparato no funcione
Respuesta: 0,99
Capítulo 6
Variables aleatorias
6.1.
Definiciones y ejemplos
Definición 6.1.1 Una variable aleatoria es aquella que toma un conjunto de valores numéricos asociados a los resultados de nuestro interés que produce un experimento aleatorio, es
decir una función que asocia a cada evento del espacio muestral un número real.
La definición anterior nos dice que dado un experimento aleatorio cualquiera, y el espacio
muestral Ω asociado a dicho experimento, una variable aleatoria es una transformación X del
espacio de resultados (espacio muestral) al conjunto de números reales, esto es, asigna a cada
elemento ω ∈ Ω, un número real X(ω). La expresión matemática está dada por:
X : Ω −→ R
Figura 6.1: Representación gráfica de la definición de una variable aleatoria
A menudo se escribe simplemente v.a. en lugar del término variable aleatoria. En sentido estricto una variable aleatoria es una función de Ω en R que satisface además cierta
condición de medibilidad, pero omitiremos tales tecnicismos pues no son de utilidad para los
propósitos de este curso. Suponga entonces que se efectúa el experimento aleatorio una vez
y se obtiene un resultado ω en R. Al transformar este resultado con la variable aleatoria X
se obtiene un número real X(ω) = x. Podemos entonces suponer que los posibles resultados
del experimento aleatorio son los diferentes números reales x que la función X puede tomar.
Haremos aqui la siguiente observación importante. Seguiremos la notación usual de usar la
letra mayúscula X para denotar una variable aleatoria cualquiera, es decir, X es una función
de Ω en R, mientras que la letra minúscula x denota un número real y que es un posible valor
de la variable aleatoria. En general, las variables aleatorias se denotan usando las últimas
63
6.1. DEFINICIONES Y EJEMPLOS
64
letras del alfabeto en mayúsculas, U,V,W, X,Y, Z, y para un valor cualquiera de ellas se usa
la misma letra pero en minúscula.
Ejemplo 6.1.1 Si un experimento aleatorio consiste en lanzar una vez un dado equilibrado
y observar la cara superior del dado una vez que cae. Denotemos por “1,2,3,4,5 y 6 ” las
seis caras del dado. Es claro que el espacio muestral es Ω = {1, 2, 3, 4, 5, 6}. Podemos definir
entonces la variable aleatoria X : Ω −→ R como X({1}) = 1 y X({2, 3, 4, 5, 6}) = 0 si
nuestro interés es el número de veces que se obtiene el 1 en este experimento.
Ejemplo 6.1.2 Consideremos el experimento aleatorio consistente en lanzar un dardo en
un tablero circular de radio uno. El espacio muestral o conjunto de posibles resultados del
experimento se puede escribir como sigue:
Ω = {(x, y) : x2 + y2 ≤ 1}
Los siguientes son ejemplos de funciones de Ω en R, variables aleatorias, asociadas a este
experimento aleatorio:
a) X(x, y) = x, proyección sobre el eje horizontal.
b) Y (x, y) = y, proyección sobre el eje vertical.
p
c) Z(x, y) = x2 + y2 , distancia al centro del círculo.
d) V (x, y) = |x| + |y|, distancia del taxista.
e) W (x, y) = xy, producto de las coordenadas.
Figura 6.2: Representación gráfica del espacio muestral del ejemplo 6.1.2
Considerando el conjunto de valores que una variable aleatoria puede tomar, se puede
clasificar a las variables aleatorias en dos tipos: discretas o continuas.
Definición 6.1.2 Una variable aleatoria es discreta cuando el conjunto de valores que ésta toma es un conjunto discreto, es decir, un conjunto finito o numerable. Por ejemplo, el
conjunto {0, 1, 2, ..., n} es un conjunto discreto porque es finito, lo mismo N pues aunque es
infinito, es numerable y por lo tanto discreto.
6.1. DEFINICIONES Y EJEMPLOS
65
Ejemplo 6.1.3 Un experimento aleatorio consiste en escoger a una persona ω al azar. La
variable aleatoria X evaluada en ω corresponde a conocer la siguiente característica, o una
codificación de esta característica, de la persona escogida. En cada caso se trata de una variable aleatoria discreta:
a) Edad en años.
b) Número de hijos.
c) Peso.
d) Estatura.
e) Sueldo.
f) Nivel escolar.
g) Estado civil.
h) Lugar de nacimiento.
Definición 6.1.3 Una variable aleatoria es continua cuando toma todos los valores dentro
de un intervalo (a, b) ⊆ R.
Ejemplo 6.1.4 En el ejemplo del lanzamiento de un dardo en un tablero circular de radio
uno, el espacio muestral Ω (Figura 6.1) es infinito no numerable, las variables X,Y, Z,V y
W definidas allí son todas variables aleatorias continuas. Si se dibujan círculos concéntricos
alrededor del origen y si se asignan premios asociados a cada una de las regiones resultantes,
puede obtenerse un ejemplo de una variable aleatoria discreta sobre este espacio muestral.
La clasificación anterior de variables aleatorias no es completa pues existen variables que
no son de ninguno de los dos tipos mencionados. Por simplicidad en este curso estudiaremos
únicamente variables aleatorias que son discretas o continuas.
Usaremos también la siguiente notación importante: Si A es un subconjunto de R, entonces la expresión (X ∈ A), incluyendo el paréntesis, denota el conjunto {ω ∈ Ω : X(ω) ∈ A},
es decir, (X ∈ A) = {ω ∈ Ω : X(ω) ∈ A}. En palabras, la expresión (X ∈ A) denota aquel conjunto de elementos ω de Ω tales que bajo la aplicación de la función X toman un valor dentro
del conjunto A. A este conjunto se le llama la imagen inversa de A, y se le denota por X −1 A.
Ejemplo 6.1.5 Consideremos el experimento de lanzar una moneda al aire y la variable
aleatoria X que lleva el resultado “Cara” al valor 0 y el resultado “Cruz” al valor 1. Tenemos
por ejemplo que (X ∈ [1, ∞)) = {“Cruz00 } pues el conjunto de elementos de Ω tales que bajo
la función X toman un valor mayor o igual a uno, es decir caen dentro del intervalo [1, ∞),
es únicamente el elemento “Cruz”. Por lo tanto P(X ∈ [1, ∞)) = P{“Cruz00 } = 12 . Del mismo
modo puede verificarse que
a) P(X ∈ [1, 2)) = P({“Cruz00 }) = 12 .
b) P(X ∈ [0, 1)) = P({“Cara00 }) = 12 .
/ = 0.
c) P(X ∈ [2, 4]) = P(0)
d) P(X = 1) = P({“Cruz00 }) = 12 .
/ = 0.
e) P(X ≤ −1) = P(0)
f) P(X ≥ 0) = P(Ω) = 1.
Usaremos con mucha frecuencia la notación arriba explicada. El lector debe asegurarse
de comprender bien que si x es un número real entonces (X ≤ x) es un subconjunto de Ω y por
lo tanto un evento. Lo mismo sucede con el complemento de este conjunto que es (X > x).
Podemos escribir entonces la igualdad de conjuntos (X ≤ x) ∪ (X > x) = Ω. Y aplicando
probabilidad se obtiene:
P(X ≤ x) + P(X > x) = 1
6.2. DISTRIBUCIÓN DE PROBABILIDAD
66
Nota importante. A través de una variable aleatoria se puede considerar que los posibles
resultados de un experimento aleatorio no son elementos ω en Ω sino números reales que la
variable aleatoria puede tomar. Esta es una consideración radical pues ya no consideraremos
experimentos aleatorios particulares, ni espacios muestrales arbitrarios Ω, ni eventos (subconjuntos) de Ω, en lugar de ello consideraremos que una cierta variable aleatoria de interés
toma valores en un cierto subconjunto de números reales. La probabilidad definida antes para
subconjuntos de Ω se traslada, como explicamos antes, a probabilidades para subconjuntos
de R. Esta perspectiva permite estudiar modelos generales y después aplicarlos a cualquier
situación particular. A partir de ahora y en lo que resta del curso el término variable aleatoria
constituirá un elemento frecuente en los enunciados.
6.2.
Distribución de probabilidad
En esta sección vamos a estudiar a las dos funciones que se asocian a cada variable aleatoria y que además nos provean de información acerca de las características de dicha variable
aleatoria. Una de estas funciones es llamada función de distribución y se asocia a una variable continua o discreta, la otra depende del tipo de variable estudiada, en el caso continuo se
denomina función de densidad de probabilidad y en caso discreto simplemente función de
probabilidad. Estas funciones nos permiten representar a un mismo tiempo tanto los valores
que pueden tomar la variable aleatoria como las probabilidades de los distintos eventos involucrados. Entonces en primer término defininamos primero la función de probabilidad para
una variable aleatoria discreta, después la función de densidad para una variable continua, y
finalmente definamos la función de distribución para ambos tipos de variables aleatorias.
Definición 6.2.1 (Función de probabilidad para una variable discreta)
Sea X una variable aleatoria discreta que toma los valores x1 , x2 , . . . con probabilidades
respectivas P(X = x1 ), P(X = x2 ), . . . . Esta lista de valores numéricos y sus probabilidades
puede ser finita o bien infinita, pero numerable. La función de probabilidad de la variable
aleatoria X denotada por f (x) : R −→ [0, ∞) se define como sigue
½
P(X = x) si x = x1 , x2 , . . .
f (x) =
(6.2.1)
0
en otro caso
En palabras, la función de probabilidad es simplemente aquella función que indica los
valores de la probabilidad en los distintos valores que toma la variable aleatoria discreta.
Recordemos que es importante poder distinguir entre X y x, pues conceptualmente son cosas
muy distintas. Denotaremos generalmente a una función de probabilidad con la letra f minúscula. A veces escribiremos fX (x) y el subíndice nos ayudará a especificar que tal función es
la función de probabilidad de la variable aleatoria X. Esta notación será particularmente útil
cuando consideremos varias variables aleatorias a la vez.
6.2.1.
Propiedades de la función de probabilidad
Si toda función de la forma (6.2.1) cumple las siguientes dos propiedades la llamaremos
función de probabilidad.
1) f (x) ≥ 0 para todo x ∈ R
6.2. DISTRIBUCIÓN DE PROBABILIDAD
2)
67
∑ f (x) = 1
x
Ejemplo 6.2.1 Considere la variable aleatoria discreta X que toma los valores 1, 2 y 3, con
probabilidades 0,3; 0,5 y 0,2 respectivamente. Entonces la función de probabilidad de X es

 0, 3 si x = 1
0, 5 si x = 2
f (x) =

0, 2 si x = 3
Esta función se muestra gráficamente en la Figura 6.2. Alternativamente podemos también expresar esta función mediante la tabla mostrada más abajo. En esta representación se
entiende de manera implícita que f (x) es cero para cualquier valor de x distinto de 1, 2 y 3.
En particular, compruebe que las siguientes probabilidades son correctas:
P(X ≤ 2) = 0, 7
P(|X| = 1) = 0, 3
y
P(X < 1) = 0
Figura 6.3: Representación gráfica de la función del ejemplo 6.2.1
x
p(x)
1
0,3
2
0,5
3
0,2
Ejemplo 6.2.2 Encontremos el valor de la constante c que hace que la siguiente función sea
de probabilidad.
½
cx si x = 0, 1, 2, 3
f (x) =
0 en otro caso
Los posibles valores de la variable aleatoria discreta, no especificada, son 0, 1, 2 y 3, con
probabilidades 0, c, 2c y 3c, respectivamente. Como la suma de estas probabilidades debe ser
uno, obtenemos la ecuación c + 2c + 3c = 1. De aqui obtenemos c = 16 . Este es el valor de c
que hace que f (x) sea no negativa y sume uno, es decir, una función de probabilidad.
Definición 6.2.2 (Función de densidad para una variable aleatoria continua)
Sea X una variable aleatoria continua. Decimos que la función integrable y no negativa
f (x) : R −→ [0, ∞) es la función de densidad de X si para cualquier intervalo (a, b) de R se
cumple la igualdad
P(X ∈ (a, b)) =
Z b
a
f (x)dx
6.2. DISTRIBUCIÓN DE PROBABILIDAD
68
Es decir, la probabilidad de que la variable tome un valor dentro del intervalo (a, b) se
puede calcular o expresar como el área bajo la función de densidad en el intervalo (a, b).
De esta forma el cálculo de una probabilidad se reduce al cálculo de una integral. Véase
la Figura 6.4. No es difícil comprobar que toda función de densidad f (x) de una variable
aleatoria continua X cumple las dos propiedades que mencionamos a continuación análogas
al caso discreto.
Figura 6.4: Representación gráfica de la probabilidad como un aréa
6.2.2.
Propiedades de la función de densidad de probabilidad
Si toda función de la forma f (x) : R −→ [0, ∞) cumple las siguientes dos propiedades la
llamaremos función de densidad de probabilidad.
1) f (x) ≥ 0 para todo x ∈ R
2)
Z +∞
−∞
f (x)dx = 1
Toda función f (x) : R −→ [0, ∞) que satisfaga estas dos propiedades, sin necesidad de
tener una variable aleatoria de por medio, se llamará función de densidad.
Ejemplo 6.2.3 La función f (x) dada por:

1


si x ∈ (1, 3)
2
f (x) =


0 en otro caso
es una función de densidad de una variable aleatoria continua que toma valores en el intervalo
(1, 3), y cuya gráfica aparece en la Figura 6.5. Observe que se trata de una función no negativa
y cuya integral vale uno.
Ejemplo 6.2.4 Encontrar el valor de la constante c que hace que la siguiente función sea de
densidad.

 c|x| si x ∈ [−1, 1]
f (x) =

0
en otro caso
6.2. DISTRIBUCIÓN DE PROBABILIDAD
69
Figura 6.5: Representación gráfica de f (x) (ejemplo 6.2.3
Se trata de una variable aleatoria continua que toma valores en el intervalo [−1, 1]. Como
esta función debe integrar uno tenemos que:
1=
Z ∞
−∞
f (x)dx =
Z 1
−1
c|x|dx = 2c
Z 1
0
³ x 2 ´1
=c
xdx = 2c
2 0
Por lo tanto, cuando tomamos c = 1 la función anterior resulta ser una función de densidad pues ahora cumple con ser no negativa e integrar uno.
Definición 6.2.3 (Función de distribución). Sea X una variable aleatoria discreta o continua. La función de distribución de X, denotada por F(x) : R −→ [0, 1], se define como
F(x) = P(X ≤ x)
Esto es, la función de distribución evaluada en un número x cualquiera es simplemente la
probabilidad de que la variable aleatoria tome un valor menor o igual a x, o en otras palabras,
que tome un valor en el intervalo (−∞, x]. Siendo F(x) una probabilidad, sus valores están
siempre entre 0 y 1. Esta función resulta ser importante y se le conoce también, por razones
evidentes, con el nombre de función de acumulación de probabilidad. Con un par de ejemplo mostraremos la forma de calcular esta función a partir de la función de probabilidad o de
la función de densidad.
Ejemplo 6.2.5 Consideremos la variable aleatoria discreta X del ejemplo 6.2.1. Tenemos que
la correspondiente función de distribución evaluada en x se calcula sumando las probabilidades P(X = u) para valores de u menores o iguales a x, es decir,

0 si x < 1



0, 3 si 1 ≤ x < 2
F(x) = P(X ≤ x) = ∑ P(X = u) =
0, 8 si 2 ≤ x < 3


u≤x

1 si x ≥ 3
cuya gráfica aparece en la Figura 6.6. Este es el comportamiento típico de una función de
distribución de una v.a. discreta, es no decreciente, constante por pedazos, y si la función
tiene una discontinuidad en x, entonces el tamaño de tal discontinuidad es exactamente la
probabilidad de que la variable aleatoria tome ese valor.
6.2. DISTRIBUCIÓN DE PROBABILIDAD
70
Figura 6.6: Representación gráfica de F(x) del ejemplo 6.2.5
Ejemplo 6.2.6 Consideremos ahora la variable aleatoria continua X del ejemplo 6.2.3. La
correspondiente función de distribución se obtiene calculando la siguiente integral:
F(x) = P(X ≤ x) =
Z x
−∞


0
si x ≤ 1
0
si x ≤ 1










 Z x

1
x−1
f (u)du =
du si 1 < x < 3 =
si 1 < x < 3


2
1 2










1
si x ≥ 3
1
si x ≥ 3
cuya gráfica aparece en la Figura 6.7. Observe que esta función es continua y no decreciente.
Figura 6.7: Representación gráfica de F(x) del ejemplo 6.2.6
En los dos ejemplos anteriores se ha mostrado la forma de obtener F(x) a partir de f (x).
Ahora explicaremos el proceso contrario. En el caso continuo tenemos que para toda x en R,
F(x) = P(X ≤ x) =
Z x
−∞
f (u)du
d
(F(x)) =
dx
f (x). De este modo podemos encontrar f (x) a partir de F(x). En el caso discreto, f (x) =
de modo que por el teorema fundamental del cálculo, y cuando F(x) es diferenciable,
6.2. DISTRIBUCIÓN DE PROBABILIDAD
71
P(X = x) = F(x) − F(x− ), en donde F(x− ) es el límite por la izquierda de la función
F en el punto x, en símbolos, F(x− ) = lı́m F(x − h), con h > 0. Análogamente, la exh−→0
presión F(x+ ) significa el límite por la derecha de la función F en el punto x, es decir,
F(x+ ) = lı́m F(x + h), con h > 0.
h−→0
Proposición 6.2.1 . Toda función de distribución F(x) satisface las siguientes propiedades:
1. 0 ≤ F(x) ≤ 1
2. lı́m F(x) = 1
x−→∞
3.
lı́m F(x) = 0
x−→−∞
4. Si x1 ≤ x2 , entonces F(x1 ) ≤ F(x2 )
5. Si x1 ≤ x2 , entonces P(x1 < X ≤ x2 ) = F(x2 ) − F(x1 )
6. F(x) = F(x+ )
Demostración
1. Como F(x) es una probabilidad pues, por definición, F(x) = P(X ≤ x). Por lo tanto se
cumple la primera propiedad.
2. Cuando x tiende a infinito el conjunto (X ≤ x) se aproxima al conjunto (X ≤ ∞) que es
idéntico a Ω = R, por lo tanto, cuando x −→ ∞,
F(x) −→ P(X ≤ ∞) = P(R) = 1
3. Análogamente el conjunto (X ≤ x) se aproxima al conjunto (X ≤ −∞) = 0/ cuando x
tiende a menos infinito. Por lo tanto, cuando x −→ ∞,
/ =0
F(x) −→ P(X ≤ −∞) = P(0)
4. Es suficiente observar que si x1 ≤ x2 , entonces (X ≤ x1 ) ⊆ (X ≤ x2 ). Aplicando probabilidad obtenemos P(X ≤ x1 ) ≤ P(X ≤ x2 ).
5. Por teoria elemental de conjuntos el evento (x1 < X ≤ x2 ) puede descomponerse en la
diferencia (X ≤ x2 ) − (X ≤ x1 ), en donde (X ≤ x1 ) ⊆ (X ≤ x2 ). Por lo tanto
P(x1 < X ≤ x2 ) = P(X ≤ x2 ) ≤ P(X ≤ x1 ) = F(x2 ) − F(x1 )
6. Para h > 0 tenemos que F(x + h) = P(X ≤ x + h) = P(X ≤ x) + P(x < X ≤ x + h), de
modo que cuando h tiende a cero, el conjunto (x < X ≤ x + h) tiende al conjunto vacío.
Concluimos entonces que, cuando h −→ 0 con h > 0,
/ = F(x)
F(x + h) −→ F(x) + P(0)
La propiedad 4) significa que F(x) es una función monótona no decreciente. Mientras
que la propiedad 6) establece que F(x) es una función continua por la derecha.
6.3. ESPERANZA, VARIANZA Y MOMENTOS
6.2.3.
72
Distribuciones discretas
Las distribuciones de variables aleatorias discretas más importantes son las siguientes:
a) Distribución binomial
b) Distribución binomial negativa
c) Distribución Poisson
d) Distribución geométrica
e) Distribución hipergeométrica
6.2.4.
Distribuciones continuas
Las distribuciones de variable continua más importantes son las siguientes:
a) Distribución ji cuadrado
b) Distribución exponencial
c) Distribución t-student
d) Distribución normal
e) Distribución Gamma
f) Distribución Beta
Las distribuciones continuas son imposibles de tabular y por lo tanto se representan con
curvas.
6.3.
Esperanza, varianza y momentos
Todos los seres humanos tenemos características numéricas que nos identifican y nos
distinguen de otras personas, por ejemplo, la edad, estatura, talla, peso, etc. Si pudiéramos
considerar la totalidad de todos estos números para una persona en particular, la identificaríamos de manera única. Algo similar sucede con las variables aleatorias. En esta sección
estudiaremos algunas características numéricas asociadas a las variables aleatorias.
6.3.1.
Esperanza
Definición 6.3.1 Esperanza
La esperanza de una variable aleatoria X es un número real denotado por E(X) y que se
calcula como sigue:
6.3. ESPERANZA, VARIANZA Y MOMENTOS
73
1. Si X es una variable aleatoria discreta con función de probabilidad f (x), entonces:
E(X) = ∑ x f (x)
x
en donde la suma se efectúa sobre todos los posibles valores que pueda tomar la variable
aleatoria X, y se define cuando esta suma sea absolutamente convergente, es decir,
E(X) = ∑ |x| f (x)
x
El número de sumandos puede ser finito o infinito dependiendo del conjunto de valores
de la variable aleatoria.
2. Si X es una variable aleatoria continua con función de densidad de probabilidad f (x),
entonces la esperanza es
Z
E(X) =
∞
−∞
x f (x)dx
suponiendo que esta integral es absolutamente convergente, es decir,
E(X) =
Z ∞
−∞
|x f (x)|dx
Si la suma o la integral anteriores no cumplen la condición de convergencia absoluta, entonces se dice que la esperanza no existe. La esperanza de una variable aleatoria es entonces
un número que indica el promedio ponderado de los diferentes valores que puede tomar la
variable aleatoria. A la esperanza se le conoce también con los nombre de: media, valor esperado o valor promedio. En general se usa la letra griega µ (mu) para denotarla. La integral
o suma arriba mencionados pueden no ser convergentes y en ese caso se dice que la variable
aleatoria no tiene esperanza finita. La situación anterior se ilustra en los ejercicios 126 y 127.
La esperanza es uno de los conceptos más importantes en probabilidad y tiene un amplio
uso en las aplicaciones y otras ramas de la ciencia. Ilustraremos a continuación la forma de
calcular la esperanza.
Ejemplo 6.3.1 Sea X una variable aleatoria discreta con función de densidad dada por la
siguiente tabla.
x
-1
0
1
2
f(x) 1/8 4/8 1/8 2/8
La esperanza de X es el número
3
E(X) =
4
1
2 1
1
x f (x) = −1 · + 0 · + 1 · + 2 · =
8
8
8
8 2
x=−1
∑
Observe que la suma su efectúa para todos los valores de x indicados en la tabla, es decir :
-1, 0, 1 y 2. También es instructivo observar que la esperanza no es necesariamente uno de
los valores tomados por la variable aleatoria. En este ejemplo el valor 21 nunca es tomado por
la variable aleatoria, pero es su valor esperado.
6.3. ESPERANZA, VARIANZA Y MOMENTOS
74
Ejemplo 6.3.2 Considere la variable aleatoria continua X con función de densidad:

 2x si 0 < x < 1
f (x) =

0 en otro caso
La esperanza de X es
E(X) =
Z ∞
−∞
x f (x)dx =
Z 1
0
¯1
2
2 2 ¯¯
x · 2x = x ¯ =
3 ¯
3
0
Observe que la integral sólo es relevante en el intervalo (0, 1), pues fuera de dicho intervalo
la función de densidad se anula.
Esperanza de una función de una variable aleatoria
En algunos casos es necesario saber calcular la esperanza de una función de una variable
aleatoria. Por ejemplo, si X es una variable aleatoria, entonces es claro que Y = X 2 es una
función de X y es también una variable aleatoria. Si Zquisiéramos calcular la esperanza de
Y = X 2 segúun la definición tendríamos que calcular
∞
−∞
y fY (y)dy, para lo cual se necesita
encontrar primero la función de densidad de Y , y ello en general no es fácil. El siguiente
resultado es muy útil y nos dice cómo calcular esta esperanza conociendo únicamente la función de densidad de X. A veces se le refiere como el teorema del estadístico inconsciente.
Proposición 6.3.1 Sea X una variable aleatoria y sea g : R −→ R una función tal que g(X)
es una variable aleatoria con esperanza finita. Entonces:
1. Si X es una variable aleatoria discreta; con función de probabilidad fX (x), se define la
esperanza de la variable aleatoria discreta g(x) esta dada por la siguiente:
E[g(X)] = ∑ g(x) fX (x)
(6.3.2)
X
2. Si X es una variable aleatoria continua; con función de densidad de probabilidad fX (x);
entonces la esperanza de la variable aleatoria continua g(x) está dada por la siguiente
ecuación:
Z ∞
(6.3.3)
E[g(X)] =
g(x) fX (x)dx
−∞
En general, la demostración de este resultado es complicada, asi es que la omitiremos y
nos concentraremos en su uso y aplicación.
Ejemplo 6.3.3 Calcularemos E(Y ) en donde Y = X 2 , y X es la variable aleatoria continua
del ejemplo anterior, es decir, con función de densidad

 2x si 0 < x < 1
f (x) =

0 en otro caso
6.3. ESPERANZA, VARIANZA Y MOMENTOS
75
Por la proposición anterior tenemos que:
E(Y ) = E(X 2 ) =
Z ∞
−∞
g(x) f (x)dx =
Z 1
0
¯1
2 4 ¯¯
1
2
x · 2x = x ¯ =
4 ¯
2
0
Ejemplo 6.3.4 Sea X una variable aleatoria con función de probabilidad dada por la tabla
que aparece abajo. Encuentre la función de probabilidad de Y = X 2 usando la ecuación(6.3.2).
x
f(x)
-1
1/8
0
4/8
1
1/8
2
2/8
Por la ecuación (6.3.2) la esperanza de Y = X 2 es
1
4
1
2 5
E(Y ) = ∑ g(x) f (x) = ∑ x2 f (x) = (−1)2 · + 02 · + 12 · + 22 · =
8
8
8
8 4
X
X
Propiedades de la esperanza
Proposición 6.3.2 Sean X y Y variables aleatorias con esperanzas finitas y sea c una constante. Entonces
a) E(c) = c
b) E(cX) = cE(X)
c) Si X ≥ 0, entonces E(X) ≥ 0
d) E(X +Y ) = E(X) + E(Y )
Demostración
a) Si X es una v.a. discreta por definición de esperanza para caso discreto tenemos que:
E(c) = ∑ cP(X = x) = c ∑ P(X = x) = c
x
x
Si X es una v.a. continua por definición de esperanza para caso continuo tenemos que:
E(c) =
Z ∞
−∞
c f (x)dx = c
Z ∞
−∞
f (x)dx = c
b) Si X es una v.a. discreta por definición de esperanza para caso discreto tenemos que:
E(cX) = ∑(cx)P(X = x) = c ∑ xP(X = x) = cE(X)
x
x
Si X es una v.a. continua por definición de esperanza para caso continuo tenemos que:
E(cX) =
Z ∞
−∞
(cx) f (x)dx = c
Z ∞
−∞
x f (x)dx = cE(X)
6.3. ESPERANZA, VARIANZA Y MOMENTOS
76
c) Este inciso es muy evidente pues cuando se cumple la hipótesis (E(X) ≥ 0), en la
integral o suma correspondiente solo aparecerán términos que son no negativos.
d) Esta última propiedad, en cambio, no es sencilla de demostrar y aún en el caso discreto
requiere de detalles técnicos que preferimos omitir.
Oservaciones:
Observe que la segunda y la cuarta propiedad establecen que la esperanza es lineal, es
decir, separa sumas y también separa multiplicaciones por constantes; esto es
E(c1 X + c2Y ) = c1 E(X) + c2 E(Y )
Además si X1 , X2 , . . . , Xn son v.a. y c1 , c2 , . . . , cn son constantes arbitrarias se tiene que:
³
n
E
∑ ciXi
´
k=1
n
=
∑ ciE(Xi)
k=1
Si X e Y son v.a. independientes entonces E(XY ) = E(X)E(Y ). Esto mismo se extiende
³ n ´
n
para una sucesión X1 , X2 , . . . , Xn de v.a. independientes, esto es E ∑ Xi = ∏ E(Xi ).
i=1
i=1
Esta última propiedad no la detallaremos pero la utilizaremos en algunas demostraciones.
6.3.2.
Varianza
Definición 6.3.2 (Varianza)
La varianza de una variable aleatoria X, denotada por Var(X), se define como la siguiente
esperanza, si ésta existe,


[x − E(X)]2 f (x)
si X es una v.a. discreta
∑



x
Var(X) = E[X − E(X)]2 =
Z ∞




[x − E(X)]2 f (x)dx si X es una v.a. continua
−∞
La varianza es una medida del grado de dispersión de los diferentes valores tomados por
la variable aleatoria. Se le denota regularmente por la letra σ2 (sigma cuadrada). A la raíz
cuadrada positiva de la varianza, esto es σ, se le llama desviación estándar. Nuevamente la
anterior suma o integral puede no existir y en ese caso decimos que la variable aleatoria
no tiene varianza finita. Observemos que para calcular Var(X) necesitamos conocer primero
E(X). Veamos algunos ejemplos sencillos.
Ejemplo 6.3.5 Calcularemos la varianza de la variable aleatoria discreta X con función de
probabilidad dada por la siguiente tabla.
x
f(x)
-1
1/8
0
4/8
1
1/8
2
2/8
6.3. ESPERANZA, VARIANZA Y MOMENTOS
77
1
Recordemos primeramente que por cálculos previos, E(X) = . Aplicando la definición de
2
varianza para v.a. discreta Var(X) = ∑[x − E(X)]2 f (x), tenemos que:
x
³
1 ´2 4 ³
1 ´2 1 ³
1 ´2 2
1 ´2 1 ³
Var(X) = − 1 −
· + 0−
· + 1−
· + 2−
· =1
2
8
2
8
2
8
2
8
Ejemplo 6.3.6 Calcularemos la varianza de la variable aleatoria continua X con función de
densidad f (x) = 2x para x ∈ (0, 1) y cero en otro caso. En un cálculo previo habíamos encon2
trado que E(X) = . Aplicando la definición de varianza para una v.a. continua Var(X) =
3
Z ∞
2
[x − E(X)] f (x)dx, tenemos que
−∞
Var(X) =
Z 1³
x−
0
2 ´2
2xdx =
3
Z 1³
0
³ x4 8
8
8 ´
4 ´¯¯1
1
2x3 − x2 + x dx =
− x3 + x2 ¯ =
3
9
2 9
9
18
0
Propiedades de la varianza
Ahora enunciamos algunas propiedades de la varianza.
Proposición 6.3.3 Sean X y Y dos variables aleatorias, y sea c una constante. Entonces
a) Var(X) ≥ 0
b) Var(c) = 0
c) Var(cX) = c2Var(X)
d) Var(X + c) = Var(X)
e) Var(X) = E(X 2 ) − (E(X))2
f) Var(X +Y ) 6= V (X) +V (Y )
Demostración
a) Este inciso es evidente a partir de la definición de varianza pues en ella aparece una
suma o integral de términos no negativos.
b) Para este inciso la constante c es una v.a. con un único valor, de modo que E(c) = c,
entonces
Var(X) = E(c − c)2 = E(0)2 = E(0) = 0
c) Para este inciso tenemos que:
Var(cX) = E[cX − E(cX)]2 = E[cX − cE(X)]2 = E[c2 (X − E(X))2 ]
= c2 E[X − E(X)]2 = c2Var(X)
6.3. ESPERANZA, VARIANZA Y MOMENTOS
78
d) La demostración de este inciso tiene un procedimiento análogo al anterior, esto es,
Var(X + c) = E[(X + c) − E(X + c)]2 = E[X + c − (E(X) + E(c))]2
= E[X + c − E(X) − c)]2 = E[X − E(X)]2 = Var(X)
e) Para demostrar esta propiedad se desarrolla el cuadrado en la definición de varianza, y
se usa la propiedad de linealidad de la esperanza, esto es,
Var(X) = E[X − E(X)]2 = E[X 2 − 2XE(X) + (E(X))2 ]
= E(X 2 ) − 2E[XE(X)] + E[E(X)]2 = E(X 2 ) − 2[E(X)]2 + [E(X)]2
= E(X 2 ) − [E(X)]2
f) Finalmente para demostrar la propiedad (f) es suficiente dar un ejemplo. Puede tomarse
el caso Y = X, en general y por lo demostrado antes, se tiene que
Var(X +Y ) = Var(2X) = 22Var(X) = 4Var(X) 6= 2Var(X) = Var(X) +Var(Y )
Observación:
Si X e Y son v.a. independientes y c1 , c2 son constantes arbitrarias entonces
Var(c1 X + c2Y ) = c21Var(X) + c22Var(Y )
Además si X1 , X2 , . . . , Xn son v.a. independientes todas entre si y c1 , c2 , . . . , cn son constantes arbitrarias se tiene que:
³
Var
´
c
X
=
i
i
∑
n
k=1
n
∑ c2i Var(Xi)
k=1
Nota: En este curso no entraremos en detalles con respecto a las v.a. independientes por
eso no demostraremos las propiedades que este hecho implica en la esperanza y la varianza
de la suma de v.a. de este tipo mencionadas anteriormente.
6.3.3.
Momentos
Los momentos de una variable aleatoria son números que representan algunas características de la distribución de probabilidad asociada. Bajo ciertas condiciones el conjunto de
momentos determinan de manera única a la distribución de probabilidad. A continuación
definiremos los momentos si existen de una variable aleatoria alrededor del origen y alrededor de la media también llamada momento central.
Definición 6.3.3 (Momentos)
Se define el n-ésimo momento de una variable aleatoria X alrededor del origen, cuando
existe, como el número E(X n ), para cualquier valor natural de n. El n-ésimo momento central
de X, cuando existe, es el número E[(X − µ]n , en donde µ = E(X).
6.3. ESPERANZA, VARIANZA Y MOMENTOS
79
Observe que el primer momento de X alrededor del origen es simplemente la esperanza,
y el segundo momento central es la varianza. Tenemos entonces que si X es una variable
aleatoria con funcion de probabilidad f (x) si es discreta o función de densidad de probabilidad f (x) si es continua, entonces el n- ésimo momento de X, si existe, se calcula como
sigue:


xn f (x)
si X es una v.a. discreta
∑



x
E(X n ) =
Z ∞



xn f (x)dx si X es una v.a. continua

−∞
El n-ésimo momento central de X se calcula, para variables aleatorias discretas y continuas respectivamente, como indican las siguientes fórmulas:


(x − µ)n f (x)
si X es una v.a. discreta
∑



x
E[X − µ]n =
Z ∞



(x − µ)n f (x)dx si X es una v.a. continua

−∞
Ejemplo 6.3.7 Sea la variable aleatoria discreta X con función de probabilidad dada por la
siguiente tabla.
x
0
1
2
f(x) 1/4 2/4 1/4
a) Hallar el primer, segundo y tercer momento alrededor del origen
b) Calcular el primer, segundo y tercer momento alrededor de la media
Desarrollo de los incisos
a) Por definición de momentos alrededor del origen tenemos que
2
E(X) =
1
2
1
∑ x f (x) = 0 · 4 + 1 · 4 + 2 · 4 = 1
x=0
E(X 2 ) =
2
1
2
1
3
1
2
1
5
∑ x2 f (x) = 02 · 4 + 12 · 4 + 22 · 4 = 2
x=0
E(X 3 ) =
2
∑ x3 f (x) = 03 · 4 + 13 · 4 + 23 · 4 = 2
x=0
b) Por definición de momentos alrededor de la media cuyo valor es 1 tenemos que
2
E(X − µ) =
1
2
1
∑ (x − 1) f (x) = (0 − 1) · 4 + (1 − 1) · 4 + (2 − 1) · 4 = 0
x=0
2
E[(X − µ) ] =
2
1
2
1
1
2
1
1
∑ (x − 1)2 f (x) = (0 − 1)2 · 4 + (1 − 1)2 · 4 + (2 − 1)2 · 4 = 2
x=0
3
E[(X − 1) ] =
2
∑ (x − 1)3 f (x) = (0 − 1)3 · 4 + (1 − 1)3 · 4 + (2 − 1)3 · 4 = 0
x=0
6.4. FUNCIÓN GENERADORA DE MOMENTOS
80
Ejemplo 6.3.8 Una variable aleatoria X tiene función de densidad de probabilidad dada por:
 x

si 0 < x < 2

2
f (x) =


0 en otro caso
a) Hallar el primer, segundo y tercer momento alrededor del origen
b) Calcular el primer y segundo momento alrededor de la media
Desarrollo de los incisos
a) Por definición de momentos alrededor del origen tenemos que
Z 2
x
x3 ¯¯2 4
E(X) =
x dx = ¯ =
6 0 3
0 2
Z 2
x
x4 ¯¯2
E(X 2 ) =
x2 dx = ¯ = 2
2
8 0
0
Z 2
5
x
x ¯¯2 16
x3 dx = ¯ =
E(X 3 ) =
2
10 0
5
0
b) Por definición de momentos alrededor de la media tenemos que
³4´ 4 4
³
4´
= E(X) − E
= − =0
E(X − µ) = E X −
3
3
3 3
Z
Z
³
´
i
´
h³
2
4 2x
4 2
1 2 ³ 3 8 2 16 ´
x−
=
x − x + x dx
E[(X − µ)2 ] = E X −
dx =
3
3 2
2 0
3
9
0
³
´
4
2
1 x
8
8
2
=
− x3 + x2 =
2 4 9
9
9
0
6.4.
Función generadora de momentos
A continuación definiremos una función especial denominada función generadora de momentos.
Definición 6.4.1 (Función generadora de momentos)
Sea X una variable aleatoria con función de probabilidad f (x) en el caso de que sea discreta
o función de densidad f (x) en el caso de que sea continua. Se define a la función generadora
de momentos de la variable aleatoria X como la siguiente esperanza,
MX (t) = E(etX )
La función generadora de momentos de X se calcula, para variables aleatorias discretas y
continuas respectivamente, como indican las siguientes fórmulas:


etx f (x)
si X es una v.a. discreta
∑



x
MX (t) =
Z ∞



etx f (x)dx si X es una v.a. continua

−∞
6.4. FUNCIÓN GENERADORA DE MOMENTOS
81
Ejemplo 6.4.1 Sea X la variable aleatoria discreta del ejemplo 6.3.7, es decir, con función de
probabilidad dada por la tabla.
x
f(x)
0
1/4
1
2/4
2
1/4
Obtener su función generadora de momentos.
Por la definición de función generadora de momentos tenemos
MX (t) = E(etX ) =
2
e2t + 2et + 1
tx
0 1
1t 2
2t 1
e
f
(x)
=
e
·
+
e
·
+
e
·
=
∑
4
4
4
4
x=0
Ejemplo 6.4.2 Una variable aleatoria X tiene función de densidad de probabilidad dada por:
 −2x
si x ≥ 0
 2e
f (x) =

0
en otro caso
Obtener su función generadora de momentos.
Por la definición de función generadora de momentos tenemos
MX (t) = E(etX ) =
=
Z ∞
−∞
etx f (x)dx =
Z ∞
0
etx 2e−2x dx = 2
Z ∞
0
e−(2−t)x dx
¯∞
2
2
¯
e−(2−t)x ¯ =
−(2 − t)
2−t
0
Propiedades de la función generadora de momentos
Proposición 6.4.1 Sea X una variable aleatoria con los primeros n momentos alrededor del
origen finitos, estos es, E(X k ) < ∞; ∀k ∈ {0, 1, 2, . . . , n} y función generadora de momentos
MX (t) , entonces se tiene que:
´
dn ³
MX (0) = E(X n )
n
dt
Demostración
Por definición de función generadora de momentos, MX (t) = E(eXt ) y por serie de Taylor,
∞
(tX)k
e(Xt) = ∑
. Por lo tanto
k=0 k!
∞ k
t
(tX)k ´
= ∑ E(X k )
MX (t) = E ∑
k=0 k!
k=0 k!
³
∞
Derivando n veces a MX (t) obtenemos la siguiente secuencia
´
∞
∞
d³
t k−1
t k−1
MX (t) = ∑
E(X k ) = ∑
E(X k−1 X) = E(XetX )
dt
(k
−
1)!
(k
−
1)!
k=1
k=1
6.4. FUNCIÓN GENERADORA DE MOMENTOS
82
´
∞
∞
t k−2
t k−2
d2 ³
k
MX (t) = ∑
E(X ) = ∑
E(X k−2 X 2 ) = E(X 2 etX )
2
dt
k=2 (k − 2)!
k=2 (k − 2)!
..
.
´
∞
∞
t k−n
t k−n
dn ³
k
M
(t)
=
E(X
)
=
E(X k−n X n ) = E(X n etX )
X
∑
∑
dt n
(k
−
n)!
(k
−
n)!
k=n
k=n
Por lo que finalmente
´
dn ³
M
(0)
= E(X n )
X
dt n
Ejemplo 6.4.3 Tomemos nuevamente a la variable aleatoria discreta X del ejemplo 6.4.1
junto con su función generadora de momentos y calculemos los cuatro primeros momentos
de la variable alrededor del origen. Entonces
et + et + 1
MX (t) =
2
´¯
d³
e2t + et ¯¯
1+1
¯
E(X) =
Mx (t) ¯ =
=1
¯ =
dx
2
2
t=0
t=0
´¯
d2 ³
2e2t + et ¯¯
2+1 3
¯
E(X 2 ) = 2 Mx (t) ¯ =
=
¯ =
dx
2
2
2
t=0
t=0
¯
³
´¯
3
2t
t
d
4e + e ¯
4+1 5
¯
E(X) = 3 Mx (t) ¯ =
=
¯ =
dx
2
2
2
t=0
t=0
¯
³
´¯
4
2t
t
d
8e + e ¯
8+1 9
¯
E(X) = 4 Mx (t) ¯ =
=
¯ =
dx
2
2
2
t=0
t=0
Ejemplo 6.4.4 Tomemos ahora la variable aleatoria continua X del ejemplo 6.4.2 junto con
su función generadora de momentos y calculemos los cuatro primeros momentos de la variable alrededor del origen. Entonces
MX (t) =
2
2−t
´¯
d³
2 ¯¯
2
1
¯
Mx (t) ¯ =
¯ = 2=
2
dx
(2 − t) t=0 2
2
t=0
´¯
4 ¯¯
4
d2 ³
1
¯
E(X 2 ) = 2 Mx (t) ¯ =
¯ = 3=
3
dx
(2 − t) t=0 2
2
t=0
´¯
12 ¯¯
12 3
d3 ³
¯
E(X) = 3 Mx (t) ¯ =
¯ = 4 =
4
dx
(2 − t) t=0 2
4
t=0
´¯
48 ¯¯
d4 ³
48 3
¯
E(X) = 4 Mx (t) ¯ =
¯ = 5 =
5
dx
2
t=0
(2 − t) t=0 2
E(X) =
Proposición 6.4.2 Si X1 , X2 , . . . , Xn son v.a. independientes entonces
n
M³
n
∑ Xi
i=1
´(t) = ∏ MXi (t)
i=1
6.5. PROBLEMAS
83
Demostración
Por definición de función generadora de momentos se tiene que
n
M³
n
∑ Xi
³ ∑ Xit ´
³ n
´
n
n
Xi t
Xi t
i=1
=
E
e
=
E
e
=
E(e
)
=
´(t)
∏
∏
∏ MXi (t)
i=1
i=1
i=1
i=1
Notese que para esta demostración utilizamos la propiedad de la esperanza para v.a. independientes.
6.5.
Problemas
Variables Aleatorias
1. Determine en cada caso si la variable aleatoria en cuestión es discreta o continua.
¿Cuáles son sus posible valores?
a) Tiempo de vida de una persona escogida al azar.
b) Número de errores tipográficos en una página escogida al azar de un libro.
c) Tiempo de servicio en una transacción escogida al azar realizada por una persona
en un cajero automático.
d) Monto de una reclamación por accidente automovilístico escogida al azar del
conjunto de reclamaciones efectuadas a una compañía aseguradora.
2. Considere el experimento aleatorio de escoger un número al azar dentro del intervalo
unitario (0, 1). Suponga que cada resultado de este experimento se escribe en su expansión decimal como ω = 0, x1 x2 x3 . . . . Determine en los siguientes casos el conjunto de
valores de la variable aleatoria definida y clasifique ésta como discreta o continua.
a) X(ω) = ω
b) X(ω) = x1
c) X(ω) = 1 − ω
d) X(ω) = 0, 0x1 x2 x3 . . .
3. Considere un experimento aleatorio con espacio muestral equiprobable ω = {1, 2, 3, 4, 5, 6}.
Defina la variable aleatoria X(ω) = 2(ω − 3). ¿Cuáles son los posibles valores de X?.
Calcule P(X = 0), P(X ∈ {2, 3}), P(X ≥ 0), P(X < 0), P(X 2 = 1), P(2X − 4 = 0), y
P(X 2 = 4).
4. Considere el ejemplo del experimento aleatorio de lanzar un dardo en un tablero circular de radio p
uno, Figura 1.13, junto con las variables aleatorias X(x, y) = x,Y (x, y) = y
y Z(x, y) = x2 + y2 . Suponga que para cada región A ⊆ Ω cuya área puede ser calcuÁrea(A)
lada se define por P(A) =
.
Área(Ω)
³
³1
1´
1´
Calcule P(X ≥ 0), P(X < 0), P(X +Y ≤ 1), P(Y > X), P Z <
yP
<Z<
.
2
3
2
6.5. PROBLEMAS
84
Funciones de probabilidad, de densidad y de distribución
1. Grafique y compruebe que las siguientes funciones son de probabilidad


x2


si x = −2, −1, 0, 1, 2
10
a) f (x) =


 0 en otro caso


(2x − 5)2


si x = 1, 2, 3, 4, 5
70
b) f (x) =



0
en otro caso
2. Grafique y compruebe que las siguientes funciones son de densidad

x+1


si x ∈ (−1, 1)
2
a) f (x) =


0
en otro caso
½ −x
e
si x > 0
b) f (x) =
0 si x ≤ 0
3. Encuentre el valor de la constante c para que f (x) sea una función de probabilidad.
Grafique esta función y calcule P(X ∈ 2, 3, 4) y P(X < 3) en cada caso.

 cx si x = 1, 2, . . . , 10
a) f (x) =

0 en otro caso
 2
 cx si x = 1, 2, . . . , 10
b) f (x) =

0 en otro caso
4. Determine si la siguiente función es de probabilidad. Grafique la función y justifique
su respuesta.

1


si x = 0, 1


6




2
f (x) =
si x = 2


3





 0 otro caso
5. Determine si la siguiente función es de probabilidad. Grafique la función y justifique
su respuesta.

³ 3 ´x ³ 1 ´4−x
4


si x = 0, 1, 2, 3, 4

x!(4 − x)! 4
4
f (x) =



0
otro caso
6.5. PROBLEMAS
85
6. Encuentre el valor de la constante c para que la siguiente función sea de densidad.
Grafique f (x) y calcule P(X ≥ π) y P(X ∈ [π, 2π]).

 c(1 + senx) si x ∈ [0, 2π]
f (x) =

0
en otro caso
7. Encuentre el valor de la constante c para que la siguiente función sea de densidad.
Grafique f (x) y calcule P(X ∈ (1, ∞)).
f (x) = ce−|x| para − ∞ < x < ∞
8. Determine si cada una de las siguientes funciones es de densidad. Grafique la función
en cada caso y justifique su respuesta.

4x


si x ∈ [0, 2]
5
a) f (x) =


0
otro caso


2x2
4


− 2x +
si x ∈ [0, 3]
3
3
b) f (x) =



0
en otro caso
9. Explique porqué no es posible encontrar un valor de la constante c para que la siguiente
función sea de probabilidad o de densidad.

 cx si x = −2, −1, 0, 1, 2
a) f (x) =

0
otro caso

 c senx si x ∈ [−π, π]
b) f (x) =

0
en otro caso
10. Sea X una v.a. discreta con función de probabilidad dada por la siguiente tabla. Grafique
f (x) y calcule P(X ≥ 0), P(X < 0) y P(X 2 = 1).
x
-1
f(x) 0,2
0
0,3
1
0,5
11. Dadas las variables aleatorias con funciones de probabilidad dada por las tablas
x
f(x)
0
1/210
x
f(x)
2
1/36
1
4/35
3
1/18
2
3
3/7 8/21
4
1/12
a) Grafique en ambos casos
5
1/9
4
1/14
6
5/36
7
1/6
8
5/36
9
1/9
10
1/12
11
1/18
12
1/36
6.5. PROBLEMAS
86
b) Calcule P(X ≤ 2), P(X ≥ 3) y P(1 ≤ X ≤ 3) en ambos casos
12. Sea X una v.a. discreta con función de probabilidad dada por la tabla que aparece abajo.
Grafique f (x). Calcule la función de probabilidad de las siguientes variables aleatorias
Y = X 2 , Z = |X| y W = 2X − 5. Grafique en cada caso.
x
f(x)
-2
0,1
-1
0,15
0
0,4
2
0,1
3
0,15
5
0,1
13. Sea X discreta con función de probabilidad dada por la tabla que aparece abajo. Encuentre el valor de c y grafique f (x). Calcule y grafique la función de probabilidad de
la variable Y = X 2 .
x
-2 0 2
f(x) 0,1 c 0,1
14. Sea X una variable aleatoria con la siguiente función de distribución. Encuentre y
grafique f (x). Calcule P(0 ≤ X < 10).

³ 1 ´x+1

 1−
si x = 0, 1, 2, 3, . . .
2
F(x) =


0
otro caso
15. Sea X una v.a. continua con función de densidad

1


si − k ≤ x ≤ 4k
10
f (x) =


0
otro caso
a) Determine el valor de la constante k y grafique f (x)
b) Calcule y grafique F(x)
c) Calcule P(−1 ≤ X ≤ 3), P(X ≥ 2) y P(X ≤ 0)
1
d) Encuentre m tal que P(|X − 1| ≥ m) =
2
16. Sea X una variable aleatoria continua con la función de densidad que aparece abajo.
Encuentre el valor de la constante c y grafique la función f (x). Encuentre y grafique
además la función de distribución F(x).

2x


si 0 < x < c
9
f (x) =


0 si en otro caso
½
17. Dada la siguiente función f (x) =
ce−3x si x > 0
0
si x ≤ 0
a) Obtenga el valor de c que haga que esta función sea de densidad para X
6.5. PROBLEMAS
87
b) Calcule y grafique F(x)
c) Calcule P(X ≤ 10), P(X ≥ 5) y P(5 ≤ X ≤ 10)
18. El tiempo en minutos que una persona espera un autobús es una v.a. con función de
densidad dada por
 1

2 si 0 < t < 1




1
f (t) =
4 si 2 < t < 4





0 para otro valor de t
Hallar la probabilidad de que el tiempo en que la persona que espera el autobús sea de
a) mayor de 3 minutos
b) entre 1 y 2 minutos
c) menor de 3 minutos
19. Una v.a. tiene función de densidad
 2
 cx si 1 ≤ t ≤ 2
f (t) =
cx si 2 ≤ t ≤ 3

0 para otro valor de x
Hallar:
a) la constante c
b) la función de distribución
³1
3´
c) P(X > 2) y P
<X <
2
2
20. Sea X una variable aleatoria con la función de distribución que aparece abajo. ¿Es X
discreta o continua? Grafique F(x). Encuentre y grafique la correspondiente función
de densidad f (x). Calcule además P(X = 2) y P(1 < X < 2).

0
para x < 1






1
F(x) =
si 1 ≤ x < 2

3





1
para x ≥ 2
21. Sea X una variable aleatoria con la función de distribución que aparece abajo. ¿Es X
discreta o continua? Grafique F(x). Encuentre y grafique la correspondiente función
1
1
de densidad f (x). Calcule además P(X = ) y P(X > ).
2
2

 √0 para x < 0
x si 0 ≤ x < 1
F(x) =

1 para x ≥ 1
6.5. PROBLEMAS
88
22. Una urna contiene cuatro bolas numeradas 1, 2, 3 y 4. Se extraen dos bolas al azar, una
a la vez y sin reemplazo. Sea X la variable aleatoria que denota la suma de los números
de las dos bolas seleccionadas.
a)
b)
c)
d)
Determine Ω
Calcule y grafique f (x)
Calcule y grafique F(x)
Calcule P(X ≥ 6), P(3 < X ≤ 5) y P(X = 6)
Esperanza, varianza, momentos y función generadora de momentos
1. Sea a un número fijo. Construya una variable aleatoria X tal que E(X) = a.
2. Calcule la esperanza de la variable aleatoria discreta X cuya función de probabilidad
es

1


si x = 0, 1


3




1
a) f (x) =
si x = 2, 3


6





 0 otro caso

1


si x = −1, 1


4




1
b) f (x) =
si x = 0


2





 0 otro caso
3. Calcule la esperanza de la variable aleatoria continua X cuya función de densidad es
a) f (x) = e−x , para x > 0
b) f (x) = 6x(1 − x), para 0 < x < 1
4. Sea X una variable aleatoria discreta con la función de probabilidad que aparece abajo.
Demuestre que f (x) es efectivamente una función de probabilidad y que la esperanza
de X no existe. Este es un ejemplo de una variable aleatoria discreta que no tiene
esperanza finita.

1


para x = 1, 2, 3, . . .

x(x + 1)
f (x) =



0
para otros casos
5. Sea X una variable aleatoria continua con la función de densidad que aparece abajo.
Demuestre que esta función es efectivamente una función de densidad. Compruebe
además que la esperanza de X no existe. Este es un ejemplo de una variable aleatoria
continua que no tiene esperanza finita. Es un caso particular de la distribución Cauchy.
1
, para − ∞ < x < ∞
f (x) =
2
π(x + 1)
6.5. PROBLEMAS
89
6. Demuestre que no existe la esperanza de la v.a X cuando su función de densidad es

1

 2 para x > 1
x
f (x) =


0 para x ≤ 1
7. Encuentre la esperanza y luego demuestre que la varianza de una variable aleatoria con
la siguiente función de densidad no existe.

2

 3 para x > 1
x
f (x) =


0 para x ≤ 1
8. Diga falso o verdadero. Justifique en cada caso.
a) La esperanza de una v.a. puede ser cero.
b) No hay dos v.a.s distintas con la misma esperanza.
c) La esperanza de una v.a. nunca es negativa.
d) La varianza de una v.a. puede ser cero.
e) La varianza de una v.a. nunca es negativa.
f) No hay dos v.a.s distintas con la misma varianza.
9. Demuestre que
a) E(E(X)) = E(X)
b) Var(Var(X)) = 0
10. Sea X la variable aleatoria constante c. Compruebe que
a) E(X) = c
b) E(X n ) = cn
c) Var(X) = 0
11. Calcule la media y varianza de la variable aleatoria X con función de probabilidad

1


si x = 0, 1, 2


9




2
f (x) =
si x = 3, 4, 5


9






0 otro caso
12. Calcule la media y varianza de la variable aleatoria X cuya función de probabilidad es
 ³ ´x+1
1


si x = 0, 1, 2, 3, . . .
2
f (x) =


0
otro caso
6.5. PROBLEMAS
90
13. Diga falso o verdadero. Justifique en cada caso.
a) Var(E(X)) = 0
b) E(Var(X)) = E(X)
14. Sea X una variable aleatoria continua con función de densidad f (x) = 12e−|x| , para
−∞ < x < ∞. Demuestre que f (x) es efectivamente una función de densidad y compruebe que
a) E(X) = 0
b) E(X 2 ) = 2
c) Var(X) = 2
d) E(X n ) = n! para n par
15. Diga falso o verdadero. Justifique en cada caso.
a) E(−X) = −E(X)
b) Var(−X) = −Var(X)
c) E(Var(X)) = Var(E(X))
16. Encuentre el error en la siguiente demostración de la afirmación de que la varianza de
cualquier variable aleatoria es cero.
0 = Var(0)
= Var(X + (−X))
= Var(X) +Var(−X)
= Var(X) +Var(X)
= 2Var(X)
Capítulo 7
Distribuciones de probabilidad
Estudiaremos a continuación algunas distribuciones de probabilidad de variables aleatorias importantes. Estas distribuciones son modelos particulares para asignar probabilidades
a subconjuntos de números reales. Empezaremos con las distribuciones de tipo discreto y
continuaremos después con las de tipo continuo. Es importante señalar que ésta es sólamente
una lista parcial de algunas distribuciones de probabilidad de mayor uso.
7.1.
Distribuciones discretas de probabilidad
7.1.1.
Distribución Bernoulli
Un ensayo Bernoulli se define como aquel experimento aleatorio con únicamente dos
posibles resultados, llamados genéricamente “éxito” y “fracaso”, con probabilidades respectivas P(Éxito) = p y P(Fracaso) = 1 − p.
Construcción de una distribución de Bernoulli
Sea un experimento aleatorio que arroja únicamente dos posibles resultados, denominados éxito y fracaso. Si se define la variable aleatoria X como aquella función que lleva el
resultado éxito al número 1 y el resultado fracaso al número 0, entonces decimos que X tiene
una distribución Bernoulli con parámetro p ∈ (0, 1), y escribimos X ∼ Ber(p). La función de
probabilidad es
½ x
p (1 − p)1−x si x = 0, 1
f (x) =
0
para otro caso
Proposición 7.1.1 Sea X ∼ Ber(p), entonces tenemos que
a) E(X) = p
b) Var(X) = p(1 − p)
c) MX (t) = 1 − p + pet
Demostración
a) A partir de la definición de esperanza se tiene que
E(X) = ∑ x f (x) = 0 · (1 − p) + 1 · p = p
x
91
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
92
b) Según la definición de varianza, Var(X) = ∑[x − E(X)]2 f (x), entonces tenemos que
x
Var(X) = (0 − p)2 (1 − p) + (1 − p)2 p = p2 (1 − p) + p(1 − p)2 = p(1 − p)
c) Recordando que la función generadora de momentos se define como MX (t) = E(etX ),
entonces
MX (t) = ∑ etx f (x) = e0 (1 − p) + et p = 1 − p + pet
x
Ejemplo 7.1.1 Considere el experimento aleatorio de lanzar una moneda al aire. Calcula la
esperanza, la varianza y la función generadora de momentos.
Suponga que ω1 = cara y ω2 = cruz son los dos resultados posibles, con probabilidades
1
1
p = y 1 − p = , respectivamente. Sea X la variable aleatoria dada por X(ω1 ) = 1, y
2
2
³1´
X(ω2 ) = 0. Entonces X tiene distribución Ber
, por lo tanto
2
E(X) = p =
1
2
1
1
1
Var(X) = p(1 − p) = (1 − ) =
2
2
4
1 1
1
MX (t) = 1 − + et = (1 + et )
2 2
2
7.1.2.
Distribución binomial
La distribución binomial fue desarrollada por suizo Jakob Bernoulli (1654-1705), es la
principal distribución de probabilidad discreta. La variable aleatoria binomial y su distribución están basadas en un experimento que satisface las condiciones citadas a continuación.
Construcción de la distribución binomial
Suponga que se realizan n ensayos idénticos independientes de Bernoulli en donde la
probabilidad de éxito y de fracaso en cada uno de ellos es la misma, siendo la probabilidad
de éxito igual a p y la del fracaso igual a 1 − p, con p ∈ (0, 1). El espacio muestral de este
experimento consiste de todas las posibles sucesiones de longitud n de éxitos y de fracasos,
esto es
Ω = {(EEE . . . E), (FEE . . . E), (FFE . . . E), . . . , (FFF . . . FE), (FFF . . . F)}
Usando el principio multiplicativo, es fácil ver que este conjunto tiene 2n elementos.
Si ahora se define la variable aleatoria X como el número de éxitos en cada una de estas
sucesiones, esto es
X(EEE . . . E) = n, X(FEE . . . E) = n − 1, . . . , X(FFF . . . EF) = 1, X(FFF . . . F) = 0
entonces X toma los valores 0, 1, . . . , n, y se dice que X tiene una distribución binomial con
parámetros n y p. Se escribe X ∼ bin(n, p), y su función de probabilidad es
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD




f (x) =
93
n!
px (n − p)1−x si x = 0, 1, . . . , n
x!(n − x)!



0
para otro caso
Proposición 7.1.2 Sea X ∼ bin(n, p), entonces tenemos que
a) E(X) = np
b) Var(X) = n(1 − p)
c) MX (t) = (1 − p + pet )n
Demostración
a) Como la variable aleatoria X constituye el número de éxitos obtenidos en cada uno
de los posibles resultados en el experimento (posibles sucesiones de Ω). Entonces
n
X=
∑ X j , donde X j ∼ Ber(p),
∀ j = {1, 2, . . . , n}, por lo que la esperanza, varian-
j=1
za y función generadora de momentos de cada X j son E(X j ) = p, Var(X j ) = p(1 − p)
y MX j (t) = pet + p − 1 respectivamente. Aplicando la propiedad de linealidad de la
esperanza se tiene
³
E(X) = E
´
X
∑ j =
n
j=1
n
∑ E(X j ) =
j=1
n
∑ p = np
j=1
b) Tomando en cuenta la propiedad de varianza que establece que si tenemos n variables
aleatorias independientes, todas con varianzas finitas, entonces la varianza de las suma
de las n v.a. es idéntica a la suma de las varianzas de las variables, por lo tanto la
varianza de X es:
n
Var(X) = Var( ∑ X j ) =
j=1
n
∑ Var(X j ) =
j=1
n
∑ p(1 − p) = np(1 − p)
j=1
c) Una de las propiedades de la función generadora de momentos establece que si tenemos
n variables aleatorias independientes, entonces la función generadora de momentos de
la suma de las n v.a. es idéntico al producto de la función generadora de momentos de
las variables, entonces
MX (t) = M³
n
∑ Xj
n
n
j=1
j=1
´(t) = ∏ MX j (t) = ∏ (pet + p − 1) = (pet + p − 1)n
j=1
Ejemplo 7.1.2 El experimento consiste en lanzar cuatro veces al aire una moneda. Nuestro
interés es el número de caras obtenidas en los cuatro lanzamientos. Como es evidente, la
probabilidad de obtener un éxito ( cara ), en una de las pruebas ( lanzamiento ) es 0,50 y la
de obtener un fracaso es también 0,50.
a) ¿Cuál es la probabilidad de no obtener caras en los cuatro lanzamientos?
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
94
b) ¿Cuál es la probabilidad de obtener dos caras en los cuatro lanzamientos?
c) Haga una distribución de probabilidad binomial
d) Calcular la media, la desviación estándar y la función generadora de momentos de esta
distribución binomial
Esta distribución binomial tiene por función de probabilidad a la siguiente función

³ 1 ´x ³ 1 ´4−x
4!


si x = 0, 1, 2, 3, 4

x!(4 − x)! 2
2
f (x) =



0
para otro caso




=



³ 1 ´4
4!
si x = 0, 1, 2, 3, 4
x!(4 − x)! 2
0
para otro caso
a) La probabilidad de no obtener caras en los cuatro lanzamientos es P(X = 0), esto es,
P(X = 0) =
³ 1 ´4
4!
1
=
0!(4 − 0)! 2
16
b) La probabilidad de obtener dos caras en los cuatro lanzamientos es P(X = 2), esto es,
³ 1 ´4
4!
6
3
P(X = 2) =
=
=
2!(4 − 2)! 2
16 8
c) La distribución de probabilidad está dada por la siguiente tabla
x
p(x)
0
1/16
1
4/16
2
3/8
3
1/4
4
1/16
c) Teniendo en cuenta la proposición 7.1.1 tenemos que la esperanza, la varianza y la
función generadora de momentos son respectivamente
E(X) = 4 ·
1
=2
2
1 1
Var(X) = 4 · · = 1
2 2
³
1 1 ´4
1
MX (t) = 1 − + et = (et + 1)4
2 2
16
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
7.1.3.
95
Distribución Poisson
Esta distribución fue descubierta por Simeón Denis Poisson (1781-1840) en 1837 como
límite de la distribución binomial. En 1838 en su trabajo Recherches sur la probabilité des
jugements en matières criminelles et matière civile (“Investigación sobre la probabilidad de
los juicios en materias criminales y civiles”). El trabajo estaba enfocado en ciertas variables aleatorias N que cuentan, entre otras cosas, un número de ocurrencias discretas (muchas
veces llamadas “arribos”) que tienen lugar durante un intervalo de tiempo de duración determinada.
La distribución de Poisson tiene conexión con los procesos de Poisson. Se aplica a varios
fenómenos discretos de la naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3, . . .
veces durante un periodo definido de tiempo o en una área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el espacio.
Ejemplos de eventos que pueden ser modelados por la distribución de Poisson
a) El número de autos que pasan a través de un cierto punto en una ruta (suficientemente
distantes de los semáforos) durante un periodo definido de tiempo.
b) El número de errores de ortografía que uno comete al escribir una única página.
c) El número de llamadas telefónicas en una central telefónica por minuto.
d) El número de servidores web accedidos por minuto.
e) El número de animales muertos encontrados por unidad de longitud de ruta.
f) El número de mutaciones de determinada cadena de ADN después de cierta cantidad
de radiación.
g) El número de núcleos atómicos inestables que decayeron en un determinado periodo
de tiempo en una porción de sustancia radiactiva.
h) La radiactividad de la sustancia se debilitará con el tiempo, por lo tanto el tiempo total
del intervalo usado en el modelo debe ser significativamente menor que la vida media
de la sustancia.
i) El número de estrellas en un determinado volumen de espacio.
j) La distribución de receptores visuales en la retina del ojo humano.
k) La inventiva de un inventor a través de su carrera
La distribución de Poisson surge cuando estamos interesados en medir el números de
sucesos aleatorios que suceden en un intervalo de tiempo fijo. La variable aleatoria se distribuye a lo largo del tiempo o del espacio. Las condiciones para que se trate de una distribución de Poisson son:
Los eventos de interés deben ocurrir independientemente unos de otros
La probabilidad de que suceda un evento en un intervalo depende de la longitud del
intervalo y no de su posición.
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
96
Construcción de una distribución de Poisson
Supongamos que deseamos observar el número de ocurrencias de un cierto evento dentro
de un intervalo de tiempo dado, por ejemplo, el número de clientes que llegan a un cajero automático durante la noche, o tal vez deseamos registrar el número de accidentes que ocurren
en cierta avenida durante todo un día. Para modelar este tipo de situaciones podemos definir
la variable aleatoria X como el número de ocurrencia de este evento en el intervalo de tiempo
dado. Es claro entonces que X puede tomar los valores 0, 1, 2, . . . , y en principio no ponemos
una cota superior para el número de observaciones del evento. Adicionalmente supongamos
que conocemos la tasa media de ocurrencia del evento de interés, que denotamos por la letra
λ (lambda). El parámetro λ es positivo y se interpreta como el número promedio de ocurrencias del evento, por unidad de tiempo. La probabilidad de que la variable aleatoria X tome un
valor entero x ≥ 0 se definirá a continuación. Decimos que X tiene una distribución Poisson
con parámetro λ > 0, y escribimos X ∼ Poisson(λ) cuando:


e−λ λx


si x = 0, 1, 2, . . .
x!
f (x) =


 0
para otro caso
Figura 7.1: Gráfica de f (x) de la distribución Poisson
El eje horizontal es el índice x. La función solamente está definida en valores enteros de
x. Las líneas que conectan los puntos son solo guías para el ojo y no indican continuidad.
Proposición 7.1.3 Sea X ∼ Poisson(λ), entonces tenemos que
a) E(X) = λ
b) Var(X) = λ
t
c) MX (t) = eλ(e −1)
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
97
Demostración
a) A partir de la definición de esperanza se tiene que
∞
E(X) =
∑x
x=0
∞
∞ −λ x−1
e−λ λx
e−λ λx
e λ
=∑
=λ∑
=λ
x!
x=1 (x − 1)!
x=1 (x − 1)!
b) Según una de las propiedades de la varianza se tiene, Var(X) = E(X 2 ) − [E(X)]2 , entonces calculemos primero E(X 2 )
E(X 2 ) =
∞
∑ x2
x=0
∞
∞
e−λ λx
e−λ λx
e−λ λx
= ∑x
= ∑ (x − 1 + 1)
x!
(x − 1)!
x=1 (x − 1)!
x=1
∞
∞
∞
∞ −λ x−1
e−λ λx
e−λ λx
e−λ λx
e λ
= ∑ (x − 1)
+∑
=∑
+λ ∑
(x − 1)! x=1 (x − 1)! x=2 (x − 2)!
x=1
x=1 (x − 1)!
∞
∞ −λ x−1
e−λ λx−2
e λ
+λ ∑
= λ2 + λ
(x
−
2)!
(x
−
1)!
x=2
x=1
= λ2 ∑
Entonces:
Var(X) = λ2 + λ − λ2 = λ
c) Por la definición de función generadora de momentos, se tiene que
∞
MX (t) =
∑ etx
x=0
∞
t
t
e−λ λx
(et λ)x
= e−λ ∑
= e−λ · ee λ = eλ(e −1)
x!
x=0 x!
Ejemplo 7.1.3 Una distribución de Poisson está dada por
P(X = x) =
e−1,8 (1, 8)x
x!
Hallar
a) P(X = 1), P(X ≤ 2) y P(X ≥ 3)
b) E(X),Var(X) y MX (t)
Desarrollo
a) Tomando la función de probabilidad tenemos que
P(X = 1) =
e−1,8 (1, 8)1
= 1, 8e−1,8 = 0, 2975
1!
P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2)
e−1,8 (1, 8)0 e−1,8 (1, 8)1 e−1,8 (1, 8)2
=
+
+
= 0, 7306
0!
1!
2!
P(X ≥ 3) = 1 − P(x < 3) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)]
= 1 − 0, 7306 = 0, 2694
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
98
b) A partir de la proposición 7.1.3 se tiene que
E(X) = Var(X) = λ = 1, 8 y
t
MX (t) = e1,8(e −1)
Relación con la distribución binomial
La distribución de Poisson puede ser vista como un caso límite de la distribución binomial, es decir, una distribución binomial en la que n → ∞ y p → 0 se puede aproximar
por una distribución de Poisson de parámetro λ = np.
Ejemplo 7.1.4 En una central telefónica automática la probabilidad de que una llamada sea conectada erróneamente es 10−3 .
a) Para un día donde son conectadas 2000 llamadas independientes, hallar el valor
aproximado de la probabilidad que se efectúen 4 conexiones erróneas.
b) ¿Cuál es el número mínimo de llamadas independientes que se requieren para
asegurar con probabilidad 0,9 que por lo menos una de las llamadas sea conectada
erróneamente?
Desarrollo
a) Sea X la v.a que represente el número de llamadas telefónicas conectadas erróneamente en un día determinado. Entonces la función de probabilidad de X está dada
por:
e−np (np)x
P(X = x) =
x!
donde p = 10−3 y n = 2000 según las condiciones de este problema. Entonces
np = 2 y
e−2 (2)4
P(X = 4) =
= 0, 09
4!
b) Si X es nuevamente el número de llamadas conectadas erróneamente en un día
determinado entonces X ∼ Poisson(np). Según la información P(X ≥ 1) ≥ 0, 9 y
considerando que P(X ≥ 1) = 1 − P(X < 1) = 1 − P(X = 0) entonces:
1−
e−np (np)0
≥ 0, 9
0!
0, 1 ≥ e−np
ln|0, 1| ≥ −np
n ≤ 2303 llamadas
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
7.1.4.
99
Distribución geométrica
En la teoría de probabilidad y estadística, la distribución geométrica es cualquiera de las
dos distribuciones de probabilidad discretas siguientes:
La distribución de probabilidad del número X de ensayos de Bernoulli necesaria para
obtener un éxito, contenido en el conjunto {1, 2, 3, . . . } o
la distribución de probabilidad del número Y = X − 1 de fallos antes del primer éxito,
contenido en el conjunto {0, 1, 2, 3, . . . }
A cualquiera de éstas dos distribuciones se la denomina distribución geométrica, es una
cuestión de convención y conveniencia.
Construcción de una distribución geométrica
Supongamos que tenemos ahora una sucesión infinita de ensayos independientes Bernoulli, en cada uno de los cuales la probabilidad de éxito es p. Para cada una de estas sucesiones
definimos la variable aleatoria X como el número de fracasos antes de obtener el primer
éxito. Por ejemplo, X(FEFEFF . . . ) = 1, X(EFFEEE . . . ) = 0, X(FFFEFE . . . ) = 3. Observamos que X puede tomar los valores 0, 1, 2, . . . . La probabilidad de que X tome el valor
entero x ≥ 0 es p(1 − p)x . Decimos entonces que X tiene una distribución geométrica con
parámetro p, y escribimos X ∼ geo(p) cuando

 p(1 − p)x si x = 0, 1, 2, . . .
P(X = x) =

0
para otro caso
El nombre de esta distribución proviene del hecho de que cuando escribimos la suma
de todas las probabilidades, obtenemos una suma geométrica. La inspección sucesiva de
artículos hasta encontrar una defectuoso, posiblemente en un proceso de control de calidad,
puede modelarse usando una distribución geométrica.
Proposición 7.1.4 Si X es la v.a. que muestra el número de fracasos antes del primer éxito
esto es; X ∼ geo(p) entonces:
a) E(X) =
(1 − p)
p
b) Var(X) =
(1 − p)
p2
¯ 1 ¯
p
¯
¯
, con t < ln¯
c) MX (t) =
¯
t
1 − e (1 − p)
1− p
Demostración
a) A partir de la definición de esperanza se tiene que
E(X) =
∞
∞
∞
x=0
x=0
x=0
∑ xp(1 − p)x = p ∑ x(1 − p)x = p(1 − p) ∑ x(1 − p)x−1
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
100
i
d h ∞
d
x
[(1 − p)x ] = −p(1 − p)
(1
−
p)
∑
d p x=1
x=1 d p
∞
= −p(1 − p) ∑
= −p(1 − p)
´
d ³1
(−1) 1 − p
− 1 = −p(1 − p) 2 =
dp p
p
p
b) Según una de las propiedades de la varianza se tiene, Var(X) = E(X 2 ) − [E(X)]2 , entonces calculemos primero E(X 2 )
E(X 2 ) =
∞
∑x
2
x=0
∞
∞
p(1 − p) = p ∑ x (1 − p) = p(1 − p) ∑ x2 (1 − p)x−1
x
2
x
x=1
x=1
i
d
d h ∞
x
[x(1 − p)x ] = −p(1 − p)
x(1
−
p)
∑
d p x=1
x=1 d p
∞
= −p(1 − p) ∑
= −p(1 − p)
i
d h1 ∞
d h1 − pi
x
px(1
−
p)
=
−p(1
−
p)
∑
d p p x=1
d p p2
h −p2 − (1 − p)2p i
³ p − 2 ´ (1 − p)(2 − p)
= −p(1 − p)
=
−p(1
−
p)
=
p4
p3
p2
Entonces:
Var(X) =
(1 − p)(2 − p) (1 − p)2 1 − p
−
= 2
p2
p2
p
c) Por la definición de función generadora de momentos, se tiene que
¯ 1 ¯
p
¯
¯
MX (t) = ∑ e p(1 − p) = p ∑ [e (1 − p)] =
con t < ln¯
¯
t
1 − e (1 − p)
1− p
x=0
x=0
∞
tx
x
∞
t
x
∞
Observación: Recordar que una serie geométrica es de la forma
si su radio r cumple con la condición |r| < 1
1
∑ rx−1 y converge a 1 − r
x=1
Ejemplo 7.1.5 Supongamos que un dado ordinario (equilibrado) es lanzado repetidas veces
hasta que aparece el resultado “1” por primera vez. Calcular
a) obtener la distribución de probabilidad de la v.a. que se ajuste a este experimento y
calcular la probabilidad de obtener el 1 en el cuarto lanzamiento
b) la esperanza, la varianza y la función generadora de momentos
Desarrollo
a) Sea X la v.a que represente el número de lanzamientos necesarios del dado para obtener
por primera vez el resultado “1”. Entonces X ∼ geo(P = 16 ), con lo cual
 ³ ´x

si x = 0, 1, 2, . . .
 16 56
P(X = x) =


0
para otro caso
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
Por lo que
P(X = 3) =
101
1³
5 ´3
125
1−
=
6
6
1296
b) Según la proposición 7.1.4 se tiene que
E(X) =
1 − 16
1
6
=5
1− 1
V (X) = ³ ´52 = 30
1
6
MX (t) =
7.1.5.
1
1
³6
´=
6 − 5et
1 − et 1 − 16
Distribución binomial negativa
Si en una sucesión infinita de ensayos de Bernoulli (el resultado en cada experimento
es un éxito o fracaso) cada uno con parámetro p ∈ (0, 1); la variable aleatoria X cuenta el
número de fracasos antes de obtener el r-ésimo éxito, entonces decimos que X tiene una
distribución binomial negativa con parámetros r y p, y escribimos X ∼ bin neg(r, p).
Construcción de una distribución binomial negativa
Para construir una distribución binomial negativa es necesario conocer el número de pruebas que se repiten, el r-ésimo éxito en el número de pruebas que se repiten y la probabilidad
de que suceda un éxito en cada una de las pruebas.
Para n = r, r + 1, . . . se define An como el suceso que establece que el número total de
pruebas requeridas para obtener exactamente r éxitos es n. Como el suceso An ocurre si y
solo si ocurren exactamente r − 1 éxitos en las primeras n − 1 pruebas y el r-ésimo éxito se
da en la n-ésimo prueba. Puesto que todas las pruebas son de Bernoulli entonces son todas
independientes entre si y áplicando el principio de análisis combinatorio, se obtiene que:
µ
¶
n−1
P(An ) =
pr−1 (1 − p)(n−1)−(r−1) p
r−1
con lo cual
µ
P(An ) =
n−1
r−1
¶
pr (1 − p)n−r
(7.1.1)
Si decimos que X es la v.a. que cuenta el número de fracasos antes de obtener el r-ésimo
éxito, entonces X puede tomar los valores del conjunto {0, 1, 2, . . . }. Además recordemos
que n por definición de An es número de fracasos (x) más número de éxitos (r), esto es
n = x + r. Entonces se entiende la v.a. X podría caracterizar numéricamente al suceso An
como X(An ) = x, por lo que tendremos;
P(An ) = P(Ax+r ) = P(X = x)
(7.1.2)
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
102
Tomando en cuenta las ecuaciones 7.1.1 y 7.1.2 se tiene
 µ
¶
r+x−1


pr (1 − p)x si x = 0, 1, 2, . . .

x
P(X = x) =



0
para otro caso

donde


r+x−1
=
x
(r + x − 1)!
x!(r − 1)!
Aparece el término pr pues la sucesión de ensayos Bernoulli no concluye sino hasta
obtener r éxitos. Podemos
tener
un número variable de fracasos, de ahí el término (1 − p)x , y


finalmente el factor 
r+x−1

que nos dice las diferentes formas en que los r éxitos pueden
x
aparecer en los r + x − 1 ensayos realizados antes del último que necesariamente fue un éxito.
Es claro que esta distribución es una generalización de la distribución geométrica, la cual
se obtiene tomando r = 1.
Proposición 7.1.5 Si X es la v.a. que muestra el número de fracasos antes del r éxito esto
es; X ∼ bin neg(r, p) entonces:
a) E(X) =
r(1 − p)
p
b) Var(X) =
r(1 − p)
p2
¯ 1 ¯
ir
p
¯
¯
c) MX (t) =
, con t < ln¯
¯
t
1 − e (1 − p)
1− p
h
Demostración
Si X es la v.a que cuenta el número de fracasos antes del r-ésimo éxito en sucesión
r
de pruebas de Bernoulli; entonces X =
∑ Xi, donde todas las v.a. Xi son independientes
i=1
1− p
1− p
entre si y cada Xi ∼ geo(p), ∀ i = 1, 2, . . . , r; con lo cual E(Xi ) =
,Var(Xi ) =
p
p2
p
. Esto resulta del hecho de que para cada éxito se tubo que haber
y MXi (t) =
1 − et (1 − p)
tenido un cierto número de fracasos, que es la característica de la distribución geométrica.
Entonces
a) la esperanza de X es
³
E(X) = E
´
r
r
1 − p r(1 − p)
=
X
E(X
)
=
∑ i ∑ i ∑ p = p
i=1
i=1
i=1
r
b) la varianza de X es
³
Var(X) = Var
r
∑ Xi
i=1
´
r
r
1 − p r(1 − p)
=
2
p2
i=1 p
= ∑ Var(Xi ) = ∑
i=1
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
103
c) y la función generadora de momentos de X es
h
ir
p
p
=
t
1 − et (1 − p)
i=1 1 − e (1 − p)
r
MX (t) = M³
r
∑ Xi
r
´(t) = ∏ MXi (t) = ∏
i=1
i=1
Ejemplo 7.1.6 Se lanza repetidas veces una moneda honesta, cuyos dos resultados son cara
y cruz.
a) ¿Cuál es la probabilidad de obtener la tercera cruz en el quinto lanzamiento?
b) Obtener la esperanza, varianza y la función generadora de momentos para esta distribución
Desarrollo
a) Sea X la v.a. que represente el número de caras (fracasos) necesarias astes de obtener
por tercera vez cruz. Entonces X ∼ bin neg(3, 21 ), con lo cual
 µ
¶³ ´ ³ ´
2+x
3
x

1
1

si x = 0, 1, 2, . . .

2
2
x
P(X = x) =



0
para otro caso
Por lo que
µ
P(X = 2) =
2+2
¶³ ´ ³ ´
1 3 1 2
2
2
2
=6
³ 1 ´5
2
=
6
= 0, 1875
32
b) Según la proposición 7.1.5 se tiene que
E(X) =
³
´
1
3 1− 2
1
2
=3
³
´
1
3 1− 2
V (X) = ³ ´2 = 6
1
2
MX (t) =
7.1.6.
1
1
´=
³2
2 − et
1 − et 1 − 12
Distribución hipergeométrica
Como la mayoría de los muestreos se hacen sin remplazamiento. Así, si la población es
pequeña la probabilidad de obtener el artículo del tipo requerido cambia en cada observación.
En estadística la distribución hipergeométrica es una distribución de probabilidad discreta
con tres parámetros discretos N, r y n. Además es apropiada para muestreos sin reemplazamiento de poblaciones pequeñas. Esta distribución se refiere a un espacio muestral donde hay
elementos que tienen dos tipos de características posibles. Indica la probabilidad de obtener
un número de objetos x de uno de estos tipos, al sacar una muestra de tamaño n, de un total
de N objetos, de los cuales k son del tipo requerido.
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
104
Construcción de una distribución hipergeométrica
Supongamos que tenemos un conjunto de N objetos de los cuales k son de una primera
clase y N − k son de una segunda clase. Supongamos que de este conjunto tomamos una
muestra aleatoria de tamaño n (n ≤ N), la muestra es sin reemplazo y el orden de los objetos seleccionados no importa. El espacio muestral de este experimento consiste de todas
las posibles muestras de tamaño n que seµpueden
¶ obtener del conjunto mayor de tamaño N.
La cardinalidad del espacio muestral es
N
n
. Si para cada muestra definimos la variable
aleatoria X como el número de objetos de la primera clase contenidos en la muestra seleccionada, entonces X puede tomar los valores 0, 1, 2, . . . , n; suponiendo n ≤ k. La probabilidad
de que X tome un valor x estará dada por la fórmula que enunciamos a continuación. Decimos que X tiene una distribución hipergeométrica con parámetros N, k y n, y escribimos
X ∼ hipergeo(N, k, n) si
 Ã !Ã
!
k
N −k




x
n−x


Ã
!
si x = 0, 1, 2, . . . , n

N
P(X = x) =

n






0
para otro caso
µ ¶
k
El término
nos dice las diferentes formas en que de los k objetos de la primera clase
x
µ
¶
N −k
se pueden escoger x de ellos, y el término
es nuevamente las diferentes formas de
n−x
escoger n−x objetos de la totalidad de N −k objetos de la segunda clase. Usamos el principio
multiplicativo para obtener el número total de muestras diferentes en donde x objetos son de
la primera clase y n − x objetos son de la segunda clase.
Proposición 7.1.6 Dada una población finita de tamaño N con dos clases posibles de objetos.
Si X es la v.a. que muestra el número de objetos de la primera clase contenidos en una muestra
de tamaño n seleccionada de dicha población entonces X ∼ hipergeo(N, k, n) y presenta las
siguientes caracteristicas:
a) E(X) =
nk
N
b) Var(X) =
k ´³ N − n ´
nk ³
1−
N
N N −1
Demostración
Como primer paso seleccionemos n objetos de la población de tamaño N que contiene
n
k objetos de una primera clase y N − k objetos de la segunda clase. Definamos a X =
∑ Xi
i=1
como la v.a aleatoria que cuenta el número de objetos de la primera clase en la muestra
seleccionada; en donde cada Xi , ∀ i = 1, 2, . . . , n es una v.a que presenta las siguientes características:
Xi = 1 si se selecciona un objeto de la primera clase en la i-ésima extracción
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
105
Xi = 0 si se selecciona un objeto de la segunda clase en la i-ésima extracción
Debido a la aleatoriedad, la probabilidad de que la i-ésima bola extraida sea de la primera
k
clase es simplemente . Por lo tanto:
N
k
N −k
P(Xi = 1) =
y P(Xi = 0) =
N
N
E(Xi ) = P(Xi = 1) =
k
N
Var(Xi ) = E(Xi2 ) − [E(Xi )]2 =
k ³ k ´2 k ³
k´
−
=
1−
N
N
N
N
Entonces tenemos que:
a) la esperanza de X es
³
E(X) = E
´
n
n
k
nk
X
=
E(X
)
=
i
i
∑
∑N = N
∑
i=1
i=1
i=1
n
b) la varianza de X es
³
´
X
∑ i = E(X 2) − E(X)
n
Var(X) = Var
i=1
calculemos entonces:
¶
µ
¶µ
¶
µ ¶µ
k
N −k
k−1
N −k
2
x
n x
nk n
x
n−x
x−1
n−x
2
µ ¶
µ
¶
E(X ) = ∑
=
∑
N
N
−
1
N x=1
x=0
n
n
=
nk
∑
N x=1
µ
(x − 1 + 1)
µ
¶µ
k−1
x−1
N −1
µ
nk (k − 1)(n − 1) n
=
∑
N
N −1
x=2
"
=
k−2
¶µ
x−2
µ
#
n−1
n−x
¶
n−1
"
N −k
¶
N −k
n−x
N −2
¶
¶
µ
n
+∑
x−1
µ
x=1
n−2
"
¶µ
k−1
nk (k − 1)(n − 1)
nk (k − 1)(n − 1) + N − 1
+1 =
N
N −1
N
N −1
N −k
¶
#
n−x
N −1
¶
n−1
#
Por lo tanto
"
#
"
#
³ nk ´2 nk N 2 − (k + n)N + nk
nk (k − 1)(n − 1) + N − 1
Var(X) =
=
−
N
N −1
N
N
N(N − 1)
=
nk ³ N − k ´³ N − n ´
N
N
N
7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
106
Ejemplo 7.1.7 Supóngase que una urna contiene cinco bolas rojas y diez azules. Si se seleccionan bolas de la urna sin reemplazamiento; sea X la v.a que cuenta el número de bolas rojas
extraidas. Si se extraen al azar sin reemplazamiento siete bolas
a) ¿Cuál es la probabilidad de seleccionar exactamente cuatro bolas rojas?
b) ¿Cuál es la probabilidad de seleccionar almenos tres bolas rojas?
c) Calcular la esperanza y la varianza de esta distribución
Desarrollo
Como X es la v.a que cuenta el número de bolas rojas extraidas en un muestreo sin reemplazmiento; se tiene que X ∼ hipergeo(15, 5, 7). Por lo tanto
 Ã !Ã
!
5
10




x
7−x


Ã
!
si x = 0, 1, 2, 3, 4, 5

15
P(X = x) =

7






0
para otro caso
a) Para contestar la pregunta de este item basta calcular P(X = 4), esto es;
µ ¶µ
¶
5
10
4
µ
P(X = 4) =
3
15
¶
5 · 120
40
=
6435
429
=
7
b) Para contestar esta parte debemos calcular P(X ≥ 3); que equivale a decir,
P(X ≥ 3) = P(X = 3) + P(X = 4) + P(X = 5)
Por lo tanto
µ
P(X ≥ 3) =
5
¶µ
3
µ
10
4
15
¶
µ
¶
+
7
5
¶µ
4
µ
10
3
15
µ
¶
¶
+
7
5
¶µ
5
µ
10
¶
2
15
¶
=
7
c) Según la proposición 7.1.6 se tiene que
7·5 7
=
15
3
³ 7 · 5 ´³ 15 − 5 ´³ 15 − 7 ´
E(X) =
V (X) =
15
15
15 − 1
=
8
9
140 40
1
61
+
+
=
429 429 143 143
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
7.2.
Distribuciones continuas de probabilidad
7.2.1.
Distribución uniforme continua
107
Las distribuciones uniformes corresponden al experimento de elegir puntos al azar entre
dos puntos fijos a y b. Como la probabilidad de elegir cualquier punto es la misma, la función
de densidad tendrá la misma altura en todos los puntos entre a y b, es decir se trata de una
1
función constante desde a y b, de altura
.
b−a
Definición 7.2.1 Decimos que una variable aleatoria X tiene una distribución uniforme
continua en el intervalo (a, b), y escribimos X ∼ uni f (a, b) cuando su función de densidad
es

1

si a < x < b

b−a
f (x) =


0
en otro caso
La gráfica general de esta función se muestra en la Figura 7.1, y es evidente que se
trata de una función de densidad pues es no negativa e integra uno. Los parámetros de esta
distribución son los números a y b.
Figura 7.2: Gráfica de f (x) de la distribución exponencial
Proposición 7.2.1 Sea X la v.a. continua con distribución uniforme en el intervalo (a, b),
entonces X tiene las siguientes características
a) E(X) =
a+b
2
b) Var(X) =
c) MX (t) =
(b − a)2
12
ebt − eat
(b − a)t
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD







d) F(x) =
0
108
si x > a
x
b−a






1
si a ≤ x < b
si x ≥ b
Demostración
Como X es una v.a. continua con distribución uniforme en el intervalo (a, b) entonces su
función de densidad de probabilidad es

1

si a < x < b

b−a
f (x) =


0
en otro caso
con lo cual
a) por definición de esperanza para v.a. continua
E(X) =
Z ∞
−∞
x f (x)dx =
Z b
a
x
¯b
1
1
a+b
1
¯
dx =
x2 ¯ =
(b2 − a2 ) =
b−a
2(b − a) a 2(b − a)
2
b) por definición de varianza para v.a continua
Z ∞³
³
a + b ´2 1
a + b ´3 ¯¯b
1
x−
x−
Var(X) =
dx =
¯
2
b−a
3(b − a)
2
a
−∞
h³
h³ b − a ´3 ³ a − b ´3 i
a + b ´3 ³
1
1
a + b ´3 i
b−
=
=
− a−
−
3(b − a)
2
2
3(b − a)
2
2
=
1 (b − a)2 (b − a)2
=
3
4
12
c) por defincición de función generadora de momentos
MX (t) =
Z ∞
−∞
etx
1
1
dx =
b−a
b−a
Z b
a
etx dx =
¯b ebt − eat
1
¯
etx ¯ =
t(b − a) a (b − a)t
d) por definición de función de distribución


0
si x < a
0










 x
 Z x 1
F(x) = P(X ≤ x) =
du si a ≤ x < b =
b−a


0 b−a










1
1
si x > b
si x < a
si a ≤ x < b
si x ≥ b
Ejemplo 7.2.1 Supongase que tenemos una cuerda de 2m de longitud que queremos cortar
por un punto al azar a una cierta distancia de uno de los extremos. Sea X la v.a. que represente
el punto elegido; entonces
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
109
Figura 7.3: Gráfica de F(x) de la distribución exponencial
a) Expresar y gráficar la función de densidad?
b) Calcular P(X ≤ 0, 7), P(X ≥ 1) y P(0, 5 ≤ X ≤ 1, 25)
c) Obtener E(X),Var(X) y MX (t), además a partir de la función de densidad obtener y
graficar la función de distribución
Desarrollo
Como X es la v.a que represente el punto elegido entre 0 y 2; entonces X ∼ uni f (0, 2)
a) Como el área debe ser 1, la altura del rectángulo será 12 , entonces la función de densidad
es:

1


si 0 < x < 2
2
f (x) =


0 en otro caso
Figura 7.4: Gráfica de f (x) del ejemplo 7.2.1
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
110
b) Calculemos ahora P(X ≤ 0, 7), P(X ≥ 1) y P(0, 5 ≤ X ≤ 1, 25)
P(X ≤ 0, 7) =
Z 0,7
1
0
1 ¯¯0,7 1
dx = x¯ = (0, 7 − 0) = 0, 35
2
2 0
2
Z 2
1
1 ¯¯2 1
1
dx = x¯ = (2 − 1) =
2 1 2
2
1 2
Z 1,25
¯
1
1 ¯1,25 1
P(0, 5 ≤ X ≤ 1, 25) =
dx = x¯
= (1, 25 − 0, 5) = 0, 375
2 0,5
2
0,5 2
P(X ≥ 1) =
c) Por la proposición 7.2.1
E(X) =
0+2
=1
2

0





 x
F(x) =
2






1
Var(X) =
(2 − 0)2 1
=
12
3
MX (t) =
e2t − e0t
e2t − 1
=
(2 − 0)t
2t
si x < 0
si 0 ≤ x < 2
si x ≥ 2
Figura 7.5: Gráfica de F(x) del ejemplo 7.2.1
7.2.2.
Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente,
como la “campana de Gauss”. La distribución de una variable normal está completamente
determinada por dos parámetros, su media símbolizada por µ y su desviación estándar simbolizada por σ.
La distribución continua de probabilidad más importante de toda la estadística es la distribución de probabilidad normal.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
111
Definición 7.2.2 Decimos que una v.a. X tiene distribución de probabilidad normal si su
función de densidad de probabilidad está definida por la siguiente ecuación:
f (x) = √
1
2πσ2
1 x−µ 2
σ )
e− 2 (
, para
−∞ < x < ∞
en donde µ ∈ R y σ > 0 son los parámetros. Escribimos entonces X ∼ N(µ, σ2 ). La gráfica de
esta función de densidad tiene forma de campana como se puede apreciar en la Figura 7.6, en
donde se muestra además el significado geométrico de los dos parámetros.
Figura 7.6: Representación gráfica de f (x) para ciertos valores de µ y σ2 de una variable
aleatoria normal.
No es inmediato pero es posible demostrar que E(X) = µ, y ello significa que la campana
esta centrada en este valor, el cual puede ser negativo, positivo o cero. También puede demostrarse que Var(X) = σ2 , y que la distancia del punto µ a cualquiera de los dos puntos en
donde la función tiene puntos de inflexión es σ, por lo tanto la campana se abre o se cierra de
acuerdo a la magnitud de este parámetro. El papel que desempeñan µ y σ puede apreciarse
en la gráfica 7.7.
Características de la distribución de probabilidad normal
La distribución de probabilidad normal con su curva tiene las siguientes características:
1. La curva normal tiene forma de campana. La media, la moda y la mediana de la distribución son iguales y se localizan en el centro de la distribución.
2. La distribución de probabilidad normal es simétrica alrededor de su media. Por o tanto,
la mitad del área bajo la curva está antes del punto central y la otra mitad después. El
área total bajo la curva es igual a 1.
3. La curva normal se aproxima de manera asintótica al eje horizontal conforme se aleja
de la media en cualquier dirección. Esto significa que la curva se acerca al eje horizontal conforme se aleja de la media, pero nunca lo llega a tocar.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
112
Figura 7.7: Representación gráfica de f (x) de una variable aleatoria normal
La familia de la distribución de probabilidad normal
La forma de la campana de Gauss depende de los parámetros µ y σ. La media µ indica
la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada
a lo largo del eje horizontal. Por otra parte, la desviación estándar σ determina el grado de
apuntalamiento de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en
torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por
lo tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
Como se deduce, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de sus medias y sus varianzas.
Si las curvas tienen iguales sus medias pero diferentes varianzas entonces las curvas estarán centradas en la misma posición y tendrán diferentes formas; tal como lo muestra
la Figura 7.8.
Figura 7.8: Curvas normales que tienen medias iguales y desviaciones estándar diferentes
Si las curvas tienen desviaciones estándar iguales y medias diferentes, las curvas serán
idénticas pero centradas en diferentes posiciones sobre el eje horizontal, así como lo
muestra la Figura 7.9.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
113
Figura 7.9: Curvas normales que tienen medias diferentes y desviaciones estándar iguales
Si las curvas tienen medias diferentes y también sus desviaciones estándar son diferentes entonces aparte de estar centradas en diferentes lugares del eje x, tendrá formas
diferentes; así como lo muestra la Figura 7.10.
Figura 7.10: Curvas normales que tienen medias diferentes y desviaciones estándar diferentes
La distribución normal estándar
En particular, decimos que la variable aleatoria X tiene una distribución normal estàndar
si tiene una distribución normal con parámetros E(X) = µ = 0 y Var(X) = σ2 = 1. En este
caso la función de densidad se reduce a la siguiente expresión
x2
1
f (x) = √ e− 2
2π
Para facilitar los cálculos se decidió tabular las diferentes probabilidades para variable
aleatoria que sigue una distribución normal. Pero, puesto que sería imposible tener una tabla
para cada posible distribución normal, se elaboró solamente una, la tabla de la distribución
normal estándar.
De esta manera solo se tiene que transformar o estandarizar una distribución normal específica, se revisa la tabla, y se conoce la probabilidad. Para la estandarización se debe realizar la siguiente operación.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
114
Proposición 7.2.2 Sea X una variable aleatoria con distribución normal con parámetros µ
y σ2 . Entonces la siguiente variable aleatoria tiene una distribución normal estándar
Z=
X −µ
σ
(7.2.3)
Demostración
Para probar que Z sigue una distribución normal estandar debemos mostrar que E(Z) = 0
y Var(Z) = 1. Recordemos además que si X ∼ N(µ, σ2 ) entonces E(X) = µ y Var(X) = σ2 .
Para realizar la demostración de esta proposición recordemos además las propiedades de la
esperanza y la varianza de una v.a. Por lo tanto
³X − µ´ 1
1
1
E(Z) = E
= E(X − µ) = [E(X) − µ] = [µ − µ] = 0
σ
σ
σ
σ
³x − µ´
1
1
1
Var(Z) = Var
= 2 Var(X − µ) = 2 Var(X) = 2 σ2 = 1
σ
σ
σ
σ
A la operación anterior se le conoce con el nombre de estandarización, y bajo tal transformación se dice que la variable X ha sido estandarizada. Es común usar la letra Z para denotar
una variable aleatoria con distribución normal estándar, y seguiremos nosotros también esa
costumbre.
La proposición anterior parece muy modesta pero tiene una gran importancia operacional pues establece que el cálculo de las probabilidades de una variable aleatoria normal
cualquiera se reduce al cálculo de las probabilidades para la normal estándar. Explicaremos
esta situación con más detalles. Suponga que X es una variable aleatoria con distribución
N(µ, σ2 ), y que deseamos calcular, por ejemplo, P(a < X < b), para a < b números dados.
Tenemos entonces que
³a − µ X − µ b − µ´
P(a < X < b) = P(a − µ < X − µ < b − µ) = P
<
<
σ
σ
σ
por lotanto
b − µ´
σ
σ
La igualdad de estas probabilidades es consecuencia de la igualdad de los eventos. De
esta forma una probabilidad que involucra a la variable X se ha reducido a una probabilidad
que involucra a una variable Z.
P(a < X < b) = P
³a − µ
<Z<
Áreas bajo la curva normal
Una característica que tiene cualquier distribución normal es que el área bajo la curva,
que representa la probabilidad de que la variable aleatoria tome ciertos valores X ≤ x, se
distribuye siempre en la misma proporción.
En la tabla de la distribución normal estándar, están registradas las áreas bajo la curva
normal que se encuentran a la derecha de los valores Z positivos, de esta forma solo se
necesita transformar la distribución normal de interés en una distribución normal estándar
mediante la fórmula, y el área a la derecha del valor z será el mismo que el área a la derecha
de x, esto es P(X ≤ x) = P(Z ≤ z).
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
115
Ejemplo 7.2.2 Los coeficientes intelectuales de 600 aspirantes de cierta universidad se distribuyen aproximadamente de forma normal con una media de 115 y una desviación estándar
de 12. Si se selecciona un aspirante al azar, encuentre la probabilidad de que:
a) tenga un coeficiente mayor de 120
b) tenga un coeficiente menor de 100
c) tenga un coeficiente menor de 122
d) tenga un coeficiente entre 115 y 125
e) tenga un coeficiente entre 90 y 105
Desarrollo
Según las condiciones del problema la v.a. X representa el coeficiente intelectual del
estudiante elegido y además X ∼ N(115, 144).
Para calcular las probabilidades de los distintos itens debemos transformar esta distribución normal en una distribución normal estándar (con media cero y desviación estándar 1),
x − 115
para lo cual hay que cambiar el valor de x por un valor z con la fórmula z =
. Entonces
12
la probabilidad de que:
³
120 − 115 ´
= P(Z > 0, 41)
12
La distribución ya transformada se observa en el siguiente gráfico:
a) tenga un coeficiente mayor de 120 es: P(X > 120) = P Z >
Se busca el valor del área para 0 ≤ Z ≤ 0, 41 en la tabla de áreas bajo la curva normal
estandar; que corresponde al valor 0,1591. Como el área a la derecha del valor z = 0, 41
es el que corresponde a la probabilidad pedida, entonces la probabilidad de que un
aspirante a la universidad tenga un coeficiente intelectual mayor de 120 es:
P(X > 120) = P(Z > 0, 41) = 0, 5 − 0, 1591 = 0, 3409
b) tenga un coeficiente menor de 100 es:
³
100 − 115 ´
= P(Z < −1, 25)
P(X < 100) = Z <
12
La distribución ya transformada queda así:
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
116
En la tabla de áreas bajo la curva normal estandar no se tabularon valores z negativos,
pero como la curva normal es simétrica, el área entre cero y el valor z = −1, 25 símbolizado por A(−1, 25); es del mismo tamaño que el área entre cero y el valor z = 1, 25
dada por A(1, 25), por lo que solo se necesita buscar en la tabla el área correspondiente
al valor positivo de z. Como el área que se busca esta a la izquierda de z = −1, 25, se
tiene que:
P(X < 100) = P(Z < −1, 25) = 0, 5 − A(1, 25) = 0, 5 − 0, 3944 = 0, 1056
c) tenga un coeficiente menor de 122 es:
³
122 − 115 ´
P(X < 122) = Z <
= P(Z < 0, 58)
12
La distribución ya transformada queda así:
Se busca el valor del área para 0 ≤ Z ≤ 0, 58 en la tabla de áreas bajo la curva normal
estandar, que es el valor 0,2190. Y como el área a la izquierda del valor z = 0, 58 es el
área que buscamos, entonces el resultado a buscar es:
P(X < 122) = P(Z < 0, 58) = 0, 5 + 0, 2190 = 0, 7190
d) tenga un coeficiente entre de 115 y 125 es:
P(115 < X < 125) =
³ 115 − 115
12
<Z<
125 − 115 ´
= P(0 < Z < 0, 83)
12
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
117
Se busca el valor del área para 0 ≤ Z ≤ 0, 83 en la tabla de áreas bajo la curva normal
estandar, que es el valor 0,2967. Y como el área a buscar es el área entre z = 0 y z = 0, 83,
entonces el resultado a buscar es:
P(115 < X < 125) = P(0 < Z < 0, 83) = 0, 2967
e) tenga un coeficiente entre de 90 y 105 es:
³ 90 − 115
105 − 115 ´
<Z<
= P(−2, 08 < Z < −0, 83)
P(90 < X < 105) =
12
12
Se busca el valor del área para −2, 08 ≤ Z ≤ −0, 83 en la tabla de áreas bajo la curva
normal estandar, que es el valor 0,2967. Y como el área a buscar es el área entre z = 0 y
z = 0, 83, entonces el resultado a buscar es:
P(115 < X < 125) = P(0 < Z < 0, 83) = 0, 2967
7.2.3.
Aproximación normal a la binomial.
Cuando las muestras son pequeñas, en una distribución binomial se obtienen fácilmente
probabilidades asociadas a un evento mediante la fórmula de la binomial. Cuando las muestras son grandes, el cálculo nos llevaría bastante tiempo. La distribución normal es a menudo
una buena aproximación a una distribución binomial cuando np y nq son más grandes que 5.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
118
Ejemplo 7.2.3 La probabilidad de que un paciente se recupere de una rara enfermedad de la
sangre es 0,4. Si se sabe que 100 personas contrajeron esa enfermedad,
a) ¿Cuál es la probabilidad de que menos de 30 sobrevivan?
b) ¿Cuál es la probabilidad de que exactamente 35 sobrevivan?
c) ¿Cuál es la probabilidad de que a lo más 30 sobrevivan?
Desarrollo
El primer paso es verificar si el experimento cumple con los requisitos de una distribución binomial, y si es el caso calcular la media y la desviación estándar de la distribución.
Como cada paciente puede recuperarse o no de la enfermedad y además esta situación se da
de manera independiente entre dichos pacientes, entonces este experimento cumple con las
condiciones de la distribución binomial.
Si X es la variable aleatoria que denota el número de pacientes que sobreviven a la enfermedad (se recuperan), entonces X ∼ bin(n = 100; P = 0, 4). Entonces la media y la varianza
de X estan dadas por:
E(X) = µ p = np = (100)(0, 4) = 40
p
p
p
√
Var(X) = σ p = np(1 − p) = (100)(0, 4)(0, 6) = 24 = 4, 899
a) P(X < 30)
Para resolver el problema con la fórmula de la distribución binomial se tendría que
calcular 30 binomiales, desde la binomial de cero hasta la binomial de 29. Mediante el
uso de la aproximación normal a la binomial el procedimiento es mucho más corto.
El primer paso es aplicar al valor de x el factor de corrección de continuidad, que es
simplemente sumar o restar 0, 5 al valor de x, dependiendo del problema. En este caso
queremos la probabilidad de que x valga menos de 30, no incluye al 30, entonces se le
resta 0, 5. En seguida se aplica la fórmula de Z, utilizando el valor de x = 29, 5, y en
seguida buscar el área en la tabla normal:
³
29, 5 − 40 ´
= P(Z < −2, 14)
P(X < 30) = P Z <
4, 899
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
119
Recordemos que en la tabla de áreas bajo la curva normal no se tabulan valores negativos de z y que la distribución normal es simétrica; estos A(z) = A(−z). Se busca el
valor del área para 0 ≤ Z ≤ 2, 14 en la dicha tabla, que corresponde al valor 0,48382.
Y como el área a la izquierda del valor z = −2, 14 es el área que buscamos, entonces el
resultado a buscar es:
P(X < 30) = P(Z < −2, 14) = 0, 5 − 0, 48382 = 0, 01618
b) P(X = 35)
En este caso se pide una probabilidad cuando la variable aleatoria X toma un valor
exacto. En una distribución continua la probabilidad de que la variable aleatoria sea
exactamente un determinado valor no se puede calcular y se estima que es cero, mientras que en una distribución discreta aproximada a una distribución normal (continua)
la probabilidad de X sea igual a un valor puntual se calcula sumando y restando el factor de corrección de continuidad a dicho valor puntual y estimar el área entre ambos
puntos.
Por lo tanto
³ 34, 5 − 40
35, 5 − 40 ´
P(X = 35) = P
≤Z≤
= P(−1,12 ≤ Z ≤ −0, 92)
4, 899
4, 899
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
120
Se buscan en tabla, los valores de las áreas para 0 ≤ z ≤ 0, 92 y 0 ≤ z ≤ 1, 12. Se
encuentra que A(−1, 12) = A(1, 12) = 0, 3686 y A(−0, 92) = A(0, 92) = 0, 3212. Como
el área buscada se encuentra entre z = −1, 12 y z = −0, 92 que es exactamente igual al
área comprendida entre z = 0, 92 y z = 1, 12 por la simetría de la distribución normal;
entonces:
P(X = 35) = P(−1, 12 ≤ Z ≤ −0, 92) = A(1, 12)−A(0, 92) = 0, 3686−0, 3212 = 0, 0474
Oservación: En este caso, como se pide la probabilidad cuando X es exáctamente igual
a 35, lo podemos resolver con la fórmula de la binomial, y el resultado que produce es
poco diferente: 0,04913.
c) P(X ≤ 30)
Aquí se pide la probabilidad de que X tome valores desde 0 hasta 30 inclusive, como el
30 está incluido el factor de corrección de continuidad se suma. Entonces
³
30, 5 − 40 ´
P(x ≤ 30) = P Z ≤
= P(Z ≤ −1, 94)
4, 899
Como A(−1, 94) = A(1, 94); se busca el valor del área para 0 ≤ Z ≤ 1, 94 en la tabla,
que corresponde al valor 0,4738. Y como el área a la izquierda del valor z = −1, 94 es
el área que buscamos, entonces el resultado a buscar es:
P(X ≤ 30) = P(Z < −1, 94) = 0, 5 − 0, 4738 = 0, 0262
7.2.4.
Distribución ji-cuadrada
Si X1 , X2 , . . . , Xk son variables aleatorias normales e independientes. La suma de X12 , X22 , . . . , Xk2
se dice que es una variable aleatoria ji-cuadrada (χ2 ) con k > 0 grados de libertad, es decir
χ2k = X12 + X22 + · · · + Xk2
Hay un número infinito de distribuciones ji-cuadrada, una correspondiente a cada entero
positivo k.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
121
Definición 7.2.3 Decimos que la variable aleatoria continua X tiene una distribución jicuadrada con k grados de libertad (k entero positivo), si su función de densidad está dada por
la siguiente expresión:

k
1
−1 − x

 √2k Γ( k ) x 2 e 2 si 0 < x < ∞
2
f (x) =


0
si x ≤ 0
Figura 7.11: Gráfica de f (x) cuando el parámetro k toma los valores 1,2,3,4 y 5
Por la definición anterior; ji-cuadrada es una variable aleatoria continua con posibles
valores en el intervalo (0, ∞). Esta distribución tiene un solo parámetro denotado aqui por
la letra k, y al cual se le llama grados de libertad. También al parámetro de ji-cuadrado se
denota por la letra griega ν. A pesar de la aparente expresión complicada de f (x), no es difícil
comprobar que es efectivamente una función de densidad de probabilidad. La gráfica de esta
función para varios valores del parámetro k aparece en la Figura 7.9.
Escribiremos simplemente X ∼ χ2 (k), en donde la letra griega χ se pronuncia “ji” o
también “chi”. Puede demostrarse que E(X) = k y Var(X) = 2k. La distribución ji-cuadrada
puede obtenerse como indican los siguientes resultados que dejaremos sin demostrar.
Proposición 7.2.3 Si X es una v. a. que sigue una distribución normal tipificada (X ∼
N(0, 1)), entonces la v.a. X 2 sigue una distribución ji-cuadrada con un grado de libertad
(X 2 ∼ χ2 (1)).
Es decir, el cuadrado de una variable aleatoria con distribución normal estándar tiene
distribución ji-cuadrada con un grado de libertad. Por otro lado, el siguiente resultado establece que la suma de dos variables aleatorias independientes con distribución ji-cuadrada
tiene distribución nuevamente ji-cuadrada con grado de libertad igual a la suma de los grados
de libertad de los sumandos.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
122
Proposición 7.2.4 Si X ∼ χ2 (n) y Y ∼ χ2 (m) son dos variables aleatorias independientes,
entonces X +Y tiene distribución χ2 (n + m).
En general si las v.a. X1 , X2 , . . . , Xn son independientes y si Xi ; ∀i = 1, 2, . . . , n tiene una
distribución χ2 con n j grados de libertad para j = 1, 2, . . . , k entonces la suma X1 + X2 + · · · +
Xn tiene una distribución χ2 con n1 + n2 + · · · + nk grados de libertad.
Proposición 7.2.5 Sean X1 , X2 , . . . , Xn una muestra aleatoria de una distribución normal
n ³
Xi − µ ´2
con media µ y varianza σ2 . La distribución de la v.a. Y = ∑
es del tipo ji-cuadrado
σ
i=1
con n grados de libertad.
Características de la distribución ji-cuadrada
La distribución ji-cuadrada es un caso particular de la distribución gamma.
Las distribuciones ji-cuadradas son positivamente asimétricas.
Está distribución esta estrechamente ligada con muestras aleatorias de una distribución
normal.
En la práctica, las probabilidades ji-cuadradas, cuando k ≥ 30, pueden calcularse empleando aproximaciones normales en la forma usual.
La distribución ji-cuadrado tiene muchas aplicaciones en inferencia estadística, por
ejemplo en el test ji-cuadrado que consiste en una prueba de independencia y bondad
de ajuste, además en la estimación de varianzas.
También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión
lineal, a través de su papel en la distribución t de Student que veremos más adelante,
y participa en todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias de
distribución ji-cuadrada e independientes.
7.2.5.
Distribución t de Student
Esta distribución fue desarrollada por William Sealy Gossett, que trabajaba en el departamento de fermentación de la cervecería Guinness en Irlanda. Las circunstancias en las que
se llevan a cabo los procesos de fermentación en la producción de cerveza demostraron a
Gosset las limitaciones de la teoría de muestras grandes y le enfatizaron la necesidad de un
método correcto para el tratamiento de muestras pequeñas. Estas circunstancias de su trabajo
dirigieron a Gosset al descubrimiento de la distribución t, quién publicó sus estudios sobre
esta distribución en 1908 con el seudónimo “Student”.
Gossett se interesó en el comportamiento del valor de una v.a. Y ∼ N(0, 1) cuando se
utilizaba S en vez de σ, y particularmente en la discrepancia entre S y σ cuando S se calcula
de muestras muy pequeñas.
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
123
La distribución t está renacionada con muestras aleatorias de una distribución normal.
Esta distribución, así como la χ2 , han sido ampliamente aplicadas en problemas importantes
de inferencia estadística. La distribución t es conocida también como distribución de Student
en honor de W.S. Gosset. La distribución t se define como sigue:
Considerense dos variables aleatorias independientes Y y W , tales que Y tenga una distribución normal tipificada y W tenga una distribución χ2 con n grados de libertad. Sea X la
variable aleatoria definida como:
Y
X=r
W
n
entonces, la distribución de X se denomina la distribución t con n grados de libertad.
Definición 7.2.4 Decimos que la variable aleatoria continua X tiene una distribución t con
n grados de libertad si su función de densidad está dada por:
³
´
³
Γ n+1
2
x2 ´− n+1
2
1
+
f (x) = √
para − ∞ < x < ∞
n
n
nπ Γ( 2 )
en tal caso se escribe X ∼ t(n)
Es posible demostrar que E(X) = 0, y Var(X) =
n
para n > 2.
(n − 2)
Relación con muestras de una distribución normal
Supongamos que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria
de una distribución normal con media µ y varianza σ2 . Como es usual, se define a la media
1 n
1 n
2
muestral como X = ∑ Xi y a la varianza muestral como S = ∑ (Xi − X)2 .
n i=1
n i=1
Si se definen las variables aleatorias Y y W mediante las relaciones
n
√
(X − µ) n
Y=
y W=
σ
∑ (Xi − X)2
i=1
σ2
=
nS2
σ2
Vemos que Y ∼ N(0, 1) y W ∼ χ2 (n − 1). Además se sabe que si X y S2 son variables
aleatorias que resultan de muestras aleatorias normales entonces son independientes. Por lo
Y
que la v.a. T definida por la relación T = q
tiene distribución t con n − 1 grados de
W
n−1
libertad. Entonces
√
√
(X − µ) n
(X − µ) n
√
(X
−
µ)
n−1
√σ
T= sσ
=
=
2
nS
S
nS
√
σ2
n − 1σ
n−1
Un aspecto importamte es que ni el valor de T ni la distribución de T dependen del valor
de la varianza σ2 . Por lo tanto podemos utilizar la distribución t en situaciones de muestreo
sobre poblaciones normales que cumplan con las siguientes caracteristicas:
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
124
las muestras extraidas son pequeñas (n < 30) y
la varinza σ2 es desconocida.
Figura 7.12: Distribución t versus distribución normal
Las características de la distribución t
1. Es una distribución continua.
2. Tiene forma de campana y es simétrica.
3. Es una familia de curvas.
4. Todas tienen la misma media de cero, pero sus desviaciones estándar difieren de acuerdo al tamaño de la muestra.
5. La distribución t es más baja y dispersa que la distribución normal. Cuando el tamaño
de la muestra se incrementa, la distribución t se aproxima a la normal.
En resumen la distribución t se puede encontrar en los siguientes contextos:
Proposición 7.2.6 Si las variables aleatorias Y ∼ N(0, 1) y W ∼ χ2 (n) son independientes,
entonces la v.a.
Y
X = q ∼ t(n)
W
n
Proposición 7.2.7 Sean X1 , X2 , . . . , Xn variables aleatorias independientes cada una de ellas
con distribución N(µ, σ2 ). Entonces la v.a.
√
(X − µ) n − 1
∼ t(n − 1)
T=
S
1 n
1 n
2
donde X = ∑ Xi y S = ∑ (Xi − X)2 .
n i=1
n i=1
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
7.2.6.
125
Distribución exponencial
El modelo de probabilidad de la exponencial tiene su origen en el proceso de Poisson.
Una probabilidad de Poisson se relaciona con la probabilidad de ocurrencia de un número
específico de éxitos en intervalos de tiempos finitos, donde el número de éxitos es la variable
aleatoria.
Invirtiendo los papeles de una variable aleatoria de Poisson se tiene lo que se llama un
modelo exponencial. Una variable aleatoria exponencial X es el intervalo de tiempo, o espacio requerido para obtener un número especifico de éxitos.
La distribución exponencial se utiliza a menudo en problemas prácticos para representar
la distribución del tiempo que transcurre antes de la ocurrencia de un suceso.
La distribución exponencial se usa para modelar intervalos de tiempos entre sucesos. Es
muy usada para simular el tiempo entre llegadas cuando las llegadas son completamente
aleatorias y para modelar tiempo de servicio, en los sistemas de colas.
Definición 7.2.5 Decimos que una variable aleatoria continua X tiene una distribución
exponencial con parámetro λ > 0, y escribimos X ∼ exp(λ), cuando su función de densidad
de probabilidad es

 λe−λx si x > 0
f (x) =

0
si x ≤ 0
La gráfica de esta función cuando el parámetro λ toma los valores particulares 0,5; 1,0 y
1,5 se muestra en la Figura 7.11.
La correspondiente función de distribución de esta v.a. está dada por

0
si x ≤ 0

F(x) = P(X ≤ x) =

1 − e−λx si x > 0
La gráfica de esta función cuando el parámetro λ toma los valores particulares 0,5; 1,0 y
1,5 se muestra en la Figura 7.12.
Proposición 7.2.8 Sea X la v.a. continua con distribución exponencial, entonces X tiene las
siguientes características
a) E(X) =
1
λ
b) Var(X) =
c) MX (t) =
1
λ2
λ
λ−t
Demostración
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
Figura 7.13: Gráfica de f (x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5
Figura 7.14: Gráfica de F(x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5
126
7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
127
Por definición de esperanza se tiene que
Z ∞
Z ∞
1 ´¯¯∞ 1
E(X) =
x f (x)dx = λ
xe dx = −e
x+ ¯ =
λ 0
λ
−∞
0
Z ∞
Z ∞
³
2x 2 ´¯¯∞
2
2
2
2 −λx
−λx 2
E(X ) =
x f (x)dx = λ
x e dx = −e
x + + 2 ¯ = 2
λ λ 0
λ
−∞
0
Entonces la varianza está dada por
Var(X) =
−λx
−λx
³
2 ³ 1 ´2
1
−
= 2
2
λ
λ
λ
Finalmente por definición de función generadora de momentos se tiene que
MX (t) =
Z ∞
−∞
xt
e f (x)dx = λ
Z ∞
0
xt −λx
e e
dx = λ
Z ∞
0
e−(λ−t)x dx =
λ
λe−(λ−t)x ¯¯∞
¯ =
−(λ − t) 0
λ−t
Ejemplo 7.2.4 Suponga que el tiempo en minutos que un usuario cualquiera permanece re1
visando su correo electrónico sigue una distribución exponencial de parámetro λ = . Calcule
5
la probabilidad de que un usuario cualquiera permanezca conectado al servidor de correo
a) menos de un minuto
b) más de un ahora
c) Calcula la esperanza, varianza y la función generadora de momentos
Solución
a) Para este primer inciso tenemos que
P(X < 1) =
Z 1
¯
1 ¯1
1
1 −1x
1
e 5 dx = − 5e− 5 x ¯ = 1 − e− 5 = 0, 1813
0
5
5
0
b) Siguiendo el mismo razonamiento del inciso anterior y teniendo en cuenta que una
hora equivale a 60 minutos se tiene que
Z ∞
1 − 1 x ¯¯∞
1 −1x
5
e dx = − 5e 5 ¯ = e−12 = 6, 14 · 10−6
P(X > 60) =
5
60
60 5
c) Tomando en cuenta la proposición 7.2.3
1
E(X) 1 = 5
5
Var(X) =
1
= 25
( 51 )2
MX (t) =
1
5
1
5
−t
=
1
1 − 5t
7.3. PROBLEMAS
7.3.
128
Problemas
Distribución binomial
1. Sea X una variable aleatoria con distribución bin(n, p) tal que E(X) = 4 y Var(X) = 2.
¿Cuáles son los valores de n y p?
2. Sea X una variable aleatoria con distribución bin(n, p). Demuestre que la variable Y =
n − X tiene distribución bin(n, 1 − p). Proporcione una explicación probabilísta de este
resultado.
3. Sea X con distribución bin(n, p). Demuestre que para x = 0, 1, . . . , n − 1, se cumple la
siguiente fórmula. Esta expresión permite calcular las probabilidades de esta distribución de una forma iterativa.
P(X = x + 1) =
p(n − x)
P(X = x)
(1 − p)(x + 1)
4. Se lanza una moneda equilibrada 6 veces. Calcule la probabilidad de que cada cara
caiga exactamente 3 veces.
5. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de que ambas caras
caigan el mismo número de veces.
6. Sea X una variable aleatoria con distribución bin(n, p). Demuestre que
0 ≤ Var(X) ≤ E(X)
7. Suponiendo que es igualmente probable que nazca un hombre (H) o una mujer (M), y
considerando la observación de 6 nacimientos. ¿Cuál de los siguientes eventos es más
probable que ocurra?
a) MHHMHM
b) MMMMHM
c) HMHMHM
8. La probabilidad de que un paciente se recupere de una extraña enfermedad es 0, 4. Si
se sabe que 15 personas contraen esa enfermedad,
a) Haga un histograma donde represente la distribución binomial para este caso.
b) ¿Cuál es la probabilidad de que sobrevivan al menos 10?
c) ¿Cuál es la probabilidad de que sobrevivan de 3 a 8?
d) Calcule la media y la varianza de esta distribución binomial.
9. En la ciudad la necesidad de dinero para comprar drogas se establece como la razón del
75 % de los robos. Encuentre la probabilidad de que entre los siguientes cinco casos de
robo:
a) dos resulten de la necesidad de dinero para comprar drogas
7.3. PROBLEMAS
129
b) al menos tres resulten de la necesidad de dinero para comprar drogas
c) Represente esta distribución binomial en un histograma
d) Calcule la media y la varianza de esta distribución binomial
10. Un prominente médico afirma que 70 % de las personas con cáncer de pulmón son
fumadores empedernidos. Si su aseveración es correcta:
a) encuentre la probabilidad de que de 10 de tales pacientes menos de la mitad sean
fumadores empedernidos
b) encuentre la probabilidad de que de 10 de los pacientes con cáncer de pulmón
ninguno sea fumador empedernido
c) Represente esta distribución binomial en un histograma
d) Calcule la media y la varianza de esta distribución binomial
11. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de
Massachussets aproximadamente el 60 % de los consumidores de Valium en el estado
de Massachussets tomaron Valium por primera vez debido a problemas psicológicos.
Encuentre la probabilidad de que entre los siguientes ocho consumidores entrevistados
en este estado:
a) tres comenzaron a tomar Valium por problemas psicológicos.
b) al menos cinco comenzaron a consumir Valium por problemas que no fueron
psicológicos
c) Represente esta distribución binomial en un histograma
d) Calcule la media y la varianza de esta distribución binomial
12. De acuerdo a una encuesta a nivel nacional en Estados Unidos de la universidad de
Michigan a estudiantes universitarios de último año revela que el 70 % de los estudiantes desaprueba el consumo diario de la mariguana. Si se seleccionan doce estudiantes
al azar y se les pide su opinión, encuentre la probabilidad de que el número de los que
desaprueban fumar mariguana todos los días sea:
a) entre siete y nueve
b) a lo más cinco
c) no memos de ocho
d) Represente esta distribución binomial en un histograma
e) Calcule la media y la varianza de esta distribución binomial.
13. Un estudio examinó las actitudes hacia los antidepresivos. El estudio reveló que aproximadamente el 70 % cree que “los antidepresivos en realidad no curan nada, sólo encubren el problema real”. De acuerdo con este estudio
a) ¿cuál es la probabilidad de que al menos tres de las siguientes cinco personas
seleccionadas al azar sean de esta opinión?
b) Represente esta distribución binomial en un histograma
7.3. PROBLEMAS
130
c) Calcule la media y la varianza de esta distribución binomial.
14. El departamento de mercadotecnia de Kellogg Company planea realizar una investigación para determinar si los consumidores de cereal en hojuelas pueden distinguir su
cereal favorito de otros. Para probar el cuestionario y el procedimiento a ser usado se
invitó a ocho personas a participar en un experimento. Se les colocó frente a cinco
pequeños tazones de cereal en hojuelas marcados con las letras A, B,C, D, y E para
que identificaran su cereal favorito. A las personas se les informó que solo uno de los
tazones contenía su cereal favorito.
a) Si una persona no pudo identificar su cereal favorito y supuso que estaba en el
tazón C. ¿Cuál es la probabilidad de que la persona haya adivinado correctamente?
b) ¿Cuál es la variable aleatoria en este problema?
c) ¿Es la variable aleatoria discreta o continua? ¿Por qué?
d) Suponga que a las ocho personas les fue imposible identificar su cereal favorito y
trataron de adivinar en cual tazón estaba. ¿Cuál es la probabilidad de que ninguno
de los ocho haya adivinado correctamente?
e) Desarrolle una distribución binomial para este experimento
f) Calcule la media, varianza, y desviación estándar de la distribución.
g) Represente la distribución de probabilidad en una gráfica.
h) Suponga que siete de las ocho personas identifican el cereal que más les gusta.
¿Es razonable decir que ellos adivinaron? Explique. ¿Cuál es tu conclusión?
i) ¿Por qué es la distribución binomial apropiada para este problema?
15. Al determinar la concentración letal de una sustancia presente en agua contaminada,
se encuentra que una cierta concentración mata el 20 % de los peces que se exponen a
ella durante 24 horas. Se colocan 20 peces en un tanque con esta concentración de la
sustancia. Calcular la probabilidad de que a las 24 hs.
a) sobrevivan exactamente 14
b) sobrevivan por lo menos 10
c) sobrevivan cuando mucho 16
d) sobrevivan entre 5 y 10
16. Harley Davidson, director de control de calidad de la compañía de automóviles Kyoto
Motor, se encuentra realizando su revisión mensual de trasmisiones automáticas . En
el procedimiento, se retiran 10 trasmisiones de la pila de componentes y se les revisa
en busca de defectos de fabricación. A lo largo del tiempo solo, el 2 % de las trasmisiones tienen defectos de fabricación (suponga que los defectos se presentan de manera
independiente en diferentes trasmisiones).
a) ¿ Cual es la probabilidad de que la muestra de Harlley contenga mas de dos
trasmisiones con defectos de fabrica?
7.3. PROBLEMAS
131
b) ¿ Cual es la probabilidad de que ninguna de las trasmisiones elegidas tengan
defectos de fabrica?
17. Harry Ohme esta a cargo de la sección de electrónica de una gran tienda departamental.
Se has dado cuenta de que la probabilidad de que un cliente que solamente se encuentra curioseando compre algo es de 0,3. Suponga que 15 clientes visitan la sección de
electrónica cada hora.
a) ¿Cual es la probabilidad de que almenos una de las personas que curiosea compré
algo durante una hora dada?
b) ¿Cual es la probabilidad de que almenos cuatro personas que curiosean compre
algo durante una hora dada?
c) ¿Cual es la probabilidad de que ninguna de las personas que curiosean compre
algo durante una hora dada?
d) ¿Cual es la probabilidad de que no mas de cuatro personas que curiosean compre
algo durante una hora dada?
18. Un aparato de radio que no funciona se agrupa accidentalmente con 5 radios que funcionan. ¿Cual es la probabilidad de que se escoja un conjunto de tres radios, el aparato
que no funciona este entre los tres escogidos?
19. Una abogada especializada en litigios por drogas estima que gana el 70 % de sus casos
que van a la corte. Acaba de leer “Drogas: Un caso para legalización” en el número
del 3 de octubre de 1989 y quiere usar parte de los argumentos del artículo en su
próximo juicio. Considere su probabilidad de éxito estimado, si actualmente representa
a 5 acusados en distintos casos.¿ Cuál es la probabilidad de qué:
a) gane por lo menos tres casos?
b) por lo menos un caso?
20. En el pasado, Phin Anderson ha cometido errores en el 5 % de las declaraciones de impuestos que prepara.¿ Cual es la probabilidad de que no cometa errores en las primeras
7 declaraciones que prepara para esta año fiscal?
21. Un jefe de proyectos ha comprobado que un subcontratista falla en entregar a tiempo las ordenes corrientes, en aproximadamente el 20 % de las ocasiones. El jefe de
proyectos tiene 6 ordenes que este subcontratista se comprometió a entregar. Calcule
la probabilidad de que:
a) el subcontratista entregue todas las ordenes
b) el subcontratista entregue almenos cuatro ordenes
c) el subcontratista entregue exactamente 5 ordenes
22. Un complejo sistema electrónico esta construido con cierto número de componentes de
apoyo en sus subsistema. Un subsistema contiene cuatro componentes idénticos, cada
uno con una probabilidad de 0,2 de fallar en menos de 1000 hs. El subsistema funciona
si dos componentes cualesquiera de los cuatro trabajan en forma adecuada. Se suponen
que los componentes operan independientemente.
7.3. PROBLEMAS
132
a) Encuentre la probabilidad de que exactamente dos de cuatro componentes resistan
mas de 1000hs.
b) Encuentre la probabilidad de que el subsistema funcione por mas de 1000hs.
23. Sobre una mesa se derraman 20 monedas. Calcular la probabilidad de caigan:
a) por lo menos 5 caras
b) más de 15 caras
c) entre 12 y 17 caras
d) a lo sumo tres caras
e) como mínimo dos caras
f) cuando mucho cuatro caras
24. Un examen de opción múltiple esta compuesto de 15 preguntas, con cinco respuestas
posibles cada una, de las cuales solamente una es la correcta. Supóngase que uno de
los estudiantes que realiza el examen contesta las preguntas al azar.¿ Cual es la probabilidad de que conteste al menos 10 preguntas correctamente?
25. Un sistema para detectar incendios utiliza tres celdas sensibles a la temperatura que
actúan independientemente, talque una o más pueden activar la alarma. Cada celda
tiene una probabilidad p = 0, 8 de activar la alarma al alcanzar la temperatura de 100
grados Celsius o más. Sea Y el numero de celdas que activan la alarma cuando la
temperatura alcanza 100 grados. Encuentre la probabilidad de que la alarma funcione
cuando la temperatura alcanza los 100 grados.
26. Suponga que un lote de producción de 40000 hornos de microondas incluye 32000 sin
ningún defecto, que no requieren en absoluto ningún ajuste. Sin embargo el departamento de control de calidad, sin conocer el dato referente al lote de producción, toma
una muestra aleatoria de 10 hornos para calcular la calidad global.
a) ¿Cuál es la probabilidad de que la muestra sea dividida equitativamente es decir
5 hornos defectuosos y 5 no defectuosos?
b) ¿Cuál es la probabilidad de que se encuentre a lo sumo 3 defectuosos?
c) ¿Cuál es la probabilidad de que se encuentre por lo menos un horno no defectuoso?
d) ¿Cuál es la probabilidad de que a lo mas 6 sean no defectuosos?
27. A la larga, el 20 % de los gerentes que reciben capacitación obtienen la calificación de
sobresaliente, el 50 % la de aceptable y el 30 % la de insatisfactorio. En una muestra de
20 gerentes seleccionados al azar, encuentre las siguientes probabilidades:
a) exactamente 4 gerentes son calificados con sobresaliente
b) al menos 4 gerentes son calificados con sobresaliente
c) exactamente 15 gerentes son calificados con sobresaliente o aceptable
d) al menos 15 gerentes son calificados con sobresaliente o aceptable
7.3. PROBLEMAS
133
28. Una cadena de moteles ha adoptado la política de hacer un descuento del 3 % a los
clientes que paguen en efectivo en vez de hacerlo con tarjeta de crédito. Su experiencia
indica que el 30 % de los clientes aceptan el descuento. Sea Y el número de personas
que aceptan el descuento entre los próximos 20 clientes.
a) Suponiendo que las probabilidades binomiales sean aplicables, encuentre la probabilidad de que exactamente 5 entre los próximos 20 clientes acepten el descuento.
b) Encuentre P(5o menos clientes acepten el descuento)
c) ¿Cuál es el valor esperado y la desviación estándar del número de personas que
aceptarán el descuento?
29. Un fabricante de medicamentos afirma que solo el 10 % que resultan efectivas en las
pruebas con animales pasan el resto de las que se le exige para su comercialización.
Actualmente, el fabricante tiene 8 nuevos medicamentos de probada efectividad en
experimentos con animales y que esperan pasar en las siguientes pruebas.
a) Encuentre la probabilidad de que ninguno de los 8 medicamentos sea comercializado.
b) Encuentre la probabilidad de que al menos 2 de ellos sean comercializados.
c) Encuentre el número esperado de medicamentos comercializados entre los 8 nuevos
medicamentos
30. Una compañía pequeña utiliza un servicio de paquetería para enviar los pedidos de
quesos especiales que son para obsequios. La compañía ha encontrado que el 90 %
de los paquetes se entregan a tiempo. Se envía un embarque de 20 paquetes. Sea Y =
número de paquetes embarcados a tiempo. Suponiendo que las hipótesis binomiales se
cumplen calcular:
a) la probabilidad de que de al menos un paquete se entregue a tiempo
b) la probabilidad de que a lo sumo 6 paquetes no se entreguen a tiempo
c) la probabilidad de que por lo menos 7 paquetes se entreguen a tiempo
d) el valor esperado y la varianza del numero de paquetes embarcados a tiempo
31. La revista Statistical Adstrac (U.S) informa que la mediana del ingreso familiar en
Estados Unidos durante 1985 fue 27755 dólares. En cuatro familias seleccionadas al
azar, calcular la probabilidad de que:
a) las cuatro tuvieron ingresos mayores que 27755 dólares en 1985
b) una de las cuatro haya tenido ingresos menores 27755 dólares en 1985
32. Entre personas que donan sangre en una clínica, 80 % tienen RH+, es decir el factor
Rhesus en su sangre. Cinco personas donan sangre en al clínica en determinado día.
a) Calcular la probabilidad de que al menos una de las cinco no tenga el factor RH+.
b) Calcular la probabilidad de que cuando mucho 4 de las 5 tenga sangre del tipo
RH+.
7.3. PROBLEMAS
134
Distribución Geométrica
1. Considere una urna con 3 bolas negras y 5 bolas blancas. Se escoge una bola al azar,
se registra su color, y despu´es se regresa a la urna. ¿Cuántas extracciones en promedio
se necesitan realizar hasta obtener una bola negra por primera vez?
2. Sea X una variable aleatoria con distribución geo(p). Demuestre que para cualesquiera
a, b = 0, 1, 2, . . . se cumple la siguiente propiedad llamada de pérdida de memoria:
P(X ≤ a + b|X ≤ a) = P(X ≤ b).
Distribución Poisson
1. Sea X una variable aleatoria con distribución Poisson(λ). Demuestre que para todo
x = 0, 1, 2, . . . se cumple la siguiente fórmula. Esta expresión permite calcular las probabilidades Poisson de una forma iterativa.
P(X = x + 1) =
λ
P(X = x)
(x + 1)
2. Sea X una variable aleatoria con distribución Poisson(λ). Demuestre que la probabili(1 + e−2λ )
.
dad de que X tome un valor par es
2
3. El número de computadoras que fallan por mes en un laboratorio de cómputo tiene
una distribución Poisson con un promedio mensual de λ = 2 máquinas descompuestas.
El laboratorio tiene capacidad para reparar hasta dos máquinas por mes. Cuando se
descomponen más de dos máquinas, las restantes se envían fuera del laboratorio para
su reparación.
a) ¿Cuál es la probabilidad de que en un mes cualquiera sea necesario enviar máquinas
fuera del laboratorio para su reparación?
b) Responda al inciso anterior cuando se reduce la capacidad de reparación del laboratorio a una computadora por mes.
c) ¿Cuál es el número de computadoras con falla más probable en un mes?
4. Sea Y una variable aleatoria que tiene una distribución de Poisson cuyo promedio es
de 2. Calcular:
a) P(Y = 4)
b) P(Y ≥ 4)
c) P(Y ≤ 4)
5. Si la probabilidad de que un tornillo sea defectuosa es 0,008. ¿ Cuál es la probabilidad
de que en una caja con 100 tornillos contenga uno o más defectuosos?
6. Supongamos que la probabilidad de que una persona reciba una inyección de penicilina
y sufra una reacción desfavorable es de 0,0002. Si 3000 personas reciben aplicaciones
de este medicamento. ¿ Cuál es la probabilidad de que 0,1,2,3,4 o 5 personas reaccionen mal?
7.3. PROBLEMAS
135
7. El número de llamadas telefónicas que entra en una central de edificio de oficinas es
de 4 minutos en promedio.
a) Calcular la probabilidad de que no lleguen llamadas en un determinado periodo
de un minuto.
b) Calcular la probabilidad de que por lo menos lleguen 4 llamadas en un periodo
de un minuto.
c) Calcular la probabilidad de que por lo menos lleguen dos llamadas en un periodo
determinado de dos minutos.
8. Se certifica la calidad de los discos para computadora pasándolos por un certificador
que cuenta el número de pulsos faltantes. Una determinada marca de discos para computadora tiene en promedio 0,1 pulsos faltantes por discos.
a) Calcular la probabilidad de que el siguiente disco que se inspeccione no le falte
pulso.
b) Calcular la probabilidad de que al siguiente disco que se inspeccione le falte mas
de un pulso.
c) Calcular la probabilidad de que a ninguno de dos discos inspeccionados le falten
pulsos.
9. En Estados Unidos se ha establecido el limite máximo nacional de velocidad de 50
millas por hora, desde 1974. Kamerud que ha estudiado los efectos de esta ley, informa
que las frecuencia de accidentes fatales en las carreteras interestatales en 1975, estando
vigente el limite, es aproximadamente 19 · 109 millas-vehículo.
a) Calcular la probabilidad de que se tengan cuando mucho 15 accidentes fatales en
109 millas-vehículo.
b) Calcular la probabilidad de que por lo menos se tengan 20 accidentes fatales en
109 millas-vehículo.
10. En un sistema de computo de tiempo compartido, el número de peticiones de telepuerto
es 0,20 por milisegundo, en promedio y sigue una distribución de Poisson.
a) Calcular la probabilidad de que no lleguen peticiones durante el siguiente milisegundo.
b) Calcular la probabilidad de que no lleguen peticiones durante los siguiente tres
milisegundo.
11. Los grandes almacenes Bon han determinado que la demanda de cierto modelo de
cámara fotográfica tiene una distribución de Poisson con una media de 2 por semana.
La directora del departamento de cámara quiere estudiar la demanda actual para ver si
se justifica ofrecer clases de fotografía. Acaba de leer un articulo sobre el paisaje en el
American Photographer y piensa que ese tipo de clases seria efectivo.
a) Determinar la distribución de probabilidad de la demanda semanal
b) Si la tienda guarda 4 camaras de estas en una semana dada. ¿ Cuál es la probabilidad exceda al inventario?
7.3. PROBLEMAS
136
12. Los autos llegan al lavadero 22 con una tasa promedio de 9 por hora. Si la llegada por
hora sigue una distribución de Poisson, averigüe la probabilidad de que lleguen 15 o
más autos durante una hora dad de operación.
13. Se estima que el número de taxis que esperan recoger un pasajero delante de la terminal
de ómnibus de Asunción tiene una distribución de Poisson con una media de 5,5 taxis.
a) Averigüe la probabilidad de, en una observación aleatoria haya exactamente 6
taxis esperando.
b) Averigüe la probabilidad de, en una observación aleatoria haya mas de 10 taxis
esperando.
c) Averigüe la probabilidad de, en una observación aleatoria no haya taxis esperando.
14. La concertista de piano Donna Prima se preocupa cada vez más por el número de
tosidos que se presentan en la audiencia justo antes que empiece a tocar. Durante su
ultima gira, Donna estimo un promedio de 8 tosidos justo antes de empezar su concierto. La señora prima le ha prometido a su director que si escucha más de 5 tosidos en
el concierto esa noche, se rehusará a tocar. ¿ Cuál es la probabilidad de que la artista
toque esa noche?
15. En promedio cinco pájaros chocan contra el monumento en Washington y mueren por
este motivo cada semana. Bill Garey, un oficial del Servicio del Parque Nacional de Estados Unidos, ha solicitado que el congreso estadounidense asigne fondos para adquirir
equipos que alejen a los pájaros de dicho monumento. Un subcomité del congreso le
ha respondido que pueden asignarle fondos para tal fin a menos que la probabilidad de
que mueran más de tres pájaros cada semana sea mayor que 0,70. ¿ Se destinaran los
fondos para la compra de los equipos que alejen a los pájaros del monumento?
16. El número de nudos en un tipo particular de madera tiene una distribución de Poisson
con una media de 1,5 nudos de 10 pies cúbicos de madera. Encuentre la probabilidad
de que un bloque de esta madera de 10 pies cúbico tenga a lo más un nudo.
17. El 3 % de las calculadoras de bolsillo de un modelo en particular fallan durante el
primer mes de operación. F − Mart acaba de recibir un lote de 100 de estas calculadoras.
a) Averigüe la probabilidad de que ninguna calculadora falle
b) Averigüe la probabilidad de que fallen más de tres calculadoras
c) Averigüe la probabilidad de que menos de 2 calculadoras fallen
18. La Articulate Corporation espera que el 99 % de los saldos de sus cuentas por cobrar
sean correctas. Se seleccionó una muestra aleatoria de 200 cuentas para auditarlas.
a) ¿Cuál es la probabilidad de que ninguna de las cuentas tenga errores ?
b) ¿Cuál es la probabilidad de que 5 de las cuentas tenga errores ?
c) ¿Cuál es la probabilidad de que más de 5 cuentas tenga errores ?
7.3. PROBLEMAS
137
19. En los últimos 20 años, solo el 2 % en promedio de los cheques endosados a la American Herat Association fueron rechazados. Este mes, la asociación recibió 200 cheques.
¿ Cuál es la probabilidad de que:
a) exactamente 10 de ellos sean rechazadas
b) exactamente 5 de ellos sean rechazadas
20. El centro contencioso del condado de Orange, en California maneja varios tipos de
litigios, pero casi todos ellos son del tipo conyugal. De hecho 96 % de los pleitos que
atiende el centro son de esta naturaleza. ¿ Cuál es la probabilidad de que de 80 litigios
atendidos por el centro exactamente 7 no sean del tipo conyugal?
Distribución Uniforme
1. Sea X una variable aleatoria con distribución uniforme en el intervalo (1, 4).
a) Obtener la función de densidad para esta distribución uniforme
b) Calcular la probabilidad de que X este entre 1 y 3
c) Calcular la probabilidad de que X sea mayor que 2
d) Obtener la esperanza y la varianza de esta distribución
2. Se escoge al azar un número del intervalo (0, 2)
a) Obtener la función de densidad para esta distribución uniforme
b) Calcular la probabilidad de que el número elegido este entre 1 y 1,5
c) Calcular la probabilidad de que el número elegido sea mayor que 0,5
d) Obtener la esperanza y la varianza de esta distribución
3. Se escogen al azar dos números del intervalo (0, 3). Sea X la variable aleatoria que
indica la suma de los dos números elegidos. Si X sigue una distribución uniforme
a) Obtener la función de densidad para X
b) Calcular la probabilidad de que X este entre 2 y 4
c) Calcular la probabilidad de que el número elegido sea menor que 4
d) Obtener la esperanza y la varianza de X
Distribución Normal
1. Sea X con distribución N(10, 25). Calcule
a) P(X ≥ 10)
b) P(X < 0)
c) P(0 < X ≤ 10)
d) P(X ≥ 20)
e) P(−20 < X ≤ 10)
2. Sea X con distribución N(0, 100). Calcule
7.3. PROBLEMAS
138
a) P(X ≤ 10)
b) P(X > 0)
c) P(0 < X ≤ 40)
d) P(X ≥ 30)
e) P(−10 < X ≤ 10)
3. Encuentre x tal que
a) F(x) = 0, 8666
b) 1 − F(x) = 0, 9154
4. Un investigador reporta que unos ratones vivirán un promedio de 40 meses cuando sus
dietas se restringen drásticamente y después se enriquecen con vitaminas y proteínas.
Suponga que la vida de tales ratones se distribuye normalmente con una desviación
estándar de 6,3 meses, encuentre la probabilidad de que un ratón viva:
a) Más de 32 meses
b) Menos de 28 meses
c) Entre 37 y 49 meses
d) Entre 45 y 50 meses
e) Entre 40 y 43 meses
f) ¿Cuál es la probabilidad de que de seis ratones 4 vivan más de 30 meses?
5. Las barras de centeno que cierta panadería distribuye a las tiendas locales tienen una
longitud promedio de 30 centímetros y una desviación estándar de 2 centímetros.
Suponga que las longitudes se distribuyen normalmente, ¿qué porcentaje de las barras son
a) Más largas de 31,7 cm?
b) Entre 29,3 cm. y 33,5 cm de longitud?
c) Entre 32 cm y 35 cm?
d) Más cortas de 38 cm?
e) Entre 27,5 cm. y 30 cm?
f) ¿Cuál es la probabilidad de que de 4 barras, tres midan más de 35 cm?
6. Un abogado va todos los días de su casa a su oficina en el centro de la ciudad. El tiempo
promedio del viaje es 24 minutos, con una desviación estándar de 3,8 minutos. Si las
duraciones de los viajes están distribuidas normalmente:
a) ¿Cuál es la probabilidad de que un viaje tome al menos
1
2
hora?
b) Si la oficina abre a las 9:00 a.m. y él sale de su casa diariamente a las 8:45 a.m.,
¿qué porcentaje de las veces llega tarde al trabajo?
c) Si sale de su casa a las 8:35 a.m. y el café se sirve en la oficina de las 8:50 a.m. a
las 9:00 a.m., ¿cuál es la probabilidad de que llegue a la hora del café?
7.3. PROBLEMAS
139
d) Encuentre cual es el tiempo a partir del cual que duran el 15 % de los viajes más
lentos?
e) Encuentre la probabilidad de que dos de los siguientes tres viajes tomen como
máximo 12 hora.
7. Las alturas de 1000 estudiantes se distribuyen normalmente con una media de 174,5
cm y una desviación estándar de 6,9 cm., ¿cuántos de estos estudiantes se esperaría
que tuvieran alturas
a) Menores de 160 cm?
b) Entre 171,5 cm y 182 cm?
c) Mayores a 165 cm?
d) Entre 174,5 cm y 180 cm?
e) Entre 180 cm y 195 cm?
f) Menores de 185 cm?
g) ¿Cuál es la probabilidad de que de cinco estudiantes, al menos 3 midan más de
180 cm?
h) ¿Cuál es la probabilidad de que de 3 estudiantes, ninguno mida menos de 160
cm?
8. Una estación de radio encontró que el tiempo promedio que una persona sintoniza esa
estación es de 15 minutos con una desviación estándar de 3,5 minutos. ¿Cual es la
probabilidad de que un radioescucha sintonice la estación por:
a) más de 20 minutos?
b) entre 15 y 18 minutos?
c) entre 10 y 12 minutos?
d) ¿Cuantos minutos como máximo sintonizan la estación el 70 % de los radioescuchas?
e) ¿Cuál es la probabilidad de que de 8 radioescuchas, al menos 7 sintonicen la
estación por más de 5 minutos?
9. Un analista financiero señala que (conforme a su probabilidad subjetiva) el precio Y de
los bonos de gobierno a largo plazo, con un valor de 1000 dólares, tendrá al cabo de un
año una distribución normal con un valor esperado de 980 dólares y desviación típica
de 40 dólares.
a) Encuentre P(Y ≥ 1000)
b) Encuentre P(Y ≤ 940)
c) Encuentre P(960 ≤ Y ≤ 1060)
10. Suponga que el salario por hora de un trabajador en una fabrica de ropa (que se basa
en un sistema de pago a destajo) tiene una distribución normal con un valor esperado
de 5,10 dólares y una desviación estándar de 0,40 dólares.
7.3. PROBLEMAS
140
a) Encuentre la probabilidad de que el salario por hora de un trabajador sea superior
a 5,40 dólares
b) Encuentre la probabilidad de que el salario por hora de un trabajador se encuentre
entre 4,70 y 5,50 dólares
c) Encuentre la probabilidad de que el salario por hora sea superior al salario mínimo
de 3,90 dólares
11. Se ha determinado que la vida útil de cierta marca de llantas radiales tiene una distribución normal con media 38000 kilómetros y desviación estándar 3000 kilómetros.
a) ¿Cuál es la probabilidad de que una llanta elegida al azar tenga vida útil de cuando
menos 35000 km.?
b) ¿Cuál es la probabilidad de que dure mas de 45000 km.?
12. Si un distribuidor hace un pedido de 500 llantas de las especificadas en el problema
anterior . Aproximadamente ¿cuantas llantas duraran:
a) entre 40000 y 45000 kilómetros?
b) 40000 kilómetros o más?
13. Una operación de maquinado produce ejes de aceros cuyos diámetros están distribuidos normalmente con un promedio de 1,005 pulgadas y desviación estándar de 0,01
pulgadas. Las especificaciones piden diámetros que queden en el intervalo 1, 00 ± 0, 02
pulgadas. ¿Qué porcentaje de la producción no cumplirá las especificaciones?
14. Las ausencias por enfermedad de los empleados de una empresa en un mes tiene una
distribución normal aproximada con promedios de 200 horas y una varianza de 400
horas.
a) Calcular la probabilidad de que el mes próximo el ausentismo total por enfermedad sea menar que 150 horas.
b) Para plantear el programa del mes próximo. ¿Cuánto tiempo debe suponer darse
el ausentismo por enfermedad, si aquella cantidad solo se debe superar con una
probabilidad de tan solo 0,10.
15. Una empresa eléctrica fabrica focos que tienen una duración, antes de fundirse, que se
distribuye normalmente con una media igual a 800 horas y una desviación estándar de
40 horas.
a) Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas
b) Sabiendo que el porcentaje de los focos de mayor duración es de 35,5 %, encuentre el tiempo de duración.
16. Las calificaciones de un examen se distribuyen normalmente con valor esperado igual
a 74 y desviación estándar igual a 7. Si 12 % de la clase obtiene Calificación A . ¿Cuál
es la A más baja posible y la B más alta posible?.
7.3. PROBLEMAS
141
17. Si los ingresos mensuales de médicos Norteamericanos están distribuidos normalmente, con media 15000 dólares y con un desvío estándar de 3500 dólares . ¿Cuál
es la probabilidad de que un medico elegido al azar tenga un ingreso anual de :
a) superior a 16260 dólares
b) entre 16260 y 18500 dólares
c) entre 11500 y 18500 dólares
d) entre 8000 y 11500 dólares
18. Los puntos logrados por los candidatos en una prueba de actitud están distribuidos
normalmente con una media de 500 y una desviación 100. ¿Qué porcentaje de los
candidatos reciben puntajes
a) superiores a 700
b) entre 400 y 600
19. Si la estatura de los estudiantes de una universidad están normalmente distribuidos con
media de 70 pulgadas, con un desvío estándar de 3 pulgadas.
a) Si la estatura mínima para ser probado en el equipo de baloncesto es de 72 pulgadas. ¿ Que proporción de los estudiantes estarían en condiciones de someterse
a la prueba?
b) Si para ocupar la posición de centro hay que tener una estatura de 76 pulgadas.
Que proporción de los estudiantes aptos para jugar baloncesto podrían ocupar
dicho lugar?
20. El examen dado por un grupo de estudiantes arroja una media de 65 con una desviación
típica de 10. Si quisiéramos dar al 15 % superior una calificación A , al 20 % siguiente
B, al 30 % del medio C, al siguiente 25 % D y al 10 % más bajo F. ¿Qué calificaciones
numéricas siguen el trazado de la curva?.
21. Las distribución de los salarios de 2000 trabajadores tiene una media de 70 dólares y
una varianza de 36 dólares. Suponga que la distribución es normal aproximada. Calcular la probabilidad que ganen:
a) entre 65 y 77 dólares
b) 82 dólares y mas
c) ¿Cuantos trabajadores ganan 60 dólares o menos?
22. Un especialista en ictiología tropical esta interesado en estimar cuanto tiempo puede
sobrevivir cierto tipo de pez en agua con determinado porcentaje de toxicidad. Luego
de una serie de experimentos llega a estimar que la vida media de este tipo de pez
alcanza 100 días con un desvió estándar de 20 días.
a) ¿Cuál es la probabilidad de un pez sobreviva más de 110 días?
b) ¿Cuál es la probabilidad de un pez sobreviva entre 95 y 105 días?
7.3. PROBLEMAS
142
23. Dos estudiantes fueron informados de que habían recibido referencias tipificadas de
0,8 y -0,4 respectivamente, en un examen de inglés. Si sus puntuaciones fueron de 88
y 64 respectivamente. Hallar la media y la desviación típica de las puntuaciones.
24. La media de los pesos de 500 estudiantes de un cierto colegio es 151 libras y la
desviación típica 15 libras. Suponiendo que los pesos se distribuyen normalmente,
hallar
a) el número de estudiantes que pesan entre 120 y 155 libras
b) la probabilidad de que un estudiante pese más de 185 libras
25. Una fabrica de productos para televisores vende transistores de vida media de 1000
horas y desviación estándar de 100 horas. Suponiendo que la distribución de vida en
horas de los transistores es normal, calcular:
a) la probabilidad de que un transistor elegido al azar tenga una duración de vida
comprendida entre 875 y 1075 horas
b) la probabilidad de que un transistor elegido al azar tenga una duración de vida
mayor a 1020 horas
26. La cantidad semanal que una compañía gasta en mantenimiento y reparaciones tiene
una distribución normal aproximada cuyo promedio es de 400 dólares y su desviación
estándar 20 dólares. Si el presupuesto para cubrir los gastos de reparación para la semana siguiente es de 450 dólares.
a) ¿Cuál es la probabilidad de que los costos reales sean mayores que la cantidad
supuesta?
b) ¿De cuanto debe ser el presupuesto semanal para mantenimientos y reparaciones
para que tan solo se rebase con una probabilidad de 0,1.
27. Los conductores que se fabrican para utilizar en determinado sistema de computo necesitan tener resistencias que varíen entre 0,12 y 0,14 ohm. Las resistencias reales medidas de los conductores que producen la compañía A tiene una distribución normal con
un promedio de 0,13 ohm y una desviación estándar de 0,005 ohm.
a) ¿Cuál es la probabilidad de que un conductor seleccionado al azar de la producción de la compañía A cumpla con las especificaciones?
b) Si se usan cuatro de estos conductores en el sistema y son de la compañía A .
¿Cuál es la probabilidad de que los cuatro conductor cumplan con las especificaciones?
28. A una temperatura de 25◦C, las resistencias de un termistor de determinado tipo tiene
una distribución normal con un promedio de 10000 ohm y una desviación típica de
4000 ohm. Los termistores se clasificaran para enviar a un cliente, los que tengan resistencias entre 8000 y 15000 ohm. ¿Qué fracción de los termistores se debe enviar?
29. Los tiempos de las primera avería de una unidad de cierta marca de impresoras de
chorro de tinta tienen aproximadamente una distribución normal con un promedio de
1500 horas y una desviación estándar de 200 horas.
7.3. PROBLEMAS
143
a) ¿Qué fracción de esas impresoras fallarán antes de 1000 horas?
b) ¿Cuál debe ser el tiempo de garantía para estas impresoras si el fabricante desea
que solo presente averías el 5 % de las impresoras dentro del tiempo de garantía?
30. Una encuesta entre los habitantes de cierta ciudad, indicó que el ingreso promedio era
de 45000 guaraníes, con una desviación estándar de 5000 guaraníes. Admitiendo una
distribución normal para la variable ingreso, calcular
a) porcentaje de habitantes con renta superior a 55000 guaraníes
b) porcentaje de habitantes con rentas comprendidas entre 50000 y 52000 guaraníes
31. Se acepta que la vida de las bombillas producidas por una compañía eléctrica tiene una
distribución normal, con una media igual a 1000 hs. y una desviación típica de 50 hs.
Determinar la probabilidad de que una bombilla tomada al azar se queme:
a) en memos de 900 hs.
b) entre 900 y 1100 hs.
32. El peso medio de 500 bacas es de 151 kilogramos, con una dispersión de 15 kilogramos. Suponiendo que la variable “peso” se encuentre normalmente distribuida, determinar:
a) ¿Cuántas vacas pesan entre 120 y 155 kilogramos?
b) ¿Cuántas vacas pesan 185 kilos o más?
c) ¿Cuántas vacas pesan menos de 128 kilogramos?
33. En un examen de matemáticas, el puntaje promedio es de 42 puntos, con una desviación
estándar de 9 puntos. Hay un 10 % de compañeros que por tener mayor puntaje reciben
un premio. Se pide determinar el puntaje mínimo para lograr dicho premio, suponiendo
normal la distribución de las calificaciones.
34. Los resultados obtenidos por los aspirantes que rindieron examen de ingreso en una
Facultad, indicaron una distribución aproximadamente normal de la variable “puntaje”
con un valor medio de 60 puntos y una dispersión de 8 puntos. Calcular el porcentaje
de aspirante que obtuvieron puntajes:
a) mayores a 70 puntos
b) inferiores a 56 puntos
c) entre 65 y 75 puntos
Aproximación normal a la binomial
1. Investigadores de la Universidad George Washington reportan que aproximadamente
75 % de las personas creen que “los tranquilizantes funcionan muy bien para hacer que
una persona esté más tranquila y relajada”. De las siguientes 80 personas entrevistadas,
¿cual es la probabilidad de que
a) Al menos 50 sean de esa opinión?
7.3. PROBLEMAS
144
b) A lo más 56 tengan esta opinión?
c) Entre 60 y 70 tengan esta opinión?
d) Exactamente 43 tengan esta opinión?
2. Si el 20 % de los residentes de una ciudad de Estados Unidos prefiere un teléfono
blanco sobre cualquier otro color disponible. ¿Cuál es la probabilidad de que entre los
siguientes mil teléfonos que se instalen en esta cuidad
a) Entre 170 y 200 sean blancos
b) Al menos 210 sean blancos
c) Más de 225 sean blancos
d) Entre 180 y 225 sean blancos
3. Un fabricante de medicamentos sostiene que cierto medicamento cura una enfermedad
de la sangre en promedio el 80 % de los casos. Para verificar esta afirmación, inspectores de gobierno utilizan el medicamento en una muestra de 100 individuos y deciden
aceptar la afirmación si 75 o más se curan.
a) ¿Cuál es la probabilidad de que el gobierno acepte la afirmación?
b) ¿Cuál es la probabilidad de que el gobierno rechace la afirmación si en realidad
la probabilidad de curarse es de 0,70?
4. Un estudio sobre nuevos delincuentes juveniles reveló que el 38 % de ellos vuelve a
delinquir.
a) ¿Cuál es la probabilidad de que de cien nuevos delincuentes juveniles 30 o más
vuelvan a delinquir?
b) ¿Cuál es la probabilidad de que de 50 nuevos delincuentes juveniles 40 o menos
vuelvan a delinquir?
c) ¿Cuál es la probabilidad de que de 35 nuevos delincuentes juveniles 15 vuelvan a
delinquir?
5. Para varios millares de artículos que se mantienen en existencia en una empresa, existe
una probabilidad global del 0,08 de que un articulo especifico (incluyendo tamaño y
color determinado) no se encuentre en existencia. Si para un embarque que cubre los
pedidos para 120 artículos distintos.
a) ¿ Cuál es la probabilidad de que 15 o más de ellos no se encuentren en existencia?
b) ¿ Cuál es la probabilidad de que haya entre 10 y 15 artículos que no se encuentren
en existencia?
6. La probabilidad de que un paciente se recupere de una delicada operación del corazón
es 0,9. De los siguientes 100 pacientes que tienen estas operación ¿ cuál es al probabilidad de que:
a) sobrevivan entre 84 y 95 inclusive ?
b) sobrevivan menos de 86 ?
7.3. PROBLEMAS
145
7. La Articulate Corporation espera que el 99 % de los saldos de sus cuentas por cobrar
sean correctas. Se selecciono una muestra de 200 cuentas para auditarlas.
a) ¿ Cuál es la probabilidad de que ninguna de las cuentas tengan errores?
b) ¿ Cuál es la probabilidad de que 5 de las cuentas tengan errores?
c) ¿ Cuál es la probabilidad de que más de 5 cuentas tengan errores?
8. En los últimos 20 años, solo 3 % de los cheques endosados a la American Herat Association fueron rechazados. Este mes, la asociación recibió 200 cheques . ¿ Cuál es la
probabilidad de que:
a) exactamente 10 de ellos sean rechazadas?
b) exactamente 5 de ellos sean rechazadas?
c) más de 20 sean rechazadas?
d) a lo sumo 30 sean rechazadas?
9. Suponga que el 10 % de los habitantes de una ciudad son pelirrojos. Un grupo de encuestadores selecciona 200 personas al azar y les pregunta confidencialmente por quien
votaran en las próximas elecciones.
a) ¿ Cuál es la probabilidad de que 15 o más sean pelirrojos?
b) ¿ Cuál es la probabilidad de que 30 o menos sean pelirrojos?
c) ¿ Cuál es la probabilidad de que 20 sean pelirrojos?
10. Supóngase que se sabe que la probabilidad de recuperación de cierta enfermedad es de
40
a) la probabilidad de que más de 20 personas se recuperen
b) la probabilidad de que se recuperen entre 10 y 25 personas inclusive
c) el valor esperado de personas que se recuperan
11. Si el 15 % de motores eléctricos producidos por una línea de montaje son defectuosos,
determinar la probabilidad de que entre 100 motores elegidos al azar :
a) haya a lo sumo 20 defectuosos
b) por lo menos 80 no defectuosos
c) hayas entre 15 y 25 defectuosos
12. La proporción de familias que usan el jabón A en cierta ciudad es de 0,3. Se toma una
muestra aleatoria de 40 familias. Determinar
a) el numero esperado de familias que usen el jabón A
b) la probabilidad de que mas de 12 familias usen el jabón A
c) la probabilidad de que menos de 30 familias usen el jabón A
13. La proporción de estudiantes que reciben calificación C es de 0,7. Se toma una muestra
aleatoria de 150 estudiantes.
7.3. PROBLEMAS
146
a) ¿ Cuál es la probabilidad de que a lo sumo 100 estudiantes tengan calificación C?
b) ¿ Cuál es la probabilidad de que cuando menos 95 estudiantes tengan calificación
C?
c) ¿ Cuál es la probabilidad de que exactamente 105 estudiantes tengan calificación
C?.
14. La probabilidad de que una persona que entra en un supermercado efectúe compra es
de 0,80. Si entran 35 personas diariamente. Calcular la probabilidad de que :
a) más de 25 personas realicen compras
b) por lo menos 28 efectué compras
Distribución Exponencial
1. Suponga que el tiempo que un usuario cualquiera permanece conectado a un servidor
en una red de cómputo se puede modelar como una variable aleatoria con distribución
exponencial con media igual a 10 minutos. De mil usuarios, ¿Cuántos tienen un conexión superior a una hora?. Calcule además la probabilidad de que un usuario cualquiera
a) no permanezca conectado mas de 10 minutos.
b) permanezca conectado más de 10 minutos pero menos de una hora
2. Sabemos que la duración del tipo de bombillas que usamos sigue una distribución
exponencial de media 6 horas.
a) Si una persona entra a la habitación con la luz encendida dispuesta a permanecer
siete horas. ¿Podrá hacerlo sin que se funda la bombilla?.
b) Encuentre el tiempo promedio de duración de las bobillas.
3. Si la cantidad de dinero pagado por cada póliza en una compañía de seguros se distribuye exponencialmente con media 2000.
a) Si una persona en este momento está pagando una poliza de seguros a la compañía
¿cuál es la probabilidad de que sea un monto superior a 2500?.
b) Encuentre la cantidad promedio de pago de dinero por un seguro a la compañía.
4. Una máquina de servicio tiene una unidad de reserva para sustituirla de inmediato
cuando falle. El “Tiempo a la falla” (tiempo entre fallas) de la máquina (o de su unidad
de reserva) es exponencial, y sucede cada 40 minutos en promedio.
a) El operador de la máquina dice que ésta tiene la costumbre de descomponerse
cada noche a eso de las 8:30 P.M. Analizar lo que dice el operador.
b) La cantidad promedio de fallas en una semana, suponiendo que el servicio se
ofrece 24 horas por día y 7 días por semana.
c) La probabilidad de que haya al menos una falla en un período de 2 horas.
d) La probabilidad de que la próxima falla no suceda en menos de 3 horas.
7.3. PROBLEMAS
147
e) Si no ha sucedido falla en 3 horas después de la última falla, ¿cuál es la probabilidad de que el tiempo entre fallas sea de 4 horas cuando mucho?.
5. El tiempo entre llegadas en una dependencia del Banco Mercan es exponencial con
valor medio de 0,05 hora. La oficina abre a las 8:00 A.M.
a) Escriba la distribución exponencial que describa el tiempo entre llegadas.
b) Determine la probabilidad de que no lleguen clientes a la oficina hasta las 8:15
A.M.
c) Son las 8:35 A.M. El último cliente entró a las 8:26. ¿Cuál es la probabilidad de
que el siguiente cliente llegue antes de las 8:38 A.M.? ¿Y de que no llegue hasta
las 8:40?.
d) ¿Cuál es la cantidad promedio de clientes que llegan entre las 8:10 y las 8:45
A.M.?
6. Suponga que el tiempo entre descomposturas de una máquina es exponencial, con
promedio de 6 horas. Si la máquina ha trabajado sin fallar durante las últimas tres
horas, ¿cuál es la probabilidad de que continue sin fallar durante la próxima hora? ¿De
que se descomponga durante la siguiente 0,5 hora?.
7. El tiempo entre llegadas a una sala de juego en la sociedad de alumnos es exponencial,
con una media de 10 minutos.
a) ¿Cuál es la frecuencia de llegadas por hora?
b) ¿Cuál es la probabilidad de que no lleguen alumnos a esa sala durante los 15
minutos siguientes?.
c) ¿Cuál es la probabilidad de que al menos un alumno visite la sala de juegos durante los próximos 20 minutos?
8. El gerente de un nuevo restaurante de comida rápida desea cuantificar el proceso de
llegadas de clientes, estimando la fracción del intervalo de tiempo entre llegadas que
sea:
a) menor que 2 minutos,
b) entre 2 y 3 minutos y
c) más de 3 minutos.
Las llegadas en restaurantes parecidos tienen una frecuencia de 35 clientes por hora.
El tiempo entre llegadas tiene distribución exponencial.
9. Ana y Pedro, dos empleados de un restaurante de comida rápida, juegan lo siguiente
mientras esperan la llegada de clientes. Pedro le paga 2 dólares a Ana si el próximo
cliente no llega en menos de 1 minuto; en caso contrario, Ana le paga a Pedro 2 dólares.
Calcule la recompensa promedio de Pedro en un período de 8 horas. El tiempo entre
llegadas es exponencial, con una media de 1,5 minutos.
7.3. PROBLEMAS
148
10. Si un cliente llega a McDonalds en menos de 4 minutos después del cliente inmediato
anterior, recibirá un descuento del 10 %. Si el tiempo entre llegadas es entre 4 y 5
minutos, el descuento, es del 6 %. Si el tiempo entre llegadas es mayor que 5 minutos,
el cliente tiene 2 % de descuento. El tiempo entre llegadas es exponencial, con media
de 6 minutos.
a) Determine la probabilidad de que un cliente que llegue reciba el máximo descuento.
b) Determine el descuento promedio a cada cliente que llega
11. Se sabe que el tiempo entre fallas de un refrigerador Kencore es exponencial, con una
media de 9000 horas (más o menos 1 año de funcionamiento), y la empresa otorga una
garantía de 1 año con el refrigerador. ¿Cuál es la probabilidad de que la garantía cubra
una reparación por descompostura?.
12. Los niños nacen en un estado poco poblado, con una frecuencia de un nacimiento cada
12 minutos. El tiempo entre nacimientos sigue una distribución exponencial. Determinar
a) La cantidad promedio de nacimientos por año
b) La probabilidad de que no haya nacimientos en cualquier día
c) La probabilidad de emitir 50 certificados de nacimientos en 3 horas, cuando se
emitieron 40 certificados durante las primeras 2 horas del período de 3 horas.
d) Suponga que el empleado que pasa la información de los certificados de nacimiento a la computadora suele esperar hasta que se hayan acumulado 5 certificados.
Calcule la probabilidad de que el empleado capture un nuevo lote en cada hora.
13. Un coleccionista de arte viaja una vez al mes, en promedio, para asistir a subastas.
En cada viaje se garantiza una compra. El tiempo entre los viajes tiene distribución
exponencial. Determine lo siguiente:
a) La probabilidad de que el coleccionista no compre obras de arte en un período de
3 meses.
b) La probabilidad de que el coleccionista no compre más de 8 obras de arte por
año.
c) La probabilidad de que el tiempo entre viajes sucesivos sea mayor que 1 mes.
14. En un banco, la frecuencia de llegadas es de 2 clientes por minuto. Determine lo siguiente:
a) La cantidad promedio de llegadas durante 5 minutos.
b) La probabilidad de que no haya llegadas durante el próximo 0,5 minuto.
c) La probabilidad de que haya al menos una llegada durante el siguiente 0,5 minuto.
d) La probabilidad de que el tiempo entre dos llegadas sucesivas sea de 3 minutos,
cuando menos.
15. El tiempo entre llegadas al restaurante Juan Arepa es exponencial con media de 5
minutos. El restaurante abre a las 11:00 A.M. Determine:
7.3. PROBLEMAS
149
a) La probabilidad de tener 10 llegadas al restaurante hasta las 11:12 A.M. si hubo
8 llegadas hasta las 11:05.
b) La probabilidad de que un cliente llegue entre las 11:28 y las 11:33 A.M. si el
último cliente llegó a las 11:25 A.M.
Capítulo 8
Muestras aleatorias y distribuciones de
muestreo.
8.1.
Introducción
Supongamos que tenemos una población de interés, esto es, un conjunto arbitrario de individuos (personas, animales, plantas ó objetos en general) cualesquiera, y deseamos conocer
cierta información de esta población. Debido a la imposibilidad o no conveniencia de tener
información de todos y cada uno de los elementos de la población, generalmente tomamos un
pequeño subconjunto de ella, al cual llamamos muestra. Con base en esta muestra trataremos
de inferir la información de la población en su totalidad.
8.2.
Muestras aleatorias y estadísticos muestrales
Definición 8.2.1 Una muestra aleatoria (escribimos simplemente m.a.) es una colección de
variables aleatorias X1 , X2 , . . . , Xn que son independientes e idénticamente distribuidas.
De este modo, cuando se diga, por ejemplo, que una muestra aleatoria es tomada de una
población normal con media µ y varianza σ2 , ello significa que las variables aleatorias que
forman la m.a. son independientes entre sí, y todas ellas tienen la misma distribución normal
y los mismos parámetros que la población. Una muestra aleatoria constituye el elemento
básico para llevar a cabo inferencias estadísticas.
Definición 8.2.2 Una estadística o estadístico muestral es una función cualquiera de una
muestra aleatoria X1 , X2 , . . . , Xn , y por lo tanto es también una variable aleatoria.
150
8.3. MÉTODOS DE MUESTREO
151
Una estadística es entonces cualquier función de las variables aleatorias que se observaron
en la muestra; de manera que esta función no contiene cantidades desconocidas.
Veremos a continuación dos ejemplos de estadísticas que serán usados con frecuencia
más adelante. Considere una muestra aleatoria X1 , X2 , . . . , Xn . La función X definida como
sigue
1 n
X = ∑ Xi
n i=1
es una estadística, y se le conoce con el nombre de media muestral. El otro ejemplo es el de
la varianza muestral, que se puede expresar de dos maneras distintas y se definen por
S2 =
8.3.
1 n
1 n
2
2
(X
−
X)
y
Ŝ
=
∑ i
∑ (Xi − X)2
n i=1
n − 1 i=1
Métodos de Muestreo
¿Por qué muestrear?
Muestreo es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante
porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo
de la sociedad.
¿Y porque no se estudia la población completa? se preguntarían algunos, pero en ocasiones no es factible, veamos algunas razones por las cuales conviene muestrear:
1. La naturaleza destructiva de algunas pruebas.
Por ejemplo se quiere conocer la resistencia de los tornillos que se fabrica en una planta, para conocerla es necesario destruir el producto, lógicamente no podemos probar
toda la población porque nos quedaríamos sin productos.
2. La imposibilidad física de chequear todos los elementos de la población.
Por ejemplo se quiere conocer el efecto de un nuevo insecticida en las moscas, como se
puede comprender no es posible contactar a todas las moscas para realizar el estudio.
3. El costo de estudiar a toda la población es muy alto.
Por ejemplo se quiere conocer la opinión de la población sobre cierto personaje de la
política, si en el país hay 100 millones de habitantes, se tendría que contratar mucho
personal y equipo para realizar el estudio.
4. El tiempo para contactar a toda la población es inviable.
En ocasiones se necesita información rápida para tomar una decisión importante, tal
vez estudiar a toda la población nos lleve más tiempo del que disponemos.
8.3. MÉTODOS DE MUESTREO
152
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero
para que podamos extraer conclusiones, es importante que elijamos bien las muestras para
nuestros estudios. Hay cuestiones que debemos especificar a la hora de elegir una muestra:
a) El tipo de muestreo que se va a utilizar.
b) El tamaño de la muestra.
c) El nivel de confianza de las conclusiones que vamos a presentar.
Clasificación de los métodos de muestreo
Los métodos de muestreo pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.
Muestreos no probabilísticos
No sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios
procurando que la muestra sea representativa.
Muestreo intencional u opinativo: en el que la persona que selecciona la muestra es
quien procura que sea representativa, dependiendo de su intención u opinión, siendo
por tanto la representatividad subjetiva.
Muestreo sin norma: se toma la muestra sin norma alguna, la muestra podría ser
representativa si la población es homogénea y no se producen sesgos de selección.
Muestreos probabilísticos
Los muestreos probabilísticos son aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Dentro de los métodos de
muestreo probabilísticos encontramos los siguientes tipos:
1. Muestreo aleatorio simple
2. Muestreo sistemático
3. Muestreo estratificado
4. Muestreo por conglomerados
8.3.1.
Muestreo aleatorio simple
Una muestra seleccionada de modo que cada uno de los individuos en la población tengan
las mismas posibilidades de ser seleccionados.
El procedimiento de selección consiste en:
primeramente se asigna un número a cada elemento de la población,
8.3. MÉTODOS DE MUESTREO
153
después al azar (como una urna, tablas de números aleatorios, números aleatorios generados electrónicamente, etc.) se eligen los elementos necesarios para la muestra.
La ventaja de este método de muestreo es que es sencillo y de fácil comprensión. Sus
desventajas son:
requiere que se posea de antemano un listado completo de toda la población y
que cuando se trabaja con muestras pequeñas es posible que no represente a la población
adecuadamente.
Ejemplo 8.3.1 En una compañía con 150 trabajadores se quiere obtener una muestra aleatoria de 15 elementos para un chequeo médico. Se sigue el siguiente procedimiento:
1) Los trabajadores fueron numerados del 1 al 150
2) Mediante una tabla de números aleatorios se procede a seleccionarlos.
3) El punto de arranque en la tabla se fija mediante la hora en ese momento, 4:03, por lo
tanto se inicia en la fila 4, columna 3.
4) Como los números de los trabajadores van desde 1 hasta 150 solo se toman en cuenta las
primeras 3 cifras de cada número y se registran los números que se vayan encontrando
en ese rango.
El primer número encontrado fue el 054 en la fila 4 columna 5, se siguen revisando
los números horizontalmente, el siguiente seleccionado fue el 095 y así sucesivamente. La
muestra de 15 números fue la siguiente:
054
005
041
8.3.2.
095
050
021
080
024
105
004
046
009
147
018
146
Muestreo aleatorio sistemático
Se acomodan los individuos de la población en cierta forma. Se selecciona un punto de
partida aleatorio y luego se toma cada k-ésimo miembro para formar parte de la muestra.
El procedimiento de selección consiste en:
primeramente es necesario conocer el número de los elementos de la población (N) y
el tamaño que deberá tener la muestra (n);
se define cada cuantos elementos de la población seleccionaremos uno para la muestra
con la siguiente ecuación k = Nn .
Se comienza la selección eligiendo aleatoriamente el primer elemento entre 1 y k, luego
se cuentan k elementos y se selecciona el segundo y así sucesivamente hasta completar
la muestra.
Este método tiene las ventajas:
8.3. MÉTODOS DE MUESTREO
154
de ser fácil de aplicar,
no es necesario tener un listado de toda la población y
asegura una cobertura de unidades de todos los tipos.
Su desventaja es que si la constante de muestreo está asociada con el fenómeno de interés,
las estimaciones obtenidas a partir de la muestra pueden contener un sesgo.
Ejemplo 8.3.2 Suponga que la población de interés consiste de 2000 expedientes en un
archivo. Para seleccionar una muestra de 100 con el método aleatorio simple primero se tendría que numerar todos los expedientes. En este método se selecciona el primer expediente
de acuerdo al método aleatorio simple, luego como se quiere una muestra de 100, se divide
2000
100 = 20, y se selecciona un expediente cada 20.
8.3.3.
Muestreo aleatorio estratificado
En un muestreo aleatorio estratificado se divide la población en subgrupos denominados estratos, y se selecciona una muestra de cada uno de ellos. En ciertas ocasiones resultará
conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el
tamaño muestral apropiado, este se reparte de cierta manera que puede ser proporcional o no
proporcional entre los distintos estratos definidos en la población. Como el nombre lo indíca,
un procedimiento o afijación de muestreo proporcional requiere que el número de individuos
de cada estrato esté en la misma proporción que la problación.
Entre sus ventajas, este método asegura que la muestra represente adecuadamente a la
población en función de ciertas variables seleccionadas, además de obtener estimaciones
más precisas.
La desventaja es que se ha de conocer como se distribuye la población de acuerdo a las
variables utilizadas para la estratificación.
Ejemplo 8.3.3 Se quiere obtener una muestra de 50 estudiantes de la universidad. Se pretende que la muestra sea representativa en relación al lugar de origen de los estudiantes (si
son de la localidad o son foráneos). Se sabe que en esta universidad el 30 % de los estudiantes son foráneos. Primero debemos identificar los estratos de la población y sus respectivas
proporciones:
Estududiantes locales 0.70
Estudiantes foráneos 0.30
La muestra deberá mantener esas mismas proporciones, para lo cual es preciso multiplicar
el tamaño de la muestra (n) por las proporciones de los estratos y obtenemos el número de
elementos que serán selecionados de cada estrato:
Estudiantes locales
Estudiantes foráneos
(0,70)(50) = 35
(0,30)(50) = 15
Ahora se procede a seleccionarlos por medio de alguno de los métodos anteriores.
8.4. DISTRIBUCIONES MUESTRALES
8.3.4.
155
Muestreo aleatorio por conglomerados
El muestreo por conglomerados consiste en dividir la población en sectores o conglomerados, seleccionar una muestra aleatoria de esos sectores, y finalmente obtener una muestra
aleatoria de cada uno de los sectores seleccionados. Muchas veces se le emplea para reducir
el costo de realizar un muestreo de una población dispersa en una gran área geográfica.
Entre sus ventajas se encuentra que es muy eficiente cuando la población es muy grande
y dispersa, además de que no es preciso tener un listado de toda la población, sólo de las
unidades primarias de muestreo.
Su desventaja radica en que una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población)
que una muestra aleatoria simple del mismo tamaño.
Ejemplo 8.3.4 Se quiere conocer la opinión de los padres de familia sobre los temas de educación sexual tratados en los libros de texto de primaria en la República Mexicana. Como la
población está muy dispersa y es muy grande, es necesario hacer un muestreo por conglomerados en varias etapas.
Primero dividimos la República en sectores geográficos, que podrían ser los estados, y
seleccionamos una muestra aleatoria de ellos. Luego en cada uno de ellos hacemos una selección aleatoria de escuelas primarias. Y por último en las escuelas seleccionadas obtenemos
una muestra aleatoria de padres de familia.
8.3.5.
Error de Muestreo
Al seleccionar una muestra aleatoria, sin importar por cual de los cuatro métodos, es
poco probable que la media de la muestra sea idéntica a la media de la población de donde
fue obtenida. De la misma forma, es probable que la desviación estándar de la muestra no
sea exactamente igual al valor correspondiente de la población. Por lo tanto podemos esperar
alguna diferencia entre un estadístico muestral y el correspondiente parámetro poblacional.
Esta diferencia es llamada error de muestreo.
8.4.
Distribuciones Muestrales
Las distribuciones muestrales constituyen distribuciones de probabilidad de los estadísticos muestrales. Por ejemplo si tomamos una muestra aleatoria X1 , X2 , . . . , Xn de una población
con cierta distribución y calculamos X y S2 ; podríamos establecer una distribución muestral
de medias y una distribución muestral de varianzas. Además si tenemos dos poblaciones
podemos extraer muestras aleatorias de cada población, calcular ciertos extadísticos muestrales de cada población, establecer relaciones entre ellos y finalmente obtener una distribución para dicha relación. Por ejemplo si tenemos dos poblaciones y extraemos muestras
aleatorias de ciertos tamaños de cada población, luego calculamos las medias muestrales
correspondientes, además de las respectivas varianzas, podríamos establecer una distribución muestral de sumas o de diferencias medias y una distribución muestral de relaciones de
varianzas.
8.4. DISTRIBUCIONES MUESTRALES
156
A continuación presentaremos primeramente algunas distribuciones muestrales para el
caso de una sola población y luego distribuciones muestrales para el caso de dos poblaciones.
8.4.1.
Distribución Muestral de Medias
Definición 8.4.1 Una distribución muestral de medias es una distribución de probabilidad
de todas las posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una
población.
Para fines de entender mejor el concepto de “distribución muestral de medias” estudiemos
la siguiente población. Don Pepe en su restaurante tiene 5 parrilleros (población), a los cuales
se les paga por hora según su trabajo. Las percepciones de los parrilleros son las siguientes:
Parrillero
Adrián
Blas
Carmela
Diana
Enrique
Percepción por hora
$ 9,00
$ 8,00
$ 8,00
$ 8,00
$ 7,00
La población en este ejemplo son los ingresos por hora de los cinco parrilleros. Si calculamos
la media de esta población obtendríamos
9+8+8+8+7
=8
5
Para facilitar la explicación y comenzar a elaborar la distribución muestral de medias,
vamos a fijar el tamaño de muestra (n) en 2. Formamos todas las posibles muestras de tamaño
2, y como vemos en el siguiente cuadro son 10, y a cada una le calculamos la media.
µ=
muestra
1
2
3
4
5
6
7
8
9
10
parrilleros
A-B
A-C
A-D
A-E
B-C
B-D
B-E
C-D
C-E
D-E
percepciones
9,00 8,00
9,00 8,00
9,00 8,00
9,00 7,00
8,00 8,00
8,00 8,00
8,00 7,00
8,00 8,00
8,00 7,00
8,00 7,00
media
8,50
8,50
8,50
8,00
8,00
8,00
7,50
8,00
7,50
7,50
A continuación elaboramos una distribución de probabilidad con las medias de las muestras, quedando de la siguiente manera:
Distribución Muestral de Medias para n=2
media muestral frecuencia Probabilidad
7,50
3
0,3
8,00
4
0,4
8,50
3
0,3
10
1,0
8.4. DISTRIBUCIONES MUESTRALES
157
Calculamos la media de la distribución que acabamos de hacer:
µX =
3(7, 5) + 4(8, 0) + 3(8, 5)
=8
10
A partir de las observaciones anteriores podemos supioner que la media de la distribución
muestral de medias es igual a la media de la población y que la forma de la distribución
muestral presenta un cambio respecto a la forma de la población.
Proposición 8.4.1 La media de la distribución muestral de medias denotada por µX está
dada por
E(X) = µX = µ
donde µ es la media de la población de la cual provienen todas las muestras de tamaño n.
Demostración
Para realizar la demostración de esta proposición recordemos que una muestra aleatoria de tamaño n esta constituida por n variables aleatorias independientes e identicamente
distribuidas, esto es cada una de las variables aleatorias Xi , ∀ i = 1, 2, . . . , n intervinientes
tienen los mismos parámetros que el de la población de la cual provienen. Por lo tanto
E(Xi ) = µ, ∀i = 1, 2, . . . , n; entonces
E(X) = E
³1
´
n
∑
n i=1
Xi
1 n
1
= ∑ E(Xi ) = nµ = µ
n i=1
n
Proposición 8.4.2 Si una población es infinita o si el muestreo es con reemplazamiento,
entonces la varianza de la distribución muestral de medias, denotada por σ2X , esta dada por
E(X − µ)2 = σ2X =
σ2
n
donde σ2 es la varianza de la población de la cual provienen todas las muestras de tamaño n.
Demostración
Como ya se dijo anteriormente las variables aleatorias Xi , ∀ i = 1, 2, . . . , n intervienientes
en la muestra aleatoria son independientes e identicamente distribuidas con lo cual tendremos
que Var(Xi ) = σ2 , ∀i = 1, 2, . . . , n y para cualquier par de variables aleatorias Xi , X j , ∀ i 6= j
en la muestra se tendrá Var(Xi + X j ) = Var(Xi ) +Var(X j ). Por lo tanto
E(X − µ)2 = σ2X = Var(X) = Var
³1
´
1 n
1 2 σ2
=
nσ =
X
Var(X
)
=
i
i
∑
∑
n i=1
n2 i=1
n2
n
n
Observación: Cuando el tamaño de la población es finita o el muestreo es sin reemplazamiento, entonces
σ2 ³ N − n ´
σ2X =
n N −1
Cuando el tamaño de la muestra es pequeño (n < 30) y la varianza poblacional es desconocida, la distribución muestral de medias
√ se podrá relacionar con la distribución t de
(X − µ) n − 1
Student, teniendo en cuenta que tc =
∼ t(n − 1).
S
8.4. DISTRIBUCIONES MUESTRALES
8.4.2.
158
Teorema del Límite Central
El Teorema del Límite Central consiste en un conjunto de resultados acerca del comportamiento de las distribuciones muestrales. En el que se afirma, bajo ciertas hipótesis, que la
distribución de las medias de un número muy grande de muestras se aproxima a una distribución normal.
El término Central, debido a Polyá (1920), significa fundamental, o de importancia central, este describe el rol que cumple este teorema en la teoría de la probabilidad.
Muchos grandes matemáticos colaboraron para desarrollar el teorema del límite central,
sin embargo Laplace ocupa un lugar fundamental, a pesar de que nunca enunció formalmente
este resultado, ni lo demostró rigurosamente, a él le debemos este importante descubrimiento.
Teorema 8.4.1 Teorema del Límite Central:
Para una población con una media µ y una varianza σ2 , la distribución de las medias
de todas las muestras posibles de tamaño n generadas de la población estará distribuida de
forma aproximadamente normal asumiendo que el tamaño de la muestra es lo suficientemente
grande.
Con relación al teorema del límite central debemos enfatizar en:
1. Si el tamaño de la muestra n es suficientemente grande (n ≥ 30) la distribución de las
medias será aproximadamente normal. No importa si la población es normal, sesgada
u uniforme, si la muestra es grande el teorema se aplicará.
2. La media de la población y la media de la distribución de todas las posibles muestras serán iguales. Si la población es grande y un gran número de muestras son seleccionadas de esa población entonces la media de las medias muestrales se aproximará a
la media poblacional.
3. La desviación estándar de la distribución muestral de las medias, a la que llamaremos
error estándar, es determinado por:
σ
a) Si la población es infinita o si el muestreo es con reemplazamiento: σX = √
n
r
N −n
σ
b) Si la población es finita o el muestreo es sin reemplazamiento: σX = √
n N −1
Ejemplo 8.4.1 Los pesos de los paquetes recibidos en un departamento de almacenamiento
tienen una media de 300 libras y una desviación estándar de 50 libras.
a) ¿Cuál es la probabilidad de que el peso medio de 35 paquetes recibidos aleatoriamente
sea menor que 320 libras?
b) ¿Cuál es la probabilidad de que el peso medio de 40 paquetes recibidos aleatoriamente
sea mayor que 290 libras?
c) ¿Cuál es la probabilidad de que el peso de 25 paquetes recibidos aleatoriamente y cargados en un ascensor supere el límite de seguridad del ascensor, que es 8200 libras?
8.4. DISTRIBUCIONES MUESTRALES
159
Desarrollo
Según las condiciones del problema; la media y la desviación estándar poblacional son
respectivamente µ = 300 libras y σ = 50 libras. Como no se conoce el tamaño de la población
se asume que es infinita, por lo que los parámetros de la distribución muestral de medias
σ
50
serán: µX = µ = 300 libras y σX = √ = √ libras. Entonces la probabilidad de que
n
n
a) el peso medio de 35 paquetes recibidos aleatoriamente sea menor que 320 libras es
³
320 − 300 ´
P(X < 320) = P Z <
= P(Z < 2, 37) = 0, 5 + A(2, 37)
50
√
35
Buscando en la tabla de la distribución Z encontramos que A(2, 37) = 0, 4911 por lo
que la probabilidad buscada esta dada por
P(X < 320) = 0, 5 + 0, 4911 = 0, 9911
b) el peso medio de 40 paquetes recibidos aleatoriamente sea mayor que 290 libras
³
290 − 300 ´
= P(Z > −1, 26) = 0, 5+A(−1, 26) = 0, 5+A(1, 26)
P(X > 290) = P Z >
50
√
40
Buscando nuevamente en la tabla de Z encontramos que A(1, 26) = 0, 3962 por lo que
la probabilidad buscada esta dada por
P(X > 290) = 0, 5 + 0, 3962 = 0, 8962
8.4. DISTRIBUCIONES MUESTRALES
160
c) el peso de 25 paquetes recibidos aleatoriamente y cargados en un ascensor supere el
límite de peso de 8200 libras es
³
³
8200 ´
328 − 300 ´
P X>
=P Z>
= P(Z > 2, 8) = 0, 5 − A(2, 8)
√50
25
25
Buscando en la tabla de la distribución Z encontramos que A(2, 8) = 0, 4974 por lo que
la probabilidad buscada esta dada por
P(X > 328) = 0, 5 − 0, 4974 = 0, 0026
Ejemplo 8.4.2 El peso medio de un grupo de 1000 estudiantes es de 68,2 kg y la desviación
estándar es de 2,5 kg. Halle la probabilidad de que en una muestra de 100 estudiantes la
media muestral
a) sea mayor que 68,9 kg
b) esté entre 67,5 y 68,5 kg
Desarrollo
Según las condiciones del problema; la media y la desviación estándar poblacional son
respectivamente µ = 68, 2 kg y σ = 2, 5 kg. El tamaño de la población es 1000 estudiantes,
por lo que los
distribución muestral de medias serán: µX = µ = 68, 2 kg y
r parámetros de lar
2, 5
N −n
1000 − 100
σ
=√
= 0, 2373 kg. Entonces la probabilidad de que
σX = √ ·
·
n
N −1
1000 − 1
100
la media muestral
a) sea mayor que 68, 9 kg es
³
68, 9 − 68, 2 ´
= P(Z > 2, 95) = 0, 5 − A(2, 95)
P(X > 68, 9) = P Z >
0, 2373
Buscando en la tabla de la distribución Z encontramos que A(2, 95) = 0, 4984 por lo
que la probabilidad buscada está dada por
P(X > 328) = 0, 5 − 0, 4984 = 0, 0016
8.4. DISTRIBUCIONES MUESTRALES
161
b) esté entre 67, 5 y 68, 5 kg es
³ 67, 5 − 68, 2
68, 5 − 68, 2 ´
P(67, 5 < X < 68, 5) = P
<Z<
= P(−2, 95 < Z < 1, 26)
0, 2373
0, 2373
= A(−2, 95) + A(1, 26) = A(2, 95) + A(1, 26)
Buscando en la tabla de la distribución Z encontramos que A(2, 95) = 0, 4984 y
A(1, 26) = 0, 3962 por lo que la probabilidad buscada está dada por
P(67, 5 < X < 68, 5) = 0, 4984 + 0, 3962 = 0, 8946
8.4.3.
Distribución Muestral de Varianzas
Supongase que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de
una distribución normal con media conocida µ y varianza desconocida σ2 > 0. Se desarrollará
ahora una distribución de muestreo para la varianza muestral S2 . Por definición
S2 =
1 n
(Xi − µ)2
∑
n i=1
Como el parámetro poblacional µ no siempre es conocido, muchas veces se sustituye µ
por X, en la definición de varianza muestral. Entonces
´2
´2
n ³
n ³
X
X
X
−
X
−
i
i
∑
∑
Ŝ2 =
i=1
n−1
y S2 =
i=1
n
8.4. DISTRIBUCIONES MUESTRALES
162
Deducción de la distribución de muestreo de S2
La sustitución anterior lo realizamos para determinar la distribución de muestreo de S2 ,
con base a una muestra aleatoria proveniente de una distribución normal. Entonces
S2 =
1 n
1 n
2
(X
−
X)
=
[(Xi − µ) − (X − µ)]2
i
∑
∑
n i=1
n i=1
n
nS = ∑ [(Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2 ]
2
i=1
n
n
n
i=1
n
i=1
i=1
= ∑ (Xi − µ)2 − 2(X − µ) ∑ (Xi − µ) + ∑ (X − µ)2
= ∑ (Xi − µ)2 − 2n(X − µ)2 + n(X − µ)2
i=1
n
= ∑ (Xi − µ)2 − n(X − µ)2
i=1
Por lo tanto
n
∑ (Xi − µ)2 = nS2 + n(X − µ)2
i=1
Dividimos la expresión anterior por σ2 tenemos
n
∑ (Xi − µ)2
i=1
nS2 n(X − µ)2
+
σ2
σ2
=
σ2
n
∑ (Xi − µ)2
Por la prosición 7.2.5 la v.a.
i=1
σ2
tiene una distribución ji-cuadrada con n gra-
n(X − µ)2
dos de libertad, además por la proposición 7.2.3 la v.a.
tiene una distribución
σ2
ji-cuadrada con un grado de libertad, por lo que finalmente por la proposición 7.2.4 la v.a.
nS2
tiene una distribución ji-cuadrada con n − 1 grados de libertad.
σ2
Probamos entonces que la distribución muestral de varianzas para muestras de tamaño
n provenientes de una distribución normal con media µ y varianza σ2 tiene una distribución
ji-cuadrada con n − 1 grados de libertad.
Proposición 8.4.3 Si se extraen muestras de tamaño n de una población normal con media
µ y varianza σ2 , entonces la esperanza y la varianza de S2 son respectivamente
µS 2 =
.
n−1 2
2(n − 1) 4
σ y σS 2 =
σ
n
n2
8.4. DISTRIBUCIONES MUESTRALES
163
Desarrollo
Para realizar la demostración primeramente recordemos que la esperanza y la varianza
de una distribución ji-cuadrada con con k grados de libertad están dadas por k y 2k respectinS2
vamente. Además tomemos en cuenta que la v.a. 2 tiene una distribución ji-cuadrada con
σ
n − 1 grados de libertad. Entonces
E
por lo que
³ nS2 ´
σ2
= n − 1 y Var
³ nS2 ´
σ2
= 2(n − 1)
n
n2
2
E(S
)
=
n
−
1
y
Var(S2 ) = 2(n − 1)
σ2
σ4
con lo cual
E(S2 ) =
n−1 2
2(n − 1) 4
σ y Var(S2 ) =
σ
n
n2
Ejemplo 8.4.3 Una población normal tiene una varianza de 15. Si se extraen muestras de
tamaño 5 de esta población; ¿qué porcentajes pueden tener varianzas
a) menores que 10?
b) mayores que 20?
Calcule además la media y la varianza de esta distribución muestral de varianzas.
Desarrollo
Según las condiciones del problema; σ2 = 15 y n = 5. Además el grado de libertad será
n − 1 = 5 − 1 = 4, entonces
a) para responder este inciso debemos calcular primeramente χ21 que viene dada por la
siguiente relación
nS2 (5)(10)
χ21 = 21 =
= 3, 3333
σ
15
Luego se busca en la tabla χ2 un valor que tenga 4 grados de libertad y este lo más
cercano a 3,3333. Este valor resulta ser χ2[0,50 ; 4] = 3, 36 y por lo cual la probabilidad
buscada es de aproximadamente 0,50.
8.4. DISTRIBUCIONES MUESTRALES
164
b) para responder a este inciso se debe realizar un procedimiento análogo al anterior; esto
es
nS2 (5)(20)
χ22 = 22 =
= 6, 667
σ
15
Luego en la tabla χ2 se observa que el valor 6,667 con 4 grados de libertad está ente los
valores χ2[0,80 ;4] = 5, 99 y χ2[0,90 ;4] = 7, 78; con lo cual podríamos tomar al promedio
de estos valores como el valor más cercano. Entonces
χ2[0,80 ;4] + χ2[0,90 ;4]
5, 99 + 7, 78
= 6, 885
2
2
con lo cual la probabilidad buscada es de aproximadamente 1 − 0, 85 = 0, 15.
χ2[0,85 ;4]
=
=
La esperanza y la varianza para esta distribución vienen dadas por la siguientes relaciones
n−1 2 4
σ = 15 = 12
n
5
2(n − 1) 2 2(4)
Var(S2 ) =
σ = 2 15 = 4, 8
n2
5
E(S2 ) =
8.4.4.
Distribución F
Esta distribución de probabilidad es usada en varias situaciones. Es usada cuando queremos probar si dos varianzas muestrales provienen de la misma población o de poblaciones
con características idénticas, además es aplicada cuando se quiere comparar las medias de
más de dos poblaciones simultáneamente.
La distribución F se define como la razón entre dos distribuciones ji-cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad.
Consideremos dos variables aleatorias independientes Y y W tales que Y tiene una distribución χ2 con m grados de libertad y W una distribución χ2 com n grados de libertad,
donde m y n son enteros positivos. Se define una nueva variable aleatoria como sigue:
X=
Y
m
W
n
=
nY
mW
entonces a la variable aleatoria X se le denomina distribución F de Snedecor con m y n
grados de libertad.
8.4. DISTRIBUCIONES MUESTRALES
165
Definición 8.4.2 Una variable aleatoria X tiene distribución F de Snedecor si su función
de densidad de probabilidad está dada por
´ m n
 ³
m+n
m

Γ
m 2 n2

2
x 2 −1


³ ´ ³ ´ ·
si x > 0

m+n
n
m
2
(mx
+
n)
Γ
Γ
f (x) =
2
2





0
si x ≥ 0
Figura 8.1: Gráfica de f (x) cuando los parámetros m y n toman diferentes pares de valores.
Características de la distribución F
Hay una “familia” de distribuciones F. Cada miembro de esta familia está determinado
por los grados de libertad del numerador (varianza mayor) y por los del denominador
(varianza menor).
La distribución F es una distribución continua y no puede tomar valores negativos.
La curva que representa la distribución F está sesgada hacia la derecha.
Su rango de valores va desde 0 hasta infinito, cuanto más se incrementa F, la curva se
aproxima al eje X, pero nunca lo toca.
Inferencias con respecto a las varianzas de dos distribuciones normales independientes.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribución normal con media µX y varianza σ2X , sea además Y1 ,Y2 , . . . ,Ym otra muestra aleatoria de una distribuciónb normal con
media µY y varianza σY2 . Si se supone independencia entre las variables aleatorias X e Y , las
(n − 1)SX2
(m − 1)SY2
estadísticas uX =
y
u
=
son distribuciones ji-cuadradas con n − 1 y
Y
σ2X
σY2
8.4. DISTRIBUCIONES MUESTRALES
166
m − 1 grados de libertad. Entonces
F=
ux
n−1
uY
m−1
=
SX2
σ2X
SY2
σY2
tiene una distribución F con n − 1 y m − 1 grados de libertad.
Si las dos varianzas poblacionales son iguales la fórmula se reduce a:
F=
8.4.5.
SX2
SY2
Distribución Muestral de Proporciones
Sea una población finita de tamaño N, en la que la probabilidad de ocurrencia de un
suceso en el que se está interesado es P y la probabilidad de ocurrencia del suceso contrario a
aquel en el que se está interesado es Q = 1 − P (población Bernoulli). Si de está población se
extraen todas las posibles muestras de tamaño n, con n < N, y se averigua para cada una de
las muestras la proporción correspondiente al atributo o categoria en el que se está interesado
con relación al total de elementos n de la muestra se obtendrá una distribución muestral de
proporciones.
X
Se define una proporción de muestra como p̂ = , donde X es el número de unidades de
n
la muestra que posee el rasgo en el que se está interesado y n es el tamaño de muestra. Por
su forma de definición X es la suma de las variables aleatorias Benoulli de la muestra que
poseen el rasgo de interés y por lo tanto X tiene distribución Binomial con parámetro P.
Si se obtiene una muestra de tamaño n al azar, con reemplazamiento (reposición), la
distribución por muestreo de P, obedece a la ley de probabilidad binomial. La media y la
varianza están dadas por:
³ X ´ E(X) nP
=
E( p̂) = µ p̂ = E
=
=P
n
n
n
³ X ´ Var(X) nP(1 − P) P(1 − P)
=
σ2p̂ = Var
=
=
n
n2
n2
n
para muestras de tamaño n < 30.
Cuando el muestreo se realiza sin sustitución, obedece a la ley de probabilidades hipergeométrica y como la población es finita, la media y la varianza están dadas por
³ X ´ E(X) 1 nk
k
=
= ·
= =P
E( p̂) = µ p̂ = E
n
n
n N
N
³ X ´ Var(X) nk(N − k)(N − n) 1 k ³
´
k N − n P(1 − P) N − n
σ2p̂ = Var
=
=
= · · 1−
·
=
·
2
2
2
n
n
n N (N − 1)
n N
N N −1
n
N −1
Cuando el muestreo es efectuado ya sea con o sin reemplazamiento, si el tamaño de las
muestras es n ≥ 30, la distribución muestral de las proporciones en las muestras se aproxima a
la normal por aplicación del teorema central del límite. A continuación se enuncia el teorema
central del límite para este caso.
8.4. DISTRIBUCIONES MUESTRALES
167
Teorema de la convergencia o central del límite
Sea una variable aleatoria con sólo dos caracteres complementarios (el considerado y su
contrario) cuyas proporciones con respecto al total son P y 1 − P respectivamente. Si de esta
población se extraen muestras de tamaño n grande de forma que nP > 5 y n(1 − P) > 5, la
distribución muestral de las proporciones p̂, del caracter considerado en la población, que
aparecen en cada una de las muestras, sigue una distribución normal con valor medio µ p̂ = P
P(1 − P)
y varianza σ2p̂ =
.
n
p̂ − P
La variable
se aproxima a una normal estandar cuando n se aproxima al infinito.
σ p̂
La función de distribución de p̂ con n grande es
³
pˆ0 − P ´
P( p̂ ≤ pˆ0 ) = P Z ≤
σ p̂
Cuando n no es tan grande, pueden obtenerse aproximaciones normales muy satisfac1
torias, introduciendo un factor de corrección de continuidad dada por
. La función de
2n
distribución de p̂ para este caso será
1
³
− P´
pˆ0 ± 2n
P( p̂ ≤ pˆ0 ) = P Z ≤
σ p̂
Ejemplo 8.4.4 De un total de 1000 muestras de 200 niños cada uno, ¿en cuanto cabe esperar que
a) menos del 40 % sean niños?
b) entre el 40 % y el 60 % sean niñas
c) el 53 % o más sean niñas
Desarrollo
Según las especificaciones de este problema tenemos 1000 muestras, cada una de tamaño
n = 200. Como la población del cual provienen las muestras está constituido por dos caracteres: niño y niña, con lo cual se tiene
1
1
= 0, 5 y P(niña) = = 0, 5
2
2
Para responder a los tres incisos calculemos primeramente σ p̂ ; que será el mismo para
los tres incisos ya que los dos acontecimientos involucrados tienen las misma probabilidad
de ocurrencia. Por lo tanto
r
r
P(1 − P)
(0, 5)(0, 5)
=
= 0, 0354
σ p̂ =
n
200
P(niño) =
1
; que se le suma o se le resta a
Además se tendrá en cuenta el factor de corrección
2n
los límites en los cálculos de acuerdo a si se quiere que influya o no las probabilidades de
ocurrencia de tales valores límites. Esta consideración lo hacemos debido a que n = 200 no
es tan grande.
8.4. DISTRIBUCIONES MUESTRALES
168
a) La probabilidad de que menos del 40 % sean niños esta dada por
!
Ã
1
0, 40 − 2(200)
− 0, 5
P(pniño < 0, 40) = P Z <
= P(Z < −2, 90) = 0, 5 − A(−2, 90)
0, 0354
Se restó el factor de corrección al límite superior 0,4 debido a que pniño < 0, 4. Esta
resta garantiza que la probabilidad de ocurrencia de este valor extremo no forme parte
del resultado final. Luego en la tabla de Z se observa que A(−2, 90) = A(2, 90) =
0, 4981, con lo cual
P(pniño < 0, 40) = 0, 5 − 0, 4981 = 0, 0019
Finalmente (1000)(0, 0019) = 1, 9. Por lo que en aproximadamente 2 muestras cabe
esperar que menos del 40 % sean niños.
b) La probabilidad de que entre el 40 % y 60 % sean niñas esta dada por
Ã
!
1
1
0, 40 + 2(200)
− 0, 5
0, 60 − 2(200)
− 0, 5
P(0, 4 < pniña < 0, 6) = P
<Z<
0, 0354
0, 0354
= P(−2, 75 < Z < 2, 75) = A(−2, 75) + A(2, 75) = 2A(2, 75)
El factor de corrección se le sumó al límite inferior 0,4 y se le restó al superior 0,6;
debido a que 0, 4 < pniña < 0, 6. Esta suma y resta se hizo para garantizar que la
8.4. DISTRIBUCIONES MUESTRALES
169
probabilidad de ocurrencia de estos valores extremos no formen parte del resultado
final. Luego en la tabla de Z se observa que A(2, 75) = 0, 4970, con lo cual
P(0, 4 < pniña < 0, 60) = 2(0, 4970) = 0, 994
Entonces (1000)(0, 994) = 994. Lo que significa que con 994 muestras cabe esperar
que entre 40 % y 60 % sean ñinas.
c) La probabilidad de que 53 % o más sean niñas está dada por
Ã
!
1
0, 53 − 2(200)
− 0, 5
P(pniña ≥ 0, 53) = P Z ≥
= P(Z ≥ 0, 78) = 0, 5 − A(0, 78)
0, 0354
Se restó el factor de corrección al límite inferior 0,53 debido a que pniña ≥ 0, 53. Esta
resta garantiza que la probabilidad de ocurrencia de este valor extremo forme parte del
resultado final. Luego en la tabla de Z se observa que A(0, 78) = 0, 2823, con lo cual
P(pniña ≥ 0, 53) = 0, 5 − 0, 0, 2823 = 0, 2177
Con lo cual (1000)(0, 2177) = 217, 7. Por lo que en aproximadamente 218 muestras
cabe esperar que 53 % o más sean niñas.
8.4.6.
Distribución Muestral de Sumas y de Diferencias de medias
Sean dos poblaciones normalmente distribuidas con medias µX y µY , además de varianzas
y σY2 respectivamente. De la población uno se extraen todas las posibles muestras de
tamaño n1 , y de la población dos todas las posibles muestras de tamaño n2 , con el fin de
obtener M muestras de cada población. Si de cada muestra n1 se extrae su media X y de
cada muestra n2 se extrae su media Y y se relacionan de tal forma que establescan sumas
o diferencias (X + Y ó X − Y ) se tendrá una variable aleatoria formada por el conjunto de
dichas sumas ó diferencias.
σ2X
Proposición 8.4.4 Sean X e Y dos variables aleatorias independientes y normalmente distribuidas con medias µX y µY , además de varianzas σ2X y σY2 respectivamente. Si todos los
posibles pares de muestras se extraen de estas poblaciones, tanto la suma como la diferencia
entre las medias muestrales estarán normalmente distribuidas con medias µX+Y = µX + µY
y µX−Y = µX − µY respectivamente, y además las varianzas de estas dos distribuciones serán
2
iguales, esto es σX+Y
= σ2X−Y = σX2 + σY2 .
8.4. DISTRIBUCIONES MUESTRALES
170
Demostración
Recordemos primeramente que por la proposición 8.4.1 la media de toda distribución
muestral de medias coincide con la media de la población del cual se extraen las muestras.
Entonces la media de la distribuciones muestral de sumas y la media de la distribución muestral de diferencias serán respectivamente
E(X +Y ) = E(X) + E(Y ) = µX + µY
E(X −Y ) = E(X) − E(Y ) = µX − µY
Como las variables aleatorias X e Y son independientes se tendrá que también X e cY ,
con c 6= 0 serán independientes entonces
Var(X +Y ) = Var(X) +Var(Y ) = σ2X + σY2
Var(X −Y ) = Var[X + (−Y )] = Var(X) +Var(−Y ) = Var(X) +Var(Y ) = σX2 + σY2
Observación: Si las poblaciones son infinitas o los muestreos son sin reemplazamiento
entonces
σ2 σ2
σ2X+Y = σ2X−Y = X + Y
nX nY
de lo contrario si almenos uno de ellos por ejemplo la población 1 es finita o el muestreo fue
hecho sin reemplazamiento se tiene
σ2X2 =
σ2X NX − nX
·
nX NX − 1
donde nX y NX son el tamaño de la muestra y de la población uno respectivamente.
Cuando las muestras n1 y n2 son de gran tamaño, esto es n1 + n2 − 2 ≥ 30, la distribución
muestral de sumas de medias por aplicación del teorema central del límite se aproxima a una
distribución normal con media µX+Y = µX + µY y varinaza σ2X+Y = σ2X + σY2 . Por lo tanto la
variable aleatoria
(X +Y ) − µX+Y
Z=
∼ N(0, 1)
σX+Y
Bajo estas mismas condiciones la distribución muestral de diferencias de medias también
se aproxima a una distribución normal con media µX−Y = µX −µY y varinaza σ2X−Y = σ2X +σY2
y la variable aleatoria.
(X −Y ) − µX−Y
Z=
∼ N(0, 1)
σX−Y
Ejemplo 8.4.5 Los acumuladores del automóvil de manufactura XY tienen una duración
promedio de 360 días con una desviación estándar de 45 días, y los de manufactura ZW
duran en promedio 300 días con una desviación estándar de 30 días. Si se prueban muestras
al azar de 50 acumuladores de cada marca.
a) Halllar la probabilidad de que los de la marca XY tenga una duración promedio de a lo
más 40 días sobre los de la marca ZW.
8.4. DISTRIBUCIONES MUESTRALES
171
b) Halllar la probabilidad de que la suma de los promedios de los dos grupos sea mayor
que 670 días.
Desarrollo
Si nombramos por X a los acumuladores del automóvil de manufactura XY y por Y a los
acumuladores del automóvil de manufactura ZW tendremos: µX = 360 días, σX = 45 días,
nX = 50, µY = 300 días, σY = 30 días y nY = 50.
a) La probabilidad de que los acumuladores de la marca XY tenga una duración promedio de a lo más 40 días sobre los de la marca ZW, se puede calcular estableciendo una
distribución muestral de diferencias de medias sobre las dos poblaciones de acumuladores. Además n1 + n2 − 2 = 50 + 50 − 2 = 98, con lo cual
Ã
!
(X −Y ) − (µX − µY )
q
P(X ≤ Y + 40) = P(X −Y ≤ 40) = P Z ≤
σ2X + σY2
entonces se tiene que
Ã
40 − (360 − 300)
P(X −Y ≤ 40) = P Z ≤ q
452
302
50 + 50
!
= P(Z ≤ −2, 61) = 0, 5 − A(−2, 61)
Buscando en la tabla Z: A(−2, 61) = A(2, 61) = 0, 4955, con lo cual
P(X −Y ≤ 40) = 0, 5 − 0, 4955 = 0, 0045
b) La probabilidad de que suma de los promedios de los acumuladores tenga una duración
mayor de 670 días, se puede calcular estableciendo una distribución muestral de sumas
de medias sobre las dos poblaciones de acumuladores para automóviles. Además se
tiene que n1 + n2 − 2 = 50 + 50 − 2 = 98, con lo cual
Ã
!
(X +Y ) − (µX + µY )
q
P(X +Y > 670) = P Z >
σ2X + σY2
8.4. DISTRIBUCIONES MUESTRALES
172
entonces se tiene que
Ã
670 − (360 + 300)
q
P(X +Y > 670) = P Z >
452
302
50 + 50
!
= P(Z > 1, 31) = 0, 5 − A(1, 31)
Buscando en la tabla Z: A(1, 31) = 0, 4049, con lo cual
P(X +Y > 670) = 0, 5 − 0, 4049 = 0, 0951
A continuación se analizará que ocurre cuando de las poblaciones se extraen pequeñas
muestras (cuando n1 + n2 − 2 < 30), y además las varianzas poblacionales son desconocidas.
Para ello consideremos las siguientes variables aleatorias con sus distribuciones asociadas
(X ±Y ) − µX±Y
n1 S 2
n2 SY2
∼ N(0, 1); 2 X ∼ χ2 (n1 − 1) y
∼ χ2 (n2 − 1)
2
σX±Y
σX
σY
Por la proposición 7.2.4
n1 SX2 n2 SY2
+ 2 ∼ χ2 (n1 + n2 − 2); entonces
σ2X
σY
(X ±Y ) − µX±Y
σX±Y
T=v
∼ t(n1 + n2 − 2)
u
u n1 SX2 n2 SY2
u 2 + 2
t σX
σY
n1 + n2 − 2
Si se asume que las varianzas poblacionales son iguales; esto es σ2X = σY2 = σ2 ; se tendrá
las siguientes relaciones
s
r
1
σ2 σ2
1
+
=σ
+
σX±Y =
n1 n2
n1 n2
v
u
u n1 SX2 n2 SY2
s
u 2 + 2
t σX
σY
1 n1 SX2 + n2 SY2
=
n1 + n2 − 2
σ n1 + n2 − 2
8.4. DISTRIBUCIONES MUESTRALES
173
Entonces se tendrá que
(X ±Y ) − µX±Y
r
1
1
σ
+
(X ±Y ) − µX±Y
(X ±Y ) − µX±Y
n
n2
r
=
T= s 1
=s
r
1
1
2
2
2
2
1
n1 SX + n2 SY
1
1 n1 SX + n2 SY
Sp
+
+
n1 n2
n1 + n2 − 2 n1 n2
σ n1 + n2 − 2
s
n1 SX2 + n2 SY2
donde SP =
recibe el nombre de varianza combinada de las muestras.
n1 + n2 − 2
Como se puede observar tanto T como su distribución no dependen de las varianzas
poblaciones. Esto es característico de las distribuciones t.
8.4.7.
Distribución Muestral de Relaciones de Varianzas
8.4.8.
Distribución Muestral de Diferencias de Proporciones
Sean dos poblaciones con distribuciones de Bernoulli, tal que la primera tiene parámetro
P1 y la segunda parámetro P2 . De la población uno se extraen muestras aleatorias de tamaño
n1 , y de la población dos muestras de tamaño n2 . Sean las proporciones muestrales
pˆ1 =
X
Y
y pˆ2 =
n1
n1
donde X es la v.a. que indica el número de unidades de la muestra n1 que posee cierto rasgo y
Y la v.a. que indica el número de unidades en la muestra n2 que posee también un cierto rasgo.
Si las proporciones muestrales se relacionan a pares de tal forma que establescan diferencias
( pˆ1 − pˆ2 ); se tendrá una nueva v.a. formada por el conjunto de dichas diferencias.
Si X e Y son independientes la distribución muestral de diferencias de proporciones estarán dadas respectivamente por
µ pˆ1 − pˆ2 = E( pˆ1 − pˆ2 ) = E( pˆ1 ) − E( pˆ2 ) = µ pˆ1 − µ pˆ2
σ2pˆ1 − pˆ2 = Var( pˆ1 − pˆ2 ) = Var( pˆ1 ) +Var( pˆ2 ) = σ2pˆ1 + σ2pˆ2
Si las poblaciones son infinitas o el muestreo en cada población se realiza con sustitución
la distribución muestral de proporciones en cada población seguirá una ley bimonial y se
tendrá que
µ pˆ1 − pˆ2 = P1 − P2
P1 (1 − P1 ) P2 (1 − P2 )
+
n1
n2
Por el contrario si almenos una de las poblaciones es finita o el muestreo en él se realiza
sin reemplazamiento, la distribución muestral de proporciones obtenida obedecerá a la ley
hipergeométrica y se tendrá que
σ2pˆ1 − pˆ2 =
σ2pˆ1 =
P2 (1 − P2 ) N2 − n2
P1 (1 − P1 ) N1 − n1
·
ó σ2pˆ2 =
·
n1
N1 − 1
n2
N2 − 1
8.5. PROBLEMAS
174
donde N1 es el tamaño de la población uno y N2 el tamaño de la población dos.
Si las muestras son lo suficientemente grandes, por aplicación del teorema central del
límite, la distribución muestral de diferencias de proporciones se apoximará a la normal con
media µ pˆ1 − pˆ2 y varianza σ2pˆ1 − pˆ2 .
Ejemplo 8.4.6 Un colegio de artes liberales tiene 100 profesores, 60 de los cuales tienen el
doctorado. Dos muestras con n1 = n2 = 30, son extraídas independientemente de este grupo
de profesores, con reposición, y se anotan los números de los que tienen el doctorado. Hallar
la probabilidad de que las dos muestras difieran en 8 ó más en el número con doctorado.
Desarrollo
Según el problema el tamaño de la población es de 100 profesores, de las cuales 60 tienen
doctorado y 40 no, con lo cual la proporción de profesores con doctorado es P = 0, 6 y la de
su opuesto es 1 − P = 0, 4. El rasgo a estudiar en cada muestra es tiene doctorado.
X
Y
y p̂2 = ; donde X representa el número de profesores con doctorado
n1
n2
en la muestra n1 y Y número de profesores con doctorado en la muestra n2 . Además como
los muestreos fueron hechos de la misma población y con sustitución, se tiene
Se define p̂1 =
µ p̂1 − p̂2 = P1 − P2 = 0, 6 − 0, 6 = 0
s
σ p̂1 − p̂2 =
P1 (1 − P1 ) P2 (1 − P2 )
+
=
n1
n2
r
(0, 6)(0, 4) (0, 6)(0, 4)
+
= 0, 1265
30
30
Entonces la probabilidad de que las dos muestras difieran en 8 ó más en el número de
profesores con doctorado está dada por
³
³ X −Y
0, 2667 ´
8´
= P( p̂1 − p̂2 ≥ 0, 2667) = P Z ≥
P(X −Y ≥ 8) = P
≥
30
30
0, 1265
= P(Z ≥ 2, 11) = 0, 5 − A(2, 11)
Finalmente la probabilidada pedida es P(X −Y ≥ 8) = 0, 5 − 0, 4826 = 0, 0174.
8.5.
Problemas
Capítulo 9
Estimación
9.1.
Introducción
El objetivo más importante de la Estadística es obtener una inferencia con respecto a
la población basándose en la información contenida en una muestra. Como las poblaciones
se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es deducir una inferencia con respecto a uno o más
parámetros de la población. Los parámetros poblacionales pertenecen a ciertos conjuntos de
valores denominados espacios parámetricos.
Un problema de inferencia estadística o, más simplemente, un problema de estadística es
un problema en el cual se han de analizar datos que han sido generados de acuerdo con una
distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia
acerca de tal distribución. En otras palabras, en un problema de estadística existen dos o más
distribuciones de probabilidad que podrían haber generado algunos datos experimentales.
En la mayoria de los problemas reales, existe un número infinito de distribuciones posibles
distintas que podrían haber generado los datos. Analizando los datos, se intenta conocer la
distribución desconocida para realizar inferencias acerca de ciertas propiedades de la distribución y determinar la verosimilitud relativa que cada distribución posible tiene de ser la
correcta.
Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos
clases: los problemas de estimación y los de prueba de hipótesis.
El procedimiento mediante el cual; a partir del conocimiento de las características de la
muestra que llamaremos estimadores; inferimos las características de la población se llama
estimación, que a su vez se divide en estimación puntual y estimación por intervalos.
9.2.
Estimadores y sus propiedades
Definición 9.2.1 Sea X una v.a. con una distribución de probabilidad que depende de un
parámetro desconocido θ perteneciente a un espacio parámetrico Ω. Sea X1 , X2 , . . . , Xn una
muestra aleatoria de X. Además sean x1 , x2 , . . . , xn los valores muestrales correspondientes.
Si g(X1 , X2 , . . . , Xn ) es una función de la muestra que va a ser usada para estimarle a θ, nos
referimos a g como un estimador de θ.
175
9.2. ESTIMADORES Y SUS PROPIEDADES
176
El valor que toma g, es decir g(x1 , x2 , . . . , xn ) será mencionado como una estimación de θ
y habitualmente es escrito como: θ̂ = g(x1 , x2 , . . . , xn )
9.2.1.
Propiedades de un buen estimador
Insesgado
Se dice que un estimador para un parámetro poblacional es insesgado si su valor esperado es igual al verdadero valor del parámetro poblacional. Esto es; si θ̂ es el estimador
y θ es el parámetro entonces:
E(θ̂) = θ
X
un estimación del parámetro P; donde X es una v.a. binon
mial con parámetros P y n. Probar que p̂ es un estimador insesgado de P.
Ejemplo 9.2.1 Sea p̂ =
Desarrollo
Recordemos que si X ∼ bin(P, n) tendremos que E(X) = nP. Entonces
³X ´ 1
1
E( p̂) = E
= E(X) = nP = P
n
n
n
por lo que p̂ es un estimador insesgado de P.
Eficiente
La eficiencia se refiere al tamaño de la varianza del estadístico. Si comparamos dos
estadísticos; θ̂1 y θ̂2 ambos insesgados con varianzas Var(θ̂1 ) y Var(θ̂2 ) respectivamente; y tratamos de decidir cual de ellos es un estimador más eficiente, escogeríamos
al que tuviese la menor varianza, es decir se preferirá a θ̂1 si Var(θ̂1 ) < Var(θ̂2 ). El
estadístico eficiente recibe el nombre estadístico ó estimador insesgado de varianza
mínima.
Ejemplo 9.2.2 Sea una población con media µ y varianza σ2 . La distribución muesσ2
y la distral de medias tiene media dada por E(X) = µ y varianza Var(X) =
n
tribución muestral de medianas tiene también media E(Xmediana ) = µ, pero varianza
πσ2
Var(Xmediana ) =
. Vemos que X y Xmediana son estimadores insesgados del parámetro
2n
µ y además Var(X) < Var(Xmediana ), por lo que X es un estimador eficiente de µ.
Eficiencia relativa
También se pueden comparar dos estimadores en base a su eficiencia relativa. Sean θ̂1 y
θ̂2 dos estimadores diferentes del parámetro θ. La eficiencia relativa de θ̂2 , comparada
con θ̂1 , se define por la rezón:
E(θ̂1 − θ)2
(9.2.1)
R=
E(θ̂2 − θ)2
9.2. ESTIMADORES Y SUS PROPIEDADES
177
• Si R > 1, θ̂2 será relativamente más eficiente que θ̂1 .
• Si R < 1, θ̂1 será relativamente más eficiente que θ̂2 .
En la ecuación anterior E(θ̂i − θ)2 , para i = 1, 2 se llama error cuadrático medio y
pueden escribirse como
E(θ̂i − θ)2 = Var(θ̂i ) + [θ − E(θ̂i )]2
donde θ − E(θ̂i ) se llama sesgo del estimador y puede ser positivo, negativo ó cero. Si
es cero el estimador será insesgado.
Si θ̂1 y θ̂2 son insesgados, la eficiencia relativa no es más que el cociente de sus varianzar.
Var(θ̂1 )
R=
(9.2.2)
Var(θ̂2 )
Consistente ó convergente
Un estadístico es un estimador consistente de un parámetro poblacional, si a medida
que aumenta el tamaño de la muestra se tiene casi la certeza de que el valor del estadístico se aproxima bastante al valor del parámetro de la población. Entonces, θ̂ es un
estimador consistente del parámetro θ si, para cualquier número ε > 0, la probabilidad
de que la diferencia entre el estimador θ̂ y el parámetro θ sea menor que ε tienda a la
unidad cuando el tamaño de la población (n) tiende al infinito. Es decir:
P(|θ̂ − θ| < ε) −→ 1
cuando
n −→ ∞
Proposición 9.2.1 Sea θ̂ una estimación del parámetro θ basada en una muestra de
tamaño n; si lı́m E(θ̂) = θ, y si lı́m Var(θ̂) = 0; entonces θ̂ es una estimación convergente de θ.
n→∞
n→∞
Ejemplo 9.2.3 La media muestral es un estimador convergente o consistente del parámetro
µ, ya que
σ2
lı́m E(X) = lı́m µ = µ y lı́m Var(X) = lı́m
=0
n→∞
n→∞
n→∞
n→∞ n
Suficiente
Definición 9.2.2 Consideremos una muestra aleatoria X1 , X2 , . . . , Xn tomada de una
poblaciòn con distribución f (x|θ) y sean Y1 ,Y2 , . . . ,Yn estadisticos muestrales. Un estadístico Y1 = Y1 (X1 , X2 , . . . , Xn ) se denomina suficiente si la distribución condicional
f (y2 , y3 , . . . , yn |y1 , θ) = f (y2 , y3 , . . . , yn |y1 ).
La definición anterior nos dice que un estimador θ̂ es suficiente si utiliza una cantidad
de la información contenida de la muestra y además ningún otro estimador podría
extraer información adicional de la muestra sobre el parámetro de la población θ que
se está estimando que no sea ya suministrada por θ̂.
9.2. ESTIMADORES Y SUS PROPIEDADES
178
Criterio de Fisher-Neyman
Un estadístico Y1 = Y1 (X1 , X2 , . . . , Xn ) es suficiente, si y sólo si:
n
f (x1 , x2 , . . . , xn |θ) = ∏ f (xi |θ) = f (y1 |θ)h(x1 , x2 , . . . , xn )
i=1
donde h no contiene a θ.
Ejemplo 9.2.4 Sea X1 , X2 , . . . , Xn una muestra aleatoria tomada de una distribución
Bernoulli con parámetro 0 < p < 1. Verificar que el estadístico Y1 = X1 + X2 + · · · + Xn
es suficiente.
Como la población tiene distribución Bernoulli con parámetro 0 < p < 1, la distribución conjunta de X1 , X2 , . . . , Xn está dada por
n
n
n
f (x1 , x2 , . . . , xn |p) = ∏ f (xi |p) = ∏
i=1
i=1
pxi (1 − p)1−xi
=
∑ xi
pi=1
n
∑ (1 − xi)
(1 − p)i=1
Como el estadístico Y1 está dada por la relación Y1 = X1 + X2 + · · · + Xn entonces tiene
distribución binomial con parámetro p esto es
f (y1 |p) =
n!
py1 (1 − p)n−y1
y1 !(n − y1 )!
n
donde y1 = ∑ xi .
i=1
De las dos relaciones anteriores tendremos que
f (x1 , x2 , . . . , xn |p) = f (y1 |p)
y1 !(n − y1 )!
n!
n
con lo cual según el criterio de Fisher-Neyman Y1 = ∑ Xi es un estimador suficiente.
i=1
Invariante
Un estimador θ̂ de un parámetro θ se dice invariante, respecto a una clase de transformación g, si g(θ̂) es un estimador de g(θ) con propiedades análogas a θ̂.
Ejemplo 9.2.5 Consideremos una distribución normal con media µ y varianza σ2 .
2
Sean X un estimador de µ y X un estimador de µ2 .
Como la distribución muestral de medias tiene media E(X) = µ tenemos que X es un
σ2
y por una
estimador insesgado de µ, además la varianza viene dada por Var(X) =
n
de las propiedades de varianza
σ2
2
2
= E(X ) − [E(X)]2 = E(X ) − µ2
n
9.3. ESTIMACIÓN PUNTUAL
179
σ2
2
+ µ2 . Entonces X no es un estimador insesgado de µ2 , con lo
n
cual X no es un estimador invariante de µ.
2
con los cual E(X ) =
9.3.
Estimación Puntual
El objetivo de la estimación puntual es obtener valores puntuales aproximados de los
parámetros poblacionales. Consiste en considerar que el parámetro poblacional es aproximadamente igual al estimador o valor puntual obtenido apartir de la información de la muestra.
Ejemplo 9.3.1 Los siguientes datos corresponden a una muestra aleatoria de las estaturas
de jugadores de baloncesto de una liga local. Vamos a realizar una estimación puntual de la
estatura promedio de los jugadores de baloncesto de esta liga.
1,95
1,80
2,15
1,85
1,83 2,04
2,05 1,99
2,02
1,95
Se calcula la media aritmética de la muestra de los 10 basquetbolistas:
X=
1 10
∑ xi = 1, 96
10 i=1
Como es una estimación puntual, se establece que la estatura promedio de los jugadores
de baloncesto de esta liga es aproximadamente igual a 1, 96 metros.Esto es µ = 1, 96.
Supongamos ahora que extraemos una muestra aleatoria de una población con cierta distribución de probabilidad y queremos estimar un cierto parámetro de está población a traves
de la muestra tomada. Existen dos metodos de estimación puntual de un parámetro poblacional:
Método de máxima verosimilitud
Método de los momentos
9.3.1.
Estimadores de maxima verosimilitud
Consideremos una distribución de probabilidad concreta sobre la recta real que puede
ser representada por una función de probabilidad o una función de densidad de probabilidad
f . Recordemos que n variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria
de está distribución si son independientes y están idénticamente distribuidas, es decir que
cada Xi , ∀ i = 1, 2, . . . , n tiene función de probabilidad o función de densidad de probabilidad
dada por f . En otras palabras, las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra
aleatoria de la distribución representada por f si su función de probabilidad o función de
densidad de probabilidad conjunta g para los puntos reales x1 , x2 , . . . , xn se especifica como
sigue:
g(x1 , x2 , . . . , xn ) = f (x1 ) · f (x2 ) · · · f (xn )
9.3. ESTIMACIÓN PUNTUAL
180
Considérese un problema de inferencia estadística en el que se van a seleccionar observaciones de una distribución cuya función de probabilidad o de densidad de probabilidad
es f (x|θ), donde θ es un parámetro desconocido. Se supone que el valor desconocido del
parámetro θ debe pertenecer a un espacio paramétrico Ω. El problema de estimación consiste en intentar determinar donde es probable que se encuentre el verdadero valor de θ en Ω,
partiendo de las observaciones de f (x|θ).
Función de verosimilitud
Si las variables aleatroias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución cuya función de probabilidad o de densidad de probabilidad es f (x|θ), entonces
la función de probabilidad o de densidad de probabilidad conjunta de las varables aleatorias
X1 , X2 , . . . , Xn , está dada por:
L(x1 , x2 , . . . , xn |θ) = f (x1 |θ) · f (x2 |θ) · · · f (xn |θ)
Cuando la función de probabilidad o de densidad de probabilidad conjunta L(x1 , x2 , . . . , xn |θ)
de las observaciones de una muestra aleatoria se considera como una función de θ para los
valores x1 , x2 , . . . , xn se llama función de verosimilitud.
Ejemplo 9.3.2 Supongamos que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución de Bernoulli con parámetro p desconocido (0 ≤ p ≤ 1).
Encontrar la función de verosimilitud.
Desarrollo
Como cada Xi ; ∀ i = 1, 2, . . . , n; tiene distribución de Bernoulli entonces
 x
si x = 0, 1
 p i (1 − p)1−xi
f (x) =

0
en otro caso
por lo que la función de verosimilitud es
n
n
∑ xi
n
∑ (1 − xi)
L(x1 , x2 , . . . , xn |p) = ∏ pxi (1 − p)1−xi = pi=1 (1 − p)i=1
i=1
Pasos para obtener el estimador de verosimilitud
Tomar una muestra aleatoria de tamaño n de la población cuyo parámetro θ se desea
estimar.
Establecer la forma de la función de probabilidad o densidad de probabilidad de la
población.
Obtener la función de verosimilitud a partir de la muestra.
Por ultimo el estimador de verosimilitud será el valor de θ que maximiza al logaritmo
de la función de verosimilitud.
9.3. ESTIMACIÓN PUNTUAL
181
Ejemplo 9.3.3 Suponiendo que el tiempo para fallar T , de una componente tiene una distribución exponencial con parámetro β desconocido. Si se extrae una mustra aleatoria de
tamaño n de esta población, hallar el estimador de verosimilitud de β.
Desarrollo
Como cada Ti , ∀ i = 1, 2, . . . , n tiene distribución exponencial con prámetro β por ser una
muestra aleatoria proveniente de una población exponencial con dicho parámetro entonces

si ti > 0
 βe−βti
f (ti ) =

0
en otro caso
por lo que la función de verosimilitud es
n
−β
n
−βti
L(x1 , x2 , . . . , xn |p) = ∏ βe
n
∑ ti
i=1
=β e
i=1
entonces el logaritmo de esta función esta dada por la siguiente relación
n
−β
n
log L(x1 , x2 , . . . , xn |p) = logβ e
∑ ti
i=1
Aplicando propiedades de logaritmo teenmos
n
log L(x1 , x2 , . . . , xn |p) = nlog β − β ∑ ti
i=1
Derivando parcialmente con respecto a β la expresión anterior e igualando a cero se
obtiene la siguiente relación
n
∂
1
(log L(x1 , x2 , . . . , xn |p)) = n − ∑ ti = 0
∂β
β i=1
con lo cual
β̂ =
n
n
=
∑ ti
1
t
i=1
1
Entonces el estimador verosimil de β es β̂ = .
t
9.3.2.
Estimadores por el método de los momentos
Recordemos que la definición del r-ésimo momento alrededor del origen de una v.a. X
está dada por E(X r ).
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribución con función de probabilidad
o de densidad de probabilidad f (X|θ). El r-ésimo momento muestral alrededor del origen se
define por
1 n
mr = ∑ Xir
n i=1
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
182
El método de los momentos proporciona una alternativa razonable cuando no se puede
determinar los estimadores de máxima verosimilitud. Este método consiste en igualar los
momentos apropiados de la distribución de la población, con los correspondientes momentos
muestrales para estimar un parámetro desconocido de la distribución.
Sea f (x|θ1 , θ2 , . . . , θk ) una función de probabilidad o de densidad con k parámetros y
designemos por µ1 , µ2 , . . . , µk ,los primeros k momentos alrededor del origen, es decir


si X es discreta
∑ xt f (x|θ1, θ2, . . . , θk )



x
µt =
Z ∞



xt f (x|θ1 , θ2 , . . . , θk )dx
si X es continua

−∞
para t = 1, 2, . . . , k.
En general µt será función de los k parámetros. Sea ahora X1 , X2 , . . . , Xn una muestra
aleatoria de tamaño n de f (x|θ1 , θ2 , . . . , θk ). A partir de esta muestra formamos los k primeros
momentos muestrales m1 , m2 , . . . , mn . Sean θ̂1 , θ̂2 , . . . , θ̂k las soluciones que resultan de las k
ecuaciones mt = µt , para t = 1, 2, . . . , k. Las soluciones θ̂1 , θ̂2 , . . . , θ̂k constituyen los estimadores por el metodo de los momentos.
Ejemplo 9.3.4 Sea una población normal con parámetros µ y σ2 , ambas desconocidas. Sea
X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de esta distribución. Obtener por el metodo
de los momentos las estimaciones de µ y de σ2 .
Desarrollo
Como la distribución es normal entonces E(X) = µ y Var(X) = σ2 . Además recordemos
que Var(X) = E(X 2 ) − [E(X)]2 , entonces E(X 2 ) = σ2 + µ2 . Por otro lado los momentos
1 n
1 n
muestrales se definen como m1 = ∑ Xi y m2 = ∑ Xi2 . Tomando en consideración la
n i=1
n i=1
n
1
1 n
relación mt = µt temdremos que : µ = ∑ Xi = X y σ2 + µ2 = ∑ Xi2 , entonces
n i=1
n i=1
´ 1 n
1 n
1³ n 2
2
2
σ2 = ∑ Xi2 − X =
X
−
nX
= ∑ (Xi − X)2
∑
i
n i=1
n i=1
n i=1
Entonces los estimadores por el método de los momentos son
1 n
ˆ
2
µ̂ = X y σ = ∑ (Xi − X)2
n i=1
9.4.
Estimación por Intervalos de Confianza
La estimación puntual no es muy conveniente, pues con el procedimiento de estimación
de un parámetro a través de un único valor no se puede determinar el error de muestreo, ni la
precisión de la estimación, ni la confianza que merece tal estimación.
Hay otro método para hacer una estimación mucho más precisa, la estimación por intervalos de confianza. Este método consiste en el procedimiento de encontrar un intervalo de
valores dentro del cual se espera que se encuentre un parámetro poblacional.
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
183
Definición 9.4.1 Sea α ∈ (0, 1). Un intervalo de confianza para un parámetro desconocido
θ de una distribución de probabilidad es un intervalo aleatorio de la forma (θ̂1 , θ̂2 ), en donde
θ̂1 y θ̂2 son estadísticas muestrales tales que:
P(θ̂1 < θ < θ̂2 ) = 1 − α
A las estadísticas θ̂1 y θ̂2 se les conoce como límites inferior y superior, respectivamente,
del intervalo de confianza. A los números α y 1 − α se les conoce como nivel se significación
y grado o nivel de confianza, respectivamente. En general, se toma el valor de α cercano a 0
de tal forma que el grado de confianza, 1−α, es cercano a 1. Entonces el nivel de confianza es
la probabilidad de que el parámetro poblacional se encuentre dentro del intervalo encontrado.
Los niveles de confianza más ampliamente usados son 0, 95 y 0, 99, sin embargo puede usarse
cualquier probabilidad cercana a 1.
Interpretación de un intervalo de confianza
Según la definición anterior; podríamos realizar la interpretación de dos maneras distintas, que son:
el verdadero valor del parámetro desconocido θ se encuentre entre los valores θ̂1 y θ̂2
con un grado de confiabilidad de 1 − α; o también
la probabilidad de que el verdadero valor del parámetro desconocido θ se encuentre
entre los valores θ̂1 y θ̂2 es igual a 1 − α.
Para entender mejor el concepto de intervalo de confianza vamos a suponer que seleccionamos 100 muestras de una población y calculamos la media de las muestras e intervalos
de confianza del 95 % para cada muestra. Descubriremos que cerca de 95 de los 100 intervalos de confianza contienen la media poblacional.
Pasos para construir un intervalo de confianza
1. Establecer el nivel de confianza.
2. Determinar el valor de la variable aleatoria estándar.
3. Calcular los estadísticos de la muestra.
4. Calcular el error estándar.
5. Calcular el error máximo de estimación.
6. Determinar los límites del intervalo de confianza e interpretar.
9.4.1.
Intervalos de confianza para estimar la media de una población
Para la estimación de la media µ de una población se deben tener en cuenta las siguientes
condiciones:
Tomar una muestra aleatoria de tamaño n de la población cuya media se quiere estimar.
El estadístico a utilizar es la media muestral X.
La distribución muestral a considerar es la distribución muestral de medias.
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
184
Intervalos de confianza para estimar la media de una población con muestras grandes
Recordemos que si la muestra es lo suficientemente grande, esto es n ≥ 30, la distribución muestral de medias por aplicación del teorema central del límite se aproxima a una
distribución normal con media µX = µ y varianza σ2X . Entonces la v.a.
Z=
X − µX
∼ N(0, 1)
σX
Por lo tanto para encontrar el intervalo de confianza podríamos establecer un nivel de
confianza de 1 − α, que sería la probabilidad de que Z se encuentre entre dos valores, esto es
³
´
X − µX
P(Z1 < Z < Z2 ) = P Z1 <
< Z2 = 1 − α
σX
Como la distribución normal tipificada está centrada en el cero y es simétrica entonces
podríamos establecer que Z1 = −Z2 . Si Zc = Z2 y se despeja µX en expresión
Z1 <
X − µX
< Z2
σX
se tendrá
X − Zc σX < µX < X + Zc σX
que generalmente se abrevia como
X ± Zc σX
con lo cual el intervalo buscado para la media poblacional µ es
(X − Zc σX , X + Zc σX )
Finalmente la expresión para el intervalo de confianza en término de probabilidad está
dada por la relación
P(X − Zc σX < µ < X + Zc σX ) = 1 − α
σ2
σ2 N − n
, de lo contrario σ2X =
·
,
n
n N −1
donde N es el tamaño de la población. Si se desconoce el valor de la varianza poblacional σ2 ,
se ha de utilizar la varianza muestral S2 para encontrar el intervalo.
Nota: Recordar que si la población es infinita σ2X =
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
185
Ejemplo 9.4.1 Los resultados siguientes representan las calificaciones de una muestra aleatoria de estudiantes en el primer examen de estadística elemental. Elaborar un intervalo de
confianza del 95 % para estimar la media poblacional.
23
80
52
41
60
34
60
77
10
71
78
67
79
81
64
83
89
17
32
95
75
54
76
82
57
41
78
64
84
69
74
65
25
72
48
74
52
92
80
88
84
63
70
85
98
62
90
80
82
55
81
74
15
85
36
76
67
43
79
61
Desarrollo
1. El nivel de confianza ya está establecido como 95 %. Entonces 1 − α = 0, 95
2. Como se trata de estimar la media poblacional y n = 60 > 30, la variable aleatoria
estándar a utilizar es Z de la distribución normal estándar. Como 1 − α es la probabilidad de que la media poblacional se encuentre dentro del intervalo buscado (centro de
la curva), α es la probabilidad de que no se encuentre en el intervalo (extremos de la
α
curva), y cada extremo de la curva o cola corresponde al valor .
2
Como la distribución normal estándar se tabula dos maneras: la primera utilizando la
función de distribución (tabla 1) y la segunda integrando la función de densidad en
el intervalo que va de cero a cualquier valor positivo de Z (tabla 2). Como nosotros
utilizaremos la tabla 2, busquemos en dicha tabla el valor de Z que corresponde al área
α
de 0, 5 − , que resulta ser 1, 96.
2
3. Para estimar la media poblacional necesitamos calcular los estadísticos de la muestra
que son la media y la varianza muestral. Entonces la media muestral será
X=
1 60
3929
Xi =
= 65, 483
∑
60 i=1
60
En el caso de la varianza muestral se puede optar por S2 ó Ŝ2 , la elección es del investigador, pero generalmente se prefiere usar Ŝ2 ya que es un estimador insesgado de la
varianza poblacional σ2 . Para fines comparativos calculemos los dos
S2 =
283635 ³ 3929 ´2
60 2
1 60 2
2
X
=
−
= 439, 183 y Ŝ2 =
S = 446, 627
X
−
∑
i
60 i=1
60
60
60 − 1
4. Como no conocemos el tamaño de la población se asume que es infinita. Calculemos
ahora el error estándar utilizando la desviación estándar muestral para las dos situaciones (S y Ŝ), esto se hace debido a que no conocemos el valor de σ2 . Por lo tanto
S
Ŝ
σX = √ = 2, 705 y σX = √ = 2, 728
60
60
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
186
5. A continuación se calcula el error máximo de estimación denotado por E para las dos
situaciones, entonces
E = Zc σX = (1, 96)(2, 705) = 5, 302 y E = Zc σX = (1, 96)(2, 728) = 5, 347
6. Finalmente se calculan los límites del intervalo de confianza de la siguiente manera:
Restando a la media de la muestra el error máximo de estimación se obtiene el
límite inferior.
Sumando a la media de la muestra el error máximo de estimación se obtiene el
límite superior.
Entonces si ulitizamos S como estimación de σ, los límites inferior y superior serán
respectivamente
X − E = 60, 181 y X + E = 70, 785
por lo que el intervalo de confianza buscado será (60, 181 ; 70, 785), es decir
P(60, 181 < µ < 70, 785) = 0, 95
Este resultado se interpreta de la siguiente manera: “ La calificación media de los estudiantes en el primer examen de estadística elemental, se encuentre entre 60,181 y
70,785” con un grado de confianza del 95 %.
Si por el contrario utilizamos Ŝ, los límites inferior y superior serán respectivamente
X − E = 60, 136 y X + E = 70, 83
por lo que el intervalo de confianza buscado será (60, 136 ; 70, 83), es decir
P(60, 136 < µ < 70, 83) = 0, 95
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95
de que la calificación media de los estudiantes en el primer examen de estadística
elemental, se encuentre entre 60,136 y 70,83”.
Si comparamos los intervalos obtenidos vemos que hay muy poca diferencia, pero la
obtenida con Ŝ es un poco más ancha y por lo tanto un poco más fiable.
Intervalos de confianza para estimar la media de una población con muestras pequeñas
Si la muestra es de tamaño menor que 30 y la varianza poblacional es desconocida, entonces para calcular el intervalo de confianza que contiene a la media poblacional se utiliza
la distribución t de Student en vez de la distribución normal. Luego se siguen los mismos
pasos de los intervalos de confianza para muestras grandes.
Tomando en consideración que cuando se tienen muestras paqueñas (n < 30) y la varianza
poblacional es desconocida, la distribución muestral de medias puede ser relacionada con una
distribución t de Studens. Por lo tanto la v.a.
√
(X − µX ) n − 1
∼ t(n − 1)
T=
S
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
187
Como t al igual que Z, está centrada en el origen y es simétrica podemos reemplazar a Z
por T en el procedimiento anterior para encontrar un intervalo de confianza con un grado de
fiabilidad de 1 − α para la media poblacional µ, esto es
√
³
´
(X − µX ) n − 1
P(−tc < T < tc ) = P − tc <
< tc = 1 − α
S
Realizando un análisis totalmente análogo al caso de muestras grandes se tendrá que
S
S
X − tc √
< µ < X + tc √
n−1
n−1
con lo cual el intervalo buscado estará dada por
³
S
S ´
X − tc √
, X + tc √
n−1
n−1
que se abrevia generalmente con la expresión
X ± tc √
S
n−1
Entonces la expresión para el intervalo de confianza en término de probabilidad entá dada
por
³
S
S ´
P X − tc √
< µ < X + tc √
= 1−α
n−1
n−1
Ejemplo 9.4.2 Una muestra aleatoria de 12 secretarias que escriben a máquina arrojó un
promedio 85,2 palabras por minuto con una desviación estándar de 9,3 palabras por minuto. Encuentre un intervalo de confianza de 95 % para el número promedio de palabras por
minuto escritas por todas las secretarias.
Desarrollo
1. El nivel de confianza establecido es 1 − α = 0, 95.
2. Como la muestra es pequeña (n = 12 < 30) y la varianza poblacional es desconocida
se procede a determina el valor de t, para lo cual antes se debe determinar los grados
de libertad, que están dadas por n − 1 = 12 − 1 = 11. El valor de αt de la tabla de la
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
188
distribución t corresponde al área que se encuentra a la derecha del valor positivo de t
que buscamos, por lo tanto para los intervalos de confianza sería la mitad del valor del
nivel de significación, esto es
αt =
α 0, 05
=
= 0, 025
2
2
Se busca en la tabla t lo siguiente
n − 1 = 11
α/2 = 0, 025
2,201
con lo cual el valor buscado es tc = 2, 201.
3. Los estadísticos de la muestra son: X = 85, 2 y S = 9, 3
4. El error estándar estará dada por
S
9, 3
√
=√
= 2, 804
n−1
12 − 1
5. El error máximo de estimación será
S
= (2, 201)(2, 804) = 6, 172
E = tc √
n−1
6. Finalmente los límites inferior y superior serán respectivamente
X − E = 85, 2 − 6, 172 = 79, 028 y X + E = 85, 2 + 6, 172 = 91, 372
Por lo tanto el intervalo de confianza buscado es (79, 028 ; 91, 372), que en término de
probabilidades se expresa como
P(79, 028 < µ < 91, 372) = 0, 95
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de
que el número promedio de palabras por minuto escritas por todas las secretarias, se
encuentre entre 79,028 y 91,372”.
9.4.2.
Intervalos de confianza para la varianza y la desviación típica de
una población.
Intervalos de confianza para la varianza
Para encontrar un intervalo de confianza con un cierto grado de fiabilidad 1 − α, para
todo 0 < α < 1, que contenga a la varinaza poblacional σ2 , si esta se desconocida, se puede
nS2
utilizar a la v. a. 2 , donde n es el tamaño de muestra y S2 es la varianza muestral. Teniendo
σ
en cuenta que esta v. a. se distribuye como una ji-cuadrada con n − 1 grados de libertad,
puede seleccionarse dos valores de esta distribución (χ2c y χ2l ), tales que la probabilidad de
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
189
nS2
que 2 esté entre estos dos valores sea igual al grado de fiabilidad propuesto, tal como lo
σ
muestra la figura 9.1. Esto es
³
´
nS2
P χ2c < 2 < χ2l = 1 − α
σ
Figura 9.1: Gráfica del proceso de elección de los valores χ2c y χ2l .
Tomando la expresión χ2c <
nS2
< χ2c y despejando en ella a σ2 , se tendrá
σ2
χ2l
χ2c
1
nS2
nS2
2
<
<
−→
<
σ
<
nS2 σ2 nS2
χ2c
χ2l
Entonces la probabilidad de que la varianza poblacional esté entre los valores
estará dada por la relación
nS2 nS2
y 2
χc
χ2l
³ nS2
nS2 ´
P 2 < σ2 < 2 = 1 − α
χc
χl
con lo cual el intervalo de confianza de σ2 con un nivel de confianza de 1 − α estará dada por
³ nS2
χ2l
,
nS2 ´
χ2c
Analizando la elaboración de la tabla de la distribución ji-cuadrada encontramos que si
X ∼ χ2 (n) entonces P(X ≤ x) = p, donde p es el área bajo la curva y va desde el valor cero a
un cierta valor x = χ2[p ; ν] , donde ν son los grados de libertad, tal como lo muestra la siguiente
figura
Por lo tanto analizando las figuras 9.1 y 9.2, tenemos que:
χ2l = χ2[1− α
2
; n−1]
y χ2c = χ2[ α
2
; n−1]
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
190
Figura 9.2: Gráfica de la distribución acumulada de la χ2 .
Intervalos de confianza para la desviación típica
De la expresión que se obtuvo para el estimdor por intervalos de confianza para la varianza de una población, se puede encontrar un intervalo de confianza para la desviación estándar.
Entonces de la expresión
nS2
nS
< σ2 < 2
2
χ[1− α ; n−1]
χ[ α ; n−1]
2
se obtiene lo siguiente
√
χ[1− α2
2
nS
<σ<
; n−1]
√
nS
χ[ α2
; n−1]
en término de probabilidades, esto es
√
√
³
³ √nS
nS2
nS ´
nS ´
2
P 2
<σ < 2
=P
<σ<
= 1−α
χ[1− α2 ; n−1]
χ[ α2 ; n−1]
χ[1− α ; n−1]
χ[ α ; n−1]
2
2
Por lo tanto el intervalo de confianza para σ está dada por
√
³ √nS
nS
;
)
χ[1− α2 ; n−1] χ[ α2 ; n−1]
Ejemplo 9.4.3 Las resistencias a la rotura, expresada en libras, de 5 ejemplares de cuerdas
están dadas por los siguientes valores:
460
540
660
580
550
Estime los intervalos de confianza del 90 % para la varianza σ2 y la desviación estándar
σ de la poblacional.
Desarrollo
1. El nivel de confianza establecido es 1 − α = 0, 90, con lo cual α = 0, 10.
2. Como se desea estimar a la varianza poblacional, la variable aleatoria a utilizar es χ2 de
la distribución ji-cuadrada. Como siguiente paso, se procede a determina los valores χ2c
y χ2l , para lo cual antes se debe determinar los grados de libertad que están dadas por
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
191
n − 1 = 5 − 1 = 4. El valor de p de la tabla de la distribución ji-cuadrada corresponde
al área que se encuentra a la izquierda del valor de χ2 que se busca. Como
χ2l = χ2[1− α
2
; n−1]
= χ2[0,95 ; 4] y χ2c = χ2[ α
2
; n−1]
= χ2[0,05 ; 4]
se busca en la tabla de la ji-cuadrada lo siguiente
gl = 4
p = 0, 05
0,7107
y
gl = 4
p = 0, 95
9,488
con lo cual los valores buscado son χ2c = 0, 711 y χ2l = 9, 488.
3. Los estadísticos de la muestra son: X = 558 y S2 = 4176
4. Los límites inferior y superior del intervalo buscado son respectivamente
nS2 (5)(4176)
=
= 2200, 67
χl
9, 488
y
nS2 (5)(4176)
=
= 29367, 09
χc
0, 711
Con lo cual el intervalo buscado para la varianza es (2200, 67 ; 29367, 09), que en
término de probabilidades se expresa como
P(2200, 67 < σ2 < 29367, 09) = 0, 90
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,90
de que el verdadero valor de la varianza de la población de secretarias que escriben
palabras por minuto, se encuentre entre los valores 2200,67 y 29367,09”.
Del resultado anterior, el intervalo de confianza del 90 % para la desvición estándar
poblacional estará dada por
46, 91 < σ < 171, 37
Este resultado se interpreta de la misma manera que para el caso anterior, esto es,
sustituyendo la palabra varianza por la de desiviación estándar.
9.4.3.
Intervalos de confianza para estimar Proporciones
Sea una población con una distribución Bernoulli cuyo parámetro P es desconocido y se
desea estimar estableciendo un intervalo de confianza con un cierto grado de fiabilidad. Para
esta finalidad se utilizarará la distribución muestral de proporciones.
Recordemos que si el tamaño de la muestra es lo suficientemente grande (n ≥ 30) por
aplicación del teorema central del límite la distribución muestral de proporciones se aproxima
P(1 − P)
. Por lo tanto la v.a.
a una distribución normal con media µ p̂ = P y varianza σ2p̂ =
n
Z=
p̂ − µ p̂
∼ N(0, 1)
σ p̂
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
192
Si establecemos un nivel de confianza de 1−α para la estimación del intervalo de confianza para P y realizamos los mismos pasos hechos en el caso de medias con muestras grandes,
tendremos que
P( p̂ − Zc σ p̂ < µ p < p̂ + Zc σ p̂ ) = 1 − α
r
r
P(1 − P)
p̂(1 − p̂)
, en su lugar se utilizará a
.
Como no se conoce el valor σ p̂ =
n
n
Entonces tendremos que
r
r
³
p̂(1 − p̂)
p̂(1 − p̂) ´
P p̂ − Zc
< P < p̂ + Zc
= 1−α
n
n
Por lo que el intervalo buscado estará dada por
Ã
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
p̂ − Zc
; p̂ + Zc
n
n
Ejemplo 9.4.4 Se pregunta a 2000 votantes cuál será la actitud respecto a una determinada
propuesta política; 800 se oponen. Suponiendo que la muestra fuese aleatoria y procedente de
una población Bernoulli. Construya un intervalo de confianza para la proporción de votantes
a favor de la propuesta política para un 95 % de confianza.
Desarrollo
1. El nivel de confianza fijado es 1 − α = 0, 95.
2. Como se trata de estimar una proporción y además n = 60 > 30, la variable aleatoria
estándar a utilizar es Z de la distribución normal estándar. Como 1 − α = 0, 95, ya
vimos anteriormente que Zc = 1, 96.
3. Para realizar la estimación de la proporción P de votantes que están a favor de la propX
uesta política bajo un intervalo necesitamos calcular el estadístico muestral p̂ = ,
n
donde X es el número de votantes que están a favor de la propuesta política, entonces
p̂ =
4. El error estándar estará dada por
r
σ p̂ =
1200
= 0, 6
2000
0, 6(1 − 0, 4)
= 0, 01095
2000
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
193
5. El error máximo de estimación será
E = Zc σ p̂ = (1, 96)(0, 01095) = 0, 0215
6. Los límites inferior y superior serán respectivamente
p̂ − E = 0, 6 − 0, 0215 = 0, 5785 y p̂ + E = 0, 6 + 0, 0215 = 0, 6215
Por lo que el intervalo buscado es (0, 5785 ; 0, 6215), que en términos de probabilidades se expresa como
P(0, 5785 < P < 0, 6215) = 0, 95
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de
que la proporción de votantes que están a favor de la propuesta política, se encuentre
entre los valores 0,5785 y 0,6215”.
9.4.4.
Intervalos de confianza para estimar Diferencias de Medias
Si tenemos dos poblaciones, de las cuales extraemos muestras de ciertos tamaños, hay
que tener en cuenta que se puede construir una distribución muestral para la diferencia de las
medias muestrales. Si las medias poblaciones son desconocidas; en esta sección se estimará
un intervalo de confianza para la diferencia de estas medias utilizando la distribución muestral
de diferencias de medias.
Intervalos de confianza para Diferencias de Medias utilizando la distribución normal
Si de la población uno con media µ1 desconocida y varianza σ21 extraemos muestras de
tamaño n1 , y de la población dos con media µ2 desconocida y varianza σ22 extraemos muestras
de tamaño n2 ; y tenemos que n1 + n2 − 2 ≥ 30 por aplicación del teorema central del límite
la variable aleatoria
(X −Y ) − µX−Y
∼ N(0, 1)
Z=
σX−Y
s
σ21 σ22
donde µX−Y = µ1 − µ2 y σX−Y =
+ .
n1 n2
Por lo tanto si la estimación del intervalo de confianza será hecho con un nivel de confianza de 1 − α y se sigue un razonamiento análogo al hecho en el caso de una población con
media desconocida; se tendrá la siguiente relación
´
³
(X −Y ) − µX−Y
P − Zc <
< Zc = 1 − α
σX−Y
que se transforma en
P[(X −Y ) − Zc σX−Y < µX−Y < (X −Y ) + Zc σX−Y ] = 1 − α
Por lo que el intervalo de confianza para diferencias de medias está dada por
s
s
!
Ã
2
2
σ1 σ2
σ21 σ22
X −Y − Zc
+
; X −Y + Zc
+
n1 n2
n1 n2
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
194
Observación: Si n1 + n2 − 2 ≥ 30 y se desconocen
las varianzass
poblaciones se utilizan
s
las varianzas muestrales; dicho de otro modo
S12 S22
+
en lugar de
n1 n2
σ21 σ22
+ .
n1 n2
Ejemplo 9.4.5 En un laboratorio, se experimenta con dos drogas que reducen el tiempo de
respuesta a cierto estímulo. Se administra a 35 ratas la droga 1 y a 30 la droga 2. La reducción
del tiempo de reacción al estímulo de cada rata fue registrada como sigue:
Reducción del tiempo con la droga 1
28
31
33
23
20
30
22
34
32
35
30
33
36
34
43
26
28
27
23
29
28
33
33
29
38
27
26
21
24
24
27
15
28
19
27
Reducción del tiempo con la droga 2
11
21
7
21
23
23
24
27
23
30
17
17
16
16
25
37
29
22
12
26
27
15
23
29
19
16
17
33
36
14
Encuentre un intervalo de confianza del 90 % para estimar la diferencia entre los tiempos
de respuesta promedio al estímulo de los grupos e interprete el resultado.
Desarrollo
El nivel de confianza ya establecido es 1 − α = 0, 90.
Como n1 + n2 − 2 = 35 + 30 − 2 = 63 > 30, la variable aleatoria a utilizar es Z de la
normal tipificada. Como 1 − α = 0, 90, buscando en la tabla de Z, encontraremos que
Zc = 1, 645.
Los estadísticos muestrales a utilizar son
X = 28, 457
S12 = 32, 3053
n1 = 35
Y = 21, 867
S22 = 51, 3156
n2 = 30
El error estandar de estimación es
r
σX−Y =
32, 3053 51, 3156
+
= 1, 623
35
30
El error máximo de estimación estará dada por
E = (1, 645)(1, 623) = 2, 67
Los límites inferior y superior serán respectivamente
X −Y − E = 28, 457 − 21, 867 − 2, 67 = 3, 92 y
X −Y + E = 28, 457 − 21, 867 + 2, 67 = 9, 26
Por lo tanto el intervalo de confianza buscado es (3, 92 ; 9, 26), que en término de
probabilidades se expresa como
P(3, 92 < µ1 − µ2 < 9, 26) = 0, 90
Entonces hay una probabilidades de 0,90 de que la diferencia entre los tiempos de
respuesta promedio al estímulo de los grupos esté entre 3,92 y 9,26.
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
195
Intervalos de confianza para Diferencias de Medias utilizando la distribución t
Si las poblaciones tienen varianzas desconocidas y además, de ellas se extraen muestras
cuyos tamaños cumplen con la condición n1 + n2 − 2 < 30; suponiendo igualdad de varianzas poblacionales se puede utilizar la distribución t de Student para establecer intervalos de
confianza para la diferencia de medias.
Si el grado de fiabilidad es igual a 1 − α y la varianza combinada de las muestras es define
n1 SX2 + n2 SY2
2
por S p =
; entonces
n1 + n2 − 2
Ã
!
(X −Y ) − µX−Y
r
P − tc <
< tc = 1 − α
1
1
Sp
+
n1 n2
que con aplicaciones algebraicas se transforma en la relación
Ã
!
r
r
1
1
1
1
P X −Y − tc S p
+ < µ1 − µ2 < X −Y + tc S p
+
= 1−α
n1 n2
n1 n2
con lo cual; el intervalo de confianza buscado en estas condiciones está dada por la expresión
Ã
!
r
r
1
1
1
1
X −Y − tc S p
+
; X −Y + tc S p
+
n1 n2
n1 n2
donde tc es el valor de t con n1 + n2 − 2 grados de libertad.
Ejemplo 9.4.6 Durante varios años se han cultivado, en diversos lugares de un área, dos
variedades de cebada y está en discusión su adaptación. ¿Cuál se seleccionará para el área,
basandose en las siguientes cosechas por hectárea?
Trebi
120,6
Svanota 115,4
56,5
90,2
133,2
130,3
187,1
147,9
186,9
120,3
129,4
77,6
155,2
104,5
Localice los límites de confianza de la diferencia entre las medias con un grado de confianza
del 99 % e interprete el resultado.
Desarrollo
El nivel de confianza establecido es 1 − α = 0, 99
Como n1 + n2 − 2 = 7 + 7 − 2 = 12 < 30 y las varianzas poblacionales son desconocidas, la variable aleatoria estándar a usar es la t de la distribución t de Student, que
en este caso tendrá 12 grados de libertad. El valor de αt de la tabla para este caso
corresponde al valor
α 0, 01
= 0, 005
αt = =
2
2
Por lo que se busca en la tabla t lo siguiente
n1 + n2 − 2 = 12
con lo cual el valor buscado es tc = 3, 055.
α/2 = 0, 005
3,055
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
196
Los estadisticos muestrales a utilizar son:
X = 138, 4143
SX2 = 1734, 09551
n1 = 7
Y = 112, 3143
SY2 = 488, 329796
n2 = 7
con lo cual la diferencia entre las medias y la varianza combinada de las muestras son
respectivamente
X −Y = 138, 4143 − 112, 3143 = 26, 1
S2p
n1 SX2 + n2 SY2
7(1734, 09551) + 7(488, 329796)
=
=
= 1296, 4148
n1 + n2 − 2
7 + 7 − 12
El error estándar de estimación está dada por
r
r
p
1
1
1 1
Sp
+ = 1296, 4148
+ = 19, 2459
n1 n2
7 7
El error máximo de estimación es
r
1
1
+ = (3, 055)(19, 2459) = 58, 8
E = tc S p
n1 n2
Los límites inferior y superior serán respectivamente
X −Y − E = 26, 1 − 58, 8 = −32, 7 y X −Y + E = 26, 1 + 58, 8 = 84, 9
Por lo que el intervalo buscado es (−32, 7 ; 84, 9), que en términos de probabilidades
se expresa como
P(−32, 7 < µX − µY < 84, 9) = 0, 99
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,99 de
que la diferencias entre los promedios de los dos tipos de cebadas, se encuentre entre
los valores -32,7 y 84,9”.
9.4.5.
Intervalos de confianza para Relaciones de Varianzas
Sean dos muestras aleatorias independientes de tamaños m y n, con varianzas S12 y S22 , que
se extraen de dos poblaciones distribuidas normalmente con varianzas desconocidas σ21 y σ22
respectivamente. Con base a estas informacionesÃse puede
! estimar un intervalo de confianza
2
σ1
para la relación de estas varianzas desconocidas
. Como primer paso para conseguirlo
σ22
se toma en cuenta las siguientes variables aleatorias con sus distribuciones asociadas
mS12
nS22
2
∼
χ
(m
−
1)
y
∼ χ2 (n − 1)
2
2
σ1
σ2
Suponiendo independencia entre estas variables aleatorias; entonces por lo ya visto anteriormente el cociente entre dos variables con distribuciones ji-cuadradas divididas por sus
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
197
grados de libertad correspondientes constituye una variable aleatoria con distribución F de
Snedecor con m − 1 y n − 1 grados de libertad; esto es
mS12
(m−1)σ21
nS22
(n−1)σ22
∼ F(m − 1; n − 1)
Por lo tanto si se establece un nivel de confianza de 1 − α, se tiene que
Ã
P F1 <
mS12
(m−1)σ21
nS22
(n−1)σ22
!
< F2
´
³
m(n − 1)S12 σ22
< F2 = 1 − α
= P F1 <
n(m − 1)S22 σ21
que por medio de procedimientos algebráicos se transforma en
³ 1 m(n − 1)S2 σ2
1 m(n − 1)S12 ´
1
1
P
·
<
<
·
= 1−α
F2 n(m − 1)S22 σ22 F1 n(m − 1)S22
Por conveniencia se podría tomar a F1 = F[ α2 ; m−1 ; n−1] y F2 = F[1− α2
de tener en cuenta que
mS12
nS22
Ŝ12 =
y Ŝ22 =
m−1
n−1
la ultima expresión se transforma en
³
P
1
F[1− α2
·
; m−1 ; n−1]
Ŝ12 σ21
<
<
Ŝ22 σ22 F[ α2
1
; m−1 ; n−1] ;
·
Ŝ12 ´
= 1−α
Ŝ22
·
Ŝ12 ´
Ŝ22
; m−1 ; n−1]
Finalmente el intervalo buscado está dado por
³
1
F[1− α2
·
; m−1 ; n−1]
Ŝ12
;
Ŝ22 F[ α2
1
; m−1 ; n−1]
En la realización de los cálculos resulta útil recordar que
F[1− α2
; m−1 ; n−1]
=
1
F[ α2
; n−1 ; m−1]
ó F[ α2
; m−1 ; n−1]
=
1
F[1− α2
; n−1 ; m−1]
además
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
198
Ejemplo 9.4.7 La población A tiene una varianza de 3,4 según se determinó con una muestra de 21 elementos, mientras que la población B tenía una varianza de 5,2 según se determinó
por una muestra de 16 elementos. Determinar los límites de confianza del
a) 90 %
b) 95 %
de la razón de las varianzas de las dos poblaciones.
Desarrollo
El nivel de confianza ya establecido es
a) 1 − α = 0, 90
b) 1 − α = 0, 95
Como se busca un intervalo de confianza para relaciones de varianzas, la variable
aleatoria estandar a usar es la F de la distribución F de Snedecor, que en este caso
tendrá m − 1 = 21 − 1 = 20 y n − 1 = 16 − 1 = 15 grados de libertad. El valor αt de la
tabla corresponde al valor
α 0, 10
=
= 0, 05
2
2
α 0, 05
b) αt = =
= 0, 025
2
2
a) αt =
por lo que para cada caso se busca en la tabla F lo siguiente
a)
P(X ≤ x) = 0, 95
m = 20
n = 15
2,33
y
P(X ≤ x) = 0, 95
m = 15
n = 20
2,20
F[0,95 ; 20 ; 15] = 2, 33
y F[0,05 ; 20 ; 15] =
Con lo cual
b)
P(X ≤ x) = 0, 975
m = 20
n = 15
2,76
y
1
F[0,95 ; 15 ; 20]
=
1
= 0, 455
2, 20
P(X ≤ x) = 0, 975
m = 15
n = 20
2,57
Con lo cual
F[0,975 ; 20 ; 15] = 2, 76 y F[0,025 ; 20 ; 15] =
1
F[0,975 ; 15 ; 20]
Los estadísticos muestrales a utilizar en cada caso son
Ŝ12 =
m 2 21
S = (3, 4) = 3, 57
m − 1 1 20
Ŝ22 =
n 2 16
S = (5, 2) = 5, 547
n − 1 1 15
=
1
= 0, 39
2, 57
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
199
Los límites inferior y superior para cada caso son respectivamente
a)
1
F[0,95 ; 20 ; 15]
1
F[0,05 ; 20 ; 15]
·
Ŝ12
1
3, 57
=
·
= 0, 2762
2
Ŝ2 2, 33 5, 547
·
Ŝ12
1
3, 57
=
·
= 1, 4145
2
Ŝ2 0, 455 5, 547
Por lo tanto el intervalo de confianza buscado es (0, 2762 ; 1, 4145); que en término probabilístico se expresa como
³
´
σ21
P 0, 2762 < 2 < 1, 4145 = 0, 90
σ2
b)
1
F[0,975 ; 20 ; 15]
1
F[0,05 ; 20 ; 15]
·
·
Ŝ12
1
3, 57
=
·
= 0, 2332
Ŝ22 2, 76 5, 547
Ŝ12
1
3, 57
=
·
= 1, 6502
Ŝ22 0, 39 5, 547
Por lo tanto el intervalo de confianza buscado es (0, 2332 ; 1, 6502); que en término probabilístico se expresa como
³
´
σ2
P 0, 2332 < 12 < 1, 6502 = 0, 95
σ2
9.4.6.
Intervalos de confianza para Diferencias de Proporciones
Sean dos muestras aleatorias de tamaños n1 y n2 que se extraen de dos poblaciones
Bernoulli con parámetros P1 y P2 respectivamente, sean además las proporciones muestrales
p̂1 y p̂2 . Si se desconocen los valores de dichos parámetros, se podría estimar un intervalo
de confianza para la diferencia de proporciones utilizando la distribución muestral de diferencias de proporciones. La estimación de este intervalo se hará en base a muestras grandes,
por lo que se aplicará una aproximación a la distribución normal. Entonces
donde µ p̂1 − p̂2 = P1 − P2
( p̂1 − p̂2 ) − µ p̂1 − p̂2
∼ N(0, 1)
σ p̂1 − p̂2
√
y σ p̂1 − p̂2 = σ p̂1 + σ p̂2 .
Por lo tanto si establece un nivel de confianza de 1 − α y se toman consideraciones análogas al caso de diferencias de medias para el caso normal se tendrá que
³
´
( p̂1 − p̂2 ) − µ p̂1 − p̂2
P − Zc <
< Zc = 1 − α
σ p̂1 − p̂2
que con procedimientos algebráicos se tranforma en
´
³
P ( p̂1 − p̂2 ) − Zc σ p̂1 − p̂2 < µ p̂1 − p̂2 < ( p̂1 − p̂2 ) + Zc σ p̂1 − p̂2 = 1 − α
9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
200
Por lo que el intervalo de confianza buscado es
³
´
( p̂1 − p̂2 ) − Zc σ p̂1 − p̂2 ; ( p̂1 − p̂2 ) + Zc σ p̂1 − p̂2
Recordemos que σ p̂1 − p̂2 depende de los parámetros P1 y P2 , que en este caso son desconocidos, razón por la cual para su cálculo se reemplaza a P1 por p̂1 y a P2 por pˆ2 .
Ejemplo 9.4.8 De una cierta ciudad se extrae una muestra aleatoria de 100 personas y
se encuentra que 50 usan una cierta marca de jabón. De la misma ciudad se extrae otra
muestra de 100 personas y se encuentra que 20 usan una marca de jabón distinta a la primera.
Construya un intervalo de confianza del 95 % para la diferencia de proporciones de personas
que usan las respectivas marcas de jabón e interprete el resultado.
Desarrollo
1. El nivel de confianza fijado es 1 − α = 0, 95.
2. Como se trata de estimar diferencias de proporciones y además las muestras son grandes,
la variable aleatoria estándar a utilizar es Z de la distribución normal estándar. Como
1 − α = 0, 95, ya se vió que Zc = 1, 96.
3. Para realizar la estimación de la diferencia entre las proporciones P1 y P2 de personas
que usan las respectivas marcas de jabones bajo un intervalo necesitamos calcular los
X
Y
estadísticos muestrales pˆ1 =
y pˆ2 = , donde X es el número de personas en
n1
n2
n1 que usan la primera marca de jabón e Y el número de personas en n2 que usan la
segunda marca de jabón, entonces
pˆ1 =
50
= 0, 5 y
100
pˆ2 =
20
= 0, 2
100
4. El error estándar estará dada por
r
0, 5(1 − 0, 5) 0, 2(1 − 0, 2)
+
= 0, 06403
σ p̂1 − p̂2 =
100
100
5. El error máximo de estimación será
E = Zc σ p̂ = (1, 96)(0, 06403) = 0, 1255
9.5. PROBLEMAS
201
6. Los límites inferior y superior serán respectivamente
p̂1 − p̂2 − E = 0, 5 − 0, 2 − 0, 1255 = 0, 1745 y p̂ + E = 0, 5 − 0, 2 + 0, 1255 = 0, 4255
Por lo que el intervalo buscado es (0, 1745 ; 0, 4255), que en término de probabilidad
se expresa como
P(0, 1755 < P1 − P2 < 0, 4255) = 0, 95
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95
de que la diferencia de proporciones de personas que usan las marcas de jabones, se
encuentre entre los valores 0,1755 y 0,4255”.
9.5.
Problemas
Estimadores y sus propiedades
1. Sean θ̂1 y θ̂2 dos estimadores insesgados para el parámetro θ, y sea α una constante.
Demuestre que θ̂ = αθ̂1 + (1 − α)θ̂2 es también un estimador insesgado para θ.
2. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida µ. Probar que la
estadística X
a) es un estimador insesgado de la media problacional µ
b) es un estimador convergente o consistente de µ
3. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida y varianza σ2
desconocida. Probar que
a) S2 es un estimador sesgado pero será un estimador consistente para σ2
b) Ŝ2 es un estimador insesgado de σ2
4. Sea X1 , X2 , . . . , Xn una m.a. de una población con media conocida µ y varianza σ2 desconocida. Demuestra que la siguiente estadística es un estimador insesgado para σ2 ,
1 n
σ̂ = ∑ (Xi − µ)2
n i=1
2
5. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida y varianza finita
σ2 desconocida. Demuestra que la siguiente estadística es un estimador insesgado para
σ2 ,
n−1
1
σ̂2 =
∑ (Xi+1 − Xi)2
2(n − 1) i=1
6. Sea X1 , X2 , X3 , X4 una muestra aleatoria de una población distribuida según la ley una
ley de Poissón con parámetro θ. Considere los siguientes estadísticos para θ.
θ1 =
X1 + X2 + X3 + X4
4
y
X1 + 2X2 + 3X3 + 4X4
10
9.5. PROBLEMAS
202
Verifique la condición de insesgamiento en ambos estadísticos y halla la eficiencia
relativa.
Estimación Puntual
Método de máxima verosimilitud
7. Supóngase que X1 , X2 , . . . , Xn constituye una muestra aleatoria de tamaño n de una
distribución Bernoulli con parámetro P desconocido, pero se sabe que P pertenece al
intervalo abierto (0, 1).
a) Determinar el estimador de máxima verosimilitud de P, suponiendo que no todos
los valores observados son 0 o todos los valores observados son 1.
b) Probar que el estimador de máxima verosimilitud de P no existe si todo valor
observado es 0 o si todo valor observado es 1.
8. No se sabe que proporción P de la compra de cierta marca de cereal es realizada por
mujeres y que proporción es realizada por hombres. En una muestra de 70 compras
de este cereal, se encontró que 58 fueron realizadas por mujeres y 12 por hombres.
Determine el estimador de máxima verosimilitud para P.
9. Supóngase que X1 , X2 , . . . , Xn constituye una muestra aleatoria de tamaño n de una
distribución normal con media desconocida µ y varianza σ2 también desconocida. Determínense los estimadores de máxima verosimilitud para µ y σ2 .
10. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución cuya función de
densidad de probabilidad f (x|θ) es la siguiente
 θ−1
si 0 < x < 1
 θx
f (x|θ) =

0
en otro caso
Además, supóngase que el valor de θ es desconocido (θ > 0). Determínese el estimador
de máxima verosimilitud para θ.
11. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución cuya función de
densidad de probabilidad f (x|θ) es la siguiente
1
f (x|θ) = e−|x−θ|
2
para − ∞ < x < ∞
Además, supóngase que el valor de θ es desconocido (−∞ < θ < ∞). Determínese el
estimador de máxima verosimilitud para θ.
12. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución uniforme sobre el
intervalo (θ1 , θ2 ), donde θ1 y θ2 son desconocidos (−∞ < θ1 < θ2 < ∞). Determínense
los estimadores de máxima verosimilitud para θ1 y θ2 .
13. Una población tiene una función de densidad de probabilidad dada por
r
ν 2 −νx2
f (x|ν) = 2ν
x e
para − ∞ < x < ∞
π
9.5. PROBLEMAS
203
Si se toman n observaciones de esta población, hallar la estima de maxima verosimilitud de ν.
14. Supongase que Γ, el tiempo para fallas (en horas) de un instrumento eléctronico, tiene
la siguiente función de densidad de probabilidad

 βe−β(t−t0 ) si t > t0 > 0
f (t|β) =

0
en otro caso
Supóngase que se prueban n artículos y que se anotan los tiempos de fallas t1 ,t2 , . . . ,tn .
suponiendo que t0 es conocido, obtener el estimador de maxima verosimilitud para β.
15. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución de Poisson con
media λ desconocida (λ > 0).
a) Determínese el estimador de máxima verosimilitud de λ, suponiendo que al menos
uno de los valores observados es distinto de cero.
b) Demúestrese que el estimador de máxima verosimilitud de λ no existe si todo
valor observado es cero.
Método de momentos
16. Dada una muestra aleatoria de tamaño n de una población uniforme en el intervalo
[0, a], use el método de momentos para encontrar un estimador para el parámetro a.
17. Dada una muestra aleatoria de tamaño n de una población Poisson con parámetro desconocido λ > 0, use el método de momentos para encontrar un estimador del parámetro
λ.
18. Dada una muestra aleatoria de tamaño n de una población exponencial con parámetro
desconocido β > 0, use el método de momentos para encontrar un estimador del parámetro
β.
19. Dada una muestra aleatoria de tamaño n de una población con función de densidad de
probabilidad

1


si 0 < x < β

β
f (x) =


 0 otro caso
Estimar β por el método de los momentos.
20. Dada una muestra aleatoria de tamaño n de una población con función de densidad de
probabilidad

 (1 − α)xα si 0 < x < 1
f (x) =

0
otro caso
Estimar α por el método de los momentos.
9.5. PROBLEMAS
204
21. Dada una muestra aleatoria de tamaño n de una población con función de densidad de
probabilidad

2

 2 (α − x) si 0 < x < α
α
f (x) =


0
otro caso
Estimar α por el método de los momentos.
Estimación por intervalos
Para medias cuando σ2 es conocida o la muestra es grande
22. Las estaturas en centímetros de una muestra aleatoria de 50 estudiantes universitarios
son:
180 160 174 172 186 171 169 179 175 175
178 184 167 170 174 175 182 188 176 169
183 171 164 179 162 175 166 174 175 177
183 171 184 182 159 171 175 179 160 175
176 178 180 167 170 161 167 169 184 176
Construya un intervalo de confianza de 98 % para estimar la media de todos los estudiantes de la universidad e interprete el resultado.
23. Los siguientes datos son el número de kilómetros al año que es manejado el automóvil
por una muestra de 25 propietarios de automóviles:
26597
23873
23719
23471
22977
20700
22974
25048
26798
27147
29174
23815
16818
24352
20340
19405
29588
25620
19455
25566
32501
18091
22581
30104
29236
Construya un intervalo de confianza del 99 % para estimar el número promedio de
kilómetros al año que es manejado un automóvil e interprete el resultado.
24. Se toma una muestra aleatoria de 81 observaciones de una población normal. La media
de la muestra es 40 y la desviación estándar de la muestra es 5. Encuentre el intervalo
de confianza de 95 % para la media de la población e inteprete el resultado.
25. Se toma una muestra aleatoria de 49 observaciones de una población normal. La media
de la muestra es 55 y la desviación estándar de la muestra es 10. Encuentre el intervalo
de confianza de 99 % para la media de la población.
26. Una empresa de investigación realizó una encuesta para determinar la cantidad media
que los fumadores continuos gastan en cigarrillos cada semana. Una muestra de 49
fumadores continuos reveló que X = 20 dólares y S = 5 dólares.
a) ¿Cuál es la estimación puntual de la media poblacional?. Explique que indica.
b) Utilizando un nivel de confianza de 95 %, determine el intervalo de confianza para
la media poblacional e interprete el resultado.
9.5. PROBLEMAS
205
27. Un profesor de ingles contó el número de palabras mal escritas en su ensayo que asignó
hace poco a sus alumnos. Para una clase de 40 alumnos, el número medio de palabras
mal escritas fue de 6, 05 y la desviación estándar fue de 2, 44. Construya un intervalo
de confianza de 95 % para el número medio de palabras mal escritas en la población de
estudiantes e interprete el resultado.
28. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de
30 focos tienen una duración promedio de 780 horas. Encuentre un intervalo de confianza de 95 % para la media de la población de todos los focos que producen esta
empresa e interprete el resultado.
29. A muchos pacientes con problemas cardiacos se les implantó un marca pasos para controlar su ritmo cardiaco. Se monta un modulo conector de plástico sobre la parte superior del marca pasos. Suponga una desviación estándar de 0,0015 y una distribución
aproximadamente normal. Encuentre un intervalo de confianza de 95 % para la media
de todos los módulos conectores que fabrica cierta compañía e interprete el resultado.
Una muestra aleatoria de 75 módulos tiene un promedio de 0,310 pulgadas.
30. En un proceso químico se fabrica cierto polímero. Normalmente se hacen mediciones
de la viscosidad después de cada corrida, y la experiencia acumulada indica que la variabilidad en el paso es muy estable, con σ = 20. La siguiente son 15 mediciones de la
viscosidad por corrida: 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747
y 742. Encuentre un intervalo de confianza de 90 % para la viscosidad media de polímeros
e interprete el resultado.
31. Para una muestra de 50 empresas tomadas de una industria determinada, se encuentra
que el número promedio de empleados por empresas es de 420,5 con una desviación
muestral de 55,7. Existe un total de 380 empresas en esa rama industrial. Encuentre
un intervalo de confianza de 95 % para media de la población de los empleados por
empresa e interprete el resultado.
32. Una fabrica produce anillos para los pistones de un motor de automóvil. Se sabe que
el diámetro del anillo esta distribuida aproximadamente en forma normal y que tiene
una desviación estándar de 0, 001 mm. Una muestra aleatoria de 15 anillos tiene un
diámetro promedio de 74, 036 mm.
a) Construye un intervalo de confianza de 99 % para el diámetro promedio del anillo
e interprete el resultado.
b) Construya un limite inferior de confianza de 95 % para el diámetro promedio del
anillo e inteprete el resultado.
33. Se toma una muestra al azar de 45 alumnos, tomados sin reposición de una clase de
estadística de 221 alumnos que muestra una media de 70 puntos y una desviación estándar de 9 puntos en las calificaciones finales. Compruebe que el intervalo de confianza
del 98 % para la media de las 221 calificaciones varia de 72, 8 a 97, 2 puntos.
34. La media y la desviación típica de las cargas máximas soportadas por 60 cables están
dadas respectivamente por 11, 9 ton. y 0, 73 ton. Hallar los limites de confianza de:
9.5. PROBLEMAS
206
a) 95 %
b) 99 % para la media de las cargas máximas de todos los cables producidos por la
compañía e interprete los resultados.
35. La municipalidad necesita adquirir lamparitas eléctricas en una fábrica. Se toma una
muestra de 100 lámparas con las cuales se hace que se mida el tiempo en que tardan
en quemarse. Los resultados son: media 2080 horas de vida y desviación típica de 300
horas. Hallar un intervalo de confianza para µ con un nivel de significación de 1 % e
interprete el resultado.
36. Se desea estimar el precio promedio de cierto artículo de consumo. Para tal fin se
realiza una muestra en 101 comercios seleccionados al azar, que indica un precio medio
de 120 dólares, con una desviación muestral de 16 dólares. Construir un intervalo de
confianza que con 95 % de seguridad contenga el parámetro poblacional e interprete el
resultado.
37. La estatura de 1000 estudiantes están distribuidas aproximadamente de forma normal,
con una media de 174, 5 cm y una desviación estándar de 6, 9 cm. Si se extraen 200
muestras aleatorias de tamaño 25 de esta población y las medidas se registran al décimo
de centímetros más cercanos. Determine:
a) La media y la desviación estándar de la distribución muestral de medias
b) Construya un intervalo de confianza de 90 % para la media de estaturas de esta
población e interprete el resultado.
Para medias cuando σ2 es desconocida y la muestra es pequeña
38. las cantidades de pesetas, destinadas por un total de 15 familias a diversiones tales
como cine, teatro y otros espectáculos públicos durante un periodo de tiempo determinado fueron los siguientes:
134
143
146
136
144
146
137
144
147
138
145
148
138
146
153
Construya un intervalo de confianza de 90 % para la media de las cantidades de pesetas
destinadas por las familias de la población para diversiones e interprete el resultado.
39. Se realizan 20 pruebas de resistencia de un cierto material obteniéndose los siguientes
datos:
2225
2272
2300
2231
2217
2223
2190
2211
2295
2219
2285 2195
2231 2218
2255 2232
2262 2257
2252
2261
Construya un intervalo de confianza del 98 % para la resistencia media de este material
e interprete el tesultado.
40. Una empresa de investigación realizó una encuesta para determinar la cantidad media
que los fumadores continuos gastan en cigarrillos cada semana. Una muestra de 25
fumadores continuos reveló que X = 20 dólares y S = 5 dólares. Elabora un intervalo
de confianza del 99 % para la media poblacional e interprete el resultado.
9.5. PROBLEMAS
207
41. Un profesor de inglés contó el número de palabras mal escritas en un ensayo que asignó
hace poco a sus alumnos. Para una clase de 24 alumnos, el número medio de palabras
mal escritas fue de 6,05 y la desviación estándar fue de 2,44. Construya un intervalo
de confianza de 95 % para el número medio de palabras mal escritas en la población de
estudiantes e interprete el resultado.
Capítulo 10
Prueba de Hipótesis
10.1.
Introducción
En el capítulo 8 se inició el estudio de la inferencia estadística. Se describió la manera
de seleccionar una muestra aleatoria y, con base a ésta, estimar el valor de un parámetro
poblacional.
En este capítulo se continuará con el estudio de la inferencia estadística. Pero ya no se
realizarán estimaciones puntuales sobre el valor de un parámetro ó se establecerá un intervalo
de valores dentro del cual se espera que se encuentre el parámetro poblacional, sino que se
realizará una prueba de hipótesis acerca de una afimación sobre un parámetro poblacional.
10.2.
Definiciones y ejemplos
En esta sección se definirá y luego se describirán los pasos a seguir para la realización de
un contraste de hipótesis. Comenzaremos el estudio de esta parte de la inferencia estadística
dando la definición de hipótesis.
10.2.1.
¿Qué es una hipótesis?
Definición 10.2.1 Hipótesis estadística o simplemente hipótesis es una afirmación o suposición respecto al valor de un parámetro poblacional. Una vez hecha la afirmación, se utilizan
los datos para verificar que tan razonable es dicha afirmación.
Son ejemplos de hipótesis, o afirmaciones hechas sobre un parámetro poblacional las
siguientes:
El ingreso mensual promedio de todos los ciudadanos paraguayos es de 1.500.000
guaranies.
El 20 % de los delincuentes capturados son sentenciados a prisión.
El 90 % de las formas fiscales son llenadas correctamente.
Todas estas hipótesis tienen algo en común, las poblaciones de interés son tan grandes
que no es factible estudiar todos sus elementos. Como ya sabemos, una alternativa a estudiar
208
10.2. DEFINICIONES Y EJEMPLOS
209
la población entera es tomar una muestra de la población de interés. De esta manera podemos
probar una afirmación para determinar si la evidencia soporta o no la afirmación.
10.2.2.
Hipotesis nula y alternativa
En esta sección se considerarán de nuevo los problemas estadísticos que involucran un
parámetro θ cuyo valor es desconocido, pero que debe pertenecer a un cierto espacio paramétrico Ω. Si Ω se puede descomponer en dos subconjuntos disjuntos Ω0 y Ω1 , entonces el investigador debe decidir si el valor desconocido de θ pertenece a Ω0 ó Ω1 .
Se define H0 como la hipótesis de que θ ∈ Ω0 y H1 como la hipótesis de que θ ∈ Ω1 .
Puesto que los subconjuntos Ω0 y Ω1 son disjuntos y Ω0 ∪ Ω1 = Ω, exactamente una de las
hipótesis, H0 ó H1 , debe ser cierta. El investigador debe decidir si acepta la hipótesis H0
o acepta la hipótesis H1 . Un problema de este tipo, en el cual existen sólo dos decisiones
posibles, se denomina un problema de contraste de hipótesis. Si el investigador toma un
adecisión errónea sufrirá una cierta pérdida o pagará un cierto costo. En muchos problemas,
el investigador podrá analizar muestras aleatorias antes de tomar su decisión, y los valores
observados en las muestras le proporcionarán información acerca del valor de θ. Un procedimiento para decidir si aceptar la hipótesis H0 ó aceptar la hipótesis H1 se denomina
procedimiento de contraste o simplemente contraste.
En la mayoría de los problemas las dos hipótesis, H0 y H1 , se tratan de manera totalmente
distinta. Para distinguir entre ellas, la hipótesis H0 se denomina hipótesis nula y la hipótesis
H1 se denomina hipótesis alternativa.
Definición 10.2.2 La prueba de hipótesis es un procedimiento de contraste basado en una
evidencia muestral y en la teoría de la probabilidad, usado para determinar si la hipótesis nula
H0 es una afirmación razonable para no ser rechazada, o es una afirmación poco razonable y
ser rechazada en favor de la hipótesis alternativa H1 .
10.2.3.
Dos tipos de errores
Cuando se toma la decisión de acptar o rechazar la hipótesis nula H0 en un procedimiento
de constraste se corre el riesgo de cometer errores. A continuación se darán las definiciones
de los posibles errores que se pueden cometer en una prueba de hipótesis.
Definición 10.2.3 Si en un procedimiento de contraste se rechaza la hipótesis nula cuando
ésta es verdadera, entonces se dice que se comete un error tipo I, y la probabilidad de cometer
este primer tipo de error está dada por la relación
α = P(rechazar H0 | H0 es cierta)
En cambio, la aceptación de la hipótesis nula cuando ésta es falsa recibe el nombre de error
tipo II, y la probabilidad de cometer este segundo tipo de error está dada por la relación
β = P(aceptar H0 | H0 es f alsa)
Todas las decisiones posibles en un contrastes de hipótesis se resumen en la siguiente
tabla:
10.2. DEFINICIONES Y EJEMPLOS
Rechazar H0
Aceptar H0
210
H0 cierta
H0 falsa
Error tipo I
Decisión correcta
con probabilidad α
con probabilidad 1 − β
Decisión correcta
Error tipo II
con probabilidad 1 − α
con probabilidad β
La información para obtener una regla de decisión que nos lleve a rechazar o no rechazar
un hipótesis estadística provendrá de una muestra aleatoria X1 , . . . , Xn de la distribución de
que se trate. Observe además que al aceptar una hipótesis no se afirma que ésta sea absolutamente cierta, sino simplemente que es consistente con los datos de la muestra aleatoria. Si la
muestra cambia, posiblemente la decisión de rechazar o no rechazar también.
10.2.4.
Región Crítica
Considérese un problema de contraste de hipótesis que tiene la siguiente forma:
H0 : θ ∈ Ω0
H1 : θ ∈ Ω1
Supóngase que antes de que el investigador tenga que decidir que hipótesis aceptar, puede
observar una muestra aleatoria X1 , X2 , . . . , Xn seleccionada de una población cuya distribución
tiene un parámetro desconocido θ. Se definirá a S como el espacio muestral de la n-upla
X = (X1 , X2 , . . . , Xn ). En otras palabras, S es el conjunto de todos los resultados posibles de
la muestra aleatoria.
En un problema de este tipo, el investigador especifica un procedimiento de contraste
dividiendo el espacio muestral S en dos subconjuntos disjuntos S0 y S1 . El subconjunto S0
contiene los valores de X para los cuales aceptará H0 y el otro subconjunto S1 contiene los
valores de X para los cuales rechazará H0 y, por lo tanto aceptará H1 .
Definición 10.2.4 El subconjunto S1 del espacio muestral S para el cual H0 sería rechazada
se denomina región crítica del contraste y a la probabilidad de cometer el error tipo I, esto
es α, se le llama tamaño de la región crítica. A esta probabilidad se le conoce también con el
nombre de nivel de significancia.
En resumen, un procedimiento de contraste se determina especificando la región crítica
del contraste. Por lo tanto, el espacio parámetrico Ω queda dividido en dos subconjuntos
disjuntos:
A denominada zona de aceptación y que contiene todos los resultados para para los
cuales H0 será aceptada;
y R denominada zona de rechazo y que contiene todos los resultados para para los
cuales H0 será rechazada.
10.2.5.
Función de Potencia
Las características de un procedimiento de constraste se pueden describir especificando,
para cada valor de θ ∈ Ω, la probabilidad π(θ) de que el procedimiento conducirá al rechazo
10.2. DEFINICIONES Y EJEMPLOS
211
de H0 , o la probabilidad 1 − π(θ) de que conducirá a la aceptación de H0 . La función π(θ)
se denimina función de potencia del contraste. Por lo tanto, si C denota la región crítica del
contraste, entonces la función de potencia π(θ) se determina por la relación
π(θ) = P(X ∈ C|θ) para θ ∈ Ω
Sea Ω = Ω0 ∪ Ω1 , donde Ω0 ∩ Ω1 = 0/ y sean además las hipótesis
H0 : θ ∈ Ω0
H1 : θ ∈ Ω1
Para esta prueba, si H0 es falsa, es decir θ ∈ Ω1 , la función de potencia se define como
π(θ) = P(Rechazar H0 |H0 es f alsa) = P(θ ∈ R|θ = θi ∧ θi ∈ Ω1 ) = 1 − β
que constituye la probabilidad de evitar un error de tipo II. Por lo que la potencia de la prueba,
para cualquier valor en H1 , es la probabilidad de rechazar H0 , dado que H1 es cierta.
Por el contrario si H0 es cierta, la función de potencia es
π(θ) = P(Rechazar H0 |H0 es cierta) = P(θ ∈ R|θ = θi ∧ θi ∈ Ω0 ) = α
que constituye la probabilidad de cometer el error de tipo I. Por lo que la potencia de la
prueba, para cualquier valor en H0 , es la probabilidad de rechazar H0 , dado que H0 es cierta.
Función de Potencia Ideal
Puesto que la función de potencia π(θ) especifica para cada valor posible del parámetro
θ la probabilidad de que H0 sea rechazada, resulta que la función de potencia ideal sería una
para la cual π(θ) = 0 para todo valor de θ ∈ Ω0 y π(θ) = 1 para todo valor de θ ∈ Ω1 .
Si la función de potencia tuviera realmente estos dos valores, entonces, independientemente
del verdadero valor de θ, el contraste conduciría a la decisión correcta con probabilidad 1.
En un problema práctico, sin embargo, rara vez podría exixtir un procedimiento de contraste
que tubiera esta función de potencia ideal.
10.2.6.
Función Característica de Operación
Además de la función potencia existe otra forma de describir las características de un
procedimiento de constraste, que también se basa en una función de probabilidad denominada
función característica de operación, cuya definición se da a continuación.
Definición 10.2.5 El complemento de la función potencia 1 − π(θ) se denomina función
característica de operación. Se define como una función de probabilidad. Por lo tanto, si B
denota el comlemento de la región crítica, la función característica de operación estará dada
por la relación
1 − π(θ) = P(X ∈ B|θ) para θ ∈ Ω
Si H0 es cierta, la función de característica de operación será
P(X ∈ B|θ) = P(Aceptar H0 |H0 es cierta) = P(θ ∈ A|θ = θi ∧ θi ∈ Ω0 ) = 1 − α
10.2. DEFINICIONES Y EJEMPLOS
212
que constituye la probabilidad de evitar un error de tipo I. Por lo tanto, constituye la probabilidad de tomar la decisión correcta de aceptar H0 cunado esta es cierta.
Cuando H0 es falsa, la función caracteristica de operación está dada por la relación
P(X ∈ A|θ) = P(Aceptar H0 |H0 es f alsa) = P(θ ∈ A|θ = θi ∧ θi ∈ Ω1 ) = β
que constituye la probabilidad de cometer un error de tipo II.
10.2.7.
Hipótesis simples y compuestas
Supóngase que X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución cuya
función de probabilidad o de densidad de probabilidad es f (x|θ), donde el valor del parámetro
θ debe pertenecer al espacio paramétrico Ω, que Ω0 y Ω1 son conjuntos disjuntos tal que
Ω0 ∪ Ω1 = Ω y que se desea contrastar las siguientes hipótesis:
H0 : θ ∈ Ω0
H1 : θ ∈ Ω1
Si el conjunto Ωi , i = 0, 1, solo puede contener un valor de θ, se dice entonces que la
hipótesis Hi es una hipótesis simple. Si el conjunto Ωi , i = 0, 1, contiene más de un valor de
θ, se dice entonces que la hipótesis Hi es una hipótesis compuesta. Con una hipótesis simple,
la distribución de las observaciones queda completamente especificada. Con una hipótesis
compuesta, sólo se especifica que la distribución de las observaciones pertenece a cierta
clase. Por ejemplo, supóngase que en un problema dado la hipótesis nula H0 tiene la siguiente
forma:
H0 : θ = θ0 .
Puesto que esta hipótesis es simple, el tamaño de cualquier procedimiento de contraste
será presisamente α = π(θ0 ).
10.2.8.
Procedimiento de 4 pasos para contraste de hipótesis
Hay un procedimiento de cuatro pasos que sistematizan la prueba de hipótesis. Estas son:
1. Establecer las hipótesis nula y alterna
El primer paso para un contraste de hipótesis es establecer las hipótesis nula y alternativa; esto es
H0 : θ = θ0 contra una de las tres alternativas siguientes

 H1 : θ < θ0 −→ (1)
H1 : θ > θ0 −→ (2)

H1 : θ 6= θ0 −→ (3)
Si estamos ante el caso (1) o (2) decimos que el contraste es unilateral o de una cola;
por el contrario si estamos ante el caso (3) el contraste es bilateral o de dos colas.
10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30)
213
2. Determinar el criterio de contraste
La determinación del criterio de contraste consiste en especificar el nivel de significancia, el tipo de distribución, y los valores críticos.
Nivel de significancia: como ya se mencionó es la probabilidad de rechazar una
hipótesis nula verdadera y es simbolizado por α. No hay un nivel de significancia
para todos los estudios, se puede utilizar cualquier valor de probabilidad entre 0
y 1; y esto depende exclusivamente del investigador antes de colectar la muestra.
El tipo de distribución se determinará dependiendo de la naturaleza de la hipótesis
y del tamaño de la muestra.
Los valores críticos son los valores de la variable que en la distribución limitan el
área crítica, que es la parte de la curva que corresponde al nivel de significancia.
3. Calcular el estadístico de prueba
El estadístico de prueba es un valor obtenido de la información de la muestra para
compararlo con el criterio de contraste y rechazar o aceptar la hipótesis. El estadístico
de prueba cambia de acuerdo a la distribución que se utilice.
4. Tomar decisión y conclusión
Una regla de decisión es establecer las condiciones sobre las cuales la hipótesis nula
deberá ser rechazada o no rechazada. Si el estadístico de prueba queda dentro de la
zona crítica la hipótesis nula deberá ser rechazada. Si por el contrario, el estadístico de
prueba queda fuera de la zona crítica la hipótesis nula no deberá ser rechazada.
La conclusión deberá reflejar la exixtencia o no de evidencia suficiente para aceptar o
no la hipótesis nula bajo el mivel de significancia establecido.
10.3.
Pruebas de hipótesis para grandes muestras (n ≥ 30)
10.3.1.
Prueba de hipótesis para Medias
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con media desconocida µ y
varianza σ2 que puede ser conocida o no. En caso de que la varianza σ2 no sea conocida se
2
utiliza la varianza muestral S2 como su estimador. Sabemos que X tiene distribución N(µ, σn )
y
√
(X − µ) n
∼ N(0, 1)
Z=
σ
Sea µ0 un número real particular. Además se desea contrastar las hipótesis H0 : µ = µ0
contra H1 , que dependiendo de la naturaleza de la prueba podría ser cualquiera de las siguientes alternativas

 H1 : µ < µ0 −→ (1)
H1 : µ > µ0 −→ (2)

H1 : µ 6= µ0 −→ (3)
10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30)
214
El problema es encontrar una regla para decidir cuándo rechazar H0 en favor de H1 con
base en los datos de la muestra X1 , X2 , . . . , Xn . Cuando H0 es cierta, esto es, cuando µ es
2
efectivamente µ0 , se tendrá que X ∼ N(µ0 , σn ) y por lo tanto
√
(X − µ0 ) n
Z=
∼ N(0, 1)
σ
La variable aleatoria Z es una medida natural de la distancia entre X (un estimador de
µ) y su valor esperado µ0 cuando H0 es cierta. Es entonces razonable rechazar H0 cuando la
variable |Z| sea grande. Es por ello que se puede tomar como criterio de decisión rechazar
H0 cuando |Z| ≥ k, para cierta constante k. ¿Cómo encontramos el número k?, es la pregunta
a contestar. Si estamos ante una prueba unilateral (caso (1) ó el caso(2)); en una tabla de la
distribución normal podemos encontrar un valor zα talque P(Z ≤ −zα ) = α ó P(Z ≥ zα ) = α,
de la misma forma si estamos ante una prueba bilateral (caso (3)) podemos encontrar zα/2 tal
que P(|Z| ≥ zα/2 ) = α, en todos los casos que se pueden presentar el valor de α lo determina
la persona que lleva a cabo la prueba de hipótesis. Este valor zα ó zα/2 es precisamente la
constante k buscada pues con ello se logra que la región de rechazo sea de tamaño α.
La variable aleatoria Z constituye la estadística de la prueba. Llevar a cabo esta prueba
de hipótesis consiste en usar los datos de la muestra para encontrar el valor de Z, si |Z| ≥ zα
caso unilateral ó |Z| ≥ zα/2 caso bilateral, entonces se rechaza H0 , en caso contrario no se
rechaza H0 . En la siguiente tabla se muestra resumida la información de este análisis.
Ejemplo 10.3.1 La experiencia de varios años ha demostrado que los focos marca A tienen
una vida media de 1180 hs, con una desviación estándar de 90hs. Para probar la pretención
de los vendedores de la marca B, se probaron 100 de esos focos comprados en almacenes
ordinarios. La muestra arrojó X = 1220 hs. y S = 80 hs. Probar la hipótesis de que la media
marca B es igual a la media marca A, contra la alternativa de que tenga un valor mayor. Usar
un nivel de significancia del 5 %.
Desarrollo
Paso 1: Formulación de las hipóteisis nula y alternativa
H0 : µ = 1180 hs
H1 : µ > 1180 hs
Paso 2: Determinación del criterio de contraste
Según las especificaciones del problema, el nivel de significancia establecido es del
5 %, esto es α = 0, 05 y como se trata de una prueba de hipótesis para medias con varianza poblacional conocida, el tipo de distribución a utilizar es la distribución normal
estándar. Como la prueba es unilateral se busca en la tabla Z, el valor crítico correspondiente.
Z
0,04
0,045
0,05
1,6 0,4495 0,45 0,4505
por lo que el valor crítico buscado es Z = 1, 645.
10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30)
215
Paso 3: Calculo del estadístico de prueba
El estadístico de prueba en este caso tendra un valor de
√
(1220 − 1180) 100
= 4, 44
Zc =
90
Paso 4:Toma de desición y conclusión
El siguiente paso consiste en establecer un criterio de decisión, que en este caso será
1. Si Zc < Z no se puede rechazar H0
2. Si Zc ≥ Z se rechaza H0
Como Zc = 4, 44 > 1, 645, se observa que el estadístico de prueba queda localizado
dentro de la zona crítica, entonces podemos rechazar la hipótesis nula (H0 ), de tal
suerte que se concluye lo siguiente:
Con un nivel de significancia de 0,05 se puede afirmar que son distintos los promedios
de la marca A y la marca B, presumiblemente mayor el de la marca B.
Capítulo 11
Análisis de la Varianza (ANOVA)
Además de probar hipótesis relativas a dos varianzas, un segundo uso de la distribución F involucra la técnica de Análisis de la Varianza, abreviado ANOVA (Analysis of variance). Básicamente, el análisis de la varianza utiliza informaciones provenientes de muestras para determinar si tres o más tratamientos producen diferentes resultados. El uso de la
palabra tratamiento tiene su origen en la investigación agrícola. Las tierras se trataron con
diferentes fertilizantes, para determinar si habría una diferencia significativa en las producciones. Nosotros podríamos probar la hipótesis de que cinco diferentes aditivos de gasolina
(tratamientos) resultan en un diferente kilometraje por litro. También podríamos contestar
la pregunta, ¿son cuatro métodos de capacitación y entrenamiento (tratamientos) igualmente
efectivos?.
11.1.
Suposiciones de ANOVA
En la técnica del análisis de varinza consiste en la comparaciónde tres o más medias
muestrales para determinar si provienen de poblaciones con medias iguales. Para utilizar esta
técnica, se supone lo siguiente:
1. Las poblaciones tienen una distribución normal
2. Las poblaciones tienen desviaciones estándar (σ) iguales.
3. Las muestras se seleccionan de manera independiente
Cuando se cumplen estas condiciones, se utiliza la distribución F como estadístico de
prueba. En particular, se emplea el término tratamiento para identificar las diferentes poblaciones que se examinan.
Definición 11.1.1 : Tratamiento
Fuente específica de variación en un conjunto de datos.
11.2.
Procedimiento del análisis de la varianza
El procedimiento ANOVA puede ser ilustrado usando un ejemplo. Se quiere probar la
hipótesis, en el nivel de significancia de 0,05; de que la cantidad de tabletas de alimento
216
11.2. PROCEDIMIENTO DEL ANÁLISIS DE LA VARIANZA
217
que un grupo de ratas consume está en relación con el tiempo transcurrido desde su última
comida. Para comprobar esta hipótesis, se selecciona al azar tres grupos de ratas con seis
ratas en cada grupo. Después de someter a cada grupo a un entrenamiento preliminar, prueba
al grupo A, tres horas después de comer; el grupo B, doce horas después de comer y al grupo
C, veinticuatro horas después de comer. La cantidad de tabletas consumidas por cada animal
en un periodo de diez minutos fueron las siguientes:
Grupo A
0
7
2
1
1
7
Grupo B
5
2
3
9
6
5
Grupo C
5
11
9
9
4
10
∑ x = 18
∑ x = 30
∑ x = 48
∑ x2 = 104 ∑ x2 = 180 ∑ x2 = 424
Capítulo 12
Análisis de regresión y de correlación
12.1.
Introducción
En muchas investigaciones estadísticas, el principal objetivo es establecer relaciones que
permitan pronosticar una o más variables en términos de otras. Por ejemplo, se han efectuado
estudios para pronosticar las ventas futuras de un producto en términos de su precio, de la
reducción de peso de una persona en términos del número de semanas que ha seguido una
dieta de 800 calorías por día, de los gastos familiares en atención médica en términos del
ingreso familiar, del consumo per cápita de ciertos artículos alimenticios en términos de su
valor nutricional y el dinero que se gasta en su publicidad televisiva y así consecutivamente.
Es evidente que sería ideal si pudiéramos pronosticar una cantidad exactamente en términos de otra, pero esto rara vez es posible. En la mayoria de los casos debemos conformarnos
con pronosticar promedios o valores esperados. Por ejemplo, no podemos pronosticar con
exactitud la cantidad de dinero que un graduado universitario específico ganará diez años
después de graduarse, pero considerando datos apropiados podemos pronosticar las ganancias promedio de todos los graduados univeristarios diez años después de su graduación. Este
problema de pronóstico del valor promedio de una variable en términos del valor conocido de
otra variable (o de los valores conocidos de otras variables) se designa como el problema de
la regresión. Este término se remonta a Francis Galton (1822-1911), quien lo usó por primera
vez en un estudio de la relación entre las alturas de padres e hijos.
12.2.
Modelo Estadístico
Toda investigación estadística tiene por objeto encontrar una ecuación matemático que
ayude a explicar el comportamiento de un fenómeno físico de interés en un estudio determinado. Dicha ecuación matemática recibe el nombre de medelo estadístico o simplemente
modelo.
Definición 12.2.1 Modelo: Por un modelo entendemos una ecuación matemática que contiene variables aleatorias, variables matemáticas (no aleatorias) y parámetros poblacionales.
Ejemplo 12.2.1 La siguiente ecuación constituye un ejemplo de modelo estadístico
Yi = β1 X1i + β22 X2i + β3 X3i + εi para i = 1, 2, . . . , n
218
12.2. MODELO ESTADÍSTICO
219
donde
β1 , β22 y β3 son parámetros poblacionales desconocidos
X1i , X2i y X3i son variables matemáticas
εi son variables aleatorias
Dependiendo de la forma de la ecuación matemática podemos tener diferentes tipos de
modelos estadísticos. Uno de los más utilizados es el modelo lineal.
Definición 12.2.2 Modelo Lineal: Es una ecuación que contiene variables aleatorias, variables matemáticas (no aleatorias) y parámetros poblacionales y que el modelo es lineal en
los parámetros y en las variables aleatorias.
Ejemplo 12.2.2 La siguiente ecuación constituye un ejemplo de modelo lineal
Yi = β1 X1i + β2 X2i + β3 X3i + εi para i = 1, 2, . . . , n
donde
β1 , β2 y β3 son parámetros poblacionales desconocidos
X1 , X2 y X3 son variables matemáticas
εi son variables aleatorias
Definición 12.2.3 Modelo determinístico matemático: Es un modelo matemático en el
cual puede haber equivocación pero no variabilidad
Ejemplo 12.2.3 La siguiente ecuación matemática constituye un modelo deterministico
Y = α + βX
Definición 12.2.4 Modelo Probabilístico: Es un modelo determinístico más una componente aleatoria debido a la variabilidad de las variables que no fueron incluidos en el modelo
y será menor cada vez que se considere más variables de interés en el estudio y mientras más
se mantenga los requisitos de similitud de las variables.
Ejemplo 12.2.4 La siguiente ecuación matemática constituye un modelo probabilístico
Y = α + βX + ε
Definición 12.2.5 Modelo de Regresión: Son aquellas en que las variables aleatorias independientes o predictoras son variables continuas; tales como la edad, peso, ingreso, demanda,
producción, etc; que toman infinitos valores y sirven para cuantificar en lugar de indicar la
presencia de un efecto cualitativo.
Ejemplo 12.2.5 La siguiente ecuación matemática constituye un modelo de regresión
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + εi para i = 1, 2, . . . , n
12.3. MODELO DE REGRESIÓN SIMPLE
12.3.
220
Modelo de regresión simple
El análisis de regresión es una rama de la teoria estadística cuyom uso está muy difundido
en casi todas las disciplinas cientificas. Es una técnica básica para medir o estimar relaciones
entre las variables de interés consideradas en un estudio de investigación.
El análisis de regresión simple estudia la relación entre dos grupos de datos desarrollando
una ecuación matemática que describa dicha relación. La ecuación nos permitirá predecir el
valor de la variable dependiente Y basándonos en el valor de la variable independiente X. La
técnica usada para desarrollar la ecuación para la línea de tendencia y hacer esta predicción
es llamada análisis de regresión simple.
Antes de estudiar el modelo de regresión simple veamos dos aspectos que serán de suma
importancia para el análisis de dicho modelo. Estos dos aspectos consiten en el problema de
bondad de ajuste y el método de mínimos cuadrados.
12.3.1.
Ajuste de curva
Siempre que es posible intentamos expresar o aproximar las relaciones entre cantidades
conocidas y cantidades que se deben pronosticar en términos de ecuaciones matemáticas.
esto ha tenido mucho éxito en las ciencias naturales, donde se sabe, por ejemplo, que a una
temperatura constante la relación entre el volumen y, y la presión x, de un gas se obtiene por
medio de la fórmula:
k
y=
x
donde k es una constante numérica.
Siempre que usemos datos observados para llegar a una ecuación matemática que describe la relación entre dos variables, un procedimiento conocido como el ajuste de curva,
debe enfrentar tres clases de problemas:
1. Debemos decidir qué clase de curva y por tanto qué clase de ecuación de “pronóstico”
queremos usar.
2. Debemos encontrar la ecuación particular que es “mejor” en cierto sentido.
3. Debemos investigar ciertos aspectos referentes a los métodos de la ecuación particular
y de los pronósticos hechos a partir de ésta.
En la sección 12.3.2 estudiaremos detalladamente el segundo de estos problemas y en la
sección 12.3.3 estudiaremos el tercero.
El primer problema por lo regular se decide mediante la revisión directa de los datos.
Ilustramos los datos en papel para gráficas ordinarias (aritméticas), a veces en papel para
gráficas especiales con escalas especiales y decidir mediante la revisión visual la clase de
curva (una linea recta, una parábola, etc.) que describe mejor el patrón general de los datos.
Existen métodos por medio de los cuales se puede hacer esto de modo más objetivo, pero son
bastante avanzados y no los analizaremos en este material.
En esta parte nos centraremos, en esencia, en ecuaciones lineales de dos incógnitas que
describan una posible relación entre dos variables. Estas son de la forma
Y = a + bX
12.3. MODELO DE REGRESIÓN SIMPLE
221
donde a se denomina coeficiente de intersección ó intersecto (es la intersección de Y con
el eje de las abscisas o eje horizontal) y b se denomina coeficiente de pendiente de la lìnea
recta (el cambio en Y que acompaña un incremento de una unidad en X).
El coeficiente de intersección o intersecto a nos dice cuál es el valor de Y cuando X es
igual a cero.
El coeficiente de pendiente b equivale a la variación de Y debido a la correspondiente
∆Y
variación de X, en términos matemáticos esto corresponde a b =
.
∆X
12.3.2.
El método de los mínimos cuadrados
Una vez que hemos decidido ajustar una línea recta a un conjunto de datos determinado
{x1 , x2 , . . . , xn , y1 , y2 , . . . , yn }, enfrentemos la segunda clase de problema, específicamente, el
problema de encontrar la ecuación de la línea recta particular que en cierto sentido proporcione el mejor ajuste posible y posteriormente ofrezca los mejores pronósticos posibles de la
variable dependiente Y a partir de la variable independiente X. Lógicamente, no existe límites
para el número de líneas rectas que se pueden trazar en un papel para gráficas. Algunas de
estas líneas se ajustarían a los datos en forma tan deficiente que no las consideraríamos con
seriedad, pero muchas otras parecerían proporcionar más o menos “buenos” ajustes y el problema consiste en localizar la línea que se ajuste “mejor” a los datos en sentido bien definido.
Si todos los puntos caen en una línea recta no hay ningún problema, pero este es un caso
extremo que rara vez encontramos en la práctica. En general, debemos conformarnos con
una línea recta que tiene ciertas propiedades deseables, faltas de perfección.
El criterio que en la actualidad se usa casi exclusivamente para definir un “mejor” ajuste
se remonta al inicio del siglo XIX y al trabajo del matemático francés Andrien Legendre;
éste método se conoce con el nombre de método de los mínimos cuadrados. Este método
implica que la linea que ajustamos para nuestros datos sea tal que la suma de los cuadrados
de las distancias verticales de los puntos a la línea recta sea mínima.
Para demostrar como se ajusta en realidad una línea de mínimos cuadrados a un conjunto
de datos {x1 , x2 , . . . , xn , y1 , y2 , . . . , yn }, que podría verse con un conjunto de n pares ordenados
{(x1 , x1 ), (x2 , x2 ), . . . , (xn , xn )}. Si expresamos la ecuación de la línea como ŷ = a + bx, donde
el símbolo, ŷ (y acento circunflejo), se usa para distinguir entre un valor observado de y
y el valor correspondiente ŷ en la línea, el criterio de los mínimos cuadrados implica que
reduzcamos al mínimo la suma de los cuadrados de las distancias entre las y‘ s y las ŷ‘ s. Esto
implica que sedeben encontrar los valores numéricos de las constantes a y b que aparecen en
la ecuación ŷ = a + bx para la cual
n
n
i=1
i=1
∑ (yi − ŷi)2 = ∑ (yi − a − bxi)2
sea tan baja como sea posible.
n
Para encontrar los resultados deseados de a y b, debemos minizar ∑ (yi − ŷi )2 con respeci=1
to de a y b; para ello aplicaremos los conocimientos de los criterios sobre puntos máximos
y mínimos desarrollados en el cálculo diferencial y procedimientos algebraicos. Por lo tanto
12.3. MODELO DE REGRESIÓN SIMPLE
222
n
para minimizar
∑ (yi − ŷi)2 respecto de a y b; lo derivamos parcialmente con respecto de
i=1
ellos e igualemos dichas derivadas parciales a cero y obtendremos un sistema de dos ecuaciones con dos incógnitas denominados ecuaciones normales. Esto es
i
³ n
´
n
n
∂h n
2
(y
−
ŷ
)
=
−2
(y
−
a
−
bx
)
=
−2
y
−
na
−
b
x
i
i
i
i
i
i
∑
∑
∑
∑ =0
∂a i=1
i=1
i=1
i=1
i
³ n
´
n
n
n
∂h n
2
2
(y
−
ŷ
)
=
−2
(y
−
a
−
bx
)x
=
−2
x
y
−
a
x
−
b
x
i i
∑ i i
∑ i
∑ i i ∑ i ∑ i =0
∂b i=1
i=1
i=1
i=1
i=1
con lo cual
n
n
i=1
i=1
∑ yi = na + b ∑ xi
n
n
n
i=1
i=1
i=1
∑ xiyi = a ∑ xi + b ∑ xi2
(12.3.1)
(12.3.2)
Ejemplo 12.3.1 Considerando los datos muestrales siguientes obtenidos en un estudio de la
realación entre el número de años que los solicitantes de ciertos trabajos en el servicio exterior
estudiaron alemán en preparatoria o universidad y las calificaciones que obtuvieron en una
prueba de dominio de lectura de ese idioma.
Número de años (x)
3
4
4
2
5
3
4
5
3
2
Calificación en la prueba (y)
57
78
72
58
89
63
73
84
75
48
Ajusta una línea recta de mínimos cuadrados que relacione los números de años que los
solicitantes de trabajos en el servicio exterior estudiaron alemán en preparatoria o universidad con las calificaciones que obtuvieron en la prueba de dominio de ese idioma.
Desarrollo
Ilustrando los puntos correspondientes a estos diez pares de valores en un diagrama, observaremos que aunque no todos los puntos caen en una misma línea recta, el patrón general
de la relación se describiría razonablemente bien por medio de una línea recta adecuada aciertos criterios bien definidos.
El gráfico 12.1 muestra el partrón de comportación de la relación entre los números de
años que los solicitantes de trabajos en el servicio exterior estudiaron alemán en preparatoria
o universidad con las calificaciones que obtuvieron en la prueba de dominio de ese idioma,
además muestra la linea que mejor se ajusta a los diez pares de datos.
12.3. MODELO DE REGRESIÓN SIMPLE
223
Figura 12.1: Gráfico de la relación entre el número de años que se estudió alemán y la calificación obtenida en la prueba.
Las sumas requeridas para la sustitución en las ecuaciones normales se obtienen realizando los cálculos que aparecen en la tabla siguiente:
x
3
4
4
2
5
3
4
5
3
2
y
57
78
72
58
89
63
73
84
75
48
x2
9
16
16
4
25
9
16
25
9
4
xy
171
312
288
116
445
189
292
420
225
96
∑ xi = 35 ∑ yi = 697 ∑ xi2 = 133 ∑ xiyi = 2554
Sustituyendo ∑ xi = 35; ∑ yi = 697; ∑ xi2 = 133; ∑ xi yi = 2554 y n = 10 en las ecuaciones normales, obtenemos
697 = 10a + 35b
2544 = 35a + 133b
Resolviendo este sistema de ecuaciones, obtenemos a = 31, 55 y b = 10, 90. Entonces la
ecuación de mínimos cuadrados está dada por
y = 31, 55 + 10, 90x
12.4. ANÁLISIS DE CORRELACIÓN
12.3.3.
224
Análisis de regresión simple
Como ya se ha dicho el propósito fundamental del análisis de regresión simple es estimar
la relación que existe entre dos variables Y dependiente y X independiente, consideradas en
un estudio.
Una vez estimadas las relaciones entre las variables X e Y , interesa averiguar cuán tan
estrechas son, así como también estimar la exactitud de las predicciones basadas en ellas.
Las respuestas a estos problemas pueden obtenerse utilizando las ideas básicas en el análisis
sobre pruebas de hipótesis e intervalos de confianza de los parámetros del modelo.
Supuestos básicos del análisis de regresión
Es posible que se descubra que una función lineal Y = f (X) no describe los datos con
que se esta trabajando. La función lineal Y = f (X) no deja margen para variaciones y por lo
tanto, no puede suministrar una descripción adecuada de la relación entre la variable X e Y .
Por lo cual necesitamos de un modelo que incluye ciertas variaciones.
Si suponemos que los datos observados fueron generados por una ecuación lineal estocástica tal como
Y = α + βX + ε
donde ε es un término de error o perturbación aleatoria, la ecuación permite que Y sea
mayor o menor que α + βX, lo cuál depende de que ε sea positivo o negativo. Lo ideal sería
que ε fuera pequeño y que no este correlacionado (relacionado) con la variable X, a fin de
poder cambiar X sin que se modifique ε y determinar asi lo que ocurre en promedio con Y .
En general, los datos observados para el análisis de regresión simple pueden considerarse
como un conjunto de pares ordenados de números {(X1 ,Y1 ), (X2 ,Y2 ), . . . , (Xn ,Yn )}, donde
Y1 ,Y2 , . . . ,Yn son variables aleatorias dependientes
X1 , X2 , . . . , Xn son variables matemáticas independientes
El par (Xi ,Yi ) corresponde a la i-èsima observación de las variables X e Y . Además para
cada par (Xi ,Yi ) existe un término de error εi , esto es Yi = α + βXi + εi .
Si se conociera los valores de los parámetros poblacionales α y β podríamos trazar en un
diagrama la función de regresión α + βX. Los términos de error son iguales a la distancias
verticales u horizontales entre los puntos observados (Xi ,Yi ) y los puntos correspondientes
en la linea de regresión (Xi , α + βXi ).
12.4.
Análisis de correlación
Definición 12.4.1 Correlación: es un grupo de técnicas estadísticas usadas para medir la
fuerza de la relación entre dos variables.
El estudio de la correlación involucra cuestiones como: ¿hay una relación entre los promedios de la preparatoria y los promedios de primero en la universidad?. ¿Hay una relación entre
los gastos en publicidad de un negocio y sus ventas?. ¿Hay una relación entre el número de
años en el trabajo y la productividad?, etc.
12.4. ANÁLISIS DE CORRELACIÓN
12.4.1.
225
Análisis de correlación simple
La idea básica del análisis de correlación simple es dar la magnitud de la relación entre
dos variables. Por lo tanto la correlación simple mide la fuerza y la dirección de una relación
lineal entre solo dos variables aleatorias.
El primer paso de la correlación simple es normalmente graficar los datos es un diagrama
que recibe el nombre de diagrama de dispersión.
Definición 12.4.2 Diagrama de dispersión: es un diagrama que refleja la relación entre
dos variables aleatorias.
En el diagrama de dispersión debemos establecer cual es la variable dependiente y la
variable independiente.
Download