97578639-Probabilidad-y-Estadistica

Probabilidad y Estadística César Amarilla 1 de agosto de 2011 Índice general 1. Estadística y tipos de estadística 1.1. Introducción . . . . . . . . . . 1.2. Definiciones y ejemplos . . . . 1.2.1. Estadística . . . . . . 1.2.2. Estadística Descriptiva 1.2.3. Estadística Inferencial 1.2.4. Población y muestra . 1.3. Variables . . . . . . . . . . . 1.3.1. Tipos de variables . . 1.3.2. Escalas de medición . 1.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 9 9 9 9 9 10 10 12 14 2. Distribuciones de Frecuencia 2.1. Estadística descriptiva . . . . . 2.2. Construcción . . . . . . . . . 2.2.1. Representación Gráfica 2.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 16 20 22 3. Medidas de tendencia central 3.1. La Media . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. La Media Geométrica . . . . . . . . . . . . . . 3.1.2. La Media Aritmética . . . . . . . . . . . . . . . 3.1.3. Propiedades de la media aritmética . . . . . . . . 3.1.4. Desventajas de la media aritmética . . . . . . . . 3.1.5. La media para datos no agrupados . . . . . . . . 3.1.6. La media para datos agrupados . . . . . . . . . . 3.1.7. La media de la población . . . . . . . . . . . . . 3.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Propiedades de la mediana . . . . . . . . . . . . 3.2.2. La mediana para datos agrupados . . . . . . . . 3.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Propiedades de la moda . . . . . . . . . . . . . 3.3.2. Desventajas de la moda . . . . . . . . . . . . . . 3.3.3. La moda para datos agrupados . . . . . . . . . . 3.3.4. Comparación entre medidas de tendencia central 3.3.5. Relación entre las medidas de tendencia central . 3.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 26 26 26 26 27 28 28 29 29 31 31 31 31 32 33 33 1 ÍNDICE GENERAL 2 4. Medidas de Variabilidad 4.1. Introducción . . . . . . . . . . . . . . . . . . . 4.2. Variabilidad . . . . . . . . . . . . . . . . . . . 4.2.1. Rango y rango intercuartílico . . . . . . 4.2.2. Desviación media . . . . . . . . . . . . 4.2.3. Desviación media para datos agrupados 4.2.4. Varianza y desviación estándar . . . . . 4.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Probabilidad 5.1. Introducción . . . . . . . . . . . . . . . . . . . . 5.2. Definiciones y ejemplos . . . . . . . . . . . . . . 5.3. Operaciones entre eventos . . . . . . . . . . . . 5.4. Definciones de probabilidad . . . . . . . . . . . 5.4.1. Concepto Clásico de Probabilidad . . . . 5.4.2. Concepto frecuentista de probabilidad . . 5.4.3. Probabilidad subjetiva . . . . . . . . . . 5.4.4. Concepto axiomático de probabilidad . . 5.5. Teoremas de Probabilidad . . . . . . . . . . . . . 5.5.1. Teorema 1: Regla de la Adición . . . . . 5.5.2. Teorema 2: Regla de la complementación 5.5.3. Teorema 3: Regla de Diferenciación . . . 5.5.4. Probabilidad Condicional . . . . . . . . 5.5.5. Teorema 4: Reglas de Multiplicación . . 5.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Variables aleatorias 6.1. Definiciones y ejemplos . . . . . . . . . . . . . . . . . . . . . 6.2. Distribución de probabilidad . . . . . . . . . . . . . . . . . . 6.2.1. Propiedades de la función de probabilidad . . . . . . . 6.2.2. Propiedades de la función de densidad de probabilidad 6.2.3. Distribuciones discretas . . . . . . . . . . . . . . . . 6.2.4. Distribuciones continuas . . . . . . . . . . . . . . . . 6.3. Esperanza, varianza y momentos . . . . . . . . . . . . . . . . 6.3.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.3. Momentos . . . . . . . . . . . . . . . . . . . . . . . 6.4. Función generadora de momentos . . . . . . . . . . . . . . . 6.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Distribuciones de probabilidad 7.1. Distribuciones discretas de probabilidad 7.1.1. Distribución Bernoulli . . . . . 7.1.2. Distribución binomial . . . . . 7.1.3. Distribución Poisson . . . . . . 7.1.4. Distribución geométrica . . . . 7.1.5. Distribución binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 35 35 36 36 37 39 . . . . . . . . . . . . . . . 41 41 42 43 44 45 45 46 46 47 47 48 48 48 49 51 . . . . . . . . . . . . 63 63 66 66 68 72 72 72 72 76 78 80 83 . . . . . . 91 91 91 92 95 99 101 ÍNDICE GENERAL 7.1.6. Distribución hipergeométrica . . . . 7.2. Distribuciones continuas de probabilidad . . 7.2.1. Distribución uniforme continua . . 7.2.2. Distribución Normal . . . . . . . . 7.2.3. Aproximación normal a la binomial. 7.2.4. Distribución ji-cuadrada . . . . . . 7.2.5. Distribución t de Student . . . . . . 7.2.6. Distribución exponencial . . . . . . 7.3. Problemas . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Muestras aleatorias y distribuciones de muestreo. 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Muestras aleatorias y estadísticos muestrales . . . . . . . . . . . . . 8.3. Métodos de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . 8.3.2. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . 8.3.3. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . 8.3.4. Muestreo aleatorio por conglomerados . . . . . . . . . . . . 8.3.5. Error de Muestreo . . . . . . . . . . . . . . . . . . . . . . 8.4. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . 8.4.1. Distribución Muestral de Medias . . . . . . . . . . . . . . . 8.4.2. Teorema del Límite Central . . . . . . . . . . . . . . . . . 8.4.3. Distribución Muestral de Varianzas . . . . . . . . . . . . . 8.4.4. Distribución F . . . . . . . . . . . . . . . . . . . . . . . . 8.4.5. Distribución Muestral de Proporciones . . . . . . . . . . . 8.4.6. Distribución Muestral de Sumas y de Diferencias de medias 8.4.7. Distribución Muestral de Relaciones de Varianzas . . . . . . 8.4.8. Distribución Muestral de Diferencias de Proporciones . . . 8.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Estimación 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Estimadores y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1. Propiedades de un buen estimador . . . . . . . . . . . . . . . . . . 9.3. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . . 9.3.2. Estimadores por el método de los momentos . . . . . . . . . . . . 9.4. Estimación por Intervalos de Confianza . . . . . . . . . . . . . . . . . . . 9.4.1. Intervalos de confianza para estimar la media de una población . . . 9.4.2. Intervalos de confianza para la varianza y la desviación típica de una población. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.3. Intervalos de confianza para estimar Proporciones . . . . . . . . . . 9.4.4. Intervalos de confianza para estimar Diferencias de Medias . . . . . 9.4.5. Intervalos de confianza para Relaciones de Varianzas . . . . . . . . 9.4.6. Intervalos de confianza para Diferencias de Proporciones . . . . . . 9.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 107 107 110 117 120 122 125 128 . . . . . . . . . . . . . . . . . . 150 150 150 151 152 153 154 155 155 155 156 158 161 164 166 169 173 173 174 . . . . . . . . 175 175 175 176 179 179 181 182 183 . . . . . . 188 191 193 196 199 201 ÍNDICE GENERAL 4 10. Prueba de Hipótesis 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2. Definiciones y ejemplos . . . . . . . . . . . . . . . . . . . . 10.2.1. ¿Qué es una hipótesis? . . . . . . . . . . . . . . . . 10.2.2. Hipotesis nula y alternativa . . . . . . . . . . . . . . 10.2.3. Dos tipos de errores . . . . . . . . . . . . . . . . . 10.2.4. Región Crítica . . . . . . . . . . . . . . . . . . . . 10.2.5. Función de Potencia . . . . . . . . . . . . . . . . . 10.2.6. Función Característica de Operación . . . . . . . . . 10.2.7. Hipótesis simples y compuestas . . . . . . . . . . . 10.2.8. Procedimiento de 4 pasos para contraste de hipótesis 10.3. Pruebas de hipótesis para grandes muestras (n ≥ 30) . . . . 10.3.1. Prueba de hipótesis para Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 208 208 208 209 209 210 210 211 212 212 213 213 11. Análisis de la Varianza (ANOVA) 216 11.1. Suposiciones de ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 11.2. Procedimiento del análisis de la varianza . . . . . . . . . . . . . . . . . . . . 216 12. Análisis de regresión y de correlación 12.1. Introducción . . . . . . . . . . . . . . . . . . 12.2. Modelo Estadístico . . . . . . . . . . . . . . 12.3. Modelo de regresión simple . . . . . . . . . . 12.3.1. Ajuste de curva . . . . . . . . . . . . 12.3.2. El método de los mínimos cuadrados 12.3.3. Análisis de regresión simple . . . . . 12.4. Análisis de correlación . . . . . . . . . . . . 12.4.1. Análisis de correlación simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 218 218 220 220 221 224 224 225 Índice de figuras 2.1. 2.2. 2.3. 2.4. 2.5. Representación gráfica de un histograma de frecuencia . . . . Representación gráfica de un histograma de frecuencia relativa Representación gráfica de un polígono de frecuencia . . . . . Representación gráfica de un polígono de frecuencia relativa . Representación gráfica de una ojiva de frecuencia acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 21 22 5.1. 5.2. 5.3. 5.4. Representación gráfica de la intersección de dos eventos Representación gráfica de la unión de dos eventos . . . . Representación gráfica de complementos de eventos . . . Representación gráfica de la diferencia de dos eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 44 44 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. Representación gráfica de la definición de una variable aleatoria Representación gráfica del espacio muestral del ejemplo 6.1.2 . Representación gráfica de la función del ejemplo 6.2.1 . . . . . Representación gráfica de la probabilidad como un aréa . . . . . Representación gráfica de f (x) (ejemplo 6.2.3 . . . . . . . . . . Representación gráfica de F(x) del ejemplo 6.2.5 . . . . . . . . Representación gráfica de F(x) del ejemplo 6.2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 64 67 68 69 70 70 Gráfica de f (x) de la distribución Poisson . . . . . . . . . . . . . . . . . . . Gráfica de f (x) de la distribución exponencial . . . . . . . . . . . . . . . . . Gráfica de F(x) de la distribución exponencial . . . . . . . . . . . . . . . . . Gráfica de f (x) del ejemplo 7.2.1 . . . . . . . . . . . . . . . . . . . . . . . . Gráfica de F(x) del ejemplo 7.2.1 . . . . . . . . . . . . . . . . . . . . . . . Representación gráfica de f (x) para ciertos valores de µ y σ2 de una variable aleatoria normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7. Representación gráfica de f (x) de una variable aleatoria normal . . . . . . . 7.8. Curvas normales que tienen medias iguales y desviaciones estándar diferentes 7.9. Curvas normales que tienen medias diferentes y desviaciones estándar iguales 7.10. Curvas normales que tienen medias diferentes y desviaciones estándar diferentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.11. Gráfica de f (x) cuando el parámetro k toma los valores 1,2,3,4 y 5 . . . . . . 7.12. Distribución t versus distribución normal . . . . . . . . . . . . . . . . . . . . 7.13. Gráfica de f (x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . . 7.14. Gráfica de F(x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . . 96 107 109 109 110 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. . . . . . . . . . . . . 111 112 112 113 113 121 124 126 126 8.1. Gráfica de f (x) cuando los parámetros m y n toman diferentes pares de valores.165 5 ÍNDICE DE FIGURAS 6 9.1. Gráfica del proceso de elección de los valores χ2c y χ2l . . . . . . . . . . . . . 189 9.2. Gráfica de la distribución acumulada de la χ2 . . . . . . . . . . . . . . . . . . 190 12.1. Gráfico de la relación entre el número de años que se estudió alemán y la calificación obtenida en la prueba. . . . . . . . . . . . . . . . . . . . . . . . 223 Índice de cuadros 7 Capítulo 1 Estadística y tipos de estadística 1.1. Introducción ¿Qué significa la palabra estadística? La encontramos frecuentemente en nuestro lenguaje cotidiano. En su uso más común, estadística se refiere a informaciones numéricas. Ejemplos serían; el salario inicial promedio de un graduado de una escuela superior, el número de decesos anuales debido al alcoholismo, el porcentaje de alumnos no graduados que estudian en la Universidad Nacional de Asunción, la variación de ayer a hoy de los precios de los productos de la canasta familiar, etc. En estos ejemplos la estadística consiste en números o porcentajes. A estos números se les denomina estadísticos. La Estadística se divide en dos grandes áreas (descripción de datos y realización de inferencias) que reflejan la propia historia del desarrollo de esta ciencia. La Estadística actual es el producto del encuentro de dos ramas distintas del saber, la antigua estadística y el cálculo de probabilidades, que se encontraron en el siglo XIX. Etimológicamente, la palabra estadística procede de la palabra estado, ya que desde la antigüedad los romanos hicieron recolecciones de datos que posteriormente tenían que resumir de una forma comprensiva y que permitiera proporcionar informaciones útiles. Este tipo de estudios dio lugar a la estadística descriptiva cuya misión consiste en describir situaciones y procesos dados; para ello se sirve de tablas, representaciones gráficas, proporciones, números índice y medidas típicas. Sin embargo las conclusiones extraídas se agotan en el propio conjunto de datos observados, pues el objetivo consistía en hacerse una idea clara de lo que había, y lo que había se contaba y se medía. Lo que posibilitó el cálculo de probabilidades fue, precisamente, el desarrollo de un conjunto de métodos para extrapolar las conclusiones a entidades no observadas. Es decir, proporcionó el instrumento adecuado para poder hacer inferencias acerca de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales. Estas técnicas tuvieron su fundamento en el desarrollo de la curva normal por Gauss, en su aplicación por Galton a los problemas de herencia, etc. Sin embargo los auténticos fundadores de estas técnicas fueron Karl Pearson (1857-1936) y Sir Ronald Fisher (1890-1962). Así se ha desarrollado la estadística analítica o inferencial basada en la teoría de probabilidades que trata de obtener leyes generales a partir de la observación de algunos datos. Precisamente este fundamento probabilístico condiciona el que los resultados obtenidos se vean sujetos a unos márgenes de error. Ahora se puede dar una definición de Estadística en la que aparecen algunos términos no definidos lo cual no impedirá entender su significado. 8 1.2. DEFINICIONES Y EJEMPLOS 1.2. Definiciones y ejemplos 1.2.1. Estadística 9 Definición 1.2.1 Es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas proceden. Es la ciencia que estudia los fenómenos aleatorios. 1.2.2. Estadística Descriptiva La primer parte de la definición de estadísticas, es comúnmente conocida como Estadística Descriptiva. La definición es la siguiente: “Es el conjunto de procedimientos utilizados para organizar, resumir y presentar grupos de datos numéricos”. Los grupos de datos numéricos no organizados son de poca utilidad. Sin embargo, técnicas estadísticas están disponibles para organizar estos datos en distribuciones de frecuencia, presentarlos en gráficas, resumirlos en promedios y medidas de variabilidad o dispersión. 1.2.3. Estadística Inferencial Otra faceta de las estadísticas es la estadística inferencial también llamada estadística inductiva. La principal utilidad de la estadística inferencial es conocer algo acerca de una población basándose en una muestra tomada de esa población. La definición es la siguiente: Es el conjunto de métodos utilizados para obtener conclusiones relativas a una población, basándose en el conocimiento de las características de una muestra. Una población puede consistir de individuos, tales como todos los estudiantes de la universidad, todos los estudiantes que estudian Estadísticas o todos los internos de la penitenciaria. Una población puede también consistir de objetos, tales como todos los motores producidos por la planta Ford o todas las truchas en un estanque. Una población también puede consistir en un grupo de medidas, tales como las estaturas equipo de básquetbol "Dorados de Chihuahua". 1.2.4. Población y muestra Definición 1.2.2 : Individuo Es cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Definición 1.2.3 : Población Es el conjunto de todos los individuos (personas, objetos, animales, etc.) que portan información sobre el fenómeno que se estudia. Para inferir algo acerca de una población, usualmente tomamos una muestra de ella. Definición 1.2.4 : Muestra Es un subconjunto de la población de interés. 1.3. VARIABLES 10 Por ejemplo una población en estudio podría ser el conjunto de todos los estudiantes que estudian administración en la Facultad de Ciencias Económicas de la Universidad Nacional de Asunción y una muestra podría consistir en el conjunto de estudiantes de primer año de dicha población. 1.3. Variables Definición 1.3.1 : Variables Es una característica que puede tomar diferentes valores. Las variables son características observables, susceptibles de adoptar distintos valores o ser expresados en categorías. Variable es un aspecto especifico de la realidad referido a la unidad del análisis y puede ser medidos o cuantificados. La variable adquiere un valor determinado en cada unidad de análisis. Si una característica, se encuentra que toma valores diferentes en personas, lugares o cosas diferentes, se dice que esta característica es variable, es decir la característica no es la misma cuando se observa en diferentes poseedoras de ellas. Ejemplo 1.3.1 Las siguientes características son ejemplos de variables Estatura de las personas Edad de los niños El precio y la demanda de un producto Definición 1.3.2 : Variables Aleatorias Cuando los valores obtenidos de la variable son el resultado de factores fortuitos o al azar. Ejemplo 1.3.2 Las siguientes características son ejemplos de variables aleatorias El número de caras obtenidas en tres lanzamientos de una moneda El número de hijos en un matrimonio determinado 1.3.1. Tipos de variables Definición 1.3.3 : Variable Cualitativa Cuando la variable estudiada es no numérica es decir una característica que no puede ser medido sino solo catalogarse, esta es llamada variable cualitativa también llamada atributo. Ejemplo 1.3.3 Las siguientes características son ejemplos de variables cualitativas lugar de nacimiento religión color de ojos 1.3. VARIABLES 11 Definición 1.3.4 : Variable Cuantitativa Cuando la variable estudiada puede expresarse en forma numérica es decir puede ser medido, esta es llamada variable cuantitativa. Las variables cuantitativas pueden ser discretas o continuas. Ejemplo 1.3.4 Las siguientes características son ejemplos de variables cualitativas el saldo de una cuenta bancario, la duración de una batería, la velocidad de los automóviles en el periférico de la juventud Definición 1.3.5 : Variables Discretas Las variables discretas pueden asumir solo ciertos valores, y hay usualmente huecos entre los valores (valores puntuales). Ejemplo 1.3.5 Las siguientes características son ejemplos de variables discretas número de cuartos en una casa número de carros en el estacionamiento del claustro número de estudiantes en la clase de estadísticas. Note que cada una de estas variables puede valer un número entero (por ejemplo: 1,2,3, etc.) pero no puede valer números fraccionarios (por ejemplo: 1,5). Típicamente, las variables discretas resultan de un conteo. Definición 1.3.6 : Variables Continuas Las variables continuas pueden asumir todos los valores dentro de un rango específico (valores dentro de un intervalo) Ejemplo 1.3.6 Las siguientes características son ejemplos de variables continuas presión del aire en una llanta el tiempo que se toma en viajar de Itá a San Lorenzo el peso de los jugadores de fútbol del club Cerro Porteño Típicamente, las variables continuas resultan de medir algo, y lógicamente dependen de la exactitud del instrumento de medición. 1.3. VARIABLES 1.3.2. 12 Escalas de medición La estadística no realiza sus funciones directamente sobre las modalidades observadas, sino que éstas se representan por valores numéricos, y la estadística realiza sus funciones sobre esos valores numéricos. Se llama medición al proceso de atribuir números a las características. La medición estudia las condiciones de construcción de representaciones numéricas, y los modelos desarrollados para la medición se llaman escalas. Por lo tanto los datos se pueden clasificar de acuerdo con niveles de medición. Hay cuatro escalas de medición que son: nominal, ordinal, de intervalo y de razón. Definición 1.3.7 : Escala Nominal El término nivel nominal es normalmente usado para referirse a datos que solamente pueden clasificarse en categorías. Es la escala de medición más bajo o más primitiva. Sin embargo, no hay mediciones y no hay escalas involucradas, solo hay conteo. En este tipo de nivel de medición el orden en que están acomodadas las categorías es totalmente arbitrario. Ejemplo 1.3.7 Religiones en México (población con 5 años o más, censo del 2000) Categoría Religión Católica Religión no católica Sin religión total Seguidores 74 612 373 3 483 593 2 982 929 81 078 895 Definición 1.3.8 : Escala Ordinal Este tipo de nivel de medición tiene características similares al nivel nominal con la diferencia de que en el nivel ordinal las categorías indican que unas son más que las otras. Ejemplo 1.3.8 Evaluación de la atención médica en Uruguay en el año 2006 Categoría Buena / muy buena regular mala / muy mala no sabe / no contesta total Calificación ( %) 75,7 17,1 2 5,2 100 Definición 1.3.9 : Escala cuantitativa intervalar En este nivel de medición, las categorías están definidas por intervalos de valores, y están acomodadas en orden a la magnitud de los valores. El tamaño de los intervalos es el mismo. Propiedades de la escala de intervalos a) Las categorías de datos son mutuamente excluyentes y exhaustivas. b) Las categorías de datos están ordenadas de acuerdo con la cantidad de la características que poseen. 1.3. VARIABLES 13 c) Diferencias iguales en la característica están representadas por diferencias iguales en los números asignados a las categorías Ejemplo 1.3.9 Calificaciones de los aspirantes a la academia militar Calificación 90 - 99 80 - 89 70 - 79 60 - 69 Número de aspirantes 42 19 7 4 Definición 1.3.10 : Escala cuantitativa Racional La escala de razón es el de nivel más alto. En este nivel al igual que en el nivel intervalar, las categorías son del mismo tamaño. La diferencia es que este nivel tiene un punto cero significativo y el valor de las categorías es en relación a ese punto, por lo que la relación entre dos números tiene sentido. Propiedades de la escala de Razón a) Las categorías de datos son mutuamente excluyentes y exhaustivas. b) Las categorías de datos están ordenadas de acuerdo con la cantidad de las características que poseen. c) Diferencias iguales en la característica están representadas por diferencias iguales en los números asignados a las categorías. d) El punto cero refleja la ausencia de estas características. Ejemplo 1.3.10 Ingreso de los empleados de la compañía en relación a la media de la industria Ingreso en relación a la media 2000 1000 0 -1000 -2000 Número de empleados 12 25 32 17 10 Observación En la escala de medición de una variable; sea cualitativa o cuantitativa; las categorías deben ser mutuamente excluyentes. Esto significa que un individuo ó medición pertenece únicamente a una de las categorias. Además las categorías deben ser exhaustivas, esto es cada individuo ó medición debe pertenecer a una de las categorías. 1.4. PROBLEMAS 1.4. 14 Problemas 1. ¿Cuál es el nivel de medición de cada una de las siguientes variables? a) Distancia que recorren los estudiantes para llegar a clases b) Calificaciones de los estudiantes en la primera prueba de estadística c) Una clasificación de los estudiantes según el departamento en que nacieron d) El número de horas que estudia por semana un estudiante 2. ¿Cúal es el nivel de medición de estos incisos relacionados con la industria periodística? a) El número de periódicos vendidos cada domingo durante el año 2010 b) El número de empleados en cada departamento, editorial, propaganda, deportes, etcétera. c) Un resumen, por ciudad, del número de periódicos vendidos d) El número de años que lleva cada empleado en el periódico 3. En cada uno de los siguientes puntos determine si el grupo es una muestra o una población a) Los participantes en un estudio de un nuevo medicamento para la diabetes b) Todos los automovilistas que fueron multados por exceso de velocidad en la ciudad de San Lorenzo el mes pasado. c) Todos los que reciben asistencia médica en el Hospital Nacional de Itaugua d) Número de artículos defectuosos encontrados en los embarques. 4. Las diferentes variables cuantitativas, ¿A qué tipo de datos corresponden? a) Número de clientes que llegan en un Banco antes del medio día b) Sueldos que se pagan a los diferentes jubilados Bancarios c) Superfice de tierra que corresponden a los Campesinos de San Pedro d) Nivel de presión arterial de los varones mayores a 30 años 5. En los ejemplos a continuación establezca la muestra o población a) 50 ama de casa que utilizan determinada marca de detergentes en una ciudad de 800 habitantes. b) Los montos de sueldos de cada uno de los trabajadores de una compañía c) 100 estudiantes de la Universidad Nacional de Asunción con sus respectivas calificaciones en Estadística. 6. Diga cuál es la variable y a qué naturaleza corresponde a) Un estudiante recorre una distancia de 25 km para llegar a la Universidad b) Distancia recorrida por un grupo de estudiantes para llegar a la Universidad 1.4. PROBLEMAS 15 c) Preferencia de color de cabello en las mujeres en tiempo de verano d) Estado de ánimo de los trabajadores de una compañia en horas de la siesta e) Precios de los calzados de vestir masculino en una ciudad f) Número de niños que no acuden diariamente en la semana en una escuela 7. Explique la diferencia entre variables cualitativas y cuantitativas. 8. Explique la diferencia entre población y muestra 9. Defina el término mutuamente excluyentes 10. Defina el término mutuamente exhaustivo 11. A una muestra aleatoria de 500 clientes se le pidió probar una nueva pasta dental. De los 500, 400 dijeron que era excelente, 32 pensaron que era buena y el resto de los clientes no dieron ninguna opinión. Basandose en lo encontrado en la muestra haga una diferencia de la reacción de todos los clientes a la nueva pasta dental. 12. Una muestra aleatoria de 300 ejecutivos de los 2500 empleados en una empresa grande mostró que 270 se mudarían a otro sitio si ello significara un ascenso importante. Basándose en los hallazgos en la muestra describa la reacción de todos los ejecutivo de la empresa. 13. Explique la diferencia entre variables discretas y continuas. 14. Defina el término escala 15. Cita los tipos de niveles de medición 16. Identificar las escalas de medición de las siguientes variables a) Número de jugadores de fútbol b) Ansiedad c) Presión arterial d) Estado de conciencia e) Dolor f) Grupo saguíneo g) Temperatura Capítulo 2 Distribuciones de Frecuencia 2.1. Estadística descriptiva Como su nombre lo indica, la estadística descriptiva es la parte de la estadística que describe y resume una serie de datos. La estadística descriptiva hace énfasis en tres aspectos: 1. La forma de la distribución. Para describir como están distribuidos los datos utiliza una herramienta llamada “distribución de frecuencia” y presenta la información por medio de tablas y gráficas. 2. Las medidas de tendencia central: que resumen la información a una cifra que es representativa de la serie de datos. 3. Las medidas de variabilidad: que nos indican que tan variables son los datos respecto a las medidas de tendencia central. En este capítulo se presenta una manera de elaborar una distribución de frecuencia, en las secciones siguientes se abordarán los temas de medidas de tendencia central y medidas de variabilidad. 2.2. Construcción Una distribución de frecuencias es una serie de datos agrupados en categorías, en las cuales se muestra el número de observaciones que contiene cada categoría. Los pasos para la construcción de una distribución de frecuencias son mejor explicados con un ejemplo. Ejemplo 2.2.1 Los siguientes datos son el número de meses de duración de una muestra de 40 baterías para coche. 22 34 25 33 47 41 16 43 31 38 35 31 34 37 32 45 33 36 44 26 32 38 29 32 39 16 37 31 33 41 30 30 47 39 19 42 26 37 31 34 35 2.2. CONSTRUCCIÓN 17 1. Ordenación de datos, que puede ser en orden ascendente o descendente 16 19 22 25 26 26 29 30 30 31 31 31 31 32 32 32 33 33 33 34 34 34 35 35 36 37 37 37 38 38 39 39 41 41 42 43 44 45 47 47 2. El rango (amplitud) Rango = Dato mayor - Dato menor = 47 - 16 = 31 3. Número tentativo de los intervalos de clase (nic) El número de intervalos (nic) puede ser como mínimo 5 y como máximo 15 de acuerdo a la fórmula : 2nic Número de intervalos (nic) 5 6 7 8 9 10 Número máximo de datos (2nic ) 32 64 128 256 512 1024 En este ejercicio, puesto que tenemos 40 datos el nic sería de 6. También al nic le podemos calcular de la siguiente manera: nic = 1 + 3, 322log10 N = 1 + 3, 3222log10 40 = 6, 32 ' 6 4. Tamaño de los intervalos de Clase (tic) tic = Rango nic = 31 6 = 5,16 que se redondea a 6 Para facilitar la clasificación de los datos, el tic se redondea siempre al entero posterior. 5. Límite inferior (LI) Usualmente, el límite inferior del primer intervalo de clase es el dato más chico, que en este ejemplo es 16. El límite inferior de los siguientes intervalos se calcula sumando el tic al límite inferior del intervalo anterior hasta llegar a un número no mayor al dato más grande. 6. Límite superior (LS) El límite superior se calcula con la siguiente fórmula LS = LI + tic − 1 2.2. CONSTRUCCIÓN 18 LI 16 22 28 34 40 46 LS 21 27 33 39 45 51 7. Límite Superior Real (LSR) Los límites anteriores son los límites nominales pero no son los reales. Los límites reales son el punto medio entre el límite superior (LS) y el límite inferior del siguiente ³ LS + LIsig ´ intervalo (LIsig), entonces LSR = 2 LI 16 22 28 34 40 46 LS 21 27 33 39 45 51 LSR 21,5 27,5 33,5 39,5 45,5 51,5 8. Marca de clase (X) La marca de clase, también llamada punto medio del intervalo es la mitad de la distancia entre los límites inferior y superior de cada intervalo. La marca de clase es el valor más LI + LS representativo de los valores del intervalo. Con lo cual X = 2 LI 16 22 28 34 40 46 LS 21 27 33 39 45 51 LSR 21,5 27,5 33,5 39,5 45,5 51,5 X 18,5 24,5 30,5 36,5 42,5 48,5 9. Clasificación de los datos y conteo de frecuencias Clasificar las observaciones en los intervalos. La práctica usual es marcar con una línea ( / ) que representa una observación. En el ejemplo la observación 22 se clasifica en el intervalo 20 - 24 porque se encuentra entre el 20 y el 24 inclusive. Una vez clasificados todos los datos se cuentan las líneas de cada intervalo y el resultado es la frecuencia de cada intervalo de clase. 2.2. CONSTRUCCIÓN 19 LI 16 22 28 34 40 46 LS 21 27 33 39 45 51 LSR 21,5 27,5 33,5 39,5 45,5 51,5 X 18,5 24,5 30,5 36,5 42,5 48,5 cuenta // //// ///// ///// /// ///// ///// /// ///// / // F 2 4 13 13 6 2 10. Distribución de frecuencia relativa (FR) Se pueden convertir las frecuencias de clase en frecuencias relativas de clase para mostrar los porcentajes de observaciones en cada intervalo de clase. Para convertir una distribución de frecuencia en una distribución de frecuencia relativa cada una de ³ F´ las frecuencias de clase se dividen entre el número total de observaciones FR = n LI 16 22 28 34 40 46 LS 21 27 33 39 45 51 LSR 21,5 27,5 33,5 39,5 45,5 51,5 X cuenta 18,5 // 24,5 //// 30,5 ///// ///// /// 36,5 ///// ///// /// 42,5 ///// / 48,5 // F 2 4 13 13 6 2 FR 2/40 = 0, 05 4/40 = 0, 1 13/40 = 0, 325 13/40 = 0, 325 6/40 = 0, 15 2/40 = 0, 05 11. Distribuciones de frecuencia acumulada Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuantas observaciones, o que porcentaje de observaciones están debajo de cierto valor. La distribución de frecuencia acumulada (FA) de cierto intervalo se calcula sumando las frecuencias de clase desde el primer intervalo hasta la frecuencia de clase del intervalo de interés. Si queremos la frecuencia acumulada del intervalo 25 - 29, sumamos las frecuencias de clase 2 + 1 + 4 = 7. La distribución de frecuencia relativa acumulada (FAR) de cierto intervalo se calcula dividiendo la frecuencia acumulada entre el número total de observaciones FA FRA = n LI LS 16 21 22 27 28 33 34 39 40 45 46 51 LSR 21,5 27,5 33,5 39,5 45,5 51,5 X 18,5 24,5 30,5 36,5 42,5 48,5 cuenta // //// ///// ///// /// ///// ///// /// ///// / // F 2 4 13 13 6 2 FR 0,05 0,1 0,325 0,325 0,15 0,05 FA FRA 2 0,05 6 0,15 19 0,475 32 0,8 38 0,95 40 1 2.2. CONSTRUCCIÓN 2.2.1. 20 Representación Gráfica Tres gráficas que nos ayudarán a representar gráficamente una distribución de frecuencias son el histograma, el polígono de frecuencia y la ojiva de frecuencia acumulada. El histograma El histograma es una de las gráficas más ampliamente utilizadas y una de las mas fáciles de entender. Un histograma describe una distribución de frecuencia utilizando una serie de rectángulos adyacentes donde la altura de cada rectángulo es proporcional a la frecuencia de clase que representa. Figura 2.1: Representación gráfica de un histograma de frecuencia Figura 2.2: Representación gráfica de un histograma de frecuencia relativa 2.2. CONSTRUCCIÓN 21 Polígono de frecuencia El polígono de frecuencia consiste de segmentos de línea conectando los puntos formados por la intersección de las marcas de clase y las frecuencias de clase. Figura 2.3: Representación gráfica de un polígono de frecuencia El polígono de frecuencia relativa Es similar al anterior solo que en este se muestran porcentajes, es decir las frecuencias relativas de cada clase. Figura 2.4: Representación gráfica de un polígono de frecuencia relativa 2.3. PROBLEMAS 22 Ojivas de Frecuencia Acumulada Las distribuciones de frecuencia acumulada y frecuencia relativa acumulada se presentan gráficamente con las ojivas de frecuencia acumulada y frecuencia relativa acumulada, que es una gráfica de segmentos de línea que une los puntos donde se cruzan los límites reales con las frecuencias acumuladas y relativas acumuladas de cada intervalo de clase. Figura 2.5: Representación gráfica de una ojiva de frecuencia acumulada 2.3. Problemas Elabore la distribución de frecuencias de las siguientes series de datos, con sus respectivas gráficas: 1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental. 23 80 52 41 60 34 60 77 10 71 78 67 79 81 64 83 89 17 32 95 75 54 76 82 57 41 78 64 84 69 74 65 25 72 48 74 52 92 80 88 84 63 70 85 98 62 90 80 82 55 81 74 15 85 36 76 67 43 79 61 2. Una compañía de cambio de aceite tiene varias sucursales en la zona metropolitana. El número de cambios de aceite en la sucursal de la calle Roble en los pasados 20 días son: 66 98 55 62 79 59 51 90 72 56 70 62 66 80 94 79 63 73 71 85 2.3. PROBLEMAS 23 3. El gerente de una firma especializada en renta de condominios para vacacionistas, quiere saber como están distribuidas los montos de las rentas mensuales de los departamentos de la firma. Seleccionó una muestra de departamentos cuyas muestras son mostradas abajo. 1170 1332 1471 1826 1440 1119 1352 Rentas mensuales de los condominios 1581 1277 1305 1472 1077 1319 1949 1403 1744 1532 1219 896 1041 1379 821 1558 1118 1533 1426 1288 1394 1545 1032 1289 1329 1407 718 1457 1449 1455 1400 1442 1593 1962 1263 1788 1459 1823 1451 1138 1592 982 1207 1418 1399 1309 1421 1020 1340 1537 1500 1510 695 2051 1501 1981 1849 1671 1760 803 1677 1668 1091 4. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible similares. 24 3 18 36 72 48 4 66 71 40 16 78 3 22 57 5 18 28 67 9 54 6 72 4 30 60 15 3 12 72 5. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado. 17 12 16 13 7 20 14 18 7 10 10 6 8 18 5 9 9 13 7 14 23 13 3 10 15 13 12 6 7 32 9 4 27 10 9 19 10 7 19 6 18 24 13 7 10 11 16 8 7 15 6. Se aplicó una encuesta donde se les pide indicar el número de amigos o parientes que visitan cuando menos una vez al mes. Los resultados son los siguientes: 3 2 5 4 9 4 5 4 6 14 4 3 2 2 4 3 1 5 3 5 3 5 4 7 3 3 2 6 2 3 4 3 2 3 4 5 1 3 6 4 3 6 8 0 3 2 5 2 4 3 5 4 0 2 7. El gerente de un negocio de comida rápida esta interesado en el número de veces que un cliente compra en su tienda durante un periodo de dos semanas. Las respuestas de los 51 clientes fueron: 5 1 5 3 2 9 3 4 11 1 4 3 4 4 12 4 5 4 5 6 7 6 3 6 4 2 5 3 5 15 6 4 1 6 6 5 6 1 10 7 1 8 4 8 9 1 7 2 14 6 12 2.3. PROBLEMAS 24 8. El presidente de una agencia de viajes, quiere información sobre las edades de la gente que toma cruceros por el Caribe. Una muestra de 40 clientes que tomaron un crucero el año pasado reveló estas edades: 77 36 62 60 18 26 43 45 63 50 52 66 84 34 53 83 38 44 63 71 54 41 62 63 50 58 62 58 59 58 65 61 54 53 61 71 56 51 52 60 9. Una cadena de tiendas de artículos deportivos al servicio de esquiadores principiantes, planea hacer un estudio de cuanto gasta un esquiador principiante en su primera compra de equipo. Una muestra de recibos de sus cajas registradoras reveló esas compras iniciales. 140 235 162 87 82 212 126 128 265 171 216 126 168 149 195 175 90 156 127 127 114 162 161 149 172 118 135 126 230 139 172 121 142 149 220 118 86 132 229 172 125 105 129 126 10. Se conduce un estudio de los efectos de fumar sobre los patrones de sueño. La medición que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos datos: 69 56 22 28 41 28 47 53 48 30 34 13 52 34 60 25 21 37 43 23 13 31 29 38 26 36 30 11. Un banco seleccionó una muestra de 40 cuentas de cheques de estudiantes. Abajo aparecen sus saldos de fin de mes. 404 87 703 968 74 234 125 712 234 68 350 503 149 489 440 498 279 57 37 327 215 185 252 608 123 141 27 358 55 758 521 425 43 72 302 303 321 863 127 203 12. Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los siguientes datos son las cuentas que se les facturó el mes pasado: 54 67 48 68 58 39 50 25 35 56 47 75 66 33 46 62 60 70 65 67 13. Una muestra de suscriptores de una compañía telefónica reveló los siguientes números de llamadas recibidas en la última semana. 52 39 43 37 30 38 34 46 30 42 32 18 12 41 46 5 Capítulo 3 Medidas de tendencia central Promedios A las medidas de tendencia central con frecuencia se les llama promedios. El propósito de una medida de tendencia central es indicar con toda precisión el centro de un conjunto de observaciones. 3.1. La Media 3.1.1. La Media Geométrica La media geométrica es útil para encontrar el promedio de porcentajes, proporciones, índices, o tasas de crecimiento. Tiene mucha aplicación en el comercio y la economía porque nos interesa encontrar el porcentaje de cambio en ventas, salarios o datos económicos como el producto nacional bruto. La media geométrica de un conjunto de "n"números enteros positivo se define como la n-ésima raíz del producto de los n valores es decir: p n X1 , X2 , . . . , Xn Ejemplo 3.1.1 Suponga que usted recibe un 5 % de aumento en su salario este año y un 15 % de aumento el año próximo y quiere saber cual es el incremento porcentual promedio. Si tiene un aumento del 5 % entonces su salario es 1,05 y si tiene un p aumento del 15 % su salario es de 1,15 entonces calculando la media geométrica se obtiene (1, 05)(1, 15) = 1, 09886, por lo que el aumento promedio anual es del 9, 886 %. Ejemplo 3.1.2 Las ganancias obtenidas por Atkins Construction Company en cuatro proyectos recientes fueron 3 %, 2 %, 4 % y 6 %. ¿ Cuál es la media de las ganancias? Por lo que la media de ganancias obtenidas por Atkins Construction Company en los cuatro proyectos esta dada por p 4 (0, 03)(0, 2)(0, 4)(0, 6) = 0, 03464 o sea 3,464 % 25 3.1. LA MEDIA 3.1.2. 26 La Media Aritmética La medida de tendencia central mas ampliamente usada es la media aritmética, usualmente abreviada como media. La media aritmética de un conjunto de n valores (observaciones) es el resultado de la suma de todos ellos dividido entre n. 3.1.3. Propiedades de la media aritmética 1. Puede ser calculada en distribuciones con escala relativa e intervalar. 2. Todos los valores son incluidos en el cómputo de la media. 3. Una serie de datos solo tiene una media. 4. Es una medida muy útil para comparar dos o más poblaciones. 5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos. 3.1.4. Desventajas de la media aritmética 1. Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos. 2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos. 3.1.5. La media para datos no agrupados Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores dividido entre el número total de valores. Para encontrar la media de una muestra se usa la siguiente fórmula: n ∑ Xi X= i=1 n Donde: X : es la media de la muestra n ∑ Xi : es la suma de todos los valores de la muestra i=1 n : es el número de elementos de la muestra Ejemplo 3.1.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la media aritmética de estas observaciones? 3.1. LA MEDIA 27 n ∑ Xi X= 3.1.6. i=1 n = 85, 4 + 85, 3 + 84, 9 + 85, 4 + 84, 0 = 85, 0 5 La media para datos agrupados Frecuentemente los datos estás agrupados y presentados en forma de distribución de frecuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base a la distribución de frecuencias. La media aritmética de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera: X= ∑ fi Xi n Donde: X : simboliza la media de la muestra Xi : es la marca de clase del intervalo i-ésimo fi : es la frecuencia de clase del intervalo i-ésimo ∑ fiXi : es la suma de los productos de fi por Xi n = ∑ f : es la suma de las frecuencias de clase Ejemplo 3.1.4 Calcular la media aritmética de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. duración de las baterías (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 Número de baterías 2 1 4 15 10 5 3 Damos como un hecho que ya sabemos elaborar una distribución de frecuencias, si se quiere ver como se elaboró vaya a la sección de ese tema en este mismo sitio. Primeramente, de la distribución de frecuencias que ya tenemos, utilizaremos las marcas de clases y la frecuencias de clases, para después calcular el producto fi Xi y proceder 3.2. LA MEDIANA 28 finalmente a calcular la sumatoria ∑ fi Xi y aplicar la fórmula. LI 15 20 25 30 35 40 45 3.1.7. LS 19 24 29 34 39 44 49 Xi 17 22 27 32 37 42 47 fi 2 1 4 15 10 5 3 n =40 fi Xi 34 22 108 480 370 210 141 ∑ fiXi = 1365 X= ∑ fi Xi 1365 = = 34, 12 n 40 La media de la población Las medidas características de una muestra son llamadas estadísticos y las medidas características de una población se denominan parámetros. La media de la población se calcula de la misma manera que la media de la muestra, que calculamos arriba, pero tiene diferente notación: N ∑ Xi µ= i=1 N Donde: µ : es la media de la población N ∑ Xi : es la suma de todos los valores de la población i=1 N : es el número de elementos de la población 3.2. La mediana Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana. La mediana es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos. Ejemplo 3.2.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la mediana de las observaciones muestreadas? 3.2. LA MEDIANA 29 85,9 85,4 85,4 ↓→↓ X̃ 84,3 84,0 Por lo que la mediana es X̃ = 85, 4 Ejemplo 3.2.2 Una muestra de los honorarios de paramédicos cargados por la clínica Baltimore reveló las siguientes cantidades: 35,29, 30,25, 32,35. ¿Cuál es la mediana? 25 29 30 32 35 35 ↓→↓ X̃ En este caso la mediana se calcula obteniendo la media de las dos observaciones centrales X̃ = 3.2.1. 30 + 32 = 31 2 Propiedades de la mediana 1. Hay solo una mediana en una serie de datos. 2. No es afectada por los valores extremos ( altos o bajos ) 3. Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto. 4. Puede ser calculada en distribuciones con escala relativa, intervalar, y ordinal. 3.2.2. La mediana para datos agrupados Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos: 1. Calcular el valor n 2 2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada n es igual o mayor que . 2 3.2. LA MEDIANA 30 3. Aplicando la siguiente fórmula con los valores del intervalo mediano: X̃ = LRI + ( n2 − FA)tic F Donde: X̃ : mediana de la muestra LRI : Limite real inferior del intervalo mediano FA : frecuencia acumulada anterior a la frecuencia del intervalo mediano tic : tamaño de los intervalos de clase F : frecuencia del intervalo mediano Ejemplo 3.2.3 Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. Duración de las baterías (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 Número de baterías 2 1 4 15 10 5 3 Para calcular la mediana de una distribución de frecuencias necesitamos obtener el intervalo el intervalo mediano para luego obtener el límite superior real (LSR), la frecuencia acumulada anterior a la frecuencia de la mediana (FA) y la frecuencia absoluta de la mediana (F). Procedamos entonces a localizar el intervalo mediano a través de los siguientes pasos 1. El valor de n 40 = = 20 2 2 2. El intervalo mediano es: LI LS 15 19 20 24 25 29 30 34 35 39 40 44 45 49 LSR 19,5 24,5 29,5 34,5 39,5 44,5 49,5 X 17 22 27 32 37 42 47 F 2 1 4 15 10 5 3 FA 2 3 7 22 ↓→↓ intervalo mediano 32 37 40 3.3. LA MODA 31 Aplicar la fórmula con los datos del intervalo mediano: X̃ = LRI + 3.3. ( n2 − FA)tic (20 − 7)(5) = 29, 5 + = 33, 83 F 15 La moda La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. Es el valor de la observación que aparece más frecuentemente. 3.3.1. Propiedades de la moda 1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y relativa). 2. La moda tiene la ventaja de no ser afectada por valores extremos. 3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos. 3.3.2. Desventajas de la moda 1. En muchas series de datos no hay moda porque ningún valor aparece más de una vez. 2. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos? Ejemplo 3.3.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la moda de las observaciones muestreadas? La moda de esta secuencia de observaciones es X̂=85,4 3.3.3. La moda para datos agrupados Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada siguiendo los siguientes pasos: 1. Localizar la clase del intervalo que contenga la frecuencia de clase más grande. 2. Aplicando la siguiente fórmula con los valores del intervalo de la moda: ³ ∆1 ´ X̂ = LRI + tic ∆1 + ∆2 Donde: X̂ : la moda de los datos de la muestra LRI : Limite real inferior de la clase modal 3.3. LA MODA 32 ∆1 : diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior. ∆2 : diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior. tic : tamaño de los intervalos de clase Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clases. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serán las marcas de clases de dichos intervalos. Ejemplo 3.3.2 Calcular las modas de las siguientes distribuciones de frecuencia: X 5 10 15 20 25 30 X F 5 4 10 8 15 6 20 7 25 8 30 8 X 5 10 15 20 25 30 3.3.4. F 4 3 15 9 10 7 X̂= 15 hay dos moda X̂= 10 X̂ = F 4 4 4 4 4 4 (25+30) 2 = 27, 5 no hay moda Comparación entre medidas de tendencia central Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos razones para apoyar esta norma general. La primera es que en ella se basan otros estadísticos y la segunda es que es mejor estimador de su parámetro que la mediana y la moda. Hay al menos tres situaciones en las que se preferirá la mediana a la media: Cuando la variable esté medida en escala ordinal Cuando haya valores extremos que distorsionen la interpretación de la media 3.4. PROBLEMAS 33 Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de límite superior, el intervalo inferior carece de límite inferior o ambos. La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas supone un cambio en la media aritmética, mientras que la mediana sólo se vería alterada por cambios en los valores centrales. La mediana será la segunda candidata para representar la tendencia central y se preferirá la mediana a la moda, a menos de que: a) Se trate de una variable medida en escala nominal b) Haya intervalos abiertos y la mediana pertenezca a uno de ellos. 3.3.5. Relación entre las medidas de tendencia central 1. Para una distribución simétrica los valores de la media, la mediana y la moda coinciden es decir: X = X̃ = X̂, con lo cual la distribución de datos no presenta sesgo. Observación : Esta igualdad no es exacta, sino que se cumple con mayor o menor aproximación en función del grado de simetría de la curva que represente gráficamente la distribución. 2. Para una distribución asimétrica negativa se tiene que: X < X̃ < X̂, con lo cual la distribución de datos presenta un sesgo negativo. 3. Para una distribución asimétrica positiva se tiene que: X̂ < X̃ < X, con lo cual la distribución de datos presenta un sesgo positivo. Observación: La regla empírica se acepta como válida siempre que el grado de curva no sea muy acentuado. 3.4. Problemas 1. El departamento de agricultura, tiene los siguientes datos que representan el crecimiento mensual (en pulgadas) de muestras de maíz recien plantados 0,4 0,9 1,9 0,7 1,5 0,9 0,9 0,7 0,3 0,7 1,6 1,5 0,4 0,5 1,5 1,5 1,2 1,7 0,8 1,8 a) Organice los datos en un ordenamiento ascendente b) calcula las medidas de tendencia central considerando los a datos como simples 2. Un fabricante de neumáticos quiere determinar el diámetro interior de cierto grado de los neumáticos. Idealmente el diámetro sería 570mm. Los datos son los siguientes: 572 572 573 568 569 575 565 570 Encuentre las medidas de tendencia central y analice la relación entre ellas 3.4. PROBLEMAS 34 3. A continuación presentamos los datos de una muestra de la tasa de producción diaria de de botes de fibra de vidrio de la Hidrosport Lt. Un fabricante de Miami. 17 21 18 27 17 21 20 22 18 23 a) Calcule las mediadas de tendencia central e interprete los resultados b) Compare las mediadas de tendencia central 4. Dada la distribución de frecuencia de rentas mensuales de 200 departamentos (en miles de pesos) Renta mensual (en miles de pesos) 350-379 380-409 410-439 440-469 470-499 500-529 530-559 560-589 590-619 620-649 Total No de departamentos 3 8 10 13 33 40 35 30 16 12 200 Determine las medidas de tendencia central y analice la relación entre ellas 5. las edades de 60 personas que trabajan en una fábrica textil se han tabulado dando la siguiente tabla de frecuencias: Edades 13-17 18-22 23-27 28-32 33-37 38-42 43-47 48-52 53-57 Total No de personas 2 6 10 13 18 6 2 2 16 60 a) Hallar las mediadas de tendencia central b) Interpretar los resultados de la parte a) c) Comparar las mediadas de tendencia central Capítulo 4 Medidas de Variabilidad 4.1. Introducción ¿Qué son las medidas de variabilidad? Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de tendencia central. Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos. Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones. Por ejemplo, la calificación promedio de dos estudiantes, A = {90, 80, 75, 75} y B = {90, 55, 85, 90}, es de 80. Basados en esto podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el detalle de sus calificaciones vemos que esta conclusión no es correcta. 4.2. Variabilidad 4.2.1. Rango y rango intercuartílico Definición 4.2.1 : Amplitud o Rango Es la diferencia entre observaciones extremas, es decir la diferencia entre el mayor y el menor valor. Es muy sensible a los valores extremos. Ejemplo 4.2.1 Dadas las siguientes observaciones 2,1,4,3,8,4. Calcular el rango R = 8−1 = 7 Definición 4.2.2 : Rango intercuartílico 35 4.2. VARIABILIDAD 36 Es parecida al rango, pero eliminando las observaciones más extremas o sea las inferiores y superiores. Por lo que no es tan sensible a valores extremos. Es la distancia entre primer y tercer cuartil. Rango intercuartil = Q3 − Q1 4.2.2. (4.2.1) Desviación media La desviación media mide la cantidad promedio que varían los datos respecto a su media. Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media. La fórmula de la desviación media ( Dm ) es: n ∑ |Xi − X| Dm = i=1 (4.2.2) n Ejemplo 4.2.2 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3; 84,9 ; 85,4 y 84,0. ¿Cuál es la desviación media de las observaciones muestreadas? X X −X 85,4 + 0.4 85,4 + 0.4 85,3 + 0.3 84,9 - 0.1 84,0 - 1.0 |X − X| 0.4 0.4 0.3 0.1 1.0 n ∑ |Xi − X| Dm = 4.2.3. i=1 n = 2, 2 = 0, 44 5 Desviación media para datos agrupados En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es : Dm = ∑ fi|Xi − X| n (4.2.3) Ventajas y desventajas de la desviación media La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente. Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos: A = {0, 50, 100} y B = {49, 50, 51} 4.2. VARIABILIDAD 37 Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin embargo en ambos casos la desviación media es cero. 4.2.4. Varianza y desviación estándar La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media. Varianza Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media. Desviación estándar Es la raíz cuadrada de la varianza. Varianza y desviación estándar para datos no agrupados Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas son: N N ∑ (Xi − µ)2 i=1 σ2 = ∑ Xi2 = N i=1 N − µ2 (4.2.4) 2 (4.2.5) para la varianza de una población y n S2 = n ∑ (Xi − X)2 i=1 ∑ Xi2 = n i=1 n −X para la varianza de una muestra. Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a la respectiva varianza. p σ = σ2 (4.2.6) desviación estándar de una población y S= √ S2 (4.2.7) desviación estándar de una muestra Ejemplo 4.2.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4; 85,3; 84,9; 85,4; y 84,0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas? 4.2. VARIABILIDAD 38 X2 7293,16 7276,09 7208,01 7293.16 7056.00 2 ∑ X = 36126, 42 X 85,4 85,3 84.9 85.4 84.0 ∑ Xi = 425, 0 Con lo cual la media de la muestra es X= 425, 0 = 85 5 entonces la varianza está dada por n S2 = ∑ Xi2 i=1 2 −X = n 36126, 42 − 852 = 0, 284 5 la cual arroja una desviación estándar muestral de S = 0, 595818764 Varianza y desviación estándar para datos agrupados Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo S fi Xi2 por SXi2 y S fi Xi por SXi . Las fórmulas quedarían de la siguiente manera: N σ2 = ∑ N fi (Xi − µ)2 ∑ fiXi2 i=1 i=1 = N N − µ2 (4.2.8) 2 (4.2.9) N ∑ fiXi para la varianza de una población, en donde µ = n S2 = ∑ i=1 n fi (Xi − X)2 i=1 n ,y N ∑ fiXi2 = i=1 n −X n ∑ fiXi para la varianza de una muestra, en donde X = i=1 n Al igual que en la situación anterior las desviaciones estándar de la población y muestra se calculan sacando la raíz cuadrada a la respectiva varianza. p σ = σ2 (4.2.10) desviación estándar de una población y 4.3. PROBLEMAS 39 S= √ S2 (4.2.11) desviación estándar de una muestra Ejemplo 4.2.4 Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. duración de las baterías (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 Número de baterías 2 1 4 15 10 5 3 Primeramente, calculamos la marca de clase, para después calcular los productos fi Xi y para proceder finalmente a calcular las sumatorias ∑ fi Xi y ∑ fi Xi2 y aplicar las fórmulas. fi Xi2 LI 15 20 25 30 35 40 45 LS 19 24 29 34 39 44 49 X 17 22 27 32 37 42 47 fi 2 1 4 15 10 5 3 n =40 fi Xi 34 22 108 480 370 210 141 f X ∑ i i = 1365 fi Xi2 588 484 2916 15360 13690 8820 6627 fi Xi2 = 48475 Entonces la media de la muestra es X= 1365 = 34, 125 40 con lo cual la varianza muestral es n S2 = ∑ fiXi2 i=1 n 2 −X = 48475 − (34, 125)2 = 47, 359375 40 que arroja una desviación estándar de S = 6, 881814804 4.3. Problemas 1. Se conduce un estudio de los efectos de fumar sobre los patrones de sueños. La medición que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtiene 4.3. PROBLEMAS 40 estos datos: Fumadores No fumadores 69,3 56,0 28,6 25,1 22,1 26,4 47,6 34,9 53,2 48,1 29,8 38,5 52,7 30,2 34,4 30,6 60,2 43,8 31,8 41,6 a) Encuentre las medidas de tendencia central para cada grupo b) Encuentre la varianza y desviación estándar de cada grupo c) Diga cual de los dos grupos de datos está más concentrada 2. La compañía National Tire tiene fondos de reserva en valores negociable a corto plazo. El saldo diario de cierre (en millones de dólares) de la cuenta de valores negociables en lapso de dos semanas es el que mostramos a continuación Semana 1 Semana 2 1973 1969 1970 1892 1972 1975 1893 1887 1976 1895 a) Calcula las mediadas de tendencia central para cada grupo e interprete los resultados obtenidos. b) Calcula la desviación media, la varianza, la desviación típica y el coeficiente de variación de cada grupo. c) Diga cual de los grupos tiene mejor concentración Capítulo 5 Probabilidad 5.1. Introducción La teoría de probabilidad tuvo como uno de sus primeros puntos de partida el intentar resolver un problema particular concerniente a una apuesta de juego de dados entre dos personas. El problema al que nos referimos involucraba una gran cantidad de dinero y puede plantearse de la siguiente forma: Dos jugadores escogen cada uno de ellos un número del 1 al 6, distinto uno del otro, y apuestan 32 doblones de oro a que el número escogido por uno de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente un dado. Suponga que el número de uno de los jugadores ha aparecido dos veces y el número del otro una sola vez. ¿Cómo debe dividirse el total de la apuesta si el juego se suspende? Uno de los apostadores, Antonio de Gombaud, popularmente conocido como el caballero De Mere, deseando conocer la respuesta al problema plantea a Blaise Pascal (1623-1662) la situación. Pascal a su vez consulta con Pierre de Fermat (1601-1665) e inician un intercambio de cartas a propósito del problema. Esto sucede en el año de 1654. Los historiadores de la matemática éstan generalmente de acuerdo en considerar este hecho como el origen del estudio de las probabilidades. Con lo anteriormente mencionado se inician algunos esfuerzos por dar solución a éste y otros problemas similares que se plantean. Con el paso del tiempo se sientan las bases y las experiencias necesarias para la búsqueda de una teoría matemática que sintetice los conceptos y los métodos de solución de los muchos problemas particulares resueltos a lo largo de varios años. Las ideas de probabilidades permanecen circunscritas a los problemas de juegos de azar hasta que Pierre Laplace (1749-1827) y Friedrich Gauss (1777-1855) hacen notar que las teorias desarrolladas son aplicables también a otras actividades diferentes de los juegos de azar. En el segundo congreso internacional de matemáticas, celebrado en la ciudad de Paris en el año 1900, el matemático David Hilbert (1862-1943) plantea 23 problemas matemáticos de importancia. Uno de estos problemas es el de encontrar axiomas o postulados a partir de los cuales se pueda construir una teoría matemática de la probabilidad. Aproximadamente treinta años después, en 1933, el matemático ruso Andrei Nikolaevich Kolmogorov (1903-1987) propone ciertos axiomas basados en la teoría de la medida desarrollada por H. Lebesgue(1875-1941), que a la postre resultaron adecuados para la construcción de una teoría de la probabilidad. Esta teoría prevalece hoy en día y ha adquirido el calificativo de teoría clásica. Actualmente la teoría clásica de la probabilidad se ha desarrollado y exten41 5.2. DEFINICIONES Y EJEMPLOS 42 dido enormemente gracias a muchos pensadores que han contribuído a su crecimiento, y es sin duda una parte importante y bien establecida de las matemáticas. Ha resultado útil para resolver problemas puramente matemáticos, pero sobre todo y principalmente, para modelar situaciones reales o imaginarias, en donde el azar es relevante. 5.2. Definiciones y ejemplos Definición 5.2.1 Experimento: Es cualquier procedimiento mediante el cual obtenemos una observación. En particular, para el estudio de la probabilidad nos interesa observar aquellos experimentos cuyos resultados no son pronosticables con certeza , esto es aquellos experimentos tales que cuando se les repite bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre es el mismo, es decir aquellos en que existe aleatoriedad. Este tipo de experimento se denomina “experimentos aleatorios” simbolizado por ξ. Ejemplo 5.2.1 A continuación presentamos algunos ejemplos posibles de experimentos Lanzamiento de una moneda Tomar un punto de un circulo Elegir un alumno en el campus para preguntarle cuántos libros ha solicitado a préstamo en la biblioteca universitaria durante el último mes. Contar el número de cabellos en la cabeza de una persona. Medir la resistencia eléctrica de un componente electrónico Definición 5.2.2 Espacio Muestral: Es el conjunto de todos los resultados individuales que puede tener un experimento aleatorio. El espacio muestral simbolizado por Ω puede no ser único. A cada uno de los elementos del espacio muestral se le llama punto muestral. Definición 5.2.3 Evento: Es cualquier resultado posible al realizar un experimento aleatorio. Si un evento tiene un único elemento, se le llama evento simple. En general, a cualquier subconjunto del espacio muestral se le llama evento compuesto. Ejemplo 5.2.2 Si un experimento aleatorio consiste en lanzar un dado y observar el número que aparece en la cara superior, entonces claramente el espacio muestral es el conjunto Ω = {1; 2; 3; 4; 5; 6}. Como ejemplo de un evento para este experimento podemos definir el conjunto A = {2; 4; 6}, que corresponde al suceso de obtener como resultado un número par. Si al lanzar el dado una vez se obtiene el número 4, decimos entonces que se observó la ocurrencia del evento A, y si se obtiene por ejemplo el resultado 1, decimos que no se observó la ocurrencia del evento A. Ejemplo 5.2.3 Considere el experimento aleatorio de participar en un juego de lotería. Suponga que hay un millón de números en esta lotería y un jugador participa con un boleto. ¿Cuál es un posible espacio muestral para este experimento?. Naturalmente al jugador le interesa conocer su suerte en este juego y puede proponer como espacio muestral el conjunto Ω = {ganar; perder}. Sin embargo puede también tomarse como espacio muestral el conjunto que contiene a todos los posibles números de esta lotería, es decir, Ω = {1; 2; :::; 1000000}. 5.3. OPERACIONES ENTRE EVENTOS 43 Este ejemplo sencillo muestra que el espacio muestral de un experimento aleatorio no es único y depende del interés del observador. Puesto que los conceptos de espacio muestral y evento involucran forzosamente la terminología de conjuntos, recordaremos a continuación algunas operaciones entre estos objetos, y algunas propiedades que nos serían de utilidad en el estudio de la probabilidad y la estadítica. 5.3. Operaciones entre eventos Intersección La intersección de dos eventos dados A y B de un espacio muestral Ω; es el conjunto de resultados de un experimento aleatorio que pertenece a los dos eventos dados. El símbolo de la intersección es ∩. Figura 5.1: Representación gráfica de la intersección de dos eventos Unión La unión de dos eventos dados A y B de un espacio muestral Ω; es el conjunto de resultados de un experimento aleatorio que pertenece a alguno de estos dos eventos dados. El símbolo de la unión es ∪. Figura 5.2: Representación gráfica de la unión de dos eventos 5.4. DEFINCIONES DE PROBABILIDAD 44 Complemento El complemento de un evento A de un espacio muestral Ω; es el conjunto de resultados de un experimento aleatorio que no pertenece a dicho evento dado. El símbolo del complemento es − . Figura 5.3: Representación gráfica de complementos de eventos Diferencia Diferencia de dos eventos A y B de un espacio muestral Ω; es el conjunto de resultados de un evento dado que no pertenece a otro evento dado. El operador de la diferencia es el signo "menos"(−). Figura 5.4: Representación gráfica de la diferencia de dos eventos 5.4. Definciones de probabilidad La teoría de la probabilidad es la parte de las matemáticas que se encarga del estudio de los fenómenos o experimentos aleatorios. La probabilidad de un evento A, es un número real en el intervalo [0; 1] que denotaremos por P(A), y representa una medida de la frecuencia con la que se observa la ocurrencia del evento A cuando se efectúa el experimento aleatorio en cuestión. Existen al menos cuatro definiciones de probabilidad las cuales explicamos a continuación. 5.4. DEFINCIONES DE PROBABILIDAD 5.4.1. 45 Concepto Clásico de Probabilidad El primero en dar una definición clásica de probabilidad fue Jakob Bernoulli en 1713, reformulada después por Abraham De Moivre como: “una fracción; en la que el numerador es igual al número de apariciones del suceso dado y el denominador es igual al número total de casos en los que es suceso pueda o no pueda ocurrir. Tal fracción expresa la probabilidad de que ocurra el suceso dado”. El enfoque clásico de la probabilidad está basado en la suposición de que todos los resultados del experimento son igualmente posibles o tienen el mismo peso. La definición clásica de la probabilidad es la siguiente: Sea A un subconjunto de un espacio muestral Ω de cardinalidad ω finita. Se define la probabilidad del evento A como el cociente: P(A) = #A #Ω (5.4.1) lo que usualmente se expresa como P(A) = número de casos favorables al evento A número total de resultados posibles del experimento en donde el símbolo #A denota la cardinalidad o número de elementos del conjunto A. Claramente esta definición es sólo válida para espacios muestrales finitos, pues forzosamente necesitamos suponer que el número de elementos en Ω es finito. El espacio muestral debe ser equiprobable como ya se mencionó, pues para calcular la probabilidad de un evento A dado, únicamente necesitamos contar cuántos elementos tiene A respecto del total, sin importar exactamente qué elementos particulares sean. Ejemplo 5.4.1 El experimento consiste en el lanzamiento de un dado. ¿Cuál es la probabilidad de que se obtenga como resultado un dos? Las caras del dado están numeradas del 1 al 6, entonces hay solo una posibilidad de entre un total de seis de que el resultado del experimento sea el número 2, entonces la probabilidad de obtener el número 2 es 1 P(cae 2) = = 0, 16667 6 La principal dificultad que presenta esta interpretación de la probabilidad es que se basa en sucesos equiprobables (todos los posibles resultados tienen la misma probabilidad de ocurrencia ), siendo fácil para problemas sencillos, como los de cartas, dados o urnas, es casi imposible para problemas más complejos. 5.4.2. Concepto frecuentista de probabilidad Bernoulli resolvió la cuestión de cómo hallar la probabilidad de ocurrencia de un suceso aun siendo imposible contar los casos favorables: “ Aquí hay otro camino disponible para alcanzar el resultado deseado. Lo que no se puede hallar a priori se puede obtener a posteriori, es decir, mediante la observación múltiple de los resultados de pruebas similares”. 5.4. DEFINCIONES DE PROBABILIDAD 46 De esta manera, Bernoulli introdujo el concepto de probabilidad “frecuentista” o “estadística” que consiste en asignar como probabilidad de un suceso, el resultado que se obtendría si el proceso se repitiera en condiciones similares un número grande de veces. Por lo tanto supongamos que se realizan n repeticiones de un cierto experimento aleatorio y sea A un evento cualquiera. Denotemos por n(A) el número de veces que ocurre el evento A en las n realizaciones del experimento. Se define entonces la probabilidad frecuentista de A como indica el siguiente límite n(A) P(A) = lı́m n∞ n En este caso, debemos hacer notar que no es humanamente posible llevar a cabo una infinidad de veces el experimento aleatorio, de modo que en la práctica no es posible encontrar mediante este mecanismo la probabilidad de un evento cualquiera. Esta limitación hace que esta definición de probabilidad no sea enteramente formal, pero tiene algunas ventajas. Ejemplo 5.4.2 Se quiere saber si una moneda está cargada. Para determinar la probabilidad de que caiga cara se lanza 60 veces la moneda al aire, de las cuales 25 veces cayó cara. Si aplicamos la fórmula 25 = 0, 4167 P(cae cara) = 60 Algunas dificultades que presenta este enfoque de la probabilidad es que no dice cual es el número grande de observaciones necesario, o que se entiende por condiciones similares, porque si las condiciones son las mismas los resultados serán también los mismos. 5.4.3. Probabilidad subjetiva En el segundo cuarto del siglo XX surgió una nueva interpretación de la probabilidad llamada “subjetiva”, según la cual la probabilidad mide el grado de creencia de un individuo en la verdad de una proposición, variando entre 0 (el individuo cree que es falso) a 1 (cree que es cierto), es decir de lo que el observador conoce del fenómeno en estudio. Esta interpretación fue propuesta por primera vez por el filósofo Frank P. Ramsey. Para los subjetivistas la probabilidad de un suceso debe variar en función de la nueva información recibida respecto del suceso. Según este enfoque la probabilidad de que un evento en particular suceda es asignada basándose en cualquier información disponible, como intuición, opiniones etc. Ejemplo 5.4.3 ¿Cuál es la probabilidad de que un cierto equipo de fútbol gane en su próximo partido?. Ciertas circunstancias internas del equipo, las condiciones del equipo rival o cualquier otra condición externa, son elementos que sólo algunas personas conocen y que podrían darnos una idea más exacta de esta probabilidad. 5.4.4. Concepto axiomático de probabilidad En la definición axiomática de la probabilidad no se establece la forma explícita de calcular las probabilidades sino únicamente se proponen las reglas que el cálculo de probabilidades debe satisfacer. Esta teoría axiomática de la probabilidad fue desarrollada por el matemático ruso Andrei N. Kolmogorov basandose como dijimos en la introducción de este capítulo en 5.5. TEOREMAS DE PROBABILIDAD 47 la teoría de la medida estructurada por H. Lebesgue. El modelo matemático propuesto por Kolmogorov en el año 1933 para estudiar los experimentos aleatorios es el llamado “ espacio de probabilidad ”. Axiomas de Probabilidad Axioma 1: P(A) ≥ 0, con A ⊂ Ω Axioma 2: P(Ω) = 1 / con i distintos de j, entonces Axioma 3: Si A1 , A2 , · · · ⊂ Ω , tales que Ai ∩ A j = 0, P( ∞ [ ∞ )= n=1 ∑ P(Ai) n=1 5.5. Teoremas de Probabilidad 5.5.1. Teorema 1: Regla de la Adición La probabilidad de que alguno de dos eventos pertenecientes a un mismo espacio muestral ocurra se determina mediante la siguiente ecuación: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Ejemplo 5.5.1 Si el experimento es lanzar un dado una vez, el espacio muestral es: S = {1, 2, 3, 4, 5, 6} Si el evento A es el resultado es un número par entonces A = {2, 4, 6} Si el evento B es el resultado es un número menor de 3 B = {1, 2} ¿Cuál será la probabilidad de que suceda alguno de estos dos eventos? La probabilidad de que ocurra A y la probabilidad de que ocurra B son respectivamente: 3 1 2 1 P(A) = = y P(B) = = 6 2 6 3 Para aplicar este teorema es necesario conocer la probabilidad de la intersección de estos dos eventos, para así poder conocer la probabilidad de la unión, o de manera inversa, conociendo la probabilidad de la unión se puede calcular la probabilidad de la intersección. En este caso queremos saber la probabilidad de la unión conociendo la probabilidad de la intersección, entonces es necesario conocer la intersección de estos dos eventos, que es “ número par y menor de 3”, con lo cual A ∩ B = {2} 5.5. TEOREMAS DE PROBABILIDAD 48 1 6 Si aplicamos la regla de adición: por lo que P(A ∩ B) = P(A ∪ B) = P(A) + P(B) − P(A ∩ B) P(A ∪ B) = 5.5.2. 1 1 1 2 + − = 2 3 6 3 Teorema 2: Regla de la complementación La probabilidad de que el complemento de un evento A ocurra está dada por la siguiente ecuación: P(A) = 1 − P(A) Ejemplo 5.5.2 Si A es cae cara en el experimento consistente en lanzar un moneda, entonces la probabilidad de que no caiga cara es: P(A) = 1 − P(A) = 1 − 5.5.3. 1 1 = 2 2 Teorema 3: Regla de Diferenciación La probabilidad de que un evento dado A ocurra pero no ocurra otro evento dado B pertenecientes al mismo espacio muestral está dada por P(A − B) = P(A) − P(A ∩ B) Ejemplo 5.5.3 Si el evento A es cae un número par y si el evento B es cae un número menor de 3, ambos pertenecientes al espacio muestral Ω = {1, 2, 3, 4, 5, 6} que resulta del experimento aleatorio consistente en el lanzamiento de un dado, entonces la probabilidad de que caiga un número par pero no es menor que tres es: P(A − B) = P(A) − P(A ∩ B) = 3 1 − = 0, 3333 6 6 Y la probabilidad de que caiga un número menor que tres pero no sea par es: P(B − A) = P(B) − P(AB) = 5.5.4. 2 1 − = 0,167 6 6 Probabilidad Condicional La probabilidad condicional, es la probabilidad de que un evento dado ocurra dado que otro evento ocurre. El operador de la probabilidad condicional es el signo |, esto es, la probabilidad condicional del evento A dado que ha ocurrido el evento B, denotada por P(A|B), se define como sigue: P(A ∩ B) P(A|B) = P(B) 5.5. TEOREMAS DE PROBABILIDAD 49 Ejemplo 5.5.4 Considere el experimento de extraer un naipe de un mazo de 40 (baraja española), sean los eventos A = {se extrae un as} y B = {el naipe extraido es de copas}. Calcular P(A|B) Como en el mazo de 40 barajas hay un solo as de copas y 10 naipes de copas en total se tiene que 1 10 1 P(A ∩ B) = y P(B) = = 40 40 4 entonces la probabilidad de que ocurra A dado que se sabe que ocurrió B es P(A|B) = 5.5.5. P(A ∩ B) = P(B) 1 40 1 4 = 1 10 Teorema 4: Reglas de Multiplicación Regla de multiplicación para eventos independientes Dos eventos son independientes si la ocurrencia de uno no altera la probabilidad de ocurrencia del otro. Para dos eventos independientes A y B, la probabilidad de que ambos eventos sucedan es encontrada mediante la multiplicación de sus respectivas probabilidades, esto es P(A ∩ B) = P(A) · P(B) Ejemplo 5.5.5 Una maquina empaca vegetales en una bolsa de plástico. Experiencias anteriores revelan que en ocasiones los paquetes tienen menos del peso correcto, y en otras más, pero la mayoría de las veces tiene el peso satisfactorio. Como muestra la siguiente tabla: Peso Probabilidad debajo del correcto 0,025 correcto 0,900 arriba del correcto 0,075 Supongamos que queremos saber la probabilidad de que al inspeccionar tres paquetes, los tres pesen correctamente. Establezcamos los siguientes eventos: A = {el primer paquete pesa correctamente} B = {el segundo paquete pesa correctamente} C = {el tercer paquete pesa correctamente} La probabilidad de cada uno de estos eventos independientes es: P(A) = 0, 900 P(B) = 0, 900 P(C) = 0, 900 Según el teorema de multiplicación la probabilidad de que los tres eventos ocurran es: P(A ∩ B ∩C) = P(A) · P(B) · P(C) = (0, 900) · (0, 900) · (0, 900) = 0, 729 5.5. TEOREMAS DE PROBABILIDAD 50 Regla de multiplicación para probabilidad condicional Para dos eventos A y B, donde A depende de la ocurrencia de B, la probabilidad de que sucedan ambos eventos está dada por la fórmula: P(A ∩ B) = P(B) · P(A|B) Ejemplo 5.5.6 Cierto departamento de una compañía esta compuesto por 8 hombres y 4 mujeres, de entre ellos se va elegir al nuevo jefe del departamento, para lo cual se entrevistará a dos de ellos. Si todos tienen la misma probabilidad de ser elegidos, ¿cual es la probabilidad de que las dos personas entrevistadas sean mujeres? Definamos entonces los siguientes eventos A = {el primer entrevistado es mujer} B = {el segundo entrevistado es mujer} La probabilidad de que suceda el evento A = {el primer entrevistado es mujer} es: P(A) = 4 1 = 12 3 La probabilidad de que suceda el evento B = {el segundo entrevistado es mujer} dado que ya sucedió A, y solo hay tres mujeres de 11 elementos es: P(B|A) = 3 11 Según el teorema de multiplicación, la probabilidad de que los dos eventos ocurran es: P(A ∩ B) = P(A) · P(B|A) = 1 3 1 · = 3 11 11 Teorema de Bayes En el siglo XVIII el reverendo Thomas Bayes, un ministro presbiteriano inglés, se hizo esta pregunta: ¿realmente existe Dios?. Siendo el, un entusiasta matemático se evocó a desarrollar una fórmula para encontrar la probabilidad de que Dios existe, basándose en la evidencia disponible sobre la tierra. Años después de la muerte de Bayes, Laplace desarrolló el trabajo del reverendo, y por vez primera, se logra la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de Bayes. La fórmula del teorema de Bayes es: P(A1 |B) = P(A1 )P(B|A1 ) P(A1 )P(B|A1 ) + P(A2 )P(B|A2 ) + ... + P(An )P(B|An ) Ejemplo 5.5.7 : Don Pepe tiene una tienda, en el trabajan tres cajeras, Andrea, Bianca, y Consuelo. Andrea realiza el 50 % de los cobros, Bianca el 30 % y Consuelo el 20 %. Cuando cobra Andrea hay un 1 % de probabilidad de que lo haga mal, cuando lo hace Bianca hay un 2 % de que cobre mal, y si cobra Consuelo hay un 3 % de probabilidad de que se equivoque. Un cliente se quejó con Don Pepe porque le cobraron mal. ¿Cuál es la probabilidad de que el mal cobro lo haya hecho Andrea? 5.6. PROBLEMAS 51 Para responder a la pregunta vamos a considerar los siguientes eventos: M = {se hizo un mal cobro} A = {el cobro fue hecho por Andrea} B = {el cobro fue hecho por Bianca} C = {el cobro fue hecho por Consuelo} De los eventos anteriores podemos obtener las siguientes probabilidades: P(A) = 0, 5 P(B) = 0, 3 P(C) = 0, 2 P(M|A) = 0, 01 P(M|B) = 0, 02 P(M|C) = 0, 03 Utilizando el teorema de Bayes para encontrar la probabilidad de que el cobro lo haya hecho Andrea dado que fue un mal cobro, tenemos que P(A|M) = P(A)P(M|A) P(A)P(M|A) + P(B)P(M|B) + P(C)P(M|C) Sustituyendo los valores: P(A|M) = 5.6. (0, 5)(0, 01) 0, 005 = = 0, 2941 (0, 5)(0, 01) + (0, 3)(0, 02) + (0, 2)(0, 03) 0, 017 Problemas 1. Suponga que de un grupo de 500 estudiantes universitarios se encuentra que 300 fuman, que 350 consumen bebidas alcohólicas y que 250 tienen estos dos hábitos nocivos para la salud. ¿Cuál es la probabilidad de que un estudiante seleccionado aleatoriamente a) tenga alguno de estos dos malos hábitos? b) no tenga ninguno de estos dos pésimos hábitos? c) fume pero no tome? d) tome pero no fume? e) No fume? f) Fume dado que toma? g) Toma dado que fuma? h) No tenga alguno de estos nefastos hábitos? 2. La probabilidad de que una compañía norteamericana ubique una de sus plantas en Juárez es 0,7, la probabilidad de que instale una planta en Chihuahua es 0,4, la probabilidad de que no se ubique ni en Juárez ni en Chihuahua es 0,20. ¿Cuál es la probabilidad de que a) Se ubique en alguna de estas dos ciudades? 5.6. PROBLEMAS 52 b) Se ubique en ambas ciudades? c) No se ubique en alguna de estas dos ciudades? d) Se ubique en Chihuahua pero no en Juárez? e) Se ubique en Juárez pero no en Chihuahua? f) Ubique una planta en Juárez dado que ya se ubicó en Chihuahua? g) Ubique una planta en Chihuahua dado que ya se ubicó en Juárez? 3. En cierta escuela de 45 estudiantes que reprobaron Estadísticas I, 32 dijeron que reprobaron por no estudiar, 18 porque no le entienden al maestro, 9 por causas diferentes a estas dos. Encuentre la probabilidad de los siguientes eventos: a) Reprobó porque no estudió o porque no le entiende al maestro b) Reprobó porque no estudió y porque no le entiende al maestro c) Reprobó porque no estudió y no porque no le entiende al maestro d) Reprobó porque no le entiende al maestro y no porque no estudió 4. Se realizó una encuesta sobre preferencias en materia de periódicos, de 350 personas entrevistadas, 200 leen el Heraldo, 140 leen el Diario y 105 leen los dos periódicos. Encontrar la probabilidad de los siguientes eventos: a) Lee alguno de estos dos periódicos b) No lee ninguno de estos dos periódicos c) Lee el Diario pero el Heraldo no d) Lee el Heraldo pero el Diario no e) Lee el Heraldo dado que lee el Diario f) Lee el Diario dado que lee el Heraldo g) No lee alguno de estos dos Periódicos 5. La probabilidad de que en un matrimonio, el esposo vea cierto programa de TV es 0.4, la probabilidad de que la esposa lo haga es de 0.5. La probabilidad de que el esposo vea el programa de TV dado que la esposa lo hace es de 0.7. Encuentre la probabilidad de que: a) Ambos vean el programa de TV b) Alguno de los dos vea el programa de TV c) Ninguno vea el programa de TV d) El esposo vea el programa pero la esposa no e) La esposa vea el programa pero el esposo no f) La esposa vea el programa dado que el esposo lo hace g) Alguno de los dos no ve el programa 5.6. PROBLEMAS 53 6. El profesor Ramos tiene muchos años impartiendo la clase de matemáticas, por experiencia sabe que el 80 % de los estudiantes contestan los problemas que les encarga de tarea. También sabe que el 90 % de los estudiantes que hacen la tarea aprueban el curso y que el 60 % de los estudiantes que no hacen la tarea reprueban. Manuel aprobó el curso, ¿cual es la probabilidad de que hizo la tarea? 7. Un equipo de béisbol juega el 70 % de las veces de noche y el 30 % de día. Ellos ganan el 50 % de los juegos nocturnos y el 90 % de los juegos diurnos. El día de ayer ganaron, ¿cual es la probabilidad de que el juego fue en la noche? 8. El 30 % de las ventas de una tienda departamental son en efectivo, el 30 % son pagadas con cheque en el momento de la compra y el 40 % son a crédito. El 20 % de las compras en efectivo, 90 % de las compras con cheque y el 60 % de las compras a crédito son mayores a $500. En este momento se está realizando una compra por $1000, cual es la probabilidad de que sea en efectivo? 9. Una urna contiene 5 bolillas blancas, 4 negras, 6 rojas y 10 verdes. Se extrae una bolilla de la urna. Calcular la probabilidad de que: a) la bolilla extraída sea blanca Respuesta: 0,20 b) la bolilla extraída no sea verde Respuesta: 0,60 c) la bolilla extraída no sea ni roja ni negra Respuesta: 0,60 d) la bolilla extraída sea negra Respuesta: 0,16 10. Cierta población de 1500 habitantes, fue clasificado, según su nacionalidad, resultando: 950 paraguayos, 200 españoles, 300 italianos y 50 franceses. Si se elige un habitante al azar, calcular la probabilidad de que: a) resulte de habla castellana Respuesta: 0,77 b) resulte extranjero Respuesta: 0,77 11. Se arrojan dos monedas. Calcular la probabilidad de obtener: a) una cara Respuesta: 0,50 b) dos caras Respuesta: 0,25 c) mas de dos caras Respuesta: 0,00 d) ninguna cara Respuesta: 0,25 12. Se arroja un dado. Calcular la probabilidad de obtener: a) un número par, mayor de 3 Respuesta: 0,33 b) un número impar Respuesta: 0,5 13. Se arrojan simultáneamente tres monedas. Calcular la probabilidad de obtener: a) exactamente 2 caras Respuesta :0,375 b) 2 o mas caras Respuesta :0,50 c) mas de 2 caras Respuesta :0,125 5.6. PROBLEMAS d) a lo sumo 2 caras 54 Respuesta :0,875 14. De un conjunto de 21 tarjetas numeradas del 1 al 21, se extrae una al azar. Calcular la probabilidad de que la tarjeta extraida un número: a) sea múltiplo de 3 o de 7 Respuesta: 0,4762 b) sea múltiplo de 5 o de 7 Respuesta: 0,3333 c) sea múltiplo de 4 o de 11 Respuesta: 0,2857 d) sea par o múltiplo de 3 Respuesta: 0,8095 e) sea múltiplo de 3 o de 4 Respuesta: 0,5714 f) sea múltiplo de 3 o de 5 Respuesta: 0,5238 15. Supóngase que el Señor Gómez planea salir la noche del sábado próximo. Las probabilidades de que baya a un juego de baloncesto, al cine o a una carrera de caballo son 0,35; 0,30 y 0,20 respectivamente. Determinar la probabilidad de que: a) haga cual quiera de estas tres cosas Respuesta: 0,85 b) que no haga ninguna de estas tres cosas Respuesta: 0,15 16. En un grupo de colegio han suspendido las matemáticas el 60 % de los niños, física el 50 % y ambas asignaturas el 20 %. Calcular la probabilidad de que elegido un niño al azar, haya suspendido las matemáticas, la física o ambas. Respuesta:0,90 17. Durante una semana dada las probabilidades de que unas acciones aumenten su precio, permanezcan constantes o disminuyan su precio son estimados en 0,30; 0,20 y 0,50 respectivamente. a) ¿ Cuál es la probabilidad que estas acciones aumenten su precio o permanezcan sin cambios? Respuesta: 0,50 b) ¿ Cuál es la probabilidad de que esas acciones, el precio cambie durante las semana? Respuesta: 0,80 18. Suponga que el 80 % de los norteamericanos, que pasan vacaciones en Europa visitan Paris, el 70 % Berlín y el 60 % visitan Paris y Berlín. a) ¿ Cuál es la probabilidad de que un norteamericano que pasa vacaciones en Europa visite Paris o Berlín o ambos? Respuesta: 0,90 b) ¿ Cuál es la probabilidad de que no visite ninguna de esas ciudades? Rta: 0,10 19. Suponga que la probabilidad de que llegue a asistir a una universidad es 0,60, la probabilidad de que trabaje tiempo completo es 0,70, la probabilidad de que llegue a asistir a una universidad y trabaje tiempo completo es 0,50.¿ Cuál es la probabilidad de que asista a una universidad o trabaje tiempo completo? Respuesta: 0,80 20. Una caja contiene 10 esferas, 5 de ellas son blancas, 3 rojas y 2 negras. Se selecciona aleatoriamente esferas de la caja sin reemplazo: a) Si se extraen dos esferas de la caja. ¿ Cuál es la probabilidad de que las 2 esferas blancas? Respuesta: 0,2222 5.6. PROBLEMAS 55 b) Si se extraen dos esferas de la caja. ¿ Cuál es la probabilidad de que extraer una roja y después una negra? Respuesta: 0,0667 c) Si se extraen 3 esferas de la caja ¿ Cuál es la probabilidad de que las tres sean rojas? Respuesta: 0,0083 d) Si se extraen 3 esferas de la caja.¿ Cuál es la probabilidad de extraer una negra, después una roja y finalmente una blanca? Respuesta: 0,0417 21. Se tiene un grupo de 12 tornillos, de los cuales 4 son defectuosos. Se recogen 2 tornillos al azar.¿ Cuál es la probabilidad de que: a) los 2 sean defectuosos Respuesta: 0,091 b) ninguno de los 2 sean defectuosos Respuesta: 0,4242 22. Se tiene tres urnas, la primera contiene 50 bolas rojas y 50 bolas blancas; la segunda 60 bolas amarillas y 40 blancas, la tercera 70 bolas verdes y 30 blancas. Si se selecciona aleatorimente una de las urnas y se extraen dos bolas con reposición: a) ¿ Cuál es la probabilidad de que ninguna sea blanca? Respuesta: 0,3667 b) ¿ Cuál es la probabilidad de que ambas sean blancas? Respuesta: 0,1667 23. Se arrojan dos dados legales. Calcular la probabilidad de que: a) ocurra una suma de 7 puntos Respuesta:0,1667 b) ocurra una suma de 2 o 3 puntos Respuesta:0,0833 c) ocurra una suma de menos de 5 puntos Respuesta:0,1667 d) ocurra una suma de al menos 10 puntos Respuesta:0,1667 24. De 100 individuos que presenten su solicitud para ocupar puestos de analista de sistemas en una gran empresa en el ultimo año. 40 contaban con experiencia laboral previa y 30 tenían titulo profesional. Sin embargo 20 de los solicitantes tenían tanto experiencia laboral como titulo profesional, de modo que han sido incluidos en ambos conteos. a) ¿Cuál es la probabilidad de que un solicitante aleatoriamente elegido tenga ya sea experiencia laboral o titulo profesional o ambos? Respuesta: 0,50 b) ¿Cuál es la probabilidad de que un solicitante aleatoriamente elegido tenga ya sea experiencia laboral o titulo profesional pero no ambos? Respuesta: 0,30 25. De 300 estudiantes de administración 100 están actualmente inscritos en contabilidad y 80 están actualmente inscritos en estadística aplicada a la administración. Estas cifras de inscripción incluyen a 30 estudiantes inscritos en ambos cursos. a) ¿Cuál es la probabilidad de que un estudiante aleatoriamente elegido este inscrito ya sea en contabilidad o en estadística o en ambos? Respuesta: 0,50 b) ¿Cuál es la probabilidad de que un estudiante aleatoriamente elegido este inscrito ya sea en contabilidad o en estadística pero no en ambos? Respuesta: 0,40 5.6. PROBLEMAS 56 26. En una caja hay 15 lapiceras con las plumas en buen estado, de los cuales 5 no tienen tinta, además 6 lapiceras con las plumas rotas. Al sacar una lapicera. Calcular la probabilidad de que la lapicera no escriba. Respuesta: 0,5238 27. Para la señalización de emergencia se ha instalado dos indicadores que funcionan independientemente; la probabilidad de que un indicador se accione durante la avería es igual a 0,95 para el primero y 0,90 para el segundo. Hallar las siguientes probabilidades que durante una avería: a) accione solo un indicador Respuesta: 0,14 b) accione por lo menos un indicador Respuesta: 0,995 28. Una caja contiene 20 unidades de cierto producto electrónico, 4 de ellos son defectuosos y 16 son buenas. Se seleccionarán aleatoriamente 4 unidades y se venderán. Obténgase la probabilidad de que: a) las cuatro unidades vendidas sean defectuosos 1 Respuesta: 4845 b) entre las cuatro unidades vendidas 2 sean buenas 48 Respuesta: 323 c) se vendan al menos tres unidades defectuosas 13 Respuesta: 969 29. De 12 cuentas contables que se tienen en un archivo, 4 contienen un error de procedimientos en la elaboración de los saldos: a) Si el auditor elige al azar 2 cuentas. ¿ Cuál es la probabilidad de que ninguna cuenta contenga error de procesamiento? Respuesta: 14 33 b) Si el auditor elige al azar 3 cuentas. ¿ Cuál es la probabilidad de que ninguna cuenta contenga error de procesamiento? Respuesta: 14 55 c) Si el auditor muestrea 2 cuentas. ¿ Cuál es la probabilidad de que las cuenta 1 elegidas contenga errores? Respuesta: 11 d) Si el auditor muestrea 2 cuentas. ¿ Cuál es la probabilidad de que al menos una de ellas contenga error? Respuesta: 19 33 e) Si el auditor muestrea 3 cuentas. ¿ Cuál es la probabilidad de que al menos una de ellas contenga error? Respuesta: 41 55 29. En un deposito hay 3000 cajas de plumas de las marcas A, B, C, D y E y en ellas hay cajas de plumas deterioradas. Las cajas se distinguen de la siguiente manera: Marca A: hay 200 cajas: 50 son deterioradas Marca B: hay 300 cajas: 40 son deterioradas Marca C: hay 1000 cajas: 300 son deterioradas Marca D: hay 800 cajas: 80 son deterioradas Marca E: hay 700 cajas: 30 son deterioradas Si se elige una caja al azar, y resulta deteriorada, calcular la probabilidad de que pertenezca: a) a la marca A Respuesta: 0,1 5.6. PROBLEMAS 57 b) a la marca B Respuesta: 0,08 c) a la marca C Respuesta: 0,6 d) a la marca A o D Respuesta: 0,26 e) a la marca B o E Respuesta: 0,24 30. La urna A tiene 2 boletines rojos y 3 azules; la urna B contiene 4 rojas y 1 azul y la urna C 3 rojas y 4 azules. Se selecciona aleatoriamente una urna y un boletín es extraído y que resulta ser rojo. Hallar la probabilidad de haber escogido: a) la urna A Respuesta: 14 57 b) la urna B Respuesta: 28 57 c) la urna C 5 Respuesta: 19 d) la urna A o B Respuesta: 14 19 e) la urna A o C Respuesta: 29 57 31. Un agente de una compañía de seguros vende pólizas a 5 personas, todas de edad idéntica y con buena salud. De acuerdo con la tabla de los actuarios la probabilidad de que una persona de esta edad especifica esté viva en 30 años es 23 . Hallar la probabilidad de que en 30 años estén vivas: a) las 5 personas 32 Respuesta: 243 b) al menos 3 personas Respuesta: 64 81 c) solamente 2 personas 40 Respuesta: 243 d) al menos una persona Respuesta: 242 243 32. En una exhibición canina, 3 de los 10 perros premiados deben seleccionarse para que aparezcan en un comercial de comida para perros. Se han otorgados premios a tres coolíes, cuatro pastores alemán, dos perros galeces y un perro de agua. a) ¿Cual es la probabilidad de que los tres perros elegidos sean de la misma raza? Respuesta: 0,042 b) ¿Cual es la probabilidad de que se seleccionen dos coolíes y un pastor alemán? Respuesta: 0,10 33. Una caja con guantes de béisbol contiene 2 guantes para jugadores zurdos y 7 para diestros. Si se seleccionan 3 guantes al azar: a) ¿ Cuál es la probabilidad de que los tres sean para jugadores diestros? Respuesta: 0,417 b) ¿ Cuál es la probabilidad de que se escogiera un guante para un jugador diestro y 2 para zurdos? Respuesta: 0,083 34. En una caja hay 18 artículos de los cuales cuatro son defectuosas. Si se extrae aleatoriamente tres artículos al mismo tiempo. Calcular las siguientes probabilidades a) los tres artículos sean buenos Respuesta: 0,4461 5.6. PROBLEMAS 58 b) no mas de dos artículos sean defectuosos c) al menos dos artículos serán buenos Respuesta: 0,9951 Respuesta: 0,8922 35. Un distribuidor recibe un embarque de 24 aparatos de televisión, de los cuales 6 son defectuosas. El distribuidor selecciona cuatro aparatos del embarque para ponerlos en exhibición. Obténgase la probabilidad de que: a) 2 de los 4 aparatos sean defectuosas Respuesta: 0,216 b) no hay mas de 2 defectuosas en los 4 aparatos Respuesta: 0,9647 36. Un vendedor de automóviles acaba de recibir un embarque de 20 automóviles nuevos de los cuales 15 son sedan y 5 convertibles. Si se venden aleatoriamente 2 automóviles.¿ Cuál es la probabilidad de que los 2 vendidos sean del mismo modelo? Rta: 23 38 37. Un articulo se produce utilizando los componentes A y B. La probabilidad de que A tenga defectos es 0,03 y la probabilidad de que B tenga defectos es 0,02. ¿ Cuál es la probabilidad de que el producto tenga defectos después de armado? Rta: 0,0494 38. La probabilidad de que un hombre vivirá 10 años más es 14 y la probabilidad de que su esposa vivirá 10 años mas es 13 . Hallar la probabilidad de que: a) ambos estén vivos dentro de 10 años Respuesta: 0,0833 b) al menos uno estará vivo a los 10 años Respuesta: 0,50 c) ninguno estarán vivos a los 10 años Respuesta: 0,50 d) solamente la esposa estará viva a los 10 años Respuesta: 0,25 39. La probabilidad de que en los hogares de una población tengan lava vajilla es 0,40 y de que tengan video es de 0,30. Calcular las siguientes probabilidades: a) que tengan lava vajilla y video Respuesta: 0,12 b) que tengan lava vajilla o tengan video Respuesta: 0,58 c) que en tres hogares elegidos al azar haya lava vajilla Respuesta: 0,064 d) que en dos hogares haya dos lava vajilla o dos videos Respuesta: 0,25 40. Se extrae tres cartas de un mazo de 40. Calcular las siguientes probabilidades: a) Que sean de distintos palos Respuesta: 0,4049 b) sota, caballo y rey en ese orden Respuesta: 0,00108 c) a lo sumo dos copas Respuesta: 0,988 41. De un baraja española de 40 naipes bien mezcladas, se saca 4 naipes sucesivamente. Hallar la probabilidad de que: a) sean un as y tres reyes Respuesta: 0,000175 b) dos sean reyes y dos sotas Respuesta: 0,000394 42. De una baraja de 40 naipes bien mezcladas, se sacan al azar 5 cartas. Hallar la probabilidad de que: 5.6. PROBLEMAS 59 a) 4 sean sotas Respuesta: 0,000055 b) al menos uno sea un as Respuesta: 0,4271 c) tres sean caballos y tres reyes Respuesta: 0,0000365 43. Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de extraer: a) 4 aces 1 54145 1 Respuesta: 649740 1 Respuesta: 108290 64 Respuesta: 162435 18472 Respuesta: 54145 Respuesta: b) 4 aces y un rey c) 3 dieses y dos jotas d) un nueve, diez, jota, reina y rey en cualquier orden e) al menos un as 44. El 80 % de la población es morena y el 70 % es de ojos oscuro. Si se selecciona una persona al azar, calcular la probabilidad de: a) no ser de piel morena o tener los ojos oscuros Respuesta: 0,76 b) ser de piel morena y tener los ojos oscuros Respuesta: 0,56 45. En una zapatería hay tres estanterías A, B y C, la primera tiene 50 pares de zapatos negros y 25 marrones, la segunda tiene 40 de cada color y la ultima 20 negros y 30 marrones. Si un cliente no tiene preferencia especial respecto a las estanterías ni respecto al color elige un par de zapatos y es marrón. Calcule la probabilidad de que 15 proceda de la estantería B. Respuesta: 43 46. Dos seres humanos y ocho elefantes se sientan al azar entorno a una mesa circular. Calcular la probabilidad de que los humanos esten juntos. Respuesta: 47. Si A y B son dos sucesos tales que P(A) = 0, 6 y P(B) = 0, 7. Calcular: P(A ∪ B) y P(A ∩ B) sabiendo que P(A ∪ B) · P(A ∩ B) = 0, 4 Respuesta: P(A ∪ B) = 0, 8 y P(A ∩ B) =0,5 o P(A ∪ B) = 0, 5 y P(A ∩ B) = 0, 8 48. Al lanzar un dado al aire, sea A el suceso de obtener un múltiplo de 3 y B el suceso de obtener un número par. Justificar si los sucesos son o no independientes. Respuesta: Son independientes 49. Un jugador lleva en el bolsillo dos monedas, una normal y otras con dos caras. Elige al azar una de las monedas y la lanza al aire. Calcular la probabilidad de que caiga cara Respuesta: Si el resultado es cara, calcular la probabilidad de haber elegido la moneda con dos caras Respuesta: 50. De los 250 empleados de una compañía, 130 fuman cigarrillos. Hay 150 hombres que trabajan en esta compañía de los cuales 85 fuman cigarrillos. ¿ Cuál es la probabilidad de que un empleado seleccionado en forma aleatoria, no fume cigarrillo? 5.6. PROBLEMAS 60 sea mujer y fume cigarrillo? sea hombre o fume cigarrillo? digamos que se encuentra con una empleada de la compañía. ¿ Cuál es la probabilidad de que no fume cigarrillo? 51. Se desea determinar si hay una relación entre el interés de un estudiante por la estadística y su capacidad para las matemáticas, se selecciona una muestra aleatoria de 200 estudiantes y se les pregunta si su capacidad para las matemáticas y su interés por la estadística es bajo, promedio o alto. Los resultados fueron como sigue: Interés en estadística Bajo Promedio Alto Total Capacidad para las matemáticas Bajo Promedio Alto Total 60 15 15 90 15 45 10 70 5 10 25 40 80 70 50 200 Si se selecciona un estudiante al azar,¿ cuál es la probabilidad de que él o ella: tenga alta capacidad para las matemáticas? tenga un interés promedio para la estadística? tenga baja capacidad para las matemáticas y bajo interés promedio en la estadística? Suponga que se sabe que la persona seleccionada tiene alta capacidad para las matemáticas, ¿ cuál es la probabilidad de que tenga un alto interés en la estadística? 52. Una moneda esta cargada de modo que la posibilidad de salir cara (H) sea el doble de salir sello (S). Hallar P(H) y P(T ) Respuesta: 53. Tres caballos A, B y C intervienen en una carrera; A tiene el doble de posibilidad de ganar que B; y B el doble de ganar que C. ¿ Cuál ea la probabilidad de ganar, esto es; P(A), P(B) y P(C)? Respuesta: 54. Dos hombres y tres mujeres intervienen en un torneo de ajedrez. Los del mismo sexo tienen igual probabilidad de ganar pero cada hombre tiene el doble de probabilidad de ganar que una mujer. Hallar la probabilidad de una mujer gane el torneo Respuesta: Si y son casados, hallar la probabilidad de que uno de ellos gane el torneo. spuesta: Re- 55. Una clase consta de 10 hombres y 20 mujeres de los cuales la mitad de los hombres y la mitad de las mujeres tienen ojos castaños. Hallar la probabilidad de que una persona escogida al azar sea un hombre o tenga los ojos castaños. Respuesta: 56. La probabilidad de que A de en el blanco es 0,4 y la de B es 0,5. Si A y B disparan, ¿ Cuál es la probabilidad de que uno de ellos pegue en el blanco? Respuesta: 5.6. PROBLEMAS 61 57. Se escogen al azar dos dígitos desde del conjunto {1, 2, 3, ...., 9}. Si la suma es par, hallar la probabilidad de que ambos sean números impares. Respuesta: 58. Se escogen al azar tres lamparas entre 15 de las cuales 5 son defectuosos. Hallar la probabilidad de que: ninguna sea defectuosa Respuesta: una por lo menos sea defectuosa Respuesta: 59. Se selecciona al azar dos cartas entre 10 cartas numeradas de 1 a 10. Hallar la probabilidad de que la suma sea impar si: las dos cartas se sacan juntas Respuesta: se sacan una tras otra sin reposición Respuesta: se sacan una tras otra con reposición Respuesta: 60. Una clase tiene 12 niños y 4 niñas. Se seleccionan tres estudiantes de la clase al azar. ¿ Cuál es la probabilidad de que todas sean niñas? Respuesta: 61. En cierta facultad, 4 % de los hombres y 1 % de las mujeres tienen más de 6 pies de estatura . Además, 60 % de los estudiantes son mujeres. Ahora bien si se selecciona al azar un estudiante y es más alto que 6 pies, ¿Cuál es la probabilidad de que el estudiante seleccionado sea mujer? Respuesta: 62. Una caja contiene tres monedas; una de las monedas es corriente, otra tiene dos caras y la tercera esta cargada de modo que la probabilidad de obtener cara sea 0,6 . Se selecciona una de las monedas y se lanza al aire. Hallar la probabilidad de que salga cara. Respuesta: 63. Una urna contiene 3 bolas rojas y 7 blancas. Se saca una bola de la urna y se reemplaza por una de otro color. Se saca de la urna una segunda bola. Hallar la probabilidad de que la segunda bola sea roja Respuesta: Si ambas son del mismo color. ¿ Cuál es la probabilidad de que las dos sean blancas? Respuesta: 64. Se nos da dos urnas como sigue: La urna A contiene 3 bolas rojas y 2 bolas blancas y la urna B contiene 2 bolas rojas y 5 bolas blancas. Se selecciona al azar una urna; se saca una bola y se coloca en la otra urna, luego se saca una bola de la segunda urna. Hallar la probabilidad de que las dos bolas sacadas sean del mismo color. Respuesta: 65. En una carretera entre las ciudades A y B hay tres semáforos, a una distancia de unos kilómetros entre si. Los ciclos de los mismos son de un minuto cada uno. Los tres semáforos están prendidos en verde durante 30, 40 y 50 segundos respectivamente. Suponiendo que un auto observa los reglamentos de transito. Calcular la probabilidad de que el auto: haga el viaje sin parar por causa del semáforo deba parar exactamente ante un semáforo Respuesta: Respuesta: 5.6. PROBLEMAS 62 deba parar exactamente ante dos semáforos deba parar en todos los semáforos Respuesta: Respuesta: 66. La suma de las probabilidades de que tres hombres H1 , H2 y H3 peguen en el blanco es 0,95. Además la posibilidad de que H1 de en el blanco es el doble de que lo haga H2 y H2 tiene la misma posibilidad de dar en el blanco que H3 , cada uno dispara una vez al blanco. Hallar la probabilidad de que exactamente uno de ellos pegue en el blanco. spuesta: Re- Si solo un pega en el blanco. ¿ Cuál es la probabilidad de que sea el primer hombre? Respuesta: 67. La probabilidad de que cierto componente electrónico funcione es de 0,90. Un aparato contiene dos de estos componentes. El aparato funciona si por lo menos uno de los componentes funciona. Sin importar cual de los componentes funcione o no. ¿ Cuáles son los posibles resultados? ( Puede suponer independencia en la operación de los componentes). ¿ Cuál es la probabilidad de que el aparato no funcione Respuesta: 0,99 Capítulo 6 Variables aleatorias 6.1. Definiciones y ejemplos Definición 6.1.1 Una variable aleatoria es aquella que toma un conjunto de valores numéricos asociados a los resultados de nuestro interés que produce un experimento aleatorio, es decir una función que asocia a cada evento del espacio muestral un número real. La definición anterior nos dice que dado un experimento aleatorio cualquiera, y el espacio muestral Ω asociado a dicho experimento, una variable aleatoria es una transformación X del espacio de resultados (espacio muestral) al conjunto de números reales, esto es, asigna a cada elemento ω ∈ Ω, un número real X(ω). La expresión matemática está dada por: X : Ω −→ R Figura 6.1: Representación gráfica de la definición de una variable aleatoria A menudo se escribe simplemente v.a. en lugar del término variable aleatoria. En sentido estricto una variable aleatoria es una función de Ω en R que satisface además cierta condición de medibilidad, pero omitiremos tales tecnicismos pues no son de utilidad para los propósitos de este curso. Suponga entonces que se efectúa el experimento aleatorio una vez y se obtiene un resultado ω en R. Al transformar este resultado con la variable aleatoria X se obtiene un número real X(ω) = x. Podemos entonces suponer que los posibles resultados del experimento aleatorio son los diferentes números reales x que la función X puede tomar. Haremos aqui la siguiente observación importante. Seguiremos la notación usual de usar la letra mayúscula X para denotar una variable aleatoria cualquiera, es decir, X es una función de Ω en R, mientras que la letra minúscula x denota un número real y que es un posible valor de la variable aleatoria. En general, las variables aleatorias se denotan usando las últimas 63 6.1. DEFINICIONES Y EJEMPLOS 64 letras del alfabeto en mayúsculas, U,V,W, X,Y, Z, y para un valor cualquiera de ellas se usa la misma letra pero en minúscula. Ejemplo 6.1.1 Si un experimento aleatorio consiste en lanzar una vez un dado equilibrado y observar la cara superior del dado una vez que cae. Denotemos por “1,2,3,4,5 y 6 ” las seis caras del dado. Es claro que el espacio muestral es Ω = {1, 2, 3, 4, 5, 6}. Podemos definir entonces la variable aleatoria X : Ω −→ R como X({1}) = 1 y X({2, 3, 4, 5, 6}) = 0 si nuestro interés es el número de veces que se obtiene el 1 en este experimento. Ejemplo 6.1.2 Consideremos el experimento aleatorio consistente en lanzar un dardo en un tablero circular de radio uno. El espacio muestral o conjunto de posibles resultados del experimento se puede escribir como sigue: Ω = {(x, y) : x2 + y2 ≤ 1} Los siguientes son ejemplos de funciones de Ω en R, variables aleatorias, asociadas a este experimento aleatorio: a) X(x, y) = x, proyección sobre el eje horizontal. b) Y (x, y) = y, proyección sobre el eje vertical. p c) Z(x, y) = x2 + y2 , distancia al centro del círculo. d) V (x, y) = |x| + |y|, distancia del taxista. e) W (x, y) = xy, producto de las coordenadas. Figura 6.2: Representación gráfica del espacio muestral del ejemplo 6.1.2 Considerando el conjunto de valores que una variable aleatoria puede tomar, se puede clasificar a las variables aleatorias en dos tipos: discretas o continuas. Definición 6.1.2 Una variable aleatoria es discreta cuando el conjunto de valores que ésta toma es un conjunto discreto, es decir, un conjunto finito o numerable. Por ejemplo, el conjunto {0, 1, 2, ..., n} es un conjunto discreto porque es finito, lo mismo N pues aunque es infinito, es numerable y por lo tanto discreto. 6.1. DEFINICIONES Y EJEMPLOS 65 Ejemplo 6.1.3 Un experimento aleatorio consiste en escoger a una persona ω al azar. La variable aleatoria X evaluada en ω corresponde a conocer la siguiente característica, o una codificación de esta característica, de la persona escogida. En cada caso se trata de una variable aleatoria discreta: a) Edad en años. b) Número de hijos. c) Peso. d) Estatura. e) Sueldo. f) Nivel escolar. g) Estado civil. h) Lugar de nacimiento. Definición 6.1.3 Una variable aleatoria es continua cuando toma todos los valores dentro de un intervalo (a, b) ⊆ R. Ejemplo 6.1.4 En el ejemplo del lanzamiento de un dardo en un tablero circular de radio uno, el espacio muestral Ω (Figura 6.1) es infinito no numerable, las variables X,Y, Z,V y W definidas allí son todas variables aleatorias continuas. Si se dibujan círculos concéntricos alrededor del origen y si se asignan premios asociados a cada una de las regiones resultantes, puede obtenerse un ejemplo de una variable aleatoria discreta sobre este espacio muestral. La clasificación anterior de variables aleatorias no es completa pues existen variables que no son de ninguno de los dos tipos mencionados. Por simplicidad en este curso estudiaremos únicamente variables aleatorias que son discretas o continuas. Usaremos también la siguiente notación importante: Si A es un subconjunto de R, entonces la expresión (X ∈ A), incluyendo el paréntesis, denota el conjunto {ω ∈ Ω : X(ω) ∈ A}, es decir, (X ∈ A) = {ω ∈ Ω : X(ω) ∈ A}. En palabras, la expresión (X ∈ A) denota aquel conjunto de elementos ω de Ω tales que bajo la aplicación de la función X toman un valor dentro del conjunto A. A este conjunto se le llama la imagen inversa de A, y se le denota por X −1 A. Ejemplo 6.1.5 Consideremos el experimento de lanzar una moneda al aire y la variable aleatoria X que lleva el resultado “Cara” al valor 0 y el resultado “Cruz” al valor 1. Tenemos por ejemplo que (X ∈ [1, ∞)) = {“Cruz00 } pues el conjunto de elementos de Ω tales que bajo la función X toman un valor mayor o igual a uno, es decir caen dentro del intervalo [1, ∞), es únicamente el elemento “Cruz”. Por lo tanto P(X ∈ [1, ∞)) = P{“Cruz00 } = 12 . Del mismo modo puede verificarse que a) P(X ∈ [1, 2)) = P({“Cruz00 }) = 12 . b) P(X ∈ [0, 1)) = P({“Cara00 }) = 12 . / = 0. c) P(X ∈ [2, 4]) = P(0) d) P(X = 1) = P({“Cruz00 }) = 12 . / = 0. e) P(X ≤ −1) = P(0) f) P(X ≥ 0) = P(Ω) = 1. Usaremos con mucha frecuencia la notación arriba explicada. El lector debe asegurarse de comprender bien que si x es un número real entonces (X ≤ x) es un subconjunto de Ω y por lo tanto un evento. Lo mismo sucede con el complemento de este conjunto que es (X > x). Podemos escribir entonces la igualdad de conjuntos (X ≤ x) ∪ (X > x) = Ω. Y aplicando probabilidad se obtiene: P(X ≤ x) + P(X > x) = 1 6.2. DISTRIBUCIÓN DE PROBABILIDAD 66 Nota importante. A través de una variable aleatoria se puede considerar que los posibles resultados de un experimento aleatorio no son elementos ω en Ω sino números reales que la variable aleatoria puede tomar. Esta es una consideración radical pues ya no consideraremos experimentos aleatorios particulares, ni espacios muestrales arbitrarios Ω, ni eventos (subconjuntos) de Ω, en lugar de ello consideraremos que una cierta variable aleatoria de interés toma valores en un cierto subconjunto de números reales. La probabilidad definida antes para subconjuntos de Ω se traslada, como explicamos antes, a probabilidades para subconjuntos de R. Esta perspectiva permite estudiar modelos generales y después aplicarlos a cualquier situación particular. A partir de ahora y en lo que resta del curso el término variable aleatoria constituirá un elemento frecuente en los enunciados. 6.2. Distribución de probabilidad En esta sección vamos a estudiar a las dos funciones que se asocian a cada variable aleatoria y que además nos provean de información acerca de las características de dicha variable aleatoria. Una de estas funciones es llamada función de distribución y se asocia a una variable continua o discreta, la otra depende del tipo de variable estudiada, en el caso continuo se denomina función de densidad de probabilidad y en caso discreto simplemente función de probabilidad. Estas funciones nos permiten representar a un mismo tiempo tanto los valores que pueden tomar la variable aleatoria como las probabilidades de los distintos eventos involucrados. Entonces en primer término defininamos primero la función de probabilidad para una variable aleatoria discreta, después la función de densidad para una variable continua, y finalmente definamos la función de distribución para ambos tipos de variables aleatorias. Definición 6.2.1 (Función de probabilidad para una variable discreta) Sea X una variable aleatoria discreta que toma los valores x1 , x2 , . . . con probabilidades respectivas P(X = x1 ), P(X = x2 ), . . . . Esta lista de valores numéricos y sus probabilidades puede ser finita o bien infinita, pero numerable. La función de probabilidad de la variable aleatoria X denotada por f (x) : R −→ [0, ∞) se define como sigue ½ P(X = x) si x = x1 , x2 , . . . f (x) = (6.2.1) 0 en otro caso En palabras, la función de probabilidad es simplemente aquella función que indica los valores de la probabilidad en los distintos valores que toma la variable aleatoria discreta. Recordemos que es importante poder distinguir entre X y x, pues conceptualmente son cosas muy distintas. Denotaremos generalmente a una función de probabilidad con la letra f minúscula. A veces escribiremos fX (x) y el subíndice nos ayudará a especificar que tal función es la función de probabilidad de la variable aleatoria X. Esta notación será particularmente útil cuando consideremos varias variables aleatorias a la vez. 6.2.1. Propiedades de la función de probabilidad Si toda función de la forma (6.2.1) cumple las siguientes dos propiedades la llamaremos función de probabilidad. 1) f (x) ≥ 0 para todo x ∈ R 6.2. DISTRIBUCIÓN DE PROBABILIDAD 2) 67 ∑ f (x) = 1 x Ejemplo 6.2.1 Considere la variable aleatoria discreta X que toma los valores 1, 2 y 3, con probabilidades 0,3; 0,5 y 0,2 respectivamente. Entonces la función de probabilidad de X es   0, 3 si x = 1 0, 5 si x = 2 f (x) =  0, 2 si x = 3 Esta función se muestra gráficamente en la Figura 6.2. Alternativamente podemos también expresar esta función mediante la tabla mostrada más abajo. En esta representación se entiende de manera implícita que f (x) es cero para cualquier valor de x distinto de 1, 2 y 3. En particular, compruebe que las siguientes probabilidades son correctas: P(X ≤ 2) = 0, 7 P(|X| = 1) = 0, 3 y P(X < 1) = 0 Figura 6.3: Representación gráfica de la función del ejemplo 6.2.1 x p(x) 1 0,3 2 0,5 3 0,2 Ejemplo 6.2.2 Encontremos el valor de la constante c que hace que la siguiente función sea de probabilidad. ½ cx si x = 0, 1, 2, 3 f (x) = 0 en otro caso Los posibles valores de la variable aleatoria discreta, no especificada, son 0, 1, 2 y 3, con probabilidades 0, c, 2c y 3c, respectivamente. Como la suma de estas probabilidades debe ser uno, obtenemos la ecuación c + 2c + 3c = 1. De aqui obtenemos c = 16 . Este es el valor de c que hace que f (x) sea no negativa y sume uno, es decir, una función de probabilidad. Definición 6.2.2 (Función de densidad para una variable aleatoria continua) Sea X una variable aleatoria continua. Decimos que la función integrable y no negativa f (x) : R −→ [0, ∞) es la función de densidad de X si para cualquier intervalo (a, b) de R se cumple la igualdad P(X ∈ (a, b)) = Z b a f (x)dx 6.2. DISTRIBUCIÓN DE PROBABILIDAD 68 Es decir, la probabilidad de que la variable tome un valor dentro del intervalo (a, b) se puede calcular o expresar como el área bajo la función de densidad en el intervalo (a, b). De esta forma el cálculo de una probabilidad se reduce al cálculo de una integral. Véase la Figura 6.4. No es difícil comprobar que toda función de densidad f (x) de una variable aleatoria continua X cumple las dos propiedades que mencionamos a continuación análogas al caso discreto. Figura 6.4: Representación gráfica de la probabilidad como un aréa 6.2.2. Propiedades de la función de densidad de probabilidad Si toda función de la forma f (x) : R −→ [0, ∞) cumple las siguientes dos propiedades la llamaremos función de densidad de probabilidad. 1) f (x) ≥ 0 para todo x ∈ R 2) Z +∞ −∞ f (x)dx = 1 Toda función f (x) : R −→ [0, ∞) que satisfaga estas dos propiedades, sin necesidad de tener una variable aleatoria de por medio, se llamará función de densidad. Ejemplo 6.2.3 La función f (x) dada por:  1   si x ∈ (1, 3) 2 f (x) =   0 en otro caso es una función de densidad de una variable aleatoria continua que toma valores en el intervalo (1, 3), y cuya gráfica aparece en la Figura 6.5. Observe que se trata de una función no negativa y cuya integral vale uno. Ejemplo 6.2.4 Encontrar el valor de la constante c que hace que la siguiente función sea de densidad.   c|x| si x ∈ [−1, 1] f (x) =  0 en otro caso 6.2. DISTRIBUCIÓN DE PROBABILIDAD 69 Figura 6.5: Representación gráfica de f (x) (ejemplo 6.2.3 Se trata de una variable aleatoria continua que toma valores en el intervalo [−1, 1]. Como esta función debe integrar uno tenemos que: 1= Z ∞ −∞ f (x)dx = Z 1 −1 c|x|dx = 2c Z 1 0 ³ x 2 ´1 =c xdx = 2c 2 0 Por lo tanto, cuando tomamos c = 1 la función anterior resulta ser una función de densidad pues ahora cumple con ser no negativa e integrar uno. Definición 6.2.3 (Función de distribución). Sea X una variable aleatoria discreta o continua. La función de distribución de X, denotada por F(x) : R −→ [0, 1], se define como F(x) = P(X ≤ x) Esto es, la función de distribución evaluada en un número x cualquiera es simplemente la probabilidad de que la variable aleatoria tome un valor menor o igual a x, o en otras palabras, que tome un valor en el intervalo (−∞, x]. Siendo F(x) una probabilidad, sus valores están siempre entre 0 y 1. Esta función resulta ser importante y se le conoce también, por razones evidentes, con el nombre de función de acumulación de probabilidad. Con un par de ejemplo mostraremos la forma de calcular esta función a partir de la función de probabilidad o de la función de densidad. Ejemplo 6.2.5 Consideremos la variable aleatoria discreta X del ejemplo 6.2.1. Tenemos que la correspondiente función de distribución evaluada en x se calcula sumando las probabilidades P(X = u) para valores de u menores o iguales a x, es decir,  0 si x < 1    0, 3 si 1 ≤ x < 2 F(x) = P(X ≤ x) = ∑ P(X = u) = 0, 8 si 2 ≤ x < 3   u≤x  1 si x ≥ 3 cuya gráfica aparece en la Figura 6.6. Este es el comportamiento típico de una función de distribución de una v.a. discreta, es no decreciente, constante por pedazos, y si la función tiene una discontinuidad en x, entonces el tamaño de tal discontinuidad es exactamente la probabilidad de que la variable aleatoria tome ese valor. 6.2. DISTRIBUCIÓN DE PROBABILIDAD 70 Figura 6.6: Representación gráfica de F(x) del ejemplo 6.2.5 Ejemplo 6.2.6 Consideremos ahora la variable aleatoria continua X del ejemplo 6.2.3. La correspondiente función de distribución se obtiene calculando la siguiente integral: F(x) = P(X ≤ x) = Z x −∞   0 si x ≤ 1 0 si x ≤ 1            Z x  1 x−1 f (u)du = du si 1 < x < 3 = si 1 < x < 3   2 1 2           1 si x ≥ 3 1 si x ≥ 3 cuya gráfica aparece en la Figura 6.7. Observe que esta función es continua y no decreciente. Figura 6.7: Representación gráfica de F(x) del ejemplo 6.2.6 En los dos ejemplos anteriores se ha mostrado la forma de obtener F(x) a partir de f (x). Ahora explicaremos el proceso contrario. En el caso continuo tenemos que para toda x en R, F(x) = P(X ≤ x) = Z x −∞ f (u)du d (F(x)) = dx f (x). De este modo podemos encontrar f (x) a partir de F(x). En el caso discreto, f (x) = de modo que por el teorema fundamental del cálculo, y cuando F(x) es diferenciable, 6.2. DISTRIBUCIÓN DE PROBABILIDAD 71 P(X = x) = F(x) − F(x− ), en donde F(x− ) es el límite por la izquierda de la función F en el punto x, en símbolos, F(x− ) = lı́m F(x − h), con h > 0. Análogamente, la exh−→0 presión F(x+ ) significa el límite por la derecha de la función F en el punto x, es decir, F(x+ ) = lı́m F(x + h), con h > 0. h−→0 Proposición 6.2.1 . Toda función de distribución F(x) satisface las siguientes propiedades: 1. 0 ≤ F(x) ≤ 1 2. lı́m F(x) = 1 x−→∞ 3. lı́m F(x) = 0 x−→−∞ 4. Si x1 ≤ x2 , entonces F(x1 ) ≤ F(x2 ) 5. Si x1 ≤ x2 , entonces P(x1 < X ≤ x2 ) = F(x2 ) − F(x1 ) 6. F(x) = F(x+ ) Demostración 1. Como F(x) es una probabilidad pues, por definición, F(x) = P(X ≤ x). Por lo tanto se cumple la primera propiedad. 2. Cuando x tiende a infinito el conjunto (X ≤ x) se aproxima al conjunto (X ≤ ∞) que es idéntico a Ω = R, por lo tanto, cuando x −→ ∞, F(x) −→ P(X ≤ ∞) = P(R) = 1 3. Análogamente el conjunto (X ≤ x) se aproxima al conjunto (X ≤ −∞) = 0/ cuando x tiende a menos infinito. Por lo tanto, cuando x −→ ∞, / =0 F(x) −→ P(X ≤ −∞) = P(0) 4. Es suficiente observar que si x1 ≤ x2 , entonces (X ≤ x1 ) ⊆ (X ≤ x2 ). Aplicando probabilidad obtenemos P(X ≤ x1 ) ≤ P(X ≤ x2 ). 5. Por teoria elemental de conjuntos el evento (x1 < X ≤ x2 ) puede descomponerse en la diferencia (X ≤ x2 ) − (X ≤ x1 ), en donde (X ≤ x1 ) ⊆ (X ≤ x2 ). Por lo tanto P(x1 < X ≤ x2 ) = P(X ≤ x2 ) ≤ P(X ≤ x1 ) = F(x2 ) − F(x1 ) 6. Para h > 0 tenemos que F(x + h) = P(X ≤ x + h) = P(X ≤ x) + P(x < X ≤ x + h), de modo que cuando h tiende a cero, el conjunto (x < X ≤ x + h) tiende al conjunto vacío. Concluimos entonces que, cuando h −→ 0 con h > 0, / = F(x) F(x + h) −→ F(x) + P(0) La propiedad 4) significa que F(x) es una función monótona no decreciente. Mientras que la propiedad 6) establece que F(x) es una función continua por la derecha. 6.3. ESPERANZA, VARIANZA Y MOMENTOS 6.2.3. 72 Distribuciones discretas Las distribuciones de variables aleatorias discretas más importantes son las siguientes: a) Distribución binomial b) Distribución binomial negativa c) Distribución Poisson d) Distribución geométrica e) Distribución hipergeométrica 6.2.4. Distribuciones continuas Las distribuciones de variable continua más importantes son las siguientes: a) Distribución ji cuadrado b) Distribución exponencial c) Distribución t-student d) Distribución normal e) Distribución Gamma f) Distribución Beta Las distribuciones continuas son imposibles de tabular y por lo tanto se representan con curvas. 6.3. Esperanza, varianza y momentos Todos los seres humanos tenemos características numéricas que nos identifican y nos distinguen de otras personas, por ejemplo, la edad, estatura, talla, peso, etc. Si pudiéramos considerar la totalidad de todos estos números para una persona en particular, la identificaríamos de manera única. Algo similar sucede con las variables aleatorias. En esta sección estudiaremos algunas características numéricas asociadas a las variables aleatorias. 6.3.1. Esperanza Definición 6.3.1 Esperanza La esperanza de una variable aleatoria X es un número real denotado por E(X) y que se calcula como sigue: 6.3. ESPERANZA, VARIANZA Y MOMENTOS 73 1. Si X es una variable aleatoria discreta con función de probabilidad f (x), entonces: E(X) = ∑ x f (x) x en donde la suma se efectúa sobre todos los posibles valores que pueda tomar la variable aleatoria X, y se define cuando esta suma sea absolutamente convergente, es decir, E(X) = ∑ |x| f (x) x El número de sumandos puede ser finito o infinito dependiendo del conjunto de valores de la variable aleatoria. 2. Si X es una variable aleatoria continua con función de densidad de probabilidad f (x), entonces la esperanza es Z E(X) = ∞ −∞ x f (x)dx suponiendo que esta integral es absolutamente convergente, es decir, E(X) = Z ∞ −∞ |x f (x)|dx Si la suma o la integral anteriores no cumplen la condición de convergencia absoluta, entonces se dice que la esperanza no existe. La esperanza de una variable aleatoria es entonces un número que indica el promedio ponderado de los diferentes valores que puede tomar la variable aleatoria. A la esperanza se le conoce también con los nombre de: media, valor esperado o valor promedio. En general se usa la letra griega µ (mu) para denotarla. La integral o suma arriba mencionados pueden no ser convergentes y en ese caso se dice que la variable aleatoria no tiene esperanza finita. La situación anterior se ilustra en los ejercicios 126 y 127. La esperanza es uno de los conceptos más importantes en probabilidad y tiene un amplio uso en las aplicaciones y otras ramas de la ciencia. Ilustraremos a continuación la forma de calcular la esperanza. Ejemplo 6.3.1 Sea X una variable aleatoria discreta con función de densidad dada por la siguiente tabla. x -1 0 1 2 f(x) 1/8 4/8 1/8 2/8 La esperanza de X es el número 3 E(X) = 4 1 2 1 1 x f (x) = −1 · + 0 · + 1 · + 2 · = 8 8 8 8 2 x=−1 ∑ Observe que la suma su efectúa para todos los valores de x indicados en la tabla, es decir : -1, 0, 1 y 2. También es instructivo observar que la esperanza no es necesariamente uno de los valores tomados por la variable aleatoria. En este ejemplo el valor 21 nunca es tomado por la variable aleatoria, pero es su valor esperado. 6.3. ESPERANZA, VARIANZA Y MOMENTOS 74 Ejemplo 6.3.2 Considere la variable aleatoria continua X con función de densidad:   2x si 0 < x < 1 f (x) =  0 en otro caso La esperanza de X es E(X) = Z ∞ −∞ x f (x)dx = Z 1 0 ¯1 2 2 2 ¯¯ x · 2x = x ¯ = 3 ¯ 3 0 Observe que la integral sólo es relevante en el intervalo (0, 1), pues fuera de dicho intervalo la función de densidad se anula. Esperanza de una función de una variable aleatoria En algunos casos es necesario saber calcular la esperanza de una función de una variable aleatoria. Por ejemplo, si X es una variable aleatoria, entonces es claro que Y = X 2 es una función de X y es también una variable aleatoria. Si Zquisiéramos calcular la esperanza de Y = X 2 segúun la definición tendríamos que calcular ∞ −∞ y fY (y)dy, para lo cual se necesita encontrar primero la función de densidad de Y , y ello en general no es fácil. El siguiente resultado es muy útil y nos dice cómo calcular esta esperanza conociendo únicamente la función de densidad de X. A veces se le refiere como el teorema del estadístico inconsciente. Proposición 6.3.1 Sea X una variable aleatoria y sea g : R −→ R una función tal que g(X) es una variable aleatoria con esperanza finita. Entonces: 1. Si X es una variable aleatoria discreta; con función de probabilidad fX (x), se define la esperanza de la variable aleatoria discreta g(x) esta dada por la siguiente: E[g(X)] = ∑ g(x) fX (x) (6.3.2) X 2. Si X es una variable aleatoria continua; con función de densidad de probabilidad fX (x); entonces la esperanza de la variable aleatoria continua g(x) está dada por la siguiente ecuación: Z ∞ (6.3.3) E[g(X)] = g(x) fX (x)dx −∞ En general, la demostración de este resultado es complicada, asi es que la omitiremos y nos concentraremos en su uso y aplicación. Ejemplo 6.3.3 Calcularemos E(Y ) en donde Y = X 2 , y X es la variable aleatoria continua del ejemplo anterior, es decir, con función de densidad   2x si 0 < x < 1 f (x) =  0 en otro caso 6.3. ESPERANZA, VARIANZA Y MOMENTOS 75 Por la proposición anterior tenemos que: E(Y ) = E(X 2 ) = Z ∞ −∞ g(x) f (x)dx = Z 1 0 ¯1 2 4 ¯¯ 1 2 x · 2x = x ¯ = 4 ¯ 2 0 Ejemplo 6.3.4 Sea X una variable aleatoria con función de probabilidad dada por la tabla que aparece abajo. Encuentre la función de probabilidad de Y = X 2 usando la ecuación(6.3.2). x f(x) -1 1/8 0 4/8 1 1/8 2 2/8 Por la ecuación (6.3.2) la esperanza de Y = X 2 es 1 4 1 2 5 E(Y ) = ∑ g(x) f (x) = ∑ x2 f (x) = (−1)2 · + 02 · + 12 · + 22 · = 8 8 8 8 4 X X Propiedades de la esperanza Proposición 6.3.2 Sean X y Y variables aleatorias con esperanzas finitas y sea c una constante. Entonces a) E(c) = c b) E(cX) = cE(X) c) Si X ≥ 0, entonces E(X) ≥ 0 d) E(X +Y ) = E(X) + E(Y ) Demostración a) Si X es una v.a. discreta por definición de esperanza para caso discreto tenemos que: E(c) = ∑ cP(X = x) = c ∑ P(X = x) = c x x Si X es una v.a. continua por definición de esperanza para caso continuo tenemos que: E(c) = Z ∞ −∞ c f (x)dx = c Z ∞ −∞ f (x)dx = c b) Si X es una v.a. discreta por definición de esperanza para caso discreto tenemos que: E(cX) = ∑(cx)P(X = x) = c ∑ xP(X = x) = cE(X) x x Si X es una v.a. continua por definición de esperanza para caso continuo tenemos que: E(cX) = Z ∞ −∞ (cx) f (x)dx = c Z ∞ −∞ x f (x)dx = cE(X) 6.3. ESPERANZA, VARIANZA Y MOMENTOS 76 c) Este inciso es muy evidente pues cuando se cumple la hipótesis (E(X) ≥ 0), en la integral o suma correspondiente solo aparecerán términos que son no negativos. d) Esta última propiedad, en cambio, no es sencilla de demostrar y aún en el caso discreto requiere de detalles técnicos que preferimos omitir. Oservaciones: Observe que la segunda y la cuarta propiedad establecen que la esperanza es lineal, es decir, separa sumas y también separa multiplicaciones por constantes; esto es E(c1 X + c2Y ) = c1 E(X) + c2 E(Y ) Además si X1 , X2 , . . . , Xn son v.a. y c1 , c2 , . . . , cn son constantes arbitrarias se tiene que: ³ n E ∑ ciXi ´ k=1 n = ∑ ciE(Xi) k=1 Si X e Y son v.a. independientes entonces E(XY ) = E(X)E(Y ). Esto mismo se extiende ³ n ´ n para una sucesión X1 , X2 , . . . , Xn de v.a. independientes, esto es E ∑ Xi = ∏ E(Xi ). i=1 i=1 Esta última propiedad no la detallaremos pero la utilizaremos en algunas demostraciones. 6.3.2. Varianza Definición 6.3.2 (Varianza) La varianza de una variable aleatoria X, denotada por Var(X), se define como la siguiente esperanza, si ésta existe,   [x − E(X)]2 f (x) si X es una v.a. discreta ∑    x Var(X) = E[X − E(X)]2 = Z ∞     [x − E(X)]2 f (x)dx si X es una v.a. continua −∞ La varianza es una medida del grado de dispersión de los diferentes valores tomados por la variable aleatoria. Se le denota regularmente por la letra σ2 (sigma cuadrada). A la raíz cuadrada positiva de la varianza, esto es σ, se le llama desviación estándar. Nuevamente la anterior suma o integral puede no existir y en ese caso decimos que la variable aleatoria no tiene varianza finita. Observemos que para calcular Var(X) necesitamos conocer primero E(X). Veamos algunos ejemplos sencillos. Ejemplo 6.3.5 Calcularemos la varianza de la variable aleatoria discreta X con función de probabilidad dada por la siguiente tabla. x f(x) -1 1/8 0 4/8 1 1/8 2 2/8 6.3. ESPERANZA, VARIANZA Y MOMENTOS 77 1 Recordemos primeramente que por cálculos previos, E(X) = . Aplicando la definición de 2 varianza para v.a. discreta Var(X) = ∑[x − E(X)]2 f (x), tenemos que: x ³ 1 ´2 4 ³ 1 ´2 1 ³ 1 ´2 2 1 ´2 1 ³ Var(X) = − 1 − · + 0− · + 1− · + 2− · =1 2 8 2 8 2 8 2 8 Ejemplo 6.3.6 Calcularemos la varianza de la variable aleatoria continua X con función de densidad f (x) = 2x para x ∈ (0, 1) y cero en otro caso. En un cálculo previo habíamos encon2 trado que E(X) = . Aplicando la definición de varianza para una v.a. continua Var(X) = 3 Z ∞ 2 [x − E(X)] f (x)dx, tenemos que −∞ Var(X) = Z 1³ x− 0 2 ´2 2xdx = 3 Z 1³ 0 ³ x4 8 8 8 ´ 4 ´¯¯1 1 2x3 − x2 + x dx = − x3 + x2 ¯ = 3 9 2 9 9 18 0 Propiedades de la varianza Ahora enunciamos algunas propiedades de la varianza. Proposición 6.3.3 Sean X y Y dos variables aleatorias, y sea c una constante. Entonces a) Var(X) ≥ 0 b) Var(c) = 0 c) Var(cX) = c2Var(X) d) Var(X + c) = Var(X) e) Var(X) = E(X 2 ) − (E(X))2 f) Var(X +Y ) 6= V (X) +V (Y ) Demostración a) Este inciso es evidente a partir de la definición de varianza pues en ella aparece una suma o integral de términos no negativos. b) Para este inciso la constante c es una v.a. con un único valor, de modo que E(c) = c, entonces Var(X) = E(c − c)2 = E(0)2 = E(0) = 0 c) Para este inciso tenemos que: Var(cX) = E[cX − E(cX)]2 = E[cX − cE(X)]2 = E[c2 (X − E(X))2 ] = c2 E[X − E(X)]2 = c2Var(X) 6.3. ESPERANZA, VARIANZA Y MOMENTOS 78 d) La demostración de este inciso tiene un procedimiento análogo al anterior, esto es, Var(X + c) = E[(X + c) − E(X + c)]2 = E[X + c − (E(X) + E(c))]2 = E[X + c − E(X) − c)]2 = E[X − E(X)]2 = Var(X) e) Para demostrar esta propiedad se desarrolla el cuadrado en la definición de varianza, y se usa la propiedad de linealidad de la esperanza, esto es, Var(X) = E[X − E(X)]2 = E[X 2 − 2XE(X) + (E(X))2 ] = E(X 2 ) − 2E[XE(X)] + E[E(X)]2 = E(X 2 ) − 2[E(X)]2 + [E(X)]2 = E(X 2 ) − [E(X)]2 f) Finalmente para demostrar la propiedad (f) es suficiente dar un ejemplo. Puede tomarse el caso Y = X, en general y por lo demostrado antes, se tiene que Var(X +Y ) = Var(2X) = 22Var(X) = 4Var(X) 6= 2Var(X) = Var(X) +Var(Y ) Observación: Si X e Y son v.a. independientes y c1 , c2 son constantes arbitrarias entonces Var(c1 X + c2Y ) = c21Var(X) + c22Var(Y ) Además si X1 , X2 , . . . , Xn son v.a. independientes todas entre si y c1 , c2 , . . . , cn son constantes arbitrarias se tiene que: ³ Var ´ c X = i i ∑ n k=1 n ∑ c2i Var(Xi) k=1 Nota: En este curso no entraremos en detalles con respecto a las v.a. independientes por eso no demostraremos las propiedades que este hecho implica en la esperanza y la varianza de la suma de v.a. de este tipo mencionadas anteriormente. 6.3.3. Momentos Los momentos de una variable aleatoria son números que representan algunas características de la distribución de probabilidad asociada. Bajo ciertas condiciones el conjunto de momentos determinan de manera única a la distribución de probabilidad. A continuación definiremos los momentos si existen de una variable aleatoria alrededor del origen y alrededor de la media también llamada momento central. Definición 6.3.3 (Momentos) Se define el n-ésimo momento de una variable aleatoria X alrededor del origen, cuando existe, como el número E(X n ), para cualquier valor natural de n. El n-ésimo momento central de X, cuando existe, es el número E[(X − µ]n , en donde µ = E(X). 6.3. ESPERANZA, VARIANZA Y MOMENTOS 79 Observe que el primer momento de X alrededor del origen es simplemente la esperanza, y el segundo momento central es la varianza. Tenemos entonces que si X es una variable aleatoria con funcion de probabilidad f (x) si es discreta o función de densidad de probabilidad f (x) si es continua, entonces el n- ésimo momento de X, si existe, se calcula como sigue:   xn f (x) si X es una v.a. discreta ∑    x E(X n ) = Z ∞    xn f (x)dx si X es una v.a. continua  −∞ El n-ésimo momento central de X se calcula, para variables aleatorias discretas y continuas respectivamente, como indican las siguientes fórmulas:   (x − µ)n f (x) si X es una v.a. discreta ∑    x E[X − µ]n = Z ∞    (x − µ)n f (x)dx si X es una v.a. continua  −∞ Ejemplo 6.3.7 Sea la variable aleatoria discreta X con función de probabilidad dada por la siguiente tabla. x 0 1 2 f(x) 1/4 2/4 1/4 a) Hallar el primer, segundo y tercer momento alrededor del origen b) Calcular el primer, segundo y tercer momento alrededor de la media Desarrollo de los incisos a) Por definición de momentos alrededor del origen tenemos que 2 E(X) = 1 2 1 ∑ x f (x) = 0 · 4 + 1 · 4 + 2 · 4 = 1 x=0 E(X 2 ) = 2 1 2 1 3 1 2 1 5 ∑ x2 f (x) = 02 · 4 + 12 · 4 + 22 · 4 = 2 x=0 E(X 3 ) = 2 ∑ x3 f (x) = 03 · 4 + 13 · 4 + 23 · 4 = 2 x=0 b) Por definición de momentos alrededor de la media cuyo valor es 1 tenemos que 2 E(X − µ) = 1 2 1 ∑ (x − 1) f (x) = (0 − 1) · 4 + (1 − 1) · 4 + (2 − 1) · 4 = 0 x=0 2 E[(X − µ) ] = 2 1 2 1 1 2 1 1 ∑ (x − 1)2 f (x) = (0 − 1)2 · 4 + (1 − 1)2 · 4 + (2 − 1)2 · 4 = 2 x=0 3 E[(X − 1) ] = 2 ∑ (x − 1)3 f (x) = (0 − 1)3 · 4 + (1 − 1)3 · 4 + (2 − 1)3 · 4 = 0 x=0 6.4. FUNCIÓN GENERADORA DE MOMENTOS 80 Ejemplo 6.3.8 Una variable aleatoria X tiene función de densidad de probabilidad dada por:  x  si 0 < x < 2  2 f (x) =   0 en otro caso a) Hallar el primer, segundo y tercer momento alrededor del origen b) Calcular el primer y segundo momento alrededor de la media Desarrollo de los incisos a) Por definición de momentos alrededor del origen tenemos que Z 2 x x3 ¯¯2 4 E(X) = x dx = ¯ = 6 0 3 0 2 Z 2 x x4 ¯¯2 E(X 2 ) = x2 dx = ¯ = 2 2 8 0 0 Z 2 5 x x ¯¯2 16 x3 dx = ¯ = E(X 3 ) = 2 10 0 5 0 b) Por definición de momentos alrededor de la media tenemos que ³4´ 4 4 ³ 4´ = E(X) − E = − =0 E(X − µ) = E X − 3 3 3 3 Z Z ³ ´ i ´ h³ 2 4 2x 4 2 1 2 ³ 3 8 2 16 ´ x− = x − x + x dx E[(X − µ)2 ] = E X − dx = 3 3 2 2 0 3 9 0 ³ ´ 4 2 1 x 8 8 2 = − x3 + x2 = 2 4 9 9 9 0 6.4. Función generadora de momentos A continuación definiremos una función especial denominada función generadora de momentos. Definición 6.4.1 (Función generadora de momentos) Sea X una variable aleatoria con función de probabilidad f (x) en el caso de que sea discreta o función de densidad f (x) en el caso de que sea continua. Se define a la función generadora de momentos de la variable aleatoria X como la siguiente esperanza, MX (t) = E(etX ) La función generadora de momentos de X se calcula, para variables aleatorias discretas y continuas respectivamente, como indican las siguientes fórmulas:   etx f (x) si X es una v.a. discreta ∑    x MX (t) = Z ∞    etx f (x)dx si X es una v.a. continua  −∞ 6.4. FUNCIÓN GENERADORA DE MOMENTOS 81 Ejemplo 6.4.1 Sea X la variable aleatoria discreta del ejemplo 6.3.7, es decir, con función de probabilidad dada por la tabla. x f(x) 0 1/4 1 2/4 2 1/4 Obtener su función generadora de momentos. Por la definición de función generadora de momentos tenemos MX (t) = E(etX ) = 2 e2t + 2et + 1 tx 0 1 1t 2 2t 1 e f (x) = e · + e · + e · = ∑ 4 4 4 4 x=0 Ejemplo 6.4.2 Una variable aleatoria X tiene función de densidad de probabilidad dada por:  −2x si x ≥ 0  2e f (x) =  0 en otro caso Obtener su función generadora de momentos. Por la definición de función generadora de momentos tenemos MX (t) = E(etX ) = = Z ∞ −∞ etx f (x)dx = Z ∞ 0 etx 2e−2x dx = 2 Z ∞ 0 e−(2−t)x dx ¯∞ 2 2 ¯ e−(2−t)x ¯ = −(2 − t) 2−t 0 Propiedades de la función generadora de momentos Proposición 6.4.1 Sea X una variable aleatoria con los primeros n momentos alrededor del origen finitos, estos es, E(X k ) < ∞; ∀k ∈ {0, 1, 2, . . . , n} y función generadora de momentos MX (t) , entonces se tiene que: ´ dn ³ MX (0) = E(X n ) n dt Demostración Por definición de función generadora de momentos, MX (t) = E(eXt ) y por serie de Taylor, ∞ (tX)k e(Xt) = ∑ . Por lo tanto k=0 k! ∞ k t (tX)k ´ = ∑ E(X k ) MX (t) = E ∑ k=0 k! k=0 k! ³ ∞ Derivando n veces a MX (t) obtenemos la siguiente secuencia ´ ∞ ∞ d³ t k−1 t k−1 MX (t) = ∑ E(X k ) = ∑ E(X k−1 X) = E(XetX ) dt (k − 1)! (k − 1)! k=1 k=1 6.4. FUNCIÓN GENERADORA DE MOMENTOS 82 ´ ∞ ∞ t k−2 t k−2 d2 ³ k MX (t) = ∑ E(X ) = ∑ E(X k−2 X 2 ) = E(X 2 etX ) 2 dt k=2 (k − 2)! k=2 (k − 2)! .. . ´ ∞ ∞ t k−n t k−n dn ³ k M (t) = E(X ) = E(X k−n X n ) = E(X n etX ) X ∑ ∑ dt n (k − n)! (k − n)! k=n k=n Por lo que finalmente ´ dn ³ M (0) = E(X n ) X dt n Ejemplo 6.4.3 Tomemos nuevamente a la variable aleatoria discreta X del ejemplo 6.4.1 junto con su función generadora de momentos y calculemos los cuatro primeros momentos de la variable alrededor del origen. Entonces et + et + 1 MX (t) = 2 ´¯ d³ e2t + et ¯¯ 1+1 ¯ E(X) = Mx (t) ¯ = =1 ¯ = dx 2 2 t=0 t=0 ´¯ d2 ³ 2e2t + et ¯¯ 2+1 3 ¯ E(X 2 ) = 2 Mx (t) ¯ = = ¯ = dx 2 2 2 t=0 t=0 ¯ ³ ´¯ 3 2t t d 4e + e ¯ 4+1 5 ¯ E(X) = 3 Mx (t) ¯ = = ¯ = dx 2 2 2 t=0 t=0 ¯ ³ ´¯ 4 2t t d 8e + e ¯ 8+1 9 ¯ E(X) = 4 Mx (t) ¯ = = ¯ = dx 2 2 2 t=0 t=0 Ejemplo 6.4.4 Tomemos ahora la variable aleatoria continua X del ejemplo 6.4.2 junto con su función generadora de momentos y calculemos los cuatro primeros momentos de la variable alrededor del origen. Entonces MX (t) = 2 2−t ´¯ d³ 2 ¯¯ 2 1 ¯ Mx (t) ¯ = ¯ = 2= 2 dx (2 − t) t=0 2 2 t=0 ´¯ 4 ¯¯ 4 d2 ³ 1 ¯ E(X 2 ) = 2 Mx (t) ¯ = ¯ = 3= 3 dx (2 − t) t=0 2 2 t=0 ´¯ 12 ¯¯ 12 3 d3 ³ ¯ E(X) = 3 Mx (t) ¯ = ¯ = 4 = 4 dx (2 − t) t=0 2 4 t=0 ´¯ 48 ¯¯ d4 ³ 48 3 ¯ E(X) = 4 Mx (t) ¯ = ¯ = 5 = 5 dx 2 t=0 (2 − t) t=0 2 E(X) = Proposición 6.4.2 Si X1 , X2 , . . . , Xn son v.a. independientes entonces n M³ n ∑ Xi i=1 ´(t) = ∏ MXi (t) i=1 6.5. PROBLEMAS 83 Demostración Por definición de función generadora de momentos se tiene que n M³ n ∑ Xi ³ ∑ Xit ´ ³ n ´ n n Xi t Xi t i=1 = E e = E e = E(e ) = ´(t) ∏ ∏ ∏ MXi (t) i=1 i=1 i=1 i=1 Notese que para esta demostración utilizamos la propiedad de la esperanza para v.a. independientes. 6.5. Problemas Variables Aleatorias 1. Determine en cada caso si la variable aleatoria en cuestión es discreta o continua. ¿Cuáles son sus posible valores? a) Tiempo de vida de una persona escogida al azar. b) Número de errores tipográficos en una página escogida al azar de un libro. c) Tiempo de servicio en una transacción escogida al azar realizada por una persona en un cajero automático. d) Monto de una reclamación por accidente automovilístico escogida al azar del conjunto de reclamaciones efectuadas a una compañía aseguradora. 2. Considere el experimento aleatorio de escoger un número al azar dentro del intervalo unitario (0, 1). Suponga que cada resultado de este experimento se escribe en su expansión decimal como ω = 0, x1 x2 x3 . . . . Determine en los siguientes casos el conjunto de valores de la variable aleatoria definida y clasifique ésta como discreta o continua. a) X(ω) = ω b) X(ω) = x1 c) X(ω) = 1 − ω d) X(ω) = 0, 0x1 x2 x3 . . . 3. Considere un experimento aleatorio con espacio muestral equiprobable ω = {1, 2, 3, 4, 5, 6}. Defina la variable aleatoria X(ω) = 2(ω − 3). ¿Cuáles son los posibles valores de X?. Calcule P(X = 0), P(X ∈ {2, 3}), P(X ≥ 0), P(X < 0), P(X 2 = 1), P(2X − 4 = 0), y P(X 2 = 4). 4. Considere el ejemplo del experimento aleatorio de lanzar un dardo en un tablero circular de radio p uno, Figura 1.13, junto con las variables aleatorias X(x, y) = x,Y (x, y) = y y Z(x, y) = x2 + y2 . Suponga que para cada región A ⊆ Ω cuya área puede ser calcuÁrea(A) lada se define por P(A) = . Área(Ω) ³ ³1 1´ 1´ Calcule P(X ≥ 0), P(X < 0), P(X +Y ≤ 1), P(Y > X), P Z < yP <Z< . 2 3 2 6.5. PROBLEMAS 84 Funciones de probabilidad, de densidad y de distribución 1. Grafique y compruebe que las siguientes funciones son de probabilidad   x2   si x = −2, −1, 0, 1, 2 10 a) f (x) =    0 en otro caso   (2x − 5)2   si x = 1, 2, 3, 4, 5 70 b) f (x) =    0 en otro caso 2. Grafique y compruebe que las siguientes funciones son de densidad  x+1   si x ∈ (−1, 1) 2 a) f (x) =   0 en otro caso ½ −x e si x > 0 b) f (x) = 0 si x ≤ 0 3. Encuentre el valor de la constante c para que f (x) sea una función de probabilidad. Grafique esta función y calcule P(X ∈ 2, 3, 4) y P(X < 3) en cada caso.   cx si x = 1, 2, . . . , 10 a) f (x) =  0 en otro caso  2  cx si x = 1, 2, . . . , 10 b) f (x) =  0 en otro caso 4. Determine si la siguiente función es de probabilidad. Grafique la función y justifique su respuesta.  1   si x = 0, 1   6     2 f (x) = si x = 2   3       0 otro caso 5. Determine si la siguiente función es de probabilidad. Grafique la función y justifique su respuesta.  ³ 3 ´x ³ 1 ´4−x 4   si x = 0, 1, 2, 3, 4  x!(4 − x)! 4 4 f (x) =    0 otro caso 6.5. PROBLEMAS 85 6. Encuentre el valor de la constante c para que la siguiente función sea de densidad. Grafique f (x) y calcule P(X ≥ π) y P(X ∈ [π, 2π]).   c(1 + senx) si x ∈ [0, 2π] f (x) =  0 en otro caso 7. Encuentre el valor de la constante c para que la siguiente función sea de densidad. Grafique f (x) y calcule P(X ∈ (1, ∞)). f (x) = ce−|x| para − ∞ < x < ∞ 8. Determine si cada una de las siguientes funciones es de densidad. Grafique la función en cada caso y justifique su respuesta.  4x   si x ∈ [0, 2] 5 a) f (x) =   0 otro caso   2x2 4   − 2x + si x ∈ [0, 3] 3 3 b) f (x) =    0 en otro caso 9. Explique porqué no es posible encontrar un valor de la constante c para que la siguiente función sea de probabilidad o de densidad.   cx si x = −2, −1, 0, 1, 2 a) f (x) =  0 otro caso   c senx si x ∈ [−π, π] b) f (x) =  0 en otro caso 10. Sea X una v.a. discreta con función de probabilidad dada por la siguiente tabla. Grafique f (x) y calcule P(X ≥ 0), P(X < 0) y P(X 2 = 1). x -1 f(x) 0,2 0 0,3 1 0,5 11. Dadas las variables aleatorias con funciones de probabilidad dada por las tablas x f(x) 0 1/210 x f(x) 2 1/36 1 4/35 3 1/18 2 3 3/7 8/21 4 1/12 a) Grafique en ambos casos 5 1/9 4 1/14 6 5/36 7 1/6 8 5/36 9 1/9 10 1/12 11 1/18 12 1/36 6.5. PROBLEMAS 86 b) Calcule P(X ≤ 2), P(X ≥ 3) y P(1 ≤ X ≤ 3) en ambos casos 12. Sea X una v.a. discreta con función de probabilidad dada por la tabla que aparece abajo. Grafique f (x). Calcule la función de probabilidad de las siguientes variables aleatorias Y = X 2 , Z = |X| y W = 2X − 5. Grafique en cada caso. x f(x) -2 0,1 -1 0,15 0 0,4 2 0,1 3 0,15 5 0,1 13. Sea X discreta con función de probabilidad dada por la tabla que aparece abajo. Encuentre el valor de c y grafique f (x). Calcule y grafique la función de probabilidad de la variable Y = X 2 . x -2 0 2 f(x) 0,1 c 0,1 14. Sea X una variable aleatoria con la siguiente función de distribución. Encuentre y grafique f (x). Calcule P(0 ≤ X < 10).  ³ 1 ´x+1   1− si x = 0, 1, 2, 3, . . . 2 F(x) =   0 otro caso 15. Sea X una v.a. continua con función de densidad  1   si − k ≤ x ≤ 4k 10 f (x) =   0 otro caso a) Determine el valor de la constante k y grafique f (x) b) Calcule y grafique F(x) c) Calcule P(−1 ≤ X ≤ 3), P(X ≥ 2) y P(X ≤ 0) 1 d) Encuentre m tal que P(|X − 1| ≥ m) = 2 16. Sea X una variable aleatoria continua con la función de densidad que aparece abajo. Encuentre el valor de la constante c y grafique la función f (x). Encuentre y grafique además la función de distribución F(x).  2x   si 0 < x < c 9 f (x) =   0 si en otro caso ½ 17. Dada la siguiente función f (x) = ce−3x si x > 0 0 si x ≤ 0 a) Obtenga el valor de c que haga que esta función sea de densidad para X 6.5. PROBLEMAS 87 b) Calcule y grafique F(x) c) Calcule P(X ≤ 10), P(X ≥ 5) y P(5 ≤ X ≤ 10) 18. El tiempo en minutos que una persona espera un autobús es una v.a. con función de densidad dada por  1  2 si 0 < t < 1     1 f (t) = 4 si 2 < t < 4      0 para otro valor de t Hallar la probabilidad de que el tiempo en que la persona que espera el autobús sea de a) mayor de 3 minutos b) entre 1 y 2 minutos c) menor de 3 minutos 19. Una v.a. tiene función de densidad  2  cx si 1 ≤ t ≤ 2 f (t) = cx si 2 ≤ t ≤ 3  0 para otro valor de x Hallar: a) la constante c b) la función de distribución ³1 3´ c) P(X > 2) y P <X < 2 2 20. Sea X una variable aleatoria con la función de distribución que aparece abajo. ¿Es X discreta o continua? Grafique F(x). Encuentre y grafique la correspondiente función de densidad f (x). Calcule además P(X = 2) y P(1 < X < 2).  0 para x < 1       1 F(x) = si 1 ≤ x < 2  3      1 para x ≥ 2 21. Sea X una variable aleatoria con la función de distribución que aparece abajo. ¿Es X discreta o continua? Grafique F(x). Encuentre y grafique la correspondiente función 1 1 de densidad f (x). Calcule además P(X = ) y P(X > ). 2 2   √0 para x < 0 x si 0 ≤ x < 1 F(x) =  1 para x ≥ 1 6.5. PROBLEMAS 88 22. Una urna contiene cuatro bolas numeradas 1, 2, 3 y 4. Se extraen dos bolas al azar, una a la vez y sin reemplazo. Sea X la variable aleatoria que denota la suma de los números de las dos bolas seleccionadas. a) b) c) d) Determine Ω Calcule y grafique f (x) Calcule y grafique F(x) Calcule P(X ≥ 6), P(3 < X ≤ 5) y P(X = 6) Esperanza, varianza, momentos y función generadora de momentos 1. Sea a un número fijo. Construya una variable aleatoria X tal que E(X) = a. 2. Calcule la esperanza de la variable aleatoria discreta X cuya función de probabilidad es  1   si x = 0, 1   3     1 a) f (x) = si x = 2, 3   6       0 otro caso  1   si x = −1, 1   4     1 b) f (x) = si x = 0   2       0 otro caso 3. Calcule la esperanza de la variable aleatoria continua X cuya función de densidad es a) f (x) = e−x , para x > 0 b) f (x) = 6x(1 − x), para 0 < x < 1 4. Sea X una variable aleatoria discreta con la función de probabilidad que aparece abajo. Demuestre que f (x) es efectivamente una función de probabilidad y que la esperanza de X no existe. Este es un ejemplo de una variable aleatoria discreta que no tiene esperanza finita.  1   para x = 1, 2, 3, . . .  x(x + 1) f (x) =    0 para otros casos 5. Sea X una variable aleatoria continua con la función de densidad que aparece abajo. Demuestre que esta función es efectivamente una función de densidad. Compruebe además que la esperanza de X no existe. Este es un ejemplo de una variable aleatoria continua que no tiene esperanza finita. Es un caso particular de la distribución Cauchy. 1 , para − ∞ < x < ∞ f (x) = 2 π(x + 1) 6.5. PROBLEMAS 89 6. Demuestre que no existe la esperanza de la v.a X cuando su función de densidad es  1   2 para x > 1 x f (x) =   0 para x ≤ 1 7. Encuentre la esperanza y luego demuestre que la varianza de una variable aleatoria con la siguiente función de densidad no existe.  2   3 para x > 1 x f (x) =   0 para x ≤ 1 8. Diga falso o verdadero. Justifique en cada caso. a) La esperanza de una v.a. puede ser cero. b) No hay dos v.a.s distintas con la misma esperanza. c) La esperanza de una v.a. nunca es negativa. d) La varianza de una v.a. puede ser cero. e) La varianza de una v.a. nunca es negativa. f) No hay dos v.a.s distintas con la misma varianza. 9. Demuestre que a) E(E(X)) = E(X) b) Var(Var(X)) = 0 10. Sea X la variable aleatoria constante c. Compruebe que a) E(X) = c b) E(X n ) = cn c) Var(X) = 0 11. Calcule la media y varianza de la variable aleatoria X con función de probabilidad  1   si x = 0, 1, 2   9     2 f (x) = si x = 3, 4, 5   9       0 otro caso 12. Calcule la media y varianza de la variable aleatoria X cuya función de probabilidad es  ³ ´x+1 1   si x = 0, 1, 2, 3, . . . 2 f (x) =   0 otro caso 6.5. PROBLEMAS 90 13. Diga falso o verdadero. Justifique en cada caso. a) Var(E(X)) = 0 b) E(Var(X)) = E(X) 14. Sea X una variable aleatoria continua con función de densidad f (x) = 12e−|x| , para −∞ < x < ∞. Demuestre que f (x) es efectivamente una función de densidad y compruebe que a) E(X) = 0 b) E(X 2 ) = 2 c) Var(X) = 2 d) E(X n ) = n! para n par 15. Diga falso o verdadero. Justifique en cada caso. a) E(−X) = −E(X) b) Var(−X) = −Var(X) c) E(Var(X)) = Var(E(X)) 16. Encuentre el error en la siguiente demostración de la afirmación de que la varianza de cualquier variable aleatoria es cero. 0 = Var(0) = Var(X + (−X)) = Var(X) +Var(−X) = Var(X) +Var(X) = 2Var(X) Capítulo 7 Distribuciones de probabilidad Estudiaremos a continuación algunas distribuciones de probabilidad de variables aleatorias importantes. Estas distribuciones son modelos particulares para asignar probabilidades a subconjuntos de números reales. Empezaremos con las distribuciones de tipo discreto y continuaremos después con las de tipo continuo. Es importante señalar que ésta es sólamente una lista parcial de algunas distribuciones de probabilidad de mayor uso. 7.1. Distribuciones discretas de probabilidad 7.1.1. Distribución Bernoulli Un ensayo Bernoulli se define como aquel experimento aleatorio con únicamente dos posibles resultados, llamados genéricamente “éxito” y “fracaso”, con probabilidades respectivas P(Éxito) = p y P(Fracaso) = 1 − p. Construcción de una distribución de Bernoulli Sea un experimento aleatorio que arroja únicamente dos posibles resultados, denominados éxito y fracaso. Si se define la variable aleatoria X como aquella función que lleva el resultado éxito al número 1 y el resultado fracaso al número 0, entonces decimos que X tiene una distribución Bernoulli con parámetro p ∈ (0, 1), y escribimos X ∼ Ber(p). La función de probabilidad es ½ x p (1 − p)1−x si x = 0, 1 f (x) = 0 para otro caso Proposición 7.1.1 Sea X ∼ Ber(p), entonces tenemos que a) E(X) = p b) Var(X) = p(1 − p) c) MX (t) = 1 − p + pet Demostración a) A partir de la definición de esperanza se tiene que E(X) = ∑ x f (x) = 0 · (1 − p) + 1 · p = p x 91 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 92 b) Según la definición de varianza, Var(X) = ∑[x − E(X)]2 f (x), entonces tenemos que x Var(X) = (0 − p)2 (1 − p) + (1 − p)2 p = p2 (1 − p) + p(1 − p)2 = p(1 − p) c) Recordando que la función generadora de momentos se define como MX (t) = E(etX ), entonces MX (t) = ∑ etx f (x) = e0 (1 − p) + et p = 1 − p + pet x Ejemplo 7.1.1 Considere el experimento aleatorio de lanzar una moneda al aire. Calcula la esperanza, la varianza y la función generadora de momentos. Suponga que ω1 = cara y ω2 = cruz son los dos resultados posibles, con probabilidades 1 1 p = y 1 − p = , respectivamente. Sea X la variable aleatoria dada por X(ω1 ) = 1, y 2 2 ³1´ X(ω2 ) = 0. Entonces X tiene distribución Ber , por lo tanto 2 E(X) = p = 1 2 1 1 1 Var(X) = p(1 − p) = (1 − ) = 2 2 4 1 1 1 MX (t) = 1 − + et = (1 + et ) 2 2 2 7.1.2. Distribución binomial La distribución binomial fue desarrollada por suizo Jakob Bernoulli (1654-1705), es la principal distribución de probabilidad discreta. La variable aleatoria binomial y su distribución están basadas en un experimento que satisface las condiciones citadas a continuación. Construcción de la distribución binomial Suponga que se realizan n ensayos idénticos independientes de Bernoulli en donde la probabilidad de éxito y de fracaso en cada uno de ellos es la misma, siendo la probabilidad de éxito igual a p y la del fracaso igual a 1 − p, con p ∈ (0, 1). El espacio muestral de este experimento consiste de todas las posibles sucesiones de longitud n de éxitos y de fracasos, esto es Ω = {(EEE . . . E), (FEE . . . E), (FFE . . . E), . . . , (FFF . . . FE), (FFF . . . F)} Usando el principio multiplicativo, es fácil ver que este conjunto tiene 2n elementos. Si ahora se define la variable aleatoria X como el número de éxitos en cada una de estas sucesiones, esto es X(EEE . . . E) = n, X(FEE . . . E) = n − 1, . . . , X(FFF . . . EF) = 1, X(FFF . . . F) = 0 entonces X toma los valores 0, 1, . . . , n, y se dice que X tiene una distribución binomial con parámetros n y p. Se escribe X ∼ bin(n, p), y su función de probabilidad es 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD     f (x) = 93 n! px (n − p)1−x si x = 0, 1, . . . , n x!(n − x)!    0 para otro caso Proposición 7.1.2 Sea X ∼ bin(n, p), entonces tenemos que a) E(X) = np b) Var(X) = n(1 − p) c) MX (t) = (1 − p + pet )n Demostración a) Como la variable aleatoria X constituye el número de éxitos obtenidos en cada uno de los posibles resultados en el experimento (posibles sucesiones de Ω). Entonces n X= ∑ X j , donde X j ∼ Ber(p), ∀ j = {1, 2, . . . , n}, por lo que la esperanza, varian- j=1 za y función generadora de momentos de cada X j son E(X j ) = p, Var(X j ) = p(1 − p) y MX j (t) = pet + p − 1 respectivamente. Aplicando la propiedad de linealidad de la esperanza se tiene ³ E(X) = E ´ X ∑ j = n j=1 n ∑ E(X j ) = j=1 n ∑ p = np j=1 b) Tomando en cuenta la propiedad de varianza que establece que si tenemos n variables aleatorias independientes, todas con varianzas finitas, entonces la varianza de las suma de las n v.a. es idéntica a la suma de las varianzas de las variables, por lo tanto la varianza de X es: n Var(X) = Var( ∑ X j ) = j=1 n ∑ Var(X j ) = j=1 n ∑ p(1 − p) = np(1 − p) j=1 c) Una de las propiedades de la función generadora de momentos establece que si tenemos n variables aleatorias independientes, entonces la función generadora de momentos de la suma de las n v.a. es idéntico al producto de la función generadora de momentos de las variables, entonces MX (t) = M³ n ∑ Xj n n j=1 j=1 ´(t) = ∏ MX j (t) = ∏ (pet + p − 1) = (pet + p − 1)n j=1 Ejemplo 7.1.2 El experimento consiste en lanzar cuatro veces al aire una moneda. Nuestro interés es el número de caras obtenidas en los cuatro lanzamientos. Como es evidente, la probabilidad de obtener un éxito ( cara ), en una de las pruebas ( lanzamiento ) es 0,50 y la de obtener un fracaso es también 0,50. a) ¿Cuál es la probabilidad de no obtener caras en los cuatro lanzamientos? 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 94 b) ¿Cuál es la probabilidad de obtener dos caras en los cuatro lanzamientos? c) Haga una distribución de probabilidad binomial d) Calcular la media, la desviación estándar y la función generadora de momentos de esta distribución binomial Esta distribución binomial tiene por función de probabilidad a la siguiente función  ³ 1 ´x ³ 1 ´4−x 4!   si x = 0, 1, 2, 3, 4  x!(4 − x)! 2 2 f (x) =    0 para otro caso     =    ³ 1 ´4 4! si x = 0, 1, 2, 3, 4 x!(4 − x)! 2 0 para otro caso a) La probabilidad de no obtener caras en los cuatro lanzamientos es P(X = 0), esto es, P(X = 0) = ³ 1 ´4 4! 1 = 0!(4 − 0)! 2 16 b) La probabilidad de obtener dos caras en los cuatro lanzamientos es P(X = 2), esto es, ³ 1 ´4 4! 6 3 P(X = 2) = = = 2!(4 − 2)! 2 16 8 c) La distribución de probabilidad está dada por la siguiente tabla x p(x) 0 1/16 1 4/16 2 3/8 3 1/4 4 1/16 c) Teniendo en cuenta la proposición 7.1.1 tenemos que la esperanza, la varianza y la función generadora de momentos son respectivamente E(X) = 4 · 1 =2 2 1 1 Var(X) = 4 · · = 1 2 2 ³ 1 1 ´4 1 MX (t) = 1 − + et = (et + 1)4 2 2 16 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 7.1.3. 95 Distribución Poisson Esta distribución fue descubierta por Simeón Denis Poisson (1781-1840) en 1837 como límite de la distribución binomial. En 1838 en su trabajo Recherches sur la probabilité des jugements en matières criminelles et matière civile (“Investigación sobre la probabilidad de los juicios en materias criminales y civiles”). El trabajo estaba enfocado en ciertas variables aleatorias N que cuentan, entre otras cosas, un número de ocurrencias discretas (muchas veces llamadas “arribos”) que tienen lugar durante un intervalo de tiempo de duración determinada. La distribución de Poisson tiene conexión con los procesos de Poisson. Se aplica a varios fenómenos discretos de la naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3, . . . veces durante un periodo definido de tiempo o en una área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el espacio. Ejemplos de eventos que pueden ser modelados por la distribución de Poisson a) El número de autos que pasan a través de un cierto punto en una ruta (suficientemente distantes de los semáforos) durante un periodo definido de tiempo. b) El número de errores de ortografía que uno comete al escribir una única página. c) El número de llamadas telefónicas en una central telefónica por minuto. d) El número de servidores web accedidos por minuto. e) El número de animales muertos encontrados por unidad de longitud de ruta. f) El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación. g) El número de núcleos atómicos inestables que decayeron en un determinado periodo de tiempo en una porción de sustancia radiactiva. h) La radiactividad de la sustancia se debilitará con el tiempo, por lo tanto el tiempo total del intervalo usado en el modelo debe ser significativamente menor que la vida media de la sustancia. i) El número de estrellas en un determinado volumen de espacio. j) La distribución de receptores visuales en la retina del ojo humano. k) La inventiva de un inventor a través de su carrera La distribución de Poisson surge cuando estamos interesados en medir el números de sucesos aleatorios que suceden en un intervalo de tiempo fijo. La variable aleatoria se distribuye a lo largo del tiempo o del espacio. Las condiciones para que se trate de una distribución de Poisson son: Los eventos de interés deben ocurrir independientemente unos de otros La probabilidad de que suceda un evento en un intervalo depende de la longitud del intervalo y no de su posición. 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 96 Construcción de una distribución de Poisson Supongamos que deseamos observar el número de ocurrencias de un cierto evento dentro de un intervalo de tiempo dado, por ejemplo, el número de clientes que llegan a un cajero automático durante la noche, o tal vez deseamos registrar el número de accidentes que ocurren en cierta avenida durante todo un día. Para modelar este tipo de situaciones podemos definir la variable aleatoria X como el número de ocurrencia de este evento en el intervalo de tiempo dado. Es claro entonces que X puede tomar los valores 0, 1, 2, . . . , y en principio no ponemos una cota superior para el número de observaciones del evento. Adicionalmente supongamos que conocemos la tasa media de ocurrencia del evento de interés, que denotamos por la letra λ (lambda). El parámetro λ es positivo y se interpreta como el número promedio de ocurrencias del evento, por unidad de tiempo. La probabilidad de que la variable aleatoria X tome un valor entero x ≥ 0 se definirá a continuación. Decimos que X tiene una distribución Poisson con parámetro λ > 0, y escribimos X ∼ Poisson(λ) cuando:   e−λ λx   si x = 0, 1, 2, . . . x! f (x) =    0 para otro caso Figura 7.1: Gráfica de f (x) de la distribución Poisson El eje horizontal es el índice x. La función solamente está definida en valores enteros de x. Las líneas que conectan los puntos son solo guías para el ojo y no indican continuidad. Proposición 7.1.3 Sea X ∼ Poisson(λ), entonces tenemos que a) E(X) = λ b) Var(X) = λ t c) MX (t) = eλ(e −1) 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 97 Demostración a) A partir de la definición de esperanza se tiene que ∞ E(X) = ∑x x=0 ∞ ∞ −λ x−1 e−λ λx e−λ λx e λ =∑ =λ∑ =λ x! x=1 (x − 1)! x=1 (x − 1)! b) Según una de las propiedades de la varianza se tiene, Var(X) = E(X 2 ) − [E(X)]2 , entonces calculemos primero E(X 2 ) E(X 2 ) = ∞ ∑ x2 x=0 ∞ ∞ e−λ λx e−λ λx e−λ λx = ∑x = ∑ (x − 1 + 1) x! (x − 1)! x=1 (x − 1)! x=1 ∞ ∞ ∞ ∞ −λ x−1 e−λ λx e−λ λx e−λ λx e λ = ∑ (x − 1) +∑ =∑ +λ ∑ (x − 1)! x=1 (x − 1)! x=2 (x − 2)! x=1 x=1 (x − 1)! ∞ ∞ −λ x−1 e−λ λx−2 e λ +λ ∑ = λ2 + λ (x − 2)! (x − 1)! x=2 x=1 = λ2 ∑ Entonces: Var(X) = λ2 + λ − λ2 = λ c) Por la definición de función generadora de momentos, se tiene que ∞ MX (t) = ∑ etx x=0 ∞ t t e−λ λx (et λ)x = e−λ ∑ = e−λ · ee λ = eλ(e −1) x! x=0 x! Ejemplo 7.1.3 Una distribución de Poisson está dada por P(X = x) = e−1,8 (1, 8)x x! Hallar a) P(X = 1), P(X ≤ 2) y P(X ≥ 3) b) E(X),Var(X) y MX (t) Desarrollo a) Tomando la función de probabilidad tenemos que P(X = 1) = e−1,8 (1, 8)1 = 1, 8e−1,8 = 0, 2975 1! P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) e−1,8 (1, 8)0 e−1,8 (1, 8)1 e−1,8 (1, 8)2 = + + = 0, 7306 0! 1! 2! P(X ≥ 3) = 1 − P(x < 3) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] = 1 − 0, 7306 = 0, 2694 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 98 b) A partir de la proposición 7.1.3 se tiene que E(X) = Var(X) = λ = 1, 8 y t MX (t) = e1,8(e −1) Relación con la distribución binomial La distribución de Poisson puede ser vista como un caso límite de la distribución binomial, es decir, una distribución binomial en la que n → ∞ y p → 0 se puede aproximar por una distribución de Poisson de parámetro λ = np. Ejemplo 7.1.4 En una central telefónica automática la probabilidad de que una llamada sea conectada erróneamente es 10−3 . a) Para un día donde son conectadas 2000 llamadas independientes, hallar el valor aproximado de la probabilidad que se efectúen 4 conexiones erróneas. b) ¿Cuál es el número mínimo de llamadas independientes que se requieren para asegurar con probabilidad 0,9 que por lo menos una de las llamadas sea conectada erróneamente? Desarrollo a) Sea X la v.a que represente el número de llamadas telefónicas conectadas erróneamente en un día determinado. Entonces la función de probabilidad de X está dada por: e−np (np)x P(X = x) = x! donde p = 10−3 y n = 2000 según las condiciones de este problema. Entonces np = 2 y e−2 (2)4 P(X = 4) = = 0, 09 4! b) Si X es nuevamente el número de llamadas conectadas erróneamente en un día determinado entonces X ∼ Poisson(np). Según la información P(X ≥ 1) ≥ 0, 9 y considerando que P(X ≥ 1) = 1 − P(X < 1) = 1 − P(X = 0) entonces: 1− e−np (np)0 ≥ 0, 9 0! 0, 1 ≥ e−np ln|0, 1| ≥ −np n ≤ 2303 llamadas 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 7.1.4. 99 Distribución geométrica En la teoría de probabilidad y estadística, la distribución geométrica es cualquiera de las dos distribuciones de probabilidad discretas siguientes: La distribución de probabilidad del número X de ensayos de Bernoulli necesaria para obtener un éxito, contenido en el conjunto {1, 2, 3, . . . } o la distribución de probabilidad del número Y = X − 1 de fallos antes del primer éxito, contenido en el conjunto {0, 1, 2, 3, . . . } A cualquiera de éstas dos distribuciones se la denomina distribución geométrica, es una cuestión de convención y conveniencia. Construcción de una distribución geométrica Supongamos que tenemos ahora una sucesión infinita de ensayos independientes Bernoulli, en cada uno de los cuales la probabilidad de éxito es p. Para cada una de estas sucesiones definimos la variable aleatoria X como el número de fracasos antes de obtener el primer éxito. Por ejemplo, X(FEFEFF . . . ) = 1, X(EFFEEE . . . ) = 0, X(FFFEFE . . . ) = 3. Observamos que X puede tomar los valores 0, 1, 2, . . . . La probabilidad de que X tome el valor entero x ≥ 0 es p(1 − p)x . Decimos entonces que X tiene una distribución geométrica con parámetro p, y escribimos X ∼ geo(p) cuando   p(1 − p)x si x = 0, 1, 2, . . . P(X = x) =  0 para otro caso El nombre de esta distribución proviene del hecho de que cuando escribimos la suma de todas las probabilidades, obtenemos una suma geométrica. La inspección sucesiva de artículos hasta encontrar una defectuoso, posiblemente en un proceso de control de calidad, puede modelarse usando una distribución geométrica. Proposición 7.1.4 Si X es la v.a. que muestra el número de fracasos antes del primer éxito esto es; X ∼ geo(p) entonces: a) E(X) = (1 − p) p b) Var(X) = (1 − p) p2 ¯ 1 ¯ p ¯ ¯ , con t < ln¯ c) MX (t) = ¯ t 1 − e (1 − p) 1− p Demostración a) A partir de la definición de esperanza se tiene que E(X) = ∞ ∞ ∞ x=0 x=0 x=0 ∑ xp(1 − p)x = p ∑ x(1 − p)x = p(1 − p) ∑ x(1 − p)x−1 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 100 i d h ∞ d x [(1 − p)x ] = −p(1 − p) (1 − p) ∑ d p x=1 x=1 d p ∞ = −p(1 − p) ∑ = −p(1 − p) ´ d ³1 (−1) 1 − p − 1 = −p(1 − p) 2 = dp p p p b) Según una de las propiedades de la varianza se tiene, Var(X) = E(X 2 ) − [E(X)]2 , entonces calculemos primero E(X 2 ) E(X 2 ) = ∞ ∑x 2 x=0 ∞ ∞ p(1 − p) = p ∑ x (1 − p) = p(1 − p) ∑ x2 (1 − p)x−1 x 2 x x=1 x=1 i d d h ∞ x [x(1 − p)x ] = −p(1 − p) x(1 − p) ∑ d p x=1 x=1 d p ∞ = −p(1 − p) ∑ = −p(1 − p) i d h1 ∞ d h1 − pi x px(1 − p) = −p(1 − p) ∑ d p p x=1 d p p2 h −p2 − (1 − p)2p i ³ p − 2 ´ (1 − p)(2 − p) = −p(1 − p) = −p(1 − p) = p4 p3 p2 Entonces: Var(X) = (1 − p)(2 − p) (1 − p)2 1 − p − = 2 p2 p2 p c) Por la definición de función generadora de momentos, se tiene que ¯ 1 ¯ p ¯ ¯ MX (t) = ∑ e p(1 − p) = p ∑ [e (1 − p)] = con t < ln¯ ¯ t 1 − e (1 − p) 1− p x=0 x=0 ∞ tx x ∞ t x ∞ Observación: Recordar que una serie geométrica es de la forma si su radio r cumple con la condición |r| < 1 1 ∑ rx−1 y converge a 1 − r x=1 Ejemplo 7.1.5 Supongamos que un dado ordinario (equilibrado) es lanzado repetidas veces hasta que aparece el resultado “1” por primera vez. Calcular a) obtener la distribución de probabilidad de la v.a. que se ajuste a este experimento y calcular la probabilidad de obtener el 1 en el cuarto lanzamiento b) la esperanza, la varianza y la función generadora de momentos Desarrollo a) Sea X la v.a que represente el número de lanzamientos necesarios del dado para obtener por primera vez el resultado “1”. Entonces X ∼ geo(P = 16 ), con lo cual  ³ ´x  si x = 0, 1, 2, . . .  16 56 P(X = x) =   0 para otro caso 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD Por lo que P(X = 3) = 101 1³ 5 ´3 125 1− = 6 6 1296 b) Según la proposición 7.1.4 se tiene que E(X) = 1 − 16 1 6 =5 1− 1 V (X) = ³ ´52 = 30 1 6 MX (t) = 7.1.5. 1 1 ³6 ´= 6 − 5et 1 − et 1 − 16 Distribución binomial negativa Si en una sucesión infinita de ensayos de Bernoulli (el resultado en cada experimento es un éxito o fracaso) cada uno con parámetro p ∈ (0, 1); la variable aleatoria X cuenta el número de fracasos antes de obtener el r-ésimo éxito, entonces decimos que X tiene una distribución binomial negativa con parámetros r y p, y escribimos X ∼ bin neg(r, p). Construcción de una distribución binomial negativa Para construir una distribución binomial negativa es necesario conocer el número de pruebas que se repiten, el r-ésimo éxito en el número de pruebas que se repiten y la probabilidad de que suceda un éxito en cada una de las pruebas. Para n = r, r + 1, . . . se define An como el suceso que establece que el número total de pruebas requeridas para obtener exactamente r éxitos es n. Como el suceso An ocurre si y solo si ocurren exactamente r − 1 éxitos en las primeras n − 1 pruebas y el r-ésimo éxito se da en la n-ésimo prueba. Puesto que todas las pruebas son de Bernoulli entonces son todas independientes entre si y áplicando el principio de análisis combinatorio, se obtiene que: µ ¶ n−1 P(An ) = pr−1 (1 − p)(n−1)−(r−1) p r−1 con lo cual µ P(An ) = n−1 r−1 ¶ pr (1 − p)n−r (7.1.1) Si decimos que X es la v.a. que cuenta el número de fracasos antes de obtener el r-ésimo éxito, entonces X puede tomar los valores del conjunto {0, 1, 2, . . . }. Además recordemos que n por definición de An es número de fracasos (x) más número de éxitos (r), esto es n = x + r. Entonces se entiende la v.a. X podría caracterizar numéricamente al suceso An como X(An ) = x, por lo que tendremos; P(An ) = P(Ax+r ) = P(X = x) (7.1.2) 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 102 Tomando en cuenta las ecuaciones 7.1.1 y 7.1.2 se tiene  µ ¶ r+x−1   pr (1 − p)x si x = 0, 1, 2, . . .  x P(X = x) =    0 para otro caso  donde   r+x−1 = x (r + x − 1)! x!(r − 1)! Aparece el término pr pues la sucesión de ensayos Bernoulli no concluye sino hasta obtener r éxitos. Podemos tener un número variable de fracasos, de ahí el término (1 − p)x , y   finalmente el factor  r+x−1  que nos dice las diferentes formas en que los r éxitos pueden x aparecer en los r + x − 1 ensayos realizados antes del último que necesariamente fue un éxito. Es claro que esta distribución es una generalización de la distribución geométrica, la cual se obtiene tomando r = 1. Proposición 7.1.5 Si X es la v.a. que muestra el número de fracasos antes del r éxito esto es; X ∼ bin neg(r, p) entonces: a) E(X) = r(1 − p) p b) Var(X) = r(1 − p) p2 ¯ 1 ¯ ir p ¯ ¯ c) MX (t) = , con t < ln¯ ¯ t 1 − e (1 − p) 1− p h Demostración Si X es la v.a que cuenta el número de fracasos antes del r-ésimo éxito en sucesión r de pruebas de Bernoulli; entonces X = ∑ Xi, donde todas las v.a. Xi son independientes i=1 1− p 1− p entre si y cada Xi ∼ geo(p), ∀ i = 1, 2, . . . , r; con lo cual E(Xi ) = ,Var(Xi ) = p p2 p . Esto resulta del hecho de que para cada éxito se tubo que haber y MXi (t) = 1 − et (1 − p) tenido un cierto número de fracasos, que es la característica de la distribución geométrica. Entonces a) la esperanza de X es ³ E(X) = E ´ r r 1 − p r(1 − p) = X E(X ) = ∑ i ∑ i ∑ p = p i=1 i=1 i=1 r b) la varianza de X es ³ Var(X) = Var r ∑ Xi i=1 ´ r r 1 − p r(1 − p) = 2 p2 i=1 p = ∑ Var(Xi ) = ∑ i=1 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 103 c) y la función generadora de momentos de X es h ir p p = t 1 − et (1 − p) i=1 1 − e (1 − p) r MX (t) = M³ r ∑ Xi r ´(t) = ∏ MXi (t) = ∏ i=1 i=1 Ejemplo 7.1.6 Se lanza repetidas veces una moneda honesta, cuyos dos resultados son cara y cruz. a) ¿Cuál es la probabilidad de obtener la tercera cruz en el quinto lanzamiento? b) Obtener la esperanza, varianza y la función generadora de momentos para esta distribución Desarrollo a) Sea X la v.a. que represente el número de caras (fracasos) necesarias astes de obtener por tercera vez cruz. Entonces X ∼ bin neg(3, 21 ), con lo cual  µ ¶³ ´ ³ ´ 2+x 3 x  1 1  si x = 0, 1, 2, . . .  2 2 x P(X = x) =    0 para otro caso Por lo que µ P(X = 2) = 2+2 ¶³ ´ ³ ´ 1 3 1 2 2 2 2 =6 ³ 1 ´5 2 = 6 = 0, 1875 32 b) Según la proposición 7.1.5 se tiene que E(X) = ³ ´ 1 3 1− 2 1 2 =3 ³ ´ 1 3 1− 2 V (X) = ³ ´2 = 6 1 2 MX (t) = 7.1.6. 1 1 ´= ³2 2 − et 1 − et 1 − 12 Distribución hipergeométrica Como la mayoría de los muestreos se hacen sin remplazamiento. Así, si la población es pequeña la probabilidad de obtener el artículo del tipo requerido cambia en cada observación. En estadística la distribución hipergeométrica es una distribución de probabilidad discreta con tres parámetros discretos N, r y n. Además es apropiada para muestreos sin reemplazamiento de poblaciones pequeñas. Esta distribución se refiere a un espacio muestral donde hay elementos que tienen dos tipos de características posibles. Indica la probabilidad de obtener un número de objetos x de uno de estos tipos, al sacar una muestra de tamaño n, de un total de N objetos, de los cuales k son del tipo requerido. 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 104 Construcción de una distribución hipergeométrica Supongamos que tenemos un conjunto de N objetos de los cuales k son de una primera clase y N − k son de una segunda clase. Supongamos que de este conjunto tomamos una muestra aleatoria de tamaño n (n ≤ N), la muestra es sin reemplazo y el orden de los objetos seleccionados no importa. El espacio muestral de este experimento consiste de todas las posibles muestras de tamaño n que seµpueden ¶ obtener del conjunto mayor de tamaño N. La cardinalidad del espacio muestral es N n . Si para cada muestra definimos la variable aleatoria X como el número de objetos de la primera clase contenidos en la muestra seleccionada, entonces X puede tomar los valores 0, 1, 2, . . . , n; suponiendo n ≤ k. La probabilidad de que X tome un valor x estará dada por la fórmula que enunciamos a continuación. Decimos que X tiene una distribución hipergeométrica con parámetros N, k y n, y escribimos X ∼ hipergeo(N, k, n) si  Ã !Ã ! k N −k     x n−x   Ã ! si x = 0, 1, 2, . . . , n  N P(X = x) =  n       0 para otro caso µ ¶ k El término nos dice las diferentes formas en que de los k objetos de la primera clase x µ ¶ N −k se pueden escoger x de ellos, y el término es nuevamente las diferentes formas de n−x escoger n−x objetos de la totalidad de N −k objetos de la segunda clase. Usamos el principio multiplicativo para obtener el número total de muestras diferentes en donde x objetos son de la primera clase y n − x objetos son de la segunda clase. Proposición 7.1.6 Dada una población finita de tamaño N con dos clases posibles de objetos. Si X es la v.a. que muestra el número de objetos de la primera clase contenidos en una muestra de tamaño n seleccionada de dicha población entonces X ∼ hipergeo(N, k, n) y presenta las siguientes caracteristicas: a) E(X) = nk N b) Var(X) = k ´³ N − n ´ nk ³ 1− N N N −1 Demostración Como primer paso seleccionemos n objetos de la población de tamaño N que contiene n k objetos de una primera clase y N − k objetos de la segunda clase. Definamos a X = ∑ Xi i=1 como la v.a aleatoria que cuenta el número de objetos de la primera clase en la muestra seleccionada; en donde cada Xi , ∀ i = 1, 2, . . . , n es una v.a que presenta las siguientes características: Xi = 1 si se selecciona un objeto de la primera clase en la i-ésima extracción 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 105 Xi = 0 si se selecciona un objeto de la segunda clase en la i-ésima extracción Debido a la aleatoriedad, la probabilidad de que la i-ésima bola extraida sea de la primera k clase es simplemente . Por lo tanto: N k N −k P(Xi = 1) = y P(Xi = 0) = N N E(Xi ) = P(Xi = 1) = k N Var(Xi ) = E(Xi2 ) − [E(Xi )]2 = k ³ k ´2 k ³ k´ − = 1− N N N N Entonces tenemos que: a) la esperanza de X es ³ E(X) = E ´ n n k nk X = E(X ) = i i ∑ ∑N = N ∑ i=1 i=1 i=1 n b) la varianza de X es ³ ´ X ∑ i = E(X 2) − E(X) n Var(X) = Var i=1 calculemos entonces: ¶ µ ¶µ ¶ µ ¶µ k N −k k−1 N −k 2 x n x nk n x n−x x−1 n−x 2 µ ¶ µ ¶ E(X ) = ∑ = ∑ N N − 1 N x=1 x=0 n n = nk ∑ N x=1 µ (x − 1 + 1) µ ¶µ k−1 x−1 N −1 µ nk (k − 1)(n − 1) n = ∑ N N −1 x=2 " = k−2 ¶µ x−2 µ # n−1 n−x ¶ n−1 " N −k ¶ N −k n−x N −2 ¶ ¶ µ n +∑ x−1 µ x=1 n−2 " ¶µ k−1 nk (k − 1)(n − 1) nk (k − 1)(n − 1) + N − 1 +1 = N N −1 N N −1 N −k ¶ # n−x N −1 ¶ n−1 # Por lo tanto " # " # ³ nk ´2 nk N 2 − (k + n)N + nk nk (k − 1)(n − 1) + N − 1 Var(X) = = − N N −1 N N N(N − 1) = nk ³ N − k ´³ N − n ´ N N N 7.1. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 106 Ejemplo 7.1.7 Supóngase que una urna contiene cinco bolas rojas y diez azules. Si se seleccionan bolas de la urna sin reemplazamiento; sea X la v.a que cuenta el número de bolas rojas extraidas. Si se extraen al azar sin reemplazamiento siete bolas a) ¿Cuál es la probabilidad de seleccionar exactamente cuatro bolas rojas? b) ¿Cuál es la probabilidad de seleccionar almenos tres bolas rojas? c) Calcular la esperanza y la varianza de esta distribución Desarrollo Como X es la v.a que cuenta el número de bolas rojas extraidas en un muestreo sin reemplazmiento; se tiene que X ∼ hipergeo(15, 5, 7). Por lo tanto  Ã !Ã ! 5 10     x 7−x   Ã ! si x = 0, 1, 2, 3, 4, 5  15 P(X = x) =  7       0 para otro caso a) Para contestar la pregunta de este item basta calcular P(X = 4), esto es; µ ¶µ ¶ 5 10 4 µ P(X = 4) = 3 15 ¶ 5 · 120 40 = 6435 429 = 7 b) Para contestar esta parte debemos calcular P(X ≥ 3); que equivale a decir, P(X ≥ 3) = P(X = 3) + P(X = 4) + P(X = 5) Por lo tanto µ P(X ≥ 3) = 5 ¶µ 3 µ 10 4 15 ¶ µ ¶ + 7 5 ¶µ 4 µ 10 3 15 µ ¶ ¶ + 7 5 ¶µ 5 µ 10 ¶ 2 15 ¶ = 7 c) Según la proposición 7.1.6 se tiene que 7·5 7 = 15 3 ³ 7 · 5 ´³ 15 − 5 ´³ 15 − 7 ´ E(X) = V (X) = 15 15 15 − 1 = 8 9 140 40 1 61 + + = 429 429 143 143 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 7.2. Distribuciones continuas de probabilidad 7.2.1. Distribución uniforme continua 107 Las distribuciones uniformes corresponden al experimento de elegir puntos al azar entre dos puntos fijos a y b. Como la probabilidad de elegir cualquier punto es la misma, la función de densidad tendrá la misma altura en todos los puntos entre a y b, es decir se trata de una 1 función constante desde a y b, de altura . b−a Definición 7.2.1 Decimos que una variable aleatoria X tiene una distribución uniforme continua en el intervalo (a, b), y escribimos X ∼ uni f (a, b) cuando su función de densidad es  1  si a < x < b  b−a f (x) =   0 en otro caso La gráfica general de esta función se muestra en la Figura 7.1, y es evidente que se trata de una función de densidad pues es no negativa e integra uno. Los parámetros de esta distribución son los números a y b. Figura 7.2: Gráfica de f (x) de la distribución exponencial Proposición 7.2.1 Sea X la v.a. continua con distribución uniforme en el intervalo (a, b), entonces X tiene las siguientes características a) E(X) = a+b 2 b) Var(X) = c) MX (t) = (b − a)2 12 ebt − eat (b − a)t 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD        d) F(x) = 0 108 si x > a x b−a       1 si a ≤ x < b si x ≥ b Demostración Como X es una v.a. continua con distribución uniforme en el intervalo (a, b) entonces su función de densidad de probabilidad es  1  si a < x < b  b−a f (x) =   0 en otro caso con lo cual a) por definición de esperanza para v.a. continua E(X) = Z ∞ −∞ x f (x)dx = Z b a x ¯b 1 1 a+b 1 ¯ dx = x2 ¯ = (b2 − a2 ) = b−a 2(b − a) a 2(b − a) 2 b) por definición de varianza para v.a continua Z ∞³ ³ a + b ´2 1 a + b ´3 ¯¯b 1 x− x− Var(X) = dx = ¯ 2 b−a 3(b − a) 2 a −∞ h³ h³ b − a ´3 ³ a − b ´3 i a + b ´3 ³ 1 1 a + b ´3 i b− = = − a− − 3(b − a) 2 2 3(b − a) 2 2 = 1 (b − a)2 (b − a)2 = 3 4 12 c) por defincición de función generadora de momentos MX (t) = Z ∞ −∞ etx 1 1 dx = b−a b−a Z b a etx dx = ¯b ebt − eat 1 ¯ etx ¯ = t(b − a) a (b − a)t d) por definición de función de distribución   0 si x < a 0            x  Z x 1 F(x) = P(X ≤ x) = du si a ≤ x < b = b−a   0 b−a           1 1 si x > b si x < a si a ≤ x < b si x ≥ b Ejemplo 7.2.1 Supongase que tenemos una cuerda de 2m de longitud que queremos cortar por un punto al azar a una cierta distancia de uno de los extremos. Sea X la v.a. que represente el punto elegido; entonces 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 109 Figura 7.3: Gráfica de F(x) de la distribución exponencial a) Expresar y gráficar la función de densidad? b) Calcular P(X ≤ 0, 7), P(X ≥ 1) y P(0, 5 ≤ X ≤ 1, 25) c) Obtener E(X),Var(X) y MX (t), además a partir de la función de densidad obtener y graficar la función de distribución Desarrollo Como X es la v.a que represente el punto elegido entre 0 y 2; entonces X ∼ uni f (0, 2) a) Como el área debe ser 1, la altura del rectángulo será 12 , entonces la función de densidad es:  1   si 0 < x < 2 2 f (x) =   0 en otro caso Figura 7.4: Gráfica de f (x) del ejemplo 7.2.1 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 110 b) Calculemos ahora P(X ≤ 0, 7), P(X ≥ 1) y P(0, 5 ≤ X ≤ 1, 25) P(X ≤ 0, 7) = Z 0,7 1 0 1 ¯¯0,7 1 dx = x¯ = (0, 7 − 0) = 0, 35 2 2 0 2 Z 2 1 1 ¯¯2 1 1 dx = x¯ = (2 − 1) = 2 1 2 2 1 2 Z 1,25 ¯ 1 1 ¯1,25 1 P(0, 5 ≤ X ≤ 1, 25) = dx = x¯ = (1, 25 − 0, 5) = 0, 375 2 0,5 2 0,5 2 P(X ≥ 1) = c) Por la proposición 7.2.1 E(X) = 0+2 =1 2  0       x F(x) = 2       1 Var(X) = (2 − 0)2 1 = 12 3 MX (t) = e2t − e0t e2t − 1 = (2 − 0)t 2t si x < 0 si 0 ≤ x < 2 si x ≥ 2 Figura 7.5: Gráfica de F(x) del ejemplo 7.2.1 7.2.2. Distribución Normal La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la “campana de Gauss”. La distribución de una variable normal está completamente determinada por dos parámetros, su media símbolizada por µ y su desviación estándar simbolizada por σ. La distribución continua de probabilidad más importante de toda la estadística es la distribución de probabilidad normal. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 111 Definición 7.2.2 Decimos que una v.a. X tiene distribución de probabilidad normal si su función de densidad de probabilidad está definida por la siguiente ecuación: f (x) = √ 1 2πσ2 1 x−µ 2 σ ) e− 2 ( , para −∞ < x < ∞ en donde µ ∈ R y σ > 0 son los parámetros. Escribimos entonces X ∼ N(µ, σ2 ). La gráfica de esta función de densidad tiene forma de campana como se puede apreciar en la Figura 7.6, en donde se muestra además el significado geométrico de los dos parámetros. Figura 7.6: Representación gráfica de f (x) para ciertos valores de µ y σ2 de una variable aleatoria normal. No es inmediato pero es posible demostrar que E(X) = µ, y ello significa que la campana esta centrada en este valor, el cual puede ser negativo, positivo o cero. También puede demostrarse que Var(X) = σ2 , y que la distancia del punto µ a cualquiera de los dos puntos en donde la función tiene puntos de inflexión es σ, por lo tanto la campana se abre o se cierra de acuerdo a la magnitud de este parámetro. El papel que desempeñan µ y σ puede apreciarse en la gráfica 7.7. Características de la distribución de probabilidad normal La distribución de probabilidad normal con su curva tiene las siguientes características: 1. La curva normal tiene forma de campana. La media, la moda y la mediana de la distribución son iguales y se localizan en el centro de la distribución. 2. La distribución de probabilidad normal es simétrica alrededor de su media. Por o tanto, la mitad del área bajo la curva está antes del punto central y la otra mitad después. El área total bajo la curva es igual a 1. 3. La curva normal se aproxima de manera asintótica al eje horizontal conforme se aleja de la media en cualquier dirección. Esto significa que la curva se acerca al eje horizontal conforme se aleja de la media, pero nunca lo llega a tocar. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 112 Figura 7.7: Representación gráfica de f (x) de una variable aleatoria normal La familia de la distribución de probabilidad normal La forma de la campana de Gauss depende de los parámetros µ y σ. La media µ indica la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar σ determina el grado de apuntalamiento de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por lo tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. Como se deduce, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de sus medias y sus varianzas. Si las curvas tienen iguales sus medias pero diferentes varianzas entonces las curvas estarán centradas en la misma posición y tendrán diferentes formas; tal como lo muestra la Figura 7.8. Figura 7.8: Curvas normales que tienen medias iguales y desviaciones estándar diferentes Si las curvas tienen desviaciones estándar iguales y medias diferentes, las curvas serán idénticas pero centradas en diferentes posiciones sobre el eje horizontal, así como lo muestra la Figura 7.9. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 113 Figura 7.9: Curvas normales que tienen medias diferentes y desviaciones estándar iguales Si las curvas tienen medias diferentes y también sus desviaciones estándar son diferentes entonces aparte de estar centradas en diferentes lugares del eje x, tendrá formas diferentes; así como lo muestra la Figura 7.10. Figura 7.10: Curvas normales que tienen medias diferentes y desviaciones estándar diferentes La distribución normal estándar En particular, decimos que la variable aleatoria X tiene una distribución normal estàndar si tiene una distribución normal con parámetros E(X) = µ = 0 y Var(X) = σ2 = 1. En este caso la función de densidad se reduce a la siguiente expresión x2 1 f (x) = √ e− 2 2π Para facilitar los cálculos se decidió tabular las diferentes probabilidades para variable aleatoria que sigue una distribución normal. Pero, puesto que sería imposible tener una tabla para cada posible distribución normal, se elaboró solamente una, la tabla de la distribución normal estándar. De esta manera solo se tiene que transformar o estandarizar una distribución normal específica, se revisa la tabla, y se conoce la probabilidad. Para la estandarización se debe realizar la siguiente operación. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 114 Proposición 7.2.2 Sea X una variable aleatoria con distribución normal con parámetros µ y σ2 . Entonces la siguiente variable aleatoria tiene una distribución normal estándar Z= X −µ σ (7.2.3) Demostración Para probar que Z sigue una distribución normal estandar debemos mostrar que E(Z) = 0 y Var(Z) = 1. Recordemos además que si X ∼ N(µ, σ2 ) entonces E(X) = µ y Var(X) = σ2 . Para realizar la demostración de esta proposición recordemos además las propiedades de la esperanza y la varianza de una v.a. Por lo tanto ³X − µ´ 1 1 1 E(Z) = E = E(X − µ) = [E(X) − µ] = [µ − µ] = 0 σ σ σ σ ³x − µ´ 1 1 1 Var(Z) = Var = 2 Var(X − µ) = 2 Var(X) = 2 σ2 = 1 σ σ σ σ A la operación anterior se le conoce con el nombre de estandarización, y bajo tal transformación se dice que la variable X ha sido estandarizada. Es común usar la letra Z para denotar una variable aleatoria con distribución normal estándar, y seguiremos nosotros también esa costumbre. La proposición anterior parece muy modesta pero tiene una gran importancia operacional pues establece que el cálculo de las probabilidades de una variable aleatoria normal cualquiera se reduce al cálculo de las probabilidades para la normal estándar. Explicaremos esta situación con más detalles. Suponga que X es una variable aleatoria con distribución N(µ, σ2 ), y que deseamos calcular, por ejemplo, P(a < X < b), para a < b números dados. Tenemos entonces que ³a − µ X − µ b − µ´ P(a < X < b) = P(a − µ < X − µ < b − µ) = P < < σ σ σ por lotanto b − µ´ σ σ La igualdad de estas probabilidades es consecuencia de la igualdad de los eventos. De esta forma una probabilidad que involucra a la variable X se ha reducido a una probabilidad que involucra a una variable Z. P(a < X < b) = P ³a − µ <Z< Áreas bajo la curva normal Una característica que tiene cualquier distribución normal es que el área bajo la curva, que representa la probabilidad de que la variable aleatoria tome ciertos valores X ≤ x, se distribuye siempre en la misma proporción. En la tabla de la distribución normal estándar, están registradas las áreas bajo la curva normal que se encuentran a la derecha de los valores Z positivos, de esta forma solo se necesita transformar la distribución normal de interés en una distribución normal estándar mediante la fórmula, y el área a la derecha del valor z será el mismo que el área a la derecha de x, esto es P(X ≤ x) = P(Z ≤ z). 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 115 Ejemplo 7.2.2 Los coeficientes intelectuales de 600 aspirantes de cierta universidad se distribuyen aproximadamente de forma normal con una media de 115 y una desviación estándar de 12. Si se selecciona un aspirante al azar, encuentre la probabilidad de que: a) tenga un coeficiente mayor de 120 b) tenga un coeficiente menor de 100 c) tenga un coeficiente menor de 122 d) tenga un coeficiente entre 115 y 125 e) tenga un coeficiente entre 90 y 105 Desarrollo Según las condiciones del problema la v.a. X representa el coeficiente intelectual del estudiante elegido y además X ∼ N(115, 144). Para calcular las probabilidades de los distintos itens debemos transformar esta distribución normal en una distribución normal estándar (con media cero y desviación estándar 1), x − 115 para lo cual hay que cambiar el valor de x por un valor z con la fórmula z = . Entonces 12 la probabilidad de que: ³ 120 − 115 ´ = P(Z > 0, 41) 12 La distribución ya transformada se observa en el siguiente gráfico: a) tenga un coeficiente mayor de 120 es: P(X > 120) = P Z > Se busca el valor del área para 0 ≤ Z ≤ 0, 41 en la tabla de áreas bajo la curva normal estandar; que corresponde al valor 0,1591. Como el área a la derecha del valor z = 0, 41 es el que corresponde a la probabilidad pedida, entonces la probabilidad de que un aspirante a la universidad tenga un coeficiente intelectual mayor de 120 es: P(X > 120) = P(Z > 0, 41) = 0, 5 − 0, 1591 = 0, 3409 b) tenga un coeficiente menor de 100 es: ³ 100 − 115 ´ = P(Z < −1, 25) P(X < 100) = Z < 12 La distribución ya transformada queda así: 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 116 En la tabla de áreas bajo la curva normal estandar no se tabularon valores z negativos, pero como la curva normal es simétrica, el área entre cero y el valor z = −1, 25 símbolizado por A(−1, 25); es del mismo tamaño que el área entre cero y el valor z = 1, 25 dada por A(1, 25), por lo que solo se necesita buscar en la tabla el área correspondiente al valor positivo de z. Como el área que se busca esta a la izquierda de z = −1, 25, se tiene que: P(X < 100) = P(Z < −1, 25) = 0, 5 − A(1, 25) = 0, 5 − 0, 3944 = 0, 1056 c) tenga un coeficiente menor de 122 es: ³ 122 − 115 ´ P(X < 122) = Z < = P(Z < 0, 58) 12 La distribución ya transformada queda así: Se busca el valor del área para 0 ≤ Z ≤ 0, 58 en la tabla de áreas bajo la curva normal estandar, que es el valor 0,2190. Y como el área a la izquierda del valor z = 0, 58 es el área que buscamos, entonces el resultado a buscar es: P(X < 122) = P(Z < 0, 58) = 0, 5 + 0, 2190 = 0, 7190 d) tenga un coeficiente entre de 115 y 125 es: P(115 < X < 125) = ³ 115 − 115 12 <Z< 125 − 115 ´ = P(0 < Z < 0, 83) 12 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 117 Se busca el valor del área para 0 ≤ Z ≤ 0, 83 en la tabla de áreas bajo la curva normal estandar, que es el valor 0,2967. Y como el área a buscar es el área entre z = 0 y z = 0, 83, entonces el resultado a buscar es: P(115 < X < 125) = P(0 < Z < 0, 83) = 0, 2967 e) tenga un coeficiente entre de 90 y 105 es: ³ 90 − 115 105 − 115 ´ <Z< = P(−2, 08 < Z < −0, 83) P(90 < X < 105) = 12 12 Se busca el valor del área para −2, 08 ≤ Z ≤ −0, 83 en la tabla de áreas bajo la curva normal estandar, que es el valor 0,2967. Y como el área a buscar es el área entre z = 0 y z = 0, 83, entonces el resultado a buscar es: P(115 < X < 125) = P(0 < Z < 0, 83) = 0, 2967 7.2.3. Aproximación normal a la binomial. Cuando las muestras son pequeñas, en una distribución binomial se obtienen fácilmente probabilidades asociadas a un evento mediante la fórmula de la binomial. Cuando las muestras son grandes, el cálculo nos llevaría bastante tiempo. La distribución normal es a menudo una buena aproximación a una distribución binomial cuando np y nq son más grandes que 5. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 118 Ejemplo 7.2.3 La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es 0,4. Si se sabe que 100 personas contrajeron esa enfermedad, a) ¿Cuál es la probabilidad de que menos de 30 sobrevivan? b) ¿Cuál es la probabilidad de que exactamente 35 sobrevivan? c) ¿Cuál es la probabilidad de que a lo más 30 sobrevivan? Desarrollo El primer paso es verificar si el experimento cumple con los requisitos de una distribución binomial, y si es el caso calcular la media y la desviación estándar de la distribución. Como cada paciente puede recuperarse o no de la enfermedad y además esta situación se da de manera independiente entre dichos pacientes, entonces este experimento cumple con las condiciones de la distribución binomial. Si X es la variable aleatoria que denota el número de pacientes que sobreviven a la enfermedad (se recuperan), entonces X ∼ bin(n = 100; P = 0, 4). Entonces la media y la varianza de X estan dadas por: E(X) = µ p = np = (100)(0, 4) = 40 p p p √ Var(X) = σ p = np(1 − p) = (100)(0, 4)(0, 6) = 24 = 4, 899 a) P(X < 30) Para resolver el problema con la fórmula de la distribución binomial se tendría que calcular 30 binomiales, desde la binomial de cero hasta la binomial de 29. Mediante el uso de la aproximación normal a la binomial el procedimiento es mucho más corto. El primer paso es aplicar al valor de x el factor de corrección de continuidad, que es simplemente sumar o restar 0, 5 al valor de x, dependiendo del problema. En este caso queremos la probabilidad de que x valga menos de 30, no incluye al 30, entonces se le resta 0, 5. En seguida se aplica la fórmula de Z, utilizando el valor de x = 29, 5, y en seguida buscar el área en la tabla normal: ³ 29, 5 − 40 ´ = P(Z < −2, 14) P(X < 30) = P Z < 4, 899 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 119 Recordemos que en la tabla de áreas bajo la curva normal no se tabulan valores negativos de z y que la distribución normal es simétrica; estos A(z) = A(−z). Se busca el valor del área para 0 ≤ Z ≤ 2, 14 en la dicha tabla, que corresponde al valor 0,48382. Y como el área a la izquierda del valor z = −2, 14 es el área que buscamos, entonces el resultado a buscar es: P(X < 30) = P(Z < −2, 14) = 0, 5 − 0, 48382 = 0, 01618 b) P(X = 35) En este caso se pide una probabilidad cuando la variable aleatoria X toma un valor exacto. En una distribución continua la probabilidad de que la variable aleatoria sea exactamente un determinado valor no se puede calcular y se estima que es cero, mientras que en una distribución discreta aproximada a una distribución normal (continua) la probabilidad de X sea igual a un valor puntual se calcula sumando y restando el factor de corrección de continuidad a dicho valor puntual y estimar el área entre ambos puntos. Por lo tanto ³ 34, 5 − 40 35, 5 − 40 ´ P(X = 35) = P ≤Z≤ = P(−1,12 ≤ Z ≤ −0, 92) 4, 899 4, 899 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 120 Se buscan en tabla, los valores de las áreas para 0 ≤ z ≤ 0, 92 y 0 ≤ z ≤ 1, 12. Se encuentra que A(−1, 12) = A(1, 12) = 0, 3686 y A(−0, 92) = A(0, 92) = 0, 3212. Como el área buscada se encuentra entre z = −1, 12 y z = −0, 92 que es exactamente igual al área comprendida entre z = 0, 92 y z = 1, 12 por la simetría de la distribución normal; entonces: P(X = 35) = P(−1, 12 ≤ Z ≤ −0, 92) = A(1, 12)−A(0, 92) = 0, 3686−0, 3212 = 0, 0474 Oservación: En este caso, como se pide la probabilidad cuando X es exáctamente igual a 35, lo podemos resolver con la fórmula de la binomial, y el resultado que produce es poco diferente: 0,04913. c) P(X ≤ 30) Aquí se pide la probabilidad de que X tome valores desde 0 hasta 30 inclusive, como el 30 está incluido el factor de corrección de continuidad se suma. Entonces ³ 30, 5 − 40 ´ P(x ≤ 30) = P Z ≤ = P(Z ≤ −1, 94) 4, 899 Como A(−1, 94) = A(1, 94); se busca el valor del área para 0 ≤ Z ≤ 1, 94 en la tabla, que corresponde al valor 0,4738. Y como el área a la izquierda del valor z = −1, 94 es el área que buscamos, entonces el resultado a buscar es: P(X ≤ 30) = P(Z < −1, 94) = 0, 5 − 0, 4738 = 0, 0262 7.2.4. Distribución ji-cuadrada Si X1 , X2 , . . . , Xk son variables aleatorias normales e independientes. La suma de X12 , X22 , . . . , Xk2 se dice que es una variable aleatoria ji-cuadrada (χ2 ) con k > 0 grados de libertad, es decir χ2k = X12 + X22 + · · · + Xk2 Hay un número infinito de distribuciones ji-cuadrada, una correspondiente a cada entero positivo k. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 121 Definición 7.2.3 Decimos que la variable aleatoria continua X tiene una distribución jicuadrada con k grados de libertad (k entero positivo), si su función de densidad está dada por la siguiente expresión:  k 1 −1 − x   √2k Γ( k ) x 2 e 2 si 0 < x < ∞ 2 f (x) =   0 si x ≤ 0 Figura 7.11: Gráfica de f (x) cuando el parámetro k toma los valores 1,2,3,4 y 5 Por la definición anterior; ji-cuadrada es una variable aleatoria continua con posibles valores en el intervalo (0, ∞). Esta distribución tiene un solo parámetro denotado aqui por la letra k, y al cual se le llama grados de libertad. También al parámetro de ji-cuadrado se denota por la letra griega ν. A pesar de la aparente expresión complicada de f (x), no es difícil comprobar que es efectivamente una función de densidad de probabilidad. La gráfica de esta función para varios valores del parámetro k aparece en la Figura 7.9. Escribiremos simplemente X ∼ χ2 (k), en donde la letra griega χ se pronuncia “ji” o también “chi”. Puede demostrarse que E(X) = k y Var(X) = 2k. La distribución ji-cuadrada puede obtenerse como indican los siguientes resultados que dejaremos sin demostrar. Proposición 7.2.3 Si X es una v. a. que sigue una distribución normal tipificada (X ∼ N(0, 1)), entonces la v.a. X 2 sigue una distribución ji-cuadrada con un grado de libertad (X 2 ∼ χ2 (1)). Es decir, el cuadrado de una variable aleatoria con distribución normal estándar tiene distribución ji-cuadrada con un grado de libertad. Por otro lado, el siguiente resultado establece que la suma de dos variables aleatorias independientes con distribución ji-cuadrada tiene distribución nuevamente ji-cuadrada con grado de libertad igual a la suma de los grados de libertad de los sumandos. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 122 Proposición 7.2.4 Si X ∼ χ2 (n) y Y ∼ χ2 (m) son dos variables aleatorias independientes, entonces X +Y tiene distribución χ2 (n + m). En general si las v.a. X1 , X2 , . . . , Xn son independientes y si Xi ; ∀i = 1, 2, . . . , n tiene una distribución χ2 con n j grados de libertad para j = 1, 2, . . . , k entonces la suma X1 + X2 + · · · + Xn tiene una distribución χ2 con n1 + n2 + · · · + nk grados de libertad. Proposición 7.2.5 Sean X1 , X2 , . . . , Xn una muestra aleatoria de una distribución normal n ³ Xi − µ ´2 con media µ y varianza σ2 . La distribución de la v.a. Y = ∑ es del tipo ji-cuadrado σ i=1 con n grados de libertad. Características de la distribución ji-cuadrada La distribución ji-cuadrada es un caso particular de la distribución gamma. Las distribuciones ji-cuadradas son positivamente asimétricas. Está distribución esta estrechamente ligada con muestras aleatorias de una distribución normal. En la práctica, las probabilidades ji-cuadradas, cuando k ≥ 30, pueden calcularse empleando aproximaciones normales en la forma usual. La distribución ji-cuadrado tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test ji-cuadrado que consiste en una prueba de independencia y bondad de ajuste, además en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student que veremos más adelante, y participa en todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias de distribución ji-cuadrada e independientes. 7.2.5. Distribución t de Student Esta distribución fue desarrollada por William Sealy Gossett, que trabajaba en el departamento de fermentación de la cervecería Guinness en Irlanda. Las circunstancias en las que se llevan a cabo los procesos de fermentación en la producción de cerveza demostraron a Gosset las limitaciones de la teoría de muestras grandes y le enfatizaron la necesidad de un método correcto para el tratamiento de muestras pequeñas. Estas circunstancias de su trabajo dirigieron a Gosset al descubrimiento de la distribución t, quién publicó sus estudios sobre esta distribución en 1908 con el seudónimo “Student”. Gossett se interesó en el comportamiento del valor de una v.a. Y ∼ N(0, 1) cuando se utilizaba S en vez de σ, y particularmente en la discrepancia entre S y σ cuando S se calcula de muestras muy pequeñas. 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 123 La distribución t está renacionada con muestras aleatorias de una distribución normal. Esta distribución, así como la χ2 , han sido ampliamente aplicadas en problemas importantes de inferencia estadística. La distribución t es conocida también como distribución de Student en honor de W.S. Gosset. La distribución t se define como sigue: Considerense dos variables aleatorias independientes Y y W , tales que Y tenga una distribución normal tipificada y W tenga una distribución χ2 con n grados de libertad. Sea X la variable aleatoria definida como: Y X=r W n entonces, la distribución de X se denomina la distribución t con n grados de libertad. Definición 7.2.4 Decimos que la variable aleatoria continua X tiene una distribución t con n grados de libertad si su función de densidad está dada por: ³ ´ ³ Γ n+1 2 x2 ´− n+1 2 1 + f (x) = √ para − ∞ < x < ∞ n n nπ Γ( 2 ) en tal caso se escribe X ∼ t(n) Es posible demostrar que E(X) = 0, y Var(X) = n para n > 2. (n − 2) Relación con muestras de una distribución normal Supongamos que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución normal con media µ y varianza σ2 . Como es usual, se define a la media 1 n 1 n 2 muestral como X = ∑ Xi y a la varianza muestral como S = ∑ (Xi − X)2 . n i=1 n i=1 Si se definen las variables aleatorias Y y W mediante las relaciones n √ (X − µ) n Y= y W= σ ∑ (Xi − X)2 i=1 σ2 = nS2 σ2 Vemos que Y ∼ N(0, 1) y W ∼ χ2 (n − 1). Además se sabe que si X y S2 son variables aleatorias que resultan de muestras aleatorias normales entonces son independientes. Por lo Y que la v.a. T definida por la relación T = q tiene distribución t con n − 1 grados de W n−1 libertad. Entonces √ √ (X − µ) n (X − µ) n √ (X − µ) n−1 √σ T= sσ = = 2 nS S nS √ σ2 n − 1σ n−1 Un aspecto importamte es que ni el valor de T ni la distribución de T dependen del valor de la varianza σ2 . Por lo tanto podemos utilizar la distribución t en situaciones de muestreo sobre poblaciones normales que cumplan con las siguientes caracteristicas: 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 124 las muestras extraidas son pequeñas (n < 30) y la varinza σ2 es desconocida. Figura 7.12: Distribución t versus distribución normal Las características de la distribución t 1. Es una distribución continua. 2. Tiene forma de campana y es simétrica. 3. Es una familia de curvas. 4. Todas tienen la misma media de cero, pero sus desviaciones estándar difieren de acuerdo al tamaño de la muestra. 5. La distribución t es más baja y dispersa que la distribución normal. Cuando el tamaño de la muestra se incrementa, la distribución t se aproxima a la normal. En resumen la distribución t se puede encontrar en los siguientes contextos: Proposición 7.2.6 Si las variables aleatorias Y ∼ N(0, 1) y W ∼ χ2 (n) son independientes, entonces la v.a. Y X = q ∼ t(n) W n Proposición 7.2.7 Sean X1 , X2 , . . . , Xn variables aleatorias independientes cada una de ellas con distribución N(µ, σ2 ). Entonces la v.a. √ (X − µ) n − 1 ∼ t(n − 1) T= S 1 n 1 n 2 donde X = ∑ Xi y S = ∑ (Xi − X)2 . n i=1 n i=1 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 7.2.6. 125 Distribución exponencial El modelo de probabilidad de la exponencial tiene su origen en el proceso de Poisson. Una probabilidad de Poisson se relaciona con la probabilidad de ocurrencia de un número específico de éxitos en intervalos de tiempos finitos, donde el número de éxitos es la variable aleatoria. Invirtiendo los papeles de una variable aleatoria de Poisson se tiene lo que se llama un modelo exponencial. Una variable aleatoria exponencial X es el intervalo de tiempo, o espacio requerido para obtener un número especifico de éxitos. La distribución exponencial se utiliza a menudo en problemas prácticos para representar la distribución del tiempo que transcurre antes de la ocurrencia de un suceso. La distribución exponencial se usa para modelar intervalos de tiempos entre sucesos. Es muy usada para simular el tiempo entre llegadas cuando las llegadas son completamente aleatorias y para modelar tiempo de servicio, en los sistemas de colas. Definición 7.2.5 Decimos que una variable aleatoria continua X tiene una distribución exponencial con parámetro λ > 0, y escribimos X ∼ exp(λ), cuando su función de densidad de probabilidad es   λe−λx si x > 0 f (x) =  0 si x ≤ 0 La gráfica de esta función cuando el parámetro λ toma los valores particulares 0,5; 1,0 y 1,5 se muestra en la Figura 7.11. La correspondiente función de distribución de esta v.a. está dada por  0 si x ≤ 0  F(x) = P(X ≤ x) =  1 − e−λx si x > 0 La gráfica de esta función cuando el parámetro λ toma los valores particulares 0,5; 1,0 y 1,5 se muestra en la Figura 7.12. Proposición 7.2.8 Sea X la v.a. continua con distribución exponencial, entonces X tiene las siguientes características a) E(X) = 1 λ b) Var(X) = c) MX (t) = 1 λ2 λ λ−t Demostración 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD Figura 7.13: Gráfica de f (x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 Figura 7.14: Gráfica de F(x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 126 7.2. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 127 Por definición de esperanza se tiene que Z ∞ Z ∞ 1 ´¯¯∞ 1 E(X) = x f (x)dx = λ xe dx = −e x+ ¯ = λ 0 λ −∞ 0 Z ∞ Z ∞ ³ 2x 2 ´¯¯∞ 2 2 2 2 −λx −λx 2 E(X ) = x f (x)dx = λ x e dx = −e x + + 2 ¯ = 2 λ λ 0 λ −∞ 0 Entonces la varianza está dada por Var(X) = −λx −λx ³ 2 ³ 1 ´2 1 − = 2 2 λ λ λ Finalmente por definición de función generadora de momentos se tiene que MX (t) = Z ∞ −∞ xt e f (x)dx = λ Z ∞ 0 xt −λx e e dx = λ Z ∞ 0 e−(λ−t)x dx = λ λe−(λ−t)x ¯¯∞ ¯ = −(λ − t) 0 λ−t Ejemplo 7.2.4 Suponga que el tiempo en minutos que un usuario cualquiera permanece re1 visando su correo electrónico sigue una distribución exponencial de parámetro λ = . Calcule 5 la probabilidad de que un usuario cualquiera permanezca conectado al servidor de correo a) menos de un minuto b) más de un ahora c) Calcula la esperanza, varianza y la función generadora de momentos Solución a) Para este primer inciso tenemos que P(X < 1) = Z 1 ¯ 1 ¯1 1 1 −1x 1 e 5 dx = − 5e− 5 x ¯ = 1 − e− 5 = 0, 1813 0 5 5 0 b) Siguiendo el mismo razonamiento del inciso anterior y teniendo en cuenta que una hora equivale a 60 minutos se tiene que Z ∞ 1 − 1 x ¯¯∞ 1 −1x 5 e dx = − 5e 5 ¯ = e−12 = 6, 14 · 10−6 P(X > 60) = 5 60 60 5 c) Tomando en cuenta la proposición 7.2.3 1 E(X) 1 = 5 5 Var(X) = 1 = 25 ( 51 )2 MX (t) = 1 5 1 5 −t = 1 1 − 5t 7.3. PROBLEMAS 7.3. 128 Problemas Distribución binomial 1. Sea X una variable aleatoria con distribución bin(n, p) tal que E(X) = 4 y Var(X) = 2. ¿Cuáles son los valores de n y p? 2. Sea X una variable aleatoria con distribución bin(n, p). Demuestre que la variable Y = n − X tiene distribución bin(n, 1 − p). Proporcione una explicación probabilísta de este resultado. 3. Sea X con distribución bin(n, p). Demuestre que para x = 0, 1, . . . , n − 1, se cumple la siguiente fórmula. Esta expresión permite calcular las probabilidades de esta distribución de una forma iterativa. P(X = x + 1) = p(n − x) P(X = x) (1 − p)(x + 1) 4. Se lanza una moneda equilibrada 6 veces. Calcule la probabilidad de que cada cara caiga exactamente 3 veces. 5. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de que ambas caras caigan el mismo número de veces. 6. Sea X una variable aleatoria con distribución bin(n, p). Demuestre que 0 ≤ Var(X) ≤ E(X) 7. Suponiendo que es igualmente probable que nazca un hombre (H) o una mujer (M), y considerando la observación de 6 nacimientos. ¿Cuál de los siguientes eventos es más probable que ocurra? a) MHHMHM b) MMMMHM c) HMHMHM 8. La probabilidad de que un paciente se recupere de una extraña enfermedad es 0, 4. Si se sabe que 15 personas contraen esa enfermedad, a) Haga un histograma donde represente la distribución binomial para este caso. b) ¿Cuál es la probabilidad de que sobrevivan al menos 10? c) ¿Cuál es la probabilidad de que sobrevivan de 3 a 8? d) Calcule la media y la varianza de esta distribución binomial. 9. En la ciudad la necesidad de dinero para comprar drogas se establece como la razón del 75 % de los robos. Encuentre la probabilidad de que entre los siguientes cinco casos de robo: a) dos resulten de la necesidad de dinero para comprar drogas 7.3. PROBLEMAS 129 b) al menos tres resulten de la necesidad de dinero para comprar drogas c) Represente esta distribución binomial en un histograma d) Calcule la media y la varianza de esta distribución binomial 10. Un prominente médico afirma que 70 % de las personas con cáncer de pulmón son fumadores empedernidos. Si su aseveración es correcta: a) encuentre la probabilidad de que de 10 de tales pacientes menos de la mitad sean fumadores empedernidos b) encuentre la probabilidad de que de 10 de los pacientes con cáncer de pulmón ninguno sea fumador empedernido c) Represente esta distribución binomial en un histograma d) Calcule la media y la varianza de esta distribución binomial 11. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de Massachussets aproximadamente el 60 % de los consumidores de Valium en el estado de Massachussets tomaron Valium por primera vez debido a problemas psicológicos. Encuentre la probabilidad de que entre los siguientes ocho consumidores entrevistados en este estado: a) tres comenzaron a tomar Valium por problemas psicológicos. b) al menos cinco comenzaron a consumir Valium por problemas que no fueron psicológicos c) Represente esta distribución binomial en un histograma d) Calcule la media y la varianza de esta distribución binomial 12. De acuerdo a una encuesta a nivel nacional en Estados Unidos de la universidad de Michigan a estudiantes universitarios de último año revela que el 70 % de los estudiantes desaprueba el consumo diario de la mariguana. Si se seleccionan doce estudiantes al azar y se les pide su opinión, encuentre la probabilidad de que el número de los que desaprueban fumar mariguana todos los días sea: a) entre siete y nueve b) a lo más cinco c) no memos de ocho d) Represente esta distribución binomial en un histograma e) Calcule la media y la varianza de esta distribución binomial. 13. Un estudio examinó las actitudes hacia los antidepresivos. El estudio reveló que aproximadamente el 70 % cree que “los antidepresivos en realidad no curan nada, sólo encubren el problema real”. De acuerdo con este estudio a) ¿cuál es la probabilidad de que al menos tres de las siguientes cinco personas seleccionadas al azar sean de esta opinión? b) Represente esta distribución binomial en un histograma 7.3. PROBLEMAS 130 c) Calcule la media y la varianza de esta distribución binomial. 14. El departamento de mercadotecnia de Kellogg Company planea realizar una investigación para determinar si los consumidores de cereal en hojuelas pueden distinguir su cereal favorito de otros. Para probar el cuestionario y el procedimiento a ser usado se invitó a ocho personas a participar en un experimento. Se les colocó frente a cinco pequeños tazones de cereal en hojuelas marcados con las letras A, B,C, D, y E para que identificaran su cereal favorito. A las personas se les informó que solo uno de los tazones contenía su cereal favorito. a) Si una persona no pudo identificar su cereal favorito y supuso que estaba en el tazón C. ¿Cuál es la probabilidad de que la persona haya adivinado correctamente? b) ¿Cuál es la variable aleatoria en este problema? c) ¿Es la variable aleatoria discreta o continua? ¿Por qué? d) Suponga que a las ocho personas les fue imposible identificar su cereal favorito y trataron de adivinar en cual tazón estaba. ¿Cuál es la probabilidad de que ninguno de los ocho haya adivinado correctamente? e) Desarrolle una distribución binomial para este experimento f) Calcule la media, varianza, y desviación estándar de la distribución. g) Represente la distribución de probabilidad en una gráfica. h) Suponga que siete de las ocho personas identifican el cereal que más les gusta. ¿Es razonable decir que ellos adivinaron? Explique. ¿Cuál es tu conclusión? i) ¿Por qué es la distribución binomial apropiada para este problema? 15. Al determinar la concentración letal de una sustancia presente en agua contaminada, se encuentra que una cierta concentración mata el 20 % de los peces que se exponen a ella durante 24 horas. Se colocan 20 peces en un tanque con esta concentración de la sustancia. Calcular la probabilidad de que a las 24 hs. a) sobrevivan exactamente 14 b) sobrevivan por lo menos 10 c) sobrevivan cuando mucho 16 d) sobrevivan entre 5 y 10 16. Harley Davidson, director de control de calidad de la compañía de automóviles Kyoto Motor, se encuentra realizando su revisión mensual de trasmisiones automáticas . En el procedimiento, se retiran 10 trasmisiones de la pila de componentes y se les revisa en busca de defectos de fabricación. A lo largo del tiempo solo, el 2 % de las trasmisiones tienen defectos de fabricación (suponga que los defectos se presentan de manera independiente en diferentes trasmisiones). a) ¿ Cual es la probabilidad de que la muestra de Harlley contenga mas de dos trasmisiones con defectos de fabrica? 7.3. PROBLEMAS 131 b) ¿ Cual es la probabilidad de que ninguna de las trasmisiones elegidas tengan defectos de fabrica? 17. Harry Ohme esta a cargo de la sección de electrónica de una gran tienda departamental. Se has dado cuenta de que la probabilidad de que un cliente que solamente se encuentra curioseando compre algo es de 0,3. Suponga que 15 clientes visitan la sección de electrónica cada hora. a) ¿Cual es la probabilidad de que almenos una de las personas que curiosea compré algo durante una hora dada? b) ¿Cual es la probabilidad de que almenos cuatro personas que curiosean compre algo durante una hora dada? c) ¿Cual es la probabilidad de que ninguna de las personas que curiosean compre algo durante una hora dada? d) ¿Cual es la probabilidad de que no mas de cuatro personas que curiosean compre algo durante una hora dada? 18. Un aparato de radio que no funciona se agrupa accidentalmente con 5 radios que funcionan. ¿Cual es la probabilidad de que se escoja un conjunto de tres radios, el aparato que no funciona este entre los tres escogidos? 19. Una abogada especializada en litigios por drogas estima que gana el 70 % de sus casos que van a la corte. Acaba de leer “Drogas: Un caso para legalización” en el número del 3 de octubre de 1989 y quiere usar parte de los argumentos del artículo en su próximo juicio. Considere su probabilidad de éxito estimado, si actualmente representa a 5 acusados en distintos casos.¿ Cuál es la probabilidad de qué: a) gane por lo menos tres casos? b) por lo menos un caso? 20. En el pasado, Phin Anderson ha cometido errores en el 5 % de las declaraciones de impuestos que prepara.¿ Cual es la probabilidad de que no cometa errores en las primeras 7 declaraciones que prepara para esta año fiscal? 21. Un jefe de proyectos ha comprobado que un subcontratista falla en entregar a tiempo las ordenes corrientes, en aproximadamente el 20 % de las ocasiones. El jefe de proyectos tiene 6 ordenes que este subcontratista se comprometió a entregar. Calcule la probabilidad de que: a) el subcontratista entregue todas las ordenes b) el subcontratista entregue almenos cuatro ordenes c) el subcontratista entregue exactamente 5 ordenes 22. Un complejo sistema electrónico esta construido con cierto número de componentes de apoyo en sus subsistema. Un subsistema contiene cuatro componentes idénticos, cada uno con una probabilidad de 0,2 de fallar en menos de 1000 hs. El subsistema funciona si dos componentes cualesquiera de los cuatro trabajan en forma adecuada. Se suponen que los componentes operan independientemente. 7.3. PROBLEMAS 132 a) Encuentre la probabilidad de que exactamente dos de cuatro componentes resistan mas de 1000hs. b) Encuentre la probabilidad de que el subsistema funcione por mas de 1000hs. 23. Sobre una mesa se derraman 20 monedas. Calcular la probabilidad de caigan: a) por lo menos 5 caras b) más de 15 caras c) entre 12 y 17 caras d) a lo sumo tres caras e) como mínimo dos caras f) cuando mucho cuatro caras 24. Un examen de opción múltiple esta compuesto de 15 preguntas, con cinco respuestas posibles cada una, de las cuales solamente una es la correcta. Supóngase que uno de los estudiantes que realiza el examen contesta las preguntas al azar.¿ Cual es la probabilidad de que conteste al menos 10 preguntas correctamente? 25. Un sistema para detectar incendios utiliza tres celdas sensibles a la temperatura que actúan independientemente, talque una o más pueden activar la alarma. Cada celda tiene una probabilidad p = 0, 8 de activar la alarma al alcanzar la temperatura de 100 grados Celsius o más. Sea Y el numero de celdas que activan la alarma cuando la temperatura alcanza 100 grados. Encuentre la probabilidad de que la alarma funcione cuando la temperatura alcanza los 100 grados. 26. Suponga que un lote de producción de 40000 hornos de microondas incluye 32000 sin ningún defecto, que no requieren en absoluto ningún ajuste. Sin embargo el departamento de control de calidad, sin conocer el dato referente al lote de producción, toma una muestra aleatoria de 10 hornos para calcular la calidad global. a) ¿Cuál es la probabilidad de que la muestra sea dividida equitativamente es decir 5 hornos defectuosos y 5 no defectuosos? b) ¿Cuál es la probabilidad de que se encuentre a lo sumo 3 defectuosos? c) ¿Cuál es la probabilidad de que se encuentre por lo menos un horno no defectuoso? d) ¿Cuál es la probabilidad de que a lo mas 6 sean no defectuosos? 27. A la larga, el 20 % de los gerentes que reciben capacitación obtienen la calificación de sobresaliente, el 50 % la de aceptable y el 30 % la de insatisfactorio. En una muestra de 20 gerentes seleccionados al azar, encuentre las siguientes probabilidades: a) exactamente 4 gerentes son calificados con sobresaliente b) al menos 4 gerentes son calificados con sobresaliente c) exactamente 15 gerentes son calificados con sobresaliente o aceptable d) al menos 15 gerentes son calificados con sobresaliente o aceptable 7.3. PROBLEMAS 133 28. Una cadena de moteles ha adoptado la política de hacer un descuento del 3 % a los clientes que paguen en efectivo en vez de hacerlo con tarjeta de crédito. Su experiencia indica que el 30 % de los clientes aceptan el descuento. Sea Y el número de personas que aceptan el descuento entre los próximos 20 clientes. a) Suponiendo que las probabilidades binomiales sean aplicables, encuentre la probabilidad de que exactamente 5 entre los próximos 20 clientes acepten el descuento. b) Encuentre P(5o menos clientes acepten el descuento) c) ¿Cuál es el valor esperado y la desviación estándar del número de personas que aceptarán el descuento? 29. Un fabricante de medicamentos afirma que solo el 10 % que resultan efectivas en las pruebas con animales pasan el resto de las que se le exige para su comercialización. Actualmente, el fabricante tiene 8 nuevos medicamentos de probada efectividad en experimentos con animales y que esperan pasar en las siguientes pruebas. a) Encuentre la probabilidad de que ninguno de los 8 medicamentos sea comercializado. b) Encuentre la probabilidad de que al menos 2 de ellos sean comercializados. c) Encuentre el número esperado de medicamentos comercializados entre los 8 nuevos medicamentos 30. Una compañía pequeña utiliza un servicio de paquetería para enviar los pedidos de quesos especiales que son para obsequios. La compañía ha encontrado que el 90 % de los paquetes se entregan a tiempo. Se envía un embarque de 20 paquetes. Sea Y = número de paquetes embarcados a tiempo. Suponiendo que las hipótesis binomiales se cumplen calcular: a) la probabilidad de que de al menos un paquete se entregue a tiempo b) la probabilidad de que a lo sumo 6 paquetes no se entreguen a tiempo c) la probabilidad de que por lo menos 7 paquetes se entreguen a tiempo d) el valor esperado y la varianza del numero de paquetes embarcados a tiempo 31. La revista Statistical Adstrac (U.S) informa que la mediana del ingreso familiar en Estados Unidos durante 1985 fue 27755 dólares. En cuatro familias seleccionadas al azar, calcular la probabilidad de que: a) las cuatro tuvieron ingresos mayores que 27755 dólares en 1985 b) una de las cuatro haya tenido ingresos menores 27755 dólares en 1985 32. Entre personas que donan sangre en una clínica, 80 % tienen RH+, es decir el factor Rhesus en su sangre. Cinco personas donan sangre en al clínica en determinado día. a) Calcular la probabilidad de que al menos una de las cinco no tenga el factor RH+. b) Calcular la probabilidad de que cuando mucho 4 de las 5 tenga sangre del tipo RH+. 7.3. PROBLEMAS 134 Distribución Geométrica 1. Considere una urna con 3 bolas negras y 5 bolas blancas. Se escoge una bola al azar, se registra su color, y despu´es se regresa a la urna. ¿Cuántas extracciones en promedio se necesitan realizar hasta obtener una bola negra por primera vez? 2. Sea X una variable aleatoria con distribución geo(p). Demuestre que para cualesquiera a, b = 0, 1, 2, . . . se cumple la siguiente propiedad llamada de pérdida de memoria: P(X ≤ a + b|X ≤ a) = P(X ≤ b). Distribución Poisson 1. Sea X una variable aleatoria con distribución Poisson(λ). Demuestre que para todo x = 0, 1, 2, . . . se cumple la siguiente fórmula. Esta expresión permite calcular las probabilidades Poisson de una forma iterativa. P(X = x + 1) = λ P(X = x) (x + 1) 2. Sea X una variable aleatoria con distribución Poisson(λ). Demuestre que la probabili(1 + e−2λ ) . dad de que X tome un valor par es 2 3. El número de computadoras que fallan por mes en un laboratorio de cómputo tiene una distribución Poisson con un promedio mensual de λ = 2 máquinas descompuestas. El laboratorio tiene capacidad para reparar hasta dos máquinas por mes. Cuando se descomponen más de dos máquinas, las restantes se envían fuera del laboratorio para su reparación. a) ¿Cuál es la probabilidad de que en un mes cualquiera sea necesario enviar máquinas fuera del laboratorio para su reparación? b) Responda al inciso anterior cuando se reduce la capacidad de reparación del laboratorio a una computadora por mes. c) ¿Cuál es el número de computadoras con falla más probable en un mes? 4. Sea Y una variable aleatoria que tiene una distribución de Poisson cuyo promedio es de 2. Calcular: a) P(Y = 4) b) P(Y ≥ 4) c) P(Y ≤ 4) 5. Si la probabilidad de que un tornillo sea defectuosa es 0,008. ¿ Cuál es la probabilidad de que en una caja con 100 tornillos contenga uno o más defectuosos? 6. Supongamos que la probabilidad de que una persona reciba una inyección de penicilina y sufra una reacción desfavorable es de 0,0002. Si 3000 personas reciben aplicaciones de este medicamento. ¿ Cuál es la probabilidad de que 0,1,2,3,4 o 5 personas reaccionen mal? 7.3. PROBLEMAS 135 7. El número de llamadas telefónicas que entra en una central de edificio de oficinas es de 4 minutos en promedio. a) Calcular la probabilidad de que no lleguen llamadas en un determinado periodo de un minuto. b) Calcular la probabilidad de que por lo menos lleguen 4 llamadas en un periodo de un minuto. c) Calcular la probabilidad de que por lo menos lleguen dos llamadas en un periodo determinado de dos minutos. 8. Se certifica la calidad de los discos para computadora pasándolos por un certificador que cuenta el número de pulsos faltantes. Una determinada marca de discos para computadora tiene en promedio 0,1 pulsos faltantes por discos. a) Calcular la probabilidad de que el siguiente disco que se inspeccione no le falte pulso. b) Calcular la probabilidad de que al siguiente disco que se inspeccione le falte mas de un pulso. c) Calcular la probabilidad de que a ninguno de dos discos inspeccionados le falten pulsos. 9. En Estados Unidos se ha establecido el limite máximo nacional de velocidad de 50 millas por hora, desde 1974. Kamerud que ha estudiado los efectos de esta ley, informa que las frecuencia de accidentes fatales en las carreteras interestatales en 1975, estando vigente el limite, es aproximadamente 19 · 109 millas-vehículo. a) Calcular la probabilidad de que se tengan cuando mucho 15 accidentes fatales en 109 millas-vehículo. b) Calcular la probabilidad de que por lo menos se tengan 20 accidentes fatales en 109 millas-vehículo. 10. En un sistema de computo de tiempo compartido, el número de peticiones de telepuerto es 0,20 por milisegundo, en promedio y sigue una distribución de Poisson. a) Calcular la probabilidad de que no lleguen peticiones durante el siguiente milisegundo. b) Calcular la probabilidad de que no lleguen peticiones durante los siguiente tres milisegundo. 11. Los grandes almacenes Bon han determinado que la demanda de cierto modelo de cámara fotográfica tiene una distribución de Poisson con una media de 2 por semana. La directora del departamento de cámara quiere estudiar la demanda actual para ver si se justifica ofrecer clases de fotografía. Acaba de leer un articulo sobre el paisaje en el American Photographer y piensa que ese tipo de clases seria efectivo. a) Determinar la distribución de probabilidad de la demanda semanal b) Si la tienda guarda 4 camaras de estas en una semana dada. ¿ Cuál es la probabilidad exceda al inventario? 7.3. PROBLEMAS 136 12. Los autos llegan al lavadero 22 con una tasa promedio de 9 por hora. Si la llegada por hora sigue una distribución de Poisson, averigüe la probabilidad de que lleguen 15 o más autos durante una hora dad de operación. 13. Se estima que el número de taxis que esperan recoger un pasajero delante de la terminal de ómnibus de Asunción tiene una distribución de Poisson con una media de 5,5 taxis. a) Averigüe la probabilidad de, en una observación aleatoria haya exactamente 6 taxis esperando. b) Averigüe la probabilidad de, en una observación aleatoria haya mas de 10 taxis esperando. c) Averigüe la probabilidad de, en una observación aleatoria no haya taxis esperando. 14. La concertista de piano Donna Prima se preocupa cada vez más por el número de tosidos que se presentan en la audiencia justo antes que empiece a tocar. Durante su ultima gira, Donna estimo un promedio de 8 tosidos justo antes de empezar su concierto. La señora prima le ha prometido a su director que si escucha más de 5 tosidos en el concierto esa noche, se rehusará a tocar. ¿ Cuál es la probabilidad de que la artista toque esa noche? 15. En promedio cinco pájaros chocan contra el monumento en Washington y mueren por este motivo cada semana. Bill Garey, un oficial del Servicio del Parque Nacional de Estados Unidos, ha solicitado que el congreso estadounidense asigne fondos para adquirir equipos que alejen a los pájaros de dicho monumento. Un subcomité del congreso le ha respondido que pueden asignarle fondos para tal fin a menos que la probabilidad de que mueran más de tres pájaros cada semana sea mayor que 0,70. ¿ Se destinaran los fondos para la compra de los equipos que alejen a los pájaros del monumento? 16. El número de nudos en un tipo particular de madera tiene una distribución de Poisson con una media de 1,5 nudos de 10 pies cúbicos de madera. Encuentre la probabilidad de que un bloque de esta madera de 10 pies cúbico tenga a lo más un nudo. 17. El 3 % de las calculadoras de bolsillo de un modelo en particular fallan durante el primer mes de operación. F − Mart acaba de recibir un lote de 100 de estas calculadoras. a) Averigüe la probabilidad de que ninguna calculadora falle b) Averigüe la probabilidad de que fallen más de tres calculadoras c) Averigüe la probabilidad de que menos de 2 calculadoras fallen 18. La Articulate Corporation espera que el 99 % de los saldos de sus cuentas por cobrar sean correctas. Se seleccionó una muestra aleatoria de 200 cuentas para auditarlas. a) ¿Cuál es la probabilidad de que ninguna de las cuentas tenga errores ? b) ¿Cuál es la probabilidad de que 5 de las cuentas tenga errores ? c) ¿Cuál es la probabilidad de que más de 5 cuentas tenga errores ? 7.3. PROBLEMAS 137 19. En los últimos 20 años, solo el 2 % en promedio de los cheques endosados a la American Herat Association fueron rechazados. Este mes, la asociación recibió 200 cheques. ¿ Cuál es la probabilidad de que: a) exactamente 10 de ellos sean rechazadas b) exactamente 5 de ellos sean rechazadas 20. El centro contencioso del condado de Orange, en California maneja varios tipos de litigios, pero casi todos ellos son del tipo conyugal. De hecho 96 % de los pleitos que atiende el centro son de esta naturaleza. ¿ Cuál es la probabilidad de que de 80 litigios atendidos por el centro exactamente 7 no sean del tipo conyugal? Distribución Uniforme 1. Sea X una variable aleatoria con distribución uniforme en el intervalo (1, 4). a) Obtener la función de densidad para esta distribución uniforme b) Calcular la probabilidad de que X este entre 1 y 3 c) Calcular la probabilidad de que X sea mayor que 2 d) Obtener la esperanza y la varianza de esta distribución 2. Se escoge al azar un número del intervalo (0, 2) a) Obtener la función de densidad para esta distribución uniforme b) Calcular la probabilidad de que el número elegido este entre 1 y 1,5 c) Calcular la probabilidad de que el número elegido sea mayor que 0,5 d) Obtener la esperanza y la varianza de esta distribución 3. Se escogen al azar dos números del intervalo (0, 3). Sea X la variable aleatoria que indica la suma de los dos números elegidos. Si X sigue una distribución uniforme a) Obtener la función de densidad para X b) Calcular la probabilidad de que X este entre 2 y 4 c) Calcular la probabilidad de que el número elegido sea menor que 4 d) Obtener la esperanza y la varianza de X Distribución Normal 1. Sea X con distribución N(10, 25). Calcule a) P(X ≥ 10) b) P(X < 0) c) P(0 < X ≤ 10) d) P(X ≥ 20) e) P(−20 < X ≤ 10) 2. Sea X con distribución N(0, 100). Calcule 7.3. PROBLEMAS 138 a) P(X ≤ 10) b) P(X > 0) c) P(0 < X ≤ 40) d) P(X ≥ 30) e) P(−10 < X ≤ 10) 3. Encuentre x tal que a) F(x) = 0, 8666 b) 1 − F(x) = 0, 9154 4. Un investigador reporta que unos ratones vivirán un promedio de 40 meses cuando sus dietas se restringen drásticamente y después se enriquecen con vitaminas y proteínas. Suponga que la vida de tales ratones se distribuye normalmente con una desviación estándar de 6,3 meses, encuentre la probabilidad de que un ratón viva: a) Más de 32 meses b) Menos de 28 meses c) Entre 37 y 49 meses d) Entre 45 y 50 meses e) Entre 40 y 43 meses f) ¿Cuál es la probabilidad de que de seis ratones 4 vivan más de 30 meses? 5. Las barras de centeno que cierta panadería distribuye a las tiendas locales tienen una longitud promedio de 30 centímetros y una desviación estándar de 2 centímetros. Suponga que las longitudes se distribuyen normalmente, ¿qué porcentaje de las barras son a) Más largas de 31,7 cm? b) Entre 29,3 cm. y 33,5 cm de longitud? c) Entre 32 cm y 35 cm? d) Más cortas de 38 cm? e) Entre 27,5 cm. y 30 cm? f) ¿Cuál es la probabilidad de que de 4 barras, tres midan más de 35 cm? 6. Un abogado va todos los días de su casa a su oficina en el centro de la ciudad. El tiempo promedio del viaje es 24 minutos, con una desviación estándar de 3,8 minutos. Si las duraciones de los viajes están distribuidas normalmente: a) ¿Cuál es la probabilidad de que un viaje tome al menos 1 2 hora? b) Si la oficina abre a las 9:00 a.m. y él sale de su casa diariamente a las 8:45 a.m., ¿qué porcentaje de las veces llega tarde al trabajo? c) Si sale de su casa a las 8:35 a.m. y el café se sirve en la oficina de las 8:50 a.m. a las 9:00 a.m., ¿cuál es la probabilidad de que llegue a la hora del café? 7.3. PROBLEMAS 139 d) Encuentre cual es el tiempo a partir del cual que duran el 15 % de los viajes más lentos? e) Encuentre la probabilidad de que dos de los siguientes tres viajes tomen como máximo 12 hora. 7. Las alturas de 1000 estudiantes se distribuyen normalmente con una media de 174,5 cm y una desviación estándar de 6,9 cm., ¿cuántos de estos estudiantes se esperaría que tuvieran alturas a) Menores de 160 cm? b) Entre 171,5 cm y 182 cm? c) Mayores a 165 cm? d) Entre 174,5 cm y 180 cm? e) Entre 180 cm y 195 cm? f) Menores de 185 cm? g) ¿Cuál es la probabilidad de que de cinco estudiantes, al menos 3 midan más de 180 cm? h) ¿Cuál es la probabilidad de que de 3 estudiantes, ninguno mida menos de 160 cm? 8. Una estación de radio encontró que el tiempo promedio que una persona sintoniza esa estación es de 15 minutos con una desviación estándar de 3,5 minutos. ¿Cual es la probabilidad de que un radioescucha sintonice la estación por: a) más de 20 minutos? b) entre 15 y 18 minutos? c) entre 10 y 12 minutos? d) ¿Cuantos minutos como máximo sintonizan la estación el 70 % de los radioescuchas? e) ¿Cuál es la probabilidad de que de 8 radioescuchas, al menos 7 sintonicen la estación por más de 5 minutos? 9. Un analista financiero señala que (conforme a su probabilidad subjetiva) el precio Y de los bonos de gobierno a largo plazo, con un valor de 1000 dólares, tendrá al cabo de un año una distribución normal con un valor esperado de 980 dólares y desviación típica de 40 dólares. a) Encuentre P(Y ≥ 1000) b) Encuentre P(Y ≤ 940) c) Encuentre P(960 ≤ Y ≤ 1060) 10. Suponga que el salario por hora de un trabajador en una fabrica de ropa (que se basa en un sistema de pago a destajo) tiene una distribución normal con un valor esperado de 5,10 dólares y una desviación estándar de 0,40 dólares. 7.3. PROBLEMAS 140 a) Encuentre la probabilidad de que el salario por hora de un trabajador sea superior a 5,40 dólares b) Encuentre la probabilidad de que el salario por hora de un trabajador se encuentre entre 4,70 y 5,50 dólares c) Encuentre la probabilidad de que el salario por hora sea superior al salario mínimo de 3,90 dólares 11. Se ha determinado que la vida útil de cierta marca de llantas radiales tiene una distribución normal con media 38000 kilómetros y desviación estándar 3000 kilómetros. a) ¿Cuál es la probabilidad de que una llanta elegida al azar tenga vida útil de cuando menos 35000 km.? b) ¿Cuál es la probabilidad de que dure mas de 45000 km.? 12. Si un distribuidor hace un pedido de 500 llantas de las especificadas en el problema anterior . Aproximadamente ¿cuantas llantas duraran: a) entre 40000 y 45000 kilómetros? b) 40000 kilómetros o más? 13. Una operación de maquinado produce ejes de aceros cuyos diámetros están distribuidos normalmente con un promedio de 1,005 pulgadas y desviación estándar de 0,01 pulgadas. Las especificaciones piden diámetros que queden en el intervalo 1, 00 ± 0, 02 pulgadas. ¿Qué porcentaje de la producción no cumplirá las especificaciones? 14. Las ausencias por enfermedad de los empleados de una empresa en un mes tiene una distribución normal aproximada con promedios de 200 horas y una varianza de 400 horas. a) Calcular la probabilidad de que el mes próximo el ausentismo total por enfermedad sea menar que 150 horas. b) Para plantear el programa del mes próximo. ¿Cuánto tiempo debe suponer darse el ausentismo por enfermedad, si aquella cantidad solo se debe superar con una probabilidad de tan solo 0,10. 15. Una empresa eléctrica fabrica focos que tienen una duración, antes de fundirse, que se distribuye normalmente con una media igual a 800 horas y una desviación estándar de 40 horas. a) Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas b) Sabiendo que el porcentaje de los focos de mayor duración es de 35,5 %, encuentre el tiempo de duración. 16. Las calificaciones de un examen se distribuyen normalmente con valor esperado igual a 74 y desviación estándar igual a 7. Si 12 % de la clase obtiene Calificación A . ¿Cuál es la A más baja posible y la B más alta posible?. 7.3. PROBLEMAS 141 17. Si los ingresos mensuales de médicos Norteamericanos están distribuidos normalmente, con media 15000 dólares y con un desvío estándar de 3500 dólares . ¿Cuál es la probabilidad de que un medico elegido al azar tenga un ingreso anual de : a) superior a 16260 dólares b) entre 16260 y 18500 dólares c) entre 11500 y 18500 dólares d) entre 8000 y 11500 dólares 18. Los puntos logrados por los candidatos en una prueba de actitud están distribuidos normalmente con una media de 500 y una desviación 100. ¿Qué porcentaje de los candidatos reciben puntajes a) superiores a 700 b) entre 400 y 600 19. Si la estatura de los estudiantes de una universidad están normalmente distribuidos con media de 70 pulgadas, con un desvío estándar de 3 pulgadas. a) Si la estatura mínima para ser probado en el equipo de baloncesto es de 72 pulgadas. ¿ Que proporción de los estudiantes estarían en condiciones de someterse a la prueba? b) Si para ocupar la posición de centro hay que tener una estatura de 76 pulgadas. Que proporción de los estudiantes aptos para jugar baloncesto podrían ocupar dicho lugar? 20. El examen dado por un grupo de estudiantes arroja una media de 65 con una desviación típica de 10. Si quisiéramos dar al 15 % superior una calificación A , al 20 % siguiente B, al 30 % del medio C, al siguiente 25 % D y al 10 % más bajo F. ¿Qué calificaciones numéricas siguen el trazado de la curva?. 21. Las distribución de los salarios de 2000 trabajadores tiene una media de 70 dólares y una varianza de 36 dólares. Suponga que la distribución es normal aproximada. Calcular la probabilidad que ganen: a) entre 65 y 77 dólares b) 82 dólares y mas c) ¿Cuantos trabajadores ganan 60 dólares o menos? 22. Un especialista en ictiología tropical esta interesado en estimar cuanto tiempo puede sobrevivir cierto tipo de pez en agua con determinado porcentaje de toxicidad. Luego de una serie de experimentos llega a estimar que la vida media de este tipo de pez alcanza 100 días con un desvió estándar de 20 días. a) ¿Cuál es la probabilidad de un pez sobreviva más de 110 días? b) ¿Cuál es la probabilidad de un pez sobreviva entre 95 y 105 días? 7.3. PROBLEMAS 142 23. Dos estudiantes fueron informados de que habían recibido referencias tipificadas de 0,8 y -0,4 respectivamente, en un examen de inglés. Si sus puntuaciones fueron de 88 y 64 respectivamente. Hallar la media y la desviación típica de las puntuaciones. 24. La media de los pesos de 500 estudiantes de un cierto colegio es 151 libras y la desviación típica 15 libras. Suponiendo que los pesos se distribuyen normalmente, hallar a) el número de estudiantes que pesan entre 120 y 155 libras b) la probabilidad de que un estudiante pese más de 185 libras 25. Una fabrica de productos para televisores vende transistores de vida media de 1000 horas y desviación estándar de 100 horas. Suponiendo que la distribución de vida en horas de los transistores es normal, calcular: a) la probabilidad de que un transistor elegido al azar tenga una duración de vida comprendida entre 875 y 1075 horas b) la probabilidad de que un transistor elegido al azar tenga una duración de vida mayor a 1020 horas 26. La cantidad semanal que una compañía gasta en mantenimiento y reparaciones tiene una distribución normal aproximada cuyo promedio es de 400 dólares y su desviación estándar 20 dólares. Si el presupuesto para cubrir los gastos de reparación para la semana siguiente es de 450 dólares. a) ¿Cuál es la probabilidad de que los costos reales sean mayores que la cantidad supuesta? b) ¿De cuanto debe ser el presupuesto semanal para mantenimientos y reparaciones para que tan solo se rebase con una probabilidad de 0,1. 27. Los conductores que se fabrican para utilizar en determinado sistema de computo necesitan tener resistencias que varíen entre 0,12 y 0,14 ohm. Las resistencias reales medidas de los conductores que producen la compañía A tiene una distribución normal con un promedio de 0,13 ohm y una desviación estándar de 0,005 ohm. a) ¿Cuál es la probabilidad de que un conductor seleccionado al azar de la producción de la compañía A cumpla con las especificaciones? b) Si se usan cuatro de estos conductores en el sistema y son de la compañía A . ¿Cuál es la probabilidad de que los cuatro conductor cumplan con las especificaciones? 28. A una temperatura de 25◦C, las resistencias de un termistor de determinado tipo tiene una distribución normal con un promedio de 10000 ohm y una desviación típica de 4000 ohm. Los termistores se clasificaran para enviar a un cliente, los que tengan resistencias entre 8000 y 15000 ohm. ¿Qué fracción de los termistores se debe enviar? 29. Los tiempos de las primera avería de una unidad de cierta marca de impresoras de chorro de tinta tienen aproximadamente una distribución normal con un promedio de 1500 horas y una desviación estándar de 200 horas. 7.3. PROBLEMAS 143 a) ¿Qué fracción de esas impresoras fallarán antes de 1000 horas? b) ¿Cuál debe ser el tiempo de garantía para estas impresoras si el fabricante desea que solo presente averías el 5 % de las impresoras dentro del tiempo de garantía? 30. Una encuesta entre los habitantes de cierta ciudad, indicó que el ingreso promedio era de 45000 guaraníes, con una desviación estándar de 5000 guaraníes. Admitiendo una distribución normal para la variable ingreso, calcular a) porcentaje de habitantes con renta superior a 55000 guaraníes b) porcentaje de habitantes con rentas comprendidas entre 50000 y 52000 guaraníes 31. Se acepta que la vida de las bombillas producidas por una compañía eléctrica tiene una distribución normal, con una media igual a 1000 hs. y una desviación típica de 50 hs. Determinar la probabilidad de que una bombilla tomada al azar se queme: a) en memos de 900 hs. b) entre 900 y 1100 hs. 32. El peso medio de 500 bacas es de 151 kilogramos, con una dispersión de 15 kilogramos. Suponiendo que la variable “peso” se encuentre normalmente distribuida, determinar: a) ¿Cuántas vacas pesan entre 120 y 155 kilogramos? b) ¿Cuántas vacas pesan 185 kilos o más? c) ¿Cuántas vacas pesan menos de 128 kilogramos? 33. En un examen de matemáticas, el puntaje promedio es de 42 puntos, con una desviación estándar de 9 puntos. Hay un 10 % de compañeros que por tener mayor puntaje reciben un premio. Se pide determinar el puntaje mínimo para lograr dicho premio, suponiendo normal la distribución de las calificaciones. 34. Los resultados obtenidos por los aspirantes que rindieron examen de ingreso en una Facultad, indicaron una distribución aproximadamente normal de la variable “puntaje” con un valor medio de 60 puntos y una dispersión de 8 puntos. Calcular el porcentaje de aspirante que obtuvieron puntajes: a) mayores a 70 puntos b) inferiores a 56 puntos c) entre 65 y 75 puntos Aproximación normal a la binomial 1. Investigadores de la Universidad George Washington reportan que aproximadamente 75 % de las personas creen que “los tranquilizantes funcionan muy bien para hacer que una persona esté más tranquila y relajada”. De las siguientes 80 personas entrevistadas, ¿cual es la probabilidad de que a) Al menos 50 sean de esa opinión? 7.3. PROBLEMAS 144 b) A lo más 56 tengan esta opinión? c) Entre 60 y 70 tengan esta opinión? d) Exactamente 43 tengan esta opinión? 2. Si el 20 % de los residentes de una ciudad de Estados Unidos prefiere un teléfono blanco sobre cualquier otro color disponible. ¿Cuál es la probabilidad de que entre los siguientes mil teléfonos que se instalen en esta cuidad a) Entre 170 y 200 sean blancos b) Al menos 210 sean blancos c) Más de 225 sean blancos d) Entre 180 y 225 sean blancos 3. Un fabricante de medicamentos sostiene que cierto medicamento cura una enfermedad de la sangre en promedio el 80 % de los casos. Para verificar esta afirmación, inspectores de gobierno utilizan el medicamento en una muestra de 100 individuos y deciden aceptar la afirmación si 75 o más se curan. a) ¿Cuál es la probabilidad de que el gobierno acepte la afirmación? b) ¿Cuál es la probabilidad de que el gobierno rechace la afirmación si en realidad la probabilidad de curarse es de 0,70? 4. Un estudio sobre nuevos delincuentes juveniles reveló que el 38 % de ellos vuelve a delinquir. a) ¿Cuál es la probabilidad de que de cien nuevos delincuentes juveniles 30 o más vuelvan a delinquir? b) ¿Cuál es la probabilidad de que de 50 nuevos delincuentes juveniles 40 o menos vuelvan a delinquir? c) ¿Cuál es la probabilidad de que de 35 nuevos delincuentes juveniles 15 vuelvan a delinquir? 5. Para varios millares de artículos que se mantienen en existencia en una empresa, existe una probabilidad global del 0,08 de que un articulo especifico (incluyendo tamaño y color determinado) no se encuentre en existencia. Si para un embarque que cubre los pedidos para 120 artículos distintos. a) ¿ Cuál es la probabilidad de que 15 o más de ellos no se encuentren en existencia? b) ¿ Cuál es la probabilidad de que haya entre 10 y 15 artículos que no se encuentren en existencia? 6. La probabilidad de que un paciente se recupere de una delicada operación del corazón es 0,9. De los siguientes 100 pacientes que tienen estas operación ¿ cuál es al probabilidad de que: a) sobrevivan entre 84 y 95 inclusive ? b) sobrevivan menos de 86 ? 7.3. PROBLEMAS 145 7. La Articulate Corporation espera que el 99 % de los saldos de sus cuentas por cobrar sean correctas. Se selecciono una muestra de 200 cuentas para auditarlas. a) ¿ Cuál es la probabilidad de que ninguna de las cuentas tengan errores? b) ¿ Cuál es la probabilidad de que 5 de las cuentas tengan errores? c) ¿ Cuál es la probabilidad de que más de 5 cuentas tengan errores? 8. En los últimos 20 años, solo 3 % de los cheques endosados a la American Herat Association fueron rechazados. Este mes, la asociación recibió 200 cheques . ¿ Cuál es la probabilidad de que: a) exactamente 10 de ellos sean rechazadas? b) exactamente 5 de ellos sean rechazadas? c) más de 20 sean rechazadas? d) a lo sumo 30 sean rechazadas? 9. Suponga que el 10 % de los habitantes de una ciudad son pelirrojos. Un grupo de encuestadores selecciona 200 personas al azar y les pregunta confidencialmente por quien votaran en las próximas elecciones. a) ¿ Cuál es la probabilidad de que 15 o más sean pelirrojos? b) ¿ Cuál es la probabilidad de que 30 o menos sean pelirrojos? c) ¿ Cuál es la probabilidad de que 20 sean pelirrojos? 10. Supóngase que se sabe que la probabilidad de recuperación de cierta enfermedad es de 40 a) la probabilidad de que más de 20 personas se recuperen b) la probabilidad de que se recuperen entre 10 y 25 personas inclusive c) el valor esperado de personas que se recuperan 11. Si el 15 % de motores eléctricos producidos por una línea de montaje son defectuosos, determinar la probabilidad de que entre 100 motores elegidos al azar : a) haya a lo sumo 20 defectuosos b) por lo menos 80 no defectuosos c) hayas entre 15 y 25 defectuosos 12. La proporción de familias que usan el jabón A en cierta ciudad es de 0,3. Se toma una muestra aleatoria de 40 familias. Determinar a) el numero esperado de familias que usen el jabón A b) la probabilidad de que mas de 12 familias usen el jabón A c) la probabilidad de que menos de 30 familias usen el jabón A 13. La proporción de estudiantes que reciben calificación C es de 0,7. Se toma una muestra aleatoria de 150 estudiantes. 7.3. PROBLEMAS 146 a) ¿ Cuál es la probabilidad de que a lo sumo 100 estudiantes tengan calificación C? b) ¿ Cuál es la probabilidad de que cuando menos 95 estudiantes tengan calificación C? c) ¿ Cuál es la probabilidad de que exactamente 105 estudiantes tengan calificación C?. 14. La probabilidad de que una persona que entra en un supermercado efectúe compra es de 0,80. Si entran 35 personas diariamente. Calcular la probabilidad de que : a) más de 25 personas realicen compras b) por lo menos 28 efectué compras Distribución Exponencial 1. Suponga que el tiempo que un usuario cualquiera permanece conectado a un servidor en una red de cómputo se puede modelar como una variable aleatoria con distribución exponencial con media igual a 10 minutos. De mil usuarios, ¿Cuántos tienen un conexión superior a una hora?. Calcule además la probabilidad de que un usuario cualquiera a) no permanezca conectado mas de 10 minutos. b) permanezca conectado más de 10 minutos pero menos de una hora 2. Sabemos que la duración del tipo de bombillas que usamos sigue una distribución exponencial de media 6 horas. a) Si una persona entra a la habitación con la luz encendida dispuesta a permanecer siete horas. ¿Podrá hacerlo sin que se funda la bombilla?. b) Encuentre el tiempo promedio de duración de las bobillas. 3. Si la cantidad de dinero pagado por cada póliza en una compañía de seguros se distribuye exponencialmente con media 2000. a) Si una persona en este momento está pagando una poliza de seguros a la compañía ¿cuál es la probabilidad de que sea un monto superior a 2500?. b) Encuentre la cantidad promedio de pago de dinero por un seguro a la compañía. 4. Una máquina de servicio tiene una unidad de reserva para sustituirla de inmediato cuando falle. El “Tiempo a la falla” (tiempo entre fallas) de la máquina (o de su unidad de reserva) es exponencial, y sucede cada 40 minutos en promedio. a) El operador de la máquina dice que ésta tiene la costumbre de descomponerse cada noche a eso de las 8:30 P.M. Analizar lo que dice el operador. b) La cantidad promedio de fallas en una semana, suponiendo que el servicio se ofrece 24 horas por día y 7 días por semana. c) La probabilidad de que haya al menos una falla en un período de 2 horas. d) La probabilidad de que la próxima falla no suceda en menos de 3 horas. 7.3. PROBLEMAS 147 e) Si no ha sucedido falla en 3 horas después de la última falla, ¿cuál es la probabilidad de que el tiempo entre fallas sea de 4 horas cuando mucho?. 5. El tiempo entre llegadas en una dependencia del Banco Mercan es exponencial con valor medio de 0,05 hora. La oficina abre a las 8:00 A.M. a) Escriba la distribución exponencial que describa el tiempo entre llegadas. b) Determine la probabilidad de que no lleguen clientes a la oficina hasta las 8:15 A.M. c) Son las 8:35 A.M. El último cliente entró a las 8:26. ¿Cuál es la probabilidad de que el siguiente cliente llegue antes de las 8:38 A.M.? ¿Y de que no llegue hasta las 8:40?. d) ¿Cuál es la cantidad promedio de clientes que llegan entre las 8:10 y las 8:45 A.M.? 6. Suponga que el tiempo entre descomposturas de una máquina es exponencial, con promedio de 6 horas. Si la máquina ha trabajado sin fallar durante las últimas tres horas, ¿cuál es la probabilidad de que continue sin fallar durante la próxima hora? ¿De que se descomponga durante la siguiente 0,5 hora?. 7. El tiempo entre llegadas a una sala de juego en la sociedad de alumnos es exponencial, con una media de 10 minutos. a) ¿Cuál es la frecuencia de llegadas por hora? b) ¿Cuál es la probabilidad de que no lleguen alumnos a esa sala durante los 15 minutos siguientes?. c) ¿Cuál es la probabilidad de que al menos un alumno visite la sala de juegos durante los próximos 20 minutos? 8. El gerente de un nuevo restaurante de comida rápida desea cuantificar el proceso de llegadas de clientes, estimando la fracción del intervalo de tiempo entre llegadas que sea: a) menor que 2 minutos, b) entre 2 y 3 minutos y c) más de 3 minutos. Las llegadas en restaurantes parecidos tienen una frecuencia de 35 clientes por hora. El tiempo entre llegadas tiene distribución exponencial. 9. Ana y Pedro, dos empleados de un restaurante de comida rápida, juegan lo siguiente mientras esperan la llegada de clientes. Pedro le paga 2 dólares a Ana si el próximo cliente no llega en menos de 1 minuto; en caso contrario, Ana le paga a Pedro 2 dólares. Calcule la recompensa promedio de Pedro en un período de 8 horas. El tiempo entre llegadas es exponencial, con una media de 1,5 minutos. 7.3. PROBLEMAS 148 10. Si un cliente llega a McDonalds en menos de 4 minutos después del cliente inmediato anterior, recibirá un descuento del 10 %. Si el tiempo entre llegadas es entre 4 y 5 minutos, el descuento, es del 6 %. Si el tiempo entre llegadas es mayor que 5 minutos, el cliente tiene 2 % de descuento. El tiempo entre llegadas es exponencial, con media de 6 minutos. a) Determine la probabilidad de que un cliente que llegue reciba el máximo descuento. b) Determine el descuento promedio a cada cliente que llega 11. Se sabe que el tiempo entre fallas de un refrigerador Kencore es exponencial, con una media de 9000 horas (más o menos 1 año de funcionamiento), y la empresa otorga una garantía de 1 año con el refrigerador. ¿Cuál es la probabilidad de que la garantía cubra una reparación por descompostura?. 12. Los niños nacen en un estado poco poblado, con una frecuencia de un nacimiento cada 12 minutos. El tiempo entre nacimientos sigue una distribución exponencial. Determinar a) La cantidad promedio de nacimientos por año b) La probabilidad de que no haya nacimientos en cualquier día c) La probabilidad de emitir 50 certificados de nacimientos en 3 horas, cuando se emitieron 40 certificados durante las primeras 2 horas del período de 3 horas. d) Suponga que el empleado que pasa la información de los certificados de nacimiento a la computadora suele esperar hasta que se hayan acumulado 5 certificados. Calcule la probabilidad de que el empleado capture un nuevo lote en cada hora. 13. Un coleccionista de arte viaja una vez al mes, en promedio, para asistir a subastas. En cada viaje se garantiza una compra. El tiempo entre los viajes tiene distribución exponencial. Determine lo siguiente: a) La probabilidad de que el coleccionista no compre obras de arte en un período de 3 meses. b) La probabilidad de que el coleccionista no compre más de 8 obras de arte por año. c) La probabilidad de que el tiempo entre viajes sucesivos sea mayor que 1 mes. 14. En un banco, la frecuencia de llegadas es de 2 clientes por minuto. Determine lo siguiente: a) La cantidad promedio de llegadas durante 5 minutos. b) La probabilidad de que no haya llegadas durante el próximo 0,5 minuto. c) La probabilidad de que haya al menos una llegada durante el siguiente 0,5 minuto. d) La probabilidad de que el tiempo entre dos llegadas sucesivas sea de 3 minutos, cuando menos. 15. El tiempo entre llegadas al restaurante Juan Arepa es exponencial con media de 5 minutos. El restaurante abre a las 11:00 A.M. Determine: 7.3. PROBLEMAS 149 a) La probabilidad de tener 10 llegadas al restaurante hasta las 11:12 A.M. si hubo 8 llegadas hasta las 11:05. b) La probabilidad de que un cliente llegue entre las 11:28 y las 11:33 A.M. si el último cliente llegó a las 11:25 A.M. Capítulo 8 Muestras aleatorias y distribuciones de muestreo. 8.1. Introducción Supongamos que tenemos una población de interés, esto es, un conjunto arbitrario de individuos (personas, animales, plantas ó objetos en general) cualesquiera, y deseamos conocer cierta información de esta población. Debido a la imposibilidad o no conveniencia de tener información de todos y cada uno de los elementos de la población, generalmente tomamos un pequeño subconjunto de ella, al cual llamamos muestra. Con base en esta muestra trataremos de inferir la información de la población en su totalidad. 8.2. Muestras aleatorias y estadísticos muestrales Definición 8.2.1 Una muestra aleatoria (escribimos simplemente m.a.) es una colección de variables aleatorias X1 , X2 , . . . , Xn que son independientes e idénticamente distribuidas. De este modo, cuando se diga, por ejemplo, que una muestra aleatoria es tomada de una población normal con media µ y varianza σ2 , ello significa que las variables aleatorias que forman la m.a. son independientes entre sí, y todas ellas tienen la misma distribución normal y los mismos parámetros que la población. Una muestra aleatoria constituye el elemento básico para llevar a cabo inferencias estadísticas. Definición 8.2.2 Una estadística o estadístico muestral es una función cualquiera de una muestra aleatoria X1 , X2 , . . . , Xn , y por lo tanto es también una variable aleatoria. 150 8.3. MÉTODOS DE MUESTREO 151 Una estadística es entonces cualquier función de las variables aleatorias que se observaron en la muestra; de manera que esta función no contiene cantidades desconocidas. Veremos a continuación dos ejemplos de estadísticas que serán usados con frecuencia más adelante. Considere una muestra aleatoria X1 , X2 , . . . , Xn . La función X definida como sigue 1 n X = ∑ Xi n i=1 es una estadística, y se le conoce con el nombre de media muestral. El otro ejemplo es el de la varianza muestral, que se puede expresar de dos maneras distintas y se definen por S2 = 8.3. 1 n 1 n 2 2 (X − X) y Ŝ = ∑ i ∑ (Xi − X)2 n i=1 n − 1 i=1 Métodos de Muestreo ¿Por qué muestrear? Muestreo es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad. ¿Y porque no se estudia la población completa? se preguntarían algunos, pero en ocasiones no es factible, veamos algunas razones por las cuales conviene muestrear: 1. La naturaleza destructiva de algunas pruebas. Por ejemplo se quiere conocer la resistencia de los tornillos que se fabrica en una planta, para conocerla es necesario destruir el producto, lógicamente no podemos probar toda la población porque nos quedaríamos sin productos. 2. La imposibilidad física de chequear todos los elementos de la población. Por ejemplo se quiere conocer el efecto de un nuevo insecticida en las moscas, como se puede comprender no es posible contactar a todas las moscas para realizar el estudio. 3. El costo de estudiar a toda la población es muy alto. Por ejemplo se quiere conocer la opinión de la población sobre cierto personaje de la política, si en el país hay 100 millones de habitantes, se tendría que contratar mucho personal y equipo para realizar el estudio. 4. El tiempo para contactar a toda la población es inviable. En ocasiones se necesita información rápida para tomar una decisión importante, tal vez estudiar a toda la población nos lleve más tiempo del que disponemos. 8.3. MÉTODOS DE MUESTREO 152 Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero para que podamos extraer conclusiones, es importante que elijamos bien las muestras para nuestros estudios. Hay cuestiones que debemos especificar a la hora de elegir una muestra: a) El tipo de muestreo que se va a utilizar. b) El tamaño de la muestra. c) El nivel de confianza de las conclusiones que vamos a presentar. Clasificación de los métodos de muestreo Los métodos de muestreo pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. Muestreos no probabilísticos No sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Muestreo intencional u opinativo: en el que la persona que selecciona la muestra es quien procura que sea representativa, dependiendo de su intención u opinión, siendo por tanto la representatividad subjetiva. Muestreo sin norma: se toma la muestra sin norma alguna, la muestra podría ser representativa si la población es homogénea y no se producen sesgos de selección. Muestreos probabilísticos Los muestreos probabilísticos son aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 1. Muestreo aleatorio simple 2. Muestreo sistemático 3. Muestreo estratificado 4. Muestreo por conglomerados 8.3.1. Muestreo aleatorio simple Una muestra seleccionada de modo que cada uno de los individuos en la población tengan las mismas posibilidades de ser seleccionados. El procedimiento de selección consiste en: primeramente se asigna un número a cada elemento de la población, 8.3. MÉTODOS DE MUESTREO 153 después al azar (como una urna, tablas de números aleatorios, números aleatorios generados electrónicamente, etc.) se eligen los elementos necesarios para la muestra. La ventaja de este método de muestreo es que es sencillo y de fácil comprensión. Sus desventajas son: requiere que se posea de antemano un listado completo de toda la población y que cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente. Ejemplo 8.3.1 En una compañía con 150 trabajadores se quiere obtener una muestra aleatoria de 15 elementos para un chequeo médico. Se sigue el siguiente procedimiento: 1) Los trabajadores fueron numerados del 1 al 150 2) Mediante una tabla de números aleatorios se procede a seleccionarlos. 3) El punto de arranque en la tabla se fija mediante la hora en ese momento, 4:03, por lo tanto se inicia en la fila 4, columna 3. 4) Como los números de los trabajadores van desde 1 hasta 150 solo se toman en cuenta las primeras 3 cifras de cada número y se registran los números que se vayan encontrando en ese rango. El primer número encontrado fue el 054 en la fila 4 columna 5, se siguen revisando los números horizontalmente, el siguiente seleccionado fue el 095 y así sucesivamente. La muestra de 15 números fue la siguiente: 054 005 041 8.3.2. 095 050 021 080 024 105 004 046 009 147 018 146 Muestreo aleatorio sistemático Se acomodan los individuos de la población en cierta forma. Se selecciona un punto de partida aleatorio y luego se toma cada k-ésimo miembro para formar parte de la muestra. El procedimiento de selección consiste en: primeramente es necesario conocer el número de los elementos de la población (N) y el tamaño que deberá tener la muestra (n); se define cada cuantos elementos de la población seleccionaremos uno para la muestra con la siguiente ecuación k = Nn . Se comienza la selección eligiendo aleatoriamente el primer elemento entre 1 y k, luego se cuentan k elementos y se selecciona el segundo y así sucesivamente hasta completar la muestra. Este método tiene las ventajas: 8.3. MÉTODOS DE MUESTREO 154 de ser fácil de aplicar, no es necesario tener un listado de toda la población y asegura una cobertura de unidades de todos los tipos. Su desventaja es que si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener un sesgo. Ejemplo 8.3.2 Suponga que la población de interés consiste de 2000 expedientes en un archivo. Para seleccionar una muestra de 100 con el método aleatorio simple primero se tendría que numerar todos los expedientes. En este método se selecciona el primer expediente de acuerdo al método aleatorio simple, luego como se quiere una muestra de 100, se divide 2000 100 = 20, y se selecciona un expediente cada 20. 8.3.3. Muestreo aleatorio estratificado En un muestreo aleatorio estratificado se divide la población en subgrupos denominados estratos, y se selecciona una muestra de cada uno de ellos. En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, este se reparte de cierta manera que puede ser proporcional o no proporcional entre los distintos estratos definidos en la población. Como el nombre lo indíca, un procedimiento o afijación de muestreo proporcional requiere que el número de individuos de cada estrato esté en la misma proporción que la problación. Entre sus ventajas, este método asegura que la muestra represente adecuadamente a la población en función de ciertas variables seleccionadas, además de obtener estimaciones más precisas. La desventaja es que se ha de conocer como se distribuye la población de acuerdo a las variables utilizadas para la estratificación. Ejemplo 8.3.3 Se quiere obtener una muestra de 50 estudiantes de la universidad. Se pretende que la muestra sea representativa en relación al lugar de origen de los estudiantes (si son de la localidad o son foráneos). Se sabe que en esta universidad el 30 % de los estudiantes son foráneos. Primero debemos identificar los estratos de la población y sus respectivas proporciones: Estududiantes locales 0.70 Estudiantes foráneos 0.30 La muestra deberá mantener esas mismas proporciones, para lo cual es preciso multiplicar el tamaño de la muestra (n) por las proporciones de los estratos y obtenemos el número de elementos que serán selecionados de cada estrato: Estudiantes locales Estudiantes foráneos (0,70)(50) = 35 (0,30)(50) = 15 Ahora se procede a seleccionarlos por medio de alguno de los métodos anteriores. 8.4. DISTRIBUCIONES MUESTRALES 8.3.4. 155 Muestreo aleatorio por conglomerados El muestreo por conglomerados consiste en dividir la población en sectores o conglomerados, seleccionar una muestra aleatoria de esos sectores, y finalmente obtener una muestra aleatoria de cada uno de los sectores seleccionados. Muchas veces se le emplea para reducir el costo de realizar un muestreo de una población dispersa en una gran área geográfica. Entre sus ventajas se encuentra que es muy eficiente cuando la población es muy grande y dispersa, además de que no es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo. Su desventaja radica en que una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Ejemplo 8.3.4 Se quiere conocer la opinión de los padres de familia sobre los temas de educación sexual tratados en los libros de texto de primaria en la República Mexicana. Como la población está muy dispersa y es muy grande, es necesario hacer un muestreo por conglomerados en varias etapas. Primero dividimos la República en sectores geográficos, que podrían ser los estados, y seleccionamos una muestra aleatoria de ellos. Luego en cada uno de ellos hacemos una selección aleatoria de escuelas primarias. Y por último en las escuelas seleccionadas obtenemos una muestra aleatoria de padres de familia. 8.3.5. Error de Muestreo Al seleccionar una muestra aleatoria, sin importar por cual de los cuatro métodos, es poco probable que la media de la muestra sea idéntica a la media de la población de donde fue obtenida. De la misma forma, es probable que la desviación estándar de la muestra no sea exactamente igual al valor correspondiente de la población. Por lo tanto podemos esperar alguna diferencia entre un estadístico muestral y el correspondiente parámetro poblacional. Esta diferencia es llamada error de muestreo. 8.4. Distribuciones Muestrales Las distribuciones muestrales constituyen distribuciones de probabilidad de los estadísticos muestrales. Por ejemplo si tomamos una muestra aleatoria X1 , X2 , . . . , Xn de una población con cierta distribución y calculamos X y S2 ; podríamos establecer una distribución muestral de medias y una distribución muestral de varianzas. Además si tenemos dos poblaciones podemos extraer muestras aleatorias de cada población, calcular ciertos extadísticos muestrales de cada población, establecer relaciones entre ellos y finalmente obtener una distribución para dicha relación. Por ejemplo si tenemos dos poblaciones y extraemos muestras aleatorias de ciertos tamaños de cada población, luego calculamos las medias muestrales correspondientes, además de las respectivas varianzas, podríamos establecer una distribución muestral de sumas o de diferencias medias y una distribución muestral de relaciones de varianzas. 8.4. DISTRIBUCIONES MUESTRALES 156 A continuación presentaremos primeramente algunas distribuciones muestrales para el caso de una sola población y luego distribuciones muestrales para el caso de dos poblaciones. 8.4.1. Distribución Muestral de Medias Definición 8.4.1 Una distribución muestral de medias es una distribución de probabilidad de todas las posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una población. Para fines de entender mejor el concepto de “distribución muestral de medias” estudiemos la siguiente población. Don Pepe en su restaurante tiene 5 parrilleros (población), a los cuales se les paga por hora según su trabajo. Las percepciones de los parrilleros son las siguientes: Parrillero Adrián Blas Carmela Diana Enrique Percepción por hora $ 9,00 $ 8,00 $ 8,00 $ 8,00 $ 7,00 La población en este ejemplo son los ingresos por hora de los cinco parrilleros. Si calculamos la media de esta población obtendríamos 9+8+8+8+7 =8 5 Para facilitar la explicación y comenzar a elaborar la distribución muestral de medias, vamos a fijar el tamaño de muestra (n) en 2. Formamos todas las posibles muestras de tamaño 2, y como vemos en el siguiente cuadro son 10, y a cada una le calculamos la media. µ= muestra 1 2 3 4 5 6 7 8 9 10 parrilleros A-B A-C A-D A-E B-C B-D B-E C-D C-E D-E percepciones 9,00 8,00 9,00 8,00 9,00 8,00 9,00 7,00 8,00 8,00 8,00 8,00 8,00 7,00 8,00 8,00 8,00 7,00 8,00 7,00 media 8,50 8,50 8,50 8,00 8,00 8,00 7,50 8,00 7,50 7,50 A continuación elaboramos una distribución de probabilidad con las medias de las muestras, quedando de la siguiente manera: Distribución Muestral de Medias para n=2 media muestral frecuencia Probabilidad 7,50 3 0,3 8,00 4 0,4 8,50 3 0,3 10 1,0 8.4. DISTRIBUCIONES MUESTRALES 157 Calculamos la media de la distribución que acabamos de hacer: µX = 3(7, 5) + 4(8, 0) + 3(8, 5) =8 10 A partir de las observaciones anteriores podemos supioner que la media de la distribución muestral de medias es igual a la media de la población y que la forma de la distribución muestral presenta un cambio respecto a la forma de la población. Proposición 8.4.1 La media de la distribución muestral de medias denotada por µX está dada por E(X) = µX = µ donde µ es la media de la población de la cual provienen todas las muestras de tamaño n. Demostración Para realizar la demostración de esta proposición recordemos que una muestra aleatoria de tamaño n esta constituida por n variables aleatorias independientes e identicamente distribuidas, esto es cada una de las variables aleatorias Xi , ∀ i = 1, 2, . . . , n intervinientes tienen los mismos parámetros que el de la población de la cual provienen. Por lo tanto E(Xi ) = µ, ∀i = 1, 2, . . . , n; entonces E(X) = E ³1 ´ n ∑ n i=1 Xi 1 n 1 = ∑ E(Xi ) = nµ = µ n i=1 n Proposición 8.4.2 Si una población es infinita o si el muestreo es con reemplazamiento, entonces la varianza de la distribución muestral de medias, denotada por σ2X , esta dada por E(X − µ)2 = σ2X = σ2 n donde σ2 es la varianza de la población de la cual provienen todas las muestras de tamaño n. Demostración Como ya se dijo anteriormente las variables aleatorias Xi , ∀ i = 1, 2, . . . , n intervienientes en la muestra aleatoria son independientes e identicamente distribuidas con lo cual tendremos que Var(Xi ) = σ2 , ∀i = 1, 2, . . . , n y para cualquier par de variables aleatorias Xi , X j , ∀ i 6= j en la muestra se tendrá Var(Xi + X j ) = Var(Xi ) +Var(X j ). Por lo tanto E(X − µ)2 = σ2X = Var(X) = Var ³1 ´ 1 n 1 2 σ2 = nσ = X Var(X ) = i i ∑ ∑ n i=1 n2 i=1 n2 n n Observación: Cuando el tamaño de la población es finita o el muestreo es sin reemplazamiento, entonces σ2 ³ N − n ´ σ2X = n N −1 Cuando el tamaño de la muestra es pequeño (n < 30) y la varianza poblacional es desconocida, la distribución muestral de medias √ se podrá relacionar con la distribución t de (X − µ) n − 1 Student, teniendo en cuenta que tc = ∼ t(n − 1). S 8.4. DISTRIBUCIONES MUESTRALES 8.4.2. 158 Teorema del Límite Central El Teorema del Límite Central consiste en un conjunto de resultados acerca del comportamiento de las distribuciones muestrales. En el que se afirma, bajo ciertas hipótesis, que la distribución de las medias de un número muy grande de muestras se aproxima a una distribución normal. El término Central, debido a Polyá (1920), significa fundamental, o de importancia central, este describe el rol que cumple este teorema en la teoría de la probabilidad. Muchos grandes matemáticos colaboraron para desarrollar el teorema del límite central, sin embargo Laplace ocupa un lugar fundamental, a pesar de que nunca enunció formalmente este resultado, ni lo demostró rigurosamente, a él le debemos este importante descubrimiento. Teorema 8.4.1 Teorema del Límite Central: Para una población con una media µ y una varianza σ2 , la distribución de las medias de todas las muestras posibles de tamaño n generadas de la población estará distribuida de forma aproximadamente normal asumiendo que el tamaño de la muestra es lo suficientemente grande. Con relación al teorema del límite central debemos enfatizar en: 1. Si el tamaño de la muestra n es suficientemente grande (n ≥ 30) la distribución de las medias será aproximadamente normal. No importa si la población es normal, sesgada u uniforme, si la muestra es grande el teorema se aplicará. 2. La media de la población y la media de la distribución de todas las posibles muestras serán iguales. Si la población es grande y un gran número de muestras son seleccionadas de esa población entonces la media de las medias muestrales se aproximará a la media poblacional. 3. La desviación estándar de la distribución muestral de las medias, a la que llamaremos error estándar, es determinado por: σ a) Si la población es infinita o si el muestreo es con reemplazamiento: σX = √ n r N −n σ b) Si la población es finita o el muestreo es sin reemplazamiento: σX = √ n N −1 Ejemplo 8.4.1 Los pesos de los paquetes recibidos en un departamento de almacenamiento tienen una media de 300 libras y una desviación estándar de 50 libras. a) ¿Cuál es la probabilidad de que el peso medio de 35 paquetes recibidos aleatoriamente sea menor que 320 libras? b) ¿Cuál es la probabilidad de que el peso medio de 40 paquetes recibidos aleatoriamente sea mayor que 290 libras? c) ¿Cuál es la probabilidad de que el peso de 25 paquetes recibidos aleatoriamente y cargados en un ascensor supere el límite de seguridad del ascensor, que es 8200 libras? 8.4. DISTRIBUCIONES MUESTRALES 159 Desarrollo Según las condiciones del problema; la media y la desviación estándar poblacional son respectivamente µ = 300 libras y σ = 50 libras. Como no se conoce el tamaño de la población se asume que es infinita, por lo que los parámetros de la distribución muestral de medias σ 50 serán: µX = µ = 300 libras y σX = √ = √ libras. Entonces la probabilidad de que n n a) el peso medio de 35 paquetes recibidos aleatoriamente sea menor que 320 libras es ³ 320 − 300 ´ P(X < 320) = P Z < = P(Z < 2, 37) = 0, 5 + A(2, 37) 50 √ 35 Buscando en la tabla de la distribución Z encontramos que A(2, 37) = 0, 4911 por lo que la probabilidad buscada esta dada por P(X < 320) = 0, 5 + 0, 4911 = 0, 9911 b) el peso medio de 40 paquetes recibidos aleatoriamente sea mayor que 290 libras ³ 290 − 300 ´ = P(Z > −1, 26) = 0, 5+A(−1, 26) = 0, 5+A(1, 26) P(X > 290) = P Z > 50 √ 40 Buscando nuevamente en la tabla de Z encontramos que A(1, 26) = 0, 3962 por lo que la probabilidad buscada esta dada por P(X > 290) = 0, 5 + 0, 3962 = 0, 8962 8.4. DISTRIBUCIONES MUESTRALES 160 c) el peso de 25 paquetes recibidos aleatoriamente y cargados en un ascensor supere el límite de peso de 8200 libras es ³ ³ 8200 ´ 328 − 300 ´ P X> =P Z> = P(Z > 2, 8) = 0, 5 − A(2, 8) √50 25 25 Buscando en la tabla de la distribución Z encontramos que A(2, 8) = 0, 4974 por lo que la probabilidad buscada esta dada por P(X > 328) = 0, 5 − 0, 4974 = 0, 0026 Ejemplo 8.4.2 El peso medio de un grupo de 1000 estudiantes es de 68,2 kg y la desviación estándar es de 2,5 kg. Halle la probabilidad de que en una muestra de 100 estudiantes la media muestral a) sea mayor que 68,9 kg b) esté entre 67,5 y 68,5 kg Desarrollo Según las condiciones del problema; la media y la desviación estándar poblacional son respectivamente µ = 68, 2 kg y σ = 2, 5 kg. El tamaño de la población es 1000 estudiantes, por lo que los distribución muestral de medias serán: µX = µ = 68, 2 kg y r parámetros de lar 2, 5 N −n 1000 − 100 σ =√ = 0, 2373 kg. Entonces la probabilidad de que σX = √ · · n N −1 1000 − 1 100 la media muestral a) sea mayor que 68, 9 kg es ³ 68, 9 − 68, 2 ´ = P(Z > 2, 95) = 0, 5 − A(2, 95) P(X > 68, 9) = P Z > 0, 2373 Buscando en la tabla de la distribución Z encontramos que A(2, 95) = 0, 4984 por lo que la probabilidad buscada está dada por P(X > 328) = 0, 5 − 0, 4984 = 0, 0016 8.4. DISTRIBUCIONES MUESTRALES 161 b) esté entre 67, 5 y 68, 5 kg es ³ 67, 5 − 68, 2 68, 5 − 68, 2 ´ P(67, 5 < X < 68, 5) = P <Z< = P(−2, 95 < Z < 1, 26) 0, 2373 0, 2373 = A(−2, 95) + A(1, 26) = A(2, 95) + A(1, 26) Buscando en la tabla de la distribución Z encontramos que A(2, 95) = 0, 4984 y A(1, 26) = 0, 3962 por lo que la probabilidad buscada está dada por P(67, 5 < X < 68, 5) = 0, 4984 + 0, 3962 = 0, 8946 8.4.3. Distribución Muestral de Varianzas Supongase que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución normal con media conocida µ y varianza desconocida σ2 > 0. Se desarrollará ahora una distribución de muestreo para la varianza muestral S2 . Por definición S2 = 1 n (Xi − µ)2 ∑ n i=1 Como el parámetro poblacional µ no siempre es conocido, muchas veces se sustituye µ por X, en la definición de varianza muestral. Entonces ´2 ´2 n ³ n ³ X X X − X − i i ∑ ∑ Ŝ2 = i=1 n−1 y S2 = i=1 n 8.4. DISTRIBUCIONES MUESTRALES 162 Deducción de la distribución de muestreo de S2 La sustitución anterior lo realizamos para determinar la distribución de muestreo de S2 , con base a una muestra aleatoria proveniente de una distribución normal. Entonces S2 = 1 n 1 n 2 (X − X) = [(Xi − µ) − (X − µ)]2 i ∑ ∑ n i=1 n i=1 n nS = ∑ [(Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2 ] 2 i=1 n n n i=1 n i=1 i=1 = ∑ (Xi − µ)2 − 2(X − µ) ∑ (Xi − µ) + ∑ (X − µ)2 = ∑ (Xi − µ)2 − 2n(X − µ)2 + n(X − µ)2 i=1 n = ∑ (Xi − µ)2 − n(X − µ)2 i=1 Por lo tanto n ∑ (Xi − µ)2 = nS2 + n(X − µ)2 i=1 Dividimos la expresión anterior por σ2 tenemos n ∑ (Xi − µ)2 i=1 nS2 n(X − µ)2 + σ2 σ2 = σ2 n ∑ (Xi − µ)2 Por la prosición 7.2.5 la v.a. i=1 σ2 tiene una distribución ji-cuadrada con n gra- n(X − µ)2 dos de libertad, además por la proposición 7.2.3 la v.a. tiene una distribución σ2 ji-cuadrada con un grado de libertad, por lo que finalmente por la proposición 7.2.4 la v.a. nS2 tiene una distribución ji-cuadrada con n − 1 grados de libertad. σ2 Probamos entonces que la distribución muestral de varianzas para muestras de tamaño n provenientes de una distribución normal con media µ y varianza σ2 tiene una distribución ji-cuadrada con n − 1 grados de libertad. Proposición 8.4.3 Si se extraen muestras de tamaño n de una población normal con media µ y varianza σ2 , entonces la esperanza y la varianza de S2 son respectivamente µS 2 = . n−1 2 2(n − 1) 4 σ y σS 2 = σ n n2 8.4. DISTRIBUCIONES MUESTRALES 163 Desarrollo Para realizar la demostración primeramente recordemos que la esperanza y la varianza de una distribución ji-cuadrada con con k grados de libertad están dadas por k y 2k respectinS2 vamente. Además tomemos en cuenta que la v.a. 2 tiene una distribución ji-cuadrada con σ n − 1 grados de libertad. Entonces E por lo que ³ nS2 ´ σ2 = n − 1 y Var ³ nS2 ´ σ2 = 2(n − 1) n n2 2 E(S ) = n − 1 y Var(S2 ) = 2(n − 1) σ2 σ4 con lo cual E(S2 ) = n−1 2 2(n − 1) 4 σ y Var(S2 ) = σ n n2 Ejemplo 8.4.3 Una población normal tiene una varianza de 15. Si se extraen muestras de tamaño 5 de esta población; ¿qué porcentajes pueden tener varianzas a) menores que 10? b) mayores que 20? Calcule además la media y la varianza de esta distribución muestral de varianzas. Desarrollo Según las condiciones del problema; σ2 = 15 y n = 5. Además el grado de libertad será n − 1 = 5 − 1 = 4, entonces a) para responder este inciso debemos calcular primeramente χ21 que viene dada por la siguiente relación nS2 (5)(10) χ21 = 21 = = 3, 3333 σ 15 Luego se busca en la tabla χ2 un valor que tenga 4 grados de libertad y este lo más cercano a 3,3333. Este valor resulta ser χ2[0,50 ; 4] = 3, 36 y por lo cual la probabilidad buscada es de aproximadamente 0,50. 8.4. DISTRIBUCIONES MUESTRALES 164 b) para responder a este inciso se debe realizar un procedimiento análogo al anterior; esto es nS2 (5)(20) χ22 = 22 = = 6, 667 σ 15 Luego en la tabla χ2 se observa que el valor 6,667 con 4 grados de libertad está ente los valores χ2[0,80 ;4] = 5, 99 y χ2[0,90 ;4] = 7, 78; con lo cual podríamos tomar al promedio de estos valores como el valor más cercano. Entonces χ2[0,80 ;4] + χ2[0,90 ;4] 5, 99 + 7, 78 = 6, 885 2 2 con lo cual la probabilidad buscada es de aproximadamente 1 − 0, 85 = 0, 15. χ2[0,85 ;4] = = La esperanza y la varianza para esta distribución vienen dadas por la siguientes relaciones n−1 2 4 σ = 15 = 12 n 5 2(n − 1) 2 2(4) Var(S2 ) = σ = 2 15 = 4, 8 n2 5 E(S2 ) = 8.4.4. Distribución F Esta distribución de probabilidad es usada en varias situaciones. Es usada cuando queremos probar si dos varianzas muestrales provienen de la misma población o de poblaciones con características idénticas, además es aplicada cuando se quiere comparar las medias de más de dos poblaciones simultáneamente. La distribución F se define como la razón entre dos distribuciones ji-cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad. Consideremos dos variables aleatorias independientes Y y W tales que Y tiene una distribución χ2 con m grados de libertad y W una distribución χ2 com n grados de libertad, donde m y n son enteros positivos. Se define una nueva variable aleatoria como sigue: X= Y m W n = nY mW entonces a la variable aleatoria X se le denomina distribución F de Snedecor con m y n grados de libertad. 8.4. DISTRIBUCIONES MUESTRALES 165 Definición 8.4.2 Una variable aleatoria X tiene distribución F de Snedecor si su función de densidad de probabilidad está dada por ´ m n  ³ m+n m  Γ m 2 n2  2 x 2 −1   ³ ´ ³ ´ · si x > 0  m+n n m 2 (mx + n) Γ Γ f (x) = 2 2      0 si x ≥ 0 Figura 8.1: Gráfica de f (x) cuando los parámetros m y n toman diferentes pares de valores. Características de la distribución F Hay una “familia” de distribuciones F. Cada miembro de esta familia está determinado por los grados de libertad del numerador (varianza mayor) y por los del denominador (varianza menor). La distribución F es una distribución continua y no puede tomar valores negativos. La curva que representa la distribución F está sesgada hacia la derecha. Su rango de valores va desde 0 hasta infinito, cuanto más se incrementa F, la curva se aproxima al eje X, pero nunca lo toca. Inferencias con respecto a las varianzas de dos distribuciones normales independientes. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribución normal con media µX y varianza σ2X , sea además Y1 ,Y2 , . . . ,Ym otra muestra aleatoria de una distribuciónb normal con media µY y varianza σY2 . Si se supone independencia entre las variables aleatorias X e Y , las (n − 1)SX2 (m − 1)SY2 estadísticas uX = y u = son distribuciones ji-cuadradas con n − 1 y Y σ2X σY2 8.4. DISTRIBUCIONES MUESTRALES 166 m − 1 grados de libertad. Entonces F= ux n−1 uY m−1 = SX2 σ2X SY2 σY2 tiene una distribución F con n − 1 y m − 1 grados de libertad. Si las dos varianzas poblacionales son iguales la fórmula se reduce a: F= 8.4.5. SX2 SY2 Distribución Muestral de Proporciones Sea una población finita de tamaño N, en la que la probabilidad de ocurrencia de un suceso en el que se está interesado es P y la probabilidad de ocurrencia del suceso contrario a aquel en el que se está interesado es Q = 1 − P (población Bernoulli). Si de está población se extraen todas las posibles muestras de tamaño n, con n < N, y se averigua para cada una de las muestras la proporción correspondiente al atributo o categoria en el que se está interesado con relación al total de elementos n de la muestra se obtendrá una distribución muestral de proporciones. X Se define una proporción de muestra como p̂ = , donde X es el número de unidades de n la muestra que posee el rasgo en el que se está interesado y n es el tamaño de muestra. Por su forma de definición X es la suma de las variables aleatorias Benoulli de la muestra que poseen el rasgo de interés y por lo tanto X tiene distribución Binomial con parámetro P. Si se obtiene una muestra de tamaño n al azar, con reemplazamiento (reposición), la distribución por muestreo de P, obedece a la ley de probabilidad binomial. La media y la varianza están dadas por: ³ X ´ E(X) nP = E( p̂) = µ p̂ = E = =P n n n ³ X ´ Var(X) nP(1 − P) P(1 − P) = σ2p̂ = Var = = n n2 n2 n para muestras de tamaño n < 30. Cuando el muestreo se realiza sin sustitución, obedece a la ley de probabilidades hipergeométrica y como la población es finita, la media y la varianza están dadas por ³ X ´ E(X) 1 nk k = = · = =P E( p̂) = µ p̂ = E n n n N N ³ X ´ Var(X) nk(N − k)(N − n) 1 k ³ ´ k N − n P(1 − P) N − n σ2p̂ = Var = = = · · 1− · = · 2 2 2 n n n N (N − 1) n N N N −1 n N −1 Cuando el muestreo es efectuado ya sea con o sin reemplazamiento, si el tamaño de las muestras es n ≥ 30, la distribución muestral de las proporciones en las muestras se aproxima a la normal por aplicación del teorema central del límite. A continuación se enuncia el teorema central del límite para este caso. 8.4. DISTRIBUCIONES MUESTRALES 167 Teorema de la convergencia o central del límite Sea una variable aleatoria con sólo dos caracteres complementarios (el considerado y su contrario) cuyas proporciones con respecto al total son P y 1 − P respectivamente. Si de esta población se extraen muestras de tamaño n grande de forma que nP > 5 y n(1 − P) > 5, la distribución muestral de las proporciones p̂, del caracter considerado en la población, que aparecen en cada una de las muestras, sigue una distribución normal con valor medio µ p̂ = P P(1 − P) y varianza σ2p̂ = . n p̂ − P La variable se aproxima a una normal estandar cuando n se aproxima al infinito. σ p̂ La función de distribución de p̂ con n grande es ³ pˆ0 − P ´ P( p̂ ≤ pˆ0 ) = P Z ≤ σ p̂ Cuando n no es tan grande, pueden obtenerse aproximaciones normales muy satisfac1 torias, introduciendo un factor de corrección de continuidad dada por . La función de 2n distribución de p̂ para este caso será 1 ³ − P´ pˆ0 ± 2n P( p̂ ≤ pˆ0 ) = P Z ≤ σ p̂ Ejemplo 8.4.4 De un total de 1000 muestras de 200 niños cada uno, ¿en cuanto cabe esperar que a) menos del 40 % sean niños? b) entre el 40 % y el 60 % sean niñas c) el 53 % o más sean niñas Desarrollo Según las especificaciones de este problema tenemos 1000 muestras, cada una de tamaño n = 200. Como la población del cual provienen las muestras está constituido por dos caracteres: niño y niña, con lo cual se tiene 1 1 = 0, 5 y P(niña) = = 0, 5 2 2 Para responder a los tres incisos calculemos primeramente σ p̂ ; que será el mismo para los tres incisos ya que los dos acontecimientos involucrados tienen las misma probabilidad de ocurrencia. Por lo tanto r r P(1 − P) (0, 5)(0, 5) = = 0, 0354 σ p̂ = n 200 P(niño) = 1 ; que se le suma o se le resta a Además se tendrá en cuenta el factor de corrección 2n los límites en los cálculos de acuerdo a si se quiere que influya o no las probabilidades de ocurrencia de tales valores límites. Esta consideración lo hacemos debido a que n = 200 no es tan grande. 8.4. DISTRIBUCIONES MUESTRALES 168 a) La probabilidad de que menos del 40 % sean niños esta dada por ! Ã 1 0, 40 − 2(200) − 0, 5 P(pniño < 0, 40) = P Z < = P(Z < −2, 90) = 0, 5 − A(−2, 90) 0, 0354 Se restó el factor de corrección al límite superior 0,4 debido a que pniño < 0, 4. Esta resta garantiza que la probabilidad de ocurrencia de este valor extremo no forme parte del resultado final. Luego en la tabla de Z se observa que A(−2, 90) = A(2, 90) = 0, 4981, con lo cual P(pniño < 0, 40) = 0, 5 − 0, 4981 = 0, 0019 Finalmente (1000)(0, 0019) = 1, 9. Por lo que en aproximadamente 2 muestras cabe esperar que menos del 40 % sean niños. b) La probabilidad de que entre el 40 % y 60 % sean niñas esta dada por Ã ! 1 1 0, 40 + 2(200) − 0, 5 0, 60 − 2(200) − 0, 5 P(0, 4 < pniña < 0, 6) = P <Z< 0, 0354 0, 0354 = P(−2, 75 < Z < 2, 75) = A(−2, 75) + A(2, 75) = 2A(2, 75) El factor de corrección se le sumó al límite inferior 0,4 y se le restó al superior 0,6; debido a que 0, 4 < pniña < 0, 6. Esta suma y resta se hizo para garantizar que la 8.4. DISTRIBUCIONES MUESTRALES 169 probabilidad de ocurrencia de estos valores extremos no formen parte del resultado final. Luego en la tabla de Z se observa que A(2, 75) = 0, 4970, con lo cual P(0, 4 < pniña < 0, 60) = 2(0, 4970) = 0, 994 Entonces (1000)(0, 994) = 994. Lo que significa que con 994 muestras cabe esperar que entre 40 % y 60 % sean ñinas. c) La probabilidad de que 53 % o más sean niñas está dada por Ã ! 1 0, 53 − 2(200) − 0, 5 P(pniña ≥ 0, 53) = P Z ≥ = P(Z ≥ 0, 78) = 0, 5 − A(0, 78) 0, 0354 Se restó el factor de corrección al límite inferior 0,53 debido a que pniña ≥ 0, 53. Esta resta garantiza que la probabilidad de ocurrencia de este valor extremo forme parte del resultado final. Luego en la tabla de Z se observa que A(0, 78) = 0, 2823, con lo cual P(pniña ≥ 0, 53) = 0, 5 − 0, 0, 2823 = 0, 2177 Con lo cual (1000)(0, 2177) = 217, 7. Por lo que en aproximadamente 218 muestras cabe esperar que 53 % o más sean niñas. 8.4.6. Distribución Muestral de Sumas y de Diferencias de medias Sean dos poblaciones normalmente distribuidas con medias µX y µY , además de varianzas y σY2 respectivamente. De la población uno se extraen todas las posibles muestras de tamaño n1 , y de la población dos todas las posibles muestras de tamaño n2 , con el fin de obtener M muestras de cada población. Si de cada muestra n1 se extrae su media X y de cada muestra n2 se extrae su media Y y se relacionan de tal forma que establescan sumas o diferencias (X + Y ó X − Y ) se tendrá una variable aleatoria formada por el conjunto de dichas sumas ó diferencias. σ2X Proposición 8.4.4 Sean X e Y dos variables aleatorias independientes y normalmente distribuidas con medias µX y µY , además de varianzas σ2X y σY2 respectivamente. Si todos los posibles pares de muestras se extraen de estas poblaciones, tanto la suma como la diferencia entre las medias muestrales estarán normalmente distribuidas con medias µX+Y = µX + µY y µX−Y = µX − µY respectivamente, y además las varianzas de estas dos distribuciones serán 2 iguales, esto es σX+Y = σ2X−Y = σX2 + σY2 . 8.4. DISTRIBUCIONES MUESTRALES 170 Demostración Recordemos primeramente que por la proposición 8.4.1 la media de toda distribución muestral de medias coincide con la media de la población del cual se extraen las muestras. Entonces la media de la distribuciones muestral de sumas y la media de la distribución muestral de diferencias serán respectivamente E(X +Y ) = E(X) + E(Y ) = µX + µY E(X −Y ) = E(X) − E(Y ) = µX − µY Como las variables aleatorias X e Y son independientes se tendrá que también X e cY , con c 6= 0 serán independientes entonces Var(X +Y ) = Var(X) +Var(Y ) = σ2X + σY2 Var(X −Y ) = Var[X + (−Y )] = Var(X) +Var(−Y ) = Var(X) +Var(Y ) = σX2 + σY2 Observación: Si las poblaciones son infinitas o los muestreos son sin reemplazamiento entonces σ2 σ2 σ2X+Y = σ2X−Y = X + Y nX nY de lo contrario si almenos uno de ellos por ejemplo la población 1 es finita o el muestreo fue hecho sin reemplazamiento se tiene σ2X2 = σ2X NX − nX · nX NX − 1 donde nX y NX son el tamaño de la muestra y de la población uno respectivamente. Cuando las muestras n1 y n2 son de gran tamaño, esto es n1 + n2 − 2 ≥ 30, la distribución muestral de sumas de medias por aplicación del teorema central del límite se aproxima a una distribución normal con media µX+Y = µX + µY y varinaza σ2X+Y = σ2X + σY2 . Por lo tanto la variable aleatoria (X +Y ) − µX+Y Z= ∼ N(0, 1) σX+Y Bajo estas mismas condiciones la distribución muestral de diferencias de medias también se aproxima a una distribución normal con media µX−Y = µX −µY y varinaza σ2X−Y = σ2X +σY2 y la variable aleatoria. (X −Y ) − µX−Y Z= ∼ N(0, 1) σX−Y Ejemplo 8.4.5 Los acumuladores del automóvil de manufactura XY tienen una duración promedio de 360 días con una desviación estándar de 45 días, y los de manufactura ZW duran en promedio 300 días con una desviación estándar de 30 días. Si se prueban muestras al azar de 50 acumuladores de cada marca. a) Halllar la probabilidad de que los de la marca XY tenga una duración promedio de a lo más 40 días sobre los de la marca ZW. 8.4. DISTRIBUCIONES MUESTRALES 171 b) Halllar la probabilidad de que la suma de los promedios de los dos grupos sea mayor que 670 días. Desarrollo Si nombramos por X a los acumuladores del automóvil de manufactura XY y por Y a los acumuladores del automóvil de manufactura ZW tendremos: µX = 360 días, σX = 45 días, nX = 50, µY = 300 días, σY = 30 días y nY = 50. a) La probabilidad de que los acumuladores de la marca XY tenga una duración promedio de a lo más 40 días sobre los de la marca ZW, se puede calcular estableciendo una distribución muestral de diferencias de medias sobre las dos poblaciones de acumuladores. Además n1 + n2 − 2 = 50 + 50 − 2 = 98, con lo cual Ã ! (X −Y ) − (µX − µY ) q P(X ≤ Y + 40) = P(X −Y ≤ 40) = P Z ≤ σ2X + σY2 entonces se tiene que Ã 40 − (360 − 300) P(X −Y ≤ 40) = P Z ≤ q 452 302 50 + 50 ! = P(Z ≤ −2, 61) = 0, 5 − A(−2, 61) Buscando en la tabla Z: A(−2, 61) = A(2, 61) = 0, 4955, con lo cual P(X −Y ≤ 40) = 0, 5 − 0, 4955 = 0, 0045 b) La probabilidad de que suma de los promedios de los acumuladores tenga una duración mayor de 670 días, se puede calcular estableciendo una distribución muestral de sumas de medias sobre las dos poblaciones de acumuladores para automóviles. Además se tiene que n1 + n2 − 2 = 50 + 50 − 2 = 98, con lo cual Ã ! (X +Y ) − (µX + µY ) q P(X +Y > 670) = P Z > σ2X + σY2 8.4. DISTRIBUCIONES MUESTRALES 172 entonces se tiene que Ã 670 − (360 + 300) q P(X +Y > 670) = P Z > 452 302 50 + 50 ! = P(Z > 1, 31) = 0, 5 − A(1, 31) Buscando en la tabla Z: A(1, 31) = 0, 4049, con lo cual P(X +Y > 670) = 0, 5 − 0, 4049 = 0, 0951 A continuación se analizará que ocurre cuando de las poblaciones se extraen pequeñas muestras (cuando n1 + n2 − 2 < 30), y además las varianzas poblacionales son desconocidas. Para ello consideremos las siguientes variables aleatorias con sus distribuciones asociadas (X ±Y ) − µX±Y n1 S 2 n2 SY2 ∼ N(0, 1); 2 X ∼ χ2 (n1 − 1) y ∼ χ2 (n2 − 1) 2 σX±Y σX σY Por la proposición 7.2.4 n1 SX2 n2 SY2 + 2 ∼ χ2 (n1 + n2 − 2); entonces σ2X σY (X ±Y ) − µX±Y σX±Y T=v ∼ t(n1 + n2 − 2) u u n1 SX2 n2 SY2 u 2 + 2 t σX σY n1 + n2 − 2 Si se asume que las varianzas poblacionales son iguales; esto es σ2X = σY2 = σ2 ; se tendrá las siguientes relaciones s r 1 σ2 σ2 1 + =σ + σX±Y = n1 n2 n1 n2 v u u n1 SX2 n2 SY2 s u 2 + 2 t σX σY 1 n1 SX2 + n2 SY2 = n1 + n2 − 2 σ n1 + n2 − 2 8.4. DISTRIBUCIONES MUESTRALES 173 Entonces se tendrá que (X ±Y ) − µX±Y r 1 1 σ + (X ±Y ) − µX±Y (X ±Y ) − µX±Y n n2 r = T= s 1 =s r 1 1 2 2 2 2 1 n1 SX + n2 SY 1 1 n1 SX + n2 SY Sp + + n1 n2 n1 + n2 − 2 n1 n2 σ n1 + n2 − 2 s n1 SX2 + n2 SY2 donde SP = recibe el nombre de varianza combinada de las muestras. n1 + n2 − 2 Como se puede observar tanto T como su distribución no dependen de las varianzas poblaciones. Esto es característico de las distribuciones t. 8.4.7. Distribución Muestral de Relaciones de Varianzas 8.4.8. Distribución Muestral de Diferencias de Proporciones Sean dos poblaciones con distribuciones de Bernoulli, tal que la primera tiene parámetro P1 y la segunda parámetro P2 . De la población uno se extraen muestras aleatorias de tamaño n1 , y de la población dos muestras de tamaño n2 . Sean las proporciones muestrales pˆ1 = X Y y pˆ2 = n1 n1 donde X es la v.a. que indica el número de unidades de la muestra n1 que posee cierto rasgo y Y la v.a. que indica el número de unidades en la muestra n2 que posee también un cierto rasgo. Si las proporciones muestrales se relacionan a pares de tal forma que establescan diferencias ( pˆ1 − pˆ2 ); se tendrá una nueva v.a. formada por el conjunto de dichas diferencias. Si X e Y son independientes la distribución muestral de diferencias de proporciones estarán dadas respectivamente por µ pˆ1 − pˆ2 = E( pˆ1 − pˆ2 ) = E( pˆ1 ) − E( pˆ2 ) = µ pˆ1 − µ pˆ2 σ2pˆ1 − pˆ2 = Var( pˆ1 − pˆ2 ) = Var( pˆ1 ) +Var( pˆ2 ) = σ2pˆ1 + σ2pˆ2 Si las poblaciones son infinitas o el muestreo en cada población se realiza con sustitución la distribución muestral de proporciones en cada población seguirá una ley bimonial y se tendrá que µ pˆ1 − pˆ2 = P1 − P2 P1 (1 − P1 ) P2 (1 − P2 ) + n1 n2 Por el contrario si almenos una de las poblaciones es finita o el muestreo en él se realiza sin reemplazamiento, la distribución muestral de proporciones obtenida obedecerá a la ley hipergeométrica y se tendrá que σ2pˆ1 − pˆ2 = σ2pˆ1 = P2 (1 − P2 ) N2 − n2 P1 (1 − P1 ) N1 − n1 · ó σ2pˆ2 = · n1 N1 − 1 n2 N2 − 1 8.5. PROBLEMAS 174 donde N1 es el tamaño de la población uno y N2 el tamaño de la población dos. Si las muestras son lo suficientemente grandes, por aplicación del teorema central del límite, la distribución muestral de diferencias de proporciones se apoximará a la normal con media µ pˆ1 − pˆ2 y varianza σ2pˆ1 − pˆ2 . Ejemplo 8.4.6 Un colegio de artes liberales tiene 100 profesores, 60 de los cuales tienen el doctorado. Dos muestras con n1 = n2 = 30, son extraídas independientemente de este grupo de profesores, con reposición, y se anotan los números de los que tienen el doctorado. Hallar la probabilidad de que las dos muestras difieran en 8 ó más en el número con doctorado. Desarrollo Según el problema el tamaño de la población es de 100 profesores, de las cuales 60 tienen doctorado y 40 no, con lo cual la proporción de profesores con doctorado es P = 0, 6 y la de su opuesto es 1 − P = 0, 4. El rasgo a estudiar en cada muestra es tiene doctorado. X Y y p̂2 = ; donde X representa el número de profesores con doctorado n1 n2 en la muestra n1 y Y número de profesores con doctorado en la muestra n2 . Además como los muestreos fueron hechos de la misma población y con sustitución, se tiene Se define p̂1 = µ p̂1 − p̂2 = P1 − P2 = 0, 6 − 0, 6 = 0 s σ p̂1 − p̂2 = P1 (1 − P1 ) P2 (1 − P2 ) + = n1 n2 r (0, 6)(0, 4) (0, 6)(0, 4) + = 0, 1265 30 30 Entonces la probabilidad de que las dos muestras difieran en 8 ó más en el número de profesores con doctorado está dada por ³ ³ X −Y 0, 2667 ´ 8´ = P( p̂1 − p̂2 ≥ 0, 2667) = P Z ≥ P(X −Y ≥ 8) = P ≥ 30 30 0, 1265 = P(Z ≥ 2, 11) = 0, 5 − A(2, 11) Finalmente la probabilidada pedida es P(X −Y ≥ 8) = 0, 5 − 0, 4826 = 0, 0174. 8.5. Problemas Capítulo 9 Estimación 9.1. Introducción El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población. Los parámetros poblacionales pertenecen a ciertos conjuntos de valores denominados espacios parámetricos. Un problema de inferencia estadística o, más simplemente, un problema de estadística es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia acerca de tal distribución. En otras palabras, en un problema de estadística existen dos o más distribuciones de probabilidad que podrían haber generado algunos datos experimentales. En la mayoria de los problemas reales, existe un número infinito de distribuciones posibles distintas que podrían haber generado los datos. Analizando los datos, se intenta conocer la distribución desconocida para realizar inferencias acerca de ciertas propiedades de la distribución y determinar la verosimilitud relativa que cada distribución posible tiene de ser la correcta. Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los problemas de estimación y los de prueba de hipótesis. El procedimiento mediante el cual; a partir del conocimiento de las características de la muestra que llamaremos estimadores; inferimos las características de la población se llama estimación, que a su vez se divide en estimación puntual y estimación por intervalos. 9.2. Estimadores y sus propiedades Definición 9.2.1 Sea X una v.a. con una distribución de probabilidad que depende de un parámetro desconocido θ perteneciente a un espacio parámetrico Ω. Sea X1 , X2 , . . . , Xn una muestra aleatoria de X. Además sean x1 , x2 , . . . , xn los valores muestrales correspondientes. Si g(X1 , X2 , . . . , Xn ) es una función de la muestra que va a ser usada para estimarle a θ, nos referimos a g como un estimador de θ. 175 9.2. ESTIMADORES Y SUS PROPIEDADES 176 El valor que toma g, es decir g(x1 , x2 , . . . , xn ) será mencionado como una estimación de θ y habitualmente es escrito como: θ̂ = g(x1 , x2 , . . . , xn ) 9.2.1. Propiedades de un buen estimador Insesgado Se dice que un estimador para un parámetro poblacional es insesgado si su valor esperado es igual al verdadero valor del parámetro poblacional. Esto es; si θ̂ es el estimador y θ es el parámetro entonces: E(θ̂) = θ X un estimación del parámetro P; donde X es una v.a. binon mial con parámetros P y n. Probar que p̂ es un estimador insesgado de P. Ejemplo 9.2.1 Sea p̂ = Desarrollo Recordemos que si X ∼ bin(P, n) tendremos que E(X) = nP. Entonces ³X ´ 1 1 E( p̂) = E = E(X) = nP = P n n n por lo que p̂ es un estimador insesgado de P. Eficiente La eficiencia se refiere al tamaño de la varianza del estadístico. Si comparamos dos estadísticos; θ̂1 y θ̂2 ambos insesgados con varianzas Var(θ̂1 ) y Var(θ̂2 ) respectivamente; y tratamos de decidir cual de ellos es un estimador más eficiente, escogeríamos al que tuviese la menor varianza, es decir se preferirá a θ̂1 si Var(θ̂1 ) < Var(θ̂2 ). El estadístico eficiente recibe el nombre estadístico ó estimador insesgado de varianza mínima. Ejemplo 9.2.2 Sea una población con media µ y varianza σ2 . La distribución muesσ2 y la distral de medias tiene media dada por E(X) = µ y varianza Var(X) = n tribución muestral de medianas tiene también media E(Xmediana ) = µ, pero varianza πσ2 Var(Xmediana ) = . Vemos que X y Xmediana son estimadores insesgados del parámetro 2n µ y además Var(X) < Var(Xmediana ), por lo que X es un estimador eficiente de µ. Eficiencia relativa También se pueden comparar dos estimadores en base a su eficiencia relativa. Sean θ̂1 y θ̂2 dos estimadores diferentes del parámetro θ. La eficiencia relativa de θ̂2 , comparada con θ̂1 , se define por la rezón: E(θ̂1 − θ)2 (9.2.1) R= E(θ̂2 − θ)2 9.2. ESTIMADORES Y SUS PROPIEDADES 177 • Si R > 1, θ̂2 será relativamente más eficiente que θ̂1 . • Si R < 1, θ̂1 será relativamente más eficiente que θ̂2 . En la ecuación anterior E(θ̂i − θ)2 , para i = 1, 2 se llama error cuadrático medio y pueden escribirse como E(θ̂i − θ)2 = Var(θ̂i ) + [θ − E(θ̂i )]2 donde θ − E(θ̂i ) se llama sesgo del estimador y puede ser positivo, negativo ó cero. Si es cero el estimador será insesgado. Si θ̂1 y θ̂2 son insesgados, la eficiencia relativa no es más que el cociente de sus varianzar. Var(θ̂1 ) R= (9.2.2) Var(θ̂2 ) Consistente ó convergente Un estadístico es un estimador consistente de un parámetro poblacional, si a medida que aumenta el tamaño de la muestra se tiene casi la certeza de que el valor del estadístico se aproxima bastante al valor del parámetro de la población. Entonces, θ̂ es un estimador consistente del parámetro θ si, para cualquier número ε > 0, la probabilidad de que la diferencia entre el estimador θ̂ y el parámetro θ sea menor que ε tienda a la unidad cuando el tamaño de la población (n) tiende al infinito. Es decir: P(|θ̂ − θ| < ε) −→ 1 cuando n −→ ∞ Proposición 9.2.1 Sea θ̂ una estimación del parámetro θ basada en una muestra de tamaño n; si lı́m E(θ̂) = θ, y si lı́m Var(θ̂) = 0; entonces θ̂ es una estimación convergente de θ. n→∞ n→∞ Ejemplo 9.2.3 La media muestral es un estimador convergente o consistente del parámetro µ, ya que σ2 lı́m E(X) = lı́m µ = µ y lı́m Var(X) = lı́m =0 n→∞ n→∞ n→∞ n→∞ n Suficiente Definición 9.2.2 Consideremos una muestra aleatoria X1 , X2 , . . . , Xn tomada de una poblaciòn con distribución f (x|θ) y sean Y1 ,Y2 , . . . ,Yn estadisticos muestrales. Un estadístico Y1 = Y1 (X1 , X2 , . . . , Xn ) se denomina suficiente si la distribución condicional f (y2 , y3 , . . . , yn |y1 , θ) = f (y2 , y3 , . . . , yn |y1 ). La definición anterior nos dice que un estimador θ̂ es suficiente si utiliza una cantidad de la información contenida de la muestra y además ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población θ que se está estimando que no sea ya suministrada por θ̂. 9.2. ESTIMADORES Y SUS PROPIEDADES 178 Criterio de Fisher-Neyman Un estadístico Y1 = Y1 (X1 , X2 , . . . , Xn ) es suficiente, si y sólo si: n f (x1 , x2 , . . . , xn |θ) = ∏ f (xi |θ) = f (y1 |θ)h(x1 , x2 , . . . , xn ) i=1 donde h no contiene a θ. Ejemplo 9.2.4 Sea X1 , X2 , . . . , Xn una muestra aleatoria tomada de una distribución Bernoulli con parámetro 0 < p < 1. Verificar que el estadístico Y1 = X1 + X2 + · · · + Xn es suficiente. Como la población tiene distribución Bernoulli con parámetro 0 < p < 1, la distribución conjunta de X1 , X2 , . . . , Xn está dada por n n n f (x1 , x2 , . . . , xn |p) = ∏ f (xi |p) = ∏ i=1 i=1 pxi (1 − p)1−xi = ∑ xi pi=1 n ∑ (1 − xi) (1 − p)i=1 Como el estadístico Y1 está dada por la relación Y1 = X1 + X2 + · · · + Xn entonces tiene distribución binomial con parámetro p esto es f (y1 |p) = n! py1 (1 − p)n−y1 y1 !(n − y1 )! n donde y1 = ∑ xi . i=1 De las dos relaciones anteriores tendremos que f (x1 , x2 , . . . , xn |p) = f (y1 |p) y1 !(n − y1 )! n! n con lo cual según el criterio de Fisher-Neyman Y1 = ∑ Xi es un estimador suficiente. i=1 Invariante Un estimador θ̂ de un parámetro θ se dice invariante, respecto a una clase de transformación g, si g(θ̂) es un estimador de g(θ) con propiedades análogas a θ̂. Ejemplo 9.2.5 Consideremos una distribución normal con media µ y varianza σ2 . 2 Sean X un estimador de µ y X un estimador de µ2 . Como la distribución muestral de medias tiene media E(X) = µ tenemos que X es un σ2 y por una estimador insesgado de µ, además la varianza viene dada por Var(X) = n de las propiedades de varianza σ2 2 2 = E(X ) − [E(X)]2 = E(X ) − µ2 n 9.3. ESTIMACIÓN PUNTUAL 179 σ2 2 + µ2 . Entonces X no es un estimador insesgado de µ2 , con lo n cual X no es un estimador invariante de µ. 2 con los cual E(X ) = 9.3. Estimación Puntual El objetivo de la estimación puntual es obtener valores puntuales aproximados de los parámetros poblacionales. Consiste en considerar que el parámetro poblacional es aproximadamente igual al estimador o valor puntual obtenido apartir de la información de la muestra. Ejemplo 9.3.1 Los siguientes datos corresponden a una muestra aleatoria de las estaturas de jugadores de baloncesto de una liga local. Vamos a realizar una estimación puntual de la estatura promedio de los jugadores de baloncesto de esta liga. 1,95 1,80 2,15 1,85 1,83 2,04 2,05 1,99 2,02 1,95 Se calcula la media aritmética de la muestra de los 10 basquetbolistas: X= 1 10 ∑ xi = 1, 96 10 i=1 Como es una estimación puntual, se establece que la estatura promedio de los jugadores de baloncesto de esta liga es aproximadamente igual a 1, 96 metros.Esto es µ = 1, 96. Supongamos ahora que extraemos una muestra aleatoria de una población con cierta distribución de probabilidad y queremos estimar un cierto parámetro de está población a traves de la muestra tomada. Existen dos metodos de estimación puntual de un parámetro poblacional: Método de máxima verosimilitud Método de los momentos 9.3.1. Estimadores de maxima verosimilitud Consideremos una distribución de probabilidad concreta sobre la recta real que puede ser representada por una función de probabilidad o una función de densidad de probabilidad f . Recordemos que n variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de está distribución si son independientes y están idénticamente distribuidas, es decir que cada Xi , ∀ i = 1, 2, . . . , n tiene función de probabilidad o función de densidad de probabilidad dada por f . En otras palabras, las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de la distribución representada por f si su función de probabilidad o función de densidad de probabilidad conjunta g para los puntos reales x1 , x2 , . . . , xn se especifica como sigue: g(x1 , x2 , . . . , xn ) = f (x1 ) · f (x2 ) · · · f (xn ) 9.3. ESTIMACIÓN PUNTUAL 180 Considérese un problema de inferencia estadística en el que se van a seleccionar observaciones de una distribución cuya función de probabilidad o de densidad de probabilidad es f (x|θ), donde θ es un parámetro desconocido. Se supone que el valor desconocido del parámetro θ debe pertenecer a un espacio paramétrico Ω. El problema de estimación consiste en intentar determinar donde es probable que se encuentre el verdadero valor de θ en Ω, partiendo de las observaciones de f (x|θ). Función de verosimilitud Si las variables aleatroias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución cuya función de probabilidad o de densidad de probabilidad es f (x|θ), entonces la función de probabilidad o de densidad de probabilidad conjunta de las varables aleatorias X1 , X2 , . . . , Xn , está dada por: L(x1 , x2 , . . . , xn |θ) = f (x1 |θ) · f (x2 |θ) · · · f (xn |θ) Cuando la función de probabilidad o de densidad de probabilidad conjunta L(x1 , x2 , . . . , xn |θ) de las observaciones de una muestra aleatoria se considera como una función de θ para los valores x1 , x2 , . . . , xn se llama función de verosimilitud. Ejemplo 9.3.2 Supongamos que las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución de Bernoulli con parámetro p desconocido (0 ≤ p ≤ 1). Encontrar la función de verosimilitud. Desarrollo Como cada Xi ; ∀ i = 1, 2, . . . , n; tiene distribución de Bernoulli entonces  x si x = 0, 1  p i (1 − p)1−xi f (x) =  0 en otro caso por lo que la función de verosimilitud es n n ∑ xi n ∑ (1 − xi) L(x1 , x2 , . . . , xn |p) = ∏ pxi (1 − p)1−xi = pi=1 (1 − p)i=1 i=1 Pasos para obtener el estimador de verosimilitud Tomar una muestra aleatoria de tamaño n de la población cuyo parámetro θ se desea estimar. Establecer la forma de la función de probabilidad o densidad de probabilidad de la población. Obtener la función de verosimilitud a partir de la muestra. Por ultimo el estimador de verosimilitud será el valor de θ que maximiza al logaritmo de la función de verosimilitud. 9.3. ESTIMACIÓN PUNTUAL 181 Ejemplo 9.3.3 Suponiendo que el tiempo para fallar T , de una componente tiene una distribución exponencial con parámetro β desconocido. Si se extrae una mustra aleatoria de tamaño n de esta población, hallar el estimador de verosimilitud de β. Desarrollo Como cada Ti , ∀ i = 1, 2, . . . , n tiene distribución exponencial con prámetro β por ser una muestra aleatoria proveniente de una población exponencial con dicho parámetro entonces  si ti > 0  βe−βti f (ti ) =  0 en otro caso por lo que la función de verosimilitud es n −β n −βti L(x1 , x2 , . . . , xn |p) = ∏ βe n ∑ ti i=1 =β e i=1 entonces el logaritmo de esta función esta dada por la siguiente relación n −β n log L(x1 , x2 , . . . , xn |p) = logβ e ∑ ti i=1 Aplicando propiedades de logaritmo teenmos n log L(x1 , x2 , . . . , xn |p) = nlog β − β ∑ ti i=1 Derivando parcialmente con respecto a β la expresión anterior e igualando a cero se obtiene la siguiente relación n ∂ 1 (log L(x1 , x2 , . . . , xn |p)) = n − ∑ ti = 0 ∂β β i=1 con lo cual β̂ = n n = ∑ ti 1 t i=1 1 Entonces el estimador verosimil de β es β̂ = . t 9.3.2. Estimadores por el método de los momentos Recordemos que la definición del r-ésimo momento alrededor del origen de una v.a. X está dada por E(X r ). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribución con función de probabilidad o de densidad de probabilidad f (X|θ). El r-ésimo momento muestral alrededor del origen se define por 1 n mr = ∑ Xir n i=1 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 182 El método de los momentos proporciona una alternativa razonable cuando no se puede determinar los estimadores de máxima verosimilitud. Este método consiste en igualar los momentos apropiados de la distribución de la población, con los correspondientes momentos muestrales para estimar un parámetro desconocido de la distribución. Sea f (x|θ1 , θ2 , . . . , θk ) una función de probabilidad o de densidad con k parámetros y designemos por µ1 , µ2 , . . . , µk ,los primeros k momentos alrededor del origen, es decir   si X es discreta ∑ xt f (x|θ1, θ2, . . . , θk )    x µt = Z ∞    xt f (x|θ1 , θ2 , . . . , θk )dx si X es continua  −∞ para t = 1, 2, . . . , k. En general µt será función de los k parámetros. Sea ahora X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de f (x|θ1 , θ2 , . . . , θk ). A partir de esta muestra formamos los k primeros momentos muestrales m1 , m2 , . . . , mn . Sean θ̂1 , θ̂2 , . . . , θ̂k las soluciones que resultan de las k ecuaciones mt = µt , para t = 1, 2, . . . , k. Las soluciones θ̂1 , θ̂2 , . . . , θ̂k constituyen los estimadores por el metodo de los momentos. Ejemplo 9.3.4 Sea una población normal con parámetros µ y σ2 , ambas desconocidas. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de esta distribución. Obtener por el metodo de los momentos las estimaciones de µ y de σ2 . Desarrollo Como la distribución es normal entonces E(X) = µ y Var(X) = σ2 . Además recordemos que Var(X) = E(X 2 ) − [E(X)]2 , entonces E(X 2 ) = σ2 + µ2 . Por otro lado los momentos 1 n 1 n muestrales se definen como m1 = ∑ Xi y m2 = ∑ Xi2 . Tomando en consideración la n i=1 n i=1 n 1 1 n relación mt = µt temdremos que : µ = ∑ Xi = X y σ2 + µ2 = ∑ Xi2 , entonces n i=1 n i=1 ´ 1 n 1 n 1³ n 2 2 2 σ2 = ∑ Xi2 − X = X − nX = ∑ (Xi − X)2 ∑ i n i=1 n i=1 n i=1 Entonces los estimadores por el método de los momentos son 1 n ˆ 2 µ̂ = X y σ = ∑ (Xi − X)2 n i=1 9.4. Estimación por Intervalos de Confianza La estimación puntual no es muy conveniente, pues con el procedimiento de estimación de un parámetro a través de un único valor no se puede determinar el error de muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Hay otro método para hacer una estimación mucho más precisa, la estimación por intervalos de confianza. Este método consiste en el procedimiento de encontrar un intervalo de valores dentro del cual se espera que se encuentre un parámetro poblacional. 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 183 Definición 9.4.1 Sea α ∈ (0, 1). Un intervalo de confianza para un parámetro desconocido θ de una distribución de probabilidad es un intervalo aleatorio de la forma (θ̂1 , θ̂2 ), en donde θ̂1 y θ̂2 son estadísticas muestrales tales que: P(θ̂1 < θ < θ̂2 ) = 1 − α A las estadísticas θ̂1 y θ̂2 se les conoce como límites inferior y superior, respectivamente, del intervalo de confianza. A los números α y 1 − α se les conoce como nivel se significación y grado o nivel de confianza, respectivamente. En general, se toma el valor de α cercano a 0 de tal forma que el grado de confianza, 1−α, es cercano a 1. Entonces el nivel de confianza es la probabilidad de que el parámetro poblacional se encuentre dentro del intervalo encontrado. Los niveles de confianza más ampliamente usados son 0, 95 y 0, 99, sin embargo puede usarse cualquier probabilidad cercana a 1. Interpretación de un intervalo de confianza Según la definición anterior; podríamos realizar la interpretación de dos maneras distintas, que son: el verdadero valor del parámetro desconocido θ se encuentre entre los valores θ̂1 y θ̂2 con un grado de confiabilidad de 1 − α; o también la probabilidad de que el verdadero valor del parámetro desconocido θ se encuentre entre los valores θ̂1 y θ̂2 es igual a 1 − α. Para entender mejor el concepto de intervalo de confianza vamos a suponer que seleccionamos 100 muestras de una población y calculamos la media de las muestras e intervalos de confianza del 95 % para cada muestra. Descubriremos que cerca de 95 de los 100 intervalos de confianza contienen la media poblacional. Pasos para construir un intervalo de confianza 1. Establecer el nivel de confianza. 2. Determinar el valor de la variable aleatoria estándar. 3. Calcular los estadísticos de la muestra. 4. Calcular el error estándar. 5. Calcular el error máximo de estimación. 6. Determinar los límites del intervalo de confianza e interpretar. 9.4.1. Intervalos de confianza para estimar la media de una población Para la estimación de la media µ de una población se deben tener en cuenta las siguientes condiciones: Tomar una muestra aleatoria de tamaño n de la población cuya media se quiere estimar. El estadístico a utilizar es la media muestral X. La distribución muestral a considerar es la distribución muestral de medias. 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 184 Intervalos de confianza para estimar la media de una población con muestras grandes Recordemos que si la muestra es lo suficientemente grande, esto es n ≥ 30, la distribución muestral de medias por aplicación del teorema central del límite se aproxima a una distribución normal con media µX = µ y varianza σ2X . Entonces la v.a. Z= X − µX ∼ N(0, 1) σX Por lo tanto para encontrar el intervalo de confianza podríamos establecer un nivel de confianza de 1 − α, que sería la probabilidad de que Z se encuentre entre dos valores, esto es ³ ´ X − µX P(Z1 < Z < Z2 ) = P Z1 < < Z2 = 1 − α σX Como la distribución normal tipificada está centrada en el cero y es simétrica entonces podríamos establecer que Z1 = −Z2 . Si Zc = Z2 y se despeja µX en expresión Z1 < X − µX < Z2 σX se tendrá X − Zc σX < µX < X + Zc σX que generalmente se abrevia como X ± Zc σX con lo cual el intervalo buscado para la media poblacional µ es (X − Zc σX , X + Zc σX ) Finalmente la expresión para el intervalo de confianza en término de probabilidad está dada por la relación P(X − Zc σX < µ < X + Zc σX ) = 1 − α σ2 σ2 N − n , de lo contrario σ2X = · , n n N −1 donde N es el tamaño de la población. Si se desconoce el valor de la varianza poblacional σ2 , se ha de utilizar la varianza muestral S2 para encontrar el intervalo. Nota: Recordar que si la población es infinita σ2X = 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 185 Ejemplo 9.4.1 Los resultados siguientes representan las calificaciones de una muestra aleatoria de estudiantes en el primer examen de estadística elemental. Elaborar un intervalo de confianza del 95 % para estimar la media poblacional. 23 80 52 41 60 34 60 77 10 71 78 67 79 81 64 83 89 17 32 95 75 54 76 82 57 41 78 64 84 69 74 65 25 72 48 74 52 92 80 88 84 63 70 85 98 62 90 80 82 55 81 74 15 85 36 76 67 43 79 61 Desarrollo 1. El nivel de confianza ya está establecido como 95 %. Entonces 1 − α = 0, 95 2. Como se trata de estimar la media poblacional y n = 60 > 30, la variable aleatoria estándar a utilizar es Z de la distribución normal estándar. Como 1 − α es la probabilidad de que la media poblacional se encuentre dentro del intervalo buscado (centro de la curva), α es la probabilidad de que no se encuentre en el intervalo (extremos de la α curva), y cada extremo de la curva o cola corresponde al valor . 2 Como la distribución normal estándar se tabula dos maneras: la primera utilizando la función de distribución (tabla 1) y la segunda integrando la función de densidad en el intervalo que va de cero a cualquier valor positivo de Z (tabla 2). Como nosotros utilizaremos la tabla 2, busquemos en dicha tabla el valor de Z que corresponde al área α de 0, 5 − , que resulta ser 1, 96. 2 3. Para estimar la media poblacional necesitamos calcular los estadísticos de la muestra que son la media y la varianza muestral. Entonces la media muestral será X= 1 60 3929 Xi = = 65, 483 ∑ 60 i=1 60 En el caso de la varianza muestral se puede optar por S2 ó Ŝ2 , la elección es del investigador, pero generalmente se prefiere usar Ŝ2 ya que es un estimador insesgado de la varianza poblacional σ2 . Para fines comparativos calculemos los dos S2 = 283635 ³ 3929 ´2 60 2 1 60 2 2 X = − = 439, 183 y Ŝ2 = S = 446, 627 X − ∑ i 60 i=1 60 60 60 − 1 4. Como no conocemos el tamaño de la población se asume que es infinita. Calculemos ahora el error estándar utilizando la desviación estándar muestral para las dos situaciones (S y Ŝ), esto se hace debido a que no conocemos el valor de σ2 . Por lo tanto S Ŝ σX = √ = 2, 705 y σX = √ = 2, 728 60 60 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 186 5. A continuación se calcula el error máximo de estimación denotado por E para las dos situaciones, entonces E = Zc σX = (1, 96)(2, 705) = 5, 302 y E = Zc σX = (1, 96)(2, 728) = 5, 347 6. Finalmente se calculan los límites del intervalo de confianza de la siguiente manera: Restando a la media de la muestra el error máximo de estimación se obtiene el límite inferior. Sumando a la media de la muestra el error máximo de estimación se obtiene el límite superior. Entonces si ulitizamos S como estimación de σ, los límites inferior y superior serán respectivamente X − E = 60, 181 y X + E = 70, 785 por lo que el intervalo de confianza buscado será (60, 181 ; 70, 785), es decir P(60, 181 < µ < 70, 785) = 0, 95 Este resultado se interpreta de la siguiente manera: “ La calificación media de los estudiantes en el primer examen de estadística elemental, se encuentre entre 60,181 y 70,785” con un grado de confianza del 95 %. Si por el contrario utilizamos Ŝ, los límites inferior y superior serán respectivamente X − E = 60, 136 y X + E = 70, 83 por lo que el intervalo de confianza buscado será (60, 136 ; 70, 83), es decir P(60, 136 < µ < 70, 83) = 0, 95 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de que la calificación media de los estudiantes en el primer examen de estadística elemental, se encuentre entre 60,136 y 70,83”. Si comparamos los intervalos obtenidos vemos que hay muy poca diferencia, pero la obtenida con Ŝ es un poco más ancha y por lo tanto un poco más fiable. Intervalos de confianza para estimar la media de una población con muestras pequeñas Si la muestra es de tamaño menor que 30 y la varianza poblacional es desconocida, entonces para calcular el intervalo de confianza que contiene a la media poblacional se utiliza la distribución t de Student en vez de la distribución normal. Luego se siguen los mismos pasos de los intervalos de confianza para muestras grandes. Tomando en consideración que cuando se tienen muestras paqueñas (n < 30) y la varianza poblacional es desconocida, la distribución muestral de medias puede ser relacionada con una distribución t de Studens. Por lo tanto la v.a. √ (X − µX ) n − 1 ∼ t(n − 1) T= S 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 187 Como t al igual que Z, está centrada en el origen y es simétrica podemos reemplazar a Z por T en el procedimiento anterior para encontrar un intervalo de confianza con un grado de fiabilidad de 1 − α para la media poblacional µ, esto es √ ³ ´ (X − µX ) n − 1 P(−tc < T < tc ) = P − tc < < tc = 1 − α S Realizando un análisis totalmente análogo al caso de muestras grandes se tendrá que S S X − tc √ < µ < X + tc √ n−1 n−1 con lo cual el intervalo buscado estará dada por ³ S S ´ X − tc √ , X + tc √ n−1 n−1 que se abrevia generalmente con la expresión X ± tc √ S n−1 Entonces la expresión para el intervalo de confianza en término de probabilidad entá dada por ³ S S ´ P X − tc √ < µ < X + tc √ = 1−α n−1 n−1 Ejemplo 9.4.2 Una muestra aleatoria de 12 secretarias que escriben a máquina arrojó un promedio 85,2 palabras por minuto con una desviación estándar de 9,3 palabras por minuto. Encuentre un intervalo de confianza de 95 % para el número promedio de palabras por minuto escritas por todas las secretarias. Desarrollo 1. El nivel de confianza establecido es 1 − α = 0, 95. 2. Como la muestra es pequeña (n = 12 < 30) y la varianza poblacional es desconocida se procede a determina el valor de t, para lo cual antes se debe determinar los grados de libertad, que están dadas por n − 1 = 12 − 1 = 11. El valor de αt de la tabla de la 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 188 distribución t corresponde al área que se encuentra a la derecha del valor positivo de t que buscamos, por lo tanto para los intervalos de confianza sería la mitad del valor del nivel de significación, esto es αt = α 0, 05 = = 0, 025 2 2 Se busca en la tabla t lo siguiente n − 1 = 11 α/2 = 0, 025 2,201 con lo cual el valor buscado es tc = 2, 201. 3. Los estadísticos de la muestra son: X = 85, 2 y S = 9, 3 4. El error estándar estará dada por S 9, 3 √ =√ = 2, 804 n−1 12 − 1 5. El error máximo de estimación será S = (2, 201)(2, 804) = 6, 172 E = tc √ n−1 6. Finalmente los límites inferior y superior serán respectivamente X − E = 85, 2 − 6, 172 = 79, 028 y X + E = 85, 2 + 6, 172 = 91, 372 Por lo tanto el intervalo de confianza buscado es (79, 028 ; 91, 372), que en término de probabilidades se expresa como P(79, 028 < µ < 91, 372) = 0, 95 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de que el número promedio de palabras por minuto escritas por todas las secretarias, se encuentre entre 79,028 y 91,372”. 9.4.2. Intervalos de confianza para la varianza y la desviación típica de una población. Intervalos de confianza para la varianza Para encontrar un intervalo de confianza con un cierto grado de fiabilidad 1 − α, para todo 0 < α < 1, que contenga a la varinaza poblacional σ2 , si esta se desconocida, se puede nS2 utilizar a la v. a. 2 , donde n es el tamaño de muestra y S2 es la varianza muestral. Teniendo σ en cuenta que esta v. a. se distribuye como una ji-cuadrada con n − 1 grados de libertad, puede seleccionarse dos valores de esta distribución (χ2c y χ2l ), tales que la probabilidad de 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 189 nS2 que 2 esté entre estos dos valores sea igual al grado de fiabilidad propuesto, tal como lo σ muestra la figura 9.1. Esto es ³ ´ nS2 P χ2c < 2 < χ2l = 1 − α σ Figura 9.1: Gráfica del proceso de elección de los valores χ2c y χ2l . Tomando la expresión χ2c < nS2 < χ2c y despejando en ella a σ2 , se tendrá σ2 χ2l χ2c 1 nS2 nS2 2 < < −→ < σ < nS2 σ2 nS2 χ2c χ2l Entonces la probabilidad de que la varianza poblacional esté entre los valores estará dada por la relación nS2 nS2 y 2 χc χ2l ³ nS2 nS2 ´ P 2 < σ2 < 2 = 1 − α χc χl con lo cual el intervalo de confianza de σ2 con un nivel de confianza de 1 − α estará dada por ³ nS2 χ2l , nS2 ´ χ2c Analizando la elaboración de la tabla de la distribución ji-cuadrada encontramos que si X ∼ χ2 (n) entonces P(X ≤ x) = p, donde p es el área bajo la curva y va desde el valor cero a un cierta valor x = χ2[p ; ν] , donde ν son los grados de libertad, tal como lo muestra la siguiente figura Por lo tanto analizando las figuras 9.1 y 9.2, tenemos que: χ2l = χ2[1− α 2 ; n−1] y χ2c = χ2[ α 2 ; n−1] 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 190 Figura 9.2: Gráfica de la distribución acumulada de la χ2 . Intervalos de confianza para la desviación típica De la expresión que se obtuvo para el estimdor por intervalos de confianza para la varianza de una población, se puede encontrar un intervalo de confianza para la desviación estándar. Entonces de la expresión nS2 nS < σ2 < 2 2 χ[1− α ; n−1] χ[ α ; n−1] 2 se obtiene lo siguiente √ χ[1− α2 2 nS <σ< ; n−1] √ nS χ[ α2 ; n−1] en término de probabilidades, esto es √ √ ³ ³ √nS nS2 nS ´ nS ´ 2 P 2 <σ < 2 =P <σ< = 1−α χ[1− α2 ; n−1] χ[ α2 ; n−1] χ[1− α ; n−1] χ[ α ; n−1] 2 2 Por lo tanto el intervalo de confianza para σ está dada por √ ³ √nS nS ; ) χ[1− α2 ; n−1] χ[ α2 ; n−1] Ejemplo 9.4.3 Las resistencias a la rotura, expresada en libras, de 5 ejemplares de cuerdas están dadas por los siguientes valores: 460 540 660 580 550 Estime los intervalos de confianza del 90 % para la varianza σ2 y la desviación estándar σ de la poblacional. Desarrollo 1. El nivel de confianza establecido es 1 − α = 0, 90, con lo cual α = 0, 10. 2. Como se desea estimar a la varianza poblacional, la variable aleatoria a utilizar es χ2 de la distribución ji-cuadrada. Como siguiente paso, se procede a determina los valores χ2c y χ2l , para lo cual antes se debe determinar los grados de libertad que están dadas por 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 191 n − 1 = 5 − 1 = 4. El valor de p de la tabla de la distribución ji-cuadrada corresponde al área que se encuentra a la izquierda del valor de χ2 que se busca. Como χ2l = χ2[1− α 2 ; n−1] = χ2[0,95 ; 4] y χ2c = χ2[ α 2 ; n−1] = χ2[0,05 ; 4] se busca en la tabla de la ji-cuadrada lo siguiente gl = 4 p = 0, 05 0,7107 y gl = 4 p = 0, 95 9,488 con lo cual los valores buscado son χ2c = 0, 711 y χ2l = 9, 488. 3. Los estadísticos de la muestra son: X = 558 y S2 = 4176 4. Los límites inferior y superior del intervalo buscado son respectivamente nS2 (5)(4176) = = 2200, 67 χl 9, 488 y nS2 (5)(4176) = = 29367, 09 χc 0, 711 Con lo cual el intervalo buscado para la varianza es (2200, 67 ; 29367, 09), que en término de probabilidades se expresa como P(2200, 67 < σ2 < 29367, 09) = 0, 90 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,90 de que el verdadero valor de la varianza de la población de secretarias que escriben palabras por minuto, se encuentre entre los valores 2200,67 y 29367,09”. Del resultado anterior, el intervalo de confianza del 90 % para la desvición estándar poblacional estará dada por 46, 91 < σ < 171, 37 Este resultado se interpreta de la misma manera que para el caso anterior, esto es, sustituyendo la palabra varianza por la de desiviación estándar. 9.4.3. Intervalos de confianza para estimar Proporciones Sea una población con una distribución Bernoulli cuyo parámetro P es desconocido y se desea estimar estableciendo un intervalo de confianza con un cierto grado de fiabilidad. Para esta finalidad se utilizarará la distribución muestral de proporciones. Recordemos que si el tamaño de la muestra es lo suficientemente grande (n ≥ 30) por aplicación del teorema central del límite la distribución muestral de proporciones se aproxima P(1 − P) . Por lo tanto la v.a. a una distribución normal con media µ p̂ = P y varianza σ2p̂ = n Z= p̂ − µ p̂ ∼ N(0, 1) σ p̂ 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 192 Si establecemos un nivel de confianza de 1−α para la estimación del intervalo de confianza para P y realizamos los mismos pasos hechos en el caso de medias con muestras grandes, tendremos que P( p̂ − Zc σ p̂ < µ p < p̂ + Zc σ p̂ ) = 1 − α r r P(1 − P) p̂(1 − p̂) , en su lugar se utilizará a . Como no se conoce el valor σ p̂ = n n Entonces tendremos que r r ³ p̂(1 − p̂) p̂(1 − p̂) ´ P p̂ − Zc < P < p̂ + Zc = 1−α n n Por lo que el intervalo buscado estará dada por Ã ! r r p̂(1 − p̂) p̂(1 − p̂) p̂ − Zc ; p̂ + Zc n n Ejemplo 9.4.4 Se pregunta a 2000 votantes cuál será la actitud respecto a una determinada propuesta política; 800 se oponen. Suponiendo que la muestra fuese aleatoria y procedente de una población Bernoulli. Construya un intervalo de confianza para la proporción de votantes a favor de la propuesta política para un 95 % de confianza. Desarrollo 1. El nivel de confianza fijado es 1 − α = 0, 95. 2. Como se trata de estimar una proporción y además n = 60 > 30, la variable aleatoria estándar a utilizar es Z de la distribución normal estándar. Como 1 − α = 0, 95, ya vimos anteriormente que Zc = 1, 96. 3. Para realizar la estimación de la proporción P de votantes que están a favor de la propX uesta política bajo un intervalo necesitamos calcular el estadístico muestral p̂ = , n donde X es el número de votantes que están a favor de la propuesta política, entonces p̂ = 4. El error estándar estará dada por r σ p̂ = 1200 = 0, 6 2000 0, 6(1 − 0, 4) = 0, 01095 2000 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 193 5. El error máximo de estimación será E = Zc σ p̂ = (1, 96)(0, 01095) = 0, 0215 6. Los límites inferior y superior serán respectivamente p̂ − E = 0, 6 − 0, 0215 = 0, 5785 y p̂ + E = 0, 6 + 0, 0215 = 0, 6215 Por lo que el intervalo buscado es (0, 5785 ; 0, 6215), que en términos de probabilidades se expresa como P(0, 5785 < P < 0, 6215) = 0, 95 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de que la proporción de votantes que están a favor de la propuesta política, se encuentre entre los valores 0,5785 y 0,6215”. 9.4.4. Intervalos de confianza para estimar Diferencias de Medias Si tenemos dos poblaciones, de las cuales extraemos muestras de ciertos tamaños, hay que tener en cuenta que se puede construir una distribución muestral para la diferencia de las medias muestrales. Si las medias poblaciones son desconocidas; en esta sección se estimará un intervalo de confianza para la diferencia de estas medias utilizando la distribución muestral de diferencias de medias. Intervalos de confianza para Diferencias de Medias utilizando la distribución normal Si de la población uno con media µ1 desconocida y varianza σ21 extraemos muestras de tamaño n1 , y de la población dos con media µ2 desconocida y varianza σ22 extraemos muestras de tamaño n2 ; y tenemos que n1 + n2 − 2 ≥ 30 por aplicación del teorema central del límite la variable aleatoria (X −Y ) − µX−Y ∼ N(0, 1) Z= σX−Y s σ21 σ22 donde µX−Y = µ1 − µ2 y σX−Y = + . n1 n2 Por lo tanto si la estimación del intervalo de confianza será hecho con un nivel de confianza de 1 − α y se sigue un razonamiento análogo al hecho en el caso de una población con media desconocida; se tendrá la siguiente relación ´ ³ (X −Y ) − µX−Y P − Zc < < Zc = 1 − α σX−Y que se transforma en P[(X −Y ) − Zc σX−Y < µX−Y < (X −Y ) + Zc σX−Y ] = 1 − α Por lo que el intervalo de confianza para diferencias de medias está dada por s s ! Ã 2 2 σ1 σ2 σ21 σ22 X −Y − Zc + ; X −Y + Zc + n1 n2 n1 n2 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 194 Observación: Si n1 + n2 − 2 ≥ 30 y se desconocen las varianzass poblaciones se utilizan s las varianzas muestrales; dicho de otro modo S12 S22 + en lugar de n1 n2 σ21 σ22 + . n1 n2 Ejemplo 9.4.5 En un laboratorio, se experimenta con dos drogas que reducen el tiempo de respuesta a cierto estímulo. Se administra a 35 ratas la droga 1 y a 30 la droga 2. La reducción del tiempo de reacción al estímulo de cada rata fue registrada como sigue: Reducción del tiempo con la droga 1 28 31 33 23 20 30 22 34 32 35 30 33 36 34 43 26 28 27 23 29 28 33 33 29 38 27 26 21 24 24 27 15 28 19 27 Reducción del tiempo con la droga 2 11 21 7 21 23 23 24 27 23 30 17 17 16 16 25 37 29 22 12 26 27 15 23 29 19 16 17 33 36 14 Encuentre un intervalo de confianza del 90 % para estimar la diferencia entre los tiempos de respuesta promedio al estímulo de los grupos e interprete el resultado. Desarrollo El nivel de confianza ya establecido es 1 − α = 0, 90. Como n1 + n2 − 2 = 35 + 30 − 2 = 63 > 30, la variable aleatoria a utilizar es Z de la normal tipificada. Como 1 − α = 0, 90, buscando en la tabla de Z, encontraremos que Zc = 1, 645. Los estadísticos muestrales a utilizar son X = 28, 457 S12 = 32, 3053 n1 = 35 Y = 21, 867 S22 = 51, 3156 n2 = 30 El error estandar de estimación es r σX−Y = 32, 3053 51, 3156 + = 1, 623 35 30 El error máximo de estimación estará dada por E = (1, 645)(1, 623) = 2, 67 Los límites inferior y superior serán respectivamente X −Y − E = 28, 457 − 21, 867 − 2, 67 = 3, 92 y X −Y + E = 28, 457 − 21, 867 + 2, 67 = 9, 26 Por lo tanto el intervalo de confianza buscado es (3, 92 ; 9, 26), que en término de probabilidades se expresa como P(3, 92 < µ1 − µ2 < 9, 26) = 0, 90 Entonces hay una probabilidades de 0,90 de que la diferencia entre los tiempos de respuesta promedio al estímulo de los grupos esté entre 3,92 y 9,26. 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 195 Intervalos de confianza para Diferencias de Medias utilizando la distribución t Si las poblaciones tienen varianzas desconocidas y además, de ellas se extraen muestras cuyos tamaños cumplen con la condición n1 + n2 − 2 < 30; suponiendo igualdad de varianzas poblacionales se puede utilizar la distribución t de Student para establecer intervalos de confianza para la diferencia de medias. Si el grado de fiabilidad es igual a 1 − α y la varianza combinada de las muestras es define n1 SX2 + n2 SY2 2 por S p = ; entonces n1 + n2 − 2 Ã ! (X −Y ) − µX−Y r P − tc < < tc = 1 − α 1 1 Sp + n1 n2 que con aplicaciones algebraicas se transforma en la relación Ã ! r r 1 1 1 1 P X −Y − tc S p + < µ1 − µ2 < X −Y + tc S p + = 1−α n1 n2 n1 n2 con lo cual; el intervalo de confianza buscado en estas condiciones está dada por la expresión Ã ! r r 1 1 1 1 X −Y − tc S p + ; X −Y + tc S p + n1 n2 n1 n2 donde tc es el valor de t con n1 + n2 − 2 grados de libertad. Ejemplo 9.4.6 Durante varios años se han cultivado, en diversos lugares de un área, dos variedades de cebada y está en discusión su adaptación. ¿Cuál se seleccionará para el área, basandose en las siguientes cosechas por hectárea? Trebi 120,6 Svanota 115,4 56,5 90,2 133,2 130,3 187,1 147,9 186,9 120,3 129,4 77,6 155,2 104,5 Localice los límites de confianza de la diferencia entre las medias con un grado de confianza del 99 % e interprete el resultado. Desarrollo El nivel de confianza establecido es 1 − α = 0, 99 Como n1 + n2 − 2 = 7 + 7 − 2 = 12 < 30 y las varianzas poblacionales son desconocidas, la variable aleatoria estándar a usar es la t de la distribución t de Student, que en este caso tendrá 12 grados de libertad. El valor de αt de la tabla para este caso corresponde al valor α 0, 01 = 0, 005 αt = = 2 2 Por lo que se busca en la tabla t lo siguiente n1 + n2 − 2 = 12 con lo cual el valor buscado es tc = 3, 055. α/2 = 0, 005 3,055 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 196 Los estadisticos muestrales a utilizar son: X = 138, 4143 SX2 = 1734, 09551 n1 = 7 Y = 112, 3143 SY2 = 488, 329796 n2 = 7 con lo cual la diferencia entre las medias y la varianza combinada de las muestras son respectivamente X −Y = 138, 4143 − 112, 3143 = 26, 1 S2p n1 SX2 + n2 SY2 7(1734, 09551) + 7(488, 329796) = = = 1296, 4148 n1 + n2 − 2 7 + 7 − 12 El error estándar de estimación está dada por r r p 1 1 1 1 Sp + = 1296, 4148 + = 19, 2459 n1 n2 7 7 El error máximo de estimación es r 1 1 + = (3, 055)(19, 2459) = 58, 8 E = tc S p n1 n2 Los límites inferior y superior serán respectivamente X −Y − E = 26, 1 − 58, 8 = −32, 7 y X −Y + E = 26, 1 + 58, 8 = 84, 9 Por lo que el intervalo buscado es (−32, 7 ; 84, 9), que en términos de probabilidades se expresa como P(−32, 7 < µX − µY < 84, 9) = 0, 99 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,99 de que la diferencias entre los promedios de los dos tipos de cebadas, se encuentre entre los valores -32,7 y 84,9”. 9.4.5. Intervalos de confianza para Relaciones de Varianzas Sean dos muestras aleatorias independientes de tamaños m y n, con varianzas S12 y S22 , que se extraen de dos poblaciones distribuidas normalmente con varianzas desconocidas σ21 y σ22 respectivamente. Con base a estas informacionesÃse puede ! estimar un intervalo de confianza 2 σ1 para la relación de estas varianzas desconocidas . Como primer paso para conseguirlo σ22 se toma en cuenta las siguientes variables aleatorias con sus distribuciones asociadas mS12 nS22 2 ∼ χ (m − 1) y ∼ χ2 (n − 1) 2 2 σ1 σ2 Suponiendo independencia entre estas variables aleatorias; entonces por lo ya visto anteriormente el cociente entre dos variables con distribuciones ji-cuadradas divididas por sus 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 197 grados de libertad correspondientes constituye una variable aleatoria con distribución F de Snedecor con m − 1 y n − 1 grados de libertad; esto es mS12 (m−1)σ21 nS22 (n−1)σ22 ∼ F(m − 1; n − 1) Por lo tanto si se establece un nivel de confianza de 1 − α, se tiene que Ã P F1 < mS12 (m−1)σ21 nS22 (n−1)σ22 ! < F2 ´ ³ m(n − 1)S12 σ22 < F2 = 1 − α = P F1 < n(m − 1)S22 σ21 que por medio de procedimientos algebráicos se transforma en ³ 1 m(n − 1)S2 σ2 1 m(n − 1)S12 ´ 1 1 P · < < · = 1−α F2 n(m − 1)S22 σ22 F1 n(m − 1)S22 Por conveniencia se podría tomar a F1 = F[ α2 ; m−1 ; n−1] y F2 = F[1− α2 de tener en cuenta que mS12 nS22 Ŝ12 = y Ŝ22 = m−1 n−1 la ultima expresión se transforma en ³ P 1 F[1− α2 · ; m−1 ; n−1] Ŝ12 σ21 < < Ŝ22 σ22 F[ α2 1 ; m−1 ; n−1] ; · Ŝ12 ´ = 1−α Ŝ22 · Ŝ12 ´ Ŝ22 ; m−1 ; n−1] Finalmente el intervalo buscado está dado por ³ 1 F[1− α2 · ; m−1 ; n−1] Ŝ12 ; Ŝ22 F[ α2 1 ; m−1 ; n−1] En la realización de los cálculos resulta útil recordar que F[1− α2 ; m−1 ; n−1] = 1 F[ α2 ; n−1 ; m−1] ó F[ α2 ; m−1 ; n−1] = 1 F[1− α2 ; n−1 ; m−1] además 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 198 Ejemplo 9.4.7 La población A tiene una varianza de 3,4 según se determinó con una muestra de 21 elementos, mientras que la población B tenía una varianza de 5,2 según se determinó por una muestra de 16 elementos. Determinar los límites de confianza del a) 90 % b) 95 % de la razón de las varianzas de las dos poblaciones. Desarrollo El nivel de confianza ya establecido es a) 1 − α = 0, 90 b) 1 − α = 0, 95 Como se busca un intervalo de confianza para relaciones de varianzas, la variable aleatoria estandar a usar es la F de la distribución F de Snedecor, que en este caso tendrá m − 1 = 21 − 1 = 20 y n − 1 = 16 − 1 = 15 grados de libertad. El valor αt de la tabla corresponde al valor α 0, 10 = = 0, 05 2 2 α 0, 05 b) αt = = = 0, 025 2 2 a) αt = por lo que para cada caso se busca en la tabla F lo siguiente a) P(X ≤ x) = 0, 95 m = 20 n = 15 2,33 y P(X ≤ x) = 0, 95 m = 15 n = 20 2,20 F[0,95 ; 20 ; 15] = 2, 33 y F[0,05 ; 20 ; 15] = Con lo cual b) P(X ≤ x) = 0, 975 m = 20 n = 15 2,76 y 1 F[0,95 ; 15 ; 20] = 1 = 0, 455 2, 20 P(X ≤ x) = 0, 975 m = 15 n = 20 2,57 Con lo cual F[0,975 ; 20 ; 15] = 2, 76 y F[0,025 ; 20 ; 15] = 1 F[0,975 ; 15 ; 20] Los estadísticos muestrales a utilizar en cada caso son Ŝ12 = m 2 21 S = (3, 4) = 3, 57 m − 1 1 20 Ŝ22 = n 2 16 S = (5, 2) = 5, 547 n − 1 1 15 = 1 = 0, 39 2, 57 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 199 Los límites inferior y superior para cada caso son respectivamente a) 1 F[0,95 ; 20 ; 15] 1 F[0,05 ; 20 ; 15] · Ŝ12 1 3, 57 = · = 0, 2762 2 Ŝ2 2, 33 5, 547 · Ŝ12 1 3, 57 = · = 1, 4145 2 Ŝ2 0, 455 5, 547 Por lo tanto el intervalo de confianza buscado es (0, 2762 ; 1, 4145); que en término probabilístico se expresa como ³ ´ σ21 P 0, 2762 < 2 < 1, 4145 = 0, 90 σ2 b) 1 F[0,975 ; 20 ; 15] 1 F[0,05 ; 20 ; 15] · · Ŝ12 1 3, 57 = · = 0, 2332 Ŝ22 2, 76 5, 547 Ŝ12 1 3, 57 = · = 1, 6502 Ŝ22 0, 39 5, 547 Por lo tanto el intervalo de confianza buscado es (0, 2332 ; 1, 6502); que en término probabilístico se expresa como ³ ´ σ2 P 0, 2332 < 12 < 1, 6502 = 0, 95 σ2 9.4.6. Intervalos de confianza para Diferencias de Proporciones Sean dos muestras aleatorias de tamaños n1 y n2 que se extraen de dos poblaciones Bernoulli con parámetros P1 y P2 respectivamente, sean además las proporciones muestrales p̂1 y p̂2 . Si se desconocen los valores de dichos parámetros, se podría estimar un intervalo de confianza para la diferencia de proporciones utilizando la distribución muestral de diferencias de proporciones. La estimación de este intervalo se hará en base a muestras grandes, por lo que se aplicará una aproximación a la distribución normal. Entonces donde µ p̂1 − p̂2 = P1 − P2 ( p̂1 − p̂2 ) − µ p̂1 − p̂2 ∼ N(0, 1) σ p̂1 − p̂2 √ y σ p̂1 − p̂2 = σ p̂1 + σ p̂2 . Por lo tanto si establece un nivel de confianza de 1 − α y se toman consideraciones análogas al caso de diferencias de medias para el caso normal se tendrá que ³ ´ ( p̂1 − p̂2 ) − µ p̂1 − p̂2 P − Zc < < Zc = 1 − α σ p̂1 − p̂2 que con procedimientos algebráicos se tranforma en ´ ³ P ( p̂1 − p̂2 ) − Zc σ p̂1 − p̂2 < µ p̂1 − p̂2 < ( p̂1 − p̂2 ) + Zc σ p̂1 − p̂2 = 1 − α 9.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 200 Por lo que el intervalo de confianza buscado es ³ ´ ( p̂1 − p̂2 ) − Zc σ p̂1 − p̂2 ; ( p̂1 − p̂2 ) + Zc σ p̂1 − p̂2 Recordemos que σ p̂1 − p̂2 depende de los parámetros P1 y P2 , que en este caso son desconocidos, razón por la cual para su cálculo se reemplaza a P1 por p̂1 y a P2 por pˆ2 . Ejemplo 9.4.8 De una cierta ciudad se extrae una muestra aleatoria de 100 personas y se encuentra que 50 usan una cierta marca de jabón. De la misma ciudad se extrae otra muestra de 100 personas y se encuentra que 20 usan una marca de jabón distinta a la primera. Construya un intervalo de confianza del 95 % para la diferencia de proporciones de personas que usan las respectivas marcas de jabón e interprete el resultado. Desarrollo 1. El nivel de confianza fijado es 1 − α = 0, 95. 2. Como se trata de estimar diferencias de proporciones y además las muestras son grandes, la variable aleatoria estándar a utilizar es Z de la distribución normal estándar. Como 1 − α = 0, 95, ya se vió que Zc = 1, 96. 3. Para realizar la estimación de la diferencia entre las proporciones P1 y P2 de personas que usan las respectivas marcas de jabones bajo un intervalo necesitamos calcular los X Y estadísticos muestrales pˆ1 = y pˆ2 = , donde X es el número de personas en n1 n2 n1 que usan la primera marca de jabón e Y el número de personas en n2 que usan la segunda marca de jabón, entonces pˆ1 = 50 = 0, 5 y 100 pˆ2 = 20 = 0, 2 100 4. El error estándar estará dada por r 0, 5(1 − 0, 5) 0, 2(1 − 0, 2) + = 0, 06403 σ p̂1 − p̂2 = 100 100 5. El error máximo de estimación será E = Zc σ p̂ = (1, 96)(0, 06403) = 0, 1255 9.5. PROBLEMAS 201 6. Los límites inferior y superior serán respectivamente p̂1 − p̂2 − E = 0, 5 − 0, 2 − 0, 1255 = 0, 1745 y p̂ + E = 0, 5 − 0, 2 + 0, 1255 = 0, 4255 Por lo que el intervalo buscado es (0, 1745 ; 0, 4255), que en término de probabilidad se expresa como P(0, 1755 < P1 − P2 < 0, 4255) = 0, 95 Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de 0,95 de que la diferencia de proporciones de personas que usan las marcas de jabones, se encuentre entre los valores 0,1755 y 0,4255”. 9.5. Problemas Estimadores y sus propiedades 1. Sean θ̂1 y θ̂2 dos estimadores insesgados para el parámetro θ, y sea α una constante. Demuestre que θ̂ = αθ̂1 + (1 − α)θ̂2 es también un estimador insesgado para θ. 2. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida µ. Probar que la estadística X a) es un estimador insesgado de la media problacional µ b) es un estimador convergente o consistente de µ 3. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida y varianza σ2 desconocida. Probar que a) S2 es un estimador sesgado pero será un estimador consistente para σ2 b) Ŝ2 es un estimador insesgado de σ2 4. Sea X1 , X2 , . . . , Xn una m.a. de una población con media conocida µ y varianza σ2 desconocida. Demuestra que la siguiente estadística es un estimador insesgado para σ2 , 1 n σ̂ = ∑ (Xi − µ)2 n i=1 2 5. Sea X1 , X2 , . . . , Xn una m.a. de una población con media desconocida y varianza finita σ2 desconocida. Demuestra que la siguiente estadística es un estimador insesgado para σ2 , n−1 1 σ̂2 = ∑ (Xi+1 − Xi)2 2(n − 1) i=1 6. Sea X1 , X2 , X3 , X4 una muestra aleatoria de una población distribuida según la ley una ley de Poissón con parámetro θ. Considere los siguientes estadísticos para θ. θ1 = X1 + X2 + X3 + X4 4 y X1 + 2X2 + 3X3 + 4X4 10 9.5. PROBLEMAS 202 Verifique la condición de insesgamiento en ambos estadísticos y halla la eficiencia relativa. Estimación Puntual Método de máxima verosimilitud 7. Supóngase que X1 , X2 , . . . , Xn constituye una muestra aleatoria de tamaño n de una distribución Bernoulli con parámetro P desconocido, pero se sabe que P pertenece al intervalo abierto (0, 1). a) Determinar el estimador de máxima verosimilitud de P, suponiendo que no todos los valores observados son 0 o todos los valores observados son 1. b) Probar que el estimador de máxima verosimilitud de P no existe si todo valor observado es 0 o si todo valor observado es 1. 8. No se sabe que proporción P de la compra de cierta marca de cereal es realizada por mujeres y que proporción es realizada por hombres. En una muestra de 70 compras de este cereal, se encontró que 58 fueron realizadas por mujeres y 12 por hombres. Determine el estimador de máxima verosimilitud para P. 9. Supóngase que X1 , X2 , . . . , Xn constituye una muestra aleatoria de tamaño n de una distribución normal con media desconocida µ y varianza σ2 también desconocida. Determínense los estimadores de máxima verosimilitud para µ y σ2 . 10. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución cuya función de densidad de probabilidad f (x|θ) es la siguiente  θ−1 si 0 < x < 1  θx f (x|θ) =  0 en otro caso Además, supóngase que el valor de θ es desconocido (θ > 0). Determínese el estimador de máxima verosimilitud para θ. 11. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución cuya función de densidad de probabilidad f (x|θ) es la siguiente 1 f (x|θ) = e−|x−θ| 2 para − ∞ < x < ∞ Además, supóngase que el valor de θ es desconocido (−∞ < θ < ∞). Determínese el estimador de máxima verosimilitud para θ. 12. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución uniforme sobre el intervalo (θ1 , θ2 ), donde θ1 y θ2 son desconocidos (−∞ < θ1 < θ2 < ∞). Determínense los estimadores de máxima verosimilitud para θ1 y θ2 . 13. Una población tiene una función de densidad de probabilidad dada por r ν 2 −νx2 f (x|ν) = 2ν x e para − ∞ < x < ∞ π 9.5. PROBLEMAS 203 Si se toman n observaciones de esta población, hallar la estima de maxima verosimilitud de ν. 14. Supongase que Γ, el tiempo para fallas (en horas) de un instrumento eléctronico, tiene la siguiente función de densidad de probabilidad   βe−β(t−t0 ) si t > t0 > 0 f (t|β) =  0 en otro caso Supóngase que se prueban n artículos y que se anotan los tiempos de fallas t1 ,t2 , . . . ,tn . suponiendo que t0 es conocido, obtener el estimador de maxima verosimilitud para β. 15. Supóngase que X1 , X2 , . . . , Xn constituye una m.a. de una distribución de Poisson con media λ desconocida (λ > 0). a) Determínese el estimador de máxima verosimilitud de λ, suponiendo que al menos uno de los valores observados es distinto de cero. b) Demúestrese que el estimador de máxima verosimilitud de λ no existe si todo valor observado es cero. Método de momentos 16. Dada una muestra aleatoria de tamaño n de una población uniforme en el intervalo [0, a], use el método de momentos para encontrar un estimador para el parámetro a. 17. Dada una muestra aleatoria de tamaño n de una población Poisson con parámetro desconocido λ > 0, use el método de momentos para encontrar un estimador del parámetro λ. 18. Dada una muestra aleatoria de tamaño n de una población exponencial con parámetro desconocido β > 0, use el método de momentos para encontrar un estimador del parámetro β. 19. Dada una muestra aleatoria de tamaño n de una población con función de densidad de probabilidad  1   si 0 < x < β  β f (x) =    0 otro caso Estimar β por el método de los momentos. 20. Dada una muestra aleatoria de tamaño n de una población con función de densidad de probabilidad   (1 − α)xα si 0 < x < 1 f (x) =  0 otro caso Estimar α por el método de los momentos. 9.5. PROBLEMAS 204 21. Dada una muestra aleatoria de tamaño n de una población con función de densidad de probabilidad  2   2 (α − x) si 0 < x < α α f (x) =   0 otro caso Estimar α por el método de los momentos. Estimación por intervalos Para medias cuando σ2 es conocida o la muestra es grande 22. Las estaturas en centímetros de una muestra aleatoria de 50 estudiantes universitarios son: 180 160 174 172 186 171 169 179 175 175 178 184 167 170 174 175 182 188 176 169 183 171 164 179 162 175 166 174 175 177 183 171 184 182 159 171 175 179 160 175 176 178 180 167 170 161 167 169 184 176 Construya un intervalo de confianza de 98 % para estimar la media de todos los estudiantes de la universidad e interprete el resultado. 23. Los siguientes datos son el número de kilómetros al año que es manejado el automóvil por una muestra de 25 propietarios de automóviles: 26597 23873 23719 23471 22977 20700 22974 25048 26798 27147 29174 23815 16818 24352 20340 19405 29588 25620 19455 25566 32501 18091 22581 30104 29236 Construya un intervalo de confianza del 99 % para estimar el número promedio de kilómetros al año que es manejado un automóvil e interprete el resultado. 24. Se toma una muestra aleatoria de 81 observaciones de una población normal. La media de la muestra es 40 y la desviación estándar de la muestra es 5. Encuentre el intervalo de confianza de 95 % para la media de la población e inteprete el resultado. 25. Se toma una muestra aleatoria de 49 observaciones de una población normal. La media de la muestra es 55 y la desviación estándar de la muestra es 10. Encuentre el intervalo de confianza de 99 % para la media de la población. 26. Una empresa de investigación realizó una encuesta para determinar la cantidad media que los fumadores continuos gastan en cigarrillos cada semana. Una muestra de 49 fumadores continuos reveló que X = 20 dólares y S = 5 dólares. a) ¿Cuál es la estimación puntual de la media poblacional?. Explique que indica. b) Utilizando un nivel de confianza de 95 %, determine el intervalo de confianza para la media poblacional e interprete el resultado. 9.5. PROBLEMAS 205 27. Un profesor de ingles contó el número de palabras mal escritas en su ensayo que asignó hace poco a sus alumnos. Para una clase de 40 alumnos, el número medio de palabras mal escritas fue de 6, 05 y la desviación estándar fue de 2, 44. Construya un intervalo de confianza de 95 % para el número medio de palabras mal escritas en la población de estudiantes e interprete el resultado. 28. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tienen una duración promedio de 780 horas. Encuentre un intervalo de confianza de 95 % para la media de la población de todos los focos que producen esta empresa e interprete el resultado. 29. A muchos pacientes con problemas cardiacos se les implantó un marca pasos para controlar su ritmo cardiaco. Se monta un modulo conector de plástico sobre la parte superior del marca pasos. Suponga una desviación estándar de 0,0015 y una distribución aproximadamente normal. Encuentre un intervalo de confianza de 95 % para la media de todos los módulos conectores que fabrica cierta compañía e interprete el resultado. Una muestra aleatoria de 75 módulos tiene un promedio de 0,310 pulgadas. 30. En un proceso químico se fabrica cierto polímero. Normalmente se hacen mediciones de la viscosidad después de cada corrida, y la experiencia acumulada indica que la variabilidad en el paso es muy estable, con σ = 20. La siguiente son 15 mediciones de la viscosidad por corrida: 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747 y 742. Encuentre un intervalo de confianza de 90 % para la viscosidad media de polímeros e interprete el resultado. 31. Para una muestra de 50 empresas tomadas de una industria determinada, se encuentra que el número promedio de empleados por empresas es de 420,5 con una desviación muestral de 55,7. Existe un total de 380 empresas en esa rama industrial. Encuentre un intervalo de confianza de 95 % para media de la población de los empleados por empresa e interprete el resultado. 32. Una fabrica produce anillos para los pistones de un motor de automóvil. Se sabe que el diámetro del anillo esta distribuida aproximadamente en forma normal y que tiene una desviación estándar de 0, 001 mm. Una muestra aleatoria de 15 anillos tiene un diámetro promedio de 74, 036 mm. a) Construye un intervalo de confianza de 99 % para el diámetro promedio del anillo e interprete el resultado. b) Construya un limite inferior de confianza de 95 % para el diámetro promedio del anillo e inteprete el resultado. 33. Se toma una muestra al azar de 45 alumnos, tomados sin reposición de una clase de estadística de 221 alumnos que muestra una media de 70 puntos y una desviación estándar de 9 puntos en las calificaciones finales. Compruebe que el intervalo de confianza del 98 % para la media de las 221 calificaciones varia de 72, 8 a 97, 2 puntos. 34. La media y la desviación típica de las cargas máximas soportadas por 60 cables están dadas respectivamente por 11, 9 ton. y 0, 73 ton. Hallar los limites de confianza de: 9.5. PROBLEMAS 206 a) 95 % b) 99 % para la media de las cargas máximas de todos los cables producidos por la compañía e interprete los resultados. 35. La municipalidad necesita adquirir lamparitas eléctricas en una fábrica. Se toma una muestra de 100 lámparas con las cuales se hace que se mida el tiempo en que tardan en quemarse. Los resultados son: media 2080 horas de vida y desviación típica de 300 horas. Hallar un intervalo de confianza para µ con un nivel de significación de 1 % e interprete el resultado. 36. Se desea estimar el precio promedio de cierto artículo de consumo. Para tal fin se realiza una muestra en 101 comercios seleccionados al azar, que indica un precio medio de 120 dólares, con una desviación muestral de 16 dólares. Construir un intervalo de confianza que con 95 % de seguridad contenga el parámetro poblacional e interprete el resultado. 37. La estatura de 1000 estudiantes están distribuidas aproximadamente de forma normal, con una media de 174, 5 cm y una desviación estándar de 6, 9 cm. Si se extraen 200 muestras aleatorias de tamaño 25 de esta población y las medidas se registran al décimo de centímetros más cercanos. Determine: a) La media y la desviación estándar de la distribución muestral de medias b) Construya un intervalo de confianza de 90 % para la media de estaturas de esta población e interprete el resultado. Para medias cuando σ2 es desconocida y la muestra es pequeña 38. las cantidades de pesetas, destinadas por un total de 15 familias a diversiones tales como cine, teatro y otros espectáculos públicos durante un periodo de tiempo determinado fueron los siguientes: 134 143 146 136 144 146 137 144 147 138 145 148 138 146 153 Construya un intervalo de confianza de 90 % para la media de las cantidades de pesetas destinadas por las familias de la población para diversiones e interprete el resultado. 39. Se realizan 20 pruebas de resistencia de un cierto material obteniéndose los siguientes datos: 2225 2272 2300 2231 2217 2223 2190 2211 2295 2219 2285 2195 2231 2218 2255 2232 2262 2257 2252 2261 Construya un intervalo de confianza del 98 % para la resistencia media de este material e interprete el tesultado. 40. Una empresa de investigación realizó una encuesta para determinar la cantidad media que los fumadores continuos gastan en cigarrillos cada semana. Una muestra de 25 fumadores continuos reveló que X = 20 dólares y S = 5 dólares. Elabora un intervalo de confianza del 99 % para la media poblacional e interprete el resultado. 9.5. PROBLEMAS 207 41. Un profesor de inglés contó el número de palabras mal escritas en un ensayo que asignó hace poco a sus alumnos. Para una clase de 24 alumnos, el número medio de palabras mal escritas fue de 6,05 y la desviación estándar fue de 2,44. Construya un intervalo de confianza de 95 % para el número medio de palabras mal escritas en la población de estudiantes e interprete el resultado. Capítulo 10 Prueba de Hipótesis 10.1. Introducción En el capítulo 8 se inició el estudio de la inferencia estadística. Se describió la manera de seleccionar una muestra aleatoria y, con base a ésta, estimar el valor de un parámetro poblacional. En este capítulo se continuará con el estudio de la inferencia estadística. Pero ya no se realizarán estimaciones puntuales sobre el valor de un parámetro ó se establecerá un intervalo de valores dentro del cual se espera que se encuentre el parámetro poblacional, sino que se realizará una prueba de hipótesis acerca de una afimación sobre un parámetro poblacional. 10.2. Definiciones y ejemplos En esta sección se definirá y luego se describirán los pasos a seguir para la realización de un contraste de hipótesis. Comenzaremos el estudio de esta parte de la inferencia estadística dando la definición de hipótesis. 10.2.1. ¿Qué es una hipótesis? Definición 10.2.1 Hipótesis estadística o simplemente hipótesis es una afirmación o suposición respecto al valor de un parámetro poblacional. Una vez hecha la afirmación, se utilizan los datos para verificar que tan razonable es dicha afirmación. Son ejemplos de hipótesis, o afirmaciones hechas sobre un parámetro poblacional las siguientes: El ingreso mensual promedio de todos los ciudadanos paraguayos es de 1.500.000 guaranies. El 20 % de los delincuentes capturados son sentenciados a prisión. El 90 % de las formas fiscales son llenadas correctamente. Todas estas hipótesis tienen algo en común, las poblaciones de interés son tan grandes que no es factible estudiar todos sus elementos. Como ya sabemos, una alternativa a estudiar 208 10.2. DEFINICIONES Y EJEMPLOS 209 la población entera es tomar una muestra de la población de interés. De esta manera podemos probar una afirmación para determinar si la evidencia soporta o no la afirmación. 10.2.2. Hipotesis nula y alternativa En esta sección se considerarán de nuevo los problemas estadísticos que involucran un parámetro θ cuyo valor es desconocido, pero que debe pertenecer a un cierto espacio paramétrico Ω. Si Ω se puede descomponer en dos subconjuntos disjuntos Ω0 y Ω1 , entonces el investigador debe decidir si el valor desconocido de θ pertenece a Ω0 ó Ω1 . Se define H0 como la hipótesis de que θ ∈ Ω0 y H1 como la hipótesis de que θ ∈ Ω1 . Puesto que los subconjuntos Ω0 y Ω1 son disjuntos y Ω0 ∪ Ω1 = Ω, exactamente una de las hipótesis, H0 ó H1 , debe ser cierta. El investigador debe decidir si acepta la hipótesis H0 o acepta la hipótesis H1 . Un problema de este tipo, en el cual existen sólo dos decisiones posibles, se denomina un problema de contraste de hipótesis. Si el investigador toma un adecisión errónea sufrirá una cierta pérdida o pagará un cierto costo. En muchos problemas, el investigador podrá analizar muestras aleatorias antes de tomar su decisión, y los valores observados en las muestras le proporcionarán información acerca del valor de θ. Un procedimiento para decidir si aceptar la hipótesis H0 ó aceptar la hipótesis H1 se denomina procedimiento de contraste o simplemente contraste. En la mayoría de los problemas las dos hipótesis, H0 y H1 , se tratan de manera totalmente distinta. Para distinguir entre ellas, la hipótesis H0 se denomina hipótesis nula y la hipótesis H1 se denomina hipótesis alternativa. Definición 10.2.2 La prueba de hipótesis es un procedimiento de contraste basado en una evidencia muestral y en la teoría de la probabilidad, usado para determinar si la hipótesis nula H0 es una afirmación razonable para no ser rechazada, o es una afirmación poco razonable y ser rechazada en favor de la hipótesis alternativa H1 . 10.2.3. Dos tipos de errores Cuando se toma la decisión de acptar o rechazar la hipótesis nula H0 en un procedimiento de constraste se corre el riesgo de cometer errores. A continuación se darán las definiciones de los posibles errores que se pueden cometer en una prueba de hipótesis. Definición 10.2.3 Si en un procedimiento de contraste se rechaza la hipótesis nula cuando ésta es verdadera, entonces se dice que se comete un error tipo I, y la probabilidad de cometer este primer tipo de error está dada por la relación α = P(rechazar H0 | H0 es cierta) En cambio, la aceptación de la hipótesis nula cuando ésta es falsa recibe el nombre de error tipo II, y la probabilidad de cometer este segundo tipo de error está dada por la relación β = P(aceptar H0 | H0 es f alsa) Todas las decisiones posibles en un contrastes de hipótesis se resumen en la siguiente tabla: 10.2. DEFINICIONES Y EJEMPLOS Rechazar H0 Aceptar H0 210 H0 cierta H0 falsa Error tipo I Decisión correcta con probabilidad α con probabilidad 1 − β Decisión correcta Error tipo II con probabilidad 1 − α con probabilidad β La información para obtener una regla de decisión que nos lleve a rechazar o no rechazar un hipótesis estadística provendrá de una muestra aleatoria X1 , . . . , Xn de la distribución de que se trate. Observe además que al aceptar una hipótesis no se afirma que ésta sea absolutamente cierta, sino simplemente que es consistente con los datos de la muestra aleatoria. Si la muestra cambia, posiblemente la decisión de rechazar o no rechazar también. 10.2.4. Región Crítica Considérese un problema de contraste de hipótesis que tiene la siguiente forma: H0 : θ ∈ Ω0 H1 : θ ∈ Ω1 Supóngase que antes de que el investigador tenga que decidir que hipótesis aceptar, puede observar una muestra aleatoria X1 , X2 , . . . , Xn seleccionada de una población cuya distribución tiene un parámetro desconocido θ. Se definirá a S como el espacio muestral de la n-upla X = (X1 , X2 , . . . , Xn ). En otras palabras, S es el conjunto de todos los resultados posibles de la muestra aleatoria. En un problema de este tipo, el investigador especifica un procedimiento de contraste dividiendo el espacio muestral S en dos subconjuntos disjuntos S0 y S1 . El subconjunto S0 contiene los valores de X para los cuales aceptará H0 y el otro subconjunto S1 contiene los valores de X para los cuales rechazará H0 y, por lo tanto aceptará H1 . Definición 10.2.4 El subconjunto S1 del espacio muestral S para el cual H0 sería rechazada se denomina región crítica del contraste y a la probabilidad de cometer el error tipo I, esto es α, se le llama tamaño de la región crítica. A esta probabilidad se le conoce también con el nombre de nivel de significancia. En resumen, un procedimiento de contraste se determina especificando la región crítica del contraste. Por lo tanto, el espacio parámetrico Ω queda dividido en dos subconjuntos disjuntos: A denominada zona de aceptación y que contiene todos los resultados para para los cuales H0 será aceptada; y R denominada zona de rechazo y que contiene todos los resultados para para los cuales H0 será rechazada. 10.2.5. Función de Potencia Las características de un procedimiento de constraste se pueden describir especificando, para cada valor de θ ∈ Ω, la probabilidad π(θ) de que el procedimiento conducirá al rechazo 10.2. DEFINICIONES Y EJEMPLOS 211 de H0 , o la probabilidad 1 − π(θ) de que conducirá a la aceptación de H0 . La función π(θ) se denimina función de potencia del contraste. Por lo tanto, si C denota la región crítica del contraste, entonces la función de potencia π(θ) se determina por la relación π(θ) = P(X ∈ C|θ) para θ ∈ Ω Sea Ω = Ω0 ∪ Ω1 , donde Ω0 ∩ Ω1 = 0/ y sean además las hipótesis H0 : θ ∈ Ω0 H1 : θ ∈ Ω1 Para esta prueba, si H0 es falsa, es decir θ ∈ Ω1 , la función de potencia se define como π(θ) = P(Rechazar H0 |H0 es f alsa) = P(θ ∈ R|θ = θi ∧ θi ∈ Ω1 ) = 1 − β que constituye la probabilidad de evitar un error de tipo II. Por lo que la potencia de la prueba, para cualquier valor en H1 , es la probabilidad de rechazar H0 , dado que H1 es cierta. Por el contrario si H0 es cierta, la función de potencia es π(θ) = P(Rechazar H0 |H0 es cierta) = P(θ ∈ R|θ = θi ∧ θi ∈ Ω0 ) = α que constituye la probabilidad de cometer el error de tipo I. Por lo que la potencia de la prueba, para cualquier valor en H0 , es la probabilidad de rechazar H0 , dado que H0 es cierta. Función de Potencia Ideal Puesto que la función de potencia π(θ) especifica para cada valor posible del parámetro θ la probabilidad de que H0 sea rechazada, resulta que la función de potencia ideal sería una para la cual π(θ) = 0 para todo valor de θ ∈ Ω0 y π(θ) = 1 para todo valor de θ ∈ Ω1 . Si la función de potencia tuviera realmente estos dos valores, entonces, independientemente del verdadero valor de θ, el contraste conduciría a la decisión correcta con probabilidad 1. En un problema práctico, sin embargo, rara vez podría exixtir un procedimiento de contraste que tubiera esta función de potencia ideal. 10.2.6. Función Característica de Operación Además de la función potencia existe otra forma de describir las características de un procedimiento de constraste, que también se basa en una función de probabilidad denominada función característica de operación, cuya definición se da a continuación. Definición 10.2.5 El complemento de la función potencia 1 − π(θ) se denomina función característica de operación. Se define como una función de probabilidad. Por lo tanto, si B denota el comlemento de la región crítica, la función característica de operación estará dada por la relación 1 − π(θ) = P(X ∈ B|θ) para θ ∈ Ω Si H0 es cierta, la función de característica de operación será P(X ∈ B|θ) = P(Aceptar H0 |H0 es cierta) = P(θ ∈ A|θ = θi ∧ θi ∈ Ω0 ) = 1 − α 10.2. DEFINICIONES Y EJEMPLOS 212 que constituye la probabilidad de evitar un error de tipo I. Por lo tanto, constituye la probabilidad de tomar la decisión correcta de aceptar H0 cunado esta es cierta. Cuando H0 es falsa, la función caracteristica de operación está dada por la relación P(X ∈ A|θ) = P(Aceptar H0 |H0 es f alsa) = P(θ ∈ A|θ = θi ∧ θi ∈ Ω1 ) = β que constituye la probabilidad de cometer un error de tipo II. 10.2.7. Hipótesis simples y compuestas Supóngase que X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una distribución cuya función de probabilidad o de densidad de probabilidad es f (x|θ), donde el valor del parámetro θ debe pertenecer al espacio paramétrico Ω, que Ω0 y Ω1 son conjuntos disjuntos tal que Ω0 ∪ Ω1 = Ω y que se desea contrastar las siguientes hipótesis: H0 : θ ∈ Ω0 H1 : θ ∈ Ω1 Si el conjunto Ωi , i = 0, 1, solo puede contener un valor de θ, se dice entonces que la hipótesis Hi es una hipótesis simple. Si el conjunto Ωi , i = 0, 1, contiene más de un valor de θ, se dice entonces que la hipótesis Hi es una hipótesis compuesta. Con una hipótesis simple, la distribución de las observaciones queda completamente especificada. Con una hipótesis compuesta, sólo se especifica que la distribución de las observaciones pertenece a cierta clase. Por ejemplo, supóngase que en un problema dado la hipótesis nula H0 tiene la siguiente forma: H0 : θ = θ0 . Puesto que esta hipótesis es simple, el tamaño de cualquier procedimiento de contraste será presisamente α = π(θ0 ). 10.2.8. Procedimiento de 4 pasos para contraste de hipótesis Hay un procedimiento de cuatro pasos que sistematizan la prueba de hipótesis. Estas son: 1. Establecer las hipótesis nula y alterna El primer paso para un contraste de hipótesis es establecer las hipótesis nula y alternativa; esto es H0 : θ = θ0 contra una de las tres alternativas siguientes   H1 : θ < θ0 −→ (1) H1 : θ > θ0 −→ (2)  H1 : θ 6= θ0 −→ (3) Si estamos ante el caso (1) o (2) decimos que el contraste es unilateral o de una cola; por el contrario si estamos ante el caso (3) el contraste es bilateral o de dos colas. 10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30) 213 2. Determinar el criterio de contraste La determinación del criterio de contraste consiste en especificar el nivel de significancia, el tipo de distribución, y los valores críticos. Nivel de significancia: como ya se mencionó es la probabilidad de rechazar una hipótesis nula verdadera y es simbolizado por α. No hay un nivel de significancia para todos los estudios, se puede utilizar cualquier valor de probabilidad entre 0 y 1; y esto depende exclusivamente del investigador antes de colectar la muestra. El tipo de distribución se determinará dependiendo de la naturaleza de la hipótesis y del tamaño de la muestra. Los valores críticos son los valores de la variable que en la distribución limitan el área crítica, que es la parte de la curva que corresponde al nivel de significancia. 3. Calcular el estadístico de prueba El estadístico de prueba es un valor obtenido de la información de la muestra para compararlo con el criterio de contraste y rechazar o aceptar la hipótesis. El estadístico de prueba cambia de acuerdo a la distribución que se utilice. 4. Tomar decisión y conclusión Una regla de decisión es establecer las condiciones sobre las cuales la hipótesis nula deberá ser rechazada o no rechazada. Si el estadístico de prueba queda dentro de la zona crítica la hipótesis nula deberá ser rechazada. Si por el contrario, el estadístico de prueba queda fuera de la zona crítica la hipótesis nula no deberá ser rechazada. La conclusión deberá reflejar la exixtencia o no de evidencia suficiente para aceptar o no la hipótesis nula bajo el mivel de significancia establecido. 10.3. Pruebas de hipótesis para grandes muestras (n ≥ 30) 10.3.1. Prueba de hipótesis para Medias Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con media desconocida µ y varianza σ2 que puede ser conocida o no. En caso de que la varianza σ2 no sea conocida se 2 utiliza la varianza muestral S2 como su estimador. Sabemos que X tiene distribución N(µ, σn ) y √ (X − µ) n ∼ N(0, 1) Z= σ Sea µ0 un número real particular. Además se desea contrastar las hipótesis H0 : µ = µ0 contra H1 , que dependiendo de la naturaleza de la prueba podría ser cualquiera de las siguientes alternativas   H1 : µ < µ0 −→ (1) H1 : µ > µ0 −→ (2)  H1 : µ 6= µ0 −→ (3) 10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30) 214 El problema es encontrar una regla para decidir cuándo rechazar H0 en favor de H1 con base en los datos de la muestra X1 , X2 , . . . , Xn . Cuando H0 es cierta, esto es, cuando µ es 2 efectivamente µ0 , se tendrá que X ∼ N(µ0 , σn ) y por lo tanto √ (X − µ0 ) n Z= ∼ N(0, 1) σ La variable aleatoria Z es una medida natural de la distancia entre X (un estimador de µ) y su valor esperado µ0 cuando H0 es cierta. Es entonces razonable rechazar H0 cuando la variable |Z| sea grande. Es por ello que se puede tomar como criterio de decisión rechazar H0 cuando |Z| ≥ k, para cierta constante k. ¿Cómo encontramos el número k?, es la pregunta a contestar. Si estamos ante una prueba unilateral (caso (1) ó el caso(2)); en una tabla de la distribución normal podemos encontrar un valor zα talque P(Z ≤ −zα ) = α ó P(Z ≥ zα ) = α, de la misma forma si estamos ante una prueba bilateral (caso (3)) podemos encontrar zα/2 tal que P(|Z| ≥ zα/2 ) = α, en todos los casos que se pueden presentar el valor de α lo determina la persona que lleva a cabo la prueba de hipótesis. Este valor zα ó zα/2 es precisamente la constante k buscada pues con ello se logra que la región de rechazo sea de tamaño α. La variable aleatoria Z constituye la estadística de la prueba. Llevar a cabo esta prueba de hipótesis consiste en usar los datos de la muestra para encontrar el valor de Z, si |Z| ≥ zα caso unilateral ó |Z| ≥ zα/2 caso bilateral, entonces se rechaza H0 , en caso contrario no se rechaza H0 . En la siguiente tabla se muestra resumida la información de este análisis. Ejemplo 10.3.1 La experiencia de varios años ha demostrado que los focos marca A tienen una vida media de 1180 hs, con una desviación estándar de 90hs. Para probar la pretención de los vendedores de la marca B, se probaron 100 de esos focos comprados en almacenes ordinarios. La muestra arrojó X = 1220 hs. y S = 80 hs. Probar la hipótesis de que la media marca B es igual a la media marca A, contra la alternativa de que tenga un valor mayor. Usar un nivel de significancia del 5 %. Desarrollo Paso 1: Formulación de las hipóteisis nula y alternativa H0 : µ = 1180 hs H1 : µ > 1180 hs Paso 2: Determinación del criterio de contraste Según las especificaciones del problema, el nivel de significancia establecido es del 5 %, esto es α = 0, 05 y como se trata de una prueba de hipótesis para medias con varianza poblacional conocida, el tipo de distribución a utilizar es la distribución normal estándar. Como la prueba es unilateral se busca en la tabla Z, el valor crítico correspondiente. Z 0,04 0,045 0,05 1,6 0,4495 0,45 0,4505 por lo que el valor crítico buscado es Z = 1, 645. 10.3. PRUEBAS DE HIPÓTESIS PARA GRANDES MUESTRAS (N ≥ 30) 215 Paso 3: Calculo del estadístico de prueba El estadístico de prueba en este caso tendra un valor de √ (1220 − 1180) 100 = 4, 44 Zc = 90 Paso 4:Toma de desición y conclusión El siguiente paso consiste en establecer un criterio de decisión, que en este caso será 1. Si Zc < Z no se puede rechazar H0 2. Si Zc ≥ Z se rechaza H0 Como Zc = 4, 44 > 1, 645, se observa que el estadístico de prueba queda localizado dentro de la zona crítica, entonces podemos rechazar la hipótesis nula (H0 ), de tal suerte que se concluye lo siguiente: Con un nivel de significancia de 0,05 se puede afirmar que son distintos los promedios de la marca A y la marca B, presumiblemente mayor el de la marca B. Capítulo 11 Análisis de la Varianza (ANOVA) Además de probar hipótesis relativas a dos varianzas, un segundo uso de la distribución F involucra la técnica de Análisis de la Varianza, abreviado ANOVA (Analysis of variance). Básicamente, el análisis de la varianza utiliza informaciones provenientes de muestras para determinar si tres o más tratamientos producen diferentes resultados. El uso de la palabra tratamiento tiene su origen en la investigación agrícola. Las tierras se trataron con diferentes fertilizantes, para determinar si habría una diferencia significativa en las producciones. Nosotros podríamos probar la hipótesis de que cinco diferentes aditivos de gasolina (tratamientos) resultan en un diferente kilometraje por litro. También podríamos contestar la pregunta, ¿son cuatro métodos de capacitación y entrenamiento (tratamientos) igualmente efectivos?. 11.1. Suposiciones de ANOVA En la técnica del análisis de varinza consiste en la comparaciónde tres o más medias muestrales para determinar si provienen de poblaciones con medias iguales. Para utilizar esta técnica, se supone lo siguiente: 1. Las poblaciones tienen una distribución normal 2. Las poblaciones tienen desviaciones estándar (σ) iguales. 3. Las muestras se seleccionan de manera independiente Cuando se cumplen estas condiciones, se utiliza la distribución F como estadístico de prueba. En particular, se emplea el término tratamiento para identificar las diferentes poblaciones que se examinan. Definición 11.1.1 : Tratamiento Fuente específica de variación en un conjunto de datos. 11.2. Procedimiento del análisis de la varianza El procedimiento ANOVA puede ser ilustrado usando un ejemplo. Se quiere probar la hipótesis, en el nivel de significancia de 0,05; de que la cantidad de tabletas de alimento 216 11.2. PROCEDIMIENTO DEL ANÁLISIS DE LA VARIANZA 217 que un grupo de ratas consume está en relación con el tiempo transcurrido desde su última comida. Para comprobar esta hipótesis, se selecciona al azar tres grupos de ratas con seis ratas en cada grupo. Después de someter a cada grupo a un entrenamiento preliminar, prueba al grupo A, tres horas después de comer; el grupo B, doce horas después de comer y al grupo C, veinticuatro horas después de comer. La cantidad de tabletas consumidas por cada animal en un periodo de diez minutos fueron las siguientes: Grupo A 0 7 2 1 1 7 Grupo B 5 2 3 9 6 5 Grupo C 5 11 9 9 4 10 ∑ x = 18 ∑ x = 30 ∑ x = 48 ∑ x2 = 104 ∑ x2 = 180 ∑ x2 = 424 Capítulo 12 Análisis de regresión y de correlación 12.1. Introducción En muchas investigaciones estadísticas, el principal objetivo es establecer relaciones que permitan pronosticar una o más variables en términos de otras. Por ejemplo, se han efectuado estudios para pronosticar las ventas futuras de un producto en términos de su precio, de la reducción de peso de una persona en términos del número de semanas que ha seguido una dieta de 800 calorías por día, de los gastos familiares en atención médica en términos del ingreso familiar, del consumo per cápita de ciertos artículos alimenticios en términos de su valor nutricional y el dinero que se gasta en su publicidad televisiva y así consecutivamente. Es evidente que sería ideal si pudiéramos pronosticar una cantidad exactamente en términos de otra, pero esto rara vez es posible. En la mayoria de los casos debemos conformarnos con pronosticar promedios o valores esperados. Por ejemplo, no podemos pronosticar con exactitud la cantidad de dinero que un graduado universitario específico ganará diez años después de graduarse, pero considerando datos apropiados podemos pronosticar las ganancias promedio de todos los graduados univeristarios diez años después de su graduación. Este problema de pronóstico del valor promedio de una variable en términos del valor conocido de otra variable (o de los valores conocidos de otras variables) se designa como el problema de la regresión. Este término se remonta a Francis Galton (1822-1911), quien lo usó por primera vez en un estudio de la relación entre las alturas de padres e hijos. 12.2. Modelo Estadístico Toda investigación estadística tiene por objeto encontrar una ecuación matemático que ayude a explicar el comportamiento de un fenómeno físico de interés en un estudio determinado. Dicha ecuación matemática recibe el nombre de medelo estadístico o simplemente modelo. Definición 12.2.1 Modelo: Por un modelo entendemos una ecuación matemática que contiene variables aleatorias, variables matemáticas (no aleatorias) y parámetros poblacionales. Ejemplo 12.2.1 La siguiente ecuación constituye un ejemplo de modelo estadístico Yi = β1 X1i + β22 X2i + β3 X3i + εi para i = 1, 2, . . . , n 218 12.2. MODELO ESTADÍSTICO 219 donde β1 , β22 y β3 son parámetros poblacionales desconocidos X1i , X2i y X3i son variables matemáticas εi son variables aleatorias Dependiendo de la forma de la ecuación matemática podemos tener diferentes tipos de modelos estadísticos. Uno de los más utilizados es el modelo lineal. Definición 12.2.2 Modelo Lineal: Es una ecuación que contiene variables aleatorias, variables matemáticas (no aleatorias) y parámetros poblacionales y que el modelo es lineal en los parámetros y en las variables aleatorias. Ejemplo 12.2.2 La siguiente ecuación constituye un ejemplo de modelo lineal Yi = β1 X1i + β2 X2i + β3 X3i + εi para i = 1, 2, . . . , n donde β1 , β2 y β3 son parámetros poblacionales desconocidos X1 , X2 y X3 son variables matemáticas εi son variables aleatorias Definición 12.2.3 Modelo determinístico matemático: Es un modelo matemático en el cual puede haber equivocación pero no variabilidad Ejemplo 12.2.3 La siguiente ecuación matemática constituye un modelo deterministico Y = α + βX Definición 12.2.4 Modelo Probabilístico: Es un modelo determinístico más una componente aleatoria debido a la variabilidad de las variables que no fueron incluidos en el modelo y será menor cada vez que se considere más variables de interés en el estudio y mientras más se mantenga los requisitos de similitud de las variables. Ejemplo 12.2.4 La siguiente ecuación matemática constituye un modelo probabilístico Y = α + βX + ε Definición 12.2.5 Modelo de Regresión: Son aquellas en que las variables aleatorias independientes o predictoras son variables continuas; tales como la edad, peso, ingreso, demanda, producción, etc; que toman infinitos valores y sirven para cuantificar en lugar de indicar la presencia de un efecto cualitativo. Ejemplo 12.2.5 La siguiente ecuación matemática constituye un modelo de regresión Yi = β0 + β1 X1i + β2 X2i + β3 X3i + εi para i = 1, 2, . . . , n 12.3. MODELO DE REGRESIÓN SIMPLE 12.3. 220 Modelo de regresión simple El análisis de regresión es una rama de la teoria estadística cuyom uso está muy difundido en casi todas las disciplinas cientificas. Es una técnica básica para medir o estimar relaciones entre las variables de interés consideradas en un estudio de investigación. El análisis de regresión simple estudia la relación entre dos grupos de datos desarrollando una ecuación matemática que describa dicha relación. La ecuación nos permitirá predecir el valor de la variable dependiente Y basándonos en el valor de la variable independiente X. La técnica usada para desarrollar la ecuación para la línea de tendencia y hacer esta predicción es llamada análisis de regresión simple. Antes de estudiar el modelo de regresión simple veamos dos aspectos que serán de suma importancia para el análisis de dicho modelo. Estos dos aspectos consiten en el problema de bondad de ajuste y el método de mínimos cuadrados. 12.3.1. Ajuste de curva Siempre que es posible intentamos expresar o aproximar las relaciones entre cantidades conocidas y cantidades que se deben pronosticar en términos de ecuaciones matemáticas. esto ha tenido mucho éxito en las ciencias naturales, donde se sabe, por ejemplo, que a una temperatura constante la relación entre el volumen y, y la presión x, de un gas se obtiene por medio de la fórmula: k y= x donde k es una constante numérica. Siempre que usemos datos observados para llegar a una ecuación matemática que describe la relación entre dos variables, un procedimiento conocido como el ajuste de curva, debe enfrentar tres clases de problemas: 1. Debemos decidir qué clase de curva y por tanto qué clase de ecuación de “pronóstico” queremos usar. 2. Debemos encontrar la ecuación particular que es “mejor” en cierto sentido. 3. Debemos investigar ciertos aspectos referentes a los métodos de la ecuación particular y de los pronósticos hechos a partir de ésta. En la sección 12.3.2 estudiaremos detalladamente el segundo de estos problemas y en la sección 12.3.3 estudiaremos el tercero. El primer problema por lo regular se decide mediante la revisión directa de los datos. Ilustramos los datos en papel para gráficas ordinarias (aritméticas), a veces en papel para gráficas especiales con escalas especiales y decidir mediante la revisión visual la clase de curva (una linea recta, una parábola, etc.) que describe mejor el patrón general de los datos. Existen métodos por medio de los cuales se puede hacer esto de modo más objetivo, pero son bastante avanzados y no los analizaremos en este material. En esta parte nos centraremos, en esencia, en ecuaciones lineales de dos incógnitas que describan una posible relación entre dos variables. Estas son de la forma Y = a + bX 12.3. MODELO DE REGRESIÓN SIMPLE 221 donde a se denomina coeficiente de intersección ó intersecto (es la intersección de Y con el eje de las abscisas o eje horizontal) y b se denomina coeficiente de pendiente de la lìnea recta (el cambio en Y que acompaña un incremento de una unidad en X). El coeficiente de intersección o intersecto a nos dice cuál es el valor de Y cuando X es igual a cero. El coeficiente de pendiente b equivale a la variación de Y debido a la correspondiente ∆Y variación de X, en términos matemáticos esto corresponde a b = . ∆X 12.3.2. El método de los mínimos cuadrados Una vez que hemos decidido ajustar una línea recta a un conjunto de datos determinado {x1 , x2 , . . . , xn , y1 , y2 , . . . , yn }, enfrentemos la segunda clase de problema, específicamente, el problema de encontrar la ecuación de la línea recta particular que en cierto sentido proporcione el mejor ajuste posible y posteriormente ofrezca los mejores pronósticos posibles de la variable dependiente Y a partir de la variable independiente X. Lógicamente, no existe límites para el número de líneas rectas que se pueden trazar en un papel para gráficas. Algunas de estas líneas se ajustarían a los datos en forma tan deficiente que no las consideraríamos con seriedad, pero muchas otras parecerían proporcionar más o menos “buenos” ajustes y el problema consiste en localizar la línea que se ajuste “mejor” a los datos en sentido bien definido. Si todos los puntos caen en una línea recta no hay ningún problema, pero este es un caso extremo que rara vez encontramos en la práctica. En general, debemos conformarnos con una línea recta que tiene ciertas propiedades deseables, faltas de perfección. El criterio que en la actualidad se usa casi exclusivamente para definir un “mejor” ajuste se remonta al inicio del siglo XIX y al trabajo del matemático francés Andrien Legendre; éste método se conoce con el nombre de método de los mínimos cuadrados. Este método implica que la linea que ajustamos para nuestros datos sea tal que la suma de los cuadrados de las distancias verticales de los puntos a la línea recta sea mínima. Para demostrar como se ajusta en realidad una línea de mínimos cuadrados a un conjunto de datos {x1 , x2 , . . . , xn , y1 , y2 , . . . , yn }, que podría verse con un conjunto de n pares ordenados {(x1 , x1 ), (x2 , x2 ), . . . , (xn , xn )}. Si expresamos la ecuación de la línea como ŷ = a + bx, donde el símbolo, ŷ (y acento circunflejo), se usa para distinguir entre un valor observado de y y el valor correspondiente ŷ en la línea, el criterio de los mínimos cuadrados implica que reduzcamos al mínimo la suma de los cuadrados de las distancias entre las y‘ s y las ŷ‘ s. Esto implica que sedeben encontrar los valores numéricos de las constantes a y b que aparecen en la ecuación ŷ = a + bx para la cual n n i=1 i=1 ∑ (yi − ŷi)2 = ∑ (yi − a − bxi)2 sea tan baja como sea posible. n Para encontrar los resultados deseados de a y b, debemos minizar ∑ (yi − ŷi )2 con respeci=1 to de a y b; para ello aplicaremos los conocimientos de los criterios sobre puntos máximos y mínimos desarrollados en el cálculo diferencial y procedimientos algebraicos. Por lo tanto 12.3. MODELO DE REGRESIÓN SIMPLE 222 n para minimizar ∑ (yi − ŷi)2 respecto de a y b; lo derivamos parcialmente con respecto de i=1 ellos e igualemos dichas derivadas parciales a cero y obtendremos un sistema de dos ecuaciones con dos incógnitas denominados ecuaciones normales. Esto es i ³ n ´ n n ∂h n 2 (y − ŷ ) = −2 (y − a − bx ) = −2 y − na − b x i i i i i i ∑ ∑ ∑ ∑ =0 ∂a i=1 i=1 i=1 i=1 i ³ n ´ n n n ∂h n 2 2 (y − ŷ ) = −2 (y − a − bx )x = −2 x y − a x − b x i i ∑ i i ∑ i ∑ i i ∑ i ∑ i =0 ∂b i=1 i=1 i=1 i=1 i=1 con lo cual n n i=1 i=1 ∑ yi = na + b ∑ xi n n n i=1 i=1 i=1 ∑ xiyi = a ∑ xi + b ∑ xi2 (12.3.1) (12.3.2) Ejemplo 12.3.1 Considerando los datos muestrales siguientes obtenidos en un estudio de la realación entre el número de años que los solicitantes de ciertos trabajos en el servicio exterior estudiaron alemán en preparatoria o universidad y las calificaciones que obtuvieron en una prueba de dominio de lectura de ese idioma. Número de años (x) 3 4 4 2 5 3 4 5 3 2 Calificación en la prueba (y) 57 78 72 58 89 63 73 84 75 48 Ajusta una línea recta de mínimos cuadrados que relacione los números de años que los solicitantes de trabajos en el servicio exterior estudiaron alemán en preparatoria o universidad con las calificaciones que obtuvieron en la prueba de dominio de ese idioma. Desarrollo Ilustrando los puntos correspondientes a estos diez pares de valores en un diagrama, observaremos que aunque no todos los puntos caen en una misma línea recta, el patrón general de la relación se describiría razonablemente bien por medio de una línea recta adecuada aciertos criterios bien definidos. El gráfico 12.1 muestra el partrón de comportación de la relación entre los números de años que los solicitantes de trabajos en el servicio exterior estudiaron alemán en preparatoria o universidad con las calificaciones que obtuvieron en la prueba de dominio de ese idioma, además muestra la linea que mejor se ajusta a los diez pares de datos. 12.3. MODELO DE REGRESIÓN SIMPLE 223 Figura 12.1: Gráfico de la relación entre el número de años que se estudió alemán y la calificación obtenida en la prueba. Las sumas requeridas para la sustitución en las ecuaciones normales se obtienen realizando los cálculos que aparecen en la tabla siguiente: x 3 4 4 2 5 3 4 5 3 2 y 57 78 72 58 89 63 73 84 75 48 x2 9 16 16 4 25 9 16 25 9 4 xy 171 312 288 116 445 189 292 420 225 96 ∑ xi = 35 ∑ yi = 697 ∑ xi2 = 133 ∑ xiyi = 2554 Sustituyendo ∑ xi = 35; ∑ yi = 697; ∑ xi2 = 133; ∑ xi yi = 2554 y n = 10 en las ecuaciones normales, obtenemos 697 = 10a + 35b 2544 = 35a + 133b Resolviendo este sistema de ecuaciones, obtenemos a = 31, 55 y b = 10, 90. Entonces la ecuación de mínimos cuadrados está dada por y = 31, 55 + 10, 90x 12.4. ANÁLISIS DE CORRELACIÓN 12.3.3. 224 Análisis de regresión simple Como ya se ha dicho el propósito fundamental del análisis de regresión simple es estimar la relación que existe entre dos variables Y dependiente y X independiente, consideradas en un estudio. Una vez estimadas las relaciones entre las variables X e Y , interesa averiguar cuán tan estrechas son, así como también estimar la exactitud de las predicciones basadas en ellas. Las respuestas a estos problemas pueden obtenerse utilizando las ideas básicas en el análisis sobre pruebas de hipótesis e intervalos de confianza de los parámetros del modelo. Supuestos básicos del análisis de regresión Es posible que se descubra que una función lineal Y = f (X) no describe los datos con que se esta trabajando. La función lineal Y = f (X) no deja margen para variaciones y por lo tanto, no puede suministrar una descripción adecuada de la relación entre la variable X e Y . Por lo cual necesitamos de un modelo que incluye ciertas variaciones. Si suponemos que los datos observados fueron generados por una ecuación lineal estocástica tal como Y = α + βX + ε donde ε es un término de error o perturbación aleatoria, la ecuación permite que Y sea mayor o menor que α + βX, lo cuál depende de que ε sea positivo o negativo. Lo ideal sería que ε fuera pequeño y que no este correlacionado (relacionado) con la variable X, a fin de poder cambiar X sin que se modifique ε y determinar asi lo que ocurre en promedio con Y . En general, los datos observados para el análisis de regresión simple pueden considerarse como un conjunto de pares ordenados de números {(X1 ,Y1 ), (X2 ,Y2 ), . . . , (Xn ,Yn )}, donde Y1 ,Y2 , . . . ,Yn son variables aleatorias dependientes X1 , X2 , . . . , Xn son variables matemáticas independientes El par (Xi ,Yi ) corresponde a la i-èsima observación de las variables X e Y . Además para cada par (Xi ,Yi ) existe un término de error εi , esto es Yi = α + βXi + εi . Si se conociera los valores de los parámetros poblacionales α y β podríamos trazar en un diagrama la función de regresión α + βX. Los términos de error son iguales a la distancias verticales u horizontales entre los puntos observados (Xi ,Yi ) y los puntos correspondientes en la linea de regresión (Xi , α + βXi ). 12.4. Análisis de correlación Definición 12.4.1 Correlación: es un grupo de técnicas estadísticas usadas para medir la fuerza de la relación entre dos variables. El estudio de la correlación involucra cuestiones como: ¿hay una relación entre los promedios de la preparatoria y los promedios de primero en la universidad?. ¿Hay una relación entre los gastos en publicidad de un negocio y sus ventas?. ¿Hay una relación entre el número de años en el trabajo y la productividad?, etc. 12.4. ANÁLISIS DE CORRELACIÓN 12.4.1. 225 Análisis de correlación simple La idea básica del análisis de correlación simple es dar la magnitud de la relación entre dos variables. Por lo tanto la correlación simple mide la fuerza y la dirección de una relación lineal entre solo dos variables aleatorias. El primer paso de la correlación simple es normalmente graficar los datos es un diagrama que recibe el nombre de diagrama de dispersión. Definición 12.4.2 Diagrama de dispersión: es un diagrama que refleja la relación entre dos variables aleatorias. En el diagrama de dispersión debemos establecer cual es la variable dependiente y la variable independiente.

97578639-Probabilidad-y-Estadistica

Products

Support

97578639-Probabilidad-y-Estadistica

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib