UNIVERSIDAD AUTÓNOMA DE SINALOA FACULTAD DE INFORMÁTICA CULIACÁN ASIGNATURA: Probabilidad y Estadística. DOCENTE: M.C. NIEBLAS AGUILAR ARANZAZU GRUPO: 3-1 SEMESTRE: V TURNO: Matutino TRABAJO FINAL: TAREA NÚMERO NUEVE: Regresión y correlación lineal. REALIZADO POR: Garcia Gonzalez Alberto Guadalupe Culiacán, Sinaloa, México. Miércoles 22 de Diciembre de 2021 INDICE DE LA TAREA FINAL NÚMERO NUEVE TRABAJO FINAL: TAREA NÚMERO NUEVE. ....................................................................... 1 PARTE 1: CORRELACIÓN LINEAL. ................................................................................. 1 PROBLEMA 1. ........................................................................................................ 1 PROBLEMA 2. ....................................................................................................... 3 PROBLEMA 3. ....................................................................................................... 4 PROBLEMA 4. ....................................................................................................... 5 PROBLEMA 5. ....................................................................................................... 8 PROBLEMA 6. ..................................................................................................... 10 PROBLEMA 7. ..................................................................................................... 11 PROBLEMA 8. ..................................................................................................... 14 PARTE 2: MUESTREO. ............................................................................................ 16 PROBLEMAS TEÓRICOS .......................................................................................... 16 PARTE 3: TEOREMA DEL LÍMITE CENTRAL. .................................................................... 18 PROBLEMA 9 ...................................................................................................... 18 PROBLEMA 10 ..................................................................................................... 19 PROBLEMA 11 ..................................................................................................... 20 PROBLEMA 12 ..................................................................................................... 21 TRABAJO FINAL: TAREA NÚMERO NUEVE. INSTRUCCIONES: Conteste los siguientes ejercicios de datos bivariados PARTE 1: CORRELACIÓN LINEAL. PROBLEMA 1. 1. Los hombres y mujeres que contestaron un cuestionario acerca de las diferencias de género están clasificados en tres grupos, según sus respuestas a la primera pregunta: d) Genere gráficas de pastel juntas para describir estos datos. Página 1 Grupo 1 Grupo 2 Grupo 3 Total Hombres F. Relativa Ángulo (°) 37 0.2342 84.30 49 0.3101 111.65 72 0.4557 164.05 158 1 360 Grupo 1 Grupo 2 Grupo 3 Total Mujeres F. Relativa Ángulo (°) 7 0.0795 28.64 50 0.5682 204.55 31 0.3523 126.82 88 1 360 e) Genere una gráfica de barras lado a lado para describir estos datos. Hombres Mujeres Total Grupo 1 37 7 44 Grupo 2 49 50 99 Grupo 3 72 31 103 f) ¿Cuál de las tres gráficas describe mejor la diferencia o similitud de las respuestas de hombres y mujeres? Creo que la de barras ejemplifica mejor la diferencia entre los dos sexos. En ella podemos apreciar bien cómo difieren los datos en una sola gráfica. Por otro lado, tenemos a las graficas de pastel, las cuales tienen que ser separadas en dos diferentes para apreciar las diferencias. Además de ello, también cuesta un poco más el realizarlas ya que debemos contar con la frecuencia relativa para obtener que tanto representa en cada ángulo. Página 2 PROBLEMA 2. 2. Asocia las rectas de regresión y = –x +16, y = 2x – 12, y = 0,5x + 5 a las nubes de puntos siguientes: Primero identificamos las características de cada recta. La recta y = -x+16 cuenta con una pendiente negativa, lo cual simboliza un ángulo mayor a noventa grados respecto a la horizontal, siendo la del inciso C) el adecuado para representar este comportamiento. Las rectas y = 2x-12 y y = 0.5x+5 tienen pendientes positivas, por lo tanto, su ángulo debe ser menor a noventa grados. Tanto el inciso a) como el b) representan eso, pero encontramos una diferencia significativa entre las dos. Cuanto más grande sea la pendiente, más inclinada hacia arriba está nuestra recta y su ángulo se acerca a noventa grados, siendo la del inciso b) la que posee mayor pendiente. La recta y = 2x – 12 tiene sentido que se asocie con el inciso a), debido a que la recta debería estar más inclinada hacia abajo. Asigna los coeficientes de correlación lineal r = 0,4, r = –0,85 y r = 0,7, a las nubes del problema anterior. Es importante recordar que la correlación lineal representa que tanta relación tienen los datos entre sí, siendo aquella correlación que se acerque a uno la más perfecta y la que se aleje de 1, siendo una correlación mala. Rápidamente podemos asociar la correlación negativa con la pendiente negativa, siendo el valor de -0.85 el más cercano a -1, el cual se refleja en que tan juntos están los puntos teniendo una buena correlación. La correlación más baja y positiva, 0.4, se le asigna el inciso a). Esto se refleja que tan dispersos están los puntos. Por último, tenemos a la correlación de r = 0.7, la cual se le asigna el inciso b) que, pese no ser tan perfecto, si se nota mucho la diferencia entre el inciso a) y b). Página 3 PROBLEMA 3. 3. El número de bacterias por unidad de volumen, presentes en un cultivo después de un cierto número de horas, viene expresado en la siguiente tabla: x = N° de horas y = N° de bacterias 0 1 2 3 4 5 12 19 22 34 54 62 Calcula: a) Las medias y desviaciones estándar de las variables, número de horas y número de bacterias. Realizamos la tabla que nos ayudará a obtener lo que se nos pide: Total ππ₯ = ππ¦ = π₯Μ = x y xy x² y² 0 1 2 3 4 5 15 12 19 22 34 54 62 203 0 19 44 102 216 310 691 0 1 4 9 16 25 55 144 361 484 1156 2916 3844 8905 (∑ π₯π )2 (15)2 ( ) 55 − π =√ 6 = √3.5 ≈ 1.8708 π−1 6−1 2 √∑ π₯π − (∑ π¦π )2 (203)2 (8905) − √ π 6 = √407.4 ≈ 20.183 = π−1 6−1 2 √∑ π¦π − (0 + 1 + 2 + 3 + 4 + 5) = 2.5 6 π¦Μ = (12 + 19 + 22 + 34 + 54 + 62) = 33.83 6 b) La covarianza de la variable bidimensional. ππ₯π¦ = (∑ π₯π )(∑ π¦π ) (15)(203) (691) − π 6 = = 36.7 π−1 6−1 ∑ π₯π π¦π − c) El coeficiente de correlación e interpretación. πΎ= ππ₯π¦ 36.7 = ≈ 0.9719 ππ₯ ππ¦ (1.8708)(20.183) Tenemos una relación de 0.9719, muy cercana al valor de 1, por lo tanto, se acerca mucho a la perfección y por ende, tendremos una dispersión entre los puntos muy buena, señalando como será la recta de regresión. Página 4 d) La recta de regresión de Y sobre X. πππππππ ππ’π ππ ππππ‘π ππ π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 20.183 ) = (0.9719) ( ) ≈ 10.4853 ππ₯ 1.8708 π = π¦Μ − ππ₯Μ ≈ (33.83) − (10.4853)(2.5) ≈ 7.6167 π¦ = 7.6167 + 10.4853π₯ e) Grafique el diagrama de dispersión y la recta de regresión en la misma grafica x y 0 1 2 3 4 5 12 19 22 34 54 62 PROBLEMA 4. 4. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al examen. Nota Horas de estudio Horas de TV 5 6 7 3 5 8 4 9 7 10 8 4 8 10 5 14 7 6 2 11 9 4 9 5 Página 5 a) Representa gráficamente los diagramas correspondientes a notaestudio y nota-TV. b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso estimas que es más fuerte? En la correlación de Nota-Horas de Estudio, tenemos una correlación positiva, donde la covarianza y el coeficiente son positivos. Por otro lado, tenemos al diagrama de Nota – Horas de TV, el cual seguramente debe tener tanto una covarianza y un coeficiente negativos. A simple vista se puede observar que la primera gráfica tiene una mayor correlación debido a que los puntos se asemejan más a una recta. c) Con los datos del problema anterior, halla el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión? Para la relación de las notas y horas de estudio. (∑ π₯π )2 (47)2 2− ( ) ∑ π₯ 305 − π √ π =√ 8 = √4.125 ≈ 2.0310 ππ₯ = π−1 8−1 ππ¦ = (∑ π¦π )2 (66)2 ( ) 614 − √ π 8 = √9.9286 ≈ 3.151 = π−1 8−1 2 √∑ π¦π − Página 6 (∑ π₯π )(∑ π¦π ) (47)(66) (429) − π 8 ππ₯π¦ = = = 5.8929 π−1 8−1 ππ₯π¦ 5.8929 πΎπππ‘ππ −π»ππππ ππ πΈπ π‘π’πππ = = ≈ 0.9208 ππ₯ ππ¦ (2.0310)(3.151) ∑ π₯π π¦π − Para la relación de las notas y horas de televisión. ππ₯ ≈ 2.0310 ππ¦ = (∑ π¦π )2 (53)2 ( ) 413 − √ π 8 = √8.8393 ≈ 2.973 = π−1 8−1 2 √∑ π¦π − (∑ π₯π )(∑ π¦π ) (47)(53) (276) − π 8 ππ₯π¦ = = = −5.0536 π−1 8−1 ππ₯π¦ −5.0536 πΎπππ‘ππ −π»ππππ ππ ππ = = ≈ −0.8369 ππ₯ ππ¦ (2.0310)(2.973) ∑ π₯π π¦π − Según la fidelidad de la correlación, tenemos un coeficiente de 0.9208 frente a uno de -0.8369, por lo tanto, la relación entre las notas y las horas de estudio tiene una mayor precisión que la de las notas con las horas en televisión. Esto quiere decir que, es más seguro que tengas una buena o mala nota concorde a las horas que dediques al estudio. d) Con los mismos datos, halla las rectas de regresión correspondientes y estima para un alumno que sacó un 2 en el examen: Para la relación de las notas y horas de estudio. π₯Μ = (5 + 6 + 7 + 3 + 5 + 8 + 4 + 9) = 5.875 8 π¦Μ = (7 + 10 + 8 + 4 + 8 + 10 + 5 + 14) = 8.25 8 πππππππ ππ’π ππ ππππ‘π ππ π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 3.151 ) = (0.9208) ( ) ≈ 1.4285 ππ₯ 2.0310 π = π¦Μ − ππ₯Μ ≈ (8.25) − (1.4285)(5.875) ≈ −0.1424 π¦πππ‘ππ −π»ππππ ππ πΈπ π‘π’πππ = −0.1424 + 1.4285π₯ Página 7 Para la relación de las notas y horas de estudio. π₯Μ = 5.875 π¦Μ = (7 + 6 + 2 + 11 + 9 + 4 + 9 + 5) = 6.625 8 πππππππ ππ’π ππ ππππ‘π ππ π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 2.973 ) = (−0.8369) ( ) ≈ −1.2250 ππ₯ 2.0310 π = π¦Μ − ππ₯Μ ≈ (6.625) − (−1.2250)(5.875) ≈ 13.8219 π¦πππ‘ππ −π»ππππ ππ ππ = 13.8219 − 1.225π₯ Las horas que estudió. ππππ (πππ‘π = π₯ = 2) π¦πππ‘ππ −π»ππππ ππ πΈπ π‘π’πππ = −0.1424 + 1.4285(2) = 2.7146 Las horas que vio la TV. ππππ (πππ‘π = π₯ = 2) π¦πππ‘ππ −π»ππππ ππ ππ = 13.8219 − 1.225(2) = 11.0719 PROBLEMA 5. 5. La altura, en cm, de 8 padres y del mayor de sus hijos varones, son: Padre Hijo 170 173 178 167 171 169 184 175 162 177 175 170 179 169 181 187 a) Calcula la recta de regresión que permita estimar la altura de los hijos dependiendo de la del padre; y la del padre conociendo la del hijo. x = Padre ; y = Hijo x Total y xy 170 162 27540 173 177 30621 178 175 31150 167 170 28390 171 179 30609 169 169 28561 184 181 33304 175 187 32725 1387 1400 242900 x = Hijo ; y = Padre x² y² 28900 29929 31684 27889 29241 28561 33856 30625 240685 26244 31329 30625 28900 32041 28561 32761 34969 245430 x Total y xy 162 170 27540 177 173 30621 175 178 31150 170 167 28390 179 171 30609 169 169 28561 181 184 33304 187 175 32725 1400 1387 242900 x² y² 26244 31329 30625 28900 32041 28561 32761 34969 245430 28900 29929 31684 27889 29241 28561 33856 30625 240685 Primeramente, tomaremos a la altura de los hijos como variable independiente. Por lo tanto, tenemos que: Página 8 Para la relación de padres y hijos. (∑ π₯π )2 (1387)2 2− ( ) ∑ π₯ 240685 − √ π π =√ 8 ππ₯ = = √30.5535 ≈ 5.5275 π−1 8−1 (∑ π¦π )2 (1400)2 ( ) 245430 − √ π 8 = = √61.4286 ≈ 7.838 π−1 8−1 2 √∑ π¦π − ππ¦ = ππ₯π¦ = πΎππππππ −π»ππππ π₯Μ = (∑ π₯π )(∑ π¦π ) (1387)(1400) (242900) − π 8 = = 25 π−1 8−1 ππ₯π¦ 25 = = ≈ 0.5770 ππ₯ ππ¦ (5.5275)(7.838) ∑ π₯π π¦π − (170 + 173 + 178 + 167 + 171 + 169 + 184 + 175) = 173.375 8 π¦Μ = (162 + 177 + 175 + 170 + 179 + 169 + 181 + 187) = 175 8 πππππππ ππ’π ππ ππππ‘π ππ π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 7.838 ) = (0.5770) ( ) ≈ 0.8182 ππ₯ 5.5275 π = π¦Μ − ππ₯Μ ≈ (175) − (0.8182)(173.375) ≈ 33.1445 π¦ππππππ −π»ππππ = 33.1445 + 0.8182π₯ Para la relación de hijos y padres. ππ₯ = 7.838 ππ¦ = 5.5275 ππ₯π¦ = 0.5770 π¦Μ = 173.375 π₯Μ = 175 πΎπ»ππππ −ππππππ ≈ 0.5770 πππππππ ππ’π ππ ππππ‘π ππ π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 5.5275 ) = (0.5770) ( ) ≈ 0.4069 ππ₯ 7.838 π = π¦Μ − ππ₯Μ ≈ (173.375) − (0.4069)(175) ≈ 102.1675 π¦ππππππ −π»ππππ = 102.1675 + 0.4069π₯ b) ¿Qué altura cabría esperar para un hijo si su padre mide 174? ¿Y para un padre, si su hijo mide 190 cm. ππ (πππππ = π₯ = 174) = 33.1445 + 0.8182(174) = 175.51 ππ (π»πππ = π₯ = 190) = 102.1675 + 0.4069(174) = 172.9681 Página 9 PROBLEMA 6. 6. Durante su primer año de vida han pesado a Marta cada mes. En la tabla siguiente se dan sus pesos: x y 1 2 3 4 5 6 7 8 9 10 11 12 3,2 4,6 4,2 5,4 5,7 6,5 6,8 7,2 7,9 7,7 8 8,4 En esta tabla, x= representa la edad en meses y y= el peso en kilogramos. a) Calcula la media y la desviación estándar de los pesos. Para calcular la media del peso, sumamos los valores registrados y lo dividimos entre el número de valores. Por lo tanto: π¦Μ = (3.2 + 4.6 + 4.2 + 5.4 + 5.7 + 6.5 + 6.8 + 7.2 + 7.9 + 7.7 + 8 + 8.4) = 6.3 12 Para calcular la desviación estándar recurrimos a la siguiente fórmula, de la cual necesitaremos la suma de los cuadrados de las y las sumas de las y. Por lo tanto, realizamos la siguiente tabla: ππ¦ = (∑ π¦π )2 (75.6)2 ( ) 507.28 − √ π 12 = π−1 12 − 1 2 √∑ π¦π − ππ¦ ≈ √2.8182 ππ¦ ≈ 1.6769 b) Determina la ecuación de la recta de regresión de y sobre x, explicando detalladamente los cálculos que haces y las fórmulas que utilizas. Para obtener la recta de regresión será necesario calcular el coeficiente de correlación entre la edad y el peso. Para ello, x = Edad (Meses) ; y = Peso (kg) además de obtener la desviación estándar x y xy x² y² de y, también debemos buscar el de x y la 1 3.2 3.2 1 10.24 covarianza entre x y y. Total 2 3 4 5 6 7 8 9 10 11 4.6 4.2 5.4 5.7 6.5 6.8 7.2 7.9 7.7 8 9.2 12.6 21.6 28.5 39 47.6 57.6 71.1 77 88 4 9 16 25 36 49 64 81 100 121 21.16 17.64 29.16 32.49 42.25 46.24 51.84 62.41 59.29 64 12 8.4 100.8 144 70.56 78 75.6 556.2 650 507.28 Para la desviación estándar en x, utilizamos la siguiente fórmula, cuyos valores lo obtenemos de la tabla de la izquierda. ππ₯ = (∑ π₯π )2 (78)2 ( ) 650 − √ π 12 = π−1 12 − 1 2 √∑ π₯π − ππ₯ ≈ √13 ππ₯ ≈ 3.6056 Para la recta, necesitamos la media de x: Página 10 π₯Μ = (∑ π₯ = 78) = 6.5 8 Para la correlación entre x y y, utilizamos la siguiente formula, de la cual sus valores también ππ₯π¦ = (∑ π₯π )(∑ π¦π ) (78)(75.6) (556.2) − π 12 = ≈ 5.8909 π−1 12 − 1 ∑ π₯π π¦π − Ahora que tenemos la correlación, podemos calcular el coeficiente de correlación para poder obtener la recta de regresión. Tenemos que: πΎπΈπππ−πππ π = ππ₯π¦ 5.8909 = ≈ 0.9742 ππ₯ ππ¦ (3.6059)(1.6769) Ya que contamos con el coeficiente, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: π πππ‘π ππ ππππππ πóπ: π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 1.6769 ) = (0.9742) ( ) ≈ 0.4530 ππ₯ 3.6059 π = π¦Μ − ππ₯Μ ≈ (6.3) − (0.4530)(6.5) ≈ 3.3555 Sólo nos quedaría sustituir los valores en la función, la cual nos queda de la siguiente manera: πΎπΈπππ−πππ π = 3.3555 + 0.4530π₯ PROBLEMA 7. 7. La gente no es más longeva en la actualidad, sino que también lo es de manera independiente. En el número de mayo/junio del 2006 del imparcial, se publicó el artículo “análisis multiestadístico de vida activa de las personas” en el cual dos de las variables estudiadas fueron la edad actual de una persona y el número esperado de años restantes por vivir. Edad Años restantes 65 67 69 71 73 75 77 79 81 83 16.5 15.1 13.7 12.4 11.2 10.1 9 8.4 7.1 6.4 Página 11 a) Elabora el diagrama de dispersión. Diagrama de dispersión 18 AÑOS RESTANTES 16 14 12 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 Edad (años) b) Determina el coeficiente de correlación de la siguiente tabla de datos: Completamos la tabla que nos permitirá calcular los parámetros necesarios: x Total 65 67 69 71 73 75 77 79 81 83 740 x = Edad ; y = Años restantes y xy x² y² 16.5 15.1 13.7 12.4 11.2 10.1 9 8.4 7.1 6.4 109.9 1072.5 1011.7 945.3 880.4 817.6 757.5 693 663.6 575.1 531.2 7947.9 4225 4489 4761 5041 5329 5625 5929 6241 6561 6889 55090 272.25 228.01 187.69 153.76 125.44 102.01 81 70.56 50.41 40.96 1312.09 Siguiendo los valores de la tabla, obtenemos las desviaciones estándar y las medias. ππ₯ = (∑ π₯π )2 (740)2 ( ) 55090 − π =√ 10 = √110 ≈ 6.0553 π−1 10 − 1 3 2 √∑ π₯π − Página 12 ππ¦ = (∑ π¦π )2 (109.9)2 ( ) 1312.09 − √ π 10 = = √11.5876 ≈ 3.4041 π−1 10 − 1 2 √∑ π¦π − ππ₯π¦ = (∑ π₯π )(∑ π¦π ) (740)(109.9) (7947.9) − π 10 = ≈ −20.52 π−1 10 − 1 ∑ π₯π π¦π − Obtenemos el coeficiente de correlación: πΎπΈπππ−π΄ñππ πππ π‘πππ‘ππ = ππ₯π¦ −20.52 = ≈ −0.9956 ππ₯ ππ¦ (6.0553)(3.4041) c) Calcula la ecuación de la recta del mejor ajuste utilizando el método de mínimos cuadrados. Obtenemos las medias para cada variable, tanto para x como para y. (∑ π₯ = 740) = 74 10 (∑ π¦ = 109.9) π¦Μ = = 10.99 10 π₯Μ = Ya que contamos con el coeficiente, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: π πππ‘π ππ ππππππ πóπ: π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 3.4041 ) = (−0.9956) ( ) ≈ −0.5597 ππ₯ 6.0553 π = π¦Μ − ππ₯Μ ≈ (10.99) − (−0.5597)(74) ≈ 51.4178 Por lo tanto: π¦ = 51.4178 − 0.5597π₯ Página 13 PROBLEMA 8. 8. Estos datos que relacionan la cantidad gastada en alimentos por semana y el número de miembros de una familia son los siguientes a) Encuentre la recta de mejor ajuste para estos datos. Completamos la tablita para obtener los parámetros que nos permitan conocer la recta de regresión que mejor se ajuste a los datos. x x = N. Familia ; y = Cantidad gastada y xy x² y² 2 2 3 4 1 5 191.5 4 9168.0625 95.75 220.38 4 12141.8361 110.19 354.99 9 14001.9889 118.33 603.68 16 22776.8464 150.92 85.86 1 7371.9396 85.86 903.1 25 32623.5844 180.62 2359.51 59 98084.2579 Total 17 741.67 Siguiendo los valores de la tabla, obtenemos las desviaciones estándar y las medias. ππ₯ = ππ¦ = (∑ π₯π )2 (17)2 ( ) 59 − π =√ 6 = √13 ≈ 1.4719 π−1 6−1 6 2 √∑ π₯π − (∑ π¦π )2 (741.67)2 ( ) 98084.2579 − √ π 6 = = √1281.038 ≈ 35.7916 π−1 6−1 2 √∑ π¦π − ππ₯π¦ = (∑ π₯π )(∑ π¦π ) (17)(741.67) (2359.51) − π 6 = ≈ 51.6223 π−1 6−1 ∑ π₯π π¦π − Obtenemos el coeficiente de correlación: πΎππππππππ −πΆπππ‘ππππ πππ π‘πππ = ππ₯π¦ 51.6223 = ≈ 0.9799 ππ₯ ππ¦ (1.4719)(35.7916) Página 14 Obtenemos las medias para cada variable, tanto para x como para y. π₯Μ = (∑ π₯ = 17) ≈ 2.8333 6 (∑ π¦ = 741.67) = 123.6117 6 π¦Μ = Ya que contamos con el coeficiente y las medias de cada variable, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: π πππ‘π ππ ππππππ πóπ: π¦ = π + ππ₯; πππππ: π = πΎ( ππ¦ 35.7916 ) = (0.9799) ( ) ≈ 23.8262 ππ₯ 1.4720 π = π¦Μ − ππ₯Μ ≈ (123.6117) − (23.8262)(2.8333) ≈ 56.105 Por lo tanto: π¦ = 56.105 + 23.8262π₯ b) Grafique los puntos y la recta de mejor ajuste en la misma gráfica. ¿La recta resume la información de los puntos de datos? Cantidad gastada (Kg) Diagrama de dispersión 200 180 160 140 120 100 80 60 40 20 0 y = 23.826x + 56.106 R² = 0.9601 0 1 2 3 4 5 6 Número de miembros en la familia La recta resume de manera adecuada el comportamiento de la cantidad gastada en alimentos por el número de miembros de la familia. Esto es una relación creciente, ya que, a mayor número de miembros, mayor cantidad gastada de alimentos. c) ¿Qué estimaría usted que gasta por semana una familia de seis en alimentos? Para estimar el gasto, recurrimos a la función de la recta, en la cual interpretamos a la x como seis. ππ (πúππππ ππ ππππππππ = π₯ = 6) → π¦ = 56.105 + 23.8262(6) = 199.0622 Página 15 PARTE 2: MUESTREO. PROBLEMAS TEÓRICOS Relacione los casos con los siguientes conceptos y explique el porqué de su respuesta: Muestreo por conglomerados Muestreo aleatorio sistemático Muestreo aleatorio estratificado Muestreo aleatorio simple Muestreo aleatorio simple: Una empresa desea saber si sus productos cumplen con estándares de calidad que tienen preestablecidos. El revisar artículo por artículo sería muy costoso por lo que se tomarán solo 100 como muestra de una producción diaria es de 15000 piezas. Justificación: Notamos que el revisar toda la población implicaría un arduo trabajo para sacarlo adelante (tanto económico como en esfuerzo y tiempo). Por ello se recurre a seleccionar aleatoriamente 100 piezas de una población de 15,000, reflejando esto que se pudieron haber seleccionado más o menos piezas en caso de ser posibles, teniendo estas la misma probabilidad de selección. Muestreo aleatorio sistemático: Una empresa de publicidad desea hacer un estudio para una determinada marca de bebidas. Para ello dispone del listín telefónico de Culiacán (supongamos 2 millones de teléfonos entre fijos y móviles). Se estima que con 2000 encuestas se obtiene la fiabilidad deseada y se toma una muestra empezando en el 1 y con intervalos de 1000 en 1000. Justificación: Este problema es de los más fáciles de identificar, ya que rápidamente notamos que de la población se toma una muestra ordenada, fiable y aleatoria, de la cual se empieza con uno de los primeros k elementos (en este caso 1 de 2000), y después continuamos en intervalos de 1000 en 1000. Esta sistematización sólo se da en este tipo de muestreo, por ello fue fácil saber de cuál se trataba. Muestreo aleatorio simple: Se desea conocer la opinión de las alumnas del Colegio Chapultepec sobre las instalaciones con las que cuenta. Por lo que se deposita en un recipiente el nombre de cada alumna de preparatoria y se extraen los nombres hasta completar una muestra de 20 alumnas. Justificación: Regularmente, utilizamos el muestreo aleatorio simple en muestras muy pequeñas debido a que no son muy eficaces cuando lo queremos implementar en muestras grandes. Esto tiene relación con que la muestra n tienen la misma probabilidad de ser seleccionadas, siendo reflejado en que n serían las 20 alumnas de la escuela (la cual es la población N), en donde la probabilidad no cambiaría si por ejemplo aumentamos el número de la muestra a 30. Página 16 Muestreo por conglomerados: Se desea conocer el índice de embarazos en adolescentes en México, pero el realizar un censo sería muy costoso e implicaría mucho tiempo por lo que se decide muestrear solo 5 estados del país. Justificación: El muestreo por conglomerados se suele emplear a la hora de dividir la población en racimos geográficos disponibles, siendo en este caso los 5 estados de México (este último representando a N). Notamos que esto implica menos coste de tiempo y dinero, ahorrando el trabajo que llevaría hacerlo en todo el país. Muestreo aleatorio estratificado: Los directores de una empresa desean conocer un mayor detalle el clima organizacional que prevalece en la empresa, por lo tanto, decide tomar muestras por departamento, ya que las opciones dentro de estos son homogéneos y heterogéneos. Justificación: Recordemos que el muestreo aleatorio estratificado es aquel en donde tomamos un estrato (o bien subgrupo), y a este lo analizamos con un muestreo aleatorio simple. En este ejemplo tenemos a la población como la empresa, y a los departamentos como los subgrupos, los cuales comparten la característica de ser homogéneos y heterogéneos. Destacar que esto es importante en los estratos, ya que deben compartir al menos una característica especifica. Página 17 PARTE 3: TEOREMA DEL LÍMITE CENTRAL. INSTRUCCIONES: Usando el teorema del Limite Central contesta PROBLEMA 9 9. Muestras aleatorias de tamaño n se seleccionaron de poblaciones con las medias y varianzas dadas aquí. Encuentre la media y desviación estándar de la distribución muestral de la media muestral en cada caso: a) n = 36, ππ = 9 µ = 10, Sabemos que la media de una población es igual a la media muestral de la distribución muestral. Por lo tanto, podemos decir que: π = ππ₯Μ = 10 En el caso de la desviación estándar, podemos decir que la desviación estándar de la distribución muestral de la media de la muestra, es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra. Entonces tenemos que: ππ₯Μ = π √π = √π 2 √π = √9 √36 = 3 = 0.5 6 Por lo tanto, la distribución muestral de la media muestral tiene una media de 10 y una desviación estándar de 0.5 b) n = 100, ππ = 4 µ = 5, Teniendo el mismo caso que en el a), tenemos que la media de la distribución muestral es: π = ππ₯Μ = 5 Para la desviación estándar: ππ₯Μ = π √π = √π 2 √π = √4 √100 = 2 = 0.2 10 Por lo tanto, la distribución muestral de la media muestral tiene una media de 10 y una desviación estándar de 0.5 c) n = 8, µ = 120, ππ = 1 ππππ’πππππ ππ πππ ππ ππππ, ππ πππππ ππππ ππ πππππ ππ’ππ π‘πππ: ππ₯Μ = π = 120 π ππππ ππ πππ π£ππππóπ ππ π‘áππππ: ππ₯Μ = π √π = √π 2 √π = √1 √8 = √2 ≈ 0.3535 4 La distribución muestral de la media muestral tiene una µ = 10 y σ = 0.5. Página 18 PROBLEMA 10 10. Una empresa de mensajería que opera en la ciudad tarda una media de 35 minutos en llevar un paquete, con una desviación estándar de 8 minutos. Supongamos que durante el día de hoy han repartido 200 paquetes. Para contestar lo que se nos pide, del párrafo tenemos que: π = 35 ππππ’π‘ππ ππππ ππππ£ππ π’π ππππ’ππ‘π π = 8 ππππ’π‘ππ π = 200 ππππ’ππ‘ππ Siguiendo el teorema del límite central, tenemos que la media de la distribución muestral es igual a la media poblacional, por lo tanto: π = ππ₯Μ = 35 ππππ’π‘ππ Para la desviación estándar de la media muestral, tenemos que: ππ₯Μ = π √π = 8 √200 = 2√2 ≈ 0.5657 5 También tenemos que: π= πΜ − ππ₯Μ ππ₯Μ a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30 y 35 minutos? ππ (30 ≤ πΜ ≤ 35) = ππ ( 30 − 35 πΜ − ππ₯Μ 35 − 35 ) = ππ (−8.83 ≤ π ≤ 0) ≤ ≤ 8 8 ππ₯Μ √200 √200 ππ (−8.83 ≤ π ≤ 0) = ππ (π ≤ 0) − ππ (π ≤ −8.83) ππ (π ≤ 0) ≈ 0.5000 ππ (π ≤ −8.83) ≈ 0 ∴ ππ (−8.83 ≤ π ≤ 0) = 0.5000 − 0 = 0.5 πππππππ πππ‘πππππ ππ’π ππ (30 ≤ πΜ ≤ 35) = 0.5 b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado más de 115 horas? Tenemos 115 horas para los doscientos paquetes, pero nuestros datos están en minutos. Por lo tanto, pasamos las 115 horas a minutos y verificamos cuantos minutos sería para cada paquete: 115 βππππ 60 πππ = 6900 ππππ’π‘ππ 1 βπππ π ππππ ππππ ππππ’ππ‘π: 6900 ππππ’π‘ππ = 34.5 200 Página 19 ππ (34.5 ≤ πΜ ) = ππ ( 34.5 − 35 πΜ − ππ₯Μ ) = ππ (−0.88 ≤ π) = 1 − ππ (π ≤ −0.88) = ≤ 8 ππ₯Μ √200 ππ (−0.88 ≤ π) = 1 − 0.1894 = 0.8106 Por lo tanto: ππ (34.5 ≤ πΜ ) = 0.8106 PROBLEMA 11 11. Suponga que consideramos que las temperaturas de personas sanas son aproximadamente normal, con una media de 98.6 grados Fahrenheit y desviación estándar de 0.8 grados. Tenemos que: ππ₯Μ = 98.6 ππππππ π = 0.8 ππππππ a) Si al azar se seleccionan 130 personas sanas, ¿cuál es la probabilidad de que la temperatura promedio para ellas sea de 98.25 grados Fahrenheit o menor? Consideramos a n como 130 personas sanas, y tenemos que X = temperatura de una persona sana. Por lo tanto: πΜ − ππ₯Μ 98.25 − 98.6 ) = ππ (π ≤ −4.9882) ≈ 0 ππ (πΜ ≤ 98.25) = ππ ( ≤ 0.8 ππ₯Μ √130 b) ¿Consideraría usted que una temperatura promedio de 98.25 grados es un suceso poco común, dado que la verdadera temperatura promedio de personas sanas es de 98.6 grados? Tiene sentido que de una probabilidad de cero debido a que es muy complicado que una persona mantenga una temperatura inferior a lo esperado durante un largo periodo de tiempo, tanto para considerar que mantenga y se considere una media. Lo normal es que sea cercano a ese valor esperado, así que muy probablemente una persona que tenga una temperatura promedio de ese valor no se considere sano. Si lo analizamos teóricamente, sí; notamos que la media de 98.25 está aproximadamente alrededor de cinco desviaciones estándar debajo de la media ideal de 98.6. Página 20 PROBLEMA 12 12. El requerimiento normal diario de potasio en seres humanos está en el intervalo de 2000 a 6000 miligramos (mg), con cantidades grandes necesarias durante los meses calurosos de verano. La cantidad de potasio en alimentos varía, dependiendo de éstos. Por ejemplo, hay alrededor de 7 mg en un refresco de cola, 46 mg en una cerveza, 630 mg en un plátano (banano), 300 mg en una zanahoria y 440 mg en un vaso de jugo de naranja. Suponga que la distribución de potasio en un plátano está distribuida normalmente, con media igual a 630 mg y desviación estándar de 40 mg por plátano. Usted toma n = 3 plátanos al día y T es el número total de miligramos de potasio que recibe de ellos. a) Encuentre la media y desviación estándar de T. Del párrafo podemos extraer: πππππ ππ ππ πππππππóπ = π = 630 ππ πππ ππππ ππáπ‘πππ π·ππ π£ππππóπ ππ π‘áππππ ππ ππ πππππππóπ = π = 40 ππ ππ’ππ π‘ππ = π = 3 ππáπ‘ππππ Si tenemos a X1, X2 y X3 como las cantidades de potasio de cada plátano y sabemos que cuentan con una distribución normal, tenemos que los plátanos deberán conservar la media poblacional. Por lo tanto, la cantidad total de miligramos de potasio quedaría como: π = π1 + π2 + π3 Si cada una de las variables tiene una distribución normal, entonces tenemos que T también tiene una distribución normal. Por esa propiedad, podemos afirmar que la suma de las de T de cada variable nos darán la media total de T. π π = ππ₯1 + ππ₯2 + ππ₯3 = (630 + 630 + 630) = 1890 ππ Tenemos que la media poblacional en una distribución para una media muestral es igual, por lo tanto: π π = ππ₯Μ = 1890 ππ En el caso de las desviaciones estándar tenemos algo similar, pero recordamos la fórmula para obtener la desviación estándar de la media muestral: π ππ₯Μ = √π Pero para ello, tenemos que obtener primeramente la desviación total de T, así que: ππ = ππ₯1 + ππ₯2 + ππ₯3 = (40 + 40 + 40) = 120 ππ Página 21 Para la desviación de la media muestral: ππ₯Μ = ππ √π = 120 ππ √3 = 69.2820 b) Encuentre la probabilidad de que su ingesta diaria de potasio de los tres plátanos exceda de 2 000 mg. (SUGERENCIA: Observe que T es la suma de tres variables aleatorias, x1, x2 y x3, donde x1 es la cantidad de potasio en el plátano 1, etcétera.) Del inciso a) tenemos que: ππ₯Μ = 1890 ππ ππ₯Μ = 69.282 2000 − 1890 πΜ − ππ₯Μ ππ (2000 ≤ πΜ ) = ππ ( ≤ ) = ππ (1.5877 ≤ π) 69.282 ππ₯Μ ππ (1.5877 ≤ π) = 1 − ππ (π ≤ 1.5877) = π·ππππ ππ (π ≤ 1.5877) ππ πππππ₯πππππππππ‘π 0.9429 ππ (1.5877 ≤ π) = 1 − 0.9429 = 0.0571 Página 22