Tarea Final: Regresión y Correlación Lineal

UNIVERSIDAD AUTÓNOMA DE SINALOA FACULTAD DE INFORMÁTICA CULIACÁN ASIGNATURA: Probabilidad y Estadística. DOCENTE: M.C. NIEBLAS AGUILAR ARANZAZU GRUPO: 3-1 SEMESTRE: V TURNO: Matutino TRABAJO FINAL: TAREA NÚMERO NUEVE: Regresión y correlación lineal. REALIZADO POR: Garcia Gonzalez Alberto Guadalupe Culiacán, Sinaloa, México. Miércoles 22 de Diciembre de 2021 INDICE DE LA TAREA FINAL NÚMERO NUEVE TRABAJO FINAL: TAREA NÚMERO NUEVE. ....................................................................... 1 PARTE 1: CORRELACIÓN LINEAL. ................................................................................. 1 PROBLEMA 1. ........................................................................................................ 1 PROBLEMA 2. ....................................................................................................... 3 PROBLEMA 3. ....................................................................................................... 4 PROBLEMA 4. ....................................................................................................... 5 PROBLEMA 5. ....................................................................................................... 8 PROBLEMA 6. ..................................................................................................... 10 PROBLEMA 7. ..................................................................................................... 11 PROBLEMA 8. ..................................................................................................... 14 PARTE 2: MUESTREO. ............................................................................................ 16 PROBLEMAS TEÓRICOS .......................................................................................... 16 PARTE 3: TEOREMA DEL LÍMITE CENTRAL. .................................................................... 18 PROBLEMA 9 ...................................................................................................... 18 PROBLEMA 10 ..................................................................................................... 19 PROBLEMA 11 ..................................................................................................... 20 PROBLEMA 12 ..................................................................................................... 21 TRABAJO FINAL: TAREA NÚMERO NUEVE. INSTRUCCIONES: Conteste los siguientes ejercicios de datos bivariados PARTE 1: CORRELACIÓN LINEAL. PROBLEMA 1. 1. Los hombres y mujeres que contestaron un cuestionario acerca de las diferencias de género están clasificados en tres grupos, según sus respuestas a la primera pregunta: d) Genere gráficas de pastel juntas para describir estos datos. Página 1 Grupo 1 Grupo 2 Grupo 3 Total Hombres F. Relativa Ángulo (°) 37 0.2342 84.30 49 0.3101 111.65 72 0.4557 164.05 158 1 360 Grupo 1 Grupo 2 Grupo 3 Total Mujeres F. Relativa Ángulo (°) 7 0.0795 28.64 50 0.5682 204.55 31 0.3523 126.82 88 1 360 e) Genere una gráfica de barras lado a lado para describir estos datos. Hombres Mujeres Total Grupo 1 37 7 44 Grupo 2 49 50 99 Grupo 3 72 31 103 f) ¿Cuál de las tres gráficas describe mejor la diferencia o similitud de las respuestas de hombres y mujeres? Creo que la de barras ejemplifica mejor la diferencia entre los dos sexos. En ella podemos apreciar bien cómo difieren los datos en una sola gráfica. Por otro lado, tenemos a las graficas de pastel, las cuales tienen que ser separadas en dos diferentes para apreciar las diferencias. Además de ello, también cuesta un poco más el realizarlas ya que debemos contar con la frecuencia relativa para obtener que tanto representa en cada ángulo. Página 2 PROBLEMA 2. 2. Asocia las rectas de regresión y = –x +16, y = 2x – 12, y = 0,5x + 5 a las nubes de puntos siguientes: Primero identificamos las características de cada recta. La recta y = -x+16 cuenta con una pendiente negativa, lo cual simboliza un ángulo mayor a noventa grados respecto a la horizontal, siendo la del inciso C) el adecuado para representar este comportamiento. Las rectas y = 2x-12 y y = 0.5x+5 tienen pendientes positivas, por lo tanto, su ángulo debe ser menor a noventa grados. Tanto el inciso a) como el b) representan eso, pero encontramos una diferencia significativa entre las dos. Cuanto más grande sea la pendiente, más inclinada hacia arriba está nuestra recta y su ángulo se acerca a noventa grados, siendo la del inciso b) la que posee mayor pendiente. La recta y = 2x – 12 tiene sentido que se asocie con el inciso a), debido a que la recta debería estar más inclinada hacia abajo. Asigna los coeficientes de correlación lineal r = 0,4, r = –0,85 y r = 0,7, a las nubes del problema anterior. Es importante recordar que la correlación lineal representa que tanta relación tienen los datos entre sí, siendo aquella correlación que se acerque a uno la más perfecta y la que se aleje de 1, siendo una correlación mala. Rápidamente podemos asociar la correlación negativa con la pendiente negativa, siendo el valor de -0.85 el más cercano a -1, el cual se refleja en que tan juntos están los puntos teniendo una buena correlación. La correlación más baja y positiva, 0.4, se le asigna el inciso a). Esto se refleja que tan dispersos están los puntos. Por último, tenemos a la correlación de r = 0.7, la cual se le asigna el inciso b) que, pese no ser tan perfecto, si se nota mucho la diferencia entre el inciso a) y b). Página 3 PROBLEMA 3. 3. El número de bacterias por unidad de volumen, presentes en un cultivo después de un cierto número de horas, viene expresado en la siguiente tabla: x = N° de horas y = N° de bacterias 0 1 2 3 4 5 12 19 22 34 54 62 Calcula: a) Las medias y desviaciones estándar de las variables, número de horas y número de bacterias. Realizamos la tabla que nos ayudará a obtener lo que se nos pide: Total 𝑆𝑥 = 𝑆𝑦 = 𝑥̅ = x y xy x² y² 0 1 2 3 4 5 15 12 19 22 34 54 62 203 0 19 44 102 216 310 691 0 1 4 9 16 25 55 144 361 484 1156 2916 3844 8905 (∑ 𝑥𝑖 )2 (15)2 ( ) 55 − 𝑛 =√ 6 = √3.5 ≈ 1.8708 𝑛−1 6−1 2 √∑ 𝑥𝑖 − (∑ 𝑦𝑖 )2 (203)2 (8905) − √ 𝑛 6 = √407.4 ≈ 20.183 = 𝑛−1 6−1 2 √∑ 𝑦𝑖 − (0 + 1 + 2 + 3 + 4 + 5) = 2.5 6 𝑦̅ = (12 + 19 + 22 + 34 + 54 + 62) = 33.83 6 b) La covarianza de la variable bidimensional. 𝑆𝑥𝑦 = (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (15)(203) (691) − 𝑛 6 = = 36.7 𝑛−1 6−1 ∑ 𝑥𝑖 𝑦𝑖 − c) El coeficiente de correlación e interpretación. 𝛾= 𝑆𝑥𝑦 36.7 = ≈ 0.9719 𝑆𝑥 𝑆𝑦 (1.8708)(20.183) Tenemos una relación de 0.9719, muy cercana al valor de 1, por lo tanto, se acerca mucho a la perfección y por ende, tendremos una dispersión entre los puntos muy buena, señalando como será la recta de regresión. Página 4 d) La recta de regresión de Y sobre X. 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑒𝑠 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 20.183 ) = (0.9719) ( ) ≈ 10.4853 𝑆𝑥 1.8708 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (33.83) − (10.4853)(2.5) ≈ 7.6167 𝑦 = 7.6167 + 10.4853𝑥 e) Grafique el diagrama de dispersión y la recta de regresión en la misma grafica x y 0 1 2 3 4 5 12 19 22 34 54 62 PROBLEMA 4. 4. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al examen. Nota Horas de estudio Horas de TV 5 6 7 3 5 8 4 9 7 10 8 4 8 10 5 14 7 6 2 11 9 4 9 5 Página 5 a) Representa gráficamente los diagramas correspondientes a notaestudio y nota-TV. b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso estimas que es más fuerte? En la correlación de Nota-Horas de Estudio, tenemos una correlación positiva, donde la covarianza y el coeficiente son positivos. Por otro lado, tenemos al diagrama de Nota – Horas de TV, el cual seguramente debe tener tanto una covarianza y un coeficiente negativos. A simple vista se puede observar que la primera gráfica tiene una mayor correlación debido a que los puntos se asemejan más a una recta. c) Con los datos del problema anterior, halla el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión? Para la relación de las notas y horas de estudio. (∑ 𝑥𝑖 )2 (47)2 2− ( ) ∑ 𝑥 305 − 𝑖 √ 𝑛 =√ 8 = √4.125 ≈ 2.0310 𝑆𝑥 = 𝑛−1 8−1 𝑆𝑦 = (∑ 𝑦𝑖 )2 (66)2 ( ) 614 − √ 𝑛 8 = √9.9286 ≈ 3.151 = 𝑛−1 8−1 2 √∑ 𝑦𝑖 − Página 6 (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (47)(66) (429) − 𝑛 8 𝑆𝑥𝑦 = = = 5.8929 𝑛−1 8−1 𝑆𝑥𝑦 5.8929 𝛾𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝐸𝑠𝑡𝑢𝑑𝑖𝑜 = = ≈ 0.9208 𝑆𝑥 𝑆𝑦 (2.0310)(3.151) ∑ 𝑥𝑖 𝑦𝑖 − Para la relación de las notas y horas de televisión. 𝑆𝑥 ≈ 2.0310 𝑆𝑦 = (∑ 𝑦𝑖 )2 (53)2 ( ) 413 − √ 𝑛 8 = √8.8393 ≈ 2.973 = 𝑛−1 8−1 2 √∑ 𝑦𝑖 − (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (47)(53) (276) − 𝑛 8 𝑆𝑥𝑦 = = = −5.0536 𝑛−1 8−1 𝑆𝑥𝑦 −5.0536 𝛾𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉 = = ≈ −0.8369 𝑆𝑥 𝑆𝑦 (2.0310)(2.973) ∑ 𝑥𝑖 𝑦𝑖 − Según la fidelidad de la correlación, tenemos un coeficiente de 0.9208 frente a uno de -0.8369, por lo tanto, la relación entre las notas y las horas de estudio tiene una mayor precisión que la de las notas con las horas en televisión. Esto quiere decir que, es más seguro que tengas una buena o mala nota concorde a las horas que dediques al estudio. d) Con los mismos datos, halla las rectas de regresión correspondientes y estima para un alumno que sacó un 2 en el examen: Para la relación de las notas y horas de estudio. 𝑥̅ = (5 + 6 + 7 + 3 + 5 + 8 + 4 + 9) = 5.875 8 𝑦̅ = (7 + 10 + 8 + 4 + 8 + 10 + 5 + 14) = 8.25 8 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑒𝑠 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 3.151 ) = (0.9208) ( ) ≈ 1.4285 𝑆𝑥 2.0310 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (8.25) − (1.4285)(5.875) ≈ −0.1424 𝑦𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝐸𝑠𝑡𝑢𝑑𝑖𝑜 = −0.1424 + 1.4285𝑥 Página 7 Para la relación de las notas y horas de estudio. 𝑥̅ = 5.875 𝑦̅ = (7 + 6 + 2 + 11 + 9 + 4 + 9 + 5) = 6.625 8 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑒𝑠 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 2.973 ) = (−0.8369) ( ) ≈ −1.2250 𝑆𝑥 2.0310 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (6.625) − (−1.2250)(5.875) ≈ 13.8219 𝑦𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉 = 13.8219 − 1.225𝑥 Las horas que estudió. 𝑃𝑎𝑟𝑎 (𝑁𝑜𝑡𝑎 = 𝑥 = 2) 𝑦𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝐸𝑠𝑡𝑢𝑑𝑖𝑜 = −0.1424 + 1.4285(2) = 2.7146 Las horas que vio la TV. 𝑃𝑎𝑟𝑎 (𝑁𝑜𝑡𝑎 = 𝑥 = 2) 𝑦𝑁𝑜𝑡𝑎𝑠−𝐻𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉 = 13.8219 − 1.225(2) = 11.0719 PROBLEMA 5. 5. La altura, en cm, de 8 padres y del mayor de sus hijos varones, son: Padre Hijo 170 173 178 167 171 169 184 175 162 177 175 170 179 169 181 187 a) Calcula la recta de regresión que permita estimar la altura de los hijos dependiendo de la del padre; y la del padre conociendo la del hijo. x = Padre ; y = Hijo x Total y xy 170 162 27540 173 177 30621 178 175 31150 167 170 28390 171 179 30609 169 169 28561 184 181 33304 175 187 32725 1387 1400 242900 x = Hijo ; y = Padre x² y² 28900 29929 31684 27889 29241 28561 33856 30625 240685 26244 31329 30625 28900 32041 28561 32761 34969 245430 x Total y xy 162 170 27540 177 173 30621 175 178 31150 170 167 28390 179 171 30609 169 169 28561 181 184 33304 187 175 32725 1400 1387 242900 x² y² 26244 31329 30625 28900 32041 28561 32761 34969 245430 28900 29929 31684 27889 29241 28561 33856 30625 240685 Primeramente, tomaremos a la altura de los hijos como variable independiente. Por lo tanto, tenemos que: Página 8 Para la relación de padres y hijos. (∑ 𝑥𝑖 )2 (1387)2 2− ( ) ∑ 𝑥 240685 − √ 𝑖 𝑛 =√ 8 𝑆𝑥 = = √30.5535 ≈ 5.5275 𝑛−1 8−1 (∑ 𝑦𝑖 )2 (1400)2 ( ) 245430 − √ 𝑛 8 = = √61.4286 ≈ 7.838 𝑛−1 8−1 2 √∑ 𝑦𝑖 − 𝑆𝑦 = 𝑆𝑥𝑦 = 𝛾𝑃𝑎𝑑𝑟𝑒𝑠−𝐻𝑖𝑗𝑜𝑠 𝑥̅ = (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (1387)(1400) (242900) − 𝑛 8 = = 25 𝑛−1 8−1 𝑆𝑥𝑦 25 = = ≈ 0.5770 𝑆𝑥 𝑆𝑦 (5.5275)(7.838) ∑ 𝑥𝑖 𝑦𝑖 − (170 + 173 + 178 + 167 + 171 + 169 + 184 + 175) = 173.375 8 𝑦̅ = (162 + 177 + 175 + 170 + 179 + 169 + 181 + 187) = 175 8 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑒𝑠 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 7.838 ) = (0.5770) ( ) ≈ 0.8182 𝑆𝑥 5.5275 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (175) − (0.8182)(173.375) ≈ 33.1445 𝑦𝑃𝑎𝑑𝑟𝑒𝑠−𝐻𝑖𝑗𝑜𝑠 = 33.1445 + 0.8182𝑥 Para la relación de hijos y padres. 𝑆𝑥 = 7.838 𝑆𝑦 = 5.5275 𝑆𝑥𝑦 = 0.5770 𝑦̅ = 173.375 𝑥̅ = 175 𝛾𝐻𝑖𝑗𝑜𝑠−𝑃𝑎𝑑𝑟𝑒𝑠 ≈ 0.5770 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑒𝑠 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 5.5275 ) = (0.5770) ( ) ≈ 0.4069 𝑆𝑥 7.838 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (173.375) − (0.4069)(175) ≈ 102.1675 𝑦𝑃𝑎𝑑𝑟𝑒𝑠−𝐻𝑖𝑗𝑜𝑠 = 102.1675 + 0.4069𝑥 b) ¿Qué altura cabría esperar para un hijo si su padre mide 174? ¿Y para un padre, si su hijo mide 190 cm. 𝑆𝑖 (𝑃𝑎𝑑𝑟𝑒 = 𝑥 = 174) = 33.1445 + 0.8182(174) = 175.51 𝑆𝑖 (𝐻𝑖𝑗𝑜 = 𝑥 = 190) = 102.1675 + 0.4069(174) = 172.9681 Página 9 PROBLEMA 6. 6. Durante su primer año de vida han pesado a Marta cada mes. En la tabla siguiente se dan sus pesos: x y 1 2 3 4 5 6 7 8 9 10 11 12 3,2 4,6 4,2 5,4 5,7 6,5 6,8 7,2 7,9 7,7 8 8,4 En esta tabla, x= representa la edad en meses y y= el peso en kilogramos. a) Calcula la media y la desviación estándar de los pesos. Para calcular la media del peso, sumamos los valores registrados y lo dividimos entre el número de valores. Por lo tanto: 𝑦̅ = (3.2 + 4.6 + 4.2 + 5.4 + 5.7 + 6.5 + 6.8 + 7.2 + 7.9 + 7.7 + 8 + 8.4) = 6.3 12 Para calcular la desviación estándar recurrimos a la siguiente fórmula, de la cual necesitaremos la suma de los cuadrados de las y las sumas de las y. Por lo tanto, realizamos la siguiente tabla: 𝑆𝑦 = (∑ 𝑦𝑖 )2 (75.6)2 ( ) 507.28 − √ 𝑛 12 = 𝑛−1 12 − 1 2 √∑ 𝑦𝑖 − 𝑆𝑦 ≈ √2.8182 𝑆𝑦 ≈ 1.6769 b) Determina la ecuación de la recta de regresión de y sobre x, explicando detalladamente los cálculos que haces y las fórmulas que utilizas. Para obtener la recta de regresión será necesario calcular el coeficiente de correlación entre la edad y el peso. Para ello, x = Edad (Meses) ; y = Peso (kg) además de obtener la desviación estándar x y xy x² y² de y, también debemos buscar el de x y la 1 3.2 3.2 1 10.24 covarianza entre x y y. Total 2 3 4 5 6 7 8 9 10 11 4.6 4.2 5.4 5.7 6.5 6.8 7.2 7.9 7.7 8 9.2 12.6 21.6 28.5 39 47.6 57.6 71.1 77 88 4 9 16 25 36 49 64 81 100 121 21.16 17.64 29.16 32.49 42.25 46.24 51.84 62.41 59.29 64 12 8.4 100.8 144 70.56 78 75.6 556.2 650 507.28 Para la desviación estándar en x, utilizamos la siguiente fórmula, cuyos valores lo obtenemos de la tabla de la izquierda. 𝑆𝑥 = (∑ 𝑥𝑖 )2 (78)2 ( ) 650 − √ 𝑛 12 = 𝑛−1 12 − 1 2 √∑ 𝑥𝑖 − 𝑆𝑥 ≈ √13 𝑆𝑥 ≈ 3.6056 Para la recta, necesitamos la media de x: Página 10 𝑥̅ = (∑ 𝑥 = 78) = 6.5 8 Para la correlación entre x y y, utilizamos la siguiente formula, de la cual sus valores también 𝑆𝑥𝑦 = (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (78)(75.6) (556.2) − 𝑛 12 = ≈ 5.8909 𝑛−1 12 − 1 ∑ 𝑥𝑖 𝑦𝑖 − Ahora que tenemos la correlación, podemos calcular el coeficiente de correlación para poder obtener la recta de regresión. Tenemos que: 𝛾𝐸𝑑𝑎𝑑−𝑃𝑒𝑠𝑜 = 𝑆𝑥𝑦 5.8909 = ≈ 0.9742 𝑆𝑥 𝑆𝑦 (3.6059)(1.6769) Ya que contamos con el coeficiente, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: 𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛: 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 1.6769 ) = (0.9742) ( ) ≈ 0.4530 𝑆𝑥 3.6059 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (6.3) − (0.4530)(6.5) ≈ 3.3555 Sólo nos quedaría sustituir los valores en la función, la cual nos queda de la siguiente manera: 𝛾𝐸𝑑𝑎𝑑−𝑃𝑒𝑠𝑜 = 3.3555 + 0.4530𝑥 PROBLEMA 7. 7. La gente no es más longeva en la actualidad, sino que también lo es de manera independiente. En el número de mayo/junio del 2006 del imparcial, se publicó el artículo “análisis multiestadístico de vida activa de las personas” en el cual dos de las variables estudiadas fueron la edad actual de una persona y el número esperado de años restantes por vivir. Edad Años restantes 65 67 69 71 73 75 77 79 81 83 16.5 15.1 13.7 12.4 11.2 10.1 9 8.4 7.1 6.4 Página 11 a) Elabora el diagrama de dispersión. Diagrama de dispersión 18 AÑOS RESTANTES 16 14 12 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 Edad (años) b) Determina el coeficiente de correlación de la siguiente tabla de datos: Completamos la tabla que nos permitirá calcular los parámetros necesarios: x Total 65 67 69 71 73 75 77 79 81 83 740 x = Edad ; y = Años restantes y xy x² y² 16.5 15.1 13.7 12.4 11.2 10.1 9 8.4 7.1 6.4 109.9 1072.5 1011.7 945.3 880.4 817.6 757.5 693 663.6 575.1 531.2 7947.9 4225 4489 4761 5041 5329 5625 5929 6241 6561 6889 55090 272.25 228.01 187.69 153.76 125.44 102.01 81 70.56 50.41 40.96 1312.09 Siguiendo los valores de la tabla, obtenemos las desviaciones estándar y las medias. 𝑆𝑥 = (∑ 𝑥𝑖 )2 (740)2 ( ) 55090 − 𝑛 =√ 10 = √110 ≈ 6.0553 𝑛−1 10 − 1 3 2 √∑ 𝑥𝑖 − Página 12 𝑆𝑦 = (∑ 𝑦𝑖 )2 (109.9)2 ( ) 1312.09 − √ 𝑛 10 = = √11.5876 ≈ 3.4041 𝑛−1 10 − 1 2 √∑ 𝑦𝑖 − 𝑆𝑥𝑦 = (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (740)(109.9) (7947.9) − 𝑛 10 = ≈ −20.52 𝑛−1 10 − 1 ∑ 𝑥𝑖 𝑦𝑖 − Obtenemos el coeficiente de correlación: 𝛾𝐸𝑑𝑎𝑑−𝐴ñ𝑜𝑠 𝑟𝑒𝑠𝑡𝑎𝑛𝑡𝑒𝑠 = 𝑆𝑥𝑦 −20.52 = ≈ −0.9956 𝑆𝑥 𝑆𝑦 (6.0553)(3.4041) c) Calcula la ecuación de la recta del mejor ajuste utilizando el método de mínimos cuadrados. Obtenemos las medias para cada variable, tanto para x como para y. (∑ 𝑥 = 740) = 74 10 (∑ 𝑦 = 109.9) 𝑦̅ = = 10.99 10 𝑥̅ = Ya que contamos con el coeficiente, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: 𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛: 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 3.4041 ) = (−0.9956) ( ) ≈ −0.5597 𝑆𝑥 6.0553 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (10.99) − (−0.5597)(74) ≈ 51.4178 Por lo tanto: 𝑦 = 51.4178 − 0.5597𝑥 Página 13 PROBLEMA 8. 8. Estos datos que relacionan la cantidad gastada en alimentos por semana y el número de miembros de una familia son los siguientes a) Encuentre la recta de mejor ajuste para estos datos. Completamos la tablita para obtener los parámetros que nos permitan conocer la recta de regresión que mejor se ajuste a los datos. x x = N. Familia ; y = Cantidad gastada y xy x² y² 2 2 3 4 1 5 191.5 4 9168.0625 95.75 220.38 4 12141.8361 110.19 354.99 9 14001.9889 118.33 603.68 16 22776.8464 150.92 85.86 1 7371.9396 85.86 903.1 25 32623.5844 180.62 2359.51 59 98084.2579 Total 17 741.67 Siguiendo los valores de la tabla, obtenemos las desviaciones estándar y las medias. 𝑆𝑥 = 𝑆𝑦 = (∑ 𝑥𝑖 )2 (17)2 ( ) 59 − 𝑛 =√ 6 = √13 ≈ 1.4719 𝑛−1 6−1 6 2 √∑ 𝑥𝑖 − (∑ 𝑦𝑖 )2 (741.67)2 ( ) 98084.2579 − √ 𝑛 6 = = √1281.038 ≈ 35.7916 𝑛−1 6−1 2 √∑ 𝑦𝑖 − 𝑆𝑥𝑦 = (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (17)(741.67) (2359.51) − 𝑛 6 = ≈ 51.6223 𝑛−1 6−1 ∑ 𝑥𝑖 𝑦𝑖 − Obtenemos el coeficiente de correlación: 𝛾𝑀𝑖𝑒𝑚𝑏𝑟𝑜𝑠−𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑔𝑎𝑠𝑡𝑎𝑑𝑎 = 𝑆𝑥𝑦 51.6223 = ≈ 0.9799 𝑆𝑥 𝑆𝑦 (1.4719)(35.7916) Página 14 Obtenemos las medias para cada variable, tanto para x como para y. 𝑥̅ = (∑ 𝑥 = 17) ≈ 2.8333 6 (∑ 𝑦 = 741.67) = 123.6117 6 𝑦̅ = Ya que contamos con el coeficiente y las medias de cada variable, damos paso a calcular la recta de regresión, cuya forma y parámetros es la siguiente: 𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛: 𝑦 = 𝑎 + 𝑏𝑥; 𝑑𝑜𝑛𝑑𝑒: 𝑏 = 𝛾( 𝑆𝑦 35.7916 ) = (0.9799) ( ) ≈ 23.8262 𝑆𝑥 1.4720 𝑎 = 𝑦̅ − 𝑏𝑥̅ ≈ (123.6117) − (23.8262)(2.8333) ≈ 56.105 Por lo tanto: 𝑦 = 56.105 + 23.8262𝑥 b) Grafique los puntos y la recta de mejor ajuste en la misma gráfica. ¿La recta resume la información de los puntos de datos? Cantidad gastada (Kg) Diagrama de dispersión 200 180 160 140 120 100 80 60 40 20 0 y = 23.826x + 56.106 R² = 0.9601 0 1 2 3 4 5 6 Número de miembros en la familia La recta resume de manera adecuada el comportamiento de la cantidad gastada en alimentos por el número de miembros de la familia. Esto es una relación creciente, ya que, a mayor número de miembros, mayor cantidad gastada de alimentos. c) ¿Qué estimaría usted que gasta por semana una familia de seis en alimentos? Para estimar el gasto, recurrimos a la función de la recta, en la cual interpretamos a la x como seis. 𝑆𝑖 (𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑖𝑒𝑚𝑏𝑟𝑜𝑠 = 𝑥 = 6) → 𝑦 = 56.105 + 23.8262(6) = 199.0622 Página 15 PARTE 2: MUESTREO. PROBLEMAS TEÓRICOS Relacione los casos con los siguientes conceptos y explique el porqué de su respuesta: Muestreo por conglomerados Muestreo aleatorio sistemático Muestreo aleatorio estratificado Muestreo aleatorio simple Muestreo aleatorio simple: Una empresa desea saber si sus productos cumplen con estándares de calidad que tienen preestablecidos. El revisar artículo por artículo sería muy costoso por lo que se tomarán solo 100 como muestra de una producción diaria es de 15000 piezas. Justificación: Notamos que el revisar toda la población implicaría un arduo trabajo para sacarlo adelante (tanto económico como en esfuerzo y tiempo). Por ello se recurre a seleccionar aleatoriamente 100 piezas de una población de 15,000, reflejando esto que se pudieron haber seleccionado más o menos piezas en caso de ser posibles, teniendo estas la misma probabilidad de selección. Muestreo aleatorio sistemático: Una empresa de publicidad desea hacer un estudio para una determinada marca de bebidas. Para ello dispone del listín telefónico de Culiacán (supongamos 2 millones de teléfonos entre fijos y móviles). Se estima que con 2000 encuestas se obtiene la fiabilidad deseada y se toma una muestra empezando en el 1 y con intervalos de 1000 en 1000. Justificación: Este problema es de los más fáciles de identificar, ya que rápidamente notamos que de la población se toma una muestra ordenada, fiable y aleatoria, de la cual se empieza con uno de los primeros k elementos (en este caso 1 de 2000), y después continuamos en intervalos de 1000 en 1000. Esta sistematización sólo se da en este tipo de muestreo, por ello fue fácil saber de cuál se trataba. Muestreo aleatorio simple: Se desea conocer la opinión de las alumnas del Colegio Chapultepec sobre las instalaciones con las que cuenta. Por lo que se deposita en un recipiente el nombre de cada alumna de preparatoria y se extraen los nombres hasta completar una muestra de 20 alumnas. Justificación: Regularmente, utilizamos el muestreo aleatorio simple en muestras muy pequeñas debido a que no son muy eficaces cuando lo queremos implementar en muestras grandes. Esto tiene relación con que la muestra n tienen la misma probabilidad de ser seleccionadas, siendo reflejado en que n serían las 20 alumnas de la escuela (la cual es la población N), en donde la probabilidad no cambiaría si por ejemplo aumentamos el número de la muestra a 30. Página 16 Muestreo por conglomerados: Se desea conocer el índice de embarazos en adolescentes en México, pero el realizar un censo sería muy costoso e implicaría mucho tiempo por lo que se decide muestrear solo 5 estados del país. Justificación: El muestreo por conglomerados se suele emplear a la hora de dividir la población en racimos geográficos disponibles, siendo en este caso los 5 estados de México (este último representando a N). Notamos que esto implica menos coste de tiempo y dinero, ahorrando el trabajo que llevaría hacerlo en todo el país. Muestreo aleatorio estratificado: Los directores de una empresa desean conocer un mayor detalle el clima organizacional que prevalece en la empresa, por lo tanto, decide tomar muestras por departamento, ya que las opciones dentro de estos son homogéneos y heterogéneos. Justificación: Recordemos que el muestreo aleatorio estratificado es aquel en donde tomamos un estrato (o bien subgrupo), y a este lo analizamos con un muestreo aleatorio simple. En este ejemplo tenemos a la población como la empresa, y a los departamentos como los subgrupos, los cuales comparten la característica de ser homogéneos y heterogéneos. Destacar que esto es importante en los estratos, ya que deben compartir al menos una característica especifica. Página 17 PARTE 3: TEOREMA DEL LÍMITE CENTRAL. INSTRUCCIONES: Usando el teorema del Limite Central contesta PROBLEMA 9 9. Muestras aleatorias de tamaño n se seleccionaron de poblaciones con las medias y varianzas dadas aquí. Encuentre la media y desviación estándar de la distribución muestral de la media muestral en cada caso: a) n = 36, 𝝈𝟐 = 9 µ = 10, Sabemos que la media de una población es igual a la media muestral de la distribución muestral. Por lo tanto, podemos decir que: 𝜇 = 𝜇𝑥̅ = 10 En el caso de la desviación estándar, podemos decir que la desviación estándar de la distribución muestral de la media de la muestra, es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra. Entonces tenemos que: 𝜎𝑥̅ = 𝜎 √𝑛 = √𝜎 2 √𝑛 = √9 √36 = 3 = 0.5 6 Por lo tanto, la distribución muestral de la media muestral tiene una media de 10 y una desviación estándar de 0.5 b) n = 100, 𝝈𝟐 = 4 µ = 5, Teniendo el mismo caso que en el a), tenemos que la media de la distribución muestral es: 𝜇 = 𝜇𝑥̅ = 5 Para la desviación estándar: 𝜎𝑥̅ = 𝜎 √𝑛 = √𝜎 2 √𝑛 = √4 √100 = 2 = 0.2 10 Por lo tanto, la distribución muestral de la media muestral tiene una media de 10 y una desviación estándar de 0.5 c) n = 8, µ = 120, 𝛔𝟐 = 1 𝑆𝑖𝑔𝑢𝑖𝑒𝑛𝑑𝑜 𝑙𝑎 𝑚𝑖𝑠𝑚𝑎 𝑖𝑑𝑒𝑎, 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙: 𝜇𝑥̅ = 𝜇 = 120 𝑌 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟: 𝜎𝑥̅ = 𝜎 √𝑛 = √𝜎 2 √𝑛 = √1 √8 = √2 ≈ 0.3535 4 La distribución muestral de la media muestral tiene una µ = 10 y σ = 0.5. Página 18 PROBLEMA 10 10. Una empresa de mensajería que opera en la ciudad tarda una media de 35 minutos en llevar un paquete, con una desviación estándar de 8 minutos. Supongamos que durante el día de hoy han repartido 200 paquetes. Para contestar lo que se nos pide, del párrafo tenemos que: 𝜇 = 35 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑝𝑎𝑟𝑎 𝑙𝑙𝑒𝑣𝑎𝑟 𝑢𝑛 𝑝𝑎𝑞𝑢𝑒𝑡𝑒 𝜎 = 8 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑛 = 200 𝑝𝑎𝑞𝑢𝑒𝑡𝑒𝑠 Siguiendo el teorema del límite central, tenemos que la media de la distribución muestral es igual a la media poblacional, por lo tanto: 𝜇 = 𝜇𝑥̅ = 35 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 Para la desviación estándar de la media muestral, tenemos que: 𝜎𝑥̅ = 𝜎 √𝑛 = 8 √200 = 2√2 ≈ 0.5657 5 También tenemos que: 𝑍= 𝑋̅ − 𝜇𝑥̅ 𝜎𝑥̅ a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30 y 35 minutos? 𝑃𝑟 (30 ≤ 𝑋̅ ≤ 35) = 𝑃𝑟 ( 30 − 35 𝑋̅ − 𝜇𝑥̅ 35 − 35 ) = 𝑃𝑟 (−8.83 ≤ 𝑍 ≤ 0) ≤ ≤ 8 8 𝜎𝑥̅ √200 √200 𝑃𝑟 (−8.83 ≤ 𝑍 ≤ 0) = 𝑃𝑟 (𝑍 ≤ 0) − 𝑃𝑟 (𝑍 ≤ −8.83) 𝑃𝑟 (𝑍 ≤ 0) ≈ 0.5000 𝑃𝑟 (𝑍 ≤ −8.83) ≈ 0 ∴ 𝑃𝑟 (−8.83 ≤ 𝑍 ≤ 0) = 0.5000 − 0 = 0.5 𝑇𝑒𝑛𝑒𝑚𝑜𝑠 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑞𝑢𝑒 𝑃𝑟 (30 ≤ 𝑋̅ ≤ 35) = 0.5 b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado más de 115 horas? Tenemos 115 horas para los doscientos paquetes, pero nuestros datos están en minutos. Por lo tanto, pasamos las 115 horas a minutos y verificamos cuantos minutos sería para cada paquete: 115 ℎ𝑜𝑟𝑎𝑠 60 𝑚𝑖𝑛 = 6900 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 1 ℎ𝑜𝑟𝑎 𝑌 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎 𝑝𝑎𝑞𝑢𝑒𝑡𝑒: 6900 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 = 34.5 200 Página 19 𝑃𝑟 (34.5 ≤ 𝑋̅) = 𝑃𝑟 ( 34.5 − 35 𝑋̅ − 𝜇𝑥̅ ) = 𝑃𝑟 (−0.88 ≤ 𝑍) = 1 − 𝑃𝑟 (𝑍 ≤ −0.88) = ≤ 8 𝜎𝑥̅ √200 𝑃𝑟 (−0.88 ≤ 𝑍) = 1 − 0.1894 = 0.8106 Por lo tanto: 𝑃𝑟 (34.5 ≤ 𝑋̅ ) = 0.8106 PROBLEMA 11 11. Suponga que consideramos que las temperaturas de personas sanas son aproximadamente normal, con una media de 98.6 grados Fahrenheit y desviación estándar de 0.8 grados. Tenemos que: 𝜇𝑥̅ = 98.6 𝑔𝑟𝑎𝑑𝑜𝑠 𝜎 = 0.8 𝑔𝑟𝑎𝑑𝑜𝑠 a) Si al azar se seleccionan 130 personas sanas, ¿cuál es la probabilidad de que la temperatura promedio para ellas sea de 98.25 grados Fahrenheit o menor? Consideramos a n como 130 personas sanas, y tenemos que X = temperatura de una persona sana. Por lo tanto: 𝑋̅ − 𝜇𝑥̅ 98.25 − 98.6 ) = 𝑃𝑟 (𝑍 ≤ −4.9882) ≈ 0 𝑃𝑟 (𝑋̅ ≤ 98.25) = 𝑃𝑟 ( ≤ 0.8 𝜎𝑥̅ √130 b) ¿Consideraría usted que una temperatura promedio de 98.25 grados es un suceso poco común, dado que la verdadera temperatura promedio de personas sanas es de 98.6 grados? Tiene sentido que de una probabilidad de cero debido a que es muy complicado que una persona mantenga una temperatura inferior a lo esperado durante un largo periodo de tiempo, tanto para considerar que mantenga y se considere una media. Lo normal es que sea cercano a ese valor esperado, así que muy probablemente una persona que tenga una temperatura promedio de ese valor no se considere sano. Si lo analizamos teóricamente, sí; notamos que la media de 98.25 está aproximadamente alrededor de cinco desviaciones estándar debajo de la media ideal de 98.6. Página 20 PROBLEMA 12 12. El requerimiento normal diario de potasio en seres humanos está en el intervalo de 2000 a 6000 miligramos (mg), con cantidades grandes necesarias durante los meses calurosos de verano. La cantidad de potasio en alimentos varía, dependiendo de éstos. Por ejemplo, hay alrededor de 7 mg en un refresco de cola, 46 mg en una cerveza, 630 mg en un plátano (banano), 300 mg en una zanahoria y 440 mg en un vaso de jugo de naranja. Suponga que la distribución de potasio en un plátano está distribuida normalmente, con media igual a 630 mg y desviación estándar de 40 mg por plátano. Usted toma n = 3 plátanos al día y T es el número total de miligramos de potasio que recibe de ellos. a) Encuentre la media y desviación estándar de T. Del párrafo podemos extraer: 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 = 𝜇 = 630 𝑚𝑔 𝑝𝑜𝑟 𝑐𝑎𝑑𝑎 𝑝𝑙á𝑡𝑎𝑛𝑜 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 = 𝜎 = 40 𝑚𝑔 𝑀𝑢𝑒𝑠𝑡𝑟𝑎 = 𝑛 = 3 𝑝𝑙á𝑡𝑎𝑛𝑜𝑠 Si tenemos a X1, X2 y X3 como las cantidades de potasio de cada plátano y sabemos que cuentan con una distribución normal, tenemos que los plátanos deberán conservar la media poblacional. Por lo tanto, la cantidad total de miligramos de potasio quedaría como: 𝑇 = 𝑋1 + 𝑋2 + 𝑋3 Si cada una de las variables tiene una distribución normal, entonces tenemos que T también tiene una distribución normal. Por esa propiedad, podemos afirmar que la suma de las de T de cada variable nos darán la media total de T. 𝜇 𝑇 = 𝜇𝑥1 + 𝜇𝑥2 + 𝜇𝑥3 = (630 + 630 + 630) = 1890 𝑚𝑔 Tenemos que la media poblacional en una distribución para una media muestral es igual, por lo tanto: 𝜇 𝑇 = 𝜇𝑥̅ = 1890 𝑚𝑔 En el caso de las desviaciones estándar tenemos algo similar, pero recordamos la fórmula para obtener la desviación estándar de la media muestral: 𝜎 𝜎𝑥̅ = √𝑛 Pero para ello, tenemos que obtener primeramente la desviación total de T, así que: 𝜎𝑇 = 𝜎𝑥1 + 𝜎𝑥2 + 𝜎𝑥3 = (40 + 40 + 40) = 120 𝑚𝑔 Página 21 Para la desviación de la media muestral: 𝜎𝑥̅ = 𝜎𝑇 √𝑛 = 120 𝑚𝑔 √3 = 69.2820 b) Encuentre la probabilidad de que su ingesta diaria de potasio de los tres plátanos exceda de 2 000 mg. (SUGERENCIA: Observe que T es la suma de tres variables aleatorias, x1, x2 y x3, donde x1 es la cantidad de potasio en el plátano 1, etcétera.) Del inciso a) tenemos que: 𝜇𝑥̅ = 1890 𝑚𝑔 𝜎𝑥̅ = 69.282 2000 − 1890 𝑋̅ − 𝜇𝑥̅ 𝑃𝑟 (2000 ≤ 𝑋̅) = 𝑃𝑟 ( ≤ ) = 𝑃𝑟 (1.5877 ≤ 𝑍) 69.282 𝜎𝑥̅ 𝑃𝑟 (1.5877 ≤ 𝑍) = 1 − 𝑃𝑟 (𝑍 ≤ 1.5877) = 𝐷𝑜𝑛𝑑𝑒 𝑃𝑟 (𝑍 ≤ 1.5877) 𝑒𝑠 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 0.9429 𝑃𝑟 (1.5877 ≤ 𝑍) = 1 − 0.9429 = 0.0571 Página 22

Tarea Final: Regresión y Correlación Lineal

Related documents

Products

Support

Tarea Final: Regresión y Correlación Lineal

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib