Universidad de los Andes Departamento de Ingeniería Industrial Probabilidad y Estadística I (IIND2106) Profesor Coordinador: Mario Castillo Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro Segundo semestre de 2022 BANCO DE PROBLEMAS – SESIÓN 15 y 16 EJERCICIOS SOBRE REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE Punto 1. Mariana, gerente financiera de la compañía Colombiana S.A, está realizando un estudio sobre cómo varía el gasto operacional mensual de la compañía con respecto a los ingresos mensuales de la misma. Para llevar a cabo la investigación, se recolectó información sobre el ingreso y gasto mensual, de 51 meses seleccionados al azar. Mariana, utilizó SPSS para correr el siguiente Modelo de Regresión Lineal Simple: ππ = π½0 + π½1 ππ + ππ ππ = πΊππ π‘π ππππ π’ππ πππ πππ π ππ = πΌπππππ π ππππ π’ππ πππ πππ π a) Complete los valores faltantes, del (a) al (j), de la tabla de ANOVA y de Coeficientes, de la salida del Modelo de Regresión Lineal Simple de SPSS. ANOVAa Suma de Modelo 1 Media cuadrados gl cuadrática Regresión a) c) f) Residuo b) d) g) 4.530E11 e) Total F Sig. 94.723 .000b a. Variable dependiente: Gastos b. Predictores: (Constante), Ingresos Coeficientes Coeficientes no estandarizados Modelo 1 (Constante) B Error estándar 116585.92 2 Ingresos .443 t Sig. 24073.504 h) .000 i) 9.733 j) Universidad de los Andes Departamento de Ingeniería Industrial Probabilidad y Estadística I (IIND2106) Profesor Coordinador: Mario Castillo Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro Segundo semestre de 2022 b) Utilizando un nivel de significancia del πΌ = 5%, ¿el modelo es globalmente significativo? Plantee la hipótesis nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo a los resultados de SPSS. c) Interprete con precisión el coeficiente asociado a la variable ingresos. d) Formule el modelo de regresión estimado. e) ¿Cuánto sería el gasto mensual estimado en un mes seleccionado al azar, el cual tiene ingresos mensuales de $900.000 pesos colombianos? f) Calcule el coeficiente de determinación, π 2 , del modelo. Interprete dicho valor en términos del problema. g) Construya un intervalo de confianza del 95% para π½1 . Punto 2. Camila hizo un estudio de la contaminación atmosférica de 38 ciudades de Estados Unidos. En donde estudia el efecto del número de fábricas con más de 20 empleados sobre el Contenido de SO 2 en el aire. Lamentable, durante la compilación de los resultados se perdieron algunos datos, y Camila le ha pedido que le ayude a encontrar los datos faltantes de la siguiente información: Resumen del modelo Error estándar de Modelo R 1 .802a R R cuadrado la cuadrado ajustado estimación a) 0.633 15.6147 a. Predictores:(Constante), Número de fábricas con más de 20 empleados ANOVAa Suma de Modelo 1 cuadrados Media gl cuadrática Regresión b) d) g) Residuo c) e) h) 21833.263 f) Total F 64.740 Sig. .000b a. Variable dependiente: Contenido de SO2 en el aire (microorganismos por metro cúbico) Universidad de los Andes Departamento de Ingeniería Industrial Probabilidad y Estadística I (IIND2106) Profesor Coordinador: Mario Castillo Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro Segundo semestre de 2022 ANOVAa Suma de Modelo Media cuadrados gl cuadrática F Sig. b. Predictores: (Constante), Número de fábricas con más de 20 empleados Coeficientesa Coeficientes Coeficientes no estandarizad estandarizados os Error Modelo 1 B (Constante) estándar Beta t Sig. 19.029 20.688 i) .365 .145 j) 8.046 .000 Número de fábricas con más de 20 empleados a. Variable dependiente: Contenido de SO2 en el aire Punto 3. En los últimos años, los colegios de Educación Básica Primaria, preocupados por la cantidad de niños con problemas de obesidad, han iniciado una campaña encaminada a fomentar en los menores una alimentación balanceada y la práctica de deportes. El colegio Cerros realizó un estudio en 30 niños escogidos al azar para los cursos de primero a tercero de primaria, preguntándoles a los estudiantes por su edad, peso, altura y si practicaban o no algún deporte. Se planteó el siguiente modelo para asignar un puntaje (π), el cual oscila entre 1 (muy saludable) y 100 (poco saludable), a cada uno de los encuestados: ππ = π½0 + π½1 π1π + π½2 π2π + π½3 π3π + π½4 π4π + ππ Donde: π1π : ππ ππππ πππ ππñπ π π2π : ππ πππ π πππ ππñπ π π3π : ππ πππ‘π’ππ πππ ππñπ π π4π : 0 π π ππ ππñπ π πππππ‘πππ πππúπ ππππππ‘π, 1 π π ππ ππ ππ í Universidad de los Andes Departamento de Ingeniería Industrial Probabilidad y Estadística I (IIND2106) Profesor Coordinador: Mario Castillo Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro Segundo semestre de 2022 Para ayudar al colegio con el análisis, utilice el archivo Datos_niños.xlsx y corra el modelo de regresión lineal múltiple en R. Considere un nivel de significancia πΌ = 5%. a) ¿Es el modelo globalmente significativo para explicar la variable Puntaje? Plantee la hipótesis nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo con los resultados de la regresión en R. b) ¿Qué variables son significativas en el modelo para explicar la variable Puntaje? Plantee la hipótesis nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo a los resultados en R. c) Formule la ecuación modelo estimado. d) Calcule el valor del puntaje pronosticado por el modelo para el niño # 10 y el residuo asociado a esta observación: e) Si se aumenta en una unidad cada una de las variables representadas individualmente manteniendo las otras variables constantes, ¿cuánto se espera que cambie el puntaje? f) ¿Qué porcentaje de la variabilidad del puntaje es explicada por las variables del modelo? g) ¿Quiénes se espera que tengan un puntaje más alto, los estudiantes que hacen ejercicio o los que no hacen? Punto 4. Desplastifica tu ciudad es un proyecto que busca hacer de Santa Marta una ciudad sostenible en el largo plazo. El proyecto regularía el uso de botellas plásticas y el uso de Poliestireno Expandido (más Universidad de los Andes Departamento de Ingeniería Industrial Probabilidad y Estadística I (IIND2106) Profesor Coordinador: Mario Castillo Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro Segundo semestre de 2022 conocido como Icopor), puesto que según la Alcaldía las fuentes hídricas de la región se han visto afectadas por la contaminación producto de estos materiales. Para medir la presencia de agentes contaminantes, debido a los materiales mencionados, en las fuentes hídricas de Santa Marta, se recolectó información acerca de las siguientes variables: • • • • Contenido de DDT: Indica la cantidad de DDT, por metro cúbico, presente en el agua del mar. 1 Cantidad plástico: Indica la cantidad de plástico, en toneladas, presente en reservas hídricas cercanas a la ciudad de Santa Marta. Cantidad icopor: Indica la cantidad de icopor, en toneladas, presente en reservas hídricas cercanas a la ciudad de Santa Marta. Precipitación mensual: Indica la cantidad de precipitación media mensual, en litros por pulgada, en la ciudad de Santa Marta. El DDT (dicloro difenil tricloroetano) se encuentra en pesticidas utilizados en actividades de agricultura, los cuales pueden llegar a las costas arrastrados por las lluvias. La información recolectada se encuentra en el archivo Contaminación.xlsx. Con el objetivo de medir la presencia de agentes contaminantes en las fuentes hídricas se plantea el siguiente modelo de regresión lineal: πΆπππ‘πππππ ππ π·π·π = π½0 + π½1 πΆπππ‘ππππ ππáπ π‘πππ + π½2 πΆπππ‘ππππ πΌπππππ + π½3 ππππππππ‘πππóπ ππππ π’ππ + π a) Utilice R para encontrar el valor de los parámetros del modelo de regresión planteado. b) ¿El modelo es globalmente significativo? Utilice una significancia de πΌ = 5% y sea explícito en su procedimiento. c) Concluya sobre la significancia global del modelo a partir del p-value. d) ¿Cuáles variables son significativas en el modelo? Utilice una significancia de πΌ = 5% 1 https://www.lavanguardia.com/historiayvida/los-efectos-perjudiciales-del-ddt_12126_102.html