Uploaded by Juan Guttierress

Sesión 14 y 15 - Enunciado

advertisement
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás
Mejía, Carlos Castellanos y Santiago Castro
Segundo semestre de 2022
BANCO DE PROBLEMAS – SESIÓN 15 y 16
EJERCICIOS SOBRE REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE
Punto 1.
Mariana, gerente financiera de la compañía Colombiana S.A, está realizando un estudio sobre cómo
varía el gasto operacional mensual de la compañía con respecto a los ingresos mensuales de la
misma. Para llevar a cabo la investigación, se recolectó información sobre el ingreso y gasto mensual,
de 51 meses seleccionados al azar. Mariana, utilizó SPSS para correr el siguiente Modelo de Regresión
Lineal Simple:
π‘Œπ‘– = 𝛽0 + 𝛽1 𝑋𝑖 + πœ€π‘–
π‘Œπ‘– = πΊπ‘Žπ‘ π‘‘π‘œ π‘šπ‘’π‘›π‘ π‘’π‘Žπ‘™ 𝑑𝑒𝑙 π‘šπ‘’π‘  𝑖
𝑋𝑖 = πΌπ‘›π‘”π‘Ÿπ‘’π‘ π‘œ π‘šπ‘’π‘›π‘ π‘’π‘Žπ‘™ 𝑑𝑒𝑙 π‘šπ‘’π‘  𝑖
a) Complete los valores faltantes, del (a) al (j), de la tabla de ANOVA y de Coeficientes, de la
salida del Modelo de Regresión Lineal Simple de SPSS.
ANOVAa
Suma de
Modelo
1
Media
cuadrados
gl
cuadrática
Regresión
a)
c)
f)
Residuo
b)
d)
g)
4.530E11
e)
Total
F
Sig.
94.723
.000b
a. Variable dependiente: Gastos
b. Predictores: (Constante), Ingresos
Coeficientes
Coeficientes no
estandarizados
Modelo
1
(Constante)
B
Error estándar
116585.92
2
Ingresos
.443
t
Sig.
24073.504
h)
.000
i)
9.733
j)
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás
Mejía, Carlos Castellanos y Santiago Castro
Segundo semestre de 2022
b) Utilizando un nivel de significancia del 𝛼 = 5%, ¿el modelo es globalmente significativo? Plantee
la hipótesis nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo a los resultados
de SPSS.
c) Interprete con precisión el coeficiente asociado a la variable ingresos.
d) Formule el modelo de regresión estimado.
e) ¿Cuánto sería el gasto mensual estimado en un mes seleccionado al azar, el cual tiene ingresos
mensuales de $900.000 pesos colombianos?
f) Calcule el coeficiente de determinación, 𝑅2 , del modelo. Interprete dicho valor en términos del
problema.
g) Construya un intervalo de confianza del 95% para 𝛽1 .
Punto 2.
Camila hizo un estudio de la contaminación atmosférica de 38 ciudades de Estados Unidos. En donde
estudia el efecto del número de fábricas con más de 20 empleados sobre el Contenido de SO 2 en el
aire. Lamentable, durante la compilación de los resultados se perdieron algunos datos, y Camila le
ha pedido que le ayude a encontrar los datos faltantes de la siguiente información:
Resumen del modelo
Error
estándar de
Modelo
R
1
.802a
R
R cuadrado
la
cuadrado
ajustado
estimación
a)
0.633
15.6147
a. Predictores:(Constante), Número de fábricas con más
de 20 empleados
ANOVAa
Suma de
Modelo
1
cuadrados
Media
gl
cuadrática
Regresión
b)
d)
g)
Residuo
c)
e)
h)
21833.263
f)
Total
F
64.740
Sig.
.000b
a. Variable dependiente: Contenido de SO2 en el aire (microorganismos
por metro cúbico)
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás
Mejía, Carlos Castellanos y Santiago Castro
Segundo semestre de 2022
ANOVAa
Suma de
Modelo
Media
cuadrados
gl
cuadrática
F
Sig.
b. Predictores: (Constante), Número de fábricas con más de 20
empleados
Coeficientesa
Coeficientes
Coeficientes no
estandarizad
estandarizados
os
Error
Modelo
1
B
(Constante)
estándar
Beta
t
Sig.
19.029
20.688
i)
.365
.145
j)
8.046
.000
Número de fábricas
con más de 20
empleados
a. Variable dependiente: Contenido de SO2 en el aire
Punto 3.
En los últimos años, los colegios de Educación Básica Primaria, preocupados por la cantidad de niños
con problemas de obesidad, han iniciado una campaña encaminada a fomentar en los menores una
alimentación balanceada y la práctica de deportes. El colegio Cerros realizó un estudio en 30 niños
escogidos al azar para los cursos de primero a tercero de primaria, preguntándoles a los estudiantes
por su edad, peso, altura y si practicaban o no algún deporte. Se planteó el siguiente modelo para
asignar un puntaje (π‘Œ), el cual oscila entre 1 (muy saludable) y 100 (poco saludable), a cada uno de
los encuestados:
π‘Œπ‘– = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + πœ€π‘–
Donde:
𝑋1𝑖 : π‘™π‘Ž π‘’π‘‘π‘Žπ‘‘ 𝑑𝑒𝑙 𝑛𝑖ñπ‘œ 𝑖
𝑋2𝑖 : 𝑒𝑙 π‘π‘’π‘ π‘œ 𝑑𝑒𝑙 𝑛𝑖ñπ‘œ 𝑖
𝑋3𝑖 : π‘™π‘Ž π‘Žπ‘™π‘‘π‘’π‘Ÿπ‘Ž 𝑑𝑒𝑙 𝑛𝑖ñπ‘œ 𝑖
𝑋4𝑖 : 0 𝑠𝑖 𝑒𝑙 𝑛𝑖ñπ‘œ 𝑖 π‘π‘Ÿπ‘Žπ‘π‘‘π‘–π‘π‘Ž π‘Žπ‘™π‘”ú𝑛 π‘‘π‘’π‘π‘œπ‘Ÿπ‘‘π‘’, 1 𝑠𝑖 π‘›π‘œ 𝑒𝑠 π‘Žπ‘ í
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás
Mejía, Carlos Castellanos y Santiago Castro
Segundo semestre de 2022
Para ayudar al colegio con el análisis, utilice el archivo Datos_niños.xlsx y corra el modelo de
regresión lineal múltiple en R. Considere un nivel de significancia 𝛼 = 5%.
a) ¿Es el modelo globalmente significativo para explicar la variable Puntaje? Plantee la hipótesis
nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo con los resultados de la
regresión en R.
b) ¿Qué variables son significativas en el modelo para explicar la variable Puntaje? Plantee la
hipótesis nula, la hipótesis alterna, la prueba asociada y concluya de acuerdo a los resultados
en R.
c) Formule la ecuación modelo estimado.
d) Calcule el valor del puntaje pronosticado por el modelo para el niño # 10 y el residuo asociado
a esta observación:
e) Si se aumenta en una unidad cada una de las variables representadas individualmente
manteniendo las otras variables constantes, ¿cuánto se espera que cambie el puntaje?
f) ¿Qué porcentaje de la variabilidad del puntaje es explicada por las variables del modelo?
g) ¿Quiénes se espera que tengan un puntaje más alto, los estudiantes que hacen ejercicio o los
que no hacen?
Punto 4.
Desplastifica tu ciudad es un proyecto que busca hacer de Santa Marta una ciudad sostenible en el
largo plazo. El proyecto regularía el uso de botellas plásticas y el uso de Poliestireno Expandido (más
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Daniela Ortiz, Diana Lozano, Natalia Pacheco, Nicolás
Mejía, Carlos Castellanos y Santiago Castro
Segundo semestre de 2022
conocido como Icopor), puesto que según la Alcaldía las fuentes hídricas de la región se han visto
afectadas por la contaminación producto de estos materiales.
Para medir la presencia de agentes contaminantes, debido a los materiales mencionados, en las
fuentes hídricas de Santa Marta, se recolectó información acerca de las siguientes variables:
•
•
•
•
Contenido de DDT: Indica la cantidad de DDT, por metro cúbico, presente en el agua del mar. 1
Cantidad plástico: Indica la cantidad de plástico, en toneladas, presente en reservas hídricas
cercanas a la ciudad de Santa Marta.
Cantidad icopor: Indica la cantidad de icopor, en toneladas, presente en reservas hídricas
cercanas a la ciudad de Santa Marta.
Precipitación mensual: Indica la cantidad de precipitación media mensual, en litros por
pulgada, en la ciudad de Santa Marta.
El DDT (dicloro difenil tricloroetano) se encuentra en pesticidas utilizados en actividades de
agricultura, los cuales pueden llegar a las costas arrastrados por las lluvias. La información
recolectada se encuentra en el archivo Contaminación.xlsx. Con el objetivo de medir la presencia
de agentes contaminantes en las fuentes hídricas se plantea el siguiente modelo de regresión lineal:
πΆπ‘œπ‘›π‘‘π‘’π‘›π‘–π‘‘π‘œ 𝑑𝑒 𝐷𝐷𝑇 = 𝛽0 + 𝛽1 πΆπ‘Žπ‘›π‘‘π‘–π‘‘π‘Žπ‘‘ 𝑃𝑙áπ‘ π‘‘π‘–π‘π‘œ + 𝛽2 πΆπ‘Žπ‘›π‘‘π‘–π‘‘π‘Žπ‘‘ πΌπ‘π‘œπ‘π‘œπ‘Ÿ + 𝛽3 π‘ƒπ‘Ÿπ‘’π‘π‘–π‘π‘–π‘‘π‘Žπ‘π‘–ó𝑛 π‘šπ‘’π‘›π‘ π‘’π‘Žπ‘™ + πœ–
a) Utilice R para encontrar el valor de los parámetros del modelo de regresión planteado.
b) ¿El modelo es globalmente significativo? Utilice una significancia de 𝛼 = 5% y sea explícito en su
procedimiento.
c) Concluya sobre la significancia global del modelo a partir del p-value.
d) ¿Cuáles variables son significativas en el modelo? Utilice una significancia de 𝛼 = 5%
1
https://www.lavanguardia.com/historiayvida/los-efectos-perjudiciales-del-ddt_12126_102.html
Download