Uploaded by dania.salasgzz

Tarea9

advertisement
Universidad Autónoma de Nuevo León
Facultad de Ciencias Física Matemáticas
Métodos estadísticos
Tarea 9
Integrantes:
Daniela Paola Sillas Monrreal 1958727
Dania Paola Salas González 1957099
Mariana Paola Oviedo Peña 1946326
Grupo: 41
Fecha de entrega: 4 mayo del 2023
a) Realice la matriz de dispersión y comente respecto a la posible relación entre par de
variables.
Existe una posible relación entre par de variables siendo las de mayor de correlación Carreras y
Yardas_Tierra con una correlación del 83.7%, Yardas_Tierra con Yardas_Tierra_Contrario con una
relación inversa del 65.9% al igual que Juegos_Ganados con Yardas_Tierra_Contrario con un 73.8%
y Yardas_Tierra_Contrario con Carreras con 68.5% siendo estos los pares de variables con relaciones
más altas.
b) Revise problemas de multicolinealidad, en caso de ser necesario proceda a la eliminación de
variables. Indique el conjunto de variables a trabajar en incisos subsecuentes.
De acuerdo con la siguiente tabla, se puede observar que los valores del factor de inflación de
varianza (FIV) son para todas las variables implicadas menores a diez, por ello, no se presenta
problemas de multicolinealidad. Por lo tanto, no se elimina ninguna variable y se prosigue con el
análisis, por ello el conjunto de variables a trabajar será todas.
c) Ajustar la regresión lineal e indicar la ecuación correspondiente.
De acuerdo con el análisis anterior, se presenta que la ecuación de regresión lineal es como la que
se indica a continuación.
d) Probar la significancia del modelo e indicar el ajuste obtenido.
H0: B1=B2=…=B9 = 0
Ha: Alguna de difiere de cero.
Rechazo H0, si p-valor < 𝛼 = 0.05. Como p-valor=0, entonces, rechazo H0. Por lo que, con un 95%
de confianza, la regresión es significativa y las variables involucradas muestran relación.
Por otra parte, el ajuste de modelo obtenido es de 72.34% teniendo un buen desempeño.
e) Analizar mejores subconjuntos e indicar el modelo elegido.
El mejor modelo de acuerdo con el análisis de los mejores subconjuntos es de el modelo de cuatro
variables, siendo estas: Yardas_Aire, Carreras, Yardas_Tierra_Contrario y Yardas_Aire_Contrario. Se
escoge este como mejor modelo pues presenta un R-cuadrado del 76.7%, que fue el más alto de los
subconjuntos, presenta buen desempeño para la regresión lineal de los datos en tema.
f) Calcular los intervalos de confianza e indicar si existe evidencia de regresión al origen.
Al momento de analizar los intervalos de confianza del modelo elegido que implica las cuatro
variables antes mencionadas, que es representada con la ecuación siguiente, se observa que si
existe regresión al origen con un 95% de confianza.
g) En caso de existir, volver a ajustar el modelo y realizar la prueba e indicar el ajuste.
Ya realizando el ajuste del modelo considerando la regresión al origen, se puede observar de acuerdo
con la tabla que presenta un p-valor igual a 0.
H0: B1=B2=B3=B4= 0
Ha: Alguna de difiere de cero.
Rechazo H0, si p-valor < 𝛼 = 0.05. Como p-valor=0, entonces, rechazo H0. Por lo que, con un 95%
de confianza, la regresión es significativa y las variables involucradas muestran relación.
Asimismo, el ajuste del modelo es de 95.49%, teniendo un muy buen desempeño.
h) Analice el cumplimiento de supuestos de los residuales, incluyendo gráficas y comentarios al
respecto.
En las gráficas siguientes se puede observar el cumplimiento de los cuatro supuestos:
1) Supuesto de normalidad. Comprobando su normalidad con la gráfica de QQPLOT, pues los
puntos se ajustan casi todos a la recta y aquellos que están alejados, pero a una distanciados
mínima.
H0: Los residuales provienen de una distribución normal.
Ha: Los residuales no provienen de una distribución normal.
Como p-valor= 0.211 que es mayor al nivel de significancia del 0.05, entonces, no rechazo
H0. Por lo tanto, los residuales provienen de una distribución normal.
2) Supuesto media cero. Con el histograma se puede observar que la dispersión de los residuos
forma la curva de una distribución normal con media cero, ya que los datos están centrados
en cero, y es la barra que presenta mayor frecuencia.
3) Varianza constante. Por otra parte, en la dispersión de los puntos de los residuos no se observa
un patrón, por lo que es muy probable que la varianza es constante.
4) Incorrelación. Tampoco se observa un patrón en el gráfico de orden de observación, por lo tanto,
se supone que están incorrelacionados.
i)
Calcule los residuales y valores estandarizados del modelo elegido e indique la
presencia de los datos atípicos.
RESIDUALES RESIDUALES EST.
3.3199
2.1010
0.9696
0.7121
2.9769
1.9184
2.1678
1.4520
-0.0249
-0.0167
-0.2941
-0.1951
-1.7244
-1.1309
0.1913
0.1241
1.7136
1.1614
-2.2653
-1.4330
0.2161
0.1432
1.5547
0.9838
-0.1211
-0.0758
-0.2213
-0.1389
-2.8355
-1.8271
0.5409
0.3472
-0.5827
-0.3618
-0.4004
-0.2721
0.5682
0.3687
-0.2681
-0.1680
-3.2851
-2.0849
1.4366
0.9432
-0.0741
-0.0516
-0.5086
-0.3274
-0.8519
-0.5822
-0.5059
-0.3327
-0.1690
-0.1241
-1.6083
-1.0566
De acuerdo los residuales estandarizados, se observa que no hay datos atípicos, considerando a un
dato atípicos aquellos con valores fuera del intervalo de (-3, 3).
Download