Universidad Autónoma de Nuevo León Facultad de Ciencias Física Matemáticas Métodos estadísticos Tarea 9 Integrantes: Daniela Paola Sillas Monrreal 1958727 Dania Paola Salas González 1957099 Mariana Paola Oviedo Peña 1946326 Grupo: 41 Fecha de entrega: 4 mayo del 2023 a) Realice la matriz de dispersión y comente respecto a la posible relación entre par de variables. Existe una posible relación entre par de variables siendo las de mayor de correlación Carreras y Yardas_Tierra con una correlación del 83.7%, Yardas_Tierra con Yardas_Tierra_Contrario con una relación inversa del 65.9% al igual que Juegos_Ganados con Yardas_Tierra_Contrario con un 73.8% y Yardas_Tierra_Contrario con Carreras con 68.5% siendo estos los pares de variables con relaciones más altas. b) Revise problemas de multicolinealidad, en caso de ser necesario proceda a la eliminación de variables. Indique el conjunto de variables a trabajar en incisos subsecuentes. De acuerdo con la siguiente tabla, se puede observar que los valores del factor de inflación de varianza (FIV) son para todas las variables implicadas menores a diez, por ello, no se presenta problemas de multicolinealidad. Por lo tanto, no se elimina ninguna variable y se prosigue con el análisis, por ello el conjunto de variables a trabajar será todas. c) Ajustar la regresión lineal e indicar la ecuación correspondiente. De acuerdo con el análisis anterior, se presenta que la ecuación de regresión lineal es como la que se indica a continuación. d) Probar la significancia del modelo e indicar el ajuste obtenido. H0: B1=B2=…=B9 = 0 Ha: Alguna de difiere de cero. Rechazo H0, si p-valor < 𝛼 = 0.05. Como p-valor=0, entonces, rechazo H0. Por lo que, con un 95% de confianza, la regresión es significativa y las variables involucradas muestran relación. Por otra parte, el ajuste de modelo obtenido es de 72.34% teniendo un buen desempeño. e) Analizar mejores subconjuntos e indicar el modelo elegido. El mejor modelo de acuerdo con el análisis de los mejores subconjuntos es de el modelo de cuatro variables, siendo estas: Yardas_Aire, Carreras, Yardas_Tierra_Contrario y Yardas_Aire_Contrario. Se escoge este como mejor modelo pues presenta un R-cuadrado del 76.7%, que fue el más alto de los subconjuntos, presenta buen desempeño para la regresión lineal de los datos en tema. f) Calcular los intervalos de confianza e indicar si existe evidencia de regresión al origen. Al momento de analizar los intervalos de confianza del modelo elegido que implica las cuatro variables antes mencionadas, que es representada con la ecuación siguiente, se observa que si existe regresión al origen con un 95% de confianza. g) En caso de existir, volver a ajustar el modelo y realizar la prueba e indicar el ajuste. Ya realizando el ajuste del modelo considerando la regresión al origen, se puede observar de acuerdo con la tabla que presenta un p-valor igual a 0. H0: B1=B2=B3=B4= 0 Ha: Alguna de difiere de cero. Rechazo H0, si p-valor < 𝛼 = 0.05. Como p-valor=0, entonces, rechazo H0. Por lo que, con un 95% de confianza, la regresión es significativa y las variables involucradas muestran relación. Asimismo, el ajuste del modelo es de 95.49%, teniendo un muy buen desempeño. h) Analice el cumplimiento de supuestos de los residuales, incluyendo gráficas y comentarios al respecto. En las gráficas siguientes se puede observar el cumplimiento de los cuatro supuestos: 1) Supuesto de normalidad. Comprobando su normalidad con la gráfica de QQPLOT, pues los puntos se ajustan casi todos a la recta y aquellos que están alejados, pero a una distanciados mínima. H0: Los residuales provienen de una distribución normal. Ha: Los residuales no provienen de una distribución normal. Como p-valor= 0.211 que es mayor al nivel de significancia del 0.05, entonces, no rechazo H0. Por lo tanto, los residuales provienen de una distribución normal. 2) Supuesto media cero. Con el histograma se puede observar que la dispersión de los residuos forma la curva de una distribución normal con media cero, ya que los datos están centrados en cero, y es la barra que presenta mayor frecuencia. 3) Varianza constante. Por otra parte, en la dispersión de los puntos de los residuos no se observa un patrón, por lo que es muy probable que la varianza es constante. 4) Incorrelación. Tampoco se observa un patrón en el gráfico de orden de observación, por lo tanto, se supone que están incorrelacionados. i) Calcule los residuales y valores estandarizados del modelo elegido e indique la presencia de los datos atípicos. RESIDUALES RESIDUALES EST. 3.3199 2.1010 0.9696 0.7121 2.9769 1.9184 2.1678 1.4520 -0.0249 -0.0167 -0.2941 -0.1951 -1.7244 -1.1309 0.1913 0.1241 1.7136 1.1614 -2.2653 -1.4330 0.2161 0.1432 1.5547 0.9838 -0.1211 -0.0758 -0.2213 -0.1389 -2.8355 -1.8271 0.5409 0.3472 -0.5827 -0.3618 -0.4004 -0.2721 0.5682 0.3687 -0.2681 -0.1680 -3.2851 -2.0849 1.4366 0.9432 -0.0741 -0.0516 -0.5086 -0.3274 -0.8519 -0.5822 -0.5059 -0.3327 -0.1690 -0.1241 -1.6083 -1.0566 De acuerdo los residuales estandarizados, se observa que no hay datos atípicos, considerando a un dato atípicos aquellos con valores fuera del intervalo de (-3, 3).