Introducción a Estadística 2 Módulos de Aprendizaje Módulo 1: Estadística Descriptiva Módulo 2: Probabilidades & Estadística Inferencial Módulo 3: Análisis Discriminante Lineal y Componentes Principales Módulo 4: Análisis de Regresión y Series de Tiempo 4 Estructura de calificación Evaluación continua (60%) • Participación en clase (exposición o conversatorios) (30%) • Controles de lectura (30%) Avances Proyecto final (40%) • Análisis Exploratorio de Datos (20%) • Tratamiento y transformación de datos (20%) 6 Módulo 1: Estadística Descriptiva Origen de la Estadística • El origen de la palabra estadística se suele atribuir al economista Gottfried Achenwall (prusiano, 1719-1772) que entendía la estadística como “ciencia de las cosas que pertenecen al Estado”. 8 Definición de Estadística La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos observados. Conviene saber que la estadística NO es una rama de las matemáticas. Utiliza herramientas de las matemáticas del mismo modo que lo hace la física, la ingeniería o la economía, pero eso no las hace ser parte de las matemáticas 9 Importancia de Estadística Una de las características fundamentales de la estadística es su transversalidad. Su metodología es aplicable al estudio de diversas disciplinas tales como: biología, física, economía, sociología, marketing, ciencia de datos, etc. 10 Ramas de Estadística Estadística Estadística Descriptiva Métodos empleados para resumir las características clave de datos conocidos. Estadística Inferencial Métodos que implican el uso de datos muestrales para hacer generalizaciones o inferencias acerca de una población. 11 Estadística Descriptiva Se refiere a los métodos de recolección, organización, análisis y presentación de un conjunto de datos. Su objetivo es principalmente de describir las características fundamentales de los datos y para ellos se suelen utilizar indicadores, gráficos y tablas. 12 Población, Muestra y Unidad Elemental Población: Es un conjunto de elementos o individuos que poseen al menos una característica en común. Muestra: Es un subconjunto que se selecciona de la población. Una muestra debe ser representativa; es decir, debe mostrar las características típicas que poseen los elementos de toda la población. Unidad elemental: Es cualquier elemento de la población que posee la información sobre el fenómeno que se estudia 13 Variable y Observación Variable: Es una característica de la unidad elemental que es de interés para el investigador y puede ser expresada como un dato cualitativo o cuantitativo. Observación : Es una característica de la unidad elemental que es de interés para el investigador y puede ser expresada como un dato cualitativo o cuantitativo. 14 Tipo de Variables Variable Estadística Variable Cuantitativas Discreta Continua Variable Cualitativas Nominal Ordinal 15 Ejemplo de Tipo de Variables Variable Estadística Variable Cuantitativas Discreta • Número de Hermanos • Número de artículos defectuosos • Número de Cursos matriculados Variable Cualitativas Continua • • • • • Ingreso Mensual Egreso Mensual Edad Peso Talla Nominal • • • • • Nacionalidad Genero Estado civil Religión Idioma Ordinal • Nivel de Satisfacción de un cliente • Rango Militar • Grado de instrucción 16 Parámetro y Estadístico Parámetro y Estadístico Parámetro Es una medida de resumen relacionada a los datos de toda la población Los parámetros más usuales son: • Promedio poblacional (π) • Proporción poblacional (π) • Varianza poblacional (π2). Estadístico Es una medida de resumen que se obtiene con los datos de la muestra. Los estadísticos más usuales son: • Promedio muestral ( π₯) • Proporción muestral (p) • Varianza muestral (S2). 17 Medidas de Resumen Medidas de Resumen Medidas de posición Medidas de tendencia central Medidas de tendencia no central Media, mediana, moda, media ponderada y media total Medidas de dispersión Desviación estándar, varianza y coeficiente de variación Medidas de forma Medidas de concentración Coeficiente de asimetría de Pearson Coeficiente de curtosis Cuartiles, deciles y percentiles 18 Medidas de Posición Son aquellas medidas de resumen cuyos valores permiten hacer una descripción particular del conjunto de datos. Estas se dividen en: • Medidas de tendencia central • Medidas de tendencia no central Las medidas de tendencia central son aquellas que tienden a ocupar posiciones centrales en el conjunto de datos. Entre estas tenemos: • Media o promedio aritmético • Mediana • Moda 19 Media Aritmética Es el promedio de todos los valores en los datos. Es la medida central más utilizada, conocida y fácil de calcular e interpretar Cálculo: Ventajas • • Es conocida y fácil de calcular e interpretar. Para su cálculo se utilizan todas las observaciones del conjunto de datos. Desventajas • • En caso de existir valores extremos o atípicos, la media se ve afectada por estos. No es recomendable para variables con distribuciones asimétricas. 20 Mediana Es el valor que se encuentra en el centro del conjunto de datos, cuyos valores se encuentran ordenados en forma ascendente (descendente). El 50% de los datos se encuentran a la izquierda de la mediana y el otro 50% a la derecha. Cálculo: Cuando el número de datos (n) es impar: X((n+1)/2) Cuando el número de datos (n) es par: ( X(n/2) + X((n+1)/2) ) /2 Ventajas • • Es fácil de calcular e interpretar La mediana no se ve afectada por valores extremos o atípicos. Desventajas • Para su cálculo no se utilizan todos los valores de las observaciones del conjunto de datos 21 Moda La moda es el valor que más se repite en el conjunto de datos. Esta medida es utilizada para resumir variables cuantitativas y cualitativas. Ejemplo: Ventajas La moda sería 1.236€. Si vemos los salarios de los 5 trabajadores, veríamos que 1.236€ se repite en dos ocasiones 22 Relación entre la Media, Mediana y Moda Si la distribución se extiende más hacia la izquierda, se cumple que: π± < ππ < ππ¨ En este caso, la distribución presenta asimetría negativa. Si la distribución es simétrica, se cumple que: π± = ππ = ππ¨ Si la distribución se extiende más hacia la derecha, se cumple que: ππ¨ < ππ < π± En este caso, la distribución presenta asimetría positiva. 23 Ejercicio Dinámico: El administrador de una empresa productora y comercializadora de azúcar desea conocer el número mínimo de sacos exportados mensualmente para pertenecer al 50% de los meses con mayor cantidad de sacos exportados a EE.UU (en cientos de unidades) entre los meses de enero a noviembre del año 2014. A continuación, se muestra la cantidad de sacos exportados a EE.UU en el referido período: 24 Cuartiles (Qk) Los cuartiles son tres valores (Qk; k= 1, 2, 3) que dividen al conjunto de datos en cuatro partes iguales. Estos son: Cuartil 1 (Q1): Divide al conjunto de datos en dos partes, el 25% de los datos son menores (menores o iguales) que el cuartil 1 y el 75% de los datos son mayores (mayores o iguales) que el cuartil 1 Cuartil 2 (Q2): Divide al conjunto de datos en dos partes, el 50% de los datos son menores (menores o iguales) que el cuartil 2 y el 50% de los datos son mayores (mayores o iguales) que el cuartil 2. Cuartil 3 (Q3): Divide al conjunto de datos en dos partes, el 75% de los datos son menores (menores o iguales) que el cuartil 3 y el 25% de los datos son mayores (mayores o iguales) que el cuartil 3. 25 Deciles (Dk) y Percentiles (Pk) Los deciles son nueve valores (Dk; k = 1, 2, …, 9) que dividen al conjunto de datos en diez partes iguales El decil k (Dk) divide al conjunto de datos en dos partes, el (10k)% de los datos son menores (menores o iguales) que el decil k y el (100 – 10k)% de los datos son mayores (mayores o iguales) que el decil k. Los percentiles son noventa y nueve valores (Pk; k= 1, 2,…, 99) que dividen al conjunto de datos en cien partes iguales El percentil k (Pk) divide al conjunto de datos en dos partes, el k% de los datos son menores (menores o iguales) que el percentil k y el (100 - k)% de los datos son mayores (mayores o iguales) que el percentil k. 26 Medidas de dispersión Rango (R) Es una medida de variabilidad que se obtiene de la diferencia entre el máximo y mínimo valor de la variable. Cálculo: R = Xmax - Xmin Xmax: Máximo valor de la variable Xmin: Mínimo valor de la variable Rango Intercuartílico (RI) Se define como la diferencia entre los cuartiles tres (Q3) y uno (Q1); es el rango en el que se encuentra el 50% central de los datos. Cálculo: RI = Q3 – Q1 27 Varianza y Desviación Estándar Varianza: Mide la variabilidad del conjunto de datos con respecto a la media. Si los datos están cerca a la media, entonces la varianza será pequeña; en caso contrario, la varianza será grande Cálculo: Desviación Estándar: La desviación estándar mide la desviación media o promedio de cada dato con respecto a la media y se define como la raíz cuadrada de la varianza Cálculo: 28 Coeficiente de Variación (CV) Es una medida de dispersión relativa porque carece de una unidad de medida e indica la proporción que representa la desviación estándar con respecto a la media en el conjunto de datos. El coeficiente de variación se puede expresar en porcentaje para una mejor interpretación Cálculo: Propiedades: 29 Ejercicio Dinámico: En una tienda, el precio promedio de todas las marcas de televisores con las mismas características es de 4000 nuevos soles y la desviación estándar es de 300 nuevos soles; mientras que, el precio promedio de las planchas eléctricas con las mismas características es de 600 nuevos soles y la desviación estándar es de 300 nuevos soles, ¿cuál de los artefactos presenta mayor variabilidad en sus precios? 30 Medidas de Asimetría Estas medidas brindan información sobre la dirección horizontal que toma la distribución de los datos con respecto a su centro. Cálculo: Distribución con asimetría negativa (Ak < 0) Distribución simétrica (Ak = 0) Distribución con asimetría positiva (Ak > 0) 31 Medidas de Curtosis Estas medidas brindan información sobre la deformación vertical de una distribución de frecuencias en comparación con la curva normal. Cálculo: Distribución Leptocúrtica (Ku > 0.263) Distribución Leptocúrtica (Ku = 0.263) Distribución Leptocúrtica (Ku < 0.263) 32 Ejercicio Dinámico: A continuación, se presentan las ventas de los últimos 14 meses, en el supermercado MARKET, de six pack de leche evaporada (en miles de unidades) de una marca muy reconocida a nivel nacional: Calcule e interprete el coeficiente de asimetría 33 Diagrama de Caja Es una representación gráfica de la distribución de una variable cuantitativa. Este diagrama está compuesto por un rectángulo (el cual contiene el 50% central de los datos) y dos líneas extendidas, a cada lado del rectángulo, llamadas bigotes. Los diagramas de cajas permiten comparar la distribución de dos o más conjuntos de datos de manera simultánea. Procedimiento: 1.- Ordenar los datos de menor a mayor 2.- Calcular los cuartiles: Q1, Q2(Me) y Q3 3.- Calcular el rango intercuartílico: RI= Q3 – Q1 4.- Calcular Q1-1.5RI y Q3+1.5RI. 5.- Los datos fuera del intervalo [Q1-1.5RI ; Q3+1.5RI] son considerados datos atípicos (outliers). En el gráfico de cajas, los datos atípicos son representados mediante asteriscos. 34 Ejercicio Dinámico: El dueño de una gran cadena de tiendas que se dedica de manera exclusiva a la venta de calzado, se abastece de la producción de estas microempresas y expone sus productos en tres segmentos claramente definidos: niños, damas y caballeros. El registro de las ventas mensuales (en miles de nuevos soles) de la tienda principal, durante el año pasado, se presenta en el siguiente gráfico: ¿Cuál de los segmentos presenta mayor variabilidad en el 50% central de las ventas? Justifique. 35 Gráficos según tipo de variable Variable Cualitativas: Los gráficos que más se utilizan para representar variables cualitativas son los de barra y sectores circulares. Gráfico de Barras Gráfico de Sectores Circulares En este tipo de gráfico, a cada categoría le corresponde una barra vertical (horizontal) cuya altura (longitud) corresponde a su respectiva frecuencia absoluta, relativa o porcentual. En este tipo de gráfico, a cada categoría le corresponde un sector circular cuya área es proporcional a su respectiva frecuencia absoluta, relativa o porcentual. 36 Variable Cuantitativo Discreto Gráfico de Líneas o Bastones Este gráfico se utiliza para representar datos cuantitativos discretos. Variable Cuantitativo Continuo Histograma de Frecuencias En este tipo de gráfico, a cada intervalo le corresponde una barra cuya altura es igual o proporcional a su respectiva frecuencia absoluta, relativa o porcentual. 37 Diagrama de Dispersión • El diagrama de dispersión representa el grado de (intensidad) y naturaleza (forma) de la relación entre las variables X e Y, si es que existe. • En el eje de las abscisas se representa los valores de la variable independiente (X). • En el eje de la ordenada los valores de la variable dependiente (Y). 38 Covarianza Una medida del grado en que dos variables aleatorias se mueven en la misma dirección o en direcciones opuestas la una respecto a la otra. En otras palabras, si dos variables aleatorias generalmente se mueven en la misma dirección se dirá que tienen una covarianza positiva. Cálculo: Interpretación: π₯π: Valores de la variable x π¦π: Valores de la variable y π₯: Promedio de la variable x π¦ : Promedio de la variable y π : Tamaño de la muestra • Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden grandes valores de Y. • Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas. • Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden pequeños valores de Y 39 Coeficiente de correlación de Pearson (R) Mide el grado de asociación (fuerza) entre dos variables cuantitativas relacionadas linealmente. Cálculo: Sx: Desviación estándar de la variable x. Sy: Desviación estándar de la variable y Por propiedad, el coeficiente de correlación de Pearson se encuentra entre: -1 < R < 1 Interpretación: • R ≅ −1: La relación entre las variables es perfecta e inversa. • R ≅ 0: No existe relación entre las variables • R ≅ 1: La relación entre las variables es perfecta y directa. 40 Relación entre Correlación y Covarianza • La correlación indica la fuerza y dirección de la asociación entre dos variables aleatorias en forma de relación lineal. Dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían con respecto a los valores de la otra. • La covarianza es una medida de la variación común a dos variables y, por tanto, una medida del grado y tipo de su relación. • El análisis de varianza sirve para comparar si los valores de un grupo de datos son diferentes significativamente a los valores de otro u otros grupos de datos. 41 ¡Gracias!