Uploaded by eduardo cordero

Modulo 1 Estadística Descriptiva

advertisement
Introducción a
Estadística
2
Módulos de Aprendizaje
Módulo 1: Estadística Descriptiva
Módulo 2: Probabilidades & Estadística Inferencial
Módulo 3: Análisis Discriminante Lineal y Componentes Principales
Módulo 4: Análisis de Regresión y Series de Tiempo
4
Estructura de
calificación
Evaluación continua (60%)
• Participación en clase (exposición o conversatorios) (30%)
• Controles de lectura (30%)
Avances Proyecto final (40%)
• Análisis Exploratorio de Datos (20%)
• Tratamiento y transformación de datos (20%)
6
Módulo 1:
Estadística Descriptiva
Origen de la Estadística
• El origen de la palabra estadística
se suele atribuir al economista
Gottfried Achenwall (prusiano,
1719-1772) que entendía la
estadística como “ciencia de las
cosas que pertenecen al Estado”.
8
Definición de Estadística
La estadística es una disciplina científica que se ocupa de la obtención,
orden y análisis de un conjunto de datos con el fin de obtener
explicaciones y predicciones sobre fenómenos observados.
Conviene saber que la estadística NO es una rama de las matemáticas.
Utiliza herramientas de las matemáticas del mismo modo que lo hace
la física, la ingeniería o la economía, pero eso no las hace ser parte de
las matemáticas
9
Importancia de Estadística
Una de las características fundamentales
de la estadística es su transversalidad.
Su metodología es aplicable al estudio de
diversas disciplinas tales como: biología,
física, economía, sociología, marketing,
ciencia de datos, etc.
10
Ramas de Estadística
Estadística
Estadística Descriptiva
Métodos empleados para
resumir las características clave
de datos conocidos.
Estadística Inferencial
Métodos que implican el uso de
datos muestrales para hacer
generalizaciones o inferencias
acerca de una población.
11
Estadística Descriptiva
Se refiere a los métodos de recolección,
organización, análisis y presentación de
un conjunto de datos.
Su objetivo es principalmente de describir
las características fundamentales de los
datos y para ellos se suelen utilizar
indicadores, gráficos y tablas.
12
Población, Muestra y Unidad Elemental
Población:
Es un conjunto de elementos o individuos que poseen al menos
una característica en común.
Muestra:
Es un subconjunto que se selecciona de la población. Una muestra debe ser
representativa; es decir, debe mostrar las características típicas que poseen
los elementos de toda la población.
Unidad elemental:
Es cualquier elemento de la población que posee la información
sobre el fenómeno que se estudia
13
Variable y Observación
Variable:
Es una característica de la unidad elemental que es de interés
para el investigador y puede ser expresada como un dato
cualitativo o cuantitativo.
Observación :
Es una característica de la unidad elemental que es de interés para el
investigador y puede ser expresada como un dato cualitativo o cuantitativo.
14
Tipo de Variables
Variable Estadística
Variable Cuantitativas
Discreta
Continua
Variable Cualitativas
Nominal
Ordinal
15
Ejemplo de Tipo de Variables
Variable Estadística
Variable Cuantitativas
Discreta
• Número de Hermanos
• Número de artículos
defectuosos
• Número de Cursos
matriculados
Variable Cualitativas
Continua
•
•
•
•
•
Ingreso Mensual
Egreso Mensual
Edad
Peso
Talla
Nominal
•
•
•
•
•
Nacionalidad
Genero
Estado civil
Religión
Idioma
Ordinal
• Nivel de Satisfacción
de un cliente
• Rango Militar
• Grado de instrucción
16
Parámetro y Estadístico
Parámetro y Estadístico
Parámetro
Es una medida de resumen relacionada a los
datos de toda la población
Los parámetros más usuales son:
• Promedio poblacional (πœ‡)
• Proporción poblacional (πœ‹)
• Varianza poblacional (𝜎2).
Estadístico
Es una medida de resumen que se obtiene
con los datos de la muestra.
Los estadísticos más usuales son:
• Promedio muestral ( π‘₯)
• Proporción muestral (p)
• Varianza muestral (S2).
17
Medidas de Resumen
Medidas de Resumen
Medidas
de posición
Medidas de
tendencia central
Medidas de
tendencia no central
Media, mediana, moda, media
ponderada y media total
Medidas
de dispersión
Desviación estándar,
varianza y coeficiente
de variación
Medidas
de forma
Medidas
de concentración
Coeficiente de
asimetría de Pearson
Coeficiente de
curtosis
Cuartiles, deciles y
percentiles
18
Medidas de Posición
Son aquellas medidas de resumen cuyos valores permiten hacer una descripción
particular del conjunto de datos.
Estas se dividen en:
• Medidas de tendencia central
• Medidas de tendencia no central
Las medidas de tendencia central son aquellas que tienden a ocupar posiciones centrales
en el conjunto de datos.
Entre estas tenemos:
• Media o promedio aritmético
• Mediana
• Moda
19
Media Aritmética
Es el promedio de todos los valores en los datos.
Es la medida central más utilizada, conocida y fácil de calcular e interpretar
Cálculo:
Ventajas
•
•
Es conocida y fácil de calcular e interpretar.
Para su cálculo se utilizan todas las observaciones
del conjunto de datos.
Desventajas
•
•
En caso de existir valores extremos o atípicos,
la media se ve afectada por estos.
No es recomendable para variables con
distribuciones asimétricas.
20
Mediana
Es el valor que se encuentra en el centro del conjunto de datos, cuyos valores se encuentran
ordenados en forma ascendente (descendente).
El 50% de los datos se encuentran a la izquierda de la mediana y el otro 50% a la derecha.
Cálculo:
Cuando el número de datos (n) es impar: X((n+1)/2)
Cuando el número de datos (n) es par: ( X(n/2) + X((n+1)/2) ) /2
Ventajas
•
•
Es fácil de calcular e interpretar
La mediana no se ve afectada por valores
extremos o atípicos.
Desventajas
•
Para su cálculo no se utilizan todos los valores de
las observaciones del conjunto de datos
21
Moda
La moda es el valor que más se repite en el conjunto de datos.
Esta medida es utilizada para resumir variables cuantitativas y cualitativas.
Ejemplo:
Ventajas
La moda sería 1.236€.
Si vemos los salarios de los 5 trabajadores,
veríamos que 1.236€ se repite en dos ocasiones
22
Relación entre la Media, Mediana y Moda
Si la distribución se extiende más
hacia la izquierda, se cumple que:
𝐱 < 𝐌𝐞 < 𝐌𝐨
En este caso, la distribución
presenta asimetría negativa.
Si la distribución es
simétrica, se cumple que:
𝐱 = 𝐌𝐞 = 𝐌𝐨
Si la distribución se extiende más
hacia la derecha, se cumple que:
𝐌𝐨 < 𝐌𝐞 < 𝐱
En este caso, la distribución
presenta asimetría positiva.
23
Ejercicio Dinámico:
El administrador de una empresa productora y comercializadora de azúcar desea
conocer el número mínimo de sacos exportados mensualmente para pertenecer al 50%
de los meses con mayor cantidad de sacos exportados a EE.UU (en cientos de
unidades) entre los meses de enero a noviembre del año 2014. A continuación, se
muestra la cantidad de sacos exportados a EE.UU en el referido período:
24
Cuartiles (Qk)
Los cuartiles son tres valores (Qk; k= 1, 2, 3) que dividen al conjunto de datos en cuatro
partes iguales. Estos son:
Cuartil 1 (Q1):
Divide al conjunto de datos en dos partes, el 25% de los datos son menores (menores o iguales) que el cuartil 1
y el 75% de los datos son mayores (mayores o iguales) que el cuartil 1
Cuartil 2 (Q2):
Divide al conjunto de datos en dos partes, el 50% de los datos son menores (menores o iguales) que el cuartil 2
y el 50% de los datos son mayores (mayores o iguales) que el cuartil 2.
Cuartil 3 (Q3):
Divide al conjunto de datos en dos partes, el 75% de los datos son menores (menores o iguales) que el cuartil 3
y el 25% de los datos son mayores (mayores o iguales) que el cuartil 3.
25
Deciles (Dk) y Percentiles (Pk)
Los deciles son nueve valores (Dk; k = 1, 2, …, 9) que dividen al conjunto de datos en diez
partes iguales
El decil k (Dk) divide al conjunto de datos en dos partes, el (10k)% de los datos son menores
(menores o iguales) que el decil k y el (100 – 10k)% de los datos son mayores (mayores o
iguales) que el decil k.
Los percentiles son noventa y nueve valores (Pk; k= 1, 2,…, 99) que dividen al conjunto
de datos en cien partes iguales
El percentil k (Pk) divide al conjunto de datos en dos partes, el k% de los datos son
menores (menores o iguales) que el percentil k y el (100 - k)% de los datos son mayores
(mayores o iguales) que el percentil k.
26
Medidas de dispersión
Rango (R)
Es una medida de variabilidad que se obtiene de la diferencia entre el
máximo y mínimo valor de la variable.
Cálculo: R = Xmax - Xmin
Xmax: Máximo valor de la variable
Xmin: Mínimo valor de la variable
Rango Intercuartílico (RI)
Se define como la diferencia entre los cuartiles tres (Q3) y uno (Q1);
es el rango en el que se encuentra el 50% central de los datos.
Cálculo:
RI = Q3 – Q1
27
Varianza y Desviación Estándar
Varianza:
Mide la variabilidad del conjunto de datos con respecto a la media. Si los datos están cerca a
la media, entonces la varianza será pequeña; en caso contrario, la varianza será grande
Cálculo:
Desviación Estándar:
La desviación estándar mide la desviación media o promedio de cada dato con respecto a la
media y se define como la raíz cuadrada de la varianza
Cálculo:
28
Coeficiente de Variación (CV)
Es una medida de dispersión relativa porque carece de una unidad de medida e indica la
proporción que representa la desviación estándar con respecto a la media en el conjunto de datos.
El coeficiente de variación se puede expresar en porcentaje para una mejor interpretación
Cálculo:
Propiedades:
29
Ejercicio Dinámico:
En una tienda, el precio promedio de todas las marcas de televisores con las mismas
características es de 4000 nuevos soles y la desviación estándar es de 300 nuevos
soles; mientras que, el precio promedio de las planchas eléctricas con las mismas
características es de 600 nuevos soles y la desviación estándar es de 300 nuevos soles,
¿cuál de los artefactos presenta mayor variabilidad en sus precios?
30
Medidas de Asimetría
Estas medidas brindan información sobre la dirección horizontal que toma la distribución de
los datos con respecto a su centro.
Cálculo:
Distribución con asimetría
negativa (Ak < 0)
Distribución simétrica (Ak = 0)
Distribución con asimetría
positiva (Ak > 0)
31
Medidas de Curtosis
Estas medidas brindan información sobre la deformación vertical de una distribución de
frecuencias en comparación con la curva normal.
Cálculo:
Distribución Leptocúrtica
(Ku > 0.263)
Distribución Leptocúrtica
(Ku = 0.263)
Distribución Leptocúrtica
(Ku < 0.263)
32
Ejercicio Dinámico:
A continuación, se presentan las ventas de los últimos 14 meses, en el supermercado
MARKET, de six pack de leche evaporada (en miles de unidades) de una marca muy
reconocida a nivel nacional:
Calcule e interprete el coeficiente de asimetría
33
Diagrama de Caja
Es una representación gráfica de la distribución de una variable cuantitativa. Este diagrama
está compuesto por un rectángulo (el cual contiene el 50% central de los datos) y dos líneas
extendidas, a cada lado del rectángulo, llamadas bigotes. Los diagramas de cajas permiten
comparar la distribución de dos o más conjuntos de datos de manera simultánea.
Procedimiento:
1.- Ordenar los datos de menor a mayor
2.- Calcular los cuartiles: Q1, Q2(Me) y Q3
3.- Calcular el rango intercuartílico: RI= Q3 – Q1
4.- Calcular Q1-1.5RI y Q3+1.5RI.
5.- Los datos fuera del intervalo [Q1-1.5RI ; Q3+1.5RI]
son considerados datos atípicos (outliers).
En el gráfico de cajas, los datos atípicos son representados
mediante asteriscos.
34
Ejercicio Dinámico:
El dueño de una gran cadena de tiendas
que se dedica de manera exclusiva a la
venta de calzado, se abastece de la
producción de estas microempresas y
expone sus productos en tres segmentos
claramente definidos: niños, damas y
caballeros. El registro de las ventas
mensuales (en miles de nuevos soles) de la
tienda principal, durante el año pasado, se
presenta en el siguiente gráfico: ¿Cuál de
los segmentos presenta mayor variabilidad
en el 50% central de las ventas? Justifique.
35
Gráficos según tipo de variable
Variable Cualitativas:
Los gráficos que más se utilizan para representar variables cualitativas son los de barra
y sectores circulares.
Gráfico de Barras
Gráfico de Sectores Circulares
En este tipo de gráfico, a cada categoría le
corresponde una barra vertical (horizontal) cuya
altura (longitud) corresponde a su respectiva
frecuencia absoluta, relativa o porcentual.
En este tipo de gráfico, a cada categoría le corresponde
un sector circular cuya área es proporcional a su
respectiva frecuencia absoluta, relativa o porcentual.
36
Variable Cuantitativo Discreto
Gráfico de Líneas o Bastones
Este gráfico se utiliza para representar datos
cuantitativos discretos.
Variable Cuantitativo Continuo
Histograma de Frecuencias
En este tipo de gráfico, a cada intervalo le corresponde
una barra cuya altura es igual o proporcional a su
respectiva frecuencia absoluta, relativa o porcentual.
37
Diagrama de Dispersión
• El diagrama de dispersión representa el
grado de (intensidad) y naturaleza (forma)
de la relación entre las variables X e Y, si
es que existe.
• En el eje de las abscisas se representa los
valores de la variable independiente (X).
• En el eje de la ordenada los valores de la
variable dependiente (Y).
38
Covarianza
Una medida del grado en que dos variables aleatorias se mueven en la misma dirección o
en direcciones opuestas la una respecto a la otra. En otras palabras, si dos variables
aleatorias generalmente se mueven en la misma dirección se dirá que tienen una
covarianza positiva.
Cálculo:
Interpretación:
π‘₯𝑖: Valores de la variable x
𝑦𝑖: Valores de la variable y
π‘₯: Promedio de la variable x
𝑦 : Promedio de la variable y
𝑛 : Tamaño de la muestra
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden
grandes valores de Y.
• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden
pequeños valores de Y
39
Coeficiente de correlación de Pearson (R)
Mide el grado de asociación (fuerza) entre dos variables cuantitativas relacionadas linealmente.
Cálculo:
Sx: Desviación estándar de la variable x.
Sy: Desviación estándar de la variable y
Por propiedad, el coeficiente de correlación de Pearson se encuentra entre: -1 < R < 1
Interpretación:
• R ≅ −1: La relación entre las variables es perfecta e inversa.
• R ≅ 0: No existe relación entre las variables
• R ≅ 1: La relación entre las variables es perfecta y directa.
40
Relación entre Correlación y Covarianza
• La correlación indica la fuerza y dirección de la asociación entre dos variables
aleatorias en forma de relación lineal. Dos variables cuantitativas están correlacionadas
cuando los valores de una de ellas varían con respecto a los valores de la otra.
• La covarianza es una medida de la variación común a dos variables y, por tanto, una
medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupo de datos son
diferentes significativamente a los valores de otro u otros grupos de datos.
41
¡Gracias!
Download