Uploaded by CIDTEI-IMP

CURSO Y FORMACIÓN DE CONCEPTOS ESTADÍSTCOS

advertisement
INGENIERO JAIME DEVIA DIAZ
CONCEPTOS ESTADÍSTICOS
INTRODUCCIÓN
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con
datos, ha experimentado un gran desarrollo a lo largo de los últimos años.
¿En qué áreas se aplica la estadística?
Actualmente se aplica en todas las áreas del saber, por ejemplo en
Sociología, Educación, Psicología, Administración, Economía,
Medicina, Ciencias Políticas, Metrología, entre otras.
Ejemplos de su aplicación son:
1) En Administración de Empresas: la estadística se utiliza para evaluar
un producto antes de comercializarlo.
2) En Economía: para medir la evolución de los precios mediante números
índice o para estudiar los hábitos de los consumidores a través de
encuestas de presupuestos familiares.
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas
habituales en el llamado método científico cuyas etapas son:
1)
Planteamiento del problema: consiste en definir el objetivo de la investigación
y precisar el universo o población.
2)
Recogida de la información: consiste en recolectar los datos necesarios
relacionados al problema de investigación.
3)
Análisis descriptivo: consiste en resumir los datos disponibles para extraer la
información relevante en el estudio.
4)
Inferencia estadística: consiste en suponer un modelo para toda la población
partiendo de los datos analizados para obtener conclusiones generales.
5)
Diagnóstico: consiste en verificar la validez de los supuestos del modelo que
nos han permitido interpretar los datos y llegar a conclusiones sobre la población
ESTADISTICA SEGÚN LA REAL ACADEMIA DE LA LENGUA
1. Estudio de los datos cuantitativos de la población, de los
recursos naturales e industriales, del tráfico o de cualquier
otra manifestación de las sociedades humanas.
2. Conjunto de estos datos.
3. Rama de la matemática que utiliza grandes conjuntos de
datos numéricos para obtener inferencias basadas en el
cálculo de probabilidades.
¿Qué es la estadística?
• “Medio para recolectar y
representar grandes
cantidades de información”
• “Medio para tomar
decisiones de frente a la
incertidumbre”
•
Ciencia de recolectar,
describir e interpretar
datos
Introducción
Esquema de las etapas de un estudio estadístico
AREA DE INTERES
DATOS
ORGANIZAR Y RESUMIR
Tema de Investigación
-Antecedentes Previos
-Objetivos
-Preguntas de Investigación
-Posibles Hipótesis
-Unidad de Análisis
-Población
-Variables
ESTADÍSTICA DESCRIPTIVA
(Tablas, Gráficos, Medidas
Descriptivas, etc.)
INTERPRETACIÓN
Muestra
¿Población o Muestra?
Población
INFERENCIA ESTADÍSTICA
CONCLUSIONES
INFORMACIÓN
Probabilidad
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminación salarial
debida al sexo de la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en términos de
condiciones económicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en
cuanto a vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar las tallas estándar en vestuario para mujeres
españolas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los
trabajadores de distintas empresas del país.
6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una
Universidad.
7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de
una Universidad, y si éste tiene alguna relación con su edad u otras
características.
CONCEPTOS BÁSICOS
• VARIABLE: es lo que se va a medir y representa una característica
de la UNIDAD DE ANÁLISIS.
• ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o
Unidades de Análisis de una Población o una Muestra
• POBLACIÓN : Es el total de unidades de análisis que son tema de
estudio.
• MUESTRA: Es un conjunto de unidades de análisis provenientes
de una población.
CONCEPTOS
•
•
•
•
•
•
•
•
Población
Muestra
Variable
Dato
Datos
Experimento
Parámetros
Estadística
Población
•
Es la colección o conjunto de
individuos, objetos o eventos
cuyas propiedades serán
analizadas.
•
•
•
Ejemplo de población
bien definida
“Todos los estudiantes
que han asistido alguna
vez a una universidad
mexicana”
“El conjunto de
trabajadores de la
industria entre 20 y 40
años en el Estado de
Querétaro”
Muestra
•
Es un subconjunto de la
población
Una muestra consta de
los individuos, objetos o
medidas seleccionados
de la población por el
recolector de la muestra
Variable
•
•
Característica de interés
sobre cada elemento
individual de una
población o muestra
Ejemplo: La edad de un
estudiante que ingresa a
la universidad, el color
de su cabello, su estatura
y su peso
Dato
•
Valor de la variable asociada a un
elemento de una población o
muestra. Este valor puede ser un
número, una palabra o un
símbolo
•
Ejemplo: José Hernández ingresó
a la universidad a la edad de “23”
años, su cabello es “café”, mide
“1.80m” y pesa “83 kg”. Estas
cuatro piezas de datos son los
valores de las cuatro variables
aplicadas a José Hernández.
Datos
•
•
Conjunto de valores
recolectados para la
variable de cada uno de los
elementos que pertenecen
a la muestra
Ejemplo: El conjunto de 25
estaturas recolectadas de
25 estudiantes.
Experimento
•
Actividad planeada cuyos
resultados producen un
conjunto de datos
•
El experimento incluye las
actividades para
seleccionar los elementos y
obtener los valores de los
datos
Parámetro
•
•
Valor numérico que resume
todos los datos de una
población completa. Es un
valor que describe a toda la
población.
Ejemplo: La edad “promedio”
en el momento de admisión
de todos los estudiantes que
han asistido alguna vez a una
universidad o la “proporción”
de estudiantes que tenían
más de 21 años de edad
cuando ingresaron a la
universidad.
Estadística
•
Valor numérico que resume los
datos de la muestra. Es un valor
que describe una muestra. Casi
todas las estadísticas muestrales
se determinan con ayuda de
fórmulas y suele asignárseles
denominaciones simbólicas.
•
Ejemplo: La estatura “promedio”
encontrada al utilizar el conjunto
de 25 estaturas es un ejemplo de
una estadística muestral.
La estadística descriptiva es la rama de la estadística que recolecta, analiza y
caracteriza un conjunto de datos (peso de la población, beneficios diarios de una
empresa, temperatura mensual,…) con el objetivo de describir las características y
comportamientos de este conjunto mediante medidas de resumen, tablas o
gráficos.
Una variable estadística es el conjunto de valores que puede tomar cierta
característica de la población sobre la que se realiza el estudio estadístico y sobre
la que es posible su medición. Estas variables pueden ser: la edad, el peso, las
notas de un examen, los ingresos mensuales, las horas de sueño de un paciente
en una semana, el precio medio del alquiler en las viviendas de un barrio de una
ciudad, etc.
Medidas de posición central
Las
medidas
de
tendencia
central (o de centralización) son
medidas que tienden a localizar en
qué punto se encuentra la parte
central
de
un
conjunto
ordenado de datos de una variable
cuantitativa.
Media
Definimos media (también llamada promedio o media
aritmética) de un conjunto de datos (X1,X2,…,XN) al
valor característico de una serie de datos resultado de
la suma de todas las observaciones dividido por el
número total de datos.
ES DECIR:
Visto desde un punto de vista más conceptual, la media aritmética es el centro de
los datos en el sentido numérico, ya que intenta equilibrarlos por exceso y por
defecto. Es decir, si sumamos todas las diferencias de los datos a la mediada cero.
Mediana
La mediana (Me(X)) es el elemento de un conjunto de datos
ordenados (X1,X2,…,XN) que deja a izquierda y derecha la
mitad de valores.
Si el conjunto de datos no está ordenado, la mediana es el
valor del conjunto tal que el 50% de los elementos son
menores o iguales y el otro 50% mayores o iguales.
Moda
La moda (Mo(X)) es el valor más repetido del
conjunto de datos, es decir, el valor cuya frecuencia
relativa es mayor. En un conjunto puede haber más
de una moda.
Media geométrica
La media geométrica (MG) de un conjunto de
números estrictamente positivos (X1, X2,…,XN) es la
raíz N-ésima del producto de los N elementos.
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún
elemento fuese cero (Xi=0), entonces la MG sería 0 aunque todos los demás
valores estuviesen alejados del cero.
Media armónica
La media armónica (H) de un conjunto de
elementos no nulos (X1, X2,…,XN) es el
recíproco de la suma de los recíprocos (donde
1/Xi es el recíproco de Xi)) multiplicado por el
número de elementos del conjunto (N).
Media cuadrática
La media cuadrática o RMS (Root Mean Square) de un conjunto de
valores (X1, X2,…,XN) es una medida de posición central. Esta se define
como la raíz cuadrada del promedio de los elementos al cuadrado.
Media ponderada
La media ponderada (MP) es una medida de centralización.
Consiste en otorgar a cada observación del conjunto de datos
(X1,X2,…,XN) unos pesos (p1,p2,…,pN) según la importancia de
cada elemento.
Cuanto más grande sea el peso de un
elemento, más importante se considera que es
éste.
Ejemplo:
Se puede usar una media ponderada para calcular la nota final de un
curso escolar, en donde se asigna distinta importancia (peso) a los
distintos exámenes que se realicen. Por ejemplo, los dos primeros
exámenes tienen un peso o valor de 30% y 20% respectivamente, y el
último del 50%; las calificaciones respectivas son de 6.4, 9.2 y 8.1,
entonces la nota final corresponde a la siguiente media ponderada:
Relación entre medias
Existe una relación de orden entre cuatro
tipos de media. En esta relación se
excluye la media ponderada porque
depende de los pesos. Sean:
•H la media armónica
•MG la media geométrica
•x la media aritmética
•RMS la media cuadrática
Entonces:
En esta relación, solamente se cumple la igualdad cuando
todos los datos sean iguales, es decir
si: x1 = x2 = x3 = … = xN.
Medidas de posición no central
Las
medidas
de
posición
no
central (o medidas de tendencia no central)
permiten conocer puntos característicos de
una serie de valores, que no necesariamente
tienen que ser centrales. La intención de estas
medidas es dividir el conjunto de
observaciones en grupos con el mismo
número de valores.
Cuartiles
Los cuartiles son los tres valores que dividen una serie de
datos ordenada en cuatro porciones iguales. El primer cuartil
(Q1) deja a la izquierda el 25% de los datos. El segundo
(Q2) deja a izquierda y derecha el 50% y coincide con
la mediana. El tercero (Q3) deja a la derecha el 25% de
valores. Los tres cuartiles son:
CONTINUA
Percentiles
El percentil es una medida de posición no central.
Los percentiles Pi son los 99 puntos que dividen una serie de
datos ordenada en 100 partes iguales, es decir, que
contienen el mismo número de elementos cada una.
El percentil 50 es la mediana.
Sea (X1, X2,…,XN) una muestra de N elementos.
El percentil Pi es:
Donde Pi es la posición del percentil buscado en la serie ordenada de
datos.
Los percentiles están pensados para conjuntos de elementos de más de
cien elementos.
CONTINUA
Un percentil es una de las llamadas medidas de
posición no central (cuartiles, deciles, quintiles,
percentiles, etc) que se puede describir como una
forma de comparación de resultados, por ello es un
concepto ampliamente utilizado en campos como
la estadística o el análisis de datos. El percentil es
un número de 0 a 100 que está muy relacionado con
el porcentaje pero que no es el porcentaje en sí. Para
un conjunto de datos, el percentil para un valor dado
indica el porcentaje de datos que son igual o
menores que dicho valor; en otras palabras, nos dice
dónde se posiciona una muestra respecto al total.
CONTINUA
El concepto es más sencillo de entender con unos ejemplos:
•Ejemplo 1: Tenemos un conjunto de datos consistente en la
nota de cada uno de los alumnos de una clase. Si un alumno
tiene un 9,5 y está en el P85 (percentil 85), significa que el
85% de los alumnos tiene un 9,5 o menos.
•Ejemplo 2: Tenemos unas muestra con los sueldos de
10.000 trabajadores. ¿Cuál sería el percentil 60? El P60
sería aquel sueldo por debajo del cuál estaría el 60% de los
trabajadores, es decir, si ordenamos los trabajadores desde
el que cobra menos hasta el cobra más, el P60 sería el
sueldo del trabajador número 6.000 (60% de 10.000).
•Ejemplo 3: Si medimos el tiempo que tarda cada uno de los
atletas de una competición en recorrer una cierta distancia.
¿Cuánto tiempo tardan en recorrer esta distancia el 45% de
los corredores? La respuesta es el percentil 45. La idea es
simple, encontrar un porcentaje a partir del cuál los valores
son iguales o están por debajo.
Cálculo de percentiles
Para calcular los percentiles de un conjunto de datos, primero se han de
ordenar los datos en orden ascendente. Una vez ordenados, un determinado
percentil puede encontrarse restando 0,5 a la posición del dato en la
secuencia, dividiendo por el número total de datos y multiplicando luego por
100.
Fórmula general para calcular percentiles
Siendo P el percentil, Xn la posición en la secuencia de la
muestra X y N el número total de datos.
CONTINUA
CONTINUA
Ejemplo: Tenemos 47 datos, el valor mínimo que
encontramos entre todos los datos es 51 y el máximo
es 99. Ordenamos los datos desde el que tiene valor
51 hasta el que tiene valor 99. Si queremos saber el
percentil al que pertenece el valor 63, miramos el dato
cuyo valor es 63, supongamos que su posición en la
secuencia es 12. Para calcular su percentil, restamos
12 menos 0,5, el resultado (11,5) lo dividimos entre 47
(el total de datos); nos da 0,2446; multiplicamos por
100 y obtenemos 24,46: Este resultado indica que el
valor 63 se encuentra en el percentil 24,46, o lo que
es lo mismo, que el 24,46% de los datos tiene un valor
de 63 o menos, o que el P24,46 es 63.
Este tipo de cálculos tiene numerosas aplicaciones en
cualquier cálculo estadístico como datos de empleo o
el análisis de muestras. Por ejemplo, imagina que se
está midiendo la concentración de un determinado
contaminante en el aire cuya concentración máxima
segura es de 3 ppm. Para ello se toman muchas
muestras de aire y se va midiendo la concentración
de este contaminante. Imagina que los resultados
concluyen que el 35% de las muestras presentan una
concentración de contaminante de 3 ppm o menos.
Es decir, el percentil 35 tiene concentraciones
seguras y el percentil 65 tiene una concentración
superior a la segura. Este dato podría ser suficiente
para recomendar a las autoridades competentes que
tomen medidas para su reducción.
Medidas de dispersión
Las
medidas
de
dispersión
o
medidas
de
variabilidad muestran la variabilidad de un conjunto de
datos, indicando la mayor o menor concentración de datos
respecto a las medias de centralización.
Rango
El rango (R) o recorrido estadístico es la diferencia entre el
valor máximo y el mínimo de un conjunto de elementos.
Varianza
La varianza (S2) mide la dispersión de los datos de
una muestra respecto a la media, calculando la media de los
cuadrados de las distancias de todos los datos.
Al elevar las diferencias al cuadrado se garantiza que las diferencias
absolutas respecto a la media no se anulan entre si. Además, resaltan los
valores alejados.
Cómo calcular la varianza
La varianza es una medida de qué tan disperso es un
conjunto de datos. Si la varianza es pequeña,
significa que los valores del conjunto están bastante
agrupados. Si la varianza es grande, significa que los
números están más dispersos. En estadística, este
concepto tiene muchos usos. Por ejemplo, si
comparas las varianzas de dos conjuntos de datos
(por ejemplo, resultados de pacientes femeninos
contra resultados de pacientes masculinos) puedes
comprobar si una variable produce un efecto
perceptible. La varianza también es muy útil para
crear modelos estadísticos, ya que una varianza
pequeña puede ser un indicio de que estás ajustando
demasiado los datos.
Método
•1-Toma nota de la muestra del conjunto de datos. En la
mayoría de los casos, los estadísticos solo tienen acceso a una
muestra o a un subconjunto de la población que van a analizar.
Por ejemplo, en vez de analizar la población "costo de todos los
autos de Alemania", un estadístico averiguaría el costo de una
muestra aleatoria de unos pocos miles de autos. De este modo
podría basarse en esa muestra para obtener una estimación
aproximada del costo de los autos en Alemania, aunque es
posible que no coincida con el valor exacto.
Ejemplo: analizando la cantidad de ponquecitos que se venden
todos los días en una cafetería, tomas una muestra de seis días
aleatorios y obtienes los siguientes resultados: 17, 15, 23, 7, 9,
13. Esta es una muestra, no la población, ya que no tienes los
datos de todos y cada uno de los días en los cuales ha estado
abierta la cafetería.
• OJO Si tenemos todos los puntos de datos de una población,
se usa el próximo método (método 2).
1
2
Anota la fórmula de la varianza de una
muestra. La varianza de un conjunto de datos te
indica qué tan dispersos están los puntos de datos.
Mientras más cerca de cero esté la varianza, más
cercanos estarán entre sí los puntos de datos.
Cuando vayas a trabajar con muestras de conjuntos
de datos, utiliza la siguiente fórmula para calcular la
varianza
2
3
4
5
6
7
8
Desviación típica
La desviación típica es la medida de dispersión (S)
asociada a la media. Mide el promedio de las desviaciones
de los datos respecto a la media en las mismas unidades de
los datos.
El cuadrado de la desviación típica es la varianza.
Coeficiente de variación de Pearson
El coeficiente de variación de Pearson (r) mide
la variación de los datos respecto a la media, sin tener en
cuenta las unidades en la que están.
El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es
próximo al 0, significa que existe poca variabilidad en los datos y es una
muestra muy compacta. En cambio, si tienden a 1 es una muestra muy
dispersa.
Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien
para tenerlo en tanto por cien.
EJERCICIO
Con los valores del ejemplo de varianza,
determina el coeficiente de variación de
Pearson (r) e interpretalo
Cómo calcular la variación porcentual
En matemáticas, el concepto de la variación
porcentual se utiliza para describir la relación entre
un valor pasado y uno presente. De manera
específica, la variación porcentual representa la
diferencia entre un valor pasado y uno presente en
términos de un porcentaje del valor pasado.
Generalmente se puede calcular la variación
porcentual con la fórmula ((V2-V1)/V1) × 100 en la
que V1 representa el valor pasado o inicial
y V2 representa el valor presente o final. Ten en
cuenta que el resultado se expresa como
un porcentaje.
EJERCICIO
1- Encuentra los valores pasados y presentes
de una variable. Como se mencionó
anteriormente, la meta de la variación porcentual
es determinar el cambio de una variable a lo
largo del tiempo. Por lo tanto, si quieres calcular
la variación porcentual de una variable, tendrás
que conseguir dos valores: el valor pasado (o
"inicial") y el valor presente (o "final"). Con la
fórmula de la variación porcentual podrás
calcular el cambio entre estos dos puntos,
expresado como un porcentaje.
Puedes encontrar ejemplos de una variable que
cambia en el tiempo en las ventas minoristas.
Cuando un vendedor le reduce el precio a un
producto, generalmente se dice que le da un
"descuento de un porcentaje determinado". En
otras palabras, el precio del producto tiene una
variación porcentual con relación al precio pasado.
Imagina que encontraste unos pantalones que
tenían un precio de $ 50, pero que ahora cuestan $
30. Para este ejemplo, $ 50 es el valor "pasado"
y $ 30 es el valor "presente". En los pasos
siguientes encontrarás la variación porcentual entre
estos precios.
2
Resta el valor pasado del valor presente. El
primer paso para calcular la variación porcentual es
encontrar la diferencia entre el valor pasado y el
presente. Para encontrar la diferencia tienes que
restar uno de los valores del otro. El motivo por el
que tienes que restar el valor pasado del valor
presente (y no al revés) es porque el resultado final
de la fórmula será negativo en el caso de que el
valor de la variable disminuya o positivo si ocurre lo
contrario.
2
3
Divide el resultado entre el valor pasado. Toma el
resultado que conseguiste al restar el valor pasado del
valor presente y divídelo en el valor pasado. Esto te dará
un número decimal que expresa la relación proporcional
del cambio de valores con relación al valor pasado. En
otras palabras, el resultado será un número que
representa el cambio total que tuvo la variable en función
del valor pasado.
3
4
Multiplica el resultado por 100 para calcular
un porcentaje. El resultado de la variación
porcentual se expresa apropiadamente como un
porcentaje, en vez de un número decimal. Para
convertir un número decimal en un porcentaje,
multiplícalo por 100. Por último, todo lo que tienes
que hacer es añadir el símbolo del porcentaje.
¡Felicitaciones! El resultado final representa la
variación porcentual entre el valor pasado y el
presente.
4
IMPORTANTE
Cuando trabajes con variables que cambien más de una vez,
calcula la variación porcentual únicamente para los dos
valores que quieres comparar. Encontrar la variación
porcentual de una variable que cambia más de una vez en el
tiempo puede parecer una tarea intimidante, pero no dejes que
los cambios múltiples te hagan complicar las cosas. En la
fórmula de la variación porcentual solo puedes comparar dos
valores al mismo tiempo. Esto quiere decir que si tienes que
encontrar la variación porcentual de una variable que cambia
varias veces, puedes usar únicamente dos valores específicos
para calcular el resultado. No calcules las variaciones
porcentuales de todos los cambios de la variable para luego
promediarlas o sumarlas. Esto no es lo mismo que determinar la
variación porcentual entre dos valores y puedes llegar fácilmente
a una respuesta sin sentido.
Asimetría y curtosis
La asimetría y curtosis informan
sobre la forma de la distribución de
una variable. Estas medidas permiten
saber
las
características
de
su asimetría y homgeneidad sin
necesidad
de
representarlos
gráficamente.
Asimetría
La asimetría es la medida que indica la simetría
de la distribución de una variable respecto a
la media aritmética, sin necesidad de hacer la
representación gráfica. Los coeficientes de
asimetría indican si hay el mismo número de
elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución según
su asimetría:
•Asimetría negativa: la cola de la distribución se alarga para
valores inferiores a la media.
•Simétrica: hay el mismo número de elementos a izquierda y
derecha de la media. En este caso, coinciden la media,
la mediana y la moda. La distribución se adapta a la forma de
la campana de Gauss, o distribución normal.
•Asimetría positiva: la cola de la distribución se alarga para
valores superiores a la media.
Curtosis
La curtosis (o apuntamiento) es una medida de forma que mide cuán
escarpada o achatada está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a
la media, de manera que a mayor grado de curtosis, más
escarpada (o apuntada) será la forma de la curva.
La curtosis se mide promediando la cuarta potencia de la
diferencia entre cada elemento del conjunto y la media,
dividido entre la desviación típica elevado también a la cuarta
potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el
coeficiente de curtosis será:
EJERCICIO
CON LOS DATOS DEL
EJERCICIO DE VARIANZA
DETERMINA LA CURTOSIS DE
DICHO EJEMPLO
Frecuencias
La frecuencia es una medida que sirve para
comparar la aparición de un elemento Xi en un
conjunto de elementos (X1, X2,…, XN). Mediante
tablas de distribuciones de frecuencia se puede
presentar organizadamente el recuento de datos.
Las frecuencias de cada
elemento se pueden expresar
tanto absolutas (número total
de apariciones)
como relativas (proporción
de apariciones).
Frecuencia absoluta
La frecuencia absoluta (ni) de un valor Xi es el
número de veces que el valor está en el conjunto (X1,
X2,…, XN).
La suma de las frecuencias absolutas de todos los
elementos diferentes del conjunto debe ser el
número total de sujetos N. Si el conjunto
tiene k números (o categorías) diferentes, entonces:
Frecuencia absoluta acumulada
La frecuencia absoluta acumulada(Ni) de un valor
Xi del conjunto (X1, X2,…, XN) es la suma de
las frecuencias absolutas de los valores menores o
iguales a Xi, es decir:
Frecuencia relativa
La frecuencia relativa (fi) de un valor Xi es la proporción de valores
iguales a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia
relativa es la frecuencia absoluta dividida por el número total de
elementos N:
Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de
las frecuencias relativas de todos los sujetos da 1. Supongamos que en el
conjunto tenemos k números (o categorías) diferentes, entonces:
Si se multiplica la frecuencia relativa por cien se obtiene
el porcentaje (tanto por cien %).
Frecuencia relativa acumulada
Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como
la proporción de valores iguales o menores a Xien el conjunto de datos
(X1, X2,…, XN). Es decir, la frecuencia relativa acumulada es
la frecuencia absoluta acumulada dividida por el número total de
sujetos N:
La frecuencia relativa acumulada de cada valor siempre es mayor que
la frecuencia relativa. De hecho, la frecuencia relativa acumulada de un
elemento es la suma de las frecuencias relativas de los elementos menores o
iguales a él, es decir:
•Valor de chi-cuadrado
El valor de chi-cuadrado es un valor en la distribución chicuadrado. Una prueba estadística genera un valor de chicuadrado. El valor especifica la probabilidad de obtener el
valor de chi-cuadrado de casualidad. Si la probabilidad es
menor que el nivel de significación, la prueba se considera
que es estadísticamente significativa.
•Desviación de la distribución normal
La desviación de la distribución normal es una medida de
tamaño del efecto para la prueba de K-cuadrado de
D’Agostino de normalidad. Mide hasta qué punto una
distribución de campo no coincide con la distribución
normal teórica.
•Desviación de la distribución general
La desviación de la distribución general es una medida de
tamaño del efecto para la prueba de distribución. Mide
hasta qué punto una distribución condicional no coincide
con la distribución marginal del campo objetivo.
•Frecuencia
La frecuencia es otra palabra para recuento. Mide el
número total de registros o el número de registros de un
grupo específico. En otras palabras, la frecuencia mide
cada cuándo tiempo se produce un valor.
•Distribución normal
La distribución normal es una distribución teórica de
valores. A menudo, se denomina la curva de campana
porque la representación visual de esta distribución se
asemeja a la forma de una campana. Es teórica porque su
distribución de frecuencia se deriva de una fórmula, en
lugar de la observación de datos reales.
•Distribución general
La distribución general es la distribución de registros en el
campo objetivo antes de cualquier agrupación con el campo
o campos de entrada.
•Nivel de significación
El nivel de significación es el corte para juzgar un resultado como
estadísticamente significativo. Si el valor de significación es menor que
el nivel de significación, el resultado se juzga estadísticamente
significativo. El nivel de significación también se conoce como el nivel
alfa.
•Valor de significación
El valor de significación, o valor p, es la probabilidad de que se
produzca un resultado por casualidad. El valor de significación se
compara con un corte predeterminado (el nivel de significación) para
determinar si una prueba es estadísticamente significativa. Si el valor
de significación es menor que el nivel de significación (de forma
predeterminada, 0,05), la prueba se considera estadísticamente
significativa.
¿Cómo se plantea un contraste estadístico? Hipótesis
nula vs. hipótesis alternativa
Un contraste de hipótesis estadístico se plantea como
una decisión entre dos hipótesis.
La hipótesis nula consiste en una afirmación acerca de la
población de origen de la muestra. Usualmente, es más
simple (menor número de parámetros, por ejemplo) que
su antagonista. Se designa a la hipótesis nula con el
símbolo H0.
La hipótesis alternativa es igualmente una afirmación
acerca de la población de origen. Muchas veces, aunque
no siempre, consiste simplemente en negar la afirmación
de H0. La hipótesis alternativa se designa con el
símbolo H1.
TABULACIÓN CRUZADA
La tabulación cruzada es el proceso de creación de
una tabla de contingencia desde la distribución de
frecuencias multivariada de las variables
estadísticas. Muy utilizada en la investigación de
encuestas, la tabulación cruzada (o tabla cruzada,
de forma abreviada) se suelen producir por una
serie de paquetes estadísticos, entre ellos algunos
que se especializan en la tarea. Frecuentemente se
suelen incorporar ponderaciones de encuesta.
DISTRIBUCIÓN CHI CUADRADO
Es una distribución probabilística continua que
se apoya en un parámetro que representa los
grados de libertad
La utilidad de este tipo de distribución es que
permite determinar la relación entre dos
variables
Es decir si existe o no dependencia estadística
entre ellas
Veamos un ejemplo:
EJEMPLO: La siguiente tabla muestra los resultados de la cantidad de
estudiantes; según la calificación obtenida en matemáticas de dos
universidades
Hipótesis general: Influye el tipo de universidad en la calificación
obtenida?
Hipótesis Nula:No Influye el tipo de universidad en la calificación
obtenida
Hipótesis alternativa: SI Influye el tipo de universidad en la
calificación obtenida
Entonces planteamos las dos hipótesis, y
determinamos la frecuencia teórica, al igual que
los grados de libertad,
Aplicamos estos resultados para calcular chi
cuadrado= X²
Margen de error=0,05
Ft(5)= 25x23/78=7,37
Ft(11)= 43x23/78=12,68
Ft(7)= 10x55/78=2,95
Ft(20)= 25x55/78=17,63 Ft(32)=43x55/78=30,32
Ft(3)= 10x55/78=7,05
Grado de libertad: V=(Nofilas-1)x(Nocolumnas-1)
V= (2-1).(3-1) =1x2=2
X²=∑(f-ft) ²/ft=(5-7,37) ²/7,37+(11-12,68) ²/12,68+(7-2,95) ²/2,95+(20-17,63) ²/17,63+(3230,32) ²/30,32+(3-7,05) ²/7,05=9,28
Ahora usamos la tabla de chi cuadrado con el valor de chi cuadrado
calculado que ya conocemos
X² calculado= 9,28
X² calculado > X² tabla
X² tabla= 5,9915
Ho
X² calculado < X² tabla
9,28 >5,9915 entonces en este caso el tipo de universidad SI influye
H1
EJERCICIO
TABLA DE CHI CUADRADO
MUCHAS GRACIAS
INGENIERO JAIME DEVIA DIAZ
CONCEPTOS ESTADÍSTICOS
Ejercicio 1
•
Un fabricante de medicamentos está interesado en la proporción de personas
que padecen hipertensión (presión arterial elevada) cuya condición pueda ser
controlada por un nuevo producto desarrollado por la empresa. Se condujo un
estudio en el que participaron 5000 personas que padecen de hipertensión, y
se encontró que 80% de las personas pueden controlar su hipertensión con el
medicamento. Suponiendo que las cinco mil personas son representativas del
grupo con hipertensión, conteste las siguientes preguntas:
a)
¿Cuál es la población?
b)
¿Cuál es la muestra?
c)
Identifique el parámetro de interés
d)
Identifique la estadística y proporcione su valor
e)
¿Se conoce el valor del parámetro?
Ejercicio 2
•
Un técnico de control de calidad selecciona piezas ensambladas de una línea
de montaje y registra la siguiente información sobre cada pieza:
–
A: defectuosa o no defectuosa
–
B: el número de identificación del trabajador que ensambló la pieza.
–
C: el peso de la pieza.
a)
b)
c)
d)
¿cuál es la población?
La población ¿es finita o infinita?
¿cuál es la muestra?
Clasifique las respuestas para cada una de las tres variables como
datos de atributo o cuantitativos.
Ejercicio 3
•
Identifique las siguientes expresiones como ejemplos de variables de atributos
(cualitativas) o variables numéricas (cuantitativas)
a)
b)
c)
d)
e)
f)
La resistencia a la rotura de un tipo de cuerda dado
El color de cabello de los niños que se presentan a una audición para la
revista musical Annie
El número de señales de alto que hay en poblaciones con menos de
quinientos habitantes
Si un grifo es o no defectuoso
El número de reactivos contestados correctamente en una prueba
estandarizada
El tiempo necesario para contestar una llamada telefónica en cierta
oficina de bienes raíces.
Recolección de Datos
•
Definir los objetivos de la investigación o del experimento.
–
Ejemplos: comparar la eficacia de un nuevo medicamento con la
eficacia del medicamento normal; estimar el ingreso familiar medio en
algún municipio.
•
Definir la variable y la población de interés.
–
Ejemplos: duración del tiempo de recuperación de los pacientes que
sufren alguna enfermedad particular; ingreso total de los hogares en
algún municipio.
•
Definir los esquemas para recolectar y medir los datos.
–
Esto incluye los procedimientos de muestreo, el tamaño de la muestra
y el instrumento de medición (cuestionario, por teléfono, etc.) de los
datos.
•
Determinar las técnicas idóneas para realizar el análisis de datos: descriptivas o
inferenciales.
La presentación de resultados inicia a
partir de lo establecido en el diseño
conceptual y es hasta que se obtiene la
información
en
la
etapa
de
procesamiento que se determinan los
medios y las formas para presentarla o
publicarla,
particularmente,
la
elaboración de cuadros y gráficas es
una herramienta para la presentación
de la información.
Componentes de un cuadro
Un cuadro estadístico, también denominado tabulado o
tabulación, es una presentación ordenada de un conjunto de
datos cuantitativos, ya sea en una sola columna o en un solo
renglón o, también, en columnas o renglones cruzados. El
cuadro incluye tanto los valores numéricos como las
descripciones conceptuales a las que se refieren estos;
además, incorpora indicaciones particulares sobre el origen
de los datos, así como aclaraciones específicas que son de
utilidad para el usuario interesado en conocer aspectos de
naturaleza conceptual, técnica o metodológica. Los cuadros
pueden requerir indicaciones sobre su fragmentación o
presentación en distintas páginas, o sobre su identificación
numérica, cuando se trata de un conjunto de cuadros.
Un cuadro incluye seis componentes
A) Título Describe el contenido del cuadro, con base en la indicación de cuatro
aspectos:
• Enunciado. Expresa el nombre de las categorías, indicadores o variables.
• Cobertura geográfica. Indica el espacio territorial al que se refiere el
conjunto de datos estadísticos.
• Referencia temporal. Indica la fecha o periodo al que se refieren los datos
estadísticos.
• Unidad de medida. Indica la referencia de una magnitud constante adoptada.
B) Columna matriz Enuncia las categorías, variables, clasificaciones o
indicadores a los que se refieren los datos, según su agrupamiento en
renglones.
La columna matriz consta de dos apartados:
B1 Encabezado de la columna matriz. Enuncia las categorías, variables o
indicadores que aparecen en los descriptores de renglón.
B2 Descriptores de renglón. Enuncian los conceptos a los que se refieren los
datos de cada renglón.
C) Encabezado en columnas de la matriz de cifras En esta parte se enuncian las
categorías, variables, clasificaciones o indicadores de los descriptores de
columna; éstos son los conceptos a que se refieren los datos de cada columna
D) Matriz de cifras Es el espacio destinado a la incorporación de los valores
cuantitativos de los datos, o los símbolos que explican la ausencia de éstos.
E) Pie de cuadro Son las precisiones conceptuales, técnicas o metodológicas
que facilitan la comprensión de los datos presentados:
E1 Nota. Información general sobre definiciones o referencias técnicas o
metodológicas de los datos estadísticos presentados en cada cuadro.
E2 Llamadas. Información específica aplicable a determinada parte o elemento
del cuadro.
E3 Símbolos aclaratorios. Son todos los signos convencionales que se indican
mediante una letra o una abreviatura en el contexto del cuadro estadístico.
E4 Fuentes. Indica la procedencia de la información contenida en el cuadro
estadístico.
F) Indicaciones de orden Expresan el número de cuadro y la secuencia de las
partes cuando éste se fracciona. Permite ver la secuencia de la información
presentada y la relación que se pudiera dar entre ella. En los casos de
preparación y presentación de cuadros para internet o en disco compacto,
pudiera no necesitar el elemento de secuencia, debido a que existe la
posibilidad de integrar toda la información completa (por ejemplo, en una
página de Excel, la sábana íntegra con toda la información de un cuadro).
1. Consideraciones
De carácter general
• Es necesario cuidar la claridad de los enunciados que describen el
contenido del cuadro. En ese sentido, las recomendaciones
generales son:
• Utilizar un lenguaje preciso y claro en todos los enunciados que
describen los títulos, descriptores de columna y renglón, notas,
llamadas y fuentes.
• Escribir los textos con mayúsculas y minúsculas en los diversos
componentes del cuadro (título, encabezado de columna matriz,
descriptores de renglón y encabezado de matriz de cifras). El uso
de mayúsculas en estos elementos estará reservada a la inicial del
enunciado y a los nombres propios. En los casos de las palabras
Nota, Fuente, Cuadro y Continúa, solamente la letra inicial irá con
mayúscula.
• Vigilar el número y diversidad de categorías, indicadores y
variables por incorporar al diseñar un cuadro, evitando en lo
posible una excesiva heterogeneidad en la combinación de
conceptos. Se recomienda, además, que en un cuadro no se cruce
la información de más de tres variables. Debe considerarse,
también, la extensión de las clasificaciones que contenga cada una
de las variables.
• En cuadros impresos, ordenar y distribuir los conceptos en las
columnas y renglones de tal manera que se facilite la
identificación de conceptos específicos y la localización de los
datos correspondientes, destinando los renglones para los
desgloses más amplios y las descripciones más largas, y las
columnas para desgloses y enunciados más cortos, evitando en lo
posible grandes crecimientos en sentido vertical y horizontal. En el
caso de cuadros en medios informáticos (como las hojas de Excel)
se tiene la libertad de extenderse e integrar el cuadro completo.
Incluir, como mínimo, los siguientes
cinco
componentes
del
cuadro
estadístico,
descritos
en
los
componentes de un cuadro:
• Título.
• Columna matriz.
• Encabezado de la matriz de cifras.
• Matriz de cifras
• Fuente
•Evitar el uso de abreviaturas.
• Las siglas y acrónimos deben ir en mayúsculas y
sin puntos intermedios.
• En clasificaciones cuantitativas, usar números y no
letras.
• Los límites del intervalo en las clasificaciones
cuantitativas deben unirse con la preposición “a”.
•El enunciado de entidades federativas, municipios
y localidades debe ser con las denominaciones
oficiales. Cuando se haga referencia al país, debe
citarse como Estados Unidos Mexicanos.
COMPONENTES DE UNA GRAFICA
• Una presentación gráfica de información estadística se compone de tres
partes principales: título, cuerpo o ilustración gráfica y pie de gráfica. Sin
embargo, en los casos en que en el documento o sección que se trabaje
contenga más de una gráfica, se recomienda utilizar un cuarto componente
denominado número de gráfica.
EXAMEN
GRACIAS A TODOS
PONENTE:
INGENIERO JAIME DEVIA DIAZ
Download