Uploaded by 5945d1bfa4

Estadistica Descriptiva

advertisement
Definición
Inferencia Probabilidad Descriptiva
La Estadística es la Ciencia de la
• Sistematización,
recogida,
ordenación
y
presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones
generales.
¿Para qué sirve la estadística?
n
n
n
La Estadística se utiliza como tecnología al servicio de las
ciencias donde la variabilidad y la incertidumbre forman parte
de su naturaleza.
Transforma datos en información.
Contribuye a la generación de conocimiento.
Rol de la estadística
Proporcionar métodos para evaluar y juzgar la teoría y la realidad.
Ejemplos de aplicación
1)En Administración de Empresas: la estadística se utiliza para evaluar
un producto antes de comercializarlo.
2)En Economía: para medir la evolución de los precios mediante
números índice o para estudiar los hábitos de los consumidores a través
de encuestas de presupuestos familiares.
3)En Ciencias Políticas: para conocer las preferencias de los electores
antes de una votación mediante sondeos y así orientar las estrategias de
los candidatos.
4)En Sociología: para estudiar las opiniones de los colectivos sociales
sobre temas de actualidad.
5)En Psicología: para elaborar las escalas de los test y cuantificar aspectos
del comportamiento humano (por ejemplo los test que se aplican a los
candidatos para un cargo en una empresa).
6)En Medicina: uno entre muchos usos de la estadística, es para determinar
el estado de salud de la población.
7) En la industria: para disminuir y controlar la fracción defectuosa.
Método científico y estadística
Plantear
hipótesis
Diseñar
experimento
Obtener
conclusiones
Recoger datos
y analizarlos
Etapas de una investigación estadística
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales
en el llamado método científico cuyas etapas son:
1)
Planteamiento del problema: consiste en definir el objetivo de la
investigación y precisar el universo o población.
2)
Recogida de la información: consiste en recolectar los datos
necesarios relacionados al problema de investigación.
3)
Análisis descriptivo: consiste en resumir los datos disponibles
para extraer la información relevante en el estudio.
4)
Inferencia estadística: consiste en suponer un modelo para la
población e interpretación de los datos a la luz del modelo para
obtener conclusiones generales.
5)
Diagnóstico: consiste en verificar la validez de los supuestos del
modelo que nos han permitido interpretar los datos y llegar a
conclusiones sobre la población
Esquema de las etapas de un estudio estadístico
AREA DE INTERES
DATOS
ORGANIZAR Y RESUMIR
Tema de Investigación
ESTADÍSTICA DESCRIPTIVA
-Antecedentes Previos
(Tablas, Gráficos, Medidas
Descriptivas, etc.)
-Objetivos
-Preguntas de Investigación
-Posibles Hipótesis
-Unidad de Análisis
-Población
-Variables
INTERPRETACIÓN
Muestra
¿Población o Muestra?
Población
INFERENCIA ESTADÍSTICA
CONCLUSIONES
INFORMACIÓN
Probabilidad
Otros ejemplos de problemas a estudiar
1)Se quiere estudiar si en cierto colectivo existe discriminación salarial debida
al sexo de la persona empleada.
2)Se quiere determinar el perfil de los trabajadores en términos de condiciones
económicas y sociales en diferentes comunidades.
3)Se quiere estudiar el consumo de las personas de una zona determinada en
cuanto a vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar el tiempo de vida de un activo.
5)Se quiere determinar el tiempo que dedican al trabajo y a la familia los
trabajadores de distintas empresas del país.
6)Se quiere determinar el perfil sociodemográfico de los estudiantes de una
Universidad.
7)Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de
una Universidad, y si éste tiene alguna relación con su edad u otras
características.
Población y muestra
n
Población: es el conjunto sobre el que estamos interesados en
obtener conclusiones (hacer inferencia).
¨ Normalmente es demasiado grande para poder abarcarlo.
n
Muestra: es un subconjunto suyo al que tenemos acceso y
sobre el que realmente hacemos las observaciones
(mediciones)
¨ Debería ser “representativo”
¨ Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Ejemplo
Si se desea conocer el monto pagado por cada industria del distrito de Villa el
Salvador por concepto de impuestos locales durante el año 2021, entonces
la unidad estadística es cada industria situada en el distrito de Villa el
Salvador en el año 2021. En este caso la población es el conjunto de
industrias situadas en dicho distrito en ese año; es una población finita.
Para estudiar las horas de sol que reciben las hojas de plantas de banano en
la zona 8 de Ucayali durante el año de 2019, entonces la unidad estadística
es una hoja de banano de las plantaciones en la zona 8 de Ucayali en 2019.
La población es el conjunto de hojas de banano de las plantaciones de la
zona 8 de Ucayali en 2019; por razones prácticas, se considera que la
población es infinita.
Variables
n
n
Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que disponemos
de cada individuo es resumida en variables.
En los individuos de la población española, de uno
a otro es variable:
¨
El grupo sanguíneo
n
¨
Su nivel de felicidad “declarado”
n
¨
{Deprimido, Ni fu ni fa, Muy Feliz} ß Var. Ordinal
El número de hijos
n
¨
{A, B, AB, O} ß Var. Cualitativa
{0,1,2,3,...} ß Var. Numérica discreta
La altura
n
{1’62 ; 1’74; ...} ß Var. Numérica continua
Tipos de variables
n
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no
se pueden hacer operaciones algebraicas con ellos)
¨
Nominales: Si sus valores no se pueden ordenar
n
¨
Ordinales: Si sus valores se pueden ordenar
n
n
Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)
¨
Discretas: Si se obtiene del conteo (en cualquier intervalo existe un número finito o infinito
numerable de valores posibles)
n
¨
Número de hijos, Número de cigarrillos, Num. de “cumpleaños”
Continuas: Si se obtiene de medición (en un intervalo arbitrariamente pequeño existen infinitos
valores posibles)
n
Altura, peso, ventas, dosis de medicamento administrado, edad
n
n
Es buena idea codificar las variables
como números para poder procesarlas
con facilidad en un ordenador.
Es conveniente asignar “etiquetas” a
los valores de las variables para
recordar qué significan los códigos
numéricos.
¨
Sexo (Cualit: Códigos arbitrarios)
n
n
¨
Raza (Cualit: Códigos arbitrarios)
n
n
¨
n
n
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz
Se pueden asignar códigos a
respuestas especiales como
n
n
n
1 = Blanca
2 = Negra,...
Felicidad Ordinal: Respetar un orden al
codificar.
n
n
1 = Hombre
2 = Mujer
0 = No sabe
99 = No contesta...
Estas situaciones deberán ser tenidas
en cuentas en el análisis. Datos
perdidos (‘missing data’)
n
n
Aunque se codifiquen como números, debemos recordar siempre el
verdadero tipo de las variables y su significado cuando vayamos a
usar programas de cálculo estadístico.
No todo está permitido con cualquier tipo de variable.
n
Los posibles valores de una variable suelen denominarse modalidades.
n
Las modalidades pueden agruparse en clases (intervalos)
¨ Edades:
n
¨
Hijos:
n
n
Menos de 20 años, de 20 a 50 años, más de 50 años
Menos de 3 hijos, De 3 a 5, 6 o más hijos
Las modalidades/clases deben forman un sistema exhaustivo y
excluyente
¨ Exhaustivo: No podemos olvidar ningún posible valor de la variable
¨
¨
¨
Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
Bien: ¿Cuál es su grupo sanguíneo?
Excluyente: Nadie puede presentar dos
valores simultáneos de la variable
n
Estudio sobre el ocio
¨
¨
¨
¨
Mal: De los siguientes, qué le gusta: (deporte, cine)
Bien: Le gusta el deporte: (Sí, No)
Bien: Le gusta el cine: (Sí, No)
Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Escala nominal: Son nominativos, sólo designan. La finalidad es
clasificar datos cualitativos. A este nivel, los números atribuidos a las
distintas modalidades de la característica son puros “nombres” que
representan diferencias de clase pero no de grado, y, por tanto, sólo se
da la posibilidad de que exista la relación de igualdad/desigualdad entre
las distintas modalidades que puede presentar una variable.
Escala ordinal: Además de la igualdad/desigualdad, una ordenación
considerando que una de las modalidades es mayor que otra, de manera
que sea posible indicar en una secuencia qué modalidad implica mayor
cantidad de la variable y, por ende, qué modalidad implica menor
cantidad. Pero no se puede representar distancias entre objetos porque
esta escala no tiene unidades de medición.
Escala de intervalo: (tiene cero relativo, creada por el hombre). Nos
permite describir cuánto más o menos un objeto posee que otro, de las
escalas anteriores no sólo se dan las dos relaciones anteriores sino que,
además, se puede establecer una unidad empírica de medida que
especifique el número de veces que la diferencia entre dos modalidades
la incluye.
De este modo, si establecemos tres modalidades en una variable (a, b,
c) podemos comprobar empíricamente cuántas veces la diferencia entre
a y b es mayor/menor que la diferencia entre b y c. En la escala
Fahrenheit se puede manifestar que la distancia entre 90 y 70 están dos
veces a la distancia entre 70 y 60.
Con los valores de esta escala son válidas las relaciones de igualdad,
de no igualdad y de orden. También son válidas las operaciones de
adición y sustracción entre los valores de la escala, y la multiplicación y
división entre Ias diferencias de dos vaIores mismos de la escala.
Escala de razón y proporciones: (Tiene cero fijo o absoluto). En esta
escala se da la relación biunívoca entre los valores que adquiere la
variable y la secuencia de números reales. Además, el origen de la
escala sí representa la ausencia absoluta de la característica que se
está midiendo.
Observación 1
Romero (2001)
Ejemplo
Observación 2
n
Dato: Puede ser un número, una palabra o un símbolo. Por
ejemplo, la edad de un miembro específico de una población
(18 años).
Ejemplo
Parámetros y estadísticos
n
Parámetro: Es una cantidad numérica
calculada sobre una población.
¨ La altura media de los individuos de un
país.
¨ La idea es resumir toda la información
que hay en la población en unos pocos
números (parámetros).
§ Estadístico: Ídem (cambiar población por muestra).
– La altura media de los que estamos en este aula.
• Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también se le suele
llamar estimador.
Ejercicio
Identificar cada una de las siguientes variables como cualitativa
o cuantitativa
1. La escuela secundaria de donde terminó cada estudiante de la clase.
2. La cantidad de gasolina que le ponen a sus carros los próximos 10 clientes
de Petróleo – X80
3. La cantidad de agua que consume una familia mensualmente.
4. El partido político por el cual votarán los estudiantes en las próximas
elecciones para Alcalde.
5. La cantidad de tiempo a la semana que dedican los estudiantes de la clase
a estudiar estadística y probabilidades
6. El color del automóvil preferido por los estudiantes de la clase.
Ejemplo
Se desea saber la renta promedio anual de Cuarta Categoría de las
personas naturales de Lima.
Solución
La población son todos las personas naturales de Lima.
Una muestra es un subconjunto representativo de personas
naturales de Lima (preferible con personas naturales de diversas
profesiones)
La variable es la renta anual de cuarta categoría de las personas
naturales de Lima.
Un dato es la renta anual de cuarta categoría de una persona natural
específica de Lima (S/. 35252.00).
Los datos es el conjunto de todas las rentas anuales de cuarta
categoría de la muestra (24000,14250,35260,18316,68250)
El parámetro de interés es la renta anual promedio de cuarta
categoría de todas las personas naturales de Lima
El estadístico o estimador : es la renta anual promedio de las
personas naturales que conforman la muestra seleccionada.
Ejercicio
Clasificar las siguientes variables:
1. Preferencias políticas (izquierda, derecha o centro).
2. Marcas de cerveza.
3. Velocidad en Km/h.
4. El peso en Kg.
5. Signo del zodiaco.
6. Nivel educativo (primario secundario, superior).
7. Años de estudios completados.
8. Tipo de enseñanza (privada o pública).
9. Número de empleados de una empresa.
10.La temperatura de un enfermo en grados Celsius.
11. Estrato social (bajo, medio o alto).
12. La presión de un neumático
Dos ejemplos de investigaciones estadísticas
PREGUNTA
Cómo diseñar un equipo de
mantenimiento
Cómo aumentar el
rendimiento de un proceso
MODELO
Variables:
- Número de averías (x1)
- Tiempo reparación (x2)
Hipótesis: las averías
•Se producen
independientemente
•La probabilidad de no
avería disminuye
exponencialmente con el
tiempo
Hipótesis: tiempo reparación
•Depende de muchos
pequeños factores
Variables:
- Rendimiento en % (y)
- Temperatura x1
- Concentración x2
Hipótesis:
•El rendimiento aumenta en
promedio linealmente con la
temperatura y la
concentración
•Para valores fijos de x1 y x2
el rendimiento varía
aleatoriamente alrededor de
su valor medio
RECOLECCIÓN
DE
INFORMACIÓN
Muestreo de máquinas para
estudiar sus averías y tiempo
de reparación
Diseño de un experimento
que se varíen x1 y x2 y se
mida y
ESTIMACIÓN
PARÁMETROS
Estimar:
• l , tasa media de averías
•µ , tiempo medio de
reparación
•s , variabilidad en el
tiempo de reparación
Estimar:
• El efecto de la temperatura
(b) y el de la concentración
(c) sobre el rendimiento
•Variabilidad experimental
CONTRASTES
DE SIMPLIFICACIÓN
¿Tienen todos los tipos de
máquinas el mismo l ?
¿Los tipos de averías, el
mismo µ y s ?
¿Es el efecto de la
temperatura y concentración
idéntico (b=c ) ?
CRÍTICA DEL
MODELO
¿Es cierta la independencia
entre las averías?
¿Son la variabilidad de x1 y
x2 en la muestra consistentes
con las hipótesis ?
¿Es la relación entre y
(x1 , x2) lineal?
¿Es la variabilidad de y para
x1, x2 fijos, independ. de los
valores concretos de x1, x2 ?
Fuentes de Datos
Fuente de datos internos: Es la información recopilada por la empresa de
los resultados de su propia gestión. Ejemplos: reportes financieros, reportes
de operaciones de producción, de ventas, de compras, estado de pérdidas y
ganancias, etc.
Fuente de datos externos: Son informaciones estadísticas elaboradas por
instituciones de investigación, ya sean públicas o privadas, o dependencias
especializadas, generalmente requeridos a nivel sectorial o nacional.
Ejemplos: El ministerio de Economía y Finanzas, a través de sus organismos
especializados lleva y elabora estadísticas de comercio al por mayor y al por
menor, comercio exterior (importación y exportación), etc.
Fuente primarias: Cuando la información estadística es obtenida
directamente de la unidad de observación. Ejemplos: los resultados de los
censos de población y vivienda, índices de precios al consumidor, etc.
Fuente de datos externos: Cuando se obtiene información estadística
elaborada a base de datos de fuentes primarias. Ejemplos: una agencia de
viajes cuenta con información relacionada como número de turistas y viajes
por departamento, estos datos interesan a empresas e individuos de la
industria turística, las dependencias de los gobiernos son otra fuente
importante de datos, la importancia de internet como fuente de datos sigue
creciendo, etc.
Métodos para obtener datos
•
Experimento: El investigador controla o modifica el ambiente y
observa el efecto en la variable de estudio.
•
Encuesta: Los datos se obtienen de una muestra de la población.
No hay modificación de variables. Pueden ser:
Encuesta retrospectiva: Cuando parte de datos que se conoce y
el estudio consiste en descubrir características de su historia.
Encuesta prospectiva: cuando de una muestra de la población
estudia una o más características a través del tiempo.
•
Censo: Los datos se obtienen de toda la población. Es poco
usado por lo costoso y el tiempo que consume.
El Cuestionario
El cuestionario es un conjunto de preguntas sobre los hechos o
aspectos que interesan en una investigación y que son contestadas por
los encuestados. Se trata de un instrumento de recolección de datos.
Para hacer un buen cuestionario la experiencia juega un papel
importante ya que se considera un “arte” la confección de un buen
cuestionario.
Haciendo entrevistas personales. Puede ser el método más efectivo en
muchas ocasiones pero es costoso y requiere bastante tiempo para ser
ejecutado.
Vamos a trabajar en los siguientes problemas de investigación: 6) Se quiere
determinar el perfil sociodemográfico de los estudiantes de una Universidad; y 7) Se
quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una
Universidad, y si éste tiene alguna relación con su edad u otras características.
Definir: Población bajo estudio, unidad de análisis, variables de interés.
Formulario para el registro de datos de los alumnos de LADE-2007
1) Registro Nº
2) Hombre
4) Número de hermanos(as):
Mujer
3) Edad
5) ¿Vive con sus padres?:
Si
No
6) ¿En que comunidad autónoma nació?:
7) ¿Paga alquiler?:
Si
No
8) ¿Cuánto paga de alquiler al mes?:
9) ¿En que Sector vive actualmente?:
10) ¿Que medio de transporte utiliza generalmente para venir a la Universidad?
11) ¿Desayuna de lunes a viernes?:
12) ¿Fuma?:
Si
Siempre
No
14) ¿Tiene teléfono móvil?:
Casi Siempre
A veces
Nunca
13) ¿Cuántos cigarrillos fuma al día?:
Si
No
15) ¿Cuanto gasta en teléfono móvil mensualmente?:
Observación: por favor responda a cada una de las preguntas
Otras Maneras de Recolectar Datos
a) Haciendo entrevistas por teléfono. Tiene la desventaja de que el entrevistado
puede no ser sincero en sus contestaciones.
b)
Mediante cuestionarios emitidos por correo. Es costoso y por lo general no más
del 30% de los entrevistados retornan el cuestionario.
c)
Por observación directa.
d)
A través de la Internet.
e)
Usando simulación por computadoras.
Muestreo
n
El proceso de seleccionar la muestra se llama muestreo.
n
Para que la muestra sea representativa y la información se pueda
generalizar a toda la población la muestra debe ser seleccionada
probabilísticamente.
n
El marco muestral es la lista de todos los miembros de la población
Tipos de muestreo
n
Muestreo por conveniencia.
Los elementos de la
muestra se seleccionar por que le conviene al
investigador. Los resultados no se pueden generalizar a
toda la población.
n
Muestreo aleatorio o probabilístico. Los elementos de la
muestra tienen una determinada probabilidad de ser
seleccionados
Motivos que aconsejan tomar muestras
n
n
n
n
n
n
Cuando la Población es muy grande.
Por motivos económicos.
Por falta de personal adecuado.
Por motivo de calidad de los resultados.
Por mayor rapidez en recoger los datos y presentar los
resultados.
Situaciones de riesgo.
Tipos de Muestreo Probabilístico
n
n
n
n
Simple
Estratificado
Por conglomerado
Sistemático
Muestreo aleatorio simple
Cada elemento de la población tiene la misma probabilidad de ser
seleccionado en la muestra.
Ejemplo
El gerente de un Banco está interesado en saber cuánto tiempo le toma a los
empleados en ir de su casa al trabajo. La empresa tiene 124 empleados.
Desea obtener una muestra de 35 empleados.
Primero debe hacer una lista de todos los empleados.
Selecciona 35 números aleatoriamente (puede utilizar la tecla random de la
calculadora o la tabla de números aleatorios).
Ejemplo
En un estudio de la Asociación Nacional de Bancos cuyo objetivo
fue de medir la satisfacción de los empleados con respecto de los
administradores de agencia, se obtuvo una muestra de 100
empleados. Determinar la población objetivo, la unidad de
muestreo, la unidad de observación y el marco muestral.
Solución
Población Objetivo:
Son todos los empleados que trabajan en las agencias que agrupa
la Asociación Nacional de Bancos.
Unidad de Muestreo:
Lo constituye cada agencia bancaria y las unidades de
observación los empleados.
Marco de Muestreo:
Es la lista de todos los bancos que pertenecen a la Asociación
Nacional de Bancos.
Ejercicios de aplicación
Download