Definición Inferencia Probabilidad Descriptiva La Estadística es la Ciencia de la • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos, • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones generales. ¿Para qué sirve la estadística? n n n La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza. Transforma datos en información. Contribuye a la generación de conocimiento. Rol de la estadística Proporcionar métodos para evaluar y juzgar la teoría y la realidad. Ejemplos de aplicación 1)En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo. 2)En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares. 3)En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos. 4)En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad. 5)En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa). 6)En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población. 7) En la industria: para disminuir y controlar la fracción defectuosa. Método científico y estadística Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos Etapas de una investigación estadística Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son: 1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población. 2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación. 3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio. 4) Inferencia estadística: consiste en suponer un modelo para la población e interpretación de los datos a la luz del modelo para obtener conclusiones generales. 5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población Esquema de las etapas de un estudio estadístico AREA DE INTERES DATOS ORGANIZAR Y RESUMIR Tema de Investigación ESTADÍSTICA DESCRIPTIVA -Antecedentes Previos (Tablas, Gráficos, Medidas Descriptivas, etc.) -Objetivos -Preguntas de Investigación -Posibles Hipótesis -Unidad de Análisis -Población -Variables INTERPRETACIÓN Muestra ¿Población o Muestra? Población INFERENCIA ESTADÍSTICA CONCLUSIONES INFORMACIÓN Probabilidad Otros ejemplos de problemas a estudiar 1)Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada. 2)Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades. 3)Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda. 4) Se quiere determinar el tiempo de vida de un activo. 5)Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país. 6)Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad. 7)Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características. Población y muestra n Población: es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). ¨ Normalmente es demasiado grande para poder abarcarlo. n Muestra: es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) ¨ Debería ser “representativo” ¨ Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). Ejemplo Si se desea conocer el monto pagado por cada industria del distrito de Villa el Salvador por concepto de impuestos locales durante el año 2021, entonces la unidad estadística es cada industria situada en el distrito de Villa el Salvador en el año 2021. En este caso la población es el conjunto de industrias situadas en dicho distrito en ese año; es una población finita. Para estudiar las horas de sol que reciben las hojas de plantas de banano en la zona 8 de Ucayali durante el año de 2019, entonces la unidad estadística es una hoja de banano de las plantaciones en la zona 8 de Ucayali en 2019. La población es el conjunto de hojas de banano de las plantaciones de la zona 8 de Ucayali en 2019; por razones prácticas, se considera que la población es infinita. Variables n n Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. En los individuos de la población española, de uno a otro es variable: ¨ El grupo sanguíneo n ¨ Su nivel de felicidad “declarado” n ¨ {Deprimido, Ni fu ni fa, Muy Feliz} ß Var. Ordinal El número de hijos n ¨ {A, B, AB, O} ß Var. Cualitativa {0,1,2,3,...} ß Var. Numérica discreta La altura n {1’62 ; 1’74; ...} ß Var. Numérica continua Tipos de variables n Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) ¨ Nominales: Si sus valores no se pueden ordenar n ¨ Ordinales: Si sus valores se pueden ordenar n n Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No) Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) ¨ Discretas: Si se obtiene del conteo (en cualquier intervalo existe un número finito o infinito numerable de valores posibles) n ¨ Número de hijos, Número de cigarrillos, Num. de “cumpleaños” Continuas: Si se obtiene de medición (en un intervalo arbitrariamente pequeño existen infinitos valores posibles) n Altura, peso, ventas, dosis de medicamento administrado, edad n n Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. ¨ Sexo (Cualit: Códigos arbitrarios) n n ¨ Raza (Cualit: Códigos arbitrarios) n n ¨ n n 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz Se pueden asignar códigos a respuestas especiales como n n n 1 = Blanca 2 = Negra,... Felicidad Ordinal: Respetar un orden al codificar. n n 1 = Hombre 2 = Mujer 0 = No sabe 99 = No contesta... Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’) n n Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico. No todo está permitido con cualquier tipo de variable. n Los posibles valores de una variable suelen denominarse modalidades. n Las modalidades pueden agruparse en clases (intervalos) ¨ Edades: n ¨ Hijos: n n Menos de 20 años, de 20 a 50 años, más de 50 años Menos de 3 hijos, De 3 a 5, 6 o más hijos Las modalidades/clases deben forman un sistema exhaustivo y excluyente ¨ Exhaustivo: No podemos olvidar ningún posible valor de la variable ¨ ¨ ¨ Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? Bien: ¿Cuál es su grupo sanguíneo? Excluyente: Nadie puede presentar dos valores simultáneos de la variable n Estudio sobre el ocio ¨ ¨ ¨ ¨ Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2) Escala nominal: Son nominativos, sólo designan. La finalidad es clasificar datos cualitativos. A este nivel, los números atribuidos a las distintas modalidades de la característica son puros “nombres” que representan diferencias de clase pero no de grado, y, por tanto, sólo se da la posibilidad de que exista la relación de igualdad/desigualdad entre las distintas modalidades que puede presentar una variable. Escala ordinal: Además de la igualdad/desigualdad, una ordenación considerando que una de las modalidades es mayor que otra, de manera que sea posible indicar en una secuencia qué modalidad implica mayor cantidad de la variable y, por ende, qué modalidad implica menor cantidad. Pero no se puede representar distancias entre objetos porque esta escala no tiene unidades de medición. Escala de intervalo: (tiene cero relativo, creada por el hombre). Nos permite describir cuánto más o menos un objeto posee que otro, de las escalas anteriores no sólo se dan las dos relaciones anteriores sino que, además, se puede establecer una unidad empírica de medida que especifique el número de veces que la diferencia entre dos modalidades la incluye. De este modo, si establecemos tres modalidades en una variable (a, b, c) podemos comprobar empíricamente cuántas veces la diferencia entre a y b es mayor/menor que la diferencia entre b y c. En la escala Fahrenheit se puede manifestar que la distancia entre 90 y 70 están dos veces a la distancia entre 70 y 60. Con los valores de esta escala son válidas las relaciones de igualdad, de no igualdad y de orden. También son válidas las operaciones de adición y sustracción entre los valores de la escala, y la multiplicación y división entre Ias diferencias de dos vaIores mismos de la escala. Escala de razón y proporciones: (Tiene cero fijo o absoluto). En esta escala se da la relación biunívoca entre los valores que adquiere la variable y la secuencia de números reales. Además, el origen de la escala sí representa la ausencia absoluta de la característica que se está midiendo. Observación 1 Romero (2001) Ejemplo Observación 2 n Dato: Puede ser un número, una palabra o un símbolo. Por ejemplo, la edad de un miembro específico de una población (18 años). Ejemplo Parámetros y estadísticos n Parámetro: Es una cantidad numérica calculada sobre una población. ¨ La altura media de los individuos de un país. ¨ La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). § Estadístico: Ídem (cambiar población por muestra). – La altura media de los que estamos en este aula. • Somos una muestra (¿representativa?) de la población. –Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Ejercicio Identificar cada una de las siguientes variables como cualitativa o cuantitativa 1. La escuela secundaria de donde terminó cada estudiante de la clase. 2. La cantidad de gasolina que le ponen a sus carros los próximos 10 clientes de Petróleo – X80 3. La cantidad de agua que consume una familia mensualmente. 4. El partido político por el cual votarán los estudiantes en las próximas elecciones para Alcalde. 5. La cantidad de tiempo a la semana que dedican los estudiantes de la clase a estudiar estadística y probabilidades 6. El color del automóvil preferido por los estudiantes de la clase. Ejemplo Se desea saber la renta promedio anual de Cuarta Categoría de las personas naturales de Lima. Solución La población son todos las personas naturales de Lima. Una muestra es un subconjunto representativo de personas naturales de Lima (preferible con personas naturales de diversas profesiones) La variable es la renta anual de cuarta categoría de las personas naturales de Lima. Un dato es la renta anual de cuarta categoría de una persona natural específica de Lima (S/. 35252.00). Los datos es el conjunto de todas las rentas anuales de cuarta categoría de la muestra (24000,14250,35260,18316,68250) El parámetro de interés es la renta anual promedio de cuarta categoría de todas las personas naturales de Lima El estadístico o estimador : es la renta anual promedio de las personas naturales que conforman la muestra seleccionada. Ejercicio Clasificar las siguientes variables: 1. Preferencias políticas (izquierda, derecha o centro). 2. Marcas de cerveza. 3. Velocidad en Km/h. 4. El peso en Kg. 5. Signo del zodiaco. 6. Nivel educativo (primario secundario, superior). 7. Años de estudios completados. 8. Tipo de enseñanza (privada o pública). 9. Número de empleados de una empresa. 10.La temperatura de un enfermo en grados Celsius. 11. Estrato social (bajo, medio o alto). 12. La presión de un neumático Dos ejemplos de investigaciones estadísticas PREGUNTA Cómo diseñar un equipo de mantenimiento Cómo aumentar el rendimiento de un proceso MODELO Variables: - Número de averías (x1) - Tiempo reparación (x2) Hipótesis: las averías •Se producen independientemente •La probabilidad de no avería disminuye exponencialmente con el tiempo Hipótesis: tiempo reparación •Depende de muchos pequeños factores Variables: - Rendimiento en % (y) - Temperatura x1 - Concentración x2 Hipótesis: •El rendimiento aumenta en promedio linealmente con la temperatura y la concentración •Para valores fijos de x1 y x2 el rendimiento varía aleatoriamente alrededor de su valor medio RECOLECCIÓN DE INFORMACIÓN Muestreo de máquinas para estudiar sus averías y tiempo de reparación Diseño de un experimento que se varíen x1 y x2 y se mida y ESTIMACIÓN PARÁMETROS Estimar: • l , tasa media de averías •µ , tiempo medio de reparación •s , variabilidad en el tiempo de reparación Estimar: • El efecto de la temperatura (b) y el de la concentración (c) sobre el rendimiento •Variabilidad experimental CONTRASTES DE SIMPLIFICACIÓN ¿Tienen todos los tipos de máquinas el mismo l ? ¿Los tipos de averías, el mismo µ y s ? ¿Es el efecto de la temperatura y concentración idéntico (b=c ) ? CRÍTICA DEL MODELO ¿Es cierta la independencia entre las averías? ¿Son la variabilidad de x1 y x2 en la muestra consistentes con las hipótesis ? ¿Es la relación entre y (x1 , x2) lineal? ¿Es la variabilidad de y para x1, x2 fijos, independ. de los valores concretos de x1, x2 ? Fuentes de Datos Fuente de datos internos: Es la información recopilada por la empresa de los resultados de su propia gestión. Ejemplos: reportes financieros, reportes de operaciones de producción, de ventas, de compras, estado de pérdidas y ganancias, etc. Fuente de datos externos: Son informaciones estadísticas elaboradas por instituciones de investigación, ya sean públicas o privadas, o dependencias especializadas, generalmente requeridos a nivel sectorial o nacional. Ejemplos: El ministerio de Economía y Finanzas, a través de sus organismos especializados lleva y elabora estadísticas de comercio al por mayor y al por menor, comercio exterior (importación y exportación), etc. Fuente primarias: Cuando la información estadística es obtenida directamente de la unidad de observación. Ejemplos: los resultados de los censos de población y vivienda, índices de precios al consumidor, etc. Fuente de datos externos: Cuando se obtiene información estadística elaborada a base de datos de fuentes primarias. Ejemplos: una agencia de viajes cuenta con información relacionada como número de turistas y viajes por departamento, estos datos interesan a empresas e individuos de la industria turística, las dependencias de los gobiernos son otra fuente importante de datos, la importancia de internet como fuente de datos sigue creciendo, etc. Métodos para obtener datos • Experimento: El investigador controla o modifica el ambiente y observa el efecto en la variable de estudio. • Encuesta: Los datos se obtienen de una muestra de la población. No hay modificación de variables. Pueden ser: Encuesta retrospectiva: Cuando parte de datos que se conoce y el estudio consiste en descubrir características de su historia. Encuesta prospectiva: cuando de una muestra de la población estudia una o más características a través del tiempo. • Censo: Los datos se obtienen de toda la población. Es poco usado por lo costoso y el tiempo que consume. El Cuestionario El cuestionario es un conjunto de preguntas sobre los hechos o aspectos que interesan en una investigación y que son contestadas por los encuestados. Se trata de un instrumento de recolección de datos. Para hacer un buen cuestionario la experiencia juega un papel importante ya que se considera un “arte” la confección de un buen cuestionario. Haciendo entrevistas personales. Puede ser el método más efectivo en muchas ocasiones pero es costoso y requiere bastante tiempo para ser ejecutado. Vamos a trabajar en los siguientes problemas de investigación: 6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad; y 7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características. Definir: Población bajo estudio, unidad de análisis, variables de interés. Formulario para el registro de datos de los alumnos de LADE-2007 1) Registro Nº 2) Hombre 4) Número de hermanos(as): Mujer 3) Edad 5) ¿Vive con sus padres?: Si No 6) ¿En que comunidad autónoma nació?: 7) ¿Paga alquiler?: Si No 8) ¿Cuánto paga de alquiler al mes?: 9) ¿En que Sector vive actualmente?: 10) ¿Que medio de transporte utiliza generalmente para venir a la Universidad? 11) ¿Desayuna de lunes a viernes?: 12) ¿Fuma?: Si Siempre No 14) ¿Tiene teléfono móvil?: Casi Siempre A veces Nunca 13) ¿Cuántos cigarrillos fuma al día?: Si No 15) ¿Cuanto gasta en teléfono móvil mensualmente?: Observación: por favor responda a cada una de las preguntas Otras Maneras de Recolectar Datos a) Haciendo entrevistas por teléfono. Tiene la desventaja de que el entrevistado puede no ser sincero en sus contestaciones. b) Mediante cuestionarios emitidos por correo. Es costoso y por lo general no más del 30% de los entrevistados retornan el cuestionario. c) Por observación directa. d) A través de la Internet. e) Usando simulación por computadoras. Muestreo n El proceso de seleccionar la muestra se llama muestreo. n Para que la muestra sea representativa y la información se pueda generalizar a toda la población la muestra debe ser seleccionada probabilísticamente. n El marco muestral es la lista de todos los miembros de la población Tipos de muestreo n Muestreo por conveniencia. Los elementos de la muestra se seleccionar por que le conviene al investigador. Los resultados no se pueden generalizar a toda la población. n Muestreo aleatorio o probabilístico. Los elementos de la muestra tienen una determinada probabilidad de ser seleccionados Motivos que aconsejan tomar muestras n n n n n n Cuando la Población es muy grande. Por motivos económicos. Por falta de personal adecuado. Por motivo de calidad de los resultados. Por mayor rapidez en recoger los datos y presentar los resultados. Situaciones de riesgo. Tipos de Muestreo Probabilístico n n n n Simple Estratificado Por conglomerado Sistemático Muestreo aleatorio simple Cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra. Ejemplo El gerente de un Banco está interesado en saber cuánto tiempo le toma a los empleados en ir de su casa al trabajo. La empresa tiene 124 empleados. Desea obtener una muestra de 35 empleados. Primero debe hacer una lista de todos los empleados. Selecciona 35 números aleatoriamente (puede utilizar la tecla random de la calculadora o la tabla de números aleatorios). Ejemplo En un estudio de la Asociación Nacional de Bancos cuyo objetivo fue de medir la satisfacción de los empleados con respecto de los administradores de agencia, se obtuvo una muestra de 100 empleados. Determinar la población objetivo, la unidad de muestreo, la unidad de observación y el marco muestral. Solución Población Objetivo: Son todos los empleados que trabajan en las agencias que agrupa la Asociación Nacional de Bancos. Unidad de Muestreo: Lo constituye cada agencia bancaria y las unidades de observación los empleados. Marco de Muestreo: Es la lista de todos los bancos que pertenecen a la Asociación Nacional de Bancos. Ejercicios de aplicación