Estadística descriptiva ¿Para qué sirve la estadística? • La Ciencia se ocupa en general de fenómenos observables • La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes • Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) • La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza • “La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variablidad no es la excepción sino la regla” Carrasco de la Peña (1982) Definición La Estadística es la Ciencia de la • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos, • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Pasos en un estudio estadístico • Plantear hipótesis sobre una población • Los fumadores tienen “más bajas” laborales que los no fumadores • ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? • Decidir qué datos recoger (diseño de experimentos) • Qué individuos pertenecerán al estudio (muestras) • Fumadores y no fumadores en edad laboral. • Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? • Qué datos recoger de los mismos (variables) • Número de bajas • Tiempo de duración de cada baja • ¿Sexo? ¿Sector laboral? ¿Otros factores? • Recoger los datos (muestreo) • ¿Estratificado? ¿Sistemáticamente? • Describir (resumir) los datos obtenidos • tiempo medio de baja en fumadores y no (estadísticos) • % de bajas por fumadores y sexo (frecuencias), gráficos,.... Método científico y estadística Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos Población y muestra • Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). • Normalmente es demasiado grande para poder abarcarlo. • Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) • Debería ser “representativo” • Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). Variables • Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. • En los individuos de la población española, de uno a otro es variable: • El grupo sanguíneo • {A, B, AB, O} Var. Cualitativa • Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal • El número de hijos • {0,1,2,3,...} Var. Numérica discreta • La altura • {1’62 ; 1’74; ...} Var. Numérica continua Tipos de variables • Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) • Nominales: Si sus valores no se pueden ordenar • Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No) • Ordinales: Si sus valores se pueden ordenar • Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor • Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) • Discretas: Si toma valores enteros • Número de hijos, Número de cigarrillos, Num. de “cumpleaños” • Continuas: Si entre dos valores, son posibles infinitos valores intermedios. • Altura, Presión intraocular, Dosis de medicamento administrado, edad Tablas de frecuencias para variables cualitativas Esta tabla está compuesta por las siguientes columnas: •Valores de la variable: son los diferentes valores que toma la variable en el estudio. •Frecuencia absoluta (fi): es la cantidad de veces que aparece el valor en el estudio. La sumatoria de las frecuencias absolutas es igual al número de datos. •Frecuencia acumulada (Fi): es el acumulado o suma de las frecuencias absolutas, indica cuantos datos se van contando hasta ese momento o cuántos datos se van reportando. •Frecuencia relativa (hi): es la fracción o proporción de elementos que pertenecen a una clase o categoría. Se calcula dividiendo la frecuencia absoluta entre el número de datos del estudio. •Frecuencia relativa acumulada(Hi): es la proporción de datos respecto al total que se han reportado hasta ese momento. Es la suma de las frecuencias relativas, y se puede calcular también dividiendo la frecuencia acumulada entre el número de datos del estudio. •Frecuencia porcentual (%hi): : es el porcentaje de elementos que pertenecen a una clase o categoría. Se puede calcular rápidamente multiplicando la frecuencia relativa por 100%. •Frecuencia porcentual acumulada(%Hi): es el porcentaje de datos respecto al total que se han reportado hasta ese momento. Se puede calcular rápidamente multiplicando la frecuencia relativa acumulada por 100% Ejemplo Se le pidió a un grupo de personas que indiquen su color favorito, y se obtuvo los siguientes resultados: negro azul rojo negro azul amarillo rojo azul rojo negro amarillo rojo amarillo amarillo azul rojo azul rojo negro amarillo En la primera columna, colocamos los valores de nuestra variable, en la segunda la frecuencia absoluta, luego la frecuencia acumulada, seguida por la frecuencia relativa su porcentaje, y finalmente la frecuencia relativa acumuladas y su porcentaje. Color f. absoluta fi Negro 4 Azul 5 Amarillo 5 Rojo 6 Total 20 f. acumulada Fi 4 9 14 20 f relativa % hi hi 0,20 20% 0,25 25% 0,25 25% 0,30 30% 1 f relativa acumulada Hi 0,20 0,45 0,70 1 % Hi 20% 45% 70% 100% Elaborar una gráfica de barras a partir de dichos resultados. En el eje horizontal (x), colocamos los valores de la variable, es decir, los colores preferidos: negro, azul, amarillo y rojo. En el eje vertical (y), colocaremos la frecuencia. Elaborar un polígono de frecuencias con los datos de la tabla anterior Partimos de la gráfica de barras que realizamos en el problema anterior. Luego, en el punto medio de la parte superior de cada una de las barras, trazamos un segmento hacia el punto medio de la parte superior de la siguiente barra. GRÁFICO CIRCULAR Es un gráfico usado para representar frecuencias, porcentajes y proporciones. Se suele usar con variables cualitativas, ya que con variables cuantitativas puede generar confusiones. El ángulo central de cada sector, es proporcional a la frecuencia. Se calcula de la siguiente manera, teniendo en cuenta la frecuencia a graficar: Usaremos la frecuencia absoluta. Calculemos el ángulo central de cada sector: ACTIVIDAD 1. Identifica el tipo de variable en cada caso: 1. El curso favorito de los alumnos de una escuela. 2. Cantidad de libros en un anaquel. 3. Diámetro de una esfera. 4. Cantidad de clientes atendidos en un restaurante en un día. 5. Lugar que ocupa un nadador en una competencia. 6. Volumen de agua dentro de una lavadora de 200 litros de capacidad máxima. 7. Longitud de 150 tornillos producidos en una fábrica. 8. Número de pétalos que tiene una flor. 9. Color de cabello de los niños que audicionan para una película de Netflix. 10. Tiempo requerido para responder las llamadas en un call center. 11. Candidato al cuál apoyan los votantes en las elecciones presidenciales de Perú. 12. Número de televisores en una casa. 13. Número de páginas de una serie de libros de estadística. 14. Tiempo de vuelo de los aviones que van de Lima a Santiago. 15. Marcas de autos que se venden en tu país. 16. Grado de satisfacción laboral en una empresa. 17. Número de presidentes que ha tenido tu país en los últimos 5 años. 18. Peso de una persona. 19. Resultado de tirar dos dados. 20. Se define una variable como la fracción de focos defectuosos en una inspección de 100 focos escogidos aleatoriamente en el almacén de una fábrica. ¿Qué tipo de variable es? 2. Se le pregunto a un grupo de estudiantes de IV semestre de psicología de la universidad Simón Bolívar sede Barranquilla ¿ Cuál es su lugar de procedencia? Los resultados son los siguientes: Con los datos anteriores realiza una tabla de frecuencias completa y grafica los datos obtenidos de la frecuencia En un diagrama de barras, polígono y circular