Recordemos Se encarga de la recogida y presentación de la información; nos Descriptiva indica como debe ser obtenida, señala las medidas necesarias para organizarla y sintetizarla, así como su representación gráfica. Estadística Conjunto de procedimientos por los cuales obtenemos conclusiones de Inferencial tipo inductivo sobre una población en base al resultado obtenido sobre una muestra de dicha población. Recordemos: Población: conjunto de sujetos de los que se desea extraer información Muestra: subconjunto de la población a la que tenemos acceso. Representativa de la población Inferencia estadística Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras. obtención de la muestra conclusiones P M 4 Inferencia estadística Iceberg y estadística Inferencia estadística Porcentajes Sondeos electorales Medias Control de Calidad: ¿Qué podemos hacer para mejorar? Previsiones: ¿Cuánta electricidad se gastará mañana? Estudios sociològicos: ¿Qué quieren los jovenes? Investigación médica: ¿Es mejor una nueva medicina? Estudios de mercado: ¿Qué quieren los consumidores? Economía: ¿Cuánto aumentan los precios? Biologia: Animales en extinción Fiabilidad: Cada cuando se deben revisar las piezas de un avión? Hay mucho más de lo que se ve Inferencia estadística ¿Qué es la inferencia estadística?. • Conjunto de métodos que permiten obtener una conclusión acerca de una población a través de la información proporcionada por una muestra. • Conjunto de métodos que forman un procedimiento inductivo que va de lo particular (la muestra) a lo general (la población). Botella-Rocamora, P., Alacreu-Garca, M, Martnez-Beneito, M.A. Apuntes de Estadística en Ciencias de la Salud Inferencia estadística Métodos de inferencia estadística: • Estimación: – Puntual. – Por intervalos de confianza(nivel de confianza) • Contraste de hipótesis Inferencia estadística Problema de estimación: Deseamos obtener una característica desconocida de la población a partir de los datos obtenidos sobre una muestra. Ejemplo 1.-Estimar el porcentaje de la población española (47 millones aprox.) que votará a un partido político a partir de una muestra de 1500 votantes. Ejemplo 2.- Estimar la edad promedio de la población española, a partir de una muestra de 500 españoles. Inferencia estadística Problema de test de hipótesis: Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra. Ejemplo 1.- El partido político obtendrá más del 65% de los votos. Ejemplo 2.- La edad media de la población española es en 2014 igual a la de 2012, 41 años. Inferencia estadística Parámetro: función definida sobre los valores numéricos de características medibles de una población. Inferir Estadístico (estimador): función definida sobre los valores numéricos de una muestra. Estimación puntual Intervalo de confianza Contrates de hipótesis Inferencia estadística Estadístico: Cualquier función de las variables aleatorias observadas se denomina estadístico: T(X 1 , X 2 ,..., X n ) Los dos estadísticos mas conocidos son: la media muestral y la varianza muestral. 2 x s La raíz cuadrada de la varianza muestral es la desviación típica muestral. s Inferencia estadística Parámetros poblacionales: Cualquier característica calculada sobre todos los elementos de una población (μ, σ, etc.). Los parámetros poblacionales son fijos, no aleatorios Por ejemplo, la media de una población es: µ = (6 + 8 + 10 + 12 + 14) / 5 = 10. Estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos). Por ejemplo, la media de la muestra (6, 6) es: x = (6 + 10) / 2 = 8. Y la media de la muestra (6, 12) es: x = (6 + 12) / 2 = 9. Etc… Botella-Rocamora, P., Alacreu-Garca, M, Martnez-Beneito, M.A. Apuntes de Estadística en Ciencias de la Salud Inferencia estadística ¿Cuántos? ¿Cómo? Inferencia estadística Estudio estadístico de una población. – Método de observación exhaustiva. – Método de muestreo. Inferencia estadística Inconvenientes del método de observación exhaustiva – Imposibilidad física de acceder a toda la población. – Imposibilidad económica de acceder a toda la población. – Imposibilidad por destrucción del individuo objeto de estudio. (Ej: Estudio de duración media de un modelo de marcapasos). Inferencia estadística ¿QUÉ ES EL MUESTREO? “Es una herramienta de la investigación científica cuya función básica es determinar qué parte de una realidad en estudio debe examinarse con la finalidad de hacer inferencias sobre el todo de la que procede.” Inferencia estadística Características a cumplir por la muestra: • Aleatoriedad. • La muestra debe representar adecuadamente a toda la población. • Si la muestra no es representativa, nada de lo que se concluya a partir de ella será válido para la población de interés. Ejemplo: Si queremos estudiar el nivel medio de colesterol en una población y tomamos la muestra de pacientes de un hospital, listín telefónico, etc. Los resultados obtenidos no serán fiables. Métodos de muestreo Elección de la muestra Técnicas de muestreo probabilístico Técnicas de muestreo NO probabilístico Cuando es conocida la probabilidad de los individuos de ser seleccionados o incluidos en la muestra. Cuando NO es conocida la probabilidad de incluidos en la muestra. Aleatorios Deterministas Intencionales Cuotas Muestreo Probabilístico Muestreo simple aleatorio Muestreo estratificado Muestreo sistemático Muestreo por conglomerados Muestreo mono-, bi- y polietápico Muestreo simple aleatorio • Tenemos una población con n individuos: X1, x2 ,x3,………xk-1, xk, xk+1,……….., xn-2, xn-1, xn X3, xk, xn-1 MUESTRA Inconvenientes: se ha de conocer toda la población. Puede que no se totalmente representativo. Muestreo sistemático Todos los individuos tiene la misma probabilidad de ser elegidos. Imaginemos que queremos estudiar alguna característica de todos los pacientes que llegan a consulta durante un año a los que se le hace una endodoncia en el año 2018, para una consulta determinada. Conocemos que se hacen unas 10 endodoncias al día en dicha consulta. N= 10*365 =3650 endodoncias al año Queremos conocer hábitos de higiene bucodental de 300 de esos pacientes. Arranque aleatorio-> Cualquier número elegido al azar entre 1 y k K= N / n = 3650/300 -> 12 “Salto” o “Intervalo de muestreo” 11 ………., 11,…….,23,…….,35,…..…,47,….….,59,……..,71,….. 12 Muestreo estratificado Imaginemos que deseamos estudiar la estancia hospitalaria media de los hospitales españoles. Sabemos que cada hospital tiene un número de camas distinto, por lo que podemos agruparlos según número de camas. (N1/N)*n =n1 N1 <150 camas N2 150 – 550 camas (N2/N)*n =n2 N3 > 550 camas (N3/N)*n =n3 N MAS n Muestreo por conglomerados Mortalidad de pacientes con IAM ingresados en los hospitales españoles. Ingresos por IAM Mortalidad Inferencia estadística (Recordemos) Estadístico: Cualquier función de las variables aleatorias observadas se denomina estadístico: T(X 1 , X 2 ,..., X n ) Los dos estadísticos mas conocidos son: la media muestral y la varianza muestral. 2 x s La raíz cuadrada de la varianza muestral es la desviación típica muestral. s Inferencia estadística -Estimación puntual Provee un solo valor, un valor concreto para la estimación del parámetro. Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.). Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional. Inferencia estadística Propiedades deseables en los estimadores ¿cuál es el mejor estimador? 1. Ausencia de sesgo (insesgado). 2. Consistencia 3. Eficiencia 4. Suficiencia 29 Inferencia estadística Insesgadez: Posibles Muestras: 1.- 2, 3, 3 Media 1= 2,67 2.- 2, 3, 4 Media 2= 3 3.- 2, 3, 4 2 3 3 4 Población Media=μ= 3 Si se repite muchas veces el método del muestreo, entonces, en promedio, el resultado es igual al parámetro poblacional Media 3= 3 4.- 3, 3, 4 Media = 3,33 Media de las medias1, media2, media3, media4 igual a 3 Inferencia estadística Inferencia estadística Consistencia: A medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica. Inferencia estadística Eficiencia: (Mínima varianza) Será más eficiente el estimador que tenga una menor varianza. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos. La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Inferencia estadística Suficiencia: Diremos que un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar al parámetro . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna parámetro. información sobre dicho Inferencia estadística Inconvenientes de la estimación puntual: Sólo tenemos una idea aproximada del valor del parámetro a estimar, no conociéndose cómo de buena es la aproximación. Notas: Un buen estimador debe cumplir una serie de características: mínima varianza, insesgadez,... El estimador de la media poblacional es la media muestral. El estimador de la varianza poblacional es la cuasivarianza muestral. Inferencia estadística Ejemplo 1: Deseamos obtener información sobre la media de la altura de una población. Elegimos una muestra de n= 40 sujetos. Estimador y estimación puntual: µ = x = 1,73m. Inferencia estadística Ejemplo 1: Deseamos obtener información sobre la prevalencia de anemia en una gran ciudad. Elegimos una muestra de n= 100 sujetos. Posibles estimadores y estimaciones puntuales: nº de casos favorables 25 p= = = 0,25 nº de casos posibles 100 Pregunta: ¿Qué porcentaje de hogares españoles tienen ordenador con conexión a Internet? ¿Definición clara?: ¿Qué es un hogar? ¿Piso de estudiantes? ¿Apartamento en la playa?... ¿Muestra representativa? Resultado: 42,8 % ¿Si volviéramos a realizar el estudio, volvería a salir 42,8%? 42,8 % ± 3,2 % Estimación puntual Margen de error Intervalo de confianza del 95 % Dice la verdad el 95 % de las veces Inferencia estadística Estimación por intervalos de confianza: Se pretende dar un intervalo de valores, alguno de los cuales es el verdadero valor del parámetro desconocido, con una cierta seguridad de que la afirmación sea cierta. Si el intervalo de confianza es (a, b) a la semiamplitud del mismo se denomina margen de error. P( a ≤ μ ≤ b ) (probabilidad de que el estimador "cubra" el verdadero valor del parámetro μ), a μ b Inferencia estadística Estimación por intervalos de confianza: Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del parámetro con una confianza del (1- α)x100% Observa que el error (no contener al parámetro) es αx100%. P( a ≤ μ ≤ b ) = 1-α Nivel de confianza 1-α α/2 a μ Región Crítica o de Rechazo Región de Aceptación α/2 b Región Crítica o de Rechazo Inferencia estadística ¿Y cómo fijamos el nivel de confianza? Usualmente se asume un porcentaje del 95%. Al calcular un intervalo de confianza al 95%, ello quiere decir que el 95% de las veces que repitamos el proceso de muestreo (y calculemos el estadístico), el valor del parámetro poblacional estará dentro de tal intervalo. Otros casos usuales son: confianza significativa: 99%. confianza muy significativa: 99.5% E tamaño del intervalo disminuye con el aumento del tamaño muestral El tamaño del intervalo aumenta al aumentar el nivel de confianza Nuestra confiabilidad de que el parámetro población se encuentra dentro de este intervalo de confianza es del 95% ¿Parámetro poblacional? Es decir, confiamos al 95% que nuestro intervalo es uno de los que contiene el valor poblacional (línea roja) Representan al 5% de error que admitimos en la estimación Notica buena Notica mala ¿cómo sabemos si nuestro intervalo es uno del os que contienen el valor poblacional o no? Sólo sabemos que tenemos una alta confiabilidad (95%) de que es uno de los que podría contener el parámetro poblacional. POBLACIÓN MUESTRA Intervalo de Confianza MUESTRA % 13/26 =0,5 La proporción de hombre estimada es del 50% con un IC al 95% [ 28,85; 71,14] Nuestra confiabilidad de que el f=n/N= 26/57=0,456 parámetro población se encuentra dentro de este intervalo de confianza es del 95% Inferencia estadística Para el cálculo de un Intervalo de confianza debemos saber: Error Típico o Error Estándar EE Depende del parámetro que estemos calculando. Depende de la distribución aleatoria de la variables sobre la que se busca ese parámetro. Es una medida de la variabilidad del estimador. En general, su cálculo explicitó es complicado. Un intervalo de confianza suele ser la estimación obtenida sobre la muestra (proporción, media,..) y un margen de error, que no es más que un múltiplo del error estándar. Intervalo de confianza Media de una distribución normal de varianza conocida, N(µ, σ) Parámetro p de una distribución binomial de parámetros n y p, B(n,p): Diferencias de medias de dos distribuciones normales con varianzas conocidas Diferencia de parámetros p de dos distribuciones binomiales Estimador Error Estándar x → N( µ , σ p̂ = n σ ) n X → N(p, p (1 - p) ) n n x1 − x 2 → N( µ1 - µ 2 , p̂1 − p̂ 2 → N( p1 - p2 , σ 2 1 n1 + σ 2 2 n2 ) p1 (1 − p1 ) p2 (1 − p2 ) ) + n1 n2 p̂ (1 - p̂) n σ 12 n1 + σ 22 n2 p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2 Estimador ± Cuantil · EE (Estimador) Estimador ± Cuantil · EE (Estimador) Estimador ± Cuantil · EE Estimador ± Cuantil · EE (Estimador) Si el nivel de confianza es : 1-α = 90 % Zα = 1,64 1-α = 95% Zα = 1,96 1-α = 99% Zα = 2,57 2 2 2 Inferencia estadística ¿cuán grande debe de ser el intervalo de confianza? Evidentemente, si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que acertamos...Pero eso no es muy útil. El caso extremo contrario es la estimación puntual, donde la amplitud del intervalo es nula. La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico. Inferencia estadística Ejemplo 1: altura IC0,95: [1,68 ; 1,76] Ejemplo 2: anemia IC0,95: [0,16 ; 0,33] ¡Empate técnico! El País, 18 febrer 2006. Pàgina 18 «Pero curiosamente, parece que las personas que redactan los titulares no entienden el significado de estos conceptos clave. Por ejemplo, aquí el titular destaca que el PP reduce su distancia al PSOE en 1,6 puntos ... Pero el texto dice que el error es del 2%, lo que quiere decir que, con la confianza de que lo han calculado , el valor real podría estar 2 puntos arriba o 2 puntos abajo de lo que ha salido. Que el error sea del 2% significa que si lo volvieran a hacer, perfectamente podría salir 1 punto el PP por delante del PSOE. El titular correcto sería que no se han detectado diferencias significativas entre el PP y el PSOE ». Pere Grima Intervalo de confianza para la media de una distribución normal de varianza conocida, N(µ, σ): σ I = x ± Z α /2 n Muestras superiores a 30, n > 30 Intervalo de confianza para la media de una distribución normal de varianza desconocida, N(µ, σ): sc I = x ± Z α /2 n Muestras inferiores o iguales a 30, n ≤ 30 sc I = x ± t α / 2;n −1 n Ejemplo: Se publica el valor medio de IMC en los varones de una muestra, de 25-60 años, considerada la más “representativa del país” con un valor de 25,97 kg/m2 y su desviación estándar fue de 3,59 kg/m2 (Aranceta 2003). Había 4707 varones en la muestra. Se desea estimar la media poblacional (µ) del IMC con un 95% de confianza EE = 3.59 = 0.0523 4707 s x ± Zα 2 * n [25.97 ± 1.96 * 0.0523] = [25.87 ; 26.07] Confiamos que el valor medio poblacional de IMC de varones entre 25-60 años, sea uno de los valores de nuestro intervalo con un nivel de confianza del 95%. En un estudio realizado para determinar el estado de salud de una comunidad se entrevistó a 82 personas, preguntándoles acerca de su actividad física habitual, 40 fueron hombres y el resto mujeres. De las 36 personas que declararon practicar ejercicio físico de forma regular, 10 eran mujeres y el resto hombres. Analizar si con una probabilidad del 95% se puede asegurar que la proporción de practicar deporte es mas alta en hombres que en mujeres Tenemos que n=82, practican ejercicio 36/82 (43,90%) Datos: HOMBRES MUJERES n 40 42 P (% práctica ejercicio) 26/40 (65%) 10/42 (23,80%) Si el nivel de confianza es : Z 95% α = 1,96 2 p H (1 - p H ) p M (1 - p M ) + p H - p M ± Zα 2 * nM nM Como el intervalo no contiene el cero, no se puede aceptar con un 95% que pH - pM = 0 que , es decir, pH = pM . Por tanto aceptaremos que la proporciones entre hombres y mujeres que practican deporte es significativamente diferente. Además, como los dos extremos del intervalo son positivos, para todos sus valores pH pM > 0 pH > pM lo que indica que la proporción de hombres que práctica deporte es mayor en hombres que en mujeres. En el estudio descrito se preguntó además por las horas de sueño de los encuestados. Los resultados expresados en media y desviación típica se recogen en la tabla adjunta y de forma separada para aquellos que declararon realizar ejercicio físico y para los que no: A nivel de confianza 95%, ¿existen diferencias en los tiempos medios de sueño entre los individuos que realizan ejercicio físico y los que no? x 1 - x 2 ± Zα 2 * s12 s 22 + = 8.5 - 7.2 ± 1.96 * n1 n 2 [1.3 ± 0.9 2 0.82 + 36 46 0.8] = [0.5; 2.1] Como el intervalo no contiene el cero, no se puede aceptar con un 95% que la diferencia de medias sea igual a cero , es decir, que ambas medias coincidan . Por tanto aceptaremos que los tiempos medios de horas de sueño entre individuos que realizan y los que no realizan ejercicio es significativamente diferente. Además, como los dos extremos del intervalo son positivos, para todos sus valores x1 - x 2 = 0 → x1 > x 2 lo que indica que la media de horas de sueño en los que practican deporte es mayor que en los que no practican.