Uploaded by Alberto Cabello Lara

Inferencia IC

advertisement
Recordemos
Se
encarga
de
la
recogida
y
presentación de la información; nos
Descriptiva
indica
como
debe
ser
obtenida,
señala las medidas necesarias para
organizarla y sintetizarla, así como
su representación gráfica.
Estadística
Conjunto de procedimientos por los
cuales obtenemos conclusiones de
Inferencial
tipo inductivo sobre una población
en base al resultado obtenido sobre
una muestra de dicha población.
Recordemos:
Población: conjunto de sujetos
de los que se desea extraer
información
Muestra: subconjunto de la
población a la que tenemos
acceso. Representativa de la
población
Inferencia estadística
Proceso y resultado de extraer conclusiones
respecto a una población a partir de una o más
muestras.
obtención de la
muestra
conclusiones
P
M
4
Inferencia estadística
Iceberg y estadística
Inferencia estadística
Porcentajes
Sondeos electorales
Medias
Control de
Calidad:
¿Qué podemos
hacer para mejorar?
Previsiones:
¿Cuánta electricidad
se gastará mañana?
Estudios
sociològicos:
¿Qué quieren
los jovenes?
Investigación
médica:
¿Es mejor una
nueva medicina?
Estudios de
mercado:
¿Qué quieren los
consumidores?
Economía:
¿Cuánto
aumentan los
precios?
Biologia:
Animales en
extinción
Fiabilidad:
Cada cuando se
deben revisar
las piezas de un
avión?
Hay mucho más de lo que se ve
Inferencia estadística
¿Qué es la inferencia estadística?.
• Conjunto de métodos que permiten obtener una
conclusión acerca de una población a través de la
información proporcionada por una muestra.
• Conjunto de métodos que forman un procedimiento
inductivo que va de lo particular (la muestra) a lo
general (la población).
Botella-Rocamora, P., Alacreu-Garca, M, Martnez-Beneito, M.A. Apuntes de Estadística en Ciencias
de la Salud
Inferencia estadística
Métodos de inferencia estadística:
• Estimación:
– Puntual.
– Por intervalos de confianza(nivel de confianza)
• Contraste de hipótesis
Inferencia estadística
Problema de estimación:
Deseamos obtener una característica desconocida de la
población a partir de los datos obtenidos sobre una
muestra.
Ejemplo 1.-Estimar el porcentaje de la población española (47
millones aprox.) que votará a un partido político a partir de una
muestra de 1500 votantes.
Ejemplo 2.- Estimar la edad promedio de la población española, a
partir de una muestra de 500 españoles.
Inferencia estadística
Problema de test de hipótesis:
Se busca comprobar alguna
información sobre la
población a partir de los datos obtenidos de una muestra.
Ejemplo 1.- El partido político obtendrá más del 65% de los
votos.
Ejemplo 2.- La edad media de la población española es en
2014 igual a la de 2012, 41 años.
Inferencia estadística
Parámetro: función definida sobre los valores
numéricos de características medibles de una
población.
Inferir
Estadístico (estimador): función definida sobre
los valores numéricos de una muestra.
Estimación puntual
Intervalo de confianza
Contrates de hipótesis
Inferencia estadística
Estadístico:
Cualquier función de las variables aleatorias observadas
se denomina estadístico:
T(X 1 , X 2 ,..., X n )
Los dos estadísticos mas conocidos son:
la media muestral y la varianza muestral.
2
x
s
La raíz cuadrada de la varianza muestral es la desviación
típica muestral.
s
Inferencia estadística
Parámetros poblacionales: Cualquier característica calculada sobre
todos los elementos de una población (μ, σ, etc.). Los parámetros
poblacionales son fijos, no aleatorios
Por ejemplo, la media de una población es:
µ = (6 + 8 + 10 + 12 + 14) / 5 = 10.
Estadísticos son variables aleatorias (su valor depende de la muestra
seleccionada: los estadísticos calculados para distintas muestras darán,
en general, resultados distintos).
Por ejemplo, la media de la muestra (6, 6) es: x = (6 + 10) / 2 = 8.
Y la media de la muestra (6, 12) es: x = (6 + 12) / 2 = 9.
Etc…
Botella-Rocamora, P., Alacreu-Garca, M, Martnez-Beneito, M.A. Apuntes de Estadística en Ciencias
de la Salud
Inferencia estadística
¿Cuántos?
¿Cómo?
Inferencia estadística
Estudio estadístico de una población.
– Método de observación exhaustiva.
– Método de muestreo.
Inferencia estadística
Inconvenientes del método de observación exhaustiva
– Imposibilidad física de acceder a toda la población.
– Imposibilidad económica de acceder a toda la población.
– Imposibilidad por destrucción del individuo objeto de
estudio. (Ej: Estudio de duración media de un modelo de
marcapasos).
Inferencia estadística
¿QUÉ ES EL MUESTREO?
“Es una herramienta de la investigación
científica cuya función básica es determinar qué
parte de una realidad en estudio debe
examinarse con la finalidad de hacer inferencias
sobre el todo de la que procede.”
Inferencia estadística
Características a cumplir por la muestra:
• Aleatoriedad.
• La muestra debe representar adecuadamente a toda la
población.
• Si la muestra no es representativa, nada de lo que se concluya a
partir de ella será válido para la población de interés.
Ejemplo: Si queremos estudiar el nivel medio de colesterol en
una población y tomamos la muestra de pacientes de un hospital,
listín telefónico, etc. Los resultados obtenidos no serán fiables.
Métodos de muestreo
Elección de la muestra
Técnicas de muestreo probabilístico
Técnicas de muestreo NO probabilístico
Cuando es conocida la probabilidad
de los individuos de ser seleccionados
o incluidos en la muestra.
Cuando NO es conocida la probabilidad
de incluidos en la muestra.
Aleatorios
Deterministas
Intencionales
Cuotas
Muestreo Probabilístico
Muestreo simple aleatorio
Muestreo estratificado
Muestreo sistemático
Muestreo por conglomerados
Muestreo mono-, bi- y polietápico
Muestreo simple aleatorio
• Tenemos una población con n individuos:
X1, x2 ,x3,………xk-1, xk, xk+1,……….., xn-2, xn-1, xn
X3, xk, xn-1
MUESTRA
Inconvenientes: se ha de conocer toda la población. Puede que no se totalmente
representativo.
Muestreo sistemático
Todos los individuos tiene la misma probabilidad de ser elegidos.
Imaginemos que queremos estudiar alguna característica de todos los pacientes
que llegan a consulta durante un año a los que se le hace una endodoncia en el
año 2018, para una consulta determinada.
Conocemos que se hacen unas 10 endodoncias
al día en dicha consulta.
N= 10*365 =3650 endodoncias al año
Queremos conocer hábitos de higiene
bucodental de 300 de esos pacientes.
Arranque aleatorio-> Cualquier
número elegido al azar entre 1 y k
K= N / n = 3650/300 -> 12
“Salto” o “Intervalo de muestreo”
11
………., 11,…….,23,…….,35,…..…,47,….….,59,……..,71,…..
12
Muestreo estratificado
Imaginemos que deseamos estudiar la estancia hospitalaria
media de los hospitales españoles.
Sabemos que cada hospital tiene un número de camas distinto, por
lo que podemos agruparlos según número de camas.
(N1/N)*n =n1
N1
<150
camas
N2
150 – 550
camas
(N2/N)*n =n2
N3
> 550
camas
(N3/N)*n =n3
N
MAS
n
Muestreo por conglomerados
Mortalidad de pacientes con IAM ingresados en los hospitales españoles.
Ingresos
por IAM Mortalidad
Inferencia estadística (Recordemos)
Estadístico:
Cualquier función de las variables aleatorias observadas
se denomina estadístico:
T(X 1 , X 2 ,..., X n )
Los dos estadísticos mas conocidos son:
la media muestral y la varianza muestral.
2
x
s
La raíz cuadrada de la varianza muestral es la desviación
típica muestral.
s
Inferencia estadística
-Estimación puntual
Provee un solo valor, un valor concreto para la estimación del
parámetro.
Un estimador puntual es simplemente un estadístico (media
aritmética, varianza, etc.) que se emplea para estimar
parámetros (media poblacional, varianza poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a partir
de una muestra, tal valor puede ser empleado como un
estimador para el valor de la media poblacional.
Inferencia estadística
Propiedades deseables en los estimadores
¿cuál es el mejor estimador?
1. Ausencia de sesgo (insesgado).
2. Consistencia
3. Eficiencia
4. Suficiencia
29
Inferencia estadística
Insesgadez:
Posibles Muestras:
1.- 2, 3, 3
Media 1= 2,67
2.- 2, 3, 4
Media 2= 3
3.- 2, 3, 4
2 3 3 4
Población
Media=μ= 3
Si se repite muchas veces el método del
muestreo, entonces, en promedio, el resultado es
igual al parámetro poblacional
Media 3= 3
4.- 3, 3, 4
Media = 3,33
Media de las medias1, media2, media3, media4 igual a 3
Inferencia estadística
Inferencia estadística
Consistencia:
A medida que se incrementa el tamaño muestral,
el estimador se acerca más y más al valor del
parámetro. La “consistencia” es una propiedad
asintótica.
Inferencia estadística
Eficiencia: (Mínima varianza)
Será más eficiente el estimador que tenga una menor
varianza.
Utilizar las varianzas de los estimadores insesgados como
una forma de elegir entre ellos.
La varianza de una variable aleatoria mide la dispersión
alrededor de la media. Menor varianza para una variable
aleatoria significa que, en promedio, sus valores fluctúan
poco alrededor de la media comparados con los valores de
otra variable aleatoria con la misma media y mayor varianza.
Inferencia estadística
Suficiencia:
Diremos que un estimador suficiente del
parámetro si dicho estimador basta por sí solo
para estimar al parámetro . Si el conocimiento
pormenorizado de los elementos la muestra no
añade
ninguna
parámetro.
información
sobre
dicho
Inferencia estadística
Inconvenientes de la estimación puntual:
Sólo tenemos una idea aproximada del valor
del parámetro a estimar, no conociéndose
cómo de buena es la aproximación.
Notas:
Un buen estimador debe cumplir una serie de
características: mínima varianza, insesgadez,...
El estimador de la media poblacional es la media
muestral.
El estimador de la varianza poblacional es la
cuasivarianza muestral.
Inferencia estadística
Ejemplo 1: Deseamos obtener información
sobre la media de la altura de una población.
Elegimos una muestra de n= 40 sujetos.
Estimador y estimación puntual:
µ = x = 1,73m.
Inferencia estadística
Ejemplo 1: Deseamos obtener información
sobre la prevalencia de anemia en una gran
ciudad.
Elegimos una muestra de n= 100 sujetos.
Posibles estimadores y estimaciones puntuales:
nº de casos favorables 25
p=
=
= 0,25
nº de casos posibles
100
Pregunta:
¿Qué porcentaje de hogares españoles tienen
ordenador con conexión a Internet?
¿Definición clara?:
¿Qué es un hogar?
¿Piso de estudiantes?
¿Apartamento en la playa?...
¿Muestra representativa?
Resultado:
42,8 %
¿Si volviéramos a
realizar el
estudio, volvería
a salir 42,8%?
42,8 % ± 3,2 %
Estimación
puntual
Margen
de error
Intervalo de confianza del 95 %
Dice la verdad el
95 % de las veces
Inferencia estadística
Estimación por intervalos de confianza:
Se pretende dar un intervalo de valores, alguno de los
cuales es el verdadero valor del parámetro desconocido,
con una cierta seguridad de que la afirmación sea cierta.
Si el intervalo de confianza es (a, b) a la semiamplitud del
mismo se denomina margen de error.
P( a ≤ μ ≤ b )
(probabilidad de que el
estimador "cubra" el verdadero
valor del parámetro μ),
a
μ
b
Inferencia estadística
Estimación por intervalos de confianza:
Determina dos valores (límites de confianza) entre los que acepta
puede estar el valor del parámetro con una confianza del (1- α)x100%
Observa que el error (no contener al parámetro) es αx100%.
P( a ≤ μ ≤ b ) = 1-α
Nivel de
confianza
1-α
α/2
a
μ
Región Crítica
o de Rechazo
Región de
Aceptación
α/2
b
Región Crítica
o de Rechazo
Inferencia estadística
¿Y cómo fijamos el nivel de confianza?
Usualmente se asume un porcentaje del 95%.
Al calcular un intervalo de confianza al 95%, ello quiere decir que el 95% de las
veces que repitamos el proceso de muestreo (y calculemos el estadístico), el valor
del parámetro poblacional estará dentro de tal intervalo.
Otros casos usuales son:
confianza significativa: 99%.
confianza muy significativa: 99.5%
E tamaño del intervalo disminuye con el aumento del tamaño
muestral
El tamaño del intervalo aumenta al aumentar el nivel de confianza
Nuestra confiabilidad de que el parámetro población se
encuentra dentro de este intervalo de confianza es del 95%
¿Parámetro poblacional?
Es decir, confiamos al
95% que nuestro
intervalo es uno de los
que contiene el valor
poblacional (línea
roja)
Representan al
5% de error que
admitimos en la
estimación
Notica buena
Notica mala
¿cómo sabemos si nuestro intervalo es uno del os que contienen el valor poblacional
o no? Sólo sabemos que tenemos una alta confiabilidad (95%) de que es uno de los
que podría contener el parámetro poblacional.
POBLACIÓN
MUESTRA
Intervalo de Confianza
MUESTRA
%
13/26 =0,5
La proporción de hombre estimada es del
50% con un IC al 95%
[ 28,85; 71,14]
Nuestra confiabilidad de que el
f=n/N= 26/57=0,456 parámetro población se encuentra
dentro de este intervalo de confianza
es del 95%
Inferencia estadística
Para el cálculo de un Intervalo de confianza debemos saber:
Error Típico o Error Estándar
EE
Depende del parámetro que estemos calculando.
Depende de la distribución aleatoria de la variables
sobre la que se busca ese parámetro.
Es una medida de la variabilidad del estimador.
En general, su cálculo explicitó es complicado.
Un intervalo de confianza suele ser la estimación obtenida sobre la muestra
(proporción, media,..) y un margen de error, que no es más que un múltiplo del
error estándar.
Intervalo de confianza
Media de una distribución
normal de varianza
conocida, N(µ, σ)
Parámetro p de una
distribución binomial de
parámetros n y p, B(n,p):
Diferencias de medias de
dos distribuciones
normales con varianzas
conocidas
Diferencia de parámetros p
de dos distribuciones
binomiales
Estimador
Error Estándar
x → N( µ , σ
p̂ =
n
σ
)
n
X
→ N(p, p (1 - p) )
n
n
x1 − x 2 → N( µ1 - µ 2 ,
p̂1 − p̂ 2 → N( p1 - p2 ,
σ
2
1
n1
+
σ
2
2
n2
)
p1 (1 − p1 ) p2 (1 − p2 )
)
+
n1
n2
p̂ (1 - p̂)
n
σ 12
n1
+
σ 22
n2
p1 (1 − p1 ) p2 (1 − p2 )
+
n1
n2
Estimador ± Cuantil · EE (Estimador)
Estimador ± Cuantil · EE (Estimador)
Estimador ± Cuantil · EE
Estimador ± Cuantil · EE (Estimador)
Si el nivel de confianza es :
 1-α = 90 %  Zα = 1,64
 1-α = 95%  Zα = 1,96
 1-α = 99%  Zα = 2,57
2
2
2
Inferencia estadística
¿cuán grande debe de ser el intervalo de confianza?
Evidentemente, si decimos que el intervalo de confianza va de menos
infinito a más infinito, seguro que acertamos...Pero eso no es muy
útil.
El caso extremo contrario es la estimación puntual, donde la
amplitud del intervalo es nula.
La idea es crear unos intervalos de confianza de manera que sepamos
en qué porcentaje de casos el valor del parámetro poblacional estará
dentro del intervalo crítico.
Inferencia estadística
Ejemplo 1: altura
IC0,95: [1,68 ; 1,76]
Ejemplo 2: anemia
IC0,95: [0,16 ; 0,33]
¡Empate técnico!
El País, 18 febrer 2006. Pàgina 18
«Pero curiosamente, parece que las personas que redactan los titulares no entienden el significado de estos
conceptos clave. Por ejemplo, aquí el titular destaca que el PP reduce su distancia al PSOE en 1,6 puntos ...
Pero el texto dice que el error es del 2%, lo que quiere decir que, con la confianza de que lo han calculado , el
valor real podría estar 2 puntos arriba o 2 puntos abajo de lo que ha salido. Que el error sea del 2% significa
que si lo volvieran a hacer, perfectamente podría salir 1 punto el PP por delante del PSOE. El titular correcto
sería que no se han detectado diferencias significativas entre el PP y el PSOE ». Pere Grima
Intervalo de confianza para la
media de una distribución normal
de varianza conocida, N(µ, σ):
σ 

I = x ± Z α /2

n


Muestras superiores a 30, n > 30
Intervalo de confianza para la
media de una distribución
normal de varianza desconocida,
N(µ, σ):
sc 

I = x ± Z α /2

n


Muestras inferiores o iguales a 30,
n ≤ 30
sc 

I =  x ± t α / 2;n −1

n


Ejemplo: Se publica el valor medio de IMC en los varones de una
muestra, de 25-60 años, considerada la más “representativa del país”
con un valor de 25,97 kg/m2 y su desviación estándar fue de 3,59
kg/m2 (Aranceta 2003). Había 4707 varones en la muestra. Se desea
estimar la media poblacional (µ) del IMC con un 95% de confianza
EE =
3.59
= 0.0523
4707

s 

 x ± Zα 2 *

n 
[25.97 ± 1.96 * 0.0523] = [25.87 ; 26.07]
Confiamos que el valor medio poblacional de IMC de varones entre
25-60 años, sea uno de los valores de nuestro intervalo con un nivel
de confianza del 95%.
En un estudio realizado para determinar el estado de salud de una
comunidad se entrevistó a 82 personas, preguntándoles acerca de su
actividad física habitual, 40 fueron hombres y el resto mujeres. De las 36
personas que declararon practicar ejercicio físico de forma regular, 10
eran mujeres y el resto hombres.
Analizar si con una probabilidad del 95% se puede asegurar que
la proporción de practicar deporte es mas alta en hombres que
en mujeres Tenemos que n=82, practican ejercicio 36/82
(43,90%)
Datos:
HOMBRES
MUJERES
n
40
42
P (% práctica ejercicio)
26/40 (65%)
10/42 (23,80%)
Si el nivel de confianza es :
Z
 95%  α = 1,96
2

p H (1 - p H ) p M (1 - p M ) 
+
 p H - p M ± Zα 2 *

nM
nM


Como el intervalo no contiene el cero, no se puede aceptar con un 95% que pH - pM = 0
que , es decir, pH = pM . Por tanto aceptaremos que la proporciones entre hombres y
mujeres que practican deporte es significativamente diferente.
Además, como los dos extremos del intervalo son positivos, para todos sus valores pH pM > 0 pH > pM lo que indica que la proporción de hombres que práctica deporte es
mayor en hombres que en mujeres.
En el estudio descrito se preguntó además por las horas de
sueño de los encuestados. Los resultados expresados en
media y desviación típica se recogen en la tabla adjunta y de
forma separada para aquellos que declararon realizar
ejercicio físico y para los que no:
A nivel de confianza 95%, ¿existen diferencias en los tiempos
medios de sueño entre los individuos que realizan ejercicio
físico y los que no?

 x 1 - x 2 ± Zα 2 *

s12
s 22  
+
 = 8.5 - 7.2 ± 1.96 *
n1 n 2  
[1.3 ±
0.9 2 0.82 
+

36
46 
0.8] = [0.5; 2.1]
Como el intervalo no contiene el cero, no se puede aceptar con un 95%
que la diferencia de medias sea igual a cero , es decir, que ambas
medias coincidan . Por tanto aceptaremos que los tiempos medios de
horas de sueño entre individuos que realizan y los que no realizan
ejercicio es significativamente diferente.
Además, como los dos extremos del intervalo son positivos, para todos
sus valores
x1 - x 2 = 0 → x1 > x 2
lo que indica que la media de horas de sueño en los que practican
deporte es mayor que en los que no practican.
Download