Uploaded by nuclearquimica2

Bioestadística

advertisement
Centro Nacional de
Instituto Epidemiología
de Salud
Carlos III
Roberto Pastor-Barriuso
BIOESTADÍSTICA
Centro Nacional de
Instituto Epidemiología
de Salud
Carlos III
MINISTERIO
DE ECONOMÍA
Y COMPETITIVIDAD
Instituto
de Salud
Carlos III
Centro
Nacional de
Epidemiología
Centro Nacional de Epidemiología
Instituto de Salud Carlos III
Monforte de Lemos, 5
28029 MADRID (ESPAÑA)
Tel.: 91 822 20 00
Fax: 91 387 78 15
http://www.isciii.es
Catálogo general de publicaciones oficiales:
http://publicacionesoficiales.boe.es/
Para obtener este libro de forma gratuita en internet (formato pdf):
http://publicaciones.isciii.es/
http://creativecommons.org/licenses/by-nc-sa/2.1/es/
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGÍA – Instituto de Salud Carlos III
Madrid, diciembre de 2012
N.I.P.O. (en línea): 477-11-083-3
I.S.B.N.: 978-84-695-3775-6
Imprime: Agencia Estatal Boletín Oficial del Estado.
Avda. de Manoteras, 54. 28050 – MADRID
BIOESTADÍSTICA
Roberto Pastor-Barriuso
Científico Titular
Centro Nacional de Epidemiología,
Instituto de Salud Carlos III,
Madrid
Para citar este libro
Pastor-Barriuso R. Bioestadística. Madrid: Centro Nacional de Epidemiología, Instituto de
Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.
A la memoria de Carmen
A Marta, Pablo, Miguel y Antonio
ÍNDICE
1 Estadística descriptiva
1.1 Introducción
1.2 Medidas de tendencia central
1.2.1 Media aritmética
1.2.2 Mediana
1.2.3 Media geométrica
1.3 Medidas de posición: cuantiles
1.4 Medidas de dispersión
1.4.1 Varianza y desviación típica
1.4.2 Rango intercuartílico
1.4.3 Coeficiente de variación
1.5 Representaciones gráficas
1.5.1 Diagrama de barras
1.5.2 Histograma y polígono de frecuencias
1.5.3 Gráfico de tallo y hojas
1.5.4 Diagrama de caja
1.6 Referencias
2 Probabilidad
2.1
2.2
2.3
2.4
2.5
2.6
Introducción
Concepto y definiciones de probabilidad
Probabilidad condicional e independencia de sucesos
Regla de la probabilidad total
Teorema de Bayes
Referencias
3 Variables aleatorias y distribuciones de probabilidad
3.1 Introducción
3.2 Distribuciones de probabilidad discretas
3.2.1 Distribución binomial
3.2.2 Distribución de Poisson
3.2.3 Aproximación de Poisson a la distribución binomial
3.3 Distribuciones de probabilidad continuas
3.3.1 Distribución normal
3.3.2 Aproximación normal a la distribución binomial
3.3.3 Aproximación normal a la distribución de Poisson
3.4 Combinación lineal de variables aleatorias
3.5 Referencias
1
1
3
3
4
5
5
6
6
7
7
8
8
9
10
11
12
13
13
14
16
18
18
20
21
21
22
24
26
29
29
31
34
36
37
39
vii
Índice
4 Principios de muestreo y estimación
4.1 Introducción
4.2 Principales tipos de muestreo probabilístico
4.2.1 Muestreo aleatorio simple
4.2.2 Muestreo sistemático
4.2.3 Muestreo estratificado
4.2.4 Muestreo por conglomerados
4.2.5 Muestreo polietápico
4.3 Estimación en el muestreo aleatorio simple
4.3.1 Estimación puntual de una media poblacional
4.3.2 Error estándar de la media muestral
4.3.3 Teorema central del límite
4.3.4 Estimación de una proporción poblacional
4.4 Referencias
5 Inferencia estadística
5.1 Introducción
5.2 Estimación puntual
5.3 Estimación por intervalo
5.3.1 Distribución t de Student
5.3.2 Intervalo de confianza para una media poblacional
5.4 Contraste de hipótesis
5.4.1 Formulación de hipótesis
5.4.2 Contraste estadístico para la media de una población
5.4.3 Errores y potencia de un contraste de hipótesis
5.5 Referencias
6 Inferencia sobre medias
6.1 Introducción
6.2 Inferencia sobre una media y varianza poblacional
6.2.1 Inferencia sobre la media de una población
6.2.2 Inferencia sobre la varianza de una población
6.3 Comparación de medias en dos muestras independientes
6.3.1 Comparación de medias en distribuciones con igual varianza
6.3.2 Contraste para la igualdad de varianzas
6.3.3 Comparación de medias en distribuciones con distinta varianza
6.4 Comparación de medias en dos muestras dependientes
6.5 Referencias
viii
41
41
42
43
43
44
46
47
49
49
51
53
55
58
59
59
60
62
62
63
67
67
69
72
76
79
79
80
80
81
83
85
88
90
92
95
Índice
7 Inferencia sobre proporciones
7.1
7.2
7.3
7.4
7.5
7.6
Introducción
Inferencia sobre una proporción poblacional
Comparación de proporciones en dos muestras independientes
Asociación estadística en una tabla de contingencia
Test de tendencia en una tabla r×2
Medidas de efecto en una tabla de contingencia
7.6.1 Riesgo relativo
7.6.2 Odds ratio
7.7 Comparación de proporciones en dos muestras dependientes
7.8 Apéndice: corrección por continuidad
7.9 Referencias
8 Métodos no paramétricos
8.1
8.2
8.3
8.4
8.5
Introducción
Test de la suma de rangos de Wilcoxon
Test de los rangos con signo de Wilcoxon
Test exacto de Fisher
Referencias
9 Determinación del tamaño muestral
9.1 Introducción
9.2 Tamaño muestral para la estimación de un parámetro poblacional
9.2.1 Tamaño muestral para la estimación de una media
9.2.2 Tamaño muestral para la estimación de una proporción
9.3 Tamaño muestral para la comparación de medias
9.3.1 Tamaño muestral para la comparación de medias en dos muestras
independientes
9.3.2 Tamaño muestral para la comparación de medias en dos muestras
dependientes
9.4 Tamaño muestral para la comparación de proporciones
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras
independientes
9.4.2 Tamaño muestral para la comparación de proporciones en dos muestras
dependientes
9.5 Referencias
10 Correlación y regresión lineal simple
10.1 Introducción
10.2 Coeficiente de correlación
97
97
97
99
102
106
107
108
111
114
117
120
121
121
122
129
134
138
139
139
140
140
141
142
143
146
148
148
152
154
155
155
155
ix
Índice
10.2.1 Coeficiente de correlación muestral de Pearson
10.2.2 Coeficiente de correlación de los rangos de Spearman
10.3 Regresión lineal simple
10.3.1 Estimación de la recta de regresión
10.3.2 Contraste del modelo de regresión lineal simple
10.3.3 Inferencia sobre los parámetros de la recta de regresión
10.3.4 Bandas de confianza y predicción para la recta de regresión
10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple
10.3.6 Observaciones atípicas e influyentes
10.3.7 Variable explicativa dicotómica
10.4 Referencias
11 Regresión lineal múltiple
11.1 Introducción
11.2 Estructura de la regresión lineal múltiple
11.3 Estimación e inferencia de la ecuación de regresión
11.3.1 Estimación de los coeficientes de regresión
11.3.2 Inferencia sobre los coeficientes de regresión
11.3.3 Inferencia sobre la ecuación de regresión
11.4 Contrastes de hipótesis en regresión lineal múltiple
11.4.1 Contraste global del modelo de regresión lineal múltiple
11.4.2 Contrastes parciales
11.5 Variables explicativas politómicas
11.6 Regresión polinomial
11.7 Confusión e interacción en regresión lineal
11.7.1 Control de la confusión en regresión lineal
11.7.2 Evaluación de la interacción en regresión lineal
11.8 Apéndice: formulación matricial de la regresión lineal múltiple
11.9 Referencias
Apéndice: tablas estadísticas
x
158
161
164
166
169
173
175
178
184
190
191
193
193
194
196
197
200
201
203
203
206
210
215
218
218
221
228
232
233
TEMA 1
ESTADÍSTICA DESCRIPTIVA
1.1
INTRODUCCIÓN
La estadística es la rama de las matemáticas aplicadas que permite estudiar fenómenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biológicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. Así, al realizar observaciones en clínica o en salud pública, los resultados obtenidos
contienen una parte sistemática o estructural, que aporta información sobre las relaciones entre
las variables estudiadas, y una parte de “ruido” aleatorio. El objeto de la estadística consiste en
extraer la máxima información sobre estas relaciones estructurales a partir de los datos recogidos.
En estadística se distinguen dos grandes grupos de técnicas:
yy La estadística descriptiva, en la que se estudian las técnicas necesarias para la organización,
presentación y resumen de los datos obtenidos.
yy La estadística inferencial, en la que se estudian las bases lógicas y las técnicas mediante
las cuales pueden establecerse conclusiones sobre la población a estudio a partir de los
resultados obtenidos en una muestra.
El análisis de una base de datos siempre partirá de técnicas simples de resumen de los datos y
presentación de los resultados. A partir de estos resultados iniciales, y en función del diseño del
estudio y de las hipótesis preestablecidas, se aplicarán las técnicas de inferencia estadística que
permitirán obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las técnicas de estadística descriptiva no precisan de asunciones para su
interpretación, pero en contrapartida la información que proporcionan no es fácilmente
generalizable. La estadística inferencial permite esta generalización, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuación se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposición:
yy Población es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenómeno.
yy Muestra es un subconjunto de la población seleccionado mediante un mecanismo más o
menos explícito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la población y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.
Ejemplo 1.1 Algunos ejemplos de poblaciones son:
—— Las personas residentes en Washington D.C. a 1 de enero de 2010.
—— Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a día de
hoy.
Pastor-Barriuso R.
1
Estadística descriptiva
Para estas poblaciones, algunas muestras podrían ser:
— 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante
llamadas telefónicas aleatorias.
— Todas las personas que acuden a un hospital de Río de Janeiro durante el presente año
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser
positivas.
yy Variables son propiedades o cualidades que presentan los elementos de una población.
Las variables pueden clasificarse en:
ƒƒ Variables cualitativas o atributos son aquellas que no pueden medirse numéricamente
y que, a su vez, pueden ser:
—— Nominales, en las que no pueden ordenarse las diferentes categorías.
—— Ordinales, en las que pueden ordenarse las categorías, pero no puede establecerse
la distancia relativa entre las mismas.
ƒƒ Variables cuantitativas son aquellas que tienen una interpretación numérica y que se
subdividen en:
—— Discretas, sólo pueden tomar unos valores concretos dentro de un intervalo.
—— Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la práctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los análisis posteriores,
la principal distinción se establece, por tanto, entre variables con relativamente pocas
categorías (como número de hijos) frente a variables con muchas categorías (como
niveles de colesterol en sangre).
Ejemplo 1.2 Algunos ejemplos de variables son:
—— Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo,
separado, divorciado), religión (católico, protestante, otros), nacionalidad.
—— Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad
de la enfermedad (leve, moderada, grave). Por ejemplo, para esta última variable
ordinal, podemos establecer un orden de severidad, pero no podemos decir que la
diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre
uno grave y uno moderado.
—— Variables cuantitativas discretas: número de hijos, número de dientes cariados.
—— Variables cuantitativas continuas: edad, peso, altura, presión arterial, niveles de
colesterol en sangre.
yy Estadístico es cualquier operación realizada sobre los valores de una variable.
yy Parámetro es un valor de la población sobre el que se desea realizar inferencias a partir
de estadísticos obtenidos de la muestra, que en este caso se denominan estimadores. Por
convención, los parámetros poblacionales se denotan con letras del alfabeto griego,
mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.
2
Pastor-Barriuso R.
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
Medidas de tendencia central
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
Ejemplo 1.3 Algunos ejemplos de estadísticos incluyen:
1.2 MEDIDAS DE TENDENCIA CENTRAL
describendelos
principales
—— La media de continuación
los valores desecolesterol
una
muestra. estimadores de la tendencia central de una
—— El valor
más variable.
alto de
colesterol
de unaacerca
muestra.
Las medidas
de tendencia
central
informan
de cuál es el valor más representativo
—— La suma de los valores de colesterol de una muestra elevados al cuadrado.
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Así, por ejemplo,1.2.1
la media
delaritmética
colesterol en una población, que se denotaría por μ, es un
Media
parámetro
que
se
estima
a
partir
de la media de los valores de colesterol en una muestra
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
alrededor
de
qué
valor
se
agrupan
los
datos
observados.
medidas
delatendencia
se define
como
suma de cada uno de los
La media aritmética,
denotada
por
obtenida de esa población,
que se representaría
por x ., Las
Las
detema,
tendencia
central
acerca
deresultados
es elpara
valor
más representativo
central
la muestra
sirven
tanto
para resumir
los
observados
como
para
En medidas
elde
presente
se
revisan
las informan
herramientas
fundamentales
la realización
derealizadas.
un
análisisSi denotamos
valores
muestrales
dividida
por
elcuál
número
de
observaciones
descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia
de unaposición
determinada
variable
o,los
dicho
de forma
equivalente,
estos
estimadores
indican
central,
y dispersión
como
mediante
la utilización
representaciones
gráficas.
realizar
inferencias
acerca
de
parámetros
correspondientes.
A
por n el
tamaño
muestral
ypoblacionales
por xi el de
valor
observado
para
el
sujeto
i-ésimo, i = 1, ..., n,
alrededor de se
quédescriben
valor
se agrupan
los dada
datosestimadores
observados. de
Laslamedidas
de tendencia
la media
por
continuación
los vendría
principales
tendencia
central de una
1.2 MEDIDAS DE TENDENCIA CENTRAL
central de la muestra sirven tanto para resumir los resultados observados como para
variable.
n
... + x n
x1 +más
x 2 +representativo
1 es
Las medidas de tendencia central informan acerca de
cuál
de una
.
x=
xeli =valor

determinada
variable acerca
o, dichodedelos
forma
equivalente,
estos
estimadores
indican
alrededor
de qué
realizar inferencias
parámetros
poblacionales
correspondientes.
A
n i =1
n
valor se
agrupan
los datos observados. Las medidas de tendencia central de la muestra sirven
1.2.1
Media
aritmética
tanto
para resumir
los resultados
observados
como para
inferencias
continuación
se describen
los principales
estimadores
de larealizar
tendencia
central deacerca
una de los
La
media
es
la
medida
de
tendencia
central
más
utilizada
yprincipales
de más fácil
parámetros
poblacionales
correspondientes.
A continuación
sededescriben
como la suma
cada unolos
de los
La
media aritmética,
denotada
por x , se define
estimadores
variable. de la tendencia central de una variable.
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.2.1 Media
principal limitación es que está muy influenciada por los valores extremos y, en este
1.2.1
Media aritmética
aritmética
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
mediaaritmética,
aritmética,caso,
denotada
como
lalasuma
dede
cada
unouno
dede
los
LaLamedia
denotada
por
,, seundefine
define
comode
cada
delalos
valores
puede
noxser
fiel reflejo
lasuma
tendencia
central
distribución.
muestrales
divididadada
por por
el número de observaciones realizadas. Si denotamos por n el tamaño
la
media vendría
valores ymuestrales
dividida
por el para
número
de observaciones
Si denotamos
muestral
por xi el valor
observado
el sujeto
i-ésimo, i = 1,realizadas.
..., n, la media
vendría dada por
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n
... +elx nsujeto i-ésimo, i = 1, ..., n,
x1 + x 2 +para
1 valor
por n el tamaño muestral y por
.
x =xi el
x i =observado
utilizarán
colesterol HDL obtenidos en los 10 primeros sujetos del
n i =los
1 valores del n
la media vendría dada por
La media es la medida de
tendencia
centralStudy
más on
utilizada
y de más
fácil interpretación.
estudio
“European
Antioxidants,
Myocardial
Infarction and Cancer of
Corresponde
de gravedad”
de los
datos más
de lautilizada
muestra. ySudeprincipal
limitación es que
La media al
es“centro
la medida
de tendencia
central
más
fácil
... +caso,
x1 +y, xen
x n puede no ser un fiel reflejo de la
1 nextremos
está muy influenciada por losthe
valores
este
2 +
un estudio
multicéntrico de casos y controles realizado
.
= 
xBreast“
x(EURAMIC),
i =
tendencia centralCorresponde
de la distribución.
n i =1 de gravedad”
n de los datos de la muestra. Su
interpretación.
al “centro
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Ejemplo
1.4 En
esteestá
y de
enmuy
los influenciada
sucesivos
ejemplos
estimadores
muestrales,
principal
limitación
es
por infarto
los sobre
valores
extremos
y,
en en
este se
antioxidantes
el que
riesgo
desarrollar
unmás
primer
agudo
de
miocardio
La
media
es laen
medida
de tendencia
central
utilizada
y de
más
fácil
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio
“European
Study
on valores
Antioxidants,
Myocardial
Infarction
and 1,29,
Cancer
of 0,84,
the Breast”
hombres
adultos.
obtenidos
fueroncentral
0,89,
1,58,
1,42,
caso,
puede no
ser
unLos
fiel
reflejo
de
la de
tendencia
dedatos
la0,79,
distribución.
interpretación.
Corresponde
al “centro
gravedad”
de los
de la muestra.
Su
(EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992
en ocho países Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo
1,06,
0,87,
1,96 yes1,53
media de los
del colesterol
en
principal
limitación
que mmol/l.
está muyLa
influenciada
porniveles
los valores
extremos HDL
y, en este
de
desarrollar
un este
primer
agudo deejemplos
miocardio
en hombres
adultos.
Los valores
Ejemplo
1.4 En
y eninfarto
los sucesivos
sobre
estimadores
muestrales,
se
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La
caso,
puede
no ser un fiel es
reflejo de la tendencia central de la distribución.
estos
10 participantes
media de los niveles del colesterol HDL en estos 10 participantes es
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
1 10y en los0,sucesivos
89 + 1,58 +ejemplos
... + 1,53sobre estimadores muestrales, se
Ejemplo
1.4 xEn
= esteStudy
x i =on Antioxidants,
= 1,223Infarction
mmol/l. and Cancer of
estudio
“European
Myocardial

10 i =1
10
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
estudio
“European
Studylas
onsiguientes
Antioxidants,
Myocardial Infarction and Cancer
of
Pastor-Barriuso
R.
La media
aritmética
presenta
propiedades:
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
•
the Breast“
(EURAMIC),
un Si
estudio
multicéntrico
de casos
y controles
Cambio
de origen
(traslación).
se suma
una constante
a cada
uno de losrealizado
datos
3

iLa media de los niveles del colesterol HDL en
1,06, 0,87,MEDIDAS
1,96
y 1,53
mmol/l.
de una
variable
o,
dicho de
forma
estimadores indican
10TENDENCIA
10
DE
CENTRAL
i =1
antioxidantes 1.2
en el riesgo
dedeterminada
desarrollar
un primer
de equivalente,
miocardio
enestoscorrespondientes.
realizar
inferencias
acercainfarto
de los agudo
parámetros
poblacionales
A
estos 10 participantes
esde qué valor se agrupan los datos observados. Las medidas de tendencia
alrededor
hombres adultos.
Los
valores
obtenidossecentral
fueron
0,89,
1,58,
0,79, 1,29,
1,42,
Estadística
descriptiva
Las
medidas
de tendencia
informan
acerca
de estimadores
cuál
es el0,84,
valor
representativo
continuación
describen
los
principales
de lamás
tendencia
central de una
La media aritmética presenta las siguientes propiedades:
central
sirven
tanto
losHDL
resultados
observados como para
1,06, 0,87, 1,96
1,53
mmol/l.
media
niveles
delresumir
colesterol
en estimadores
+o,1,los
+
+ 1para
1de10laLamuestra
0,89 de
58
...de
,53
de yuna
determinada
variable
dicho
forma
equivalente,
estos
indican
variable.
x
x
=
1,223
mmol/l.
=
=

i
• Cambio de origen
(traslación).
Si se suma una constante a cada uno de los datos
10
10
La media aritmética
presenta las siguientes propiedades:
i =1
realizar inferencias
acerca de los parámetros poblacionales correspondientes. A
estos 10 participantes
alrededoresde qué valor se agrupan los datos observados. Las medidas de tendencia
Cambio
deMedia
origende
(traslación).
Si se sumaesuna
constante
a cada
unomás
de los
de unayymuestra,
media
la muestra resultante
igual
a la media
inicial
la datos de una
1.2.1la
aritmética
muestra,
la
media
de
la
muestra
resultante
es
igual
a
la
media
inicial
más
la constante
continuación
se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
La mediacentral
aritmética
las
siguientes
propiedades:
de10 lapresenta
muestra
sirven
tanto
para
resumir los resultados observados como para
+
+
+
1
0
,
89
1
,
58
...
1
,
53
=i =xxi i++ c,
= mmol/l.
Un cambio
cambio
origen
que se
si siyiyaritmética,
c, entonces
ypor
Un
origen
constante
utilizada;
media
denotada
x ,++secc..define
como de
ladesuma
deque
cada
unorealiza
de loscon
x = utilizada;
xLa
= 1,223

i =
10variable.
10
frecuencia
es el centrado
de la variable, que consiste en restar a cada valor de la muestra
i =1
• Cambio
de origen
(traslación).
Side
se los
suma
una constante
a cada uno
de los datos
realizar
inferencias
acerca
parámetros
poblacionales
correspondientes.
A
sucon
media.
Lamuestrales
media
decentrado
una
variable
será,
por
tanto,enigual
a 0.a
valores
dividida
porlacentrada
elvariable,
número
de observaciones
realizadas.
Si denotamos
se realiza
frecuencia
es el
de
que
consiste
restar
yy 1.2.1
Cambio
escala
(unidades).
Si seestimadores
multiplica
cada
de losmás
datos
de unacontinuación
muestra,
la Media
media
de
la muestra
resultante
es igual a la
inicial
la de
sede
describen
los principales
demedia
la uno
tendencia
central
deuna
una muestra por
aritmética
media aritmética
lasmuestra
propiedades:
el una
valorvariable
observado
el
sujeto
i = 1, ..., n,
por
nsiguientes
el tamaño
muestral
ymedia
por xide
cada presenta
valor
la
media.
Lamuestra
centrada
será,
por i-ésimo,
unade
constante,
la su
media
de la
resultante
es igual
a para
la media
inicial
por la constante
entonces
== cxx .,+sec.define
utilizada;
si
ci,, entonces
Un cambio
que
constante
utilizada;
si yaritmética,
comode
la origen
suma de
cada uno de los
La
media
denotadaypor
variable.
i =yx
i +cx
i =
Cambio de origen
Si se
suma
una constante
a cada uno de los datos
vendría
dada
por
tanto, (traslación).
igual ala0.media
yy Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de una
valores
muestrales
dividida
el
número
de
observaciones
realizadas.
Si denotamos
se realiza
con
frecuencia
es
el constante
centrado
depor
laresultado
variable,
que
consiste
enmás
restar
a la media
muestra
por
una
ales
le
suma
otra
constante,
de la muestra
de una muestra,
la
media
dearitmética
la
muestra
resultante
igual
acada
lanse
media
inicial
la
1.2.1
Media
• Cambio
de escala
(unidades).
Si seymultiplica
uno
de
los
datos
de
una
+
+
...
+
x
x
x
1
1
2
n
resultante es igual a la media inicial
por la primera
constante, más. la segunda constante; si
x =valor
xi =

por
n=c el
tamaño
muestral
ymedia
por
xse
observado
paraque
elcada
sujeto
i eluna
cada
valor
desi
lay=iaritmética,
muestra
su
media.
La
de
variable
centrada
será,
por i-ésimo,
n
x
+
c
,
entonces
=
c
+
c
.
y
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
constante
utilizada;
La
media
denotada
por
x
,
define
como
la
suma
de los i = 1, ..., n,
=
i
1
i
1 ii constante,
2
muestra por
una
la media1 de la2muestra resultante esnde
igual
a launo
media
media vendría dada por
tanto, igual
ala0.
valores
muestrales
dividida
el
devalores
observaciones
denotamos
Ejemplo
1.5
Para
transformar
los
colesterol
mmol/l
se realiza coninicial
frecuencia
el
la
variable,
que
consiste
en= restar
a HDLSi
yi =decxtendencia
ydel
cmás
x realizadas.
. utilizada
por
laes
constante
utilizada;
si número
i, entonces
Lacentrado
media
esde
lapor
medida
central
y de
de
más fácila mg/dl se
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del cambio de
• Cambio de escala (unidades). Si se multiplica cada
n uno de los datos de una
valor
observado
sujeto
=de1,la...,
n,
por
n elescala,
tamaño
yCorresponde
por
xde
+el
...uno
+por
x +para
xcada
xde
1alse
lamuestral
media
del
colesterol
HDL
encentrada
mg/dl
se
calcularía
directamente
amuestra.
partir
de
i el
cada valor• deCambio
la muestra
su
media.
media
una
variable
2 será,
ndei-ésimo,
interpretación.
“centro
los
datosi de
Susu
simultáneo
deLa
origen
y escala.
Si
multiplica
datos
. los
x= 
x i = 1de gravedad”
media en mmol/l como 1,223·38,8
=
47,45
mg/dl.
n i =1 resultante esnigual a la media
muestra
unavendría
constante,
lapor
media de la muestra
la por
media
dada
tanto, igual auna
0.
limitacióny es
que está muy
por los valores
extremos y, en este
muestra principal
por una constante
al resultado
se leinfluenciada
suma otra constante,
la media
cxtendencia
y = c más
x . utilizada y de más fácil
inicial por
la constante
utilizada;
si yi =de
1.2.2
Mediana
i, entoncescentral
La media
es multiplica
la medida
Cambio de escala
(unidades).
Si
se
uno de
los
caso,
puede
noigual
ser un
fielnmedia
reflejo
tendencia
central
de la distribución.
de la muestra
resultante
es
acada
inicial
por
la+deprimera
constante,
más la
+ xladatos
+
...
x1 de
xuna
1la
2
n
.
x =  xi =
La
mediana
es origen
el valor
un variable
que deja
por
ellos50%
dede
losladatos
de laSumuestra
n al
n encima
interpretación.
Corresponde
deesgravedad”
de
datos
de
muestra.
• Cambio
simultáneo
de
y de
escala.
Si
multiplica
cada
unolade
los
datos
=1 “centro
i se
muestra
por una
muestra
resultante
media
=50%.
cla
c2, entonces
= c1igual
x + aces
segunda
si yi de
1 xi +
2. necesario ordenar los valores de la
y constante,
por constante;
debajolaelmedia
otro
Para
calcular
lay mediana,
Ejemplo
1.4 En
este
y en los
sucesivos
ejemplos la
sobre
estimadores
muestrales,
se
muestra
de menor
a mayor.
Si el
tamaño
muestral
nconstante,
es
mediana
viene
dada
principal
limitación
esi,resultado
que
está
muy
porimpar,
los valores
extremos
y, en
estepor el
unalamuestra
por
una
constante
al
se
suma
la
media
cx
entonces
y le=influenciada
c xmás
. otra
inicial por
constante
utilizada;
si yi =y de
La
media
es
la
medida
tendencia
central
utilizada
y
de
más
fácil
valor (n + 1)/2-ésimo. Si n es par, la mediana viene dada por la media aritmética de los
utilizarán
loslosvalores
deldelcolesterol
HDL
en
los
10 primeros
sujetos del
Ejemplo
1.5
Para
transformar
valores
colesterol
HDL
dede
mmol/l
aque
mg/dl
se influenciada
valores
(n/2)
y (n/2
+ser
1)-ésimos.
La inicial
principal
ventaja
de
laobtenidos
mediana
es
caso,
puede
un
fiel
reflejo
de lapor
tendencia
central
la distribución.
de la muestra
resultante
esnoigual
a laal
media
la primera
constante,
más
lano está
interpretación.
Corresponde
“centro
de
gravedad”
de
los
datos
de
la
muestra.
Su
Cambio simultáneo
de
origen
y
escala.
Si
se
multiplica
cada
uno
de
los
datos
de
por los valores extremos. No obstante, se utiliza menos que la media como medida de
estudio
Study
on Antioxidants,
Infarction and Cancer of
multiplica
porcentral
de “European
conversión
38,8. estadístico
Así,
utilizando
la Myocardial
propiedad
tendencia
porque
su tratamiento
es más
complejo.del
segunda
constante;
sielyfactor
i = c1xi + c2, entonces y = c1 x + c2.
principal
limitación
es
que
está
muy
influenciada
por
los
valores
extremos
y, en muestrales,
este
una muestra por
una constante
y
al
resultado
se
le
suma
otra
constante,
la
media
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores
se
themedia
Breast“
(EURAMIC),
unen
estudio
multicéntrico
de casos y controles realizado
cambio de
escala,
la
del
colesterol
HDL
mg/dl
se
calcularía
Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio
puedeesno
ser un
reflejo
de
lapor
tendencia
central
de la distribución.
de la muestra caso,
resultante
igual
a lafiel
media
inicial
la primera
constante,
más
utilizarán
valores
del
colesterol
HDL
obtenidos
enala
los
10 primeros
sujetos
EURAMIC,
se los
ordena
en primer
lugar los
valores
de
menor
a mayor;
esto es,
0,79, del
0,84,
Ejemplo 1.5 Para
transformar
los
valores
del
colesterol
HDL
de
mmol/l
se
entre
1991
y 1992
en ochocomo
países1,223
Europeos
e 47,45
Israelmg/dl
para
evaluar el efecto de los
⋅
38,8
=
mg/dl.
directamente
a
partir
de
su
media
en
mmol/l
0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamaño muestral es par
c1xi + c2“European
, entonces yStudy
= c1on
x + c2 .
segunda constante; si yi = estudio
Infarction
and Cancer
of 6º),
(n
10),
la
mediana
la media
de
los
dos valores
centrales
(en este
caso,
el se
5º y el
multiplica por
el=factor
deEn
conversión
38,8.
Así,Antioxidants,
utilizando
la Myocardial
propiedad
del
Ejemplo
1.4
este yserá
en los
sucesivos
ejemplos
sobre
estimadores
muestrales,
que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l.
5
6
themedia
Breast“
(EURAMIC),
unen
estudio
multicéntrico
de casos y controles realizado
cambio de escala,
la
del
colesterol
HDL
mg/dl
se
calcularía
utilizarán los
los 10 se
primeros sujetos del
Ejemplo 1.5 Para transformar
losvalores
valoresdel
delcolesterol
colesterolHDL
HDLobtenidos
de mmol/lena mg/dl
Comparación de la media aritmética y la mediana. En las distribuciones simétricas
entre
1991
y 1992
en ocho
países
Europeos
Israeles
para
evaluar el efectoigual
de losa la
(ambas
colas
lamedia
distribución
soncomo
semejantes),
la =emedia
aproximadamente
⋅38,8
47,45
mg/dl.
directamente
a partir
dedesu
en Así,
mmol/l
1,223
estudio
“European
Study
on Antioxidants,
Myocardial
and Cancer of
multiplica
por el
factor
de conversión
38,8.
utilizando
la propiedad
delInfarction
mediana. En distribuciones sesgadas positivamente (la cola superior de la distribución es mayor
quelathe
lamedia
inferior),
la media HDL
tiende
ser mayor
que la mediana;
querealizado
en distribuciones
Breast“
(EURAMIC),
unenaestudio
multicéntrico
de casosmientras
y controles
5
cambio de escala,
del colesterol
mg/dl
se
calcularía
6
sesgadas negativamente (la cola inferior de la distribución es mayor que la superior), la media
tiende a ser
menor
que en
la mediana.
LaEuropeos
comparación
de lapara
media y la mediana permite evaluar,
1991
y 1992
ocho
países
Israel
⋅38,8 = e47,45
mg/dl.evaluar el efecto de los
directamente a partirentre
de su
media
en mmol/l
como
1,223
por tanto, la asimetría de una distribución.
6
Ejemplo 1.7 En la muestra del estudio EURAMIC la media
del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribución de estos 10 valores del colesterol HDL es aproximadamente
simétrica con un leve sesgo positivo.
4
Pastor-Barriuso R.
 de estos

consecuencia, la distribución
del
HDL es
x G =  ∏
x i  10
= nvalores
x1 x 2 ⋅ ...
⋅ xcolesterol
n .
 i =1 
aproximadamente simétrica con un leve sesgo positivo.
Medidas de posición: cuantiles
1.2.3 Media geométrica
En la práctica, la forma más sencilla de calcular la media geométrica consiste en
La1.2.3
media geométrica,
denotada por xG , se define como la raíz n-ésima del producto de
1.2.3 Media
Mediageométrica
geométrica
calcular
primero
el logaritmo de cada valor muestral, hallar a continuación la media de
los
valores
de una muestra
de tamaño
La
mediageométrica,
geométrica,
denotada
por la
xGn,
lalaraíz
La
media
denotada
,, se define
define como
como
raízn-ésima
n-ésima
delproducto
producto
los
logaritmos
y deshacer
finalmente
transformación
logarítmica.
Paradel
calcular
losdede los
valores de una muestra de tamaño n,
los valores
una muestra
de tamaño
n, 1 / n y cuando el logaritmo y el
logaritmos
se de
puede
usar cualquier
base,
 n siempre

x G =  ∏ x i  = n x1 x 2 ⋅ ... ⋅ x n .
1
 i =Notar
 1que
/n
antilogaritmo estén en la misma base.
la media geométrica sólo puede
 n

x i calcular
= n x1lax 2media
⋅ ... ⋅ x ngeométrica
.
En la práctica, la forma más xsencilla
consiste en calcular
G =
 ∏de
=
1
i


emplearse
como
medida
de
tendencia
central
en
variables
que
toman
valores
primero
el
logaritmo
de
cada
valor
muestral,
hallar
a
continuación
la
media
de positivos.
losenlogaritmos y
En la práctica, la forma más sencilla de calcular la media geométrica consiste
deshacer finalmente la transformación logarítmica. Para calcular los logaritmos se puede usar
cualquier
base, siempre
ymás
cuando
el logaritmo
y ellaantilogaritmo
estén en
la misma
base.deNotar
calcular
primero
logaritmo
de cada
valor
muestral,
hallar
a continuación
laen
media
En la práctica,
laelforma
sencilla
de
calcular
media
geométrica
consiste
Ejemplo
1.8
Para
calcular
la
media
geométrica
del
colesterol
HDL
en
la
muestra
que la media geométrica sólo puede emplearse como medida de tendencia central en variables
que
tomanprimero
valores
los
logaritmos
y deshacer
finalmente
transformación
logarítmica.
Para calcular
calcular
elpositivos.
logaritmo
de cadalavalor
muestral, hallar
a continuación
la medialos
de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
1.8
Para
calcular
labase,
media
geométrica
del
colesterol
HDL
en la muestra
del
los logaritmos
y deshacer
finalmente
la transformación
logarítmica.
Para
los
logaritmos
se puede
usar cualquier
siempre
y cuando
el logaritmo
ycalcular
el
valores
yEURAMIC,
a continuación
se calcula
suelmedia
aritmética,
estudio
se
halla
primero
logaritmo
natural
de
cada
uno
de
los
valores
ya
consecuencia, la distribución de estos 10 valores del colesterol HDL es
continuación
se
calcula
su media
aritmética,
logaritmos
seestén
puede
cualquier
base,
siempre
el logaritmosólo
y elpuede
antilogaritmo
enusar
la misma
base.
Notar
que lay cuando
media geométrica
aproximadamente simétrica
log(0sesgo
,89) +positivo.
... + log(1,53)
1 10 con un leve
log
log
x
=
x
=
antilogaritmo
estén
en
la
misma
base.
Notar
que
la
media geométrica
sólo puede

i
emplearse como medida deGtendencia
central
en
variables
10 i =1
10que toman valores positivos.
,425
− 0,117central
+ ... + 0en
emplearse como medida de tendencia
variables que toman valores positivos.
= 0,155.
1.2.3 Media geométrica=
10geométrica del colesterol HDL en la muestra
Ejemplo 1.8 Para calcular la media
La
mediageométrica,
geométrica
es, porlatanto,
=colesterol
1,168
La
media
denotada
por xGgeométrica
,=seexp(0,155)
define del
como
la raízmmol/l.
n-ésimaendel
producto de
Ejemplo
Para calcular
media
muestra
del
estudio1.8
EURAMIC,
se halla
primero el logaritmo
naturalHDL
de cada la
uno
de los
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual
que la
la media
geométrica
útil comonatural
medidade
decada
tendencia
valores
demediana,
una muestra
dehalla
tamaño
n, eleslogaritmo
del
estudio
EURAMIC,
se
primero
uno decentral
los para
valores
a continuación
seque
calcula
su media
aritmética,
variables
muyyasimétricas,
en las
un pequeño
grupo
de observaciones extremas tienen una
excesiva
influencia
sobre la la
media
La1 /media
geométrica
tiene
ventaja adicional de
valores
continuación
se aritmética.
calcula
su media
aritmética,
Al igual
que ylaamediana,
media
geométrica
es
como medida
delatendencia
n útil
n
10  sencillo

presentar un tratamiento estadístico
más
que
la
mediana.
1,53)
1
x1)x 2+ ⋅...
...+⋅ xlog(
 ∏x x i= log(=0n,89
n .
log xG = x G= log
i
central para variables muy asimétricas,
en
las
que
un
pequeño
grupo
de) observaciones
 i =1  log(0,89) + 10
10
=1
... + log(1,53
1 i10
log x G =  log x i =
− 0,i117
+ ... + 0,425
10 .
=1
1.3 MEDIDAS
POSICIÓN:
= 10 CUANTILES
= aritmética.
0,155
extremas
tienen unaDE
excesiva
influencia
sobre la media
La media geométrica
En la práctica, la forma más sencilla
de
calcular
la
media
geométrica consiste en
− 0,117 +10... + 0,425
. respecto al resto de la muestra.
= 0,155con
Los cuantiles indican la posición=relativa de una observación
8
10
calcular primero
el logaritmo
de cadamás
valor
muestral, hallar a continuación la media de
A continuación
se describen
los cuantiles
utilizados:
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLa
logaritmos
y deshacer
Para calcular los
media geométrica
es,finalmente
por tanto, laxGtransformación
= exp(0,155) =logarítmica.
1,168 mmol/l.
datos por debajo de ellos. Así, por ejemplo,
el percentil 10 es el valor superior al 10% de
las
observaciones,
pero inferior
90% restante.
Lacomo
mediana
corresponde,
por tanto, al
Allogaritmos
igual
que se
la mediana,
media al
geométrica
es útil
medida
de tendencia
puede usarlacualquier
base, siempre
y cuando
el logaritmo
y el
percentil 50. En una muestra de tamaño n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geométrica es útil como medida de tendencia
percentil
p-ésimo
seendefine
como:
antilogaritmo
estén
la
misma
base.
que
media geométrica
sólo puede
central
para variables
muy
asimétricas,
enNotar
las que
unlapequeño
grupo de observaciones
ƒƒ Sipara
np/100
es un número
entero, la media
deque
las observaciones
(np/100)
y (np/100 + 1)-ésimas.
central
variables
muy asimétricas,
en las
un pequeño grupo
de observaciones
emplearse
como
medida de
tendenciasobre
central
en
variables
que toman
valores
positivos.
extremas
tienen
una
excesiva
influencia
la
media
aritmética.
La
media
geométrica
ƒƒ Si np/100 no es un número entero, el valor k-ésimo de la muestra, siendo
k el menor
extremas
tienen
una excesiva
influencia sobre la media aritmética. La media geométrica
entero
superior
a np/100.
8
Ejemplo
1.8 Para acalcular
la media10,
geométrica
colesterol
HDL
en lapara
muestra
yy Deciles,
corresponden
los percentiles
20, ..., 90.del
Los
deciles se
utilizan
dividir
8
la muestra en 10 grupos de igual tamaño.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamaño.
valores y a continuación se calcula su media aritmética,
log(0,89) + ... + log(1,53)
1 10
log x G =  log x i =
10 i =1
10
− 0,117 + ... + 0,425
Pastor-Barriuso R.
5
mmol/l. De igual forma, como 10p/100 = 2,5 no es un número entero para p = 25,
Estadística descriptiva
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
yy Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de
Es importante recordar que, para calcular cuantiles, los valores de la muestra deben
igual tamaño.
yy Terciles,
corresponden
a los
33,3 y 66,7,
y dividen
muestra
3 grupos
estar
previamente
ordenados.
Sipercentiles
el tamaño muestral
es grande,
la laforma
másenrápida
de de
igual tamaño.
obtener los cuantiles manualmente es realizando un gráfico de tallo y hojas (ver más
Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79,
0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un
adelante).
número entero para p = 10, el percentil 10 es la media de la primera y segunda observación,
que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5
no es un número
entero para p = 25, el percentil 25 es el tercer valor de la muestra, que
1.4 MEDIDAS
DE DISPERSIÓN
corresponde a 0,87 mmol/l.
Las medidas de dispersión indican el grado de variabilidad de los datos y se
Es importante
recordar
que, para calcular cuantiles, los valores de la muestra deben estar
1.2 MEDIDAS DE
TENDENCIA
CENTRAL
previamente ordenados. Si el tamaño muestral es grande, la forma más rápida de obtener los
complementan
con lasesmedidas
de un
tendencia
la descripción
de una muestra.
cuantiles
manualmente
realizando
gráfico central
de tallo en
y hojas
(ver más adelante).
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
En este apartado se presentan las principales medidas de dispersión.
de una determinada
variable o, dicho
de forma equivalente, estos estimadores indican
1.4 MEDIDAS
DE DISPERSIÓN
1.4.1
Varianza
y desviación
típica
Las
medidas
de dispersión
indican
el grado Las
de variabilidad
los datos y se complementan con
alrededor de qué
valor
se agrupan
los datos
observados.
medidas de de
tendencia
las medidas de tendencia central en la descripción
de
una
muestra.
En este apartado se presentan
2
La
varianza
muestral,
denotada
por
s
,
se
define
como
la
suma
de los cuadrados de las
las principales
medidas
dispersión.
central de la muestra
sirven tanto
paraderesumir
los resultados observados como para
diferencias
entre
valor de
la muestra ycorrespondientes.
su media, dividida
realizar inferencias
acerca
de los
parámetros
poblacionales
A por el tamaño muestral
1.4.1
Varianza
y cada
desviación
típica
1, muestral,
varianza
denotada
por s2, se define
como la suma
de los
cuadrados de las diferencias
continuación La
semenos
describen
los principales
estimadores
de la tendencia
central
de una
entre cada valor de la muestra y su media, dividida por el tamaño muestral menos 1,
variable.
media, el número de valores independientes
de la muestra
(denominado “grados de
1 n
1  n 2

2
2
( xi − x ) =
s =
  x i − nx 2  .

1 i =1
n − 1  i =1 la media y n - 1 valores, el
libertad”) para el cálculo denla−varianza
es n - 1 (conocida
1.2.1 Media aritmética
Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los cuadrados de
valor
restante
se(x
deduciría
automáticamente).
más
formal paradeesta
2
La media aritmética,
denotada
por
define
comola
lavarianza
sumaUna
de
uno
de las
los
las
desviaciones
y cuanto
mayor
será
s2cada
.justificación
Notar
que
desviaciones
Como
puede apreciarse,
más
dispersos
estén
los
datos,
mayores
serán loscada valor
i – x ), se
respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definición
de por
la varianza
se aaporta
en el2Tema
5.
positivas
(valores
media)
lasrealizadas.
negativas
inferiores
la media).
Cabe
valores muestrales
dividida
el
número
delaobservaciones
Si
denotamos
y mayor
será la(valores
varianza
s2. Notaraque
las
cuadrados
de lassuperiores
desviaciones
(x
i - x )con
destacar también que, en la fórmula de la varianza muestral, el denominador es n – 1 en lugar de n.
Lasevarianza
muestral
es observado
difícil
de interpretar
como
medida
dispersión,
ya que sus
por n el tamaño
muestral
xcada
valor
para
el
sujeto
ide=de
1,
..., n, independientes
Esto
debey por
ade
que,
vez
calculada
lalamedia,
elsei-ésimo,
número
valores
i eluna
desviaciones
valor
respecto
de
media
elevan al
cuadrado
para evitar quedesela
muestra (denominado “grados de libertad”) para el cálculo de la varianza es n – 1 (conocida la
unidades
son
las
de la el
variable
originalse
al deduciría
cuadrado.automáticamente).
La medida de dispersión
más
la media vendría
dada
media
y npor
– 1las
valores,
valorpositivas
restante
compensen
desviaciones
(valores
superiores a la media)Una
con justificación
las negativasmás
formal para esta definición de la varianza se aporta en el Tema 5.
utilizada es la desviación
típica o desviación estándar s, que se define como la raíz
(valores
inferiores
Cabe
también
que,
la fórmula
varianza
+ ...destacar
+ x n como
x +de
x 2interpretar
1a nlaesmedia).
La varianza
muestral
difícil
medida
deen
dispersión,
yade
quelasus
unidades
.
x =  xi = 1
son
las
de
la
variable
original
al
cuadrado.
La
medida
de
dispersión
más
utilizada
es
la
desviación
n i =1
n
cuadrada de la varianza
muestral,
el denominador
n - 1seen
lugarcomo
de n.laEsto
debe a que,
vez calculada la
típica
o desviación
estándar es
s, que
define
raízse
cuadrada
de launa
varianza
10
La media es la medida de tendencia central más utilizada
1 yn de más fácil
2
s=
 ( xi − x )
n − 1 i =1
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media,
principal limitación
es que típica
está muy
influenciada
por
valores
extremos
y, (gran
en este
lay,desviación
está
influenciada
porlos
valores
muy
extremos
desviación
respecto
en consecuencia,
presenta
las mismas
unidades
que
la variable
original.
Al igual
que de la
caso, puede nolaser
un fiel
de la típica
tendencia
de la distribución.
media,
lareflejo
desviación
está central
influenciada
por valores muy extremos (gran
6
Pastor-Barriuso R.
desviación respecto de la media), que inflarían la estimación resultante, no siendo un
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
desviación respecto de la media), que inflarían la estimación resultante, no siendo un
buen reflejo de la dispersión global de los datos.
realizar
de los parámetros
poblacionales
correspondientes. A
bueninferencias
reflejo de acerca
la dispersión
global de los
datos.
Medidas de dispersión
Ejemplo
1.10 Conocida
la media
del colesterol
en loscentral
10 primeros
continuación
se describen
los principales
estimadores
de laHDL
tendencia
de una
Ejemplo
1.10 Conocida
la mediaa del
colesterol
HDL
en los 10 primeros
mbio de origen
(traslación).
Si se suma
una constante
cada xuno
de los mmol/l,
datos la varianza vendría dada
= 1,223
participantes
del estudio
EURAMIC,
variable.
media), que inflarían la estimación resultante, no siendo un buen reflejo de la dispersión global
del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendría dada
de losparticipantes
datos.
na muestra, la varianza
pory la desviación típica no cambian; si yi = xi + c,
1.2.1 Media aritmética
por
2
1.10 Conocida la media del colesterol HDL en los 10 primeros participantes
nces s y = s x2 y sy = sEjemplo
x.
define
como
suma
los
La media aritmética,
por x ,=se1,223
varianza
vendría
por
del estudiodenotada
EURAMIC,
(mmol/l,
0,89
− 1,la
223
) 2 + de
... +cada
(1,53uno
−dada
1de
,223
)2
1 10
2
2
s =  ( xi − x ) =
9 + (1,53 − 1,223) 2
(0,89
− 1,223
) 2 + ...
19 10
i =1cada uno 2de los
mbio de escala
(unidades).
Si
se
multiplica
datos
de una
valores muestrales dividida
el
número
de
observaciones
realizadas.
Si denotamos
s 2 = por
x
x
(
−
)
=

+i ... + 0,094
90,111
92
i =1
DE TENDENCIA CENTRAL =
= 0,156 (mmol/l)
stra por una
la varianza
a la varianza
pori-ésimo, i = 1, ..., n,
9igual
porconstante,
n el tamaño
muestralresultante
y por
xi el
valor
parainicial
el sujeto
0,111
...
094
+es
+ 0,observado
=
= 0,156 (mmol/l) 2
9 valor
tendencia
central
acerca
cuáles
esigual
el
representativo
onstante
allacuadrado
y la desviación
típica
a lamás
desviación
típica
mediainforman
vendría
dada
porde
la desviación
desviación típica por s = 0,156 = 0,395 mmol/l.
yy la
2estimadores
2
2
nada
o, dicho
desidesviación
forma
yi = cxequivalente,
sestos
y sy == cs
. Unmmol/l.
cambio
ial porvariable
dicha constante;
i, entonces
xindican
0,395
y la
típica por
y ns==c s0
x ,156
+
+
...
+
x
x
x
1
1
2
n
Algunas propiedadesxde= la varianza
x i = y la desviación .típica son:

é valor se agrupanAlgunas
los datos
observados.deLas
medidas
de
n
n valores
propiedades
la
varianza
y latendencia
desviación
típica
son:
i =1 de todos
scala que se realizayy con
frecuencia
es (traslación).
la división
los
de
una
Cambio
de origen
Si se suma
una
constante
a cada
uno de los datos de una muestra,
Algunas
propiedades
de la varianza
la desviación
la varianza
y la desviación
típica noycambian;
si yi = típica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviación
típica.
La desviación
típicacentral
de la variable
resultante
La media
es la medida
de (unidades).
tendencia
más utilizada
y de
yy Cambio
de escala
Si se multiplica
cada
unomás
de fácil
los datos de una muestra por
una constante,
la varianza
resultante es igual
a la varianza inicial por la constante al
cias acerca de los parámetros
poblacionales
correspondientes.
A
, por tanto,interpretación.
igual a 1.
Corresponde
al “centro
de gravedad”
los datos de
la muestra.
Su dicha constante;
cuadrado
y la desviación
típica
es igual a ladedesviación
típica
inicial por
11
2 2
cxi, entoncesde
sy2la
= ctendencia
sx y sy =central
csx. Undecambio
si yi = estimadores
e describen los principales
una de escala que se realiza con frecuencia
edades delprincipal
cambio de
origen
y
escala
se
emplean
para
la
estandarización
de
limitación
es que
está muy
pormuestra
los valores
extremos
y, entípica.
este La desviación
11
es la división
de todos
los influenciada
valores de una
por su
desviación
típica de la variable resultante será, por tanto, igual a 1.
que consiste
en puede
restarlenoa ser
los un
valores
de unadevariable
su media
y dividirlos
por
caso,
fiel reflejo
la tendencia
central
de la distribución.
Las propiedades del cambio de origen y escala se emplean para la estandarización de variables,
que consiste
en restarle
a los valores
de una0variable
su media y dividirlos por su desviación
itmética
ción
típica. La variable
estandarizada
resultante
tiene media
y desviación
1.2típica.
MEDIDAS
DE
TENDENCIA
CENTRAL
La 1.4
variable
estandarizada
resultante
tiene media
y desviación
típica 1; essedecir, si zi =
Ejemplo
En este
y en los sucesivos
ejemplos
sobre 0estimadores
muestrales,
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
sética,
decir,denotada
si zi = (x(x
x
)/
s
,
entonces
z
=
0
y
s
=
1.
–
)/s
,
entonces
=
0
y
s
=
1.
ii
xx
zz
utilizarán
los
valores
del
colesterol
HDLacerca
obtenidos
en los
primeros
sujetos del
Las medidas de tendencia central informan
de cuál
es el10valor
más representativo
ales dividida por el número de observaciones realizadas. Si denotamos
1.4.2 Rango intercuartílico
go intercuartílico
estudio
“European
Study o,
ondicho
Antioxidants,
and Cancer
of
de una
determinada
variable
de formaMyocardial
equivalente,Infarction
estos estimadores
indican
muestral y porEl
xi rango
el valor
observado
para
el
sujeto
i-ésimo,
i
=
1,
...,
n,
intercuartílico
se define
la diferencia
entre
el tercer y el primer cuartil (percentiles
ntercuartílico se define como
la diferencia
entrecomo
el tercer
y el primer
cuartil
the
Breast“
(EURAMIC),
un
estudio
multicéntrico
de
casos
controles
realizado
alrededor
derespectivamente).
qué valor se agrupan
los datos
observados.indica
Las medidas
de tendencia
75 y 25,
El rango
intercuartílico
layamplitud
del
50% central de la
a dada por
muestra
y
se
usa
como
medida
de
dispersión
cuando
la
variable
presenta
valores
extremos. En
es 75 y 25, respectivamente). El rango intercuartílico indica la amplitud del
entre
1991
y
1992
en
ocho
países
Europeos
e
Israel
para
evaluar
el
efecto
de
los
central
de lasuele
muestra
sirven tantode
para
resumir los
resultados
para
tal caso,
ir acompañado
la mediana
como
medida observados
de tendenciacomo
central.
n
al de la muestra y1se usa como
cuando la variable
x +medida
x 2 + ... +dexdispersión
n
x= 
x i = 1 1.11
realizar
inferencias
acercaAde
los. parámetros
poblacionales
correspondientes.
A
Ejemplo
partir
de
los
10 valores
del colesterol
HDL ordenados
5de menor a
n i =1
n
mayor,
percentiles
25 y 75de
vienen
determinados
alores extremos. En tal
caso,los
suele
ir acompañado
la mediana
como por la tercera (0,87 mmol/l) y octava
continuación
se describen
principales
estimadores El
de rango
la tendencia
central de
observación
(1,53los
mmol/l),
respectivamente.
intercuartílico
se una
calcula entonces
latendencia
medida de
tendencia
central
más
utilizada
y
de
más
fácil
central. como la diferencia entre ambos percentiles, 1,53 – 0,87 = 0,66 mmol/l.
variable.
Corresponde al “centro de gravedad” de los datos de la muestra. Su
1.4.3 Coeficiente de variación
mplo 1.11 A 1.2.1
partirMedia
de los 10
valores del colesterol HDL ordenados de menor a
aritmética
ción es que estáElmuy
influenciada
por lossevalores
extremos
y, en este
coeficiente de variación
define como
el cociente
entre la desviación típica y la media aritmética,
or, los percentiles
25 yaritmética,
75como
vienen
determinados
tercera
(0,87
Laexpresado
media
denotada
por xpor
seladefine
como
suma
dey cada
de losde escala ya que,
.,Este
estimador
nolammol/l)
está
afectado
poruno
cambios
porcentaje,
100s/
ser un fiel reflejo
de
la
tendencia
central
de
la
distribución.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviación
va observación
(1,53muestrales
mmol/l),por
respectivamente.
El
se
típica
cambian
dicho por
factor
su rango
cociente
permanece inalterable.
valores
dividida
el ynúmero
de intercuartílico
observaciones
realizadas.El
Si coeficiente
denotamosde variación
relaciona la desviación típica con la media y es útil para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
con distintas
por ejemplo,
unapara
desviación
típica
de 10i kg
porvariables
n el tamaño
muestralmedias.
y por xiAsí,
el valor
observado
el sujeto
i-ésimo,
= 1,en...,una
n, muestra de
adultos con un peso medio de 70 kg indicaría un mismo grado de dispersión que una desviación
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendría dada por
12
European Study on Antioxidants, Myocardial Infarction and Cancer of
x + x 2 + ... + x n
1 n
.
=
= 1
x
xyi controles

t“ (EURAMIC), un estudio multicéntrico de casos
n i =1
nrealizado
Pastor-Barriuso R.
7
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
Estadística descriptiva
continuación se describen los principales estimadores de la tendencia central de una
variable.
típica de
0,5 kg en una muestra de recién nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variación son 100·10/70 = 100·0,5/3,5 = 14,3%).
1.2.1 Media aritmética
Ejemplo 1.12 El coeficiente de variación de los 10 primeros valores del colesterol HDL
100·0,395/1,223
32,3%;
es decir,
en
estudio
EURAMIC
sería 100s/
Laelmedia
aritmética,
denotada
por x ,=se
define como la =suma
de cada
uno la
dedesviación
los
típica es aproximadamente un tercio de la media.
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.5
REPRESENTACIONES
por n el tamaño muestral yGRÁFICAS
por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendría dada por
de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos
que permitan observar directamente las características y relaciones de las variables estudiadas. En
esta sección se revisan los principales métodos
... + x n y resumir una variable.
x +para
x 2 +presentar
1 n gráficos
.
x =  xi = 1
n i =1
n
1.5.1 Diagrama de barras
La media
es la medida
de tendencia
más utilizada
de más fácily cuantitativas
Los diagramas
de barras
son adecuados
para central
representar
variables ycualitativas
discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus
interpretación.
de gravedad”
los datos
devariable
la muestra.
Su
frecuencias
(absolutas Corresponde
o relativas) enalel“centro
eje vertical.
Para cada de
categoría
de la
se construye
un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están
principal
limitación
estádistancia
muy influenciada
porlalos
valores extremos
y, en este
separados
unos de
otros pores
la que
misma
para reflejar
discontinuidad
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.13 La representación del diagrama de barras del hábito tabáquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no habían
padecido
miocardio,
todos salvo
presentaban
información
Ejemplo
1.4 un
Eninfarto
este y agudo
en los de
sucesivos
ejemplos
sobreuno
estimadores
muestrales,
se
sobre el consumo de tabaco. De éstos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699)
eran exlos
fumadores,
y elcolesterol
restante 37,5%
fumadores
actuales.
utilizarán
valores del
HDL (262/699)
obtenidoseran
en los
10 primeros
sujetos del
40
estudio
“European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
Frecuencia relativa (%)
30
entre
1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
5
20
10
0
Nunca
fumador
Ex fumador
Fumador
actual
Figura 1.1 Diagrama de barras del hábito tabáquico en el grupo control del estudio EURAMIC.Figura 1.1
8
Pastor-Barriuso R.
Representaciones gráficas
1.5.2
Histograma y polígono de frecuencias
El histograma es el principal método gráfico para la representación de variables cuantitativas
continuas. En primer lugar, los valores de la variable continua se agrupan en categorías
exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En
el eje horizontal del histograma se representan las categorías o intervalos y en el eje vertical las
frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectángulo
para cada categoría, cuya anchura es igual a la longitud del intervalo y cuyo área es proporcional
a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectángulos del
histograma no serán proporcionales a las frecuencias).
El polígono de frecuencias se construye uniendo con líneas rectas los puntos medios de las bases
superiores de los rectángulos que conforman un histograma. Tanto el histograma como el polígono
de frecuencias sirven para representar gráficamente la distribución de una variable continua.
Ejemplo 1.14 El histograma de la distribución del colesterol HDL en el grupo control
del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la
frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal.
Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectángulos es igual a
la frecuencia; así, por ejemplo, la altura del rectángulo en el intervalo 1,2-1,4 mmol/l es
igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo,
para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida
por el incremento relativo de la longitud del intervalo; así, por ejemplo, para el intervalo
1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mínima, la
altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polígono de frecuencias,
que muestra una distribución del colesterol HDL aproximadamente simétrica con la cola
superior ligeramente mayor que la inferior.
150
Frecuencia absoluta
125
100
75
50
25
0
0
0,3
0,6
0,8
1
1,2
1,4
Colesterol HDL (mmol/l)
1,7
2
2,5
Figura 1.2
Figura 1.2 Histograma y polígono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.
Pastor-Barriuso R.
9
Estadística descriptiva
1.5.3
Gráfico de tallo y hojas
Este gráfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite
visualizar la distribución de frecuencias. En primer lugar, para cada observación de la variable,
se separa el último dígito significativo (hoja) de los restantes dígitos del valor de la variable
(tallo). A continuación, todos los posibles tallos se colocan ordenados en una misma columna.
Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente.
Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el
nombre de gráfico de tallo y hojas.
Ejemplo 1.15 La Figura 1.3 muestra el gráfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
más bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo común es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera línea del gráfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este gráfico
resulta sencillo calcular los cuantiles; así, por ejemplo, la mediana se obtendría como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
Frecuencia
2
0
0
1
5
3
12
13
13
9
15
7
6
6
2
2
2
1
1
Tallo
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
Hoja
16
7
35558
467
002344455579
0013334566779
0111123455559
023456789
000023356689999
1223778
345789
133689
44
34
36
0
9
Figura 1.3 Gráfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.
Figura 1.3
10
Pastor-Barriuso R.
Representaciones gráficas
1.5.4
Diagrama de caja
El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría de la
distribución de una variable, así como identificar valores extremos. Los límites inferior y
superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa
el rango intercuartílico e indica la dispersión de la muestra. La línea horizontal dentro de la caja
corresponde a la mediana y representa la tendencia central de la muestra. El gráfico se completa
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartílico. Los
valores extremos, aquellos distanciados de los límites de la caja entre 1,5 y 3 veces el rango
intercuartílico, se representan con un círculo y los valores muy extremos, aquellos alejados de
la caja más de 3 veces el rango intercuartílico, se denotan mediante un asterisco.
En este gráfico, si la distribución es simétrica, los límites superior e inferior de la caja estarán
aproximadamente a la misma distancia de la mediana, mientras que si la distribución está sesgada
positivamente, el límite superior estará más alejado de la mediana que el inferior y si la distribución
está sesgada negativamente, el límite inferior estará más alejado de la mediana que el superior.
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribución presenta un
leve sesgo positivo ya que el límite superior de la caja está ligeramente más alejado de la
mediana que el límite inferior.
2,5
Colesterol HDL (mmol/l)
2
1,5
1
0,5
0
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.
Figura 1.4
Pastor-Barriuso R.
11
Estadística descriptiva
1.6
12
REFERENCIAS
1.
Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
2.
Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &
Lange, 2001.
3.
Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury
Press, 2000.
4.
Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
Pastor-Barriuso R.
TEMA 2
PROBABILIDAD
2.1
INTRODUCCIÓN
Se denominan experimentos estocásticos, aleatorios o no determinísticos a aquellos en los
que pueden obtenerse resultados distintos cuando se repiten en idénticas circunstancias. Los
fenómenos biológicos tienen en este sentido una componente aleatoria importante. La
herramienta matemática que constituye la base para el estudio de fenómenos con una componente
aleatoria es la teoría de la probabilidad, que proporciona modelos teóricos aplicables a la
frecuencia de los distintos resultados de un experimento.
A continuación, se revisan algunos conceptos previos que van a ser necesarios para
sistematizar la noción de probabilidad.
yy Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un
experimento aleatorio.
yy Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden
ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el
suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso
imposible o conjunto vacío ∅, que no contiene ningún elemento.
Ejemplo 2.1 Si el experimento consiste en observar el número de supervivientes a
los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, el espacio muestral
será W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL
de una persona, el espacio muestral será W = (0, ∞).
En el primer experimento, algunos sucesos podrían ser: no observar ningún superviviente
A = {0}, observar 1 ó 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes
C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluirían:
tener un colesterol HDL ≤ 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l
B = (1,5, ∞).
yy El suceso unión A∪B es el evento constituido por los elementos que pertenecen a A o B, o
a ambos a la vez.
yy El suceso intersección A∩B es el evento formado por los elementos que pertenecen
simultáneamente a A y B.
yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden
ocurrir simultáneamente; es decir, su intersección es el conjunto vacío, A∩B = ∅.
yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando
no se realiza A.
Estos sucesos están representados en los diagramas de la Figura 2.1. En general, las
operaciones entre sucesos se rigen por la teoría de conjuntos, de la cual pueden derivarse algunas
propiedades importantes como A∪(B∩C) = (A∪B)∩(A∪C), A∩(B∪C) = (A∩B)∪(A∩C),
(A∪B)c = Ac∩Bc y (A∩B)c = Ac∪Bc.
Pastor-Barriuso R.
13
Probabilidad
B
B
su intersección es
A B∩C = {2}. Al medir los niveles deAcolesterol HDL de una
persona, los sucesos
= (0, 1] y B = (1,5, ∞) son mutuamente
(a)AA∪B
(b) A∩Bexcluyentes ya que
A∩B = ∅. Asimismo, en este experimento el complementario de A es el suceso Ac
= (1, ∞).
B
En este tema se define el concepto de probabilidad y se introducen las reglas básicas
A
A
para operar con probabilidades. Estas reglas constituyen la base para el cálculo e
(c) A∩B = ∅
(d) Ac
interpretación de los procedimientos de inferencia estadística (por ejemplo, el valor P
Figura 2.1 Diagramas de los sucesos unión (a), intersección (b), sucesos mutuamente excluyentes
Figura 2.1(c) y
suceso
(d).
de un complementario
contraste de hipótesis
–véase Tema 5–) y permiten también evaluar la
sensibilidad,
especificidad
y los valoresdepredictivos
de lasa pruebas
diagnósticas.
Ejemplola 2.2
En el experimento
supervivencia
los 6 meses
de 4 pacientes con
cáncer, la unión de los sucesos B = {1, 2} y C = {2, 3, 4} es B∪C = {1, 2, 3, 4} y su
intersección es B∩C = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO
Y 1]
DEFINICIONES
PROBABILIDAD
sucesos A = (0,
y B = (1,5, ∞) sonDE
mutuamente
excluyentes ya que A∩B = ∅. Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ∞).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas básicas para
operar
con probabilidades.
reglas
constituyen la
paraocurra,
el cálculo
e interpretación
de
la probabilidad
de un sucesoEstas
refleja
la verosimilitud
debase
que éste
de forma
que
los procedimientos de inferencia estadística (por ejemplo, el valor P de un contraste de hipótesis
–véase
Tema
5–)probables
y permiten
también
la sensibilidad,
especificidad
y los
los sucesos
más
se darán
con evaluar
mayor frecuencia
que loslamenos
probables.
Sinvalores
predictivos de las pruebas diagnósticas.
embargo, para abordar la probabilidad de forma sistemática, es necesaria una definición
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuición. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
de un
usosuceso
comúnrefleja
son: la verosimilitud de que éste ocurra, de forma que los sucesos
probabilidad
más probables se darán con mayor frecuencia que los menos probables. Sin embargo, para
• Definición frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar
la probabilidad de forma sistemática, es necesaria una definición rigurosa, a la vez que
compatible con nuestra intuición. Dos definiciones de probabilidad de uso común son:
la probabilidad de un suceso es el límite del cociente entre el número de veces que
yy Definición frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
un suceso
es el límite
del cocienterealizados,
entre el número de veces que ocurre
ocurre dicho de
suceso
y el número
de experimentos
dicho suceso y el número de experimentos realizados,
#A
,
n →∞ n
P(A) = lim
donde #A es el número de veces que se realiza A en los n experimentos.
donde #A es el número de veces que se realiza A en los n experimentos.
14
Pastor-Barriuso R.
indefinidamente los registros anuales, el límite de estos cocientes 0,4850, 0,4845,
Concepto y definiciones
de probabilidad
0,4845, ... determinaría la probabilidad de ser mujer. En la práctica,
sin embargo,
•
no es posible realizar infinitos experimentos y las probabilidades teóricas se
Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos
estiman
mediante
empíricas
obtenidas
partir de Nacional
un número
los recién
nacidos probabilidades
vivos en España.
Según los
datos dela Instituto
definito
Estadística,
se registraron 226.170 niñas de 466.371 nacimientos en 2005, 233.773 de 482.957 en
de
experimentos.
utilizando
losLa
datos
disponibles
de nacimientos
en226.170/466.371
2005–
2006
y 238.632 deAsí,
492.527
en 2007.
proporción
acumulada
de niñas es
= 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845
2007,
se estimaría
una probabilidad
de ser mujerlosderegistros
0,4845. anuales, el límite de estos
en 2005-2007.
Aumentando
indefinidamente
cocientes 0,4850, 0,4845, 0,4845, ... determinaría la probabilidad de ser mujer. En la
práctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades
Definición
(Kolmogorov).
La probabilidad
una función
quede
asigna
teóricas se axiomática
estiman mediante
probabilidades
empíricas es
obtenidas
a partir
un número
finito de experimentos. Así, utilizando los datos disponibles de nacimientos en 2005‑2007,
asecada
posible
suceso
de un experimento
numérico, de tal forma que se
estimaría
una
probabilidad
de ser mujerundevalor
0,4845.
cumplan losaxiomática
siguientes axiomas:
yy Definición
(Kolmogorov). La probabilidad es una función que asigna a cada
posible suceso de un experimento un valor numérico, de tal forma que se cumplan los
(i) Noaxiomas:
negatividad: P(A) ≥ 0,
siguientes
(i)(ii)No
negatividad: P(
P(A)
Normatividad:
Ω) ≥= 0,
1,
(ii) Normatividad: P(W) = 1,
, ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
Aditividad:SiSiAA, 1A, A, 2...
(iii)(iii)Aditividad:
1
2
∞
axiomática se derivan
de
 ∞ algunas propiedades importantes de la función
P  Ai  = P( A1 ∪ A2 ∪ ...) = P( A1 ) + P( A2 ) + ... =  P( Ai ) .
axiomática se derivan
algunas propiedades importantes de la función
de
i =1
probabilidad:  i =1 
Notar que esta definición de probabilidad tan sólo especifica las propiedades generales
probabilidad:
∅
) tener
=esta
0, una
- P(
Notar
que
definición
probabilidad tan
especifica
las propiedades
que
debe
función de probabilidad,
perosólo
no permite
la asignación
de probabilidades
a- un
suceso
) = 0, concreto. No obstante, de la definición axiomática se derivan algunas
P(∅
1importantes
- debe
P(A),tener de
- P(Ac) =que
generales
unalafunción
propiedades
funciónde
deprobabilidad,
probabilidad:pero no permite la
c
) = 1=-0,P(A),
- P(AP(∅)
(iv)
asignación
probabilidades
a un
concreto.
No obstante, de la definición
B, suceso
entonces
P(A) ≤ P(B),
- Si A estádeincluido
en B, A ⊂
c
P(A
) =incluido
1 – P(A),
-(v)Si A
está
en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
(vi) Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
- Sub-aditividad:
(vii)
0 ≤ P(A) ≤ 1, Para cualquier colección de sucesos A1, A2, ...,
4
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier
colección
de
sucesos
A
,
A
,
...,
1
2
∞
 ∞
P  Ai  ≤  P( Ai ) ,
 i∞=1  i∞=1
P  Ai  ≤  P( Ai ) ,
 i =1  i =1
, ...,
AkAsucesos
cualesquiera,
- Principio
de de
inclusión-exclusión:
Sean
A1,AA,2A
(ix)
Principio
inclusión-exclusión:
Sean
, ...,
sucesos
cualesquiera,
1
2
k
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera,
 k
 k
P  Ai  =  P ( Ai ) −  P( Ai ∩ A j ) + ...
 ik=1  ik=1
1≤ i < j ≤ k
P  Ai  =  P(k A
) −  P( Ai ∩ A j ) + ...
+1i
k 2 ∩ ... ∩ Ak ).
 i =1  + i(=−1 1) P( A1≤1 i <∩j ≤A
+ (−1) k +1 P( A1 ∩ A2 ∩ ... ∩ Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
de la probabilidad
se deduce
dossus
sucesos
son mutuamente
excluyentes,
la probabilidad
de la unión
es la que,
sumasi de
probabilidades
por separado. El
Del
tercer de
axioma
de la probabilidad
se deduceeste
que,resultado
si dos sucesos
son mutuamente
principio
inclusión-exclusión
generaliza
para sucesos
no necesariamente
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
El principio de inclusión-exclusión generaliza este resultado para sucesos no
Pastor-Barriuso R.
El principio de inclusión-exclusión generaliza este resultado para sucesos no
necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es
15
El principio de
inclusión-exclusión
generaliza
este resultado
para sucesospor
no separado.
excluyentes,
la probabilidad
de la unión
es la suma
de sus probabilidades
necesariamente
excluyentes: la probabilidad
la unión
de dos
sucesos
cualesquiera
El
principio de inclusión-exclusión
generalizadeeste
resultado
para
sucesos
no
Probabilidad
es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
separado, menos
la probabilidad
de lacualesquiera
intersección,es
necesariamente
excluyentes: lapor
probabilidad
de la unión
de dos sucesos
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
separado,
probabilidad
de la intersección,
∪B)
= P(A) +menos
P(B)de-la
P(A
∩B).
P(Apor
probabilidades
por separado,
menos
la probabilidad
intersección,
probabilidad
de ser simultáneamente
bebedor
yladiabético
es 0,01. Si se denota por
- P(A∩B).
P(Aya∪por
B) D
= P(A)
+con
P(B)
B al suceso
ser aplicarse
bebedor
al suceso
ser
diabético,
la probabilidad
que un
Este principio
puede
colecciones
más
de dos sucesos.
Así, por de
ejemplo,
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, para tres
individuo
decualesquiera,
esta población
sea bebedor,
o ambos
a laAsí,
vez por
viene
para principio
tres
sucesos
cumple
quecondiabético
Este
puede
asecolecciones
más de dos
sucesos.
ejemplo,
sucesos
cualesquiera,
se aplicarse
cumple que
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
por
para tres
sucesos cualesquiera,
C)cumple
= P(A) que
+ P(B) + P(C)
P(A∪B∪se
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
- P(A∩B) - P(A∩C) - P(B∩C)
∩D)+ =P(C)
0,20 + 0,03 - 0,01 = 0,22.
P(B∪D)
B∪C)+ =P(D)
P(A)- P(B
+ P(B)
P(A=∪P(B)
probabilidad de ser simultáneamente
bebedor
y
diabético
es 0,01. Si se denota por
+ P(A∩B∩C).
- P(A∩B) - P(A∩C) - P(B∩C)
B al suceso ser bebedor y por D al suceso ser diabético, la probabilidad de que un
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
2.3población
PROBABILIDAD
CONDICIONAL
E INDEPENDENCIA
DE SUCESOS
de adultos
0,20, lasea
probabilidad
de ser diabético
y la probabilidad5 de
+ P(A
∩B∩diabético
C).
individuo
de esta es
población
bebedor,
o ambos aesla0,03
vez viene
ser simultáneamente bebedor y diabético es 0,01. Si se denota por B al suceso ser bebedor
La yprobabilidad
de un
puede
de laderealización
de otrode
suceso.
Así, por sea
pordeterminada
D al suceso
sersuceso
diabético,
la depender
probabilidad
que un individuo
esta población
por
5
bebedor, diabético o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto
de miocardio es diferente
en los hombres
-
P(B∪D) = P(B) + P(D)
P(B∩D) = 0,20 + 0,03
0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio
del suceso serCONDICIONAL
hombre
o ser mujer.
El concepto matemático
que
permite
2.3depende
PROBABILIDAD
EE INDEPENDENCIA
DESUCESOS
SUCESOS
2.3
PROBABILIDAD
CONDICIONAL
INDEPENDENCIA
DE
La probabilidad
de un
suceso
puede
depender de de
la realización
defunción
otro suceso.
Así,espor
ejemplo,
formalizar
cómo
se
modifica
la
probabilidad
unrealización
suceso en
de otro
la
La
probabilidad
de
un
suceso
puede
depender
de
la
de
otro
suceso.
Así,
por
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres;
es decir,
la probabilidad
del suceso
tener un
de miocardio
depende
del suceso ser hombre
probabilidad
condicional.
Entener
general,
lainfarto
probabilidad
delessuceso
B condicionada
ejemplo, la probabilidad
de
un infarto
de miocardio
diferente
en los hombresal
o ser mujer. El concepto matemático que permite formalizar cómo se modifica la probabilidad
de un
suceso
enmujeres;
función
otro la
esprobabilidad
la probabilidad
condicional.
general,
la probabilidad del
suceso
se
define
como
que
enAlas
esdedecir,
del suceso
tener unEninfarto
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A ∩ B) matemático que permite
P(B|A) =
.
( Asuceso
)
formalizar cómo se modifica la probabilidad dePun
en función de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
Así,DeP(infarto|hombre)
es equivalente
a seleccionar
en primer
lugar a los
y
forma intuitiva, condicionar
por el suceso
A es equivalente
a seleccionar
porhombres
este
posteriormente
determinar
su
probabilidad
de
tener
un
infarto
de
miocardio.
suceso A se define como
es el riesgo arelativo
de la en
enfermedad
entre
los
no suceso.
expuestos
y RR
= P(D|E)/P(D|Eesc) equivalente
Así,
P(infarto|hombre)
seleccionar
primer lugar
a los
El concepto
de
probabilidad condicional
tiene numerosas
aplicaciones
en epidemiología
y
salud pública. Por ejemplo, si D es el sucesoP(tener
y E es el suceso estar
A ∩ Buna
) deenfermedad
expuestos
y ylosposteriormente
no expuestos.
hombres
probabilidad
tener
un infartoentre
de miocardio.
. de la
P(B|A)
expuesto
a un
factor de riesgo,determinar
P(D|E)
es su
la =probabilidad
enfermedad
los expuestos,
P
(
A
)
c
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y ψ = P(D|E)/P(D|Ec) es el
El
concepto
deenfermedad
probabilidad
condicional
tiene ynumerosas
aplicaciones en
riesgoEjemplo
relativo
de
entre
expuestos
loslanoprobabilidad
expuestos.
2.5laContinuando
con
ellos
ejemplo
anterior,
de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
epidemiología y salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E
Ejemplo
2.5 diabético
Continuando
con como
el ejemplo anterior, la probabilidad de que un bebedor
bebedor
sea
se calcula
suceso.
Así,
P(infarto|hombre)
sea diabético
se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
de tener un infarto de miocardio.
∩ D) 0,01
c
= 0,05
P(D|B)
=
=
de la enfermedad entre los
enfermedad entre los expuestos, P(D|E ) es la probabilidad
P( B)
0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiología
y salud
Porbebedor
ejemplo,sea
si Ddiabético
es el suceso
tener una enfermedad y E
y la probabilidad
de pública.
que un no
como
16
es el suceso
Pastor-Barriuso
R.
estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
P( B c ∩ D) P( D) − P( B ∩ D) 0,03 − 0,01
c
)
=
= 0,025.
P(D|B
= c
= de la enfermedad
entre los
enfermedad entre los expuestos,
1 −laPprobabilidad
( B)
1 − 0,20
P( B c ) P(D|E ) es
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,
P( B ∩ D) 0,01
PP(D|B)
(B c ∩ D
0,03 − 0,01
= ) P( D) − P
= ( B ∩ D=)0,05
c
c=
)
= 0,025.
==P2.( B)
=
P(D|B
0,20Probabilidad
c
RR = P(D|B)/P(D|B ) = 0,05/0,025
1 − P( B)
1condicional
− 0,20 e independencia de sucesos
P( B )
la probabilidad
de que
no bebedor seasidiabético
comode uno no afecta a la
Se ydice
queeldos
sucesos
sonun
independientes
la bebedores
ocurrencia
Así,
riesgo
de diabetes
es el doble en los
que en los no bebedores,
y la probabilidad de que un no bebedor sea diabético como
c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
probabilidad
otro;
es decir,
RR =del
P(D|B)/P(D|B
P( B )c =
∩0,05/0,025
D) P( D)=−2.P( B ∩ D) 0,03 − 0,01
c
P(D|B ) =
= 0,025.
=
=
c
1 − P( B)
1 − 0,20
P( B )
c
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
que dos
independientes
si la ocurrencia
unoennolos
afecta
a la
Así,
el riesgo
desucesos
diabetesson
es el
doble en los sujetos
bebedoresdeque
no bebedores,
c
independientes,
puede
probarse
que
Así,
el riesgo
de diabetes
es
el doble
ψ = P(D|B)/P(D|B
) = 0,05/0,025
= 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
P(A∩B)
= P(A)P(B|A)
P(A)P(B).de uno no afecta a la probabilidad
Se dice que dos sucesos son
independientes
si la=ocurrencia
si dos sucesos son
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia,
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
c riesgo relativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia
es=que
decir,
= P(A). son
En consecuencia,
si doslasucesos
son independientes,
puede
si P(A|B)
P(A|B
dice
dosel)sucesos
independientes
ocurrencia
de unosinolaafecta
a la probarse
PorSe
tanto,
dos sucesos
también
pueden
independientes
probabilidad
independientes,
puede
probarse
que definirse sicomo
que
c
se refleja
también
en elAhecho
de que la probabilidad
de ser= simultáneamente
P(B) o,
probabilidad
del otro;
es decir,
y B son
P(B|A
de su intersección
es igual
al producto
de independientes
la probabilidad sideP(B|A)
cada suceso
por) =
separado.
P(A∩B) = P(A)P(B|A) = P(A)P(B).
c
bebedor y diabético
no =
esP(A|B
el producto
de sus
) = P(A).
En probabilidades,
consecuencia,
si dos
son de su
de
P(A|B)
Porforma
tanto,equivalente,
dos sucesossitambién
pueden
definirse
como
independientes
si lasucesos
probabilidad
Ejemplo
2.6
A
partir
de
los
resultados
del
ejemplo
anterior,
puede
concluirse
que
Por
tanto,
dos
sucesos
también
pueden
definirse
como
independientes
si
la
probabilidad
intersección
es igual
al producto
de es
la probabilidad
cada suceso
es decir,
el riesgo
relativo
distinto de la de
unidad,
RR = 2 por
≠ 1.separado.
Esta dependencia
independientes, puede probarse
que = 0,01 ≠ 0,20⋅0,03 = P(B)P(D).
P(B∩D)
los
sucesos
padecer
diabetes
y serde
bebedor
no
son independientes
dadopor
queseparado.
la
de Ejemplo
su intersección
es
igual
al
de
probabilidad
dedecada
se refleja
el producto
hecho
quelala
probabilidad
ser suceso
simultáneamente
2.6 también
A partirende
los
resultados
del
ejemplo anterior,
puede concluirse
que los
sucesos padecer diabetes
y ser= bebedor
no son
independientes dado que la probabilidad
P(A∩B)
P(A)P(B|A)
= P(A)P(B).
probabilidad
de
ser diabético
esintersección
diferente ende
bebedores
que en no bebedores,
Notar
que
lael
la
dos
bebedor
yprobabilidad
diabético
node
esen
el
producto
probabilidades,
es
decir,
riesgo
relativo
es
distinto dede
lasus
unidad,
RR = 2cualesquiera
≠ 1. Esta dependencia
de ser
diabético
es diferente
bebedores
que
en
nosucesos
bebedores,
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
el riesgotambién
relativopueden
es distinto
de la como
unidad,
RR =c2 ≠ 1. Esta
Por tanto,
dos sucesos
definirse
independientes
si ladependencia
probabilidad
P(D|B)
=
0,05
≠
0,025
=
P(D|B
);
se refleja también en el
hecho
de
que
la
probabilidad
de
ser
simultáneamente
P(A∩B)
=
P(A)P(B|A)
P(B∩D)y=ser
0,01
≠ 0,20⋅0,03
P(B)P(D).
los sucesos padecer diabetes
bebedor
no son=independientes
dado que la
se
refleja
también
en
el
hecho
de
que
la
probabilidad
de
ser
simultáneamente
de su intersección
es igual
al producto
de lade
probabilidad
por separado.se refleja
es decir,
el riesgo
relativo
ladeunidad,
ψde= cada
2 ≠ 1.suceso
Esta dependencia
bebedor
y diabético
no es
es distinto
el producto
sus probabilidades,
probabilidad
de
ser
diabético
es
diferente
en
bebedores
que
en
no
bebedores,
no equivale
al producto
ambos sucesosbebedor
sean y diabético
también en
el hecho de sus
que probabilidades,
la probabilidad salvo
de serque
simultáneamente
bebedor
y diabético
no es el
producto
de sus de
probabilidades,
Notar
que
la
probabilidad
de
la
intersección
dos
sucesos
cualesquiera
no es el producto de sus probabilidades,
7
Ejemplo 2.6 A
de P(B∩D)
los
resultados
ejemplodeanterior,
= 0,01del
≠ 0,20⋅0,03
=
P(B)P(D).
independientes.
Enpartir
general,
para
cualquier
conjunto
sucesos
A1, A2,concluirse
..., Ak, la que
c puede
P(D|B) = 0,05 ≠ 0,025 = P(D|B );
P(B∩D) =P(A∩B)
0,01 ≠ 0,20⋅0,03
= P(B)P(D).
= P(A)P(B|A)
los sucesosdepadecer
diabetes es
y ser bebedor no son independientes dado que la
probabilidad
su intersección
Notar que la probabilidad de la intersección de dos sucesos cualesquiera
Notar
que la al
probabilidad
la probabilidades,
intersección
sucesos
cualesquiera
noprobabilidad
equivale
producto
dede
salvo
que ambos
sean
de ser diabético
es diferente de
en dos
bebedores
que
ensucesos
no bebedores,
Notar
que
probabilidad
desus
la intersección
de
dos
sucesos
cualesquiera
7
∩A
∩...∩A
)
=
P(A
)P(A
∩...∩A
|A
)
P(Ala
1
2
k
1
2
k 1
P(A)P(B|A)
independientes. En general, para P(A∩B)
cualquier= conjunto
de sucesos A1, A2, ..., Ak, la
= 0,05
≠ 0,025
= P(D|Bc);
P(A∩B)
=1)P(A
P(A)P(B|A)
= P(D|B)
P(A
1)P(A2|A
3∩...∩Ak|A1∩A2) = ...
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En
probabilidad
su intersección
es
no
equivale
alde
producto
de susde
probabilidades,
ambos sucesos sean
general,
para cualquier
conjunto
sucesos A1, A2salvo
, ..., Aque
k, la probabilidad de su intersección es
)P(A
|A
)P(A
|A
∩A
)⋅…⋅P(A
∩...∩Ak-1).
=
P(A
1
2
1
3
1
2
k|A1∩A2sean
no equivale al producto de sus probabilidades, salvo que ambos sucesos
independientes.
general,
para cualquier conjunto de sucesos A1, A2, ..., Ak, la
7
P(A1∩A2En
∩...∩A
k) = P(A1)P(A2∩...∩Ak|A1)
independientes.
En
general,
para
cualquier
conjunto
de
sucesos
A
,
A
,
...,
A
,
la
1
2
k
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
= P(Aes
probabilidad de su intersección
1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ...
probabilidad
de su
es )P(A
condicionales
deintersección
la fórmula= anterior
se2|A
reducen
a probabilidades no condicionales y, en
P(A
1
1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak 1).
P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1)
la
probabilidad
de la sean
intersección
es igualindependientes,
al producto de sus
Enconsecuencia,
el P(A
caso–1∩A
de2∩...∩A
que
estos
sucesos
mutuamente
las probabilidades
k) = P(A
1)P(A2∩...∩A
k|A1)
P(A )P(Ase
condicionales de la fórmula= anterior
a probabilidades
2|Areducen
1)P(A3∩...∩A
k|A1∩A2) = ... no condicionales y, en
En el caso de que estos sucesos 1sean mutuamente
independientes,
las probabilidades
probabilidades,
consecuencia,
la probabilidad
de
la
intersección
es
igual
al
producto
de sus probabilidades,
= P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A
2) = ...
= P(A
1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1).
condicionales de la fórmula
anterior
se reducen a probabilidades no condicionales y, en
k
k

 = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩A
k-1).
P  Ai  = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏ P( Ai ) .
consecuencia,
la intersección
igual al producto
sus
En
el caso de que
estos
mutuamenteesindependientes,
las
probabilidades
i =1de
i =la
1 probabilidad
 sucesosdesean
–
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
probabilidades,
condicionales
de la fórmula anterior se reducen a probabilidades no condicionales y, en
condicionales
la fórmula
anterior se reducen
a probabilidades no condicionales y, en
2.4 REGLAdeDE
LA PROBABILIDAD
TOTAL
consecuencia, lak probabilidad de la intersección es igual al producto de
sus Pastor-Barriuso R.
k


Pprobabilidad
Ai  = P(Ade
∩...∩Ak) = P(A
)P(A2al)⋅…⋅P(A
1∩A
k) =
consecuencia, la
la2intersección
es 1igual
producto
de∏
susP( Ai ) .

i =1
i
=
1


La
probabilidad no condicional
de un suceso B se relaciona con su probabilidad
probabilidades,
17


i =1
 i =1 
espacio muestral; es decir, A y Ac son sucesos exhaustivos A∪Ac = Ω y mutuamente
Probabilidad
excluyentes A∩Ac = ∅.
2.4 REGLA DE LA PROBABILIDAD TOTAL
Así,
probabilidad
condicional
de B esAla
media
ponderada
de lasexhaustivos
probabilidades
y
En la
general,
para unnoconjunto
de sucesos
1, A
2, ..., A
k globalmente
2.4LaREGLA
DE
LA
PROBABILIDAD
TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
descomposición
de la probabilidad
sucesoque
B en
condicionales
de B dadoque
A yformen
Ac. Estauna
partición
del espacio
muestral,
sedel
verifica
Lamutuamente
probabilidadexcluyentes
no condicional
de un suceso
B se relaciona
con su
probabilidad
condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula
en la ocurrencia o nocde otro suceso A mediante la fórmula
constituyen una partición del
términos de A y A es aplicablek porque estos sucesos
k
( Ai c∩
B) == P(A)P(B|A)
P( Ai ) P( B
Ai )c,)P(B|Ac).
= +PP(A

P(B) =P(B)
P(A∩B)
∩B)
+ |P(A
c
i
i
=
1
=
1
espacio muestral; es decir, A y A son sucesos exhaustivos A∪Ac = Ω y mutuamente
Así, la probabilidad no condicional de B es la media ponderada de las probabilidades
c
c
8
= de
∅.
excluyentes
. Esta descomposición
la probabilidad
del sucesoútil
B enentérminos
condicionales
deA∩A
Bregla
dado
A ylaAprobabilidad
conocida
como
total. Esta de
fórmula
es particularmente
c
de A y A es aplicable porque estos sucesos constituyen una partición del espacio muestral; es
c
c
Ak globalmente
exhaustivos
y
En
para un
conjunto
sucesos
A∪A
= WA1y, A
mutuamente
excluyentes
A∩Aal
=dividir
∅.
decir,
A ygeneral,
Ac son sucesos
2, ...,
epidemiología,
donde
seexhaustivos
emplean de
con
frecuencia
las
particiones.
Por ejemplo,
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
excluyentes
que formen
unaestán
partición
del espacio
muestral,
se verifica que
la
población
gruposuna
de edad
y sexo
empleando
categorías
globalmente
excluyentes
queenformen
partición
delseespacio
muestral, se
verifica que
exhaustivas y mutuamente excluyentes.
En general,
siempre que se divide la población
k
k
P(B) =  P( Ai ∩ B) =  P( Ai ) P( B | Ai ) ,
i =1
i =1
en estratos se aplica una partición
a esa población.
conocida como regla de la probabilidad total. Esta fórmula es particularmente útil en
conocida como
reglasedeemplean
la probabilidad
total. Esta
es particularmente
en
epidemiología,
donde
con frecuencia
lasfórmula
particiones.
Por ejemplo, útil
al dividir
la
Ejemplo
2.7
En
una
población
de
mayores
de
65
años,
los
individuos
con
edades
población en grupos de edad y sexo se están empleando categorías globalmente exhaustivas y
epidemiología,
donde se
frecuencia
particiones.
Por ejemplo,
al dividir
mutuamente
excluyentes.
Enemplean
general,con
siempre
que selasdivide
la población
en estratos
se aplica
entre
65–74,
75–84
y
≥
85
años
constituyen
el
60,
30
y
10%
de
la
población.
La
una partición a esa población.
la población en grupos de edad y sexo se están empleando categorías globalmente
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
Ejemplo 2.7 En una población de mayores de 65 años, los individuos con edades entre
exhaustivas
y mutuamente
general,
siempre
se divideLa
la prevalencia
población de
65-74, 75-84
y ≥ 85 añosexcluyentes.
constituyen En
el 60,
30 y 10%
de laque
población.
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la
la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300
en casos
estratos
aplicaLa
una
partición aglobal
esa población.
porse1000.
prevalencia
de la enfermedad de Alzheimer en esta población
enfermedad de Alzheimer en esta población de mayores de 65 años se calcularía
de mayores de 65 años se calcularía
Ejemplo 2.7 En una3población de mayores de 65 años, los individuos con edades
P(A) =  P( E i ) P( A | E i )
entre 65–74, 75–84i =y1 ≥ 85 años constituyen el 60, 30 y 10% de la población. La
2.5 TEOREMA DE BAYES
= 0,60⋅0,020 + 0,30⋅0,075 + 0,10⋅0,300 = 0,0645,
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
resultando 64,5 casos por 1000 personas.
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir
respectivamente
de 20,
y 300
casos por 1000. La prevalencia global de la
resultando
64,5 casos
por75
1000
personas.
de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac.
2.5 TEOREMA
DEdeBAYES
enfermedad
Alzheimer en esta población de mayores de 65 años se calcularía
Aplicando
definición
de probabilidad
condicionalcondicional
y la regla dedelaAprobabilidad
total,de la
El teorema
delaBayes
permite
obtener la probabilidad
dado B a partir
3
c
probabilidad de A y de las probabilidades condicionales inversas de B dado A y A . Aplicando
9
P(A) =  P( E i ) P( A | E i )
se obtienede
queprobabilidad
la definición
condicional
y la regla de la probabilidad total, se obtiene que
i =1
P( A ∩ B) 0,30⋅0,075P(+A0,10⋅0,300
) P( B | A) = 0,0645,
P(A|B) == 0,60⋅0,020 +
.
=
P( B)
P( A) P( B | A) + P( A c ) P( B | A c )
resultando
64,5secasos
porfrecuencia
1000 personas.
El teorema
de Bayes
usa con
en la evaluación de pruebas diagnósticas. Cuando
El teorema
Bayesdiagnóstica
se usa con yfrecuencia
en lasus
evaluación
de con
pruebas
diagnósticas.
se desarrolla
una de
prueba
se comparan
resultados
los de
un patrón oro
(método de referencia en el diagnóstico de la enfermedad), suelen determinarse los siguientes
Cuando se
desarrolla una propias
prueba diagnóstica
se comparan sus resultados con los de un
parámetros
o características
de la pruebaydiagnóstica:
18
patrón oro (método de referencia en el diagnóstico de la enfermedad), suelen
Pastor-Barriuso R.
determinarse los siguientes parámetros o características propias de la prueba
9
Teorema de Bayes
yy Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnóstica
P( D) PS(+=| P(+|D).
D)
PS
entreVP
los
enfermos,
+ =sujetos
+) =
=
,
P ( D | realmente
c
c
P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 − P)(1 − E )
yy Especificidad es la probabilidad
entre los sujetos
| D) un resultado negativo
P( D)de
P(+obtener
PS
+
=
+
=
=
,
(
|
)
VP
P
D
c
c
c
realmente sanos, E = P(–|D
P( D) P).(+ | D) + P( D ) P(+ | D ) PS + (1 − P)(1 − E )
En la aplicación clínica de una pruebaPdiagnóstica
( D c ) P(− | Dac una
) determinada población
(1 − P ) E interesa conocer,
c
= Psiguientes
( D | −) = parámetros:
=
.
VP − los
sin embargo,
c
c
+ (1 − P) E
P( D) P (−P| (DDc))+P(P+( D
| D)c P(− | D ) P(1 − S )PS
( D ) P(− | D de
) tener la =
(1 − Pentre
) E las personas
,
)=
VP + = P ( Dc | +positivo
yy Valor
laPprobabilidad
enfermedad
que
= P( D | −) = P( Des
VP −predictivo
+ (1 − P)(1 − E ) .
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS
(
1
)
(
1
)
−
+
−
P
S
P
E
(
)
(
|
)
(
)
(
|
)
−
+
−
P
D
P
D
P
D
P
D
tienen un resultado positivo, VP+ = P(D|+).
P( D) P(+ | D)
PS
yy Valor
negativo
es de
la probabilidad
de nopara
tener
+ =2.8
= la enfermedad entre,las personas
)=
VPpredictivo
P( D
Ejemplo
La| +sensibilidad
la prueba ELISA
c
c detectar seropositividad
) + P( D
) Pc (+ | D ) PS + (1 − P)(1 − E )
P(negativo,
D) P(+ | DVP–
que tienen un resultado
(−P(D
| D c |–).
)
(1 − P ) E
P ( D c ) P=
c
|sensibilidad
−inmunodeficiencia
)=
= y su especificidad
VP −al=virus
P( D
Ejemplo
2.8
La
de
la
prueba
ELISA
para
seropositividad
c es del
c detectar
frente
de
humana
99%
es. del de la
Aplicando el teorema de Bayes,
los| Dvalores
función
− S ) + (1 − en
P) E
(− | D) +calcularse
) P(1predictivos
P( D) Ppueden
P( D ) P(−
prevalencia de la enfermedad en la población
y de la sensibilidad y especificidad de la prueba
c
)P
(− | D c de
)es infección
− P ) Ede es del
P( D
frente
al
virus
humana
del 99% ypor
su especificidad
cde inmunodeficiencia
96%.
En
una
población
con
una
prevalencia
el(1virus
diagnóstica,
=
.
VP − = P( D | −) =
c
c
P( D) P (− | D) + P( D ) P(− | D ) P(1 − S ) + (1 − P) E
Ejemplo
2.8 La
sensibilidad
de0,3%,
la
para
detectar
96%.
En una
población
con del
una
prevalencia
por
elseropositividad
virus
P
(prueba
D) Púnicamente
(+ |ELISA
Dde
) infección
PS de con un
inmunodeficiencia
el 6,9%
de las
personas
VP + = P ( D | + )humana
=
=
,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 − P)(1 − E )
frente al virus
de inmunodeficiencia
humana
es del
sulas
especificidad
es un
del
inmunodeficiencia
humana
del 0,3%,
únicamente
el 99%
6,9%yde
personas con
resultado
positivo
del
test ELISA
estarán
realmente
infectadas,
Ejemplo 2.8 La sensibilidad de la prueba
ELISA
para
detectar
seropositividad
P ( D c ) P(− | D c )
(1 − P ) E
c
.
VPEn
− =una
P( D
| −del
) =test
= por el virus de
96%.
población
con
una prevalencia
de infección
resultado
positivo
ELISA
estarán realmente
infectadas,
c
c
− S ) + (1 − P)es
E del
0P,003
⋅ 0,)99y Psu(1especificidad
P(PS
D) P (− | D)humana
+ P( D )es
(del
−| D
frente al virus de inmunodeficiencia
99%
VP+ =
=
= 0,069,
PShumana
+ (1 − Pdel
)(1 −0,3%,
E ) únicamente
0,003 ⋅ 0,99 el
+ 06,9%
,997 ⋅de
0,04
inmunodeficiencia
las personas con un
PS una prevalencia de
0,003
⋅ 0,99 por el virus de
96%. En una
con
infección
VP+población
=
=
= 0,069,
Ejemplo 2.8 LaPS
sensibilidad
ELISA
detectar
+ test
(1 − ELISA
P)(1de
− Elaestarán
) prueba
0,003
⋅ 0,99 +para
0infectadas,
,997
⋅ 0,04 seropositividad frente al
resultado positivo del
realmente
virus
de inmunodeficiencia
humana
del 99%
su
especificidad
esestarán
delcon
96%.
mientras
que prácticamente
todas
las es
personas
conyelresultado
inmunodeficiencia
humana del
0,3%,
únicamente
6,9%
de negativo
las personas
un En una
Ejemplo
2.8
La
sensibilidad
de
la
prueba
ELISA
para
detectar
seropositividad
población con una prevalencia de infección por el virus de inmunodeficiencia humana del
mientras
que
prácticamente
todas
las
personas
resultado
negativo
0con
,003
⋅infectadas,
0,99 positivo
0,3%,
únicamente
el
de
las personas
con
un
resultado
del estarán
test ELISA estarán
libres de
la
infección,
resultado
positivo
del6,9%
testPS
ELISA
estarán
realmente
VP+
=
=
=
0,069, es del
frente
al
virus
de
inmunodeficiencia
humana
es
del
99%
y
su
especificidad
realmente infectadas,
PS + (1 − P)(1 − E ) 0,003 ⋅ 0,99 + 0,997 ⋅ 0,04
libres de la infección,
(1 −PS
P) Euna prevalencia 00de
,,997
⋅⋅ 00,,99
96 por el virus de
003
96%. EnVPuna población
con
infección
=
=
= 1,000.
0,069,
VP+ ==
=
PPS
(1 −
−1 −P)EE
00,,003
⋅⋅ 00,,con
01 +
00,,997
⋅⋅ 00,,negativo
96
mientras que prácticamente
las
personas
resultado
estarán
+(1S(1)−−+PP()1todas
)(
)
003
99
+
997
04
E
0,997 ⋅ 0,96
inmunodeficiencia
humana del 0,3%,
VP- =
= únicamente el 6,9% de las=personas
1,000. con un
P(1 − S ) + (1todas
− P) las
E personas
0,003 ⋅ 0con
,01 +resultado
0,997 ⋅ 0,negativo
96
mientras
prácticamente
estarán libres de la
libres de que
la infección,
Sin
embargo,
en
una
población
de
alto
riesgo
con
una
prevalencia
del
virus
de
mientras
que
prácticamente
todas
las
personas
con
resultado
negativo
estarán
infección,
resultado positivo del test ELISA estarán realmente infectadas,
Sin
embargo,
en unahumana
población
de altoelriesgo
una
del virus de
(1 − Pdel
) E 10%,
0de
,997
⋅ 0sujetos
,prevalencia
96
inmunodeficiencia
73,3%con
los
con resultado
libres
de la
VPinfección,
=
=
−=
,003
,99 ⋅ 0,96 1,000.
P(1 − S ) +PS
(1 − P) E =0,003 ⋅ 0,001
+ 0⋅ ,0997
VP+
=
= 0,069,
inmunodeficiencia
humana
del
los+sujetos
positivo estarán realmente
PS
+ (1 −infectados,
P)(110%,
− E )el 73,3%
0,003 ⋅de
0,99
0,997 ⋅ con
0,04resultado
P) E
0,997 ⋅ con
0,96 una prevalencia del virus de
Sin embargo, en una(1 −población
de alto riesgo
VP- =
=
= 1,000.
inmunodeficiencia
el 073,3%
losuna
positivo
Sin embargo,
enrealmente
riesgo
con
prevalencia
del virus
de estarán
positivo
estarán
Puna
(1humana
−población
S ) + infectados,
(del
1 −10%,
Pde) Ealto
,003 ⋅ 0de
,01
+ sujetos
0,997
⋅ con
0,96resultado
PS
0
,
10
⋅
0
,
99
mientras infectados,
que prácticamente
todas las=personas con resultado negativo
realmente
VP+
=
= 0,733,estarán
+ (1 − del
P)(110%,
− E ) el 73,3%
0,10 ⋅ 0,de
99los
+ 0sujetos
,90 ⋅ 0,04
inmunodeficienciaPS
humana
con resultado
PS de alto riesgo con
0,10una
⋅ 0,99
Sin
embargo,
en=una población
prevalencia
del virus de
libres
de VP+
la infección,
=
= 0,733,
PS
+
(
1
−
P
)(
1
−
E
)
0
,
10
⋅
0
,
99
+
0
,
90
⋅
0
,
04
positivo estarán realmente infectados,
siendo muy improbable
la infección
aquellos
sujetos
con
resultado
negativo,
inmunodeficiencia
humana
del 10%,entre
el 73,3%
de los
sujetos
con
resultado
P) E
siendo muy improbable(1la−infección
entre aquellos
sujetos
0,997
⋅ 0,96 con resultado negativo,
VP=
= aquellos sujetos con resultado
= 1,000.
siendo
improbable
la) PS
infección
entre
negativo,
00,10
⋅+0,099
P
(
1
−
S
+
(
1
−
P
)
E
0
,
003
⋅
,
01
,
997
⋅
0
,
96
positivomuy
estarán
realmente
infectados,
(1 − P) E
0,90 ⋅ 0,96
VP+ =
=
= 0,733,
VP− = PS + (1 − P)(1 − E ) = 0,10 ⋅ 0,99 + 0,90 ⋅ 0,04 = 0,999.
P(1 − S ) + (1 − P) E 0,10 ⋅ 0,01 + 0,90 ⋅ 0,96
(1 −PS
P) E
0,,90
00,,96
10 ⋅⋅una
99prevalencia
Sin embargo,
en
de alto
del virus de
VP- == una población
== riesgo0con
== 0,999.
VP+
0,733,
P
(
1
−
S
)
+
(
1
−
P
)
E
0
,
10
⋅
0
,
01
+
0
,
90
⋅
0
,
96
siendo muy improbable
aquellos
PS + (1la−infección
P)(1 − E )entre
0,10
⋅ 0,99 +sujetos
0,90 ⋅ 0con
,04 resultado negativo,
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado
(1la−infección
P) E
0,90 ⋅ 0,96
Pastor-Barriuso
siendo
muy
improbable
entre
11 R.
positivo
estarán
infectados,
VP= realmente
= aquellos sujetos con resultado
= 0,999. negativo,
P(1 − S ) + (1 − P) E 0,10 ⋅ 0,01 + 0,90 ⋅ 0,96
11
(1 − P
)E
0,090
PS
,10⋅ 0⋅ ,096
,99
19
Como puede apreciarse, el valor predictivo positivo de esta prueba varía
Probabilidad
enormemente
función de
la prevalencia
la infección.
Como puede en
apreciarse,
el valor
predictivopoblacional
positivo dedeesta
prueba varía
enormemente en función de la prevalencia poblacional de la infección.
, A2, ..., Ak el
son
sucesos
globalmente
y mutuamente
EnComo
general,
si A1apreciarse,
puede
valor
predictivo
positivoexhaustivos
de esta prueba
varía enormemente en
función de la prevalencia poblacional de la infección.
excluyentes,
el teorema
generalizarse
como
, ...,Bayes
Ak sonpuede
sucesos
globalmente
exhaustivos y mutuamente
En general,
si A1, A2de
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes,
el teorema
degeneralizarse
BayesPpuede
generalizarse
( Ai ∩como
B)
P ( Ai )como
P( B | Ai )
elexcluyentes,
teorema de Bayes
puede
= k
P(Ai|B) =
.
P( B)
P( A ) P( B | A )
P( Ai ∩ B) 
P ( Aij) P( B | Ai j)
=
1
j
= k
P(Ai|B) =
.
P( B)
 P( A j ) P( B | A j )
j =1
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la
enfermedad
deContinuando
Alzheimer por
por
grupo
de edad
edad
viene
dada por
por de los casos de la
Ejemplo 2.9
congrupo
el Ejemplo
2.7,
la distribución
enfermedad
de
Alzheimer
de
viene
dada
enfermedad de Alzheimer Ppor
viene
E1edad
( E1grupo
) P( A |de
)
0,60 ⋅ dada
0,020por
P(E1|A) = 3
= 0,186,
=
0,0645
PP((EE1i))PP((AA|| EE1i)) 0,60 ⋅ 0,020
P(E1|A) = i =13
=
= 0,186,
0,0645

) i ) 0,30 ⋅ 0,075
P( EP2()EPi () P
A(| A
E |2 E
i
=
1
|A)
=
= 0,349,
P(E2
=
3
0,0645
 P( E i ) P( A | E i )
i =1
P( E 2 ) P( A | E 2 )
0,30 ⋅ 0,075
= 0,349,
P(E2|A) = 3
=
P( E 3 ) P( A | E 3 )
0,100,⋅0645
0,300
= 0,465.
P(E3|A) = 3 P ( E i ) P( A | E i )=
0,0645
i =1
 P( E i ) P( A | E i )
i =1
P( E 3 ) P( A | E 3 )
0,10 ⋅ 0,300
Esto es, el 18,6, P(E
34,93|A)
y 46,5%
Alzheimer tienen edades
= 3 de los casos de la
= enfermedad =de0,465.
0,0645
entre 65-74, 75-84 y ≥ 85 años, (respectivamente.
( A | Ede
Esto es, el 18,6, 34,9 y 46,5%
i ) Pcasos
i ) la enfermedad de Alzheimer tienen
 PdeElos
i =1
2.6
REFERENCIAS
edades
entre
65–74,
75–84
y ≥ 85
respectivamente.
Esto es,
el 18,6,
34,9
y 46,5%
de años,
los casos
de la enfermedad de Alzheimer tienen
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 65–74, 75–84 y ≥ 85 años, respectivamente.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3.
Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6
REFERENCIAS
Billingsley
P. Probability
and Measure,
Third
Edition.
New York:
John Wiley
& 2006.
4. 1.Rosner
B. Fundamentals
of Biostatistics,
Sixth
Edition.
Belmont,
CA: Duxbury
Press,
1995. P. Probability and Measure, Third Edition. New York: John Wiley &
1. Sons,
Billingsley
Sons, 1995.
12
12
20
Pastor-Barriuso R.
TEMA 3
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD
3.1
INTRODUCCIÓN
En el tema de estadística descriptiva se revisaron las técnicas necesarias para la realización de un
análisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir
algunos modelos teóricos de probabilidad que permiten caracterizar la distribución poblacional de
determinadas variables y que, a su vez, son aplicables a múltiples situaciones prácticas.
Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados
del mismo una cantidad numérica. A la función que asocia un número real a cada resultado de un
experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido
con anterioridad, una definición más formal de variable aleatoria es, por tanto, la de una función
definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un
valor numérico. Aunque en general pueden definirse múltiples variables aleatorias para un mismo
experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las
características fundamentales del experimento. Las variables aleatorias suelen denotarse por
letras mayúsculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden
tomar se representan por sus correspondientes letras minúsculas, x, y o z.
Ejemplo 3.1 A continuación se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, una
variable aleatoria X podría ser el número de supervivientes, que tomaría los valores X =
0, 1, 2, 3 ó 4 en función del número de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podría definirse otra variable aleatoria Y como el número de muertes,
cuyos valores serían Y = 0, 1, 2, 3 ó 4 en función del número de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X más
natural sería el nivel de colesterol HDL en mmol/l, que podría tomar cualquier valor
positivo. Si el interés se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podría definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La elección de los
valores 0 y 1 es arbitraria, bastaría con asignar dos valores distintos para diferenciar
ambos tipos de resultados.
Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrán asociada una probabilidad, que corresponderá a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribución de
probabilidad de la variable.
Ejemplo 3.2 En el primer experimento del ejemplo anterior, el número de supervivientes
es una variable aleatoria que toma los valores X = 0, 1, 2, 3 ó 4. La probabilidad asociada
al valor 0 P(X = 0) sería la probabilidad del suceso “ninguno de los 4 pacientes sobrevive
Pastor-Barriuso R.
21
Variables aleatorias y distribuciones de probabilidad
a los 6 meses”, la probabilidad asociada al valor 1 P(X = 1) sería la probabilidad del
suceso “sólo 1 de los 4 pacientes sobrevive a los 6 meses”, y así sucesivamente. En el
segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede
tomar cualquier valor en el intervalo (0, ∞). En este caso no tiene sentido preguntarse, por
ejemplo, cuál es la probabilidad de tener exactamente un nivel de colesterol HDL de 1
mmol/l, ya que si esta variable se pudiera determinar con una precisión infinita, la
probabilidad P(X = 1) = 0. En tal caso, deberíamos preguntarnos por la probabilidad de
un determinado intervalo de valores. Así, por ejemplo, la probabilidad P(X ≤ 1) sería la
probabilidad del suceso “tener niveles de colesterol HDL menores o iguales a 1 mmol/l”.
En general, se distinguen dos grandes grupos de variables aleatorias:
yy Variables aleatorias discretas son aquellas que tan sólo puede tomar un número discreto
(finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad
positiva, mientras que la probabilidad de los restantes valores es 0.
yy Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de
un intervalo.
caso,
la probabilidad
un valor
0, porcomo
lo que las
de la
variable
discreta X de
su obtener
probabilidad
P(Xconcreto
= xi) se es
conoce
valor
xi, i = 1, 2,En...,este
probabilidades se asignan a intervalos de valores.
función
dede
probabilidad.
Esta función
debe cumplir
las=siguientes
i = masa
1, 2,se...,
la variable
discreta
X su probabilidad
P(X
xi) sealeatorias
conoce como
valor
xi, de
A
continuación
describen
las principales
características
de las
variables
discretas
y continuas, así como algunas distribuciones teóricas de probabilidad que serán aplicables a
propiedades:
la probabilidad
deutilizadas
cadaEsta
valorfunción
estar
0 y las
1, 0siguientes
< P(X = xi) ≤ 1, y la
función
de variables
masa
de aleatorias
probabilidad.
debeentre
cumplir
muchas
de las
enhalade
práctica.
suma
de las probabilidades
todosvalor
los valores
debeentre
ser igual
a 1,
propiedades:
la probabilidadpara
de cada
ha de estar
0 y 1,
0 < P(X = xi) ≤ 1, y la
3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como
suma de las probabilidades para todos Plos
igual a 1,
( Xvalores
= x i )discreto
=debe
1. ser
Las variables aleatorias discretas toman
un
número
de
valores
con probabilidad no nula
i ≥1
función
de
masa
de
probabilidad.
Esta
función
debe
cumplir
las
siguientes
y, en consecuencia, estarán completamente caracterizadas si se conoce la probabilidad asociada
P( Xasigna
= x i ) a= cada
1. posible valor x , i = 1, 2, ..., de la

a cada uno de estos valores. La función
que
i
i
≥
1
propiedades:
la
probabilidad
deP(X
cada
ha
de estar
entre
y 1,de
0 masa
< P(Xde
= que
xprobabilidad.
1, y la
Una
vez conocida
la función
de masa
deconoce
probabilidad,
la 0probabilidad
i) ≤una
como
función
de
variable
discreta
X su
probabilidad
= valor
xi) se
Esta función debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar
variable
aleatoria
comprendida
en cualquier
subconjunto
Ade
se
calcula
suma
las
probabilidades
todos
losde
valores
debe serlaigual
atodos
1, los
1,Xpara
yesté
la suma
de
las
probabilidades
para
valores
debe ser
entre
0Una
yde
1,vez
0 <conocida
P(X discreta
= xi)la≤función
de
masa
probabilidad,
probabilidad
que
una
igual a 1,
como
la suma
de las
probabilidades
de aquellosenvalores
xi incluidos
dentro
de calcula
ese
variable
aleatoria
discreta
X esté comprendida
subconjunto
A se
P( X = x ) =cualquier
1.

i
i ≥1
subconjunto,
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese
Una vez conocida la función de masa de probabilidad, la probabilidad de que una variable
Unadiscreta
vez conocida
función de masa
de probabilidad,
la probabilidad
que la
una
aleatoria
X esté la
comprendida
en cualquier
subconjunto
A se calculade
como
suma de
subconjunto,
P(X
∈A)
=
.
P
(
X
=
x
)

ide ese subconjunto,
dentro
las probabilidades de aquellos valores xi incluidos
xi ∈ A
variable aleatoria discreta X esté comprendida
en cualquier subconjunto A se calcula
P(X ∈A) =  P( X = x i ) .
xi ∈ A
como
la suma la
defunción
las probabilidades
de aquellos
xi incluidos
dentro
dedefine
ese
En particular,
de distribución
F(x)
devalores
una variable
aleatoria
X se
En particular, la función de distribución F(x) de una variable aleatoria X se define como la
subconjunto,
como
la probabilidad
de
un valor
menor
igual
a x, aleatoria X se define
probabilidad
de observar
unobservar
valor
menor
o igual
a de
x, ouna
En particular,
la función
de distribución
F(x)
variable
F(x)P(X
= un
P(X
≤=x)menor
Xx =) .xai )x,.
como la probabilidad de observar
valor
∈A)
= P( XPo=( igual
i
xi ∈ A
xi ≤ x
F(x)variable
= P(X ≤discreta
x) = será
P ( Xuna
= xfunción
La función de distribución de una
escalonada creciente con
i ).
La
función
de
distribución
de
una
variable
discreta
xi ≤ x será una función escalonada
saltos
en
los
valores
x
con
probabilidad
no
nula.
i
En particular, la función
de distribución F(x) de una variable aleatoria X se define
creciente
con
en los valores
xi con probabilidad
nouna
nula.
La función
desaltos
distribución
de una variable
discreta será
función escalonada
como la probabilidad de observar un valor menor o igual a x,
22
Pastor-Barriuso R.
creciente con saltos en los valores xi con probabilidad no nula.
F(x) que
= P(X
x) =  previos
P ( X = xse
Ejemplo 3.3 Supongamos
por≤estudios
i ) .estima que, después de 6
xi ≤ x
meses de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan
0, 1, 2, 3 y 4 con probabilidad no nula.
Distribuciones de probabilidad discretas
[Tabla 3.1 aproximadamente aquí]
Ejemplo 3.3 Supongamos que por estudios previos se estima que, después de 6 meses
de tratamiento en 4 pacientes
con cáncer,
la probabilidadaquí]
de que sobrevivan 0, 1, 2, 3 ó 4
[Figura
3.1 aproximadamente
pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus
probabilidades constituyen la función de masa de probabilidad de la variable número de
supervivientes,
quedeseestadística
muestra endescriptiva,
la Figura 3.1(a).
Los valores
de la función
de distribución
En
el primer tema
se definieron
la media
y la varianza
en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; así, por ejemplo, la función
de distribución
en 1 esdeF(1)
= P(X ≤central
1) = P(X
= 0) + P(Xde= una
1) =variable
0,1296 +en0,3456
muestral
como medidas
tendencia
y dispersión
una = 0,4752.
La función de distribución de esta variable se representa en la Figura 3.1(b). Notar que
F(x) está
definida sobre
cualquier
número
real, aun
cuando
la variable
tome sólo los
muestra.
A continuación,
se definen
medidas
análogas
para
la distribución
poblacional
valores 0, 1, 2, 3 y 4 con probabilidad no nula.
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria
En el primer tema de estadística descriptiva, se definieron la media y la varianza muestral
como
medidas
de tendencia
y dispersión
de unalavariable
una
muestra.de
A continuación,
discreta
X, denotada
por μcentral
o E(X),
se define como
suma deenlos
productos
cada
se definen medidas análogas para la distribución poblacional de una variable aleatoria. La
esperanza
o media
poblacional
de=una
valor xi por
su probabilidad
P(X
xi),variable aleatoria discreta X, denotada por μ o E(X), se
define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),
μ = E(X) =
 x P( X = x ) .
i
i ≥1
i
Tabla
Función
masa de probabilidad y
La esperanza es la
media3.1
de los
valores xde
i ponderados por su probabilidad y representa
función de distribución del número de supervivientes
a los de
6 meses
de 4aleatoria.
pacientesNotar
con cáncer
sometidos
a se puede
así el valor promedio
la variable
que la media
muestral
tratamiento.
calcular de forma similar,
multiplicando cada
valor observado
de la variable por su
Número
Función
Función
frecuencia relativa.
de supervivientes
de masa
(x)
P(X
= x)una
La varianza poblacional de
0
2
abreviada por σ o var(X), 1se define
2
3
la variable respecto de su media,
4
0,4
como
σ 2 = var(X) = E(X - μ)2 =
0,1296
0,3456
la
esperanza
0,3456
0,1536
0,0256
=
del
0,1296
0,4752
cuadrado
0,8208
0,9744
1,0000
discreta X,
de la desviación de
 (x
i
x
P( X = x i ) − μ 2 = E(X2) - μ2.
i ≥1
0,3
de distribución
F(x) = aleatoria
P(X ≤ x)
variable
i ≥1
P(X = x) 0,2
2
i
− μ ) 2 P( X = xi )
1
0,8
F(x)
0,1
0,6
0,4
5
0,2
0
0
0
1
2
3
4
0
1
2
x
x
(a)
(b)
3
4
Figura 3.1 Función de masa de probabilidad (a) y función de distribución (b) del número de supervivientes
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R.
23
así el valor promedio de la variable aleatoria. Notar que la media muestral se puede
Variables aleatorias y distribuciones de probabilidad
calcular de forma similar, multiplicando cada valor observado de la variable por su
frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X,
La esperanza
es la ponderada
media de los
xi ponderados
por su probabilidad
y representa así el
sí, la varianza resulta
ser la media
del valores
cuadrado
de las desviaciones
en los
valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma
abreviada por σ o var(X), se define como la esperanza del cuadrado de la desviación de
observado
la variable
por su frecuencia relativa. La
cuadradamultiplicando
de la varianzacada
es lavalor
desviación
típica de
poblacional
σ, que
lores xi. La raízsimilar,
Así, la varianza
resulta
media ponderada
del cuadrado
de las desviaciones
en los
se define
varianza
poblacional
deser
unalavariable
aleatoria discreta
X, abreviada
por σ 2 o var(X),
la variable respecto de su media,
como ladeesperanza
delaleatoria
cuadrado
de la desviación
depoblacional.
la variable respecto de su media,
presenta la dispersión
la variable
respecto
de su media
Así,
la varianza
resulta
ser lade
media
ponderada
cuadradotípica
de laspoblacional
desviaciones
valores
x . La raíz
cuadrada
la varianza
es ladel
desviación
σ, en
quelos
i
σ 2 = var(X) = E(X − μ)2 =  ( xi − μ ) 2 P( X = xi )
valores
x
.
La
raíz
cuadrada de
la varianza
esi ≥la
desviación
poblacional σ, que
i
la variable
aleatoria
respecto
detípica
su
Ejemplo 3.4 representa
A partir delalosdispersión
datos del de
ejemplo
anterior,
el 1valor
esperado
delmedia poblacional.
=  xrespecto
− μmedia
= E(X
)−μ .
representa la dispersión de la variable aleatoria
de
poblacional.
i P( X = x
i ) su
número de supervivientes a los 6 meses de 4 pacientes con
i ≥1 cáncer sometidos a
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del
2
2
2
2
varianza3.4
resulta
ser lademedia
ponderada
del cuadrado
las
desviaciones
en los valores
tratamiento Así,
seríalaEjemplo
A partir
losadatos
del
ejemplo
anterior,de
elcon
valor
esperado
del
número
de supervivientes
loses6la
meses
de 4 pacientes
cáncer
sometidos
a
cuadrada
de la varianza
desviación
típica poblacional
σ, que representa
xi. La raíz
5la
dispersión
de ladevariable
aleatoriaa respecto
de su
poblacional.
4
número
supervivientes
los 6 meses
demedia
4 pacientes
con cáncer sometidos a
tratamiento
sería
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
k = 0 Ejemplo 3.4
A partir de los datos del ejemplo anterior, el valor esperado del número de
tratamiento sería
supervivientes a4 los 6 meses de 4 pacientes con cáncer sometidos a tratamiento sería
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
y la varianza
4k = 0
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
k =0
y 4la varianza
σ =y 
(k − μ ) 2 P( X = k )
la
varianza
k =0
y la varianza
2
4
2 = k)
σ 2 =+ 
−μ
) 2 P( X
= (0 - 1,60) 0,1296
... (+k(4
- 1,60)
0,0256 = 0,96.
2
4k = 0
σ 2 == 
(k1,60)
− μ )220,1296
P( X =+k )... + (4 − 1,60)20,0256 = 0,96.
(0 −
k =0
Es decir, el número esperado de supervivientes
a los 6 meses es 1,60 y la
Es decir, el número esperado 2de supervivientes a los 62meses es 1,60 y la desviación típica
= (0 - 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96.
= decir,
0,96 el=número
0,98.
desviación típica σEs
esperado de supervivientes a los 6 meses es 1,60 y la
Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la
σ = 0,96 = 0,98.
típica
3.2.1 desviación
Distribución
binomial
2.1 Distribución binomial
La distribución
binomial
teórico de distribución de probabilidad discreta aplicable
,96 = 0,98.
desviación
típica σes=un 0modelo
a
aquellos
experimentos
en
los
que
se
realizan
pruebas independientes,
cada una de ellas con
distribución binomial es un modelo teórico de distribución denprobabilidad
discreta
3.2.1
Distribución
binomial
sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad de éxito π. En tal caso, se
dice
que la variable
aleatoria
X “número
de éxitos
en las n pruebas”
licable a aquellos
experimentos
en los
que se realizan
n pruebas
independientes,
cada sigue una distribución
3.2.1
Distribución
binomial
La
distribución
binomial
es
un
modelo
teórico
de
distribución
de
probabilidad(véase
discreta
binomial con parámetros n y π. A partir de los resultados del tema de probabilidad
Ejemplo
3.5),
puede
probarse
que
la
distribución
binomial
toma
valores
en
k
=
0,
1,
...,
n
con
probabilidad
a de ellas con sólo
dos resultados
posibleses(éxito
o fracaso)
y lademisma
probabilidad
La
distribución
binomial
un modelo
teórico
distribución
de probabilidad
discreta
aplicable
a aquellos
experimentos
en los
que se
realizan
n pruebas
independientes,
cada
 n  n k k
n−k n−k
= πseπ(realizan
1de
−(1πéxitos
P(XP(X
=enk)=los
se dice
que la variable
aleatoria
X=k)
“número
en, las n independientes, cada
éxito π. En tal caso,
−)fracaso)
π )n, pruebas
aplicable
a aquellos
experimentos
que


una de ellas
con sólo
dos resultados
posibles
(éxito
o
y la misma probabilidad
 k  k 
A partir
de los y la misma probabilidad
uebas” sigue unauna
distribución
binomial
parámetros
n y π.(éxito
de ellas
con
sólo
doscon
posibles
o fracaso)
. En
tal
caso,
seresultados
dice que la
variable
aleatoria
X “número de éxitos en las n
de éxito
 n π
n  n! n!

  = =
donde
es
número
de
de ndeelementos
tomados
de kdeenk k,
es el
el
número
de combinaciones
combinaciones
elementos
es
el
número
de
combinaciones
n elementos
tomados
encon
donde
k!tal
sultados del tema
de
probabilidad
Ejemplo
3.5),
puede probarse
que
la
kπ. kEn
−((véase
(nk!caso,
k−)!kse
dice
que
la
variable
aleatoria
X
“número
de
éxitos
en
las
n
de
éxito
n
)!


pruebas” sigue una distribución binomial con parámetros n y π. A partir de los
n! = n(n – 1)∙…∙1 y 0! = 1. Por supuesto, estas probabilidades constituyen una función de
stribución binomial
toma
valores
endistribución
k ya
= y0,que,
...,1.binomial
n con
probabilidad
partir
deque
losigual
pruebas”
sigue
una
con
npuede
y πes. A
masa
de
nparámetros
y π,
su
suma
exactamente
a 1. En la
k,
con
n! probabilidad
=n!
n(n
-tema
1)⋅…⋅1
0!1,
supuesto,
estas
probabilidades
constituyen
k, con
= n(n
- 1)⋅…⋅1
y =0!para
= Por
1. cualquier
Por
supuesto,
estas
probabilidades
constituyen
resultados
del
de probabilidad
(véase
Ejemplo
3.5),
probarse
launauna
práctica, resulta tedioso calcular las probabilidades de una distribución binomial mediante la
resultados
del
tema
de probabilidad
probabilidad
(véase
Ejemplo
puede
que
la
suma
es exactamente
función
de de
masa
de de
probabilidad
ya ya
que,
cualquier
n yprobabilidad
π,probarse
su suma
es exactamente
función
masa
para
cualquier
nπy, su
distribución
binomial
toma valores
enque,
k para
= 0,
1, ...,
n3.5),
con
24
distribución
binomial
toma
valores
en kcalcular
= 0,
1, ...,
con
probabilidad
igual
a 1.a En
la práctica,
resulta
tedioso
lasnlas
probabilidades
de de
una distribución
igual
1. En
la práctica,
resulta
tedioso
calcular
probabilidades
6 una distribución
Pastor-Barriuso R.
binomial
mediante
la fórmula
anterior.
PorPor
ello,
en en
la Tabla
1 del
Apéndice
se facilitan
binomial
mediante
la fórmula
anterior.
ello,
la Tabla
1 del
Apéndice
se facilitan
6
características sometidos a una misma terapia.
Distribuciones de probabilidad discretas
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de
observar
la Por
supervivencia
(o muerte)
en pacientes
con un determinado
cáncer binomiales
fórmula
anterior.
ello, en la Tabla
1 del Apéndice
se facilitan
las probabilidades
para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribución binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de
el resultado de un tratamiento (éxito o fracaso) en pacientes de similares características
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5 binomial
En los ejemplos
anteriores,
el experimento de observar
π considerado
= 0,4.
distribución
X de parámetros
n = se
4 yha
probabilidad
de
supervivencia
del
0,4.
En
general,
la
probabilidad
desometidos
que
la supervivencia (o muerte) en pacientes con un determinado cáncer
al mismo
tratamiento.
Si
por
estudios
previos
se
sabe
que
la
supervivencia
a
los
6
meses
en
dichos
suceso
dedeque
Utilizando
las
leyes
de la
probabilidad,
si denotamos
por Si al
dado
que
el
resultado
en
cada
paciente
es
independiente
y
todos
tienen
una
misma
sobrevivan
2
pacientes
cualesquiera
puede
descomponerse,
en
función
qué
pacientes es del 40%, el número de supervivientes a los 6 meses en una muestra de 4
pacientes seguirá
unapaciente,
distribución
binomial X de
de que
parámetros
n = 4únicamente
y π = 0,4. los
sobreviva
el i-ésimo
sobrevivan
probabilidad
de supervivencia
del 0,4. En general,
la probabilidad
de que
pacientes
sobrevivan,
como la probabilidad
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
quepaciente,
el resultado
envendría
cada paciente
es
independiente
y todoslos
tienenprimeros
una misma
dos
primeros
pacientes
dada
por
i-ésimo
la probabilidad
de que
sobrevivan
únicamente
pacientes
sobrevivan
2 pacientes
cualesquiera
enc dos
función de qué
cpuede
c descomponerse,
c
P(X = 2) = P{(S1∩S2∩ S 3 ∩ S 4 )∪(S1∩ S 2 ∩S3∩ S 4 )
vendría dada por
probabilidad de supervivencia
del 0,4. En general, la probabilidad de que
c
pacientes
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 − 0,4)2,
P(Ssobrevivan,
1∩S2∩ S 3 ∩como
c
∪(S1∩ S 2cpuede
∩ S 3c ∩descomponerse,
S4)∪( S1c ∩S2∩Sen
3∩ S 4 )
sobrevivan 2 pacientes cualesquiera
función de qué
dado que el resultado en cada paciente es independiente
y todosctienen unac misma probabilidad
c
c
P
(
X
=
2)
=
P
{(
S
∩
S
∩
S
∩
S
)∪(
S1∩de
S2 ∩
S3∩sobrevivan
S4 )
1
2
4
de supervivencia del 0,4. En general, la 3probabilidad
que
2 pacientes
pacientes sobrevivan, como∪( S1c ∩S2∩ S 3c ∩S4)∪( S1c ∩ S 2c ∩S3∩S4)}.
cualesquiera puede descomponerse, en función de qué pacientes sobrevivan, como
∪(S1∩ S 2c ∩ S 3c ∩S4)∪( S1c ∩S2∩S3∩ S 4c )
c
c
P(Xestá
= 2)constituida
= P{(S1∩Spor
S 4c )∪(
S3∩ S 4c como
)
2∩ Sla
1∩ S 2 ∩
Esta probabilidad
unión
deStantos
sucesos
posibles 7
3∩
cc
c
c
c
c
S4)∪(
)∪(
S1c ∩SS12∩ SS32∩∩SS4c3∩
) S4)}.
∪(S∪(
1∩ S12 ∩SS23∩∩SS34∩
 4
4!
24
c
c 2 en 2; es
c decir,
c
S ∩
 S= )}.
combinaciones de 4 pacientes
de
=
∩
S
∩
S
∩
S
)∪(
S
∩
S
∩
∪( Stomados
2
4
3
4
1
3
1
2
2  2! (4 − 2)! 4
Esta probabilidad está constituida por la unión de tantos sucesos
como posibles
Esta probabilidad está constituida por la unión de tantos sucesos como posibles
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos
 4
4!
24
combinaciones
4 pacientes
tomados
2;es
es decir,
decir,   =
=
combinaciones
de 4depacientes
tomados
dede2 2enen
2;
=6
2
2
(4 − 2)!
Esta
probabilidad
constituida
la unión
de(1tantos
 2como
 2!posibles
- 0,4)sucesos
. En consecuencia,
la 4
tienen
una misma está
probabilidad
de por
ocurrir
de 0,4
sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos tienen una
2 son mutuamente
2
4y! todos ellos
24 de que
= 6 probabilidad
sucesos.
Además,
estosde
sucesos
excluyentes
probabilidad
de que
sobrevivan
2 0,4
pacientes
cualesquiera
es 4  la probabilidad
(1 – 0,4)
. En consecuencia,
misma
de
ocurrir
combinaciones de 4 pacientes tomados de 2 en 2; es decir,   =
=
sobrevivan 2 pacientes cualesquiera es
 2  2! (4 − 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
 4 2
0,4mutuamente
(X =sucesos
2) =  son
(1 − 0,4) 2 =excluyentes
0,3456,
= 6 sucesos. Además, P
estos
y todos ellos
probabilidad de que sobrevivan
 22 pacientes cualesquiera es
- 0,4)2. En
tienen
una mismaa probabilidad
dede
ocurrir
de 0,42(1 binomial
que corresponde
la probabilidad
la distribución
deconsecuencia,
parámetros n =la4 y π = 0,4
que
corresponde
a
la
probabilidad
de
la
distribución
binomial
de
parámetros n = 4
4
 2
para k = 2. Aplicando esta fórmula, las probabilidades
2para k = 0, 1, 2, 3 ó 4 supervivientes


P
(
X
=
2)
=
0,4
(
1
−
0
,
4
)
=
0,3456,
probabilidad
cualesquiera
es
 2  3.1(a).
aparecen en de
la que
Tablasobrevivan
3.1 y en 2lapacientes
Figura
Estas probabilidades
también pueden
 
π
=
0,4
para
k
=
2.
Aplicando
esta
fórmula,
las
probabilidades
para
k
=
0, 1, 2, 3
y
obtenerse directamente de la Tabla 1 del Apéndice.
 4 2
n=4
que
corresponde
a
la
probabilidad
deesperanza
binomial
de
parámetros
Tabla
0,4
P
(
X
=
2)
=
(la
1 −distribución
,4)la2yFigura
=la0,3456,
ó
4
supervivientes
aparecen
en
la
3.1
y0en
3.1(a).
A partir de las fórmulas generales para
la
varianza
deEstas
una
variable aleatoria
2
 
discreta, puede probarse que la esperanza de una distribución binomial de parámetros n y π es
π
=
0,4
para
k
=
2.
Aplicando
esta fórmula,
las probabilidades
y
probabilidades también pueden obtenerse
directamente
de la Tabla 1para
del k = 0, 1, 2, 3
n
n
 n  k binomial
n=4
que correspondeEa(Xla) =
probabilidad
de
la
distribución
πy en
(
=
)
=
(1la
− πFigura
) n − k =de
nπparámetros
kP
X
k
k


a
).
Estas
ó 4 supervivientes aparecen en la Tabla 3.1
3.1(
Apéndice.
k =0
k =0  k 
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3
probabilidades también pueden obtenerse directamente de la Tabla 1 del
de lasesfórmulas generales para la esperanza y la varianza de una variable
yAsupartir
varianza
ó 4 supervivientes
aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apéndice.
Pastor-Barriuso R.
aleatoria discreta, puede probarse
que la esperanza de una distribución binomial de
n
probabilidades también pueden
obtenerse
directamente
de
la
Tabla
1
del
var(X) =  (k − nπ ) 2 P( X = k )
A partir
las fórmulask =generales
para la esperanza y la varianza de una variable
0
n y de
π es
parámetros
Apéndice.
25

n
n
n
k =0
k =0
 
 kP( X = k ) =  k  k π
Variables aleatorias y distribuciones de probabilidad
E(X) =
y su varianza es
y su varianza es
k =0
k
k 
 
(1 − π ) n − k = nπ
Así, el número esperado de éxitos es igual al nú
probabilidad individual de éxito. La varianza n
var(X) =
n
 (k − nπ )
2
P( X = k )
número de pruebas y más extrema sea la probab
que π = 0 ó 1, la varianza será 0 ya que todas la
n
IA de la enfermedad
cumplen las siguientes hipótesis
respecto2 anla
incidencia
acumulada

=  (k − nπ )  π k (1 − π ) n − k = nπ(1 − π).
o éxitos.
k
k =0
(esto es, la probabilidad de desarrollar unnuevo
caso en un periodo de tiempo
k =0
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la probabilidad
determinado):
Así, el de
número
de éxitos
al número
de pruebas
realizadas
la pruebas con el ejemplo
3.6por
Continuando
individual
éxito.esperado
La varianza
nπ(1 –esπ)igual
disminuye
cuanto
menor Ejemplo
sea
el número
de
y más extrema sea la probabilidad de éxito. En el caso particular de que π = 0 ó 1, la varianza
La probabilidad
de observarfracasos
un casooeséxitos.
aproximadamente
supervivientes a los 6 meses de 4 pacient
será 0•yaProporcionalidad:
que todas las pruebas
serán respectivamente
probabilidad individual de éxito. La varianza nπ(1 - π) disminuye cuanto menor sea el
proporcional al tiempo transcurrido, de tal forma que en un nintervalo
de 1,60,
tiempo
π = 4⋅0,4
la varianza nπ(1 - π) =
Ejemplo 3.6 Continuando con el ejemplo anterior, el número esperado
de=supervivientes
número
de
pruebas
y
más
extrema
sea
la
probabilidad
de
éxito.
En
el
caso
particular
de la
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es nπ = 4∙0,4 = 1,60,
arbitrariamente corto, la probabilidad de observar un caso es muy pequeña y la
varianza nπ(1 – π) = 4∙0,4∙0,6 = 0,96 y la desviación típica nπ (1 − π ) = 0,98. Estos resultados coin
π = 0 ó 1,
la varianza
0 ya que todas
pruebas
respectivamente
fracasosse
que
resultados
coinciden
conserá
los obtenidos
en el las
Ejemplo
3.4,serán
donde
la media y la varianza
probabilidad de observar más de un caso es esencialmente nula.
calculaban a partir de las fórmulas generales para variables discretas.
3.4, donde la media y la varianza se calcu
o éxitos.
• Estacionaridad: El número de casos por unidad de tiempo permanece
para variables discretas.
3.2.2 Distribución de Poisson
t. Notar
aproximadamente
constantecon
a loellargo
de todo
el periodo
de tiempo
Ejemplo 3.6 Continuando
ejemplo
anterior,
el número
esperado
de que,
La distribución de Poisson es otro modelo teórico de distribución discreta particularmente útil
para el estudio
epidemiológico
lasubstancial
ocurrencia
Se
que
sisupervivientes
se produjera
un
cambio
dedeladeterminadas
incidencia
deenfermedades.
laDistribución
enfermedad
en
elPoisson
3.2.2
dedice
a los
6de
meses
de 4 pacientes
con cáncer
sometidos
a tratamiento
es la
variable aleatoria X “número de casos de una determinada enfermedad a lo largo de un periodo
de tiempotiempo,
tasunción
es
un la
intervalo
largo,
como
1 ótípica
10 años,
distribución
de Poisson
es otro modelo teóri
esta=
no seríadeaplicable.
nt”,
π =donde
4⋅0,4
1,60,
varianza
nπtiempo
(1 - π) arbitrariamente
= 4⋅0,4⋅0,6 =La
0,96
y la tal
desviación
sigue una distribución de Poisson si se cumplen las siguientes hipótesis respecto a la incidencia
acumulada
IA de la enfermedad
(esto es,
la probabilidad
de desarrollar
un nuevo
casoel
un epidemiológ
• Independencia:
ocurrencia
de un
caso
en un determinado
instante
aen
la
particularmente
útil
para
estudio
nπ (1 − π ) = La
0,98.
Estos resultados
coinciden
con los
obtenidos
enno
el afecta
Ejemplo
periodo de tiempo determinado):
probabilidad de La
observar
nuevosde
casos
en periodos
posteriores.
Así, por
ejemplo,
Se dice
que la variable aleatoria
yy Proporcionalidad:
probabilidad
observar
un caso
esenfermedades.
aproximadamente
proporcional
3.4, donde la media
y la varianza
se
calculaban
a partir
de las fórmulas generales
al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto,
enfermedad
a lo largo de un periodo de tiempo
esta hipótesis
independencia no se cumplirá en brotes
epidémicos.
la probabilidad
dede
observar
para variables
discretas.un caso es muy pequeña y la probabilidad de observar más de
un caso es esencialmente nula.
tal como 1 ó 10 años, sig
Aunque la distribución de Poisson se emplea habitualmentearbitrariamente
en el estudio delargo,
la morbiyy Estacionaridad: El número de casos por unidad de tiempo permanece aproximadamente
constante
a lo largo
todo el periodo
de tiempo
t. distribución
Notar que, siesseenprodujera
3.2.2
Distribución
dedePoisson
mortalidad
debida
a determinadas
enfermedades,
esta
general un cambio
substancial de la incidencia de la enfermedad en el tiempo, esta asunción no sería aplicable.
distribución
de La
Poisson
estiempo
otrode
modelo
teórico
de determinado
distribución
a la ocurrencia
en el
de
aleatoriosdiscreta
que satisfagan
las a la
yaplicable
yLa
Independencia:
ocurrencia
un aquellos
caso
en sucesos
un
instante
no afecta
probabilidad de observar nuevos casos en periodos posteriores. Así, por ejemplo, esta
particularmente
útil(por
paraejemplo,
el estudio
epidemiológico
deepidémicos.
la ocurrencia de determinadas
hipótesis
anteriores
accidentes
de tráfico).
hipótesis
de independencia
no selos
cumplirá
en brotes
Aunque
la distribución
de Poisson
se emplea
habitualmente
en de
elde
estudio
de
morbi-mortalidad
X “número
casos
delauna
determinada
enfermedades.
Se dice
que
variable
aleatoria
k sucesos,
k=
Bajo
estas asunciones,
se la
establece
que
la probabilidad
que
ocurran
debida a determinadas enfermedades, esta distribución es en general aplicable a la ocurrencia
en el
tiempo
sucesos
aleatorios
las hipótesis
anteriores
(por
ejemplo,
t”, donde
t es unXintervalo
tiempo
a loperíodo
largo
dedeuntiempo
periodo
deque
tiempo
t para
unasatisfagan
variable
aleatoria
que
siguedeuna
0,enfermedad
1, 2, ...,de
enaquellos
un
los accidentes de tráfico).
arbitrariamente
largo,setal
como 1que
ó 10laaños,
sigue una
Poissonk si
se 1, 2, ...,
distribución
de Poisson
es
Bajo
estas asunciones,
establece
probabilidad
dedistribución
que ocurran kdesucesos,
= 0,
en un periodo de tiempo t para una variable aleatoria X que sigue una distribución de Poisson es
9
−μ
k
e μ
P(X = k) =
,
k!
26
donde el parámetro μ es el número esperado de sucesos en el período de tiempo t. A
Pastor-Barriuso R.
diferencia de la distribución binomial, donde el número de éxitos k no puede exceder el
número finito de pruebas realizadas, en la distribución de Poisson el número de pruebas
Una característica importante de la distribución de Poisson es que tanto su media
grande, aunque
se considera infinito y el número de sucesos k puede ser arbitrariamente
Distribuciones de probabilidad discretas
como su varianza son iguales al parámetro μ,
la probabilidad P(X = k) decrecerá al aumentar k hasta hacerse esencialmente nula. Para
k
e −μ μ
donde
el parámetro
μ esμel>número
esperado
de sucesos
en el periodo
de tiempo t. A diferencia
probabilidades
son
positivas
cualquier
parámetro
kP
X
k
k
E(X)0,=estas
=
=
= μ, y suman 1, constituyendo
(
)


de la distribución binomial, donde
el
número
de
éxitos
k
no
puede
exceder
el número finito de
k!
k ≥0
k ≥0
pruebas
realizadas,
en la de
distribución
de Poisson
el número
pruebassesepresentan
consideralas
infinito y el
una función
de masa
probabilidad.
En la Tabla
2 del de
Apéndice
número de sucesos k puede ser arbitrariamente grande, aunque la− μprobabilidad
P(X = k) decrecerá
k
e μ
μ ) 2 P( X = k ) =nula.
X) hacerse
=  (k −esencialmente
− μ ) 2cualquier=parámetro
μ.
(kPara
al aumentar k var(
hasta
μ > 0, estas

μ
de
0,5
a
20
en
intervalos
de
probabilidades de Poisson
para
k! 0,5.
k ≥ 0 y suman 1, constituyendo
k ≥0
probabilidades son positivas
una función
de masa de probabilidad. En
la Tabla 2 del Apéndice se presentan las probabilidades de Poisson para μ de 0,5 a 20 en
Una característica importante de la distribución de Poisson es que tanto su media
intervalos de 0,5.
Ejemplo
3.7 Según
el último
de Mortalidad
por Cáncer
en tanto
España,
tasa de
Una
característica
importante
deAtlas
la distribución
es que
su la
media
como su
μ, de Poisson
como
su varianza
son
iguales
al
parámetro
varianza son iguales al parámetro μ,
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000
e −μ μ k
kP
X
k
k
E
(
X
)
=
=
=
= μ,
(
)


personas-año. Partiendo de esta
información, kse
pretende
k! determinar la
k ≥0
≥0
−μ
k
2 por cáncer de vesícula
2 een μ
distribución del
número
de
muertes
un
periodo
var(X) =  (k − μ ) P( X = k ) =  (k − μ )
= μ. de 1 ó 2
k
!
k ≥0
k ≥0
años en una población de 140.000 hombres. Las asunciones de estacionaridad e
Ejemplo 3.7 Según el último Atlas de Mortalidad por Cáncer en España, la tasa de
independencia parecen razonables por tratarse de casos de mortalidad por cáncer
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000 personas3.7deSegún
el último Atlas
Mortalidad
por Cáncer
en España,
tasa de de
año.Ejemplo
Partiendo
esta información,
se de
pretende
determinar
la distribución
dellanúmero
en periodos cortos de tiempo. Además, como la tasa de mortalidad I es baja y se
muertes por cáncer de vesícula en un periodo de 1 ó 2 años en una población de 140.000
porrazonables
100.000 por
mortalidad
cáncer dedevesícula
en hombres
es de I = 1,80 casos
hombres.
Las por
asunciones
estacionaridad
e independencia
parecen
asume constante en el tiempo, puede probarse que la incidencia acumulada en un
tratarse de casos de mortalidad por cáncer en periodos cortos de tiempo. Además, como
personas-año.
Partiendo
de yesta
se pretende
determinar
la tasa
de mortalidad
I es baja
se información,
asume constante
en el tiempo,
puedelaprobarse que la
periodo de tiempo t es
incidencia acumulada en un periodo de tiempo t es
distribución del número de muertes por cáncer de vesícula en un periodo de 1 ó 2
IAt = 1 − exp(−It ) ≈ It;
años en una población de 140.000 hombres. Las asunciones de estacionaridad e
es decir, la probabilidad de que un individuo de esta población muera por cáncer de
es
decir,
la
derazonables
queproporcional
un individuo
esta
mueracumpliéndose
por por
cáncer
vesícula
es probabilidad
aproximadamente
aldetiempo
transcurrido,
independencia
parecen
por tratarse
de población
casos
de mortalidad
cáncerasí la
hipótesis de proporcionalidad. La incidencia acumulada en 1 año es IA1 = 0,000018 y en
de
vesícula
aproximadamente
proporcional
al tiempo
transcurrido,
0,000036.
En consecuencia,
número
de muertes
2 años
IA2 =es0,000018∙2
I es bajapor
y secáncer
en periodos
cortos de =tiempo.
Además,
como
la tasa el
de
mortalidad
de vesícula en un periodo de tiempo t seguirá una distribución de Poisson con un número
esperado
casos igual
al tiempo,
productopuede
del tamaño
poblacional
por la probabilidad
asumede
constante
en el
probarse
que la incidencia
acumulada individual
en11un
de muerte en dicho periodo, μ = 140.000∙0,000018 = 2,52 muertes esperadas en 1 año y
140.000∙0,000036
= 5,04
t es en 2 años.
periodo de tiempo
Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por
ejemplo, la probabilidad de que no
IAtse= produzca
1 - exp(-Itninguna
) ≈ It; muerte por cáncer de vesícula
durante 1 año en esta población se calcula a partir de la distribución de Poisson de
parámetro μ = 2,52 como P(X = 0) = e–μμ 0/0! = e–2,52 = 0,0805. Estas distribuciones también
es decir,
la probabilidad
de que
un individuo dedeesta
población
pueden
aproximarse
mediante
las probabilidades
Poisson
de lamuera
Tabla por
2 delcáncer
Apéndice
para μ = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el número esperado
de vesícula
es aproximadamente
al tiempo
transcurrido,
de muertes,
la distribución
tiende a proporcional
ser más simétrica
alrededor
del valor esperado y su
varianza aumenta.
11
Pastor-Barriuso R.
27
Variables aleatorias y distribuciones de probabilidad
Tabla 3.2 Distribución de probabilidad del
número de muertes por cáncer de vesícula en
periodos de 1 y 2 años en una población de
140.000 hombres.
P(X = k)
P(X = k)
Número
de muertes (k)
1 año
2 años
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0,0805
0,2028
0,2555
0,2146
0,1352
0,0681
0,0286
0,0103
0,0032
0,0009
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0065
0,0326
0,0822
0,1381
0,1740
0,1754
0,1474
0,1061
0,0668
0,0374
0,0189
0,0086
0,0036
0,0014
0,0005
0,0002
0,0001
0,0000
0,25
0,25
0,2
0,2
0,15
0,15
0,1
0,1
0,05
0,05
0
0
0
5
10
15
20
0
5
10
k
k
(a)
(b)
15
20
Figura 3.2 Distribución de probabilidad del número de muertes por cáncer de vesícula en un periodo de 1
año (a) y de 2 años (b) en una población de 140.000 hombres.
Figura 3.2
28
Pastor-Barriuso R.
Este resultado es particularmente útil en la práctica, ya que el cálculo de las
probabilidades binomiales para n grande y π pequeña es muy laborioso, en cuyo caso
Distribuciones de probabilidad continuas
las probabilidades de Poisson son más fáciles de manejar y facilitan resultados
3.2.3 Aproximación
virtualmente
idénticos. de Poisson a la distribución binomial
Bajo determinadas circunstancias, la distribución de Poisson puede utilizarse como aproximación
a la distribución
binomial.
Supongamos
que,anterior
en una distribución
binomial,Xel número de pruebas
Ejemplo 3.8
Retomemos
del ejemplo
la variable aleatoria
n es grande y la probabilidad individual de éxito π es pequeña. En tal caso, el número de éxitos
de la distribución
binomial
puedede
sermuertes
muy grande
y su varianza
seráen
aproximadamente
correspondiente
al número
por cáncer
de vesícula
un periodo de 2 igual al
valor esperado, nπ(1 – π) ≈ nπ. Como se vio en el apartado anterior, estas dos características son
propias
de en
unauna
distribución
lo que sugiere
la validez del
siguienteconsistiría
resultado: si el
años
población de
de Poisson,
140.000 hombres.
El experimento
subyacente
número de pruebas n es grande y la probabilidad de éxito π es pequeña, la distribución binomial
se aproxima
a unapara
distribución
de los
Poisson
con parámetro
nπ. Por regla
general,
n = 140.000
hombres, μla =ocurrencia
o no de
una esta
en observar,
cada uno de
aproximación se considera suficientemente precisa cuando n ≥ 100 y π ≤ 0,01.
muerte
por cáncer
de vesícula durante
unpráctica,
periodo ya
de que
2 años.
El resultado
cada
Este
resultado
es particularmente
útil en la
el cálculo
de las en
probabilidades
binomiales para n grande y π pequeña es muy laborioso, en cuyo caso las probabilidades de
sujeto
independiente
y la probabilidad
de que un virtualmente
individuo promedio
de esta
Poisson
son es
más
fáciles de manejar
y facilitan resultados
idénticos.
Utilizando la aproximación de Poisson a la distribución binomial, el número de
Ejemplo 3.8
Retomemos
ejemplo en
anterior
X correspondiente
π = IA2 aleatoria
= 0,000036.
Por
población
muera
por cáncerdel
de vesícula
2 añoslaesvariable
al número de muertes por cáncer de vesícula en un periodo de 2 años en una población
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente
de 140.000
hombres.
El experimento
en observar,
para cada
tanto,
el número
de muertes
por cáncersubyacente
de vesículaconsistiría
en esta población
a lo largo
de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cáncer de vesícula
μ =ennπcada
= 140.000⋅0,000036
= 5,04. Eny la
una distribución
dede
Poisson
conElparámetro
un periodo
2 años.
resultado
es independiente
nsujeto
= 140.000
yπ=
2durante
años seguirá
una distribución
binomial
con parámetros
probabilidad de que un individuo promedio de esta población muera por cáncer de
consecuencia,
la es
probabilidad
de observarPor
2 muertes
aproximarse
por
0,000036.
tanto,
elpuede
número
de muertes
vesícula
enAsí,
2 años
π = IAla2 =probabilidad
0,000036.
por ejemplo,
de que
ocurran
exactamente
2 por cáncer
de vesícula en esta población a lo largo de 2 años seguirá una distribución binomial con
5 , 04 por2 ejemplo, la probabilidad de que ocurran
parámetros
muertes
es n = 140.000 y π = 0,000036.
e −Así,
5,04
P
(
X
=
2)
≈
= 0,082222,
exactamente 2 muertes es
Utilizando la aproximación de Poisson a la2!distribución binomial, el número de
140.000 
2
139.998

0,un
Pcáncer
(X = 2)de
= vesícula
000036
0,999964
= 0,082220.
muertes
por
en
periodo
de 2 añosbinomial
seguirá
aproximadamente
que coincide casi perfectamente
con
la
probabilidad
exacta.
2


Utilizando
la aproximación
a la μdistribución
binomial, el número
muertes
= nπ = 140.000⋅0,000036
= 5,04.deEn
una distribución
de Poisson de
conPoisson
parámetro
por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente una distribución
Poisson conla parámetro
μ de
= nπ
= 140.000∙0,000036
5,04. En consecuencia,
la
3.3de
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
consecuencia,
probabilidad
observar
2 muertes
puede=aproximarse
por
probabilidad de observar 2 muertes puede aproximarse por
13
−5 , 04
2
Las variables aleatorias continuas son aquellas
que
pueden
tomar
cualquier
valor
dentro
5,04
e
P(X = 2) ≈
= 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
perfectamente
la probabilidad
binomial
determinado
es 0casi
y, en
consecuencia,con
carece
de sentido definir
unaexacta.
función de masa de
3.3probabilidad.
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
Para las variables
aleatorias continuas,
las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES
DE PROBABILIDAD
CONTINUAS
densidad
de probabilidad
denotada es 0
de valores mediante
una función
intervalo.
La probabilidad
de que estas
variablesdetomen
exactamente
un valor ,determinado
y, en consecuencia, carece de sentido definir una función de masa de probabilidad. Para las
f(x).aleatorias
Esta
función
ha de ser
negativa
valor
x, f(x) ≥de0,
y eldentro
área
Laspor
variables
aleatorias
continuas
son
aquellaspara
quesecualquier
pueden
cualquier
valor
variables
continuas,
las no
probabilidades
asignantomar
a intervalos
valores
mediante
una función de densidad de probabilidad, denotada por f(x). Esta función ha de ser no negativa
de total
uncualquier
intervalo.
La probabilidad
quefunción
estasbajo
variables
tomen
exactamente
un
bajo lavalor
curva
deladensidad
debe
ser
1, valorde densidad
para
x,definida
f(x) ≥ 0, por
y eldeesta
área
total
curva
definida
porigual
esta afunción
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece
de sentido definir una función de masa de
∞
f
(
−∞ x) dx = 1.
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
Pastor-Barriuso R.
A partir
de la función
de densidad,
la probabilidad
una variable
aleatoria
de densidadde
deque
probabilidad
, denotada
intervalos
de valores
mediante
una función
tome valores
de cualquier
, b) puede
como el
f(x). EstaX función
ha de dentro
ser no negativa
paraintervalo
cualquier(avalor
x, f(x)calcularse
≥ 0, y el área
porcontinua
29

−∞
VariablesAaleatorias
y distribuciones
de de
probabilidad
partir de
la función
densidad,
la probabilidad de que una variable aleatoria
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la función de densidad, la probabilidad de que una variable aleatoria continua X
a ycalcularse
b,
área
bajo ladentro
función
densidad
entre los
tome
valores
de de
cualquier
intervalo
(a,puntos
b) puede
como el área bajo la función
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La función debdistribución F(x) corresponde a la
P(a < X < b) =  f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de densidad
tomará
valores
elevados
en regiones
alta probabilidad
ydevalores
en
de
Así, aun
cuando
lacontinua,
probabilidad
de de
obtener
un
valorbajo
concreto
0,pequeños
ladefunción
deregiones
variable
aleatoria
se calcula
como
el área
la es
curva
la función
de
baja probabilidad. La función de distribución F(x) corresponde a la probabilidad de que la
variable
tome
unizquierda
valor
igual
ox, inferior
x y, en el
de una variable
aleatoria
continua, se
valores
enaregiones
decaso
alta probabilidad
y valores
pequeños
densidad
atomará
la
deelevados
calcula como el área bajo de la curva de la función de densidad a la izquierda de x,
F(x) = P(X ≤ x) =

x
−∞
14
f (t ) dt .
La función de distribución de una variable aleatoria continua es una función que, partiendo de 0,
crece
formade
continua
hasta alcanzar
el valoraleatoria
1.
La de
función
distribución
de una variable
continua es una función que,
partiendo
de 3.9
0, crece
formade
continua
hasta
alcanzar
el valorHDL
1. en hombres adultos se
Ejemplo
La de
función
densidad
para
el colesterol
representa en la Figura 3.3(a). Notar que, aunque el área bajo la curva ha de ser igual a 1, la
función de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
La función
densidad
para elprobabilidad
colesterol HDL
en hombres
adultos
próximos
a 13.9
mmol/l
son losdeque
tienen mayor
de ocurrir,
mientras
que para
niveles inferiores y superiores esta probabilidad decrece. Así, por ejemplo, la probabilidad de
a).de
Notar
que, aunque
el áreaa bajo
curva(niveles
ha de ser
en la tenga
Figuraun3.3(
queseunrepresenta
hombre adulto
nivel
colesterol
HDL inferior
0,90 la
mmol/l
bajos
según las recomendaciones del “National Cholesterol Education Program”) corresponde al
a 1, la función
de densidad
puedede
tomar
1. Los
niveles
áreaigual
sombreada
bajo la curva
a la izquierda
0,90 valores
mmol/l ysuperiores
es igual a aP(X
≤ 0,90)
= 0,3274.
esperanza
o
media
poblacional
de
una
Al
igual
que
para
variables
discretas,
la
Esta probabilidad también puede obtenerse a partir de la función de distribución del colesterol
de colesterol
HDL próximos
a 13.3(b).
mmol/lEsta
sonfunción
los quepresenta
tienen mayor
probabilidad
de de
HDL,
que se representa
en la Figura
el aspecto
característico
variable
aleatoria
representa
el valorcontinuas
promedioaproximadamente
de esa variable, ysimétricas.
se define
las funciones
decontinua
distribución
para variables
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al
igual que para variables discretas, la esperanza o media poblacional de una variable
por ejemplo,
la promedio
probabilidad
de que
un hombre
adultocomo
tenga un nivel
aleatoria decrece.
continuaAsí,
representa
el valor
de esa
variable,
y se define
∞
E(X)mmol/l
=  x(niveles
f ( x) dxbajos
.
de colesterol HDL inferiorμa=0,90
según las
−∞
Program”) corresponde al
recomendaciones del “National Cholesterol Education
1,5
1
La varianza poblacional de una variable aleatoria continua es la esperanza de las
área sombreada bajo la curva a la izquierda de
0,90 mmol/l y es igual a P(X ≤
0,75
desviaciones
al cuadrado de los valores de la variable
respecto de su media, y se calcula
1
0,90) = 0,3274. Esta probabilidad también
obtenerse a partir de la función
f(x)
F(x) puede
0,5
como
0,5
de distribución del colesterol HDL, que se representa en la Figura 3.3( b). Esta
∞
0,25
σ 2 = var(X) = E(X - μ)2 =  ( xde
− μ ) 2 f ( x) dx
función presenta el aspecto característico
las funciones de distribución para
−∞
0
0
∞simétricas.
variables
continuas
aproximadamente
2
2
2
2
0
0,5
1
1,5
2
2,5
=
 x f ( x) dx − 0μ =0,5E(X ) 1- μ . 1,5
−∞
Colesterol HDL (mmol/l)
2
2,5
Colesterol HDL (mmol/l)
La raíz cuadrada de la varianza
es la desviación
típica poblacional
3.3 aproximadamente
aquí] σ, que
(a) [Figura
(b)representa la
Figura 3.3 Función de densidad de probabilidad (a) y función de distribución (b) del colesterol HDL en
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones
hombres adultos.
Figura 3.3
30
para la media y la varianza poblacional de una variable continua son similares a las
Pastor-Barriuso R.
facilitadas para variables discretas, salvo que la suma sobre el número discreto de
15
−∞
∞
=  x 2 f ( x) dx − μ 2 = E(X2) - μ2.
La varianza poblacional de una variable−∞aleatoria continua es la esperanza de las
σ, que representa
la continuas
La raíz cuadrada de la varianza es la desviación típica poblacionalDistribuciones
de probabilidad
cuadrado
de los
valores
de la variable
respecto deσ,su
media,
y se calcula
que
representa
la
Ladesviaciones
raíz cuadradaalde
la varianza
es la
desviación
típica poblacional
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
de una variable
continua
es la esperanza
de las desviaciones
dispersión
de poblacional
la variable aleatoria
respectoaleatoria
de su media
poblacional.
Estas expresiones
para
la media
la varianza
una variable
continua
son
similares
a las
al
cuadrado
deylos
valores depoblacional
la variablede
respecto
de su media,
y se
calcula
como
para la media y la varianza
poblacional de
2
2 una∞variable 2continua son similares a las
facilitadas para variables
discretas,
σ = var(
X ) = E(Xsalvo
μ ) que
=  la( suma
x − μ )sobre
f ( x)eldxnúmero discreto de
−
Existen muchos modelos teóricos de distribuciones
continuas, cada una de ellas
−∞
facilitadas para variables discretas, salvo que la
de
∞ suma sobre el número2discreto
2
2 la integral 2sobre todos los
valores con probabilidad no nula se reemplaza
por
posibles
−
=
x
f
(
x
)
dx
−
μ
=
E
(
X
)
μ
.
caracterizada por una fórmula o expresión
−∞concreta para la función de densidad. A
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
de la variable
continua.es la desviación típica poblacional σ, que representa la dispersión
La
raíz cuadrada
de la varianza
continuación se revisa en detalle la distribución normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
, que representa
la
La raíz poblacional
cuadrada de de
la varianza
es la desviación
típica
poblacional
varianza
una variable
continua son
similares
a las σ
facilitadas
para variables
t de Student,
chifrecuencia
en estadística.
Otras
distribuciones
continuas,
como la
Ejemplo
la función
de densidad
ejemplo
anterior,
el valor
discretas,
salvo3.10
que Utilizando
la suma sobre
el número
discreto del
de valores
con
probabilidad
no nula se
reemplaza
por
lalaintegral
sobre
los posibles
la variable
continua.
dispersión
de3.10
variable
aleatoria
respecto
de suvalores
media
poblacional.
Estas
Ejemplo
Utilizando
latodos
función
de densidad
del de
ejemplo
anterior,
elexpresiones
valor
decolesterol
Fisher, seHDL
discutirán
vayande
surgiendo
lo
largosería
del
texto.
cuadrado
o Fdel
esperado
en unasegún
población
hombresaadultos
paraesperado
la mediadel
y lacolesterol
varianza
poblacional
una
variable
continua
son
similares
a las esperado
Ejemplo
3.10
Utilizando
laen
función
de
densidad
del
ejemplo
anterior,
HDL
una de
población
de hombres
adultos
sería el valor
3.3.1
Distribución
normal
∞
del colesterol HDL en una población de hombres adultos sería
μ =  salvo
x f ( xque
) dxla=suma
1,10 sobre
mmol/l,
facilitadas para variables discretas,
el número discreto de
0
∞
La distribución normal, también
denominada
distribución
Gaussiana,
es el modelo
μ =  x f ( x) dx = 1,10 mmol/l,
0
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
y la desviación
típica
teórico
de distribución
y la desviación
típicacontinua más utilizado en la práctica. Muchas mediciones
valores
de la variable
continua.
y la desviación
típica
1 / 2 similares al modelo teórico normal
epidemiológicas y clínicas presentan
distribuciones
∞
2

σ =   ( x − 1,10) f ( x) dx 
= 0,30 mmol/l.
 ∞0
1 / 2
2
Ejemplo
3.10colesterol
Utilizando
valor
(presión
arterial,
índice
masa
o bienanterior,
pueden el
transformarse
σ =   sérico,
( xla−función
1,10
) f de
(de
x)densidad
dx  corporal)
= del
0,30ejemplo
mmol/l.
 0

Existen
muchosdel
modelos
teóricos
de
continuas,
cada
una demediante
ellas caracterizada
colesterol
HDL
endistribuciones
una población
de hombres
adultos
sería
para esperado
conseguir
distribuciones
aproximadamente
normales
(típicamente
por una fórmula o expresión concreta para la función de densidad. A continuación se revisa
16 en
detalle
la
distribución
normal,
que
es
la
utilizada
con
mayor
frecuencia
en
estadística.
Otras
transformaciones logarítmicas de los
∞ datos originales). No obstante, como se verá en los
16
distribuciones continuas, como laμt=de Student,
chi-cuadrado
o F de Fisher, se discutirán según
x f ( x) dx
= 1,10 mmol/l,
0
vayan
surgiendo
a
lo
largo
del
texto.
temas posteriores, la utilidad fundamental de la distribución normal surge dentro de las
y la de
desviación
típica
3.3.1
Distribución
normal
técnicas
inferencia
estadística: incluso cuando la distribución poblacional de una
La distribución normal, también denominada distribución
Gaussiana, es el modelo teórico de
2
variable diste mucho de ser normal,
puede
probarse1 / que,
bajo ciertas condiciones, la
∞
2
distribución continua más utilizado
epidemiológicas y clínicas
σ =   en
( x −la1práctica.
,10) f ( xMuchas
) dx  mediciones
= 0,30 mmol/l.
 al0 modelo teórico normal
 (presión arterial, colesterol sérico, índice
presentan distribuciones similares
distribución de los valores medios de dicha variable seguirá un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (típicamente mediante transformaciones logarítmicas de los datos originales). No obstante,
aproximadamente normal.
como se verá en los temas posteriores, la utilidad fundamental de la distribución normal surge dentro
16
de las técnicas de inferencia estadística: incluso cuando la distribución poblacional de una variable
Una variable aleatoria continua X sigue una distribución normal si su función de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribución de los
valores medios de dicha variable seguirá un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribución normal si su función de densidad es
f (x) =
 (x − μ) 2
exp −
2σ 2
2π σ

1

 ,

para cualquier valor x en la recta real, – ∞ < x < ∞. Esta función de densidad depende de los
parámetros
μ y σ, donde
para cualquier
valor x en la recta real, -∞ < x < ∞. Esta función de densidad depende de
yy μ representa la esperanza o media poblacional de la distribución y
σ,desviación
donde
ylos
y σ parámetros
correspondeμaysu
típica poblacional.
•
μ representa la esperanza o media poblacional de la distribución y
Pastor-Barriuso R.
17
31
Variables aleatorias y distribuciones de probabilidad
1
2π σ
•
σ corresponde a su desviación típica poblacional.
La distribución normal o Gaussiana con media μ y varianza σ 2 se denota
abreviadamente
por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal
f(x)
es positiva y el área total bajo la curva es igual a 1. Esta función de densidad, que
aparece representada en la Figura 3.4, tiene forma de campana, es simétrica alrededor
• σ corresponde
típica
poblacional.
en μ + σ ya μsu- desviación
σ. Al tratarse
de una
de la media μ y tiene dos puntos de inflexión
0
Lamediana
distribución
normalElo valor
Gaussiana
con media μ y varianza σ 2 se denot
distribución simétrica, la media y la
coinciden.
más frecuente
μ - 3σ
μ - 2σ
μ-σ
μ
μ+σ
2
μ + 2σ
μ + 3σ
N(μ, σ del
). Para
μ y σ > 0, la función de de
abreviadamente
y su dispersiónpor
alrededor
valorcualquier
medio aumenta
1/( 2π σ) se alcanza en la media μ
x
Figura 3.4
positiva
yprobarse
el área total
la curva
igual
a 1. Esta función de dens
.es
Así,
puedenormal
que bajo
elμ68,27%
deles
área
bajo
al aumentar
la desviación
Figura
3.4 Función
de densidadtípica
de unaσdistribución
con media
y desviación
típica
σ. una
aparece representada
tiene
de campana, es simét
σ, la
el Figura
95,45%3.4,
entre
μ ±forma
2σ y el
función de densidad normal está comprendido
entre μ ± en
2
La distribución normal o Gaussiana con media μ y varianza σ se denota abreviadamente
μ ydetiene
dos puntos
de es
inflexión
enyμel+ área
σ y μ - σ. Al tratars
). Para
μ y σ > de
0, la
la media
función
densidad
normal
positiva
por99,73%
N(μ, σ 2entre
μ ±cualquier
3σ.
total bajo la curva es igual a 1. Esta función de densidad, que aparece representada en la
y la μmediana
Figura 3.4, tiene forma de campana, distribución
es simétricasimétrica,
alrededorlademedia
la media
y tiene coinciden.
dos puntosEl valor más fre
de inflexión en μ + σ y μ – σ. Al[Figura
tratarse3.4
deaproximadamente
una distribución simétrica,
la media y la mediana
aquí]
media
μ y μsuydispersión
alrededor del valor
se alcanza
alcanzaenenla la
media
su dispersión
coinciden. El valor más frecuente 1/( 2π σ) se
alrededor del valor medio aumenta al aumentar la desviación típica σ. Así, puede probarse
distribución
normal
con función
media
0 de
y desviación
típica 1 está
se denomina
que elLa
68,27%
del área
bajo una
densidad
normal
comprendido
μ ± σ,que el 68,27% d
σ. Así, distribución
puedeentre
probarse
al aumentar
la desviación
típica
el 95,45% entre μ ± 2σ y el 99,73% entre μ ± 3σ.
normal estandarizada, y suele denotarse por
Z o N(0, normal
1). La función
de densidadentre
de μ ± σ, el 95,45% en
de densidad
está comprendido
La distribución normal con media 0función
y desviación
típica 1 se denomina
distribución
normal
estandarizada,
y suele
denotarse
por Z o se
N(0, 1). La
función de densidad de una distribución
una distribución
normal
estandarizada
99,73%reduce
entre μa ± 3σ.
normal estandarizada se reduce a
f (z) =
 1 
exp − z 2  ,
 2 
2π
1
[Figura 3.4 aproximadamente aquí]
para cualquier – ∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede observarse,
La distribución
normal
media
0 y desviación
típica
se trata
de una función
deen0.la Para
obtener
probabilidades
bajo
la 1 se denomin
∞, que sealrededor
representa
Figura
3.5(con
a).las
Como
puede
para cualquier
-∞ < z <simétrica
función de densidad normal estandarizada, no se recurre al cálculo integral, ya que estas
estandarizada
y Para
suele
denotarse
por Z facilitan
o N(0, 1). La función de
probabilidades
están
y son normal
fácilmente
accesibles.
En
general,
estas
observarse, se
tratatabuladas
de una función
simétrica
alrededor
de ,0.
obtener
lastablas
la función de distribución; es decir, la probabilidad de que la variable normal estandarizada
una
estandarizada
se
reduce
tome
un valor igual
La distribución
función
de normal
distribución
normal
estandarizada
se
probabilidades
bajoolainferior
función adez.densidad
normal
estandarizada,
no se recurre
al a
denota por F(z) = P(Z ≤ z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apéndice se
facilita
la función
F(z) para valores
de z no negativos.
cálculo
integral,de
yadistribución
que estas probabilidades
están tabuladas
y son fácilmente
1
 1 
f ( z) =
exp − z 2  ,
2π la 2 
accesibles. En general, estas tablas facilitan la función de distribución; es decir,
z.
probabilidad de que la variable normal
estandarizada
unque
valor
o inferior
z < ∞,
se igual
representa
en laaFigura
3.5(a). Como p
para cualquier
-∞ <tome
32
Pastor-Barriuso R.
observarse, se trata de una función simétrica alrededor de 0. Para obtene
18
Distribuciones de probabilidad continuas
f(z)
Φ(z)
1
0,5
-3
-2
-1
0
1
2
3
-3
-2
-1
0
z
z
(a)
(b)
1
2
3
Figura 3.5 Función de densidad (a) y función de distribución (b) de una variable aleatoria normal
estandarizada.
Figura 3.5
Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribución
normal estandarizada se obtiene directamente de la Tabla 3 del Apéndice como el valor
de la función de distribución en 0,50; es decir, P(Z ≤ 0,50) = F(0,50) = 0,6915.
Asimismo, aunque en la Tabla 3 del Apéndice no aparecen las probabilidades acumuladas
para valores negativos, la probabilidad de obtener un valor inferior a – 0,25 en una
distribución normal estandarizada puede calcularse fácilmente a partir de dicha tabla.
Como la distribución normal estandarizada es simétrica alrededor de 0, la probabilidad
a la izquierda de – 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia,
P(Z ≤ – 0,25) = P(Z ≥ 0,25) = 1 – P(Z ≤ 0,25) = 1 – F(0,25) = 1 – 0,5987 = 0,4013. A
partir de los resultados anteriores, la probabilidad de que un valor de la distribución normal
estandarizada. Este resultado será particularmente útil en los temas de inferencia
estandarizada se encuentre entre – 0,25 y 0,50 viene dada por P(– 0,25 ≤ Z ≤ 0,50) = P(Z ≤
0,50)
– P(Z ≤ – 0,25) = 0,6915 – 0,4013 = 0,2902.
estadística.
El percentil 97,5 de una distribución normal estandarizada se denota por z0,975 y corresponde
al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apéndice, se
y
El
calculo
de probabilidades
cualquier
distribución
normal
con media
= 1,96. Por
tratarse
de unaμ distribución
tiene
que F(1,96)
= 0,9750 para
y, por
tanto, z0,975
simétrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir,
– z0,975 específicas,
= – 1,96. Así,sino
los que
valores
± 1,96
abarcan
el 95%
el percentil
es z0,025de= tablas
σ 2 no2,5
requiere
puede
realizarse
a partir
decentral
las de
varianza
la distribución normal estandarizada. Este resultado será particularmente útil en los temas
de inferencia
estadística.
tablas
de la distribución
normal estandarizada. Para ello, se hace uso del siguiente
resultado
la estandarización
de una distribución
normal:
si con
una variable
El cálculosobre
de probabilidades
para cualquier
distribución
normal
media μ aleatoria
y varianza σ 2
no requiere de tablas específicas, sino que puede realizarse a partir de las tablas de la distribución
X sigue
una distribución
normal
con media
y varianzaresultado
σ 2, X ~ sobre
N(μ, σla2),estandarización
entonces la de
normal
estandarizada.
Para ello,
se hace
uso delμ siguiente
una distribución normal: si una variable aleatoria X sigue una distribución normal con media μ
2
, X ~ N(μ,
la una
variable
aleatorianormal
Z = (Xestandarizada,
– μ)/σ sigue una distribución
y varianza
Z =σ(2X),-entonces
μ)/σ sigue
distribución
variable σaleatoria
normal estandarizada,
Z=
X −μ
σ
~ N(0, 1),
donde el símbolo ~ significa “estar distribuido como”. Como ya se comentó enPastor-Barriuso
el Tema R.
1, al restar a los valores de una variable su media y dividirlos por su desviación típica,
33
procedimiento de estandarización de variables normales permite utilizar las tablas
Variables aleatorias y distribuciones
de probabilidad
correspondientes
a la distribución
normal estandarizada.
3.12
Supongamos
el colesterol
HDL
en una
población
dondeEjemplo
el símbolo
~ significa
“estarque
distribuido
como”.
Como
ya se
comentó de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviación típica, la variable resultante
X con media
μ = 1,10
mmol/l
y desviación
una distribución
tiene adultos
media sigue
0 y desviación
típica normal
1. El resultado
anterior
garantiza
además
que la variable
estandarizada conserva la distribución normal. Este procedimiento de estandarización de variables
σ = 0,30
mmol/l.
Utilizando
la estandarización
de variables
normales,
el
típicapermite
normales
utilizar
las tablas
correspondientes
a la distribución
normal
estandarizada.
Ejemplo 3.12
Supongamos
el colesterol
HDLniveles
en una de
población
de HDL
hombres adultos
porcentaje
de hombres
de estaque
población
que tienen
colesterol
sigue una distribución normal X con media μ = 1,10 mmol/l y desviación típica σ = 0,30
mmol/l.
la estandarización
entre
0,90Utilizando
y 1,20 mmol/l
corresponde ade variables normales, el porcentaje de hombres de
esta población que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
 0,90 − 1,10 X − 1,10 1,20 − 1,10 
P(0,90 ≤ X ≤ 1,20) = P
≤
≤

0,30
0,30 
 0,30
= P (− 0,67 ≤ Z ≤ 0,33) = P(Z ≤ 0,33) − P(Z ≤ − 0,67).
Utilizando la Tabla 3 del Apéndice, se obtiene que P(Z ≤ 0,33) = F(0,33) = 0,6293 y P(Z
20
≤ – 0,67) = F(– 0,67) = 1 – F(0,67) = 1 – 0,7486 = 0,2514. Así, resulta que P(0,90 ≤ X ≤
1,20) = 0,6293 – 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta población
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribución del colesterol HDL en esta población, se
calcula primero el percentil 90 en la distribución normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) ≈ 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 – μ)/σ. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = μ + z0,90σ = 1,10 + 1,28∙0,30 = 1,484 mmol/l.
3.3.2 Aproximación normal a la distribución binomial
El cálculo de las probabilidades binomiales es muy laborioso cuando el número de pruebas n en
muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de éxito π es muy
pequeña, la distribución binomial puede aproximarse mediante una distribución de Poisson. En
este apartado, se revisa el comportamiento de una distribución binomial para un número de
pruebas n grande y una probabilidad individual de éxito π no excesivamente extrema. En la
Figura 3.6 se muestran las distribuciones binomiales para los parámetros π = 0,10 y n = 10, 25,
50 y 100. Al aumentar el número de pruebas, la distribución binomial tiende a ser más simétrica
y se aproxima progresivamente a una distribución normal con la misma media nπ y varianza
nπ(1 – π) que la distribución binomial (Figura 3.6(d)). En general, puede probarse que si el
número de pruebas n es elevado y la probabilidad de éxito π no es excesivamente extrema, de
forma que nπ(1 – π) ≥ 5, la distribución binomial con parámetros n y π se aproxima a una
distribución normal con media nπ y varianza nπ(1 – π).
Este resultado es un caso particular del llamado teorema central del límite, que se presentará
más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante
la distribución normal. Así, para una variable binomial X con parámetros n y π que cumpla las
condiciones anteriores, la probabilidad P(k1 ≤ X ≤ k2) se aproxima mediante el área bajo la curva
de la distribución normal N(nπ, nπ(1 – π)) entre k1 – 1/2 y k2 + 1/2, donde k1 ≤ k2 son números
enteros cualesquiera. Notar que, al utilizar la aproximación normal, los límites del intervalo se
amplían en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste
se conoce como corrección por continuidad y se deriva del hecho de aproximar una distribución
binomial discreta mediante una distribución normal continua.
34
Pastor-Barriuso R.
extrema, de forma que nπ(1 - π) ≥ 5, la distribución binomial con parámetros n y π se
Distribuciones de probabilidad continuas
aproxima a una distribución normal con media nπ y varianza nπ(1 - π).
0,4
0,4 aquí]
[Figura 3.6 aproximadamente
0,3
0,3
Este
central del límite, que se
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2
0,1
0,1
presentará más
adelante (véase Tema 4), y se utiliza para
aproximar las probabilidades
0
0
binomiales mediante la distribución normal. Así, para una variable binomial X con
0
5
10
15
20
0
5
10
15
20
anteriores, la probabilidad P((b)
k1 ≤ X ≤ k2 )
parámetros n y π que cumpla las condiciones
(a)
0,4
0,4
0,3
0,3
se aproxima mediante el área bajo la curva de la distribución normal N(nπ, nπ(1 - π))
k - 1/2 y k2 + 1/2, donde k1 ≤ k2 son números enteros cualesquiera. Notar que, al
entre
P(X1= k)
0,2
0,2
0,1
0,1 se amplían en 1/2 para incluir
utilizar la aproximación
normal, los límites del intervalo
0
0
las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste se conoce como
0
5
10
15
20
0
5
10
corrección por continuidad y se deriva
del hecho de aproximar una distribución
k
k
(c)
binomial discreta mediante una distribución normal continua.
15
20
(d)
Figura 3.6 Distribuciones binomiales con parámetros π = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa además la función de densidad de una distribución normal con media nπ = 100∙0,10 = 10
Ejemplo
probabilidad
y varianza
nπ(1 –3.13
π) = La
100∙0,10∙0,90
= 9. de obtener entre 12 y 14 éxitos sobre un total de
100 pruebas con una probabilidad individual de éxito del 0,10 se obtiene a partir
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 éxitos sobre un total de 100
pruebas
con una binomial
probabilidad
obtiene a partir de la
X conindividual
parámetrosden éxito
= 100 del
y π 0,10
= 0,10secomo
de
la distribución
distribución binomial X con parámetros n = 100 y π = 0,10 como
P(12 ≤ X ≤ 14) =
100 
0,10 k (1 − 0,10)100 − k
k =12  k 
14
 
= 0,0988 + 0,0743 + 0,0513 = 0,2244,
cuyo cálculo es bastante laborioso. Sin embargo, como nπ(1 – π) = 100∙0,10∙0,90 = 9 ≥ 5,
una
razonable
a esta probabilidad
de la⋅0,90
distribución
nπ(1 - π)a=partir
100⋅0,10
cuyoaproximación
cálculo es bastante
laborioso.
Sin embargo,puede
comoobtenerse
normal Y con media nπ = 100∙0,10 = 10 y varianza nπ(1 – π) = 9 mediante
= 9 ≥ 5, una aproximación razonable a esta probabilidad puede obtenerse a partir
 11,5 − 10 Y − 10 14,5 − 10 
P(11,5 < Y < 14,5) = P
<
<

de la distribución normal Y con media nπ =3 100⋅0,103= 10 y varianza
3
 nπ(1 - π) = 9
= P(0,5 < Z < 1,5) = Φ(1,5) − Φ(0,5)
mediante
= 0,9332 − 0,6915 = 0,2417.
Esta probabilidad corresponde al área sombreada en la Figura 3.6(d).
22
Esta probabilidad corresponde al área sombreada en la Figura 3.6(d).
3.3.3 Aproximación normal a la distribución de Poisson
Pastor-Barriuso R.
La distribución normal también puede emplearse como aproximación a la distribución
35
moderadamente elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga
Variables aleatorias y distribuciones de probabilidad
a una distribución de Poisson con parámetro μ moderadamente grande, la probabilidad
P
(k1 ≤ XAproximación
≤ k2) puede aproximarse
mediante
el áreadebajo
la curva de la distribución
3.3.3
normal a la
distribución
Poisson
La distribución normal también puede emplearse como aproximación a la distribución de Poisson
normal N(μ, μ) entre k1 - 1/2 y k2 + 1/2.
cuando el número esperado de casos μ es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el número esperado de casos, las
probabilidades
de Poisson tienden
[Figura
3.7 aproximadamente
aquí]a distribuirse de forma normal. En
términos generales, una distribución de Poisson con parámetro μ se aproxima a una distribución
normal con media y varianza iguales a μ, cuando el número esperado de casos es moderadamente
elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga a una distribución de Poisson
k2)largo
puededeaproximarse
con parámetro
moderadamente
la probabilidad
P(k1 ≤ X a≤ lo
Ejemploμ3.14
Si el númerogrande,
de casos
de una enfermedad
un año en mediante
el área bajo la curva de la distribución normal N(μ, μ) entre k1 – 1/2 y k2 + 1/2.
una determinada población sigue una distribución de Poisson X de parámetro μ =
Ejemplo 3.14 Si el número de casos de una enfermedad a lo largo de un año en una
determinada
población
sigue
distribución
Poisson
parámetro μ = 10, la
10,
la probabilidad
de tener
15 una
o más
casos en undemismo
añoXesde
exactamente
probabilidad de tener 15 o más casos en un mismo año es exactamente
e −10 10 k
P(X ≥ 15) = 
= 0,0835,
k!
k ≥15
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como
23
 Y − 10 14,5 − 10 

P(X ≥ 15) ≈ P(Y > 14,5) = P
>
10 
 10
= P(Z > 1,42) = 1 − Φ(1,42) = 1 − 0,9222 = 0,0778.
Esta aproximación corresponde al área sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximación corresponde al área sombreada bajo la curva normal en la
0,4
0,4
0,3
0,3
P(X = k) 0,2
0,2
Figura 3.7(d).
0,1
0,1
3.4 COMBINACIÓN
LINEAL DE VARIABLES ALEATORIAS
0
0
En este apartado se introducen algunas propiedades de la combinación lineal de
0
5
10
15
20
0
5
10
15
20
(a)
(b) e
variables aleatorias (discretas o continuas)
que serán útiles para la estimación
0,4
0,4
inferencia estadística.
En particular, se pretende derivar
el valor esperado y la varianza
0,3
0,3
= k) 0,2
0,2ck son constantes arbitrarias y X1,
de laP(X
combinación
lineal c1X1 + ... + ckXk, donde c1, ...,
0,1
0,1
0
0
..., Xk son variables aleatorias con esperanzas μ1, ..., μk y varianzas σ 12 , ..., σ k2 . Como el
valor esperado de la
aleatorias
0 suma 5de variables
10
15
20es igual a0la suma
5 de sus10respectivas
15
esperanzas, se tiene que
k
k
(c)
(d)
20
Figura 3.7 Distribucionesk de Poisson con
parámetros kμ = 1 (a), 2,5 (b),
5 (c) y 10 (d). En el panel d, se rek
 de densidad
 k de una distribución
presenta además la función
normal con media y varianza iguales a μ = 10.
36
Pastor-Barriuso R.
E   c i X i  =  E (c i X i ) =  c i E ( X i ) =  c i μ i ,
i =1
i =1
 i =1
 i =1
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables
k
 k 2 2

2
2
  ci μ i + 2  ci c j μ i μ j 
=
c
E
(
X
)
+
2
c
c
E
(
X
X
)
−


ÓN LINEAL DE VARIABLES ALEATORIAS
i
i
i j
i
j


variables aleatorias (discretas o continuas)
que serán1≤útiles
i =1
i < j ≤ k para la estimación
1≤ i < j ≤ k
 i =1 e

k
Combinación lineal de variables aleatorias
introducen algunas
propiedades
de la combinación
lineal
=
cde{E ( X derivar
) − μ }el
+ valor
2  cesperado
− μi μ j }
inferencia
estadística.
En particular,
se pretende
i c j {E ( X y
i Xlaj )varianza
i =1
2
i
2
i
2
i
1≤ i < j ≤ k
(discretas o continuas)
que serán útiles
para
la estimación
2
+ c Xk,2edonde
c ,ALEATORIAS
..., ck son constantes arbitrarias y X1,
la combinación
lineal
3.4de COMBINACIÓN
k c1X1 + 2...
c i σ i2+ 2 1
c i c j {E ( X i X j ) − μ i μ j }.
 k

 LINEAL
 DE= VARIABLES

var  ci X i  = E   ci X i  −  
i =1 c i μ i 
1≤ i < j ≤ k
ca. En particular,
pretende
derivar
el
esperado
varianza
i =1 variables
i =1
se introducen
 valor
algunas
 iy=1la
 μ1, ..., μ
Ense
este
apartado
propiedades
dek ylavarianzas
combinación
lineal
variables
Xk son
aleatorias
con
esperanzas
σ 12 , ...,
σ k2 . de
Como
el
...,
aleatorias (discretas o continuas)
que serán útiles para la estimación
e
inferencia
estadística.
k
k

 En
2
2 2
+ ckXk, donde
c1, ...,Así,
c
son
constantes
arbitrarias
y
X
,
lineal c1X1 + ... particular,
lac i2varianza
de
una
combinación
lineal
no
depende
sólo
de
la
varianza
específica de


kderivar
1
X
se pretende
el
valor
esperado
y
la
varianza
de
la
combinación
lineal
c
=
E
(
X
)
+
2
c
c
E
(
X
X
)
−
c
μ
+
2
c
c
μ
μ


i j
ies igual
j
i
i de sus
i j i
j1  1 + ...
a
valor esperado de la suma de ivariables
aleatorias
la suma
respectivas
i
=
1
1
≤
i
<
j
≤
k
i
=
1
1
≤
i
<
j
≤
k


+ ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con
2
k variable σ , ...,
aleatorias con esperanzas μ11,, ..., μcada
σ 2también
el los
.. Comode
valor
esperado
de variables
sino
términos
E(Xde
) - suma
μiμj, que
se conocen como
iXjla
kk y varianzas
2
2 1
2 k
esperanzas, se tiene
que
=
c
{
E
(
X
)
−
μ
}
+
2
c
c
{
E
(
X
X
)
−
μ
μ
}
aleatorias es igual a la
suma
esperanzas,
quei j
 i j sei tiene
i de sus
i respectivas
i
j
i =1
1≤ i < j ≤ k
a suma de variables aleatorias es igual
a la suma
de sus
covarianzas
entre
las respectivas
variables Xk i y Xj. En general,
la covarianza poblacional entre dos
k
k
 k2 2  k
=
2 =
) i−Eμ
E  c
( Xi μi )j }=.  c i μ i ,
cEi c(cj {i XE (i )X=i X
i σci X+i 
jc
e que
μx yi =μ1 y se define como
variables
i =1
 1≤i <i =j 1≤ kX e Y con esperanzas
i =1 i =1 aleatorias
k
kk
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables aleatorias
2
k
k
kk i) =lineal
ksus
k
yacombinación
que E(ciX
ciuna
E(Xde
). Es
decir,
de
lineal
deespecífica
 k
 es
cov(
Xno
, Y2)depende
= Euna
{(Xcombinación
-sólo
μx)(Yde- la
μy)}
= E(XY
)variables
- μxμy, de
la
esperanzas.
icombinación
Así,
de
lineal
varianza
, la esperanza
E   ci X i  = 
E (clai Xvarianza
)
=
c
E
(
X
)
=
c
μ
var
ci iX i  =i E  
ci iX ii  −   ci μ i 



i
=11
 i =1
 i =1 A partir de
resultado,
= E(X2) – μ2, puede calcularse la varianza
 ii=este

 ii==11y recordando
  i =1que var(X)

aleatorias
es
la
lineal
de
sus
esperanzas.
2combinación
2
2
k variable
términos
E(XiXentre
se conocen
como
cada
de
combinación
lineal
variables
aleatorias
es una
relación como
lineal
Si valores
altos (o bajos) de
j) - μ
iμj, quevariables.
ktambién
k ambas
una
 σ i k,ysino
 demedida
 k 2dedelos
la

2− 
2 2
var  ci X i  = E   ci=X
c
μ



X i )i + i2  ci c j E ( X i X j ) −   c2 i μ i 2+ 2  ci c j μ i μ j 
i c i E (
E(Xi). Es decir, la esperanza
de variables
i =1 A partir
i =1 combinación
=1lineal
 de
este
calcularse
la
deuna
resultado,
recordando
2 
i =1 k  iy
1≤ i <kj ≤ k que 2var( X) = Ei(=X
1 ) - μ , puede
 será
k
X
tienden
a
asociarse
con
valores
altos
(o bajos)
depoblacional
Y1≤,i <laj ≤ kcovarianza






covarianzas
entre
las
variables
X
y
X
.
En
general,
la
covarianza
entre
dospositiva;
i
j
var  kci X2i  = Ek2  
ci X i 2 −  2 ci μ i   k 2 2

2
mbinación lineal devarianza
sus esperanzas.
=i =1
E(=X
)c+
2E (
E
X
+como
2j ) −μci μi cj }j μ i μ j 
X ic)i c−j de
μi(ivariables
}=1+i X2 j )
c j {cEi (μXi i X
i i=1{
de
− caleatorias
unacicombinación
lineal
i 
i
mientras
que
si
valores
altos
de
una
variable
i =1
< j≤k
i =1 define como
1se
≤ i <relacionan
j ≤k
con valores bajos de la otra
X ei =k1Y con1≤iesperanzas
μx1≤yi <μj ≤ykse
variables aleatorias
k


2
2
2
2 2
k
k X) = =


E(
X
)c2i2- Eμ2( ,X
puede
calcularse la
resultado, y recordando que var(
i ) + 2  c i c j E ( X i X j ) −   c i μi + 2  c i c j μi μ j 
2
2
2
c la
σ icovarianza
+ 2 
c1≤i ci <cserá
E ( negativa.
X X ) − μNo
}i .μ
resulta
complicado
=  ci variable,
{E=( X

jj{
i μμ
jobstante,
i =1i )i − μ
i =1j }
1≤ i < j ≤ k
i }+ 2
i≤ck j {E i( X ji X j ) −

 determinar el
i =1
1≤ i <1j≤≤ik< j ≤ k
i =1
cov(
k X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
mbinación lineal de variables aleatorias
como
k
grado
deci2relación
a partir
de la magnitud de la covarianza, ya
=
{E ( X i2 )lineal
− μ i2 }entre
+ 2 doscivariables
c {E ( X i X
j ) − μ i μj }
=  c i2σ i2 +
2
c
c
{
E
(
X i X j ) −1≤μ
μ
}. j

i
j
i
j
i
=
1
i
<
j
≤
k
Así, la varianza
de una1combinación
lineal no depende sólo de la varianza específica de
i =1 de la relación
≤ i < j ≤ k lineal entre ambas variables. Si valores altos (o bajos) de
y es una medida
k
que ésta
depende
de
las
unidades de medida de las variables. Una medida alternativa del
2 2
2 =  c i σ i + 2  c i c j {E ( X i X j ) − μ i μ j }.
también de
los términos E(XiXj) - μiμj, que se conocen como
cada variable σ i , sino
i =1 valores altos
1≤ i < j ≤ k (o bajos) de Y, la covarianza será positiva;
tienden de
a asociarse
con
X e Ydees el coeficiente de
grado
de asociación
entresólo
dosdevariables
aleatorias
Así, laXvarianza
una combinación
lineal nolineal
depende
la varianza
específica
24
Así, covarianzas
la varianza de
una
combinación
lineal
no
depende
sólo
de
la
varianza
específica
de
entre las variables Xi y Xj. En general, la covarianza poblacional entre dos cada
2
mientras
si valores
altos
de
una variable
se
relacionan
bajos
de la otra
correlación
poblacional
ρiXxy
, que
se
como
Así, σlaique
varianza
de una
combinación
lineal
no
depende
devalores
la varianza
específica
de
, sino
también
de
los
términos
E(X
sesecon
conocen
como
covarianzas
entre
sino
también
de
los
términos
E(X
,define
quesólo
conocen
como
cada variable
iX
j)j)–-μμ
iμiμ
j, jque
covarianza
las variables
i y Xj. En general,
X e Y conlaesperanzas
μx poblacional
y μy se defineentre
comodos variables aleatorias X e Y
variablesXaleatorias
2
variable,
la
covarianza
será
negativa.
No
obstante,
resulta
determinar
el
y
μ
se
define
como
con
esperanzas
μ
los términos
E(XiXj) -poblacional
μcomplicado
conocen
cada
variable
24
iμj,Xque
x σ i y, sino
covarianzas
entre
las variables
Xitambién
y Xj. Ende
general,
la covarianza
doscomo
cov(
, Y )se entre
ρxy =
,
− μ y)}
X, Ydos
) = Evariables
{(X − μ x)(aYpartir
XYσ) x−σμyxμ yde
, la covarianza, ya
cov(
grado de relación lineal
entre
de=laE(magnitud
lasesperanzas
variables Xμi xyyXμj.yEn
general,como
la covarianza poblacional entre dos
e Y con
se define
variables covarianzas
aleatorias X entre
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de X
quevariables
depende
de
unidades
delas
medida
de lasvariables.
variables.
Una
medida
alternativa
del
yésta
es una
medida
delas
la
relación
lineal
entre
Si
valores
(o
bajos)de
decorrelación
σaltos
desviaciones
típicas
X
e Y.positiva;
Elaltos
coeficiente
carece
donde
Xσ
e xYycon
esperanzas
μambas
definede
como
aleatorias
tienden
a asociarse
con valores
(o bajos)
de
covarianza
será
mientras
que si
y son
x yY,μla
y se
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza
X tienden
a asociarse
conentre
valores
altos
(o bajos)
de Y, la covarianza
será
positiva; de
X etal
Y es
coeficiente
grado
de asociación
lineal
dos
variables
aleatorias
será
negativa.
No obstante,
resulta
complicado
determinar
deelrelación
dos
ρxy = 1,entre
las variables
de unidades
y toma
valores entre
-1 y 1;eldegrado
forma
que si lineal
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
y es una
medidaa de
la relación
lineal entre
ambas
variables.yaSique
valores
altos
(o bajos)
deunidades de
variables
partir
de
la
magnitud
de
la
covarianza,
ésta
depende
de
las
mientras que
si valores altos
de una
variablecomo
se relacionan con valores bajos de la otra
ρxyuna
, que
se define
correlación
medida
de laspoblacional
variables.
Una
medida
alternativa
del grado
de asociación
entre dos
las variables
presentan una
presentan
relación
lineal positiva
perfecta,
y si ρxy = -1,lineal
X tienden
a es
asociarse
con
valores
altos
(o
bajos)
de
Y
,
la
covarianza
será
positiva;
yvariable,
una
medida
de
la
relación
lineal
entre
ambas
variables.
Si
valores
altos
(o
bajos)
de
,
que
se
define
como
variables
aleatorias
X
e
Y
es
el
coeficiente
de
correlación
poblacional
ρ
xy
la covarianza será negativa. No obstante, resulta complicado determinar
el
25
cov(
X
,
Y
)
ρse
mientras que
si valores
altos
de
una
variable
relacionan
con
valores
bajos
de
la
otra
,
xy =
Xgrado
tienden
a
asociarse
con
valores
altos
(o
bajos)
de
Y
,
la
covarianza
será
positiva;
de relación lineal entre dos variables aσpartir
σ de la magnitud de la covarianza, ya
x
y
variable,
la
covarianza
será
negativa.
No
complicado
determinar
el de lacarece
mientras
que si
valores
de obstante,
una
variable
relacionan
con
valores
bajos
otra
que
las altos
unidades
de medida
variables.
Una
medida
alternativa
del de
donde
σxésta
y σdepende
desviaciones
típicas
deresulta
Xdese
elas
Y.
El coeficiente
de correlación
y son lasde
unidades
valores
entre – 1 y 1;típicas
de tal de
forma
sicoeficiente
ρxy = 1, las de
variables
presentan
una
σxyytoma
σlay son
las desviaciones
Xlaemagnitud
Yque
. El
correlación
carece
donde
gradorelación
de relación
entre
dosserá
variables
partir
devariables
la covarianza,
ya
variable,
covarianza
negativa.
obstante,
resulta
complicado
determinar
el
X ede
Y es
el
coeficiente
de negativa
grado
delineal
asociación
lineal
entre
aleatorias
–No
1, las
presentan
una
relación
lineal
lineal
positiva
perfecta,
y si dos
ρxya=variables
perfecta. Cuando ρxy = 0, se dice que las variables están incorrelacionadas. Notar que si dos
1,del
lasla
variables
de depende
unidades
yindependientes,
toma
valores
yde
1;las
dede
tal
forma
que
si ρxy = alternativa
que ésta
las
unidades
medida
variables.
Una
del
grado
dede
relación
lineal de
entre
dos
variables
aque
partir
la medida
magnitud
de
covarianza,
yauna
correlación
poblacional
ρentre
, que
se
define
como
xy
variables
son
en
el-1sentido
el de
conocimiento
valor
que toma
es=el-1,coeficiente
de presentan
grado presentan
de asociación
lineal
entre
dos
variables
aleatorias
que éstauna
depende
de las
unidades
de perfecta,
medida deyXlas
medida
alternativa
delR.
lasUna
variables
una
relación
lineal
positiva
sie ρYvariables.
Pastor-Barriuso
cov( X , Y ) xy
ρxy =
,
σ x σaleatorias
y
X e Y es el coeficiente de
grado
de asociación
lineal
variables
correlación
poblacional
ρxy, que
se entre
definedos
como
25
37
xy
implica
necesariamente
ya en
queellas
variables
correlación
se discutiránindependencia,
en mayor detalle
Tema
10. podrían presentar una
Variables aleatorias y distribuciones de probabilidad
= 0. de
Este
y otros aspectos
coeficiente de
dependencia
node
lineal
cuando ρxy
La varianza
una aun
combinación
lineal
variables
aleatoriassobre
quedaelentonces
correlación
sepor
discutirán
mayor detalle
en elelTema
variable
no aporta
ningunaeninformación
sobre
valor10.
de la otra variable, entonces están
determinada
incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya que
La varianza
de una
combinación
lineal de variables
aleatorias
quedaρ entonces
las variables
podrían
presentar
una dependencia
no lineal
aun cuando
xy = 0. Este y otros
k
k


2
2
aspectos sobre el coeficiente
correlación
se discutirán en mayor detalle en el Tema 10.
ci X
var de
i  =  c i σ i + 2  c i c j cov( X i , X j )
determinada por
1≤ i < j ≤ k
 i =1
 i =1
La varianza de una combinación
aleatorias
queda
E(X1 - X2) lineal
= μ1k - de
μ2 variables
= 130 - 80
= 50 mm
Hg entonces determinada por
2 2
= k ci σ i + 2  ci c j σ i σ j ρ ij ,
 k
 
i =1 2 2
i< j≤k
cμi2σ=i 130
+ 21-≤
c=i c50
X j)
var

j cov(
i ,varianza
E(X
-c iXX2)i ==μ
80variables,
mmXlaHg
1 correlación
1 - entre
y, teniendo en cuenta
la
ambas
de la
1≤ i < j ≤ k
 i =1
 i =1
k
2
ρij es
coeficiente
dedada
correlación
y Xcj.cEn
el caso
de que las variables
donde
presión
delelen
pulso
vendría
por
=  entre
c i2σentre
+ 2Xi
y,
teniendo
cuenta
la correlación
variables,
i ambas
i j σi σ j ρla
ij , varianza de la
i =1
1≤ i < j ≤ k
sean
mutuamente
independientes
(bastaría
la condición menos restrictiva de que
2
presión
del pulso
vendría
dada2por
var(
X
1 - X2) = σ 1 + σ 2 - 2σ1σ2ρ12
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables sean
donde
ρij esincorrelacionadas),
el coeficiente de(bastaría
correlación
entre
las que
variables
i y Xj. En el caso
estuvieran
la varianza
de laXcombinación
linealdeesque de
mutuamente
independientes
la condición
menos restrictiva
estuvieran
2
22
22
+ 10
⋅10
X1 - X2) =de20
σla1 combinación
σ 2 - 2⋅σ20
ρ⋅120,60es= 260 (mm Hg) ,
incorrelacionadas),var(
la varianza
1σ
2lineal
sean mutuamente independientes (bastaría la condición menos restrictiva de que
k
 k 2 2
2 
2
2
var
c
X
ci σ =

=
+=
10
-i 2⋅mm
⋅10
⋅0,60


i20
i .260 (mm Hg) ,
para una incorrelacionadas),
desviación típica= 20
260
16,1
Hg.
estuvieran
la
varianza
de
la
combinación
lineal
es
 i =1
 i =1
Ejemplo
3.15 Supongamos
que=kla
media
yk la desviación típica de la presión arterial
para
una desviación
típica 260
16,1
mm
 para
 Hg.
2 2
Lossistólica
resultados
anteriores
son
válidos
cualquier
Nomm
obstante,
población
μ1 =cvariable
130 mm aleatoria.
Hg y σ1 = 20
Hg, y la media
X1 en una determinada
var
  ci X i son
=
i σi .
Ejemplo
3.15 Supongamos que
la
media
y
la
desviación
típica
de
la
presión
=
1
=
1
i
i


son
μ
=
80
mm
Hg
y σ2 = 10 mm
y la desviación típica
de
la
presión
arterial
diastólica
X
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 502 mm Hg
2
X
,
...,
X
siguen
una
distribución
normal,
puede
probarse
que
la
si las
variables
1 anteriores
kademás
Supongamos
que
elμcoeficiente
de- correlación
entre
arterial sistólica
Los Hg.
resultados
son
válidos
para cualquier
aleatoria.
No obstante,
EX(X
-X
80variable
= 50son
mmμ
Hg la presión
2) =determinada
1 - μ2 = 130
población
arterial sistólica
1 1en una
1 = 130 mm Hg y σ1 = 20
El valor
esperado de la presión del
y diastólica
de los sujetos
de esta
población es
ρ12 = 0,60.
y, teniendo
enc1cuenta
correlación
entre
ambas
la varianza
de lala
X
+
...lala+diferencia
cuna
seguirá
unavariables,
distribución
normal
con
combinación
lineal
kXk también
pulso,
definida
como
la presión
arterial
diastólica,
X1, ...,
X1kSupongamos
siguen
distribución
normal,
puede sistólica
probarse
que
si
las variables
Ejemplo
3.15
queentre
la media
y la desviación
típica yde
lalapresiónsería
mm Hg,en
y la
media
la desviación
típica
de la
presión arterial
diastólica
y, teniendo
cuenta
la ycorrelación
entre
ambas
variables,
la varianza
de la X2 son μ2
E
(
X
X
μ 1 − μ 2 = 130 − 80 = 50 mm Hg
1 − dada
2 ) =por
presión
del
pulso
vendría
media y varianza
descritas
anteriormente.
Este
resultado
se utilizará en
los temas
de
c1X1 + X...
+ ckXk también
seguirá
una distribución
normal
combinación
lineal
determinada
población
son μ1 = 130
mmcon
Hg la
y σ1 = 20
arterial
sistólica
1 en una
σ2 =la10dada
mmpor
Hg. Supongamos
quelaelvarianza
coeficiente
= 80del
mm
Hgcuenta
yvendría
presión
pulso
y, teniendo
en
correlación
entre ambasademás
variables,
de de
la presión del
2
2
inferencia.
y,
teniendo
en
cuenta
la
correlación
entre
ambas
variables,
la
varianza
de
la
vendría
dada
por
var(
X
X
)
=
σ
+
σ
2
σ
σ
ρ
media ypulso
varianza
descritas
anteriormente.
Este
resultado
se
utilizará
en
los
temas
de
1
1 de
2 12
1
2 típica
mm Hg, y la media
y2 la desviación
la presión arterial diastólica X2 son μ2
correlación entre la presión2 arterial
sistólica y diastólica de los sujetos de esta
2
var(Xvendría
1 − X2) = σ 1 + σ 2 − 2σ 1 σ 2 ρ 12
presión del pulso
dada 2por 2
inferencia.
+ 10
2⋅20⋅10⋅adultas
0,60
= 260
(mm
Hg)2, sigue
20 Hg.
2 - mujeres
σ
además
coeficiente
de como
=
80
mm
Hg
y
2 = 10==
Ejemplo
3.16
El
colesterol
HDL
las
deque
una
− 2⋅20⋅10de
+ en
10Supongamos
⋅0,60
= 260
(mm
Hg)2, definida
20
El2valor
esperado
la presión
delelpoblación
pulso,
población es ρ12 = 0,60.mm
var(
X1 -laX2presión
) =
σ 12 arterial
+ σ 22 -μsistólica
21 σ
σ2ρ12ymmol/l
11,25
correlación
desería
los sujetos
deσ1esta
con
media
=
y desviación
típica
=
una
distribución
normal
1 HDL
para
una
desviación
típica
16,1
mm
Hg.
Ejemplo
3.16
Elentre
colesterol
en== las
mujeres
adultas
de
una
población
sigue
la
diferencia
entre
la Xpresión
sistólica
ydiastólica
diastólica,
260arterial
16,1
mm
2 = 16,1
2
para
una
desviación
260
Hg.
26
ρ12
=hombres
0,60.
El
valor
esperado
de
la variable
presión
del
pulso,
definida
población
+ 10para
-μde
2mm
⋅20
⋅10
⋅0,60
= 260
(mm
Hg)2distribución
,típica
20
0,35
mmol/l,
yesennormal
lostípica
adultos
dicha
población
sigue
una
X1=con
media
1,25
mmol/l
y desviación
σ1 =comosi las
una
distribución
Los
resultados
anteriores
son
válidos
cualquier
aleatoria.
No obstante,
1=
Los resultados
son válidos para cualquier variable aleatoria. No obstante,
variables
X1, ..., Xanteriores
k siguen una distribución normal, puede probarse que la combinación lineal
la
diferencia
entre
la
arterial
y diastólica,
sería
X
con
media
μ
=presión
1,10
mmol/l
ysistólica
desviación
típica
σla2 =media
0,30
mmol/l.
Así,
normal
2
2
X1 0,35
+
... mmol/l,
+ ckX
también
seguirá
una
distribución
normal
conaleatoria.
y varianza
c1Los
y en lostípica
hombres
adultos
de
dicha
población
sigue
una No
distribución
k anteriores
resultados
son válidos
para
cualquier
variable
obstante, descritas
para
una
desviación
260
=
16,1
mm
Hg.
X1, ...,resultado
Xk siguen
distribución
normal,
probarse que la
si
las variables Este
anteriormente.
seuna
utilizará
en los temas
de puede
inferencia.
26
la
diferencia
del
colesterol
HDL
entre
las
mujeres
y
los
hombres
de esta
población
X
con
media
μ
=
1,10
mmol/l
y
desviación
típica
σ
=
0,30
mmol/l.
Así,
normal
2
2
2
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la
c1XEl
...son
+ cválidos
unavariable
distribución
con
la sigue una
combinación
lineal
1 +colesterol
kXk también
3.16
HDL
enseguirá
las mujeres
adultas
de normal
una No
población
LosEjemplo
resultados
anteriores
para
cualquier
aleatoria.
obstante,
se
distribuirá
según
una
normal
con
media
media
μ1 =las
1,25
mmol/l
y desviación
típica
σpoblación
normal
X conHDL
ladistribución
diferencia
entre
mujeres
los
hombresnormal
de
estacon
c1Xcolesterol
seguirá
una ydistribución
la0,35 mmol/l,
combinación
linealdel
1 =
1 + ... 1+ ckX
k también
media
y
varianza
descritas
anteriormente.
Este
resultado
se
utilizará
en
los
temas
de2 con media
y
en
los
hombres
adultos
de
dicha
población
sigue
una
distribución
normal
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la X
= 1,10 mmol/l
y(desviación
σ=2 =1,25
0,30
Así, mmol/l
la diferencia
del colesterol
HDL
distribuirá
según
una
media
mediase
yμ2varianza
descritas
anteriormente.
resultado
utilizará
en los temas
de
E
X
X2) = μtípica
- μ2Este
- mmol/l.
1,10 se
= 0,15
1 - normal
1con
inferencia.
entre
las
mujeres
y
los
hombres
de
esta
población
se
distribuirá
según
una
normal
con
media
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la
inferencia.
E(X1 − X2 ) = μ 1 − μ 2 = 1,25 − 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de
Ejemplo
3.16 El colesterol HDL en las mujeres adultas de una población sigue
y varianza
2
2
2 sigue
2
y varianza
Ejemplo
3.16
ElXcolesterol
en2las mujeres
adultas
de una población
− X2) = σHDL
inferencia.
var(
1 + σ 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
X1 con
media μ1 = 1,25 mmol/l y desviación típica σ1 =
una distribución 1normal
38
media
y desviación típica
σ1 =
una distribución normal X1 con
2
2
1 = 21,25 mmol/l
var(
X2)hombres
= σ 12 + adultos
σ 22 = μ0,35
+ 0,30
= 0,213sigue
(mmol/l)
,
1 -los
0,35
mmol/l,
yElXencolesterol
dicha
población
una
distribución
enmmol/l,
las de
mujeres
adultas
de unapara
población
sigue
oEjemplo
desviación
0,213 HDL
= 0,46
ya que
los valores
distintos
Pastor-Barriuso
R. 3.16típica
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución
X con media
μ2X=1 1,10
mmol/lμ1y =desviación
típica
σ2 = 0,30 mmol/l.
normal
con
media
y desviación
típica σ1Así,
=
una
distribución
normal
son2 independientes
y,
consecuencia,
ρmmol/l
= 0.valores
osujetos
desviación
típica
0,213
= en
0,46
mmol/l, 1,25
ya que
para distintos
12 los
y varianza
Referencias
2
2
2
var(X1 - X2) = σ + σ = 0,35 + 0,30 = 0,213 (mmol/l) ,
2
1
2
2
o desviación típica 0,213 = 0,46 mmol/l, ya
ya que
que los
los valores
valorespara
paradistintos
distintos sujetos son
independientes y, en consecuencia, ρ12 = 0.
sujetos son independientes y, en consecuencia, ρ12 = 0.
3.5 REFERENCIAS
27
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume
1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2.
Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press,
2002.
3.
Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
4.
Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
5.
Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
6.
Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.
Pastor-Barriuso R.
39
TEMA 4
PRINCIPIOS DE MUESTREO
Y ESTIMACIÓN
4.1
INTRODUCCIÓN
Un primer paso en la realización de un estudio o proyecto de investigación es definir la población
de la cual se desea conocer una determinada característica o parámetro. Ocasionalmente, resulta
factible obtener información para todos los elementos de la población mediante registros o
censos. Sin embargo, en la mayoría de los estudios no es posible obtener información de toda
la población, por lo que debemos limitarnos a la recogida de datos en una pequeña fracción del
total o muestra.
La utilización de muestras presenta varias ventajas con respecto a la enumeración completa
de la población:
yy Coste reducido. Si los datos se obtienen de una pequeña fracción del total, los gastos se
reducen. Incluso si la obtención de información en toda la población es factible, suele ser
mucho más eficiente la utilización de técnicas de muestreo.
yy Mayor rapidez. Los datos pueden ser más fácilmente recolectados y estudiados si se utiliza
una muestra que si se emplean todos los elementos de la población. Por tanto, el uso de
técnicas de muestreo es especialmente importante cuando se necesita la información con
carácter urgente.
yy Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros
completos es limitada. Muy a menudo, la única alternativa posible para la realización de
un estudio es la obtención de datos por muestreo.
yy Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un número
menor de efectivos, resulta más fácil recoger un número mayor de variables por individuo,
así como tener un mejor control de la calidad del proceso de recogida de datos.
Si se dispone de información para todas las unidades de la población, el parámetro poblacional
de interés quedará determinado con total precisión. Sin embargo, si se emplea únicamente una
fracción del total, el parámetro poblacional desconocido ha de estimarse a partir de la muestra,
con el consiguiente error derivado tanto por el carácter parcial de la muestra como por su
posible falta de representatividad poblacional. La teoría de muestreo persigue un doble
objetivo. Por un lado, estudia las técnicas que permiten obtener muestras representativas de la
población de forma eficiente. Por otro lado, la teoría de muestreo indica cómo utilizar los
resultados del muestreo para estimar los parámetros poblacionales, conociendo a la vez el grado
de incertidumbre de las estimaciones. Así, la teoría de muestreo pretende dar respuesta a varias
preguntas de interés:
yy ¿Cómo se eligen a los individuos que componen la muestra?
yy ¿Cuántos individuos formarán parte de la muestra?
yy ¿Cómo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra
y los que hubiéramos obtenido si el estudio se hubiera llevado a cabo en toda la población?
Pastor-Barriuso R.
41
Principios de muestreo y estimación
Estas cuestiones están estrechamente relacionadas entre sí. Así, por ejemplo, al aumentar el
tamaño muestral aumenta la exactitud en las estimaciones. La determinación del tamaño
muestral se tratará más adelante (véase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilístico, así como la estimación en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definición de algunos conceptos que se utilizan de forma
repetida a lo largo del capítulo:
yy Población o universo muestral es la colección de elementos o unidades de análisis
acerca de los cuales se desea información. Con frecuencia, no se puede obtener información
de toda la población, sino tan sólo de unidades que cumplen una serie de características
(criterios de inclusión/exclusión). La población marco es aquella sobre la que es posible
obtener información. La muestra se obtiene de la población marco, por lo que debe
recordarse que las conclusiones extraídas de la muestra son generalizables a la población
marco y no necesariamente a la población de inicio o universo.
yy Dentro del proceso de selección de una muestra, la población suele dividirse en unidades
de muestreo, que deben constituir una partición de toda la población. Estas unidades de
muestreo pueden coincidir con las unidades de análisis, pero también pueden estar
constituidas por un conjunto de distintas unidades de análisis.
Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una población
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarán parte de la muestra definitiva. En tal caso,
la selección de la muestra se habría realizado en dos etapas: las residencias constituirían
las unidades de muestreo de primera etapa y los ancianos (unidades de análisis) serían las
unidades de muestreo de segunda etapa.
yy Muestreo probabilístico es aquel en que todas las unidades de la población tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilístico minimiza la probabilidad de sesgos (si el tamaño muestral no es muy
limitado, la muestra será muy probablemente representativa de la población) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teoría del muestreo se basa fundamentalmente en el muestreo probabilístico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) están sujetos a una mayor
probabilidad de sesgos y es más difícil extrapolar los resultados a la población.
yy En el muestreo con reposición, cada vez que se elige un nuevo elemento muestral se
dispone de toda la población para realizar la selección, mientras que en el muestreo sin
reposición los elementos que ya han aparecido en la muestra no están disponibles para ser
elegidos de nuevo. En el muestreo con reposición, por tanto, una unidad poblacional puede
aparecer más de una vez en la muestra. En la práctica, el muestreo suele realizarse sin
reposición. No obstante, si el tamaño de la población es muy grande con respecto al tamaño
muestral, la probabilidad de que un elemento de la población sea elegido más de una vez
en la muestra es tan pequeña que ambos tipos de muestreo son similares.
4.2
PRINCIPALES TIPOS DE MUESTREO PROBABILÍSTICO
En este apartado se describen brevemente los principales procedimientos probabilísticos de
selección de muestras, tales como los muestreos aleatorio simple, sistemático, estratificado, por
42
Pastor-Barriuso R.
Principales tipos de muestreo probabilístico
conglomerados y polietápico. Un tratamiento más extenso de estos procedimientos puede
encontrarse en los libros de muestreo referenciados al final del tema.
4.2.1
Muestreo aleatorio simple
El muestreo aleatorio simple es el más sencillo y conocido de los distintos tipos de muestreo
probabilístico. Supongamos que se pretende seleccionar una muestra de tamaño n a partir de
una población de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier
subconjunto de tamaño n tiene la misma probabilidad de ser seleccionado. Puede probarse que
el muestreo aleatorio simple es un procedimiento equiprobabilístico; es decir, todas las unidades
de la población tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la selección de una muestra aleatoria simple, se enumeran previamente las unidades del
universo o población de 1 a N y a continuación se seleccionan n números distintos entre 1 y N
utilizando algún procedimiento aleatorio, típicamente mediante una tabla de números aleatorios
o un generador de números aleatorios por ordenador.
yy Las tablas de números aleatorios son tablas con los dígitos 0, 1, 2, ..., 9, donde cada dígito
tiene la misma probabilidad de ocurrir y el valor de un dígito concreto es independiente
del valor de cualquier otro dígito de la tabla. En la Tabla 4 del Apéndice se facilitan 1000
dígitos aleatorios.
yy La mayoría de los programas de análisis estadístico contienen generadores de números
aleatorios. Estos generadores producen grandes secuencias de dígitos pseudoaleatorios,
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas
anteriormente.
Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha población, de los cuales se desean
seleccionar n = 10. La selección de una muestra aleatoria simple de este tamaño puede
realizarse a partir de la Tabla 4 del Apéndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dígitos en cualquier dirección, seleccionar los 10
primeros números distintos entre 1 y 875. Por ejemplo, empezando en el primer dígito de
la tercera fila y de izquierda a derecha, estos números son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los números 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estaría así constituida por aquellos
ancianos de la población numerados previamente por estos 10 valores.
Puede probarse que, como el muestreo aleatorio simple es un procedimiento
equiprobabilístico, una media o una proporción poblacional se estiman simplemente mediante
la media o proporción muestral. La estimación de parámetros poblacionales a partir de una
muestra aleatoria simple, así como la varianza o error de las estimaciones, se discutirá en detalle
al final de este tema.
4.2.2
Muestreo sistemático
En ocasiones, la numeración consecutiva de las unidades de la población y la posterior selección
de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un
procedimiento alternativo más sencillo es el llamado muestreo sistemático. Bajo este
procedimiento, no siempre es necesario numerar previamente los elementos de la población,
sino que basta con disponer de alguna ordenación explícita (por ejemplo, orden de archivo de
historias clínicas o visitas sucesivas de pacientes a una consulta médica).
Pastor-Barriuso R.
43
Principios de muestreo y estimación
Para la selección de una muestra sistemática de tamaño n de una población de N unidades,
se elige aleatoriamente un número de arranque r entre 1 y k, donde k es la parte entera de N/n,
y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de
amplitud k hasta completar la muestra deseada. Así, la muestra estará constituida por los
elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n – 1)k. Como en general N no es
múltiplo de n, este método de selección no es necesariamente equiprobabilístico (si N/n no es
un número entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrán formar
parte de la muestra). Una modificación a este procedimiento, que garantiza la obtención de una
muestra equiprobabilística, consiste en seleccionar el número aleatorio de arranque r entre 1 y
N, y tomar cada k-ésima unidad a partir de ahí, continuando en el primer elemento al alcanzar
el final de la lista.
Ejemplo 4.3 Para seleccionar una muestra sistemática de tamaño n = 10 de la población
de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de
selección como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara
el número de arranque r entre 1 y 87, el último anciano seleccionado ocuparía en el lugar
r + (n – 1)k = r + (10 – 1)87 = r + 783, que sería siempre inferior o igual a 870 (dado que
r ≤ 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podrían formar
parte de la muestra. Para asegurar un muestreo equiprobabilístico, el número de arranque
se selecciona aleatoriamente entre 1 y 875. Suponiendo que este número de arranque fue
r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemática quedaría integrada
por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335.
En el muestreo sistemático, la ordenación de los elementos de la población determinará las
posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad
relacionada con las variables a estudio. Así, por ejemplo, si para estimar el nivel de contaminación
atmosférica en una ciudad se toma una muestra sistemática de días con k = 7, la muestra estará
formada por los mismos días de la semana y presentará un claro sesgo por falta de
representatividad. No obstante, estas periodicidades son muy infrecuentes en la práctica y
pueden solventarse con facilidad (en el ejemplo anterior, bastaría con utilizar un intervalo de
selección distinto de 7). En general, si la ordenación de las unidades de la población es
esencialmente aleatoria, la estimación de parámetros y sus correspondientes errores en un
muestreo sistemático se realiza igual que en un muestreo aleatorio simple.
4.2.3
Muestreo estratificado
En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente
aleatorios. Así, si el tamaño muestral es suficientemente grande, la muestra será muy
probablemente representativa de la población. Sin embargo, no existe una garantía absoluta de
que la muestra finalmente seleccionada sea representativa para cualquier variable de interés.
Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la
población, la alternativa más sencilla es seleccionar por separado distintas submuestras dentro
de cada estrato. Este procedimiento de selección se conoce como muestreo estratificado. Los
estratos han de definir subgrupos de población que sean internamente homogéneos con respecto
a la característica o parámetro de interés y, por tanto, heterogéneos entre sí. En la práctica, los
estratos se definen en función de variables fáciles de medir previamente y relevantes para el
tema objeto de estudio (por ejemplo, edad, sexo, raza o área geográfica de residencia). En
general, el número de estratos ha de ser reducido (rara vez resulta eficiente utilizar más de 5
estratos) y el tamaño por estrato no debe ser muy pequeño.
44
Pastor-Barriuso R.
respectivamente, cuya suma será igual al tamaño total n de la muestra. La selección
dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales
simple otipos
sistemático,
y el
de muestreo probabilístico
procedimiento se denomina entonces muestreo aleatorio estratificado.
Para
una muestraesestratificada
de tamañocómo
n, lasepoblación
unidades se
Enlaelselección
muestreode
estratificado,
necesario determinar
distribuyedeelNtamaño
divide en K estratos de tamaños N1, N2, ..., NK, cuya suma es igual a N. Los estratos son
mutuamente
excluyentes
exhaustivos,
de tal
formalaque
cada elemento
de la población
muestral total
n entre losy distintos
estratos;
es decir,
asignación
de los tamaños
pertenece a uno y sólo a uno de los estratos. Una vez determinados estos estratos, se selecciona
...,asignación
nK, respectivamente,
pormuestrales
separado una
de cada estrato de tamaño n1, n2,de
en función cuya
del suma
n1, nmuestra
2, ..., nK. Aunque existen distintos tipos
será igual al tamaño total n de la muestra. La selección dentro de cada estrato suele realizarse
portamaño
muestreo
aleatoriopor
simple
o sistemático,
y el procedimiento
denomina
entonces muestreo
y varianza
estrato
(véase referencias
al final del se
tema),
nos limitaremos
aquí
aleatorio estratificado.
a laelasignación
proporcional,
es el procedimiento
utilizado
con mayor
frecuencia.
En
muestreo estratificado,
esque
necesario
determinar cómo
se distribuye
el tamaño
muestral
total n entre los distintos estratos; es decir, la asignación de los tamaños muestrales n1, n2, ..., nK.
En la asignación
proporcional,
muestra total
repartedel
entre
los estratos
de forma
Aunque
existen distintos
tipos delaasignación
en se
función
tamaño
y varianza
por estrato
(véase referencias al final del tema), nos limitaremos aquí a la asignación proporcional, que es
proporcional alutilizado
tamaño de
estrato
en la población.
Así, comoproporcional,
la proporción la muestra
el procedimiento
concada
mayor
frecuencia.
En la asignación
total se reparte entre los estratos de forma proporcional al tamaño de cada estrato en la población.
en cada estrato
es Nk/N,enel cada
tamaño
muestral
k-ésimo
será del estrato
/N, estrato
el tamaño
muestral
Así,poblacional
como la proporción
poblacional
estrato
es Nkdel
k-ésimo será
nk = n
Nk
.
N
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística.
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística.
Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la
edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60%
Ejemplo
los ancianos
disminuye
gran
medida
525) y elderestante
40% tienen
75 o en
más
años
(N2 = 350).
tienen
menos4.4
deLa
75capacidad
años (N1 =funcional
Para simplificar la exposición, supongamos además que los ancianos menores de 75 años
institucionalizados,
con la edad.aSupongamos
los N = 875
corresponden
los primerosque,
525denúmeros
de ancianos
la lista. Así,
de los n = 10seancianos
seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser
sabe que
75 años
(N1 = 525)aleatoria,
y el restante
40% tienen
75 años
o
mayores
de el
7560%
años.tienen
Esto menos
es, por de
simple
variabilidad
los mayores
de 75
están ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad
más años
(N2 =obtenida
350). Para
la exposición,
supongamos
además que
los
funcional
media
de simplificar
esta muestra
podría infraestimar
la verdadera
capacidad
funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad
ancianos
de 75
años corresponden
los primeroscon
525asignación
números de
la lista.
muestral
pormenores
edad, podría
realizarse
un muestreoaestratificado
proporcional
a ambos estratos de edad. Es decir, de la muestra de tamaño n = 10, seleccionaríamos 6
muestreo
simple
en años
el (n =
Así, demenores
los n = 10
10·0,6
= 6) yaleatorio
4 mayores
de 75
ancianos
deancianos
75 años seleccionados
(n1 = nN1/N = por
2
nN2/N = 10·0,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los
Ejemplo seleccionados
4.2, la mitad resultaron
mayores
75 493,
años.24,
Esto402,
es, por
6 números
entre 1 yser
525
fueron de
505,
371simple
y 265, y los 4
números seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada
variabilidad
aleatoria,
los mayores
deancianos
75 años están
ligeramentea dichos números.
proporcional
estaría
formada
por los 10
correspondientes
9
Cabe reseñar aquí dos características importantes del muestreo estratificado. Por un lado, la
asignación proporcional es la única que produce muestras equiprobabilísticas y, en consecuencia,
la media y proporción poblacional se estiman mediante la media y la proporción muestral. Para
cualquier otra asignación, la estimación de parámetros poblacionales requiere de la inclusión de
pesos para cada observación muestral (típicamente, el inverso de la probabilidad de selección).
Por otra parte, para un mismo tamaño muestral, el muestreo estratificado facilita estimaciones
ligeramente más precisas (con menor error) que el muestreo aleatorio simple. Este resultado es
debido a que, cuanto más homogéneos sean los estratos, más precisas serán las estimaciones en
dichos estratos y esto redundará en una mayor precisión de las estimaciones para toda la
población.
Pastor-Barriuso R.
45
Principios de muestreo y estimación
4.2.4
Muestreo por conglomerados
La aplicación de los diseños muestrales anteriores requiere de la enumeración u ordenación de
todos los elementos de la población. Sin embargo, a menudo no se dispone de una lista completa
o, aun disponiendo de tal lista, resulta muy costoso obtener información de las unidades
muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos
de una gran ciudad, los individuos seleccionados estarían muy dispersos y la recogida de
información sería extraordinariamente laboriosa. En tales circunstancias, una alternativa
consiste en clasificar a la población en grupos o conglomerados, para así seleccionar una
muestra de estos conglomerados y después tomar a todas o a una parte de las unidades incluidas
dentro de los conglomerados seleccionados. Este método de selección se denomina muestreo
por conglomerados y presenta dos ventajas fundamentales:
yy Este muestreo es la única alternativa posible cuando no se dispone de una lista con todas
las unidades de la población. En el muestreo por conglomerados, únicamente es necesario
contar con listas de las unidades que integran los conglomerados seleccionados.
yy Aun cuando otras técnicas de muestreo sean posibles, con frecuencia el muestreo por
conglomerados resulta más económico, ya que las unidades muestrales están concentradas
en los conglomerados seleccionados.
Notar que, a diferencia de la estratificación, donde interesa que los estratos sean lo más
homogéneos posible, los conglomerados deben ser heterogéneos: en cada conglomerado debe
haber unidades representativas de toda la población, de lo contrario se perdería información al
seleccionar únicamente algunos de ellos. El número de conglomerados es típicamente elevado,
de los cuales suele seleccionarse un número relativamente pequeño para resolver el problema
de la dispersión muestral.
Supongamos que se pretende extraer una muestra de tamaño n a partir de una población de
N unidades agrupadas en M conglomerados de tamaños N1, N2, ..., NM. Entre los distintos
métodos de selección por conglomerados, el muestreo por conglomerados con probabilidad
proporcional a su tamaño resulta particularmente útil en la práctica. Para llevar a cabo este
muestreo, se procede como sigue:
1. Ordenar arbitrariamente los conglomerados y calcular los tamaños acumulados. Estos
tamaños acumulados delimitarán, para cada conglomerado, un rango de valores de
amplitud igual a su tamaño poblacional.
2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemática de tamaño m
entre 1 y N. Los conglomerados seleccionados serán aquellos cuyo rango incluya alguno
de los valores muestreados.
3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o
sistemática de tamaño n/m.
Ejemplo 4.5 Con cualquiera de las técnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluiría muy probablemente ancianos institucionalizados en
múltiples residencias, con el consiguiente inconveniente en la recogida de información.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaños especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamaño n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaños.
46
Pastor-Barriuso R.
Principales tipos de muestreo probabilístico
Tabla 4.1 Distribución del número de ancianos institucionalizados por
residencia.
Residencia (i)
Tamaño (Ni)
Tamaño acumulado
Rango asignado
50
30
35
70
55
45
125
80
20
100
65
35
40
75
50
50
80
115
185
240
285
410
490
510
610
675
710
750
825
875
1 – 50
51 – 80
81 – 115
116 – 185
186 – 240
241 – 285
286 – 410
411 – 490
491 – 510
511 – 610
611 – 675
676 – 710
711 – 750
751 – 825
826 – 875
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamaño
(Tabla 4.1). A continuación, se extrae una muestra sistemática de tamaño 2 entre 1 y 875: si el
número de arranque resultó ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemático). Así, como el valor 316 está incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamaño n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los números 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los números 38, 51, 25, 34 y 41. En conclusión, la muestra total estará
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia número 7,
más aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia número 14.
El muestreo por conglomerados con probabilidades proporcionales a sus tamaños facilita
muestras equiprobabilísticas, así la media y la proporción poblacional pueden estimarse
mediante sus correspondientes funciones muestrales. En general, para un tamaño muestral
constante, la precisión de las estimaciones en un muestreo por conglomerados es menor que en
un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar
correlacionadas y, en consecuencia, aportan menos información que los elementos seleccionados
de forma más dispersa mediante un muestreo aleatorio simple.
4.2.5
Muestreo polietápico
Los diseños muestrales empleados en la práctica se realizan combinando las técnicas descritas
anteriormente. En muchas situaciones, resulta más apropiado obtener la muestra final en
diferentes etapas o pasos. En un muestreo polietápico, la población se divide en grupos
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera
etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y así
sucesivamente, hasta llegar en una última etapa a los elementos o unidades de análisis. La
selección de unidades en cada una de las etapas se realiza mediante una técnica de muestreo
diferente y la muestra final será la resultante de aplicar sucesivamente cada una de estas técnicas.
Pastor-Barriuso R.
47
Principios de muestreo y estimación
Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de
cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra
definitiva. Este procedimiento de selección es, de hecho, un muestreo bietápico: las
residencias constituirían las unidades de muestreo de primera etapa y los ancianos serían
las unidades de muestreo de segunda etapa.
Una técnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietápico. Bajo esta técnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultará de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.
Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son públicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron públicas; es decir, la muestra final no
incluyó a ningún anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias públicas como
privadas, bastaría con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas según su carácter público o
privado. Para las residencias públicas, se escogió aleatoriamente el número 20 entre 1 y
450, resultando así seleccionada la residencia 4, cuyo rango incluye dicho número. Para
las residencias privadas, se extrajo aleatoriamente el número 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuación, se procedería a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamaño, la muestra resultante sería equiprobabilística.
Apuntar, por último, que en la mayoría de los muestreos polietápicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlación
entre los elementos que integran las unidades de primera etapa.
Tabla 4.2 Distribución del número de ancianos institucionalizados en
residencias públicas y privadas.
Residencia (i)
Pública
4
7
8
10
14
Privada
1
2
3
5
6
9
11
12
13
15
48
Pastor-Barriuso R.
Tamaño (Ni)
Tamaño acumulado
Rango asignado
70
125
80
100
75
70
195
275
375
450
1 – 70
71 – 195
196 – 275
276 – 375
376 – 450
50
30
35
55
45
20
65
35
40
50
50
80
115
170
215
235
300
335
375
425
1 – 50
51 – 80
81 – 115
116 – 170
171 – 215
216 – 235
236 – 300
301 – 335
336 – 375
376 – 425
puede realizarse con múltiples propósitos, nos centraremos aquí en la estimación de una
media y de una proporción poblacional.
Estimación en el muestreo aleatorio simple
4.34.3.1
ESTIMACIÓN
EN EL de
MUESTREO
Estimación puntual
una media ALEATORIO
poblacional SIMPLE
Una
vez descritas
técnicas de muestreo probabilístico, nos ocuparemos a
Supongamos
que las
x1, xprincipales
2, ..., xn son los valores obtenidos en una muestra de tamaño n
continuación de la estimación de parámetros poblacionales. En adelante, se asume que la
muestra
se ha
obtenido
un muestreo
simple
a partir
de Un
una
población de
parámetro
poblacional
se le denomina
estimador,
y al resultado
de aplicar
dicha
para
una
variable
con mediante
media
poblacional
μ y aleatorio
varianza
σ 2 desconocidas.
estimador
tamaño esencialmente infinito.
función
a una
determinada
llama muestral
estimación.
cuando
muestreo
El cálculo
valorpoblacional
exactomuestra
de μ
unesse
parámetro
poblacionalAún
requiere
delelconocimiento
del
lalemedia
natural
de
ladel
media
valor de la variable objeto de estudio para todos y cada uno de los elementos de la población.
puede
con múltiples
propósitos,
centraremos
aquí en la no
estimación
de una
Como
se realizarse
ha comentado
anteriormente,
en la nos
mayoría
de las ocasiones
se dispone
de esta
n
1
1.2
MEDIDASsino
DE TENDENCIA
CENTRAL
información,
que se cuenta tan
sólo con
una
muestra.
A
la
función
de
los
valores
de una
x =  xi .
media
y
de
una
proporción
poblacional.
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
n
muestra que permite hacerse una idea acerca del valor
del parámetro poblacional se le denomina
i =1
estimador,
y
al
resultado
de
aplicar
dicha
función
a una
muestra se le llama
Las medidas de tendencia central informan acerca de cuál
es eldeterminada
valor más representativo
estimación.
Aúndecuando
el muestreo
puede
concuál
múltiples
propósitos,
nos centraremos
4.3.1
Estimación
puntual
de completamente
unainforman
mediarealizarse
poblacional
Las
medidas
tendencia
central
acerca
de
esuna
el valor
más representativo
Esta
media
muestral
quedará
determinada
vez obtenida
la muestra,
aquí
en
la
estimación
de
una
media
y
de
una
proporción
poblacional.
de una determinada variable o, dicho de forma equivalente,
estimadores
indican
1.2estos
MEDIDAS
DE TENDENCIA
CENTRAL
x
,
x
,
...,
x
son
los
valores
obtenidos
en
una
muestra
de
tamaño
n
Supongamos
que
de
unaeldeterminada
o,
1variable
2
n dicho de forma equivalente, estos estimadores indican
pero
valor de la estimación
variará en función de la muestra seleccionada. Así, la
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
4.3.1 Estimación puntual de una media poblacionalLas2medidas de tendencia central informan acerca de c
para una
variable
con media
poblacional
μuna
yobservados.
varianza
desconocidas.
Un estimador
alrededor
de quépuede
valor
se
agrupan
loscomo
datos
Las
medidas
de valor
tendencia
media
muestral
considerarse
variableσ aleatoria,
cuyo
dependerá
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para n para una
Supongamos que x1, x2, ..., xn son los valores obtenidosdeenuna
unadeterminada
muestra de variable
tamaño
o, dicho de forma equival
central
de
sirven tanto
para
los resultados
para
es laresumir
media
muestral
natural
dela
lamuestra
media
poblacional
Unobservados
estimador
natural
de lanmedia
variable
con
media
poblacional
μ y μvarianza
σ 2 desconocidas.
de
la muestra
finalmente
seleccionada
sobre
todas
las posibles
muestrascomo
de tamaño
de
realizar
inferencias
los parámetros poblacionales correspondientes. A
poblacional
μ es laacerca
mediade
muestral
alrededor de qué valor se agrupan los datos observado
realizar inferencias acerca de los parámetros poblacionales
correspondientes. A
n
la población
de referencia.
A la distribución
de
los
valores
de x sobre todas las posibles
1.2 MEDIDAS DE
TENDENCIA
CENTRAL
1
continuación se describen los principales estimadores
de
la
tendencia
de una
x =  x i . central de la central
muestra sirven tanto para resumir los resu
n i =1
continuación se describen los principales estimadores
de la tendencia central de una
muestral de x . Las razones
muestras central
del mismo
tamaño
se lede
denomina
Las medidasvariable.
de tendencia
informan
acerca
cuál es eldistribución
valor más representativo
Esta media muestral quedará completamente determinada
una
obtenidaacerca
la muestra,
el
realizarvez
inferencias
de lospero
parámetros
poblacion
variable.
valor
de
la
estimación
variará
en
función
de
la
muestra
seleccionada.
Así,
la
media
muestral
Esta
media
muestral
quedará
completamente
determinada
una
vez
obtenida
la
muestra,
teóricas
queo,justifican
utilización
de la media
muestral como
estimador de la media
de una determinada
variable
dicho dela
forma
equivalente,
estos estimadores
indican
puede
considerarse
como una variable aleatoria, cuyo valor
dependerásededescriben
la muestra
1.2.1
Media
aritmética
continuación
losfinalmente
principales estimadores
seleccionada
de
entre
todas
las
posibles
muestras
de
tamaño
n
de
la
población
de
referencia.
1.2.1
Media
aritmética
pero
el
valor
de
la
estimación
variará
en
función
de
la
muestra
seleccionada.
Así,
la
frente
otros observados.
posibles estimadores,
se basan
en esta distribución muestral. A
alrededor de qué poblacional,
valor se agrupan
losa datos
Las medidas
de tendencia
todascomo
las posibles
muestras
delde
mismo
distribución
de los
valorespor
de x ,sobre
Lalamedia
aritmética,
denotada
se define
la suma
de
los tamaño se le
variable.cada uno
denomina
distribución
muestral
de xcomo
., Las
razones
teóricas
quede
justifican
lade
utilización
de la
La
media
aritmética,
denotada
por
se define
como
laaleatoria,
suma
cada uno
los
media
muestral
puede
considerarse
una variable
cuyo
valor
dependerá
partir
de los
resultados
el valor
esperado
central de la muestraAsirven
tanto
para
resumirdel
los Apartado
resultados3.4,
observados
como parade la distribución
media
muestral
como
estimador
de
la
media
poblacional,
frente
a
otros
posibles
estimadores,
se
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.2.1 Media aritmética
basan
enmuestra
esta
distribución
muestral.
de la
seleccionada
sobre
las posibles
muestrasSidedenotamos
tamaño n de
valores
muestrales
dividida
por el número
de todas
observaciones
realizadas.
x finalmente
esparámetros
muestral
realizar inferencias
acerca de
de los
poblacionales correspondientes. A
por nAelpartir
tamaño
muestral
y por
el valor observado
el sujeto
i-ésimo,
i = 1,muestral
..., n, de es
de los
resultados
delxiApartado
3.4, el valorpara
esperado
de la
distribución
La media
aritmética,
denotada por
x , se define como
x sobre
todas
la población
de muestral
referencia.
A laxidistribución
de los valores
por
n el tamaño
y por
el valor observado
para el de
sujeto
i-ésimo,
i =las
1, posibles
..., n,
continuación se describen los principales estimadores de nla tendencian central de una
la media vendría dada por
1
 1
dividida por el número de observac
E ( x i ) =muestrales
μ;
E( x ) = E   x i  = valores
lamuestras
media vendría
dadatamaño
por se le denomina
distribución
muestral de x . Las razones
del mismo
n
n
i
i
=
1
=
1


variable.
n el están
tamaño
muestralalrededor
y por xi el
x +variable
x 2 + ... +aleatoria
xpor
1 n
n
es teóricas
decir, lasque
medias
muestrales
centradas
devalor
su observado pa
justifican
laxutilización
muestral
como
estimador
de
la
media
.
= decualquier
x i n=de 1la media
... + x n
x1 +n x 2 +equivalente,
1
nxo,=i =de
1dicho
verdadera
poblacional
las medias
muestrales
1.2.1 Media aritmética
es decir, media
las medias
muestrales
cualquier
variable aleatoria
están
centradas
alrededorno
. vendría
= forma
x i de

la
media
dada
por
n
n
1
sobreestiman
nifrente
infraestiman
la media
poblacional.
En términosmuestral.
estadísticos,
poblacional,
a otros sistemáticamente
posiblesi =estimadores,
se basan
en esta distribución
es
un
estimador
centrado
o
insesgado
de
μ.
La
conveniencia
de utilizar
seLa
dice
entonces
que
La media aritmética,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
demedia
su verdadera
mediadepoblacional
o, dicho
deutilizada
forma equivalente,
las medias muestrales
es la medida
tendencia central
más
y de más fácil
estimadores
insesgados
parece
clara
ya que,
en
contrario,
del parámetro
x + x 2 + ...
1 n
A partir
de
resultados
del Apartado
3.4,caso
el valor
esperado
de
la fácil
distribución
La
media
eslos
la medida
de tendencia
central
más
utilizada
ylas
deestimaciones
más
=
x
xi = 1

poblacional
estarían
sistemáticamente
sesgadas
respecto
a
su
verdadero
valor.
Otras
medidas
valores muestrales
dividida
por
el
número
de
observaciones
realizadas.
Si
denotamos
n i =1
n
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
muestrales
de
tendencia
central,
como
la
mediana
o
la
media
geométrica,
son
en
general
x
es
muestral
16
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
estimadores
sesgados
de
la
media
poblacional.
por n el tamaño
muestral
y
por
x
el
valor
observado
para
el
sujeto
i-ésimo,
i
=
1,
...,
n,
i
principal limitación es que está muy influenciada por los valores extremos y, en este
La media es la medida de tendencia central más uti
principal limitación es que está muy influenciada
por
los valores extremos y, en este
n
n
1
1

la media vendría
porno ser
Supongamos
estudio
constituye toda la
Ejemplo
4.8un fiel
) que
=laEtendencia
x i control
= del
E (la
x i )distribución.
= μ EURAMIC
;
E( xde
el grupo
caso,dada
puede
reflejo
central
de

interpretación.
Corresponde
al “centro de gravedad” d
n
n
i =1
i =1


población
o
universo
a
estudio,
cuya
media
poblacional
del
colesterol
HDL
es
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. μ = 1,09 mmol/l.
x + x 2 + ... + x n
1 n
principal
limitación
es que está
.
=
x
x iy=en 1los sucesivos
Ejemplo
1.4
En
este
ejemplos
sobre
estimadores
muestrales,
se muy influenciada por l

es decir, las medias
n i =1 muestrales den cualquier variable aleatoria están centradas alrededor
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
caso,
no ser un
fielPastor-Barriuso
reflejo
centra
R. tendencia
49
utilizarán
los valores
colesterolo,HDL
lospuede
10 primeros
sujetos
del de la
de su verdadera
media del
poblacional
dichoobtenidos
de formaen
equivalente,
las medias
muestrales
utilizarán
los valores
delmás
colesterol
HDL
La media es la medida
de tendencia
central
utilizada
y deobtenidos
más fácilen los 10 primeros sujetos del
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Ejemplo 1.4 En este y en los sucesivos ejemplos
realizar
inferencias
acerca
de los parámetros
se describen
los principales
estimadores
de
la tendencia
central de poblac
una
realizar continuación
inferencias acerca
de los parámetros
poblacionales
correspondientes.
A
variable.
continuación
se describen
Principios de muestreo
y estimación
continuación
principales
los principales estimadores
dese
la describen
tendencia los
central
de una estimador
variable.
variable.
1.2.1 Media aritmética
A partir de esta población, se obtienen 1000 muestras aleatorias simples de tamaño n = 10
aritmética
colesterol
HDL.
El histograma
y, en cada1.2.1
una Media
deLa
ellas,
se calcula
la media
muestral
media
aritmética,
denotada
por 1.2.1
x ,del
seMedia
define como
la suma
de cada uno de los
aritmética
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
Lapuede
media
aritmética,
denotada
x Si
, sedenotamos
define com
., Como
apreciarse,
los
valores
de los
aproximación
a lavalores
distribución
muestral
de xpor
La media
aritmética,
denotada
por
seeldefine
como
la suma de
cada
unopor
muestrales
dividida
número
de
observaciones
realizadas.
difieren entre las distintas muestras, pero su distribución conjunta está centrada alrededor
valores
muestrales
dividida
por
el número
de la verdadera
poblacional
μ por
= 1,09
mmol/l
(línea
vertical
en realizadas.
trazo
por n el
tamaño
muestral
por xi elde
valor
observado
para
eldiscontinuo).
sujeto
i-ésimo,
i =de1,observ
..., n,
valoresmedia
muestrales
dividida
elynúmero
observaciones
Si denotamos
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
por
n el tamaño
muestral
y presentan
por xii el
valor
observado
media geométrica
para
estas
mismas
Ambas
distribuciones
media
vendría
dada
por n el la
tamaño
muestral
y muestras.
porpor
xi el valor
observado
para elmuestrales
sujeto i-ésimo,
= 1,
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
la media vendría dada por
valor de 1,09
mmol/l.
la media
vendría dada por
x + x + ... + x n
1 n
. práctica, se
x= 
x i = 1 ya2 que, en la
Notar que el interés de este ejemplo es meramente
académico
n i =1
n
x + x2 +
desconoce la verdadera media poblacional1y nse dispone
1 n
+ ... única
+ x n muestra.
x + de
x 2 una
x =  xi = 1
.
x =  xi = 1
n i =1
n
n
n
La media es la medida dei =1tendencia central más utilizada y de más fácil
25
es la yde
medida
defácil
tendencia
centralSumás u
interpretación.
Corresponde
al “centro
demedia
gravedad”
datos
de la muestra.
La media
es la medida
de tendencia
centralLa
más
utilizada
delos
más
20
15
interpretación.
Corresponde
alextremos
“centro
principal
limitación es
estáde
muy
influenciada
los valores
y,gravedad”
en este
interpretación.
Corresponde
al que
“centro
gravedad”
de lospor
datos
de la muestra.
Sude
10
esde
que
está muy
po
5 caso,
puede no
ser un
reflejo
deprincipal
la tendencia
la distribución.
principal
limitación
es que
estáfiel
muy
influenciada
porlimitación
loscentral
valores
extremos
y, eninfluenciada
este
0
Frecuencia relativa (%) en muestras de tamaño 10
caso, puede
un fiel reflejo de la tendencia cen
caso, puede no ser un fiel reflejo de la tendencia
centralno
deser
la distribución.
0,7 Ejemplo
0,8
0,9
1,3 ejemplos
1,4
1,5
1.4 En 1este y1,1
en los1,2
sucesivos
sobre estimadores muestrales, s
(a) Media muestral del colesterol HDL (mmol/l)
Ejemplo
1.4estimadores
En este
y en
los
sucesivos
losyvalores
del colesterol
HDL sobre
obtenidos
en los
10muestrales,
primeros
sujetos
de
Ejemploutilizarán
1.4 En este
en los sucesivos
ejemplos
se ejemp
25
utilizarán
del colesterol
HDL
estudio
“European
Study onHDL
Antioxidants,
Myocardial
Infarction
and Cancer
of
utilizarán
los valores
del colesterol
obtenidos
enloslosvalores
10 primeros
sujetos
del obte
20
15estudio
10
5the
estudio
“European
Study
Antioxidants,
My
the Breast“ Study
(EURAMIC),
un estudio
multicéntrico
de casos
controles
“European
on Antioxidants,
Myocardial
Infarction
andyonCancer
of realizado
the Breast“
(EURAMIC),
un realizado
estudio
entre(EURAMIC),
1991 y 1992 un
en estudio
ocho países
Europeos
e Israel
para
evaluar
el efectomulticén
de los
Breast“
multicéntrico
de
casos
y controles
0
1991
y 1992
en ocho
países
e
entre 1991 y 1992 en ocho países Europeosentre
e Israel
para
evaluar
el efecto
de Europeos
los
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
(b) Mediana del colesterol HDL (mmol/l)
5
25
20
15
10
5
0
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
(c) Media geométrica del colesterol HDL (mmol/l)
Figura 4.1 Distribución muestral de la media aritmética (a), la mediana (b) y la media
Figura 4.1geométrica (c) del
colesterol HDL en 1000 muestras aleatorias simples de tamaño n = 10 obtenidas a partir del grupo control
del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde a la media poblacional μ = 1,09
mmol/l de colesterol HDL.
50
Pastor-Barriuso R.
centralestándar
de la muestra
para resumir los resultados observados como para
4.3.2 Error
de la sirven
media tanto
muestral
realizar
inferencias
acerca
los parámetros
poblacionales
correspondientes.
A simple
Dado que
la media
muestral
es unde
estimador
insesgado
de la media
poblacional,
todas
Estimación
en el muestreo aleatorio
continuación
se describen
los principales
estimadores
central de una
las posibles
medias muestrales
estarán
distribuidas
alrededor de
de la
la tendencia
media poblacional.
[Figura 4.2 aproximadamente aquí]
4.3.2 Error
estándar de la media muestral
variable.
No obstante,
queda por determinar el grado de variabilidad o dispersión de estas medias
aproximadamente
aquí]
Dado que la media muestral es un estimador insesgado de la[Figura
media4.2
poblacional,
todas las
Aun
cuando
en
la
práctica
carece
de
sentido
tomar
repetidas
μ
.
La
dispersión
de
las
medias
muestrales
x
de
tamaño
n
muestrales
alrededor
de
posibles medias
muestrales
estarán distribuidas alrededor de la media poblacional. No obstante, muestras, las
1.2.1 Media
aritmética
queda por determinar el grado de variabilidad o dispersión de estas medias muestrales alrededor
xcada
pueden
utilizarse
para
cuantifica
propiedades
laseen
distribución
muestral
de
Aun
cuando
la práctica
carece
tomar
repetidas
muestras,
las
determinada
pormedias
la varianza
depor
su de
distribución
muestral,
quede
es
igual
apor
tamaño
n vendrá
determinada
lade
varianza
de vendrá
μ. La dispersión
de las
muestrales
x ,de
define
como
la suma
desentido
uno
los
La
media aritmética,
denotada
de su distribución muestral, que es igual a
utilizarse
para
cuantifi
propiedades
la distribución
de x pueden
cometido
la de
estimación
a partirmuestral
de una
única
muestra
de tamaño
n. La
desvi
valores muestrales dividida
por en
el número
de observaciones
realizadas.
Si denotamos
1 n  1 n
σ2 ,
var( x ) = var  x i  = 2  var( x i ) =
nde
n observado
1.2 MEDIDAS DE TENDENCIA
x esúnica
estándar
la
distribución
muestral
cometido
envalor
a partir
desujeto
una
muestra
n. La des
ix=1 el
i =1
 n de
la estimación
por n el tamañoCENTRAL
muestral
y por
para el
i-ésimo,
i = 1,de
...,tamaño
n,
i
[Figura 4.2 aproximadamente
aquí] DE TENDENCIA CENTRAL
1.2 MEDIDAS
dado que los distintos valores de la muestra son independientes (véase Apartado 3.4). Puede
estándar
la es
distribución
muestral
de x es
la que
media
vendría
dadadepor
Las medidas
de
tendencia
informan
acerca
de de
cuál
valorserá
más
representativo
σ sea la
observarse
la
variabilidad
laslamedias
muestrales
tanto
mayor Apartado
cuanto mayor
dado
que
loscentral
distintos
valores
de
muestra
sonelindependientes
(véase
3.4).
x
)
=tendencia
var( x ) =
,
SE(
2
Las
medidas
de
central
de
la
variable
a
estudio.
Por
otra
parte,
esta
variabilidad
disminuye
varianza
poblacional
σ
Aun cuando en la práctica carece de sentido tomar repetidas muestras, las
n informan acerca de c
de una determinada
dicho
forma
estos
estimadores
σ las
conforme
aumentao, el
tamaño
n de equivalente,
la muestra;
es
decir,
aumentar
el tamaño
Puede variable
observarse
que
lade
variabilidad
de1lasn medias
será
tanto
mayormuestral,
cuanto
+ xal
x1 muestrales
xindican
2 + ... +SE(
n x) =
var( x ) =o, dicho
, de forma equival
.
=
=
x
x
de
una
determinada
variable

i
medias
de
las
distintas
muestras
estarán
más
próximas
a
la
verdadera
media
poblacional.
para
cuantificar
el
error
propiedades de la distribución muestral nde x pueden utilizarse
n
n de la distancia de las distintas medias muestrale
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
i =1valor promedio
facilita
alrededor de qué
valor
datosque
observados.
medidas
de tendencia
σ 2 deun
laLas
variable
a estudio.
Por otra parte, esta
mayor
seaselaagrupan
varianzalospoblacional
alrededor
de medias
qué
se
agrupan HDL
los datos observado
cometido
en4.9
la estimación
a partir
de una
de tamaño
n. valor
Ladel
desviación
En las Figuras
4.2(a),
(b)única
y (c)muestra
se presentan
las
colesterol
Ejemplo
xmedias
) se conoce
c
tamaño
n
respecto
de
la
medida
poblacional.
Esta
cantidad
que
facilita
un
valor
promedio
de
la
distancia
de
las
distintas
muestra
central de la muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para
Las es
medidas
de tendencia
central
informan
acerca
esrespectivamente,
el
valor másSE(
representativo
La disminuye
media
la
medida
de
tendencia
central
de
fácil
variabilidad
conforme
aumenta
el tamaño
nmás
la10,
muestra;
es más
decir,
al
en 1000
muestras
aleatorias
simples
de
tamaño
nde= utilizada
25 de
yy cuál
100,
central de
laEn
muestra
para resumir los resu
x aproximadamente
esestudio EURAMIC.
estándar
de laadistribución
obtenidas
partir de losmuestral
controles
del
estas sirven
gráficastanto
se puede
[Figurade4.2
aquí]
x ) de
se incertid
conoce
tamaño
n
respecto
de
la
medida
poblacional.
Esta
cantidad
error
estándar
de
la
media
muestral
y
permite
cuantificar
el SE(
grado
realizar inferencias
acerca
de
los
parámetros
poblacionales
correspondientes.
A
una
determinada
variable
o,dedicho
de forma
equivalente,
estos
estimadores
indican
interpretación.
Corresponde
al
“centro
gravedad”
de las
los
datos
demás
la
muestra.
Su
aumentar
el tamaño
muestral,
las medias
las
distintas
muestras
estarán
próximas
apreciar
que,deindependientemente
deldetamaño
muestral,
medias
muestrales
están
realizar
inferencias
acercaalde
los parámetros
poblacion
centradas alrededor de la media poblacional de 1,09
mmol/l.
Sin embargo,
aumentar
el
σ
error
estándar
de
la
media
muestral
y
permite
cuantificar
el
grado
la
estimación
de
una
media
a
partir
de
una
muestra
de
tamaño
n.
continuación se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
alrededor
deesqué
valor
se
agrupan
los
Las
deeste
tendencia de incer
principal
limitación
que
está
influenciada
los
valores
extremos
y, en
xde
)muy
=sentido
var(
xtomar
)substancial
= datos
,porobservados.
SE(
Aun
cuando
en
lase
práctica
carece
repetidas
muestras,
lasmedidas
a latamaño
verdadera
media
poblacional.
muestral,
observa
una
disminución
de la
variabilidad
de las
medias
n con unse
continuación
describen
principales estimadores
muestrales. Así, por ejemplo, la proporción de muestras
nivel
medio los
de colesterol
En
la
práctica,
para
poder
calcular
el
error
estándar,
estamaño
necesario
obtener
la
estimación
de
una
media
a
partir
de
una
muestra
de
variable.
central
de un
la
muestra
sirven
para
los
resultados
comon.para
caso,
puede
no
ser
fielmuestral
reflejo
de
central
de
lapara
distribución.
x tendencia
pueden
para
cuantificar
error
propiedades
de1,03
la distribución
de latanto
HDL
entre
y 1,15
mmol/l
es del
48,7%
para
n utilizarse
=resumir
10, 69,1%
n = 25observados
y el
95,4%
para
Enpromedio
las Figuras
4.2(a),
(b) y de
(c)las
se variable.
presentanmedias
las medias
del colesterol
=Ejemplo
100. un 4.9
quenfacilita
valor
de En
la distancia
distintas
muestrales
de es
la
práctica,
para
poder
calcular
el
error
estándar,
obtener
σ 2 denecesario
la variable
a estu
previamente
una
estimación
de
la
varianza
poblacional
realizar
inferencias
acerca
de
los
parámetros
poblacionales
correspondientes.
A
cometido
en
la
estimación
a
partir
de
una
única
muestra
de
tamaño
n.
La
desviación
1.2.1 Media aritmética
Ejemplo
1.4 En este
y en los
sucesivos
ejemplos
estimadores
muestrales, se
HDL
en
aleatorias
simples
decantidad
tamaño
nSE(
=sobre
10,
25
ylas
100,
Aun
cuando
en1000
la práctica
carece
de sentido
tomar
repetidas
muestras,
propiedades
de la
1.2.1 Media
x )aritmética
se
conoce
como
tamaño
n respecto
demuestras
la medida
poblacional.
Esta
σ 2 poblacional
de la variable 2a e
previamente
una
estimación
de
la
varianza
poblacional
que
este
parámetro
es
típicamente
desconocido.
La
varianza
continuación
se
describen
los
principales
estimadores
de
la
tendencia
central
x
es
estándar
de
la
distribución
muestral
de
utilizarse
para
cuantificar
error
cometido en la estimación a de una σ pu
distribución
muestralpor
de x ,pueden
La media aritmética,
denotada
se define
como la
suma
de cada el
uno
de los
utilizarán los
valores adel
colesterol
HDL obtenidos
en losEURAMIC.
10 primerosEn
sujetos del
1.2 MEDIDAS
DEúnica
TENDENCIA
respectivamente,
obtenidas
de los controles
del
partir
de una
de CENTRAL
tamaño
n.partir
La
estándar
de
laaritmética,
distribución
muestralpor
de
La media
denotada
error
estándarmuestra
de la media
muestral
y desviación
permite
cuantificar
el estudio
grado
de incertidumbre
enx ,esse define como2
que
este
parámetro
es
típicamente
desconocido.
La
varianza
poblacional σ
variable.
estimarse
a
partir
de
la
propia
muestra
mediante
la
varianza
muestral
valores muestrales dividida por el número de observaciones realizadas.
Si denotamos
σ
estudio se
“European
Study
on
Antioxidants,
Myocardial
Infarction
and Cancer
of
gráficas
puede
independientemente
tamaño
muestral,
x )que,
= de
var(
) =el
, más
SE(
valores
muestrales
dividida
por ellasnúmero de observac
Las medidas
deestas
tendencia
informan
acerca
cuálxes
valor
representativo
la estimación
de central
una media
a apreciar
partir
de
una
muestra
de
tamaño
n.del
n
estimarse
a partir
de lai-ésimo,
propia muestra
mediante la varianza muestral
por n el tamaño muestral y por
xi elMedia
valor observado
para
el sujeto
i 2= 1, ...,
1.2.1
aritmética
1 n, ny controles
2 realizado
the
Breast“
(EURAMIC),
unalrededor
estudio multicéntrico
de
casos
medias
muestrales
están
centradas
de
la
media
poblacional
1,09
s
=
(de
x i y−
x )tamaño

pores
n necesario
elmedias
tamaño
muestral
por
x. i el valor
facilita
un
valor para
promedio
de
la distancia
las estos
distintas
muestrales
de
n observado pa
de una que
determinada
variable
o, dicho
forma
equivalente,
estimadores
indican
En la práctica,
poderde
calcular
el errordeestándar,
obtener
n − 1 i =1
n
la media vendría
como
de lade los
respecto
de por
la medida
poblacional.
cantidadde
SE(
quedada
facilita
un valor
promedio
deEsta
la distancia
lasx )distintas
medias
muestrales
La media
aritmética,
denotada
por
, se conoce
define
como
la1error
sumaestándar
de de
cada2 uno
2
entre
1991
y 1992
en ocho países
Europeos
e2Israel
para
evaluar
el
efecto
de los
mmol/l.
Sin
embargo,
al
aumentar
el tamaño
muestral,
se
observa
una
s
=
(
x
−
x
)
.

i
la
media
vendría
dada
por
alrededor
de
qué
valor
se
agrupan
los
datos
observados.
Las
medidas
de
tendencia
media
muestral
y
permite
cuantificar
el
grado
de
incertidumbre
en
la
estimación
de
una
media
dado
previamente una estimación de la varianza poblacional σ de la variable
n − 1ai =estudio,
Puede
probarsepor
que
lanúmero
varianza
muestral
es un 1estimador
de la varia
a partir
de una
muestra
tamaño
n.poblacional.
x ) se conoce
como insesgado
tamaño
n respecto
dedenlamuestrales
medida
Esta
cantidad
SE(
valores
dividida
el
de
observaciones
realizadas.
Si denotamos
+ xla2 variabilidad
+ ... + x n
x1de
1
disminución
substancial
de
las
medias
muestrales.
Así,
por
2
central de que
la muestra
sirven
tanto
para
resumir
los
resultados
observados
como
para
. La varianza
= espoder
xpara
x i =calculardesconocido.
5x + x + ...
n
σ puede 1 una
parámetro
típicamente
poblacional

En laeste
práctica,
el
error estándar,
es necesario
obtener
2 previamente
1 las
2la var
nnlael
nprobarse
i=
1 tamaño
sobre
todas
sobre
todas
poblacional;
espor
decir,
el
valor
esperado
ses
Puede
que
la
varianza
muestral
un
estimador
insesgado
de posib
=
=
x
x
por
muestral
y
x
el
valor
observado
para
el
sujeto
i-ésimo,
i
=
error
estándar
de
media
muestral
cuantificar
el
grado
de
incertidumbre
en
2y permite
i

i 1, ..., n,
la variable
amedio
estudio,
dado
que este
parámetro
es
estimación
de la varianza
poblacional
σ de con
ejemplo,
la
proporción
de
muestras
un
nivel
de
colesterol
HDL
entre
n
n
i =1
realizar inferencias
acerca
parámetros
poblacionales
2
estimarse desconocido.
a partirde
delos
la propia
muestra
mediante
laσcorrespondientes.
varianza
muestralA
de la propia
típicamente
La varianza
poblacional
2
2
2 puede estimarse a partir
sobre todas
sobre
pos
poblacional;
es) decir,
el tamaño
valor
esperado
dela
s media
=σ
El
error
estándar
de
muestral
se todas
estimalas
enton
es
E(smuestra
la
media
vendría
dada
por
de
media
amuestras
partir
una
de
n.
La media
eslalaestimación
medida
tendencia
central
másdeutilizada
de .69,1%
más
fácil
muestra
mediante
launa
varianza
y de
1,15
mmol/l
esmuestral
del estimadores
48,7%
para nde=yla
10,
para
n = 25
y 95,4% para n =
continuación se1,03
describen
los
principales
tendencia
central
de
una
La media es la medida de tendencia central más uti
n 2
2
1es
2
2El
)
=
σ
.
error
estándar
de la media muestral se estima ento
muestras
E(s
En
la
práctica,
para
poder
calcular
el
error
estándar,
necesario
obtener
s/ ns . Así,
una
muestra
interpretación. Corresponde
al “centro de gravedad”
los
datos
= de
( x iseleccionada
−nde
x ) laes
. muestra.
vez
... + x n concreta, la media muestral x fa
x1 +una
x 2 +Su
100.
n − 1 i =x1 = 1 interpretación.
variable.
.
xi =
Corresponde
al “centro de gravedad” d
n i =1 σ 2 de la variable
n
a
estudio,
dado
previamente
una
estimación
de
la
varianza
poblacional
x
s/ estimación
n por
. Así,
vez seleccionada
una
muestra
concreta,
la de
media
muestral
principal limitación
es que que
está la
muy
influenciada
valores
extremos
y, en
una
insesgada
de la media
poblacional
ypoblacional;
el error
dicha
estimació
Puede probarse
varianza
muestral
eslos
ununa
estimador
insesgado
deeste
la
varianza
2
2
2
principal
limitación
es
que
está
muy
influenciada
por
l
1.2.1 Media
aritmética
es decir,
elprobarse
valor esperado
de s sobre
todas las
muestras
es E(s de
) =laσ varianza
. 2El error estándar
Puede
que la varianza
muestral
es posibles
un estimador
insesgado
18
σ ypuede
este
parámetro
esmedia
típicamente
desconocido.
La
caso, puededenoque
un fiel
reflejoLa
de
la
tendencia
central
detendencia
la
distribución.
una
estimación
de
media
poblacional
y elmuestra
error
es
la medida
de
central
másseleccionada
utilizada
deuna
más
fácil de dicha estima
Así,
unalapoblacional
vez
laser
media
muestral
se
estima
entonces
como
n ..varianza
determinado
por
s/insesgada
2
caso,
puede
no
ser
un
fiel
reflejo
deylaeltendencia centra
La media
aritmética,
denotada
por
x ,facilitará
seesperado
defineuna
como
sumatodas
de
cada
uno
de
insesgada
de
la los
media
poblacional
concreta,
la media
muestral
sobre
todas
las posibles
poblacional;
es decir,
el valor
deestimación
s lasobre
estimarse
partir
de la vendrá
propia muestra
mediante
muestralde los datos de la muestra. Su
interpretación.
Corresponde
al “centro
error
de dichaa estimación
determinado
por
n .. de gravedad”
s/la varianza
Ejemplo
1.4
En
este
y
en
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se
2
2
valores muestrales
número
de observaciones
realizadas.
σ el. El
error estándar
de la media
muestralSi
sedenotamos
estima entonces como
muestras dividida
es E(s ) =por
Ejemplo
1.4
En
este y extremos
en los sucesivos
ejemplos
principal limitación es que está
muy influenciada por los valores
y, en este
n
1
2
2
utilizarán
los valores dely colesterol
HDLobservado
en (los
10x )primeros
sujetos
sobtenidos
=
xeli −sujeto
. i-ésimo,
por
n el tamaño
porseleccionada
xi el valor
para
i = 1,del
..., n,
Pastor-Barriuso R. 51

x facilitará
s/ n . muestral
Así, una vez
una muestra
concreta,
la utilizarán
media muestral
n
−
1
los de
valores
del colesterol HDL obtenid
i
=
1
caso, puede no ser un fiel reflejo de la tendencia central
la distribución.
“European
laestudio
media vendría
dadaStudy
por on Antioxidants, Myocardial Infarction and Cancer of
una estimación insesgada de la media poblacional y el error
de dicha
estimación
vendrá
estudio
“European
Study
on Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado
de la varianza
Principios de muestreo y estimación
30
20
10
0
0,8
0,9
1
1,1
1,2
1,3
1,4
(a) Media del colesterol HDL (mmol/l) en muestras de tamaño 10
Frecuencia relativa (%)
30
20
10
0
0,8
0,9
1
1,1
1,2
1,3
1,4
(b) Media del colesterol HDL (mmol/l) en muestras de tamaño 25
30
20
10
0
0,8 de los
0,9controles
1 del estudio
1,1
1,2
1,3
1,4
Ejemplo 4.10 A partir
EURAMIC,
se ha obtenido
una
(c) Media del colesterol HDL (mmol/l) en muestras de tamaño 100
Ejemplo
4.10 A partir
de de
lostamaño
controles
se ha obtenido
una
muestra aleatoria
simple
n =del
10,estudio
cuyos EURAMIC,
valores de colesterol
HDL son
Figura
4.2
Figura 4.2 Distribución muestral de la media del colesterol HDL en 1000 muestras
aleatorias
simples de
tamañomuestra
n = 10 (a),
25
(b)
y
100
(c)
obtenidas
a
partir
del
grupo
control
del
estudio
EURAMIC.
La
línea veraleatoria
simple
de
tamaño
n
=
10,
cuyos
valores
de
colesterol
HDL
son
1,32, 1,74,corresponde
0,82, 0,92, a1,46,
1,10,
0,88, 0,97
0,63mmol/l
mmol/l.
La mediaHDL.
tical en 1,45,
trazo discontinuo
la media
poblacional
μ =y 1,09
de colesterol
52
1,45,
1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45,
muestralaleatoria
es
10
+ 1,32
+ ...
+ 0,63
1,45
1,32, 1,74, 0,82, 0,92,11,46,
1,10,
0,88,
0,97
y 0,63
mmol/l. La media muestral es
x =  xi =
= 1,13 mmol/l
10 10i =1
10
1
1,45 + 1,32 + ... + 0,63
x =  xi =
= 1,13 mmol/l
10 i =1
10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 =
 ( xi − x ) 2
n − 1 in=1
1
2
s 2 = (1,45
x i )−2 x+)...
− 1(,13
+ (0,63 − 1,13) 2
−
1
n
i =1
=
= 0,12 (mmol/l) 2 .
9
(1,45 − 1,13) 2 + ... + (0,63 − 1,13) 2
=
= 0,12 (mmol/l) 2 .
9
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.
Por
tanto,
la estimación
dees
la media poblacional del colesterol HDL es x
= 1,13
mmol/l
y su errorpuntual
estándar
(1,45 − 1,13) 2 +alrededor
... + (0,63 de
− 1,qué
13) 2valor se agrupan 2los datos observados. Las medidas d
=
= 0,12 (mmol/l) .
variable.
9 como para
muestra sirven tanto para resumir los resultados observados
Estimación
en
el muestreo
aleatorio
central de laDE
muestra
sirven
tanto
para
resumir
los simple
resultados observad
1.2 MEDIDAS
TENDENCIA
CENTRAL
ncias acerca de los parámetros
A 1.2.1
Por tanto,poblacionales
la estimación correspondientes.
puntual de la media
poblacional
colesterol HDL es x
Mediadel
aritmética
realizar inferencias acerca de los parámetros poblacionales correspond
Las medidas de tendencia central informan acerca de cuál es el valor más r
e describen los principales
estimadores
la tendencia
central
de La
unamedia aritmética,
Por
tanto,
la estimación
puntual
la media
poblacional
del colesterol
HDLpor
es x ,=se1,13
denotada
define como la su
= 1,13
mmol/l
y sude
error
estándardees
continuación
describen los principales estimadores de la tendencia
mmol/l y su error estándar esde una determinadasevariable
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el número de observacione
s
0,35
SE( xalrededor
) = variable.
= de qué=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
n
10
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
por n el tamaño muestral y por xi el valor observado para e
ritmética
Frecuencia absoluta
1.2.1
Media
aritmética
Notar que, en este ejemplo ilustrativo,
error
de sirven
la estimación
muestral
es los
exactamente
central
de el
la
muestra
tanto para
resumir
resultados observados co
la
media
vendría
dada
por
mética,
xNotar
,–se
como
la
suma
de
cada
uno
de
los
μ define
=que,
1,13
–
1,09
=
0,04
mmol/l.
En
la
práctica,
sin
embargo,
el
error
exacto
no puede
Lasdenotada
medidas por
de tendencia
central
informan
acerca
de
cuál
es
el
valor
más
representativo
en este ejemplo ilustrativo, el error de la estimación muestral es
Lay,inferencias
media
aritmética,
denotada
por
sepoblacionales
define
como la
suma de cada
estimación
calcularse ya que μ es desconocido
en consecuencia,
SE( x ), como
realizar
acercase
deemplea
los parámetros
correspondiente
ralesdedividida
por el número
de
observaciones
realizadas.
Si
denotamos
del
error
promedio
que
cabría
esperar
en
similares
circunstancias
(esto
es,
en
todas
las
una determinada
variable
o,
dicho
de
forma
equivalente,
estos
estimadores
indican
n
exactamente x - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el1
x1 + x 2 + ... + x n
x =de observaciones
xde
valores
muestrales
por
número
realizadas
posibles muestras del mismocontinuación
tamaño
obtenidas
de la dividida
población
deelreferencia).
se describen
los principales
estimadores
la tendencia
centr

i =
n i =1
n
valor
observado
para
el
sujeto
i-ésimo,
i
=
1,
...,
n,
o muestral
y por
xi elvalor
alrededor
de qué
se
agrupan
los
datos
observados.
Las
medidas
de
tendencia
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se
por n el tamaño muestral y por xi el valor observado para el sujeto i-és
variable.
Teorema
central
del
límite los resultados observados como para
ría dada
porde la4.3.3
central
muestra
sirven
tanto
para
resumir
La media
es la medida
que cabría
esperar de
en tendencia central más utilizad
emplea SE( x ) como estimación del error promedio
la media vendría dada por
En los apartados anteriores se ha probado
paraaritmética
cualquier variable aleatoria, el valor esperado y
1.2.1 que,
Media
realizar inferencias
los
parámetros
poblacionales
correspondientes.
A respectivamente.
interpretación.
Corresponde
al tamaño
“centro
de ha
gravedad” de los
n acerca de
similares
circunstancias
(esto
es,
en
todas
las
posibles
del mismo
x 2 + ... + x n de las medias muestrales
No se
la varianza
dex1la+distribución
son μ muestras
y σ2/n,
1
. global de la distribución muestral de . Retomando
=  x i sin
= embargo, el aspecto
xanalizado,
n
+ ejemplo
... + xde
x 2la+suma
La media aritmética, denotada por x , 1se define xcomo
1 el
n cada uno
ndescriben
n
i =1
continuación
se
los
principales
estimadores
de
la
tendencia
central
de
una
. por los v
=
=
x
x
principal
limitación
es
que
está
muy
influenciada

i
obtenidas
de
la
población
de
referencia).
de la distribución muestral de las medias de colesterol HDL (Figura 4.2), puede
observarse
que
la
n i =1
n
forma de esta distribución tiende a valores
aproximarse
a una dividida
distribución
conforme
aumenta el realizadas. Si d
muestrales
por normal
el número
de observaciones
caso,
puede
no
ser
un
fiel
reflejo
de la tendencia central de
s la variable.
medida de tendencia
central
más
utilizada
y
de
más
fácil
tamaño muestral. Esta característica puede resultar intuitivamente lógica, ya que la distribución
mediamuestral
esun
la aspecto
medida
de
tendencia
central
más
utilizada
de más
subyacente
del colesterol
HDL
en lapor
población
presenta
normal
n el La
tamaño
y poraproximadamente
xi el
valor observado
para(ver
el sujetoyi-ésimo,
4.3.3 Teorema
central del
límite
Corresponde
al
“centro
de
gravedad”
de
los
datos
de
la
muestra.
Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la práctica no presentan una
1.2.1 MediaFigura
aritmética
Ejemplo 1.4alEn
este yde
engravedad”
los sucesivoslos
ejemplos
sob
interpretación.
datos de
la
distribución
poblacional
normal,
cabría
preguntarse
siCorresponde
esta
a la normalidad
la
la media
vendría
por tendencia
En los apartados
anteriores
se ha probado
que,
para dada
cualquier
variable “centro
aleatoria,
el valor de de
ación
es
que
está
muy
influenciada
por
los
valores
extremos
y,
en
este
para cualquier
tipo
de uno
variable
aleatoria.
La media aritmética,
denotada
define como
la suma de
cada
de los
distribución
muestralpor
de x ,sesemantiene
utilizarán
los
valores
obtenidos
e
principal
limitación
es
que
está
muy influenciada
porHDL
los valores
extre
2 del colesterol
esperado y la varianza de la distribución de las medias muestrales son
nμ y σ /n,
+
+
...
+
x
x
x
1
1
2
n
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia
ladedistribución.
porcentral
elEn
número
observaciones
Si denotamos
.
xde=los
x i = de
4.11
la de
Figura
4.3 se muestra realizadas.
la distribución
niveles
b-caroteno
en
estudio
“European
Study
on
Antioxidants,
Myocardia
n
n
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
=
i
1
tejido adiposo
control
estudioelEURAMIC,
que de
presenta
una distribución de la distribuc
respectivamente.
Noen
se el
hagrupo
analizado,
sindel
embargo,
aspecto global
la distribución
por n el tamaño muestral
y por xiasimétrica
el valor observado
para elde
sujeto
i-ésimo,
i =Las
1, ...,
n,
marcadamente
con una media
μ = 0,37
Figuras
4.4(a),
y (c)multicéntrico de
the mg/g.
Breast“
(EURAMIC),
un (b)
estudio
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
20
La media
es la medida
tendencia
másejemplos
utilizadasobre
y de más
fácil
Ejemplo
1.4 Endeeste
y en loscentral
sucesivos
estimado
la media vendría dada por
250
entre 1991 y 1992 en ocho países Europeos e Israel p
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
interpretación.
Corresponde
al “centro
de gravedad”
de los datos
utilizarán los valores
del colesterol
HDL obtenidos
en de
losla10mue
pri
n
+ x nCancer of
xInfarction
1
“European Study on Antioxidants,
Myocardial
1 + x 2 + ...and
200 x =  x i =
.
principal
limitación
es que estáStudy
muy on
influenciada
por Myocardial
los valores extremos
estudio “European
Antioxidants,
Infarction
n i =1
n
st“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
caso, puedethe
noBreast“
ser un fiel
reflejo de launtendencia
central de la distribución.
(EURAMIC),
estudio multicéntrico
de casos y co
150de tendencia central más utilizada y de más fácil
La
media
es
la
medida
91 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar
1.4 En
y en losSu
sucesivos ejemplos sobre estimadores m
interpretación. Corresponde al “centro de gravedad”Ejemplo
de los datos
de este
la muestra.
100
5
utilizarán
los extremos
valores del
principal limitación es que está muy influenciada por
los valores
y, colesterol
en este HDL obtenidos en los 10 primero
estudio
“European
Study on Antioxidants, Myocardial Infarction and
caso, puede no ser un fiel50reflejo de la tendencia central
de la
distribución.
the Breast“ (EURAMIC), un estudio multicéntrico de casos y control
Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el ef
utilizarán los valores del colesterol
en los 10
sujetos1,6
del 1,8
0
0,2 HDL
0,4 obtenidos
0,6
0,8
1 primeros
1,2
1,4
2
β-caroteno (μg/g)
estudio “European Study on Antioxidants, Myocardial
Infarction and Cancer of
Figura 4.3
Figura 4.3
Distribución de frecuencias del nivel de β-caroteno en el grupo control del estudio EURAMIC.
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Pastor-Barriuso R.
53
Principios de muestreo y estimación
30
20
10
0
0,1
(a)
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Media de β-caroteno (μg/g) en muestras de tamaño 10
Frecuencia relativa (%)
30
20
10
0
0,1
(b)
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Media de β-caroteno (μg/g) en muestras de tamaño 25
30
20
10
0
0,1
(c)
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Media de β-caroteno (μg/g) en muestras de tamaño 100
Figura 4.4
Figura 4.4 Distribución muestral de la media de β-caroteno en 1000 muestras aleatorias simples de tamaño
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea vertical en
trazo discontinuo corresponde a la media poblacional μ = 0,37 μg/g de β-caroteno.
representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamaño n =
10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC.
En estas gráficas puede observarse, de forma empírica, las siguientes propiedades:
—— Ausencia de sesgo: para cualquier tamaño muestral, el promedio de las medias
muestrales es similar a la media poblacional.
—— Disminución del error estándar: al aumentar el tamaño muestral, disminuye la
variabilidad en la distribución de las medias.
—— Aproximación a la distribución normal: al aumentar el tamaño muestral, la distribución
de las medias se aproxima a una distribución normal centrada en la media poblacional.
En los ejemplos anteriores, se ha comprobado de forma empírica que, independientemente de
la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a
54
Pastor-Barriuso R.
estadística, conocido como teorema central del límite, formaliza esta intuición: para
Las medidas de tendencia central informan acerca de cuá
estadística, conocido como teorema central del límite, formaliza esta intuición: para
σ 2, la
distribución
de
las medias
cualquier variable aleatoria X con media μ y varianza
Estimación en
el muestreo
de una
determinada
variable
o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias
en muestras aleatorias simples de tamaño n se aproxima,
al aumentar
el tamaño
alrededor
de qué valor
se agrupan los datos observados. L
en muestras aleatorias simples de tamaño
n
se
aproxima,
al
aumentar
el tamaño
~
x → N(1,09, 0,00086).
2 tamaño de la muestra. Uno de
seguir
una distribución
normal,normal
particularmente
aumentaσ el
μ y varianza
es decir,
al aumentar
muestral,
a una distribución
con mediacuando
central
de la/n;
muestra
sirven
tantoformaliza
para resumir los resulta
losmuestral,
principales
resultados
en
estadística,
conocido
como
teorema
central
del
límite,
es decir,
al
aumentar
a una distribución normal con media μ y varianza σ 2/n;
2
, la distribución
de las
esta
paraejemplo,
cualquier
aleatoria
X con
media μdey colesterol
varianza σHDL
Así, por
la variable
probabilidad
de que
la media
endeuna
n, intuición:
realizar
inferencias
acerca
los muestral,
parámetros poblacional
medias
en
muestras
aleatorias
simples
de
tamaño
n
se
aproxima,
al
aumentar
el
tamaño
n,
decir,
al yaumentar
n, puede
a una distribución
normal
conn media
y varianza
σ 2/n; es
muestra de
tamaño
= 100 μesté
comprendida
entre
1,03
1,15 mmol/l
2 continuación se describen los principales estimadores de


σ
~ N  μ,
x→
 nσ 2,
~
calcularse como
,
x → N μ , variable.
n 

~ significa “distribuirse
− 1,09
x − 1,09 aritmética
1,15Así,
− 1Así,
,09
 1,03
aun
aun
dondeelel símbolo
símbolo P(1,03
→
donde
significa
“distribuirse
aproximadamente
como”.
cuando la
1.2.1
= P aproximadamente
≤ Mediacomo”.
≤
≤ x ≤ 1,15)
 cuando
~
aproximadamente
como”.
Así,
aun
donde el símbolo
→ significa
0,029
0,029
0,029
distribución
de una variable
en la“distribuirse
población diste
mucho de
ser normal,
el teorema
central del
 cuando
la distribución
de unalavariable
en la población
disteLa
mucho
de
ser
normal,
el
teorema
límite
permite utilizar
distribución
normal como
aproximación
a
la
distribución
de x ,siseeldefine como la s
media aritmética, denotada por
la distribución
variable en lagrande.
población
diste
de muestral
ser normal,
el teorema
tamaño
muestral de
es una
suficientemente
Aunque
tamaño
necesario
variará en
= P(-2,05
≤
Z ≤elmucho
2,05)
centralde
dellalímite
permite
la distribución
normal
como
aproximación
a
la
función
variable
objetoutilizar
de estudio,
esta aproximación
será
razonablemente
precisa
valores muestrales dividida por el siempre
número de observacion
del límitea permite
utilizar la distribución normal como aproximación a la
quecentral
n sea superior
50.
= 2 Φ(2,05) - 1 = 0,9596.
grande. muestral
Aunque ely tamaño
distribución de x si el tamaño muestral es suficientemente
por n el tamaño
por xi el valor observado para
~
→ N(1,09,
0,00086). HDL
el tamaño
es suficientemente
grande.
Aunque
el tamaño
distribución
media ymuestral
la xvarianza
del colesterol
en los
controles
del estudio
Ejemplo de
4.12x siLa
2 la variablelaobjeto
2
En
el
Ejemplo
4.9
se
comprobó
empíricamente
que
la
proporción
de
muestras
muestral
necesario
variará
en
función
de
de
estudio,
esta
media. vendría
dada por
Por el teorema
central delde
límite,
EURAMIC son μ = 1,09 mmol/l y σ = 0,086 (mmol/l)
muestral
necesario
variará
en
función
de
la
variable
objeto
de
estudio,
esta
laAsí,
distribución
de
las
medias
en
muestras
de
tamaño
n
=
100
será
aproximadamente
por ejemplo, la probabilidad de que la media de colesterol HDL en una
2
2
tamaño
nmedia
= razonablemente
100 μcon
un nivel
medio
de colesterol
entre 1,03
y 1,15(mmol/l)
mmol/ln es
aproximación
será
precisa
siempre
sea superior
a 50.
/n =nHDL
0,086/100
= 0,00086
,
normal
con
= 1,09
mmol/l
y varianza
σque
x1 + x 2 + ... + x
1
aproximación
será
razonablemente
precisa
siempre
que
n
sea
superior
a
50.
=
x
muestra de tamaño n = 100 esté ~
comprendida entre 1,03 y 1,15 mmol/l puede n  x i =
n
del 95,4%, que coincide casi
con el resultado obtenido bajo la i =1
x perfectamente
→ N(1,09, 0,00086).
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del
calcularse
como la probabilidad de que la media de colesterol HDL en una muestra de
Así,
por ejemplo,
Ejemplo
4.12 La
media y la varianza del colesterol HDL en los controles del
aproximación
normal.
Así, pornejemplo,
la probabilidad
que1,03
la media
demmol/l
colesterol
en una
La
media
es
laHDL
medida
de tendencia
tamaño
= 100 esté
comprendida de
entre
y 1,15
puede
calcularse
como central más utiliza
estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema
2
2
σentre
=x0,086
Por el teorema
estudio EURAMIC son μ = 1,09 mmol/l
1,03 − 1y,09
−1,03
1,09y(mmol/l)
1,15
− 1.,09
muestra
de
tamaño
n
=
100
esté
comprendida
1,15
mmol/l
interpretación.
Corresponde
al “centro de gravedad” de l
≤
P
≤
≤
x
≤
1,15)
=
P(1,03

puede
Como
se
mostrará
en
los
siguientes
temas,
el
teorema
central
del
límite
central del límite, la distribución de
medias en0muestras
de
tamañoconstituye
n = 100 la
0,029
,029
0,029
 las
central del
límite, la distribución de las medias
en muestras
de tamaño
nestá
= 100
como
principal
limitación
es quetanto
muy influenciada por los
2
−
=
P(
2,05
≤
Z
≤
2,05)
basecalcularse
fundamental
del
proceso
de
inferencia
estadística,
dado
que
posibilita
será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ /n =la
2
1,09
mmol/l
yser
varianza
σreflejo
/n = de la tendencia central d
será aproximadamente normal
con
media−μ1 ==
=
2
Φ(2,05)
0,9596.
caso,
puede
no
un
fiel
2  1,como
construcción
de
intervalos
de
confianza
el
contraste
de
hipótesis
acerca
de la
,P 03 − 1,09 ≤ x − 1,09 ≤ 1,15 − 1,09 
0,086/100P(1,03
= 0,00086
(mmol/l)
x
≤
1,15)
=
≤
2
En0,086/100
el Ejemplo= 4.9
se comprobó
proporción
de muestras
de tamaño
,  0,029 que0,la
0,00086
(mmol/l)empíricamente
029
0,029

μ. medio de colesterol HDL entre 1,03
media
n = poblacional
100 con un nivel
y
1,15
mmol/l
es
del
95,4%,
que ejemplos so
Ejemplo 1.4 En este y en los sucesivos
coincide
casi perfectamente
con el
resultado obtenido
la aproximación
normal.
En el Ejemplo
4.9 se comprobó
empíricamente
que labajo
proporción
de muestras
de
= P(-2,05
≤ Z ≤ 2,05)
22
utilizarán los valores del colesterol
HDL obtenidos
4.3.4 Estimación de una proporción poblacional
Como
se mostrará
losunsiguientes
temas,
el teorema
central
límite
constituye
la22base
tamaño
n = 100en
con
nivel medio
de colesterol
HDL
entredel
1,03
y 1,15
mmol/l es
= 2estadística,
Φ(2,05) - 1dado
= 0,9596.
fundamental
del que
proceso
de inferencia
que
posibilita
tanto la
construcción
de
estudio
“European
on Antioxidants,
Myocard
Supongamos
el interés
del estudio
se centra en estimar
la proporción
π Study
de
intervalos
de
confianza
como
el
contraste
de
hipótesis
acerca
de
la
media
poblacional
μ.
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la
En el Ejemplo
4.9 sede
comprobó
empíricamente
que
la
proporción
decaracterística.
muestras de
thedeterminada
Breast“ (EURAMIC),
un En
estudio multicéntrico
individuos
o elementos
la población
que cumplen
una
aproximación normal.
4.3.4 tamaño
Estimación
decon
unaun
proporción
poblacional
n = 100
nivel
medio
colesterol
HDL
entre
1,03
yel1,15
es Europeos e Israel
entre
1991
y 1992
enmmol/l
ocho
tal caso, resulta
conveniente
definir
unade
variable
aleatoria
X
que
toma
valor
1 en países
los
Supongamos que el interés del estudio se centra en estimar la proporción π de individuos o
Como
se mostrará
en los siguientes
temas, el teorema
central del
límite constituye
la
del 95,4%,
que
coincide
casi
perfectamente
resultado
obtenido
bajo
lacaso,
individuos
presentan
dicha
característica
y con
0 enelquienes
no la
presentan.
media
elementos
de que
la población
que
cumplen
una determinada
característica.
En
talLa
resulta
conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan
base fundamental
del
proceso de inferencia estadística, dado que posibilita tanto la
aproximación
normal.
poblacional
de esta
aleatoria
es La media poblacional de esta variable
dicha
característica
y variable
0 en quienes
no discreta
la presentan.
aleatoria discreta es
construcción de intervalos de confianza como el contraste de hipótesis acerca de la
1
Como se mostrará en los siguientes temas,
el teorema central del límite constituye la
μ =  k P( X = k ) = π
media poblacional μ.
k =0
base fundamental del proceso de inferencia estadística, dado que posibilita tanto la
23
4.3.4 Estimación
de una proporción
construcción
de intervalos
de confianzapoblacional
como el contraste de hipótesis acerca dePastor-Barriuso
la
R.
Supongamos
que elμ.interés del estudio se centra en estimar la proporción π de
media
poblacional
55
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos
1
)
n - k individuos no la
presentan la característicaσde=interés
 (k −(xπi =) 1)P(yXlos= krestantes
Principios de muestreo y estimación
2
2
k =0
y
de la proporción
poblacional es la proporción
presentan (xi = 0), el estimador natural
2
2
yLa
su varianza
varianza muestral de p=viene
•
determinada
por
π
(1
--ππ)/n;
π
(1
π
)
+
(1
π
)
π
=
π
(1
). así, al aumentar el
su varianza
• La varianza muestral de p viene determinada por π(1 - π)/n; así, al aumentar el
muestral
1
tamaño muestral, las proporciones
muestrales estarán más próximas a la verdadera
2
Si se selecciona una muestra
n, en la cual k individuos
σ 2 = aleatoria
(
k
− π )simple
P( X =dek tamaño
)

tamaño muestral, las proporciones
muestrales
estarán
más próximas a la verdadera
n
k =0
k 1
proporción poblacional.
=x.
p =(xi == 1) 
x i2 restantes
y los
n - k individuos no la
presentan la característica de interés
2
proporción poblacional.= π (1 − πn) + n(1 i−=1π ) π = π (1− π ).
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales
elmuestra
estimador
naturalsimple
de la proporción
la proporción
presentan
(xi = 0),
Si
se
selecciona
una
aleatoria
de tamaño poblacional
n, en la cual es
k individuos
presentan
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales
A
partir
de
esta
notación,
es
evidente
que
una
proporción
muestral
es
un
caso
la característica
de interés
y aleatoria
los restantes
n –de
k tamaño
individuos
nolalacual
presentan
(xi = 0), el
tiende
aproximarse
amuestra
una
distribución
normal.
Esta
aproximación
es
i = 1)
Si se aselecciona
una(x
simple
n, en
k individuos
muestral
estimador
natural
de
la
proporción
poblacional
es
la
proporción
muestral
tiende
aproximarse
a una distribución
normal.
Esta aproximación
es
particular
de auna
media muestral
para una variable
dicotómica
con la codificación
arriba
π
(1
π
)
≥
5.
suficientemente
precisa
si
n
presentan la característica de interés (xi = 1) y los restantes n - k individuos no la
n
πp(1=límite
-kπ)=≥1puede
5. x i aplicarse
suficientemente
precisa
si ndel
indicada.
Así, el teorema
central
a la forma particular de esta
1 = x . poblacional
es la proporción
presentan (xi = 0), el estimador natural
n denlai =proporción
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de
variable X para obtener el siguiente resultado: la distribución muestral de una
muestral
Ejemplo
4.13 Enes
lasevidente
Figurasque
4.5(a),
y (c) se presentan
lasun
proporciones
de de una
A partir
de
esta notación,
una(b)
proporción
muestral es
caso particular
A partir deactuales
esta notación,
es muestras
evidente que
una proporción
es
caso
fumadores
en 1000
aleatorias
simples demuestral
tamaño
n =un10,
25 yel teorema
media
muestral
para
una
variable
dicotómica
con
la
codificación
arriba
indicada.
Así,
proporción p se aproxima, al aumentar el tamaño muestral, a una distribución normal
fumadores
actuales
en 1000
muestras
aleatorias
simples
de tamaño
n = 10,el25siguiente
y
central del
límite puede
aplicarse
a la forma
particular
de esta
variable
X para obtener
n
1 grupo
k variable
particular
de una media muestral
para
una
dicotómica
con
la codificación
arriba
100, respectivamente,
obtenidas
apuna
partir
del
control
del
estudio
EURAMIC,
resultado:
la
distribución
muestral
de
proporción
p
se
aproxima,
al
aumentar
el
tamaño
=
=
=
.
x
x
i

con media π y varianza π(1 - π)/n,
n
n
=
1
i
respectivamente,
obtenidas
a partir
grupo control
del estudio EURAMIC,
muestral,100,
a una
distribución normal
con media
π ydel
varianza
π(1 – π)/n,
indicada.
Así,
el teorema
del límite
puede
a la forma
particular
= 0,37. Para
cualquier
tamañoden esta
donde la
proporción
decentral
fumadores
actuales
es πaplicarse
(1 −es
)π= 0,37. Para
π una
πproporción
cualquier
la
de fumadores
~ N actuales
Adonde
partir
deproporción
esta notación,
es evidente
que
muestral
es una
un tamaño
caso n
π
p
→
,
.

variable
X
para
obtener
el
siguiente
resultado:
la
distribución
muestral
de
de la muestra, las proporciones muestrales están
distribuidas
alrededor
de
la
n


de
la
muestra,
las
proporciones
muestrales
están
distribuidas
alrededor
de la arriba
particular pdeseuna
media
muestral
una
variable
dicotómica
con
la codificación
aproxima,
al aumentar
tamaño
an,una
distribución
normal
En proporción
consecuencia,
pueden
extraerse
laspara
siguientes
propiedades
una
proporción
muestral:
proporción poblacional
(ausencia
de el
sesgo).
Almuestral,
aumentarde
la distribución
En
consecuencia,
pueden extraerse
las siguientes
propiedades
una
proporción
yyindicada.
La
proporción
muestral
pcentral
es
undel
estimador
insesgado
de laa de
proporción
poblacional
π; es
(ausencia
de sesgo).
Al
aumentar
la distribución
Así,
elpoblacional
teorema
límite
puede
aplicarse
lan,forma
particular
de esta
π
y
varianza
π
(1
π
)/n,
con
media
muestral
de=laπ.proporción de fumadores actuales presenta una menor variabilidad
decir,
E(p)
muestral:
muestral
deobtener
la proporción
de fumadores
presenta
una
variabilidad
X para
el psiguiente
resultado:actuales
lapor
distribución
de una
yyvariable
La varianza
muestral
de
viene
determinada
π(1
– π)/n;muestral
así, menor
al aumentar
el tamaño
π
y se aproxima a una distribución normal
centrada
en
la
proporción
poblacional
(
1
−
)
π
π


~
muestral,
las proporciones muestrales
más .próximas
a la verdadera
proporción
• La proporción muestral p es pun
insesgado
de la proporción
poblacional
→estimador
N estarán
,
π
π
y se aproxima
a una distribución
centrada
poblacional
proporción
p se aproxima,
al aumentarnormal
el
una distribución
normal
n muestral,
poblacional.
 tamaño
 en la aproporción
= 0,37.
π
; es decir, E(p)
= πmuestral,
.
yy Al aumentar
tamaño
la distribución de las proporciones muestrales tiende a
= 0,37.π yelvarianza
π(1 - π)/n,
con media
aproximarse
a
una
distribución
normal.
Esta aproximación
es una
suficientemente
En consecuencia, pueden extraerse las siguientes
propiedades de
proporción precisa si
nπ(1 – π) ≥ 5.
[Figura 4.5 ~aproximadamente
 π (1 − π )  aquí]
muestral:
p → N π ,
.
4.5(a),
las proporciones de fumadores
Ejemplo 4.13 En las Figuras
[Figura
4.5(b)
aproximadamente
aquí]
n presentan
 y (c) se

actuales
en 1000 muestras
simples deinsesgado
tamaño nde
= 10,
25 y 100, respectivamente,
• La proporción
muestralaleatorias
p es un estimador
la proporción
poblacional
A partir
de las
propiedades
anteriores
seestudio
deduceEURAMIC,
que, para una
muestra
aleatoriadedefumadores
obtenidas
a partir
del grupo
control del
donde
la proporción
En
pueden
extraerse
las siguientes
propiedades
demuestra
una proporción
A consecuencia,
partir
deπlas
propiedades
anteriores
se deduce
que, paralasuna
aleatoria
de 24
actuales
= 0,37.
Para
tamaño
n de la muestra,
proporciones
muestrales
están
π; es es
decir,
E(p)
= π.cualquier
tamañodistribuidas
n, la proporción
muestral
p
es
un
estimador
insesgado
de
la
proporción
alrededor de la proporción poblacional (ausencia de sesgo). Al aumentar n, la
muestral:
tamaño
n, la proporción
muestral
p es un
de la proporción
distribución
muestral de
la proporción
deestimador
fumadoresinsesgado
actuales presenta
una menor variabilidad
π
y
su
error
estándar
viene
determinado
por
la
raíz
cuadrada
de la varianza
poblacional
y se aproxima a una distribución normal centrada en la proporción poblacional
π = 0,37.
•
La
proporción
muestral
p
es
un
estimador
insesgado
de
la
proporción
poblacional
poblacional π y su error estándar viene determinado por la raíz cuadrada de la varianza
muestral
dede
p, las propiedades anteriores se deduce que, para una muestra aleatoria de tamaño n,
A partir
esmuestral
decir, E(p)
muestralπ;de
p,
la proporción
p es=unπ.estimador insesgado de la proporción poblacional π y su error
estándar viene determinado por la raíz cuadrada deπ la
varianza
muestral de p,
π)
(1 −
24
,
SE(p) = var( p) =
πn (1 − π )
,
SE( p) = var( p) =
n
que
que puede
puede estimarse
estimarse aa partir
partir de la propia muestra mediante p (1 − p ) / n ..
que puede estimarse a partir de la propia muestra mediante p (1 − p ) / n .
56
Pastor-Barriuso R.
25 24
25
Estimación en el muestreo aleatorio simple
30
20
10
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
(a) Proporción de fumadores actuales en muestras de tamaño 10
Frecuencia relativa (%)
30
20
10
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
(b) Proporción de fumadores actuales en muestras de tamaño 25
30
20
10
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
(c) Proporción de fumadores actuales en muestras de tamaño 100
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del
Figura 4.5
Figura 4.5 Distribución muestral de la proporción de fumadores actuales en 1000
muestras aleatorias
simples de tamaño n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La
Ejemplo
4.14 discontinuo
A partir
una muestra
simple
de n =de
100
controles
del π = 0,37.
estudioenEURAMIC,
sede
obtuvieron
k a=laaleatoria
35
fumadores
actuales.
La
estimación
línea vertical
trazo
corresponde
proporción
poblacional
fumadores
actuales
estudio
se obtuvieron
k = 35
fumadores
puntual EURAMIC,
de la proporción
de fumadores
actuales
es actuales. La estimación
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
se obtuvieron
k = 35 fumadores
puntual
de la proporción
de fumadores
actuales esactuales. La estimación puntual de la
k 35
proporción de fumadores actuales
= 0,35,
p =es =
n 100
k 35
p= =
= 0,35,
n 100
y su error estándar es
y su error estándar es
y su error estándar es
p (1 − p)
0,35(1 − 0,35)
SE(p) =
= 0,05,
=
n
100
0,35(1 − 0,35)
p (1 − p)
(p) =promedio que=cabría esperar entre
= todas
0,05, las posibles muestras de
que corresponde alSE
error
100
n
tamaño
100 de laalpoblación
a estudio.
que
corresponde
error promedio
que cabría esperar entre todas las posibles
que
corresponde
al error
que cabría
esperar entre todas las posibles
muestras
de tamaño
100 promedio
de la población
a estudio.
Pastor-Barriuso R.
muestras de tamaño 100 de la población a estudio.
En este apartado se ha discutido la estimación puntual de una proporción poblacional
57
Principios de muestreo y estimación
En este apartado se ha discutido la estimación puntual de una proporción poblacional π y su
correspondiente error estándar. No obstante, no se ha hecho un uso práctico de la aproximación
normal a la distribución muestral de p. Esta aproximación se retomará más adelante para obtener
intervalos de confianza y pruebas de hipótesis sobre la proporción poblacional π (véase Tema 7).
4.4
58
REFERENCIAS
1.
Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
2.
Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
3.
Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
4.
Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
5.
Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6.
Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
7.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
8.
Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
9.
Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
10.
Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.
Pastor-Barriuso R.
TEMA 5
INFERENCIA ESTADÍSTICA
5.1
INTRODUCCIÓN
La teoría del muestreo aporta diversos métodos formales para seleccionar muestras a partir de
una determinada población. La información obtenida de dichas muestras puede resumirse
utilizando técnicas de estadística descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que ésta interesa por su capacidad para aportar
información con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el interés radica en seleccionar una muestra representativa de la
población de referencia, o dicho más concretamente, la muestra ha de presentar el mismo grado
de diversidad que la población respecto al parámetro o característica objeto de estudio. Las
técnicas de muestreo probabilístico descritas en el tema anterior facilitan muestras que serán
muy probablemente representativas de la población si el tamaño muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrán inferirse a toda población con un
grado razonable de certidumbre.
Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene información de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la información que
aporta sobre toda la población. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.
En los estudios epidemiológicos analíticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseño es asegurar
la comparabilidad o semejanza de los grupos de estudio, más que la representatividad poblacional
de la muestra. En los ensayos clínicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algún mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). Así, si el tamaño muestral es grande, las características basales de los sujetos asignados a
los distintos grupos serán muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrán atribuirse al tratamiento objeto de estudio.
Ejemplo 5.2 El primer ensayo clínico publicado sobre el papel de la aspirina en la
prevención primaria de enfermedades cardiovasculares se realizó en médicos americanos
participantes en el “Physicians’ Health Study”, seleccionados además por otras
características de salud. En este caso, los sujetos a estudio no son representativos de la
población a la que se aplicarán posteriormente los resultados (población general de
hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se
garantizó la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban
mediante la asignación aleatoria del tratamiento y el uso de la técnica del doble ciego
(tanto el investigador como el paciente desconocían el tratamiento asignado).
La estadística inferencial aporta las técnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parámetro a partir de la evaluación de una única muestra.
Pastor-Barriuso R.
59
Inferencia estadística
Como se discutió en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarán sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de selección muestral. Por ello, resulta necesario disponer no sólo de una
estimación puntual, sino también de un intervalo de confianza, que facilite un rango de valores
verosímiles para el parámetro poblacional, así como de una prueba de significación estadística,
que permita determinar el grado de compatibilidad de los datos muestrales con una hipótesis
predeterminada. En este tema, se revisan los fundamentos y la interpretación de las técnicas
estadísticas de inferencia: la estimación puntual, el intervalo de confianza y el contraste de
hipótesis. Para simplificar la exposición, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la población de referencia es de tamaño muy superior a la muestra.
5.2
ESTIMACIÓN PUNTUAL
Una forma natural de estimar muchos parámetros poblacionales consiste en utilizar el estadístico
muestral correspondiente. Así, la media muestral es un estimador
puntualDE
de laTENDENCIA
media poblacional
1.2 MEDIDAS
CENTRAL
yprincipales
la proporción
de
casos
de
una
enfermedad
en
la
muestra
es
un
estimador
puntual
de
la
1.2ha
MEDIDAS
DEunTENDENCIA
CENTRAL
propiedades estadísticas que
de satisfacer
buen estimador
muestral
probabilidad de tener la enfermedad en la población. No obstante, para un determinado
Las estimadores
medidas de tendencia
central
informan acerca de c
parámetro
poblacional,
pueden contemplarse distintos
alternativos.
Algunos
cabe destacar
las siguientes:
Las
medidas
de
tendencia
central
informan
acerca
de
estimadores de la media poblacional distintos de la media muestral podrían ser, por ejemplo,cuál
la es el valor m
de unadedeterminada
variable
o,
dicho de forma equival
mediana,
la media
50%Un
central
de laes
muestra
o la si
media
valores
máximo
y mínimo.
• Ausencia
de del
sesgo.
estimador
insesgado
suvariable
valorlos
medio
sobre
todas
las
de
una
determinada
o,
dicho
de
forma
equivalente,
En este apartado se presentan algunos criterios estadísticos que justifican la elección de un estos estima
alrededor de qué valor se agrupan los datos observados
determinado
a otras
posibles alternativas.
posiblesestimador
muestrasfrente
de tamaño
n coincide
parámetro
La observados. Las medidas de
alrededorcon
deelqué
valor se poblacional.
agrupan los datos
Los méritos de un estimador no se juzgan por la central
estimación
en una
muestra
de la resultante
muestra sirven
tanto
para resumir los resu
insesgadez
de
un
estimador
es
una
propiedad
deseable
ya
que
sus
estimaciones
no
concreta, sino por la distribución de todos
losde
posibles
valores
o estimaciones
a que pueda
dar
central
la muestra
sirven
tanto para resumir
los resultados
observado
lugar; esto es, por las propiedades de su distribución muestral.
Entre
las
principales
propiedades
realizar inferencias acerca de los parámetros poblacion
diferirán
delbuen
parámetro
poblacional.
estadísticas
quesistemáticamente
ha de satisfacer un
estimador
muestral
cabede
destacar
las siguientes:
realizar
inferencias
acerca
los parámetros
poblacionales correspondi
se sobre
describen
yy Ausencia de sesgo. Un estimador es insesgado si continuación
su valor medio
todaslos
lasprincipales
posibles estimadores d
continuación
se
describen
los
principales
estimadores
de la tendencia ce
muestras
de Como
tamañosenprobó
coincide
parámetro
poblacional.
La insesgadez
Ejemplo 5.3
en el con
temaelanterior,
la media
y la proporción
muestralde un
variable. no diferirán sistemáticamente
estimador es una propiedad deseable ya que sus estimaciones
variable.
del
poblacional.
sonparámetro
estimadores
insesgados de la media y la proporción poblacional,
1.2.1 Media aritmética
Ejemplo
5.3 Como
en1.2.1
el= tema
la la
media
y la proporción
muestral son
aritmética
respectivamente,
E( x se
) =probó
μ y E(p)
πMedia
. Sinanterior,
embargo,
varianza
muestral definida
estimadores insesgados de la media y la proporción
respectivamente,
E( x ), =se define como l
La poblacional,
media aritmética,
denotada por
2
2
μpor
y E(p)
la varianza
muestral
definida
por S(x
), /n
es
un estimador
La
media
aritmética,
denotada
por
seque
define
como la suma de cada u
i – x ya
Σ(xi -= xπ.) Sin
/n esembargo,
un estimador
sesgado
de
la varianza
poblacional,
valores muestrales dividida por el número de observac
sesgado de la varianza poblacional, ya que
valores muestrales dividida por el número de observaciones realizadas.
2
n
n
n
n el2 tamaño
1 por
1
1 n 2
 1 muestral
 y por xi el valor observado pa
2
2
E   ( x i − x )  = E  por
E ( x i )y−por
E x el
 xi − x  = nmuestral

 xi  observado para el sujeto i-ésim
i =1
 n i =1

 n i =1 n el tamaño
 ni i =1valor
la media vendría dada por
n


1 n la media
1
 Edada
( x i2 )por
=  E ( x i2 ) − vendría
+ 2  E ( x i ) E ( x j ) 
2 
n i =1
n  i =1
1≤ i < j ≤ n

x + x 2 + ...
1 n
=
x
xi = 1
n
n

+ xn
x + x 2 n+ ...
2
n −1
1
n
i =1
= 2  E ( x i2 ) − 2  E ( x i ) E ( xxj =)  x i = 1
.
n i =1
n
n i =1
n 1≤i < j ≤ n
n −1 2
n − 1 La
n −1
(σ + μ 2 ) −
μ 2 =media σes2la
; medida de tendencia central más util
n
n tendencia central más utilizada y de más fá
La media es nla medida de
interpretación. Corresponde al “centro de gravedad” de
interpretación. Corresponde al “centro de gravedad” de los datos de la m
es decir, este estadístico tiende a infraestimar la varianza poblacional σ 2 por un
principal limitación es que está muy influenciada por l
Pastor-Barriuso R.
principal limitación es que está muy influenciada por los valores extrem
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribució
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
=
60
es decir, este estadístico tiende a infraestimar la varianza poblacional σ por un
forma, seque
tendrá
una mayor
confianza en
que
laloestimación
resultante
de la
también
las distintas
estimaciones
difieran
menos se
posible
de dicho
continuación
describen
los
principales estimadores de la t
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
Estimación puntual
DE
TENDENCIA
CENTRAL
muestra finalmente
estará
próxima
al parámetro
parámetro,
es decir, seleccionada
que1.2
la MEDIDAS
varianza
muestral
del estimador
seapoblacional.
mínima. DePor
esta
variable.
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
los distintos
estimadores
insesgados
un determinado
parámetro,
es es el valor más represe
forma,
se tendrá
una mayor
confianza
que la de
estimación
resultante
de2 lade cuál
Las
medidas
deen
tendencia
central
informan
acerca
2
es decir, por
estesestadístico
la varianza
poblacional
σ por un factor
de
1.2.1
Media
aritmética
= Σ(xi - xtiende
)2/(n –a1)infraestimar
como estimador
insesgado
de la varianza
definida
(n
–
1)/n.
Notar
que
este
sesgo
será
tanto
mayor
cuanto
menor
sea
el
tamaño
muestral.
En
conveniente
seleccionar
que
presente
una menor
varianza
(o, de
forma
muestra
finalmente
seleccionada
estará
próxima
al parámetro
poblacional.
Por 2 estos estimadores ind
deaquel
una
determinada
variable
dicho
de
forma
consecuencia, es preferible
utilizar
la varianza
muestral
definida
por
s2 =equivalente,
S(x
– 1) como la sum
La
mediao,aritmética,
denotada
por
se define
i – x ), /(n
poblacional,
como
estimador
insesgado
de
la
varianza
poblacional,
equivalente,
menor alrededor
error
estándar).
general,
puede
demostrase
que, si laesLas medidas de tendenc
ello,
entre losun
distintos
estimadores
un
determinado
parámetro,
de insesgados
quéEn
valor
sedeagrupan
los
datos
observados.
valores
muestrales
dividida
por el número de observaciones
 1 n
2
2
2
x. y la
varianza
muestral observados como p
distribución seleccionar
poblacional
subyacente
es normal,
la
E(s
) = que
E lapresente
x )media
σpara
 =varianza
conveniente
aquel
(o,
de los
forma
 ( xuna
i − menor
central
de
muestra
sirven
tanto
resumir
muestral
y porresultados
xi el valor observado para el s
 n − 1 i =1 por n el tamaño

los estimadores
insesgados
delos
μ yparámetros
σ 2 con menor
equivalente,
un menor error
estándar).
En
general,
puede
demostrase
que,varianza.
si la
s2 son respectivamente
realizar
inferencias
acerca
de
poblacionales
correspondientes.
A
la media
vendría
dada por
yy Mínima varianza. Además de la insesgadez
de un
estimador,
que
garantiza que
las
estimaciones
estarán centradas
alrededor
del parámetro
poblacional,
interesa
también que
x y la
varianza
muestral
distribución
subyacente
es normal,
media
π con
De la mismapoblacional
forma, la continuación
proporción
muestral
p eslaellos
estimador
insesgado
de
describen
principales
estimadores
de la que
tendencia
central de
las distintas estimaciones
difieran lo se
menos
posible de
dicho parámetro;
es decir,
la
x1 + x 2 + ... + x n
1 n
varianza
muestral del estimador sea mínima. De esta forma, se2 tendrá una mayor
confianza
.
= 
x4i =
2
son respectivamente
los estimadores insesgados de μ y σ con menor xvarianza.
smenor
error estándar. variable.
n
n
i =1
en que la estimación resultante de la muestra finalmente seleccionada esté próxima
al
parámetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporción muestral p es el estimador insesgado de π con
determinado
es conveniente
seleccionar
aquel
quelapresente
una
menor
1.2.1
Media aritmética
La media
medida
de es
tendencia
central más utilizada
Ejemplo 5.4parámetro,
Para cualquier
distribución
poblacional,
la es
media
muestral
un varianza
(o, de forma equivalente, un menor error estándar). En general, puede demostrarse que, si
menor error estándar.
la define
varianza
s2 son
laestimador
distribución
poblacional
subyacente
es normal,
media
denotada
por
x ,yse
como
la suma
de cada uno
interpretación.
Corresponde
al muestral
“centro
de
gravedad”
dede
loslos
d
insesgado
deLa
la media
media aritmética,
poblacional
y sulaerror
estándar
es
2
respectivamente los estimadores insesgados de μ y σ con menor varianza. De la misma
valores
dividida
por
número
observaciones
realizadas.por
Silos
denota
forma,
la proporción
muestral
pmuestrales
es el estimador
insesgado
de π muestral
con
menor
principal
limitación
es de
que
está
muy estándar.
influenciada
val
Ejemplo
5.4 Para cualquier
distribución
poblacional,
laelmedia
es error
un
σ
.
SE( x ) =
valor
observado
para
sujeto i-ésimo,
= 1,
por
n
el
tamaño
muestral
por xla
n
i el
Ejemplo
5.4
Para
cualquier
distribución
poblacional,
media
es un
caso,
no
ser
unmuestral
fiel reflejo
deestimador
laeltendencia
centrali de
la
estimador insesgado de la media poblacional y suypuede
error
estándar
es
insesgado de la media poblacional y su error estándar es
la media vendría dada por
En el caso de que la distribución subyacente σsea normal, puede probarse que la
SE( x ) =
. Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional
n
x +yxque
mediana también es un estimador insesgado de
su+ x n
2 + ...
utilizarán
losx ivalores
colesterol
. HDL obtenidos en
= 1 del
x= 
En el caso de que la distribución subyacente sea normal,n puede
probarse nque la mediana
i =1
error
estándar
es
aproximadamente
En
el caso
la distribución
subyacente
sea normal,
puedey probarse
que la
también
esde
unque
estimador
insesgado
de la media
poblacional
que Study
su error
es Myocardial
estudio
“European
on estándar
Antioxidants,
aproximadamente
La media
es la medida
tendencia
centralymás
y de más fácil
mediana también es un estimador
insesgado
de lade
media
poblacional
que utilizada
su
σ Breast“ (EURAMIC), un estudio multicéntrico de c
the
SE(mediana) ≅ 1,25
.
interpretación. Corresponde nal “centro de gravedad” de los datos de la muestra. S
error estándar es aproximadamente
entre 1991 y 1992 en ocho países Europeos e Israel par
Así, aunque ambos estimadores son insesgados, el error estándar de la mediana es un 25%
principal
es que
está muy
influenciada
porestimaciones
los valores extremos y, en
mayor que el de la media
muestrallimitación
y, por tanto,
la mediana
tenderá
a facilitar
σ
.
≅ 1,25
menos precisas que la media SE(mediana)
muestral.
caso, puede no ser un fiel reflejo
de la tendencia central de la distribución.
n
yy Consistencia. Las propiedades de insesgadez y mínima varianza se refieren a la
distribución muestral del estimador para un tamaño n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice
5 que
un estimador es consistente si,utilizarán
al aumentar
tamañodel
decolesterol
la muestra,
la probabilidad
que
loselvalores
HDL
obtenidos endelos
10 primeros suje
el estimador difiera del verdadero parámetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
básico
paraon
unAntioxidants,
buen estimador
ya que bastará
estudio “European
Study
Myocardial
Infarction and Canc
con aumentar el tamaño muestral para obtener estimaciones arbitrariamente próximas
al
5
verdadero parámetro. Por supuesto,
la media,
la varianza
y la proporción
muestral
son y controles rea
the Breast“
(EURAMIC),
un estudio
multicéntrico
de casos
estimadores consistentes de sus respectivos parámetros poblacionales.
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto d
Ejemplo 5.5 En el Ejemplo 4.9 se evaluó empíricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamaño n = 10, 25 y 100 obtenidas a partir
de los controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
Pastor-Barriuso R.
61
Inferencia estadística
es μ = 1,09 mmol/l. La proporción de muestras con niveles medios de colesterol HDL
próximos a μ = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aumentó
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado
corrobora empíricamente la consistencia de la media muestral como estimador de la
media poblacional: la probabilidad de obtener estimaciones próximas al verdadero nivel
medio aumenta progresivamente conforme aumenta el tamaño muestral.
En los problemas de estimación más simples, como es el caso de una media o una proporción
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas más complejos, como por ejemplo en la estimación de
parámetros en modelos de regresión, la elección de un estimador razonable no es tan directa. En
general, existen diversos métodos formales para obtener estimadores con buenas propiedades
estadísticas, entre los que destacan el método de máxima verosimilitud, el método de mínimos
cuadrados y el método de los momentos. Los métodos de mínimos cuadrados y máxima
verosimilitud se presentarán en el contexto particular de los modelos de regresión lineal (Temas
10 y 11) y logística (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimación y la evaluación de los estimadores resultantes pueden consultarse en los
textos de estadística matemática referenciados al final del tema.
TENDENCIA CENTRAL
5.3 ESTIMACIÓN POR INTERVALO
dencia central informan acerca de cuál es el valor más representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirán
del equivalente,
parámetro poblacional
y, en consecuencia,
variable o, dicho
de forma
estos estimadores
indican quedará un margen de incertidumbre que se
expresa en términos del error estándar del estimador. Así, resulta natural la pretensión de disponer de
unadatos
medida
del parámetro
poblacional
que incorpore tanto la estimación puntual como su error
or se agrupan los
observados.
Las
5.3.1
Distribución
t demedidas
Studentde tendencia
estándar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrará
ellos
verdadero
del
conde
unconfianza
cierto grado
confianza.
a sirven tanto para
resumir
resultados
comopoblacional
para
5.3.1
Distribución
tvalor
deobservados
Student
El
método
más
extendido
paraparámetro
el cálculo
de intervalos
se de
basa
en las En este
apartado se describe detenidamente el procedimiento para la construcción de un intervalo de
confianza
para
lade
media
poblacional.
principios
básicos del
cálculo
e interpretación
delímite
intervalos
acerca de los parámetros
poblacionales
correspondientes.
Adel
El
método
más
extendido
para muestral
elLos
cálculo
de estimador.
intervalos
de
confianza
secentral
basa endel
las
propiedades
la distribución
Por
el teorema
de confianza para otros parámetros son similares y se discutirán en los siguientes temas.
criben los principales
estimadores
dedistribución
la
tendencia
centralaleatoria
de
propiedades
la
muestral
deluna
estimador.
Porμelyteorema
varianzacentral
σ 2, la del límite
sabemos
que,depara
cualquier
variable
con media
5.3.1 Distribución t de Student
σ 2,media
la
sabemos
que,depara
variable aleatoria
con media μ y varianza
x es aproximadamente
normal con
μy
distribución
las cualquier
medias muestrales
El método más extendido para el cálculo de intervalos de confianza se basa en las propiedades
es aproximadamente
consabemos
media μ que,
y para
desimuestral
las
de distribución
la
distribución
delmuestrales
estimador.
Por
el teorema central
del
tica
σ 2/n
el medias
tamaño
muestral
esxsuficientemente
grande;normal
es límite
decir,
varianza
2
cualquier variable aleatoria con media μ y varianza σ , la distribución de las medias muestrales
2
, denotada por x es
, varianza
seaproximadamente
defineσcomo
decon
cada
uno es
de
los
normal
media
μ ysuficientemente
varianza σ2/n si elgrande;
tamañoes
muestral
/n silaelsuma
tamaño
muestral
decir, es suficientemente
2


σ
~ N  μ,
grande; es decir,

x→

ividida por el número de observaciones realizadas. Si denotamos
n2 

~ N  μ , σ 
x→
 n, n 
estral y por xi el valor observado para el sujeto i-ésimo, i = 1, ...,


o, de forma equivalente, aplicando la estandarización de una distribución normal
o, de forma equivalente, aplicando la estandarización de una distribución normal
da por
o, de forma equivalente, aplicando la estandarización de una distribución normal
x−μ ~
→ N (0, 1) .
σ
x1 + x 2 + ... + x n
1 n
.
x =  xi =
x−μ
n ~
→ N (0, 1) .
n i =1
n
σ
n
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media
edida de tendencia central más utilizada y de más fácil
62 Pastor-Barriuso
R.
Esta
cantidad
depende
de dos
media
poblacional
μ,estandarizada
que es el parámetro
objeto
deparámetros
inferencia, desconocidos:
y la desviaciónlatípica
esponde al “centro de gravedad” de los datos de la muestra. Su
poblacional
denecesario
inferencia,
y laconocer
desviación
típica
σ,, que
que es
es el
unparámetro
parámetroobjeto
auxiliar
para
el error
estándar en
poblacional μ
es que está muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor
Estimación por intervalo
t de Student determinan su dispersión: al aumentar los grados de
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribuciónt de Student se aproxima a una
a sude
vez
unparámetros
error de muestreo,
el estadístico
( xμ,-que
de σ que conlleva
Estaestimador
cantidad estandarizada
depende
dos
desconocidos:
la media resultante
poblacional
mal estandarizada.
menor
seade
el inferencia,
tamaño muestral
mayor será
es elCuanto
parámetro
objeto
y la n,
desviación
típica poblacional σ, que es un parámetro
auxiliar
para conocer
el error
estándar en
la estimación
de μ.
entonces
lógico
μ)/(s/necesario
n ) presentará
una mayor
imprecisión.
Puede
probarse que
la Parece
distribución
de este
t
de
sustituir en la expresión anterior el valor desconocido de σ por la desviación típica muestral s.
Sinestadístico
embargo, ya
como
sLa
esnormal,
un estimador
deStudent
σ que aproximadamente
conlleva
a su vez una
un
error
dealrededor
muestreo,deel0 y de aspecto
no será
sino tque
seguirá
distribución
distribución
de
es una distribución
simétrica
á una mayo estadístico resultante (x − )/(s/ n ) presentará una mayor imprecisión. Puede probarse que la
distribución
de este
ya
normal,
sino que
seguirá por
aproximadamente
una
conocida como
tparecido
deestadístico
Student
con
nno
- distribución
1será
grados
de libertad
y denotada
tn-1,
al de
una
normal
estandarizada,
aunque
menos apuntada
en el
como
t de Student
con n – 1 grados de libertad y denotada por tn–1,
ral es grande,s distribución
facilitará unconocida
estimación
precisa
deσ
centro y con más probabilidad
x − μ ~ en los extremos (Figura 5.1). Los grados de libertad de
t n −1 .
icho estadístico será aproximadamente normal. En la Tabla 5→del
s
una distribución t de Student
n determinan su dispersión: al aumentar los grados de
entan los percentiles de la distribuciónt de Student para distintos
disminuye
la variabilidad
y la alrededor
distribución
Student
separecido
aproxima a una
La distribución tlibertad,
de Student
es una distribución
simétrica
det0dey de
aspecto
ad.
al de una distribución normal estandarizada, aunque menos apuntada en el centro y con más
normal
estandarizada.
sea el tamaño
n, mayor será
probabilidad en los distribución
extremos (Figura
5.1).
Los grados de Cuanto
libertad menor
de una distribución
t demuestral
Student
determinan su dispersión: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura
5.1 aproximadamente
aquí]
distribución
t de Student se aproxima
a una distribución normal estandarizada. Cuanto menor8sea t de
el tamaño muestral n, mayor será el error de la desviación típica muestral s y, en consecuencia,
la distribución t de Student
Student otorgará
otorgará una
unamayor
mayo dispersión al estadístico (x − )/(s/ n ). Por el
contrario,
si
el
tamaño
muestral
es
grande,
s facilitará
6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5
en unauna estimación precisa de σ, de tal forma
que la distribuciónelde
dichomuestral
estadístico
será aproximadamente
normal. En
la Tabla
tamaño
es grande,
s facilitará un estimación
precisa
deσ 5 del
Apéndice
se
presentan
los
percentiles
de
la
distribución
t
de
Student
para
distintos
grados de
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
libertad.
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6 Apéndice
De la Tabla
5 del Apéndice
se obtiene
que el percentil
97,5 en
unadistintos
se presentan
los percentiles
de la distribución
t de Student
para
t decoincide
Studentcon
conel2,correspondiente
5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
nes simétricas en 0, eldistribución
percentil 2,5
4,303, t5;0,975 grados
= 2,571,
t
=
2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
de libertad.
10;0,975
simétricas
0, el=percentil
2,5 coincide
con
el correspondiente percentil 97,5 con signo
-4,303, t5;0,025
= -2,571,
t10;0,025
7,5 con signo opuesto;
es decir, en
t2;0,025
opuesto; es decir, t2;0,025 = – 4,303, t5;0,025 = – 2,571, t10;0,025 = – 2,228 y t30;0,025 = – 2,042. Por
5.1 con
aproximadamente
aquí] de libertad
tanto, elel95%
central dedelaladistribución
t [Figura
de Student
2, 5, 10 y 30 grados
=
-2,042.
Por
95%
tdistribución
30;0,025
simétricatanto,
alrededor
de central
0 y de aspectodistribuciónt de
está comprendido entre ± 4,303, ± 2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede
observarse
que
la comprendido
dispersión
la distribución
nl estandarizada,
2, 5, 10 y 30 grados
demenos
libertad
está
± 4,303, ± t de Student disminuye al aumentar los
aunque
apuntada
en el deentre
grados de libertad, aproximándose a una distribución normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una
valores
entreAsí,
±de1,96,
Ejemplo
228 y ± 2,042,
respectivamente.
puede
observarse
que la
extremos
(Figura
5.1).
Los grados
libertad
de 3.11).
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
t
de
Student
disminuye
al aumentar
losmedia
gradospoblacional
de
an la
sudistribución
dispersión:
al
aumentar
los
grados
de
5.3.2 Intervalo de confianza
para una
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribuciónt de
Student
una
A partir
de se
losaproxima
resultadosa anteriores
puede construirse un intervalo de confianza para la media
poblacional. En general, la
estimación
intervaloenlleva
de
distribucionespor
simétricas
0, elasociada
percentiluna
2,5probabilidad
coincide conoelnivel
correspondiente
uanto menor sea
el tamañodenotada
muestral
n,en
mayor
será porcentuales por 100(1 – α)%, que indica la cobertura del
confianza,
términos
parámetro poblacional. Aunque
en97,5
la práctica
se utilizan
exclusivamente
los intervalos
t5;0,025 = de
-2,571, t10;0,025
percentil
con signo
opuesto;
es decir,
t2;0,025 = -4,303,
9 casi
t de nos referiremos aquí de forma genérica al intervalo de confianza
confianza al 95% (α = 0,05),
= -2,042. la
Por
tanto, el 95%
distribución
t de
= -2,228
y t30;0,025Utilizando
al 100(1 – α)% para la media
poblacional.
aproximación
t decentral
Studentdeallaestadístico
(x − )/(s/ n ), se sigue que hay una probabilidad 1 – α de que dicho estadístico esté
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre± 4,303, ±
ará un estimación precisa deσ
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersión de la distribución t de Student disminuye al aumentar los grados de
de la distribuciónt de Student para distintos
Pastor-Barriuso R. 63
libertad, aproximándose a una distribución normal estandarizada (95% de los
Inferencia estadística
valores
entre ± 1,96, Ejemplo 3.11).
libertad, aproximándose a una distribución normal estandarizada (95% de los
5.3.2 Intervalo de confianza para una media
f(x) poblacional
valores entre ± 1,96, Ejemplo 3.11).
A partir de los resultados anteriores puede construirse un intervalo de confianza para la
N(0, 1)
t
media
poblacional.
En general,para
la estimación
por
intervalo lleva asociada una 30
5.3.2 Intervalo
de confianza
una media
poblacional
t10
t5
nivel de confianza
, denotada
en términos
por 100(1
- α)%,
probabilidad
A partir de loso resultados
anteriores
puede construirse
un porcentuales
intervalo de confianza
la
t2 para
que indica
la cobertura
del parámetro
poblacional.
Aunque lleva
en la asociada
práctica se
utilizan casi
media
poblacional.
En general,
la estimación
por intervalo
una
nos referiremos
aquí
exclusivamente
los intervalos
de confianza
95%
(α = 0,05),
de confianza
, denotadaalen
términos
porcentuales
por 100(1
- αde
)%,
probabilidad
o nivel
α)% para
poblacional.
forma
genérica
al intervalo
de confianza
al 100(1 - Aunque
que
indica
la cobertura
del parámetro
poblacional.
enlalamedia
práctica
se utilizan casi
nos nreferiremos
de
exclusivamente
los intervalos
deStudent
confianza
al 95% (α (=x0,05),
- μ)/(s/
), se sigue aquí
que hay
Utilizando
la aproximación
t de
al estadístico
)% para la media
forma
genérica al1intervalo
de dicho
confianza
al 100(1
- αcomprendido
estadístico
esté
entrepoblacional.
los percentiles
una
probabilidad
- α de que
α/2 y 1 - α/2
una distribución
t de Student
con n – 1( xgrados
de libertad,
denotados
- μ)/(s/
n ), se sigue
que hay
Utilizando
la de
aproximación
t de Student
al estadístico
-3
-2
-1
0
1
2
3
y tn-1,1esto es,x esté comprendido entre los percentiles
respectivamente
α/2;estadístico
dicho
una
probabilidadpor
1 - tαn-1,deα/2que
Figura 5.1 Función de densidad
de la distribución
t de Student con
2, 5, 10 y 30 grados de libertad,
funFiguray 5.1
1.2 MEDIDAS
DE TENDENCIA
CENTRAL
ción de densidad normal estandarizada.
α/2 y 1 - α/2 de una distribución
t de Student con n – 1 grados de libertad, denotados




x − μ central informan
Las medidas
de
tendencia
acerca de cuál es el valor más representativ
P t −1α/2
< t una
,α / 2 y<1 – α/2 de
n −1,1−α
/ 2  = 1 − α .t de Student con n – 1 grados
comprendido
entre los
distribución
;
esto
es,
respectivamente
porpercentiles
tn-1,α/2 y tnn-1,1α/2 s
; esto es,

de libertad, denotados respectivamente
por tn–1,α/2
n y tn–1,1–α/2
 de forma equivalente, estos estimadores indican

de
una
determinada
variable
o,
dicho
a distribución simétrica alrededor de 0 y de aspecto


los datos
el
alrededor
de qué valor
selaagrupan
observados. Las medidas de tendencia
x − μen
al estandarizada, aunque
menos se
apuntada
en
Este resultado
representa
gráficamente
Figura
Por
=1−
α .la simetría de la
P t n −1,α / 2 <
< t n −1,1−α / 2 5.2.
s


central
de
la
muestra
sirven
tanto
para
resumirpuede
los resultados
observados como para
n
 anterior

extremos (Figuradistribución
5.1). Los grados
de libertad
t de Student,
tn-1,αde
=
-t
y
la
expresión
rescribirse
/2
n-1,1-α/2
Estecomo
selos
representa
gráficamente
la Figura
5.2.parámetros
Por la simetría
de la distribución
t de
realizar
inferenciasenacerca
de los
poblacionales
correspondientes.
A
nan su dispersión:
alresultado
aumentar
grados
de
Este
resultado
se
representa
gráficamente
en
la
Figura
5.2.
Por
la
simetría
de
la
Student, tn–1,α/2 = – tn–1,1–α/2 y la expresión anterior puede rescribirse como
continuación
se describen los principales estimadores de la tendencia central de una
la distribuciónt de Student se aproxima
a una
distribución t de Student, tn-1,α/2 = -tn-1,1-α/2 y la expresión anterior puede rescribirse


x−μ
Cuanto menor sea el tamaño muestral
n, variable.
mayor
P −será
t n −1,1−α / 2 <
< t n −1,1−α / 2  = 1 − α .
como
s


n


t de Media aritmética
s
s 
1.2.1
 =1−α .
P x − t n −1,1−α / 2
< μ < x + t n −1,1−α / 2
 n de la desigualdad por el error
Para despejar la media poblacional,
se nmultiplica cada término
 

x − μ muestral
despejar
media
se< multiplica
término
desigualdad
n )y alacontinuación
− )/(s/
(x Para
estándar
media
resultando
que la sumapor
La poblacional,
media
denotada
se
de el
cada uno de los
1 −define
αde. lacomo
P − tse
< t n −cada
naritmética,
−1resta
,1−α / 2 la
1,por
1−α / 2 x,,=
s


n- α)% para la
 media
 muestrales
viene
Así, elestándar
intervalo de confianza
(IC) al
y a continuación
s 100(1
s  depoblacional
xobservaciones
sedividida
resta
la por
media
muestral
, resultando
que
el número
realizadas. Si denotamos
ará un estimaciónerror
precisa deσ s/ nPvalores
 x − t n −1,1−α / 2
 = 1 − α .
< μ < x + t n −1,1−α / 2
n
n

determinado
pormedia
por5poblacional,
ndel
el tamaño se
muestral
y porcada
xi eltérmino
valor observado
para el sujeto
i-ésimo, i = 1, ..., n,
despejar
multiplica
de la desigualdad
por el10
aproximadamentePara
normal.
En la Tabla
Así, el intervalo de confianza (IC) al 100(1 – α)% para la media poblacional viene determinado por
intervalo dedistintos
confianzavendría
(IC) al 100(1por
- α)% spara la media poblacional viene
de la distribuciónAsí,
t de el
Student
error
estándarpara
s/ n lay media
a continuacióndada
se resta la media
muestral x , resultando que
x ± t n −1,1−α / 2
,
n
determinado por
10
x + x 2 + ... + x n
1 n
.
x =  xi = 1
n i =1 del intervalo)
n como de su
64 Pastor-Barriuso
R.
que depende
tanto de la estimación puntual x (valor
s central
,
x ± t n −1,1−α / 2
.1 aproximadamente aquí]
n
error estándar s/ n . La media es la medida de tendencia central más utilizada y de más fácil
Estimación por intervalo
tn-1
1.2 MEDIDAS DE TENDENCIA CENTRAL
La distribución tLas
de Student
distribución
0 y es
deelaspecto
medidasesdeuna
tendencia
centralsimétrica
informanalrededor
acerca dedecuál
valor más representativo
1-α
parecido al de una de
distribución
normal variable
estandarizada,
menos
apuntadaestos
en elestimadores indican
una determinada
o, dichoaunque
de forma
equivalente,
a distribución simétrica alrededor de 0 y de aspecto
centro y con más probabilidad
losvalor
extremos
(Figura
grados deLas
libertad
de de tendencia
alrededor deen
qué
se agrupan
los5.1).
datosLos
observados.
medidas
al estandarizada, aunque menos apuntada en el
una distribución t de
Student
su dispersión:
alresumir
aumentar
grados de
central
de determinan
la muestra sirven
tanto para
loslos
resultados
observados como para
/2
α/2
α
extremos (Figura 5.1). Los grados de libertad de
libertad, disminuyerealizar
la variabilidad
y
la
distribución
t
de
Student
se
aproxima
a
una
inferencias acerca de los parámetros poblacionales correspondientes. A
0
tn-1,α/2grados de
tn-1,1-α/2
nan su dispersión: al aumentar los
distribución normalcontinuación
estandarizada.
Cuanto menor
seax el
tamaño
muestral
n,
mayor
será central de una
se describen
los principales
estimadores
de
la
tendencia
−μ
s
la distribuciónt de Student se aproxima a una
n
t de
variable.
Figura 5.2
uanto menor sea el tamaño muestral
n, mayor será
Figura 5.2 una
Distribución
Student otorgará
mayo muestral del estadístico (x − )/(s/ n ).
1.2.1 Media aritmética
t de
el tamaño
muestral
es media
grande,
s la
facilitará
un estimación
deσcomo
que
depende
tanto
de
estimación
puntual
(valor
central
dellaintervalo)
como
dedesulos
error
La
aritmética,
denotada
por x ,precisa
se define
suma de cada
uno
DIDAS DE TENDENCIA CENTRAL
estándar
(x − )/(s/ n .)
1.2 de
MEDIDAS
DE TENDENCIA
CENTRALnormal. En la Tabla 5 del
distribución
dicho
estadístico
será aproximadamente
valores
muestrales
dividida
por el número
observaciones
realizadas. Sieldenotamos
Los límites
del intervalo
están
determinados
por datosdemuestrales
y, en consecuencia,
intervalo
didas
deestimación
tendencia central
acerca de cuál es el valor más representativo
σ
ará un
precisainforman
de
de
confianza
variará
en
función
de
la
muestra
seleccionada.
El
principio
fundamental
de
la
estimación
ApéndiceLas
se presentan
percentiles
de la informan
distribución
t de Student
para
distintos
medidas
central
acerca
de
cuál es
elpara
valor
representativo
por de
nloseltendencia
tamaño muestral
y por xi el
valor
observado
el más
sujeto
i-ésimo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles
muestras del mismo tamaño de la población de
determinada
variablenormal.
o, dichoEn
delaforma
equivalente,
estos estimadores indican
aproximadamente
delintervalos
el 100(1
–Tabla
α)% de5 los
resultantes incluirá el parámetro poblacional. Así, aunque
grados dereferencia,
libertad.
de
una determinada
variable
o, dicho
la media vendría
dada
por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parámetro desconocido, se
ordedelaqué
valor se agrupan
los datos
observados.
Las medidas de tendencia
distribución
t deuna
Student
paradel
distintos
tendrá
confianza
100(1 – α)% en que el único intervalo disponible esté entre aquellos que
l estudio EURAMIC.
En cada
unavalor
de las
alrededor
de qué
se agrupan los datos observados.
Las medidas de tendencia
n
+ un
x n intervalo hace referencia a
contienen dicho parámetro.
En
otras
palabras,1el nivel
dexconfianza
[Figura
5.1
aproximadamente
aquí]
1 + x 2 + ...de
de la muestra sirven tanto para resumir los resultados observados
para
.
=
x =  x i como
la frecuencia con la cual el método producenintervalos
certeros
y no a la probabilidad de que el
n observados
mo
i =1 los resultados
central de la muestra sirven tanto para resumir
como para
intervalo obtenido en una muestra concreta incluya el parámetro poblacional.
inferencias acerca de los parámetros poblacionales correspondientes. A
obtenidas
a partir
de los
controles
del estudio
EURAMIC.
En cada una de
realizar
inferencias
acerca
de
los
parámetros
poblacionales
correspondientes.
A las
.1
aquí]
Ejemplo
5.6
De La
la5.7
Tabla
5
del
Apéndice
se
obtiene
que
el
percentil
97,5
en
una
s aproximadamente
s Ejemplo
media
es
la
medida
de
tendencia
central
más
utilizada
y
de
más
fácil
En la Figura
se presentan
los IC
al 95% para la media poblacional
del
= xse±describen
2,262 los, principales estimadores
ación
de 5.3
la tendencia
central
de una
10
10
colesterol
HDL
en
100
muestras
aleatorias
de
tamaño
n
=
10
obtenidas
a
partir
de
los
muestras,
el
IC
al
95%
se
calculó
como
continuación
se describen
los5,principales
estimadores
de laestendencia
central
de
una
distribución
tinterpretación.
de Student
conCorresponde
2,
10 y 30algrados
dede
libertad
respectivamente
“centro
gravedad”
de
los
datos
de
la
muestra.
Su
controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calculó como
.
Apéndice
que típicas
el percentil
97,5 en
una = 2,228 sy t
variable.
s medias ysedesviaciones
muestrales.
t5;0,975
=limitación
2,571,
t10;0,975
= 2,042.sPor tratarse de
tobtiene
2;0,975 = 4,303,
principal
es
muy30;0,975
x ±que
t 9;0está
=influenciada
x ± 2,262 por, los valores extremos y, en este
, 975
edia aritmética
10
10
5, 10 y 30 grados
de libertad
es respectivamente
simétricas
en 0,
2,5 de
coincide
con el central
correspondiente
x 1.2.1
= 1,20
y scaso,
= aritmética
0,30,
de tal
tra se obtuvodistribuciones
puede
no
serelunpercentil
fiel reflejo
la tendencia
de la distribución.
Media
donde
s son
las correspondientes
medias
desviaciones
a aritmética, denotada
por x y, se
define
como la suma de
cada yuno
de los típicas muestrales. Así, por ejemplo,
= 2,228
y t30;0,975
= 2,042.
Por
tratarse
de
x
donde
y
s
son
las
correspondientes
medias
y
típicas
muestrales.
=
-4,303,
=de
-2,571,
testimación
percentil
97,5
con
signo
opuesto;
es
decir,
t
2;0,025
10;0,025
a0;0,975
media poblacional
de
colesterol
HDL
en la aritmética,
primera muestra
se obtuvo
1,20
y s =como
0,30,desviaciones
de
tal
forma
que
launo
La media
denotada
por x =
, se
define
lat5;0,025
suma
cada
de los puntual de la
Ejemplo
1.4
En esteHDL
yrealizadas.
enresultó
los sucesivos
ejemplos
sobre
estimadores
muestrales, se
muestrales
dividida
por
el
número
de
observaciones
Si
denotamos
media
poblacional
de
colesterol
ser
1,20
mmol/l
y
su
IC
al
95%
1,20 ± 2,262·0,30/
el percentil 2,5
coincide
con
el
correspondiente
= -2,042.
Por
tanto,
elmuestra
95%
central
de puede
la xdistribución
= -2,228
y10
tmuestrales
=afirmarse
1,20 y tsde
= 0,30,
de tal
Así,
por
ejemplo,
en
la
primera
se
obtuvo
30;0,025
= (0,99;
1,41);
es
decir,
a partir
de esta
muestra
con
confianza
del 95%
valores
dividida
por
el
número
de
observaciones
realizadas.
Siuna
denotamos
(0,99;
1,41);
es
% 1,20 ± 2,262⋅0,30/
utilizarán
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros sujetos del
quexilaelmedia
poblacional
del colesterol
HDL
se encuentra
entre
0,99 y 1,41 mmol/l.
tamaño
muestral
y
por
valor
observado
para
el
sujeto
i-ésimo,
i
=
1,
...,
n,
= -4,303,
-2,571,
t10;0,025
o; es decir, t2;0,025
5;0,025
forma
que
puntual
de la
media
poblacional
de± colesterol
Student
2, t5,
10lay=estimación
30
grados
de
libertad
está
comprendido
entre
4,303, ± HDL
porconfianza
ncon
el tamaño
afirmarse con una
del muestral
95% queylapor xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
estudio
“European
Study
on
Antioxidants,
Myocardial
InfarctionPastor-Barriuso
and Cancer
R. of65
a tanto,
vendríaeldada
por
95%
central
de
la
distribución
t
de
2,571,
± 0,99
2,228
± 2,042,
respectivamente.
Así, puede
resultó
ser
1,20
1,20 ±observarse
2,262⋅0,30/que
10la= (0,99; 1,41); es
la media
vendría
dadammol/l
por y su IC al 95%
L se encuentra
entre
y y1,41
mmol/l.
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
n
+ ...Student
x1±+4,303,
x 2t de
s de libertaddispersión
está comprendido
entre
±+ x n disminuye al aumentar los grados de
de1la distribución
Inferencia estadística
En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional
μ = 1,09 mmol/l, puede comprobarse empíricamente el significado del nivel de confianza
al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional,
mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el
parámetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que
μ se encuentre dentro de un intervalo concreto.
La estimación por intervalo facilita un rango de valores verosímiles o compatibles con la
media poblacional μ, cuya amplitud depende de:
yy El nivel de confianza 100(1 – α)%. Cuanto mayor sea la confianza deseada para un
intervalo, mayor será la amplitud del mismo.
0,6
0,8
1
1,2
1,4
1,6
Nivel medio de colesterol HDL (mmol/l)
Figura 5.3
Figura 5.3 Estimaciones puntuales (círculos) e intervalos de confianza al 95% (líneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde al verdadero nivel
medio μ = 1,09 mmol/l de colesterol HDL.
66
Pastor-Barriuso R.
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la
esto es, la media
poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
MEDIDAS DE TENDENCIA
CENTRAL
se calcularía
como
Contraste
de hipótesis
estimación,
será del
la amplitud
del intervalo.
Es decir,eslamás
amplitud
deque
un el
mmol/l
con unamayor
confianza
99%. Notar
que este intervalo
amplio
medidas de tendenciaEjemplo
central informan
cuál
el valor
másanterior,
representativo
5.8 En la acerca
primerademuestra
ejemplo
s es del
0,30 el IC al 99% (α = 0,01)
x ± t 9;0aporta
= 1medida
= (0,89;
1,51);
,20 ± 3,250
intervalo de confianza
una
de la precisión
de la
estimación.
, 995
correspondiente
intervalo
al
95%
(0,99;
1,41).
10
10
na determinada variable
o,
dicho
de
forma
equivalente,
estos
estimadores
indican
se
calcularía
Ejemplo
5.8 como
En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) se
calcularía como
Ejemplo
En observados.
una
muestraLas
aleatoria
de tamaño
n =encuentra
100 de los
controles
del
dedor de qué valor se agrupan
datos
medidas
de tendencia
esto
es,los
la5.9
media
poblacional
colesterol
se
entre
1,51
• El error estándar de la estimación
x ) = s/ 0HDL
n,30
. Cuanto
mayor sea
el 0,89
erroryde
la
s delSE(
x ± t 9;0,995
= 1,20 ± 3,250
= (0,89; 1,51);
10
x =10del
1,09
yobservados
s = 0,31,que
resultando
un IC al
para la que
media
EURAMIC
se obtuvo
ral de la muestra sirven mmol/l
tanto para resumir
los resultados
como
para
una
confianza
99%.
estedecir,
intervalo
es 95%
más de
amplio
el
estimación,con
mayor
será
la amplitud
del Notar
intervalo. Es
la amplitud
un
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l
poblacional
depoblacional
izar inferencias acerca
decorrespondiente
los la
parámetros
poblacionales
correspondientes.
Amás amplio
intervalo
al
95%
(0,99;
1,41).
esto
es,
media
del
colesterol
HDL
se es
encuentra
0,89
y 1,51
con
una
confianza
del
99%.
Notar
que
este de
intervalo
que
el correspondiente
intervalo
de
confianza
aporta
una
medida
la precisión
de la entre
estimación.
intervalo al 95% (0,99; 1,41).
tinuación se describenmmol/l
los principales
estimadores
con una confianza
delde
99%.
Notar quecentral
este0,intervalo
3de1 una es más amplio que el
sla tendencia
1,09x ±) 1=,9s/84 n =
±latla
= (1,03;
1,15).
99estimación
;0,
97x
5
•Ejemplo
El error
estimación
SE(
mayor
sea
error
de la
yy El
error
estándar
dede
Cuanto
mayor
seael del
el
error
de la
5.9estándar
En una
muestra
aleatoria
=. Cuanto
100
de los
controles
100 de tamaño n 10
able.
estimación,
mayor
será la amplitud
del intervalo.
correspondiente
intervalo
al 95% (0,99;
1,41). Es decir, la amplitud de un intervalo de
confianza
aporta
una medida
de
la
de la estimación.
estimación,
mayor
será
amplitud
del intervalo.
Esun
decir,
amplitud
demedia
un
x = la1,09
y sprecisión
= 0,31,
resultando
IC alla95%
para la
EURAMIC
se obtuvo
Así,
a
partir
de
esta
muestra
de
mayor
tamaño,
se
concluye
que
la
media
1 Media aritmética
intervalo
deEn
confianza
aporta
una
precisión
de
estimación.
• El
error
estándar
de
lamuestra
estimación
SE(medida
xde
) =tamaño
s/denla. nCuanto
mayor
sea
el error
la
Ejemplo
5.9 de
una
aleatoria
= 100 de
loslacontroles
del de
EURAMIC
poblacional
poblacional
del
colesterol
HDL
se
encuentra
entre
1,03
y
1,15
mmol/l
con
un
y s =como
0,31,laresultando
un IC
al de
95%
se obtuvo
media aritmética, denotada
por x ,=se1,09
define
suma de cada
uno
lospara la media poblacional de
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un
s Este
0,31 n = más
5.9 En
muestra
aleatoria
de tamaño
100 de
los controles
nivelelde
confianza
del
95%.
es
preciso
que los del
ores muestrales dividida Ejemplo
por
número
Simucho
denotamos
x de
±una
t observaciones
= 1realizadas.
= (1,03;
1,15).
,intervalo
09 ± 1,984
99; 0 , 975
10
intervalo de confianza aporta100
una medida de la precisión de la estimación.
intervalos
representados
en
laelFigura
para
muestras
tamaño
= 10.la media
x
=
1,09
y s = 5.3
0,31,
resultando
unde
al 95%n para
EURAMIC
se
obtuvo
sujeto
i-ésimo,
i = 1, ...,
n,IC
n el tamaño muestral y por xi el valor observado para
Así, a partir de esta muestra de mayor tamaño, se concluye que la media poblacional del
Así, a partir
de esta
muestra de
mayor
tamaño,
se concluye
la media
colesterol
HDL
se
encuentra
1,03de
y 1,15
mmol/l
con de
unque
nivel
de confianza
poblacional
5.9
Ende
una
muestra entre
aleatoria
tamaño
n = 100
los
controles
del del 95%.
media vendría dada porEjemplo
Este
intervalo
mucho
más preciso
quedelos
Figurapara
5.3 para
Como
se verá es
más
adelante,
el cálculo
losintervalos
intervalosrepresentados
de confianzaen
eslasimilar
poblacional
del
colesterol
HDL se encuentra entre 1,03 y 1,15 mmol/l con un
muestras
de
tamaño
n
=
10.
al 95% para la media
EURAMICn se obtuvo x = 1,09 ys s = 0,31, resultando
0,31unalIC100(1
+± general,
... + el
x1xEn
xt 99
x nintervalo
1
todos los parámetros.
de
confianza
- α )% para un
2 ;+
=
±
=
(1,03;
1,15).
1
,
09
1,984
0
,
975
.
= confianza
x de
x i = del 95%. Este intervalo

nivel
es
mucho
más
preciso
que los
10
100
Como
se verá
n i =1más
poblacional
de adelante,nel cálculo de los intervalos de confianza es similar para todos
poblacional
se construye
como
los determinado
parámetros. parámetro
En general,
el intervalo
de confianza
al 100(1 – α)% para un determinado
intervalos
representados
en
la
Figura
5.3
para
muestras
de tamaño n = 10.
parámetro
poblacional
seesta
construye
como
Así,
a
partir
de
muestra
de
mayor
tamaño,
se
concluye
que la media
La media es la medida de tendencia central más utilizada
y de más fácil
s
0,31
x ± t 99;0,975 estimador
= 1,09
±
=
(1,03;
1,15).
1,984
puntual ± x1–α/2 SE,
10
100
poblacional
del
colesterol
HDL
se
encuentra
entrede
1,03
y 1,15 mmol/l
conpara
un
Como
se
verá
más
adelante,
el
cálculo
de
los
confianza
es similar
rpretación. Corresponde al “centro de gravedad” de los datos
deintervalos
la muestra.
Su
donde x1–α/2 denota el percentil 1 – α/2 de la distribución muestral del estimador.
13
nivel
de confianza
delpor
95%.
Este
intervalo
essemucho
másque
preciso
que
Así,
a partir
de esta
muestra
de
mayor
tamaño,
concluye
media
α)%
paralos
un
losestá
parámetros.
En general,
el
de
confianza
al este
100(1
- la
cipal limitacióntodos
es que
muy
influenciada
losintervalo
valores
extremos
y, en
5.4 CONTRASTE DE HIPÓTESIS
intervalos
representados
en se
la
Figura
5.3como
para
de tamaño
= 10.
colesterol
HDL
seconstruye
encuentra
entremuestras
1,03 y 1,15
mmol/lncon
un
determinado
parámetro
poblacional
o, puede no ser un
fielpoblacional
reflejo
de ladel
tendencia
central
de
la
distribución.
En ocasiones, el interés de la investigación se centra no tanto en estimar un parámetro desconocido,
sino en
dilucidar
si dichodelparámetro
compatible
con unmás
valor
predeterminado.
A partir de
nivel
de confianza
95%. Esteesintervalo
es mucho
preciso
que los
estimador
puntual
±lógico,
x1α/2 SE,
Como
se
verá
más
adelante,
el
cálculo
de
los
intervalos
de
confianza
es
similar
para
conocimientos
previos
o
mediante
un
razonamiento
se
pueden
elaborar
hipótesis
o
conjeturas
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
sobre intervalos
el fenómeno
o parámetroen
objeto
de estudio
(pormuestras
ejemplo,deestablecer
de que la
representados
la Figura
5.3 para
tamaño nla= hipótesis
10.
α
)%
para
un
todos
los
parámetros.
En
general,
el
intervalo
de
confianza
al
100(1
media
de
una
población
toma
un
valor
determinado).
La
validez
de
estas
hipótesis
poblacionales
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
13 ha
de ser contrastada estadísticamente a partir de la información disponible en la muestra. Las técnicas
queComo
permiten
el grado
compatibilidad
de
losCancer
datos
muestrales
con una
determinado
parámetro
poblacional
se de
construye
como
se verá
más adelante,
eldecálculo
los intervalos
de
confianza
es similar
parahipótesis
estudio “European
Study
onevaluar
Antioxidants,
Myocardial
Infarction
and
of
predeterminada se conocen genéricamente con el nombre de tests (pruebas o contrastes) de hipótesis.
todos los parámetros.
Enmulticéntrico
general,estimador
el intervalo
dey confianza
al 100(1 - α)% para un
the Breast“ (EURAMIC),
un estudio
de casos
controles
realizado
SE,
puntual
±x
1-α/2
5.4.1 Formulación de hipótesis
poblacional
se para
construye
como
entre 1991 y determinado
1992 en ochoparámetro
países Europeos
e Israel
evaluar
el efecto de los
Los tests de hipótesis parten del planteamiento de una hipótesis nula, denotada por H013
, que
representa el valor preestablecido
del
parámetro
poblacional.
Esta
hipótesis
nula
se
aceptará
si
estimador puntual ± x1-α/2 SE,
5
los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si
se cuenta con pruebas suficientes para contradecir la hipótesis nula, ésta se rechazará en favor
13 de la
de una hipótesis alternativa, denotada por H1, que corresponde generalmente a la negación
Pastor-Barriuso R.
67
tratamiento;
decir,
la presión
medialade
la población
tratada con el
Ejemplo
5.10esEn
un estudio
paraarterial
determinar
eficacia
de un fármaco
Inferencia estadística
μT es igual
a la medialade
la población
μP.deLapacientes
hipótesistratados
fármaco
antihipertensivo,
se compara
presión
arterial no
de tratada
un grupo
alternativa
sería,
el la
contrario,
que las
presiones
arteriales
medias
ambas
hipótesis
estepor
punto,
cabe
en pacientes
que el término
“aceptar”
ladehipótesis
nula no
con nula.
dichoEn
fármaco
con
de unincidir
grupo
de
tratados
con
placebo.
La
implica que dicha hipótesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
son
distintas.
eladelante,
contraste
de
hipótesis de
quedaría
formulado
como
para rechazarla.
Como
se
verá Así,
más
nunca
pueden
hipótesis nula
más
natural,
en este
caso, eslas
la hipótesis
no efecto
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presión arterial
de la población tratada con el
H0: μmedia
T = μP,
Ejemplo 5.10 En un estudio para determinar la eficacia de un fármaco antihipertensivo,
se
compara
la presión
arterial
grupo
de pacientes
tratados
dicho fármaco con la
μT es
igual a la
mediadedeunlaH
población
no tratada
μP. Lacon
hipótesis
fármaco
1: μT ≠ μP.
de un grupo de pacientes tratados con placebo. La hipótesis nula más natural, en este caso,
es la hipótesis
del que
tratamiento;
es decir,
la presión
media de la
alternativa
sería,depornoelefecto
contrario,
las presiones
arteriales
mediasarterial
de ambas
La
hipótesis
nula
se
aceptará
a
no
ser
que
los
resultados
del
ensayo
clínico
población tratada con el fármaco μT es igual a la media de la población no tratada μP. La
hipótesis alternativa
sería, Así,
por el contrario,
quehipótesis
las presiones
arteriales
medias
de ambas
poblaciones
son distintas.
contraste de
quedaría
formulado
como
muestren
una
gran
diferencia
entre
los
grupos
que
resulte
poco
compatible
con
poblaciones son distintas. Así, el contraste de hipótesis quedaría formulado como
H0 : μ T = μ P ,
una ausencia de efecto del tratamiento.
H1 : μ T ≠ μ P .
Supongamos hipotéticamente que el grupo control del estudio EURAMIC
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico muestren una
sentidos.
algunas
circunstancias,
donde
lascontrastar
desviaciones
la hipótesis
en de efecto
granEndiferencia
entre losa grupos
que
resulte
poco si
compatible
con unanula
ausencia
constituye
lanula
población
estudio.
Para
la de
media
poblacional
del
La
hipótesis
se
aceptará
a
no
ser
que
los
resultados
del
ensayo
clínico
del tratamiento.
algún sentido carecen de importancia o son simplemente inconcebibles, es posible
μ esdiferencia
igual a unentre
determinado
valor,
pongamos
ejemplo 1con
colesterol
HDL
Supongamos
hipotéticamente
que
ellosgrupo
control
del estudio
EURAMIC
constituye la
muestren
una
gran
grupos
que resulte
pocopor
compatible
población a estudio. Para contrastar si la media poblacional del colesterol HDL μ es igual
formular un contraste unilateral, aceptando como evidencia contra H0 únicamente las
mmol/l,
el testdedeefecto
hipótesis
se formularía
como1 mmol/l, el test de hipótesis se formularía
a un ausencia
determinado
valor,
pongamos
por ejemplo
una
del
tratamiento.
como
diferencias en un sentido.
Supongamos hipotéticamente que el H
grupo
control del estudio EURAMIC
0 : μ = 1,
H1 : μ ≠ 1.
constituye
la población
a estudio.
Para contrastar
si la antihipertensivo,
media poblacionalsedel
Ejemplo 5.11
En el estudio
de la eficacia
del fármaco
formuló
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una muestra
μdelesestudio
igualbilateral
a EURAMIC.
un determinado
pongamos
ejemplo
colesterol
HDL
de los
controles
. En este
caso, sepor
admite
que 1la
una
hipótesis
alternativa
H1: μT ≠ μPvalor,
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una
elen
testcontra
de hipótesis
se
como
evidencia
de la se
hipótesis
nula puede
provenir alternativa
tanto por unbilateral;
efecto nocivo
En mmol/l,
los ejemplos
anteriores,
haformularía
planteado
una hipótesis
es decir, se
muestra de los controles del estudio EURAMIC.
aceptan como evidencia contra la hipótesis nula las diferencias en ambos sentidos. En algunas
circunstancias,
donde(μlas
desviaciones
de
la hipótesis
nula (en
carecen de
del mismo
μT <algún
μP). Sisentido
en fases
del tratamiento
T>μ
P) como por la
Heficacia
0: μ = 1,
importancia
o son anteriores,
simplemente
inconcebibles,
eshipótesis
posible formular
contraste
; esunilateral,
En los ejemplos
se ha
planteado una
alternativaunbilateral
un sentido.
aceptando
como
contraseHha
previas
del evidencia
ensayo clínico
comprobado
ausencia deenefectos
secundarios
0 únicamente
1.ladiferencias
H : μ ≠las
1
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos
del
tratamiento,
la posibilidad
delaque
la presión
arterial media
de los tratados
sea
Ejemplo
5.11 En
el estudio de
eficacia
del fármaco
antihipertensivo,
se formuló
una
La
elección
entre
ambas
hipótesis
dependerá
de
los
resultados
obtenidos
en
una
hipótesis alternativa bilateral H1: μT ≠ μP. En este caso, se admite que la evidencia en
sentido
y sólodel
podría
superior
de los
tratados
(μT > μtanto
contra dea la media
hipótesis
nulanopuede
provenir
por unde
efecto
nocivo
tratamiento
P) carecería
15
muestra
de
los
controles
del
estudio
EURAMIC.
(μT > μP) como por la eficacia del mismo (μT < μP). Si en fases previas del ensayo clínico
explicarse
por variabilidad
aleatoria.
En talsecundarios
caso, cabríadel
plantearse
el siguiente
se ha comprobado
la ausencia
de efectos
tratamiento,
la posibilidad de
que la presión arterial media de los tratados sea superior a la media de los no tratados
En contraste
los ejemplos
anteriores,
se ha planteado una hipótesis alternativa bilateral; es
de hipótesis
de unilateral
sentido y sólo podría explicarse por variabilidad aleatoria. En tal
(μT > μP) carecería
caso, cabría plantearse el siguiente contraste de hipótesis unilateral
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos
H0 : μ T = μ P ,
H1 : μ T < μ P ,
15
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento
antihipertensivo sea eficaz.
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento
68
antihipertensivo
Pastor-Barriuso
R.
sea eficaz.
Los contrates bilaterales son más conservadores que sus correspondientes contrates
Contraste de hipótesis
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el va
Los contrastes
bilateralesDE
sonTENDENCIA
más conservadores
que sus correspondientes contrastes
1.2 MEDIDAS
CENTRAL
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la
de una determinada variable o, dicho de forma equivalente, estos
mayor parte de las aplicaciones
prácticas seDE
utilizan
hipótesis CENTRAL
alternativas bilaterales, ya que
1.2
MEDIDAS
TENDENCIA
Las medidas de tendencia central informan
acerca de cuál es el valor más representativo
resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. Así,
alrededor de qué valor se agrupan los datos observados. Las medi
todos los contrastes de hipótesis planteados a lo largo de este texto están basados en hipótesis
de una determinada
variablede
o, tendencia
dicho de forma
estos de
estimadores
Las medidas
centralequivalente,
informan acerca
cuál es el indican
valor más represen
alternativas bilaterales.
central de la muestra sirven tanto para resumir los resultados obse
alrededor de qué
se agrupan los
datos o,
observados.
Las medidas
de tendencia
de valor
una determinada
variable
dicho de forma
equivalente,
estos estimadores indi
realizar
inferencias
acerca
de
los
parámetros
poblacionales corres
5.4.2 Contraste estadístico para la media de una población
central de la muestra
sirven
tantovalor
paraseresumir
loslos
resultados
observados
como
para de tendencia
alrededor
de qué
agrupan
datos observados.
Las
medidas
En este apartado se discuten los conceptos continuación
básicos para se
la describen
realizaciónlose principales
interpretación
de un de la tenden
estimadores
contraste de hipótesis
bilateral
sobre
una
población.
Esto
es, correspondientes.
selos
pretende
contrastar
realizar inferencias
acerca
de
los de
parámetros
poblacionales
A
central
delalamedia
muestra
sirven
tanto
para
resumir
resultados
observados
como pa
alternativa bilateral H1: μ ≠ μ0, donde μ0 es un
la hipótesis nula H0: μ = μ0 frente a la hipótesis
variable.
valor predeterminado
de laserealizar
media
poblacional.
El contraste
de otros
así
como
continuación
describen
los principales
estimadores
de parámetros,
la tendencia
central
delauna
inferencias
acerca
de
los parámetros
poblacionales
correspondientes.
A
comparación de parámetros entre distintas poblaciones, se presentará en temas posteriores.
1.2.1 Media aritmética
variable.
continuación
se describen
los principales
estimadores
de la tendencia
La elección
entre las hipótesis
nula y alternativa
dependerá
de los resultados
obtenidos
en la central de u
el valor
muestra o, más concretamente, de la compatibilidad
de la media
muestral
La media aritmética,
denotada
por x ,con
se define
como la suma de
variable.
predeterminado
. Comoaritmética
la
media muestral es un estimador sujeto a error, el objetivo es
1.2.1μ0Media
valoresconstituye
muestralesuna
dividida
por el probable
número de
observaciones
realiz
determinar si laCENTRAL
variabilidad inherente al muestreo
explicación
para
la
EDIDAS DE TENDENCIA
valorcomo
predeterminado
μ0 deuno
la de
media
diferencia observada
la media
muestral
La mediaentre
aritmética,
denotada
por x ,yseeldefine
la suma de cada
los
1.2.1
Media
aritmética
por n el de
tamaño
muestral
y por xi el
valor
observado
poblacional. Para ello, se calcula la probabilidad
que bajo
la hipótesis
nula,
una
media para el sujeto
edidas de tendencia
central
acerca
de
cuál
el
valor
más
representativo
se La
rechaza
laes
hipótesis
nula
o, de observaciones
forma
se afirma
que
inferior
oinforman
igual
que
valores
muestrales
dividida
el número
realizadas.
Si conoce
denotamos
elpor
valor
observado
de x .,equivalente,
Esta
probabilidad
se
muestral
difiera
tanto
oα más
demedia
μ0 que
aritmética,
denotada
por
se define
como
la suma
de cada uno de los
la media vendría
dada
por
como valor P del contraste de hipótesis y determina
el grado
de compatibilidad
de los datos
determinada variable
o, dicho
forma
equivalente,
indican
α 1, ..., n, Si denotam
los resultados
estadísticamente
significativos;
en
caso
contrario,
si
P
es
superior
arealizadas.
porde
nson
el
tamaño
muestral
por estimadores
xvalor
el
valor
observado
para
el
sujeto
i-ésimo,
i serán
=
valores
dividida
por
el
número
de
observaciones
muestrales
con
la
hipótesis
nula. muestrales
Si yestos
este
P
es
elevado,
los
datos
muestrales
i
compatibles con el valor μ0 de la media poblacional, careciendo así de evidencia
x1 + x 2 + ... + x n
1 n para rechazar
dor de qué valorlasehipótesis
loshipótesis
datos
observados.
Las
medidas
de
tendencia
=
x
x i =el sujeto
media
vendría
dada
por
seagrupan
aceptanula.
la
nula,
concluyendo
que
los
resultados
del
test
no
son
por
n
el
tamaño
muestral
y
por
x
el
valor
observado
para
Por el contrario, si el valor P es pequeño,i la media muestralresultará
pocoi-ésimo, i. = 1, .
n i =1
n
compatible con el valor preestablecido μ0, concluyendo entonces que los datos aportan suficiente
l de la muestra sirven
tanto
para
resumir
los
resultados
observados
como
para
estadísticamente
significativos.
la media
vendría
evidencia
para rechazar
dicha
hipótesis.
Endada
n por cuanto menor sea el valor P, menos
x + x + ... + x n
1general,
.tendencia central más utilizada y de
x =nula.
x i = 1es la 2medida de
compatibles serán los datos con la hipótesis
La
media

n calcular la probabilidad
r inferencias acerca de
losconocer
parámetros
poblacionales
correspondientes.
A
i =1tanto necesario
Para
el valor
P del contraste
es npor
+ x 2 + ...
+ xn
x umbral
1 n de un
La decisión de rechazar la hipótesis nula se basa en la definición
preestablecido
.
=
x
x i = 1 al “centro
interpretación.
Corresponde
de gravedad”

o nivel
de
significación
α, tradicionalmente
α = central
0,05. Sideeluna
valor
P es inferiorno igual
que α se de los datos
uación se describen
los
principales
estimadores
de
la
tendencia
n
=
i
1
de que las medias
de todaslalas
posibles
muestras de
tamaño
nutilizada
difieran tanto
o más
de μ0
La media
medida
de tendencia
central
yson
de estadísticamente
más
fácil
rechaza la hipótesis
nula o, es
de forma
equivalente,
se afirma
quemás
los resultados
principal
eshipótesis
que está muy
significativos; en caso contrario, si P es superior
a α limitación
se acepta la
nula,influenciada
concluyendopor los valores e
le.
x
, asumiendo
que
la media
poblacional
es datos
μ
. Bajo
que el valor
observado deCorresponde
interpretación.
al
“centro
de
gravedad”
de
los
de
la
muestra.
La
media
es
la
medida
de
tendencia
central
utilizada
y de Su
más fácil
0más
que los resultados del test no son estadísticamente significativos.
caso, puede no ser un fiel reflejo de la tendencia central de la dist
conocer
elHvalor
P
del
contraste
es
por
tanto
calcular
la probabilidad
de
que
Media aritmética Para
principal
limitación
es
que
está
muy
influenciada
por
los
valores
y, en
estela muestra. Su
interpretación.
Corresponde
al “centro
de gravedad”
lostal
datos
de
:
μ
=
μ
,
las
medias
muestrales
senecesario
distribuirán
alrededor
deextremos
μde
hipótesis
nula
0
0
0, de
las medias de todas las posibles muestras de tamaño n difieran tanto o más de μ0 que el valor
Ejemplo
1.4
En
este
endistribución.
los
sucesivos
sobre
observado
decaso,
,,asumiendo
que
lalamedia
poblacional
es
μlos
la
hipótesis
nula
Hlos
= μejemplos
dia aritmética, denotada
xsus
sedesviaciones
definenocomo
suma
de cada
uno
deestá
puede
serestandarizadas
un
fiel
reflejo
deesla
tendencia
central
dey la
principal
limitación
que
muy
influenciada
por
valores
extremos
y, estim
en e
0. Bajo
0: μ
0, las
forma por
que
medias muestrales se distribuirán alrededor de μ0, de tal forma que sus desviaciones estandarizadas
utilizarán
del colesterol
obtenidos en los 1
s muestrales dividida por el número de observaciones
Si denotamos
caso, puederealizadas.
no ser un fiel
reflejolos
de valores
la tendencia
central deHDL
la distribución.
x −sucesivos
μ0
Ejemplo 1.4 En este y en
los
ejemplos
sobre
estimadores
muestrales,
se
t=
s
estudio
“European
Study on Antioxidants, Myocardial Infar
el tamaño muestral y por xi el valor observado para el sujeto i-ésimo,
i = 1,
..., n,
n HDL
utilizarán los valores
del1.4
colesterol
obtenidos
en ejemplos
los 10 primeros
sujetos del muestra
Ejemplo
En este
y en los
sucesivos
sobre estimadores
the Breast“ (EURAMIC), un estudio multicéntrico de casos
ia vendría dadaseguirán
por
aproximadamente una distribución t de Student con n – 1 grados de libertad (Apartado
estudio
“European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer
of
utilizarán
los
valores
colesterol
obtenidos
en los
sujet
seguirán
aproximadamente
una distribución
t de Student
con
nde- los
1 HDL
grados
de
libertad
5.3.1).
Una vez
calculado el valor
de este estadístico
tdel
a partir
datos
observados
en10
la primeros
entre 1991 y 1992 en ocho países Europeos e Israel para eva
muestra, el valor
+ x 2 + ...vendrá
+ x n determinado por el área bajo la curva de la distribución
1 n P delx1contraste
the
Breast“
(EURAMIC),
un
estudio
multicéntrico
de casos
y controles
realizadoand Cance
estudio
“European
Study
on Antioxidants,
Myocardial
. el valor de este
= 
x i = Una vez calculado
5.3.1).
estadístico
t a partir
de
los
datos Infarction
tn–1 (Apartado
parax aquellos
n i =1 valores tanto
n o más distantes de 0 que el valor observado de t (esto es,
desviaciones de μ0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la
1991 el
y 1992
en
ocho
países Europeos
eestudio
Israel para
evaluar
elde
efecto
los
the Breast“
(EURAMIC),
un
multicéntrico
casosde
y controles
real
observados
en laentre
muestra,
valor
Peldel
contraste
vendrá
determinado
por
eldeárea
bajo
Figura
5.4 se representa
gráficamente
cálculo
del valor
P para
este contraste
hipótesis.
media es la medida de tendencia central más utilizada y de más fácil
entreaquellos
1991 y 1992
en tanto
ocho opaíses
Europeosde
e Israel
valores
más distantes
0 que para
el evaluar el efecto de
la curva de la distribución tn-1 para
5
Pastor-Barriuso R. 69
etación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
valor observado de t (esto es, desviaciones de μ0 mayores o iguales que la observada en
pal limitación es que está muy influenciada por los valores extremos y, en este
Inferencia estadística
Distribuci ón de t =
x − μ0
bajo H 0 : μ = μ 0
s
n
tn-1
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan
acerca de cuál es el valor más representativo
P/2
P/2
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
-t
0
t
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
(valor observado)
MEDIDAS DE TENDENCIA CENTRAL
central de la muestra
tanto
para elresumir
losbilateral
resultados
para
Figura sirven
5.4 Valor
P para
contraste
de la observados
media de unacomo
población.
Figura 5.4
medidas de tendencia central informan acerca de cuál es el valor más representativo
: μ = 1,
H0correspondientes.
realizar inferencias acerca de los parámetros poblacionales
A
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
HDL en los
controles del
EURAMIC
es igualdea una
1 mmol/l mediante el test de
: μ ≠ 1. central
H
continuación se describen
los principales
estimadores
de la
1tendencia
hipótesis bilateral
edor de qué valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H
tamaño
n = 10 donde la media y desviación
0 : μ = 1,
al de la muestra sirven tanto para resumir los resultados observados
H1 : μ ≠ 1. como para
1.2.1 Media aritmética
típica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los
parámetros
poblacionales
ello,
se obtiene
una muestracorrespondientes.
de tamaño n = 10Adonde la media y desviación típica
ser del
ys=
0,30lammol/l.
A cada
partiruno
de estos
La media aritmética, resultaron
denotada
por
x ,=contraste
se1,20
define
como
suma de
de losdatos se calcula el estadístico
el
estadístico
Para
ello, se obtiene
una muestra
de tamañocentral
n = 10 de
donde
nuación se describen del
los contraste
principales
estimadores
de la tendencia
una la media y desviación
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
,20 − 1 A partir de estos datos se calcula
s =μ 00,301mmol/l.
típica resultaron ser x = 1,20 xy −
ble.
t=
= 2,11,
=
s
0,30 i-ésimo, i = 1, ..., n,
por n el tamaño muestral y por xi el valor observado para
el sujeto
n
el estadístico del contraste
10
Media aritmética
la media vendría dadaque
pordetermina la diferencia estandarizada (dividida por el error estándar) entre la media
x − μ 0 μ cada
− 1 de
1,20 uno
que determina
diferencia
estandariza
(dividida
porlos
el error estándar) entre la
muestral
ella
valor
predeterminado
edia aritmética, denotada
por x ,yse
define
como
= 2,11,muestral de este estadístico bajo
t =la suma de
=0. La distribución
n H : μ = 1 seguirá
s
0,30
una t de Student con 9 grados de
la hipótesis 1nula
0 x1 + x 2 + ... + xaproximadamente
n
n
.
=
=
x
x
10
x
media
muestral
y
el
valor
predeterminado
μ
.
La
distribución
este
i observaciones
es muestrales dividida
por el (n
número
Si
denotamos
0 nula
libertad
–n1
= de
10
– 1 = 9). nAsí, sirealizadas.
la hipótesis
fuera ciertamuestral
(esto es, de
si la
verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamaño muestral ycon
poruna
xi elmedia
valor
observado
elHsujeto
i-ésimo,
=mmol/l
1,el...,
n,
μ igual
=(dividida
1 seguirá
aproximadamente
una
tdesviación
dela
estadístico
bajola
ladiferencia
hipótesispara
nula
de
colesterol
superior
a 1,20ipor
(mayor
o igual
que
0: o
que
determina
estandariza
error
estándar)
entre
La media es la medida
de tendencia
másoutilizada
mása fácil
la observada
por lacentral
derecha)
inferior oy de
igual
0,80 mmol/l (mayor o igual desviación
edia vendría dada porque
la observada
izquierda)
Student
con 9 grados
devalor
libertad
(nsería
- 1 = 10 - μ10.=La
9).distribución
Así, si la hipótesis
nula
fuera
xpor
media
muestral
y ella
predeterminado
muestral
de este
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
cierta (esto
es, sixla +verdadera
1 mmol/l), la probabilidad
+ media
x 2 + ... nula
x n H0: poblacional
1 n bajo
μ = 1 seguiráfuera
aproximadamente una t de
estadístico
la1 hipótesis
principal limitación es que
muy
influenciada
por
los
valores
extremos
y,
en este
.
=
x =está
x

i
n
n
70 Pastor-Barriuso
R.
=
i
1
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
con de
9 grados
de libertad
(n de
- 1la= distribución.
10 - 1 = 9). Así, si la hipótesis nula fuera
caso, puede no ser unStudent
fiel reflejo
la tendencia
central
1,20
mmol/l (mayormás
o igual
desviación
quefácil
la observada por la derecha) o
a media es la medida ade
tendencia
utilizada
y de
más
cierta
(esto es,central
si la verdadera
media
poblacional
fuera 1 mmol/l), la probabilidad
a 1,20 mmol/l (mayor o igual desviación que la observada por la derecha) o
inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la
Contraste de hipótesis
izquierda) sería
P = P( x ≥ 1,20 | H0 ) + P( x ≤ 0,80 | H0 )




 x − μ 0 1,20 − μ 0

 x − μ 0 0,80 − μ 0

= P
≥
H 0  + P
≤
H0 
s
s
 s

 s

n
n
n
n




≈ P(t9 ≥ 2,11) + P(t9 ≤ − 2,11) = 2P(t9 ≥ 2,11) = 0,064,
que corresponde al área bajo la curva de la distribución t9 para valores superiores a 2,11
(valor observado del estadístico) o inferiores a – 2,11. Notar que el valor exacto de P se
que
corresponde
área bajo laNo
curva
de la distribución
t9 para
ha obtenido
por alordenador.
obstante,
utilizando la
Tablavalores
5 del superiores
Apéndice, puede
S DE TENDENCIAcomprobarse
CENTRAL que el estadístico t = 2,11 está comprendido entre los percentiles t9;0,95 =
a1,833
2,11 y(valor
estadístico)
o inferiores
a -2,11.
Notar
que≥el2,11)
valor< 0,05, que
t9;0,975 observado
= 2,262, dedel
lo cual
se deduce
la desigualdad
0,025
< P(t
9
equivaleacerca
a un valor
P bilateral
comprendido
entre 0,05 < P < 0,10.
e tendencia central informan
de cuál
es el valor
más representativo
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del
Si se adopta el nivel de significación α = 0,05 como regla de decisión, los resultados de
inada variable o, dicho
demuestra
forma equivalente,
estos estimadores
indican
1.2 MEDIDAS
DE
TENDENCIA
CENTRAL
esta
no aportan
suficiente
evidencia
para rechazar
la hipótesis nula (P = 0,064 >
0,05), concluyendo que la verdadera media poblacional del colesterol HDL no19resulta
ué valor se agrupan los
datos observados.
Las medidas
de tendencia
significativamente
distinta
de 1demmol/l.
Las
medidas
tendencia central informan acerca de cuál es el valor más representativ
muestra sirven tantoElpara
resumir
los resultados
observados
como para
valor
P determina
la significación
estadística
deo,losdicho
resultados
de un
contraste de
hipótesis,
de
una determinada
variable
de forma
equivalente,
estos
estimadores indican
y depende tanto de la magnitud de la diferencia entre el verdadero valor del parámetro y su
ncias acerca de valor
los parámetros
poblacionales
Amuestral. Así, una pequeña diferencia puede
como
delvalor
tamaño
predeterminado
bajo
H0,correspondientes.
alrededor
de qué
se agrupan
los datos observados. Las medidas de tendencia
resultar estadísticamente significativa si el tamaño muestral es suficientemente grande y, por el
e describen loscontrario,
principales
estimadores
la tendencia
de una
:μ
Supongamos
sedeplantea
mismo
contraste
bilateral
de laestadística
hipótesis
nula
una
granque
diferencia
puede
nocentral
alcanzar
significación
si laHmuestra
es como para
0observados
central
de
laelmuestra
sirvenlatanto
para resumir
los resultados
insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud
de la diferencia
asociación
objeto
estudio.
1,09 mmol/l y correspondientes. A
= 1 a partiro de
unarealizar
muestra
de de
tamaño
n = 100
media x = poblacionales
inferencias
acerca
de con
los parámetros
Ejemplo 5.13
ejemplo
anterior
se observó
diferencia
HDL
desviación
típicaEn
s =el0,31
mmol/l.
El estadístico
del una
contraste
es en eldecolesterol
continuación
se
describen
los principales
estimadores
la tendencia
central de una
Supongamos
que
se plantea
mismo contraste
denula
la hipótesis
nula Hy0:laμ media
de
0,20 mmol/l
entre
el valoreldeterminado
bajo labilateral
hipótesis
μ0 = 1 mmol/l
mmol/l
en
una
tamaño
= 10. Los
testH no
fueron
mética, denotada por Supongamos
x ,=se1,20
define
como
laplantea
sumamuestra
deelcada
de
los−n1bilateral
que variable.
se
mismo
dexresultados
la hipótesisdel
nula
x − de
μuno
1,09
0: μ
0 contraste
=
1,09
mmol/l
y
=
1
a
partir
de
una
muestra
de
tamaño
n
=
100
con
media
=
2,90
=
t
=
estadísticamente significativos (P = 0,064) pero la magnitud de la diferencia podría ser
s
0,31
rales dividida por el número
de observaciones
realizadas.
Si denotamos
clínicamente
importante de
confirmarse
en estudios
con mayor tamaño muestral.
n
x = es
1,09 mmol/l y
=
1 a partir típica
de una1.2.1
de aritmética
tamaño
n = 10010con
Media
desviación
s muestra
= 0,31
mmol/l.
El estadístico
delmedia
contraste
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ = 1 a
o muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
partir
una
de
tamaño
n El
= 100
con media
mmol/l
desviación
típicauno de los
desviación
típica
s =media
mmol/l.
estadístico
del contraste
es comoy la
La
aritmética,
denotada
por
x ,=se1,09
define
suma de cada
y,
por de
tanto,
elmuestra
valor
P0,31
vendría
determinado
x − contraste
μ 0 1,09por
−1
s = 0,31 mmol/l. El estadístico
del
es
= 2,90
=
t=
ría dada por
s dividida
0,31por el número de observaciones realizadas. Si denotamos
valores muestrales
x − μ 0 1,09 −=12P(t ≥ 2,90) = 0,005.
P = P(t99 ≥ 2,90)
99
t =+ P(t99n≤ =-2,90) 10
= 2,90
0
,
31
s
n
+ xnnel tamaño muestral
x + x 2 + ...
1
por
y por
10 xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
n
.
x =  xi = 1
y,
determinado
por
n iUtilizando
nvalor P vendría
laelaproximación
normal
a la distribución
t de Student con 99 grados de
=1 por tanto,
y, por tanto, el valor
P vendría
determinado
la media
vendría
dada por por
y, por tanto, el valor P vendría determinado por
libertad, el valor
P también
puede
aproximarse
partir≥de2,90)
la Tabla
3 del Apéndice
P(t99
≤ − 2,90) =a2P(t
= 0,005.
P = P(t
99 ≥ 2,90)
99
s la medida de tendencia central más
utilizada
y de+más
fácil
n
x1 + x 2 + ... + x n
1
= t 99
x2,90)

como
i =
Utilizando laPaproximación
normal
a la
de≥Student
99 grados. de libertad,
= P(t99 ≥ 2,90)
+ P(t99
≤ distribución
-2,90) =x 2P(t
=con
0,005.
n
n 99 grados de
Corresponde al “centro
de
gravedad”
de
los
datos
de
la
muestra.
Su
=
i
1
Utilizando
la aproximación
normal a laa distribución
t de Student
con
el
valor P también
puede aproximarse
partir de la Tabla
3 del Apéndice
como
ritmética
≥extremos
2,90)
≈ 2{1
Φ(2,90)}
0,004.
Ptambién
=valores
2P(t99normal
ación es que está muyUtilizando
influenciada
porPlos
y,
en− este
aproximación
a la
distribución
t de=deStudent
con del
99 grados
de
libertad,
el la
valor
puede
a partir
la Tabla
Apéndice
La media
es laaproximarse
medida de tendencia
central
más3 utilizada
y de más fácil
este caso,central
aunquedelaladiferencia
entre el valor predeterminado y la media muestral
o ser un fiel reflejo deEn
la tendencia
distribución.
libertad,
el valor P también
puede aproximarse a partir de la Tabla 3 del Apéndice
como
En
este caso,
aunque
la diferencia
entre
el valor
predeterminado
y la media
interpretación.
Corresponde
al “centro
de gravedad”
dedel
los test
datosfueron
de la muestra. Su
resultó
ser sensiblemente
menor
(0,09
mmol/l),
los
resultados
como
ser
sensiblemente
menor
(0,09
mmol/l),
resultados
del Pastor-Barriuso
test
principal
limitación
es 2{1
que
muy
por los
valores
extremos
R. 71 y, en este
-está
Φ(2,90)}
= los
0,004.
Psobre
= 2P(t
1.4 En este y en los muestral
sucesivosresultó
ejemplos
estimadores
se influenciada
99 ≥ 2,90) ≈muestrales,
fueronHDL
estadísticamente
significativos
=
0,005),
aportando
suficiente
≥ 2,90)
2{1
- Φ(2,90)}
0,004.
P =en
2P(t
caso,
puede
no
ser un≈(P
fiel
reflejo
de
la=tendencia
centralevidencia
de la distribución.
n los valores del colesterol
obtenidos
los9910
primeros
sujetos
del
En este caso, aunque la diferencia entre el valor predeterminado y la media
Inferencia estadística
estadísticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar
la hipótesis nula.
La realización de una prueba de hipótesis presenta la misma estructura básica para todos los
parámetros. En general, se calcula primero un estadístico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hipótesis nula, y cuyo denominador representa la variabilidad o error estándar de la estimación.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadístico tanto o
más extremo que el observado en el estudio, asumiendo que la hipótesis nula es cierta.
El contraste de hipótesis para un determinado parámetro está relacionado con su
correspondiente intervalo de confianza. Si se contrasta la hipótesis nula H0: μ = μ0 frente a
la hipótesis alternativa bilateral H1: μ ≠ μ0, el resultado será estadísticamente significativo
para un nivel α = 0,05 si el IC al 95% para μ no incluye el valor μ0. Por el contrario, este
contraste no resultará estadísticamente significativo si el IC al 95% para μ contiene al valor
1.2 MEDIDAS
DEcomplementaria.
TENDENCIA CENTRAL
información
El intervalo de
μ0. No obstante, ambos métodos facilitan
confianza aporta una medida de la magnitud y precisión en la estimación del parámetro,
aunque no facilita el valor exacto de P Las
o elmedidas
grado dedecompatibilidad
coninforman
una hipótesis
tendencia central
acercanula
de cuál es el valor
de interés. El valor P sí determina la compatibilidad de los datos con una determinada
hipótesis, pero no facilita una medida de
del parámetro
asociación
objeto
de
de la
unamagnitud
determinada
variable o, odicho
de forma
equivalente,
estos esti
estudio. En general, el uso de los contrastes de hipótesis como forma exclusiva de presentar
los resultados de un estudio está siendo
ampliamente
cuestionado
enlos
la datos
actualidad.
La Las medidas
alrededor
de qué valor
se agrupan
observados.
presentación de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
que
con el
valor los
P deresultados
la
central de
la pueden
muestra completarse
sirven tanto para
resumir
observa
hipótesis correspondiente.
realizar inferencias acerca de los parámetros poblacionales correspon
Ejemplo 5.14 En la primera muestra de tamaño n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviación
típica de
mmol/l,
tal formaestimadores
que el IC alde la tendencia
continuación
se0,30
describen
losde
principales
95% para la media poblacional del colesterol HDL resultó ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hipótesis
nula H0: μ = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hipótesis nula y, por
1.2.1 Media aritmética
tanto, el contraste no resulta estadísticamente significativo para un nivel α = 0,05.
mmol/l
En el Ejemplo 5.9, a partir de unaLamuestra
de tamaño denotada
n = 100 con
media aritmética,
por x ,=se1,09
define
comoyla suma de cada
s = 0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
de observaciones
realizada
(1,03; 1,15). El correspondiente contraste
de H0: μ = 1dividida
frente apor
H1:elμnúmero
≠ 1 se realizó
en el
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
por ny,elen
tamaño
muestral ylos
porresultados
xi el valor observado
para el sujeto i-é
de los límites de confianza al 95%
consecuencia,
del test son
estadísticamente significativos.
la media vendría dada por
5.4.3
Errores y potencia de un contraste de hipótesis
x + x 2 + ... + x n
1 n
.
x =  xi = 1
Como se comentó anteriormente, las hipótesis nunca pueden ser corroboradas
n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La elección entre las hipótesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
media la
es hipótesis
la medidanula
de tendencia
más utilizada
y de más
hipótesis nula cuando ésta es cierta, o si seLarechaza
cuando lacentral
alternativa
es
cierta, se habrá tomado una decisión correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretación.
de hipótesis: Corresponde al “centro de gravedad” de los datos de l
principal limitación es que está muy influenciada por los valores extr
72
Pastor-Barriuso R.
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
Contraste de hipótesis
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta)
cierta)
+ P(t ≤ tn-1,
= P(t ≥ tn-1,1α/2 | H0 en
/2 | H0 cierta)
Tabla 5.1 Resultados
posibles
un contraste
deαhipótesis.
==P(t
n-1,1-α/2 | H0 cierta)
/2 | H0 cierta)
t
) + P(t Realidad
≤+t P(t ≤) t=n-1,αα/2
+ α/2 = α,
P(t≥ t≥
n-1
es decir, la
n-1,1-α/2
n-1
n-1,α/2
Decisión
H0 cierta
H1 cierta
/2 +II α/2 = α,
Aceptar H0 = P(tn-1 ≥ tn-1,1-Correcto
α/2) + P(tn-1 ≤ tn-1,Error
α/2) =deαtipo
probabilidad
de
cometer
un
error
de
tipo
I
viene
determinada
de
Error de tipo I
Correcto
Rechazar H0
esantemano
decir, la probabilidad
cometer un αerror
tipo
I vienepara
determinada
. Así,depor
ejemplo,
un test condeun
por el nivel dedesignificación
yy El error de tipo I consiste en rechazar la hipótesis nula cuando ésta es, en realidad, cierta.
Como
se significación
comentó
anteriormente,
nivel
de significación
seunutiliza
para
clasificar
los
α. Así,
por
un test
con
un
antemano
por el nivel
de
α =significación
0,05, laelprobabilidad
de ejemplo,
incurrir αenpara
error
de
tipo
I
nivel de
resultados obtenidos en un test como significativos si el valor P ≤ α, en cuyo caso se
rechaza
la0,05;
hipótesis
ohipótesis
como
nonula
significativos
si Pse>rechazará
α,
caso
se acepta
la
seráde
delsignificación
esto es,nula,
es cierta,
erróneamente
αsi=la0,05,
la probabilidad
de ésta
incurrir
en en
un cuyo
error
de tipo
I
nivel
hipótesis nula. Con esta regla de decisión, puede comprobarse a partir de la Figura 5.4 que
en un
5%
de esto
los contrastes
de hipótesis
realizados
todas
las posibles
será
del
0,05;
la hipótesis
nula
es cierta, sobre
ésta se
rechazará
erróneamente
P(error
de tipoes,
I) =si P(rechazar
H
0 | H 0 cierta)
= P(t ≥ tn 1,1 α /2 | H 0 cierta) + P(t ≤ tn 1 ,α /2 | H 0 cierta)
dellos
mismo
tamaño.
enmuestras
un 5% de
contrastes
de hipótesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 ≥ tn 1,1 α /2 ) + P(t n 1 ≤ t n 1 , α /2 ) = α /2 + α /2 = α ;
muestras
delprobabilidad
mismo tamaño.
es
decir, la
delos
cometer
un error
de tipo I viene
determinada
antemano por
Ejemplo
5.15 A partir de
controles
del EURAMIC
se obtienen
1000de
muestras
didas de tendencia central
informan
acerca
de
cuál
es
el
valor
más
representativo
el nivel de significación α. Así, por ejemplo, para un test con un nivel de significación
αaleatorias
= 0,05, la
dey,incurrir
undeerror
I será
del 0,05;deesto es, si la
deprobabilidad
tamaño
nde= los
10
en cadaen
una
ellas,desetipo
realiza
el contraste
A
partir
controles
del
EURAMIC
obtienen
1000 muestras
determinada variable
o, dicho
de
forma
equivalente,
estimadores
indican
esEjemplo
decir,
la5.15
probabilidad
de
cometer
un
error
de tipo
I se
viene
de
hipótesis
nula
es cierta,
ésta
se estos
rechazará
erróneamente
en undeterminada
5% de los contrastes
de
hipótesis
sobre
posibles muestras
del mismo
hipótesisrealizados
bilateral para
la todas
medialas
poblacional
del colesterol
HDL tamaño.
aleatorias
tamaño
n = 10 y,
enmedidas
cada una
ellas, se realiza el contraste de
or de qué valor se agrupan
losde
datos
observados.
Las
dede
tendencia
antemano por el nivel de significación α. Así, por ejemplo, para un test con un
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras
= 1,09,
H0: μuna
de la muestra sirvenhipótesis
tanto
para
resumir
los nresultados
observados
como
para
bilateral
para
la=media
poblacional
delellas,
colesterol
HDLel contraste de hipótesis
aleatorias
de tamaño
10 y, en
cada
de
se realiza
α
=
0,05,
la
probabilidad
de
incurrir
en un error de tipo I
nivel
de
significación
bilateral para la media poblacional del colesterol HDL
inferencias acerca de los parámetros poblacionales correspondientes.
H1: μ ≠ 1,09, A
H0 : μ = 1,09,
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se rechazará erróneamente
H1 : μ ≠central
1,09, de una
ación se describen los principales estimadores de la tendencia
mediante el estadístico
ejemplo
ilustrativo,de
la hipótesis
hipótesis nula
es ciertasobre
ya que
la media
poblacional
en En
un este
5% de
contrastes
realizados
todas
las posibles
mediante
ellos
estadístico
e.
x − 1,09
del colesterol
HDL tamaño.
en el grupo control
es efectivamente μ = 1,09
mediante
el estadístico
muestras
del
mismo
,
t = del EURAMIC
s
Media aritmética
10
mmol/l. Por lo tanto, se tomó la decisión correcta
de aceptar H0 en el 94,4% de las
x − 1,09
donde
son
lascomo
correspondientes
medias
yde
típicas muestrales.
En cada
ia aritmética, denotada
por 5.15
x ,yses A
define
la suma
de
los
t =cada
,desviaciones
Ejemplo
partir
de los
controles
deluno
EURAMIC
se obtienen
1000 muestras
s bajo
I) en
restante
5,6%,
muestras
yy se
rechazo
erróneamente
0 (error
scalcula
son
laselcorrespondientes
ydedesviaciones
muestrales.
donde x se
para valores
muestra,
valor
P como elHmedias
área
latipo
curva
de el
latípicas
distribución
t9 que
10
muestrales dividida
por
el onúmero
de observaciones
Si
denotamos
tanto
más
distantes
de
0 que
elrealizadas.
valor una
observado
de se
t, yrealiza
se decide
rechazar ladehipótesis
aleatorias
de
tamaño
n
=
10
y,
en
cada
designificación
ellas,
el contraste
= 0,05
concuerda
perfectamente
elnula
nivel
En cada
se calcula
elcon
valor
P
como
el áreaenbajo
la αcurva
la muestras (944 de
nula
si Pmuestra,
≤casi
0,05.
Así,
la hipótesis
se de
aceptó
un 94,4%
dedelas
tamaño muestral ydonde
por
xi elxyvalor
observado
el (56
sujeto
i-ésimo,
= 1, ..., n,
1000)
en
unpara
5,6%
de medias
1000). yi desviaciones
ysesrechazó
son
las
correspondientes
típicas muestrales.
hipótesis
bilateral
para
media
poblacional
del colesterol HDL
preestablecido
el la
contraste.
tanto o más distantes de 0 que el valor observado de t,
distribución t9 para valores
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional del
a vendría dada por En cada muestra, se calcula el valor P como el área bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 mmol/l. Por
y se decide rechazar la hipótesis nula
P ≤1,09,
0,05. Así, la hipótesis nula se aceptó
H0:siμ
el 94,4%
de las muestras
y se
lo error
tanto, de
se tipo
tomóIIlaconsiste
decisiónencorrecta
de=
aceptar H
• El
aceptar
la
hipótesis
nula
en realidad,
es
0 encuando,
n
para
valores
tanto
o
más
distantes
de
0
que
el
valor
observado
de
t,
distribución
t
9
+
+
...
+
x
x
x
1
rechazó erróneamente
H0 (error
de tipo I) en el restante 5,6%, que concuerda casi
2
n
. de 1000) y se rechazó en un 5,6% (56 de 1000).
x =un 94,4%
x i =de1 las muestras
en
(944

H1: μ ≠ α1,09,
perfectamente
con
el
nivel
de
significación
=de0,05
preestablecido
para
ciertan lai =1hipótesis alternativa.
La probabilidad
cometer
un error de
tipoelIIcontraste.
se
n
y se decide rechazar la hipótesis nula si P ≤ 0,05. Así, la hipótesis nula se aceptó
yy El
errorpor
deβtipo
, II consiste en aceptar la hipótesis nula cuando, en realidad, es cierta la
denota
el estadístico
media es la medidamediante
de
tendencia
central
utilizada
de más
fácil
en
un 94,4%
de las más
muestras
(944y de
1000)
y se rechazó
un 5,6%
de 1000).
hipótesis
alternativa.
La probabilidad
de cometer
un error en
de tipo
II se (56
denota
por β,
24
etación. Corresponde al “centro de gravedad”
los datos
la muestra.
H1 cierta) = β .
P(error de tipo
II) = de
P(aceptar
H0 | Su
x − 1,09
t=
,
s
al limitación es que está muy influenciada por los valores extremos
y, en este
Pastor-Barriuso
Si la hipótesis alternativa es cierta, la probabilidad
de tomar la decisión correcta
y, R.
10
24
uede no ser un fiel reflejo de la tendencia central de la distribución.
por tanto, rechazar la hipótesis nula se conoce como potencia del test,
donde x y s son las correspondientes medias y desviaciones típicas muestrales.
73
1.2 MEDIDAS DE TENDENCIA CENTRAL
| H1 cierta) =DE
β. TENDENCIA CENTRAL
P(error de tipo II) = P(aceptar 1.2
H0 MEDIDAS
Inferencia estadística
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
Si la hipótesis alternativa es cierta, la probabilidad
de tomar de
la decisión
Las medidas
tendenciacorrecta
central y,
informan acerca de cuá
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Sipor
la tanto,
hipótesis
alternativa
es cierta,
depotencia
tomar ladeldecisión
correcta
y, de
porforma equivalen
test,
rechazar
la hipótesis
nulalaseprobabilidad
conoce como
de una
determinada
variable
o, dicho
tanto,
rechazar
la
hipótesis
nula
se
conoce
como
potencia
del
test,
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
H1 cierta)de qué valor se agrupan los datos observados.
Potencia = P(rechazar H0 |alrededor
central de la muestra sirven tanto para resumir los resultados observados como para
= 1 − P(error de tipo
II) =de1 −
.
central
laβmuestra
sirven tanto para resumir los resulta
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
La probabilidad de error de tipo II β y la potencia de un contraste 1 – β no están
realizar inferencias acerca de los parámetros poblacional
predeterminadas
de
antemano
y, como
se
comprobará
a continuación,
de distintos
β
y
la
potencia
contraste
1dependen
- β de
no una
están
La
probabilidad
de
error
de
tipo
II
continuación se describen los 2principales estimadores dede
la un
tendencia
central
factores, como el N(
nivel
significación
α, lao,desviación
del verdadero
parámetro
μ0, de
σ /n)
si H0 es cierta
en caso contrario,
N(μ1,valor
σ 2/n)del
si H
aproximadamente
1 es
continuación se describen los principales
estimadores de
de
los datos σaycontinuación,
el tamaño muestral
n.
respecto
al valor nulo
μ –2 μ0, la dispersión
predeterminadas
de
antemano
y,
como
se
comprobará
dependen
2
variable.
, σ /n) side
H0 xesbajo
cierta
en caso contrario,
N(μ1, σ se/n)representa
si H1 es
aproximadamente
N(μ0muestral
laso,hipótesis
nula y alternativa
cierta. La distribución
variable.
Supongamos, para simplificar la exposición, que una variable aleatoria tiene media
de distintos factores, como el nivel
de significación α, la desviación del verdadero
laspretende
hipótesis
nula y alternativa
seno
representa
cierta.
La μaritmética
distribución
muestral
de
, xy bajo
que se
contrastar
hipótesis
nula
H0: μ = μ0
desconocida
y5.5.
varianza
conocida
σ2significación
1.2.1
α, el contraste
delahipótesis
resultará
enMedia
la Figura
Para un
nivel de
frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠
μ
.
Por
el
teorema
central
del
límite, se
1.2.1
0 Media aritmética
μ
μ
valor
del
parámetro
respecto
al
valor
nulo
0, la dispersión de los datos σ y el
, ellacontraste
hipótesis
la Figura
5.5.
unelnivel
sabe
que
laaritmética,
distribución
dedex significación
en
deαtamaño
n será
aproximadamente
N(μ0, σ2/n)
La en
media
denotada
por
, semuestras
define como
suma
de de
cada
uno de no
losresultará
α)muestral
si
estadístico
significativo
(P >Para
si H0 es cierta o, en caso contrario, N(μ1, σ2/n) si H1 esLa
cierta.
Laaritmética,
distribución
muestralpor
de x ,bajo
media
denotada
se define como la
tamaño muestral n.
α) si elpor
estadístico
significativo
>alternativa
valores
muestrales
número deen
observaciones
Si denotamos
las
hipótesis
nula(Pydividida
seelrepresenta
la Figura 5.5.realizadas.
Para un nivel
de significación α,
x − μ(P
0 valores
el contraste de hipótesis no resultará-zsignificativo
si elmuestrales
estadísticodividida por el número de observacio
<> zα)
1-α/2 <
1-variable
α/2
Supongamos, para simplificar la exposición,
que
una
aleatoria tiene media
σ
por n el tamaño muestral y por xi el valor observado
para el sujeto i-ésimo, i = 1, ..., n,
x − μn0
<por
z1−αn/2el tamaño muestral y por xi el valor observado para
− z12− α /2 <
μ y varianza
contrastar la hipótesis nula H0:
desconocida
la
media vendría
dada por conocida σ , y queσse pretende
n
la media vendría dada por
de forma equivalente, si
μ =deo,μforma
0 frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ0. Por el teorema central
o,
equivalente, si
x + x 2 + ... + x n
1 n
o, de forma equivalente, six =  x i = 1
.
n
del límite, se sabe que la distribución
μ 0 − z1n− αi/2=1σmuestral
/ n < xde< nμx 0 en
+ zmuestras
; tamaño n seráx = 1  x = x1 + x 2 + ... +
1−α /2 σ / nde
i
n i =1
n
μ0 - z1-α/2σ/ n < x < μ0 + z1-α/2σ/ n ;
Distribuci
ón de x bajo
Distribuci
ónyde
bajo
La
media la
eshipotes
la medida
central
más
utilizada
dex más
1
0
es decir,
nuladesetendencia
aceptará
enHtodas
aquellas
muestras
conHfácil
una
media x 25
La
media
es
la
medida
de tendencia central más utiliz
2
2
N(μ1, σ /n)
N(μ0, σ /n)
es decir, la hipotes
nula se
aceptará
en
todas
aquellas
muestras
con
una
mediaSux
interpretación.
Corresponde
al
“centro
de
gravedad”
de
los
datos
de
la
muestra.
comprendida en la región μ0 ± z1-α/2σ/ n , que se denomina comúnmente como región
interpretación. Corresponde al “centro de gravedad” de l
principal
limitación
que está
por
los valorescomúnmente
extremos y, como
en esteregión
μ0 muy
± z1-αinfluenciada
σ
/
n
,
que
se
denomina
comprendida
en laesregión
de aceptación. Así, la probabilidad/2 de un error de tipo I α está determinada por el área
principal limitación es que está muy influenciada por los
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
la está
distribución.
determinada por el área
de
aceptación.
Así,Hla probabilidad
de un error de tipodeI α
bajo
la curva para
0 situada fuera de la región de aceptación (área en gris oscuro de la
caso, puede no ser un fiel reflejo de la tendencia central
de laderegión
(árealaencurva
gris oscuro
la
bajo
la curva
H0 situada fuera
β aceptación
por
el área
bajo
para H1de
Figura
5.5),1.4
ypara
laEn
probabilidad
error
tipo
IIde
Ejemplo
este y en losdesucesivos
ejemplos
sobre
estimadores
muestrales,
se
Ejemplo 1.4 En este y en los sucesivos ejemplos so
β por
áreade
bajo Figura
la curva5.5).
para H1
Figura
5.5),
y ladeprobabilidad
de
error de tipo
IIen
situada
dentro
la región
aceptación
(área
grisel
claro
utilizarán
los valores
del de
colesterol
HDL
obtenidos
en
los 10laprimeros
sujetos del
utilizarán los valores del colesterol HDL obtenidos
β en gris claro
situada dentro de la región de aceptación (área
de la Figura 5.5).
estudio “European Study on Antioxidants,
Myocardial
Infarction and Cancer
of
α
/2
α/2
[Figura 5.5 aproximadamente
aquí]
estudio “European Study on Antioxidants, Myocar
the Breast“ (EURAMIC),[Figura
un
estudio
multicéntrico
de
y controles realizado
μ1
μaquí]
5.5 aproximadamentecasos
0
the Breast“ (EURAMIC), un estudio multicéntrico
El balance
de un error
de tipo
I yevaluar
tipo II el
puede
observarse
entre
1991 yentre
1992las
enprobabilidades
ocho países
Europeos
e
Israel
para
efecto
los en
μ0 − z1−α / 2σ / n
μ0 + z1−αde
/ 2σ / n
entre 1991IIypuede
1992 observarse
en ocho países
Europeos e Israe
El balance
probabilidades
de undeerror
(esto es, se aumenta
la en
la Figura
5.5. entre
Si se las
reduce
la probabilidad
errordedetipo
tipoI Iyαtipo
5
Región de aceptación de H0
α
(esto
es,
se
aumenta
la
la
Figura
5.5.
Si
se
reduce
la
probabilidad
de
error
de
tipo
I
región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si α
Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hipótesis nula H0: μ = μ0 frenteFigura
la5.5hipóque sia α
región
de aceptación),
la probabilidad
de error
de tipo
II β,αmientras
tesisaumenta,
alternativadisminuye
H1: μ = μ1 en
una
con
varianza conocida.
β.aumenta
En distribución
la práctica,
la estrategia
habitual
es fijar
en el nivel
74
β. En la práctica,
habitual esβ fijar
en el nivel
aumenta, disminuye
α = 0,05)laeestrategia
intentar minimizar
o, deαforma
equivalente,
(típicamente
predeterminado
Pastor-Barriuso
R.
α =contraste.
0,05) e intentar
β o, dedeforma
equivalente,
predeterminado
(típicamente
Para α minimizar
fijo, la potencia
1 - β depende
de la
maximizar la potencia
1 - β del
TENDENCIA CENTRAL
μ0 -de
z1-cuál
< x <más
μ0 +
z1-αvariable.
α/2σ/es n
/2σ/ n ;
dencia central informan acerca
el valor
representativo
Contraste de hipótesis
1.2.1 Media aritmética
variable o, dicho de forma equivalente, estos estimadores indican
es decir, la hipotes nula se aceptará en todas aquellas muestras con una media x
es decir,
la hipotesis nula
se aceptará
todas
muestras con
una media
se define como la suma de
Laaquellas
media aritmética,
denotada
por x ,comprendida
or se agrupan los
datos observados.
Las medidas
de en
tendencia
comprendida en la región
región μ0 ± z1 α/2σ/ n , que se denomina comúnmente como región de aceptación. Así, la
valores muestrales
dividida
el número
observaciones realiz
probabilidad
deresultados
un error de
tipo I α está
determinada
por el área
bajo lapor
curva
para H0 de
situada
a sirven tanto para resumir los
observados
como
para
región de aceptación
(área
grisI oscuro
la Figura 5.5),
probabilidad de error
α está de
determinada
poryellaárea
de aceptación.fuera
Así, de
la la
probabilidad
de un error
deen
tipo
por
n
el
tamaño
muestral
y
por
xi el valor observado
(área en para el sujeto
de tipo II poblacionales
β por el área bajo
la curva para HA1 situada dentro de la región de aceptación
acerca de los parámetros
correspondientes.
gris claro de la Figura 5.5).
(área en gris oscuro de la
bajo la curva para H0 situada fuera de la región de aceptación
la media vendría dada por
criben los principales
estimadores
tendencia central
El balance
entredelasla probabilidades
de de
ununa
error de tipo I y tipo II puede observarse en la
5.5. Si se de
reduce
deelerror
tipolaI curva
α (estopara
es, se
la región de
áreade
bajo
H1aumenta
Figura 5.5), y Figura
la probabilidad
errorladeprobabilidad
tipo II β por
n
x + xβ.
1 disminuye
aceptación), aumenta la probabilidad de error de tipo II β; mientras que si α aumenta,
2 + ... + x n
.
x =  xi = 1
la estrategia
habitual
es fijar
en undenivel
predeterminado
(típicamente
α = 0,05)n
n i =1
situada dentroEn
delalapráctica,
región de
aceptación
(área en
gris αclaro
la Figura
5.5).
e intentar minimizar β o, de forma equivalente, maximizar la potencia 1 – β del contraste. Para
tica
α fijo, la potencia 1 – β depende de la superposición de las distribuciones nula y alternativa de
media
es la medida de tendencia central más utilizada y de
está a como
su[Figura
vezladeterminada
poruno
losde
siguientes
factores:
, denotada por x ,, que
se define
suma
cada
los La
5.5 de
aproximadamente
aquí]
yy La diferencia subyacente μ1 – μ0. La potencia
para detectar
una hipótesis
alternativa
cierta de los datos
interpretación.
Corresponde
al “centro
de gravedad”
ividida por el número de observaciones realizadas.
Si denotamos
será tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parámetro μ1 y
El balance entreellas
probabilidades
de un error
de tipo
tipo II5.6(a),
puededonde
observarse
en un incremento
valor
nulo μ0. Esta situación
se ilustra
enIlayFigura
se observa
estral y por xi el valor observado para
el sujeto i-ésimo, i = 1,principal
..., n, limitación es que está muy influenciada por los valores
de la potencia como consecuencia de una mayor diferencia entre μ1 y μ0.
(estono
es,ser
se un
aumenta
la de la tendencia central de la dist
la por
Figura 5.5. Si se reduce la probabilidad de error de tipo
I αpuede
caso,
fiel reflejo
da
~ N ( μ , σ 2 / n)
H0 : x →
0
~ N ( μ , σ 2 / n)
H1 : x →
1
región de aceptación),
aumenta la probabilidad de error de tipo II β, mientras que si α
n
x + x 2 + ... + x n
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim
1
.
xi = 1

n i =1
β. En lan práctica, la estrategia habitual esutilizarán
fijar α en
nivel del colesterol HDL obtenidos en los 1
aumenta, disminuye
loselvalores
x=
edida
de tendencia(típicamente
central más utilizada
más fácil
α = 0,05)y edeintentar
minimizar βestudio
o, de forma
equivalente,
predeterminado
“European
Study on Antioxidants, Myocardial Infar
esponde
al “centro
de gravedad”
los datos Para
de la α
muestra.
the Breast“
(EURAMIC),
fijo, laSu
potencia
de 1 - β
depende de un
la estudio multicéntrico de casos
maximizar
la potencia
1 - β deldecontraste.
α/2 β
α/2
es que está muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho países Europeos e Israel para ev
μ0 − z
σ/ n
μ0 + z
σ/ n
μ
μ
1−α / 2
1
n fiel reflejo de la tendencia central de la distribución.
1−α / 2
0
(a)
~ N ( μ , σ 2 / n)
H1 : x →
1
26
~ N ( μ , σ 2 / n)
H0 : x →
0
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
valores del colesterol HDL obtenidos en los 10 primeros sujetos del
pean Study on Antioxidants, Myocardial Infarction and Cancer of
URAMIC), un estudio multicéntrico de casos y controles realizado
992 en ocho países Europeos e Israel para evaluar el efecto de los
α/2
β
μ1 μ0 − z1−α / 2σ / n5
α/2
μ0
μ0 + z1−α / 2σ / n
(b)
Figura 5.6 Errores de tipo I y II para una mayor diferencia μ0 – μ1 (a) y para un mayor
tamaño muestral n (b).
Figura 5.6
Pastor-Barriuso R.
75
S DE TENDENCIA CENTRAL
Inferencia estadística
superposición
las distribuciones
nula ymás
alternativa
de x , que está a su vez
e tendencia central
informan de
acerca
de cuál es el valor
representativo
por los
siguientes factores:
nada variable determinada
o, dicho de forma
equivalente,
estos estimadores indican
Tabla 5.2 Porcentaje de muestras de tamaño n = 10, 25 y 100 con
significativos
(P
≤tendencia
0,05) para
el contraste
bilateral de
• los
La diferencia
subyacente
para detectar
una hipótesis
ué valor se agrupan
datosresultados
observados.
Las μmedidas
depotencia
1 - μ0. La
las hipótesis nulas H0: μ = 1 y 1,05 mmol/l sobre la media poblacional
del
colesterol
HDLobservados
en los cuando
controles
del estudio
EURAMIC.
uestra sirven tanto para
resumircierta
los resultados
como
para
alternativa
será tanto
mayor
mayor
sea la diferencia
entre el
Hipótesis nula H0: μ = μ0
ncias acerca de los parámetros
correspondientes.
μ1 y el valorAnulo μ0. Esta situación se ilustra en la
verdadero poblacionales
valor del parámetro
Tamaño muestral (n)
μ0 = 1
μ0 = 1,05
10 tendencia central de una
5,0
e describen los principales
Figura estimadores
5.6(a), dondedesela
observa un incremento11,2
de la potencia como
consecuencia
25
100
de una mayor diferencia entre μ1 y μ0.
26,9
85,7
8,0
23,0
el el
error
estándar de la
σ / n . Al
Al aumentar
aumentareleltamaño
tamañomuestral
muestraln,n,disminuye
disminuye
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
para
nivellamuestral
de
significación
α predeterminado,
la potencia
mética, denotada por estándar
x .,Así,
se define
como
suma
de y,
cada
uno
de los
de laun
media
en consecuencia,
la variabilidad
de del
las contraste aumenta
conforme aumenta el tamaño de la muestra (Figura 5.6(b)). Esta relación puede utilizarse
ales dividida por el número
de observaciones
realizadas.
denotamos
tanto para
calcular
potencia
de
vez determinado
el tamaño
muestral,
xSi
.contraste
Así,
parauna
un nivel
de significación
α
distribuciones
nula ylaalternativa
deun
como para estimar a priori el tamaño muestral necesario para una determinada potencia.
valorúltimo
observado
el sujeto
i-ésimo,
= 1, ...,enn,conforme
o muestral y por xi elpredeterminado,
Este
puntolapara
se
discutirá
mayoridetalle
el Tema 9 aumenta
de determinación
potencia
delcon
contraste
aumenta
el tamañodel tamaño
muestral.
ía dada por
de la muestra (Figura 5.6(b)). Esta relación puede utilizarse tanto para calcular la
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras
n
potencia
un
contraste
vez25determinado
tamaño
para el contraste
+ ... + x nn una
xde+de
x 2 tamaño
1 aleatorias
= 10,
y 100 y, enelcada
unamuestral,
de ellas, como
se realiza
.
x =  xi = 1
de lasn hipótesis nulas H0: μ = 1 y 1,05 mmol/l para la media poblacional del
n i =bilateral
1
estimar
a
priori
el Para
tamaño
muestral
paraeluna
determinada
potencia.
colesterol HDL.
cada
muestranecesario
y contraste,
valor
P se calcula
según Este
los métodos
del Apartado 5.4.2 y la hipótesis nula se rechaza si P ≤ 0,05. En la Tabla 5.2 se presenta
último
puntomás
se discutirá
con
detalle en significativos
el Tema 9 de determinación
del tamaños
la medida de tendencia
central
utilizada
y demayor
más resultados
fácil
el porcentaje
de
muestras
con
para los distintos
muestrales e hipótesis nulas.
tamaño
muestral. de los datos de la muestra. Su
Corresponde al “centro
de gravedad”
En este caso, ambas hipótesis nulas son falsas dado que la verdadera media del colesterol
en los controles
del estudio
EURAMIC
es 1,09 mmol/l. Así, los porcentajes de la
ación es que está muyHDL
influenciada
por los valores
extremos
y, en este
Tabla 5.2 representan [Figura
valores empíricos
de la potenciaaquí]
de cada contraste. Para una desviación
5.6 aproximadamente
=
1,09
–
1
=
0,09
mmol/l
entre
el
verdadero nivel medio de colesterol
subyacente
de
μ
–
μ
ser un fiel reflejo de la tendencia central0 de la distribución.
HDL y el valor nulo, la potencia resultó ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviación de μ – μ0 = 1,09 – 1,05 = 0,04 mmol/l, la potencia
Ejemplo
A 5,0%
partir
de los
controles
del
EURAMIC
obtienen
muestras
1.4 En este y en los sucesivos
ejemplos
sobre
estimadores
muestrales,
se yse
se redujo5.16
a un
para
n=
10, 8,0%
para
n = 25
23,0%
para1000
n = 100.
Como puede
apreciarse, sólo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
de obtenidos
tamaño
n en
= muestral
10,
100100,
y, enmientras
cada una
desería
ellas,necesaria
se realizauna
el muestra mayor
n los valores del colesterol
HDL
los25
10yprimeros
sujetos
del
mmol/l
con
un tamaño
de
que
para poder detectar una diferencia de 0,04 mmol/l.
y 1,05 mmol/l para la media
contraste
bilateral
de las hipótesis
nulas
0: μ = 1of
European Study on Antioxidants,
Myocardial
Infarction
andHCancer
Elerror
error estándar
estándar
• yyEl
ritmética
5.5 REFERENCIAS
del colesterol
HDL.yPara
cada muestra
st“ (EURAMIC), unpoblacional
estudio multicéntrico
de casos
controles
realizadoy contraste, el valor P se
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
según los
métodos
Apartado
5.4.2de
y la
91 y 1992 en ocho países
Europeos
e Israel
paradel
evaluar
efecto
loshipótesis nula se rechaza si P ≤
Englewood
Cliffs,
NJ: Prentice
Hall,el1977.
76
2.
Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
5
2001.
3.
Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
Pastor-Barriuso R.
27
Referencias
4.
Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5.
Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7.
Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8.
Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9.
Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
Pastor-Barriuso R.
77
TEMA 6
INFERENCIA SOBRE MEDIAS
6.1
INTRODUCCIÓN
En el presente tema se revisan las técnicas básicas de inferencia a partir de datos de carácter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parámetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimación de la media y la varianza de una población.
Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la población de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, ¿cuál es la estimación y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la población de
referencia? ¿Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?
yy La comparación de medias y varianzas poblacionales a partir de dos muestras
independientes.
Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una
muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos,
y una muestra independiente de controles, representativos de la población de la que
proceden los casos. ¿Cuál es entonces la estimación y el intervalo de confianza al 95%
para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los
sujetos libres de la enfermedad? ¿Es esta diferencia estadísticamente significativa?
En un ensayo clínico para evaluar la eficacia antihipertensiva de un nuevo medicamento,
se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de
tratamiento: un grupo que toma la medicación a estudio y otro que toma un placebo.
Después de 4 semanas de tratamiento, se compararon las medias de presión arterial
sistólica entre ambos grupos como medida de la eficacia de dicho medicamento. ¿Cuál es
la estimación puntual y el intervalo de confianza al 95% para la reducción en el nivel
medio de presión arterial sistólica? ¿Cómo se determina si esta reducción es efecto del
tratamiento o se debe a simple variabilidad aleatoria?
yy La comparación de medias poblacionales a partir de dos muestras dependientes.
Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparejó por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlación entre los valores de
Pastor-Barriuso R.
79
Inferencia sobre medias
colesterol HDL en cada pareja caso-control. ¿Cómo contrastar entonces si existe una
asociación significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un fármaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administró a todos ellos dicho fármaco durante 4 semanas. La presión
arterial sistólica de cada paciente se determinó tanto al comienzo del estudio como
después de las 4 semanas de tratamiento. En tal caso, los valores medios de presión arterial
antes y después del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente están correlacionados. En estas circunstancias, ¿cómo estimar la reducción
media de presión arterial sistólica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las técnicas de inferencia apropiadas para
Las medidas
de tendencia
central objeto
informan
acerca deasícuál es el valor
obtener estimaciones puntuales y por intervalo
del parámetro
poblacional
de estudio,
como para el contraste de hipótesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
variable
o, dicho de forma equivalente, estos estim
los resultados del estudio al ámbito poblacional
de forma clara
y sucinta.
alrededor de qué valor se agrupan los datos observados. Las medidas
6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL
central de la muestra sirven tanto para resumir los resultados observad
La media y la varianza poblacional son parámetros que representan la tendencia central y
dispersión de la distribución subyacente
de una
variableacerca
aleatoria.
parámetros
son
realizar
inferencias
de losEstos
parámetros
poblacionales
correspon
típicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores
observados de dicha variable en una muestra.
En esta
sección, selospresentan
losestimadores
métodos dede la tendencia
continuación
se describen
principales
estimación y contraste para la media y la varianza de una distribución poblacional.
variable.
6.2.1
Inferencia sobre la media de una población
1.2.1 Media aritmética
La estimación e inferencia de una media poblacional µ se discutió en el tema anterior. Para
Utilizando
lasaleatoria,
propiedades
distribución
muestral
de
la muestral
media,
obtener
La media aritmética,
denotada
poresxposible
,es
se un
define
como la suma de cada
estimador
cualquier
variable
se de
ha lacomprobado
que
la media
insesgado y consistente de µ y que, en el caso de distribuciones normales, es el estimador con
un intervalo
de confianza
100(1 - αvalores
)% para
la media
poblacional
menor
error estándar.
Estas alcaracterísticas
hacen
de la media
muestral
un buendeestimador
muestrales
dividida
porμelcomo
número
observaciones realizada
Utilizando las propiedades de la distribución muestral de la media, es posible obtener
puntual de la media poblacional.
por n el tamaño
y por xiesel posible
valor observado
para el sujeto i-és
s muestral
Utilizando
la distribución
muestral
de la media,
obtener un
la
media
μ como
un
intervalolas
de propiedades
confianza al de
100(1
- xα)%
± t npara
. poblacional
−1,1−α / 2
intervalo de confianza al 100(1 – α)% para la media poblacional
µ como
n
la media vendría dada por
s
x ± t n −1,1−α / 2
.
alternativa
A su vez, el contraste de la hipótesis nula H0: μ = μ
n 0 frente a la hipótesis
x + x 2 + ... + x n
1 n
.
x =  xi = 1
n
n
A su
vez,
el
contraste
de
la
hipótesis
nula
H
:
μ
=
μ
frente
a
la
hipótesis
alternativa
bilateral
H
:
=
i
1
0
1
bilateral H1: μ ≠ μ0 puede realizarse mediante
el0 estadístico
realizarse
el estadístico
μ ≠Aμ0supuede
vez, el
contrastemediante
de la hipótesis
nula H0: μ = μ0 frente a la hipótesis alternativa
80
Laxmedia
es la medida de tendencia central más utilizada y de más
− μel0 estadístico
bilateral H1: μ ≠ μ0 puede realizarse mediante
t=
.
s
interpretación.
Corresponde al “centro de gravedad” de los datos de la
n
x − μ0
t = aproximadamente
.
Bajo la hipótesis nula, este estadístico seguirá
una distribución t de Student
principal
s limitación es que está muy influenciada por los valores extre
Bajo
la
hipótesis
nula,
este
estadístico
seguirá
aproximadamente
una puede
distribución
t de como
con n – 1 grados de libertad y, en consecuencia, elnvalor P del contraste
calcularse
el área bajo la curva de esta distribucióncaso,
para aquellos
tanto
o másdedistantes
de 0 que
el de la distribu
puede novalores
ser un fiel
reflejo
la tendencia
central
Student
con
n
1
grados
de
libertad
y,
en
consecuencia,
el
valor
P
del
contraste
puede
valor observado de t. En general, el planteamiento de una determinada hipótesis nula puede
Bajo lade
hipótesis
nula,
este estadístico
seguirá
aproximadamente
unacomportamiento
distribución t dede las
proceder
estudios
previos
o de hipótesis
biológicas
respecto al
calcularse como el área bajo la curva de esta
distribución
tanto
o
Ejemplo
1.4 Enpara
esteaquellos
y en losvalores
sucesivos
ejemplos
sobre estimado
Student
con
n
1
grados
de
libertad
y,
en
consecuencia,
el
valor
P
del
contraste
puede
Pastor-Barriuso R.
más distantes de 0 que el valor observado de
t. En general,
el planteamiento
deHDL
una obtenidos en los 10 pr
utilizarán
los valores
del colesterol
calcularse como el área bajo la curva de esta distribución para aquellos valores tanto o
determinada hipótesis nula puede proceder estudio
de estudios
anteriores
o de
“European
Study
onhipótesis
Antioxidants, Myocardial Infarctio
n
539
media poblacional los contrastes
de
hipótesis
pueden
resultar
un tanto artificiales.
realizar inferencias acerca de los parámetros
poblacionales correspondientes. A
Inferencia sobre una media y varianza poblacional
cuya distribución bajo la hipótesis nula será t538 o, de forma equivalente, normal
continuación se describen los principales estimadores de la tendencia central de un
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con
estandarizada. De la Tabla 3 del Apéndice se desprende que la probabilidad de
variables, aunque en el casovariable.
de una única media poblacional los contrastes de hipótesis pueden
determinaciones
del colesterol HDL, la media y desviación típica fueron x = 1,09
resultar
un
tanto
artificiales.
obtener valores superiores a 7,21 en una distribución normal estandarizada es
1.2.1 Media aritmética
y s = 0,29 mmol/l. Así, el IC al 95% para la media de colesterol HDL en la
Ejemplo
6.4 Entre
539elcontroles
del estudio
con determinaciones
virtualmente
nula, los
pornlo=que
valor P bilateral
seráEURAMIC
inferior a 0,001.
En
mediay aritmética,
por x ,=se1,09
define
como
suma de
cada uno de los
ys=
0,29lammol/l.
Así,
del colesterol HDL, laLamedia
desviacióndenotada
típica fueron
población de referencia resultó ser
el IC
al 95% para
la media
población
de difiere
referencia resultó ser
conclusión,
el nivel
mediodedecolesterol
colesterolHDL
HDLenenlaesta
población
valores muestrales dividida por el número de observaciones realizadas. Si denotam
0,29 (P < 0,001). De hecho, la media poblacional de
significativamente
1 mmol/l
1,09 ± t 538de
= 1,09 ± 1,96⋅0,012 = (1,07; 1,11).
; 0 , 975
por n el 539
tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..
colesterol HDL se estimó en 1,09 mmol/l, con un intervalo de confianza al 95%
Estos datos muestrales
también
se emplearon
la media
vendría
dada porpara el contraste bilateral de la hipótesis
Estos
también
se mmol/l.
emplearon
paradel
el contraste bilateral de la
nula
Hdatos
1. Para
ello,
seycalculó
el estadístico
0: μ =muestrales
comprendido
entre
1,07
1,11
n
x1 + x 2 + ... + x n
x − μ0
1,09 − 1 x = 1
hipótesis nula H0: μ = 1. Para
contraste
.
xdel
= 7,21,
t = ello, se=calculó el estadístico

i =
n i =1
n
0,29
s
6.2.2 Inferencia sobre la varianza de
n una población
539
distribución
la media
hipótesis
ttendencia
o, dedecentral
forma
equivalente,
normal
La
es lanula
medida
dela
más
utilizada
En cuya
ocasiones,
el interésbajo
se centra
en estimar
noserá
sólo
una variable
aleatoria
538media
4y de más fácil
cuya distribución
la hipótesis
nula seráset538desprende
o, de forma
normal
estandarizada.
De bajo
la Tabla
3 del Apéndice
queequivalente,
la probabilidad
de obtener
valoressino
superiores
7,21
en unapoblacional.
distribución
normal
estandarizada
virtualmente
interpretación.
Corresponde
al se
“centro
deen
gravedad”
de los
de la muestra. Su
continua,
tambiéna su
varianza
Como
mostró
el es
Apartado
5.2datos
delnula,
estandarizada.
De
la
Tabla
3
del
Apéndice
se
desprende
que
la
probabilidad
de
por lo que el valor P bilateral será inferior a 0,001. En conclusión, el nivel medio de
principal
limitación
es que estáinsesgado
muy influenciada
por
valoresDe
extremos y, en es
tema
anterior,HDL
la varianza
muestral
s2difiere
es un estimador
de
la
colesterol
en esta
población
significativamente
dey 1consistente
mmol/l
(Plos
< 0,001).
obtener
valores
superiores
a
7,21
en
una
distribución
normal
estandarizada
es
hecho, la media poblacional de colesterol HDL se estimó en 1,09 mmol/l, con un intervalo
caso,
puede novariable
ser un
fiel
de la tendencia
de la distribución.
varianza
poblacional
σ 2comprendido
de cualquier
aleatoria,
siendo
además elcentral
estimador
de confianza
al 95%
entre
1,07
y reflejo
1,11 mmol/l.
virtualmente nula, por lo que el valor P bilateral será inferior a 0,001. En
insesgado con menor error estándar para distribuciones normales.
6.2.2 conclusión,
Inferenciaelsobre
varianza
de una
Ejemplo
1.4 población
En
esteenyesta
en los
sucesivos
ejemplos sobre estimadores muestral
nivellamedio
de colesterol
HDL
población
difiere
Al igual que ocurría en el caso de una media, los intervalos de confianza y las
En ocasiones,
el interés sedecentra
en estimar
no valores
sóloDe
la media
de
variable
aleatoria
continua,
utilizarán
los
del colesterol
HDL
obtenidos
los 10 primeros sujeto
significativamente
1 mmol/l
(P < 0,001).
hecho,
la una
media
poblacional
deen
sino también su varianza poblacional. Como se mostró en
2 el Apartado 5.2 del tema anterior, la
pruebas de hipótesis
sobre la varianza poblacional σ se basan en la distribución
varianza
muestral
s2 esseun
estimador
insesgado
ycon
consistente
de la
poblacional
σ 2 de
estudio
“European
Study
on Antioxidants,
Myocardial
and Cance
colesterol
HDL
estimó
en
1,09
mmol/l,
un intervalo
devarianza
confianza
al 95% Infarction
cualquier variable
aleatoria,
siendo
además
el
estimador
insesgado
con
menor
error
estándar
muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse
para distribuciones
the Breast“
comprendido normales.
entre 1,07 y 1,11
mmol/l.(EURAMIC), un estudio multicéntrico de casos y controles reali
2 de
Al igual
que ocurría(nen– el1)s
caso
una media,
los intervalos
de confianza
y las pruebas de
hipótesis
que
el estadístico
/σ 2 sigue
una distribución
denominada
chi-cuadrado
con
n1991en
y 1992
en ocho países
Europeos
para evaluar el efecto de
sobre la varianza poblacional σ 2 entre
se basan
la distribución
muestral
de s2. eSiIsrael
la distribución
2 población
subyacente
de
variable
es normal,
probarse que el estadístico (n – 1)s2/σ2 sigue una
6.2.2
Inferencia
sobre
varianza
depuede
1 grados
de la
libertad
yladenotada
por
χuna
n −1 ,
distribución denominada chi-cuadrado con n – 1 grados de libertad y denotada por χ2n–1,
En ocasiones, el interés se centra en estimar no sólo la media de una variable aleatoria
(n − 1) s 2 χ 2
~ n −1 .
continua, sino también su varianza poblacional.
Como
se mostró en el Apartado 5.2 del
σ2
Como
puede
en la Figura
6.1,
la distribución
chi-cuadrado
sólo
valores
tema
anterior,
la apreciarse
varianza muestral
s2 es un
estimador
insesgado
y consistente
de toma
la
positivos y está sesgada a la derecha. Los grados de libertad de una distribución chi-cuadrado
determinan
su tendencia
central,
dispersión
asimetría:siendo
al aumentar
grados de libertad,
varianza poblacional
σ 2 de
cualquier
variableyaleatoria,
además los
el estimador
5 6
aumenta la media y la varianza de la distribución y disminuye su sesgo a la derecha. En la Tabla
del Apéndice se presentan los percentiles de la distribución chi-cuadrado para distintos grados
insesgado con menor error estándar para distribuciones normales.
de libertad.
Al igual que ocurría en el caso de una media, los intervalos de confianza y las
pruebas de hipótesis sobre la varianza poblacional σ 2 se basan en la distribución
muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse
Pastor-Barriuso R.
que el estadístico (n – 1)s2/σ 2 sigue una distribución denominada chi-cuadrado con n -
81
Inferencia
sobre medias
Como
puede
apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma
valores positivos y está sesgada a la derecha. Los grados de libertad de una distribución
valores
y está sesgada
la derecha.
grados dechi-cuadrado
libertad de una
Comopositivos
puede
apreciarse
en la aFigura
6.1, laLos
distribución
sólodistribución
toma
0,6 determinan su tendencia central, dispersión y asimetría: al
chi-cuadrado
χ 21aumentar los
χ2
2
chi-cuadrado
determinan
su tendencia
central,Los
dispersión
y asimetría:
aluna
aumentar
los
valores
positivos
está sesgada
a la derecha.
grados
de
libertad de
distribución
2
grados de
libertad,y aumenta
la media
y la varianza
de la distribución
yχdisminuye
su
3
0,5
χ2
5
grados
de libertad,
aumenta
media ycentral,
la varianza de la distribución
yaldisminuye
su
chi-cuadrado
determinan
su la
tendencia
y asimetría:
aumentar
sesgo a la derecha.
En la Tabla
6 del Apéndicedispersión
se presentan
los percentiles
de la los
0,4
sesgo
ade
la libertad,
derecha. aumenta
En la Tabla
6 del Apéndice
se presentan
los percentiles
de la su
grados
la media
y lagrados
varianza
de la distribución
y disminuye
distribución
chi-cuadrado para
distintos
de libertad.
f(x)a la 0,3
distribución
chi-cuadrado
para distintos
grados se
de presentan
libertad. los percentiles de la
sesgo
derecha.
En la Tabla
6 del Apéndice
[Figura 6.1 aproximadamente aquí]
distribución
chi-cuadrado
para
distintos grados de libertad.
0,2
[Figura 6.1 aproximadamente aquí]
A partir de la distribución χ n2−1 del estadístico (n – 1)s2/σ 2 resulta sencillo calcular
[Figura 6.1 aproximadamente aquí]
0,1
A partir de la distribución χ n2−1 del estadístico (n – 1)s2/σ 2 resulta sencillo calcular
un intervalo de confianza para la varianza poblacional. El 100(1 - α)% de la
2
2
partir 0dedelaconfianza
distribución
del estadístico
(n – 1)s
/σ 2 resulta
de la calcular
un A
intervalo
paraχlan −1varianza
poblacional.
El 100(1
- α)%sencillo
distribución muestral de este estadístico está comprendido entre los percentiles α/2 y 1 -
0
2
4
6
8
10
12
de la α/2
un intervalo muestral
de confianza
paraestadístico
la varianza
poblacional.
El 100(1
- α)%
distribución
de este
está
comprendido
entre los
percentiles
y12
α/2 de la distribución chi-cuadrado con n - 1 grados
x de libertad, denotados por χ n −1,α / 2
2 Figura 6.1
distribución muestral de este estadístico está comprendido entre los percentiles α/2
y1y χ n −1,1−α / 2 ,
1.2 MEDIDAS DE TENDENCIA CENTRAL
/2 2de la distribución
chi-cuadrado
con n - 1 grados 2de2 libertad, denotados por χ n2−1,α / 2
2
,
yα
Aχ
partir
de
la
distribución
χ
del
estadístico
(n – 1)s /σ resulta sencillo calcular un intervalo
n −1,1−α / 2
n–1
2
Las medidas
de
tendencia
central
acerca
de cuáldeeseste
el valor más repre
de confianza para la varianza
– α)%
distribución
muestral
de lainforman
 poblacional.
(n − 1El
) s 100(1
2
2
2


.
P
χ
χ
=
1
−
α
<
<
y
χ
,
−
α
−
−
α
n
1
,
/
2
n
1
,
1
/
2
estadístico
y 1 – α/2 de la distribución chi-cuadrado
 entre los percentiles
n −1,1−αestá
/ 2 comprendido
σ12)2s 2 α/2
o,, dicho de forma equivalente, estos estimadores i
 denotados
(npor
−
variable
2de una determinada
2χ2
con n – 1 grados de libertad,
χ
y
P χ n −1,α / 2 <
< χ n −1,n–1,1–α/2
n–1,α/2
1−α / 2 
2
 =1−α .
σ 2



 2alrededor
n
s
−
(
1
)
2 se agrupan
de
qué
valor
los datos observados. Las medidas de tenden
Manipulado esta desigualdad
para
despejar
la
varianza
poblacional,
P χ n −1, α / 2 <
< χ n −1,1−α / 2  = 1 − α . se obtiene que
2
σ


Manipulado esta desigualdad
para despejar
la varianza
se obtiene
que
central
de la muestra
sirvenpoblacional,
tanto para resumir
los resultados
observados como
2
2poblacional,
Manipulando esta desigualdad (para
despejar
la
varianza
se
obtiene
que

(n − 1) s 
n − 1) s
< σ 2 <la varianza
=1−α ;
P para
2
2
Manipulado esta desigualdad
despejar
se obtiene
que
 realizar
poblacional,
inferencias
acerca
los parámetros
poblacionales
correspondientes. A
2 de
χ
n
1
,
/
2
−
α
(
1
)
n
s
−
 (χnn −−1,11−)αs/22

2
 =1−α ;
P 2
<σ < 2
χ

χ
n
1
,
1
/
2
n
1
,
/
2
−
−
α
−
α
continuación
se
describen
los
estimadores de la tendencia central d

2
2
 principales
−
−
(
1
)
(
1
)
n
s
n
s
2
2
 para la varianza
 =21σ− αviene
determinado por
es decir, el IC al 100(1 - α
< σ < poblacional
P)%
;
2 la varianza poblacional
2
es decir, el IC al 100(1 – α)%
para
 σ viene determinado por
χ
χ
variable.
n −1,α / 2 
 n −1,1−α / 2
es decir, el IC al 100(1 - α)% para la varianza poblacional σ 2 viene determinado por
2 2
2
2
2
intervalos de confianza para
no/ χson
alrededor
[(n –σ1)s
/ χ n2−1,α de
/ 2 ],s , particularmente
n −1,1simétricos
−α / 2 , (n – 1)s
2
1.2.1
aritmética
para2Media
la varianza
poblacional
σ viene determinado por
es decir, el IC al 100(1 - α)%
2
/ χ n2de
(n – 1)s
/ χ n2−1,α / 2en
], la muestra. A diferencia de
[(n – a1)s
−1,1−los
α / 2 ,datos
cuyos
límites
pueden
calcularse
partir
observados
cuando el tamaño muestral es reducido.
cuyos
límites
pueden
calcularse
a
partir
de
los
datos
observados
muestra.
A confianza
media
aritmética,
por
,los
selaintervalos
define
como
la suma de cada uno de l
los intervalos de confianza paraLa
μ, que
están
centradosdenotada
alrededor
de x ,en
de
2
2
2
2
2
2α / 2 , (n – 1)s / χ n −1,α / 2 ],
/
χ
[(n
–
1)s
2
2
1
,
1
n
−
−
para
σDeno
sonforma,
simétricos
alrededor
de determinada
sde, particularmente
cuando
σtamaño
= σ 0 Amuestral
frente a es
igual
el calcularse
contraste
de
una
nulaenHla0el: muestra.
cuyos
límites
pueden
a partir
los datoshipótesis
observados
, que están
de x , losrealizadas. Si deno
diferencia de los intervalos de
confianza
para μdividida
valores
muestrales
porcentrados
el númeroalrededor
de observaciones
reducido.
α/2 6.1
de laFunción
distribución
chi-cuadrado
con n - 1chi-cuadrado
grados de libertad,
porlibertad.
χ n −1,α / 2
Figura
de densidad
de la distribución
con 1, 2, 3denotados
y 5 grados de
2
2 datos observados en2 la muestra.
cuyos
límites
pueden
calcularse
a 1partir
Ala xhipótesis
μ,hipótesis
que realizarse
estánnula
centrados
, los
diferencia
dealternativa
los
de una
confianza
para
σ02 el
frente
ade
Dehipótesis
igual
forma,
elintervalos
contraste
determinada
Hmediante
la
bilateral
H
: tamaño
σ 2 ≠de
σlos
estadístico
0 puede
0: σ =alrededor
por
n
el
muestral
y
por
x
el
valor
observado
para el sujeto i-ésimo, i =
i
2
2
alternativa bilateral H1: σ ≠ σ0 puede realizarse mediante el estadístico
están centrados alrededor de x , los
diferencia de los intervalos de confianza para μ, que
la media vendría
(n dada
− 1) s 2por
2
6
χ =
,
2
σ
82
0
x + x 2 + ... + x n 6
1 n
.
x =  xi = 1
n i =1 de libertad. Así,
n el
que
bajo
H
sigue
una
distribución
chi-cuadrado
con
n
1
grados
Pastor-Barriuso R. 0
6
valor P del test se obtiene como
doblees
dellaárea
a la de
izquierda
de este
estadístico
bajo y de más fácil
Laelmedia
medida
tendencia
central
más utilizada
2
s2 > σ 02 . Eslaimportante
notar
subyacente dista mucho de ser
χ n2−1que,
, si ssi2 ≤la σdistribución
distribución
0 , o como el doble del área a la derecha del estadístico, si
menos fiables que para la media, en cuyo caso conviene proceder con cautela.
Comparación
de medias
en dos muestras independientes
normal, los 2intervalos
de confianza y los contrastes para la varianza
poblacional
son
s > σ 02 . Es importante notar que, si la distribución subyacente dista mucho de ser
6.5 Utilizando
desviación
menos fiables que para la media, en cuyoEjemplo
caso conviene
procederlacon
cautela. típica s = 0,29 mmol/l del colesterol HDL
normal, los intervalos de confianza y los contrastes para la varianza poblacional son
que bajo H0 sigue una distribución chi-cuadrado con n – 1 grados de libertad. Así, el valor P del
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio
test se obtiene como el doble del área a la izquierda de este estadístico bajo la distribución χ2n–1,
menos
fiables
que paradesviación
la media, típica
en cuyo=caso
proceder
con cautela.
Ejemplo
0,29conviene
mmol/l
del
colesterol
2
si s2 6.5
≤ σ0Utilizando
, o como elladoble
del área a la sderecha
del estadístico,
si s2 >HDL
σ02 . Es importante notar
viene determinado por
que, si la distribución subyacente dista mucho de ser normal, los intervalos de confianza y los
en loscontrastes
n = 539 controles
del EURAMIC,
el ICson
al 95%
parafiables
la varianza
poblacional
para6.5
la Utilizando
varianza
poblacional
menos
que para
la media, HDL
en cuyo caso
Ejemplo
la desviación
típica
s =2 0,29
mmol/l
del colesterol
2
2
2
(538⋅0,29
/
χ
,
538⋅0,29
/
χ
538; 0 , 975
538; 0 , 025 )
conviene proceder con cautela.
viene determinado por
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional
45,25/475,62)
= (0,075;
Ejemplo 6.5 Utilizando la desviación típica s==(45,25/604,16;
0,29 mmol/l del
colesterol HDL
en los0,095),
2
2
2
2
/ χ 538;0,975por
, 538⋅0,29
/ χ 538;0el
) al 95% para la varianza poblacional viene
n(538⋅0,29
= 539
controles
del
EURAMIC,
, 025IC
viene
determinado
determinado por
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grado
= (45,25/604,16;
45,25/475,62)
2
2 =2(0,075; 0,095),
2
(538⋅0,29 / χ 538;0,975 , 538⋅0,29 / χ 538;0,025 )
2
2
de libertad son respectivamente χ 538
; 0 , 025 = 475,62 y χ 538; 0 , 975 = 604,16. Así, el
= (45,25/604,16; 45,25/475,62) = (0,075; 0,095),
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados
95% de
para
la desviaciónchi-cuadrado
típica del colesterol
HDL endelalibertad
población de referenc
ya que los percentiles 2,5aly 97,5
la distribución
con 538 grados
2
2
de libertad son
son respectivamente χ 538
=
475,62
y
χ
=
604,16.
Así,
el
IC
el
IC
al
95%
para
la
; 0 , 025
538; 0 , 975
ya que los percentiles 2,5esy 97,5 de la distribución chi-cuadrado con 538 grados
desviación típica del colesterol HDL en la población de referencia es
Para
determinartípica
si los del
niveles
de colesterol
en los2controles
del EURAMIC
al 95% para
la desviación
colesterol
la población
de referencia
2 HDL enHDL
de libertad son respectivamente χ 538
025 = 475,62 y χ 538; 0 , 975 = 604,16. Así, el IC
( 0,075 ; 0;0,,095
) = (0,27; 0,31).
son compatibles con una desviación típica poblacional de 0,30 mmol/l, se
es
Para
determinar
si los niveles
controles de
delreferencia
EURAMIC son
al
95%
para la desviación
típicade
delcolesterol
colesterolHDL
HDLen
enlos
la población
compatibles con una desviación típica poblacional
2
2 de 0,30 mmol/l, se contrastó
( 0,075 ; contrastó
0,095 ) =bilateralmente
(0,27; 0,31). la hipótesis nula H0: σ = 0,30 mediante el estadístico
bilateralmente la hipótesis nula H0: σ2 = 0,302 mediante el estadístico
es
(n − 1) s 2 538 ⋅ 0,29 2
( 0,075 ; 0,095 ) = (0,27;
χ 2 = 0,31).
=
= 502,73.
σ 02
0,30 2
1.2 MEDIDAS
1.2 MEDIDAS
DE TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
7
2
Como s < σ0, el valor P corresponde a 2P(χ
≤ 502,73)
=DE
2∙0,140
= 0,280; es
decir,
el
1.2538
MEDIDAS
1.2
MEDIDAS
TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
2
contraste
estadísticamente
significativo,
careciendo
entonces
de
evidencia
para
Como
s <no
σ 0resultó
, Las
el valor
P
corresponde
a
2P(
χ
≤
502,73)
=
2⋅0,140
=
0,280;
es
538
medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acerca
acerca
de cuál
de cuál
es el es
valor
el valor
más más
representativo
representat
7
rechazar la hipótesis nula. La conclusión de este contraste es consistente con el intervalo
Las
medidas
Las medidas
de
tendencia
de
tendencia
central
central
informan
informan
acerca
acerca
de cuál
de cuá
es
0,30
mmol/l.
de confianza
para
σ,
queestadísticamente
éstevariable
incluye
el
nulo
σde
de una
dedado
determinada
una determinada
variable
o, valor
dicho
o, dicho
de forma
forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican
decir,
el contraste
no
resultó
significativo,
careciendo
entonces
0 =
de una
de determinada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalene
alrededor
alrededor
de qué
valor
qué valor
senula.
agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las
de tendencia
de tendencia
de evidencia para
rechazar
lade
hipótesis
La conclusión
de este
contraste
es medidas
6.3 COMPARACIÓN DE MEDIAS EN DOS
MUESTRAS
alrededor
alrededor
de qué
deINDEPENDIENTES
valor
qué valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las m
L
central
de lade
muestra
muestra
sirven
sirven
tantoσtanto
para
resumir
losincluye
resultados
los resultados
observados
observados
comocomo
para para
consistente concentral
el intervalo
delaconfianza
para
,para
dado
queresumir
éste
el valor
Hasta ahora se han revisado las técnicas estadísticas para realizar inferencias sobre el valor de
central
central
de lademuestra
la muestra
sirven
sirven
tantotanto
parapara
resumir
resumir
los resultados
los resulta
un parámetro
unarealizar
población.
Sin
embargo,
una
situación
muchopoblacionales
máspoblacionales
frecuente
en correspondientes.
la práctica A A
realizar
inferencias
inferencias
acerca
acerca
de los
deparámetros
los parámetros
correspondientes.
= 0,30
mmol/l.
nulo σ 0 en
es la comparación de un determinado parámetro entre dos poblaciones distintas. En este apartado
realizar
realizar
inferencias
inferencias
acerca
acerca
de los
deparámetros
los parámetros
poblacionales
poblacionale
co
se presentan los métodos
para comparar
la media
poblacional
deestimadores
una variable
cuantitativa
acentral
continuación
continuación
se describen
se describen
los principales
los
principales
estimadores
de lade
tendencia
la tendencia
central
de una
de una
partir de dos muestras independientes, donde las observaciones de una muestra no están
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de ladete
relacionadas
o emparejadas
con las observaciones
de la otra muestra.
6.3
COMPARACIÓN
DE
MEDIAS
EN DOS MUESTRAS
INDEPENDIENTES
variable.
variable.
En adelante, la media y la varianza de la variable
aleatoria
variable.
variable.en la primera población se denotan
Hasta
revisado
lasMedia
técnicas
realizar
inferencias
sobrelaeldiferencia
y σ12, yseenhan
la segunda
población
porestadísticas
μ2 y σ22. Elpara
objetivo
se centra
en estimar
por μ1 ahora
1.2.11.2.1
Media
aritmética
aritmética
entre ambas medias poblacionales μ1 – μ2 a partir de dos muestras independientes de dichas
1.2.11.2.1
Media
Media
aritmética
aritmética2
valor
de un parámetro
una
población.
Sin
embargo,
situación
mucho
Laen
media
media
aritmética,
aritmética,
denotada
denotada
por una
xpor
, se
xdefine
, se define
como
como
la más
suma
la 2suma
de cada
de cada
uno de
unolos
de los
poblaciones
de tamaños
nLa
1 y n2 con medias respectivas 1 y 2 y varianzas s1 y s2 .
media
La media
aritmética,
aritmética,
denotada
denotada
por por
x 1,–sex 2define
, se
comocomo
la suma
la s
quedefine
Como cabría esperar, el estimador puntual es laLa
diferencia
de las
medias
muestrales
frecuente en la práctica
es
lamuestrales
comparación
dedividida
unpor
determinado
parámetro
entre dosrealizadas.
valores
valores
muestrales
dividida
elpor
número
el número
de observaciones
de observaciones
realizadas.
Si denotamos
Si denotamos
representa además un estimador insesgado y consistente de la diferencia subyacente μ1 – μ2 en la
valores
valores
muestrales
muestrales
dividida
dividida
por el
por
número
elnecesario
número
de observaciones
de observacion
r
población. Para
realizar
inferencias
sobre
esta
diferencia
de medias
poblacionales,
es
poblaciones
distintas.
este
semuestral
presentan
los
para
comparar
media
porEnnpor
el tamaño
n apartado
el tamaño
muestral
y poryxpor
xvalor
observado
observado
para para
el la
sujeto
el
sujeto
i-ésimo,
i-ésimo,
i = 1,i ...,
= 1,n,..., n
i el métodos
i el valor
por npor
el ntamaño
el tamaño
muestral
muestral
y pory xpor
el xvalor
observado
observado
parapara
el su
i el valor
poblacional de una variable
cuantitativa
a dada
partir
de dos muestras independientes, idonde
la media
la media
vendría
vendría
dada
por por
Pastor-Barriuso R.
la media
la media
vendría
vendría
dadadada
por por
las observaciones de una muestra no están relacionadas no emparejadas
con las
n
x1 + x12 ++ x...2 ++ x...n + x n
1 1
.
.
= x i
= xi =
x = x
83
continuación
continuación
se describen
seaproximadamente
describen
los principales
los
principales
estimadores
estimadores
de la tendenc
de la ten
distribuciones
normales
N(μ1, muestrales
σn12 /n
, σx222 /n
Así,
allas
tratarse
1) y N(xμ
2), respectivamente.
centraltamaños
del límite),
las medias
seguirán
1 2y
y
son
suficientemente
grandes
(recuérdese
el la
teorema
ambos
muestrales
n
1
2
de muestras independientes (véase Apartado 3.4), la distribución
muestral de
variable.
variable.
variable.
variable.
Inferencia
sobre medias
de
muestras
independientes
Apartado
la2),
distribución
muestral de la
σ 12 /n
σx 222 /n
respectivamente.
distribuciones
normales
N(μ(véase
1,muestrales
1) y N(
x1μ2y,3.4),
seguirán
aproximadamente
central
del de
límite),
lastambién
medias
diferencia
medias
será
aproximadamente
normal
con media Así, allastratarse
1.2.11.2.1
Media
Media
aritmética
aritmética
diferencia
de
medias también(véase
será aproximadamente
normal
con media
1.2.1 Media
1.2.1
aritmética
2 Media
de muestras independientes
3.4),
laaritmética
distribución
muestral de la
μ1x, σ-12 x/nApartado
distribuciones
normales N(E(
1) y N(μ2, σ 2 /n2), respectivamente. Así, al tratarse
)
=
E(
x
)
E(
x
)
=
μ
μ
2x define
1como
x 1,–se
,2. Si
se ambos
define
como
la2suma
lamuestrales
suma
uno
de
los
de los
Laconocer
media
La media
aritmética,
aritmética,
denotada
denotada
por
1de cada
2de cada
la
distribución
muestral
de1por
tamaños
n1 y nuno
2 son suficientemente
La
media
La
media
aritmética,
aritmética,
denotada
denotada
por
x
, se xdefine
, se define
como como
la suma
la suma
de ca
grandes
(recuérdese
el
teorema
central
del
límite),
las
medias
muestrales
1 y
2 seguirán
diferencia
deindependientes
medias también
media depor
E((véase
x1será
- x 2aproximadamente
) = E( x1 )3.4),
- E(2la
x 2 distribución
)normal
= μ1 - μcon
2 2 muestral
de
muestras
Apartado
la
valores
valores
muestrales
muestrales
dividida
dividida
por el
pornúmero
elnormales
número
de observaciones
de observaciones
realizadas.
realizadas.
Si denotamos
Si denotamos
aproximadamente
las distribuciones
N(μ
1, σ1 /n1) y N(μ2, σ2 /n2), respectivamente. Así, al
y varianza
valores
valores
muestrales
muestrales
dividida
dividida
por
el
por
número
el número
observaciones
de observaciones
realizad
re
tratarse de muestras independientes (véase Apartado 3.4), la distribución muestral
de
la de
diferencia
diferencia
de
medias
también
será
aproximadamente
normal
con
media
E(
x
x
)
=
E(
x
)
E(
x
)
=
μ
μ
1
2
1
2
1
2
yelvarianza
por
ntamaño
el también
tamaño
muestral
muestral
y pory xpor
observado
observado
para
para
el sujeto
el sujeto
i-ésimo,
i-ésimo,
i = 1,i =...,1,n,..., n,
i elxvalor
i el valor
denpor
medias
será aproximadamente
normal
con
media
2
2
var( x1 - x 2 ) = var( xpor
)
+
var(
x
)
=
σ
/n
+
σ
/n
.
el valor
observado
observado
para elpara
sujeto
el su
i
n
por
el
tamaño
n
el
tamaño
muestral
muestral
y
por
y
x
xi el valor
1
2
1
2
1
2 i por
la media
lay media
vendría
vendría
dadadada
por por E( x1 − x 2 ) = E( x1 ) − E( x 2 ) = μ2 1 − μ 2 2
varianza
var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = σ 1 /n1 + σ 2 /n2.
la media
la media
vendría
vendría
dada por
dada por
En
consecuencia,
se
tiene que
y varianza
n
x n+ x2n/n + σ 2 /n .
1 n xx1 )++xx1var(
2++x...
2x +)...
yEn
varianza
var(
x1x−=
x1x2 )
1
2 = σ
2
2
. 1 .1
== xvar(
consecuencia, se
tiene
que

i = xi =
1 n 1 n x1 + xx2 1++...x 2+ +x n... + x n
n i =1n i =1 
n n 2
2
.
.
=
= xi =
x
x=x i 

σ
σ
~ Nμ − μ , 1 + 2 
En consecuencia, se tiene que x1 − x 2 →
n i =1 n i =1
n
n
1
2
2
2


x1 - que
x 2 ) = var( x1 ) + var( x 2 )n=
2 σ 1 n/n
2 + σ 2 /n2.
En consecuencia, var(
se tiene
σ 11
σ 22 1
~

μutilizada
→N
+ y deymás
La media
La media
es laesmedida
la medida
de tendencia
dextendencia
central
de más
fácilfácil
1 − x 2 central
1 − más
2 , utilizada
 μmás
n
nmedida
1
2 
 La media
La media
es
la
es
la
medida
de
tendencia
de tendencia
centralcentral
más utilizada
más utilizada
y de my
2
2
En
consecuencia,
se tiene que de una


σ
σ
o,
aplicando
la
estandarización
distribución
normal,
1
2
~
interpretación.
Corresponde
al “centro
“centro
gravedad”
de gravedad”
de los
de+datos
los datos
la muestra.
Su Su
de lademuestra.
xal
x 2de
N
→
− μ normal,
o, interpretación.
aplicando laCorresponde
estandarización
de
distribución
1 −una
2,
 μ1 interpretación.
n
n
interpretación.
Corresponde
Corresponde
al
“centro
al
“centro
de gravedad”
de gravedad”
de losde
datos
los da
de
1
2


o, aplicando la estandarización de una distribución
normal,
2
2
principal
principal
limitación
limitación
es que
es que
está está
muy
los
por valores
losσvalores
extremos
y, eny,este
en este
2 extremos
x1 muy
−influenciada
x ~influenciada
− ( μ1 − μpor
2 ) ~σ 1
μ1 −principal
μ 2limitación
, N (+limitación
x1 −
x 2 2→
Nprincipal
. queesestá
0, 1)es
→

que
muy
está
influenciada
muy
influenciada
por lospor
valores
los valo
ex
2
n2 
1
σ1 22− μ 2 ) ~nnormal,
σ
o,
aplicando
la
estandarización
de
una
distribución
1
μ
x
−
x
−
(
1
2
caso,caso,
puede
puede
no ser
no un
serfiel
un reflejo
fiel reflejo
de ladetendencia
la tendencia
central
central
+
→ de
N (la
0de
, distribución.
1)la. distribución.
2 caso,
2 puede
n
n
1
2
caso,
puede
no
ser
no
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distrib
de la
σ1 σ 2
+
o,
aplicando
la estandarización
normal,
μ 2 )la~comparación
x1 de
− xuna
− distribución
( μ1n 2−para
2n la
Esta
distribución
muestral constituye
de dos medias poblacionales
1 base
→sobre
N (sobre
0,estimadores
1) . estimadores
Ejemplo
Ejemplo
1.4 En
1.4este
En este
y enylos
en sucesivos
los sucesivos
ejemplos
ejemplos
muestrales,
muestrales,
se se
2
2
a partir
de muestras
independientes.
No
para
hacer
uso de este de
resultado,
es necesario
Esta
distribución
muestral constituye
la
para
la1.4
comparación
dos
medias
σ 1obstante,
σ 2base
Ejemplo
Ejemplo
En
1.4
este
En
y
este
en
los
y
en
sucesivos
los
sucesivos
ejemplos
ejemplos
sobre sobre
estimae
+
2
2
estimar
previamente
las
varianzas
desconocidas
σ
de
ambas
poblaciones.
La
estimación
x
x
1 −
2n− ( μ 1n− μ σ
2 1) y
~
2
utilizarán
utilizarán
los valores
los valores
del colesterol
delconstituye
colesterol
HDL
en
losprimeros
10 primeros
sujetos
sujetos
del del
1HDL
2obtenidos
Esta
distribución
muestral
la
baseobtenidos
para
la
comparación
de 2dos
medias
→No
Nen
(0obstante,
,los
1) .10
2
poblacionales
a partir desimuestras
para
deHDL
esteHDL
se simplifica
notablemente
se asumeindependientes.
varianzas
iguales
σcolesterol
= σuso
cuyo
caso obtenidos
2
1 del
2 , en
utilizarán
utilizarán
losson
valores
los
valores
delhacer
colesterol
obtenidos
en losen
10lo
σ 1que
σlas22 dos
+
es posible
obtener
una
estimación
combinada
de
la
varianza
común
para
ambas
poblaciones.
estudio
estudio
“European
“European
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and
and
Cancer
Cancer
of
of
poblacionales
a partirStudy
de2 Study
muestras
independientes.
Nolaobstante,
para
hacer
de
n1 poblacional
nla2 base
2 uso
2 este
distribución
para
comparación
de
medias
σ2estimar
, cadaconstituye
varianza
deberá
estimarse
por
separado,
Porresultado,
elEsta
contrario
si σ12 ≠muestral
es necesario
previamente
las
varianzas
desconocidas
σdos
yon
σAntioxidants,
1Antioxidants,
2 de siendo
estudio
estudio
“European
“European
Study Study
on
Myocardial
Myocardial
InfarctI
entonces
más
impreciso
el
proceso
de
inferencia.
Parece
razonable
pensar
que
la
comparación
2
2
the Breast“
the Breast“
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicéntrico
multicéntrico
de casos
de
casos
y controles
y controles
resultado,
necesario
estimar
previamente
las
desconocidas
σrealizado
y realizado
σde
1 uso
2 de
poblacionales
acomplicada
partir
de
muestras
independientes.
No obstante,
para
hacer
este
de ambas
medias
es es
más
enconstituye
distribuciones
convarianzas
distinta
variabilidad
que
enmedias
distribuciones
La
estimación
se simplifica
notablemente
si
se asume
lasestudio
dos
Estapoblaciones.
distribución
muestral
la base
para
comparación
de
dosque
the
Breast“
thelaBreast“
(EURAMIC),
(EURAMIC),
un
estudio
un
multicéntrico
multicéntrico
de casos
de ca
y
con entre
una entre
misma
varianza.
La
igualdad
de
varianzas
no
es
una
asunción
puramente
teórica,
sino
1991
1991
y 1992
y 1992
en
en ocho
países
países
Europeos
Europeos
e Israel
e Israel
parapara
evaluar
evaluar
efecto
el efecto
de los
de
los
2que
2 dos
ambas
poblaciones.
La ocho
estimación
se
simplifica
notablemente
si seelasume
resultado,
es necesario
previamente
las
varianzas
desconocidas
σ
y países
σlas
quepoblacionales
tiene implicaciones
como
puede
apreciarse
el
siguiente
ejemplo.
1 uso
2 de
a partirprácticas
deestimar
muestras
independientes.
No en
obstante,
para
hacer
de
este
entre
1991
entre
y1991
1992
y en
1992
ocho
en
países
ocho
Europeos
Europeos
e Israel
e Israel
para evalu
para
9
2 dos
ambas
poblaciones.
estimación
se simplifica
notablemente
si se asume
las
Ejemplo
EnLa
elestimar
ensayo previamente
clínico
del Ejemplo
6.2 sedesconocidas
pretende
comparar
resultado,
es6.6
necesario
las varianzas
σ 12 que
y σlas
de5 5 de
2 medias
9
presión arterial sistólica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo.
Si este
tratamiento
unasereducción
nivel de presión
ambas
poblaciones.
Laprodujera
estimación
simplificadel
notablemente
si searterial
asume aproximadamente
que las dos
igual en todos los pacientes, cabría esperar que la distribución de la presión arterial en9los
tratados presentara un nivel medio inferior que en el grupo placebo manteniendo
inalterable la variabilidad. En tal caso, estaríamos ante una comparación de medias
9 en
distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento
produjera una disminución de la presión arterial sistólica proporcional al nivel basal de
cada paciente (esto es, mayor reducción en los sujetos con niveles más altos), la presión
arterial en el grupo tratado tendría menor nivel medio y dispersión que en el grupo placebo.
Bajo esta circunstancia, nos encontraríamos con una comparación de medias en
distribuciones con distinta varianza (Figura 6.2(b)).
84
Pastor-Barriuso R.
Comparación de medias en dos muestras independientes
Tratamiento
Placebo
μ trat
μ plac
(a) Efecto constante
Tratamiento
Placebo
6.3.1 Comparación de medias en distribuciones con igual varianza
Si se asume que las varianzas poblaciones son iguales σ 12 = σ 22 , resulta natural estimar
una única varianza combinada a partir de la información disponible en ambas muestras.
μ trat
μ plac
Así, se obtendrá un estimador más estable
de la varianza
poblacional, lo que redundará
(b) Efecto proporcional
en una mayor precisión de la estimación de la diferencia de medias y en una mayor
Figura 6.1
Figura 6.2 Distribución de la presión arterial sistólica en los grupos placebo y tratamiento de un hipotético
ensayo clínico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.
potencia del contraste.
6.3.1 LaComparación
de mediasmuestrales
en distribuciones
igual
varianza
s12 y s 22 con
podría
utilizarse
como estimador
media de las varianzas
Si se asume que las varianzas poblacionales son iguales σ12 = σ22, resulta natural estimar una
combinado
la varianza.
Esta media
sin embargo,
ineficiente
que otorga
el Así, se
única
varianzade
combinada
a partir
de la es,
información
disponible
en ya
ambas
muestras.
obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor
mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de
precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.
s22 podría
s12 ydar
utilizarse
como estimador
combinado
de
La
de las
varianzas
muestrales
unamedia
muestra
mayor
sea más
fiable. Para
más peso
a los resultados
obtenidos
con
la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas
varianzas
muestrales,
aun cuando
la varianza
estimada
de una
muestracomo
mayorlasea más
mayor tamaño
muestral,
la estimación
combinada
dealapartir
varianza
se obtiene
fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación
2
2 varianza
2
ponderada
por sus correspondientes
combinada
se obtiene como la media de s12 y s2grados
media dedesla
de libertad
1 y s 2 ponderada por sus correspondientes
grados de libertad
s2 =
=
(n1 − 1) s12 + (n 2 − 1) s 22
n1 + n 2 − 2
n1
n2
i =1
j =1
 ( xi − x1 ) 2 +  ( x j − x 2 ) 2
n1 + n 2 − 2
.
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la
El numerador
de s2 yeselsimplemente
la corresponde
suma de las desviaciones
cuadrado
respectopara
de el
media
de cada grupo,
denominador
al número dealgrados
de libertad
cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda,
media
y el denominador corresponde al número de grados de libertad
(n1 la
– 1)
+ (n2de– cada
1) = ngrupo,
1 + n2 – 2.
para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 –
1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2.
Pastor-Barriuso R.
En la distribución muestral de la diferencia de medias, las varianzas desconocidas
85
A partir
de esteyaresultado,
y siguiendo
un procedimiento
análogo al utilizado
para una
de la diferencia
de medias
no será normal,
sino que
seguirá aproximadamente
una
Inferencia sobre medias
un intervalo
de confianza
al 100(1 - α)% para
distribución media
t de
con n5.3.2),
+ medias
n2 puede
– 2 grados
de libertad,
1de
deStudent
la(Apartado
diferencia
yaderivarse
no será
normal,
sino que
seguirá aproximadamente
una
la diferencia
detmedias
poblacionales
2 comode libertad,
distribución
de
+ n~μ
2 1– -2μgrados
x1 Student
−muestral
x 2 − ( μcon
En la distribución
denμ1la
de medias, las varianzas desconocidas σ12 y σ22
1 −
2 ) diferencia
→ t n1 + n2 − 2 .
pueden
entonces sustituirse
combinada
la varianza
s2. Sin embargo,
de la diferencia
de medias
ya
noestimación
será normal,
sino quede
seguirá
aproximadamente
unacomo
1 por
1 la
2
s
+
esta estimación s está sujeta al error
del muestreo, la~1distribución
de la diferencia de medias ya
1
n1 x1n−2 xx12 −± xt 2n1 +−n2(−μ2,11−−α /μ2 2s) →
t
n1 + n2 − 2, .
+
nodistribución
será normal,t de
sinoStudent
que seguirá
una
distribución
t de Student con n1 + n2 – 2
grados
de
conMEDIDAS
naproximadamente
1.2
1 + n2 –
1 2 DE
1 TENDENCIA
n1libertad,
n 2 CENTRAL
s
+
grados
de
libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL
n2
A partir de este resultado, y siguiendo un procedimiento
análogo
al1.2
utilizado
para
una
1.2 MEDIDAS
MEDIDAS
DE TENDENCIA
DE TENDENCIA
informan
acerca
de cuál CENTRAL
es el CENTRAL
valor más represen
− x 2 −de( μtendencia
− medias
μ 2 ) ~central
1de
que está centrado alrededorLas
de medidas
lax1diferencia
muestrales
y
cuya
amplitud
→
t
n1 + n2 − 2 .
Las
medidas
de
tendencia
central
informan
cuál es
valor más representativo
media (Apartado
5.3.2),
derivarse
un
intervalo
de confianza
- αel
)%
1 un
1 acercaalde100(1
A partir
depuede
este resultado,
y siguiendo
procedimiento
análogo
al para
utilizado para una
de una determinada
o, dicho
detendencia
forma
equivalente,
estos estimadores
indic
+ variable
s
Las
medidas
Las
medidas
de
de
tendencia
central
informan
acerca
acerca
de cuál
de es
c
intervalo
es informan
depende de su error estándar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias
poblacionales
(Apartado
5.3.2),μalrededor
puede
derivarse
un
intervalo
de confianza
alobservados.
100(1 - α)%
para
1 - μ2 como
de un
quéprocedimiento
valor
se una
agrupan
los
datos
Las
medidas
de
tendencia
de
dedeterminada
una
determinada
variable
variable
o,
dicho
o,
dicho
de
forma
de forma
equivalente,
equivale
A
partir
de
este
resultado,
y
siguiendo
análogo
al
utilizado
para
una
media
una generalización
bastante
natural
del
intervalo
para
la
media
de
una
poblacional.
alrededor
de puede
qué valor
se
agrupan
los
datos
medidas
tendencia
(Apartado
5.3.2),
derivarse
un intervalo
deobservados.
confianzaanálogo
alLas
100(1
α)%depara
la diferencia
Alapartir
de
este
y siguiendo
procedimiento
al– utilizado
para
una
diferencia
deresultado,
medias
poblacionales
μun
1 - μ2 como
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como Las
par
alrededor
alrededor
de
qué
de
valor
qué
valor
se
agrupan
se
agrupan
los datos
los datos
observados.
observados
1
de medias poblacionales μ1 – μ2 como 1
x
x
t
s
−
±
+
,
n
+
n
−
−
α
1
2
2
,
1
/
2
1
2
central de la muestra sirven tanto para
resumir
los resultados observados como para
n1 un
nla2intervalo
Ejemplo
6.7 En
el estudio
media y la
del - α)% para
media
(Apartado
5.3.2),
puedeEURAMIC,
derivarse
dedesviación
confianza típica
al 100(1
realizar inferencias acerca
de
parámetros
poblacionales
central
central
de la
muestra
la muestra
sirven
sirven
tantotanto
paracorrespondientes.
resumir
para resumir
los resultados
los A
resul
1los
1de
x 2 ±parámetros
t n1 + n2 − 2,1−α / poblacionales
+
, correspondientes. A
2 s
realizar inferencias acercax1de− los
infarto
miocardio
fueron x ca =
colesterol HDL
entrepoblacionales
los nca = 462 μcasos
ncuya
la diferencia
- μ2decomo
1 de n
2
continuación
se1muestrales
describen
los
principales
estimadores
la
central
de unc
que está centrado
alrededorde
demedias
la diferencia
de medias
yrealizar
amplitud
realizar
inferencias
inferencias
acerca
acerca
de losdeparámetros
lostendencia
parámetros
poblacionales
poblacion
continuación
se
describen
los
principales
estimadores
de
la
tendencia
central
de
una
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de
0,98 y sca = 0,25 mmol/l,
y entre los nco = 539
controles
fueron
co = 1,09 y sco =
continuación
continuación
describen
seyxdescriben
los
principales
los principales
estimadores
estimadores
de la dt
que está
centrado
medias
cuya
amplitud
x1 − xvariable.
s la1 /diferencia
n1 + 1 / n 2 de
. Notar
SE(alrededor
depende de su error
estándar
que
este
intervalo
es una
generalización
2 ) =de
1 muestrales
1 se
x
x
t
s
−
±
+
,
variable.
n1 + nde
1
1−α / 2población.
2 − 2 ,una
bastante natural del intervalo para
la2media
n1 n 2 puntual de la diferencia
0,29 mmol/l. De estos datos se deduce que la
estimación
variable.
xpara
xla
= s variable.
1 de
/ n1una
+ 1 /poblacional.
n 2 . Notar que este intervalo es
depende
de sunatural
error estándar
SE(
una generalización
bastante
del1.2.1
intervalo
Media
1 - aritmética
2 ) media
Ejemplo
6.7medio
En el
EURAMIC,
desviación
colesterol
1.2.1
aritmética
x camedia
- x co y=la0,98
- 1,09 =típica
-0,11del
mmol/l.
Si HDL
en el Media
nivel
deestudio
colesterol
HDL es la
que
está
centrado
alrededor
de
la
diferencia
de
medias
muestrales
y
cuya
amplitud
La
media
aritmética,
denotada
por
x
,
se
define
como
la
suma
de cada
entre
los
n
=
462
casos
de
infarto
de
miocardio
fueron
=
0,98
y
s
=
0,25
mmol/l,
y uno de los
1.2.1
1.2.1
Media
Media
aritmética
aritmética
una generalización
bastante natural del intervalo
para
la media
una poblacional.
ca
ca de
ca
Ejemplo 6.7La
En
el
estudio
EURAMIC,
la
media
y
la
desviación
típica
del
media
denotada
por x co, se
define
la suma
de De
cada
unodatos
de los
entre
los naritmética,
= 539 controles
fueron
= 1,09
y scomo
= 0,29
mmol/l.
estos
se deduce
asumimoscouna misma variabilidad del
colesterolco HDL en casos y controles, la
valores
muestrales
dividida
por
el
número
de
observaciones
realizadas.
Si denotam
media
aritmética,
denotada
denotada
por
xdefine
, se
como
como
la sum
l
que ladeestimación
puntual de
el
colesterol
HDL
es xpor
– es
= define
s La
1 /nivel
nmedia
+ 1medio
/ aritmética,
n 2 . de
Notar
que
este
intervalo
depende
su error estándar
SE(laxdiferencia
1 La
1 - x 2 ) = en
ca, se
co
=
462
casos
de
infarto
de
miocardio
fueron
x
=
colesterol HDL
entre
los
n
cammol/l,
Ejemplo
6.7
Endividida
elmmol/l.
estudio
EURAMIC,
la
media
y lavariabilidad
desviación
típica
del
ca0,11
valores
muestrales
por
el
númeroesde
observaciones
realizadas.
Si
denotamos
0,98
–
1,09
=
–
Si
asumimos
una
misma
del
colesterol
HDL
en
es
decir,
la
desviación
típica
combinada
s
=
0
,
074
=
0,272
cuyo
varianza combinada de ambas muestras vendría determinado por
por natural
n el combinada
tamaño
muestral
y por
ximedia
el muestrales
valor
para
elpor
sujeto
i = 1, ..
valores
valores
muestrales
dividida
dividida
por
elpor
número
el
número
dei-ésimo,
observaciones
de observaci
y controles,
la varianza
de ambas
muestras
vendría
una casos
generalización
bastante
del intervalo
para
la
deobservado
unadeterminado
poblacional.
0,98 y sca =por
0,25
y entre
los nalos
=ndesviación
539
controles
fueron
xpara
=enel
1,09
y scoi-ésimo,
=fueron
casos
de
infarto
miocardio
x=ca1,=..., n,
colesterol
HDL
entre
n mmol/l,
elestá
tamaño
muestral
ycolapor
x=i el462
valor
observado
sujeto
code
ca
valor
más
próxima
típica
observada
los
controles
quei en
2
2
la
media
vendría
dada
por
(n ca − 1) s ca + (n co − 1) s conpor
el tamaño
n el tamaño
muestral
muestral
y poryxpor
xi el valor
observado
observado
para el
pa
i el valor
s2 =
la De
media
vendría
dada
por
0,29 mmol/l.
estos
datos
se
deduce
que
la
estimación
puntual
de
la
diferencia
0,98
y
s
=
0,25
mmol/l,
y
entre
los
n
=
539
controles
fueron
x
=
1,09
y
s
=
co
los
casos ca
(mayor
muestral
el error estándar
la co
− co
2primeros).
n ca + de
n colos
Ejemplo
6.7 En tamaño
el estudio
EURAMIC,
la media Así,
y la desviación
típicadedel
la
media
vendría
dada
dada
por
por
es decir, la desviación típica combinada es sla=media
0,074
=
0,272
mmol/l,
cuyo
n vendría
x + x 2 + ... + x n
12
2
(462
−ca1se
)-0x,deduce
25
+0,98
(539
−
1estimación
) 0x=,=
29
= 1 Si
xpuntual
x
1,09
-0,11
mmol/l.
en el nivel medio
demmol/l.
colesterol
HDL
es
diferencia
de
medias
puede
calcularse
como
n =
co
0,29
Deentre
estos
datos
que
la
la diferencia

i
=
462
casos
de
infarto
de
miocardio
fueron
x ca .=
colesterol
HDL
los
n
x1 + x 2 + ... +n xi==n1 0,074; de
=
ca 1
n
= −2
x = 462
 +xi539
valor está más próxima a la desviación
en.los controles que 1enn 1 n x1 + xx21 + ...
x 2++x...
n +
n i =1 típica observada
n
.
= x
= xSi
= xi =
xmmol/l.
asumimos una0,98
misma
variabilidad
del
colesterol
HDL
en
la
x
x
0,98
1,09
=
-0,11
en
ely nivel
medio
de
colesterol
HDL
es
i
cacasos
co y=controles,
=
0,25 mmol/l,
ycombinada
entre
controles
fueron
x co = cuyo
1,09
sn =
1 los1nco
1 =10,272
ca desviación
n yivalor
n
n
es
típica
es=s 539
es decir,
decir,sla
la
desviación
típica
combinada
=
0
,
074
mmol/l,
=1 co
i =está
1
)muestral
=media
+lalos
= 0,272
+ el error
= 0,017.
s
SE( xtamaño
La
es
medida
de tendencia
central
más utilizada
ca - x co
los casos (mayor
de
primeros).
Así,
estándar
de la y de más fácil
más
próximo
a
la
desviación
típica
en
los
controles
que
en
los
casos (mayor
462
539
n
n
ca observada
co
varianza combinada
de ambas
muestras
determinado
La
media
esuna
la medida
de vendría
tendencia
central
máspor
utilizada
de más
fácil
asumimos
misma
variabilidad
del
colesterol
HDL en ycasos
y controles,
la
0,29 está
mmol/l.
De
datos
se deduce
que observada
laestándar
estimación
puntual
de de
laque
diferencia
tamaño
muestral
deestos
los
primeros).
Así,
eltípica
error
de
lalos
diferencia
medias
puede
valor
más
próxima
a
la
desviación
en
controles
en
12
interpretación.
Corresponde
al
“centro
de
gravedad”
de
los
datos
decentral
lamás
muestra.
Su
La media
es la es
medida
la medida
de tendencia
de tendencia
central
utilizada
más util
diferencia de medias puede calcularse como La media
calcularse
como
interpretación.
Corresponde
al
“centro
de gravedad”
deerror
los datos
de la
muestra. Su
Avarianza
partir decombinada
diferencia
medias
y de su
estándar,
y teniendo
ambas
muestras
vendría
determinado
por
2 de
2 muestrales
(nlamedio
) sde
(de
nmuestral
ca − 1tamaño
ca +
co − 1) sHDL
code los
x
=
0,98
1,09
=
-0,11
mmol/l.
Si extremos
encasos
els nivel
colesterol
es
2 (mayor
ca - x co Así,
los
primeros).
el
error
estándar
lavalores
principal
limitación
es
que
está
muy
influenciada
por
losal
y,
=
interpretación.
interpretación.
Corresponde
Corresponde
al de
“centro
“centro
de gravedad”
de gravedad”
deen
loses
ded
1
1
1
1
n
+
n
−
2
ca
co
t
de
Student
con
n
+
n
–
2
=
999
grados
de
en cuenta
que
la
distribución
principal
limitación
es
que
está
muy
influenciada
por
los
valores
extremos
y,
en
este
ca
co
2
SE( x ca − x co ) =
= 0−,272
+
= 0,017.
(n cascalcularse
−n1cano
) s+ca2ser
+cocomo
(un
ncolesterol
1reflejo
) sprincipal
co
co 462
diferencia
medias
puede
asumimosdeuna
misma
HDL
en
casos
y es
controles,
2 variabilidad
ndel
539
caso,
de
la
tendencia
central
de la
la
distribución.
2 puede
2fiel
principal
limitación
limitación
es que
está
que muy
está
muy
influenciada
influenciada
por los
porval
lo
s
=
(462 − 1) 0,25 + (539 − 1) 0,29
n
+
n
−
2
libertad
virtualmente
acauna
distribución
normal
co
=es no
= 0,074
; de estandarizada,
caso,
puede
ser un fielidéntica
reflejo de
la tendencia
central
la distribución.el IC al
Avarianza
partir de combinada
la diferencia
de
medias
muestrales
y de su
error estándar,
y teniendo en cuenta
462
+ambas
539
− 2muestras
de
vendría
determinado
por
caso,caso,
puede
puede
no2 ser
nounser
fiel
unreflejo
fiel reflejo
de la de
tendencia
la tendencia
central
centra
de l
2
1) muestrales
1
1
1
A
partir
de
la
diferencia
de
medias
y
de
su
error
estándar,
y teniendo
que
la
distribución
t
de
Student
con
n
+
n
–
2
=
999
grados
de
libertad
es virtualmente
(
462
−
0
,
25
+
(
539
−
1
)
0
,
29
ca En=
coeste
y en los +sucesivos
ejemplos
sobre estimadores muestral
95% para μSE(
xcoca viene
- x co=)dado
=Ejemplo
0,272
= 0,017.
s por +1.4
ca - μ
=
0
,
074
;
idéntica
a una distribución
alsobre
95%
para μca – μcomuestrales,
viene dado se
por
n caestandarizada,
n co+ 539ejemplos
462
539estimadores
462
− 2el2 IC
Ejemplo
1.4 En este ynormal
en los
sucesivos
2
(
n
−
1
)
s
+
(
n
−
1
)
s
en cuenta que la distribución
t
de
Student
con
n
+
n
–
2
=
999
grados
de
ca
ca
co
co
ca
co
2
utilizarán los valores del
colesterol
obtenidos
lossucesivos
10 primeros
sujeto
Ejemplo
Ejemplo
1.4 HDL
En
1.4este
En
yeste
en los
y enen
sucesivos
los
ejemplos
ejemplos
sobre
x ca s− x=co ± t999;0,975
SEn( x ca− −2 x co )
12
n
+
ca
co HDL obtenidos en los 10 primeros sujetos del
utilizarán
los
valores
del
colesterol
A partiresdevirtualmente
la diferenciaidéntica
de =
medias
muestrales
y =de(−normal
su
error
estándar, y teniendo
libertad
a una
distribución
IC al
− 0,11
± 1,96⋅0,017
0,14;
0,08).
−estandarizada,
estudio
“European
Study
onutilizarán
Antioxidants,
Myocardial
Infarction
andobtenid
Cancer
utilizarán
los valores
delelcolesterol
del
colesterol
HDLHDL
obtenidos
en
2
2 los valores
(
462
−
1
)
0
,
25
+
(
539
−
1
)
0
,
29
12
estudio
“European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer
of
=
0,074
;
t de Student con nca + nco – 2 == 999
grados
de
en cuenta
la distribución
95%
para μque
ca - μco viene dado
462(EURAMIC),
+ 539 − 2estudio
the por
Breast“
un
estudio
multicéntrico
casos
y controles
reali
estudio
“European
“European
StudyStudy
on de
Antioxidants,
on
Antioxidants,
Myocardial
Myoca
De los
del estudio
EURAMIC
puede
entonces
concluirse
el nivel
theresultados
Breast“
(EURAMIC),
una estudio
multicéntrico
de
casos
y que
controles
realizado
libertad
es
virtualmente
idéntica
una distribución
normal
estandarizada,
el IC
al
86 Pastor-Barriuso R.
entre
1991
y
1992
en
ocho
países
Europeos
e
Israel
el
efecto de
the Breast“
(EURAMIC),
(EURAMIC),
un para
estudio
un evaluar
estudio
multicéntrico
multicéntric
x ca - x co ± t999;0,975 SE( x ca - x co )the Breast“
medio de 1991
colesterol HDL
en
los países
casos de
infarto es
inferiorpara
en 0,11
mmol/l
al de los
ocho
Europeos
e Israel
evaluar
el efecto
95% entre
para μca - μyco1992
vieneendado
por
12 Europeos
entre
1991
1991
y 1992
y 1992
en ocho
en ocho
paísespaíses
Europeos
e Israel
e Isra
pa
= -0,11 ± 1,96⋅0,017 =entre
(-0,14;
-0,08).
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al
Comparación de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad,
estando esta diferencia
que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En
el caso
de la
de medias
poblaciones,
la hipótesis
sujetos
libres
decomparación
la enfermedad,
estandoentre
esta dos
diferencia
comprendida
entrenula
0,08más
y 0,14
área bajo
la
distribución
t
n1 +n2 − 2 para valores más extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de
es
la
igualdad
de ambas medias
poblacionales.
muestras
independientes
con igual
varianza. Para realizar el contraste de esta hipótesis nula
H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico
independientes de igual varianza, se emplea el siguiente test estadístico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en
x1 − x 2
x1 − x 2
t=
=
,
( x1 − libres
x 2 ) de enfermedad
los casos de infarto que en losSE
sujetos
sería compatible con
1
1
que sigue aproximadamente una distribución t de Student con ns 1 + n+
2
grados
de
n1 2 n 2
la hipótesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hipótesis
nula H0: μ1 = μ2 esuna
cierta.
Por tanto,t de
el valor
P secon
obtiene
el
sigue aproximadamente
distribución
Student
n1 + ncomo
2 – 2 grados de libertad si
la hipótesis
nula En
H0:este
μ1 =ejemplo,
μ2 es cierta.
Por tanto,
el valor
se obtiene
comode
el los
área bajo la
miocardio.
se pretende
contrastar
estaP hipótesis
a partir
valores más
másextremos
extremosque
queelelvalor
valor
observado
área bajo la distribución t n1 +n2 − 2 para valores
observado
de de
t. t. Esta prueba de
13
niveles
de colesterol
HDL observados
y controles
del estudio
hipótesis
se conoce
genéricamente
como el testendelos
la tcasos
de Student
para muestras
independientes
igual varianza.
Esta prueba con
de hipótesis
se conoce genéricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimación puntual y por
muestras independientes
varianza.
Ejemplo con
6.8 igual
Un nivel
medio de colesterol HDL significativamente más bajo en los
intervalo
obtenida
en
ejemplo
evaluar
nocompatible
sólo la
casos de infarto que enellos
sujetosanterior,
libres depermiten
enfermedad
sería
con la hipótesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significación
Un nivelse
medio
de colesterol
HDL
máslos
en pública
estadística
sino también
la relevancia
clínica
y bajo
deniveles
salud
del HDL
ejemplo,
pretende
contrastar
estasignificativamente
hipótesis
a partir
de
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
que
los sujetos
libresyde
enfermedad
sería compatible
con anterior, permiten
junto
con
la en
estimación
puntual
por
intervalo obtenidas
en el ejemplo
evaluar no sólo la significación estadística sino también la relevancia clínica y de salud
la hipótesis Asumiendo
de
que eldel
colesterol
es un factor
protector enelelcontraste
infarto de
igualdadHDL
de varianzas
poblacionales,
bilateral de la
pública
hallazgo.
Asumiendo
igualdad
de varianzas
poblacionales,
contraste
miocardio. En
este ejemplo,
contrastar
esta hipótesis
a partir bilateral
de los de la hipótesis nula
H0se
: μpretende
realiza
mediante
elelestadístico
hipótesis
nula
ca = μco se
H0: μca = μco se realiza mediante el estadístico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca − x co
− 0,11
= − 6,35.
t=
=
SE (junto
x ca − con
x co ) la estimación
0,017
EURAMIC. El resultado de este contraste,
puntual y por
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o
intervalo obtenida
en medias
el ejemplo
anterior, permiten
evaluar la
nodistribución
sólo la
Si
ambas
poblacionales
fueran El
iguales,
de este
estadístico
aproximadamente
normal estandarizada.
valor P bilateral
se obtiene
entonces
como el doble
de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde
significaciónsería
estadística
sino también la relevancia
clínica y de salud
pública
del se obtiene
normal
estandarizada.
El muy
valor
P bilateral
a P < t0,001.
Así, puede concluirse
que existen
diferencias
significativas
en el nivel medio
999 o aproximadamente
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
que éstepoblacionales,
no contenía al cero
(valor nulo
para la de
diferencia
medias).
Asumiendo distribución
igualdadpuesto
de varianzas
el corresponde
contraste
bilateral
la Así,depuede
normal estandarizada,
que
a P < 0,001.
métodos
en este apartado
extenderse a la comparación de tres o más medias
hipótesis Los
nula
H0: μca descritos
=que
μco existen
se realiza
mediantepueden
el estadístico
concluirse
diferencias
muy
significativas
el nivelindependientes
medio de
poblacionales. Las técnicas para comparar medias en múltiplesen
muestras
se conocen
con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados
colesterol
HDL
entre
los
y los sujetos
enfermedad. Esta
x ca estos
− x coinfartados
- 0,11
al final
del tema.
procedimientos
no selibres
tratandeexplícitamente
en este texto, la
t Aunque
=
=
= -6,35.
comparación de múltiples
de datos independientes también puede abordarse mediante
SE (medias
x ca − xacopartir
) 0,017
los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico
sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene
entonces como el doble de la probabilidad a la izquierda de -6,35 en la
Pastor-Barriuso R.
87
para contrastar estadísticamente la hipótesis de homogeneidad de varianzas en dos
Inferencia sobre medias
muestras independientes.
6.3.2
El test para la igualdad de varianzas poblacionales se basa en la comparación de las
Contraste para la igualdad de varianzas
varianzas muestrales s12 y s 22 . Como se apuntó anteriormente (Apartado 6.2.2), si la
La comparación de medias
presentada en el apartado anterior se fundamenta en la asunción de
igualdad de varianzas. Esta asunción es determinante para poder calcular una estimación
distribución
de En
la variable
es normalseenpresentan
ambas poblaciones,
los estadísticos
combinada
de subyacente
la varianza.
este apartado
los métodos
para contrastar
estadísticamente
la hipótesis de homogeneidad de varianzas en dos muestras independientes.
(n1 – 1) s12 / σ 12 y (n2 – 1) s 22 / σ 22 se distribuyen como una chi-cuadrado con n1 - 1 y n2 El test para la igualdad de varianzas poblacionales se basa en la comparación de las varianzas
2
s22. Como
se apuntó anteriormente
(Apartado
6.2.2), si ladedistribución
subyacente
muestrales
1 gradoss1deylibertad,
respectivamente.
Combinando
la distribución
estos
estadísticos
2
2
de la variable es normal en ambas poblaciones, los estadísticos (n1 – 1)s1 /σ1 y (n2 – 1)s22/σ22 se
distribuyen
una independientes,
chi-cuadrado con
n2 – 1 grados de libertad, respectivamente.
1 – 1 yque
en ambascomo
muestras
se nobtiene
Combinando
la distribución
de estosseestadísticos
en ambas
independientes,
se obtiene
A la derecha
de esta expresión
tiene el cociente
de muestras
dos variables
independientes
chi- que
A la derecha de estacuadrado
expresión
se tiene por
el cociente
de
χ n2 −1de
/(independientes
nlibertad,
s12 dos
/ σ 12variables
1 − 1)
divididas
sus respectivos
grados
que sechiconoce como la
1
.
~
2
2
2
s 2 / σ 2 χ n2 −1 /(n 2 − 1)
uadrado divididas distribución
por sus respectivos
grados
de
libertad,
que de
se libertad
conoce como
la
F de Fisher con n1 - 1 grados
en el numerador
y n2 - 1 en el
A la derecha de esta expresión se tiene el cociente de dos variables independientes chiistribución F decuadrado
Fisher con
n1 - 1 grados
libertad en el numerador
y n2 que
- 1 en
2 el
2
2como
2 la distribución
divididas
pordenota
susderespectivos
de libertad,
se
conoce
15
denominador,
y se
por Fn1 −1, n2grados
−1 . Así, la razón entre s1 / σ 1 y s 2 / σ 2 sigue una
F de Fisher con n1 – 1 grados de libertad en el numerador y n2 – 1 en el denominador, y
2
2
enominador, y se denota
/ σ1212y ys22s/σ22 2/2σsigue
2 sigue
denota por
por Fn1 −1, n2 −1 . Así, la razón entre ss112/σ
unauna
distribución F con n1 – 1 y
distribución F con n1 - 1 y n2 - 1 grados de
libertad,
n2 – 1 grados de libertad,
istribución F con n1 - 1 y n2 - 1 grados de libertad,
s12 / σ 12
~ Fn1 −1, n2 −1 .
2
2
2
2
σ
s
/
2
2
s1 / σ 1
~ Fn1 −1, n2 −1 .
2
2
s 2 de
/ σFisher
La distribución F
toma sólo valores positivos y está sesgada positivamente con un
2
F de Fisher
toma
valores
positivos
sesgada
positivamente
valor La
másdistribución
frecuente (moda)
menor
de 1sólo
y una
media
mayor ydeestá
1. Al
aumentar
los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribución Fcon
de Fisher
toma sólo
valores
positivos
y está
positivamente
valor
frecuente
menor
deF1sesgada
una media
de grados
1. Al aumentar
(Figuraun
6.3).
Losmás
percentiles
de(moda)
la distribución
dey Fisher
paramayor
distintos
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apéndice.
on un valor más frecuente
(moda)
menordel
de numerador
1 y una media
mayor de 1. Al
aumentar
los grados
de libertad
y denominador,
tanto
la media como la moda se
os grados de libertad
del0,8
numerador
la
media como
moda se F de Fisher para F
0,8lala
F
aproximan
al valory 1denominador,
(Figura 6.3). tanto
Los percentiles
de
distribución
5,5
5,5
F5,10
F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los
percentiles
de
la
distribución
F
de
Fisher
para
F
F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6
0,6
istintos grados de libertad
del numerador y denominador se presentan en la Tabla 7 del
Apéndice.
f(x)
Apéndice.
0,4
0,4
[Figura 6.3 aproximadamente
aquí]
0,2
0,2
[Figura 6.3 aproximadamente aquí]
0
0
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una
0
1
2
3
0
1
2
Ejemplo 6.9 Utilizando
la TablaF7de
delFisher
Apéndice,
percentil
97,5 de en
unael numerador y denominador
distribución
con 5elgrados
de libertad
x
x
distribución F de Fisher
grados
libertad
en el numerador
7,15, de
y (a)
para
30 grados
de libertadyendenominador
ambos es F
es F con 5 =
5;5;0,975
3
(b)
30;30;0,975
= 2,07.
Función
de densidad
de la distribución
al aumentar los grados de libertad del de= 7,15,6.3yAunque
para
30esta
grados
libertad
ambos Fesdeinferiores,
FFisher
es F5;5;0,975Figura
30;30;0,975 = 2,07.
tabladeno
facilitaenpercentiles
puede comprobarse que el
nominador (a) y del numerador (b).
Figura 6.1
Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso
88
Pastor-Barriuso R.
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, Fd1 , d 2 ,α =
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, Fd1 , d 2 ,α =
or y denominador, la distribución F
rica alrededor del valor 1.
distribución F de Fisher con 5 grados de libertad en el numerador y d
Comparación
medias
en dosde
muestras
independientes
es F5;5;0,975 = 7,15,
y parade30
grados
libertad
en ambos es F30;30;0,975
distribución F30,30 entre 0,48 y 2,07.
Puede
que, al aumentar
Aunque
estaentonces
tabla no observarse
facilita percentiles
inferiores, puede comprobar
2
cociente entre s12 / σ 12Ejemplo
y s 22 / σ 26.9
,
Tabla 7del
delnumerador
Apéndice, yeldenominador,
percentil 97,5ladedistribución
una distribución
F
el número deUtilizando
grados delalibertad
F
α en una ydistribución
F con
grados
1 y d2 =
de Fisher con 5 grados de libertadpercentil
en el numerador
denominador
es Fd5;5;0,975
7,15, de
y libertad es igu
para
grados
de libertad
en ambosy más
es F30;30;0,975
= alrededor
2,07. Aunque
esta 1.
tabla no facilita
ara la razón de dos varianzas
de30
Fisher
se hace
menos dispersa
simétrica
del valor
α
en
una
distribución
F con dF
d1 grados
de libertad
del
percentil
1
2 ycon
percentiles inferiores, puede comprobarse que el percentil α en una distribución
d1
y d2 grados de libertad es igual al inverso del percentil 1 – α en una distribución F con d2
utilidad práctica, nos centraremos
2 en
Fnd1 −2 1,d, n12,1−−1entonces
. Así,
el
percentil
distribuciones
anteriores es F5;
y dpartir
libertad, Fmuestral
elobservarse
percentil
en2las
las
α del
d1 , d 2 ,α = 1/F
1 grados
cociente
entre 2,5
s2,5
s 22distribuciones
/ σ 22 ,
A
de lade
1 / σ 1al y
y 2,07. Puede
que,
aumentar
distribución
Fdistribución
30,30 entre 0,48
anteriores
es
F
=
1/F
=
1/7,15
=
0,14
y
F
=
1/F
=
1/2,07
=
0,48.
traste bilateral de la hipótesis nula 5;5;0,025
5;5;0,975
30;30;0,025
30;30;0,975
Por
tanto,
el
95%
central
de
la
distribución
F
está
comprendido
entre
0,14
y 30;30;0,975
7,15,
y de
1/F
=
1/7,15
=
0,14
y
F
= 1/F
= 1/2,07 = 0,48.
5;5;0,975 5,5 para
30;30;0,025
el número
decalcular
grados de
y denominador,
distribución
F
resulta
sencillo
un libertad
intervalodel
denumerador
confianza
la razón de la
dos
varianzas
e basa en la razón de la
lasdistribución
varianzas F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el
número
del ynumerador
y de
denominador,
la valor
distribución
F de Fisherentre 0,14 y 7,15
95%
la
distribución
F5,5 está
2
2 de libertad
de Fisherdesegrados
menos
dispersa
máscentral
simétrica
alrededor
del
1. comprendido
σhace
poblacionales
1 / σ 2 . No obstante, por su mayor utilidad práctica, nos centraremos
se hace menos dispersa y más simétrica alrededor del valor 1.
aquí en el test para la igualdad de varianzas. El contraste bilateral
de la hipótesis
nula
2 2 2 2 22
2
A partir de la
del cociente
cociente entre
entre ss121/σ
/1σ y1 sy2/σs 22,/ σ
resulta
sencillo
la distribución
distribución muestral
muestral Fn1 −1, n2 −1 del
2 ,
2 2
2 intervalo
2
calcular
de confianza para la razón2 de dos2 varianzas poblacionales σ1/σ2 . No obstante,
H0: σun
1 = σ 2 frente a la alternativa H1: σ 1 ≠ σ 2 se basa en la razón de las varianzas
por
su
mayor
utilidad
práctica,
nos centraremos
aquí
en la
el razón
test para
la igualdad
de varianzas. El
resulta sencillo calcular
un intervalo
de confianza
para
de dos
varianzas
2
2
2
contraste bilateral de la hipótesis nula H0: σ1 = σ2 frente a la alternativa H1: σ1 ≠ σ22 se basa en la
muestrales 2 2
razón de las varianzas
σ 1 / σ 2 muestrales
. No obstante, por su mayor utilidad práctica, nos centraremos
σ 22 es cierta, lapoblacionales
razón
s12
aquí en el test para la igualdad de varianzas.F El
contraste
bilateral de la hipótesis nula
= 2.
que este estadístico se distribuirá
s2
H0: σ 12 = σ 22 frente a la alternativa H1: σ 12 ≠ 2σ 22 se
basa en la razón de las varianzas
en el numerador
- 1 en elnula de igualdad de varianzas σ1 = σ22 es cierta, la razón (s12/σ12)/(s22 /σ22 ) se reduce
Siylan2hipótesis
2
a s12Si
/s22la
, de
tal forma
que
estadístico
se distribuirá
una F de
Fisher con n1 – 1 grados
hipótesis
nula
deeste
igualdad
de varianzas
σ 12 = σsegún
la razón
2 es cierta,
muestrales
tonces como el de
doble
de
la
libertad en el numerador y n2 – 1 en el denominador. El valor P del contraste se calcula
2
2
2
2
entonces
de la probabilidad
a la izquierda de este estadístico bajo la distribución
( s12 / σ 1como
)/( 2s 22el/ σdoble
2 ) se reduce a s1 / s 2 , de tal forma que este estadístico se distribuirá
2
2 2
s2, so2 como
el doble del área a sla12 derecha del estadístico, si s12 > s22.
la distribución Fn1 −1, n2 −1, si ss1 1≤ ≤
,
F=
.
según una F de Fisher con n1 - 1 grados des 22libertad en el numerador y n2 - 1 en el
2
2
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se comparó la media del colesterol HDL entre s ca 0,25
o, si s12 > s 22 .
F= 2 =
los casos y El
controles
la asunción
decomo
homogeneidad
denominador.
valor Pdel
delEURAMIC
contraste sebajo
calcula
entonces
el doble dede
la varianzas. La s co 0,29 2
2
2
Si la hipótesis
nula
deresultados
igualdad de
varianzasdelσ cumplimiento
la razón
1 = σ 2 es cierta,
validez de
estos
dependerá
de dicha
hipótesis. Para contrastar
2
2
2
2
bilateralmente
la
hipótesis
nula
H
:
σ
=
σ
,
se
calcula
el
test
estadístico
omparó la media del
colesterol
HDL
probabilidad a la izquierda de este estadístico
0
ca
cobajo la distribución Fn1 −1, n2 −1 , si s1 ≤ s 2 ,
que
sigue
una
distribución
F con nca – 1 = 461
2
2
2
2
2
2
( s1 / σ 1 )/( s 2 / σ 2 ) se reduce a s1 / s 2 , de tal forma que este estadístico se distribuirá
s ca2
0,25 2
jo la asunción de homogeneidad de
s 22 . H0. Como sca < sco, el valor P es igual a 2
o como el doble del área a la derecha
estadístico,
si s12 > bajo
=
= 0,74,
F = del
2 libertad
2 en el numerador
y n2 - 1 en el
según una F de Fisher con n1 - 1 grados sde
0,29
co
enderá del cumplimiento de dicha
0,001.
Notar
este valor
P0.sería idéntico si
que sigueEluna
distribución
F conse
ncacalcula
– 1 = 461
y nco –como
1 = 538
grados
de
libertad
bajo H
denominador.
valor
P del
contraste
entonces
el
doble
decolesterol
laque
Ejemplo
6.10
En
los
Ejemplos
6.7
y
6.8,
se
comparó
la
media
del
HDL
2 Como
2
con naca2P(F
–1=
461≤y0,74)
nco – =1 2∙0,0005
= 538 grados
de libertad
sco,distribución
el valor P esFigual
= 0,001.
Notar que este
ca <una
461,538
pótesis nula H0: σ ca =que
σ cosigue
, sse
2
2
F
=
s
valor
P
sería
idéntico
si
se
hubiera
utilizado
el
estadístico
inverso
co /2 s ca =2 1,35. En tal caso, el val
probabilidad
alos
la izquierda
de este estadístico
bajo la
distribución
Fnde
1 −1, n
2 −1 , si s1 ≤ s 2 ,de
entre
casos
y
controles
del
EURAMIC
bajo
la
asunción
homogeneidad
bajocaso,
H0. Como
, el valoraPpartir
es igual
a 2P(F
0,74)
2⋅0,0005
tal
el valorscaP<sesco
obtendría
de la
distribución
2P(F=538,461 ≥ 1,35)
461,538 ≤ F
538,461=como
= 2∙0,0005 = 0,001.
distribución F538,461 como 2P(F538,461 ≥ 1,35)
La
validez
de estosdel
resultados
dependerá
de dicha
s12 > del
s 22utilizado
.cumplimiento
o como
elvarianzas.
doble
delque
área
a lavalor
derecha
estadístico,
sihubiera
0,001.
Notar
este
P
sería
idéntico
si
se
el estadístico
La variabilidad del colesterol HDL resulta significativamente menor
entre los casos de
Lalovariabilidad
colesterollaHDL resulta sig
2delaceptarse
infarto
que entre
los
individuos libres de la enfermedad, con
cual2no puede
hipótesis.
Para
2
2contrastar bilateralmente la hipótesis nula H0: σ ca = σ co , se
inverso
F
=
s
/
s
=
1,35.
En
tal
caso,
el
valor
P
se
obtendría
a
partir
de
la
co
ca
hipótesis 6.10
de igualdad
de varianzas.
consecuencia,
procedimientos
utilizados
Ejemplo
En los
Ejemplos
6.7 yEn6.8,
se comparó los
la media
del colesterol
HDL en los
17
casos
de
infarto
que
entreHDL
los individuos libre
Ejemplos
y 6.8
son inadecuados para comparar los niveles medios de colesterol
calcula 6.7
el test
estadístico
distribución
como 2P(F
= 2⋅0,0005
= 0,001.
538,461
538,461 ≥ 1,35)
entre
casos
yFcontroles.
entre
los
casos
y controles
del EURAMIC
bajo
la asunción
de homogeneidad de
puede aceptarse la hipótesis de igualdad de va
La variabilidad
del colesterol
resultadependerá
significativamente
menor entre
los
varianzas.
validez
de
estos HDL
resultados
del cumplimiento
de dicha
Existen
otrasLatécnicas
estadísticas
para la comparación
de varianzas
en muestras
procedimientos
utilizados
en los Ejemplos 6.7
.
En
general,
estas
técnicas
independientes,
tales
como
el
test
de
Bartlett
o
la
prueba
de
Levene
17
casos de infarto
que entre bilateralmente
los individuos la
libres
de la nula
enfermedad,
2 con lo
hipótesis.
Para contrastar
hipótesis
H
σ co2 niveles
,cual
se nomedios
0: σ ca = los
comparar
de colesterol HD
puede aceptarse la hipótesis de igualdad de varianzas. En consecuencia, losPastor-Barriuso R. 89
calcula el test estadístico
otras técnicas
procedimientos utilizados en los Ejemplos 6.7 y 6.8 sonExisten
inadecuados
para estadísticas para la compa
Así, sustituyendo σ 12 por s12 y σ 22 por s 22 en la distribución muestral de la
Inferencia sobre medias
diferencia de medias, se obtiene el estadístico
permiten comparar varianzas entre dos
y, en el caso del test de Levene, la
x1 − ox 2más
− ( μgrupos
1 − μ2 )
. la variable sea normal. Los lectores
comparación no requiere que la distribución subyacente de
2
2
s
s
1
2
interesados pueden consultar estos procedimientos
+ en las referencias incluidas al final del tema.
n1 n 2
2
6.3.3 Así,
Comparación
distinta varianza
sustituyendode
σ 1medias
por s12eny distribuciones
σ 22 por s 22 en lacon
distribución
muestral de la
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimación
diferencia de medias, se obtiene el estadístico
combinada
la varianza, yaque
quefuncionan
ésta infraestimará
o sobreestimará
la variabilidad
específica
diversas de
aproximaciones
bien en la
práctica. El método
más utilizado
es de
cada población. En este caso, aun perdiendo algo de precisión, es preferible estimar por separado las
2
Así,poblacionales
sustituyendo
s12 permite
y xσ1 22−sus
por
muestral
la s12 y s22 .
xaproximar
−s(22μen
μla2distribución
)distribución
2 correspondientes
1 −la
varianzas
σσ121y por
σ22que
mediante
varianzas
la aproximación
de Welch,
demuestrales
este de
estadístico
.
2
s 22
muestral de la diferencia de medias,
Así, sustituyendo σ12 por s12 y σ22 por s22 en sla1 distribución
+
diferenciauna
de medias,
se obtiene
estadísticogrados de libertad
mediante
t de Student
con loselsiguientes
se obtiene
el estadístico
n1 n 2
x1 (−s 2x 2/ n− (+μ s1 2−/μn2 )) 2
1
1
2
2 .
Aunque resulta complicado
la distribución
exacta
de este estadístico,
existen
d = derivar
.
2
2 2
2
2
s
s
1
2
( s1 / n1 ) /(n1 − 1)++ ( s 2 / n 2 ) 2 /(n 2 − 1)
n1 enn 2la práctica. El método más utilizado es
diversas aproximaciones que funcionan bien
Aunque
complicado
la distribución
exacta
Puederesulta
comprobarse
que dderivar
es siempre
inferior o igual
a nde
n2 –estadístico,
2; es decir, existen
esta diversas
1 +este
la aproximación de Welch, que permite aproximar la distribución
de este estadístico
Aunque resulta
complicado
exacta de
este
estadístico,
aproximaciones
que
funcionan derivar
bien en la
la distribución
práctica. El método
más
utilizado
es laexisten
aproximación
t de Student
será más
dispersa quede
la este
empleada
en el mediante
caso de igualdad
de distribución
Welch, que permite
aproximar
la distribución
estadístico
una t dede
Student
mediante una t de Student con los siguientes grados de libertad
diversas
aproximaciones
que
funcionan
bien
en
la
práctica.
El
método
más
utilizado
es
con los siguientes grados de libertad
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
2
la aproximación de Welch, que permite
de este estadístico
( s12 aproximar
/ n1 + s 22 / nla2 )distribución
d
=
.
distribución resultante ha de
conllevará una
( s12reflejar
/ n1 ) 2 /(mayor
n1 − 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 − 1)
mediante una t de Student con los siguientes grados de libertad
disminución
tantoque
en la
precisión
los intervalos
en la
potencia
de t
Puede
comprobarse
d es
siempredeinferior
o igual de
a nconfianza
es decir,
esta
distribución
1 + n2 – 2; como
que d que
es siempre
inferior
o
igual
a
n
+
n
–
2;
es
decir,
esta
de Puede
Studentcomprobarse
será más dispersa
la empleada
en
el
caso
de
igualdad
de
varianzas.
Esto
es
lo que
1
2
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabría
esperar ya que, al destimar
la distribución
resultante ha de
= 2 por 2separado las varianzas,
.
s 22disminución
( sEsto
/ n1 conllevará
)dispersa
/(n1 − 1que
) +una
(la
/ n 2 ) 2 /(n 2en− tanto
1) casoendelaigualdad
distribución
de Student será
empleada
el
de de los
1 más
reflejar
mayor tincertidumbre.
precisión
En eldecaso
de distribuciones
distinta
el intervalo de confianza al 100(1 intervalos
confianza
como en lacon
potencia
devarianza,
los contrastes.
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
Puede
comprobarse
que d es con
siempre
inferior
o igual
n1 + n2 –de2;confianza
es decir, esta
En el caso
de distribuciones
distinta
varianza,
el aintervalo
al 100(1 – α)%
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por
μ2 vendrá determinado
por
para
la diferencia
de medias
μ1 –incertidumbre.
distribución
resultante
ha poblacionales
de reflejar mayor
Esto conllevará
una
distribución t de Student será más dispersa que la empleada en el caso de igualdad de
2
90
2
s2
disminución tanto en la precisión de los intervaloss1de confianza
como en la potencia de
− x 2 ± ya
+
,por separado las varianzas, la
t d ,1−que,
varianzas. Esto es lo que cabríax1esperar
α / 2 al estimar
n1 n 2
los contrastes.
distribución
de reflejar
mayor incertidumbre.
Esto
conllevará
una forma, para
donde
d son losresultante
grados dehalibertad
calculados
según la fórmula
anterior.
De igual
donde
dlason
los
según
laelfórmula
De de
igual
forma,
contrastar
hipótesis
nulade
H0libertad
: µ1 =con
µ2calculados
frente
alternativa
H1: μ1 anterior.
≠ de
μ2 aconfianza
partir
dos
muestras
En el
caso
degrados
distribuciones
distintaa la
varianza,
intervalo
al 100(1
disminución
tanto
en
la
precisión
de
los
intervalos
de
confianza
como
en
la
potencia
de
independientes con distinta varianza, se emplea el estadístico
H1: μ1 ≠ μpor
para
contrastar
la hipótesis
nula Hpoblacionales
0: μ1 = μ2 frente
2 a partir de
α
)%contrastes.
para la diferencia
de medias
μ1 a- la
μ2alternativa
vendrá determinado
los
x1 − x 2
,
t=
dos muestras independientes con distinta varianza,
el estadístico
s12 s 22 2se emplea
En el caso de distribuciones con distinta varianza,
+ s1 els 22intervalo de confianza al 100(1 ,
x1 − x 2 ± t d ,1n−α1 / 2 n 2 +
n1 n 2
)% para
la diferencia
poblacionales
μ1 - μ2 vendrá
determinado
porcon d grados
queαbajo
la hipótesis
nula,de
se medias
distribuye
aproximadamente
según una
t de Student
19
bajo Así,
la hipótesis
se distribuye
según una
t de más
Student
con d que
de que
libertad.
el valor nula,
P viene
dado por laaproximadamente
probabilidad de obtener
valores
extremos
dondeobservado
d son los de
grados
calculados
la fórmula
anterior.
igual forma,
el valor
t bajodelalibertad
distribución
td. Estesegún
contraste
se conoce
con elDe
nombre
de test de
s12 s 22
grados
de
libertad.
Así,
el
valor
P
viene
dado
por
la
probabilidad
de
obtener
valores
más
−
±
+
,
x1 x 2 t d ,1−α / con
la t de Student para muestras independientes
distinta varianza.
2
2
H1: μ1 ≠ μ2 a partir de
para contrastar la hipótesis nula H0: μ1 = μ2 frentena1 la nalternativa
extremos R.que el valor observado de t bajo la distribución td. Este contraste se conoce
Pastor-Barriuso
dos
muestras
independientes
con distinta
varianza,
estadístico
donde
d son los
grados de libertad
calculados
segúnselaemplea
fórmulaelanterior.
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimación puntual
de la significativamente
diferencia de
HDL difiere
entre los casos de i
enfermedad. Por ello, la comparación del nivel medio
de colesterol
entreindependientes
Comparación
de medias en HDL
dos muestras
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo
error estándar
se estima
enfermedad.
Por ello,
la comparación del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente
casos
y controlesdel
ha colesterol
de realizarse
mediante la prue
Ejemplo
6.11porcon
En el
Ejemplo
6.10 seLacontrastó
quepuntual
la variabilidad
HDL
independientes
distinta
varianza.
estimación
de la diferencia
de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
conydistinta
varianza.
Por ello, la comparación del nivel2 medio2 de colesterol
HDL2 entre casos
controles
ha de La estimación
2 independientes
medias es x ca - x co = 0,98 - 1,09
0,25 cuyo
0,error
29 estándar se estima
s ca= -0,11
s co mmol/l,
realizarse mediante
t
de
Student
para
muestras
independientes
con
distinta
SE( x ca la
- xprueba
)
=
+
=
+
=
0,017.
co
462de medias
539 es x ca − x co == 0,98 –- 1,09
co
1,09 ==-0,11 mmol/l, c
varianza. La estimación puntualn cade landiferencia
directamente por
– 0,11 mmol/l, cuyo error estándar se estima directamente por
directamente
En el caso de varianzas heterogéneas, los grados de libertad
para lapor
distribución
2
2
2
2
0,25
0,29
s ca s co
+
=
+
= 0,017.
SE( x ca − x co ) =
de la diferencia de medias vienen
por la aproximación
de Welch, a
462
539
n cadeterminados
n co
0,25 2
s ca2
s co2
+
=
SE( x ca - x co ) =
462
n cala n co
En
el caso de varianzas heterogéneas, los grados de libertad para la distribución de
saber
En el caso de
de medias
varianzas
heterogéneas,
los grados
de libertad para
distribución
diferencia
vienen
determinados
por la aproximación
delaWelch
En el caso de varianzas heterogéneas, los grados de
( s ca2vienen
/ n ca +determinados
s co2 / n co ) 2 por la
de la diferencia de medias
aproximación de Welch, a
d
=
2
2
2 de libertad
2
Notar que, en(este
ejemplo,
los
grados
son
casi
s ca / n ca ) (n ca − 1) + ( s co / n co ) (n co − 1) iguales a los obtenidos
de la diferencia de medias vienen determinados po
saber
2
2
2
bajo
asunción
de igualdad
de grados
(nca/ +
ncoson
= 999).
A partir
de estos
(0,25
/varianzas
462 + de
0,29
539
) – 2casi
Notarlaque,
en
los
libertad
iguales
a los,97
obtenidos
= este ejemplo,
=
998
.
saber
2
2
2 / 539)
(0,25 2 / 462( s) 22 /(462
− s1)2 +/ n(0,29
(539 − 1)
n
+
)
ca
ca IC co
co para μca - μco como
resultados,
calcular
al 95%
bajo la asunción
de igualdad
deunvarianzas
(nca2 + nco – 2 = 999). A partir de estos
d es
= posible
2
2
2
Notar que, en (este
ejemplo,
los
grados
de
son− 1casi
(n co
) iguales a los obtenidos
s ca / n ca ) (n ca − 1) + ( s co / nlibertad
co )
( s ca2 / bajo
n ca +las co2 / n co ) 2
d = de estos resultados es
asunción
de varianzas
(nca 95%
+ ncopara
– 2 μ= 999).
A partir
resultados,deesigualdad
posible
2un IC alSE
x ca - calcular
x co(0±,25
t998,97;0,975
(29
x ca2 /-539
x co)ca
)2 - μco como ( s ca2 / n ca ) 2 (n ca − 1) + ( s co2 / n co ) 2 (n co
/
462
+
0
,
posible calcular
para μca – μco como
= un 2IC al 95%
= 998,97.
2
(0,25 / 462) (462 − 1) + (0,29 2 / 539) 2 (539 − 1)
20 2 / 462 + 0,29 2 / 539)
(0,25
-0,11 ± 1,96⋅0,017
=)(-0,14; -0,08),=
x ca − x co ± =
t998,97;0,975
SE ( x ca − x co
(0,25 2 / 462) 2 (462 − 1) + (0,29 2 / 539
= − 0,11 ± 1,96⋅0,017 = (−0,14; −0,08),
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico
20
y contrastar la hipótesis nula Hx0ca: μ−cax=co μco mediante
− 0,11 el estadístico
= −6,44,
t=
=
SE ( x ca − x co ) 0,017
− x co estandarizada,
- 0,11
que bajo la distribuciónt t=998,97 xocanormal
corresponde a un valor P menor
=
= -6,44,
SE
x
−
x
(
)
0,017
ca
co
que bajo
0,001.
Así,
se
pone
de
manifiesto
que
los
casos
de
infarto presentan
un nivel
a un valor
P medio
la distribución t998,97 o normal estandarizada, corresponde
de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad
(P
0,001),
con una
estimada
en 0,11
mmol/l
(IC
95%
0,08-0,14
mmol/l).
menor
que
Así,diferencia
set poneode
manifiesto
que los
casos
de al
infarto
presentan
normal
estandarizada,
corresponde
a un
valor Pun
que<bajo
la 0,001.
distribución
998,97
En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de
varianzas
idénticos
debido, que
en parte,
a que
tamaños
muestrales
nivel
devirtualmente
colesterol
HDL
significativamente
inferior
que
los sujetos
libres
menormedio
queson
0,001.
Así, se pone
de
manifiesto
los
casos
de ambos
infarto
presentan
un
no difieren sustancialmente.
de
la enfermedad
(P < 0,001),
una diferencia estimada
en 0,11
mmol/llibres
(IC al
nivel
medio de colesterol
HDLcon
significativamente
inferior que
los sujetos
En resumen, la comparación de medias en muestras independientes requiere contrastar en
mmol/l).
En este
resultados
obtenidos
asumiendo
delugar
la 0,08−0,14
enfermedad
(Pde
< 0,001),
concaso,
una los
diferencia
estimada
en 0,11
mmol/l
(IC de
al la t de
primer95%
la igualdad
varianzas,
para
después
utilizar
según
proceda
el test
Student con igual o distinta varianza. Esta distinción no es meramente académica: si la
homogeneidad
ommol/l).
heterogeneidad
varianzas
son virtualmente
debido,
variabilidad
difiere entre
ambas
procedimientos
estimación
y contraste
95% 0,08−0,14
Enpoblaciones,
este de
caso,
loslos
resultados
obtenidosdeidénticos
asumiendo
asumiendo igualdad de varianzas pueden ser muy engañosos, particularmente en muestras
en
parte,
a que ambos
no difieren
sustancialmente.
n2 difieran
sustancialmente.
pequeñas
o moderadas
cuyostamaños
tamañosmuestrales
nde
homogeneidad
o heterogeneidad
son
virtualmente
idénticos debido,
1 yvarianzas
en parte, a que ambos tamaños muestrales no difieren sustancialmente.
En resumen, la comparación de medias en muestras independientes requiere
contrastar
en primer
lugar la igualdad
de varianzas,
paraindependientes
después utilizar
según proceda
En resumen,
la comparación
de medias
en muestras
requiere
el
test de laent de
Student
con
o distinta
varianza.
Esta
distinción
no es
meramente
contrastar
primer
lugar
la igual
igualdad
de varianzas,
para
después
utilizar
según
proceda
Pastor-Barriuso R.
académica:
la Student
variabilidad
difiere
entre ambas
poblaciones,
los procedimientos
de
el test de la si
t de
con igual
o distinta
varianza.
Esta distinción
no es meramente
91
Inferencia sobre medias
6.4
COMPARACIÓN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES
Los datos dependientes surgen cuando las observaciones recogidas en el estudio están
correlacionadas entre sí. A continuación se presentan algunos mecanismos y diseños
epidemiológicos que generan datos dependientes:
yy La obtención de dos o más determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
ƒƒ Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
ƒƒ Determinaciones de la misma variable en diferentes localizaciones anatómicas.
ƒƒ Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y después de un tratamiento, en ensayos clínicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La selección de los participantes en un estudio emparejándolos por determinadas
características pronósticas genera datos dependientes entre los sujetos emparejados. El
ejemplo más habitual es el emparejamiento en el diseño de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser también dependientes.
En todos estos casos, la correlación se limita a los grupos específicos donde se genera la
dependencia, que suelen ser habitualmente parejas. Así, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre sí. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre sí.
Las muestras dependientes están constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados según ciertas características pronósticas de interés. De esta forma,
la distribución de dichas características será similar en ambas muestras, eliminando así la
posibilidad de que estos factores influyan en la comparación objeto de estudio. En general, el
emparejamiento es una técnica frecuentemente utilizada en el diseño de estudios clínicos o
epidemiológicos con el propósito de controlar por determinados factores de confusión (ver
textos de método epidemiológico referenciados al final del tema). Estos diseños requieren de
técnicas específicas de análisis que preserven el emparejamiento. En este apartado se revisan
los métodos estadísticos para el tratamiento de un caso específico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.
Ejemplo 6.12 Supongamos que en el estudio EURAMIC se seleccionan
aleatoriamente 50 casos de infarto de miocardio. Como la edad es un importante factor
pronóstico de enfermedades coronarias, cada uno de estos casos se emparejó por grupos
quinquenales de edad a un control libre de la enfermedad. Así, por ejemplo, para un caso
de 62 años de edad se seleccionó aleatoriamente un control entre todos los controles
disponibles con edades comprendidas entre 60 y 64 años. La muestra resultante de aplicar
este procedimiento constituiría un estudio de casos y controles emparejados. En este
estudio, cabría esperar un cierto grado de correlación en la información recogida para
cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de
edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos
y controles.
92
Pastor-Barriuso R.
Comparación de medias en dos muestras dependientes
Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
según grupos quinquenales de edad.
Colesterol HDL (mmol/l)
Pareja
1
Colesterol HDL (mmol/l)
Caso
Control
d*
Pareja
0,81
0,63
0,18
26
2
0,91
0,91
0,00
27
3
0,98
0,76
0,22
28
4
0,91
1,19
– 0,28
29
5
0,55
0,99
– 0,44
30
6
0,62
1,14
– 0,52
31
7
0,79
0,73
0,06
32
8
0,89
1,08
– 0,19
33
9
1,24
0,87
0,37
34
10
1,76
1,04
0,72
35
11
1,35
1,03
0,32
36
12
0,72
1,09
– 0,37
37
13
0,94
1,12
– 0,18
38
14
1,01
1,20
– 0,19
39
15
0,98
1,62
– 0,64
40
16
0,92
1,25
– 0,33
41
17
0,68
1,31
– 0,63
42
18
1,48
1,00
0,48
43
etar el problema, supongamos
que
se
dispone
de
n
pares
de
observaciones
19
1,23
0,78
0,45
44
20
0,83
0,95
– 0,12
45
e aleatoria continua. 21
En cada pareja
de datos1,13
dependientes,
una 46
0,92
– 0,21
22
0,82
0,97
– 0,15
47
corresponde a la primera muestra y la otra observación x2 a la segunda
23
1,21
0,74
0,47
48
24
0,78
0,88
– 0,10
49
jetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de
25
0,88
1,14
– 0,26
50
Control
d*
0,96
1,29
– 0,33
1,33
0,93
0,32
0,86
0,93
1,40
1,50
0,92
0,88
0,82
1,52
1,68
0,81
0,60
1,16
0,75
0,96
1,46
0,76
0,76
1,12
1,01
0,99
0,75
0,72
1,04
1,54
1,08
1,12
1,75
1,29
1,17
0,93
0,88
0,74
1,45
1,02
1,15
1,49
0,98
1,31
1,15
1,51
1,01
1,26
0,91
1,63
1,45
0,61
– 0,11
– 1,22
– 0,22
– 0,19
– 0,35
0,21
– 0,25
– 0,05
– 0,06
0,78
0,23
– 0,21
– 0,55
– 0,33
– 0,23
– 0,35
0,31
– 0,75
– 0,25
– 0,14
0,10
– 0,64
– 0,70
Caso
* Diferencia de colesterol HDL entre caso y control.
stras dependientes.
imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta
Para concretar el problema supongamos que se dispone de n pares de observaciones de una
variable
En cada pareja de
dependientes,
una observación x1 corresponde
ue las medias de ambasaleatoria
muestrascontinua.
no son independientes
pordatos
provenir
de
a la primera muestra y la otra observación x2 a la segunda muestra. El objetivo se centra en
comparar
las medias
poblacionales
μ1 y μ2 a partir
de estas dos muestras dependientes.
correlacionadas.
Sin embargo,
la comparación
se simplifica
notablemente
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situación, ya
las diferencias dque
= x1las
- x2medias
en cadadeuna
de lasmuestras
n observaciones
ambas
no son emparejadas.
independientes por provenir de observaciones
correlacionadas. Sin embargo, la comparación se simplifica notablemente si se calculan las
omo las distintas
parejas nodestán
entre
diferencias emparejadas. Por un lado, como las
x2 en cada una
desí,lasestas
n observaciones
diferencias
= x1 –relacionadas
distintas parejas no están relacionadas entre sí, estas diferencias son independientes. Por otro
lado, la
la media
media de
de las
las diferencias
diferencias d coincide
entes. Por otro lado,
coincide con
con la
la diferencia de medias muestrales,
medias muestrales,
d=
=
1 n
1 n
=
d
( x i1 − x i 2 )
i
 n
n i =1
i =1
1
1
x i1 −  xi 2 = x1 − x 2

n i =1
n i =1
n
n
Pastor-Barriuso R.
93
n
i =1
n
i =1
n
son independientes.
otro lado,
la
media1den las diferencias d coincide con la
rrollados en el Apartado
6.3 no puedenPor
aplicarse
a 1esta
=
x i1 −  xi 2 = x1 − x 2

Inferencia sobre medias
n i =1
n i =1
diferencia
de medias muestrales,
de ambas muestras
no son independientes
por provenir de
donde sd es la desviación típica de las diferencias observadas. De igual forma, la
consecuencia,
d es un estimador
insesgado
de la diferencia de medias
das. Sin embargo, y,
la en
comparación
se simplifica
notablemente
1 n
1 n
=  d i = H: (μx i1=−μx i 2puede
)
hipótesis de igualdad de mediasdpoblacionales
contrastarse frente a la
0
1
2
n i =1 de la
n comparación
i =1
poblacionales
de medias en dos muestras
1 - μ2. Así, el problema
s d = x - x en cada
una de las n μobservaciones
emparejadas.
1
2
1 n el estadístico
1 n
hipótesis alternativa H1: μ1 ≠ μ2 mediante
x i1 − inferencia
x1 − xla
dependientes
a=una
simple
2 media de una única
tas parejas no están
relacionadasqueda
entrereducido
sí, estas diferencias
 xi 2 = sobre
n i =1
n i =1
muestra
de n diferencias
independientes.
d de la diferencia de medias poblacionales μ1 – μ2.
d es
coincide
con la insesgado
o lado, la mediay,deen
las
diferencias
consecuencia,
un estimador
.
t=
s d en dosde
Así,y,elenproblema
de la comparación
de medias
muestras
dependientes
queda reducido a
consecuencia,
d es un estimador
insesgado
la diferencia
de medias
Los métodos
delsobre
Apartado
6.2.1de
para
media
de unade
muestra
pueden independientes.
entonces
n muestra
rales,
una simple
inferencia
la media
unalaúnica
n diferencias
poblacionales
μ1 -Apartado
μ2. Así, el6.2.1
problema
demedia
la comparación
de medias
en dos
muestras
Los
métodos
para
de
muestra
pueden
entonces
utilizarse
utilizarse
paradel
calcular un intervalo
de la
confianza
al una
100(1
- α)% para
μ
1 - μ2 como
n
n
la hipótesis
nula, las de
diferencias
distribuirían
para calcular
un intervalo
confianzaobservadas
al 100(1 – se
α)%
para μ – μaleatoriamente
1
1Bajo
2 como
d =  di = 
( x i1 − x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes
de una única
n i =1
n i =donde
1
la desviación
típica de
diferenciassobservadas.
Dedistribución
igual forma,t de
la
d esvalor
d seguiría una
alrededor sdel
0, de tal forma
quelas
deste
± testadístico
,
n −1,1−α / 2
n
nmuestra de n diferencias independientes.
1
1
n
=  x i1 − Student
= x1de
−- igualdad
xi 2 con
x12 grados de
contrastarse
frente a la
hipótesis
medias
poblacionales
H0: μ1 = μ2 puede

n
de
liberad.
El
valor
P
corresponderá,
por tanto,
a la
n i =1
n i =1
donde
sd esmétodos
la desviación
típica de
las para
diferencias
observadas.
De igual
forma,
la hipótesis de
Los
del Apartado
6.2.1
la media
de una muestra
pueden
entonces
igualdad
de medias
µ1 =valores
µ2 el
puede
contrastarse
frente
la hipótesis
alternativa
hipótesis
alternativa
H1: μ1 ≠ μt2H
mediante
estadístico
0:para
probabilidad
bajo lapoblacionales
distribución
más
extremos que
el avalor
observado
n-1
H
:
µ
≠
µ
mediante
el
estadístico
para calcular
un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como
1 utilizarse
1 de 2la diferencia
n estimador insesgado
de medias
24
de t. Esta prueba se denomina habitualmente como el test de la t de Student para
d
.s d
el problema de la comparación de medias en dos muestrast =
s
d
d
t
±
,
n −1,1−α / 2
muestras dependientes.
n n
o a una simple inferencia sobre la media de una única
Bajo la hipótesis nula, las diferencias observadas se distribuirían aleatoriamente alrededor del
Ejemplo
6.13 nula,
Para
preservar
el emparejamiento
entre
los casos
yStudent
controles
Bajo
la
las diferencias
observadas
distribuirían
aleatoriamente
0,
dehipótesis
tal forma
que este
estadístico
seguiría
unase
distribución
t de
conde
n –la1 grados
dependientes. valor
libertad. Elque
valor
corresponderá,
a la probabilidad bajo la distribución tn–1 para
ar el problema,de
supongamos
se P
dispone
de n parespor
detanto,
observaciones
d = xca una
-sexcodenomina
en cada pareja.
Tabla
6.1,
se
calcula
la
diferencia
de
colesterol
alrededor
del
valor
0,
de
tal
forma
que
este
estadístico
distribución
t de 24
do 6.2.1 para la valores
media demás
unaextremos
muestra pueden
que el entonces
valor observado de t. HDL
Estaseguiría
prueba
habitualmente
comoEn
el cada
test de
la t de
para muestras
aleatoria continua.
pareja
de Student
datos dependientes,
una dependientes.
Como
puede
apreciarse,
predominan
las
parejas
donde el caso
un nivel
Student
con
n
1
grados
de
liberad.
El
valor
P corresponderá,
porpresenta
tanto, a la
ntervalo de confianza al 100(1 - α)% para μ1 - μ2 como
Ejemplo
6.13y laPara
el emparejamiento
corresponde a la primera
muestra
otrapreservar
observación
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
colesterol
HDL quetn-1
supara
correspondiente
control
(diferencias
negativas).
probabilidad
la distribución
valores
extremos
que el
valor
observado
se
calcula
la
diferencia
de
colesterol
HDL
d = xca –más
xco en
cada pareja.
Como
puede
apreciarse,
sd
d
t
±
,
n −1en
,1−α comparar
/ 2 predominan
las parejas
donde el caso
presenta
undenivel inferior de colesterol HDL que su
μ1 y μ
etivo se centra
las medias
poblacionales
2 a partir
hecho,
la media
de estashabitualmente
diferencias
nEsta
de tDe
.correspondiente
prueba
secontrol
denomina
como
el hecho,
test delalamedia
t de Student
(diferencias negativas). De
de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50
0,18 + 0,00 + ... − 0,70
d=
di =
= −0,12

mientos desarrollados en el Apartado 6.3 no50
pueden
aplicarse a esta
50
i =1
24
Ejemplo
6.13 Para
el en
emparejamiento
entre los casos y controles de la
es muestras
una
estimación
lapreservar
diferencia
nivel medio
ue las medias de ambas
no sonde
independientes
porelprovenir
de de colesterol HDL entre los casos de
50
es
una estimación
la1diferencia
en el nivelLa
medio
de colesterol
HDL entre
losdada por
infarto
y los sujetos2delibres
de la enfermedad.
varianza
de las diferencias
viene
(d i − d ) 2de colesterol HDL d = xca - xco en cada pareja.
s d = la
Tabla 6.1, se calcula
diferencia
49 ise
correlacionadas. Sin embargo, la comparación
=1 simplifica notablemente
1 50 libres de2 la enfermedad. La varianza de las
casos de infarto y los
sujetos
2
(d i − d2 ) las parejas donde2 el caso presenta un nivel
sd =

Como puede apreciarse,
predominan
(n49
0observaciones
,18
+ (−0,70 + 0,12)
i =1+ 0,12) + ...
as diferencias d = x1 - x2 en cada una de las
emparejadas.
=
= 0,16,
diferencias viene dada por
49
2
2
inferior de colesterol
control
(diferencias negativas).
(0HDL
,18 + 0que
,12)su +correspondiente
... + (−0,70 + 0,12
)
mo las distintas parejas no están relacionadas
= entre sí, estas diferencias
= 0,16,
49
De el
hecho,
media de estas
luego
error la
estándar
d es diferencias
error
de d es
ntes. Por otro lado, laluego
mediaelde
las estándar
diferencias
coincide con la
luego el error estándar de d es
1 50
,00 + ... − 0,70
s0d,18 +0,040
medias muestrales,
d = SE
(dd)i ==
=
= 0,057 . = −0,12
50 i =1
n
50 50
sd
0,40
SE (d ) =
=
= 0,057 .
25
1 n
1 n
n
50
d =  d i =  ( x i1 − x i 2 )
es
una
estimación
de
la
diferencia
en
el
nivel
medio
de
colesterol
HDL
entre
los
elR.
94 Pastor-Barriuso
n i =Así,
nICi =1al 95% para la diferencia de medias poblacionales μca - μco se obtiene
1
=
n
1 ncomo
μca - μco de
se las
obtiene
Así,
el 1ICde
alinfarto
95% para
diferencia
dede
medias
poblacionales
casos
y loslasujetos
libres
la enfermedad.
La varianza
−
x
xi 2 = x1 − x 2
1
i


n i =1
n i =1
SE (d ) =
=
= 0,057 .
n
50
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
como
Referencias
como
Así, el IC al 95% para
d ± la
t diferencia
SE( d de
) medias poblacionales μca – μco se obtiene como
49;0,975
d ± t49;0,975
SE( d±) 2,01⋅0,057 = (-0,23; -0,01),
= -0,12
= −0,12 ± 2,01⋅0,057 = (− 0,23; − 0,01),
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
d
− 0,12
t=
= − 2,13,
=
SE (d ) 0,057
d
− 0,12
t=
=
= -2,13,
cuyo valor P asociado en la distribución
es P = 2P(t49 ≤ – 2,13) = 2∙0,019 = 0,038. De
SE (d ) t049,057
cuyoestudio
valor Pdeasociado
la distribución
t49 espuede
P = 2P(t
= 2⋅0,019
este
casos y en
controles
emparejados
entonces
concluirse
que =la media del
49 ≤ -2,13)
colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de
= 2P(t49
≤ -2,13)
= 2⋅0,019
=
cuyo
valor P asociado
en la0,01-0,23
distribución
t49 es Psiendo
0,038.
los
controles
(IC al 95%
mmol/l),
esta
diferencia
estadísticamente
significativa (P = 0,038). Esta conclusión es consistente con la obtenida en el Ejemplo
0,038.
De
este
de casos
y controles
emparejados, de
puede
concluirse
que cabe
6.11
paraestudio
las muestras
completas
e independientes
casosentonces
y controles.
No obstante,
destacar las siguientes particularidades. Por un lado, esta estimación está sujeta a mayor
este estudio
de casos
y controles
emparejados,
puede
entonces
concluirse
laDemedia
del aleatoria
colesterol
en los
de50
infarto
es de
inferior
en
0,12
mmol/l
al
variabilidad
yaHDL
que
tan
sólocasos
utiliza
parejas
casos
y controles.
Porque
otro lado,
el diseño emparejado permite comparar casos con controles de similar edad y, en
la media
delde
colesterol
HDL(IC
en los
casos0,01−0,23
de infartommol/l),
es inferior
en 0,12
al
nivel
medio
losestimación
controles
95%
siendo
estammol/l
diferencia
consecuencia,
la
seráal menos
propensa a posibles
sesgos
derivados de la
diferencia de edad entre casos y controles.
nivel medio de los
controles (IC
95% 0,01−0,23
mmol/l),essiendo
esta diferencia
estadísticamente
significativa
(P =al0,038).
Esta conclusión
consistente
con la
Los procedimientos presentados en este apartado se limitan a la comparación de una variable
estadísticamente
significativa
(P las
= 0,038).
Esta conclusión
es consistente con
obtenida
Ejemplo
6.11emparejadas
para
muestras
independientes
de la de dos
continua
a partirendeeldos
muestras
sujeto acompletas
sujeto. Eleanálisis
de la varianza
vías permite extender esta comparación a casos más generales de dependencia, tales como el
obtenida
en el Ejemplo
6.11 para lasdestacar
muestraslascompletas
e independientes dePor
y controles.
siguientes
diseñocasos
de parejas
con másNo
deobstante,
un sujetocabe
por muestra (por
ejemplo, unparticularidades.
estudio de casos y controles
donde cada caso se empareja con 2 controles) o la comparación de tres o más muestras
casos
y controles.
No obstante,
cabe
destacar
las siguientes
particularidades.
Por
un
lado,
estaejemplo,
estimación
sujeta
a mayor
variabilidad
aleatoria
que tantratamientos
solo
dependientes
(por
un está
ensayo
clínico
donde
cada paciente
recibeya
diversos
alternativos). Los métodos de análisis de la varianza de dos vías pueden consultarse en los
un lado,
estimación
está
sujeta a mayor
variabilidad
aleatoria
ya que tan solo
50esta
parejas
de acasos
y controles.
Por otro
lado, el diseño
emparejado
textosutiliza
estadísticos
citados
continuación.
utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado
6.5
REFERENCIAS
26
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26
Fourth
Edition. Oxford: Blackwell Science, 2001.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001.
5. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
Pastor-Barriuso R.
95
Inferencia sobre medias
7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other
Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998.
9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
96
Pastor-Barriuso R.
7.1 INTRODUCCIÓN
En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas,
que reflejan la presencia o ausencia deTEMA
una determinada
7 característica en los miembros
de una población. El interés radica fundamentalmente en estimar la proporción  de
INFERENCIA SOBRE PROPORCIONES
individuos o elementos de la población que presentan dicha característica.
Esta proporción poblacional  es un parámetro desconocido que se estima mediante
7.1 INTRODUCCIÓN
la proporción muestral p = k/n, donde k es el número observado de individuos que
En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas, que
reflejan
la presencia
o ausencia
de unaendeterminada
en losn.miembros
de una
presentan
la característica
de interés
una muestra característica
aleatoria de tamaño
La
población. El interés radica fundamentalmente en estimar la proporción π de individuos o
elementos
de lamuestral
población
dicha
característica.
distribución
deque
unapresentan
proporción
ya se
discutió en el Apartado 4.3.4.
Esta proporción
π eesindependientes.
un parámetro Para
desconocido
que sedeestima
mediante la
partir
de muestraspoblacional
dependientes
cada problema
inferencia
Brevemente,
recordamos
una
muestral
p tiende
distribuirse
depresentan
forma
proporción
p = k/n,que
donde
kproporción
esproblema
el número
de aindividuos
que
la
de muestras dependientes
emuestral
independientes.
Para
cada
de observado
inferencia
sobre
proporciones
se
presentará
un
estimador
puntual
del
parámetro
poblacional
objeto
característica de interés en una muestra aleatoria de tamaño n. La distribución muestral de una
normal con
 y varianza
(1parámetro
- )/n,
ya
se
discutió
en el Apartado
4.3.4. poblacional
Brevemente,objeto
recordamos que una proporción
proporciones seproporción
presentará
unmedia
estimador
puntual
del
de
estudio,
un
intervalo
de
confianza
y
una
prueba
de
significación.
muestral p tiende a distribuirse de forma normal con media π y varianza π(1 – π)/n,
partir de muestras dependientes e independientes. Para cada problema de inferencia
udio, un intervalo de confianza y una prueba de significación.
~ N   ,  (1   )  ,
p
 del parámetro poblacional objeto

sobre
proporciones
se
presentará
un
estimador
puntual
n POBLACIONAL
7.2 INFERENCIA SOBRE UNA PROPORCIÓN


NFERENCIA SOBRE
UNA
PROPORCIÓN
POBLACIONAL
cuando
el tamaño
muestral
suficientemente
grande
y la proporción poblacional no es
de estudio,
un
intervalo
de es
confianza
y una prueba
de significación.
Con frecuencia
se muestral
desea
conocer
la
lade
individuos
unaaproximación
cierta
cuando
el tamaño
es suficientemente
y la proporción
no es
excesivamente
extrema,
de tal
forma
queproporción
se cumplagrande
condición
nπ(1que
– π)poseen
≥poblacional
5. Esta
se utilizará
de esteque
tema
de inferencia
sobre datos de carácter binario o
recuencia se desea
conocerrepetidamente
la proporción alo
delargo
individuos
poseen
una cierta
característica
enextrema,
la población.
Como
ya
enlaPOBLACIONAL
elcondición
Apartado n5.2,
dicotómico.
7.2 INFERENCIA
SOBRE
PROPORCIÓN
(1 la
- proporción
)  5. Esta
excesivamente
de talUNA
forma
queseseapuntó
cumpla
erística en la población.
Como
el Apartado
5.2,medias,
la proporción
Al igual
que ya
en se
el apuntó
tema deeninferencia
sobre
este capítulo aborda la estimación de
muestral p es un
buen
estimador
puntual adelolalargo
proporción
poblacional,
ya quesobre
p es el
aproximación
se
utilizará
repetidamente
de
estaproporciones
tema que
de inferencia
unaCon
proporción
poblacional,
así como
la comparación
de
a partir
muestras
frecuencia
se desea conocer
la proporción
 de individuos
poseen
una de
cierta
ral p es un buendependientes
estimador puntual
de la proporción
ya quede
p es
el
e independientes.
Parapoblacional,
cada problema
inferencia
sobre proporciones se
estimador
insesgado
ypuntual
consistente
de  con menor
error estándar.
datos
deun
carácter
binario
o dicotómico.
presentará
estimador
del
parámetro
poblacional
objeto de
estudio,
un intervalo de
característica
en la población.
Como
ya se apuntó
en el Apartado
5.2,
la proporción
ador insesgado confianza
y consistente
de prueba
 con menor
error estándar.
y una
de significación.
Al
igual quelaen
el tema de inferencia
sobre
medias, este
capítulo
aborda
la la
Utilizando
aproximación
normal a la
distribución
muestral
de p,
se tiene
muestral p es un buen estimador puntual de la proporción poblacional, ya que p es el
lizando la aproximación
normal a la distribución
muestral
de p, se tiene
la
7.2estimación
INFERENCIA
SOBRE UNA
PROPORCIÓN
de una proporción
poblacional,
así comoPOBLACIONAL
la comparación de proporciones a
siguiente relación
estimador insesgado y consistente de  con menor error estándar.
nte relación Con frecuencia se desea conocer la proporción π de individuos que poseen una cierta característica
en la población. Como ya se apuntó en el Apartado 5.2, la proporción muestral p es un buen
Utilizando la aproximación
normal apladistribución
de p, se tiene la


 ya que p esmuestral
estimador puntual de la proporción
estimador insesgado y consistente
P  z1 / 2poblacional,

 z1 / el
1
2 1 ,

  (1   ) / n
p estándar.
 
de π con menor error

relación
Psiguiente
z

 z1 / 2   1   ,
 1 / 2

 (1   ) / n normala la distribución muestral de p, se tiene la siguiente relación
Utilizando
la aproximación

donde z1-/2 es el percentil
normal
 1 - /2 de la distribución
 estandarizada. El método
p 
  z1 / 2 

P

z
 /2 1 ,
z1-/2 es el percentil 1 - /2 de la distribución
El1método
 normal estandarizada.


(
1


)
/
n
 un intervalo de confianza consiste
 en sustituir el error
más sencillo para obtener
encillo para obtener
intervalo
confianza
en distribución
sustituir el error
dondeunz1–α/2
es el de
percentil
1 –consiste
α/2 de la
normal estandarizada. El método más
estándar
de
p
por
su
estimación
p
(
1

p
)
/
n
y
despejar
la estandarizada.
proporción
sencillo
un intervalo
consistenormal
en sustituir
el error poblacional
estándar
de p por su
dondepara
z1-/2obtener
es el percentil
1 - de
/2 confianza
de la distribución
El método
estimación p (1  p ) / n yy despejar
dar de p por su estimación
despejar la
la proporción
proporción poblacional
poblacional
más sencillo para obtener un intervalo de confianza consiste en sustituir el error

p (1  p) 
p(1  p)
 1 .
   p  z1 / 2
P p  z1 / 2



n
n


(
1
)
(
1
)
p
p
p
p


de
p
por
su
estimación
p
(
1

p
)
/
n
y
despejar
la
proporción
poblacional






1


p
z
P p  z1estándar
.
/2
1 / 2

n
n


R.
Pastor-Barriuso
viene
Así, el intervalode confianza al 100(1 - )% para la proporción poblacional
p (1  p) 
p(1  p)


 zpara
 poblacional
 p  z1 / 2 viene
1 / 2la proporción
l intervalo de confianza al 100(1P- p)%
 1 .
n
n


dado por
97

zn 
 0 (1   0 )
,
n

n
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene
Inferencia sobre proporciones
cuya
distribución
será aproximadamente N(0, 1) si la hipótesis nula H0:  = 0 es cierta.
dado
por
Así, el intervalo de confianza al 100(1 – α)% para la proporción poblacional π viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribución normal
p(1  p )
p  z1 / 2
.
estandarizada para valores más alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hipótesis nula H0: π = π0 frente a la alternativa bilateral H1: π ≠ π0,
puedeEjemplo
emplearse
el A
estadístico
Para
realizar
el
contraste
de controles
la hipótesis
H0: 
= 0 frente se
a la
alternativa
7.1
partir
de los
delnula
estudio
EURAMIC,
pretende
estimar
p 0
z el estadístico ,
puede emplearse
bilateral
H1:   
la proporción
de0, individuos
en la población
de dicho estudio que
 0 (1 de
 0referencia
)
n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles
2
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0: π = π0 es cierta. El
bajos
según
el “National
Cholesterol
Education
Program”).
En kH=0normal
los
n=
valor
P
del
test
corresponde
entonces
a la probabilidad
la distribución
:158
 =de
0estandarizada
es cierta.
cuya
distribución
será aproximadamente
N(0, 1) si bajo
la
hipótesis
nula
para valores más alejados de 0 que el valor observado de z.
539 controles
observaron entonces
valores inferiores
o igualesbajo
a este
El valor
P del testsecorresponde
a la probabilidad
la umbral,
distribución normal
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la
obteniéndose
proporción
muestral
estandarizada
valores
más
de 0 que
el valor observado
z.
proporción para
deuna
individuos
enalejados
la población
de referencia
de dichode
estudio
que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos según el
“National Cholesterol Education
k = 158 de los n = 539 controles se
p = k/nProgram”).
= 158/539 =En
0,293.
Ejemplo
7.1
A
partir
de
los
controles
del
estudio
EURAMIC,
se pretende
observaron valores inferiores o iguales a este umbral,
obteniéndose
una estimar
proporción
muestral
Dado
que np(1 - p)
111,7  5,enpuede
emplearse
aproximación
normal
paraque
la proporción
de =individuos
la población
de la
referencia
de dicho
estudio
p = k/n = 158/539 = 0,293.
presentan
colesterol
HDL inferiores
olaiguales
a 0,90 mmol/l
 como
calcular
unnp(1
ICniveles
al– 95%
la≥proporción
poblacional
Dado
que
p) =depara
111,7
5, puede
emplearse
aproximación
normal(niveles
para calcular
un IC al 95% para la proporción poblacional π como
bajos según el “National Cholesterol Education Program”). En k = 158 de los n =
0,293(1  0,293)
0,293  z 0,975
539 controles se observaron valores539
inferiores o iguales a este umbral,
= 0,293  1,960,020 = (0,255; 0,332);
obteniéndose una proporción muestral
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL está
comprendida entre el 25,5 y el 33,2%
con=una
confianza
del 95%. Asimismo, para determinar
p = k/n
158/539
0,293.
es decir, la proporción poblacional
de sujetos
con=niveles
bajos de colesterol HDL
si los datos muestrales son compatibles con una proporción subyacente del 30%, se
contrastó la hipótesis H0: π = 0,30 versus H1: π ≠ 0,30 mediante el estadístico
estáDado
comprendida
25,5 y 5,
el puede
33,2% emplearse
con una confianza
del 95%.normal
Asimismo,
que np(1 entre
- p) =el111,7
la aproximación
para
p 0
0,293  0,30
z=

=  0,35,
para
determinar
datos
muestrales
son
compatibles
una proporción
para
0,30
(1  0,30) con
0 (1 
0)
 como
calcular
un ICsiallos
95%
laproporción
poblacional
n
539
subyacente del 30%, se contrastó la hipótesis H0:  = 0,30 versus H1:   0,30
que corresponde a un valor P = 2P(Z
≤ –0,35)
= 2{1
0,293
(1  0,293
) – Φ(0,35)} = 0,726 en las tablas de
0
,
293

z
0 , 975
la distribución
normal
estandarizada
Apéndice).
Por= tanto,
que
corresponde
a un valor
P = 2P(Z (Tabla
 -0,35)
= 2{1
- (0,35)}
0,726 puede
en las concluirse
mediante
el estadístico
5393 del
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas
la 30%.
distribución normal=estandarizada
(Tabla=3(0,255;
del Apéndice).
0,293  1,960,020
0,332); Por tanto,
concluirse que
prevalencia
poblacional
niveles
bajosasumen
de colesterol
Lospuede
procedimientos
de la
inferencia
presentados
en de
este
apartado
que el tamaño
es
decir,
la
proporción
poblacional
de
sujetos
con
niveles
bajos
de
colesterol
HDL
3 ha de
muestral es suficientemente grande para aplicar la aproximación normal; es decir,
HDLelnorequerimiento
es significativamente
distinta
del 30%.
cumplirse
mínimo de
que nπ(1
– π) ≥ 5. No obstante, en el Apéndice de este
está
comprendida
entre
el
25,5
y
el
33,2%
unamétodos
confianza
95%. Asimismo,
tema (Apartado 7.8) se facilitan correcciones de con
estos
quedelpermiten
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
determinardesiinferencia
los datoselmuestrales
son
con
proporción
Los procedimientos
presentados
en compatibles
este
asumen
que el
tamaño
contrastes,
particularmente
cuando
tamaño muestral
es apartado
moderado
o una
pequeño.
Esta
corrección
98
muestral subyacente
es suficientemente
para aplicar
la aproximación
normal;
de
versusesHdecir,
0,30
del 30%,grande
se contrastó
la hipótesis
H0:  = 0,30
1:   ha
Pastor-Barriuso R.
el estadístico
cumplirsemediante
el requerimiento
mínimo de que n(1 - )  5. No obstante, en el Apéndice de
Comparación de proporciones en dos muestras independientes
de la aproximación normal se conoce como corrección por continuidad y es aplicable a la
mayoría de los procedimientos estadísticos descritos en este tema. En adelante, se tratarán los
métodos de inferencia sin corrección por continuidad. Las correspondientes versiones con
corrección se presentan en el Apéndice al final del tema.
7.3 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que el interés radica en comparar la proporción de sujetos con una
determinada característica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseños de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervención
(ensayo clínico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuántos
desarrollan la enfermedad. Los tamaños muestrales de ambos grupos n1 y n2 están fijados
de antemano y, en el caso de un ensayo clínico, la intervención se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporción de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuántos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseño,
el número de casos y controles está predeterminado y, en consecuencia, ha de compararse
la proporción de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposición
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.
Ejemplo 7.2 En el “Second National Health and Nutrition Examination Survey”
(NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se
recogieron datos del nivel de colesterol sérico total en una muestra representativa
de 7.712 sujetos entre 30 y 74 años de edad sin diagnóstico previo de enfermedad
cardiovascular o cáncer. Tras un seguimiento medio de 15 años, se determinó el estatus
vital de cada sujeto y, en su caso, la causa de muerte. Así, en este estudio de cohortes
prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713
participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles
altos según el “National Cholesterol Education Program”) y 309 muertes por enfermedad
cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores
a 6,20 mmol/l.
Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasificó a los sujetos
según tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL.
De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de
colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles
libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho
umbral.
Pastor-Barriuso R.
99
valores de colesterol HDL
valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.
Inferencia sobre proporciones
n general, los resultados
Ende
general,
la comparación
los resultados
de una
devariable
la comparación
dicotómica
de una
en dos
variable dicotómica en dos
tras independientesmuestras
suelen organizarse
independientes
en una
suelen
tablaorganizarse
22 (Tabla en
7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1 Tabla 2×2 genérica de la
2(1 - 2)/n2). Además, como ambas muestras son
asociación entre exposición y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
Enfermedad
4), se tiene que
~ N( ,  (1 -  )/n ). Además, como ambas muestras son
1, en
) ydiferencia
p2 de

N(
Exposición
1(1estimar
1)/n1la
2 la2 proporción
2 expuestos
2 de No
nde estimar la diferencia
pretende
la- proporción
enfermos
en
entreSí
enfermos
y no Total
entre expuestos y no
Sí
a
b
n1
 1 (1   1 )  2 (1   2 ) 
. métodos
estos.
 pueden aplicarse
 (véase
1   Estos
2,
independientes
Apartado
se tiene
que d a estudios
métodos
expuestos.
Estos
igualmente
a3.4),
estudios
aplicarse
igualmente
peron
retrospectivos, pero
No pueden
c retrospectivos,
n1
n2

Total
m1
m2
2
n
arando la proporción
comparando
de expuestos
la proporción
entre casosdey expuestos
controles (ver
entre
controles
Ejemplo 7.5).
 1Ejemplo
(1casos
 2 (1   (ver
  1 )y 7.5).

2)
~
p1  de
p 2de

p1 - p2 es un estimador
puntuallos
insesgado
lalaN comparación
.
 1   2 ,
En general,
resultados
de
en dos muestras
n1 una variable
n 2 dicotómica


~
independientes
suelen
organizarse
en
una
tabla
2×2
(Tabla
7.1).
En
este
apartado
suponemos
1(1 - 7.1
2, aquí]
- aproximadamente
2)/n2). Además, como
ambas muestras son
N(1,[Tabla
1)/n
1) y p2  N(
2(1
aproximadamente
[Tabla
7.1
aquí]
y
no
expuestos,
E(p
p
)
=

1 - 2 entre expuestos
1
2
1
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
De este resultado
se desprende
que p1 - p2 yesno
unexpuestos.
estimador puntual
insesgado
de la aplicarse
la independientes
proporción
de enfermos
entre expuestos
Estos métodos
pueden
(véase Apartado
3.4), se tiene que
0(1 - )% para igualmente

se
obtiene
siguiendo
el
mismo
estudios retrospectivos, pero comparando la proporción
de expuestos entre= casos
1
2
proporción de enfermos
La proporción
ena la
muestra
de de
enfermos
sujetosen
expuestos
la muestra
viene
de sujetos
dada por
expuestos
p1 =
viene
dada por p1
1 - 2 entre expuestos y no
expuestos, E(p1 - p2) = 1 diferencia(ver
de Ejemplo
riesgos subyacente
y controles
7.5).
 1 (1   1 )  2 (1   2 ) 

roporción como
y en la muestra de N(
sujetos
=~ la
c/n
y22,)/n
nsujetos
son
psuficientemente
= c/n2como
. Siviene
n1ambas
y ndada
suficientemente
a/n
a/n1 y en la
La
de 1enfermos
por
p1 = son
p~p22en

n-1 de
proporción
(1la-expuestos
muestra
) ypde
p2sujetos

N(
Nno
,2.expuestos
). Además,
muestras
2. son
1por
1(1
2 2por
2expuestos
1,yen
1no
1)/n
2muestra
2Si

.
El
intervalo
de
confianza
al
100(1

)%
para
siguiendo
el
mismo
n
n
2
1 1 - 2 se obtiene
2


muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas
~ N(π
~ N(π ,
des, estas
proporciones
grandes,
tenderán
a distribuirse
muestrales
tenderán
forma
anormal,
distribuirse
pp11 
de forma
normal,
π1)/n1) ypp12 
proporciones
tenderán
a distribuirse
de
forma
p1 (1  p1 ) independientes
p 2 (1muestrales
 pestas
) proporciones
(véase
Apartado
3.4), sede
tiene
quenormal,
2muestrales
1, π1(1 –
2

,
procedimiento
utilizado
para
unamuestras
proporción
como
 / 2
π
(1
–
π
)/n
).
Además,
como
ambas
son
independientes
(véase
Apartado
3.4),
se
tiene
que
2 De este
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la
n1
~     ,  1 (1   1 )   2 (1   2 )  .
 -1  entre
1  p 2  N
2p1 (1 expuestos
 p1 ) p 2y(1no
 expuestos,
p2 ) 
E(p1 - p2) = 1 diferencia de riesgospsubyacente
n1 
n2 6 , 
p1 amplitud
p 2  z11 / 22
erencia de proporciones muestrales con una
6
n1
n2
Deeste
p1 – p2- es
un para
estimador
insesgado
de laeldiferencia
intervalosededesprende
confianzaque
al 100(1
)%
1 - puntual
siguiendo
mismo de
2. Elresultado
2 se obtiene
mación de su error estándar.
De este
resultadoπse
que p1 - py2 no
es un
estimador
puntual
insesgado
deintervalo
la
riesgos
subyacente
π2 entre expuestos
expuestos,
E(p
π1 – π2. El
de
1 –desprende
1 – p2) =
que es simétrico
deπuna
la–diferencia
decomo
proporciones
muestrales
con una amplitud
π
se
obtiene
siguiendo
el
mismo
procedimiento
utilizado
confianza
al 100(1utilizado
–alrededor
α)% para
procedimiento
para
proporción
1
encias en la probabilidad subyacente de desarrollar
la2
para
una proporción
como
diferencia
de riesgos
subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 directamente proporcional a la estimación de su error estándar.
stos y no expuestos, se contrasta la hipótesis nula H0:
p1 (1  p1 ) p 2 (1  p 2 )
2. El intervalo de confianza
100(1
p1  pal
z1 / 2- )% para 1- 2 se obtiene
, siguiendo el mismo
2 
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1  2. Bajo la hipótesis nula de
utilizado
para
una
proporcióndecomo
queprocedimiento
es simétrico
alrededor
de expuestos
la diferencia
proporciones
muestrales
con una
amplitud
enfermedad
entre
los sujetos
y no expuestos,
se contrasta
la hipótesis
nula
H0:
directamente
proporcional
a
la
estimación
de
su
error
estándar.
que
es
simétrico
alrededor
de
la
diferencia
de
proporciones
muestrales
con
una
amplitud
2 = , se cumple que
Para
hipótesis
2 (12.Bajo
de
pen
H
pprobabilidad
psubyacente
existenalternativa
diferenciasbilateral
de nula
desarrollar
la
1 = determinar
2 frente a la si
1 (1la
11): 1 p
2 ) la hipótesis
p1 a pla2 estimación
 z1 / 2
 estándar. ,
directamente
proporcional
de
su
error
enfermedad
se contrasta
la hipótesis nula H0: π1 = π2
n1
n2
1   entre los sujetos expuestos y no expuestos,
~ N  0,  (1   ) 1igualdad

,


:

=

=

,
se
cumple
que
de
proporciones
H
frente
a la hipótesis alternativa
H1: π1 ≠ π2. Bajo la hipótesis nula de igualdad de

0 bilateral
1
2

diferencias en
la probabilidad subyacente de desarrollar la
n 2 determinar
 n1 Para

 H : π = πsi existen
proporciones
=
π,
se
cumple
que
0
1
2
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos
expuestos,
la hipótesis nula H0:

 1 se1contrasta
~ N y0no
p1  p 2 



,
,
(
1
)




dad de enfermar común
para
expuestos
y
no
 de su error
directamente proporcional a la estimación
n 2  
 n1estándar.

1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de
su
valor
puedea estimarse
ad  es desconocida,
dondePara
π corresponde
lasiprobabilidad
de enfermar
común
para expuestos
y no expuestos.
Aunque
determinar
existen diferencias
en la
probabilidad
subyacente
de desarrollar
la esta
probabilidad
π
es
desconocida,
su
valor
puede
estimarse
mediante
la
proporción
combinada
de
enfermos
donde

corresponde
a
la
probabilidad
de
enfermar
común
para
expuestos
y
no
igualdad de proporciones H0: 1 = 2 = , se cumple que
p =los
=(a(asujetos
c)/(1nexpuestos
de enfermos enenambas
muestras
++c)/(n
+1 +
n2) = m1/n.
el estadístico
este test nula
es H0:
ambas
muestras
enfermedad
entre
y Así,
no expuestos,
se propuesto
contrasta para
la hipótesis
p
p

1
2
su valor puede estimarse
expuestos. Aunque esta probabilidad  es desconocida,
,1 
z ~ 
1

uesto para este testes
H)1: 11 
1 = 2 frente a la hipótesis
p1alternativa
 , la hipótesis nula de
0,  (11
 p 2  N bilateral
 2. Bajo
(1  p ) enambas
n1  n muestras
2 
p = (a + c)/(n1 +
mediante la proporción combinada depenfermos
 n1 n 2 
igualdad de proporciones H0: 1 = 2 = , se cumple que
quen2bajo
aproximadamente
una distribución
normal
estandarizada, lo que permitirá
) = mH1/0corresponde
n.sigue
Así, el
estadístico
propuesto
este test
es para
donde
a la probabilidad
depara
enfermar
común
expuestos y no
determinar
estadística deuna
la distribución
diferencia entre
proporciones.
que bajo la
H0significación
sigue aproximadamente
normal
estandarizada, lo que
~ N  0,  (1   ) 1  1   ,
p1  p 2 
  puede estimarse

 es desconocida,
sun valor
expuestos.
Aunque
esta
probabilidad
permitirá determinar la significación estadística
delan1diferencia
entre proporciones.
2 

7
100
Pastor-Barriuso R.
mediante la proporción combinada de enfermos en ambas muestras p = (a + c)/(n1 +
dondeEjemplo
 corresponde
probabilidad
de enfermar
común
expuestos
y no
7.4 EnalalaTabla
7.2 se presenta
el número
depara
muertes
por enfermedad
7
n ) = m /n. Así, el estadístico propuesto para este test es
permitirá determinar la significación estadística de la diferencia entre proporciones.
p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribución
normal estandarizada, lo que
Comparación de proporciones en dos muestras independientes
entre expuestos y no Ejemplo
expuestos,
- pTabla
- se presenta el número de muertes por enfermedad
2) = 17.2
7.4E(p
En1 la
permitirá determinar la significación estadística de la diferencia entre proporciones.
)% para 1 - 2 se obtiene
siguiendoobservadas
el mismo durante el seguimiento del estudio NHANES II entre
cardiovascular
Tabla 7.2 Muertes por enfermedad cardiovascular
durante
el seguimiento
del estudio
Ejemplo
7.4con
En(ECV)
la Tablaaltos
7.2 ysemoderados-bajos
presenta
el número
muertes
por enfermedad
rción como
los sujetos
niveles
de de
colesterol
sérico
total (Ejemplo
NHANES II según niveles del colesterol sérico total.
cardiovascular
observadas
durante
seguimiento
del
II entre
Mortalidad
por
ECVestudio NHANES
7.2). La proporción
de muertes
porelenfermedad
cardiovascular
es p1 = 254/2.713
Colesterol
p1 (1  p1 ) p 2 (1  p 2 )

,
total (mmol/l)
Sí
No
Total
n1
n 2 los
sujetos
niveles altos ycon
moderados-bajos
de colesterol
sérico total
(Ejemplo
= 0,094
en con
los participantes
niveles de colesterol
total superiores
a 6,20
cia de proporciones
≥ 6,20
254
2.459
2.713
< 6,20
309
4.690
4.999
254/2.713
7.2).
La yproporción
de muertes
porenenfermedad
cardiovascular
es p1a=6,20
pcon
309/4.999
= 0,062
aquellos
con
niveles inferiores
mmol/l.
mmol/l
2 = una
muestrales
amplitud
Total
563
7.149
7.712
=Por
0,094
enlalosestimación
participantes
con niveles
de colesterol
total superiores
6,20
p - p2 =
tanto,
puntual
de la diferencia
de riesgos
subyacentea es
ón de su error estándar.
Ejemplo 7.4 En la Tabla 7.2 se presenta el número de muertes por1 enfermedad
cardiovascular
observadas=durante
el aquellos
seguimiento
estudio NHANES II entre los sujetos
p2 = =309/4.999
0,062 en
con del
niveles
mmol/l
0,094 - y0,062
0,032 y su
de confianza
al 95% inferiores a 6,20 mmol/l.
s en la probabilidad subyacente
desarrollar
la intervalode
con nivelesde
altos
y moderados-bajos
colesterol sérico total (Ejemplo 7.2). La proporción
= 254/2.713
= 0,094 eneslos
de muertes
enfermedad
cardiovascular
es p1 de
p1 participantes
- p2 =
Por
tanto, lapor
estimación
puntual
de la diferencia
riesgos subyacente
y no expuestos, se contrasta
la hipótesis
nula total
H0:0,superiores
094(1  0,094
) mmol/l
0,062(1yp02 ,=062
)
con niveles
de colesterol
a 6,20
309/4.999
= 0,062 en aquellos

0,032  z 0,975
con niveles
6,20
mmol/l.
tanto, laalestimación
puntual de la diferencia de
2.713
495%
.999
0,094
- 0,062inferiores
= 0,032 ya su
intervalo
dePor
confianza
bilateral H1: 1  2. Bajo
la hipótesis
nula
riesgos
subyacente
es de
p1 – p2 = 0,094 – 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles
de colesterol
total0,045).
excedió en 32
0,032 altos
1,960,007
= (0,019;
0,094(1  0,094) 0,062(1  0,062)
, se cumple que

0,032  z 0,975
2.713 con niveles4más
.999bajos (IC al 95% entre 19
casos por 1.000 a la de los participantes
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones
1 
1
= diferencia
0,032  1,960,007
= (0,019;(0,045).
0,  (1   )  y ,45 casos por 1.000), siendo esta
P < 0,001).
muy significativa
n
n
2 poblacionales
 1
Para el contraste
H0:bilateral
1 = 2 de
se emplea
el
estadístico
la hipótesis nula de igualdad de proporciones poblacionales
H0: πel
π2 se emplea
el estadístico
1 =contraste
Para
bilateral
de la hipótesis nula de igualdad de proporciones
0,032
de enfermar común para expuestos y no
z = [Tabla 7.2 aproximadamente aquí]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadístico
1 
 1
0,073(1  0,073)


es desconocida, su valor puede estimarse
 2.713 4.999 
0la,032
Ejemplo
La
casos
de infarto
de miocardio
y lospor enfermedad
donde p 7.5
0,073 eslos
proporción
global
muertes
= (563/7.712
a +Tabla
cz)/(=n17.3
+= muestra
nfermos en ambas muestras
= de
5,13,
1 NHANES
1 de
donde p = 563/7.712
0,073
es la proporción
global
porP enfermedad
cardiovascular
en todos= los
participantes
El valor
del test se obtiene
 del
 II.muertes
0,073
(1valores
) colesterol
 0,073de
 HDL superiores o inferiores a
controles
del
EURAMIC
con
como
2P(Z
≥
5,13)
=
2{1
–
Φ(5,13)}
<
0,001.
En
resumen,
después
de 15 años de
para este test es
 2.713 4.999 
seguimiento,
incidencia
de del
muertes
por enfermedad
P del test se en los
cardiovascularlaen
todos losacumulada
participantes
NHANES
II. El valor cardiovascular
0,90
mmol/l.
A partiraltos
de esta
tabla 22, total
se pretende
la proporción
sujetos
con niveles
de colesterol
excediócomparar
en 32 casos
por 1.000dea la de los
donde
= 563/7.712
= 0,073
es la- (IC
proporción
global
de
muertes
enfermedad
participantes
con
más
al 95%< entre
19En
y 45
casos por
por
1.000),desiendo
Z  5,13)
= bajos
2{1
(5,13)}
0,001.
resumen,
después
15 esta
obtienepcomo
2P(niveles
sujetos
conmuy
niveles
bajos de colesterol
HDL ( 0,90 mmol/l) entre casos p1 = c/m1
diferencia
significativa
(P < 0,001).
P del test se
cardiovascular
en
todos
los
participantes
del NHANES
II. por
El valor
años de seguimiento, la incidencia acumulada
de muertes
enfermedad
p2 = dlos
/m2 casos
= 158/539
= 0,293.
La diferencia
=
193/4627.5
= 0,418
y controles
Ejemplo
La Tabla
7.3 muestra
de infarto
de miocardio
y losdecontroles del
7= 2{1 - (5,13)} < 0,001. En resumen, después de 15
P
(
Z

5,13)
obtiene
como
2
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
p2 = 0,418la- 0,293
= 0,125
el IC alcon
95%niveles
para bajos
proporciones
es p1 - comparar
de esta tabla muestrales
2×2, se pretende
proporción
deysujetos
de
1años
de
seguimiento,
la
incidencia
acumulada
de
muertes
por
enfermedad
colesterol HDL (≤ 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 =
d/m
dado por= 0,293. La diferencia de proporciones muestrales es p1 – p2 = 0,418 –
2 viene
2 = 158/539
8
0,293 = 0,125 y el IC al 95% para π1 – π2 viene dado por
p1  p 2  z 0,975
p1 (1  p1 ) p 2 (1  p 2 )

m1
m2
= 0,125  1,96
0,418(1  0,418) 0,293(1  0,293)

462
539
= 0,125  1,960,030 = (0,065; 0,184).
Pastor-Barriuso R.
El estadístico para el contraste bilateral de la hipótesis nula H0: 1 = 2 se calcula
101
 viene dado por
p1 (1  p1 ) p 2 (1  p 22 )

,
Inferencia
n1
n 2 sobre proporciones
p1 (1  p1 ) p 2 (1  p 2 )
z 0,975
= 0,351 
es la proporción total de sujetos con niveles
donde p p=1 n2/pn2=351/1.001
m1
m2
ia de proporciones muestrales con una amplitud
Tabla 7.3 Colesterol HDL en los casos de infarto
bajos de colesterol
HDL.
La significación
estadística del
es por tanto P =
agudo de
miocardio
y (los
del(contrate
0,418
1  0controles
,418) 0,293
1estudio
 0,293)
n de su error estándar.
= 0,125  1,96

EURAMIC.
539 son
2{1 - (4,12)} < 0,001. Así, los casos 462
de infarto de miocardio
Infarto
de
miocardio
en la probabilidad subyacente de desarrollar
la
Colesterol
HDL
= (mmol/l)
0,125
 1,960,030
= (0,065;
0,184).bajosTotal
Caso
Control
significativamente
más propensos
a presentar
niveles
de colesterol HDL que
y no expuestos, se contrasta la hipótesis nula H0:
> 0,90
269
381
650
0,001),
con nula
una diferencia
los sujetos para
libres
la enfermedad
(Pde< la
≤ 0,90
193
158
H0351
: 1 = de
El estadístico
elde
contraste
bilateral
hipótesis
2 se calcula
ilateral H1: 1  2. Bajo
la hipótesis nula
de
Total
462
539
1.001
, se cumple que
proporciones del 12,5% (IC al 95% 6,518,4%).
como
El estadístico para el contraste bilateral de la hipótesis nula H0: π1 = π2 se calcula como
p1  p 2
1 
z  [Tabla 7.3 aproximadamente aquí]
1
0,  (1   )    ,
1 
 1
 n1 n 2  
p (1  p )


 m1 m 2 
0,125
e enfermar común 7.4
paraASOCIACIÓN
expuestos y no ESTADÍSTICA EN
UNA TABLA DE
 4CONTINGENCIA
,12,

1 
 1
0,351(1  0,351)


s desconocida, su valor puede estimarse
 462 539 estadística para evaluar de
En este apartado se presenta una prueba de significación
donde p == n(a/n+ =c)/(
351/1.001
= 0,351 es la proporción total de sujetos con niveles bajos de
n1 +
fermos en ambas muestras
forma genérica 2la presencia o ausencia de asociación entre las variables dicotómicas
colesterol HDL. La significación estadística del contraste es por tanto P = 2{1 – Φ(4,12)} <
9
0,001. Así, los casos de infarto de miocardio son significativamente más propensos a presentar
para este test es
representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto,
niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con
una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%).
sino únicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2
y m2UNA
fijos)TABLA
y transversales
(tamaño muestral n fijo).
retrospectivos
(marginales m1 EN
7.4fijos),
ASOCIACIÓN
ESTADÍSTICA
DE CONTINGENCIA
En este
apartado
se presenta
una
significación
estadística para
de las
forma
Para
contrastar
si las variables
de unadetabla
22 son independientes,
se evaluar
comparan
7 prueba
genérica la presencia o ausencia de asociación entre las variables dicotómicas representadas en
unafrecuencias
tabla 2×2. observadas
Este procedimiento
no celda
facilita(i,estimaciones
sino únicamente
valores
Oij en cada
j) de la tabla de
conefecto,
sus frecuencias
esperadas
P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales
y ijmbajo
y transversales
muestraldonde
n fijo).i = 1, 2 denota la fila y j = 1, 2 la
m1 E
la hipótesis
nula de(tamaño
independencia,
2 fijos)
Para contrastar si las variables de una tabla 2×2 son independientes, se comparan las
Eij j)sede
calculan
el producto
de esperadas
sus
columna.observadas
Estas frecuencias
esperadas
celda (i,
la tablacomo
con sus
frecuencias
Eij bajo
frecuencias
Oij en cada
la hipótesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas
ni y mcomo
por el tamaño
muestral total n, marginales n
correspondientes
marginales
j, dividido
frecuencias
esperadas
Eij se calculan
el producto
de sus correspondientes
i
y mj, dividido por el tamaño muestral total n,
nm
Eij = i j .
n
Así, por ejemplo, si en un estudio prospectivo no hubiera asociación entre exposición y
Así, por ejemplo,
si en un
estudiode
prospectivo
asociación
entre exposición
y al
enfermedad,
la frecuencia
esperada
expuestos no
quehubiera
desarrollan
la enfermedad
sería igual
producto del número de expuestos n1 por la proporción combinada de enfermos m1/n, E11 =
la frecuencia esperada de expuestos que desarrollan la enfermedad sería
n1menfermedad,
1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos que han estado
expuestos al factor de riesgo correspondería al producto del número de casos m1 por la proporción
n1 por la proporción
combinada
de enfermos
igual al producto
del número
m1n1/n. Asimismo,
en un estudio
transversal
la frecuencia
combinada
de expuestos
n1/n, E11de=expuestos
esperada de sujetos a la vez expuestos y enfermos sería igual al producto del número total de
10
102
Pastor-Barriuso R.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociación entre la
mortalidad por enfermedad cardiovascular y el colesterol
total en el estudio
Asociación estadística en una tabla de contingencia
prospectivo NHANES II. Si ambas variables fueran independientes, la
sujetosprobabilidad
n por las proporciones
expuestoscardiovascular
n1/n y de enfermos
m1/n,enElos
n(n1/n)(m1/n) =
11 =sujetos
de morir por de
enfermedad
sería igual
n1m1/n. Notar, por tanto, que los valores esperados bajo la hipótesis nula de independencia
coinciden
en los distintos
tipos de
de colesterol
diseño. total. Esta probabilidad podría entonces
con niveles
altos y bajos
Ejemplo
La Tabla
7.2 muestra
los valores
observados
de lamuestras
asociación entre la
estimarse7.6
mediante
la proporción
combinada
de muertes
en ambas
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
Si ambas
variables
fueran
independientes,
la probabilidad
563/7.712 =II.0,073.
Así, entre
los 2.713
participantes
con niveles
altos de de morir por
enfermedad cardiovascular sería igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabría
Esta probabilidad
podría =entonces
estimarse
mediante la proporción
esperar 2.7130,073
198,1 muertes
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. Así, entre los 2.713
participantes
altos de
total, cabría
esperar este
2.713·0,073
cardiovascularcon
bajoniveles
la hipótesis
nulacolesterol
de independencia.
Aplicando
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hipótesis nula de independencia.
Aplicando
estelosmismo
los valores
esperados
en por
cada celda vendrían
razonamiento,
valoresrazonamiento,
esperados en cada
celda vendrían
dados
dados por
2.713  563
Estos valores esperados se
en la=Tabla
E11representan
=
198,1,7.4. Notar que los marginales
7.712
de la tabla de frecuencias observadas
2.713  7(Tabla
.149 7.2) y esperadas (Tabla 7.4)
= 2.514,9,
E12 =
7
.
712
coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las
4.999  563
=
E21esperados
= 364,9,
celdas, los restantes valores
7.712de la tabla 22 quedan determinados por
dichos marginales.
E22 =
4.999  7.149
= 4.634,1.
7.712
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
7.4 aproximadamente
aquí] 7.4) coinciden. De hecho,
tabla de frecuencias observadas
(Tabla
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 2×2 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las
Para
evaluarobservadas
la independencia
de las mediante
variables el
deestadístico
una tabla 2×2, se comparan las frecuencias
frecuencias
y esperadas
observadas y esperadas mediante el estadístico
2 =
(Oij  E ij ) 2
 Eij .
i 1 j 1
2
2
Cuanto mayor seaTabla
la diferencia
entre los valores
observados
esperados, mayor será la
7.4 Frecuencias
esperadas
bajo layhipótesis
de independencia entre la mortalidad por
magnitud del estadístico
y, en consecuencia,
se tendrá
evidencia en contra de la
enfermedad
cardiovascular
(ECV)mayor
y el colesterol
total en el estudio NHANES II.
hipótesis nula de independencia. En particular, puede probarse que si las variables de la
Colesterol
total (mmol/l)
Mortalidad por ECV
Sí
No
Total una distribución
tabla 22 son independientes, este estadístico
sigue aproximadamente
chi-cuadrado con 1
≥ 6,20
< 6,20 de
grado
Total
libertad
198,1
364,9
(sólo
una
563
2.514,9
4.634,1
frecuencia
7.149
2.713
4.999de
esperada
7.712
la tabla 22 es
independiente). El valor P del contraste corresponde entonces a la probabilidad a la
el nombre R.
derecha del estadístico  2 bajo la distribución  12 . Esta prueba se conoce conPastor-Barriuso
de test chi-cuadrado de independencia o asociación de Pearson, y puede aplicarse
103
Inferencia sobre proporciones
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor será la magnitud
del estadístico y, en consecuencia, se tendrá mayor evidencia en contra de la hipótesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 2×2 son
independientes, este estadístico sigue aproximadamente una distribución chi-cuadrado con 1
grado de libertad (sólo una frecuencia esperada de la tabla 2×2 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadístico χ 2 bajo la
distribución χ 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociación de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.
Ejemplo 7.7 A partir de los valores observados y esperados bajo la hipótesis de
independencia entre la mortalidad por enfermedad cardiovascular y el colesterol sérico
total, se obtiene el test estadístico
(254  198,1) 2 (2.459  2.514,9) 2
 =

198,1
2.514,9
2
(309  364,9) 2 (4.690  4.634,1) 2


364,9
4.634,1
= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.
Como las frecuencias esperadas son claramente superiores a 5, este estadístico se
Como
las frecuencias
esperadas
son claramente
superiores
este estadístico
se bajo la
distribuirá
aproximadamente
como
una chi-cuadrado
cona15,grado
de libertad
hipótesis nula de independencia. Utilizando la Tabla 6 del Apéndice, puede comprobarse
2 libertad bajo
distribuirá
como una
chi-cuadrado
1 gradoχde
que el valoraproximadamente
calculado del estadístico
es muy
superior con
al percentil
1;0,995 = 7,88, de lo cual
2
se deduce que P = P(χ 1 ≥ 26,30) < 0,005. Así, los niveles altos de colesterol total están
la
hipótesis nula deasociados
independencia.
Tabla
6 del Apéndice,
puede
significativamente
con laUtilizando
mortalidadlapor
enfermedad
cardiovascular.
comprobarse que el valor calculado del estadístico es muy superior al percentil
La hipótesis nula de independencia entre las variables de una tabla 2×2 equivale a la
igualdad
dos proporciones poblacionales. De hecho,2 puede probarse que el estadístico χ 2 de
 12;0de
, 995 = 7,88, de lo cual se deduce que P = P(  1  26,30) < 0,005. Así, los
Pearson es igual al cuadrado del estadístico z de la comparación de proporciones en muestras
independientes, de tal forma que los valores P resultantes de ambos procedimientos son
niveles altos de colesterol total están significativamente asociados con la
idénticos (la distribución chi-cuadrado con 1 grado de libertad es, por definición, igual al
cuadrado de una distribución normal estandarizada). Cabría preguntarse entonces cuál es la
mortalidad por enfermedad cardiovascular.
aportación del test de independencia de Pearson. En primer lugar, los cálculos de este test no
dependen del diseño utilizado para generar los datos. En segundo lugar, esta prueba puede
generalizarse de forma sencilla a la comparación de múltiples proporciones en una tabla con r
La hipótesis nula de independencia entre las variables de una tabla 22 equivale a la
filas y c columnas.
igualdad
de dos proporciones
poblacionales.
De hecho,
puede probarse
Para contrastar
la independencia
de dos variables
categóricas
en una que
tablaelr×c, se calcula el
estadístico
estadístico  2 de Pearson es igual al cuadrado del estadístico z de la comparación de
r
c
(Oij  E ij ) 2
 2 = 
,
proporciones en muestras independientes,
de tal forma
E ij que los valores P resultantes de
i 1 j 1
104
ambos procedimientos son idénticos (la distribución chi-cuadrado con 1 grado de
donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una
libertad es, por definición, igual al cuadrado de una distribución normal estandarizada).
tabla 22.R.Bajo la hipótesis nula de independencia, dicho estadístico se distribuye
Pastor-Barriuso
Cabría preguntarse entonces cuál es la aportación del test de independencia de Pearson.
aproximadamente según una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los
En primer lugar, los cálculos de este test no dependen del diseño utilizado para generar
celdas tengan valores esperados inferiores a 5.
Asociación estadística en una tabla de contingencia
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular
donde las frecuencias
Eij =del
nimestudio
de laIImisma
que en
una tabla
j/n se calculan
entre los esperadas
participantes
NHANES
con unforma
colesterol
sérico
total 2×2.
Bajo la hipótesis nula de independencia, dicho estadístico se distribuye aproximadamente según
una chi-cuadrado
cona(r5,20
– 1)(c
– 1) (nivel
gradosdeseable),
de libertad.
Los5,20
grados
de libertad
corresponden
inferior
mmol/l
entre
y 6,19
mmol/l (nivel
limítrofeal
número de frecuencias esperadas independientes para el cálculo del estadístico, una vez
determinadosalto)
los marginales
la tabla
r×c.mmol/l
La aproximación
chi-cuadradoPara
a la determinar
distribuciónsidel
y superior de
o igual
a 6,20
(hipercolesterolemia).
la
estadístico será válida si el tamaño muestral es suficientemente grande. En concreto, el criterio
más aceptadoincidencia
para aplicar
test es
ningún valor
esperado sea
inferior
a 1los
y que
más
de este
muertes
porque
enfermedad
cardiovascular
difiere
entre
tres no
grupos,
del 20% de las celdas tengan valores esperados inferiores a 5.
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los
participantes
del estudio NHANES
con un colesterol
sérico
total inferior
a 5,20 mmol/l
correspondientes
marginalesIIdividido
por el tamaño
muestral
total. Estas
(nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limítrofe alto) y superior o igual a 6,20
mmol/lfrecuencias
(hipercolesterolemia).
Para
determinar
la incidencia
muertes
por
esperadas se
presentan
entresiparéntesis
en de
la Tabla
7.5.
Aenfermedad
cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias
esperadas
mediante el
producto de
correspondientes
marginales
divididoel por el
continuación,
se comparan
los sus
valores
observados y esperados
mediante
tamaño muestral total. Estas frecuencias esperadas se presentan entre paréntesis en la
Tabla 7.5.
A continuación, se comparan los valores observados y esperados mediante el
estadístico
estadístico
2 =
(254  198,1) 2 (2.459  2.514,9) 2

198,1
2.514,9

(174  175,8) 2 (2.234  2.232,2) 2

175,8
2.232,2

(135  189,1) 2 (2.456  2.401,9) 2

189,1
2.401,9
14
= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.
Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribución
chi-cuadrado
conlas
(3frecuencias
– 1)(2 – 1)esperadas
= 2 grados
libertad a(Tabla
6 del
Apéndice)
Dado que
son de
superiores
5, puede
utilizarse
la para
2
obtener un valor P = P(χ 2 ≥ 33,79) < 0,005. Esto es, la incidencia de muertes por
enfermedad
cardiovascular
difierecon
significativamente
losde
tres
grupos,
obteniéndose
distribución
chi-cuadrado
(3 - 1)(2 - 1) = 2entre
grados
libertad
(Tabla
6 del
una incidencia acumulada en los 15 años de seguimiento de 52, 72 y 94 muertes por
cada 1.000
participantes
con niveles
altoses,
delacolesterol
 33,79) <altos
0,005.y Esto
Apéndice)
para obtener
un valordeseables,
P = P(  22 limítrofes
total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente
Tabla 7.5 Frecuencias observadas (esperadas) de
entre
los tres por
grupos,
obteniéndose
una incidencia
acumulada
muertes
enfermedad
cardiovascular
(ECV)
entre en
loslos 15 años de
participantes del NHANES II con niveles de colesterol
seguimiento
de 52,
72 y 94ymuertes
por cada 1.000 participantes con niveles
total < 5,20,
5,20-6,19
≥ 6,20 mmol/l.
Mortalidad por ECV
Colesterol
deseables,
limítrofes altos y altos
de colesterol total, respectivamente.
total (mmol/l)
≥ 6,20
5,20-6,19
< 5,20
Total
Sí
254 (198,1)
174 (175,8)
[Tabla
7.5
135 (189,1)
563
No
2.459 (2.514,9)
2.234 (2.232,2)
aproximadamente
2.456 (2.401,9)
7.149
Total
2.713
2.408
aquí]
2.591
7.712
7.5 TEST DE TENDENCIA EN UNA TABLA r2
Pastor-Barriuso R.
A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hipótesis
105
p1se
(1 desprende
 p1 )que pp21que
(-1 p2ppes
De este
Deresultado
este resultado
se desprende
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
1 2-)un
p1  p 2  z1 / 2

,
n
n
1
2
Inferencia sobre proporciones
1 - 2entre
entre expuestos
y no expuestos,
y no expuestos,
E(p1 -E(p
p2)1=- p12)- = 1 diferencia
diferencia
de riesgos
de riesgos
subyacente
subyacente
1 - 2 expuestos
e es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
 . El intervalo
de confianza
de confianza
al 100(1
al 100(1
- )%-para
)%para
2 se obtiene
siguiendo
siguiendo
el mismo
el mismo
2. El intervalo
1 - 2se
1 - obtiene
7.52 TEST
DE TENDENCIA EN UNA TABLA r×2
ectamente proporcional a la estimación de su error estándar.
utilizado
utilizado
para
para
proporción
una proporción
como
comopermite contrastar la hipótesis nula de
Aprocedimiento
partirprocedimiento
de una tabla
r×2,
el
testuna
chi-cuadrado
de
Pearson
π1 = π2 = ... =subyacente
πr frente a de
la hipótesis
alternativa
H1: πi ≠ πj, donde
de diferencias
proporciones
Para determinarigualdad
si existen
en H
la0:probabilidad
desarrollar
la
i y j son 2 muestras cualesquiera. Un resultado
indicaría que al
p1 (1 ppsignificativo
)  pp12)(1 ppde
) esta
 p 2 prueba
)
1 1(1
2 2(1
p

z
p


,
,
menos
2
de
las
r
proporciones
En
el
caso
de
que
los grupos o
1  pp2poblacionales
1
12 
/ 2 z1 / 2son heterogéneas.
fermedad entre los sujetos expuestos y no expuestos, se contrasta
lanhipótesis
nula
H0:
n
n
n
1los grupos.
1
2
2
simplemente tomar
los
valores
1,
2,
...,
r
indicando
el
orden
de
A
muestras estén intrínsecamente ordenados, cabría preguntarse además si estas proporciones
siguen
alguna
tendencia
determinada
largo la
dehipótesis
los grupos.
= 2 frente a la
hipótesis
alternativa
bilateral
H1: 1 alo
nulaEndeeste apartado se presenta un
2.pBajo
con
sus
correspondientes
continuación,
setest
relacionan
las
proporciones
observadas
i
específico
para
detectar
gradiente
omuestrales
componente
(creciente
o
que
esque
simétrico
es simétrico
alrededor
alrededor
delalaexistencia
diferencia
de2,la...,
diferencia
deun
proporciones
de
proporciones
muestrales
conlineal
una
una amplitud
simplemente
tomar
los
valores
1,
r de
indicando
el orden
de los
grupos.
Aconamplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad
de proporciones
H0el: estadístico
1 = 2 = , se cumple que
puntuaciones
si mediante
directamente
directamente
proporcional
proporcional
a lalas
estimación
a puntuación
la estimación
de su
error
de su estándar.
errorpiestándar.
continuación,
se relacionan
proporciones
con sus correspondientes
En primer
lugar,
se asigna
una
sobservadas
i a cada una de las muestras ordenadas. Esta
puntuación puede representar un atributo numérico del grupo (ver Ejemplo 7.9), o simplemente
2
1 en
 1 diferencias
r ...,
Para
Para determinar
si
existen
si el
existen
diferencias
la probabilidad
en la probabilidad
subyacente
subyacente
de desarrollar
de desarrollar
la
la
estadístico
puntuaciones
s~i1,mediante
tomar
lospdeterminar
valores
2,
 , de los grupos. A continuación, se relacionan las
0n, (r(p1indicando
p))( s 
els )orden

1  p 2  N 




n1i correspondientes
n2  
proporciones observadas
puntuaciones si mediante el estadístico
 i pi i con sus
i 1


2
enfermedad
enfermedad
entre
los
entre
sujetos
los
sujetos
expuestos
expuestos
y
no
expuestos,
y
no
expuestos,
se contrasta
la hipótesis
la hipótesis
nula Hnula
H0:
0:
 =
,
2 se contrasta
r
 r 2

p (1  p ) ni ( s i  
s ) ni ( p i  p )( s i  s ) 
nde  corresponde
de
común
para expuestos
1 a=la2probabilidad
= 2 frente
a la hipótesis
a laenfermar
hipótesis
bilateral
H1: 1Hy1:no
2.1 Bajo
 2. la
Bajo
hipótesis
la hipótesis
nula de
nula de
ialternativa
1
i 1bilateral

1frente
2 alternativa
 =
,
r
2
p (1valor
ni (cumple
sestimarse
i  s)
 es desconocida,
puede
puestos. Aunque igualdad
esta probabilidad

,2sep=)cumple

,
se
que
que
igualdad
de proporciones
de proporciones
H0: 1H=0:2su
1==
1 proporción
donde ni es el tamaño de cada muestra, n = ni, p = nipi/n esi la
dondecombinada
ni es el tamaño
de cadaenmuestra,
n = ∑ni, p == ∑n
/n)/(es
(a +
n1 la
+ proporción combinada en
diante la proporción
de enfermos
ambas muestras
ipic



1
1
1
1



~puntuación
combinada en todas
las
yy s ==∑n
n
esla
lapuntuación
Notar
si las
todas
lasmuestras
muestras
/n
Notar
si las
i/nes
deispiiscada
muestra,
, )(p1 =
/nque
la
donde
ni es el tamaño
i
i
pN2
media.
n
,es
,proporciones observadas
0~n, =N(1n
0,media.
) ipque
 proporción
1  pp
21 

tienden
a
aumentar
o
disminuir
con
las
puntuaciones,
el
numerador
del
n
n
n
n
 1  21   2   estadístico será grande.
= m1/n. Así, el estadístico propuesto para este test es 

Si, por el tienden
contrario,
las proporciones
no varían
en función de laelpuntuación de cada grupo, el
proporciones observadas
a aumentar
o disminuir
combinada en todas
las muestras
y s =con
nilas
si/npuntuaciones,
es la puntuación media. Notar que si las
numerador estará próximo a 0. Bajo la hipótesis
nula de ausencia de una componente lineal en
donde
 corresponde
grande.
corresponde
aSi,
la por
probabilidad
a la
de enfermar
de
enfermar
comúncomún
para
expuestos
para
expuestos
y no chi-cuadrado
y no
ladonde
tendencia,
estadístico
anterior
seguirá
aproximadamente
una
distribución
numerador del estadístico
seráel
el probabilidad
contrario,
las
proporciones
no varían
en
proporciones
observadas
tienden
a
aumentar
o
disminuir
con
las
puntuaciones,
el
con 1 grado de libertad. Esta prueba se conoce genéricamente como test chi-cuadrado
de

es
desconocida,

es
desconocida,
su
valor
su
puede
valor
puede
estimarse
estimarse
expuestos.
expuestos.
Aunque
Aunque
esta
probabilidad
esta
probabilidad
tendencia
y,
a
diferencia
del
test
de
independencia
o
asociación,
puede
aplicarse
incluso
unción de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo la
numerador
del=muestras
estadístico
grande.
porreducido,
el
proporciones
no varían
cuando
algunas
un tamaño
bastalascon
que lademuestra
totalensea
=será
174/2.408
=Si,
0,072
y pcontrario,
= 0,094
las
135/2.591
0,052, p2tengan
3 = 254/2.713
ycombinada
la proporción
muy
extrema,
n7p(1=–(ap)+=
≥c)/(
5.
(a nFinalmente,
+1 c+)/(n1 +
mediante
mediante
la
lacomponente
proporción
combinada
enfermos
enfermos
ennoambas
en
ambas
muestras
muestras
hipótesis nula desuficientemente
ausencia
deproporción
unagrande
linealde
encombinada
la de
tendencia,
el
estadístico
función
de
la
puntuación
de
cada
grupo,
el
numerador
estará
próximo
a
0.
Bajo
la
cabe reseñar
quecategorías
el test de(Figura
tendencia
noPara
permite
contrastar
la tendencia
idoneidadcreciente
de la relación
lineal;
sucesivas
7.1).
contrastar
si esta
es
este
test
únicamente
determina
la
existencia
de
una
componente
lineal
significativa,
anterior seguirá aproximadamente
una
distribución
chi-cuadrado
con
1es
grado
n2) = m
n21)/n=. Así,
m1/n.elAsí,
estadístico
el
estadístico
propuesto
propuesto
para este
para
test
este
test esde
hipótesis
nula
dese
ausencia
de
componente
ensla=tendencia,
estadístico
independientemente
deasignan
cuál sea
lapuntuaciones
relación
subyacente.
= 4,65,
5,72 y s3 =el6,90
significativa,
lasuna
s1lineal
2
ibertad. Esta prueba se conoce genéricamente como test chi-cuadrado de tendencia y,
anterior
seguirá aproximadamente
unacolesterol
distribución
con 1 grado
de
correspondientes
medianaanterior
del
totalchi-cuadrado
dediferencias
cada categoría.
Aunque
Ejemplo 7.9 Enaellaejemplo
se detectaron
significativas
en el riesgo
muerte por enfermedad
cardiovascular
entre
los participantes
del NHANES II con
a diferencia del test dedeindependencia
o asociación,
puede aplicarse
incluso
cuando
test chi-cuadrado
de
tendencia
y, un
libertad.
Esta
prueba
se conoce
podrían
asignarse
las
puntuaciones
1, 2 y 3, como
esy preferible
utilizarDe
una
medida
niveles
de
colesterol
total < genéricamente
5,20, 5,20-6,19
≥ 6,20
mmol/l.
hecho,
se de
observa
claro
en las incidencias
acumuladas
p1total
= 135/2.591
= 0,052, p2 = 174/2.408 =
algunas muestras tengan
unincremento
tamaño reducido,
basta con que
la muestra
sea
a diferencia
del
test
de
independencia
o
asociación,
puede
aplicarse
incluso
cuando
7 si7
tendencia
de cada
categoría
(media
o mediana)
para(Figura
preservar
distancia
0,072 y p3 central
= 254/2.713
= 0,094
de las
sucesivas
categorías
7.1).laPara
contrastar
esta
tendencia
creciente
es significativa,
se asignan
s1 = 4,65, s2 = 5,72
suficientemente grande
y la
proporción
combinada
no muy
extrema,
n con
p (1las
- puntuaciones
p la
) muestra
5.
algunas
muestras
tengan
un
tamaño
reducido,
basta
que
total
sea
y s3 =las
6,90
correspondientes
a la mediana
del colesterol
total
cada categoría.
Aunque
entre
mismas.
Así, el numerador
del estadístico
del test
de de
tendencia
vendría
podrían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia
Finalmente, cabe reseñar
que el testgrande
de tendencia
no permite
contrastarnolamuy
idoneidad
de n p (1 - p )  5.
suficientemente
y la proporción
combinada
extrema,
central
de cada categoría
(media o mediana)
para preservar
la distancia
entre las mismas.
dado
por
Así, el numerador del estadístico del test de tendencia vendría dado por
a relación lineal; este test únicamente determina la existencia de una componente lineal
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idoneidad de
N = {2.591(0,052  0,073)(4,65  5,78)
significativa, independientemente de cuál
sea la relación
subyacente. 5,78)
 0,073)(5,72
2.408(0,072
la relación lineal; este+test
únicamente
determina la existencia de una componente lineal
+ 2.713(0,094  0,073)(6,90  5,78)}2 = 15.364,56
significativa,
independientemente
de diferencias
cuál sea la relación
subyacente.
Ejemplo 7.9 En el ejemplo anterior se detectaron
significativas
en el
riesgo de muerte por enfermedad cardiovascular entre los participantes del
7.9 Enpor
el ejemplo anterior se detectaron diferencias significativas en el
y elEjemplo
denominador
106 Pastor-Barriuso R.
NHANES II con niveles
< 5,20, 5,206,19
y  6,20
mmol/l.
De
riesgo de
de colesterol
muerte portotal
enfermedad
cardiovascular
entre
los participantes
del
D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2
n1
n2

p2 es un estimador puntual insesgado de la
Medidas de efecto en una tabla de contingencia
entre expuestos y no expuestos, E(p1 - p2) = 1 -
135/2.591
0,1 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las
2
)% para 1 - 2 se obtiene siguiendo el mismo
Incidencia acumulada de muertes por ECV
sucesivas categorías (Figura 7.1). Para contrastar si esta tendencia creciente es
rción como
0,08
significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90
p1 (1  p1 ) p 2 (1  p 2 )

, 0,06
a la mediana del colesterol total de cada categoría. Aunque
n1
n 2 correspondientes
podrían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de
cia de proporciones muestrales
0,04con una amplitud
tendencia central de cada categoría (media o mediana) para preservar la distancia
ón de su error estándar.
entre las
0,02mismas. Así, el numerador del estadístico del test de tendencia vendría
s en la probabilidad subyacente de desarrollar la
dado por
y no expuestos, se contrasta la 0hipótesis nula H0:
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A
N = {2.591(0,052 - 0,073)(4,65 - 5,78)
bilateral H1: 1  2. Bajo la hipótesis4,5
nula de continuación,
5
6 proporciones
6,5 observadas
7 pi con sus correspondie
se5,5
relacionan las
+ 2.408(0,072 - 0,073)(5,72 - 5,78)
total (mmol/l)
, se cumple que
puntuaciones sColesterol
i mediante el estadístico
Figura 7.1
2
Figura 7.1 Incidencia acumulada
de muertes
por enfermedad
= 15.364,56(ECV) en 15 años de
+ 2.713(0,094
- 0,073)(6,90
- 5,78)}cardiovascular
seguimiento del estudio NHANES II según niveles de colesterol total < 5,20, 5,20-6,19 y ≥ 6,20 mmol/l.
1
1
0,  (1   ) 
 n1 n 2

  ,
 y el denominador por
y el denominador por
2
 r

  ni ( p i  p )( s i  s ) 
 ,
 2 =  i 1
r
2
p (1  p ) ni ( s i  s ) 2
de enfermar común para expuestos y D
no= 0,073(1  0,073){2.591(4,65  5,78)
i 1
+ 2.408(5,72  5,78)2
es desconocida, su valor puede estimarse
+ 2.713(6,90  5,78)2} = 454,78,
donde ni es el tamaño de cada muestra, n = ni, p = nipi/n es la proporción
donde p = (563/7.712
a + c)/(n1 += 0,073 es la proporción global de muertes por enfermedad
nfermos en ambas muestras
en todas
muestras
nisi/n es la+puntuación
cardiovascular en todos combinada
los participantes
del las
NHANES
II yy s == (2.591∙4,65
2.408∙5,72 media. Notar q
donde
p
=
563/7.712
=
0,073
es
la
proporción
global
de
muertes
por
enfermedad
+ 2.713∙6,90)/7.712 = 5,78 es la puntuación media. El estadístico resulta entonces χ 2 =
para este test es
proporciones
observadas
conchilas puntuaciones,
N/D = 33,78, que corresponde
a un valor
P = P(χ 21 tienden
≥ 33,78)a<aumentar
0,005 en oladisminuir
distribución
cuadrado
con 1 en
grado
delos
libertad
(Tabla 6del
delNHANES
Apéndice).II Este
confirma
que el
cardiovascular
todos
participantes
y s resultado
= (2.5914,65
+
numerador
del estadístico
será grande.
Si, por
el contrario, las al
proporciones no
riesgo de mortalidad por
enfermedad
cardiovascular
aumenta
significativamente
aumentar
de colesterol total.
2.4085,72el+nivel
2.7136,90)/7.712
= 5,78 es la puntuación media. El estadístico
función de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo
resulta entonces  2 = N/D7= 33,78, que corresponde a un valor P = P(  12  33,78)
hipótesis
nulaTABLA
de ausencia
de una componente lineal en la tendencia, el estadíst
7.6 MEDIDAS DE EFECTO
EN UNA
DE CONTINGENCIA
< 0,005 en la
distribución
chi-cuadrado
con
1 grado
de en
libertad
(Tabla
delchi-cuadrado
En epidemiología
y en
otras aplicaciones
del análisis
de datos
salud
pública,6 no
sólo interesa con 1 grado d
anterior
seguirá
aproximadamente
una distribución
determinar el grado de significación estadística sino también obtener estimadores de efecto o
Apéndice).
Este resultado
confirma
que
el riesgo
detabla
mortalidad
por enfermedad
medidas
de la magnitud
de la libertad.
asociación.
A
partir
de
2×2 pueden
obtenerse
chi-cuadrado de tend
Esta
prueba
seuna
conoce
genéricamente
como testdistintas
medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La
cardiovascular
al
el nivel
de
colesterol
total.
diferencia
de riesgosaumenta
o proporciones,
que ya
discutió
en el Apartado
7.3,
permitepuede
determinar
asignificativamente
diferencia
delsetest
deaumentar
independencia
o asociación,
aplicarse incluso cua
la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos
y no expuestos en un estudio algunas
prospectivo
o transversal,
estecon
apartado
muestras
tengan unrespectivamente.
tamaño reducido,Enbasta
que lase
muestra total sea
revisan los métodos de inferencia sobre el riesgo relativo y el odds ratio, así como sus respectivos
[Figura 7.1 aproximadamente aquí]
ámbitos de aplicación.
suficientemente grande y la proporción combinada no muy extrema, n p (1 - p
17 R. 107
Pastor-Barriuso
Finalmente, cabe reseñar que el test de tendencia no
permite contrastar
la idone
la relación lineal; este test únicamente determina la existencia de una componen
 Riesgo
 > 1 indica
una mayor probabilidad de desarrollar la enfermedad en expuestos
7.6.1
relativo
Inferencia sobre proporciones
El riesgo
o razón dePor
riesgos
es lasimedida
de efecto
más utilizada
estudios
querelativo
en no expuestos.
ejemplo,
 = 1,25,
los sujetos
expuestosentienen
1,25
prospectivos
parariesgo
comparar
incidencia
la enfermedad
entre expuestos
y no que los
veces más
o sonlaun
25% másdepropensos
a desarrollar
la enfermedad
7.6.1
Riesgo
relativo
expuestos,
y seodefine
como
El riesgo
relativo
razón
de
riesgos
la medida- 1)
de =
efecto
más utilizada en estudios prospectivos
 - 1) =es100(1,25
25%).
no
expuestos
(100(
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
  < 1 indica una menor probabilidad
D | E ) la enfermedad en expuestos que
 1 deP(contraer

=
,
 2 P( D | E c )
en no expuestos. Por ejemplo, si  = 0,80, los sujetos expuestos son un 20%
donde π1 = P(D|E) y π2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
c
entre
los sujetos
expuestos
no expuestos
Ec, respectivamente.
Así,
el
riesgo (100(0,80
relativo
donde
1 = P(D|E)
y 2 E=a ydesarrollar
P(D|E
) representan
la probabilidad
de
desarrollar
la determina
menos
propensos
la enfermedad
que los no
expuestos
- 1)
cuántas veces es más frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
c
tanto,
de =una
medida
efecto
multiplicativa
tomarEcualquier
valor no negativo,
-20%).
, respectivamente.
Así, el de
enfermedad
D entredelos
sujetos
expuestos Eque
y nopuede
expuestos
tal forma que:
riesgo
relativo
veces
es más
frecuente
la enfermedad
en expuestos
valordetermina
de
y su cuántas
inverso
1/
 representan
el mismo
nivel de
asociación,
pero
en =
yy ψ =Un
1 indica
la 
misma
probabilidad
de
enfermar
en expuestos
y no
expuestos
P(D|E)
P(D|Ec); es decir, la exposición y la enfermedad son independientes. Cuanto más alejado
queesté
ensentido
nodeexpuestos.
SePor
trata,
por tanto,
una
efecto
multiplicativa
que
opuesto.
ejemplo,
si de
=será
4,
los
sujetosdeexpuestos
son 4 veces
ψ
1 en
cualquier
sentido,
mayor
lamedida
magnitud
de la asociación
entremás
exposición
y enfermedad.
puede propensos
tomar cualquier
valor nolanegativo,
de tal
a desarrollar
enfermedad
queforma
los noque:
expuestos, o equivalentemente
yy ψ > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.
Por ejemplo,
siprobabilidad
ψ = 1,25, losdesujetos
expuestos
tienen 1,25
más riesgo o
 
1 indica
la misma
enfermar
expuestos
y no veces
expuestos
los= no
expuestos
son un
75% menos propensos
aen
contraer
la enfermedad
que los
son un 25% más propensos a desarrollar la enfermedad que los no expuestos (100(ψ – 1)
c
= 100(1,25
1) = 25%).
);es- decir,
la exposición
la enfermedad son independientes.
P(D|E)
=– P(D|E
1) = 100(0,25
- 1) =y-75%).
expuestos
(100(1/
yy ψ < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Pordeejemplo,
si ψ = 0,80,
losaplicarse
sujetos expuestos
un 20% menos
propensos a
Esta medida
efecto también
puede
a estudiosson
transversales
en términos
18
desarrollar la enfermedad que los no expuestos (100(0,80 – 1) = –20%).
la razón
y aleligual
quenivel
ocurría
la diferencia
de sentido
yde
y Un
valor de
de prevalencias.
ψ y su inversoSin
1/ψembargo,
representan
mismo
de con
asociación,
pero en
opuesto. Por ejemplo, si ψ = 4, los sujetos expuestos son 4 veces más propensos a
riesgos,
el riesgo
relativo no que
es directamente
estimable
a partir de estudios
desarrollar
la enfermedad
los no expuestos,
o equivalentemente
los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ψ – 1) =
retrospectivos
la proporción de casos está predeterminada por el propio diseño
100(0,25 – 1)ya=que
–75%).
Esta
medida de efecto también puede aplicarse a estudios transversales en términos de la
del estudio.
razón de prevalencias. Sin embargo, y al igual que ocurría con la diferencia de riesgos, el riesgo
relativo
es directamente
estimable a en
partir
estudios
retrospectivos
que la proporción
A no
partir
de los datos observados
unade
tabla
22 (Tabla
7.1), un ya
estimador
puntual de
casos está predeterminada por el propio diseño del estudio.
delpartir
riesgoderelativo
viene
determinado
por tabla 2×2 (Tabla 7.1), un estimador puntual del
A
los datos
observados
en una
riesgo relativo viene determinado por
RR =
p1 a / n1

,
p 2 c / n2
que corresponde al cociente entre la proporción de enfermos en la muestra de sujetos expuestos
p1 = a/n1 y no expuestos p2 = c/n2.
19
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporción de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. Así, la estimación puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;
108
Pastor-Barriuso R.
El cálculo de un intervalo de confianza y un test de hipótesis para  no resulta
Medidas de efecto en una tabla de contingencia
sencillo ya que la distribución muestral de su estimador RR
es muy asimétrica,
particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 años
de seguimiento
es un de
51%
superior en
los sujetostrabajar
con niveles
altos
de colesterol
solventar
este problema
inferencia,
es preferible
con el
logaritmo
naturaltotal
del que
en quienes tienen niveles más bajos.
riesgo relativo, cuya distribución presenta una mayor simetría. De hecho, puede
El cálculo de un intervalo de confianza y un test de hipótesis para ψ no resulta sencillo ya
queprobarse
la distribución
muestral
dede
su ambas
estimador
RR esson
muy
asimétrica, particularmente
- 1) el
que si los
tamaños
muestras
suficientemente
grandes n11(1cuando
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
preferible
contiende
el logaritmo
naturalde
delforma
riesgo
relativo,
distribución
 5 y n2es
- 2)  5,trabajar
el log(RR)
a distribuirse
normal
concuya
media
log()
2(1
presenta una mayor simetría. De hecho, puede probarse que si los tamaños de ambas muestras
y 2n, 2π2(1 – π2) ≥ 5, el log(RR) tiende a distribuirse
sonysuficientemente
grandes
+ π1/c
1/n
varianza aproximada
1/an-1π1/n
1(11 –
1) ≥- 5
de forma normal con media log(ψ) y varianza aproximada 1/a – 1/n1 + 1/c – 1/n2,
~ N  log( ), 1  1  1  1  .
log( RR) 


a n1 c n 2 

Frecuencia relativa (%) en muestras de tamaño 500
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
delEjemplo
RR y del7.11
log(RR)
deFiguras
mortalidad
poryenfermedad
cardiovascular
entre los sujetos con
En las
7.2(a)
(b) se presentan
las distribuciones
un colesterol total ≥ 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples
de tamaño
estudio
NHANES por
II. enfermedad
Como puede
observarse, ambas
muestrales
del RR 500
y deldel
log(RR)
de mortalidad
cardiovascular
distribuciones están centradas alrededor de los parámetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribución muestral del
20
RR presenta una clara asimetría, mientras que el log(RR) se distribuye de forma
aproximadamente normal.
25
25
20
20
15
15
10
10
5
5
0
0
0
1
2
(a)
3
4
-1
RR
(b)
25
25
20
20
15
15
10
10
5
5
0
0
0
1
2
(c)
OR
0
3
4
-1
2
1
2
log(RR)
0
(d)
1
log(OR)
Figura 7.2
Figura 7.2 Distribución muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad
cardiovascular entre los sujetos con un colesterol total ≥ 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias
simples de tamaño n = 500 obtenidas a partir del estudio NHANES II. Las líneas verticales en trazo discontinuo
corresponden a los parámetros subyacentes ψ = 1,51, log(ψ) = 0,42, ω = 1,57 y log(ω) = 0,45.
Pastor-Barriuso R.
109
1 / 2
a normal
n1 cdel log(RR),
n2
En base a la distribución aproximadamente
[Figura 7.2 aproximadamente
aquí] puede obtenerse un
) como
al 100(1 logarítmica
- )% para el
Deshaciendo la transformación
enlog(
ambos
límites de este intervalo, el IC al
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un
para
el riesgo relativouna
subyacente
determinado
por
sigue
aproximadamente
distribución
estandarizada.
Conviene
que100(1
bajo -H0 )%
1  queda
1normal
1 entonces
1
el log(
)como
intervalo
confianza alaproximadamente
100(1
- ) )%
En base ade
la distribución
log(RR),
log( RR
 zpara
 del

. puede obtenerse un intervalo
1 / 2 normal
n1 c n 2
de
confianza
al 100(1
– α)%nula
paraHel: 
log(ψ)
comoa con
=
1
coincide
la hipótesis H :  = 2 de la
destacar
que esta
hipótesis
0

1 1 1 1  0 1
explog( RR)  z1 / 2 1 1 1 1  .
aambos
c nde
log(
)muestras
 z1 / 2 en
 n1 límites
RR
2.  este intervalo, el IC al
Deshaciendo
transformación
logarítmica
en dos
comparación
de la
proporciones
independientes,
a n1 c n 2así como con la hipótesis
Inferencia
sobre proporciones
intervalo
de confianza
2
el del
riesgo
relativo
subyacente
 queda
entonces
determinado
por
100(1
- )%
Deshaciendo
la para
transformación
enenambos
límites
deEste
este
intervalo,
el
IC un
al 100(1
de Pearson
una
tabla
22.
test
es, por
nula
de independencia
Notar
que por
tratarse
detest
unalogarítmica
medida
de efecto
multiplicativa,
el intervalo
detanto,
confianza
Deshaciendo
la
transformación
logarítmica
en
ambos
límites
de
este
intervalo,
el
IC
–
α)%
para
el
riesgo
relativo
subyacente
ψ
queda
entonces
determinado
por
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene al
procedimiento
alternativo
para
la misma
hipótesis
nula,quelaarroja
resultados
no es simétrico
alrededor
de contrastar
la estimación
puntual
RR.
hipótesis
nula de
1 queda
1 Asimismo,
1entonces
1 determinado
100(1

)%
para
el
riesgo
relativo
subyacente
. 0: 1 = 2 depor
 lahipótesis
 H
1 / 2
destacar que esta hipótesisexp
nula
H0: RR
 =) 1 zcoincide
con
la
log(
a No
n1 obstante,
c n 2 si la muestra es

muy
similares
cuando
el
tamaño
muestral
es
grande.
no efecto H0:  = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:  
comparación
proporciones
dos muestras
como condela confianza
hipótesis no es
Notar que pordetratarse
de una en
medida
de efectoindependientes,
multiplicativa,
el
1 1 1 así
1 intervalo
moderada
o
pequeña,
el
valor
P
de
este
test
puede
resultar
algo
impreciso,
en
cuyo
exp
RRpuntual
) dez1efecto
  la hipótesis
RR.
/2
 .intervalo
log(
1Notar
mediante
el estadístico
simétrico
alrededor
de la de
estimación
Asimismo,
nulade
deconfianza
nocaso
efecto H0:
que
por
tratarse
una
medida
multiplicativa,
el
a
n
c
n
1
2
2


Pearson
en una tabla
22. H
Este
test es, por tanto, 2un
nula
independencia
test ala de
ψ = 1de
puede
contrastarsedel
frente
hipótesis
alternativa
bilateral
1: ψ ≠ 1 mediante el estadístico
es preferible
utilizar
los
contrates
basados
en
la
diferencia
de
proporciones
o el test 
no es simétrico alrededor de la estimaciónlog(
puntual
RR) RR. Asimismo, la hipótesis nula de
procedimiento
alternativo
para
mismamultiplicativa,
hipótesis
arroja resultados
z  delaefecto
, nula,elque
Notar que por
tratarse de
unacontrastar
medida
intervalo
de confianza
1
1
1
1
de no
Pearson.
a la hipótesis alternativa bilateral H1:  
efecto H0:  = 1 puede contrastarse frente
 
aes grande.
npuntual
c No
n 2obstante,
muy
cuando
el tamaño
si lalamuestra
esnula de
1
nosimilares
es simétrico
alrededor
de lamuestral
estimación
RR.
Asimismo,
hipótesis
mediante
el estadístico
que1 bajo
H0 sigue
aproximadamente
una distribución
estandarizada.
Conviene
Ejemplo
7.12
Retomando
de este
nuevo
datosresultar
delnormal
NHANES
II presentados
encaso
la destacar
moderada
o
pequeña,
elpuede
valor contrastarse
P de
testlos
puede
algoalternativa
impreciso,
en cuyo
:

=
1
frente
a
la
hipótesis
bilateral
H
no
efecto
H
0
1:   de
que esta hipótesis nula H : ψ = 1 coincide con la hipótesis H : π = π de la comparación
0
0
1
2
proporciones
en dos
muestras
independientes,
asíRR
como
log(
) con la hipótesis nula de independencia
2
) resulta
ser
Tabla 7.2,
el IClos
al contrates
95% para
el log(en
es preferible
utilizar
basados
la diferencia
z
,de proporciones o el test 
1
mediante
el
estadístico
2
test
es,
por
tanto,
un
procedimiento
alternativo
para
del test χ de Pearson en una tabla 2×2. Este
1 1 1 1
 resultados

contrastar la misma hipótesis nula, que arroja
muy similares cuando el tamaño
21
de Pearson.
a 1n1 c 1 n 2 1
1 muestra
muestral es grande.
No
obstante,
si
la
es
moderada
o
pequeña,
el
valor
P
de
este
test
log(
RR
)


log(1,51)  z 0,975 z  
254 caso
2.713
309 4,utilizar
.999 los contrastes basados en la
puede resultar algo impreciso, en cuyo
es
preferible
1 1 1 1
  
diferencia
de proporciones
o el test
χ 2 de Pearson.
Ejemplo
7.12 Retomando
de nuevo
II presentados en la
alos datos
n
cdel nNHANES
2
= 0,415 1 1,960,081
= (0,256; 0,574).
Ejemplo
Retomando
nuevo
los datos
) resulta
ser del NHANES II presentados en la
Tabla
7.2,7.12
el IC al
95% para eldelog(
Tabla
7.2,
el
IC
al
95%
para
el
log(ψ)
resulta
ser
21
Aplicando la exponencial a ambos límites del intervalo,
el IC al 95% para 
vendría dadolog(
por1,51)  z 0,975
1
1
1
1



254 2.713 309 4.999
21
= 0,415
 1,960,081
= (0,256;
(exp{0,256},
exp{0,574})
= (1,29;
1,78), 0,574).
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para ψ vendría dado por
que es ligeramente
asimétrico
respecto
a ladel
estimación
puntual
= 1,51.
El
Aplicando
la exponencial
a ambos
límites
intervalo,
el IC alRR
95%
para 
(exp{0,256},
exp{0,574})
= (1,29; 1,78),
que
es ligeramente
asimétrico respecto a la estimación puntual RR = 1,51. El estadístico
estadístico
para
vendría
dado
porel contraste de la hipótesis de no efecto H0:  = 1 es
para el contraste de la hipótesis de no efecto H0: ψ = 1 es
110
log(1,51)
exp{0,574})
= (1,29; =1,78),
z(exp{0,256},
=
5,11,
1
1
1
1



254 respecto
2.713 a la
309
4.999 puntual RR = 1,51. El
que es ligeramente asimétrico
estimación
que corresponde a un valor P bilateral 2P(Z ≥ 5,11) = 2{1 – Φ(5,11)} < 0,001. Como cabía
:- 
= nulo
1 es ψ<=0,001.
estadístico
la hipótesis
efecto
H
esperar,
estepara
test el
arroja
un resultado
significativo
dado
que
el0valor
1 queda fuera de
que corresponde
a contraste
un valor
Pdebilateral
2P(Zde no
5,11)
=
2{1
(5,11)}
los límites del intervalo de confianza. Así, se concluye que los sujetos con niveles de colesterol
total
superiores
a 6,20este
mmol/l
(IC
al 95% 29-78%;
< 0,001)
más riesgo
Como
cabía esperar,
test presentan
arrojalog(
un1un
resultado
significativo
dadoPque
el valor
,5151%
)
=
5,11,
z
=
de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral.
1
1
1
1



22
254 2.713 309 4.999
Pastor-Barriuso R.
que corresponde a un valor P bilateral 2P(Z  5,11) = 2{1 - (5,11)} < 0,001.
,
medirse
mediante
7.6.2 Odds
ratio la probabilidad P(D|E)
P( D c de
| Eque
) un sujeto de la población expuesta
vendría dada por
presente
o desarrolle
enfermedad.
Otrapoblación
medida de
frecuencia
de
la
Medidas adeun
efecto
en enfermedad
una
de contingencia
La frecuencia
de una dicha
enfermedad
D en una
expuesta
factor
Etabla
suele
entre
los
expuestos
y
puede
estimarse
que se conoce como el odds de estar enfermo
P( D | E )
,
vendría
por la probabilidad P(D|E)
medirse dada
mediante
P( D c de
| Eque
) un sujeto de la población expuesta
mediante
7.6.2 Odds ratio
presente o desarrolle dicha enfermedad.POtra
de frecuencia de la enfermedad
( D | medida
E)
,
odds
de
estar
enfermo
entre
los
expuestos
estimarse
que
se
conoce
como
el
La frecuencia de una enfermedad D ena /una
expuesta ya puede
un factor
E suele medirse
n1( Dpoblación
ca
P
| .E )

vendría
dada
por
mediante la probabilidad P(D|E) de quebun
/ nsujeto
b de la población expuesta presente o desarrolle
1
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendría dada por
que se conoce como el odds de estar enfermo
P( D | Eentre
) los expuestos y puede estimarse
,
a / n1 por
ca
Ejemplo 7.13 La proporción de muertes
enfermedad
cardiovascular entre los
P
(
D
|
E
)
.

mediante
b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es
que se conoce como el odds de estar enfermo
a / n1 entre
a los expuestos y puede estimarse
 .
b / n1poraltos
b de colesterol
Ejemplo
7.13
proporción
decon
muertes
cardiovascular
entre los
esto es,
porLa
cada
10 sujetos
que no fallezcan
por
a niveles
254 enfermedad
mediante

 0,094 ;
n1de muertes
2.713 por enfermedad cardiovascular entre los
Ejemplo
La
proporción
participantes
NHANES
II con
niveles
de
colesterol
total
que
6,20no
mmol/l
enfermedad
cardiovascular,
habrá
aproximadamente
1 muerte
por
dicha es
causa
esto
es,7.13
pordel
cada
10
sujetos
con
niveles
altos
de colesterol
fallezcan
por a
a
/
n
1 deacolesterol total ≥ 6,20 mmol/l es
participantes
del
NHANES
II
con
niveles
Ejemplo 7.13 La proporción de muertespor. enfermedad cardiovascular entre los
es decir,
1 dehabrá
cada 11
altosambas
de colesterol
/ nla
b con niveles
1sujetos
los 15aproximadamente
años de
seguimiento.
Aunque
interpretación
medidas
enfermedad
cardiovascular,
1difiere,
muerte
por
dicha
causade
a
a baproximadamente
254
;
 niveles
 0de
,094
participantes del NHANES IIn con
colesterol
total

6,20
mmol/l
es
2.713
1
fallecerá
cardiovascular
los
15deaños
dedifiere,
seguimiento.
Por
otraporde
frecuencia
facilitan
misma
información.
esto
es,por
porenfermedad
cada
10 la
sujetos
con
niveles
altos
colesterol
queambas
no fallezcan
los
15
años
de
seguimiento.
Aunque
laa interpretación
medidas
es decir,
aproximadamente
1 dede
cada
11 sujetos
con nivelescardiovascular
altos de colesterol
Ejemplo
7.13 La proporción
muertes
por enfermedad
entrefallecerá
los
a
254
parte,
el
odds
de
morir
por
enfermedad
cardiovascular
entre
estos
sujetos
es
por
enfermedad
cardiovascular
a
los
15
años
de
seguimiento.
Por
otra
parte,
el odds
es decir,
aproximadamente
1 dehabrá
cada
11
altos por
de colesterol
; 1 muerte
 sujetos
 0con
,094niveles
enfermedad
cardiovascular,
aproximadamente
dicha causa
a de
frecuencia
facilitan
la misma
información.
n
2
.
713
1 entre
Departicipantes
forma
equivalente,
el odds II
decon
estar
enfermo
entre
loses
no
expuestos
se define
morir
por enfermedad
cardiovascular
estos
sujetos
del NHANES
niveles
de colesterol
total
 6,20 mmol/l
es
fallecerá
cardiovascular
a
los
15
años
de
seguimiento.
Por
otra
los 15 por
añosenfermedad
de seguimiento.
Aunque
la
interpretación
difiere,
ambas
medidas
de
a
254
 enfermo
 0,103
; los no expuestos se define
como
Dees
forma
equivalente,
el
odds
de
estar
entre
decir, aproximadamente 1 bde cada
11 sujetos con niveles altos de colesterol
a2.459
254
parte,
el odds facilitan
de morir la
por
enfermedad
cardiovascular
frecuencia
misma
información.

 0,094 ; entre estos sujetos es
estofallecerá
es, por cada
10
sujetos
con
niveles
altos
de
colesterol que no fallezcan por enfermedad
n
2
.
713
como
1
c
por enfermedad cardiovascular
23
P( D | Ea )los 15 años de seguimiento. Por otra
cardiovascular, habrá aproximadamente 1 muerte
por dicha causa a los 15 años de
,
c
a P254
| E 0c ,)103
seguimiento.
Aunque
lael interpretación
difiere,
ambas
medidas
de frecuencia
 ( Denfermo
; los
De
formaelequivalente,
odds
de estar
entre
no
expuestos
se define
c
parte,
odds
de
morir
por
enfermedad
entre
estos
sujetos
esfacilitan la
es decir, aproximadamente 1 bde cada
sujetos
con niveles
altos
de
colesterol
P
D11
| Ecardiovascular
)
2.(459
misma información.
,
P( D c | E c )
como
y el odds
ratio opor
razón
de odds entre
expuestos
no15
expuestos
entonces
fallecerá
enfermedad
cardiovascular
los
años de queda
seguimiento.
Por otra
23
254ayentre
De forma equivalente, el odds de estaraenfermo
los
no
expuestos
se define como

 0,103 ;
b 2.459c
ydeterminado
el odds
ratio
o razón
odds
expuestos
y) no expuestos
queda
entonces
parte,
elpor
odds
de de
morir
porentre
enfermedad
entre
estos
sujetos es
P( D | Ecardiovascular
,
c
c
23
P( D | E )
determinado por
c
c
c
)
(D | E )
P( D | E ) / P( D
P( D | E ) Pqueda
a | E254
y el odds ratio o razónde= odds entre expuestos
entonces
determinado por
 yc no
0,103
;
 expuestos
,
c
c
c
c
b
2
.
459
(
|
)
/
(
|
)
(
|
)
(
|
)
P
D
E
P
D
E
P
D
E
P
D
E
y el odds ratio o razón de odds entre expuestos
y no expuestos cqueda
entonces
P( D | E ) / P( D c | E )
P( D | E ) P( D | E c )

,
=
c
c
c
c
c
23
determinado
por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimación
cuya estimación puntual
c
cuya estimación puntual P( D | E ) / P ( D
) d / nP2()D | ad
E ) P( D c | E c )
(a / |nE1 )(
=

,
c
OR = c c
c
|
)
(
|
)
(
|
)
P( D | E c ) / P( D
E
P
D
E
P
D
E
(b / n1 )(c / n 2 ) bc
(a / n1 )(d / n 2 ) ad
=
coincide con la razón del productoOR
cruzado
de las celdas de una tabla 2×2.
(b / n1 )(c / n 2 ) bc
cuya
estimación
puntual
coincide
conellariesgo
razón relativo,
del producto
cruzado
deuna
las celdas
tabla
22.
Al
igual que
el odds
ratio es
medidadedeuna
efecto
multiplicativa
que toma
valores no negativos. Si ω = 1, las probabilidades de enfermar en expuestos y no expuestos
c relativo,
Al igual
elP(D|E
riesgo
elcruzado
odds
detabla
efecto
multiplicativa
coincide
conque
la=razón
del
ded las
celdas
22.
(a / nratio
/es
n 2una
) medida
ad de una
1 )(
), producto
indicando
coinciden
P(D|E)
OR = independencia entre
 exposición y enfermedad. Si por el
contrario ω > 1, la probabilidad de contraer
(b / nla1 )(enfermedad
c / n 2 ) bcserá mayor en expuestos que en no
 odds
= 1, las
probabilidades
en expuestos
y en
queAltoma
valores
no
negativos.
igual
que elque
riesgo
ratio
es
medidadede
efecto multiplicativa
expuestos;
mientras
si ωrelativo,
< 1, Si
la el
probabilidad
deuna
desarrollar
laenfermar
enfermedad
será menor
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estará siempre más
c
coincide
lacoinciden
razón
delP(D|E)
producto
de
las celdas
de de
unaenfermar
tablaentre
22.
independencia
no expuestos
= P(D|E
cruzado
= 1, ),lasindicando
probabilidades
enexposición
expuestos yy
que
tomacon
valores
no negativos.
Si
Pastor-Barriuso
Al
igual que
el
relativo,
el
odds
ratio
es unaindependencia
medida
de efecto
multiplicativa
> 1,
lac),probabilidad
de contraer
laentre
enfermedad
seráy R.
enfermedad.
Si
porriesgo
el contrario
indicando
exposición
no
expuestos
coinciden
P(D|E)
=P(D|E
= la
1, probabilidad
las
probabilidades
enfermar
en expuestos
que
toma
noelque
negativos.
Si
 > 1,
enfermedad
será y
enfermedad.
Si por
contrario
mayor
en valores
expuestos
en no expuestos;
mientras
quedesicontraer
 de
< 1,
lalaprobabilidad
de
111
254  4.690
= 1,57.
2.459  309
Inferencia sobre proporciones
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
será
entonces
aproximadamente
igualrelativo.
al riesgo
relativo.si la probabilidad de enfermar es baja en
alejado del valor
nulo 1 que el riesgo
Además,
c
superior
en los
sujetos
con niveles
de colesterol
a 6,20próximas
mmol/l que
|E) ysuperiores
P(Dc|Ec) estén
a 1, el
los sujetos
expuestos
y no
expuestos,
de tal forma
que P(Dtotal
odds ratio
será entonces
aproximadamente
igual alenriesgo
relativo.
Ejemplo
7.14 Acon
partir
de datos
observados
el estudio
7.2),
en aquellos
niveles
inferiores
a 6,20 mmol/l.
Este NHANES
odds ratio II
es(Tabla
ligeramente
OR =
Ejemplo
7.14 A partir
deodds
los datos
observados en el estudio NHANES II (Tabla 7.2), la
la estimación
ratio
mayor que puntual
el riesgodel
relativo
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimación puntual del odds ratio es
diferencia no es muy grande porque
acumulada es relativamente baja
254 la4.incidencia
690
= 1,57.
OR =
2.459  309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos
conelniveles
demortalidad
colesterol total
superiores a cardiovascular
6,20 mmol/l queesen
Por tanto,
odds de
por enfermedad
unaquellos
57% con niveles
inferiores
a 6,20
mmol/l.
Este
odds obvio
ratio es
el riesgo
relativo
, resulta
queligeramente
el odds ratiomayor
puedeque
estimarse
a partir
De la propia
definición
de 
superior
los sujetos
niveles 7.10,
de colesterol
total
superiores
a 6,20
RR
= 1,51enestimado
en con
el Ejemplo
aunque la
diferencia
no es
muymmol/l
grande que
porque la
incidencia
acumulada
es
relativamente
baja
tanto
en
expuestos
254/2.713
=
0,094
de estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones como
de
aquellos
con niveles
inferiores
a 6,20 mmol/l. Este odds ratio es ligeramente
en no
expuestos
309/4.999
= 0,062.
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
que definición
el riesgo relativo
RR = 1,51
estimado
el Ejemplo
7.10,estimarse
aunque laa partir de
Demayor
la propia
de ω, resulta
obvio
que el en
odds
ratio puede
estudios
prospectivos
y transversales,
ya elque
ambos
diseñosexpresarse
facilitan aestimaciones
probabilidad
condicional
(ver Tema 2),
odds
ratio puede
su vez en de las
c
diferencia de
no es
muy grande
porque
la incidencia
acumulada
es relativamente
baja
). Aplicando
la definición
de probabilidad
probabilidades
enfermar
P(D|E)
y P(D|E
condicional
2), el odds
expresarse
a su vez
enenfermos
términos de
la probabilidad
términos (ver
de laTema
probabilidad
de ratio
estarpuede
expuesto
en enfermos
y no
como
tanto
en expuestos
254/2.713
0,094 como
de estar
expuesto
en enfermos
y no =
enfermos
comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D  E ) P( D c  E c )


c
c
a partir
De la propia definición Pde( Dc, |resulta
( Dodds
) P(puede
D  Eestimarse
)
E ) P ( Dobvio
| E c )quePel
 Eratio
c
( E | D) P( E c ya
| D que
) ambos diseños facilitan estimaciones de
de estudios prospectivos yPtransversales,

,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
de donde
se desprende
queodds
el odds
ratio
también
estimable a partir
de estudios
retrospectivos,
estimación
puntual del
ratio
en es
estudios
retrospectivos
coincide
con la razón
del
aun
diseños (ver
no
información
alguna
sobre
las
probabilidades
decuando
dondeestos
se
desprende
quefacilitan
el odds2),
ratio
es también
estimable
a partir
devez
estudios
probabilidad
condicional
Tema
el odds
ratio
puede
expresarse
a su
en absolutas de
enfermar
en cruzado
expuestos y no expuestos. Por supuesto, la estimación puntual del odds ratio en
producto
estudios
retrospectivos
coincide
condiseños
la razónnodel
producto
cruzado
retrospectivos,
aun cuando
información
alguna
sobre las
términos
de la probabilidad
deestos
estar
expuesto
enfacilitan
enfermos
y no enfermos
como
(a / mexpuestos
ad
1 )( d / m 2 )y no
probabilidades absolutas de enfermar
Por supuesto, la
 expuestos.
.
OR =c en
c
P( D | E ) P( D | E
)m 2 P
(cD/ m
(D c  E c )
1 )E ) Pbc
(
b
/
)(


P( D c | E ) P( D | E c ) P( D c  E ) P( D  E c )
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las
c
c
cualesLos
la obtención
de un
suficiente
de estudios
estudios retrospectivos
en requeriría
enfermedades
de baja prospectivos
incidencia, 25con
P( Enúmero
| D) Psuelen
(E
| Dconducirse
) de casos
 y amplio
, En tales circunstancias, si la incidencia de la
gran tamaño muestral
c seguimiento.
c
(
|
)
(
|
)
P
E
D
P
E
D
enfermedad
es bajalayobtención
el diseño de
delun
estudio
retrospectivo
(esto es,
incidentes
para las cuales
número
suficientes es
de adecuado
casos requeriría
decasos
estudios
y controles representativos del nivel de exposición en la población libre de enfermedad), el
odds
ratioseconstituye
una
buena
aproximación
al riesgo
relativo
subyacente.
En adelante,
con gran
tamaño
amplio
seguimiento.
En
tales
circunstancias,
si el
de prospectivos
donde
desprende
que
el oddsmuestral
ratio es ytambién
estimable
a partir
de estudios
odds ratio se utilizará e interpretará como estimación del riesgo relativo, asumiendo que se
cumplen
las condiciones
citadas
la incidencia
de la
enfermedad
es baja no
y elfacilitan
diseño información
del estudio retrospectivo
retrospectivos,
aun
cuando
estos anteriormente.
diseños
alguna sobrees
lasadecuado
(esto
es, casos
incidentes
y controles
nivel
dePor
exposición
probabilidades
absolutas
enfermar
enrepresentativos
expuestos
y no del
expuestos.
supuesto,
lala
Ejemplo
7.15
En de
el estudio
EURAMIC
se obtuvo
una
muestra
de casosenincidentes
de
infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra
población
de enfermedad),
el oddsaratio
constituye
una buena
aproximación
al
aleatorialibre
de controles
seleccionados
partir
de la población
de referencia.
El número
de
casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l
se
25
riesgo
relativo
subyacente.
En adelante,
el odds
ratio se utilizará
e interpretará
como
presenta
en la
Tabla 7.3. Aunque
el diseño
retrospectivo
del estudio
no permite
conocer la
112
estimación
Pastor-Barriuso
R.
del riesgo relativo, asumiendo que se cumplen las condiciones citadas
anteriormente.
retrospectivo
delhombres
estudio no
permite
la incidencia
de infartoscomo
entreun
losriesgo
población de
adultos,
esteconocer
odds ratio
puede interpretarse
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
Medidas
de efecto
enauna
tabla
de contingencia
sujetos
con
altos
bajos
de
colesterol
HDL, síes
es
posible
obtener
una
relativo
concluir
que
sujetos
condeunmiocardio
colesterol
HDL
superior
0,90
mmol/l
Como
layvalores
incidencia
deylos
infarto
agudo
relativamente
baja
en
la
El
odds
ratio un
es
de
efecto
cuya
distribución
muestral
medida
relativa
de
lamedida
asociación
entre
el
colesterol
HDL
yde
elmiocardio
riesgo de
infarto
dees
presentan
42%
menos
riesgo
de multiplicativa
padecer
un puede
infarto
que
aquellos
población
de una
hombres
adultos,
este
odds
ratio
interpretarse
como
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, sí es
notablemente
asimétrica
7.2(c)),
mientras
que
suentre
transformación
miocardio
mediante
el(Figura
odds
ratio
con
un
colesterol
HDL
inferior
a 0,90
(100(0,58
- superior
1)colesterol
= -42%).
posible
obtener
una medida
relativa
de
lammol/l
asociación
HDLmmol/l
y el riesgo
relativo
y concluir
que
los
sujetos
con
un
colesterol
HDLel
alogarítmica
0,90
de infarto de miocardio mediante el odds ratio
log(OR)
tiende aun
distribuirse
normalmente
(Figuraun
7.2(d))
varianza
presentan
42% menos
riesgo de
padecer
infartocon
deuna
miocardio
que aquellos
 158
269
El odds ratio es una medida deOR
efecto
= multiplicativa
= 0,58.cuya distribución muestral es
381
 193 de las frecuencias de una tabla 22
aproximadamente
igual HDL
a la suma
de los
inversos
con un colesterol
inferior
a 0,90
mmol/l (100(0,58 - 1) = -42%).
notablemente
asimétricade(Figura
mientras
que es
su relativamente
transformaciónbaja
logarítmica
Como la incidencia
infarto7.2(c)),
agudo de
miocardio
en la población
de hombres adultos, este odds ratio puede interpretarse
como
un
riesgo
relativo
y concluir
1 1 1 1
log(OR)
tiende
distribuirse
normalmente
con
unapresentan
varianza
var{log(OR)}
(Figura
 7.2(d))

cuya
. distribución
que
los
sujetos
con
colesterol
HDLmultiplicativa
superior
a 0,90
mmol/l
un 42%
El odds
ratioaes
una un
medida
de efecto
muestral
esmenos
c d con un colesterol HDL26
riesgo de padecer un infarto de miocardioa queb aquellos
inferior
aproximadamente
igual a(Figura
la –suma
de
los inversos
lassufrecuencias
de una
tabla 22
a 0,90 mmol/l
(100(0,58
1) =7.2(c)),
–42%).
notablemente
asimétrica
mientrasde
que
transformación
logarítmica
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
log(OR)
normalmente
unadistribución
varianza
El
odds tiende
ratio aesdistribuirse
una medida
de efecto(Figura
multiplicativa
cuya
muestral es
1 1 7.2(d))
1 1con
var{log(OR)}




.
deshaciendoasimétrica
a continuación
la 7.2(c)),
transformación
se obtiene ellogarítmica
intervalo delog(OR)
notablemente
(Figura
mientraslogarítmica,
que su transformación
a b c d
aproximadamente
igual
a
la
suma
de
los
inversos
de
las
frecuencias
de
una
tabla 22
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente
igual a la
)%frecuencias
para el oddsderatio
confianza
al 100(1de
- las
suma
de los inversos
una subyacente
tabla 2×2 
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
1 1 1 1
var{log(OR)}     .
 transformaciónalogarítmica,

1 b 1 c 1 dse1 obtiene
deshaciendo a continuación
el intervalo de
   ,
explalog(
OR)  z1 / 2
a bmuestral
c d del log(OR) y deshaciendo a
Utilizando esta aproximación normal
a la distribución

el odds aratio
subyacente

confianza
100(1
- )% para
continuación
laesta
transformación
logarítmica,
obtiene el intervalo
de
Utilizandoal
aproximación
normal
lasedistribución
muestral
delconfianza
log(OR) yal 100(1 – α)%
para el odds ratio subyacente ω
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la
deshaciendo a continuación la transformación logarítmica, se obtiene el intervalo de
 con el ejemplo anterior,
1 1 el1 IC 1al95% para el odds
Ejemplo 7.16 Continuando
 z1 / 2 de la
   nula
log(OR) bilateral
 , H0:  = 1 se obtiene
significación estadística exp
del contraste
a bhipótesis
 el odds ratio subyacente
c d 
confianza al 100(1 - )% para
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no
es simétrico
alrededor de la estimación puntual OR. De forma análoga, la significación
partir
del estadístico
quecolesterol
no es
alrededor
estimación
puntual
De
la estadístico
estadística
delsimétrico
contraste
bilateral de la hipótesis
nula
=11 se
a partir del
forma análoga,
1 H0:1ωOR.
1 obtiene
HDL es
   ,
explog(OR)  z1 / 2
log(ORa) b c d 
,
z  bilateral de la hipótesis
significación estadística del contraste
nula H0:  = 1 se obtiene

11  1 1 1  11
1 
exp log(0,58)  z 0,975



al 95% para el odds
Ejemplo
7.16 Continuando
con el 269
ejemplo
anterior,
el158
ICDe
a b381
c 193
d OR.
aque
partir
delsimétrico
estadístico
no es
puntual
 alrededor de la estimación
 forma análoga, la
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
ratio de infarto
agudodel
de miocardio
entre losdesujetos
con niveles
de
:  =y 1bajos
se obtiene
significación
estadística
contraste
bilateral
nula
Haltos
00,75).
aproximadamente
una
distribución
normal=estandarizada.
que
bajo H0 sigue
log(OR
) la hipótesis
= exp(-0,55
 1,960,134)
(0,44;
,
z
Ejemplo
7.16
Continuando
con el 1ejemplo
el IC al 95% para el odds ratio de
1 1anterior,
1
colesterol
HDL
es
a partir
del
estadístico



infarto
agudo
de miocardio
entreuna
losconfianza
sujetos
niveles
altoslos
y bajos
decon
colesterol
Por tanto,
puede
afirmarse con
sujetos
nivelesHDL es
a b con
cdel
d95% que

1 log(
1OR) 56%
1 menos
1  riesgo de padecer un
altos de colesterol
expaproximadamente
log(HDL
0,58)tienen
 z 0,975zentre
25 y un


,
unaun
estandarizada.
distribución
normal
que bajo H0 sigue
27
269
1 1381 1 193
1 158 

  
infarto de miocardio que quienes
tienen
niveles
más
- 1) = -25% y
a0,55
b  c1,960,134)
d bajos=(100(0,75
= exp(
(0,44; 0,75).
100(0,44
1) = -56%).
Asimismo,
contrastedelbilateral
delos
la hipótesis
de niveles
no
Por
tanto, -puede
afirmarse
con una el
confianza
95% que
sujetos con
altos de
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
afirmarse el
con
una confianza del 95% que los sujetos con niveles 27
 tienen
= 1 mediante
estadístico
efecto
H0: puede
que
quienes
niveles más
bajos (100(0,75 – 1) = –25% y 100(0,44 – 1) = –56%).
Asimismo, el contraste bilateral de la hipótesis de no efecto H0: ω = 1 mediante el estadístico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z=
= − 4,10
infarto de miocardio que quienes
más
1 tienen
1 niveles
1
1 bajos (100(0,75 - 1) = -25% y 27



269 381 193 158
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hipótesis de no
R.
arroja
muy significativo
P = 2P(Z  -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
0,001.
efecto un
H0:resultado
 = 1 mediante
el estadístico
Notar que este test es equivalente al contraste de hipótesis realizado en el Ejemplo
log(0,58)
113
Inferencia sobre proporciones
arroja un resultado muy significativo P = 2P(Z ≤ –4,10) = 2{1 – Φ(4,10)} < 0,001. Notar
que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporción de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idénticos.
7.7
COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES
Hasta este punto se han presentado distintos métodos para la comparación de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronósticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseños o mecanismos de generación de datos
dependientes. En general, el propósito de los diseños emparejados es aumentar la precisión de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusión. En este apartado se aborda el tratamiento estadístico de datos
binarios o dicotómicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja está
compuesta por dos observaciones de una variable dicotómica procedentes de distintas poblaciones.
Así, por ejemplo, en comparaciones antes y después de un tratamiento, cada pareja de datos está
constituida por la respuesta en un mismo sujeto antes y después de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones está formada por
la presencia o ausencia de exposición en cada caso y su correspondiente control. Para simplificar
la presentación, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de análisis será cada pareja y no cada
individuo. Así, la organización de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la información relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control están expuestos al factor de riesgo, b parejas donde el
caso está expuesto y el control no, c parejas donde el control está expuesto y el caso no, y d parejas
donde ninguno está expuesto. Las a + d parejas donde ambos o ninguno de los miembros están
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.
Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus
valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto
y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l),
6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un
nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL.
Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7.
Tabla 7.6 Tabla de contingencia en un estudio de casos
y controles emparejados.
Controles
Casos
Expuestos
No expuestos
Total
114
Pastor-Barriuso R.
Expuestos
No expuestos
Total
a
c
a+c
b
d
b+d
a+b
c+d
n
Comparación deaquí]
proporciones en dos muestras dependientes
[Tabla 7.7 aproximadamente
Con objeto de evaluar la asociación entre exposición y enfermedad controlando por
Tabla 7.7 Colesterol HDL en 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales
aquellos factores de confusión utilizados en el emparejamiento, cada caso ha de ser
de edad.
comparado con su correspondiente control; esControles
decir, las comparaciones deben estar
donde la última igualdad refleja su relación con el odds ratio subyacente . Despejando
Casos
HDL > 0,90 mmol/l
HDL ≤ 0,90 mmol/l
Total
17
4
21
condicionadas
a cada pareja. Por ello,23los pares concordantes,6donde ambos miembros
HDL
> 0,90 mmol/l
29
 de esta
expresión,
se tiene que
HDL ≤ 0,90 mmol/l
están o Total
no expuestos, no aportan información
sobre la asociación
a estudio y,50
en
40
10

  a las. parejas discordantes. La probabilidad
consecuencia, el análisis estadístico se limita
1
Con objeto de evaluar la asociación entre exposición y enfermedad controlando por aquellos
factores
de confusión
utilizados
en elexpuesto
emparejamiento,
cadanocaso
ha de viene
ser comparado
de observar
una pareja
con el caso
y el control
expuesto
dada por con su
 puede
mediante deben
la proporción
observada b/(b
+ c) pareja.
de
Como la probabilidad
correspondiente
control; es
decir, estimarse
las comparaciones
estar condicionadas
a cada
c c
PorP(E|D)P(E
ello, los pares
concordantes,
ambos de
miembros
están
o nocon
expuestos,
|D ), mientras
que ladonde
probabilidad
obtener una
pareja
el controlno aportan
parejas discordantes
donde el acaso
está y,
expuesto,
la estimación
puntualestadístico
del odds ratio
de a
información
sobre la asociación
estudio
en consecuencia,
el análisis
se limita
c
c
lasexpuesto
parejas discordantes.
La probabilidad
observar
unadado
pareja
casoesexpuesto y el
)P(E
|D). Así,
que con
una el
pareja
y el caso no expuesto
es P(E|Dde
. Despejando
dondenolaexpuesto
última
igualdad
refleja
suP(E|D)P(E
relación
ratioque
subyacente
c
enfermar
entre expuestos
y nopor
expuestos
es con
|Dcel
), odds
mientras
la probabilidad
de obtener
control
viene dada
c
c
de quey el
expuesto es P(E|D )P(E |D). Así, dado que
unadiscordante,
pareja con la
el probabilidad
control expuesto
el caso
casoesté
no expuesto

de
esta
expresión,
se
tiene
que
una pareja es discordante, la probabilidad
 c)estéb expuesto es
b /(b  de
c) quebel/(bcaso

OR =
 ,
Psu
)b  cratio
 . Despejando
(cEcon
1(Erelación
/(b) P
)c | D
) c subyacente
b| D
cel/(codds
donde la última 
igualdad
refleja
,



c
c
c
c
P( E | D) P( E | D )  P ( E | D
. ) P( E | D)   1
1

dela
esta
expresión,
se refleja
tiene
que
que
coincide
con
la razón
entre
tipos
Si elω.
número
de
donde
última
igualdad
suambos
relación
condeelpares
oddsdiscordantes.
ratio subyacente
Despejando
ω de
esta expresión, se tiene que
puede
estimarse
mediante
la proporción
Como ladiscordantes
probabilidadb con
parejas
el caso
expuesto
es superior
al númeroobservada
de parejasb/(b + c) de

.
1


parejas discordantes
caso está el
expuesto,
la estimación
odds ratio de
discordantes
c con eldonde
controlelexpuesto,
odds ratio
será mayor puntual
de 1 y ladel
exposición
30
Como la probabilidad π puede estimarse mediante la proporción observada b/(b + c) de parejas
enfermar
entre
y no
expuestos
es
discordantes
dondeexpuestos
el caso
expuesto,
la estimación
delsiodds
deb/(b
enfermar
 está
puede
estimarse
mediante
lapuntual
proporción
Como
la probabilidad
estará
directamente
asociada
con
la enfermedad;
mientras
que
bobservada
es ratio
inferior
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
será menordonde
de 1 yellacaso
exposición
conodds
la ratio de
parejas
discordantes
expuesto,
labestimación
puntual del
bestá
/(b 
c)estaráb inversamente
/(
 c) b asociada

 ,
OR =
1  b /(b  c) c /(b  c) c
enfermedad.
enfermar
entre expuestos y no expuestos es
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de parejas
igualbque
independientes,
el log(OR)
también se Si
distribuye
de de
forma
queAlcoincide
conenel
lamuestras
razónexpuesto
entre
ambos
tipos
pares
el número
discordantes
con
caso
discordantes
c con el
 c) de al
bes/(bsuperior
b /(número
b discordantes.
c) deb parejas
 exposiciónestará
, directamente asociada con
= mayor de 1 y la
control expuesto, el odds ratioOR
será
1  b /(dependientes,
b  c) c /(b con
c) media
c
) ydevarianza
aproximadamente
normal
parejas discordantes
bque
conen
caso
expuesto
eselsuperior
al número
deparejas
la enfermedad;
mientras
sielbmuestras
es inferior
a c,
odds ratio
será log(
menor
1 y la exposición
estará inversamente asociada con la enfermedad.
discordantes
ccon
con
elrazón
control
expuesto,
el odds
será
mayor
de Si
1 el
yella
exposición
aproximada
+la1/c.
El intervalo
de confianza
al 100(1
- )% para
odds
ratiode
que
coincide1/b
entre
ambos
tipos
de ratio
pares
discordantes.
número
Al igual que en muestras independientes, el log(OR) también se distribuye de forma
estará directamente
asociada
enfermedad;
mientras
que
si byde
esvarianza
inferioraproximada
a c, el
aproximadamente
normal
en
dependientes,
con
media
log(ω)
1/b
subyacente
 resulta
parejas
discordantes
bentonces
conmuestras
el con
casolaexpuesto
es superior
al número
parejas
+ 1/c. El intervalo de confianza al 100(1 – α)% para el odds ratio subyacente ω resulta entonces
odds ratio será
menor
de 1 y la
exposición
estará
inversamente
la
discordantes
c con
el control
expuesto,
el odds
ratio
será mayorasociada
de 1 y la con
exposición


1 1
explog(OR)  z1 / 2
 .
enfermedad.
b c que si b es inferior a c, el
estará directamente asociada conla enfermedad; mientras
Alratio
igual quemenor
en muestras
el log(OR)
tambiénasociada
se distribuye
odds
y independientes,
la exposición
estará
inversamente
con sólo
lade forma
Ejemploserá
7.18 Ende
la 1Tabla
7.7 se tienen
6 parejas
discordantes
donde
el caso de
infarto
tiene7.18
un nivel
de7.7
colesterol
HDL
y 17discordantes
parejas discordantes
donde
sólo el
Ejemplo
En la alto
Tabla
se tienen
6 parejas
donde
sólo
el caso
) y varianza
aproximadamente
normal
en muestras
dependientes,
con media log(
enfermedad.
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada
1/b en
+ 1/c.
El intervalo
de confianza
al 100(1también
- )% para
el odds ratio
Pastor-Barriuso
Al igual que
muestras
independientes,
el log(OR)
se distribuye
de forma R.
aproximadamente
normal
en muestras dependientes, con media log() y varianza
subyacente  resulta
entonces
115
sólo el control presenta un nivel alto, de lo cual se deduce que la estimación
Inferencia sobre proporciones
sólo el control
puntual
del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimación
puntual
del odds un
ratio
es alto, de lo cual se deduce que la estimación puntual del odds
control presenta
nivel
6
OR =
= 0,35,
ratio es
17
6
OR =
= 0,35,
17
y su IC al 95%
y su IC al 95%
y su IC al 95%

1 1
explog(0,35)  z 0,975
 
6 17 

1 1
explog(0,35=)exp(
 z 0,975

1,04 1,960,475)
= (0,14; 0,90).
6 17 

Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95%
= exp(-1,04
 1,960,475) =
0,90). respecto a aquellos
10-86%)
los sujetos
con niveles
> (0,14;
0,90enmmol/l
Por
tanto, en
el riesgo
de infarto
agudo de
de colesterol
miocardioHDL
es inferior
un 65% (IC al
con niveles ≤ 0,90 mmol/l. La conclusión de este estudio emparejado es consistente con
la obtenida
los Ejemplos
y 7.16
en la muestra
completa eunindependiente
Por
tanto,
elenriesgo
infarto7.15
agudo
de miocardio
es inferior
65% (IC al de casos
95%
1086%)
en losdesujetos
con
niveles
de colesterol
HDL >en
0,90 mmol/l
y controles del estudio EURAMIC. Aunque esta estimación de efecto es más imprecisa
por disponer
únicamente
de 50 parejas,
será
menos propensa
a0,90
posibles
sesgos derivados
95%
1086%)
en los
niveles
de colesterol
HDL >de
respecto
a aquellos
consujetos
nivelescon
 0,90
mmol/l.
La conclusión
estemmol/l
estudio
de la diferencia de edad entre casos y controles.
2
b  c La conclusión de este estudio

respecto
a
aquellos
con
niveles

0,90
mmol/l.
emparejado es consistente con la 2obtenida
y 7.16 en la
 b  en los Ejemplos 7.15
El método más extendido
entre exposición
 Econtrastar
{bpara
(b)}
(b de
)2
 cindependencia
2  nula
 la hipótesis
2

=
.


y enfermedad
en un
estudio
emparejado
en
la
frecuencia
b de
emparejado
es consistente
con
los comparar
Ejemplos
7.15
y 7.16
enobservada
la
b en
var(
b) la obtenida
b del
 c estudio
muestra
completa
e independiente
deconsiste
casos
yccontroles
EURAMIC.
pares discordantes donde el caso está expuesto4con su frecuencia esperada bajo la hipótesis
nula. Aunque
Si
no hubiera
asociación
exposición
yy enfermedad,
frecuencia
esperada
sería
muestra
completa
e independiente
casos
controles
delesta
estudio
EURAMIC.
esta
estimación
deentre
efecto
esdemás
imprecisa
por disponer
únicamente
de
simplemente la mitad del número total de parejas discordantes (b + c)/2, con lo cual el estadístico
Bajocontraste
la
hipótesis
nula
de no efecto,
este
estadístico
siguederivados
aproximadamente
una de
del
viene
determinado
Aunque
esta
estimación
depor
efecto
es
más imprecisa
por disponer
de
50
parejas,
será
menos
propensa
a posibles
sesgos
de la únicamente
diferencia
2
b  c  permite obtener el valor P
 sesgos
distribución
chi-cuadrado
conpropensa
1 grado adeposibles
libertad,
50 parejas,
será menos
la diferencia de
edad
entre
casos
y controles.
 b  lo que
derivados de
2
(b  c) 2
{b  E (b)}
2 

2
 =
. 2


 1 . Este
como edad
la probabilidad
derechavar(
delbestadístico
b 2 en
c la distribución
)
bc
entre casosaylacontroles.
El método más extendido para contrastar la hipótesis
4 nula de independencia entre
contraste
se conoce
como
el test
de McNemar
y se aplica
cuando la varianzauna
de bdistribución
bajo
Bajo
hipótesis
de no
efecto,
este estadístico
sigue
aproximadamente
El la
método
másnula
extendido
para
contrastar
la hipótesis
nula
independencia
entre
exposición
y enfermedad
en un
estudio
emparejado
consiste
endecomparar
la frecuencia
chi-cuadrado
con 1 grado
libertad,
que
permite obtener
el valor P como la
Bajo la hipótesis
nula dedeno
efecto, lo
este
estadístico
sigue aproximadamente
unaprobabilidad
la
hipótesis
nula
es
var(b)
=
(b
2 + c)(1 - ) = (b + c)/4
2  5; es decir, cuando el número
la distribución χ consiste
se conoce
como el test
a la derechay del
estadístico
χ en
1 . Este contraste
exposición
en un
estudio
encon
comparar
la frecuencia
observada
b deenfermedad
pares discordantes
dondeemparejado
el caso está expuesto
su frecuencia
de distribución
McNemar ychi-cuadrado
se aplica cuando
varianza
de b bajo
la hipótesis
nula eselvar(b)
= (b + c)
con 1 la
grado
de libertad,
lo que
permite obtener
valor P
de
parejas
discordantes
es
superior
o
igual
a
20.
π(1 – π) = b(bde+pares
c)/4 ≥
5; es decir,donde
cuando
el número
de parejas
es superior o
observada
discordantes
el caso
está expuesto
con discordantes
su frecuencia
esperada
bajo la hipótesis
nula. Si no hubiera
asociación
entre exposición
y enfermedad,
2
2
igual
a
20.
como la probabilidad a la derecha del estadístico  en la distribución  1 . Este
esperada
bajo laesperada
hipótesis
nula.
Si del
no hubiera
asociación
exposición
y enfermedad,
esta
frecuencia
sería
simplemente
la McNemar
mitad
del número
total7.7
de toma
parejas
Ejemplo
7.19
El estadístico
test de
enentre
la Tabla
el valor
contraste
se 7.19
conoceElcomo
el test del
de McNemar
y se aplica
la varianza
de b bajo
Ejemplo
estadístico
test de McNemar
en lacuando
Tabla 7.7
toma el valor
esta frecuencia
simplemente
la mitad
del número
total
de parejas por
discordantes
(b +esperada
c)/2, consería
lo cual
el estadístico
del2 contraste
viene
determinado
= )(b += c)/4
la hipótesis nula es var(b) = (b + c)2=(1(-6)17
5,26. 5; es decir, cuando el número
6  17del contraste viene determinado por
discordantes (b + c)/2, con lo cual el estadístico
de A
parejas
es superior
o igual acon
20.1 grado de libertad (Tabla 6 del Apéndice),
partir discordantes
de la distribución
chi-cuadrado
116
A partircomprobarse
de la distribución
con 1está
gradocomprendido
de libertad (Tabla
puede
que chi-cuadrado
este estadístico
entre6 del
los percentiles
2
2
χ 1 Ejemplo
y χEl1 ;0,99
= 6,63, de
lo cual
se
tiene queen0,01
< P <7.7
0,025.
Así,
el riesgo de
;0,975 = 5,02
7.19
estadístico
del
deestadístico
McNemar
la
Tabla
toma
ellos
valor
Apéndice),
puede
comprobarse
quetest
este
está entre
comprendido
entre
infarto
agudo
de miocardio
difiere
significativamente
los sujetos
con
niveles
de
32
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles  12;0,975 = 5,02 y  12;0,99 2= 6,63,
(6 de
17lo
) 2 cual se tiene que 0,01 < P <
32
 =
= 5,26.
6  17
0,025. Así, el riesgo de infarto agudo de miocardio difiere significativamente
Pastor-Barriuso R.
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apéndice), puede comprobarse que este estadístico está comprendido entre los
siguen
argumentos
similares a los descritos en este apartado y pueden consultarse en los
CE: CORRECCIÓN
POR
CONTINUIDAD
libros de análisis de datos categóricos referenciados en este tema.Apéndice: corrección por continuidad
ice se derivan las versiones
con corrección
porun
continuidad
del intervalo
cada paciente
que conforma
grupo de emparejamiento).
Estas generalizaciones
. Si kCONTINUIDAD
es
número
y del test de hipótesis
para
una proporción
poblacional
7.8
APÉNDICE:
CORRECCIÓN
POR
siguen
argumentos
similares
a los descritos
en el
este
apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más de un
poraleatoria
muestra de
(por
ejemplo,
unintervalo
estudio dedecasos
y controles
donde cada caso está emparejado
eventos en una sujeto
muestra
tamaño
el
confianza
libros
deapéndice
análisis se
de
datos n,
categóricos
referenciados
enaleste
tema.
En
este
derivan
las
versiones
con
corrección
por
continuidad
del intervalo
con múltiples controles, o un ensayo clínico donde cada paciente que
recibe un nuevo
tratamiento
está
emparejado
con
varios
pacientes
bajo
tratamiento
estándar),
así
como
a
estudios
donde se
para  vendrá determinado
por aquellos
valores
( inf, para
que proporción
verifiquen poblacional . Si k es el número
sup) una
de
confianza
y
del
test
de
hipótesis
comparan
más de dosCORRECCIÓN
muestras dependientes
(por ejemplo, un ensayo clínico donde se asignan
7.8 APÉNDICE:
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
muestra aleatoria
de atamaño
n, el intervalo
confianza
al
P(Xgeneralizaciones
 k | de
= eventos
en
/2, unaargumentos
Estas
similares
los descritos
en este de
apartado
y pueden
inf) = siguen
En este apéndice
se derivan
las versiones
con corrección
por continuidad
intervalo
consultarse
en los libros
de análisis
de datos categóricos
referenciados
en estedel
tema.

)%
para

vendrá
determinado
por
aquellos
valores
(

,

)
que
verifiquen
100(1
inf
sup
P(X  k |  =  sup) = /2,
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD
P(X
k |  = en
 infel) = /2,
a distribución binomial
de parámetros
n en
y una
. Como
se discutió
de eventos
aleatoria
de tamaño por
n, elcontinuidad
intervalo de del
confianza
al de
En observado
este apéndice
se derivan
lasmuestra
versiones
con corrección
intervalo
confianza y del test de hipótesis para
una proporción
π. Si k es el número observado
P(X
k | aproximarse
 =  sup)poblacional
= /2,
2, si n(1 - )  5,100(1
estas probabilidades
binomiales
pueden

)%
para

vendrá
determinado
por
aquellos
valores
(
 infconfianza
,  sup) quealverifiquen
de eventos en una muestra aleatoria de tamaño n, el intervalo de
100(1 – α)%
para π vendrá determinado por aquellos valores (πinf, π sup) que verifiquen
istribución normaldonde
estandarizada
como
X es unaZdistribución
binomial de parámetros n y . Como se discutió en el
P(X  k |  =  inf) = /2,
P(X  k |  =  sup) = /2,
Apartado 3.3.2,k si
n/2(1-n)  5,
 estas probabilidades binomiales pueden aproximarse

1
inf
 = /2,
P(X  k |  =  inf)  P Z 
 distribución
 de parámetros n y π. Como se discutió en el Apartado 3.3.2,
donde X es una
binomial
n


(
1

)
inf
inf 
 la distribución
mediante
normal
estandarizada
Z como aproximarse mediante la distribución
si nπ(1 – π) ≥ 5, estas probabilidades
binomiales pueden
donde
X
es
una
distribución
binomial
de
parámetros
n y . Como se discutió en el
normal estandarizada Z como

k  1 / 2  n sup 

 3.3.2,
 n inf  pueden aproximarse
P(X  k |  = Apartado
= )/2.probabilidades
 siP(X
sup)  P Z
n(1 -k|)=5,estas
 Z  k  1 / 2binomiales
P
= /2,

inf
n sup (1   sup ) 



n


(
1

)
inf
inf


mediante la distribución normal estandarizada Z como

k  1 / 2  n sup 
 =añade
 sup)aambas
P(X  k | se
P Z expresiones
= /2.
érmino 1/2 de la corrección por continuidad


n



(
1
)
sup
sup


k  1 / 2  n inf 

incluir la probabilidad de observar exactamente
k
eventos.
Para
= /2,
P(X  k |  =  inf)  P Z 
 ncontinuidad
 infañade
)  a ambas expresiones con

k  1 / 2 por
Notar que el término 1/2 de la corrección
inf n inf (1  se

= z1-/2,
objeto de incluir
de observar
exactamente
k eventos. Para simplificar los
s cálculos, las desviaciones
típicasladeprobabilidad
estas distribuciones
normales
se
np

p
(
1
)
Notar
que
el
término
1/2
de
la
corrección
por
continuidad
se
a ambaspor
expresiones
cálculos, las desviaciones típicas de estas distribuciones normalesañade
se sustituyen
la estimación


k  1 / 2  n sup 

ksup)1/de2P
P(Xseladeduce
k |  = que
Z
= /2.
(1 objeto
p) , dedeloincluir
cual
la estimación np
con
probabilidad
observar
 n sup n=exactamente
1/2.  sup )k eventos. Para
sup1-(
-z

k np
1 / (21 
 np) inf = z
1/2,
simplificar los cálculos, las desviaciones
np(1 típicas
p) de estas distribuciones normales se
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones
1se/p2obtiene
n lo
Finalmente,
despejando
 inf y npksup(
intervalo
de confianza
al 100(1 - )%
supel
sustituyen por
la estimación
1, 
) , de
cual
deduce
que
=  zse
1/2.
con objeto de incluir la probabilidadnpde(1observar
exactamente k eventos. Para
 p)
para 
34
simplificar
los
cálculos,
las
desviaciones
típicas
de
estas
normales
separa π
Finalmente, despejando π inf y π sup, se obtiene el intervalo de distribuciones
confianza al 100(1
– α)%
al 100(1 - )%
Finalmente, despejando  inf y  sup, se obtiene
 pintervalo
p(1 el
)
1  de confianza
que
sustituyen por la estimación pnp
 (1z1p/)2 , de lo cual se deduce
.
n
2n 

34
para 
Este intervalo de confianza difiere de la versión sin corrección presentada en el Apartado 7.2 en
que ambos
límites del
amplían
cantidad
1/(2n) inversamente
al
Este intervalo
deintervalo
confianzasedifiere
deen
la una
versión
sin corrección
presentadaproporcional
en el



p
(
1
p
)
1
tamaño muestral. La utilización de
esta
se fundamenta
 z1corrección
 . en el hecho de aproximar una

p
 / 2
n se amplían
2n  encontinua.
distribución
discreta
una
distribución
normal
Cuanto
menor sea el
Apartado binomial
7.2 en que
ambosmediante
límites del
intervalo
una cantidad
1/(2n)
tamaño muestral, más imprecisa será la aproximación normal y, en consecuencia, la corrección
34por
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
Este intervalo de confianza difiere de la versión sin corrección presentada en el
Pastor-Barriuso
fundamenta en el hecho de aproximar una distribución binomial discreta mediante
una R.
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n)
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
117
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de
ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución binomial

k  n 0  1 / 2 
P = 2P(X  k | H0)  2 P Z 
 la corrección
estará muy próxima a la normal, por lo que
n 0 (1  1/(2n)
 0 )  será insignificante.

continuidad
1/(2n)
ha de
mayor. bilateral
Por el contrario,
si el tamaño
es grande,
la distribución
El valor
P para
el ser
contraste
de la hipótesis
nulamuestral
H0:  = 
0 puede obtenerse a
binomial estará muy próxima a la normal, por lo
que
la
corrección
1/(2n)
será
insignificante.

n 0  k  1 / 2 
,
= 2 P Z 
partir
de Plapara
aproximación
normal
a lade
distribución
nbinomial
nula
0:0como
)π = π0 puede obtenerse a partir
El
valor
el contraste
bilateral
la hipótesis
0 (1 H
de la aproximación normal a la distribución binomial como
Inferencia sobre proporciones
118

k  n 0  1 / 2 
resultados,
al doble de
si p  0. Combinando ambos
P = 2P(X
 k | H0)setiene
,
 el valor P corresponde
2 P Zque



k nn0 (011/ 02)
= 2P(X  k | aHla0) derecha
 2 PZdel
 test estadístico
la probabilidad normal P
estandarizada

n 0 (1   0 ) 

si la proporción observada p > π0, o alternativamente
como
si la proporción observada p > 0, o alternativamente como


1
 Z nk0| 0nk0  11// 22 
P = 2P(X

k
|
H
0)  2 P| p
| k  n 0 | 1 =
/ 22 P Z  n 2(n1   )  ,
0
 
. 0 
z
  0 (1 n00()1   0 ) 
n 0 (1   0 )

nn 0  k  1 / 2 
,
= 2 P Z 
 quenel

valor
P
corresponde
al doble de
si p  0. Combinando ambos resultados, se tiene


(
1

)
0
0


El test con corrección por continuidad incorpora el término -1/(2n) en el numerador
normal
estandarizada
a lasederecha
del el
test
estadístico
si pla≤probabilidad
π0. Combinando
ambos
resultados,
tiene que
valor
P corresponde al doble de la
probabilidad
normal
estandarizada
a
la
derecha
del
test
estadístico
del si
estadístico,
de tal formaambos
que elresultados,
valor P será
mayorPque
el obtenido
el 35
se ligeramente
tiene que el valor
corresponde
al en
doble
de
p  0. Combinando
1
| p   0(Apartado
|
correspondiente
contraste
sin
corrección
por
continuidad
7.2). Esta
la probabilidad normal estandarizada
la1derecha
del test estadístico
| k  n 0 a| 
/2
2n .

z
  0 ) seael0 (tamaño
 0 (1reducido
1   0 ) muestral.
corrección será tanto mayor cuantonmás
1
| p   n0 | 
| k  n 0 | 1 / 2
2n .

 el término
z continuidad
El Ejemplo
test con corrección
por
incorpora
–1/(2n)
en EURAMIC
el numerador del
7.20 En el Ejemplo 7.1
los controles
estudio
 incorpora
  0 ) del
n 0se(1utilizaron
0)
0 (1
El
test
con
corrección
por
continuidad
el
término
-1/(2n)
en
el
estadístico, de tal forma que el valor P será ligeramente mayor que el numerador
obtenido en el
n
correspondiente
contraste
sin corrección
por continuidad
(Apartado
7.2). Estaadultos
corrección será
 de hombres
para realizar
inferencias
sobre la prevalencia
poblacional
delmayor
estadístico,
tal forma
quesea
el valor
P será
ligeramente mayor que el obtenido en el
tanto
cuantodemás
reducido
el tamaño
muestral.
El test
con corrección
por continuidad
incorpora
el término
-1/(2n) ense
el calculan
numerador
con
niveles
bajos
de colesterol
HDL (
0,90
mmol/l).
A
continuación
correspondiente
contraste
sin
corrección
por
continuidad
(Apartado
7.2).
Esta
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para
inferencias
sobre
la prevalencia
poblacional
π de
hombres
adultos
delrealizar
estadístico,
de tal forma
que
elde
valor
P será
ligeramente
mayor
que el
obtenido
el
los
correspondientes
intervalos
confianza
y sea
test el
detamaño
hipótesis
utilizando
la conenniveles
corrección
será
tanto
mayor
cuanto
más
reducido
muestral.
bajos de colesterol HDL (≤ 0,90 mmol/l). A continuación se calculan los correspondientes
intervalos
ysintest
utilizando
la (Apartado
corrección
por continuidad.
El IC
correspondiente
contraste
corrección
porpara
continuidad
Esta
 vendría
dado por7.2).
correcciónde
porconfianza
continuidad.
EldeIChipótesis
al 95%
al 95% para π vendría dado por
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
corrección será tanto mayor cuanto más reducido sea el tamaño muestral.

0,293(1  0,293)
1 
 de hombres adultos
para realizar
inferencias
0,293
  z 0,975 sobre la prevalencia
 poblacional
539
2  539 

Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuación se calculan
= 0,293  (1,960,020 + 0,001) = (0,254; 0,333),
para realizar inferencias sobre la prevalencia poblacional  de hombres adultos
correspondientes
de confianza
y test
hipótesis nula
utilizando
la0,30 sería
y ellos
estadístico
corregidointervalos
para el contraste
bilateral
de de
la hipótesis
H0: π =
niveles bajos
de colesterol
HDL ( bilateral
0,90 mmol/l).
A continuación
y elcon
estadístico
corregido
para el
de la1 hipótesis
nula H0se
: calculan
=
1 contraste

vendría
dado
por
corrección por continuidad.
El
IC
al
95%
para
| p 0 |
| 0,293  0,30 | 
 539
2n de confianza y test2 de
correspondientes
intervalos
hipótesis
= 0,30,utilizando la
z=
0,30lossería
0,30(1  0,30)
 0 (1   0 )

0,293(1  0,293)
1 
0,293
  z 0,n975 El IC al 95% para
  vendría
dado por
corrección por
continuidad.
539
539
2  539 

36
con un valor P asociado en las tablas de la distribución normal estandarizada P = 2P(Z ≥
con un= valor
asociado=
las tablas
estandarizada
=
 en0,293
0Como
,293
(de
1cabría
la0,distribución
293
)+ 0,001)
1elnormal
0,30)
2{1 –PΦ(0,30)}
esperar,
intervalo
confianzaPcorregido
(1,960,020
=(0,254; de
0,333),
0,293   z=0,764.

0 , 975
539
2  539 

2P(Z  0,30) = 2{1 - (0,30)}
= 0,764. Como cabría esperar,
el intervalo de
Pastor-Barriuso R.
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0:  =
= 0,293  (1,960,020
0,001) = (0,254;
0,333),
confianza corregido por continuidad
(IC al 95%+25,433,3%)
es ligeramente
más
0,30 sería

p(1  p ) p1 (p1 (1p1 )p ) p 2 (11  1p 2 ) 1 1  1

―
Test de McNemar
Test
McNemar
Test
de de
McNemar
2
―



* La corrección por continuidad no se aplica al test χ 2 de Pearson en tablas de contingencia mayores de 2×2.
** La
corrección
por
se
test
de
Pearson
tablas
mayores
La corrección
corrección
por
continuidad
no se
se aplica
aplica no
al test
test
 22 de
de al
Pearson
en
tablas
de en
contingencia
mayores de
de 22.
22.
Lapor
corrección
por continuidad
continuidad
no
se aplica
aplica
al
test 
 2en
detablas
Pearson
en
tablas de
de contingencia
contingencia
mayores de
de 22.
22.
** La
continuidad
no
al
Pearson
de
contingencia
mayores
2
 2 de Pearson*
Test
χ 2 de2 Pearson*
Test
deTest
Pearson*
2
1 
1 1
11  1
| p11 p 22|    
| p11  p22 | 
2 n n22 
 2  n11 n22   11
zz 
z
1 
1  1
1
p (1  p )  p (1  p)  
 n11 n 22  n11 n 22 
Eijij
2
2
( | b  c2 | 1( )| 22b  c | 1 ) 2
bc
bc

ii 11 
jj 11 ijij
E
2
46
 22  ( | b c22 | 1()| b  c | 1 )
bc
ii 11
jj 11

2
2
46
2
2
2 (|| 
22 22 (2| O 2 E
O1ijij/ 2)E
ijij | 1 / 2)
2
ijij
ijij
 2   2  
E
p11 ) p11 (p122(1p11 )p22 ) p22 (11  1p22 ) 1 1 1  1 
Dos
muestras independientes
independientesp11  p 22  ppz1111
 //pp22 22 
p11 (zz111
Dos
muestras
independientes

Dos
muestras
      
Dos
muestras
independientes
 n

 // 22
n11 n22
2nn22 n11 n22 22 nn11 nn22 
 n11

Una muestra
muestra
Una
Una
muestra
Una
muestra
1
1
| p   00 | | p   00 | 
2
n
 2n
zz 
z
 00 (1   00 ) 00 (1   00 )
nn
n
p(1  p )
1 


p(1zz11p// 22)  1 
 

p   z11 // 22pp 

22nn 
2nnn
 n

Test estadístico
Test estadístico
Test estadístico
IC al 100(1 – α)%
100(1 - )%
)%
IC al 100(1IC- al
1 
Intervalos de confianza (IC) y tests de hipótesis con corrección por continuidad.
7.8 Intervalos
de confianza
y tests decon
hipótesis
con corrección
por continuidad.
Tabla 7.8 Tabla
Intervalos
de confianza
(IC) y tests(IC)
de hipótesis
corrección
por continuidad.
Tabla 7.8
Apéndice: corrección por continuidad
Pastor-Barriuso R.
119
Inferencia sobre proporciones
por continuidad (IC al 95% 25,4-33,3%) es ligeramente más amplio que su correspondiente
intervalo sin corrección (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha
corrección (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin
corrección son muy similares dado que el tamaño muestral utilizado en este ejemplo es
moderadamente grande.
La corrección por continuidad también se aplica a la comparación de proporciones en muestras
independientes o dependientes y al test chi-cuadrado de asociación en una tabla 2×2, ya que estos
métodos de inferencia utilizan una distribución continua (normal o chi-cuadrado) para representar
una distribución de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya
derivación es similar al caso de una proporción, se presentan en la Tabla 7.8. En general, la
utilización de la corrección por continuidad da lugar a resultados más conservadores; esto es,
intervalos de confianza más amplios y mayores valores P de los contrastes. El principal objetivo
de esta corrección es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad
de un error de tipo I en los contrastes, especialmente cuando el tamaño muestral es reducido.
7.9
120
REFERENCIAS
1.
Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2.
Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3.
Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4.
Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5.
Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6.
Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
7.
Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8.
Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9.
Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11.
Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
Pastor-Barriuso R.
TEMA 8
MÉTODOS NO PARAMÉTRICOS
8.1
INTRODUCCIÓN
En los temas anteriores se han presentado distintos métodos de inferencia para datos de carácter
continuo (Tema 6) y categórico (Tema 7). Estos procedimientos se conocen como métodos
paramétricos y asumen que los datos proceden de una población cuya distribución de probabilidad
es conocida (normal o binomial), o que al menos la distribución de los estadísticos empleados
puede aproximarse mediante el teorema central del límite. Así, las inferencias se fundamentaban
en la aproximación normal a la distribución de las medias y proporciones muestrales. Aunque en
la mayoría de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realización de análisis paramétricos, especialmente cuando los
tamaños muestrales son muy reducidos. En tales circunstancias, es posible utilizar métodos
alternativos que realizan asunciones mínimas acerca de la distribución de la variable a estudio, y
que reciben colectivamente el nombre de métodos no paramétricos o de distribución libre.
Antes de proceder a la descripción de los métodos no paramétricos más utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los métodos no paramétricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilización de pruebas paramétricas es cuestionable. Así, por ejemplo,
la comparación de medias en dos muestras independientes requiere de tamaños muestrales
suficientemente grandes para aplicar el teorema central del límite y de una varianza
homogénea en ambas poblaciones, mientras que su equivalente no paramétrico permite
contrastar globalmente la igualdad de distribuciones bajo la única asunción de que ambas
distribuciones sean continuas.
yy Como se verá más adelante, la propia naturaleza de las pruebas no paramétricas las hace
particularmente útiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante métodos paramétricos clásicos entraña problemas conceptuales ya que estas variables
carecen de interpretación numérica (ver definición de tipos de variables en el Tema 1).
Sin embargo, los métodos no paramétricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los métodos no paramétricos se emplean casi exclusivamente para determinar la
significación estadística de la comparación entre grupos. Aunque existen procedimientos
no paramétricos para obtener estimadores de efecto e intervalos de confianza, éstos
requieren de asunciones adicionales y su aplicación es más compleja.
yy Si se cumplen las condiciones de aplicación de las pruebas paramétricas, el uso de métodos no
paramétricos es un tanto ineficiente, lo que conlleva una leve pérdida de potencia en el análisis.
Estudios de simulación bajo la asunción de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramétricas respecto a sus equivalentes paramétricos.
yy Los métodos paramétricos pueden extenderse fácilmente al análisis multivariante de
situaciones más complejas. Aunque en la actualidad los métodos no paramétricos han
experimentado un fuerte desarrollo, su utilización es aún limitada por la mayor complejidad
y menor disponibilidad en los programas de análisis estadístico de uso rutinario.
Pastor-Barriuso R.
121
Métodos no paramétricos
En general, los métodos no paramétricos se emplean como complemento o alternativa a las
pruebas paramétricas cuando no se cumplen las condiciones mínimas para la aplicación de estas
últimas. En este tema se revisan los métodos no paramétricos de uso más frecuente, tales como
el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test
exacto de Fisher.
la variable (empates), se asigna a cada una de ellas la media de los rangos
correspondientes.
Finalmente,
seRANGOS
suman los DE
rangos
de una cualquiera de las dos
8.2variable
TEST(empates),
DE LA
SUMA
DE
WILCOXON
la
se asigna
a cada una de
ellas
la media de los rangos
muestras,
seleccionemos
ejemplo la
muestra,de variables continuas en dos muestras
En el Apartado
6.3 se tratópor
el problema
deprimera
la comparación
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaños muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del límite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera
muestra,
U =  rSin
diferencia de medias entre ambas poblaciones.
i . embargo, si la distribución subyacente dista
1
mucho de ser normal y las muestras son muyi =pequeñas,
las medias muestrales no se distribuirán
n1
de forma normal y la anterior prueba paramétrica no será aplicable. Bajo estas circunstancias,
U =  ri .
ha estadístico
de utilizarse
el equivalente
al test de la t de Student para muestras
El
del test
de Wilcoxonnose paramétrico
basa en
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la única asunción de que la
El
estadístico
del
de una
Wilcoxon
en esta
suma
de nrangos.
variable
a estudio
tenga
distribución
subyacente
continua.
Ejemplo
8.1test
Supongamos
queselabasa
muestra
consiste
en
1 = 10 casos de infarto de
Si no se asume nada sobre la forma de la distribución, parece razonable basar el contraste en
miocardio
y n2 = 10secontroles
del estudio
la variable
asigna
a seleccionados
cada
una deconsiste
ellas
media
de
rangos
el orden
de las(empates),
observaciones
deque
ambas
muestras
yaleatoriamente
nolaen
sus
valores.
Ejemplo
8.1
Supongamos
la
muestra
en
n1 =verdaderos
10 los
casos
de
infartoPara
de ello, se
combinan las dos muestras ordenando los valores de menor a mayor. A continuación, se asigna
EURAMIC.
LaFinalmente,
Tabla
8.1 muestra
los los
niveles
de de
β-caroteno
en tejido
correspondientes.
se seleccionados
suman
rangos
una
cualquiera
de adiposo
las dos para
que
ocupa
cada
observación
dentro
de la
muestra
combinada.
Si existen
el rango
ri o posición
miocardio
y n2 =
10 controles
aleatoriamente
del estudio
varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas
muestras,
seleccionemos
por ejemplo
la
primera
muestra,
estos
sujetos.
Al
menor
valor delos
ambas
muestras
0,04 μg/g
se
le asigna
la media
de20
los
rangos
correspondientes.
Finalmente,
suman
losen
rangos
deadiposo
unael
cualquiera
de
EURAMIC.
La Tabla
8.1 muestra
niveles
deseβ-caroteno
tejido
para
las dos muestras, seleccionemos por ejemplo la primera muestra,
rango20
1, sujetos.
al siguiente
valor 0,05
se le notorga
el rango
2 y así
1
estos
Al menor
valorμg/g
de ambas
muestras
0,04 μg/g
se sucesivamente
le asigna el
U =  ri.
i =1
hasta asignar
el rangovalor
20 al0,05
mayor
valorle0,57
μg/g. rango
A los dos
sujetos
con idéntico
rango
1, del
al siguiente
otorga
2 y así
sucesivamente
El estadístico
test de Wilcoxon
se μg/g
basa se
en esta
sumaelde
rangos.
El nivel
estadístico
del test
de Wilcoxon
basa en esta suma
de rangos.
0,13
μg/g
de
β-caroteno
lessecorresponden
las posiciones
7 y 8 y,con
en idéntico
hasta
asignar
rango
20 al mayor
valor
0,57 μg/g.
A los
Ejemplo
8.1 el Supongamos
que la
muestra
consiste
endos
n1 sujetos
= 10 casos
de infarto de
=
10
controles
seleccionados
aleatoriamente
del
estudio
EURAMIC.
La
miocardio
y
n
consecuencia, 2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones.
nivel
0,13
μg/g
de
β-caroteno
les
corresponden
las
posiciones
7
y
8
y,
en
Tabla
8.1 muestra
los nivelesque
de la
β-caroteno
en tejidoenadiposo
20 sujetos.
Ejemplo
8.1 Supongamos
muestra consiste
n1 = 10para
casosestos
de infarto
de Al
menor
valor
de
ambas
muestras
0,04
μg/g
se
le
asigna
el
rango
1,
al
siguiente
valor
0,05
Así, la suma de rangos en los casos de infarto es
consecuencia,
se
asigna
el
rango
medio
(7
+
8)/2
=
7,5
a
ambas
observaciones.
μg/g
se le otorga
2 y así sucesivamente
hasta asignar eldel
rango
20 al mayor valor
miocardio
y n2el=rango
10 controles
seleccionados aleatoriamente
estudio
0,57 μg/g. A los dos sujetos con idéntico nivel 0,13 μg/g de β-caroteno les corresponden
10
Así,
la suma de7La
rangos
en8.1
los
casos de infarto
es el β-caroteno
las EURAMIC.
posiciones
y 8Tabla
y, en
consecuencia,
asigna
rango medio
+ 8)/2
= 7,5 apara
ambas
muestra
en(7tejido
adiposo
ri = 1 +los
9 se
+niveles
...
+ 19de
= 96,5

observaciones. Así, la sumai =1de rangos en los casos de infarto es
10 valor de ambas muestras 0,04 μg/g se le asigna el
estos 20 sujetos. Al menor
ri = 1 + 9 + ... + 19 = 96,5

y en los controles
i =1
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente
y en los controles
10
y enhasta
los controles
asignar el rango 20 al
A los dos sujetos con idéntico
= 13 +valor
2 + ...0,57
+ 6 μg/g.
= 113,5.
 r j mayor
j =1
nivel
0,13
de β-caroteno
corresponden
las posiciones
7 y 8 y,
Notar
que
la μg/g
elección
entre una les
u otra
suma de rangos
es arbitraria.
Laensuma total de
r j = 13 + 2 + ... + 6 = 113,5.

rangos
en
ambas
muestras
es
(n
+
n
)(n
+
n
+
1)/2
=
20⋅21/2
=
210,
de
forma que una
2 suma
1
2de rangos es irrelevante. Latal
Notar que la elección entrej =1una1u otra
suma
se asigna
el rango
medio
+ 8)/2 =muestra,
7,5 a ambas
observaciones.
vezconsecuencia,
calculada la suma
de rangos
96,5
en la(7primera
la otra
queda determinada
por
210
–
96,5
=
113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
Notar
la elección
entreen
una
otra suma
de rangos
Así,que
la suma
de rangos
losucasos
de infarto
es es irrelevante. La suma
10
122
Pastor-Barriuso
R.
tal forma
que una vez calculada la suma de rangos 96,5 en la primera muestra, la
total de rangos en ambas muestras
es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
10
r
= 1 + 9 + ... + 19 = 96,5

otra queda determinada por 210
- i96,5 = 113,5.
i
=
1
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
Test de la suma de rangos de Wilcoxon
Tabla 8.1
β-caroteno
en tejidoenadiposo
en 10 casos
infarto
miocardio
y 10 y 10
Tabla
8.1 β-caroteno
tejido adiposo
en 10decasos
de de
infarto
de miocardio
Tabla 8.1 β-caroteno en tejido adiposo en 10 casos de infarto de
controles
seleccionados
del
EURAMIC.
[Tablaseleccionados
8.1estudio
aproximadamente
aquí] del estudio
controles
seleccionados
aleatoriamente
del estudio
EURAMIC.
miocardio
yaleatoriamente
10 controles
aleatoriamente
EURAMIC.
Caso Caso
ControlControl
El objetivo es contrastar
ambas poblaciones son
Casosi las distribuciones F1 y F2 en Control
(μg/g) (μg/g)aquí]
RangoRango
(r
(μg/g) (μg/g)
Rango (r
)
β-caroteno
Rango
(rj)
β-caroteno
Rango
(r ) β-caroteno
[Tablaβ-caroteno
8.1 aproximadamente
i)
β-caroteno (μg/g)
(r ) i
β-caroteno (μg/g)
Rango (rj) j
esta
iguales H0: F1 = F2 frente a la hipótesisi alternativa bilateral H1: F1 ≠ F2. Bajo
0,04
1
0,25
13
0,04 0,04
1
0,25
13
1
0,25
13
0,14
9
0,05
2
s contrastar si las distribuciones
F
y
F
en
ambas
poblaciones
son
hipótesis
nula,
la
suma
de
rangos
esperada
en
la
primera
muestra
sería
igual
a
la
suma
1
2
0,14 0,14
9
0,05 0,05
2
9
2
0,20
11
0,36
17
aquí]
0,20 0,20
11[Tabla118.1 aproximadamente
0,36 0,36
17
17
0,08
323. Bajo en
0,09 0,09
44
total dealternativa
rangos 0,08
porbilateral
la proporción
deFsujetos
muestra,
= F2 frente a la hipótesis
H1:3F1 ≠
estadicha0,09
0,08
4
0,21
12
0,33 0,33
1616
aquí]
0,21 0,21
12[Tabla
0,33
128.1 aproximadamente
16
El objetivo
es
contrastar
si las distribuciones
F1 y0,37
F2 en ambas poblaciones
son
0,10 muestra
5igual
a suma de rangos esperada
en la primera
0,10
0,10
5 a la suma
18
n1 + n 2 + 1) 1818
(n1 + 5nsería
n1 0,37n1 (0,37
2 )( n1 + n 2 + 1)
.
E(U)
=
= 0,13
0,28
14
0,13
7,5
0,28 0,28
14
0,13
7,5
14
7,5
n1F+1 nybilateral
2
2: F1poblaciones
2F en ambas
El objetivo
es
contrastar
si
las
distribuciones
son
:
F
=
F
frente
a
la
hipótesis
alternativa
H
≠
F
.
Bajo
esta
iguales
H
2
0
1
2
1
2
por la proporción de
sujetos
en
dicha
muestra,
0,29 0,29
15
0,17
15
10
0,29
15
0,17 0,17
1010
[Tabla7,5
8.1 aproximadamente
aquí]
0,13 0,13
7,5
0,57
7,5
20
0,13
0,57 0,57
2020
:
F
=
F
frente
a
la
hipótesis
alternativa
bilateral
H
:
F
≠
F
.
Bajo
esta
iguales
H
hipótesis
nula,
la
suma
de
rangos
esperada
en
la
primera
muestra
sería
igual
a
la
0
1
2
1
1
2
0,12
la primera
19
0,12 muestra,6 6el valorsuma
6
0,48 la
0,12
n1 +tanto,
n 2 0,48
+ 1si
n1suma
n 2 rangos
(n1 + n 2 )(Por
) u denota
(n1 +19de
) observada en
+ 119
n0,48
1
E(U) =
.
=10
10
10
n1 es
+la
ncontrastar
2 Elde
2 la proporción
objetivo
si102las por
distribuciones
Fprimera
F2 en
ambas
poblaciones
son
1 y muestra,
total
rangos
por
de
sujetos
enladicha
hipótesis
nula,
suma
de
rangos
esperada
en
muestra
sería
igual
suma
exacto
de
P vendría
determinado
la
probabilidad
bajo
H
de
obtener
de
0
r
=
96,5
r
=
113,5
r
=
96,5
r j asuma
=la113,5
i
j
i
 
 una
i =1
i =1
j =1
j =1
iguales
H0: Fo1más
=
F2distante
frente
a la muestra,
hipótesis
bilateralu;Hes
: F1 ≠ F2. Bajo esta
total de
rangos
por
la
proporción
de que
sujetos
en dicha
rangos
tanto
elvalor
valor
observado
enota la suma de rangos
observada
en
la
primera
elalternativa
+ nE(U)
n1 (n1 1+ ndecir,
(n1 de
n1 muestra,
2 )( n1 + n 2 + 1)
2 + 1)
E(U) =
.
=
n
+
n
2
2
1
2
hipótesis
nula,
suma
rangos
esperada
en laFde
primera
muestra
igual a lason
suma
El
objetivo
es la
contrastar
distribuciones
y F en
ambassería
poblaciones
iguales
delas
obtener
dría determinado por
la probabilidad
bajo de
H(n0si
+una
n 2 +suma
1≥) u |n1H1 0), 2 n1 (n1 + n 2 + 1)
1 + n 2 )( n
1=
P
2P(U
E(U)
=
.
=
H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta hipótesis nula, la suma
1 + n 2muestra, 2
total
deelesperada
rangos
por
proporción
de2 sujetos
en ndicha
de rangos
en la primera
sería
igual
a la
total de
rangos el
porvalor
la proporción
Por
tanto,
si u denota
la suma
de
rangos
observada
ensuma
la primera
muestra,
más distante de E(U)
que
valor
observado
u; esmuestra
decir,
de si
sujetos
en dicha
muestra,
u > E(U),
o alternativamente
una
suma de
exacto
de
P
vendría
por
H0 1de
Por tanto, si u denotadeterminado
la suma
observada
la nprimera
el valor
(n1 + nde2 )(rangos
n1 +lanprobabilidad
nmuestra,
+ obtener
n1 enbajo
1 (n
2 + 1)
2 + 1)
P = 2P(U ≥ u | HE(U)
0), =
.
=
2 = 2P(U ≤ nu1 | +Hn0),2
2
P
rangos
tanto
o más distante
de E(U)
el valor observado
esobtener
decir, una suma de
exacto de
P vendría
determinado
porque
la probabilidad
bajo Hu;
0 de
ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P
Por
tanto,
si Esta
uo denota
lalasuma
rangos
observada
en la primera
muestra,
el la
valor
vendría
determinado
por
probabilidad
bajo
H de
obtener
suma
debajo
rangos
tanto o más
si
u≤
E(U).
probabilidad
puede
calcularse
teniendo
enuna
cuenta
que
hipótesis
rangos
tanto
más
distante
dede
E(U)
que
el valor
observado
u;
es
decir,
P = 2P(U ≥0 u | H0),
distante de E(U) que el valor observado u; es decir,
P = 2P(U
u | H0), determinado por la probabilidad bajo H de obtener una suma de
exacto
P≤ vendría
nula
dede
igualdad
de distribuciones, cualquier combinación de0 rangos en la primera
P = 2P(U ≥ u | H0),
si u > E(U), o alternativamente
rangos
tanto
oteniendo
más distante
de E(U)
ellavalor
observado
u; es decir, de los n1 + n2
eso igualmente
probable.
Así,
como
elhipótesis
número
de combinaciones
si umuestra
> calcularse
E(U),
alternativamente
a probabilidad puede
en
cuenta
queque
bajo
si u > E(U), o alternativamente
P = 2P(U ≤ u | H0),
n1 +≥n 2u| H0),
de distribuciones, cualquier combinación de rangos Pen=la2P(U
primera
 , la probabilidad
tomados depuede
n1 en calcularse
n1 es 
si uposibles
≤ E(U). rangos
Esta probabilidad
en cuenta quebajo
bajoHla0 para
hipótesis nula de
nteniendo
P = 2P(U
1≤ u| H0),

si
u
≤
E(U).
Esta
probabilidad
puede
calcularse
teniendo
en
cuenta
que
bajo
laeshipótesis
igualdad
de
distribuciones,
cualquier
combinación
de
rangos
en
la
primera
muestra
igualmente
mente probable. Así, como el número de combinaciones de los n1 + n2
si u > E(U),
o alternativamente
probable.
Así, como
el número de combinaciones de los n1 + n2 posibles rangos tomados de n1
cualquier
combinación
r1, ..., rpuede
dada por
n1 viene
si u ≤de
E(U).
Esta
probabilidad
calcularse
teniendo endecuenta
que
la hipótesis
nula
igualdad
de
distribuciones,
cualquier
combinación
rangos
enbajo
la primera
 n1 + n 2 


tomados de n1 en
n
es
,
la
probabilidad
bajo
H
para
en n11 
bajo H00 para cualquier combinación r1, ..., rn viene dada por
P = 2P(U ≤ u | H0),
n1 

muestra
es
igualmente
probable.
Así,
como1elcombinación
número de combinaciones
los n1 + n2
nula de igualdad de distribuciones,
cualquier
de rangos en ladeprimera
.
 n1 + n 2 
nación r1, ..., rn1 viene
si
u ≤dada
E(U).
Esta probabilidad
puede
cuenta que bajo
la hipótesis
 n1 +elnnúmero
muestra
espor
igualmente
probable.
Así, calcularse
como
de en
combinaciones
de los
n1 + n2

2teniendo
posibles rangos tomados de n1 en n1 es  n1  , la probabilidad bajo H0 para
 n1 combinación

nula
de
igualdad
de
distribuciones,
cualquier
de rangos en la primera
n2 
 nel
1 +siguiente
1
El cálculo
del
valor
exacto
de
P
se
ilustra
en
ejemplo.
 , la probabilidad
posibles rangos. tomados de n1 en n1 es 
bajo H0 para
n
El
cálculo
del
de
P
se
ilustra
en
el
siguiente
ejemplo.
1por
n1 +combinación
n 2 valor exacto



cualquier
r
,
...,
r
viene
dada
n
1
1
muestra
probable.
Así, como el número de combinaciones de los n1 + n2
 es igualmente

n
1


27
27
cualquier combinación r1, ..., rn1 viene dada
n2 
 n1 1+por
 ., la probabilidad bajo H0 para
posibles rangos tomados de n1 en n1 es 
Pastor-Barriuso
n1 +n1n 2 
5 R. 123
alor exacto de P se ilustra en el siguiente ejemplo.
 1 
 n1  .
n1 + por
n2 
cualquier combinación r1, ..., rn1 viene dada


1
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) =
= 105.
2suma de rangos esperada en los 10 casos
en
los
controles
libres
de
enfermedad,
la
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Métodos no paramétricos
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
de
infarto
del
ejemplo
anterior
sería
igual
a
u = 96,5 es inferior al esperado,
Como
el Pvalor
observado
de esta
suma
de rangos
se obtiene
mediante
el valor
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
Si la distribución
fuera igual en los casos de infarto y en los
se obtiene
mediante del10b-caroteno
el
valor P8.2
(10 de
+ 10
+961) esperada en los 10 casos de infarto del
controles
de enfermedad,
la
suma
rangos
de infartolibres
del ejemplo
anterior
sería
igual
a
= | H0) = 2  P=(U105.
P = 2PE(U)
(U ≤ 96,5
= k | H0).
2 k =55
ejemplo anterior sería igual a
96
P = 2P(U ≤ 96,5

10| (H
100)+=102 +
1)P(U = k | H 0 ) .
E(U)
=
k
=
55
u==105.
96,5
Como
el valor
observado
sumamínimo
de rangos
Notar que
la suma
arrancadeenesta
el valor
posible
1 + 2es+inferior
... + 10al= esperado,
55 y sólo
2
Como
elPvalor
observado
de
sumamínimo
de rangos
u = 96,5
es
el valor
se suma
obtiene
mediante
el
valor
Notar
que
la
arranca
enesta
el valor
posible
1 + facilitar
2 +inferior
... + los
10alcálculos).
=esperado,
55 y sóloLa
toma
valores
enteros
(se excluyen
posibles empates
para
Como
el valor
observado de esta suma de rangos u = 96,5 es inferior al esperado,
P
se obtiene
mediante
96
toma
valores enteros
excluyen
posibles
empates
facilitar
cálculos).
La
para
cualquier
combinación
depara
rangos
en lalos
primera
muestra
probabilidad
bajo H0(se
el valor P se obtiene
P mediante
= 2P(U ≤ 96,5 | H0) = 2  P(U = k | H 0 ) .
k = 55
probabilidad
bajo H0 para cualquier combinación de rangos en la primera muestra
es
Notar que la suma arranca en el valor mínimo96posible 1 + 2 + ... + 10 = 55 y sólo toma
P = 2P(en
Uposibles
≤el96,5
H
P(facilitar
U =1 k+| 2Hlos
. + 10 = 55
0) = 2 
Notar que
la suma
valor| empates
mínimo
posible
+0 )...
sólo
valores
enteros
(se arranca
excluyen
para
cálculos).
Layprobabilidad
es
10! (20 − 10)!k =55 1
1
bajo H0 para cualquier combinación
, muestra es
= de rangos en
= la primera
20! empates
184para
.756 facilitar los cálculos). La
 20 
toma valores enteros (se excluyen
 1  10posibles
! (20 − 10)!
1
Notar que la suma arranca 10
en el= valor mínimo =posible 1 +, 2 + ... + 10 = 55 y sólo
20
20!
184


combinación
de.756
rangos en la primera muestra
probabilidad bajo H0 para cualquier


toma valores enteros (se excluyen
posibles
empates
para
facilitar los cálculos). La
10
 
de
lo
cual
se
sigue
que
es
de
lo cual se sigue
probabilidad
bajo Hque
0 para cualquier combinación de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1,
3,! 4,
(205,−6,107,
)! 8, 9, 10
1 2,10
1 | H0) = 1/184.756,
es
,
=
=
P(U = 56 | H0) =P(1,
5,!6, 7, 8, 184
9, 11
| H0) = 1/184.756,
20  2, 3, 4,20
.756
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
 3, 4, 5, 6, 7, 8, 9, 12 | H )
10
P(U = 57 | H0) =P(1,
0
! (20 − 10)!
1  2,10
1
,
=
=
2, 3, 4, 5,
| H ) = 1/184.756,
P(U = 56 | H0) =+P(1,
5,!6,
6,7,
7,8,
8,9,
10,11.11
20  2, 3, 4,20
184
756| 0H0) = 2/184.756
P(1,
 
de lo cual se sigue que  10 
)
=
2, 3,
4, 5, 6,el7,procedimiento
8, 9, 12 | H0) resulta muy laborioso incluso
P(U
=
57
|
H
0
y así sucesivamente. ComoP(1,
puede
intuirse,
para estas pequeñas muestras de tamaño 10, ya que requiere determinar el número de
P(U = con
55 | igual
H0) =
P(1, 2,
4, 5, 6, 7, 8, 9,
H
2/184.756
+suma
10,10
11|múltiples
|H
0)0)==1/184.756,
combinaciones
de3,rangos.
de
cálculos,
se tiene que
de
lo sucesivamente.
cual se sigue
queComo
y así
puede
intuirse,Después
el procedimiento
resulta
muy laborioso
96
5, 6,
8,29,+ 11
P(U
| HP0()U= =P(1,
0) = 1/184.756,
P = 256
| H2,0 3,
)intuirse,
=4,2(1
+ el
17,+
...ya
+| H
4.397)/184.756
yincluso
así sucesivamente.
Como kpuede
procedimiento
resulta
muydeterminar
laborioso
para
muestras
tamaño
10,10
que
se
requiere
P(Uestas
= 55k =pequeñas
|55H0) = P(1,
2, 3, 4, de
5, 6,
7, 8, 9,
|H
0) = 1/184.756,
4, 5, 6, 7, 8, 9, 12 | H0)
P(U =
= 97.708/184.756
57 | H0) = P(1, 2,= 3,
0,529.
incluso
paradeestas
pequeñas muestras
de tamaño
10, ya que
se requiere
determinar
el número
igual
de múltiples
2, 3,
4, 5,suma
6, 7,de
8, rangos.
9, 11 | HDespués
P(U =combinaciones
56 | H0) = P(1,con
0) = 1/184.756,
Aunque los casos de infarto
muestran
inferiores
que los controles
= 2/184.756
+ P(1,
2, 3, 4, niveles
5, 6, 7, 8,
10, 11 | de
H0)b-caroteno
el
númerose
detiene
combinaciones
con igual suma de rangos. Después
de múltiples
cálculos,
que
(la suma P(U
de rangos
observada
en3,los
casos
4, 5,
6, 7,es8,menor
9, 12 | que
H0) la esperada), no se alcanzan
= 57 | H
0) = P(1, 2,
Aunque
los casos
de infarto muestran
niveles inferiores
de β-caroteno
los
diferencias
estadísticamente
significativas.
No obstante,
dado el que
reducido
tamaño
y así sucesivamente.
cálculos,
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
muestral, cabe esperar que
la potencia
sea
muy
pequeña para detectar
2/184.756
+ P(1,
2, 3, 4, 5,de6,este
7, 8,contraste
10, 11 | H
0) =
controles
sumadiferencia
de rangos en
observada
en los
casos es menor
que la esperada),
cualquier (la
posible
los niveles
subyacentes
de b-caroteno
entre los no
casos
de
6
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y así
sucesivamente.
Como
puede intuirse,
el procedimiento
resulta muy
se
alcanzan
diferencias
estadísticamente
significativas.
No obstante,
dadolaborioso
el
el número de combinaciones con igual suma de rangos. Después de múltiples
Para
simplificar
los cálculos
decabe
esteesperar
test, la
Tabla
del
losdeterminar
percentiles
incluso
para
estas
pequeñas
muestras
deque
tamaño
10,Apéndice
ya que
sefacilita
requiere
reducido
tamaño
muestral,
la8potencia
de este
contraste
sea muy de la
distribución
de
la
suma
de
rangos
de
Wilcoxon
bajo
la
hipótesis
nula
de
igualdad
de
distribuciones,
cálculos, se tiene que
cuando
menor
las doscualquier
muestras
es desuma
tamaño
inferior
o igualsubyacentes
a múltiples
8. Para un
el la
número
dede
combinaciones
conposible
igual
de rangos.
de
pequeña
para
detectar
diferencia
en losDespués
niveles
de nivel de
6 de
significación α bilateral, la hipótesis nula se rechazará si la suma de rangos en la muestra
menorβcálculos,
tamaño es
inferior
al
percentil
α/2 oysuperior
al percentil
α/2 de dicha tabla.
seentre
tienelos
que
-caroteno
casos
de infarto
los sujetos
libres de1la– enfermedad.
6
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los
124
Pastor-Barriusode
R. la distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula
percentiles
de igualdad de distribuciones, cuando la menor de las dos muestras es de tamaño
Ejemplo 8.3 En un estudio hipotético a partir de dos muestras independientes de
Test de la suma de rangos de Wilcoxon
tamaños n1 = 5 y n2 = 10, la suma de rangos en la muestra más pequeña es 23.
Ejemplo
8.3 En unbajo
estudio
partir es
de simétrica
dos muestras
independientes
de
la suma dea rangos
alrededor
de E(U)
Como la distribución
H0 dehipotético
tamaños
= que
5 y nambos
=
10,
la
suma
de
rangos
en
la
muestra
más
pequeña
es
23.
Como
la
En
el cason1de
tamaños
muestrales
sean
superiores
a
8,
puede
emplearse
el
2
distribución
H0=de5(5
la +
suma
rangos
esse
simétrica
alrededor de E(U) = n1(n1 + n2 + 1)/2
+ 1)/2
10 +de1)/2
= 40,
tiene que
= n1(n1 + n2 bajo
el +
caso
que
8, puede
emplearse
=En5(5
10 de
+ 1)/2
=ambos
40, setamaños
tiene
quemuestrales
siguiente
método
aproximado.
Como
el contrastesean
parasuperiores
la igualdada de
distribuciones
se el
En el caso
de que ambos
muestrales
sean
emplearse el
P =tamaños
2P(U
≤ 23
H0) = 2P(U
57igualdad
| H ). a 8,
siguiente
Como
el |contraste
para≥superiores
la
depuede
distribuciones
basa
en el método
rango o aproximado.
posición de las
observaciones,
resulta
lícito0 sustituir
los valores se
En
el caso de
que
ambos
muestrales
emplearse
Utilizando
la Tabla
8 del tamaños
Apéndice
n1 = 5sean
ypara
n2 superiores
=la10,
puedea 8,
comprobarse
que el
valor
siguiente
aproximado.
Como
elcon
contraste
igualdad
depuede
distribuciones
seel
basa
en elmétodo
rango
o
posición
de
las
observaciones,
resulta
lícito
sustituir
los
valores
Utilizando
la
Tabla
8
del
Apéndice
con
n
=
5
y
n
=
10,
puede
comprobarse
que
observados
x
por
sus
correspondientes
rangos
r
en
el
estadístico
de
la
t
de
Student
para
1
2
i u0,975
u = 57 estái comprendido entre los percentiles
56 y u0,99 = 58, de lo cual se deduce
siguiente
método
aproximado.
Como
el
contraste
para
la
igualdad
distribuciones
la en
desigualdad
< P(U
57observaciones,
| H0) < 0,025, que
corresponde
ade0,02
< Pvalores
< 0,05.se
basa
el rango
o0,01
posición
de≥las
resulta
lícito sustituir
observados
rangos
ri en
el estadístico
tlos
de
Student
i por
u0,975 obteniéndose
= 56dey la
u0,99
= 58,
de lo para
el valor
ux=
57 sus
estácorrespondientes
comprendido
entre
los(Apartado
percentiles
muestras
independientes
con igual varianza
6.3.1),
basa
en el rango
posición
de las observaciones,
resulta
lícito sustituir
correspondientes
rangos
ri en
el estadístico
de la tlos
de valores
Student para
observados
xi poro sus
muestras
independientes
con
igual
varianza
(Apartado
6.3.1),
obteniéndose
En
el
caso
de
que
ambos
tamaños
muestrales
sean
superiores
a
8,
puede
emplearse
elasiguiente
≥
57
|
H
)
<
0,025,
que
corresponde
cual se deduce la desigualdad 0,01 < P(U
0
r1 igualdad
− r2
método
aproximado.
Como
el
contraste
para
la
de
distribuciones
se
basa
en
rango o
z = rangos
observados
xi por sus correspondientes
ri en el, estadístico
de la t de Studentelpara
muestras independientes
con igual varianza
(Apartado
6.3.1), obteniéndose
1
1
posición
observaciones, resulta lícito
los valores observados xi por sus
0,02de
< Plas< 0,05.
s r r1 −sustituir
+r2
z
=
,
correspondientes
rangos ri encon
el estadístico
de lan(Apartado
t denStudent
paraobteniéndose
muestras independientes con
muestras independientes
igual varianza
6.3.1),
11− r 12
7
r
igual varianza (Apartado 6.3.1), obteniéndose
1
2
s
+
z = r n1 n 2 ,
donde la diferencia de rangos medios ess r r1 1− r+2 1
z=
n1 n 2 ,
1
1
donde la diferencia de rangos medios ess r
+
n1
n2
n1 n 2
1
1
r
r
r
r
−
=
−
i
j
1
2


donde la diferencia de rangos
n1 i =medios
n 2esjn=21
n11
1
donde la diferencia de rangos medios
es 1
ri − es  r j
− rrangos
2 =

donde la diferenciar1 de
medios
n
1
n11 in=11
n12 nj (=2 1n1 + n 2 )(n1 + n 2 + 1) n1 
1
1
r
=
−
−  ri 
r1 − r2 = n 
rii − n  r j

2
1
2
=
1
i

n
1
n11 in=11
n12 nj =2(1n1 + n 2 )(n1 + n 2 + 1) i =n11 
1
1 
r
=
−
−  ri 

r1 − r2 = 
rii − n1
rj
+21 n+2 n+21+
) 1) in=11 
nn1111 ii=n=111 1 nn122 j =(1n1 +n1n(2n)(
1 n
==  + ri − ri −
 − ri 

n 2 ni2=n11
2
nn111
1 in=11 1 1  (n1 +nn1 (2n)(1 n2+1 n+2n+2 1+)1) in=11 
 − ri 
==  n+rin −   ri −

2
 111i =1 12 n2in=11
n
2
i =1

n1 (n1 + n 2 + 1) 


y, si no hay empates, la varianza
ri − en la muestra combinada es
=  + de los
 rangos
n
n
2
n1 (n1 + n 2 + 1) 
 11 12  in=11
y, si no hay empates, la =
varianza
ri − en la muestra combinada es
 rangos
 + delos
n1 + n2
2
21
2 n1 de nlos
i =1

y, si no hay empates, la varianza
rangos
en la muestra
combinada
es
s
=
(ri en
− rla) 2muestra combinada es
r

y, si no hay empates, la varianza
de
los
rangos
n1 + n 2 − 1 ni1=+1n2
1
2
2
s
=
(ren
r )muestra
r
i − la

y, si no hay empates, la varianza
de
los
rangos
es
2
n
+
n
1
2
n1 + 1n 2 − 1 n1i+=n12  n1 + n 2 + 1combinada

1

s r2 == n + n − 1 
(rii −− r ) 2 2

1
2
i
1
=
n
+
n
1
2
n1 + 1n 2 − 1 n1i+=n12  n1 + n 2 + 1 2
1

(r i −− r ) 2
s r2 == (n + n )(n 
n111++ nn222−−111n1ii=++=1n12n2i + 1) 2
2
n
1
=
 n1. + n 2 + 1 
=

12   i −
2
n(n1 1++nn2 2−)(1nn11i+=+n12 n2 + 1) 2
1
 n1 .+ n 2 + 1 
=
=

12  i −
n(n1 1++nn2 2−se
)(1ntiene
2 + 1) 2

1i =+
1 n
Sustituyendo en la expresión=anterior,
.
Sustituyendo en la expresión anterior, se tiene
12
(n1 + n 2 )(sen1tiene
+ n 2 + 1)
Sustituyendo en la expresión= anterior,
.
n1
n1 (n12
1 + n 2 + 1)
ri − se tiene
Sustituyendo en la expresión
anterior,
U − E (U )
2
i =n11
n1 (n1 + n 2 + 1) =
,
z=
SE (U )
nri1 n−2 (n1se+tiene
n 2 + 1)
Sustituyendo en la expresión
anterior,
U − E (U )
2
n1 (12
n1 + n 2 + 1) =
,
z = in=11
rni 1−n 2 (n1 + n 2 + 1)
SE (U )

U − E (U )
2
n1 (n12
,
z = in=11
1 + n 2 + 1) =
rni 1−n 2 (n1 + n 2 + 1)

SE (U )
U − E (U )
2
,
z = i =1
=
12
Pastor-Barriuso R.
SE (U )
n1 n 2 (n1 + n 2 + 1)
8
12
8
125
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cuál
de es
cuál
el valor
es el valor
más representati
más represe
Métodos no paramétricos
de una
dedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadores
estimadores
indican
ind
alrededor
alrededor
de qué
devalor
qué valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
central
central
de la de
muestra
sirvensirven
tanto tanto
para
resumir
para resumir
lossuresultados
los resultados
observados
observados
comocomo
para p
suma de rangos observada
y esperada
enlalamuestra
primera
muestra
dividida
por
error
estándar
bajo
la hipótesis nula de igualdad de distribuciones. Bajo H0, este estadístico seguirá aproximadamente
realizar
inferencias
inferencias
acerca
de
losdeparámetros
los en
parámetros
poblacionales
poblacionales
correspondientes.
correspondientes.
A A
una distribución normalrealizar
estandarizada
si n1,acerca
n2 > 8.
Notar
que,
general,
este
tamaño
muestral
es muy inferior al que se requeriría para aplicar la prueba paramétrica de la t de Student en dos
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de una
de
muestras independientes.
variable.
variable.
Ejemplo 8.4 A partir
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
de niveles
medios de b-caroteno entre casos y controles, así
1.2.1
Media
Media
aritmética
aritmética
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
Lade
media
aritmética,
aritmética,
denotada
por xpor
se xdefine
sede
define
como
como
la suma
suma
de cada
de
cadade
uno
losde los
la suma
delarangos
U,uno
distribuciones muestrales
la diferencia
dedenotada
medias
1, –
2, y
respectivamente. Como la distribución poblacional del b-caroteno es marcadamente asimétrica
(ver Figura 4.3) yvalores
las muestras
son muy
pequeñas,
lanúmero
diferencia
dedemedias
muestrales
se Si denotamos
valores
muestrales
muestrales
dividida
dividida
por elpor
el número
de observaciones
observaciones
realizadas.
realizadas.
Si denota
distribuye de forma asimétrica alrededor de la diferencia subyacente μ1 – μ2 = – 0,09 mg/g, de
npor
el tamaño
el tamaño
muestral
muestral
y poryxipor
elnecesaria
valor
xi el valor
observado
observado
paraelel
para
sujeto
el la
sujeto
i-ésimo,
i = 1,i...,
= 1,
n
tal forma que no sepor
cumple
lan condición
de
normalidad
para
aplicar
test
de
t de i-ésimo,
Student. Por el contrario, la suma de rangos sí se distribuye de forma aproximadamente normal
media
la media
vendría
vendría
dada
dada
por E(U)
por = 96,9. Así, aun cuando se disponga de
en torno a su valorlaesperado
en esta
población
muestras tan reducidas, se podría aplicar la aproximación normal al test de la suma de rangos
de Wilcoxon.
x 2++x...
1 n 1 n x1 + xx21 ++ ...
n + xn
.
.
= xi 
= xi =
x = x
n i =1 n i =1
n
n
Frecuencia relativa (%)
30
30
La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
más utilizada
más utilizada
y de más
y defácil
más fácil
25
5
25
1.2 MEDIDAS
1.2 MEDIDAS
DE TENDENCIA
DE TENDENCIA
CENTRAL
CENTRAL
interpretación.
interpretación.
Corresponde
Corresponde
al “centro
al “centro
de gravedad”
de gravedad”
de losdedatos
los datos
de la de
muestra.
la muestra.
Su S
20
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cuál
dees
cuál
el valor
es el valor
más repres
más
15
principal
principal
limitación
limitación
es quees
está
quemuy
está influenciada
muyvariable
influenciada
por
los
porvalores
losequivalente,
valores
extremos
extremos
y,
enestimado
y,
este
enin
de unadedeterminada
una determinada
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
estos estos
estimadores
10
de qué
valor
qué
setendencia
agrupan
secentral
agrupan
los central
datos
los
observados.
observados.
Las medidas
Las medidas
de tenden
de te
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de
ladede
tendencia
lavalor
dedatos
la de
distribución.
la distribución.
5
0
centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0
20
15
10
-0,9
-0,6
Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobre
estimadores
estimadores
muestrales,
muestr
inferencias
inferencias
acercaacerca
de losde
parámetros
los sobre
parámetros
poblacionales
poblacionales
correspondientes.
correspondien
A
-0,3
0
0,3
0,6
50
70
90
110 130 150
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de
utilizarán
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
xutilizarán
U obtenidos
1 − x2
variable.
variable.
estudio
“European
“European
StudyStudy
on Antioxidants,
on Antioxidants,
Myocardial
Infarction
Infarction
and Cancer
and Canc
of
(a) estudio
(b) Myocardial
1.2.1 1.2.1
MediaMedia
aritmética
aritmética
the Breast“
the Breast“
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicéntrico
multicéntrico
de casos
de casos
y controles
y controles
realizad
rea
, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
La media
La medios
media
aritmética,
aritmética,
denotada
por xpor
Figura 8.1 Distribución muestral de la diferencia de niveles
de denotada
β-caroteno
1 –
2 entre casos y
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura
simples
8.1 de
valores
valores
muestrales
muestrales
dividida
dividida
por el
número
elenúmero
de observaciones
de
observaciones
realizadas.
Si deno
Sid
entre
1991 1991
y 1992
y 1992
en
ocho
en
ocho
países
países
Europeos
Europeos
e por
Israel
Israel
para
evaluar
para
evaluar
elrealizadas.
efecto
el efecto
de
los
n1 = 10 casos de infarto de miocardio
y nentre
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las líneas
verticales en trazo discontinuo corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(U) = 96,9.
por n por
el tamaño
n el tamaño
muestral
muestral
y por yxi por
xi el valor
el valor
observado
observado
para elpara
sujeto
el sujeto
i-ésimo,
i-ésimo
i=1
la media
la media
vendría
vendría
dada por
dada por
1 n 1 n x1 + xx21 ++...x 2+ +x n... + x n
.
.
= xi =
x = x= x i 
n i =1 n i =1
n
n
La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
más utilizada
más utilizada
y de más
y defácil
más fáci
interpretación.
interpretación.
Corresponde
Corresponde
al “centro
al “centro
de gravedad”
de gravedad”
de losde
datos
los datos
de la muestra.
de la mu
126
Pastor-Barriuso R.
principal
principal
limitación
limitación
es queesestá
quemuy
estáinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en
caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribución.
de la distribución
Si se producen empates en la asignación
de rangos en la muestra combinada, la
T
t i (t i + 1)(t i − 1)

Test de combinada,
la
de rangos
de Wilcoxon
varianza
de
la
suma
de
rangos
es
menor
que la obtenida en ausencia
desuma
empates
y el
i
1
=
Si se producen empates
la
,
f = en la asignación de rangos en la muestra
(n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 − 1)
estadístico
del
test
de
la
suma
rangos
Wilcoxonenresulta
varianza de la suma de rangos de
es los
menor
que de
la obtenida
ausencia de empates y el
Sit se
producendeempates
enpara
la asignación
de rangos
la muestra
combinada,
varianza de
empates
el valor
i-ésimo
de
laen
variable.
Notar
que, si nolahay
conestadístico
i el número
del test
de la suma
de
losn1 rangos
de
Wilcoxon
resulta
la suma de rangos
es menor
que la
obtenida
en
ausencia
de
empates
y
el
estadístico
del test de
n1 (n1 + n 2 + 1)
r
−
i

la suma de
de Wilcoxon
resulta al citado anteriormente.
2
empates,
f =los
0 yrangos
este estadístico
se reduce
Finalmente, como la
,
z = in=11
n
n
+
n
+
(
1
)
n1 nr2i (−n1 +1 n 21 + 1)(2 1 − f )
suma de rangos es un variable discreta
que se aproxima
mediante una distribución
12 2
,
z = i =1
n1 n 2 (n1 + n 2 + 1)(1 − f )
normal continua, es frecuente aplicar la corrección por continuidad a estos estadísticos.
12
donde
La
versión con corrección por continuidad del test de la suma de rangos de Wilcoxon
donde
donde
T
(con o sin empates) se presenta en la Tabla
t8.2.
i (t i + 1)(t i − 1)

i =1
,
f =
T
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)(
n
+
n
−
1
)
1
2
i − 1)

[Tabla 8.2 aproximadamente
aquí]
i =1
,
= el valor i-ésimo de la variable. Notar
con ti el número de empates fpara
que, si no hay empates,
(
n
1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 − 1)
f =con
0 y teste
estadístico
se reducepara
al citado
anteriormente.
como
la si
suma
de rangos
de empates
el valor
i-ésimo de la Finalmente,
variable. Notar
que,
no hay
i el número
es una variable discreta que se aproxima mediante una distribución normal continua, es frecuente
aplicar
por
a estos
estadísticos.
versión
con
empates,
f = 8.5
0 y Como
este
estadístico
al
citado
Finalmente,
Ejemplo
lacontinuidad
muestra
dereduce
casos
y controles
laLa
Tabla
8.1
es
n1 =sicorrección
nno
=hay
10 la por
tilael corrección
número
de empates
paraseel
valor
i-ésimo
deanteriormente.
lade
variable.
Notar
que,
con
2como
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma
rangos
unestadístico
variable
discreta
que
aproxima
mediante
una
>8.2.
8,depuede
la aproximación
normal
a laanteriormente.
suma
de rangos
Udistribución
= 96,5 en
los la
empates,
f = 0 aplicarse
y es
este
se reduce
alsecitado
Finalmente,
como
normal
frecuente
aplicar
lacasos
corrección
por continuidad
a8.1
estos
casos
de infarto.
Bajo
hipótesis
de
misma
distribución
del
β-caroteno
Ejemplo
8.5 eses
Como
lalamuestra
denula
controles
de
la Tabla
es
nestadísticos.
suma
decontinua,
rangos
un
variable
discreta
que
seyuna
aproxima
mediante
una
distribución
1 = n2 = 10 > 8,
puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los casos de
La en
versión
con
corrección
continuidad
lacontinuidad
suma
rangos
de estadísticos.
Wilcoxon
infarto.
Bajo
la
dela+una
misma
distribución
en casos y
normal
continua,
es hipótesis
frecuente
aplicar
corrección
por
ab-caroteno
estos
casos
y controles,
el por
valor
esperado
de
de
rangos
sería
10nula
⋅ 10
(10
10
+del
1esta
)(test
1 −suma
0de
,00075
) dedel
var(U)
=
=
174,87,
controles, el valor esperado de esta suma
12de rangos sería
(con
o sin empates)
se presenta
en la Tabladel
8.2.test de la suma de rangos de Wilcoxon
La
versión
con corrección
por continuidad
10(10 + 10 + 1)
E(U) =
= 105
2
(condonde
o sin empates) se presenta
en
la
Tabla
8.2.
10 ⋅ 10(10 + 10 + 1)(1 − 0,00075)
= 174,87,
y su varianza var(U) = [Tabla 8.2 aproximadamente aquí]
12
y su varianza
(2 ++ 110
)(2+−1)(
1)1 − 0,00075)
⋅ 102(10
f = = 10
= 0,00075
[Tabla 8.2 aproximadamente aquí]
var(U)
(10 + 10)(10 + 10 +12
1)(10 + 10 − 1) = 174,87,
10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
factor
deaplicarse
corrección
de
la 2varianza
debido
aa la
de t1 =U2 = 96,5 en los
donde
(2de+ casos
1)(2normal
−y1)controles
> 8,
puede
lamuestra
aproximación
la presencia
suma
deTabla
rangos
Ejemplo
8.5 Como
la
de
la
f=
= 0,00075 8.1 es n1 = n2 = 10
(10 + 10)(10 + 10 + 1)(10 + 10 − 1)
g/g.misma
Por tanto, el estadístico
la
observaciones
empatadas
para
casos
de infarto.
Bajolalaaproximación
hipótesis
βde
-caroteno
2el(2valor
+ 1nula
)(20,13
−de
1)μuna
>
8, puede
aplicarse
normal
a la sumadistribución
de rangos Udel
= 96,5
en los
f
=
=
0,00075
es el factor de corrección de la varianza debido a la presencia de t1 = 2 observaciones
(10 + 10)(con
10 +corrección
10 + 1)(10 por
+ 10continuidad
− 1)
suma
de rangos
de
es
empatadas
para
el Wilcoxon
valorel0,13
mg/g.
Pordebido
tanto,
elsuma
estadístico
de tsería
de rangos de
2 β-caroteno
es casos
el factor
de
corrección
de
la
varianza
a
la
presencia
de
1la=suma
en
casos
y
controles,
valor
esperado
de
esta
dedistribución
rangos
de infarto. Bajo la hipótesis nula una misma
del
Wilcoxon con corrección por continuidad es
tanto, elde
estadístico
de la
observaciones
empatadas
para
el
valor
0,13
t1 = 2
es
el
corrección
la| varianza
debido
laPor
presencia
96
,5 −10
105
| −+1μesta
/g/g.
2a+suma
enfactor
casos de
y controles,
elde
esperado
(10de
10
1)0,60,de rangos sería
zvalor
=E(U
=
) = 174,87
= 105
2por
suma de rangosempatadas
de Wilcoxon
corrección
g/g.continuidad
Por tanto, elesestadístico de la
observaciones
paracon
el valor
0,13 μ
10(10 + 10 + 1)
que corresponde a un valor PE(=U2P(Z
F(0,60)} = 0,549 a partir de la
) = ≥ 0,60) = 2{1=–105
2por
suma
rangos
de
Wilcoxon
continuidad
esEste
distribución
normal
estandarizada
de
la
Tabla
3
del
Apéndice.
valor
aproximado
de
=| 96
2Pcorrección
(
Z
≥
0,60)
=
2{1
Φ
(0,60)}
= 0,549
a partir
de
quey corresponde
a un
valor P con
sudevarianza
,5 − 105 | −1 / 2
z
=
=
0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo así suficiente
10
174
,87
evidencia
para rechazar
la hipótesis
igualdad
distribuciones
del nivel
la distribución
normal estandarizada
la| Tabla
3 del
Apéndice. Este
valorde b-caroteno
y su varianza
| 96,5 de
−de
105
−1 / 2de
z=
0,60,de la enfermedad.
en los casos de infarto de miocardio
y los sujetos =libres
174
,
87
10
similar
exacto
calculado
en el=Ejemplo
aproximado
de P aesunmuy
P = 2al
P(valor
Z ≥ 0,60)
= 2{1
- Φ(0,60)}
0,549 a 8.2,
partirnode
que corresponde
valor
habiendo
así suficiente
evidencia
la3 hipótesis
de igualdad
la distribución
normal
estandarizada
la Tabla
del
Este valor
P = 2Ppara
(Z de
≥rechazar
0,60)
= 2{1
- ΦApéndice.
(0,60)}
= 0,549
ade
partir de
que
corresponde
a un valor
Pastor-Barriuso R.
β-caroteno
casos
de infarto
miocardio
y los
distribuciones
nivel
desimilar
P es
muy
al valor
exacto
calculado
en de
el Ejemplo
8.2,
no
aproximado
dedel
la
distribución
normal
estandarizada
deenlalos
Tabla
3 del
Apéndice.
Este valor
sujetos
libres
dePlaesenfermedad.
habiendo
asíde
suficiente
rechazar
hipótesisendeeligualdad
muyevidencia
similar alpara
valor
exacto la
calculado
Ejemplode
8.2, no
aproximado
127
128
Pastor-Barriuso R.
TestTest
deTest
los
con
signo
de
rangos
signo
derangos
loslos
rangos
concon
signo
Test
rangos
signo
Test
de de
los
rangos
concon
signo
Test
de los
los
rangos
con
signo
Test
la suma
rangos
Test
de de
la suma
de de
rangos
TestTest
deTest
ladesuma
rangos
de
la
la
de de
rangos
Test
desuma
ladesuma
suma
de rangos
rangos
1
1
1 2
2
n nn2n(11nn212(+
(nn1n+2++nn21)++11))
n nn2 1(n21 (+n11n+2 +n221)+ 1)
12 12
12
12 12
m
m
mm
n(nnn+((n1n)++11))1 11
m
−−(nn+(n1)+−1) 1−− 1
r
i −rriin



=i=11−ri − 4 4
ir
=1 
i
4 − 2− 22
i
z =zz ==
4 4 2 2
i =1 i =1
z =z = n(nnn+((n1n)(
++211)(
n)(2+2n1n)++11))
+ 21)(
n(nn+(n1)(
n 2+n1)+ 1)
24 24
24
24 24
z =z =
+ n +−1) − 1
r−rrn−−(nn ((+nnn+
+n 1)+ 1) 1− 1

r −r − 2 22
− 2− 22


z =zz =
2 2
2 2
=
n1 nn11
n1 n1
ii
i
i =1 ii=i=11 i
i =1 i =1
1
1
n1 (n11(+n1n1 +2 +n212)+ 1) 1 1
empates
SinSin
empates
Sin
empates
empates
SinSin
empates
1 2
2
iii
ii
i
ii
T
T
TT
T
++t11i)()(−tti1i )−−11))
t
i (tttiii(+
(tti1i )(


t i1)(
+ t1i)(−t i1)− 1)
t
ii=i=11(ttii (+
=1 
i
concon
f =ff =
con
=1 i =1
i=
2 22
concon
f =f =
2 2
m
m
mm
n(nn+(n1)+ 11))1 11
m−r − n( n +−
r
i
riin−(nn+(n1)+ 1) 1−− 1



iri=i=11−ri − 4 4
=1 
4 − 2− 22
z =zz ==i
4 4 2 2
i =1 i =1
z =z =n(nnn+((nn1)(
++211)(
n)(2+2nn1)++−11))f−− ff
+ 21)(
n(nn+(n1)(
n 2+n1)+−1)f− f
24 24
24
24 24
28 28
28
28 28
i
ii i
i
concon
f =ff ==
con
nnn)()(+nn11n++
++n11)(
nn11n++
+n221)(
−n21)−−11))
concon
f =f(n=1((+nn n++)(
2 n
1)(+
2 n
n n+ )(
n n)(+
n1n+2 n+21)(
+ n1)(
n1n+2 n−221)− 1)
(n1(+
1 +
++t11)()(−tt1)−−11))
t
(ttt (+(tt1)(

+ t1)(−t 1)− 1)
t (tt (+t 1)(

T
T
TT
T
i
i =1 ii=i=11
i =1 i =1
11 2 221
1 2 21
++111)(
z =z =n nnn(nn (+
−)(11f−−) ff ))
(nn1n+2++nn21)(
+11)(
n nn(n (+n11n+2 +n221)(
−1f−) f )
12 12
12
12 12
1
n (n11(+n1n1 +2 +n212)+ 1) 1 1
n1 nn11
1
n1 n1
ii 1
i
i =1 ii=i=11 i
i =1 i =1
1 2 11 212
1 2 1 21
+ n +−1) − 1
r−rrn−−(nn ((+nnn+
+n 1)+ 1) 1− 1

r −r − 2 22
− 2− 22


z =zz =
2 2
2 2
=
Con empates
Con
empates
Con
empates
Con
empates
Con
empates
Con
empates
Tabla
Estadísticos
para
el test
la suma
rangos
y de
rangos
signo
Wilcoxon
corrección
continuidad.
Tabla
8.28.2
Estadísticos
para
el test
de de
la suma
de de
rangos
y de
loslos
rangos
concon
signo
de de
Wilcoxon
concon
corrección
porpor
continuidad.
Tabla
8.2
Estadísticos
para
test
la de
suma
deyrangos
y rangos
de
los
rangos
signo con
decon
Wilcoxon
con
corrección
Tabla
Estadísticos
para
el
de
la
de
yy de
signo
de
corrección
por
continuidad.
Tabla
8.28.2
Estadísticos
para
el test
de
la
suma
rangos
de
los
rangos
concon
signo
decon
Wilcoxon
corrección
por
continuidad.
Tabla
8.2
Estadísticos
para
eleltest
test
dede
la suma
suma
de rangos
rangos
de los
los
rangos
con
signo
de Wilcoxon
Wilcoxon
con
corrección
por
continuidad.por continuidad.
Métodos no paramétricos
Test de los rangos con signo de Wilcoxon
El test de la suma de rangos de Wilcoxon es también conocido como el test de MannWhitney. Aunque este último se deriva siguiendo un procedimiento distinto, ambas pruebas de
hipótesis son completamente equivalentes, obteniéndose el mismo valor P con cualquiera de
ellas. La comparación no paramétrica de distribuciones continuas en más de dos muestras
independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una
generalización del test de la suma de rangos de Wilcoxon y puede consultarse en los textos
sobre métodos no paramétricos referenciados en este tema.
8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON
En este apartado se describe el procedimiento de contraste no paramétrico equivalente al test de
la t de Student para muestras dependientes. Como se discutió en el Apartado 6.4, la prueba t
para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias
observadas en cada pareja de datos dependientes. Esta prueba paramétrica requiere que el
número de parejas sea suficientemente grande para asegurar que la media de las diferencias se
distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras
de este supuesto de normalidad (particularmente cuando el número de parejas sea muy reducido),
resulta más apropiado utilizar el test no paramétrico de los rangos con signo de Wilcoxon. Bajo
la asunción de que la variable a estudio sea continua, este procedimiento permite contrastar si
las diferencias se distribuyen simétricamente alrededor de 0. La hipótesis nula establece, por
tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una población son
igualmente probables que a favor de los sujetos de la otra población.
Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de
datos dependientes. La asignación de rangos a estas diferencias se realiza mediante el siguiente
procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las
restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto
hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor
absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes.
Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos
con signo constituyen así una representación estandarizada de las diferencias, que preserva
tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de
Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos
negativos)
W=
m
r,
i
i =1
donde m denota el número de rangos positivos.
donde m denota el número de rangos positivos.
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos
de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad.
A partir delpara
estudio
EURAMIC,
aleatoriamente
20 en la
LosEjemplo
niveles 8.6
de b-caroteno
estas
20 parejas se
deseleccionan
casos y controles
se presentan
Tabla 8.3. Una vez excluida la pareja con di = 0, el número efectivo de parejas es n = 19.
casosde
deestas
infarto
de miocardio
y 20 controles
por grupos
A partir
parejas
con diferencias
no nulas, emparejados
se asignan rangos
del 1 al 19 comenzando
en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las
de edad. Los
niveles
β-caroteno
para estas
20 parejas
dosquinquenales
parejas con diferencia
absoluta
0,27demg/g
se les otorga
el rango
medio (9de+casos
10)/2 y= 9,5,
y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio
presentan
en la Tabla
8.3. un
Una
vez positivo
excluidaalalos
pareja
concorrespondientes
di = 0, el
(12controles
+ 13)/2 =se12,5.
Finalmente,
se otorga
signo
rangos
número efectivo de parejas es n = 19. A partir de estas parejas con diferencias no
nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso
absoluta R.
0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con
129
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
correspondientes
Métodos no
paramétricos
a diferencias positivas y un signo negativo a los rangos
correspondientes
diferenciasnegativas.
positivas La
y un
signo
a los rangos
correspondientes aa diferencias
suma
de negativo
rangos positivos
resulta
correspondientes
a diferencias
negativas.
La asuma
de rangos
positivos resulta
a diferencias positivas
y un
signo
negativo
los rangos
correspondientes
a diferencias
9
negativas. La suma de rangos
positivos
resulta
 ri = 17 + 12,5 + ... + 3 = 91
i =91
r
i
= 17 + 12,5 + ... + 3 = 91
i =1
y la suma de rangos negativos
y la suma de rangos negativos
y la suma de rangos negativos
10
r
j
= (− 4) + (− 14) + ... + (− 9,5) = − 99.
j =1
10
r j = de
(-4)los
+ (-14)
... + (-9,5)es= n(n
-99.+ 1)/2 = 19∙20/2 = 190. Así,

En este ejemplo la suma
total
rangos+ absolutos
j
=
1
En vez
este determinada
ejemplo la suma
total de
rangos
absolutos91,
es la
n(nsuma
+ 1)/2
19⋅20/2negativos
=
una
la suma
delos
rangos
positivos
de=rangos
viene
dada por 91 – 190 = – 99.
190. Así, una vez determinada la suma de rangos positivos 91, la suma de rangos
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19⋅20/2 =
negativos
dada por 91
-tejido
190 = -99.
Tabla
8.3viene
β-caroteno
adiposo
eny20
casos y controles
del estudio
Tabla
8.3Así,
β-caroteno
tejidoen
adiposo
en
20decasos
controles
190.
una vezen
determinada
la suma
rangos
positivos del
91,estudio
la sumaEURAMIC
de rangos
EURAMIC
según grupos
quinquenales de edad.
emparejados
segúnemparejados
grupos quinquenales
de edad.
negativos viene dada por 91
- 190 = (μg/g)
-99.
β-caroteno
β-caroteno (μg/g)
Pareja
Pareja
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Caso
Control
Caso0,47
0,470,75
0,750,78
0,780,66
0,660,09
0,090,20
0,200,08
0,08
0,08
0,08
0,310,31
0,300,30
0,160,16
0,130,13
0,060,06
0,250,25
0,390,39
0,950,95
0,330,33
0,530,53
0,160,16
0,230,23
0,55
Control
0,09
0,55
0,40
0,09
0,40
0,13
0,13
0,49
0,49
0,31
0,31
0,28
0,28
0,46
0,46
0,16
0,16
0,87
0,87
1,16
1,16
0,13
0,13
0,37
0,37
0,04
0,04
0,37
0,37
0,14
0,14
0,06
0,06
0,50
0,50
0,17
0,17
0,50
0,50
Diferencia
(di)
Diferencia
absoluta
Diferencia Diferencia
– 0,08
0,08
(di)
absoluta
0,66
0,66
-0,08
0,08
0,38
0,38
0,66
0,66
0,38
0,38
0,53
0,53
0,53
0,53
– 0,40
0,40
-0,40
0,40
– 0,11
0,11
0,11
–-0,11
0,20
0,20
-0,20
0,20
– 0,38
0,38
-0,38
0,38
0,15
0,15
0,15
0,15
– 0,57
0,57
-0,57
0,57
–-1,00
1,00
1,00
1,00
00
00
–-0,31
0,31
0,31
0,31
0,21
0,21
0,21
0,21
0,02
0,02
0,02
0,02
0,81
0,81
0,81
0,81
0,27
0,27
0,27
0,27
0,03
0,03
0,03
0,03
-0,01
0,01
– 0,01
0,01
-0,27
0,27
– 0,27
0,27
Rango
absoluto
Rango
4
absoluto
17 4
12,5
17
1512,5
1415
514
75
7
12,5
12,5
6
6
16
16
1919
—−
1111
88
22
1818
9,59,5
3 3
11
9,5
9,5
Rango con
13
signo (ri)
Rango con
– 4 (ri)
signo
17-4 13
12,5
17
1512,5
– 1415
–-14
5
– 7-5
-7
– 12,5
-12,5
6
6
– 16
-16
– 19
-19
—−
– 11
-11
88
22
1818
9,59,5
33
– 1-1
-9,5
– 9,5
99
de rangos
positivos  rrii ==9191
SumaSuma
de rangos
positivos
ii ==11
10
10
– 99
de rangos
negativos  rrjj= =
SumaSuma
de rangos
negativos
-99
=1
jj =
1
130
Pastor-Barriuso R.
de 0, se esperaría la misma suma
de rangos
positivos que negativos
[Tabla
8.3
aquí] y, por consiguiente,
2 aproximadamente
2
4
la suma esperada de rangos positivos sería
de rangos absolutos
1) n(de
n +la1suma
) Testtotal
1 n(nla+ mitad
losapartado
rangos con signo
de Wilcoxon
E(W)
donde
indica
el número
deque
diferencias
no nulas.
igual ,que
endeel
anterior,
Bajon la
hipótesis
nula de
las =diferencias
se= Al
distribuyen
simétricamente
alrededor
2
2
4
1 n(n + 1) n(n + 1)
el
de la
P misma
para el suma
contraste
bilateral
vendrá
dadonegativos
bajo H0
E(W)de=rangos
= que
,por la probabilidad
devalor
0, se exacto
esperaría
positivos
y, por consiguiente,
2
2
4
donde
n
indica
el
número
de
diferencias
no
nulas.
Al
igual
que
en
el
apartado
anterior,
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 0, se
de
obtener
una suma
de
positivos
tanto
o másdedistante
detotal
E(W)
susuma
valor
la suma
de rangos
positivos
sería
la negativos
mitad
la
deque
rangos
absolutos
esperaría
laesperada
misma
suma
de rangos
rangos
que
y, suma
por consiguiente,
la
esperada
el
valor
exacto
de
P
para
el
contraste
bilateral
vendrá
dado
por
la
probabilidad
bajo
H0
de rangos
la mitad
de la sumanototal
de Al
rangos
donde npositivos
indica elsería
número
de diferencias
nulas.
igualabsolutos
que en el apartado anterior,
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
obtener
una de
suma
de rangos
positivos
tanto vendrá
o=más distante
que su valor
E(W)
= bilateral
el
exacto
P para
el contraste
dado, pordelaE(W)
probabilidad
bajo H0
2
2
4
P = 2P(W ≥ w | H0)
observado
es,de
siderangos
w diferencias
> E(W),
de
obtener
una
suma
positivos
tanto oAlmás
distante
que anterior,
su valor el valor
donde
n indicaw;
elesto
número
no nulas.
igual
que endeelE(W)
apartado
donde
n
indica
el
número
de
diferencias
no
nulas.
Al
igual
que
en
el
apartado
obtener una
exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 deanterior,
y,
sidew rangos
≤ E(W),
observado
w; esto
es, si w
> E(W),
suma
positivos
tanto
o más
distante
de
E(W)
que
su
valor
observado
w; esto es,
P = 2P(W ≥ w | H0)
el
valor
exacto
de
P
para
el
contraste
bilateral
vendrá
dado
por
la
probabilidad
bajo
H0
preestablecido,
la hipótesis nula se rechazará si la suma de rangos positivos es inferior
si w
> E(W),
PP == 2P(W
H00).)
2P(W ≤≥ ww || H
y, percentil
si
w ≤ E(W),
de
obtener
una
de rangos
positivos
al
α/2 suma
o superior
al percentil
1 - tanto
α/2. o más distante de E(W) que su valor
y, si w ≤ E(W),
Bajo
dicha
hipótesis
observado
w;
esto es,nula,
si w cualquier
> E(W), combinación de un número arbitrario de rangos
y, si w
≤ E(W),
P = 2P(W ≤ w | H0).
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w
es igualmente
y su probabilidad
determinada
porpositivos
positivos
r1, ..., rm nula,
Bajo
dicha hipótesis
cualquierprobable
combinación
de un númeroviene
arbitrario
de rangos
)
P=
2P(W ≤≥ w | de
H00).
Bajo
dicha
hipótesis
nula,
cualquier
combinación
un
número
arbitrario
de
rangos
r1, ..., rm =
es25
igualmente
y su probabilidad
viene determinada
por
a partir deprobable
n = 12 parejas
de datos dependientes
con diferencias
no nulas. La
1
, ..., rm bajo
es nula,
igualmente
probable
y nsu, probabilidad
viene
determinada
por
positivos
r1hipótesis
y,
si wdicha
≤ E(W),
Bajo
cualquier
combinación
de un número
arbitrario
de rangos
distribución
H0 de
la suma
de rangos
positivos
es simétrica
alrededor
de
2
preestablecido, la hipótesis nula se rechazará si la suma de rangos positivos es inferior
donde
2nE(W)
es el
deigualmente
subconjuntos
de=cualquier
que
pueden
obtenersepor
a partir de
...,
y1su
viene
determinada
positivos
r1,=número
n(nrm+es1)/4
= 12(12 +probable
1)/4
39,
deprobabilidad
lo tamaño
cual se deduce
que
P
=
2P(W
≤
w
|
H
).
n
0
α/2
superiordealsubconjuntos
percentil
- αde
/2.cualquier
, de tamaño
lasaldonde
npercentil
parejas
con
no
nulas. 1Haciendo
uso
este resultado,
la Tabla
9 del Apéndice
el odiferencias
número
que pueden
obtenerse
a
2 es
n
2
facilita los percentiles de la distribución de la suma de rangos positivos bajo la hipótesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 – 60 = 18,
quepartir
las diferencias
se distribuyen
simétricamente
alrededor
0, cuando
número
deladiferencias
de lashipótesis
n parejas
con diferencias
no nulas.
uso
de arbitrario
esteelresultado,
Tabla
, Haciendo
Bajo
dicha
nula,
cualquier
combinación
de unde
número
de rangos
n
n
Ejemplo
8.7
Como
ilustración,
supongamos
que
la
suma
de
rangos
positivos
es
w
2
no nulas
≤ 16.
Para unde
nivel
de significación
α preestablecido,
la pueden
hipótesis
nula se rechazará
el número
subconjuntos
de cualquier
tamaño que
obtenerse
a
dondees2 nes
donde
w
=
60
se
obtiene
de
la
Tabla
9
del
Apéndice
para
n
=
12.
Como
la
suma
9positivos
del
Apéndice
facilita
los
percentiles
de
la
distribución
de
la
suma
de
rangos
positivos
si la
suma
derrangos
positivos
es
inferior
al
percentil
α/2
o
superior
al
percentil
1
–
α/2.
0,95
,
...,
r
es
igualmente
probable
y
su
probabilidad
viene
determinada
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
n parejas
diferencias nodenulas.
Haciendo
usoque
de pueden
este resultado,
la Tabla
es el
númerocon
de subconjuntos
cualquier
tamaño
obtenerse
a
donde
2 las
bajoEjemplo
laobservada
hipótesis
nula
de
que
las
diferencias
se
distribuyen
simétricamente
alrededor
w
=
25
>
w
=
18,
se
sigue
que
P(W
≤
25
|
H
)
>
0,05.
Así,
el
0,05
0
8.7 bajo
Como
ilustración,
que la
de rangos
positivos
es de
w = 25
distribución
H0 de
la suma desupongamos
rangos1 positivos
es suma
simétrica
alrededor
de
9 del
Apéndice
losdiferencias
percentiles
de nulas.
la distribución
de
la
suma
de
rangos
positivos
,
partir
de lasdennparejas
con
no
Haciendo
uso
de
este
resultado,
la
Tabla
a partir
=facilita
12 parejas
de datos dependientes
con
diferencias
no
nulas.
La
distribución
n
20,10.
≤ 16.
Para
unque
niveldedeE(W)
significación
α =
0, cuando
número
diferencias
no
nulas
es
ncual
contraste
arroja
valor
P >de
labilateral
rangos
positivos
es
alrededor
= n(n + 1)/4
bajo
H0el
E(W)
=de
n(n
+suma
1)/4de=de
12(12
+un1)/4
= 39,
lo simétrica
se deduce
laApéndice
hipótesis
delos
que
las se
diferencias
se distribuyen
alrededor
de
9bajo
del
percentiles
de laque
distribución
desimétricamente
la suma de rangos
positivos
12(12
+ 1)/4 facilita
=nula
39, de
lo
cual
deduce
n
donde 2 es el número de subconjuntos de cualquier tamaño que pueden obtenerse a
w0,05 = el
n(n
+ 1)/2 –dewdiferencias
18, sea superior a 16,
0,95 = 78 – 60
Enlaaquellas
muestras
donde
número
no=simétricamente
nulas
un nivel de significación
α
0, cuando
el número
no nulasse
es
n ≤ 16. Para
bajo
hipótesis
nulade
dediferencias
que las diferencias
distribuyen
alrededor de
partir
de las
con diferencias
no9nulas.
Haciendo
uso
este
resultado,
Tabla
donde
w0,95n =parejas
60 se obtiene
de la Tabla
del Apéndice
para
n =de12.
Como
la sumalaobservada
puede
siguiente
aproximación
Dado
queAsí,
los
rangos
conlasigno
=la=60
se
obtiene
deque
la no
Tabla
9normal.
del
Apéndice
para
n nivel
=el
12.
Como
suma α
≤
16.
Para
un
de
significación
0, cuando
número
de
diferencias
nulas
es
n
w donde
=utilizarse
25 el
>w0,95
w
18,
se
sigue
P(W
≤
25
|
H
)
>
0,05.
contraste
bilateral
arroja
0,05
0
14
9 del
un Apéndice
valor P > facilita
0,10. los percentiles de la distribución de la suma de rangos positivos
observada
= 25 > w0,05 = 18,
se sigue quede
P(W
25 | H0) > 0,05.
Así, el en cada
constituyen
unawrepresentación
estandarizada
las≤diferencias
observadas
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de14
contraste
bilateral
arroja
P
> 0,10.
pareja
de datos
dependientes,
construirse
un estadístico
sustituyendo
las a 16, puede
En aquellas
muestras
dondeunpodría
elvalor
número
de diferencias
no nulas
sea superior
utilizarse
la siguiente
Dado
rangos
con de
signo
constituyen
≤ 16.los
Para
un nivel
significación
α una
0, cuando
el númeroaproximación
de diferenciasnormal.
no nulas
es n que
14
loslas
rangos
con signo
ri en el en
testcada
de la
t de Student
diferencias no
nulas di porde
representación
estandarizada
diferencias
observadas
pareja
de datospara
dependientes,
En aquellas muestras donde el número de diferencias no nulas sea superior a 16,
podría construirse un estadístico sustituyendo las diferencias no nulas di por los rangos con
muestras
(Apartado
6.4).
Así, eldependientes
estadístico resulta
signo
r en eldependientes
test de la t de Student
para
muestras
(Apartado 6.4). Así, el estadístico
puedei utilizarse la siguiente aproximación normal. Dado que los rangos con signo
resulta
constituyen una representación estandarizada de rlas diferencias observadas en cada
z=
,
sr
14
pareja de datos dependientes, podría construirse unnestadístico sustituyendo las
diferencias no nulas di por los rangos con signo ri en el test de la t de Student para
donde la media de los m rangos positivos y n - m rangos negativos es
muestras dependientes (Apartado 6.4). Así, el estadístico resulta
Pastor-Barriuso R.
z=
sr
r
,
131
Métodos no paramétricos
n−m

1 n
1 m
 
r = 1
n ri =
m ri + 
n−m r j 

1  i =1
i =1 ri = n 
j =1 r j 
  ri + 

r =n


n i =1 y n – im
donde la media de los m rangos positivos
es
=1 rangos
j =1 negativos

nn(−nm + 1) 
1 n m
 mm
= 11 
m ri +1 
m ri −
n(n + 1) 

= n 
r=
1 riri −+ 2r j  
i =1riri=+ 
i =

 
 n
j =12 
nn i =i1=1
i =i1=1

n(n + 1) 
2 m
m ri −
= 21 
m
 (mn4+ 1) n(n + 1) 
+ n
ri −
i =1 rii −

= n 
n  ii==11
 i =14  2 
y, en el caso de que no haya empates,
n(n + 1)bajo
2  m la varianza
 H0 de los rangos con signo se
=

  rla
i −
y, en el caso de que no haya empates,
varianza
bajo
4  H0 de los rangos con signo se
n  i =1
estima mediante
estima
mediante
el problema,
supongamos
que se dispone
pares
de observaciones
y, Para
en
elconcretar
caso
de que
no haya empates,
la varianza
bajo H0deden los
rangos
con signo se estima
H
de
los
rangos
con signo se
y, en el caso de que no haya empates,
la
varianza
bajo
mediante
0
1 n 2 1 n 2 (n + 1)(2n + 1)
2
de una variable aleatoria continua.
En
dependientes, una
sr = 1 
= (datos
n rcada
n i de
i = pareja
n + 1)(62n + 1) .
1
2
2
2
n
n
i
i
=
1
=
1
estima mediante
s r =  ri =  i =
.
n i =1 muestra
n i =1 y la otra observación
6
observación x1 corresponde a la primera
x2 a la segunda
n
n
Aplicando ambas resultados,
se
el 1estadístico
(n + 1)(2n + 1)
1 tiene
2 se tiene
2 estadístico
Aplicando
ambos
resultados,
el
muestra.
El
objetivo
se
centra
en
comparar
las
medias
s
=
r
=
i 2 = poblacionales. μ1 y μ2 a partir de
r
i

Aplicando ambas resultados, se
tiene el estadístico
6
n i =1
n i =1
m
estas dos muestras dependientes. m ri − n(n + 1)

n(n4+ 1)
W − E (W )
i =tiene
1 ri −el estadístico
Aplicando ambas resultados,
se
z= 
= W − E (W ) ,
4
Los procedimientos desarrolladosin=1(en
el
Apartado
6.3
no(pueden
W ) , aplicarse a esta
n + 1)(2n + 1) = SE
z=
SE (W )
nm (n + 124
)(2n + 1)
n(n +no
1) son independientes por provenir de
situación, ya que las medias de ambas rmuestras
i − 24

− E (W )de la suma de rangos positivos,
que representa
la diferencia
entrey,elen
observado
yW
esperado
4
i =valor
1 consecuencia,
distribución
asimétrica
=la utilización, de la prueba de la t de
z=
dividida
por sucorrelacionadas.
error
estándar bajo
diferencias
node
nulas
es n > 16,
que representa
la diferencia
entre
y esperado
de la suma
rangos
observaciones
SinHembargo,
la
se
notablemente
SE
(Wcon
) simplifica
+el1)(número
n0.(elnSivalor
2observado
n +comparación
1)de parejas
que
representa
la
diferencia
entre
el
valor
observado
y
esperado
de
la
suma
de
rangos
este estadístico
una distribución
normal estandarizada bajo la hipótesis
Studentsigue
para aproximadamente
muestras dependientes
24 resulta cuestionable. Sin embargo, a pesar de
Si las
el número
de parejasemparejadas.
con diferencias
de simetría
las por
diferencias
de 0.
dividida
su derror
estándar
bajo
H0.de
- x2 en cada
una
n observaciones
sinula
sepositivos,
calculan
las de
diferencias
= x1alrededor
.
Si
el
número
de
parejas
con positivos
diferencias
positivos,
dividida
por
su
error
estándar
bajo
H
0
contar únicamente con 20 parejas, la distribución
de la suma de rangos
que
representa
diferencia
entre
elsigue
valor
observado
y esperado
deestas
la
suma
de
rangos de 20
es
n8.8
> la
16,
este
aproximadamente
una1000
distribución
normal
Porno
unnulas
lado,
como
las
distintas
no
están
relacionadas
entre
sí,
diferencias
Ejemplo
A
partirestadístico
delparejas
estudio
EURAMIC,
se seleccionan
muestras
aleatorias
no parejas
nulas
es
n
>
16,
este
estadístico
sigue
aproximadamente
una
distribución
normal
presenta
un aspecto
mucho
más normal,
asíedad.
el usoLadeFigura
la aproximación
de casos
y controles
agrupados
según permitiendo
quinquenios de
8.2 presenta la
.
Si
el
número
de
parejas
con
positivos,
dividida
por
su
error
estándar
bajo
H
estandarizada
bajo
la
hipótesis
nula
de
simetría
de
las
diferencias
alrededor
de
0. así como
0
casoscon
y controles,
distribución muestral
delado,
la diferencia
b-caroteno d entre
son independientes.
Por otro
la mediamedia
de lasdediferencias
coincide
la diferencias
estandarizada
bajo
la
hipótesis
nula
de
simetría
de
las
diferencias
alrededor
de
0.
normal al test
de los de
rangos
conde
signo
de Wilcoxon.
la distribución
muestral
la suma
rangos
positivos W (esto es, la suma de rangos
en las
no
nulas
es
n
>
16,
este
estadístico
sigue
aproximadamente
una
distribución
normal
diferencia
de medias
muestrales,
parejas
donde el
caso presenta un nivel superior de b-caroteno que el control). Debido al
Ejemplo
8.8 Adepartir
dellaestudio
EURAMIC,
se seleccionan
muestras
reducido
número
parejas,
media de
las diferencias
de b-caroteno1000
presenta
una distribución
Ejemplo
8.8
A
partir
del
estudio
EURAMIC,
se
seleccionan
1000
muestras
estandarizada
bajo
la
hipótesis
nula
de
simetría
de
las
diferencias
alrededor
de
0. muestras
asimétrica y, en consecuencia,n la utilización
de la prueba de la t de Student para
n
aleatorias de 20 parejas1[Figura
de casos8.2
y1 controles
agrupadosaquí]
según quinquenios de
aproximadamente
dependientes resulta cuestionable.
de contar únicamente con 20 parejas,
= embargo,
d =  d i Sin
( x i1 −axpesar
i2 )
aleatorias de 20 parejas de
casos ny 
controles
agrupados
según quinquenios de
i =1 rangos
ipositivos
=1
la distribución de la suman de
presenta un aspecto mucho más normal,
Ejemplo
8.8 A partir
del estudio
EURAMIC,muestral
se seleccionan
1000 muestras
edad.
La Figura
8.2depresenta
la distribución
de la diferencia
media de βpermitiendo
así el uso
la aproximación
n
n normal al test de los rangos con signo de Wilcoxon.
1
1
En edad.
el caso
de
existir
diferencias
con
el
mismo
valor
absoluto,
ha
de
utilizarse
La Figura 8.2 presenta
distribución
de la diferencia medialade β=  xla
xi 2 = xmuestral
1 − x2
i1 −

aleatoriasddeentre
20 parejas
casos yn controles
agrupados según quinquenios de
=1
1 como la distribución muestral de la suma
i =así
casosnydei controles,
caroteno
siguiente
versión
corregida
del
estadístico
del
test
de
rangos ha
conde
signo
En el caroteno
caso de existir
diferencias
con el mismo
valorlalos
absoluto,
utilizarse
siguiente
d entre
casos y controles,
así como
distribución
muestral
de lalasuma
edad.
La
Figura
8.2
presenta
la
distribución
muestral
de
la
diferencia
media
de
versión corregida
del
estadístico
del
test
de
los
rangos
con
signo
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso βy, en consecuencia,
d es un estimador
derangos
la diferencia de medias
de rangos positivos
W (esto es,insesgado
lamsuma nde
(n + 1) en las parejas donde el caso
riasí
− como

d nivel
entre superior
casos y controles,
distribución
muestral
de la suma
caroteno un
que
Debido
al reducido
presenta
de β-caroteno
4 ellacontrol).
ila
=1 comparación
poblacionales
μ
μ
.
Así,
el
problema
de
de
medias
en
dos
muestras
1
2
,
z
=
presenta un nivel superior de β-caroteno que el control). Debido al reducido
nla
+ 1)(2de
n +rangos
(nsuma
1) − f en las parejas donde el caso
de rangos
(esto es,
número
depositivos
parejas, laWmedia
de las
diferencias
de β-caroteno presenta una
dependientes
queda
a una
simple
media depresenta
una única
24 sobre
una
número
dereducido
parejas, la
media
de lasinferencia
diferencias
de βla-caroteno
16
presenta un nivel superior de β-caroteno que el control). Debido al reducido
muestra de n diferencias independientes.
16
cuya varianza incluye el término de corrección por empates
número de parejas, la media de las diferencias de β-caroteno presenta una
Los métodos
132 Pastor-Barriuso
R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
t i (t i +al1)(100(1
t i − 1)- α)% para μ - μ como

utilizarse para calcular un intervalo de confianza
1
2
f = i =1
,
distribución asimétrica y, en consecuencia, la utilización de la prueba de la t de
TestSin
de los
rangos conasigno
de Wilcoxon
Student para muestras dependientes resulta cuestionable.
embargo,
pesar
de
Frecuencia relativa (%)
contar únicamente con 20 parejas, la distribución de la suma de rangos positivos
Para concretar el problema, supongamos que se dispone de n pares de observaciones
25
25
presenta
un aspecto mucho más normal, permitiendo
así el uso de la aproximación
de una variable aleatoria continua. En cada pareja de datos dependientes, una
20
20
normal
al test de
los rangosacon
signomuestra
de Wilcoxon.
la primera
y la otra observación x2 a la segunda
observación
x1 corresponde
15
15
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de
10 estas dos muestras dependientes.
[Figura 8.2
5
10
aproximadamente aquí]
5 6.3 no pueden aplicarse a esta
Los procedimientos desarrollados en el Apartado
En el0caso
de existir
el muestras
mismo valor
ha de
0 son absoluto,
situación,
ya quediferencias
las medias decon
ambas
no
independientes
porutilizarse
provenir dela
observaciones
correlacionadas.
la comparación
-0,6
-0,3
0 Sin embargo,
0,3
0 rangos
30se simplifica
60 signo
90notablemente
120 150
siguiente versión
corregida
del estadístico
del test
de los
con
180
si se calculan las diferencias
d = x1 - x2 en cada una de las n observaciones
d
W emparejadas.
m

n(n + 1)
4
Por un lado, como las
(a)distintas parejasrino−están relacionadas entre sí, estas
(b)diferencias
z=
i =1
,
Figura 8.2 Distribución
muestralPor
deotro
la diferencia
casos
controles (a) y de la
son independientes.
lado,
las1β-caroteno
d entre
coincide
cony la
n(lan media
+ media
n de
+
− f
1)(2de
)diferencias
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
24
Figura 8.2
según quinquenios
de edad
a partir
del estudio EURAMIC.
Las líneas verticales en trazo discontinuo
diferencia
de medias
muestrales,
corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(W) = 80,3.
1 n
1 npor empates
cuya varianza incluye el término de
d =corrección
di = 
( x i1 − x i 2 )

n i =1
n ni =1=
Ejemploincluye
8.9 En el
la término
Tabla 8.3desecorrección
obtuvieron
19 > 16 parejas de casos y
cuya varianza
por
empates
1T
n
1
n
= de
2
 x(i1t i−+n1
controles con diferencias no nulas
puede
)(txii 2−=y,1x)1en− xconsecuencia,
n t iβ-caroteno
i =1
i =1
i =1
,
f =
2 de rangos positivos W = 91. Bajo la
utilizarse la aproximación normal a la suma
y, 8.9
en consecuencia,
es un
insesgado
de >
la 16
diferencia
medias
Ejemplo
En la Tablad 8.3
seestimador
obtuvieron
n = 19
parejasdede
casos y
donde ti es el número de empates para la i-ésima diferencia absoluta. Esta corrección conlleva
hipótesis
nula
de simetría
deefecto
las
diferencias
alrededor
de
0, apreciable
el valor
esperado
de
μ1 -empates
μy
Así,
el
problema
deel
lanestadístico
comparación
de
medias
en casos
dos
muestras
2. 8.3
unadonde
reducción
la varianza
su
sobre
será
cuando
el la
número
elde
número
para
la i-ésima
absoluta.
Esta
corrección
ti espoblacionales
Ejemplo
8.9
la de
Tabla
se
obtuvieron
=diferencia
19y,> en
16consecuencia,
parejas
de
y
controles
conEn
diferencias
no nulas
de β-caroteno
puede
de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carácter
dependientes
queda reducido
a una simple inferencia sobre la media de una única
suma
de
positivos
es
discreto
de una
la rangos
suma
de
rangos
y nulas
el reducido
tamaño
inherente
aapreciable
las pruebas no
conlleva
reducción
de la no
varianza
y su
efecto
sobre
estadístico
será
controles
con
diferencias
de
β-caroteno
y,muestral
enelconsecuencia,
puede
utilizarse
la
aproximación
normal
a
la
suma
de
rangos
positivos
W
=
91.
Bajo
la
paramétricas, la aproximación normal a estos estadísticos suele incorporar además la corrección
muestra de n diferencias independientes.
porcuando
continuidad
la de
Tabla
8.2 para
la
de
incurrir
en=un
error
I.
el número
empates
sea reducir
elevado
(tal
caso de
las
variables
cualitativas
(probabilidad
19es
+de1el)rangos
utilizarse
ladeaproximación
normal
a =la19
suma
positivos
W
91.
Bajode
latipo
hipótesis
nula
de simetría
de
las
diferencias
alrededor
de
0, elpueden
valor
esperado
de
la
E(W)
95 muestra
Los métodos
del Apartado
6.2.1
para la media
de=una
entonces
4
ordinales).
Dado
el
carácter
discreto
de la sumaalrededor
y 0,
el reducido
tamaño
Ejemplo
8.9
En
la
Tabla
8.3
se
obtuvieron
nde=alrangos
19
> 16
casos
y controles
hipótesis
nula
de
simetría
de
las
diferencias
de
valor
esperado
de la con
calcular es
un intervalo de confianza
100(1
- αparejas
)% el
para
μde
1 - μ2 como
suma deutilizarse
rangospara
positivos
diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximación
y la varianza
muestral
inherente
apositivos
las
no paramétricas,
aproximación
a estos
suma de
es positivos
normal
arangos
la suma
de pruebas
rangos
W = 91.la
la hipótesisnormal
nula de
simetría de las
sBajo
d
d
t
±
,
19
(
+
n19
/ 21)
−1,1−α
diferencias alrededor de 0, el E(W)
valor esperado
de la
=
95 de rangos positivos es
n= suma
estadísticos suele incorporar además
19(19la+corrección
1)(2 ⋅419 + 1por
) − 6continuidad de la Tabla 8.2 para
= 617,25,
var(W) =
19(19 + 1)
E(W) = 24
= 95
reducir la probabilidad de incurrir en un error4de tipo I.
y la varianza
24
ydonde
la varianza
el término de corrección de la varianza por los t1 = 2 empates con
y la varianza
19(19 + 1)(2 ⋅ 19 + 1) − 6
) = y los t2 = 2 empates con=diferencia
617,25, absoluta 0,38
diferencia absoluta var(
0,27Wμg/g
24
19(19 + 1)(2 ⋅ 19 + 1) − 6
= 617,25,
var(W) =
donde
el
término
de
corrección
de la varianza
por los t1 = 2 empates con diferencia
17
μg/g es
24
con es
donde el 0,27
término
de la varianza
por los tabsoluta
absoluta
mg/gdey corrección
los t2 = 2 empates
con diferencia
0,38 mg/g
1 = 2 empates
con 0,38
donde el término
de0,27
corrección
2(2 + 1de
)(2la−varianza
1) + 2(2 +por
1)(los
2 −t11)= 2 empates
absoluta
diferencia
absoluta
f =μg/g y los t2 = 2 empates con diferencia
= 6.
2
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38
μg/g es
Pastor-Barriuso R.
Aplicando la corrección por continuidad, el test estadístico de los rangos con
μg/g es
2(2 + 1)(2 − 1) + 2(2 + 1)(2 − 1)
f = entonces
= 6.
signo de Wilcoxon resulta
2
133
f=
2(2 + 1)(2 − 1) + 2(2 + 1)(2 − 1)
= 6.
2
Métodos no paramétricos
Aplicando la corrección por continuidad, el test estadístico de los rangos con
signo de Wilcoxon
resultapor
entonces
Aplicando
la corrección
continuidad, el test estadístico de los rangos con signo de
Wilcoxon resulta entonces
z=
| 91 − 95 | −1 / 2
617,25
= 0,14,
con un valor P = 2P(Z ≥ 0,14) = 2{1 – F(0,14)} = 0,889. Notar que el resultado del test
sería
idéntico
suma
de rangos
negativos
W =Notar
– 99, que
ya que
su valor esperado
con un
valor Pde= utilizar
2P(Z ≥ la
0,14)
= 2{1
- Φ(0,14)}
= 0,889.
el resultado
es E(W) = – 95 y su varianza coincide con var(W) = 617,25. Así, una vez controladas las
diferencias
edad, las
de b-caroteno
favor de W
los=casos
deque
infarto
-99, ya
su no son
del test seríadeidéntico
dediferencias
utilizar la suma
de rangosanegativos
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así,
La comparación no paramétrica de una variable continua en más de dos muestras dependientes
vez controladas
diferencias
de edad,Bajo
las diferencias
dede
β-caroteno
a favorsigue la
puedeuna
realizarse
mediante las
el test
de Friedman.
la asunción
que la variable
misma distribución continua excepto posibles diferencias de localización (traslaciones), esta
prueba permite contrastar la hipótesis nula de una misma localización de la variable en cada una
de las poblaciones. Este procedimiento también se fundamenta en la definición de rangos y
puede consultarse en los libros específicos de métodos no paramétricos.
18
8.4 TEST EXACTO DE FISHER
En el Apartado 7.4 se presentó el test χ2 de Pearson como un procedimiento general para evaluar
la asociación estadística entre las variables de una tabla 2×2. Esta prueba se basa en la asunción
de que el tamaño muestral es suficientemente grande para justificar la aproximación chicuadrado a la distribución nula del estadístico χ2 de Pearson. En concreto, si los marginales de
la tabla son pequeños, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximación puede resultar imprecisa. En tales circunstancias, es preferible
utilizar métodos alternativos basados en la distribución exacta de las frecuencias de las celdas
de una tabla 2×2. En este apartado se describe el más conocido de estos procedimientos, el test
exacto de Fisher.
Ejemplo 8.10 La Tabla 8.4 presenta el número de sujetos con niveles de b-caroteno
Ejemplo
Bajo la hipótesis
de independencia
de β-caroteno
y el
superiores8.1.
e inferiores
a 0,30 mg/g
entre los 10 entre
casoseldenivel
infarto
y los 10 controles
del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo
de de
infarto
de miocardio,
esperada en
celda
sería de miocardio,
hipótesis
independencia
entrelaelfrecuencia
nivel de b-caroteno
y elcada
riesgo
de infarto
la frecuencia esperada en cada celda sería
E11 = E12 =
5⋅10
= 2,5,
20
E21 = E22 =
15 ⋅ 10
= 7,5.
20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba χ2 de
Pearsonlosnovalores
será aplicable
a esta
tablade2×2
la asociación
ha de
contrastarse
mediante otro
Como
esperados
en dos
lasycuatro
celdas son
inferiores
a 5, la
procedimiento.
prueba χ 2 de Pearson no será aplicable a esta tabla 2×2 y la asociación ha de
contrastarse mediante otro procedimiento.
134
Pastor-Barriuso R.
[Tabla 8.4 aproximadamente aquí]
Test exacto de Fisher
Tabla 8.4 β-caroteno en tejido adiposo en
10 casos de infarto de miocardio y 10 controles
seleccionados aleatoriamente del estudio
EURAMIC.
β-caroteno
(μg/g)
> 0,30
≤ 0,30
Total
Infarto de miocardio
Caso
Control
Total
1
9
10
4
6
10
5
15
20
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hipótesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condición de marginales fijos se
impone por conveniencia matemática, ya que los cálculos se simplifican notablemente y los
marginales contienen poca información sobre la asociación a estudio. Bajo H0, la probabilidad
de enfermar π es común en los sujetos expuestos y los no expuestos. Así, el número de enfermos
entre los expuestos sigue una distribución
de parámetros
n1 y π, mientras que entre los
 n1 binomial
 a
n1 − a  n 2 
c
n2 − c




)
=
π
(
1
−
π
)
π
(
1
π )Como
P(a,
b,
c,
d
|
H
0
no expuestos sigue una distribución binomial
de parámetros
las muestras de
a
 c  n2 y− π.
 
 
expuestos y no expuestos son independientes,
la probabilidad
de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
n1   n 2  m1
los
enfermos entre los expuestos y c entre
 no expuestos,
 π (1 − π ) m2 .
=
 na1   m1 − a 
 n2 
P(a, b, c, d | H0) =   π a (1 − π ) n1 − a   π c (1 − π ) n2 − c
a
c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de
 n1   n 2  m1
 m - n ) y π
(1min(n
− π ) m,2 m
. ). Por tanto, la
=
k
=
casos expuestos varía entre k1 = max(0,
1
2
2
1
1
a
m
−
a
1
 

Para
marginales de
n1,obtener
n2, m1 yuna
m2tabla
fijos,con
el rango
de valores
k para ela unos
número de casos
probabilidad
frecuencias
a, b, cposibles
y d condiciona
expuestos
varía
entre
k
=
max(0,
m
–
n
)
y
k
=
min(n
,
m
).
Por
tanto,
la
probabilidad
1
1 posibles
1
Para marginales n1, n1 2, m1 y m2 fijos,
el2 rango2 de valores
k para el número
de de
obtener
una tabla
frecuencias
b, c ydada
d condicionada
a unos marginales n1, n2, m1 y m2 fijos
marginales
n1, con
n2, m
por
1 y m2 fijosa,viene
viene
dada
por
casos expuestos varía entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1
1
2
2
1
1
 n1   n 2  m1
  a, b, c y dπ condiciona
(1 − π ) m2 a unos
probabilidad de obtener una tabla con frecuencias
−
a
m
a
  1

P(a, b, c, d | n1, n2, m1, m2; H0) = k
2
marginales n1, n2, m1 y m2 fijos viene dada por n1   n 2  π m1 (1 − π ) m2
 

k = k1  k   m1 − k 
 nn1   nn2  m1  n   m2 n 
2
2
 1  
 π (1 −1 π
 )

 aa   m


1 − a
   m1 − a 
 a   m1 − a 
P(a, b, c, d | n1, n2, m1, m2; H0) ==
,
k2
nn2  =m1 n + mn2
1
k2  n
n





1
2
1π ) 2 



π
(
1
−

 k   m − k 


k
= k1 
 1

k = k1  k   m1 − k 
 m1 
n 2 las propiedades
 n1   de
 n1   nde
 coeficientes
2 los
donde el denominador de la última igualdad se obtiene
  

  

binomiales.
Esta distribución
probabilidades
entre
donde el denominador
de ladeúltima
igualdad se
delas
propiedades
m1 −deacon
a  todas
m1 −
alas
 obtiene
 posibles
 a  tablas
loslos mismos
=
,
=
marginales se conoce como distribución hipergeométrica
y
determina
la
distribución
bajo H0
k2
 n1   n 2 
 n1 + n 2 
  
entre todas

coeficientes binomiales. Esta distribución de
probabilidades
lasposibles
k = k1  k   m1 − k 
 m1 
Pastor-Barriuso
R.
tablas con los mismos marginales se conoce como distribución hipergeométrica
y
donde el denominador de la última igualdad se obtiene de las propiedades de los
determina la distribución bajo H0 del número de casos expuestos y no expuestos en una
135
Métodos no paramétricos
del número de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m
no expuestos. Notar que esta probabilidad depende
 1   m 2   n1   n 2 
 dado
 que una vez
 conocido
 a las frecuencias de
únicamente del número a de casos expuestos,
a la
1 − a
1 − a
 a los
  nmarginales
 de
 mtabla.
las restantes celdas
quedan
determinadas
por
Cabe
destacar también
P(a | n1, n2, m1, m2; H0) =
=
m2 
que aunque los cálculos se han derivado de
prospectivo,
 mun
 n1 + n 2  se obtendría el mismo
1 + estudio




resultado a partir de un estudio retrospectivoen términos
del
número
de
sujetos expuestos entre
 n1 
 m1 
casos y controles,
n1 !nm2 !1 m
 1 ! mm2 2!   n1   n 2 
=
,   
  

n! aa! b! c!nd1!− a   a   m1 − a 
P(a | n1, n2, m1, m2; H0) =
=
 m1 + m 2 
 n1 + n 2 




lo cual confirma que la probabilidad condicional
tabla no
n1  a una determinada
m1 
 asociada
varía en función del diseño prospectivo o retrospectivo
del
n1 ! n 2 ! m1 ! m
2 ! estudio.
=,
n! a! b! c! d!
lo cualEjemplo
confirma
queBajo
la probabilidad
asociada a una
no varía en
8.11
la hipótesis condicional
nula de independencia
entredeterminada
el nivel de βtabla
-caroteno
función
del
diseño
prospectivo
o
retrospectivo
del
estudio.
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la
Ejemplo
8.11 delBajo
la hipótesis
nulaode
independencia
entre el nivel de b-caroteno y el
varía
en función
diseño
prospectivo
retrospectivo
del estudio.
riesgo 8.4
de manteniendo
infarto agudolosdemarginales
miocardio,fijos
la probabilidad
exacta de obtener la Tabla 8.4
Tabla
es
manteniendo los marginales fijos es
Ejemplo 8.11 Bajo la hipótesis nula de independencia entre el nivel de β-caroteno
10  10 
   
1
4
5!15!10!10!exacta de obtener la
y el riesgo
de| infarto
agudo
P(1
5, 15, 10,
10; de
H0)miocardio,
=    la probabilidad
= 0,136,
=
20!1! 4! 9! 6!
 20 
 es
Tabla 8.4 manteniendo los marginales fijos
5
 
que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de
10  y10
b-caroteno
superiores
a 0,30 mg/g,de
1 sea
restantes
4 sean controles.
Notar que
que
corresponde
a la probabilidad
que,caso
de loslos
5 sujetos
observados
con niveles
 1   4 
!15!la10primera
!10!
la tabla se refiere por la frecuencia a = 1 observada
celda, dado que las
   5en
= 0,136,
P(1 | 5, 15, 10, 10; H0) =
=
demás
frecuencias
b = 4, ac 0,30
= 9 yμdg/g,
= 61vienen
entonces
dadas
por
los
marginales.
β-caroteno
superiores
sea caso
y
los
restantes
4
sean
controles.
de
20 
20!1! 4! 9! 6!
 
5
Notar
que
la
tabla
se
refiere
por
la
frecuencia
a =de1 una
observada
en la
celda,
Para contrastar la independencia entre las variables
tabla 2×2,
el primera
test exacto
de Fisher
consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada,
las demás
b = 4,de
cexacta
=que,
9 yde
d =los
6 vienen
entonces
por
losbajo la
queque
corresponde
afrecuencias
lalaprobabilidad
5 sujetos
observados
con
niveles
para adado
continuación
calcular
probabilidad
asociada
a cada
una dedadas
estas
tablas
hipótesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde
marginales.
β-caroteno
a 0,30para
μg/g,
1 seaaquellas
caso y los
restantes
4 sean controles.
de
entonces
a la
suma de superiores
probabilidades
todas
tablas
con probabilidad
inferior o
igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos
Notar
la tabla senula
refiere
la frecuencia
a = 1 observada en la primera celda,
compatibles
conque
la hipótesis
quepor
la tabla
observada).
Para contrastar la independencia entre las variables de una tabla 2×2, el test exacto
dado que
demás
frecuencias
b =todas
4, c =
y d = 6 vienen
entonces
dadas marginales
por los
Ejemplo
8.12las La
Tabla
8.5 presenta
las9 posibles
tablas con
los mismos
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que
n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociación entre el
marginales.
b-caroteno
y el
infarto
de miocardio.
Bajo la
nulaexacta
de independencia
entre ambas
la tabla
observada,
para
a continuación
calcular
la hipótesis
probabilidad
asociada a cada
variables, la probabilidad exacta asociada a cada tabla viene dada por la distribución
una dehipergeométrica
estascontrastar
tablas bajo
la hipótesis nula
de independencia.
valor
P bilateral
delexacto
test
Para
la independencia
entre
las variables deEluna
tabla
2×2, el test
exacto
de Fisher
corresponde
entonces
la suma
de probabilidades
para todas
aquellas que
de Fisher
consiste
en enumerar
todasa las
posibles
tablas con los mismos
marginales
136
la tabla observada, para a continuación calcular la probabilidad exacta asociada a cada
Pastor-Barriuso R.
22
una de estas tablas bajo la hipótesis nula de independencia. El valor P bilateral del test
Test exacto de Fisher
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de
probabilidades de las tablas tanto o menos compatibles con la hipótesis nula que la tabla
Tabla 8.5 Todas las posibles tablas con los mismos
marginales que la Tabla 8.4, junto con sus probabilidades
observada).
tablas con probabilidad
inferior
o igual
a la de nula
la tabla
observada (esto es, la suma de
asociadas
bajo
la hipótesis
de independencia.
Tabla
Probabilidad
bajo Hcon
Odds rationula que la tabla
0
probabilidades
lasLa
tablas
o menos
compatibles
latablas
hipótesis
Ejemplo de
8.12
Tablatanto
8.5 presenta
todas
las posibles
con los mismos
0
5
1
4
observada).
0 la Tabla 8.4 para la
5, n2 = 15,5 m1 = 10 y m0,016
marginales n1 = 10
2 = 10 observados en
9 β-caroteno
6
0,136
0,17la hipótesis nula de
asociación entre el
y el infarto
de miocardio. Bajo
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos
2
8
entre
3
7
ambas
independencia
variables, la0,348
probabilidad exacta0,58
asociada a cada tabla
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la
3
2
7
8
la distribución
0,348
1,71
viene dada por
hipergeométrica
asociación entre el β-caroteno y el infarto de miocardio. Bajo la hipótesis nula de
4
6
1
9
0,136
6
15!10!10! exacta asociada a cada tabla
independencia entre ambas
variables, la5!probabilidad
P(0)
= 0,016,
5
0 = P(5) =
200,016
! 0! 5!10! 5!
5
10
∞
viene dada por la distribución hipergeométrica
5!15!10!10!
P(1) = P(4) =
= 0,136,
520
!1!51!!140!!91!06!!
P(0) = P(5) =
= 0,016,
20! 0! 5!10! 5!
5!15!10!10!
P(2) = P(3) = 5!15!10!10! = 0,348,
P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136,
20!1! 4! 9! 6!
5!15!10!10! tablas con a = 0, 1, 4 y 5
cuya suma de probabilidades
igual
P(2) =es
P(3)
= a 1. Como las
= 0,348,
20! 2! 3! 8! 7!
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) =
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen
asociadas
menores
o iguales
quedel
la probabilidad
= 0,136
P bilateral
test exacto deP(1)
Fisher
es de la tabla
0,136 de laprobabilidades
tabla observada,
el valor
a
=
0,
1,
4
y5
cuya
suma
de
probabilidades
es
igual
a
1.
Como
las
tablas
con
observada, el valor P bilateral del test exacto de Fisher es
P = P(0) + Pmenores
(1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
tienen asociadas probabilidades
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendría el mismo valor P si se sumaran las probabilidades asociadas a
todas
tablas con
un
oddsvalor
ratio Ptanto
osumaran
más alejado
del valor nulo 1 que el OR =
Notaraquellas
que se obtendría
mismo
las probabilidades
P = Pel(0)
+ P(1)
+ P(4)si+seP(5)
1∙6/(4∙9) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR ≤ 0,17
oasociadas
OR ≥ 1/0,17
= 6. aquellas
Así,= a0,016
partir
esta
muestra
reducida,
no puede
concluirse
que exista
a todas
tablas
con un
odds tan
ratio
tanto
o más
alejado
del valor
+de0,136
+ 0,136
+
0,016
= 0,304.
una asociación significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 1⋅6/(4⋅9) = 0,17 de la tabla observada; es decir, las
P si el
se número
sumarande
lasposibles
probabilidades
Notar
se obtendría
el es
mismo
Cuando elque
tamaño
muestral
muy valor
pequeño,
tablas con los mismos
marginales
será
muy
reducido,
de
tal
forma
que
el
valor
P
del
test
exacto
Fisherde
podrá
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17 = 6. Así,dea partir
esta tomar
asociadas
a
todas
aquellas
tablas
con
un
odds
ratio
tanto
o
más
alejado
del
valor
muy pocos valores, siendo así particularmente difícil obtener resultados significativos. Para un
nivel de
significación
α preestablecido,
el test exacto
de Fisher
tenderá a ser
conservador con
muestra
tan reducida,
no puede concluirse
que exista
una asociación
significativa
OR
=
1
⋅
6/(4
⋅
9)
=
0,17
de
la
tabla
observada;
es
decir,
las
nulo
1
que
el
una verdadera probabilidad de error de Tipo I menor que el valor nominal α. Un contraste
alternativo
consiste
en calcular
el valor
mid-P bilateral, que se define como
y el riesgo
de infarto
de miocardio.
entremenos
el nivelconservador
de β-caroteno
probabilidades
de
las
tablas
con
OR
≤
0,17
ó
OR
≥
1/0,17
= 6.menos
Así, a verosímiles
partir de esta
la probabilidad de la tabla observada más la probabilidad de las tablas
bajo H0.
Este valor mid-P será siempre inferior o igual al valor exacto de P, obteniéndose resultados
23
muestra tan
no puedeesconcluirse
muy similares
si elreducida,
tamaño muestral
grande. que exista una asociación significativa
entre el nivel de β-caroteno y el riesgo de infarto de miocardio.
Pastor-Barriuso R.
23
137
Métodos no paramétricos
Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, sólo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, así que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significación estándar α = 0,05.
El test exacto de Fisher puede generalizarse para evaluar la asociación estadística entre las
variables categóricas de una tabla r×c, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test χ2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 2×2 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su cálculo requiere de algoritmos de computación
dado el elevado número de posibles tablas con los mismos marginales.
8.5
138
REFERENCIAS
1.
Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2.
Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3.
Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4.
Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
5.
Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6.
Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7.
Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8.
Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9.
Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11.
Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
Pastor-Barriuso R.
TEMA 9
DETERMINACIÓN DEL TAMAÑO MUESTRAL
9.1
INTRODUCCIÓN
Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un
margen de error. Así, en el diseño de un estudio epidemiológico o clínico, es necesario plantearse
de antemano el número de sujetos que deben ser estudiados para responder a la pregunta de
investigación con un grado razonable de certidumbre. La determinación a priori del tamaño
muestral es una parte importante del diseño de un estudio por distintos motivos:
yy Permite concretar la hipótesis de trabajo. El investigador ha de precisar la hipótesis
principal del estudio y, en función de su experiencia, investigaciones previas o estudios
piloto, especificar la magnitud de efecto clínica o biológicamente relevante que se pretende
detectar.
yy Permite evaluar la factibilidad del estudio. Una de las limitaciones más frecuentes en los
estudios epidemiológicos es la imposibilidad de reclutar un número suficiente de pacientes,
bien sea por limitaciones en los recursos económicos, en el número de pacientes disponibles
o en el tiempo de duración del estudio.
yy Previene la obtención de resultados no concluyentes. Como se describió en el Tema 5, la
precisión de una estimación y la potencia estadística de un contraste de hipótesis aumentan
conforme aumenta el tamaño muestral, de tal forma que una muestra insuficiente dará
lugar a estimaciones imprecisas y contrastes de baja potencia.
Desde un punto de vista puramente teórico, basta con aumentar el tamaño muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadísticamente significativo
cualquier efecto por pequeño que sea. Aun cuando esto sea posible en la práctica, la utilización
de muestras excesivamente grandes es ineficiente, ya que la posible detección de efectos
trivialmente pequeños y de escasa utilidad práctica no justificaría los recursos empleados. En
último término, el objetivo de la determinación a priori del tamaño muestral consiste en estimar
la muestra mínima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la detección de efectos clínicamente relevantes.
Con cierta frecuencia, el número de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones económicas o temporales. En tales circunstancias, es importante
determinar qué magnitudes de efecto tendrían una probabilidad razonable de ser detectadas con
la muestra disponible, para contar así con una idea aproximada de las posibilidades que ofrecería
la realización de dicho estudio.
Como se verá a continuación, el cálculo del tamaño muestral requiere de información previa
a la realización del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hipótesis de trabajo verosímiles. En
cualquier caso, las asunciones realizadas en el cálculo del tamaño muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
guía orientativa más que como norma rígida para la estimación del tamaño muestral. Conviene
apuntar también que la muestra resultante se refiere al número de sujetos necesarios para el
Pastor-Barriuso R.
139
ación de tamaño esencialmente infinito. La corrección de las fórmulas del tamaño
Determinación
del tamañoymuestral
tral para otros tipos
de muestreo
para poblaciones finitas puede consultarse en
bros sobre muestreos complejos citados al final del tema.
análisis y no a los inicialmente incluidos. Así, la muestra estimada ha de incrementarse en
previsión de las posibles pérdidas de sujetos que pudieran ocurrir en el estudio.
TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO
En este tema se revisan las fórmulas del tamaño muestral más frecuentemente utilizadas en
LACIONAL el diseño de estudios epidemiológicos y clínicos, tanto para la estimación de una media y una
proporción en una única muestra, como para la comparación de medias y proporciones en muestras
dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un
1.2 MEDIDAS
sta sección se presentan las fórmulas para determinar el tamaño muestral
necesarioDE TENDENCIA CENTRAL
muestreo aleatorio simple a partir de una población de tamaño esencialmente infinito. La
corrección de las fórmulas del tamaño muestral para otros tipos de muestreo y para poblaciones
obtener estimaciones fiables de un parámetro poblacional (típicamente
la mediadedetendencia central informan acerca de cuál e
Las medidas
finitas puede consultarse en los libros sobre muestreos
complejos
citados al final del tema.
variable continua o la proporción de sujetos con una determinada característica)
a
de una determinada
variable o, dicho de forma equivalente
9.2 TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO
r de una única muestra. Esta situación concierne esencialmente a los
estudiosde qué valor se agrupan los datos observados. La
alrededor
POBLACIONAL
iptivos o transversales.
El objetivo
se centra las
en calcular
tamaño
muestral
En esta sección
se presentan
fórmulaselpara
determinar
necesario
para los resultado
central
deellatamaño
muestramuestral
sirven tanto
para resumir
obtener estimaciones fiables de un parámetro poblacional (típicamente la media de una variable
mo necesario para
estimar
con un
de
continua
o el
la parámetro
proporciónpoblacional
de sujetos con
unadeterminado
determinada
característica)
a partir
de parámetros
una única poblacionales
realizargrado
inferencias
acerca
de los
muestra. Esta situación concierne esencialmente a los estudios descriptivos o transversales. El
sión, que puedeobjetivo
cuantificarse
mediante
la amplitud
del intervalo
confianza.
se centra
en calcular
el tamaño
muestral de
mínimo
necesario
para estimar
el parámetro
continuación
se describen
los principales
estimadores de la
poblacional con un determinado grado de precisión, que suele cuantificarse mediante la amplitud
del intervalo
confianza.de una media
variable.
Tamaño muestral
para la de
estimación
tamaño de una muestra precede a su selección y, en consecuencia, no se dispone de
rtir de la aproximación normal N(μ, σ 2/n) a la distribución de una1.2.1
mediaMedia
muestral
aritmética
9.2.1 Tamaño muestral para la estimación de una media
tamaño
de
una
muestra
precede
a
su
selección
y,
en
consecuencia,
no se
dispone de por
información muestral. La precisión de la estimación δ queda entonces
determinada
2
uede construirseAun
intervalo
de confianza al
100(1N(μ,
- α)%
paraa la
media
partir
de la aproximación
normal
σ /n)
la distribución
de una media
muestral
La media aritmética,
denotada
por x ,, puede
se define como la su
información
muestral.
La
precisión
dealo,
la100(1
estimación
δ queda
entonces
determinada
por
construirse
un del
intervalo
dede
confianza
– α)%
para la
media
poblacional
μ como
la amplitud
intervalo
confianza
más
concretamente,
por
la distancia
del centro
valores
muestrales
dividida
por
el
número
acional μ como x ± z1 – α /2 σ / n . Notar que este intervalo incluye
incluye la
la desviación
desviación típica poblacional σ en lugar dede observacione
amplitud
confianza
o, más concretamente,
poruna
la distancia
centroa su
su la
muestral,
ya de
que
la determinación
del tamaño de
muestradel
precede
aestimación
los
límitesdel
delintervalo
intervalo
por
n
el
tamaño
muestral
y
por
x
para e
i el valor
consecuencia,
no seyadispone
de información
de observado
la
en lugar dey, suenestimación
muestral,
que la determinación
del muestral. La precisión
a poblacional σselección
a los límites
del intervalo
estimación
δ queda
entonces determinada por la amplitud del intervalo de confianza o, más
σ media vendría dada por
la
concretamente, por la distancia del centro
z1−αlímites
δ =a los
, del intervalo3
/2
n
σ
δ = z1−α / 2
,
x1 + x 2 + ... + x n
1 n
n
=
=
x
x

i
de donde puede despejarse el tamaño muestral n para obtener
n i =1
n
de donde puede despejarse el tamaño muestral n para obtener
de donde puede despejarse el tamaño muestral n para obtener
z 2 σ 2 La media es la medida de tendencia central más utilizad
n = 1−α / 2
.
2
z2 δ σ 2
n = 1−α / 22 interpretación.
.
Corresponde al “centro de gravedad” de los
δ muestral para la estimación de una media
De esta expresión se desprende que el tamaño
De estadepende
expresión
desprende
queque
el tamaño
muestral
para la estimación
de una
poblacional
de se
tres
elementos,
debenprincipal
ser
determinados
parainfluenciada
poder
limitaciónde
es antemano
que está muy
por los v
aplicarDe
la esta
fórmula:
expresión
se desprende
el tamaño
para
la estimación
una
media poblacional
depende
de tres que
elementos,
quemuestral
deben ser
determinados
dede
antemano
caso,
puede
no
ser
un
fiel
reflejo
de lamayor
tendencia central de
yy El nivel de confianza 100(1 – α)%. Cuanto mayor sea este nivel de confianza,
media
poblacional
depende
de
elementos,
queutilizarse
deben serpor
determinados
de confianza
antemano del
será
el tamaño
En tres
la práctica,
suele
convenio una
para
poder
aplicarmuestral.
la
fórmula:
95% (α = 0,05), de tal forma que el percentil de la distribución normal estandarizada es
Ejemplo 1.4 En este y en los sucesivos ejemplos sob
para
poder
aplicar
la fórmula:100(1 - α)%. Cuanto mayor
z0,975
= 1,96.
z•1–α/2
El=nivel
de
confianza
sea este nivel de confianza,
140
yy La varianza poblacional σ 2. Cuanto más dispersa sea
una variable,
mayordel
será
la muestra
utilizarán
los valores
colesterol
HDL obtenidos e
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea este nivel de confianza,
mayorpara
será describirla
el tamaño muestral.
En la práctica,
suelepor
utilizarse
porunconvenio
una
necesaria
aceptablemente.
Se requiere,
tanto, de
valor aproximado
estudio
“European
Study on una
Antioxidants, Myocardia
mayor
serádel
el tamaño
muestral.
Entallaforma
práctica,
suele
utilizarse
por
convenio
confianza
95%
(
α
=
0,05),
de
que
el
percentil
de
la
distribución
Pastor-Barriuso R.
the Breast“ (EURAMIC), un estudio multicéntrico de
confianza
del 95% (α es
= 0,05),
tal forma
normal estandarizada
z1-α/2 =dez0,975
= 1,96.que el percentil de la distribución
entre 1991 y 1992 en ocho países Europeos e Israel p
Ejemplo 9.1 En un pequeño estudio piloto realizado en personas adultas de una
Tamañopara
muestral
para la estimación
de un parámetro
precisión de un kilogramo puede ser aceptable
estimar
el peso medio
en poblacional
determinada población, la media y la desviación típica de la presión arterial
personas adultas, pero resulta claramente insuficiente en recién nacidos.
sistólica
resultaron
ser 130 ay estudio,
20 mm Hg,
esta similares ya
de
la varianza
de la variable
que respectivamente.
suele obtenerse a Utilizando
partir de trabajos
realizados o de un estudio piloto.
información
preliminar,
se planea
muestra
Ejemplo
9.1 En
un pequeño
estudioobtener
piloto una
realizado
en aleatoria
personas simple
adultasde
demayor
una
yy La precisión deseada δ. El tamaño muestral será tanto mayor cuanto mayor sea la precisión
exigida
la estimación
es,medio
cuanto
menor
seaarterial
δ).
El criterio
para
la precisión
tamañoapara
estimar el(esto
nivel
presión
sistólica
conestablecer
una
precisión
determinada
población,
la media
y ladedesviación
típica
de la presión
arterial
de una estimación ha de fundamentarse en el conocimiento previo sobre la magnitud
aproximada
del Asumiendo
parámetro.
Así,
por de
ejemplo,
unadel
precisión
de un
kilogramo
puede ser
Hg.
confianza
95% yUtilizando
una
desviación
de ±2 mm
sistólica
resultaron
ser 130 yun
20nivel
mm
Hg,
respectivamente.
esta típica
aceptable para estimar el peso medio en personas adultas, pero resulta claramente
insuficiente
recién
nacidos.
información
preliminar,
se planea
obtener una muestra aleatoria simple de mayor
similar a la en
del
estudio
piloto,
se tiene
Ejemplopara
9.1estimar
En unel nivel
pequeño
estudio
piloto
realizado
en personas
adultas de una
tamaño
medio
de2presión
arterial
sistólica
con una precisión
2
1
,
96
20
determinada población, la media
típica de la presión arterial sistólica
n = y la2 desviación
= 384,16;
2
resultaron
ser
130
y
20
mm
Hg,
respectivamente.
Utilizando
estadesviación
información
preliminar,
típica
de ±2 mm Hg. Asumiendo un nivel de confianza del 95% y una
se planea obtener una muestra aleatoria simple de mayor tamaño para estimar el nivel
medio
de
presión
arterial
sistólica
con una385
precisión
±2 estimar
mm Hg.laAsumiendo
similar
a la
del
estudio
piloto,
se tiene
es decir,
se
requerirían
aproximadamente
sujetosde
para
presión un nivel
de confianza del 95% y una desviación típica similar a la del estudio piloto, se tiene
arterial sistólica media de esta población
1,96 2 20 2con una precisión de ±2 mm Hg.
n=
= 384,16;
2
2
Obsérvese que el tamaño muestral aumenta de forma cuadrática con la precisión
es decir, se requerirían aproximadamente 385 sujetos para estimar la presión arterial
sistólica
media
de estaque
población
con una
precisión
de
mm
Obsérvese que el
es
decir, se
aproximadamente
sujetosδpara
estimar
laelpresión
= 1±2
mm
Hg,Hg.
tamaño
deseada,
derequerirían
tal forma
para el doble
de385
precisión
tamaño muestral aumenta de forma cuadrática con la precisión deseada, de tal forma que
para
el doble
de precisión
=sería
1 población
mm
Hg, elveces
tamaño
muestral
necesario
Hg. sería cuatro
arterial
sistólica
media
deδesta
con
una
precisiónmínimo
de ±2 mm
muestral
mínimo
necesario
cuatro
mayor
veces mayor
Obsérvese que el tamaño muestral2 aumenta
de forma cuadrática con la precisión
1,96 20 2
n=
= 1.536,64 ≈ 1.537.
2
deseada, de tal forma que para el1doble de precisión δ = 1 mm Hg, el tamaño
muestral
necesario
cuatro
veces
mayor
mediante
p ±mínimo
zmuestral
− π ) /lansería
.estimación
Así,
la precisión
δ proporción
en la estimación de una proporción
9.2.2
Tamaño
de una
1-α/2 π (1para
9.2.2 Tamaño muestral para la estimación de una proporción
2 la2 precisión
Siguiendo
unpargumento
apartado
anterior,
puede
utilizarse ladeaproximación
normal
mediante
±viene
z1-α/2 determinada
π similar
(1 − π ) al
/ ndel
Así,
δ en
la estimación
una proporción
1.,96
20
poblacional
por
Siguiendo
un
argumento
similar
al
del
apartado
anterior,
puede
utilizarse
la
n
=
=
1.536,64
≈
1.537.
N(π, π(1 – π)/n) a la distribución de una
proporción muestral p para obtener un intervalo de
12 poblacional π mediante
confianza
al
100(1
–
α)%
para
la
proporción
mediante p ± z1–α/2 π (1 − π ) / n . Así,
Así, la precisión δ
poblacional viene determinada por
aproximación
normal
N
(
π
,
π
(1
π
)/
n
)
a
la
distribución
de
una
proporción
muestral
p
π (1 − π )
la precisión δ en la estimación de unaδ proporción
viene determinada por
= z1−α / 2 poblacional
,
n
poblacional viene determinada por
9.2.2
Tamañounmuestral
la estimación
de π-una
para obtener
intervalopara
de confianza
al 100(1
α
−proporción
πpara
(1)%
) la proporción poblacional π
δ = z1−α / 2
,
n
y el tamaño
muestral mínimo
para alcanzar
Siguiendo
un argumento
similar necesario
al del apartado
anterior, dicha
puedeprecisión
utilizarseesla
π (1 − π
δ = z1−α / 2
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es
n
y el tamañonormal
muestral
para
alcanzardedicha
precisión esmuestral p
2
N(mínimo
π, π(1 - necesario
π)/n) a lazdistribución
una
proporción
aproximación
π (1 − π )
n = 1−α / 2 2
.
δ
y el
muestral
mínimoπnecesario
para alcanza
5
2
para obtener un intervalo de confianza al 100(1
la tamaño
proporción
poblacional
z1−α / 2π-(α
1 )%
− π para
)
n =la estimación
El cálculo del tamaño muestral para
de. una proporción precisa, por tanto, de
2
δ
los siguientes
elementos:
El cálculo del tamaño muestral para la estimación de una proporción precisa, por
z 2 π (1 − π
n = 1−α / 2 2
yy El nivel de confianza 100(1 – α)%, que se establece habitualmente en el 95%.
δ
tanto,
de los siguientes
El cálculo
del tamañoelementos:
muestral para la estimación de una proporción precisa, por
yy La proporción poblacional π.
5 para la estimación
Elhabitualmente
cálculo
del tamaño
muestral
tanto,
de nivel
los siguientes
elementos:
• precisión
El
dedeseada
confianza
)%, queque
se establece
en el 95%.
yy La
δ o 100(1
el error- α
absoluto
se considere
aceptable.
•
tanto,
de los siguientes
El
de confianza
100(1 π- .α)%, que se establece
habitualmente
en elelementos:
95%.
La nivel
proporción
poblacional
•
• El nivel de confianza 100(1 - α)%, que se est
La proporción
poblacional
. absoluto que se considere
precisión deseada
δ o el πerror
aceptable.
Pastor-Barriuso R.
• La objeto
proporción
poblacional
π.
La precisión
deseada
δ o elaproximado
error absoluto
que
se considere
aceptable.
El •conocimiento
previo
del valor
de la
proporción
de estudio
es
141
Determinación del tamaño muestral
El conocimiento previo del valor aproximado de la proporción objeto de estudio es necesario
no sólo para sustituirlo explícitamente en la fórmula, sino también para establecer la precisión
deseada en la estimación. Por ejemplo, un error absoluto del ±5% podría ser admisible en la
estimación
de una proporción
mientras
que este
error
información,
se pretendepróxima
realizar al
un50%,
estudio
transversal
paramismo
estimar
la sería claramente
inaceptable para una proporción pequeña, pongamos del 5% (o equivalentemente para una
proporción muy grande, ya que cuando se estima una proporción también se está estimando su
prevalencia de hipertensión en esta población con un error absoluto del ±3%
complementario). Así, para determinar de antemano qué error se considera admisible, ha de
contarse con alguna información sobre la magnitud de π, bien sea a través de investigaciones
±10%).
Asumiendo
el niveltransversal
de confianza
información,
sedel
pretende
realizar
un estudio
paraestándar
estimar del
la 95%, π =
previas(error
o, enrelativo
su defecto,
de un estudio
piloto.
se necesitaría
una
mínima
deerror absoluto del ±3%
0,30
y δ = 0,03,
prevalencia
hipertensión
estamuestra
población
conanterior,
un
Ejemplo
9.2de En
el estudioenpiloto
del ejemplo
la proporción de hipertensos
(presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta información, se
π=
(error relativo
delun
±10%).
nivel
de confianza
estándar del
2
pretende
realizar
estudio
la prevalencia
de 95%,
hipertensión
en
1,Asumiendo
96transversal
0,30(1 −el
0,para
30
) estimar
=
896,37
≈
897.
n
=
esta población con un error absoluto
0,03 2 del ±3% (error relativo del ±10%). Asumiendo el
0,03, se necesitaría
una
muestra
0,30 ydeδ =confianza
nivel
estándar del
95%,
π = mínima
0,30 y δde= 0,03, se necesitaría una muestra
mínima de
Si, por el contrario, el estudio 2se diseñara para estimar la prevalencia de diabetes,
1,96 0,30(1 − 0,30)
n=
= 896,37 ≈ 897.
03 2error absoluto del ±1% (error relativo del
que se asume próxima al 5%, con0,un
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, que se
±20%),
requeriría
tamaño
considerablemente
mayor
asume
al 5%,
con un
error
absoluto
del ±1%
(error
relativo
del ±20%), se
Si, por próxima
elsecontrario,
elunestudio
semuestral
diseñara
para estimar
la prevalencia
de diabetes,
requeriría un tamaño muestral considerablemente mayor
que se asume próxima al1,96
5%,
2 con un error absoluto del ±1% (error relativo del
0,05(1 − 0,05)
= 1.824,76 ≈ 1.825.
n=
0,012
±20%), se requeriría un tamaño muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporción extrema
(muy
o muy
se necesitará
una fiablemente
muestra mayor
que para estimar una
Comopequeña
se desprende
de grande)
este ejemplo,
para estimar
una proporción
1,96 2 0,05(1 − 0,05)
proporción cercana nal=50%.
= 1.824,76 ≈ 1.825.
0,012 se necesitará una muestra mayor que para
extrema (muy pequeña o muy grande)
La fórmula del tamaño muestral presentada en este apartado se basa en la aproximación
normal
a laseuna
distribución
una
Aunqueunaesta
aproximación es
estimar
proporción
cercana
alde50%.
Como
desprende
demuestral
este
ejemplo,
para proporción.
estimar fiablemente
proporción
razonable en la mayoría de las circunstancias, existen fórmulas alternativas, tales como
las basadas
en (muy
la aproximación
normal
con corrección
poruna
continuidad
o en la
aproximación
extrema
pequeña o muy
grande)
se necesitará
muestra mayor
que
para
La
fórmula
del
tamaño
muestral
presentada
en
este
apartado
se
basa
en
la
de Poisson, que pueden ser útiles cuando se prevé trabajar con muestras de reducido
tamaño
o conuna
proporciones
extremas.
estimar
proporciónmuy
cercana
al 50%.Una descripción y comparación más detallada
aproximación
normal
a
la
distribución
de una proporción.
Aunque esta
de los distintos métodos de cálculo delmuestral
tamaño muestral
puede encontrarse
en la bibliografía
de este tema.
aproximación
en la mayoría
de lasen
circunstancias,
La fórmula es
delrazonable
tamaño muestral
presentada
este apartado existen
se basa fórmulas
en la
alternativas,
tales
como
lasdistribución
basadas
en muestral
la
normal DE
conMEDIAS
corrección
9.3
TAMAÑO
MUESTRAL
PARA
LAaproximación
COMPARACIÓN
aproximación
normal
a la
de una proporción.
Aunque
estapor
Muchos
diseños
bien
sean
defórmulas
cohortes
o de casos y
continuidad
o en
la aproximación
de
Poisson,
que
pueden ser(estudios
útiles
cuando
se prevé
aproximación
esepidemiológicos,
razonable
en la mayoría
deobservacionales
las
circunstancias,
existen
controles) o experimentales (ensayos clínicos), se realizan con un afán comparativo, donde el
objetivo
no es
tanto
estimar
la magnitud
de
un determinado
parámetro
poblacional,
trabajar
con
muestras
delas
reducido
tamaño
o con
proporciones
muy
Una
alternativas,
tales
como
basadas
en la aproximación
normal
conextremas.
corrección
por sino más
bien comparar parámetros entre distintas poblaciones. En tales diseños, el problema radica en
determinar
muestral
necesario
en
cada métodos
grupo
dedecomparación,
de tal forma
descripción
comparación
másmínimo
detallada
de los
distintos
cálculosedel
tamaño
continuidadelyotamaño
en la aproximación
de Poisson,
que
pueden
ser útiles
cuando
prevé
que el contraste de hipótesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
diferencias
clínica
o epidemiológicamente
En extremas.
este apartado
muestral
puede
encontrarse
en
la bibliografía
de proporciones
esterelevantes.
tema. muy
trabajar con
muestras
de reducido
tamaño o con
Una se presentan
descripción y comparación más detallada de los distintos métodos de cálculo del tamaño
142
Pastor-Barriuso R.
muestral puede encontrarse en la bibliografía de este tema.
7
determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican
independientes
orqué
de valor
qué valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia
Tamaño muestral para la comparación de medias
Supongamos
quelos
se resultados
pretende
contrastar
la hipótesis
de
muestra
la muestra
sirven
sirven
tanto
tanto
para para
resumir
resumir
los resultados
observados
observados
comocomo
paranula
paraH0: μ1 = μ2 de igualdad de
μ1 ≠ μ2 enendos
conde una
medias
frente
la hipótesis
alternativa
bilateralAHdiferencias
1: A
laslos
fórmulas
del apoblacionales
tamaño
muestral
para
contrastar
losdistribuciones
niveles medios
rencias
inferencias
acerca
acerca
de
de
parámetros
los parámetros
poblacionales
correspondientes.
correspondientes.
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
2
2
nación
se describen
se describen
los principales
los principales
estimadores
tendencia
la tendencia
central
central
de una
de
σestimadores
= la
σde
. Según
los
resultados
deluna
Apartado 6.3, la distribución
igual
varianza
1 = σ 2de
9.3.1 Tamaño muestral para la comparación de medias en dos muestras independientes
muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamaño n1 y
Supongamos que se pretende contrastar la hipótesis nula H0: μ1 = μ2 de igualdad de medias
n2 será
normal
con H
media
μμ2- en
μ2 dos
= 0 bajo
H0 y μ1 - μcon
0 bajovarianza
H1, y σ12
edia
aritmética
aritméticafrente
distribuciones
a la aproximadamente
hipótesis alternativa
bilateral
2 ≠ igual
1: μ1 ≠ 1
= σ22 = σ2. Según los resultados del Apartado 6.3, la distribución muestral de la diferencia de
2
tmética,
a aritmética,
denotada
denotada
por por
x 1, –seσ
x define
se
define
suma
de
uno
de
unolos
den9.1).
de
y nPara
aproximadamente
normal con
medias
/n1muestras
+como
σ 22 /como
n2laindependientes
=suma
σla2(1/
n1 cada
+de
1/ncada
(Figura
una probabilidad
varianza
2) tamaño
21, en
1los
2 seráasegurar
media μ1 – μ2 = 0 bajo H0 y μ1 – μ2 ≠ 0 bajo H1, y varianza σ12/n1 + σ22/n2 = σ 2(1/n1 + 1/n2) (Figura
strales
muestrales
dividida
dividida
porαel
por
elasegurar
número
deunobservaciones
de
observaciones
Si denotamos
Si
9.1).
Para
una
probabilidad
de cometer
undenotamos
error
de tipo I,sólo
la hipótesis
nula se rechazará
denúmero
cometer
error
de tipo realizadas.
I, laα realizadas.
hipótesis
nula
se rechazará
si el estadístico
sólo si el estadístico
valor
observado
observado
para para
el sujeto
el sujeto
i-ésimo,
i-ésimo,
i = 1,i =
...,1,n,..., n,
año
tamaño
muestral
muestral
y pory xpor
i el x
i el valor
x1 − x 2
x1 − x 2
≤  z1α /2 ó
≥ z1α /2
adría
vendría
dadadada
por por
11-/ nα /21 σ+ 11/ n/ n2 + 1 / n ó xσ1 -1x/ 2n1≥+z11- α/ /2n 2σ 1 / n + 1 / n .
x1 - x 2 σ≤ -z
.
1
2
1
2
o, equivalentemente,
si la diferencia de medias
x...2 ++ x...n + x n
1 n 1 n x1 + x12 ++ si
o,
equivalentemente,
la diferencia
de medias
bajo
la
del test para detectar una diferencia
.
.la potencia
= x
= x i
= xxhipótesis
= x ≤ alternativa,
x Así,
i

2 n z1 
n i =1 n i =1 1
nα /2 σ 1 / n1 + 1 / n 2 ó x1  x 2 ≥ z1α /2 σ 1 / n1 + 1 / n 2 .
subyacente
μ1 - μ2 vendrá
dada la
porpotencia del test para detectar una diferencia subyacente
Así,
bajo la hipótesis
alternativa,
–de
μ2tendencia
vendrá
por más
Así,
bajocentral
ladada
hipótesis
alternativa,
potencia
del test para detectar una diferencia
edia
es laes
medida
la medida
deμ1tendencia
central
más
utilizada
utilizada
y delaymás
de más
fácilfácil
8
=dada
P(
x1por
x 2 la
≤de
zla
1 / n1Su
+ 1 / n 2 | H1 )
1 deβ los
muestra.
μde
μ2 vendrá
datos
tación.
n. Corresponde
Corresponde
al subyacente
“centro
al “centro
de gravedad”
de
datos
los
de
1α muestra.
/2 σ Su
1 - gravedad”
x1 extremos
x 2 ≥extremos
z1  α y,
1este
/en
n1 este
+ 1 / n 2 | H1 ).
P( valores
mitación
l limitación
es que
es está
que está
muymuy
influenciada
influenciada
por los
por+valores
los
/2 σeny,
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribución.
la distribución.
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
H1: μ1 ≠ μ2
H0: μ1 = μ2
x1 se
sea apreciablemente mayor
lasucesivos
expresión
anterior,
que representa
el evento
de que
lo
emplo
1.4 En
1.4este
En este
y ende
ylos
en
los sucesivos
ejemplos
sobre
sobre
estimadores
estimadores
muestrales,
muestrales,
~ejemplos
~se
x1 − x2 →
N ( μ1 − μ 2 , σ 2 (1 / n1 + 1 / n2 ))
x1 − x2 →
N (0, σ 2 (1 / n1 + 1 / n2 ))
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
rán
ilizarán
los valores
los valores
delque
colesterol
del xcolesterol
HDL
HDL
obtenidos
obtenidos
en los
en
los
primeros
10 primeros
sujetos
del
del a
virtualmente
cero.
La10
potencia
sesujetos
reduce
entonces
2 , será
de la expresión anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
“European
“European
StudyStudy
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and Cancer
and Cancer
of of
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
que x 2 , será virtualmente cero. La potencia se reduce entonces a
east“
e Breast“
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicéntrico
multicéntrico
de casos
de casos
y controles
y controles
realizado
realizado
 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 + 1 / n 2 − ( μ 1 − μ 2 )


P x1e1 -Israel
≤
H
1 Europeos
- β =Europeos
P(
x1e2- βIsrael
≤ para
-z1- α para
σ 1evaluar
/ nel
+
1
/
n
|
H
)
tre
9911991
y 1992
y 1992
en ocho
en ocho
países
países
evaluar
efecto
el
efecto
de
los
de
los
/2
1
1
1
2
 σ 1/ n + 1/ n

σ 1 / n1 + 1 / n 2
1
2


 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 +5 1 / n52 − ( μ 1 − μ 2 )

= P 1
≤ | 
H1 
μ
μ
|
−

 , σ 1 / n1 + 1 / n 2
= Φ − σz1−α1/ 2/ n+1 + 1 / n12 α/2 2
α/2



σ 1 / n1 + 1 / n 2 

μ1 - μ2
0

| μ 1 − μ 2 | 
− z
,
=
Φ
+
donde la última igualdad
de la distribución normal de x1 - x 2 bajo la hipótesis
 1−α / 2se deriva
σ − 1z / n1σ+ 11//nn+2 1/ n
z1−α / 2σ 1 / n1 + 1 / n2

1−α / 2
1
2
μ2. Esta
expresión
alternativa.
Notar que sedealcanzaría
mismo
resultado
si μde1 >medias
Figura
9.1 Representación
la potenciaeldel
contraste
bilateral
a partir
de dos
muestras
Figura
9.1
donde la última igualdad se deriva de la distribución normal de x1 - x 2 bajo la hipótesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión
Pastor-Barriuso R.
n1 y
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.
143
+ P(
1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
continuación
sexdescriben
los principales
continuación
estimadores
se describen
de la tendencia
los principales
central deestimadores
una
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cuál
dees
cuál
el valor
es el valor
más rem
variable.
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura
9.1), la segunda probabilidad
de unadedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadore
estim
1.2.1 Media
aritméticael evento de que
1.2.1x1Media
aritmética
sea apreciablemente
mayor
de la expresión anterior,
que representa
Asumiendo sin pérdida de generalidad
que de
μ1 <
μde
(Figura
9.1),
segunda
de
2 valor
alrededor
alrededor
qué
qué valor
se agrupan
se la
agrupan
los datos
losprobabilidad
datos
observados.
observados.
Laslamedidas
Las medidas
de tend
La
media
aritmética,
denotada
por
La
media
aritmética,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
x
,
de
se
los
define
como
expresión
anterior,
que
representa
el
evento
de
que
sea
apreciablemente
mayor
que
que x 2 , será virtualmente cero. La potencia se reduce1 entonces a
2
será virtualmente cero. La potencia
se reduce
a
central
central
de laentonces
de
muestra
la muestra
sirven
sirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observad
co
valores muestrales dividida por el número
valores
demuestrales
observaciones
dividida
realizadas.
por el número
Si denotamos
de observa
1 − β = P( x1 − x 2 ≤ − z1−realizar
1 /inferencias
n1 + 1inferencias
/ n 2 |acerca
H1 ) acerca
α /2 σ realizar
de losdeparámetros
los parámetros
poblacionales
poblacionales
correspondientes
correspond
por n el tamaño muestral y por xi el valor
por nobservado
el tamañopara
muestral
y pori-ésimo,
xi el valor
el sujeto
i = observado
1, ..., n, p
 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 + 1 / n 2 − ( μ 1 − μ 2 )

aleatoriamente
hipertensos
al
de monoterapia
estándar
otros de la de
continuación
continuación
segrupo
describen
se describen
los principales
los principales
estimadores
tendencia
la tendencia
centrac
= P 501 pacientes
≤
Hyestimadores
1

la media
por
la
media
vendría
dada
por
σ 1 /vendría
n1 + 1 / ndada
σ
1
/
n
+
1
/
n
2
1
2

50 pacientes de similares características
variable.
variable.al grupo de tratamiento combinado con el

| μ 1 − μ 2 | 
− z
x1 + x 2 + ... + x n
x + x2 + .
1 n
=
, 1 n
Φ
+
1
/
2
−
α
nuevo fármaco. Después de
4
semanas
de
tratamiento,
la
media
y
la
desviación
.
=
=
=
x
x
x
xi = 1



i
σ
1
/
n
+
1
/
n
1
2aritmética
1.2.1 1.2.1
Media
Media

 aritmética
n i =1
n
n i =1
n
típica de la presión
arterial sistólica
fueron
155 y de
22 monoterapia
mm Hg en elestándar
grupo dey otros
aleatoriamente
50 pacientes
hipertensos
al grupo
La media
aritmética,
aritmética,
denotada
denotada
por xpor
se xdefine
se define
como
como
la suma
la suma
de cada
de uno
cadad
donde la última igualdad se deriva
deLalamedia
distribución
normal
de
la hipótesis
1, –
2, bajo
La media es la medida de tendencia central
La media
másesutilizada
la medida
y de
de más
tendencia
fácil central más ut
alternativa.
Notar que
se yalcanzaría
si μ1 > combinado.
μ2. combinado
Esta expresión
permite
monoterapia,
y 150
18 mm
Hgelenmismo
el grupo
de tratamiento
Como
50
pacientes
de
similares
características
al resultado
grupo
de tratamiento
con el
valores
valores
muestrales
muestrales
dividida
dividida
por
el
por
número
el
número
de
observaciones
de
observaciones
realizadas
Si d
donde
la
última
igualdad
se
deriva
de
la
distribución
normal
de
x
x
bajo
la
hipótesis
1
2
determinar a posteriori la potencia de un contraste para detectar una diferencia de mediasrealizadas.
interpretación. Corresponde al “centro
interpretación.
de gravedad”Corresponde
de los datos de
al “centro
la muestra.
de gravedad”
Su
a la
partir
de dos
independientes
n2.
subyacente
μfármaco.
paso previo
comparación
medias,
contrastade
lalatamaños
igualdad
varianzas
1 – μ2 a
1laydesviación
nuevo
Después
demuestras
4 de
semanas
desetratamiento,
media ynde
por
n
por
el
tamaño
n
el
tamaño
muestral
muestral
y
por
y
x
por
el
valor
x
el
valor
observado
observado
para el
para
sujeto
el sujeto
i-ésimo,
i-ési
i
i
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión
principal limitación es que está muy influenciada
principal limitación
por los es
valores
que está
extremos
muy influenciada
y, en este por
mediante
estadístico
típica
de 9.3
laelpresión
fueron
155 yla22eficacia
mm Hgantihipertensiva
en el grupo de de un nuevo
Ejemplo
En unarterial
ensayosistólica
para
evaluar
laclínico
media
la media
vendría
vendría
dada
por
dada por
permite
determinar
a
posteriori
la
potencia
de
un
contraste
para
detectar
una
fármaco en combinación
conserununtratamiento
se asignaron
aleatoriamente
caso, puede no
fiel reflejo estándar,
de lacaso,
tendencia
puede
central
no ser un
de
fiel
ladiferencia
distribución.
reflejo de50
la tendencia cent
2
monoterapia,
y
150
y
18
mm
Hg
en
el
grupo
de
tratamiento
combinado.
Como
2
pacientes hipertensos al grupo de monoterapia
estándar y otros 50 pacientes de similares
s
22muestras
μ1 - de
μ2 atratamiento
partir
independientes
de características
medias subyacente
1x y
=combinado
F = de12 dos
=
1,49,
+x
x1 + Después
xx21 ++n...
x...
1 n fármaco.
1den tamaños
al grupo
con
el nuevo
2++de
n 4
2
. n.
=
=
=
=
x
x
x
x
18
s


i
i
2
Ejemplo
1.4
En
este
y
en
los
sucesivos
Ejemplo
ejemplos
1.4
sobre
En
este
estimadores
y
en
los
sucesivos
muestrales,
ejemplo
se
paso
previo
a
la
comparación
de
medias,
se
contrasta
la
igualdad
de
varianzas
semanas de tratamiento, la media y la desviación típica de nlai =presión
arterial
n sistólica
n
1 n i =1
n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de
utilizarán
valores
HDL
utilizarán
obtenidos
los valores
en se
loscontrasta
10
delprimeros
colesterol
HDL obten
del
mediante
estadístico
tratamiento
combinado.
Como
paso
previo
acolesterol
la comparación
de medias,
la sujetos
que bajo laeldistribución
F
de los
Fisher
con
ndel
1 – 1 = 49 y n2 – 1 = 49 grados de
La
media
La
media
es
la
medida
es
la
medida
de
tendencia
de
tendencia
central
central
más
utilizada
más
utilizada
y
de
más
y
de
fácil
más
igualdad de varianzas mediante el estadístico
[Figura
9.1
aproximadamente
aquí]
estudio
“European
Study
on Antioxidants,
estudio
Myocardial
“EuropeanInfarction
Study on and
Antioxidants,
Cancer ofMyo
22P(F
libertad, corresponde
a un valor
P bilateral
49,49 ≥ 1,49) = 2⋅0,082 = 0,164.
s12 22Corresponde
interpretación.
interpretación.
Corresponde
al
“centro
al
“centro
de
gravedad”
de
gravedad”
de
los
de
datos
los
datos
de la de
mues
la
F = 2 = 2 = 1,49,
s 2 18 un estudio the
(EURAMIC),
multicéntrico
Breast“
(EURAMIC),
de casos y controles
un estudio
realizado
multicéntr
Así, la comparaciónthe
delBreast“
nivel
medio
de
presión
arterial
sistólica
entre
ambos
principal
principal
limitación
limitación
es
queesestá
quemuy
está influenciada
muy influenciada
por los
porvalores
los valores
extremos
extrey
9.3 En un ensayo
paranevaluar
la eficacia antihipertensiva de un
queEjemplo
bajo la distribución
F de clínico
Fisher con
1 – 1 = 49 y n2 – 1 = 49 grados de libertad,
entremediante
1991 y 1992
en ocho
países
Europeos
entre muestras
1991
e Israel
y 1992
paraenevaluar
ocho países
el efecto
Europeos
de los e Is
grupos
la con
prueba
deun
–t1,49)
1no
=Student
49
y reflejo
nfiel
– 1reflejo
49
de
que
bajopuede
la distribución
decaso,
Fisher
n1≥ser
= un
2∙0,082
==de0,164.
Así,
la comparación
corresponde
a realizarse
un valor PF
bilateral
2P(F
2 para
49,49
caso,
puede
puede
no
ser
fiel
la grados
de
tendencia
la tendencia
central
central
de la de
distribución.
la distribuc
fármaco
en combinación
con un tratamiento
se asignaron
del nuevo
nivel medio
de presión
arterial sistólica
entre ambosestándar,
grupos puede
realizarse mediante
independientes
asumiendo
igualdad
deindependientes
varianzas,
cuyo
estadístico
resulta
≥asumiendo
1,49)
= 2⋅0,082
= 0,164.
libertad,
a para
un valor
P bilateral
2P(F49,49
la
pruebacorresponde
t de Student
muestras
igualdad
de varianzas,
5
cuyo estadístico resulta
Ejemplo
Ejemplo
1.4 En1.4
este
Enyeste
en los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobresobre
estimadores
estimado
m
9
Así, la comparación del nivel
medio
de
presión
arterial
sistólica
entre
ambos
x1 − x 2
155 − 150
t=
= utilizarán
=del
1,24,
utilizarán
los valores
los valores
colesterol
del colesterol
HDL HDL
obtenidos
obtenidos
en losen10los
primeros
10 prim
1
1
1
1
grupos puede realizarse mediante
la
prueba
t
de
Student
para
muestras
s
+
+
20,1
n1 nestudio
50“European
50StudyStudy
2
estudio
“European
on Antioxidants,
on Antioxidants,
Myocardial
Myocardial
Infarction
Infarction
and
independientes asumiendo igualdad
de
varianzas,
cuyo
estadístico
resulta
donde la varianza combinada es s2 = {(50 – 1)222 + (50 – 1)182}/(50 + 50 – 2) = 404.
the Breast“
the Breast“
(EURAMIC),
un2 estudio
undeestudio
multicéntrico
multicéntrico
de casos
de casos
y controle
y co
2 (EURAMIC),
– (50
2 = -98
grados
Utilizando
la distribución
t de es
Student
con
-n1)22
1)18
}/(50
+libertad,
50 - 2) =el valor P
donde la varianza
combinada
s2 = {(50
1 + n2 +
x1 − x 2 = 0,216;
155
150 los resultados del estudio no aportan
es−decir,
bilateral es 2P(t98 ≥ 1,24) = 2∙0,108
1,24,
= entre
t=
entre
1991
1991
y 1992
y 1992
en=ocho
en ocho
paísespaíses
Europeos
Europeos
e Israel
e Israel
para evaluar
para evaluar
el efe
suficiente
evidencia
para afirmar
que
el
tratamiento
es
más
– 2 = 98 grados
de eficaz que la
404. Utilizando
la distribución
t
de
Student
con
1
1
1 n1 +
1 n2combinado
s
+
+
20,1
monoterapia.
n1 n 2
50 50
≥ 1,24) = 2⋅0,108
= 0,216; ambos
es decir,
los
libertad,
el valor
bilateral escabría
2P(t98preguntarse
A
partir de
estosPresultados
si en realidad
tratamientos
son
variable.
Determinación del tamaño muestral
igualmente eficaces o si, por el contrario,
el estudio
carece de
potencia suficiente para
2
2
2
resultados
del
estudio
no
aportan
suficiente
evidencia
para
afirmar
que
el - 2)en= términos
donde
la
varianza
combinada
es
s
=
{(50
1)22
+
(50
1)18
}/(50
+ 50
detectar una diferencia que, aun siendo moderada o pequeña, sea importante
clínicos. Si se considera clínicamente relevante una diferencia absoluta de |μ1 – μ2| = 5
tratamiento
es mássistólica
eficaz
que
lacon
monoterapia.
grados
de
404.
Utilizando
la distribución
t de Student
n 1 + n2 – 2 =
mm
Hg
en lacombinado
presión
arterial
media,
y asumiendo
un98
nivel
de significación
α=
144
A partir de
estos P
resultados
en realidad
ambos
tratamientos
2⋅0,108
= 0,216;
es decir,
los
libertad,
el valor
bilateral cabría
es 2P(tpreguntarse
98 ≥ 1,24) = si
Pastor-Barriuso R.
son igualmente
eficaces
si, por el
contrario,
el estudio
carece
de potencia
resultados
del estudio
nooaportan
suficiente
evidencia
para
afirmar
que el
1
2
Por tanto, no
es sorprendente
que elsignificativa
estudio anterior
arrojara unreal
resultado
noHg.
detectarían
como
estadísticamente
una diferencia
de 5 mm
α =diferencia
0,05 y una
desviación
σmagnitud
= 20 mm
asumiendo
un nivel
de
significación
significativo,
aunsorprendente
cuando
exista
subyacente
detípica
dicha
Por
tanto, no es
queuna
el estudio
anterior
arrojara
un
resultado
no de medias
Tamaño
muestral
para
la comparación
Hgentre
en ambos
la potencia para detectar dicha diferencia en un estudio con
ambosgrupos,
tratamientos.
significativo,
aun cuando exista una diferencia subyacente de dicha magnitud
0,05
típica σ = 20 mm Hg en ambos grupos, la potencia para detectar
= 50desviación
sería
n1 = ny2una
entre ambos tratamientos.
n2 = 50de
sería
dicha
diferencia
en
un
estudio
conenn1el= diseño
Como ilustra el ejemplo anterior,
un estudio es importante determinar


5
βmuestral
= Φ −anterior,
1el− ejemplo
1,será
96 +necesario
=estudio
Φ(−de
0,71)
0,239. para
a priori
tamaño
en cada
grupo
comparación
evitar la
Comoqué
ilustra
en el diseño
de un
es =importante
determinar
20 1 / 50 + 1 / 50 

resultados
no 23,9%
concluyentes
poren
falta
degrupo
potencia.
Supongamos,
en el
casocomo
aobtención
priori
quédetamaño
muestral
será necesario
cada
de comparación
para
evitar
la
Es decir,
únicamente
un
de los estudios
con
este tamaño
muestral detectarían
estadísticamente
significativa
unadediferencia
realcon
de 5este
mmtamaño
Hg. Pormuestral
tanto, no es sorprendente
Es decir, únicamente
un 23,9%
los estudios
másque
general,
que
se
pretende
asignar
distinto
tamaño
a
ambas
muestras
2 = kn
obtención
de
resultados
no
concluyentes
por
falta
de
potencia.
Supongamos,
en1,eldonde
caso una
el estudio anterior arrojara un resultado no significativo, aunncuando
exista
diferencia
de dicha magnitud
entre ambos
tratamientos.
detectaríansubyacente
como estadísticamente
significativa
una diferencia
real de 5 mm Hg.
k es un
número
prefijado.
A partir
detamaño
la fórmula
de la muestras
potencia ncon
2=
1, y
kn
donde
más
general,
quepositivo
se pretende
asignar
distinto
a ambas
2 =n
1, kn
Como
anterior, que
en eleldiseño
deanterior
un estudio
es importante
determinar
a priori
Porilustra
tanto, el
noejemplo
es sorprendente
estudio
arrojara
un resultado
no
)
=
1
β
,
se
sigue
que
recordando
que
Φ(z
=
kn
,
k
es
un
número
positivo
prefijado.
A
partir
de
la
fórmula
de
la
potencia
con
n
1β
1 y
qué tamaño muestral será necesario en cada grupo de comparación para evitar la2 obtención
de
resultados
no concluyentes
por falta
potencia.
Supongamos,
caso magnitud
más general, que se
significativo,
aun cuando
existadeuna
diferencia
subyacenteendeeldicha
, se sigue
que n2|=μkn−1, μdonde
recordando
Φ(z1-tamaño
β) = 1 - aβambas
k es un número positivo prefijado.
pretende
asignarque
distinto
muestras
1
2 |
z1− β con
= − zn12−α=/ 2kn+1, y recordando
, que Φ(z1–β) = 1 – β, se sigue que
A partir
de laambos
fórmula
de la potencia
entre
tratamientos.
1
1
σ | μ −+μ |
2
n1 1 kn
z1− β = − z1−α / 2 +
1 ,
1 estudio
1
Como ilustra el ejemplo anterior, en el diseñoσde un
es importante determinar
+
n1 kn1
de donde
puede despejarse
n1 para
obteneren cada grupo
a priori
qué tamaño
muestral será
necesario
de comparación para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
despejarse
n1 para obtener
2
2 Supongamos, en el caso
obtención
resultados
no concluyentes
de potencia.
(k + en
1por
)( la
z1falta
que corresponde
al tamaño
necesario
y n2 = kn1 al de la segunda
−primera
α / 2 + z 1−muestra
β ) σ
n1 =
,
2
k ( μtamaño
1 − μ 2 )a ambas
2 muestras n2 = kn1, donde
másmuestra.
general,En
que
pretende
asignar
distinto
el se
caso
particular
de que
se
desee
un
mismo
muestral en ambos
(k + 1)( z1−α / 2 + z1− β ) 2 σ tamaño
n
=
,
que corresponde al tamaño necesario
en la primera muestra
y n = kn1 al de la segunda muestra.
1
kde
( μla
μ 2 ) 2 de la 2potencia
1 −fórmula
, y= 1, éste
k esgrupos
número
prefijado.
A partir
con ngrupos
2 = kn1k
En
eluncaso
de que
se desee
un mismo
tamaño
muestral en ambos
kparticular
= 1,positivo
éste vendrá
determinado
por
11
vendrá determinado por
recordando que Φ(z1-β) = 1 - β, se sigue que
2( z1−α / 2 + z1− β ) 2 σ 2
11
n1 = n 2 =
.
2
( μ| μ1 −−μμ2 ) |
1
2
z1− β = − z1−α / 2 +
,
La asignación de igual tamaño a ambas muestras
1 es,1 en general, más eficiente ya que da
+ es,
lugar aLaunasignación
menor tamaño
totaltamaño
del estudio.
Noσ
obstante,
hayensituaciones
prácticas
en ya
lasque
que es
de igual
a ambas
muestras
general, más
eficiente
n1 kn
1
preferible seleccionar muestras de distinto tamaño, aun cuando ello conlleve un aumento de la
muestra
totalapara
alcanzar
la misma
tal esNo
el caso
de loshay
estudios
donde la
disponibilidad
da lugar
un menor
tamaño
totalpotencia;
del estudio.
obstante,
situaciones
prácticas
en
de sujetos
donde puede
despejarse
n1 entre
para obtener
de
o los costes
difieren
los grupos, o cuando se requieren estimaciones más precisas
en uno
de los
grupos. Además
de estas
consideraciones,
el cálculo
del tamaño
las que
es preferible
seleccionar
muestras
de distinto en
tamaño,
aun cuando
ellomuestral
conlleve para
la comparación de medias es necesario determinar previamente
los siguientes elementos:
(k + 1)( z1−α / 2 + z1− β ) 2 σ 2
un
aumento
de
la
muestra
total
para
alcanzar
la
misma
potencia;
tal es ellacaso
de los
n1 =α del contraste bilateral,
,
yy El nivel de significación
que
representa
probabilidad
de
2
k (μ − μ )
rechazar erróneamente la hipótesis nula1 y se2establece usualmente en α = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 – β del contraste, que determina la probabilidad de detectar hipótesis
alternativas
ciertasestimaciones
y se fija habitualmente
en en
1 –uno
β =de
0,80
0,90. Además de estas
cuando
se requieren
más precisas
losógrupos.
11
2
yy La varianza poblacional σ . En la determinación del tamaño muestral suele asumirse que
consideraciones,
en el cálculo
del tamaño
muestral
la comparación
de medias
es
la varianza es común
para ambos
grupos,
ya que para
generalmente
se carece
de información
previa suficiente para determinar una varianza específica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mínima detectable |μ1 – μ2|. El tamaño muestral será tanto mayor cuanto
menor
sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
• El nivel de significación α del contraste bilateral, que representa la probabilidad
de rechazar erróneamente la hipótesis nula y se establece usualmente en α = 0,05.
Pastor-Barriuso R.
•
La potencia 1 - β del contraste, que determina la probabilidad de detectar
145
β = 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se
potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la
pretende
asignar
el mismo
Determinación
del tamaño
muestral
número de pacientes a ambos brazos del ensayo
presión arterial sistólica media de los hipertensos bajo monoterapia y tratamiento
clínico, un nivel de significación α = 0,05 y una desviación típica σ = 20 mm Hg
combinado, se planea realizar un nuevo ensayo clínico que tenga una potencia 1 un valor plausible basado en conocimientos previos, o bien relevante desde el punto de
similar
a la del
estudio anterior, el tamaño muestral necesario en cada uno de los
vista
clínico
epidemiológico.
β = 0,80
parao detectar
posibles diferencias de dicha magnitud. Asumiendo que se
grupos
sería
Ejemplo
9.4 Dado
que elnúmero
estudiodedescrito
en aelambos
ejemplo
anterior
carecía de potencia
pretende asignar
el mismo
pacientes
brazos
del ensayo
suficiente para detectar una diferencia subyacente de 5 mm Hg en la presión arterial
2
2
2
sistólica
media
hipertensos
tratamiento
se planea
zsignificación
2(los
αbajo
= 0,05
típica σcombinado,
= 20 mm Hg
clínico, un
niveldede
2monoterapia
(1,y96una
+ 0desviación
,84)y2 20
0 , 975 + z 0 ,80 ) σ
=
n
=
≈ 251,
n
=
1 nuevo
2
realizar un
ensayo clínico2 que tenga una potencia
1 – β==250,88
0,80 para
detectar posibles
2
(μ 1 − μ 2 )
5
diferencias
magnitud.
que se pretende
asignar
el uno
mismo
número de
similar a la de
deldicha
estudio
anterior,Asumiendo
el tamaño muestral
necesario
en cada
de los
pacientes a ambos brazos del ensayo clínico, un nivel de significación α = 0,05 y una
desviación
típica total
σ = de
20 251
mm+Hg
la del estudio
anterior,por
el el
tamaño muestral
para
unasería
muestra
251similar
= 502 apacientes.
Supongamos,
grupos
necesario en cada uno de los grupos sería
contrario, que el tratamiento combinado
con el nuevo 2fármaco
es muy costoso y
que se dispone de n pares de observac
2( z 0,975 Para
) 2 σ 2 2el(1problema,
+ z 0,80concretar
,96 + 0,84)supongamos
20 2
n1 = n2 =
=
250,88
≈ 251,
=
2
52
− μ 2 ) de
que se decide estudiar( μla1 mitad
sujetos bajo tratamiento
combinado que bajo
de una variable aleatoria continua. En cada pareja de datos dependientes, una
9.3.2 Tamaño muestral para la comparación de medias en dos muestras
para una muestra
total esto
de 251
= 502
pacientes.
por el contrario, que
= 0,5n
tal caso, Supongamos,
el tamaño muestral
monoterapia
estándar;
es, +n2251
1. En
laSupongamos,
primera
yella
otra observación
x2 a la segu
x1=corresponde
para
una muestra
totalobservación
de 251
502
pacientes.
porse
el
tratamiento
combinado
con +el251
nuevo
fármaco
esamuy
costosomuestra
y que
decide
estudiar
dependientes
la mitad de
bajo
que bajo monoterapia estándar; esto es,
necesario
ensujetos
el grupo
de tratamiento
monoterapiacombinado
sería
9.3.2
Tamaño
muestral
para
lacombinado
comparación
de
medias
en
muestras
que
el
tratamiento
con
elcentra
nuevo
fármaco
es
muy
costoso
y sería
muestra.
El muestral
objetivo
se
enen
comparar
las
medias
poblacionales
μ1 y μ2 a par
=
0,5n
.
En
tal
caso,
el
tamaño
necesario
el dos
grupo
de
monoterapia
ncontrario,
2
1
Supongamos
que se planea seleccionar n parejas de datos dependientes procedentes de
2
dependientes
(0,mitad
5 +dos
1)(1de
,96sujetos
+ 0,84dependientes.
) 2 20tratamiento
que se decide estudiarestas
la
bajo
combinado que bajo
muestras
=
=μ376,32
≈ 377a la hipótesis
n
1
2
:
=
μ
frente
dos poblaciones para contrastar la hipótesis
nula
H
0
1
2
0,5 ⋅ 5
Supongamos
queestándar;
se planeaesto
seleccionar
n parejas
de caso,
datos el
dependientes
procedentes
tal
tamaño
monoterapia
es,procedimientos
n2 = 0,5n
Los
en el muestral
Apartado
6.3 node
pueden aplicarse a est
1. En desarrollados
y
en
el
grupo
de
tratamiento
combinado
n
=
0,5∙376,32
=
188,16
≈
189.
El
número
en el Apartado 6.4, la media de las total
alternativa bilateral H1: μ1 ≠ μ2. Como se discutió
2
de
pacientes
necesarios
para
el
estudio
sería
entonces
+ 189
= no
566;
decir, 64
= 0,5⋅376,32
188,16
≈ 189.
El
en el grupo
degrupo
tratamiento
combinado
nnula
μ2=377
frente
a la
hipótesis
dosynecesario
poblaciones
para
contrastar
la hipótesis
H0: μde
2 medias
en el
de
monoterapia
situación,
ya quesería
las
muestras
sonesindependientes
por proven
1 =ambas
pacientes
más
de
los
requeridos
en
el
caso
de
igual
tamaño
muestral
para
alcanzar
una
diferencias en cada pareja d se distribuirá de forma aproximadamente normal N(0,
misma potencia.
número
total de pacientes
necesarios
para
el2 estudio
sería
377
+ 189
correlacionadas.
Sin entonces
embargo,
lamedia
comparación
discutió
en
6.4, la
de=las se simplifica notabl
alternativa
bilateral
H1: μobservaciones
1≠μ
2. Como se
2 el Apartado
(
0
,
5
+
1
)(
1
,
96
+
0
,
84
)
20
376,32
≈ 377 de las diferencias.
σ d2 /n) bajo H0 y N(μ1n1- =μ2, σ d2 /n) bajo
H12, donde σ d2= es
la varianza
0
,
5
⋅
5
566;
es
decir,
64
pacientes
más
de
los
requeridos
en
el
caso
de
igual
tamaño
si
se
calculan
las
diferencias
d
=
x
x
cadanormal
unadependientes
deN(0,
las n observaciones empar
1 dos
2 en
diferencias
en muestral
cada pareja
d se
distribuirá de forma
aproximadamente
9.3.2
Tamaño
para
la comparación
de medias
en
muestras
α
preestablecido,
el contraste
arrojará
un resultado
Para
un nivelpara
de significación
muestral
alcanzarPor
unaun
misma
potencia.
2
lado,
distintas
parejas
no están
relacionadas
Supongamos
que
nHparejas
deσ datos
dependientes
procedentes
deentre
dos sí, estas diferen
σ d2 y/n)enbajo
H0 yseN(
μtratamiento
σ d2 /n)
bajocomo
de
las
diferencias.
= 188,16
≈ 189.
El
el grupo
deplanea
combinado
nlas
1 - μ2,seleccionar
1, donde
2 = 0,5⋅376,32
d es la varianza
poblaciones para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral
cuando
la media
deApartado
las diferencias
: μ1 número
≠ μ . Como
se discutió
en independientes.
el
6.4, el
la estudio
media
de
lasladiferencias
en+diferencias
cada
H1significativo
son
Por
otro lado,
media de377
las
coincide con la
total
pacientes
necesarios
para
sería
entonces
189pareja
= 13 d se
α preestablecido,
el contraste
arrojará
un resultado
Para un2 nivel
de de
significación
2
2
distribuirá de forma aproximadamente normal N(0, σd /n) bajo H0 y N(μ1 – μ2, σd /n) bajo H1,
varianza
las
Para
significación
α preestablecido, el
donde
σd2 esesladecir,
ddiferencia
≤diferencias.
-z
σde
/medias
nrequeridos
ó un
dmuestrales,
≥nivel
z1-en
σdcaso
/ n de
. igual tamaño
566;
64 pacientes
más
el
1-las
α/2de
dlos
α/2de
significativo
cuando
lademedia
de
diferencias
contraste arrojará un resultado significativo cuando la media de las diferencias
muestral para alcanzar una misma potencia.
1 nμ , la potencia
1 n
Por tanto, asumiendo como
apartado anterior que μ
=d1 /<
− x i 2detectar
)
d ≤en
n2d. i =  ( x i1para
− zel
1−α/2σ d / n ó d ≥ z1−αd/2σ
n i =1
n i =1
13 una
Por
tanto,
asumiendo
como μen
anterior que μ1 igual
< μ2n, ala potencia
para detectar
μ2apartado
será aproximadamente
una
diferencia
de medias
n
1 -el
1
1
Por tanto,
enaproximadamente
el apartado anterior
queaμ=1 < μ2,xla
μ2 será
igual
diferencia
deasumiendo
medias μ1 –como
= x1detectar
− x2
 i1 −potencia
 xi 2para
n i =1
n i =1
= P( d μ≤1 −- μ
z12−αserá
/ n | H1 )
− βmedias
igual a
una diferencia1de
/2 σ d aproximadamente
146
 dy,−en( μconsecuencia,
de la diferencia de medias
− z1d−α / es
μ2)
n − ( μ 1 −insesgado
d / estimador
2 σun
1 − μ2 )
≤
= P
H1 

1 - β = P(d ≤σ-zd 1-/α/2σ
σd / n
n d / n | H1)


poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos mues

| μ − μ |

= Φ d− z−1−(αμ/ 12 −+ μ 2 )1 − 2z1−α ./ 2σ d / n − ( μ 1 − μ 2 )

≤/ n reducido
= P dependientes
H1 
queda
a
una
simple
inferencia
sobre la media de una única
σ
 σ / n d


σd / n
d


muestra de n diferencias independientes.

| μ 1 − μ 2 | 
Pastor-Barriuso R.
+
.
= Φ − z1Los
−α / 2 métodos del Apartado
6.2.1 para la media de una muestra pueden entonces

/ n que
Como por definición Φ(z
 1-β) = 1 - β,σsed sigue
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 com

| μ − μ 2 | 
.
= Φ − z1−α / 2 + 1

σ d / n 
Tamaño muestral para la comparación de medias

( z1−α / 2 + z1− β ) 2 σ d2
n=
.
( μ 1 −que
μ 2) 2
Como por definición Φ(z1-β) = 1 - β, se sigue
+ z1− β ) 2 σ d2
z1−α / 2que
Como por definición Φ(z1–β) = 1 – β, se (sigue
n=
.
( μ 1 directamente
− μ 2) 2
En la práctica, resulta difícil determinar
| μ − μ 2 | la varianza de las diferencias
z1− β = − z1−α / 2 + 1
,
σd / n
2
σ dEnyalaque
los datos
de una
misma
pareja están
correlacionados.
Asumiendo
igual
práctica,
resulta
difícil
determinar
directamente
la varianza
de las diferencias
de donde puede despejarse n para obtener el número mínimo de parejas que serán necesarias
2 donde puede
2
despejarse
nmisma
para obtener
el
número
mínimo
de
que
μestán
unade
potencia
1 –parejas
β,ρ entre
parade
detectar
subyacente
1 –coeficiente
2 concorrelacionados.
σvarianza
los
datos
depoblaciones
una
pareja
Asumiendo
igual
σuna
endiferencia
ambas
y μun
correlación
losserán
valores de
d ya que
2
2
( z1−α / 2 + z1− β ) σ d
μ1 -determinada
μ. 2 con una potencia
1 -resultados
β,
necesarias
detectar
una diferencia
subyacente
2para
=
n
una
misma
pareja,
la
varianza
de
las
diferencias
viene
según los
coeficiente
varianza σ en ambas poblaciones y un
( μ − μ ) 2 de correlación ρ entre los valores de
1
2
dellaApartado
3.4
por
En
práctica,
resulta
difícil determinar
directamente
varianza de según
las diferencias
σd2 ya que
una
misma
pareja,
la varianza
de las diferencias
vieneladeterminada
los resultados
2
En la
resulta
difícil
determinar
directamente
la varianza
las diferencias
los datos
depráctica,
una misma
pareja
están
correlacionados.
Asumiendo
igualdevarianza
σ en ambas
2
2
2
2
2
poblaciones
y un3.4
coeficiente
deσ correlación
ρ entre los valores de una misma pareja, la varianza
del Apartado
por
14
d = σ + σ - 2σ ρ = 2σ (1 - ρ ).
de las
viene de
determinada
resultados
del Apartado
3.4 por igual
σ d2 diferencias
ya que los datos
una mismasegún
parejalos
están
correlacionados.
Asumiendo
2
2
2
2
2
σ d = σ + σ − 2σ ρ = 2σ (1 − ρ ).
2
Así,
el
número
de
parejas
necesarias
también
puede
expresarse
como
ρ entre los valores de
varianza σ en ambas poblaciones y un coeficiente de correlación
Así, el número de parejas necesarias también puede expresarse como
2
2expresarse
Así, misma
el número
de parejas
necesarias
también
puede
como
una
pareja,
la varianza
de 2las
viene
determinada
según los resultados
( z1diferencias
−α / 2 + z1− β ) σ (1 − ρ )
n=
(μ 1 − μ 2 ) 2
del Apartado 3.4 por
2( z1−α / 2 + z1− β ) 2 σ 2 (1 − ρ )
n=
que, además
de
los parámetros
descritos
en
depende
de la correlación
ensayo
clínico
emparejado
donde,
enel
distintos
pacientes
a ambos entre
(lugar
μapartado
− de
μ 2 asignar
) 2anterior,
2 en1 el 2apartado
2 anterior, depende de la
que,
además
de
los
parámetros
cada pareja de datos. Si el emparejamiento
que ρ está próximo a 0, el
σ 2 =descritos
σ 2 + σno
- es
2σefectivo,
ρ = 2σ de
(1tal
- ρforma
).
d
número
de parejas
necesarias
un estudio
aproximadamente
igual al número
grupos,
cada
paciente
espara
sometido
a laSiemparejado
monoterapiaserá
estándar
durante
un primer
correlación
entre
cada
de
datos.
no
es efectivo,
que,
además
de
lospara
parámetros
descritos
enelelemparejamiento
apartado
anterior,
depende
de sujetos
por grupo
unpareja
estudio
con
muestras
independientes
(notar
que sideρ la
=de0,tal
la fórmula
Así,
el
número
de
parejas
necesarias
también
puede
expresarse
como
anterior
se reduce
la obtenida
el caso de muestras
independientes
mismodurante
tamaño). Si, por
periodo
de 4a semanas
y alentratamiento
combinado
con el nuevodel
fármaco
está próximo
a 0,es
elefectivo,
número
necesarias
un estudio
forma queelρ entre
correlación
cada pareja
de
datos.
Side
el parejas
emparejamiento
nopara
es efectivo,
de tal
el contrario,
emparejamiento
los
datos de
cada pareja
estarán
correlacionados
2
2
positivamente
y, enperiodo
consecuencia,
será
inferior
un segundo
de igualelduración.
asume
que
laρ )desviación típica
de la al número
2número
( z1−α / 2 de
+Sezparejas
(1 −substancialmente
1− β ) σ de
emparejado
aproximadamente
al número
sujetos bajo
por
grupo
para un
estudio
de forma
sujetos
requeridos
en cadaagrupo
deigual
un estudio
independiente
las
mismas
condiciones.
ρ será
está próximo
0,n el
de
parejas
necesarias
para
un
estudio
que
= número
(μ1 − μ 2 ) 2
presión arterial sistólica bajo ambos tratamientos es 20 mm Hg, y que el
=comparabilidad
0, la de
fórmula
anterior
sepacientes
reduce
a hipertensos
la
conEjemplo
muestrasserá
independientes
que sialρla
emparejado
aproximadamente
igual
número
sujetos
por
grupo
para un
estudio
9.5
Con objeto (notar
de asegurar
de los
bajo
monoterapia
y tratamiento
combinado,
decide diseñar
undepende
ensayo
clínico
emparejado
coeficiente
correlación
entre
las determinaciones
tomadas
en
un mismo
que,
además
dedelos
parámetros
descritos
en el se
apartado
anterior,
de lasujeto
obtenida
en
el
caso
de
muestras
independientes
del
mimo
tamaño).
Si,
por
el
contrario,
en lugar
de asignar (notar
distintos
grupos,
cada
fórmula
anterior
se paciente
reduce aes
la sometido
condonde,
muestras
independientes
quepacientes
si ρ = 0, alaambos
a
la
monoterapia
estándar
durante
un
primer
periodo
de
4
semanas
y
al
tratamiento
con un intervalo
de 4pareja
semanas
es aproximadamente
0,50. Para
unade tal
correlación
entre cada
de datos.
Si el emparejamiento
no esdetectar
efectivo,
el emparejamiento
efectivo,
los
datos
de cada
pareja
estarán
correlacionados
combinado
fármaco
durante
un segundo
periodo
de igual
duración.
Se asume
obtenida
en el con
casoeles
denuevo
muestras
independientes
del
mimo
tamaño).
Si, por
el contrario,
que
la
desviación
típica
de
la
presión
arterial
sistólica
bajo
ambos
tratamientos
es
diferencia
subyacente
5 mm
Hg en de
la presión
sistólica
media
al final de20 mm
próximode
a 0,
el número
parejas arterial
necesarias
para un
estudio
forma
que ρ está
positivamente
y,
en
consecuencia,
el
número
de
parejas
será
substancialmente
inferior
Hg, y que el coeficiente
de correlación
determinaciones
tomadas en
un mismo
el emparejamiento
es efectivo,
los datos deentre
cada las
pareja
estarán correlacionados
sujeto
con
un
intervalo
de
4
semanas
es
aproximadamente
0,50.
Para
detectar
ambos tratamientos
con una potencia
0,80 y undenivel
de significación
deun
0,05,
emparejado
será aproximadamente
igual de
al número
sujetos
por grupo para
estudiouna
al
número
de
sujetos
requeridos
en
cada
grupo
de
un
estudio
independiente
bajo
las
diferencia subyacente
de 5 mm Hg
en la presión
arterial
media al final
de ambos
positivamente
y, en consecuencia,
el número
de parejas
serásistólica
substancialmente
inferior
tratamientos
con
una
potencia
de
0,80
y
un
nivel
de
significación
de
0,05,
el
número
de
elmuestras
número de
sujetos necesarios
este
sería se reduce a la
= 0, laemparejado
fórmula anterior
con
independientes
(notaren
que
si ρestudio
mismas
condiciones.
parejas necesarias
sería
al número
de sujetos requeridos
en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras
2(1,96 + independientes
0,84) 2 20 2 (1 − 0del
,50)mimo tamaño). Si, por el contrario,
mismas condiciones.
126;pacientes
n
=
= 125,44de
≈ los
Ejemplo 9.5 Con objeto de asegurar
la comparabilidad
52
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados
es decir,
la mitad
demonoterapia
los sujetos
que
serían
necesarios
en de
cada
uno
dediseñar
los grupos
hipertensos
y tratamiento
combinado,
selos
decide
un de un
Ejemplo
9.5bajo
Con
objeto
de asegurar
la comparabilidad
pacientes
es decir,nolaemparejado
mitad
de los(Ejemplo
sujetos el
que
serían de
necesarios
en cada
uno de los grupos
de
positivamente
y, en consecuencia,
número
parejas será
substancialmente
inferior
diseño
9.4).
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un
un
diseño
emparejado
9.4).
al
de no
sujetos
en cada
grupo
de un estudio
lasmuestras
15
Lanúmero
determinación
del requeridos
tamaño (Ejemplo
muestral
para
la comparación
de independiente
medias en más bajo
de dos
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinación del tamaño muestral para la comparación de medias en más de dos 15
Pastor-Barriuso R.
muestrasEjemplo
dependientes
o independientes
siguelaargumentos
similares
a los
descritos en
9.5 Con
objeto de asegurar
comparabilidad
de los
pacientes
147
aproximación
la fórmulas
distribución
muestral
de una proporción
y, en consecuencia,
en el Apartadonormal
9.2.2, alas
descritas
a continuación
se fundamentan
en la
π(1 - π) ≥ 5 muestral
en ambosdegrupos
de comparación.
En las
serán
válidas
siempre
aproximación
normal
a landistribución
una proporción
y, en consecuencia,
Determinación
del tamaño
muestralque
referencias
de siempre
este temaque
pueden
otros métodos
alternativos
de cálculo
π) ≥ 5 en ambos
grupos de
comparación.
En las del
serán válidas
nπ(1 -consultarse
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamaño
muestral
particularmente
útiles para laotros
comparación
de proporciones
muy del
referencias
de este
tema
pueden
consultarse
métodos
de cálculo
técnicas
de corrección
por las
múltiples
comparaciones
que se alternativos
pretendan realizar
en el análisis
(por ejemplo, un ensayo clínico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
en muestras
reducidas. útiles para la comparación de proporciones muy
tamaño
muestral
particularmente
métodos
pueden
consultarse
en los libros de tamaño muestral referenciados al final del tema.
extremas
en muestras
reducidas.
9.4.1
Tamaño
muestral
para la comparación de proporciones en dos muestras
9.4 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE PROPORCIONES
independientes
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras
En esta sección se aborda el problema de la determinación del tamaño muestral en estudios
observacionales
o ensayos
donde
se pretende
diferencias
entre proporciones
El
propósito se
centra enclínicos
contrastar
la hipótesis
nulacontrastar
de igualdad
de proporciones
independientes
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
fórmulas
descritas
sea fundamentan
en
la aproximación
distribución
: continuación
π1 = en
π2 frente
la la
hipótesis
alternativa
bilateral de
Hnormal
: π1 ≠ πa2laa partir
de
poblacionales
Ha0centra
El propósito
se
contrastar
hipótesis
nula
de igualdad
1proporciones
muestral de una proporción y, en consecuencia, serán válidas siempre que nπ(1 – π) ≥ 5 en
ambos
grupos deindependientes
comparación.
En
este tema bilateral
pueden
7.3consultarse
se1:desprende
quemétodos
lade
dos
muestras
delas
tamaños
n1 y nde
a referencias
la hipótesis
alternativa
H
π1 ≠ π2otros
a partir
poblacionales
H0: π1 = π2 frente
2. Del Apartado
alternativos de cálculo del tamaño muestral particularmente útiles para la comparación de
proporciones
muy
extremas enmuestrales
muestras
reducidas.
una distribución
diferencia
de
proporciones
p1 -np12yseguirá
n2. Delaproximadamente
Apartado 7.3 se desprende
que la
dos muestras
independientes
de tamaños
(1
- π)(1/npara
bajo H
π1 -proporciones
π2, aproximadamente
π1(1 - π1)/n
π2(1
- πdistribución
normal
N(0,deπmuestral
una
diferencia
proporciones
muestrales
p10 -ypN(
1 + 1/n
2)/n2) bajo
2 seguirá
9.4.1 Tamaño
la2))
comparación
de
en1 +
dos
muestras
independientes
(11-π1π)(1/n
1/n
y N(π1 - π2,combinada
π1(1 - π1)/nque
π2(1
- π2)/n
N(0,
π =π(n
+ n2π12+
)/(n
la0proporción
asume
común
a
Hnormal
2))nbajo
1 + se
2) bajo
1, donde
1+
2) es H
El propósito se centra en contrastar la hipótesis nula de igualdad de proporciones poblacionales
donde
π =bajo
(na1πla
nEl2πcontraste
+ n2resultará
) es la proporción
que
seαasume
común
a
Hπ11, =
significativo
un
cuando
lamuestras
H
πgrupos
bilateral
Hcombinada
partir
de dos
H0:ambos
1+
2)/(n1 alternativa
0.hipótesis
2 frente
1: πpara
1 ≠ π
2 anivel
independientes de tamaños n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
– pcontraste
una distribución
N(0,laπ(1 – π)
proporciones
muestrales
diferencia
de
proporciones
muestrales
resultará significativo
para un nivelnormal
α cuando
ambos grupos
bajo Hp0.1 El
2 seguirá aproximadamente
(1/n1 + 1/n2)) bajo H0 y N(π1 – π2, π1(1 – π1)/n1 + π2(1 – π2)/n2) bajo H1, donde π = (n1π1 + n2π2)/
n2) es la proporción
combinada
que se asume común a ambos grupos bajo H0. El contraste
(n1 +diferencia
de proporciones
muestrales
p
≤
-z
π (la
1 −diferencia
π )(1 / n1 +de
1 /proporciones
n2 )
p
1
2
1-α /2
resultará significativo para un nivel α cuando
muestrales
o
p1 − p2 ≤ − z1− α /2 π (1 − π )(1 / n1 + 1 / n 2 )
o
o
p1 − p2 ≥ z1−α /2 π (1 − π )(1 / n1 + 1 / n 2 ) .
Así, asumiendo sin pérdida de
π21, /lan1potencia
detectar una diferencia
- p2 ≥ z1-α/2 que
π (1π−1 <
π )(
+ 1 / n 2 ) para
.
p1generalidad
Así,
asumiendo
sin
pérdida
de
generalidad
que
π
<
π
,
la
potencia
para
detectar una
1
2
de proporciones subyacente π1 – π2 vendrá determinada por
Así, asumiendo
de generalidad
π1 < πdeterminada
para detectar una
π1 - πque
diferencia
subyacente
2, la potenciapor
2 vendrá
− βproporciones
1de
= sin
P( ppérdida
1 − p2 ≤ − z1 − α /2 π (1 − π )(1 / n1 + 1 / n 2 ) | H1 )

psubyacente
diferencia de proporciones
1 − p 2 − (π π
1 1−-ππ22 )vendrá determinada por
= P
 π (1 − π ) / n + π (1 − π ) / n
1
1
2
2
2
 1
≤
− z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 ) − (π 1 − π 2 )
α
/
2
π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2

H1 


 | π − π 2 | − z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 ) 
.
= Φ 1


π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2


148
Pastor-Barriuso
R.
Si las limitaciones
prácticas determinan de antemano el tamaño muestral disponible
para un estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá
17
17
Tamaño muestral para la comparación de proporciones
Si las limitaciones prácticas determinan de antemano el tamaño muestral disponible para un
estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá calcular la potencia
estadística que tendría dicho estudio con la muestra disponible para detectar diferencias de una
determinada magnitud.
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociación entre
el =
uso
de anticonceptivos
de cáncer
de (véase
mama Apartado
en mujeres2.4),
entre
0,00750.
Aplicando laorales
regla ydeellariesgo
probabilidad
total
la 40 y 49
años. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
cáncer
de mama,combinada
que serán seguidas
un en
periodo
decohorte
5 años para
relaciónbasal
entrede
esta
probabilidad
de cáncerdurante
de mama
toda la
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado
regularmente específicas
anticonceptivos
oralesdeyexposición
que la tasavendrá
de incidencia
y las probabilidades
por grupo
dada porde cáncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-año. Para un nivel
de significación α = 0,05, ¿cuál sería la potenciacde este estudio
para detectar un hipotético
c
π
=
P(D)
=
P(E)P(D|E)
+
P(E
)P(D|E
)
aumento del riesgo de cáncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40π 1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,
Asumiendo
una tasa delaincidencia
en los
5 años
deApartado
seguimiento,
= 0,00750. Aplicando
regla de laconstante
probabilidad
total
(véase
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cáncer de mama en esta cohorte durante los
ya queentre
se
que aproximadamente
un 40% de
las mujeres
son
usuarias
de anticonceptivos
=
Aplicando la
próximos
5 estima
años
π de
= IA
5 = 0,00150∙5
relación
estasería
probabilidad
combinada
cáncer
de mama
en0,00750.
toda la cohorte
regla de la probabilidad total (véase Apartado 2.4), la relación entre esta probabilidad
detoda
padecer
un
cáncer
devendrá
mama dada
entrepor
lasespecíficas
usuarias es por
orales
y que
la probabilidad
combinada
de cáncer
de mamaπ1por
en
lade
cohorte
y las
probabilidades
y las
probabilidades
específicas
grupo
exposición
grupo de exposición vendrá dada por
Así, la probabilidad de
un 50% superior a la probabilidad π2 entre clas no usuarias.
c
π = P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cáncer
mama en los 5 años de seguimiento sería π2 = π/1,20 =
= 0,40πde
1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,
ya0,00750/1,20
que se estima=que
un 40%
de las mujeres
sonyusuarias
deπanticonceptivos
y que
π1 = 1,50
=
0,00625
entre
no usuarias
2 = 1,50⋅0,00625orales
la
de padecer
de mama
entre lasde
usuarias
es un 50% superior a
yaprobabilidad
que se estimaπ1que
un 40% un
de cáncer
las mujeres
son usuarias
anticonceptivos
entre
las
no
usuarias.
Así,
la
probabilidad
de
desarrollar
cáncer de
la 0,00938
probabilidad
π
2
entre las
usuarias de anticonceptivos orales. Como se espera que un
n1 =
π/1,20 de
= 0,00750/1,20
= 0,00625
mama
los la
5 años
de seguimiento
sería πun
2 = cáncer
π1 de padecer
mama entre las
usuariasentre
es las
orales en
y que
probabilidad
= 1,50π
=
1,50∙0,00625
=
0,00938
entre
las
usuarias
de
anticonceptivos
no0,40⋅6.000
usuarias y =π12.400
2
mujeres
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,40∙6.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad π2 entre las no usuarias. Así, la probabilidad de
= 0,60∙6.000
= 3.600denoeste
usuarias,
potencia
delas
estos
anticonceptivos
y las restantes
n2 usuarias,
= 3.600 no
la potencia
estudiolasería
restantes
n2 = 0,60⋅6.000
de este estudio sería
desarrollar un cáncer de mama en los 5 años de seguimiento sería π2 = π/1,20 =
 | 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600) 

0,00750/1,20
1 − β = Φ= 0,00625 entre las no usuarias y π1 = 1,50π2 = 1,50⋅0,00625 =


0
,
00938
(
1
−
0
,
00938
)
/
2
.
400
+
0
,
00625
(
1
−
0
,
00625
)
/
3
.
600


0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =
 0,00313 − 1,96 ⋅ 0,00227 
= Φ
 = Φ(− 0,56) = 0,287;
0
,
00237

 sean usuarias de estos anticonceptivos y
0,40⋅6.000 = 2.400 mujeres de la muestra
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer de
las restantes n = 0,60⋅6.000 = 3.600 no usuarias, la potencia de este estudio sería
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sería únicamente
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 años.
 | 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600) 

1de- βmama
= Φdel 50% entre las usuarias y no usuarias de anticonceptivos orales sería


La expresión anterior
de,00938
la potencia
permite
asimismo
determinar
a priori) /la3.muestra
mínima
0
(
1
−
0
,
00938
)
/
2
.
400
+
0
,
00625
(
1
−
0
,
00625
600


que seráúnicamente
necesaria endel
cada
uno de
los grupos
alcanzar
una potencia
1 –5β en
28,7%
a partir
de unapara
cohorte
de 6.000
mujeres preestablecida
seguidas durante
la detección de una diferencia subyacente de proporciones π1 – π2. En general, si se prevé asignar
 0,00313 − 1,96 ⋅ 0,00227  sigue a partir de la fórmula de la potencia que
distinto años.
tamaño
= Φ(-0,56) = 0,287;
= Φaambas muestras n2 = kn1, se
0,00237


La expresión anterior de la potencia permite asimismo determinar a priori laPastor-Barriuso
muestra R.
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer
mínima que será necesaria en cada uno de los grupos para alcanzar una potencia
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sería
149
2
1

| π 1 − π 2 | − z1−α / 2 π (1 − π ) +
 n1 kn1 
z1- β = asignar distinto tamaño a ambas muestras n = kn , se sigue a
π2. Endegeneral,
si sedeprevé
partir
la fórmula
la potencia que
2
1
π 1 (1 − π 1 ) π 2 (1 − π 2 )
Determinación del tamaño muestral
+
n
kn1
partir de la fórmula de la potencia que 1
1
1 

| π 1 − π 2 | − z1−α / 2 π (1 − π ) +
(k + 1)π (1n−1 π ) kn1 
z1- β = | π 1 − π 2 | − z1−α / 2
1
1 
kn

| π 1 − π 2π|1−(1z−
π−)1π 2 ) +
(
1
1−απ /12) π π(12−
=
, 1 
n1 kn
+

kπ 1 (1 −nπ1 1 ) + π 2 (1 −kn
π12 )
z1−β =
π 1 (1 − πkn
π 2 (1 − π 2 )
1)
1 +
n1
kn
(k + 1)π (11 − π )
| π 1 − π 2 | − z1−α / 2
de tal forma que el tamaño muestral requerido será
(k + 1kn
)π1(1 − π ) ,
= | π −π | −z
1
2
1−α / 2
kπ 1 (1 − π 1 ) + π 2 (1 −kn
π 21 )
=
,
2
( z1−α / 2 (k + 1)π (1kπ−1π(1) −+πz1kn
(
1
−
)
+
π
π
1 π kπ(11 −
π
)
1)− β+
1
2 (1 − π 2 ) )
2
2
n1 =
k (π 1kn−1π 2 ) 2
de tal forma que el tamaño muestral requerido será
de en
tal la
forma
que muestra
el tamaño
requerido será
primera
y nmuestral
2 = kn1 en la segunda muestra, donde la proporción combinada
de tal forma que el tamaño
muestral requerido será
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
n1 = viene dada por π = (n1π1 + n2π2)/(n
+ n2) = (π1 + kπ2)/(1 + k). En el
en ambas muestras
k (π 1 − π 2 ) 2 1
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
n1 =
de asignar
igualytamaño
grupos de
comparación k = 1, el tamaño muestral
en caso
la primera
muestra
n2 = kna1 ambos
en la segunda
k (π 1 muestra,
− π 2 ) 2 donde la proporción combinada en
π
+
n
π
)/(n
= (π1 +lakπ
En el caso de
ambas
muestras
viene
dada
por
π
=
(n
en la primera muestra y n2 = kn1 en la
proporción
1 1segunda
2 2 muestra,
1 + n2) donde
2)/(1 + k). combinada
en cada
una
de las amuestras
se reduce
a
asignar
igual
tamaño
ambos grupos
de comparación
k = 1, el tamaño muestral en cada una de
las en
muestras
se
reduce
a
enambas
la primera
muestra
y ndada
π la
= segunda
(n1π1 + nmuestra,
n2) = la
(π1proporción
+ kπ2)/(1 +combinada
k). En el
muestras
viene
por
2 = kn
1 en
2π2)/(n1 +donde
2
( z1−α / 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
(n1π1 +den2comparación
π2)/(n1 + n2) =k =(π1,
π2)/(1
k). En el
en ambas
muestras
dada
por π =grupos
caso
de asignar
a ambos
1 +elktamaño
, + muestral
n1 =igual
n 2 viene
=tamaño
(π 1 − π 2 ) 2
caso
de una
asignar
igual
tamañoseareduce
ambosagrupos de comparación k = 1, el tamaño muestral
en
cada
de las
muestras
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la asignación
de donde
igual tamaño
a las dos
muestras
eficiente
al requerir
un menor
tamaño total
la proporción
combinada
es es
π =más
(π +
π2)/2. Como
se comentó
anteriormente,
la del
en cada una de las muestras se reduce a 1
2
estudio para alcanzar una (misma
estudios
z1−α / 2 potencia.
2π (1 − π )Sin
+ zembargo,
− πel1 )diseño
+ π 2 (1de
− πdeterminados
π 1 (1 en
1− β
2) )
n1igual
= n 2 tamaño
= la aselección
(verasignación
ejemplos de
posteriores),
de muestras
de2 eficiente
distinto al
tamaño
puede
resultar más
las dos muestras
es más
requerir
un, menor
(π pacientes.
1 −π 2)
factible en términos de coste
de
En cualquier caso, 2la determinación
( z1o−αdisponibilidad
/ 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) )
n1 =estudio
npara
deltamaño
tamañototal
muestral
comparación
de proporciones
en muestras
independientes
2 = lapara
del
alcanzar una
misma potencia.
Sin embargo,
en ,el diseñoprecisa
(π 1 − π 2 ) 2
de los
siguientes
elementos:
donde
la proporción
combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la
de
determinados
estudios
(ver
ejemplos
posteriores),
la selección
de muestras
yy El nivel de significación
α del
contraste
bilateral, que
suele establecerse
pordeconvenio en
= (π1 + πes
Como
se comentó
anteriormente,
donde
la proporción
combinada
asignación
de igual tamaño
a las es
dosπ muestras
más
eficiente
al requerir
un menor la
2)/2.
α = 0,05.
distinto tamaño puede resultar más factible en términos de coste o disponibilidad de
yy La potencia 1 – β para detectar hipótesis alternativas ciertas. La mayoría de los estudios
asignación
tamaño
las dos muestras
es potencia.
más eficiente
al requerirenunelmenor
tamaño
totalde
deligual
estudio
paraaalcanzar
una misma
Sin embargo,
diseño
se diseñan con una potencia 1 – β = 0,80 ó 0,90.
yde
y Las
proporciones
poblacionales
π1 una
yposteriores),
π2misma
. A diferencia
de Sin
la comparación
medias, no
tamaño
total del estudios
estudio
para
potencia.
embargo,
en de
eldediseño
determinados
(ver alcanzar
ejemplos
la selección
de muestras
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
estamaño
necesario
especificar
magnitud
aproximada
esta
en cada
grupo
deque
determinados
estudios
(verla
ejemplos
posteriores),
lade
selección
muestras
de de
distinto
puede
resultar
más
factible
en términos
de
costeproporción
o de
disponibilidad
20 de
comparación, para contar así con un valor aproximado de las varianzas poblacionales
π1) y π2(1
– π2).resultar más factible en términos de coste o disponibilidad de
π1(1 – tamaño
distinto
puede
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipotético incremento del 50% en la incidencia
20
acumulada de cáncer de mama en 5 años entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Según los cálculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 años será aproximadamente
π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las respectivas incidencias acumuladas
150
Pastor-Barriuso R.
años será aproximadamente π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,5⋅10.202,55 = 15.303,82 ≈
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prevé que
Tamaño muestral para la comparación de proporciones
15.304 no usuarias. Así, para detectar un aumento subyacente del riesgo de cáncer
la cohorte esté compuesta de un 40% de mujeres usuarias de anticonceptivos
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en
usuarias
y no de
usuarias.
Comosesetiene
prevé
que
cohorte
esté compuesta
de de
un 40% de
= 1,5n
un nivel
orales
y un 60%
no usuarias,
que
n2 la
1. Asumiendo
mujeres
usuarias
de
anticonceptivos
orales
y
un
60%
de
no
usuarias,
se
0,80, se precisaría de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
nivel
de significación
α =se0,05
y una potencia 1 – β = 0,80, se
nsignificación
α = 0,05 un
y una
potencia
1 - β = 0,80,
necesitarían
2 = 1,5n1. Asumiendo
necesitarían
periodo de 5 años.
(1,96 2,5 ⋅ 0,00744 + 0,84 1,5 ⋅ 0,00929 + 0,00621 ) 2
n
=
El tamaño necesario
de la cohorte se reduciría si el seguimiento
del estudio se
1
1,5(0,00938 − 0,00625) 2
extendiera, por ejemplo,
hasta
los 10 años, ya que el número esperado de eventos
= 10.202,55
≈ 10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,5∙10.202,55 = 15.303,82 ≈ 15.304 no
aumentaría
considerablemente.
Siguiendo
argumentos
similares
a los del
usuarias. Así,
para detectar un aumento
subyacente
del riesgo
de cáncer
deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisaría21de una
anterior,
la incidencia
acumulada
toda ladurante
cohorteun
durante
10 de
años
sería π =
cohorte inicial
de 25.507
mujeresen
seguidas
periodo
5 años.
El tamañoy necesario
de la cohorte
se reduciría
si elentre
seguimiento
del estudio
se extendiera,
0,01500,
las incidencias
acumuladas
específicas
las usuarias
y no usuarias
por ejemplo, hasta los 10 años, ya que el número esperado de eventos aumentaría
considerablemente.
Siguiendo
argumentos
similares
los del ejemplo
anterior, la incidencia
π1 = 0,01875
y π2 =a 0,01250,
respectivamente.
La
de
anticonceptivos orales
serían
acumulada en toda la cohorte durante 10 años sería π = 0,01500, y las incidencias
acumuladas
específicas
entreentonces
las usuarias
cohorte
necesaria
consistiría
en y no usuarias de anticonceptivos orales serían
π1 = 0,01875 y π2 = 0,01250, respectivamente. La cohorte necesaria consistiría entonces en
n1 =
(1,96 2,5 ⋅ 0,01478 + 0,84 1,5 ⋅ 0,01840 + 0,01234 ) 2
1,5(0,01875 − 0,01250) 2
= 5.061,27 ≈ 5.062
usuarias de anticonceptivos orales y n2 = 1,5∙5.061,27 = 7.591,90 ≈ 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 años.
usuarias de anticonceptivos orales y n2 = 1,5⋅5.061,27 = 7.591,90 ≈ 7.592 no
de la población de referencia, la proporción de utilización de anticonceptivos
Dado
que la
realización
de un
prospectivo
Ejemplo es
9.8decir,
usuarias;
12.654
mujeres
seguidas
a loestudio
largo de
10 años. requeriría de una gran
= 0,40. Ade casos de
orales
entre
las
mujeres
del
grupo
control
será
aproximadamente
cantidad de personas-año de seguimiento para obtener un númeroπ2suficiente
de la población
referencia,
proporción
utilización
de anticonceptivos
cáncer
de mama,deresultará
máslaviable
llevar adecabo
un estudio
de casos y controles. En tal
partir
de
la
expresión
del
odds
ratio
en
estudios
de
casos
y
controles
(véase
caso, el propósito se centrará en seleccionar un número suficiente de
casos y controles
Ejemplo
9.8 las
Dado
queratio
ladel
realización
de
estudio
requeriría
deyAuna
πusuarias
=
0,40.
oralesdetectar
entre
grupo
control
será
aproximadamente
para
unmujeres
odds
de
cáncer
deun
mama
ω =prospectivo
1,50 entre las
no usuarias
2
Apartado
7.6.2),
se
tiene
que
de anticonceptivos orales con una potencia 1 – β = 0,80. Si los controles seleccionados
gran
de personas-año
de
seguimiento
para
obtener
un
número
suficiente
constituyen
una
muestra
representativa
de la población
referencia,
la proporción de
partircantidad
de la expresión
del odds
ratio
en estudios
de casos
ydecontroles
(véase
utilización de anticonceptivos
π 1 (1mujeres
− π 2 ) del grupo control será
) P( E c | entre
P( E | Dorales
D c ) las
, ratio
de
casos
de
cáncer
de
mama,
resultará
más
viable
llevar
aodds
cabo
un estudio
de de casos y
ω
=
=
=
0,40.
A
partir
de
la
expresión
del
en estudios
aproximadamente
π
Apartado 7.6.2), se 2tiene que
P( E | D c ) P( E c | D) π 2 (1 − π 1 )
controles (véase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propósito
se centrará en seleccionar un número
P( E | D) P( E c | D c ) π 1 (1 − π 2 ) ,
ω = la proporción
=
de donde puede despejarse
π1 de mujeres
que han usado
π 2 (ratio
1 − π 1de
) cáncer de mama ω =
| D c detectar
) P( E c | D
P( Epara
suficiente de casos y controles
un) odds
anticonceptivos
entre la
losproporción
casos de cáncer
mamaque
como
de donde puede orales
despejarse
π1 de de
mujeres
han usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos
orales con una potencia 1
orales
entre
los casos
de cáncer
de mama πcomo
de donde
puede
despejarse
la proporción
1 de mujeres que han usado
ωπ 2
1,50 ⋅ 0,40 una muestra representativa
seleccionados
constituyen
- β = 0,80. Si los controles
π 1 =entre
= 0,50.
= cáncer
anticonceptivos orales
los
casos
de
1 + ( ω − 1)π 2 1 + 0,50de
⋅ 0,mama
40 como
22
ωπ2
1,50 ⋅ 0,40
π1 =
= 0,50.la selección del
Para un nivel de significación
estándar =α = 0,05 y asumiendo
1 + (ω − 1)π 2 1 + 0,50 ⋅ 0,40
mismo número de casos que controles, de tal forma que la proporción combinada
Pastor-Barriuso R.
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles
mismo número de casos que controles, de tal forma que la proporción combinada
151
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del
Determinación
del número
tamaño muestral
mismo
de casos
que controles, de tal forma que la proporción combinada
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del mismo
sería
número de casos que controles, de tal forma que la proporción combinada π = (π1 + π2)/2
= (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles sería
n1 = n2 =
(1,96 2 ⋅ 0,45(1 − 0,45) + 0,84 0,50(1 − 0,50) + 0,40(1 − 0,40) ) 2
(0,50 − 0,40) 2
= 386,90 ≈ 387,
para una muestra total de 774 mujeres.
Supongamos
que,total
dadadela774
bajamujeres.
incidencia de cáncer de mama, la disponibilidad de casos
para
una muestra
incidentes de esta enfermedad en la población es limitada y, por tanto, se decide reclutar el
la proporción
combinada
será π = (π
doble de controles
que de
Así, n2 = 2n
Supongamos
que, dada
lacasos.
baja incidencia
de1 ycáncer
de mama,
la disponibilidad
de1 + kπ2)/
(1 + k) = (0,50 + 2∙0,40)/3 = 0,43. La muestra necesaria estaría entonces compuesta por
casos incidentes de esta enfermedad en la población es limitada y, por tanto, 2se
(1,96 3 ⋅ 0,43(1 − 0,43) + 0,84 2 ⋅ 0,50(1 − 0,50) + 0,40(1 − 0,40) )
n1 =
2
(0,50
0,40)Así,
decide reclutar el doble de controles 2que
de −casos.
n2 = 2n1 y la proporción
= 289,17 ≈ 290
combinada será π = (π1 + kπ2)/(1 + k) = (0,50 + 2⋅0,40)/3 = 0,43. La muestra
casos de cáncer de mama y n2 = 2∙289,17 = 578,33 ≈ 579 controles libres de la enfermedad.
necesaria
estaría
entonces
compuesta
pores decir, 95 mujeres más de las requeridas en un
El
tamaño
total sería
290 y+
= 869;
casos
de cáncer
de mama
n579
2 = 2⋅289,17 = 578,33 ≈ 579 controles libres de la
estudio con el mismo número de casos que controles.
enfermedad. El tamaño total sería 290 + 579 = 869; es decir, 95 mujeres más de
9.4.2 Tamaño muestral para la comparación de proporciones en dos muestras dependientes
23
las requeridas en un estudio con el mismo número de casos que controles.
Supongamos que se pretende contrastar la hipótesis nula H0: π1 = π2 frente a la hipótesis alternativa
n parejas de datos dependientes. Para simplificar la exposición,
bilateral H1: π1 ≠ π2 a partir
var( pde
b - pc ) = var( pb ) + var( pc) - 2 cov( pb , pc )
supondremos además que se trata de un estudio de casos y controles emparejados uno a uno,
9.4.2 Tamaño
muestrallas
para
la comparación
de proporciones
enexpuestos
dos muestras
respectivas
a un determinado
donde
π1 y π2 representan
πproporciones
πpoblacionales
2de
πb πc
b (1 − π b )
c (1 − π c )
+
=
factor antecedente entre casos y controles.
Como+las parejas concordantes
reflejan una misma
n proporciones
n en un diseño emparejado
dependientes
exposición
en caso y control, la hipótesis nulan de igualdad de
discordantes con el caso expuesto
es equivalente a H0: πb = πc, donde πb es la proporción de parejas
2
Supongamos
que
se
pretende
contrastar
la
hipótesis
nula
H
:
π
la hipótesis
(
π
+
π
)
−
(
π
−
π
)
0
1=π
2 frente
b
c
b
c
y πc es la proporción de parejas discordantes
con el control expuesto.
Según
la anotación
de la Tabla
=
,
n pares discordantes serán pb = b/n y pc = c/n.
7.6, las proporciones muestrales de ambos tipos de
≠ π2 a partir correlacionadas,
de n parejas de datos
Para esperado de la
alternativa
bilateralestarán
H1: π1 obviamente
Estas
proporciones
de taldependientes.
forma que el valor
= πb – πcentre
y su varianza
(véase
Apartado
3.4) , p ) = -π π /n. Así, la
diferencia
será
E(pb – pc)negativa
y pc viene
pordecov(p
donde la
b
c
c
simplificar
lacovarianza
exposición,
supondremospbademás
que dada
se trata
un estudio
de bcasos
y
var( pb − pc ) = var( pb ) + var( pc) − 2cov( pb , pc )
diferencia
en la proporción
muestral
de parejas
discordantes
pb - pc seguirá
y ππ2 )representan
controles
emparejados
uno a uno,
donde
π bπ(11 −
π c (1 − π c las
) respectivas
2π π
b
+
+ b c
=
n
nH y N(π - π , {(π +
bajo
aproximadamente
una distribución
normal
(πb +nπc)/n)
0
b entre
c
b
proporciones
poblacionales
de expuestos
a un N(0,
determinado
factor
antecedente
2
(π + π c ) − (π b − π c )
= b
,
2
π
)
(
π
π
)
}/n)
bajo
H
.
b
c
casosc y controles.
Como las 1parejas concordantesnreflejan una misma exposición en
152
dondePara
la covarianza
negativa
entre pbαy, pelc viene
dadaarrojará
por cov(p
, pc) = – πbπsignificativo
/n. Así, la diferencia
contraste
un
un nivel
de
significación
caso y control,
la hipótesis
nula de igualdad
de proporciones
enb resultado
un diseño cemparejado
en la proporción muestral de parejas discordantes pb – pc seguirá aproximadamente una
por cov(p
donde la covarianza
negativa
entre
pbHy pyc viene
b, pc) = -πb2πc/n. Así, la
+ πc)/n)
bajo
N(πb –dada
πc, {(π
distribución
N(0, (π
0
b + πc) – (πb – πc) }/n) bajo H1.
cuando normal
πb es la proporción
de parejas
discordantes con el
es equivalente
a H0: πb = πcb, donde
Para
un nivelen
delasignificación
α, el contraste
arrojará
un resultado
cuando
diferencia
proporción muestral
de parejas
discordantes
pb - psignificativo
c seguirá
proporción
el
expuesto.
caso expuesto y π
(π bde+ parejas
π c ) / n discordantes
ó pb − pc ≥ z1−con
(π control
pbc −espla
c ≤ − z1− α /2
α /2
b +π c)/n .
aproximadamente una distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb - πc, {(πb +
Según la notación de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares
Pastor-Barriuso
πc) - (πR.b - sin
πc)2pérdida
}/n) bajodeHgeneralidad
1.
Asumiendo
que πb < πc, la probabilidad del segundo evento
discordantes serán pb = b/n y pc = c/n. Estas proporciones estarán obviamente
, el contraste
unpodrá
resultado
significativo
Para un nivelbajo
de significación
será despreciable
la hipótesis α
alternativa
y laarrojará
potencia
entonces
aproximarse
correlacionadas, de tal forma que el valor esperado de la diferencia será E(p - p ) = π -
Asumiendo sin pérdida de generalidad que πb < πc, la
probabilidad del segundo evento
Tamaño muestral para la comparación de proporciones
será despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse
Asumiendo
mediante sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento será
despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse mediante
1 − β = P( pb − pc ≤ − z1−α / 2 (π b + π c ) / n | H1)


− z1−α / 2 (π b + π c ) / n − (π b − π c )
p b − p c − (π b − π c )
= P
H1 
≤

 {(π + π ) − (π − π ) 2 } / n
{(π b + π c ) − (π b − π c ) 2 } / n
b
c
b
c


 | π b − π c | − z1−α / 2 (π b + π c ) / n 
.
= Φ
 {(π + π ) − (π − π ) 2 } / n 
b
c
b
c


A partir de esta expresión, se sigue que el número total de parejas necesarias para alcanzar una
potencia 1 – β es
A partir de esta expresión, se sigue que el número total de parejas necesarias para
( z1−α / 2 π b + π c + z1− β (π b + π c ) − (π b − π c ) 2 ) 2
,
n
=
alcanzar una potencia 1 - β es
(π − π ) 2
b
c
para cuyo cálculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
cálculo
se precisa de
aproximada
de las
de obtener
y πcidea
. Aunque
son pocos
losprobabilidades
diseños emparejados
donde se
tipos
parejas
discordantes
πb una
cuenta con información a priori de estas probabilidades, las siguientes consideraciones generales
pueden
resultar
útiles
en ladiscordantes
práctica. Si elπbemparejamiento
fueralos
efectivo,
ambos
tipos de
parejas
y πc. Aunque sonnopocos
diseñospongamos por
25
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran
asociadas
con la
exposición
principal,
el nivel ade
exposición
entonces virtualmente
emparejados
donde
se cuenta
con información
priori
de estas sería
probabilidades,
las
independiente entre caso y control, de tal forma que la proporción esperada de parejas con el
π1(1 – útiles
π2) y con
control expuesto
y el caso
caso
expuestoconsideraciones
y el control no expuesto
πb =resultar
siguientes
generalessería
pueden
en laelpráctica.
Si el
no expuesto πc = π2(1 – π1), para una proporción total de pares discordantes πb + πc = π1(1 – π2)
+ πemparejamiento
probarse
quepor
el ejemplo
número un
necesario
parejas
no caso,
fuera puede
efectivo,
pongamos
estudio de casos
y coincidiría
2(1 – π1). En tal
aproximadamente con el número de sujetos por grupo en un estudio de casos y controles
independientes;
resultado
esperable
siempre que seno
empareje
porasociadas
características
controles donde
las variables
de emparejamiento
estuvieran
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronósticos
empleados
en principal,
el emparejamiento
asociados
con la exposición
estudio, los casos y
exposición
el nivel deestuvieran
exposición
sería entonces
virtualmentea independiente
controles se asemejarían en su nivel de exposición, induciendo así una correlación positiva en
entre caso ydecontrol,
de taldeforma
la proporción
esperada
de parejas
con entonces
el caso menos
la exposición
cada pareja
caso que
y control.
Las parejas
discordantes
serían
probables πb + πc < π1(1 – π2) + π2(1 – π1) y, en consecuencia, para obtener un número suficiente
de expuesto
pares discordantes
para
análisis, sería
el número
de ser
superiory al
πb = πtotal
π2parejas
) y con habría
el control
expuesto
el número
y el control
noelexpuesto
1(1 -de
de sujetos por grupo en un estudio independiente. En general, la comparación de proporciones
en caso
muestras
emparejadas
menor
potencia
que la comparación
cruda
de proporciones
πc = πtiene
una proporción
total de pares
discordantes
πb + πc en
no expuesto
2(1 - π
1), para
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =losπ1factores
utilizados en el emparejamiento.
(1 - π2) +deπconfusión
2(1 - π1). En tal caso, puede probarse que el número necesario de parejas
y de
controles
ejemplo
anterior,
Ejemploaproximadamente
9.9 En el estudio
coincidiría
condeel casos
número
sujetos independientes
por grupo en undel
estudio
de casos
cabría esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
de cáncer de mama
aumenta
con la edad.
Además,
como
la edadpor
está inversamente
y controles
independientes;
resultado
esperable
siempre
que se
empareje
relacionada con el uso de anticonceptivos orales, esta variable podría provocar una
confusión negativa
en la asociación
a estudio,
tal forma que elfuera
oddsefectivo,
ratio obtenido
de la
características
irrelevantes.
Por el contrario,
si elde
emparejamiento
esto es,
comparación cruda de casos y controles independientes tendería a infraestimar el potencial
efecto
nocivo
del uso deempleados
anticonceptivos
orales en el riesgo
de cáncerasociados
de mama.con la
si los
factores
pronósticos
en el emparejamiento
estuvieran
exposición a estudio, los casos y controles se asemejarían en su nivel de exposición,
Pastor-Barriuso R.
induciendo así una correlación positiva en la exposición de cada pareja de caso y
control. Las parejas discordantes serían entonces menos probables πb + πc < π1(1 - π2) +
153
Determinación del tamaño muestral
Para evitar esta posible confusión, se decide diseñar un estudio de casos y controles
emparejados, donde cada caso de cáncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
induciría un cierto grado de correlación positiva en la utilización de anticonceptivos de
cada pareja. Así, la proporción esperada de pares discordantes sería inferior a π1(1 – π2) +
π2(1 – π1) = 0,50(1 – 0,40) + 0,40(1 – 0,50) = 0,50, donde π1 = 0,50 y π2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlación moderada, podría establecerse
a priori una proporción aproximada de parejas discordantes πb + πc = 0,40. Para un
hipotético odds ratio de cáncer de mama ω = πb/πc = 1,50, se esperaría entonces una
proporción
de parejas
condicho
el control
depotencia
anticonceptivos
orales
y elnivel
caso de
no usuario
y un
necesarias para
detectar
efectousuario
con una
1 - β = 0,80
πc = (πb + πc)/(ω + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
= 0,24.
πsignificación
α = 0,05
sería Así, el número total de parejas necesarias para detectar dicho
b = ωπc = 1,50∙0,16
efecto con una potencia 1 – β = 0,80 y un nivel de significación α = 0,05 sería
n=
(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) − (0,24 − 0,16) 2 ) 2
(0,24 − 0,16) 2
= 487,64 ≈ 488,
con lo que se tendrían aproximadamente 0,40∙488 = 195 pares discordantes para el análisis.
Notar que el número de parejas requeridas para este estudio sería mayor que los 387 casos
ycon
controles
en el correspondiente
estudio
independiente
(Ejemplo
lo que senecesarios
tendrían aproximadamente
0,40⋅488
= 195
pares discordantes
para9.8). No
obstante, el análisis emparejado de casos y controles de igual edad eliminaría la posibilidad
de
sesgos por
diferencias
de edadde
entre
casos
y controles.
el análisis.
Notar
que el número
parejas
requeridas
para este estudio sería
El cálculo
del tamaño
puede extenderse
a laen
comparación
de tres oestudio
más proporciones
mayor que
los 387 muestral
casos y controles
necesarios
el correspondiente
en muestras dependientes o independientes. Aunque las fórmulas se derivan siguiendo
procedimientos
similares
a los 9.8).
aquí descritos,
suelen
emplearse
métodos de
de casos
corrección
del nivel
independiente
(Ejemplo
No obstante,
el análisis
emparejado
y
de significación α para preservar la probabilidad global de obtener un resultado significativo
entre las
múltiples
comparaciones
que selapretendan
realizar
(ver referencias
bibliográficas).
controles
de igual
edad eliminaría
posibilidad
de sesgos
por diferencias
de edad
9.5
1.
REFERENCIAS
entre casos y controles.
Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Lyon:
International
for Research
on Cancer,
ElAnalysis
cálculo of
delCohort
tamañoStudies.
muestral
puede
extenderse Agency
a la comparación
de tres
o más 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
enRaghavarao
muestras dependientes
o independientes.
fórmulas
se 1990.
3.
Desu MM,
D. Sample Size
Methodology. Aunque
Boston: las
Academic
Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aquí descritos, suelen emplearse
Sons, 1986.
5.
FleissdeJL,
Levin B, del
Paiknivel
MC.deStatistical
Methods
forpreservar
Rates andlaProportions,
Edition.
α para
probabilidadThird
global
métodos
corrección
significación
New York: John Wiley & Sons, 2003.
6.
Lemeshow
S, Hosmer
DW, Klar J,entre
Lwanga
SK. Adequacy
of Sampleque
Sizese
in Health Studies.
de obtener
un resultado
significativo
las múltiples
comparaciones
New York: John Wiley & Sons, 1990.
pretendan
realizar
(ver referencias
bibliográficas).
7.
Levy PS,
Lemeshow
S. Sampling
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8.
Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154
Pastor-Barriuso R.
Design and Analysis of Cohort Studies. Lyon: International Agency for Research
on Cancer, 1987.
TEMA 10
CORRELACIÓN Y
REGRESIÓN LINEAL SIMPLE
10.1
INTRODUCCIÓN
En el Tema 6 se discutieron las técnicas estadísticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos según la presencia o ausencia de
una determinada característica dicotómica; esto es, la dependencia entre una variable continua
y otra dicotómica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociación entre dos variables dicotómicas. Queda pendiente,
por tanto, describir los métodos necesarios para evaluar la relación entre dos variables continuas.
En este tema se presentan el coeficiente de correlación y la regresión lineal simple como las
dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas
X e Y. Como veremos más adelante, ambos procedimientos están estrechamente relacionados,
aunque obedecen a estrategias de análisis un tanto diferentes. Por un lado, el coeficiente de
correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
asumiendo
implícitamenteDE
queCORRELACIÓN
X es la variable explicativa o independiente e Y es la variable
10.2 COEFICIENTE
respuesta o dependiente.
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la
10.2 COEFICIENTE DE CORRELACIÓN
asociación lineal entre dos variables aleatorias X e Y es el coeficiente de correlación
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la asociación
ρxy, que sealeatorias
define como
poblacional
lineal
entre dos variables
X e Y es el coeficiente de correlación poblacional ρxy, que
se define como
ρ xy =
cov( X , Y )
σx σ y
=
E{( X − μ x )(Y − μ y )}
σx σy
,
donde μx y μy son las respectivas medias poblacionales de X e Y y σx y σy son sus correspondientes
desviaciones
El numerador
del coeficiente
cov(X, Y) =
μy son poblacionales.
las respectivas medias
poblacionales
de X e Y de
y σcorrelación
donde μx ytípicas
x y σy son sus
E{(X – μx)(Y – μy)} es la covarianza poblacional entre ambas variables y se define como la
esperanza
del producto
de las desviaciones
de cada variable
respecto de del
su media.
Así, sidevalores
correspondientes
desviaciones
típicas poblacionales.
El numerador
coeficiente
altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las
– μ=y)E{(X
tenderá
ser-positivo
y la
covarianzapoblacional
será positiva.
Por ambas
el contrario,
desviaciones
– μx)(yY)
μy)} es la
covarianza
entre
correlación(xcov(X,
- μxa)(Y
si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto
de variables
las desviaciones
tenderá
seresperanza
negativo del
y laproducto
covarianza
serádesviaciones
negativa. Nodeobstante,
resulta
y se define
comoa la
de las
cada
complicado determinar el grado de asociación lineal entre dos variables a partir de la magnitud
de variable
la covarianza,
ya que
depende
las unidades
de bajos)
medidadedeX las
variables.
respecto
de suésta
media.
Así, de
si valores
altos (o
tienden
a asociarse
Al dividir la covarianza por el producto de las desviaciones típicas de X e Y, el coeficiente de
- μy) tenderá
a o
con valores
altos (o bajos)
el producto
de las desviaciones
- μx)(y
correlación
poblacional
carecededeY,unidades
y permanece
inalterable(xante
cambios
de origen
escala en cualquiera de las dos variables. Puede comprobarse, además, que la covarianza entre
positivo
y lavalor
covarianza
Por de
el contrario,
si valores
altosy,de
X eser
Y es
menor en
absolutoserá
quepositiva.
el producto
sus desviaciones
típicas
en una
consecuencia,
variable se relacionan con valores bajos de la otra variable, el producto de las
Pastor-Barriuso R.
desviaciones tenderá a ser negativo y la covarianza será negativa. No obstante, resulta
155
comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables
Correlación y regresión lineal simple
estandarizadas Zx = (X -
μx)/σx y Zy = (Y - μy)/σy verifican que (véase Apartado 3.4)
comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables
var(Zx)está
+ var(Z
ρxyel) =caso
0; extremo de que
x - Zy) =
y) - 2cov(Z
x, Zy)–=
el coeficiente de var(Z
correlación
siempre
comprendido
entre
1 2(1
y 1. -En
(X - μx)/σx y ZyZ=x =
(Y(X
- μ–y)/μσxy)/σ
verifican
que (véase Apartado 3.4)
Zx =estandarizadas
ρxy estandarizadas
= 1, las variables
x y Zy = (Y – μy)/σy verifican que (véase
Apartado
3.4)
es decir,
Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx
var(Zx − Zy ) = var(Zx ) + var(Zy ) − 2cov(Zx , Zy ) = 2(1 − ρ xy ) = 0;
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal
es decir, Zx – Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx – Zy =
Zy que
esYuna
degenerada
en su
valor esperado,
Zx
es
decir, perfecta,
Z0,
x - lo
quealeatoria
las variables
X e Y (constante)
presentan una
relación
lineal positiva
E(Zpositiva
μvariable
=implica
x – Zy) =
y + σy/σx(X - μx). De igual forma, si ρxy = -1, se cumple que
perfecta, Y = μy + σy/σx(X – μx). De igual forma, si ρxy = – 1, se cumple que
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal
var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + ρ xy ) = 0
+ σy/σx(X
- μx). De
igual forma,
ρxyvalor
= -1,esperado,
se cumpleZque
positiva
= μyvariable
y, por
tanto,perfecta,
Z + Z esY una
aleatoria
constante
igual si
a su
+ Z = E(Z
x
y
x
y
x
una variable
igual a su
valor
esperado,
+ Zy
por tanto, Zx + Zsey es
deduce
que lasaleatoria
variablesconstante
X e Y presentan
una
relación
linealZxnegativa
+ Zy,
y) = 0, de donde
– σy/σ
(XZy–) =μxvar(Z
). Cuando
ρxy =y) 0,
se dicex, que
variables
linealmente
perfecta, Y = μy var(Z
+ 2cov(Z
Zy) =las2(1
+ ρxy) = están
0
x x+
x) + var(Z
de que
donde
deduce
que laslineal
variables
e Y presentan
unaNotar
relación
= E(Zx + Zy) = 0, ya
incorrelacionadas
noseexiste
relación
entreXambas
variables.
que si dos
variables son estadísticamente independientes, en el sentido de que el conocimiento del valor
+ Zyno
esaporta
una
aleatoria
igual
a su
esperado,
Zentonces
y,toma
por negativa
tanto,
Zx perfecta,
x + Zy
μninguna
(X - μx).constante
Cuando
= 0,
se
dice
que
las variables
Y =variable
quelineal
una variable
sobreρ
el
devalor
la otra
variable,
y - σy/σxinformación
xy valor
están incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya
=las
E(Zvariables
x + Zy) = 0, de donde se deduce que las variables X e Y presentan una relación
0.
queestán
podrían
presentar una dependencia
no lineal
aun cuando
ρxy =ambas
incorrelacionadas
ya que no existe
relación
lineal entre
linealmente
El
coeficiente
de
correlación
por
cuantificar
de asociación
lineal
μypermite,
- σy/σson
- μtanto,
= 0,elsegrado
dice que
laselvariables
lineal
negativa
perfecta,
Y =variables
x(X estadísticamente
x). Cuando ρxy independientes,
variables.
Notar
que
si
dos
en
sentido
entre dos variables, de tal forma que cuanto más próximo esté el coeficiente de correlación a 1
ó –están
1, mayor
será la dependencia
lineal positiva
negativa
entre lineal
las variables.
Este hecho se
incorrelacionadas
ya queuna
noovariable
existe
relación
entre información
ambas
linealmente
de
que
el
conocimiento
del
valor
que
toma
no
aporta
ninguna
ilustra en los diagramas de dispersión de la Figura 10.1, donde se representan los valores de
la variable
X en
el eje
horizontal
y los correspondientes
valoresindependientes,
de Y en el eje vertical.
A medida
variables.
Notar
que
si dos
variables
son estadísticamente
en la
el sentido
sobre
el
valor
de
la
otra
variable,
entonces
están
incorrelacionadas;
pero
que
que los puntos del diagrama de dispersión se desvían de una línea recta perfecta con pendiente
positiva
negativa,
el coeficiente
de que
correlación
sevariable
aleja de no
1 óaporta
– 1. Aunque la interpretación
de
de queo el
conocimiento
valor
toma
una
información
incorrelación
no implicadel
necesariamente
independencia,
ya que lasninguna
variables
podrían
la magnitud del coeficiente de correlación depende del contexto particular de aplicación, en
términos
generales
que una
correlación
baja por debajo depero
0,30que
en valor
sobre el
valor
deselaconsidera
otra variable,
entonces
están es
incorrelacionadas;
la absoluto,
ρ
=
0.
presentar
una
dependencia
no
lineal
aun
cuando
xy
moderada entre 0,30 y 0,50, y alta por encima de 0,50.
incorrelación
no implica
ya que
las
variables
podrían
Notar,
por último,
ennecesariamente
la interpretación
coeficiente
de elcorrelación
hay
dos errores
El coeficiente
deque
correlación
permite, independencia,
pordel
tanto,
cuantificar
grado
de asociación
frecuentes que deben ser evitados:
ρxymás
= 0.próximo esté el coeficiente de
presentar
una
dependencia
notal
lineal
aunque
cuando
entre
dos
variables,
de
forma
cuanto
ylineal
y El coeficiente
de correlación
entre
X e Y no
es una
medida de la magnitud de la pendiente
de la recta de regresión entre ambas variables. El coeficiente de correlación determina el
El coeficiente
de correlación
permite,
por tanto,
cuantificar
grado deentre
asociación
correlación
1 ó -1,
mayor de
serálos
la dependencia
lineal
positiva
oelnegativa
grado de aaproximación
puntos del diagrama
de dispersión
a una las
línea recta,
independientemente de cuál sea la magnitud de la pendiente de dicha recta. Como se
lineal entreEste
dos variables,
de tal formadiagramas
que cuanto más
próximo esté
coeficiente
de
dispersión
laelFigura
10.1,
variables.
seailustra
ilustra en los hecho
paneles
y b deenlalos
Figura 10.2, el de
coeficiente
de de
correlación
es
mayor en el
panel a, a pesar de que la pendiente de la recta de regresión es mayor en el panel b. La
correlación
a 1 ó -1, mayor
será ladedependencia
positiva
o negativa
las
donde
se representan
losdevalores
la
Xlineal
en el
eje horizontal
y losentre
pendiente
de la recta
regresión
novariable
se determina
mediante
el coeficiente
de correlación,
sino mediante las técnicas de regresión lineal simple que se discutirán en la segunda parte
variables. Este hecho
se ilustra en los diagramas de dispersión de la Figura 10.1,
correspondientes
de este tema. valores de Y en el eje vertical. A medida que los puntos del diagrama
yde
y El
coeficiente
de correlación
no la
esrecta
unaperfecta
medida
deeje
la
idoneidad
lineal.
donde
se representan
los de
valores
de
variable
X en con
el
horizontal
ydel
losmodelo
dispersión
se desvían
una línea
pendiente
positiva
o negativa,
el El
coeficiente de correlación sólo determina la existencia de una componente lineal en la
relación entre
dos
variables,
independientemente
dela
lainterpretación
forma
demagnitud
dicha
relación.
correspondientes
valores
de
en eldeeje1 vertical.
A medida
que subyacente
los puntos
del
diagrama
coeficiente
de correlación
seYaleja
ó -1. Aunque
de la
Así, por ejemplo, el coeficiente de correlación es mayor en el panel d que en el panel c de
Figura 10.2,
aun cuando
relación
subyacente
entre las variables
panel el
d es
deladispersión
se desvían
de una la
línea
recta perfecta
con pendiente
positiva o del
negativa,
3
claramente no lineal (en este caso, cuadrática). Por ello, antes de analizar el grado de
asociacióndelineal
entre se
dosaleja
variables,
es Aunque
aconsejable
inspeccionardelalanaturaleza
coeficiente
correlación
de 1 ó -1.
la interpretación
magnitud de la
relación mediante un diagrama de dispersión.
3
156
Pastor-Barriuso R.
Coeficiente de correlación
y
(a) ρxy = 0,70
(b) ρxy = 0,50
(c) ρxy = 0,30
x
x
x
(d) ρxy = -0,70
(e) ρxy = -0,50
(f) ρxy = -0,30
y
Figura 10.1
Figura 10.1 Diagramas de dispersión entre dos variables aleatorias X e Y con coeficientes de correlación
positivos ρxy = 0,70 (a), 0,50 (b) y 0,30 (c), así como con coeficientes de correlación negativos ρxy = – 0,70 (d),
– 0,50 (e) y – 0,30 (f).
y
(a) ρ xy = 0,70
(b) ρxy = 0,50
x
x
(c) ρxy = -0,70
(d) ρxy = -0,80
y
Figura 10.2
Figura 10.2 Diagramas de dispersión, coeficientes de correlación y rectas de regresión entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresión (paneles a y b) y distintas formas de la
relación subyacente (paneles c y d).
Pastor-Barriuso R.
157
Una vez descritas las propiedades e interpretación del coeficiente de correlación
poblacional, en este apartado se presentan los métodos para estimar el coeficiente de
Correlación y regresión lineal simple
AS DE TENDENCIA
CENTRAL
correlación entre dos variables X e Y a partir de los valores observados de ambas
de tendencia central informan acerca de cuál es el valor más representativo
una
muestra demuestral
n sujetos de
mutuamente
variables
(xi, yi) ende
10.2.1
Coeficiente
correlación
Pearson independientes, i = 1, ..., n.
minada variableUna
o, dicho
de forma las
equivalente,
estos
estimadores indican
vez
descritas
propiedades
e interpretación
del coeficiente
de correlación
El estimador
muestral
más utilizado
para evaluar
la dependencia
lineal entrepoblacional,
dos
en este apartado se presentan los métodos para estimar el coeficiente de correlación entre dos
qué valor se agrupan
los X
datos
medidas
de tendenciaambas variables (x , y ) en una muestra de
variables
eXYeaobservados.
losLas
valores
variables
Ypartir
es el de
coeficiente
de observados
correlación de
muestral de Pearson, que
i
i se denota por
n sujetos mutuamente independientes, i = 1, ..., n.
muestra sirven tanto para resumir los resultados observados como para
o simplemente
por más
r, y se
define para
comoevaluar
la covarianza
muestrallineal
entreentre
X e Ydos
dividida
rEl
xy,estimador
muestral
utilizado
la dependencia
variables X
Y esparámetros
el coeficiente
de correlación
muestral de Pearson,
que se denota por rxy, o simplemente
encias acerca dee los
poblacionales
correspondientes.
A
producto
sus la
desviaciones
muestrales,
porpor
r, yel se
define de
como
covarianzatípicas
muestral
entre X e Y dividida por el producto de sus
muestrales,
se describen losdesviaciones
principales típicas
estimadores
de la tendencia central de una
n
1 n
(
x
−
x
)(
y
−
y
)
( x i − x )( y i − y )
 i

i
n − 1 i =1
i =1
,
r=
=
n
n
sx s y
 ( xi − x ) 2  ( y i − y ) 2
aritmética
i =1
i =1
mética, denotada
por x ,ysesxdefine
la ysuma
de cada uno
de los
donde
son lacomo
media
la desviación
típica
muestral de X y y y sy son la media y la
donde xtípica
y sx son
la media
y la
desviación
típicademuestral
de Xmuestral
y y y syde
son
la media
y
desviación
muestral
de Y.
Así,
el coeficiente
correlación
Pearson
se define
trales dividida por
el número
de observaciones
Si denotamos
de forma
análoga
al coeficiente realizadas.
de correlación
poblacional, reemplazando la covarianza y las
desviaciones
típicas
poblacionales
suselcorrespondientes
estimadores
muestrales.
. Así,
coeficiente de correlación
muestral
de Al igual
la desviación
típica
muestral de Ypor
quexielelcoeficiente
de correlación
poblacional,
de correlación muestral siempre
ño muestral y por
valor observado
para el sujeto
i-ésimo, iel= coeficiente
1, ..., n,
1 yforma
1, de análoga
tal formaal que
cuanto más
se aproxime
a 1 ó – 1, mayor será la
toma
valores
Pearson
se entre
define– de
coeficiente
de correlación
poblacional,
dría dada por dependencia lineal positiva o negativa entre las variables.
reemplazando la covarianza y las desviaciones típicas poblacionales por sus
Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersión entre el índice de
x + x 2 + ... + x n
1 n
masa
medida de. obesidad
queAl
se igual
obtiene
el peso
kilogramos por la
= 1
x =correspondientes
x i corporal,
estimadores
muestrales.
quedeeldividir
coeficiente
deencorrelación

n i =1
n
Colesterol HDL (mmol/l)
poblacional, el coeficiente de correlación muestral siempre toma valores entre -1 y 1, de
2,25
es la medida de tendencia central
más utilizada y de más fácil
tal forma que cuanto más se aproxime a 1 ó -1, mayor será la dependencia lineal
2
n. Corresponde al “centro de gravedad”
de los datos de la muestra. Su
positiva o negativa entre las variables.
itación es que está muy influenciada por los valores extremos y, en este
1,5
10.1
En lade
Figura
10.3 se presenta el diagrama de dispersión entre el
no ser un fiel reflejo de laEjemplo
tendencia
central
la distribución.
índice de masa corporal, medida de obesidad que se obtiene de dividir el peso en
o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1
án los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
5
“European Study on Antioxidants,
Myocardial Infarction and Cancer of
0,5
ast“ (EURAMIC), un estudio
0,25multicéntrico de casos y controles realizado
991 y 1992 en ocho países Europeos e20Israel para evaluar
el efecto de
24
28 los
32
36
Indice de masa corporal (kg/m²)
5
Figura 10.3
Figura 10.3 Diagrama de dispersión entre el índice de masa corporal y el colesterol HDL en el grupo
control del estudio EURAMIC.
158
Pastor-Barriuso R.
que indica una asociación lineal negativa moderada entre el índice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
Coeficiente de correlación
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice
altura en metros al cuadrado,
el colesterol
HDL enaquí]
los 533 controles del estudio
[Figura y10.3
aproximadamente
de masa corporal.
Esta apreciación
se confirma
mediante
cálculoundelcierto grado
EURAMIC
con valores
para ambasvisual
variables.
A simple
vista, seelaprecia
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
de de
correlación
de
decrecer
conforme
aumentamuestral
elríndice
dePearson,
masa
corporal.
Esta apreciación
visual
se confirma
de Pearson
tiene
una distribución
muestral
tanto
más
El coeficiente
correlación
mediante el cálculo del coeficiente de correlación muestral de Pearson,
asimétrica cuanto más distante
1 533 esté la correlación subyacente ρ del valor 0. Cuando ρ
 ( xi − x )( y i − y ) − 0,285
532 i =1
está relativamenterpróximo
a 1 ó -1, las estimaciones
muestrales
del coeficiente de
=
=
= − 0,276,
sx s y
3,50 ⋅ 0,295
en la de
cola
que corporal
no está y el
correlación
tenderán
por fuerza
a desviarse
del parámetro
que indica
una asociación
lineal
negativamás
moderada
entre el ρíndice
masa
que indicaHDL.
una asociación lineal negativa moderada entre el índice de masa
colesterol
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con
El coeficiente
decolesterol
correlación
r de Pearson tiene una distribución muestral tanto más asimétrica
corporal y el
HDL.
un marcado
sesgoesté
negativo
o positivo.
Por ello, el
intervalo
de confianza
cuanto
más distante
la correlación
subyacente
ρ cálculo
del valorde0.unCuando
ρ está
relativamente
próximo a 1 ó – 1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza
realizarse
a partir
de la por
distribución
r,
y un test más
de hipótesis
para ρρno
a desviarse
del parámetro
ensuele
la cola
que no está
limitada
el rango muestral
[– 1, 1] dedevalores
10.3 aproximadamente
aquí]sesgo negativo o positivo. Por
posibles de r, resultando en[Figura
una distribución
con un marcado
z de Fisher
sino
mediante
ello,
el cálculo
delauntransformación
intervalo de confianza
y un test de hipótesis para ρ no suele realizarse a
partir de la distribución muestral de r, sino mediante la transformación z de Fisher
El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más
1
1 + r 
z = log
,
2no es
− r pequeño,
ρ del
valor 0. Cuando
asimétrica
cuanto
másydistante
estémuestral
la correlación
subyacente
 1muy
del modelo
normal
el tamaño
típicamente
n > 50, ρla
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede
estátransformación
relativamente
a 1seódistribuye
-1,poblacionales
las estimaciones
muestrales
del
de mucho del
de
Fisher
forma
aproximadamente
con
probarse
que si laszpróximo
distribuciones
de
las
variables
X coeficiente
e Ynormal
no
distan
. Puede
cuya distribución
muestral
presenta
una de
mayor
simetría
para cualquier
valor
de ρmedia
modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación
en la cola
que+no
está– ρ)}/2 y
tenderán
porde
a desviarse
parámetro
ρque
)/(1
ρ)}/2
yfuerza
varianza
1/(n
- 3),más del
zcorrelación
delog{(1
Fisher+se
distribuye
forma
aproximadamente
normal
conρ media
ρ)/(1
probarse
si- las
distribuciones
poblaciones
de las
variables
X e Y log{(1
no distan
mucho
varianza 1/(n – 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con 6
~ N  1 log 1 + ρ , 1  .
z→
 1el
 2 ello,
ρ  n − de
3  un intervalo de confianza
un marcado sesgo negativo o positivo. Por
 − cálculo

Notar
quedelahipótesis
varianza para
de z es
inversamente
proporcional
al la
tamaño
muestral
e independiente
de
ρ no
suele realizarse
a partir de
distribución
muestral
de r,
y un test
Notar que lasubyacente
varianza de
la correlación
ρ. z es inversamente proporcional al tamaño muestral e
sino mediante la transformación z de Fisher
independiente
de laLas
correlación
subyacente
Ejemplo 10.2
Figuras 10.4(a)
y (b)ρ.muestran las distribuciones del coeficiente de
correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal
1
 1 + r  simples de tamaño 50 obtenidas a partir
y el colesterol HDL en 1000 muestras
z = logaleatorias
 muestran
,
10.2 del
Lasestudio
FigurasEURAMIC.
10.4(a)
las distribuciones
coeficiente
de Ejemplo
los controles
muestral de rdel
presenta
un leve
2 y (b)
1 La
− r distribución

sesgo positivo ya que el percentil 75 (– 0,18) está ligeramente más alejado de la mediana
de correlación
r de Pearson
y de la
transformación
de Fisher
entrelaeltransformación
índice de
(– 0,28)
que el percentil
25 (– 0,36).
Para
corregir esta zleve
asimetría,
z
Puede de la
cuya distribución
muestral
presenta
una
mayor
simetría
para
cualquier
valor
de
de Fisher aumenta la dispersión de los valores de r más distantes de 0 (colaρ.inferior
masa corporal
y el colesterol
HDL constantes
en 1000 muestras
aleatorias
simples
de tamaño
distribución)
y mantiene
virtualmente
los valores
próximos
a 0 (cola
superior),
probarse
que
si
las
distribuciones
poblaciones
de
las
variables
X
e
Y
no
distan
mucho
dando lugar así a una distribución sensiblemente más simétrica.
50 obtenidas a partir de los controles del estudio EURAMIC. La distribución
6
En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson
presenta
unade
leve
asimetríaunyaleve
quesesgo
la correlación
– 0,276 en
losestá
controles
muestral
r presenta
positivo subyacente
ya que el percentil
75 todos
(-0,18)
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación
subyacente
ρ sea
la distribución
muestral
r será
notablemente
asimétrica
ligeramente
másalta,
alejado
de la mediana
(-0,28)deque
el percentil
25 (-0,36).
Para y, en
consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más
marcado.
corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión
de los valores de r más distantes de 0 (cola inferior de la distribución) y Pastor-Barriuso
mantiene R.
virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a
159
Correlación y regresión lineal simple
Frecuencia relativa (%)
20
15
20
[Figura 10.4 aproximadamente
aquí]
15
10
10
5
5
En base a la distribución muestral de la transformación z de Fisher, el intervalo de
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por
[Figura 10.4 aproximadamente
aquí]
0
1
(z1, z2)0= z ±0,2z1−α / 2 -0,8 , -0,6 -0,4 -0,2
-0,8
-0,6
-0,4
-0,2
0
0,2
3
n
−
En base a la distribución muestral de la transformación z de Fisher,
de
1 elintervalo
1+ r 
0
(a) r
(b ) z =
2
log 

1− r 
log{(1 +normal
ρ)/(1 - estandarizada.
ρ)}/2 viene dado
confianza
100(1
- α)% para
el percentil
1 - αel/2parámetro
de la distribución
Así,por
el
donde
z1-α/2ales
Figura 10.4 Distribución muestral
del coeficiente
de correlación r deaquí]
Pearson (a) y de la transformación
[Figura
10.4 aproximadamente
z deintervalo
Fisher (b)de
entre
el
índice
de
masa
corporal
y
el
colesterol
HDL
en
1000
muestraspoblacional
aleatorias simples
correlación
ρ de
confianza al 100(1 - α)% para el coeficiente
1 deLas
tamaño 50 obtenidas a partir de los controles
del
estudio
EURAMIC.
líneas
verticales
en
trazo
discon,
(z1, z2) = z ± z1−α / 2
tinuo representan los parámetros subyacentes ρ = – 0,276
y log{(1
+
ρ)/(1
–
ρ)}/2
=
–
0,284.
n−3
se obtiene
el inverso
de la transformación
de Fisher
ambos el
límites
del Figura
En basedea aplicar
la distribución
muestral
de la transformación
z dea Fisher,
intervalo
de 10.4
intervalo,
para
log{(1 +normal
ρ)/(1
ρ)}/2 viene
dado
confianza
100(1
- α)%muestral
el percentil
1 - αel/2parámetro
de
Así,por
el confianza
donde
z1-aα/2al
En base
laes
distribución
de la
la distribución
transformación
z de- estandarizada.
Fisher,
el intervalo
de
al 100(1 – α)% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 viene dado por
coeficiente
intervalo de confianza al 100(1
- α)%
 exp(
2 z1para
) − 1 elexp(
2 z )1− 1 de correlación poblacional ρ
z ± ,z1−α / 2 2
, .
 (z1 , z2 ) =
n
−
3
z
z
exp(
2
)
1
+
exp(
2
)
+
1
1
2


se obtiene de aplicar el inverso de la transformación de Fisher
a ambos límites del
donde z1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. Así, el intervalo de
intervalo,
confianza
α)%
de correlación
ρ sepuntual
obtiene
el–percentil
1el- más
αcoeficiente
/2 de
la distribución
normal
Así, elr de aplicar
donde
zal
1-α100(1
/2 es para
ρ espara
tanto
asimétrico
alrededor
depoblacional
laestandarizada.
estimación
Este
intervalo
el inverso de la transformación de Fisher a ambos límites del intervalo,
coeficiente
poblacional
intervalo
de confianza
al 100(1
- α)%
cuanto
mayor
sea r en valor
absoluto
sea2el
muestral. Asimismo,
el ρ
 exp(
2 zy1para
)menor
z 2 tamaño
− 1 elexp(
) − 1 de correlación
 .

,
1
1 ) + 1 exp( 2 z 2 )
 exp(
se obtienededelaaplicar
el inverso
de la2 ztransformación
de+ Fisher
a ambos límites del
contraste
hipótesis
nula H
0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor
intervalo,
seaρ
r0 en
valor absoluto
sea
tamaño muestral.
Asimismo,
el contraste
de la
se intervalo
realiza
mediante
eltanto
estadístico
máselasimétrico
alrededor
de la estimación
puntual
r hipótesis
Este
para ρyesmenor
nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ ρ0 se realiza mediante el estadístico
cuanto mayor sea r en valor absoluto
sea el tamaño muestral. Asimismo, el
 exp(2 zy1 )menor
1 + ρ20z 2 ) − 1  .
1 − 1 ,exp(

exp(z2−z1 2) +log
1 exp(
2 z 2 ) + 1 

1
−
ρ
alternativa bilateral H1: ρ ≠
 a la0hipótesis
contraste de la hipótesis nula H0: ρ = ρ0 frente

,
1
ρEste
realiza mediante
estadístico
más asimétrico
de la estimación puntual r
para ρ eseltanto
0 se intervalo
3
n − alrededor
160
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el
contraste
se Hcalcula,
tanto, como el una
área
bajo
normal
estandarizadaElpara
 1 +laρcurva
que bajo
aproximadamente
estandarizada.
valoraquellos
P
1 distribución
0 sigue por
0  normal


log
z
−
valores tanto o más distantes de 0 que el valor
observado
del estadístico.
ρ 0hipótesis
alternativa bilateral H : ρ ≠
contraste de la hipótesis nula H0: ρ = ρ20 frente
 1 −a la

, curva normal estandarizada1 para
del contraste se calcula, por tanto, como el área bajo la
1
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del
ρ0 se realiza
mediante el estadístico
nque
−masa
3 el corporal
aquellos
valores
tanto o másentre
distantes
de 0de
valor observado
del estadístico.
coeficiente
de correlación
el índice
y el colesterol
HDL fue r = – 0,276.
La transformación z de Fisher de esta correlación es z = log{(1 – 0,276)/(1 + 0,276)}/2 = – 0,284.
estimación por una
intervalo
correlación subyacente ρ entre ambas
 1 +deρla
quePara
bajoobtener
H0 sigueuna
aproximadamente
1 distribución
0  normal estandarizada. El valor P

− log del estudio
Ejemplo 10.3 A partir de 533zcontroles
EURAMIC, la estimación
2
1 − ρ0 
, curva normal estandarizada para
del contraste se calcula, por tanto, como el área bajo la
puntual
del coeficiente de correlación1entre el índice de masa corporal y el
Pastor-Barriuso
R.
− 3 el valor observado del estadístico.
aquellos valores tanto o más distantes de 0nque
8
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
1
= -0,284 ± 1,96⋅0,043 = (-0,369; -0,199)
− 0,284 ± z 0,975
ρ entre ambas variables en la población de
intervalo de la correlación533
subyacente
3
−
parámetro log{(1 + ρ)/(1 - ρ)}/2 como
Coeficiente de correlación
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
y, a continuación, se aplica el
1 inverso de la transformación de Fisher a ambos
= -0,284 ± 1,96⋅0,043 = (-0,369; -0,199)
− 0,284 ± z 0,975
-533
ρ)}/2
como del estudio EURAMIC, se calcula en primer lugar
parámetro
log{(1
+ ρ)/(1 de
variables en
la población
referencia
3
−
límites
el
IC al del
95%intervalo
para el parámetro log{(1 + ρ)/(1 – ρ)}/2 como
asociación lineal subyacente entre ambas variables. Además, las inferencias basadas en
1 inverso de la transformación de Fisher a ambos
y, a continuación,
aplica el
− 0,284
±2(zse
= − 0,284
± 1,96
= (− 0,369; − 0,199)
0 ,0
975
exp{
,
369
)}
−
− 1 exp{
2(−de
0,199
)} −⋅0,043
1  muestral
la transformación
correlación
asumen que las
533coeficiente
− ,3
 de Fisher del
 = (-0,353; -0,196).
exp{
2
(
0
,
369
)}
1
−
+
exp{
2
(
−
0
,
199
)}
+
1

límites del intervalo
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos límites del
variables se distribuyen de forma aproximadamente normal y que el tamaño muestral es
intervalo
y,
a continuación, se aplica el inverso de la transformación de Fisher a ambos
Notar que elexp{
intervalo
resultante
es ligeramente
respecto
aevidencia
la
2(−0,En
369
)} − 1 exp{
2(−0,199)} asimétrico
− 1
suficientemente
grande.
aquellas
una
clara
en
= (− 0,353;
− 0,196).
, situaciones dondeexista
límites delintervalo
exp{2(−0,369)} + 1 exp{2(−0,199)} + 1 
 puntual
estimación
r =o-0,276.
Para contrastar
hipótesis
de ausencia
contra
de la normalidad,
bien cuando
la muestralasea
muy pequeña,
estasde
inferencias
Notar que el intervalo resultante es ligeramente asimétrico respecto a la estimación
exp{
2entre
(−0Para
,369
)}contrastar
− 1variables
exp{2la(−H
0,199
)}0,
−de
1se ausencia
elde
estadístico
asociación
ambas
–intervalo
0,276.
hipótesis
asociación
lineal entre
puntual
r =ellineal
Notar
que
resultante
asimétrico
respecto
a la En este
0: ρ =métodos
 calcula
= (-0,353;
-0,196).
, es ligeramente
pueden
resultar
engañosas
y es
preferible
utilizar
no paramétricos.
 exp{
2
(
0
,
369
)}
1
−
+
exp{
2
(
−
0
,
199
)}
+
1
ambas variables
H0: ρ = 0, se calcula el estadístico 

estimación
puntual
= -0,276. Para
contrastar la
hipótesis
dede
ausencia
de como un
apartado se presenta elrcoeficiente
de correlación
los rangos
Spearman
− 6,53,
−0,284
533 − 3 =de
Notar que el intervalo resultante es ligeramente asimétrico respecto a la
0, se calcula
elrelación
estadístico
asociación
lineal
ambas
Hla
que corresponde
aentre
un valor
P variables
bilateral
bajo
la=distribución
normal
estandarizada
0: ρ
procedimiento
no paramétrico
para
detectar
existencia
de una
monótona 2P(Z ≤
que
corresponde
a
un
valor
P
bilateral
bajo
la
distribución
normal
estandarizada
–
6,53)
=
2F(–
6,53)
<
0,001.
En
conclusión,
existe
una
asociación
lineal
estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de moderada pero
significativa
entre el índice
corporal y ellineal)
colesterol HDL con un coeficiente de
(creciente
o decreciente,
aunquede
nomasa
necesariamente
-0,284
533 − 3 = -6,53, entre dos variables
correlación
de
–
0,28
(IC
al
95%
–
0,35
a
–
0,20;
P
<
0,001).
≤
-6,53)
=
2
Φ
(-6,53)
<
0,001.
En
conclusión,
unaelasociación
2P(Z
calcula
estadísticolineal
asociación lineal entre ambas variables H0: ρ = 0, seexiste
cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no
moderada
pero de
significativa
el índice
masa
corporal
y el colesterol
HDL
corresponde
a correlación
un valor Pentre
bilateral
bajo de
la de
distribución
normal
estandarizada
10.2.2que
Coeficiente
de los
rangos
Spearman
-0,284 533
− 3 = -6,53,
normales o incluso variables cualitativas
ordinales.
Al igual
que
la
media
y
la
desviación
típica
muestral,
el 95%
coeficiente
correlación
de Pearson es
con
un
coeficiente
de
correlación
de
-0,28
(IC al
-0,35
ade-0,20;
P < 0,001).
existe
una
asociación
lineal
2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión,
sensible
a
la
presencia
de
valores
extremos
en
alguna
de
las
variables,
que
podrían
distorsionar
la
Si se desea determinar el grado en que dos variables se relacionan de forma
que
corresponde
a
un
valor
P
bilateral
bajo
la
distribución
normal
estandarizada
estimación
resultante,
no siendo entonces
buen reflejo
decorporal
la asociación
lineal subyacente
moderada
pero significativa
entre eluníndice
de masa
y el colesterol
HDL entre
ambas
variables.
Además,
las
inferencias
basadas
en
la
transformación
de
Fisher
del
coeficiente
monótona
sin realizar
ninguna asunción
sobre la
poblacional de ambas
10.2.2
Coeficiente
de
correlación
de los En
rangos
dedistribución
Spearman
≤
-6,53)
=
2
Φ
(-6,53)
<
0,001.
conclusión,
existe
una
asociación
lineal
2P(Z
de correlación
muestral asumen
que lasdevariables
forma
con un coeficiente
de correlación
-0,28 (ICseal distribuyen
95% -0,35 ade
-0,20;
P <aproximadamente
0,001).
normal
y
que
el
tamaño
muestral
es
suficientemente
grande.
En
aquellas
situaciones
donde
exista
variables,
basta
con
utilizar
el
orden
de
las
observaciones
de
cada
variable
en
lugar
Al igual
que la media
y la desviación
típica
muestral,
el coeficiente
de
correlación
de de
moderada
pero
significativa
entre
el
índice
de
masa
corporal
y
el
colesterol
HDL
una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequeña, estas
inferencias
puedenvalores.
resultar Así,
engañosas
ysujeto
es preferible
utilizar
noyparamétricos.
En este
rangos
si en función
sus verdaderos
a cada
se
le de
asignan
losmétodos
Pearson
esunsensible
a lacorrelación
presencia
de
valores
extremos
en alguna
de
lasri variables,
que de
10.2.2
Coeficiente
de
de
los
rangos
Spearman
con
coeficiente
de
correlación
de
-0,28
(IC
al
95%
-0,35
a
-0,20;
P
<
0,001).
apartado se presenta el coeficiente de correlación de los rangos de Spearman como un procedimiento
no la
paramétrico
para
detectar
existencia valores
de una observados
relación monótona
(creciente
decreciente,
yi de
dentro
de la omuestra
posición
que
ocupan
suslarespectivos
xi eun
podrían
distorsionar
layestimación
resultante,
no siendo
entonces
buen
reflejo
dedela
Al
igual
que
la
media
la
desviación
típica
muestral,
el
coeficiente
correlación
aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables
continuas
conascendentemente
distribuciones
subyacentes
normales
o que
incluso
variables
cualitativas
ordinales.
10.2.2
Coeficiente
de correlación
los
rangos
dede
Spearman
ordenada
por de
Xdeevalores
Y. no
En
elextremos
caso
existan
observaciones
Pearson
es sensible
a la presencia
en alguna
devarias
las variables,
que
9 sin
Si se desea determinar el grado en que dos variables se relacionan de forma monótona
Al
igual
que
la
media
y
la
desviación
típica
muestral,
el
coeficiente
de
correlación
de
con
el
mismo
valor
de
una
variable
(empates),
se
asigna
a
cada
una
de
ellas
la
media
de con
realizar distorsionar
ninguna asunción
sobre la
distribución
poblacional
deun
ambas
basta
podrían
la estimación
resultante,
no siendo
entonces
buen variables,
reflejo de la
utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. Así,
Pearson
es sensible
a la presencia
valores
enlaalguna
las variables,
que
se sus
calcula
los rangos
correspondientes.
Elde
coeficiente
de correlación
rs dedeSpearman
función
de
posición
que
ocupan
respectivos
a cada
sujeto
se
le asignan
los rangos
ri y si enextremos
valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9el caso
podrían
distorsionar
laobservaciones
estimación
resultante,
no siendo
entonces
un buen(empates),
reflejo
la asigna a
como
el
coeficiente
de correlación
de Pearson
los de
valores
de simplemente
que existan
varias
con
el mismo
valor
de unareemplazando
variable
se
cada una de ellas la media de los rangos correspondientes. El coeficiente de correlación rs de
por sus correspondientes
rangos (r
si),
observados
(xi, yi)simplemente
Spearman
se calcula
como el coeficiente
dei, correlación
de Pearson reemplazando
9
los valores observados (xi, yi) por sus correspondientes rangos (ri, si),
n
rs =
 (r
i =1
n
 (r
i =1
i
i
− r )( s i − s )
− r)2
n
 (s
i =1
i
,
− s)2
Pastor-Barriuso R.
10
161
= -1,
verifican
que si =orden
n+
monótona
creciente
perfecta.
De igual forma,
si rs de
decir,
observados
de valores
las variables
Xlose rangos
Y presentan
una relación
yi < yj; es que
correspondientes
la variable
Y preservan
verifican
xi <losxde
j,valores
cálculo
del
correlación
desimplifica
Spearman
se simplifica
notablemente
yadicho
que la
álculo del coeficiente
decoeficiente
correlación
desus
Spearman
se
notablemente
ya que
la
donde
se
deduce
que
losigual
valores
e presentan
Y presentan
relación
1ymonótona
- ri,j;yde
verifican
que
si = n +
creciente
perfecta.
De
forma,
si variables
rs = -1, Xlos
loses
valores
observados
dede
laslas
variables
eXYrangos
unauna
relación
Correlación
regresión
lineal
simple
i<y
de es
losdecir,
rangos
varianza de losvarianza
rangos
es
= 0,
rangos X
están
monótona
decreciente
perfecta.
Cuando
rsde
se deduce
queDe
los
valores
las
e Y incorrelacionados
presentan
una
relación
1 - ri, de donde
rangos
verifican
que
si y=no
n+
monótona
creciente
perfecta.
igual
forma,
silos
rvariables
s = -1, los
n
n
n
n
1
1
2
2
21
21
r
si − s )Elde
− (rs)i =−=sentre
(ri − r monótona
)medios
)= (n
=  (son
donde
losrelación
rangos
+ (valores
1)/2.
coeficiente
de correlación de Spearman

i alguna
los
ambas
= 0,
rangos
están
incorrelacionados
y no
monótona
decreciente
perfecta.
Cuando
rsde
donde
se
deduce
que
los
valores
laslos
variables
X
evariables.
Y presentan
una relación
1existe
- r−i,1de
n
n
1
1
−
−
n
n
1
−
i
i
1
1
=
=
i
i
1
1
=
=
siempre toma valores entre – 1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de
2
2 n
n
tal existe
forma
que
si de
dos
observaciones
variable
verifican
xi < xel
, sus
+de
n(en
nestán
+variables.
1) Xincorrelacionados
nentre
+cualesquiera
nvalores
1perfecta.
1 idénticos
(n0,+n1los
) 1de
la ambas
 valores
En el
caso
que
no
haya
(empates)
ninguna
de las que
variables,
relación
monótona
alguna
los
=
rangos
y noj
monótona
decreciente
Cuando
r
s
=
−
=
i
=
−
=
i






correspondientes valores
variable
dicho orden
12 yi < yj; es decir, los valores
n −de
1 i =la
2n −1Yi =preservan
1  12 2 
1
observados
de
las
variables
X
e
Y
presentan
una
relación
monótona
creciente
perfecta.
De el
igual
cálculo
del
coeficiente
correlación
de
simplifica
notablemente
ya que
la
En el
caso
demonótona
que nodehaya
valores
(empates)
envariables.
ninguna
de las
variables,
existe
relación
alguna
entreidénticos
losSpearman
valores
deseambas
forma, si rs = – 1, los rangos verifican que si = n + 1 – ri, de donde se deduce que los valores de
y su
y su covarianza
es covarianza
las
variables
ede
Yrangos
presentan
unavalores
relación
decreciente
perfecta.
Cuando
varianza
deXes
los
s = 0,
cálculo
coeficiente
de
correlación
demonótona
Spearman
se simplifica
notablemente
yarque
la los
En eldel
caso
que noes
haya
idénticos
(empates)
en ninguna
de las
variables,
el
rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas
n
1 del
1 2 de
1 nvariables.
1 1es
varianza
den coeficiente
los rangos
n
n
cálculo
den correlación
Spearman
se simplifica
notablemente ya que la
2 2
(
r
−
r
)(
s
−
s
)
=
ri s−)(2rs)−2−(+rsi )(−
) − (ri − s i ) 2 }
(
r
−
r
)(
s
−
s
)
=
{(
r
−
r
)
+
( s1{(
2
2s is−

i  ( ri − r ) =
i
i  i
i −
i ) s}


i
i
− 1 i =de
2(n −
1) i =n1 − 1 (empates) en ninguna de las variables, el cálculo
n − 1 i =1 En elncaso
2(no
n −nhaya
1−) 1i =1valores
idénticos
1 que
i =1
1
de los
rangos es i =nde
delvarianza
coeficiente
de correlación
Spearman
ya que la varianza de los
n(n + 11)
1nn 2 n notablemente
1n(n +2n1) se
1 simplifica
2
2
2
=
−
(
r
−
s
)
.
n
+
n
n
+
r
r
s
s
−
=
−
1
1
(
1
)
(
)
(
)
=
−
(
r
−
s
)
.


rangos es
 i )

i
i
= i −(1n
− i  i=
i
12n − 1 i =21(n − 112
i =1 n 2
i−
=11) i =1
n
n
n
−
1
2 2
12
1
1 i =n1 
2
2
r
r
s
s
(
)
(
)
−
=
−
n(n + 1)
1   i n +1
 i
= n −1 
n − 1 i =1
 =
i =1  i −
Aplicando
ambos
resultados, el
dereduce
Spearman
Aplicando ambos
resultados,
el coeficiente
decoeficiente
correlaciónde
a se reduce a
nde
−correlación
1Spearman
2se
12
i =1 
2
y su covarianza es
n(n + 1)
1 n  n +1
=
  i − 2  = 12
n − 1n i =1 
n
6
6
y su covarianza
1 −(ri − 2s i )12 , n(ri − s i ) 2 ,2
rs1= 1n−es 2 rs =
r
−
r
s
−
{( ri − r ) + ( s i − s ) 2 − (ri − s i ) 2 }
(
)(
y su covarianza es ni(n − 1)i i =1 s )n=(n − 1) i =
n − 1 i =1
2(n − 1) 1i =1
y su covarianzanes
n
1
1
n
(ri − r )( s i − s ) =
= n(n + 1) 
{( r1i − r ) 2 +(r( s−i −
s) 2).2 − (ri − s i ) 2 }

−
s
 i i
fórmula
sólo
emplearse
no
órmula que sólo
puedeque
emplearse
no haycuando
empates.
1 i =cuando
n −puede
2(n12
− 1hay
) i =1empates.
1
n 2( n − 1) i =1
1 n
1
(ri − r )( s i − s ) = n(n + 1)  {( r1i − r ) 2n + ( s i − s )2 2 − (ri − s i ) 2 }

n −10.4
1 i =1 En la Tabla 10.1= se
2(npresentan
− 1) −
 (ri − si ) .
Ejemplo
12 i =1 2(los
n − niveles
1) i =1 de α-tocoferol y βAplicando ambos resultados, el coeficiente
de
correlación
de Spearman se reduce a
n
n(n + 1)
1
2
(r10
− controles
sα-tocoferol

Aplicando
ambos
resultados,
el coeficiente
de −correlación
de
reduce
iSpearman
i ) . 11sedel
Ejemplo
10.4
En laadiposo
Tabla
10.1
se 12
presentan
los
niveles
de
yestudio
β- a 11
caroteno
en
tejido
en =una
muestra
aleatoria
de
2(n − 1) i =1
Aplicando ambos resultados, el coeficiente
de Spearman se reduce a
n
6 de correlación
2
=
−
(
r
−
s
)
,valores
r
1
s

i
ilos
EURAMIC,
junto con
los rangos
ade
de ambas
caroteno en tejido
adiposo
en unacorrespondientes
10
controles
del estudio
nmuestra
(n 2 − 1)aleatoria
i =1
Aplicando ambos resultados, el coeficiente de correlación
de
Spearman
se reduce a
n
6
2
1 − correspondientes
=cuando
(ri de
− ascorrelación
) ,valores de Spearman
srangos,
fórmula
que sóloApuede
hay
empates.
variables.
partir
de estos
elno
coeficiente
se
EURAMIC,
junto emplearse
con
los rrangos
ambas
ilos
n(n 2 − 1) i =1
fórmula que sólo puede emplearse cuando
n empates.
6 no hay
2
1
=
−
(ri de
−niveles
scorrelación
r
calcula
como
s
variables.
A
partir
de
estos
rangos,
el
coeficiente
de Spearman
se
Ejemplo 10.4 En la Tabla 10.1 se presentan
los
y b-caroteno
en

i ) , de a-tocoferol
2
n(n − 1) i =1
tejidoque
adiposo
una emplearse
muestra aleatoria
fórmula
sólo en
puede
cuando de
no10
haycontroles
empates.del estudio EURAMIC, junto con
calcula
como
los
rangos
correspondientes
a los valores de ambas variables. A partir de estos rangos, el
1 10
(
r )( s i −no
s ) calcula
coeficiente
de correlación
de
se
como
fórmula
que sólo
puede emplearse
hay empates.
 rSpearman
i −cuando
11
5,06
9 i =1
10
rs =
=
0,552,
=
1
3,03 ⋅ 3,03
1 10  (ri −2 r )(
1 s10i − s )
2
11
(
)
(
)
r
r
s
s
−
−
5,06
9
 i
 i
= 0,552,
rs = 9 i =1 i =1
9 i =1
=
3,03 ⋅ 3,03
1 10
1 10
2
11
(
)
(si − s ) 2
r
r
−


i
9 i =1
9 i =1
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente
fórmula simplificada en6 ausencia
de empates
6 mediante la
⋅ 74
2
2
rs = 1 −
{(
7
−
3
)
+
...
+
(
6
−
6
)
}
=
1
−
=
0,552,
10(10 2 − 1)
10(10 2 − 1)
6
6 ⋅ 74
− fuerte
= 0,552,
{(7 − 3) 2 + ... + (6 − 6) 2 } = 1 −
rs = 1una
que refleja
2 relación monótonamente creciente entre2 los niveles de a-tocoferol
10(10 − 1)
10(10 − 1)
yque
b-caroteno.
destacar
quemonótonamente
esta estimacióncreciente
no esta influenciada
por elde
valor
refleja unaCabe
fuerte
relación
entre los niveles
α- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observación continuaría siendo 10 para
cualquier
arbitrariamente
mayor que
que esta
los demás.
que reflejayvalor
una
fuerte relación
monótonamente
creciente entre
los influenciada
niveles de α-por
tocoferol
β-caroteno.
Cabe destacar
estimación
no esta
162
Pastor-Barriuso
R. extremo
tocoferol
y β-caroteno.
Cabe
queya
esta
noesta
estaobservación
influenciada
el
valor
1,46 μg/g
dedestacar
β-caroteno
queestimación
el rango de
por
el valor extremo
1,46
de β-caroteno
que el rango de
esta observación
continuaría
siendo
10 μg/g
para cualquier
valorya
arbitrariamente
mayor
que los demás.
Coeficiente de correlación
Tabla 10.1 α-tocoferol y β-caroteno en tejido adiposo en una muestra aleatoria
de 10 controles del estudio EURAMIC.
α-tocoferol
Control
β-caroteno
Rango (ri)
Valor (μg/g)
Valor (μg/g)
rs
Rango (si)
t=
1
163,8
7
0,14
3
110
− rs2
2
331,9
0,45
8
3
125,1
0,07
1
n 4− 2
4
42,9
1
0,44
7
5
211,0
8
1,46
10
sigue aproximadamente
una115,9
distribución t de Student
con n - 2 grados
de libertad,4
6
2
0,18
7
128,6
5
0,37
5
8 tamaño muestral
271,0 sea n > 10. Así,
9 el valor P bilateral
0,66 del contraste puede
9
siempre que el
9
118,8
3
0,11
2
10
128,7
6
0,40
6
aproximarse mediante el área bajo la distribución t para valores tanto o más alejados
n-2
igual
que otros
procedimientos
no t.
paramétricos,
el coeficiente
de correlación
de Al
0 que
el valor
observado
del estadístico
Aparte del mínimo
requerimiento
muestral,de los
rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona
entre
dos variables.
esta hipótesis
se ha aplicarse
comprobado
que el coeficiente
de correlación
este contraste
tiene Bajo
la ventaja
adicionalnula,
de poder
a cualquier
distribución
rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico
rs contraste paramétrico basado en el
subyacente de las variables X e Y, a diferencia del
t=
1 − rs2
coeficiente de correlación de Pearson que requiere de
distribuciones poblacionales
n−2
sigue
aproximadamente
una distribución t de Student con n – 2 grados de libertad, siempre que
aproximadamente
normales.
el tamaño
muestral
sea
n
> 10.
Así,
el valor P bilateral
del contraste
sigue aproximadamente
una
distribución
t de Student
con n - 2 puede
gradosaproximarse
de libertad, mediante
el área bajo la distribución tn–2 para valores tanto o más alejados de 0 que el valor observado del
estadístico
t.que
Aparte
del
mínimo
requerimiento
muestral,
este
la
adicional
Ejemplo
10.5
Como
las distribuciones
subyacentes
delPcontraste
α-tocoferol
el ventaja
βsiempre
el tamaño
muestral
sea n > 10.
Así, el valor
bilateraltiene
delycontraste
puede
de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del
contraste
paramétrico
basado
el coeficiente
de tcorrelación
de Pearson
requiere de
caroteno
(Figura
4.3)
marcadamente
asimétricas
en los controles
delque
estudio
aproximarse
mediante
el son
áreaen
bajo
la distribución
n-2 para valores tanto o más alejados
distribuciones poblacionales aproximadamente normales.
contraste bilateral
de la hipótesis
asociación
entre ambas
de EURAMIC,
0 que el valorelobservado
del estadístico
t. Apartede
delnomínimo
requerimiento
muestral,
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
a tiene
partir
deventaja
los 10 controles
de
Tabla
10.1
haade
realizarse
mediante
el
4.3)
son la
marcadamente
asimétricas
enaplicarse
los
controles
del estudio
EURAMIC,
el
este(Figura
contraste
adicional
de la
poder
cualquier
distribución
contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10
estadístico
en10.1
la correlación
de losmediante
rangos
deelSpearman
controles
debasado
la Tabla
estadístico
basado
en la correlación
subyacente
de
las
variables
Xhae de
Y, realizarse
a diferencia
del contraste
paramétrico
basado
en el
de los rangos de Spearman
coeficiente de correlación de Pearson
rs que requiere
0,552 de distribuciones poblacionales
=
= 1,87,
t=
2
2
1
−
r
1
−
0
,
552
s
aproximadamente normales.
8
n−2
que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
subyacentes
del
ydeelcorrelación
β≥distribuciones
1,87)
= 0,098.
Así, aunque
el α-tocoferol
coeficiente
de
aproximado
de PComo
= 2P(tlas
que bajo la distribución
t8de
Student
con 8 grados
de libertad
corresponde
a un
Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores
caroteno de
(Figura
4.3) sony marcadamente
controles
del estudio
observados
a-tocoferol
b-caroteno,
estaasimétricas
asociaciónennolosllega
a ser estadísticamente
valor aproximado
de P = 2P(t
8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
bilateral
de la hipótesis
de no asociación entre ambas
asociación
conr tan
reducido
muestral.
correlaciónsubyacente
de Spearman
= 0,55
estimatamaño
una fuerte
relación monótonamente
s
variables
a partir
de los 10inferior
controles
de laaTabla
ha de realizarse
mediante el
Cuando
el tamaño
muestral
o de
igual
10, la10.1
distribución
creciente
entre los
valoresesobservados
α-tocoferol
y β-caroteno,t de
estaStudent no es una
buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste
estadístico basado en la correlación de los rangos de Spearman
asociación no llega a ser estadísticamente significativa, probablemente debido a la
Pastor-Barriuso R.
t=
rs
1 − rs2
=
0,552
1 − 0,552 2
= 1,87,
163
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la
Correlación
regresión
simple
hipótesisynula
dellineal
coeficiente
de correlación de Spearman, cuyos percentiles en
10.3 REGRESIÓN LINEAL SIMPLE
muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste
Lasbasarse
técnicasendelaregresión
evalúan
la relación
entre dosde
variables
siguiendo
una
debe
distribución
exacta
del coeficiente
correlación
de Spearman
bajo la
bilateral con
unSinivel
de significación
α preestablecido,
la hipótesis
de no asociación
seri de la
hipótesis
nula.
no existe
ninguna relación
monótona entre
las variables,
y los rangos
estrategia
análisis
distinta a cualquier
la correlación.
Mientrass ,que
el coeficiente de correlación
variable
X se de
asumen
constantes,
permutación
1 ..., sn de los rangos de la variable Y
rechazará
si elprobable
coeficiente
deprobabilidad
correlación rviene
inferior
al percentil
/2 oresultado,
es
igualmente
y su
dada por es
1/n!.
Haciendo
uso de α
este
s de Spearman
determina
el
grado
de
asociación
lineal
entre
X
e
Y
tratando
ambas
variables
de
forma de
es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación
Spearman,
cuyos percentiles
muestras
superior al percentil
1 - α/2 deendicha
tabla. de tamaño n ≤ 10 se presentan en la Tabla 10 del
simétrica,
la
regresión
lineal
estudia
variación
el nivel medio
de la variablela hipótesis
10.3
REGRESIÓN
LINEAL
SIMPLE
Apéndice. Para un contraste bilateral conlaun
nivel deen
significación
α preestablecido,
de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al
respuesta
medida
cambia
la– variable
explicativa
X, estableciendo
así una
10.6
El valor
exacto 1de
para
contraste
bilateral
de
la hipótesis
percentil
α/2 Yo asuperior
alque
percentil
de el
dicha
tabla.
LasEjemplo
técnicas
de regresión
evalúan
laPα/2
relación
entre
dos variables
siguiendo
una de no
direccionalidad
en laelrelación
entreydichas
variables.
Aunque
en
ocasiones la elección
asociación
entre
α-tocoferol
el
dadoel
por
estrategia
de10.6
análisis
a la correlación.
que
coeficiente
correlación
Ejemplo
Eldistinta
valor exacto
deβ-caroteno
P paraMientras
el viene
contraste
bilateral
de ladehipótesis
de no
asociación entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado
de asociación
X e Y tratando
variables
P = P(r
≥ 0,552|H )lineal
+ P(rentre
≤ − 0,552|H
) = 2P(rambas
≥ 0,552|H
), de forma
s
0
s
0
s
0
asociación
el α-tocoferol
y eldel
β-caroteno),
direccionalidad
establecerse
de
ya que laentre
distribución
bajoestudia
H
de
es simétrica
simétrica,
regresión
lineal
lacoeficiente
variaciónlaen
elcorrelación
nivel mediodesuele
deSpearman
la variable
0
ya que la distribución
bajo la
H0Tabla
del coeficiente
de correlación
es el percentil
alrededor
de 0. Utilizando
10 del Apéndice
para n = de
10,Spearman
se tiene que
forma
natural
por
el
propio
diseño
del
estudio
o
la
naturaleza
de
las
variables
(porEste valor
de loque
cualcambia
se deduce
que P =explicativa
2P(rs ≥ 0,552|H
= 0,10.
rs;0,95 = Y0,552,
respuesta
a medida
la variable
X, estableciendo
una
0) ≥ 2⋅0,05 así
simétrica
de 0.
la Tabla mediante
10 del Apéndice
para n =t 10,
tiene en el
exacto
de alrededor
P es similar
al Utilizando
valor aproximado
la distribución
de se
Student
ejemplo,
los
cambios
medios
en
el
colesterol
HDL
conforme
aumenta
el
índice
de
masa
ejemplo anterior.
direccionalidad
en la relación entre dichas variables. Aunque en ocasiones la elección
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3 2⋅0,05
REGRESIÓN
LINEAL
SIMPLE
= 0,10. Este
valor exacto
de P es similar al valor aproximado mediante la
El modelo
de regresión
linealy asume
que la media
de la variable suele
respuesta
Y cambiade
asociación
entre
el α-tocoferol
el β-caroteno),
la direccionalidad
establecerse
Las técnicas
de regresión
evalúan
relaciónanterior.
entre dos variables siguiendo una estrategia de
distribución
t de Student
en ellaejemplo
linealmente
con
lacorrelación.
variable explicativa
X;
esto
es, para un de
valor
fijo x de la
variable el grado
análisis
distinta
a
la
Mientras
que
el
correlación
determina
forma natural por el propio diseño del estudio coeficiente
o la naturaleza
de las variables
(por
de asociación lineal entre X e Y tratando ambas variables de forma simétrica, la regresión lineal
explicativa,
el valor
de la variable
respuesta
es Y a medida que cambia la variable
estudia
la variación
en elesperado
nivel medio
la variable
respuesta
ejemplo,
los cambios
medios
en elde
colesterol
HDL
conforme
aumenta el índice de masa
explicativa X, estableciendo así una direccionalidad en la relación entre dichas variables.
Aunque
en ocasiones la elección entreE(Y|x)
la variable
y explicativa es un tanto arbitraria
corporal).
= β0 +respuesta
β1x,
14
(por ejemplo, en la asociación entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
de forma
natural lineal
por elasume
propioque
diseño
del estudio
o la naturaleza
variables
El modelo
de regresión
la media
de la variable
respuestadeYlas
cambia
donde
β
y
β
son
la
constante
y
la
pendiente
de
la
recta
de
regresión
,
respectivamente.
0
1 cambios medios en el colesterol HDL conforme aumenta el índice de masa
(por ejemplo,
los
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante β0 determina la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia
explicativa,
esperado
de la variable
respuesta
linealmente
conellavalor
variable
explicativa
X; esto es,
para un es
valor fijo x de la variable explicativa,
pendiente
β
corresponde
al
cambio
en
el
valor
medio de Y por cada aumento de una
1
el valor esperado de la variable respuesta es
= β 0 + β 1 x,
unidad en X, E(Y|x + 1) - E(Y|x) = βE(Y|x)
0 + β1(x + 1) - (β0 + β1x) = β1. La especificación del
donde β0 y β1 son la constante y la pendiente de la recta de regresión, respectivamente. La
modelo
completa
los valores
de
la variable
respuesta se
determina
la
media de
Y pendiente
cuando
X de
= individuales
0,la E(Y|0)
= βregresión
constante
donde ββse
β1 son la asumiendo
constante
yque
la
recta de
respectivamente.
00 y
0 + β10 =, β
0, y la pendiente β1
corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1)
distribuyen
forma
delcuando
valor esperado
definido
la0 recta
ββ
+ 1) normal
– (β0 +laβalrededor
especificación
del
modelo
– E(Y|x)
= β0 + de
La constante
media
Y
X = 0, E(Y|0)
= β0 por
+seβ1completa
= β0, de
y asumiendo
la
1(x
1x) = βde
1. La
0 determina
que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor
Así,
ladefinido
estructura
de regresión
lineal esgeneral del modelo de
delregresión.
valor esperado
porgeneral
la rectadel
demodelo
regresión.
Así, la estructura
pendiente
β
1 corresponde al cambio en el valor medio de Y por cada aumento de una
regresión lineal es
unidad en X, E(Y|x + 1) - E(Y|x) = β0Y+=ββ10(x++β 1)
- (εβ,0 + β1x) = β1. La especificación del
1x +
donde el término de error aleatorio ε, que representa la desviación de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal con media150 y
distribuyen de forma normal alrededor del valor esperado definido por la recta de
164
Pastor-Barriuso R.
regresión. Así, la estructura general del modelo de regresión lineal es
Y = β + β x + ε,
individual Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal
lineal
con media 0 y varianza σ 2. Por tanto, la regresión lineal establece que para Regresión
un valor
fijosimple
x de la variable explicativa, la variable respuesta Y sigue una distribución normal con
varianza σ 2. Por tanto, la regresión lineal establece que para un valor fijo x de la variable
2
media E(Y|x)
= β0 + respuesta
β1x + E(ε)Y=sigue
β0 + una
β1x distribución
y varianza var(Y|x)
var(
ε) = σE(Y|x)
,
explicativa,
la variable
normal=con
media
= β0 + β1x +
2
E(ε) = β0 + β1x y varianza var(Y|x) = var(ε) = σ ,
Y|x ~ N(β 0 + β 1 x, σ 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una función lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
• Linealidad: El valor esperado de la variable respuesta Y es una función lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad
de la varianza:
Laforma
varianza
la variable
respuesta
Y es la misma
para
la variable explicativa
X, de tal
que de
cambios
de magnitud
constante
a
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no está relacionada
X.
niveles de Xcon
se asocian
con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
• Homogeneidad
de la varianza: La varianza de la variable respuesta Y es la
una
distribución normal.
Las asunciones
subyacentes
modelo
devariable
regresión
lineal se X;
representan
misma para
cualquieralvalor
de la
explicativa
es decir, agráficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresión y su
idoneidadmedia,
debe ser
evaluadade
utilizando
diagnósticas,
la varianza
Y no estátécnicas
relacionada
con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
Para unsevalor
fijo la
dedistribución
la variable explicativa
la una
variable
respuesta
En •regresión
lineal: simple
estudia
condicionalX,de
variable
respuesta
continua en función de una única variable explicativa. Esta variable explicativa puede ser tanto
siguecategórica
una distribución
continua Ycomo
ya que normal.
el modelo de regresión lineal no establece ninguna asunción
respecto a su distribución. La extensión de estos modelos al análisis de regresión lineal múltiple,
Lasse
asunciones
al modelo
regresión
lineal
se representan
gráficamente
donde
consideransubyacentes
simultáneamente
dos odemás
variables
explicativas,
se tratará
en el Tema 11.
en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de
regresión y su idoneidad debe ser evaluada utilizando técnicas diagnósticas, algunas de
las cuales se presentan al final de este tema.
Recta de regresión:
E(Y|x) = β0 + β1x
β0 + β1x4
[Figura 10.5
aquí]
β0 +aproximadamente
β1x3
β0 + β1x2
Y
0 + β1x1
Enβregresión
lineal simple se estudia la distribución condicional de una variable
respuesta continua en función de una única variable explicativa. Esta variable
explicativa puede ser tanto continua como categórica ya que el modelo de regresión
16
x1
x2
x3
x4
X
Figura 10.5 Asunciones estadísticas subyacentes al modelo de regresión lineal simple.
Figura 10.5
Pastor-Barriuso R.
165
mutuamente independientes. Intuitivamente, se trataría de identificar la línea recta que
Correlación
y regresión
linealal
simple
más se
aproxime
conjunto
de todos los puntos del diagrama de dispersión entre
ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimación de la recta de regresión
observado (xi, yi) respecto al punto correspondiente (xi, ŷ i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresión lineal es obtener estimaciones puntuales b0 y b1 de la constante
β0 yrecta
la pendiente
β1 deestimada
la recta de
que mejor
se se
ajuste
a los valores
observados
de regresión
enregresión
xi. Esta distancia,
que
representa
en la Figura
10.6, (xi, yi)
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
se trataría
línea
recta que
más se aproxime
viene dada por
el errorde
deidentificar
estimaciónlaen
la variable
respuesta
ei = yi - ŷali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersión entre ambas variables. Para formalizar esta idea, es
correspondiente
preciso
la distancia
cada determinada
punto observado
(xi, yi) respecto
Así, calcular
la recta de
regresiónde
vendrá
por aquellos
valoresalb0punto
y b1 que
hagan
(xi, ŷ i) = (xi, b0 + b1xi) sobre la recta de regresión estimada en xi. Esta distancia, que se representa
en laeste
Figura
viene
dada por
el error
de estimación
en la variable o,
respuesta
ei = yi – ŷ i =que
yi – b0
error10.6,
lo más
pequeño
posible
para
todas las observaciones
equivalentemente,
– b1xi. Así, la recta de regresión vendrá determinada por aquellos valores b0 y b1 que hagan este
error
lo más pequeño
para todas
laserror
observaciones o, equivalentemente, que minimicen
minimicen
la sumaposible
de cuadrados
del
la suma de cuadrados del error
SSE =
n
e
i =1
2
i
n
n
i =1
i =1
=  ( y i − yˆ i ) 2 =  ( y i − b0 − b1 x i ) 2,
también llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambién
evitar llamada
que se compensen
los errores
positivos
negativos.
Este
procedimiento
para
suma de cuadrados
residual.
Notaryque
los errores
se elevan
al
estimar los parámetros de la recta de regresión se conoce como el método de mínimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este
procedimiento para estimar los parámetros de la recta de regresión se conoce como el
método de mínimos cuadrados.
[Figura 10.6 aproximadamente aquí]
(xi, yi)
ei = yi − yˆ i
17
( xi , yˆ i ) = ( xi , b0 + b1 xi )
y
Recta de regresión estimada:
yˆ = b0 + b1 x
x
Figura 10.6 Error o desviación del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresión.
166
Pastor-Barriuso R.
i =1
1
Para obtener los valores
b0 yi =b11 que minimizan
la suma de cuadrados del error, se
calculan
las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
resultando
cuya
solución
lineal simple
Para
obtenereslos valores b0 y b1 que minimizan la0suma
de cuadrados delRegresión
error, se
el sistema de ecuaciones lineales
calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando
x i − x )( y i −
(minimizan
)

Para obtener los valores b0 y b1 que
la ysuma
de
s y cuadrados del error, se calculan
i n=1
,a cero, resultando el sistema de
brespecto
=r
sistema de
ecuaciones
lineales
1=
las el
derivadas
parciales
de∂SSE
an b0 y bn 1 y se igualan
= −2 ei = −2 ( y2 i − b0 − sbx1 x i ) = 0,
ecuaciones lineales
( x i −i =1x )
∂b0
i =1 
i =1
n
n
1.2elMEDIDAS
DE TENDENCIA
CENTRAL
antioxidantes en
riesgo
un primer
infarto agudo de miocardio en
∂SSEde desarrollar
=
−
2
e
=
−
2
(
y
−
b0 − binfarto
n
n


i
i
1 x i ) = 0,
1.2
MEDIDAS
DE
TENDENCIA
CENTRAL
antioxidantes ∂en
de
desarrollar un primer
agudo de miocardio en
SSE
∂elb0riesgo
i =1 b0 = yi =1- b1 x .
=
−
2
x
e
=
−
2
x
(
y
−
b
−
b0,79,
= 0, 1,42, 0,84,


i i
i0,89,
i
0
1 x i ) 1,29,
hombres adultos.
Los
valores
obtenidos
fueron
1,58,
Las medidas
central
informan acerca de cuál
es el valor más representativo
∂b1 de tendencia
i =1
i =1
n fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
n
hombres
adultos.
Los
valores
obtenidos
∂
SSE
Las medidas de= tendencia
central informan
el valor más representativo
−2
x i (niveles
y i − b0acerca
− b1colesterol
x ide
) =cuál
0, es

i e i = −2
1,06,
0,87, 1,96
1,53
Laxvariable
media
de
los
del
HDL
en estimadores
La
pendiente
estimada
de
regresión
es
igual
al
producto
del
coeficiente
de
1 de la recta
deyuna
o,
dicho
de
forma
equivalente,
estos
indican
∂determinada
bb1mmol/l.
i =1
i =1
cuya solución
es
1,06,de
0,87,
1,96
y
1,53
mmol/l.
La
media
de
los
niveles
del
colesterol
HDL
en
una determinada variable o, dicho de forma equivalente, estos estimadores indican
estos
10 participantes
esde
correlación
r dealrededor
Pearson
porqué
el cociente
las los
desviaciones
típicas muestrales
de Ydeytendencia
cuya
solución
es
valor se entre
agrupan
datos observados.
Las medidas
estos
10
participantes
es
alrededor
de qué valor nse agrupan los datos observados. Las medidas de tendencia
cuya solución
es
y)
( x i − xtanto
)( y −para
X. Así, aunque central
los signos
demuestra
b10,y89rcoinciden,
de la pendiente b no sólo
10 la
+sirven
1 de
1,58 + ... +lai 1,magnitud
53 resumir
s y los resultados 1observados como para
i =1
x
x
=
1,223
=
=
, mmol/l.
r los

central de la
muestra
tanto
para
resultados observados como para
+ 1,58
+ ...resumir
+=1,53
1i b101 = sirven
n 0,n89
10
10
i
=
1
s
2parámetros
x i =acerca
1,223
mmol/l.correspondientes.
=de correlación
depende del coeficiente
r,
sino
también
de
las
desviaciones
típicas sy y sx
x =poblacionales

realizarxinferencias
de
los
A
− yx10
x i (−xxi )(
i) − y )
10 i =1  (
s
y
i =1 i =1de los parámetros poblacionales correspondientes. A
realizar inferencias
b1 =acerca
,
=r
n
de las variables.continuación
Una vez estimada
la pendiente,
la constante
b0 = y -de
b1lax tendencia
corresponde
se describen
los principales
estimadores
central de una
s
2
x
La media aritmética presenta las siguientes
−−xb) 1 x .
b
y
0 (=xpropiedades:

i
continuación se describeni =los
principales estimadores de la tendencia central de una
1
La media aritmética presenta las siguientes
−propiedades:
simplemente
al
valor
que
fuerza
a
la
recta
de regresión
a atravesar
el punto
( xcoeficiente
, y)
variable.
La
pendiente
estimada
b
de
la
recta
de
regresión
es igual
al producto
deldatos
de
• Cambio de origen (traslación).
Si se suma una constante
a cada
uno de los
1
variable.
correlación
r de Pearson
por
el
entre
muestrales
de Ydatos
y X.
=seylas
- desviaciones
b1 xuna
. igual
bSi
• Cambio
de origen
suma
constante
a cada
unocoeficiente
de los
0 regresión
decociente
la recta de
es
altípicas
producto
del
deAsí,
La pendiente
estimada
b1(traslación).
correspondiente
a
la
media
muestral
de
ambas
variables.
Si
la
relación
subyacente
entre
aunque
losmuestra,
signos1.2.1
de
bMedia
coinciden,
la resultante
magnitud es
deigual
la pendiente
b1inicial
no sólo
depende
del
de una
la media
la muestra
a la media
más
la
aritmética
1 y r de
coeficiente
de
correlación
r,
sino
también
de
las
desviaciones
típicas
s
y
s
de
las
variables.
Una
de
una
muestra,
la
media
de
la
muestra
resultante
es
igual
a
la
media
inicial
más
la
1.2.1
Media
aritmética
correlación
r de
Pearson
el recta
cociente
entre las desviaciones
típicas
y
xmuestrales de Y y
La
pendiente
estimada
b por
de la
de regresión
es igual
alestimadores
producto
del
coeficiente
variables
lineal
de linealidad),
insesgados
dede
la que
vezlas
estimada
laespendiente,
la xconstante
b0 = y por
–=bb0x1yx+b,corresponde
simplemente
valor
La
media
denotada
define
como
suma que
dealcada
uno
de los
yi1aritmética,
=
c1se.son
Un
cambio
delaorigen
constante
utilizada;
si(asunción
i + c, entonces
y
=
x
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante
utilizada;
si
La
media
aritmética,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
fuerza
a
la
recta
de
regresión
a
atravesar
el
punto
(
,
)
correspondiente
a
la
media
muestral
de
X. Así, aunque
signospor
de el
b1i cociente
y ri coinciden,
la magnitud
de latípicas
pendiente
b1 no sólo
correlación
rydelalos
Pearson
entre
las
desviaciones
muestrales
de Y y
constante
β
pendiente
β
de
la
recta
de
regresión.
0
1
valores
muestrales
dividida
elvariables
número
observaciones
realizadas.
Si denotamos
ambas
variables.
Si
la relación
entre
esconsiste
lineal (asunción
se
essubyacente
el centrado
de por
la las
variable,
quede
en restar
ade linealidad),
querealiza
facilitacon
unafrecuencia
estimación
del
valor esperado
o predicho
de la variable
respuesta
para
valores
muestrales
dividida
por
el
número
de
observaciones
realizadas.
Si
denotamos
b0 yX.
b1Así,
sonse
estimadores
insesgados
der el
la centrado
constante
y variable,
la pendiente
βconsiste
de regresión.
depende
del
coeficiente
dedecorrelación
r, sino la
también
de las
desviaciones
típicas
syay sx
realiza
con
frecuencia
deβmagnitud
restar
0la
1 de la recta
aunque
los
signos
b1 yes
coinciden,
de que
lapor
pendiente
ben
1 no sólo
La valor
recta
de la
regresión
estimada
viene
entonces
determinada
pormuestra
n el tamaño
muestral
y por de
xi el
valor
observado
paraserá,
el sujeto
i-ésimo, i = 1, ..., n,
cada
de
su
media.
La
media
una
variable
centrada
por
cada
valor
de la variable
explicativa.
Paradeterminada
completar lapor
estimación de los
La
recta
de fijo
regresión
estimada
viene
por nUna
el
muestral
ypendiente,
porLa
xi media
el valor
i-ésimo,
i = 1, ..., n,
de las
variables.
la entonces
la constante
b0 =para
y centrada
-elb1sujeto
x típicas
corresponde
cada
detamaño
lavez
muestra
su media.
deobservado
unalas
variable
será,
depende
delvalor
coeficiente
deestimada
correlación
r, sino
también
de
desviaciones
spor
y y sx
la media vendría
dada
por
tanto,
igual del
a 0.
=
b0 +estimarse
b1 x = y también
+ b1 (x − la
x ),varianza σ 2 de la variable
parámetros
modelo lineal,ŷ ha
de
la
media
vendría
dada
por
tanto,
igual
a
0.
simplemente
al
valor
que
fuerza
a
la
recta
de
regresión
a
atravesar
(x, y)
defacilita
las variables.
Una vez del
estimada
pendiente,
la constante
= yel-punto
b1respuesta
x corresponde
que
una estimación
valor la
esperado
o predicho
de lab0variable
para cada
• Cambio de escala (unidades). Si se multiplica cadan uno de los datos de una
+
+
...
+
x
x
x
1
respuesta
alrededor
de
dicha
recta.
A
partir
de
la
suma
de
cuadrados
del
error,
esta
1
2
n
valor fijo
de la variable explicativa. Para completar
la=estimación
de
los. de
parámetros
x =variables.
• Cambio de escala (unidades). Si se multiplica
cada
de...los
datos
una entre del
n x
correspondiente
a la
media
muestral
delaambas
Si
la2 +
relación
subyacente
+uno
+elxrespuesta
xvariable
2 i xa1 atravesar
simplemente
al de
valor
que fuerza
a la recta
de 1regresión
punto
( x ,alrededor
y)
n
n
n
de
la
de
modelo
lineal,
ha
estimarse
también
varianza
σ
=
i
1
=  x iresultante
=
muestra por una constante, la media de lax muestra
es igual a .la media
varianza
residual
puede
estimarse
mediante
n
n
dicha recta.
A partir
deuna
la suma
de cuadrados
esta varianza
residual
puede
estimarse
muestra
constante,
mediadel
deerror,
laib=10muestra
resultante
es igual
a la media
18
las variables
espor
lineal
(asunción
delalinealidad),
y b1 son
estimadores
insesgados
de la
correspondiente
a
la
media
muestral
de
ambas
variables.
Si
la
relación
subyacente
entre
mediante
y
=
cx
,
entonces
y
=
c
x
.
inicial por la constante
utilizada;
si
i
La media es la medida
dei tendencia central más utilizada y de más fácil
n
yi regresión.
=
cxi, entonces
y = c x . y de más fácil
inicial
por
la
constante
utilizada;
si
SSE
1
La
media
es
la
medida
de
más
2
constante
β0 yeslalineal
pendiente
β1 dedelalinealidad),
recta
de
= tendencia
(by0i y−central
− b1estimadores
x i ) 2.utilizadainsesgados
s =
las
variables
(asunción
bb10 son
de la

interpretación.
ali =1multiplica
“centro decada
gravedad”
datos
• Cambio simultáneo
de origenCorresponde
uno dede
loslos
datos
dede la muestra. Su
ny −escala.
2 n Si
− 2se
interpretación.
Corresponde
al “centro
de
gravedad”
de uno
los datos
la muestra.
Su
• recta
Cambio
simultáneo
de
origen y escala.
Si se
multiplica
cada
de losdedatos
de
La
de
regresión
estimada
entonces
determinada
por
constante
β0que
y la
pendiente
β1 de laviene
recta
de
regresión.
Cabe
destacar
la
suma
de
cuadrados
del
error
se
divide
por
n
–
2
ya
que,
una
vez
estimadas
principal
limitación
que estáse
muy
influenciada
por los la
valores
una muestra por
una constante
y alesresultado
le suma
otra constante,
mediaextremos y, en este
la constante
la
pendiente
de la
recta
deyregresión,
los
errores
ootra
de
lavez
variable
Cabe destacar
que la
suma
de
cuadrados
error
sesendivide
por
ndesviaciones
- constante,
2 valores
ya que, extremos
una
principal
limitación
es que
está
muy
influenciada
por
los
y, en este
unay muestra
por
una
constante
aldel
resultado
le
suma
la media
La
recta
de
regresión
estimada
viene
entonces
determinada
por
,
b
y
n
–
2
errores,
respuesta
respecto
de
la
recta
contienen
n
–
2
grados
de
libertad
(conocidos
b
ŷ
=
b
+
b
x
=
y
+
b
(x
x
),
0
1
1
0
1
caso, puede
ser aun
reflejo
de la
central
de la distribución.
de la muestra resultante
es no
igual
la fiel
media
inicial
portendencia
la primera
constante,
más la
los 2estimadas
errores
seresultante
derivan
automáticamente).
Asumiendo
sencumplen
constante
ynolaser
pendiente
dea la
la media
recta
deinicial
regresión,
errores
olas hipótesis
puede
un
fiel reflejo
de la
tendencia
central
de
laconstante,
distribución.
de restantes
lalacaso,
muestra
es igual
por2que
lalos
primera
más lade
linealidad
y homogeneidad
varianza,
varianza residual s es un estimador insesgado del
+ bla
= cla
segunda
constante; si2yi de
1x = yy +=bc11(xx - +xc),2.
1xŷ
i +=c2b,0entonces
.
desviaciones
de
la
variable
respuesta
respecto
de la
- 2 grados
de
parámetro
poblacional
σ
Ejemplo
este
en los
sucesivos
estimadores
muestrales, se
= cEn
c2,yentonces
yrecta
= c1contienen
xejemplos
+ c2. n sobre
segunda constante;
si yi1.4
1 xi +
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
libertad
(conocidos
butilizarán
, bestudio
2deerrores,
los
errores
restantes
semmol/l
derivan
18 sujetos del
0el
1 y n -los
valores
del
HDL
en
losy10
primeros
Ejemplo
En
la relación
entre
el índice
corporal
else
colesterol
Ejemplo
1.510.7
Para transformar
los
valores
del2colesterol
colesterol
HDLdeobtenidos
demasa
a mg/dl
utilizarán
los valores
del
colesterol
HDL obtenidos
enmmol/l
los 10
primeros
del
HDL,
resulta1.5
natural
el los
índice
de masa
corporal
como
explicativa
ysujetos
el
Ejemplo
Paraconsiderar
transformar
valores
del colesterol
HDLvariable
de
a mg/dl se
automáticamente).
Asumiendo
que
se
cumplen
las
hipótesis
de
linealidad
y
estudio
“European
Study
on
Antioxidants,
Myocardial
andenCancer of
colesterol
HDL
como
variable
respuesta.
El
objetivo
es, por
tanto,
estimar
los cambios
18
multiplica
por
el factor
de
conversión
38,8.
Así,
utilizando
la propiedad
delInfarction
estudio
“European
Study
on
Antioxidants,
Myocardial
Infarction
and
Cancer of
multiplica por el factor de conversión 38,8. Así,
2 utilizando la propiedad del
homogeneidad
de
la
varianza,
la
varianza
residual
s
es
un
estimador
insesgado
del
Breast“
(EURAMIC),
multicéntrico
cambio de escala, lathe
media
del colesterol
HDLun
enestudio
mg/dl se
calcularía de casos y controles realizado
the
Breast“
(EURAMIC),
un
estudio
multicéntrico
de casos y controles realizado
cambio de escala, la
2 media del colesterol HDL en mg/dl se calcularía
Pastor-Barriuso
R. 167de los
parámetro
poblacional
σ
.
y 1992
en ocho
países
Europeos
e Israelmg/dl.
para evaluar
el efecto
⋅38,8 = 47,45
directamente a partirentre
de su1991
media
en mmol/l
como
1,223
entre
1991de
y 1992
en ocho
países como
Europeos
e ⋅Israel
evaluar
38,8 =para
47,45
mg/dl.el efecto de los
directamente
a partir
su media
en mmol/l
1,223
Ejemplo 10.7 En el estudio de la relación entre el índice de masa corporal y6el
5
central de la muestra sirven tanto para resumir los resultados observados como para
1 10
0,89 + 1,58 + ...
1,53 de estos datos, las estimaciones de la pendiente y
variables
A +partir
x
x iacerca
= 1,223 mmol/l.
=
=de r =de-0,276.

realizar inferencias
los parámetros
poblacionales
correspondientes. A
10 yi =regresión
Correlación
lineal simple10
1
delos
la recta
de regresión
por elde
método
de mínimos
cuadrados
continuaciónlaseconstante
describen
principales
estimadores
la tendencia
central
de una son
La media aritmética presenta las siguientes propiedades:
variable. el nivel medio del colesterol HDL
s y conforme 0aumenta
,295 el índice de masa corporal utilizando
= −0,276
= -0,023
1 = r simple.
un modelo de regresiónblineal
En este caso,
tanto la variable respuesta como la
,50 de los datos
sx
Cambio de origen (traslación). Si se suma una constante
a cada3uno
variable explicativa
son continuas.
10.1 se obtuvo
un coeficiente de correlación de Pearson entre ambas
1.2.1 MediaEjemplo
aritmética
En
n =de
533
del un
estudio
la media
y laPearson
desviación
del índice de
de una muestra, la ymedia
lacontroles
muestra
resultante
esEURAMIC,
igual de
a lacorrelación
media
inicial
más
la entretípica
Ejemplo
10.1
se obtuvo
coeficiente
de
ambas
variables
de r =fueron
-0,276.
partir
de
datos,
lasde
2estimaciones de la pendiente y
26,0
y sestos
=
3,50
kg/m
,
y
los
correspondientes
valores del
masa
corporal
La media aritmética,
denotada
por xA,=se
define
como
la
suma
cada
uno
de
los
x
fueron
s1,09
0,295
mmol/l.
Ejemplo y10.1 se
+HDL
cr, entonces
y y=
xb1+xde
cy=. estos
Un
de
origen
que deenlaelpendiente
constante utilizada;colesterol
si yi = xi de
variables
= -0,276.
A
partir
datos,
las
estimaciones
y =cambio
-1,09
+método
0,023
⋅26,0
=Además,
1,69.
b0 =de
la constante
de la
regresión
por
de mínimos
cuadrados
obtuvo
un coeficiente
de correlación
de el
Pearson
entre
ambas
deson
r = – 0,276. A
valores muestrales
dividida
porrecta
el número
de observaciones
realizadas.
Si variables
denotamos
partir
de
las
estimaciones
de consiste
la
y mínimos
la constante
de la recta
se realiza con frecuencia
es estos
el centrado
de de
la variable,
ende
restar
a
la constante
dedatos,
la recta
regresiónque
por
elpendiente
método
cuadrados
sonde regresión
La
= mínimos
1,69
es
una
estimación
del
valor
esperado
de
colesterol
porconstante
el
métodoby0de
cuadrados
son
valor
observado
para
el
sujeto
i-ésimo,
i
=
1,
...,
n,
por n el tamaño
muestral
por
xi elmmol/l
sy
0,295
b1 de
= runa variable
= −0,276centrada=será,
-0,023
cada valor de la muestra su media. La media
por
3
,
50
s xy
0,295 igual a 0 kg/m2, extrapolación
HDL dada
para por
un sujeto con bun=índice
de
masa
corporal
la media vendría
= −0,276
r
= − 0,023
1
sx
3,50
tanto, igual a 0.
y carece de sentido biológico. La pendiente b1 = -0,023 estima que, por cada
que
y
x + x + ... + x n
1 n
. de una
= 1 uno 2de los datos
x =  x icada
Cambio de escala (unidades).
Si se multiplica
y
=
b1 x =de1,09
+ 0,023
⋅26,0el=nivel
1,69.medio de colesterol
nmasa
=1 y
incremento de 1 kg/mbn20 ien
el−índice
corporal,
muestra por una constante, la media de la
igual⋅26,0
a la media
=mmol/l
y - b1resultante
x una
= 1,09
+es0,023
= 1,69.
b0 muestra
La constante
b0 =en1,69
es
estimación
del valor
esperado
de colesterol
HDL
disminuye
0,023
mmol/l.
En
general,
la
pendiente
puede
utilizarse
para HDL
La mediapara
es
la
medida
de
tendencia
central
más
utilizada
y
de
más
fácil
2
La constante
b
=
1,69
mmol/l
es
una
estimación
del
valor
esperado
de
colesterol
0
un sujeto con un índice de masa corporal igual a 0 kg/m , extrapolación que carece
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
– 0,023
estima
que,esperado
por cada
incremento
de
sentido
biológico.
Lammol/l
pendiente
b1 =estimación
La Corresponde
constante
b0 =alasociado
1,69
es una
del valor
calcular
el efecto
a incrementos
delos
cualquier
magnitud
c en
la colesterol
variable de 1 kg/
2 de
interpretación.
“centro
de
gravedad”
de
datos
de
la
muestra.
Su
HDL
para
un
sujeto
con
un
índice
de
masa
corporal
igual
a
0
kg/m
,
extrapolación
2
m en el índice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
Cambio simultáneommol/l.
de origen
y general,
escala. Silasependiente
multiplicapuede
cada uno
de los datos
de
2el efecto asociado a
Enun
utilizarse
para acalcular
HDL para
sujeto
con influenciada
un índice de
masa
corporal
igual
0 kg/m
, este
extrapolación
explicativa,
principal limitación
es
que
está
muy
por
los
valores
extremos
y,
en
que
carece
de
sentido
biológico.
La
pendiente
b
=
-0,023
estima
que,
por cada
1
incrementos de cualquier magnitud c en la variable explicativa,
una muestra por una constante y al resultado se le suma otra constante, la media
queser
carece
de reflejo
sentidode
biológico.
La pendiente
b = -0,023 estima que, por cada
caso, puede incremento
no
un fiel
la−el
tendencia
(xŷ +=2 c)
ŷ-índice
(x)
= bde
+masa
b1 (x de
+
c)la1−distribución.
(b0 +
cb1 . de colesterol
de 1 ŷkg/m
en
corporal,
el bnivel
0central
1 x) = medio
1,69
0,023x,
de la muestra resultante es igual a la media
inicial
por
la
primera
constante,
más
la
2
incremento
de 1 kg/m
en el índice
de masa
corporal,
el nivel
medio
de colesterol
2
Así,
ejemplo,
de
una
desviación
típica
c=
3,50
kg/m
enpara
el índice de
HDLpor
disminuye
enincrementos
0,023 mmol/l.
general,
la pendiente
puede
utilizarse
ŷ En
= 1,69
- 0,023x,
2
Así,
por
ejemplo,
incrementos
de
una
desviación
típica
c
=
3,50
kg/m
en
el
índice
que
se
muestra
en
la
Figura
10.7.
Esta
recta
regresión
puede
utilizarse
para
Ejemplo
1.4
En
este
y
en
los
sucesivos
ejemplos
sobre
estimadores
muestrales,
se
asocian ycon
disminución
media en el colesterol HDL de cb1 =
c1xi + c2,seentonces
= cuna
c2 .
segunda constante;masa
si yi =corporal
1x +
HDL disminuye
en 0,023
mmol/l.
Enque,
general,
laconsecuencia
pendiente puede
para
3,50(–
0,023)
=
–
0,081
mmol/l.
Notar
como
de lac utilizarse
hipótesis
de
linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud
en la variable
de
masa
corporal
se
asocian
con
una
disminución
media
en
el
colesterol
HDL
de
que
se
muestra
en
la
Figura
10.7.
Esta
recta
de
regresión
puede
utilizarse
para
estimarutilizarán
o predecir
el
valor
esperado
del
colesterol
HDL
en
función
del
índice
de
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros
sujetos
del
esta disminución se asume constante a lo largo de todo el rango observado del índice de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
corporal;
esto es,del
el colesterol
modelo deHDL
regresión
lineal
estima
explicativa,
Ejemplo 1.5 Para transformar
los valores
de mmol/l
a mg/dl
seuna misma reducción de
2
=
-0,081
mmol/l.
Notar
que,
como
consecuencia
de masa
la
estimar
o
predecir
el
valor
esperado
del
colesterol
HDL
función
del
índice
de
1 = 3,50(-0,023)
,
el
masa corporal.
Por
ejemplo,
para
un
índice
de
masa
corporal
de
25
kg/m
2en and
estudiocb
“European
Study
on
Antioxidants,
Myocardial
Infarction
Cancer
ofhipótesis
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del índice
de
corporal
que
explicativa,
2
multiplica por el factor
conversión
Así,
utilizando
propiedad
del
entrede
28,5
y 32 kg/m
2
ŷde
(x38,8.
+. c)
- ŷpara
(x)
b0de
+ bla
(x
+dec)
- (b
b1x) =⋅de
cbtodo
. kg/m
0lo
de
linealidad,
esta
disminución
se=un
asume
acorporal
largo
el rango
, el
masa
corporal.
Por
ejemplo,
índice
de
masa
25
modelothe
estima
un
nivel
medio
colesterol
HDL
ŷ1constante
(25)
=casos
1,69
-+
25
=1realizado
Breast“
(EURAMIC),
un
estudio
multicéntrico
y0,023
controles
La recta de regresión estimada del colesterol HDL sobre el índice de masa corporal es
ŷ (x + HDL
c) - ŷen
(x)mg/dl
= b0 +sebcalcularía
cambio de escala, la media del colesterol
1(x + c) - (b0 + b1x) = cb1.
observado
del
índice
de
masa
corporal;
esto
es,
el modelo
de=efecto
regresión
lineal
2 los
modelo
estima
un
nivel
medio
de
colesterol
HDL
de
ŷ (25)
1,69
0,023
⋅25índice
=
entre
1991
y
1992
en
ocho
países
Europeos
e
Israel
para
evaluar
1,11 mmol/l. Así,
Por supuesto,
los valores
observados
del
colesterol
HDL
de-de
por ejemplo,
incrementos
deŷ una
desviación
típica
c difieren
=el3,50
kg/m
en el
= 1,69
− 0,023x,
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl.
2
Así,
por
ejemplo,
incrementos
una
desviación
típica
c =puede
3,50
kg/m
en25
el
estima
una
misma
reducción
dede
0,081
mmol/l
enregresión
el
colesterol
HDL
entre
yíndice
que
se
muestra
en
Figura
10.7.
Esta
recta
utilizarse
para
estimar o
1,11
mmol/l.
Por
supuesto,
valores
observados
del
colesterol
HDL
difieren
de
los valores medios
predichos
por
recta los
de
La de
varianza
residual
del
de
masa
corporal
selala
asocian
conregresión.
una
disminución
media
en el colesterol
HDL
de
5
que
se
muestra
en
la
Figura
10.7.
Esta
recta
de
regresión
puede
utilizarse
para
predecir el2 valor esperado del colesterol HDL en función del índice
de masa corporal. Por
2
2 y 32
de
masa
corporal
se
asocian
con
una
disminución
media
en
el
colesterol
HDL
de medio
6
28,5
kg/m
del
índice
de
masa
corporal
que
entre
28,5
kg/m
.
,
el
modelo
estima
undel
nivel
ejemplo,
para
un
índice
de
masa
corporal
de
25
kg/m
los1respecto
valores
medios
por laesrecta
regresión.
La varianza residual
colesterol HDL
a la recta
de regresión
cb
= 3,50(-0,023)
=predichos
-0,081
mmol/l.
Notardeque,
como consecuencia
de la hipótesis
estimar
o predecir
colesterol
HDLmmol/l.
en función
índice los
de valores
de colesterol
HDLeldevalor
ŷ(25)esperado
= 1,69 –del
0,023⋅25
= 1,11
Por del
supuesto,
cb
=
3,50(-0,023)
=
-0,081
mmol/l.
Notar
que,
como
consecuencia
de
la
hipótesis
La
recta
de
regresión
estimada
del
colesterol
HDL
sobre
el
índice
de
masa
1
observados
del533
colesterol
difieren
de
los valores
por la recta de
colesterol
HDL
respecto
aHDL
la recta
de regresión
es a lo medios
de
linealidad,
esta
disminución
se
asume
constante
largo depredichos
todo el rango
2
SSE
1
42,63
,
el
masa
corporal.
Por
ejemplo,
para
un
índice
de
masa
corporal
de
25
kg/m
2
es
=
= La varianza
{ y i − (residual
1,69 − 0,del
023colesterol
x i )} = HDL=respecto
0,080. a la recta de regresión
s2 regresión.
de 531
linealidad,
esta
disminución
se
asume
constante
a
lo
largo
de
todo
el
rango
corporal
es531 
531
i
=
1
observado del índice
533 corporal; esto es, el modelo de regresión lineal
SSE de medio
1masa
42,63
2ŷ (25)
modelo estima
= 1,69
- 0,023⋅25 =
=
y i colesterol
− (1,69 − 0HDL
= 0,080.
{de
,023xde
s2 = un nivel

i )} =
observado del índice
de
masa
corporal;
esto
es,
el
modelo
de
regresión
lineal
531
531 HDL entre
531 i =1
estimaque
unadebido
misma
mmol/l en de
el colesterol
25 y 20
Notar, por último,
a reducción
la hipótesisdede0,081
homogeneidad
la varianza,
la
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
debido de
a la0,081
hipótesis
de homogeneidad
la2 varianza,
estima por
una2último,
misma que
reducción
mmol/l
en el colesteroldeHDL
entre 25lay desviación
28,5
kg/m
del
índice
de
masa
corporal
que
entre
28,5
y
32
kg/m
.
Notar,
por
último,
que
debido
a
la
hipótesis
de
homogeneidad
de
la
típica
residualdel
delcolesterol
colesterolHDL
HDLss== 0,080 ==0,283
constantelaalrededor
desviación típica
residual
0,283mmol/l
mmol/lseseasumevarianza,
los valores2 medios predichos por la recta de regresión. La varianza
2 residual del
de
cualquier
punto
de de
la recta
regresión.
28,5
kg/m del
índice
masade
corporal
que entre 28,5 y 32 kg/m .
La
recta de típica
regresión
estimada
del colesterol
HDL
masa se
desviación
residual
del
colesterol
HDL
= sobre
0,080el=índice
0,283de
mmol/l
asume constante
alrededor
derespecto
cualquiera la
punto
recta
desregresión.
colesterol
HDL
rectadedelaregresión
es
La recta de regresión estimada del colesterol HDL sobre el índice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresión.
533
168 Pastor-Barriuso R.
42,63
corporal ess2 = SSE = 1
{ y i − (1,69 − 0,023x i )}2 =
= 0,080.

[Figura 531
10.7 aproximadamente
aquí]
531 i =1
531
20
Regresión lineal simple
2,25
Colesterol HDL (mmol/l)
2
1,5
1
0,5
0,25
20
24
28
antioxidantes en el riesgo de desarrollar un primer infarto
agudo de miocardio en
Indice de masa corporal (kg/m²)
32
36
Figura
10.7del
Figura
10.7
de regresión
del
HDL
sobre1,29,
el índice
de
masa
en el grupo
control
hombres adultos.
Los
valores
obtenidos
1,58,
0,84,corporal
encolesterol
el0,89,
riesgo
de 0,79,
desarrollar
unidoneidad
primer
infarto
agudo
de miocardio
en
sentido
deRecta
queantioxidantes
no
facilitafueron
ninguna
información
sobre
la1,42,
del modelo
lineal
estudio EURAMIC.
1,06, 0,87, 1,96 para
y 1,53
mmol/l.
media
de losLos
niveles
dellas
colesterol
HDL
en0,89, 1,58,
hombres
adultos.
valores
obtenidos
fueron
0,79, 1,29, 1,42, 0,84,
describir
laLa
relación
subyacente
entre
variables
explicativa
y respuesta.
sentido
de que nodel
facilita
ninguna
información
sobre
la idoneidad del modelo lineal
10.3.2
Contraste
modelo
regresión
lineal
simple
estos 10 participantes
es
1,06,del
0,87,
1,96 de
yde
1,53
mmol/l.
media
los niveles
colesterol
La realización
contraste
regresión
seLa
basa
en eldeanálisis
de ladel
varianza
de laHDL en
En para
general,
el contraste
de regresión
lineal
permite
evaluar explicativa
si el modeloyen
su conjunto explica
describir
la relación
subyacente
entre
las variables
respuesta.
estos
10
participantes
es
10significativa
variable
respuesta.
Una
vez
estimada
la
recta
de
regresión,
la
desviación
de cada
valor de la
una
parte
de
la
variabilidad
de
la
variable
respuesta.
En
el
caso
particular
1
0,89 + 1,58 + ... + 1,53
x
x
=
1,223
mmol/l.
=
=

i
regresión
lineal
simple,
hipótesisdenula
del contraste
la pendiente
La realización
dellacontraste
regresión
se basaesensimplemente
el análisis deque
la varianza
de laβ1 de la
10
10
=1
a la media
y
puede
separarse
en
dos
componentes:
el
observado
yi respecto
recta
de iregresión
subyacente
es 0,muestral
ya
tal
caso
la
variable
respuesta
no
se
relacionará
10que en
1
0,89 + 1,58 + ... + 1,53
x
x
=
1,223
mmol/l.
=
=
linealmente
con la única
explicativa
y, en
el modelode
lineal
aportará
 lai recta
variable respuesta.
Unavariable
vez estimada
de consecuencia,
regresión, la desviación
cadano
valor
10 i =1de la variable respuesta.
10
explicación
alguna
sobre
la
variabilidad
Es
importante
resaltar
o desviación
del valor
observado yi respecto a su valor estimado por la recta deque este
a media aritméticaerror
presenta
las siguientes
propiedades:
contraste
de regresión
linealidad
y, por
tanto, separarse
no debe interpretarse
como uneltest de
a la media
muestral
y puede
en dos componentes:
observado
yi respectoasume
bondad
del
ajuste,
en
el
sentido
de
que
no
facilita
ninguna
información
sobre
la idoneidad del
regresión
ŷLa
bSi0 +
la distancia
dicho
estimado
1xi, y una
i =media
Cambio de origen
(traslación).
sebsuma
constante
a cada
unovalor
depropiedades:
los
datos ŷ i y la media
aritmética
presentaentre
las
siguientes
modelo
para describir
la relación
subyacente
entre
variables
explicativa
y respuesta.
a sulas
valor
estimado
por la recta
de
errorlineal
o desviación
del valor
observado
yi respecto
Lamedia
realización
deles,contraste
de regresión
el
análisis
de
de la
de una muestra,muestral
la
de
muestra
es igual se
a labasa
inicial
la la varianza
y•; la
esto
Cambio
deresultante
origen
(traslación).
Simedia
se en
suma
una más
constante
a cada uno
devariable
los datos
regresión
= b0estimada
+ b1xi, y la distancia
entre dicholavalor
estimado
y
la
media
respuesta.
Unaŷ i vez
recta de regresión,
desviación
de ŷcada
valor
observado
yi
i
en dos
el error
desviación
respecto
muestral
= xmedia
c, una
entonces
y puede
=la xmedia
+separarse
c. Un
cambio
de componentes:
origen quees igual
constante utilizada;
si yai la
i +de
muestra,
de la
muestra
resultante
a la omedia
inicialdel
más la
yi - y estimado
= ŷ i - y por
+ yi la
- ŷrecta
i.
valor
observado
y
respecto
a
su
valor
de
regresión
ŷ
=
b
+
b
x
,
y
la
muestral y ; esto
i es,
i
0
1 i
entre
valorde
estimado
muestral
=que
xmedia
c, entonces
y ; =esto
+ c. Un cambio de origen que
constante
utilizada;
siŷi yyi la
se realiza condistancia
frecuencia
es eldicho
centrado
la variable,
consiste
en restar
ax es,
i+
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se
yi − variable
y = ŷ i −centrada
y + y −será,
ŷ i . por
cada valor de la muestra su media.
La media
de una
se realiza
con frecuencia
es el centradoi de
la variable, que consiste en restar a
tiene que
suma deestas
cuadrados
total yessumando sobre todas las observaciones, se tiene que
Elevando
al la
cuadrado
desviaciones
tanto, igual a la
0. suma
cada valor
deesladesviaciones
muestra su media.
La media
unalas
variable
centrada será,
de cuadrados
total
Elevando
al cuadrado
estas
y sumando
sobrede
todas
observaciones,
se por
n
n
n
n
i =1
i =1
i =1
i =1
2
Cambio de escalatiene
(unidades).
Si
multiplica
de
datos
tanto,
igual
ˆ
ˆ
y )a2 0.
= cada
yˆuno
) 2 los
+
( y i −deyˆuna
SSTla=suma
que
es
se( yde
 (total
i −cuadrados
i − y
i ) + 2 ( y i − y )( y i − y i )
muestra por una constante,•la Cambio
media dedelaescala
muestra
resultanteSiesnseigual
a la media
n(unidades).
multiplica
cadan uno de los datos de una
n
n
n
2
ˆ
=
(
y
−
y
)
+
(
y
−
yˆ i ) 2 2 = SSR
+ SSE,
2
2 

iˆ
i
( y i − y ) +i 
( y i − yˆ i ) + 2 ( yˆ i − y )( y i − yˆ i )
SST =  ( y i − y ) = i 
=1
=1
cxiuna
, entonces
y =lac media
x . i =1 de la muestrai =resultante
inicial por la constante utilizada;
muestra
por
constante,
es igual a la media
i =1si yi =
i =1
1
n
n de
yi =los
cxdatos
porSilaseconstante
utilizada;
si
Cambio simultáneo de origen inicial
y escala.
multiplica
cada uno
de y = c x .
i, entonces
= incorrelacionadas
( yˆ i − y ) 2 +  ( y i − yˆ i ) 2 = SSR + SSE,
ya que ambas componentes están
i =1
i =1
Pastor-Barriuso R.
169
una muestra por una constante
y al resultado
se le de
suma
otrayconstante,
• Cambio
simultáneo
origen
escala. Si la
semedia
multiplica cada uno de los datos de
=
Correlación y regresión lineal simple
n
n
i =1
i =1
 ( yˆ i − y ) 2 +  ( y i − yˆ i ) 2 = SSR + SSE,
1.2 en
MEDIDAS
DE TENDENCIA
CENTRAL
ya que ambas
componentes
están
es en el riesgo de desarrollar
un primer
infarto
antioxidantes
agudoincorrelacionadas
de miocardio
en el riesgo
de desarrollar
un primer infarto
agudo de miocardio e
ya que ambas componentes están incorrelacionadas
ultos. Los valores obtenidos fueron
0,89, 1,58,
hombres
0,79, 1,29,
adultos.
Los
0,84,
valores
fueron
0,89, 1,58,
0,79,acerca
1,29, 1,42,
0,84
n
n 1,42,
n obtenidos
n
Las
medidas
de tendencia
central
informan
de cuál
es
ˆ
ˆ
(
y
−
y
)(
y
−
y
)
=
b
(
x
−
x
)
e
=
b
x
e
−
b
x
e
=
0

i
i
i
i
i
1
1 i i
1  i
i =1 los niveles del
i =1 La mediai =de
1 HDL
1 los niveles del colesterol HDL en
1,96 y 1,53 mmol/l. La media de
1,06,
colesterol
0,87,i =1,96
y 1,53
en una
mmol/l.
de
determinada
variable
o, dicho de forma equivalente, e
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la suma
rticipantes es de cuadrados
estos 10derivadas
participantes
es independientes:
total SST sededescompone
en dos términos
la
de Así,
cuadrados
según las ecuaciones
regresión
del
método
de qué
mínimos
la observados. Las
alrededor
de
valor cuadrados.
sesuma
agrupan
los datos
de la regresión SSR, que representa la variabilidad de la variable respuesta explicada por la
10
delsemodelo
de regresión,
y 0la,89
suma
cuadrados
delresumir
error los resultados
suma
cuadrados
total SST
descompone
en
dos
términos
suma
de
muestra
sirven
+de
+independiente
+independientes:
+
+ 1tanto
1 10 única
0,89variable
1,58
... + 1,53
1central
1,58de
...
,53 lapara
x =  x iSSE,
1,223 mmol/l.
x
x i = respuesta que queda=sin
1,223
mmol/l.
= que corresponde a la=variabilidad
=
residual de lavariable
explicar.
10 i =1
10
10 i =1
10
Conviene
recordar
la recta SSR,
de regresión
estimada
por el procedimiento
mínimospoblacionales c
realizar
acerca
de los de
parámetros
que representa
la inferencias
variabilidad
de la variable
de cuadrados
de que
la regresión
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa
modelo
de regresión.
La Figurase
10.8
ilustra
gráficamente
continuación
describen
los
principales
estimadores de la t
pordel
la única
independiente
modelo
de regresión,
y la esta
mética presenta lasrespuesta
siguientes propiedades:
La
mediavariable
aritmética
presenta lasdel
siguientes
propiedades:
descomposición.
variable.a la variabilidad
cuadrados
della
error
SSE,
residual
de la
LaSidescomposición
de
de
la
mediante
origen (traslación).suma
sede
suma
una constante
• variabilidad
Cambio
a cada
uno
deque
origen
de corresponde
losvariable
(traslación).
datos respuesta
Si se suele
suma representarse
una
constante
a cada uno de los datos
la denominada tabla del análisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
explicar.
recordar
que la
recta
de es
regresión
presenta
lasrespuesta
sumas
deque
cuadrados
junto
con inicial
susConviene
grados
de libertad.
La suma
de
stra, la media de
lavariable
muestra
resultante
es queda
igual
deasin
una
la media
muestra,
lacorrespondientes
media
más la
de
la muestra
resultante
igual
a la media
inicial más
1.2.1
Media
aritmética
cuadrados de la regresión contiene únicamente 1 grado de libertad ya que, una vez conocida la
estimados
la recta
dexiregresión
ŷi =
muestral y , =losx valores
xi + c, entonces
+ c. Un
cambio utilizada;
depor
origen
ymedia
+aritmética,
c, entonces
y += bx1(xpor
+i c–. Un
cambio
origen
que
tilizada; si yi = media
constante
sique
La
denotada
x ), quedan
se
definede
como
la sum
i=
22
completamente determinados por su pendiente; mientras que, como se vio en el apartado
la suma
cuadrados
del error
nvalores
de libertad.
continuación,
los
dividida
por
el número
de observaciones
on frecuencia esanterior,
el centrado
de la de
variable,
que
se realiza
consiste
con
entiene
frecuencia
restar
a– 2 grados
esmuestrales
el centrado
de la A
variable,
que consiste
en restar a
términos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
la razón
define
como
el cociente
entre
lamedia
varianza
explicada
por
la
por
n su
el tamaño
muestral
ydepor
xivariable
el valor
observado
parapor
el s
de la muestra suFinalmente,
media. La media
de de
unavarianzas
variable
cada se
centrada
valor
de la
será,
muestra
media.
La
una
centrada
será,
regresión y la varianza residual, que constituye el estadístico del contraste de regresión.
la media vendría dada por
a 0.
tanto, igual a 0.
escala (unidades). Si se multiplica cada uno
• de
Cambio
los datos
de escala
de una(unidades). Si se multiplica cada uno
+ x 2de+una
... + x n
1 nde los xdatos
.
x =  xi = 1
n
n
i =1
r una constante, la media de la muestra resultante
muestra
es igual
por una
a laconstante,
media
la media de la muestra resultante es igual a la media
(xi, yi)
= c x . por la constanteLa
yi medida
= cxi, entonces
y = ccentral
x.
a constante utilizada; si yi = cxi, entonces y inicial
utilizada;
media essi la
de tendencia
más utilizada
ei = yi − yˆ i
interpretación.
Corresponde
al “centro de gravedad” de los d
multáneo de origen y escala. Si se multiplica
• cada
Cambio
unosimultáneo
de los datos
dedeorigen
( x , yˆ )y escala. Si se multiplica cada uno de los datos de
i
i
yi − y
principal
limitación
es queseestá
muy otra
influenciada
porlalos
val
a por una constante y al resultado se le suma una
otra( xmuestra
constante,
porlauna
media
constante
y al resultado
le suma
constante,
media
, y)
yˆ − y
y
i
caso,
puede
sermedia
un fiel
reflejo
tendencia
central de
ra resultante es igual a la media inicial por lade
primera
la muestra
constante,
resultante
más es
la
igualno
a la
inicial
pordelalaprimera
constante,
másla
c2 .
nstante; si yi = c1xi + c2, entonces y = c1 x +segunda
constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Recta de regresión estimada:
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
yˆ = b0 + b1 x = y + b1 ( x − x )
utilizarán
los valores
del colesterol
obtenidos
en
5 Para transformar los valores del colesterol HDL
Ejemplo
de mmol/l
1.5 Paraa transformar
mg/dl se
los valores
del colesterol
HDLHDL
de mmol/l
a mg/dl
“European
Study
on Antioxidants,
Myocardial
por el factor de conversión 38,8. Así, utilizando
multiplica
la propiedad
por eldel
factor deestudio
conversión
38,8. Así,
utilizando
la propiedad
del
thedel
Breast“
(EURAMIC),
un estudio
multicéntrico de c
escala, la media del colesterol HDL en mg/dlcambio
se calcularía
de escala, la media
colesterol
HDL en mg/dl
se calcularía
x
1991
1992 en
ocho1,223
países
Europeos
Israel par
⋅38,8 = 47,45amg/dl.
⋅Figura
38,8
= 47,45emg/dl.
te a partir de su media en mmol/l como 1,223directamente
partir de suentre
media
en ymmol/l
como
10.8
Figura 10.8 Descomposición de la variabilidad de la variable respuesta en la parte explicada y no explicada por la regresión.
6
170
Pastor-Barriuso R.
libertad ya que, una vez conocida la media muestral y , los valores estimados por la
Regresión lineal simple
recta de regresión ŷ i = y + b1(xi - x ) quedan completamente determinados por su
pendiente;
mientras
que,
como
se viodel
enanálisis
el apartado
anterior,
laen
suma
de cuadrados del
Tabla
10.2Tabla
Tabla
genérica
de laen
varianza
regresión
Tabla 10.2
genérica
del análisis
de la varianza
regresión lineal
simple.* lineal
simple.*
varianza
var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuación,
Gradoslos
de términos de la varianza
Razón dese
Suma
de
cuadrados
Grados
de
libertad
Varianza
Razón
de
varianzas
cuadrado de una distribución
normal estandarizada,
definición a
cuadrados
libertadque corresponde por
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR
Regresión chi-cuadrado
SSR = con
( yˆ i −1ygrado
)
1
SSRparte, basta
F = con
2 que se
una distribución
de libertad.
Por otra
i =1
razón de varianzas se define como
el cociente entre la varianza explicada porsla
2
n
n
cumplan las asunciones subyacentes
al modelo
lineal para que
la varianza residual s2
SSE
2
2
2
( y i constituye
− yˆ i )
n −estadístico
2
s =del contraste de regresión.
Error
SSE =residual,
regresión
y la varianza
el
 ei = que
i =1
i =1
sea un estimador insesgado de σ 2 y el cociente
n−2
n
y) 2
SST =[Tabla
 ( y i −10.2
n −1
aproximadamente
aquí]
2
(n − H
2) s: β = 0, el cociente SSR/σ 2 es el
varianza var(b1). Así, bajo la hipótesis
nula
0
1
2
2
2
*
Coeficiente
de
determinación
R
=
SSR/SST.
* Coeficiente de determinación R = SSR/SST.
σ
Para realizar el contraste de regresión, es preciso conocer la distribución de la razón
cuadrado de una distribución normal estandarizada, que corresponde por definición a
Por unde
lado,
selatiene
que
de
varianzas
bajo
la hipótesis
H
siga
una
distribución
chi-cuadrado
con
-=20.
grados
libertad.
Combinando
ambos
0: βn1es
Para
realizar
el contraste
de nula
regresión,
preciso
conocer
distribución
de
la razón de
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hipótesis nula H0: β1 = 0. Por un lado, se tiene que
2varianzas
resultados,
sebtiene
quen bajolalahipótesis
hipótesis
nula
: β1 =0,0ella
razón entre
las
2 SSR/
n HH
varianza
σ
es el s2
1). Así,
0: 0β1 =
b12cociente
(que
n − 1la
) s varianza
bal12nula
b12 residual
SSR
1 bajo
cumplan var(
las
asunciones
subyacentes
modelo
lineal
2
2 para
x
ˆ
=
−
=
−
=
=
,
(
y
y
)
(
x
x
)
i
i
2
2
2 
2 
var(
b
)
σ
σ
σ
σ
i
i
1
1
=
=
1
explicada
y residual
cuadrado
de
una distribución
que corresponde por definición a
sea un estimador
insesgado denormal
σ 2 y elestandarizada,
cociente
donde var(b1) = σ 2/{(n – 1)s2x} es la varianza de la pendiente estimada. Como se comprobará en
2
2 otra parte, basta con que se
una distribución
chi-cuadrado
con
1 grado
Por
donde
var(b
1) s x2 }SSR
eslas
la
varianza
de la
estimada.
Como se
el siguiente
apartado,
si se- cumplen
asunciones
dependiente
la χregresión
lineal simple,
la pendiente
1) = σ /{(n
σ 2libertad.
SSR /de
1
2
=
F
=
~
(
n
−
2
)
s
2
2
estimada b1 seguirá una distribución
media
y2varianza
var(b1). Así, 2bajo la
s 2 normal
smodelo
χ n2− 2para
/ σcon
/(βn1 −que
) la varianza
cumplan
las
asunciones
subyacentes
al
residual s normal
22 lineal
σ
hipótesis
nula en
H0:elβsiguiente
cociente siSSR/σ
es ellas
cuadrado
de de
unaladistribución
comprobará
se cumplen
asunciones
regresión lineal
1 = 0, el apartado,
estandarizada, que corresponde por 2definición a una distribución chi-cuadrado con 1 grado de
seadistribuye
unPor
estimador
insesgado
de de
σ dos
yseelchi-cuadrado
cociente las asunciones
se
elestimada
cociente
independientes
divididas
libertad.
otracomo
parte,
basta
con
subyacentes
modelo
bque
normal
con
mediaalβpor
y sus lineal
simple,
ladistribución
pendiente
1 seguirá
1ambos
siga una
chi-cuadrado
concumplan
nuna
- 2 distribución
grados de libertad.
Combinando
2
2
para que la varianza residual s sea un estimador insesgado de σ y el cociente
respectivos grados de libertad, que es una distribución
F de Fisher con 1 grado de
23
− 2)Hs 02: β1 = 0 la razón entre las varianzas
resultados, se tiene que bajo la hipótesis(nnula
Total
i =1
2
σ
libertad en el numerador y n - 2 grados de libertad
en el denominador. El valor P del
explicada
y
residual
siga una distribución chi-cuadrado con n – 2 grados de libertad. Combinando ambos resultados,
se tiene
que distribución
bajo
la hipótesis
H0: βcon
= n0 -laH
las varianzas
explicada
y residual
contraste
de regresión
de lanula
hipótesis
: β1 =entre
0defrente
a la Combinando
hipótesis
alternativa
1 nula
0grados
siga una
chi-cuadrado
2razón
libertad.
ambos
χ 12
SSR SSR / σ 2
=
~
F
=
2nula2 la
H1se
: βtiene
derecha
estadístico
bilateral
resultados,
quecalcula
bajo laentonces
hipótesis
: βχ1 2= 0/(la
las del
varianzas
1 ≠ 0 se
s2
scomo
/ σ H0probabilidad
n −razón
2a) la entre
n−2
se distribuye
como
el cociente
F
bajo la distribución
F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
explicada
y residual
grados
de libertad,
queelescociente
una distribución
F de Fisher con
1 grado de libertad
enpor
el numerador
se distribuye
como
de dos chi-cuadrado
independientes
divididas
sus
y n – 2La
grados
de
libertad
en
el
denominador.
El
valor
P
del
contraste
de
regresión
de
la
hipótesis
tabla del análisis de la varianza suele ir 2acompañada
del coeficiente de
2
χ
σ
SSR
SSR
/
nularespectivos
H0: β1 = 0 grados
frente adelalibertad,
hipótesis
alternativa
bilateral
0 se calcula
entonces
es
distribución
con 1 grado
de como la
1 ≠Fisher
= una
F = que
~ 2 H1F:1βde
2
2
2
2
.
probabilidad
a
la
derecha
del
estadístico
F
bajo
la
distribución
F
s
s
σ
χ
n
−
/
/(
2
)
determinación R , que se define como la proporción
de la variable
1,n–2
n − 2de la variabilidad
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del análisis de la varianza suele ir acompañada del coeficiente de determinación R2,
se explica
por el modelo
de regresión,
querespuesta
sedistribuye
defineque
como
la el
proporción
de dos
la variabilidad
de la variable respuesta
que por
se explica
por
se
como
cociente
chi-cuadrado
divididas
sus
contraste
de regresión
de la hipótesis
nula
H0: β1 = 0independientes
frente a la hipótesis
alternativa
el modelo de regresión,
n
respectivos grados de libertad,n que es una
F de Fisher con 1 grado de
2 distribución
entonces
del estadístico
bilateral H1: β1 ≠ 0 se calcula
b12laprobabilidad
( yˆ i − y )como
( x i − x ) 2 a la derecha
2
SSR i =1
2
2
2 sx
i =1
R =
= b1 2 = rEl. valor P del
libertad en el numerador
y =n -n2 grados de =libertad
en el denominador.
n
sy
F bajo la distribuciónSST
F1,n-2.
2
2
( yi − y)
( yi − y)


i =1
contraste de regresión de la hipótesis
nula H0:i =β1 1 = 0 frente a la hipótesis alternativa
La tabla del análisis de la varianza suele ir
acompañada del coeficiente de
Pastor-Barriuso R.
bilateral H1: β1 ≠ 02 se calcula entonces como la probabilidad a la derecha del estadístico
determinación R , que se define como la proporción de la variabilidad de la variable 24
F
bajo la distribución
F1,n-2
respuesta
que se explica
por. el modelo de regresión,
171
el cuadrado
del coeficiente
de correlación
r de aPearson
entre
las variables
explicativa
observados
del colesterol
HDL respecto
la media
muestral
y = 1,09
mmol/l esy
lineal del10colesterol HDL sobre el índice de masa corporal en 533 controles del
+ 1,53 el análisis de la varianza de la regresión
1 10.8 La0,Tabla
89 + 1,10.3
58 + ...
Ejemplo
presenta
respuesta.
x y=regresión
xlineal
= 1,223 mmol/l.
Correlación

i = simple
533
10 EURAMIC.
10 de cuadrados
estudio
La suma
de)las
desviaciones
de los valores
2
i =1
( y i − de
1,09
46,15, en 533
lineal del colesterol HDL SST
sobre= elíndice
masa=corporal
controles del
i =1
Ejemplo
10.8
Tabla 10.3
presenta
el análisis
de la
varianzay de
la regresión
observados
delLacolesterol
HDL
respecto
a la media
muestral
= 1,09
mmol/l
es
2
En el estudio
casopresenta
deEURAMIC.
la regresión
lineal
simple,
el coeficiente
de determinación
coincide con el
La
suma
de cuadrados
de las desviaciones
de los R
valores
La media aritmética
las siguientes
propiedades:
que del
sedel
descompone
la suma
cuadrados
deentre
lascorporal
desviaciones
colesterol
cuadrado
coeficiente
correlación
de Pearson
las variables
explicativa
y respuesta.
lineal
colesteroldeen
HDL
sobre de
elríndice
de masa
en 533del
controles
del
533
observados
del colesterol
HDL
la
media
muestral
y = 1,09 mmol/l es
• Cambio de origen
(traslación).
Si se suma
una
constante
a cada
de los datos
SST
=respecto
( y i −a1,09
) 2 =uno
46,15,

HDL
respecto
a
la
recta
de
regresión
ŷ
x
=
1,69
0,023
i
EjemploEURAMIC.
10.8 La Tabla
10.3de
presenta
el
la varianza
delos
la regresión
estudio
La suma
cuadrados
de las de
desviaciones
de
valores lineal del
i análisis
i =1
colesterol
el índice
de533
masa
corporal
533 inicial
controles
de una muestra,
la mediaHDL
de lasobre
muestra
resultante
es igual
a la en
media
másdel
laestudio EURAMIC.
2 valores
La suma de del
cuadrados
deSST
las
observados
colesterol
observados
colesterol
HDL
respecto
lademedia
muestral
y = 1,09del
mmol/l
es HDL
=de
( y i −a1,09
)los
= 46,15,
533desviaciones

que
se
descompone
en
la
suma
cuadrados
de
las
desviaciones
del colesterol
2
=
1,09
mmol/l
es
respecto
muestral
i
=
1
= xmedia
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante utilizada;
si yai la
SSE =  { y i − (1,69 − 0,023x i )} = 42,63
i
i =1
533
HDL respecto a la recta de regresión
ŷ = 1,692 - 0,023xi
se realiza con que
frecuencia
es
el
centrado
de
la
variable,
en restar a del colesterol
SST
=
( y i i−que
1,09consiste
) las
= 46,15,
se descompone en la suma decuadrados
de
desviaciones
i =1
y la suma de cuadrados de las distancias entre los valores estimados por la recta
533 de una variable centrada será, por
cada valor de que
la muestra
su media.
La de
media
HDL
a la recta
regresión
ŷ i = 1,69 -de0,023
serespecto
descompone
en
la
suma
de cuadrados
las xdesviaciones del colesterol HDL
SSE
=
{ y i − (1,69
− 0,023x i )}2 =i 42,63

de
regresión
y
la
media
muestral
que
se
descompone
en
la
suma
de
cuadrados
de
las
desviaciones del colesterol
respecto a la recta de regresión
i =1 ŷi = 1,69 – 0,023xi
tanto, igual a 0.
533
•
HDL respecto a la recta
de
regresión
x=i 42,63
1,69
- x0,023
533{ y − (1,ŷ
i =
= las
69
−de
0,los
023
)}22 de

i
ivalores
y la suma
de cuadrados
de
distancias
entre
los
estimados por la recta
Cambio de escala
(unidades).
Si seSSE
multiplica
cada
uno
datos
= una
3,53.
SSR = i
=1 (1,69 − 0,023 x i − 1,09)
i =1
•
ydelaconstante,
suma deylacuadrados
de533
las distancias
entre
los2 valores
estimados por la recta de
regresión
lamedia
mediademuestral
muestra por una
la
muestra
resultante
es igual
a la media
SSE
=
{
y
−
(
1
,
69
−
0
,
023
x
)}
=
42,63

regresión
media muestral
y la suma ydelacuadrados
de las
distancias
entre los ivalores estimados por la recta
i
i =1
Así, la proporción de la variabilidad
del colesterol HDL que se explica
inicial por la constante utilizada; si yi = cx533
i, entonces y = c x .
de regresión y la media
muestral
(1,69corporal
− 0,023viene
x i − 1,dada
09) 2 por
= 3,53.
SSR =de
únicamente
con
el
índice
masa
el coeficiente de
y la suma
de cuadrados
i =1 distancias entre los valores estimados por la recta
Cambio simultáneo
de origen
y escala.deSilas
se multiplica cada uno de los datos de
533
Así,
la proporción de la variabilidad
del colesterol HDL
determinación
2 que se explica únicamente con el
de
regresión
y
la
media
muestral
(
1
,
69
−
0
,
023
x
−
1
,
09
)
3,53.
SSR
=

i
una muestra por
una
constante
y
al
resultado
se
le
suma
otra
constante,
la media
índice
masa corporal
viene
dada por
coeficiente
de=que
determinación
Así, la de
proporción
de la variabilidad
delelcolesterol
HDL
se explica
i =1
2
Rinicial
= 3,53/46,15
= 0,076,
de la muestra únicamente
resultante escon
igual
la media
por la primera
constante,
más la
el aíndice
de533
masa
corporal
viene
dada
2 por el coeficiente de
(
1
,
69
−
0
,
023
x
−
1
,
09
)
=
3,53.
SSR
=

Así, coincide
la proporción
decuadrado
la variabilidad
del colesterol
HDL que se
explica
i
que
con elde
del coeficiente
de correlación
i =1
parte significativa
la
variabilidad
total
del
colesterol
HDL,muestral
se realizaentre
el el índice de
y
=
c
x
+
c
,
entonces
y
=
c
x
+
c
.
segunda constante;
si
2
2
i
1
i
2
1
2
determinación
que
coincide
con
el
cuadrado
del
coeficiente
de
correlación
muestral
entre
el
masa corporal y el colesterol HDL r = (– 0,276) = 0,076. Para determinar
si esta
únicamente
con
el
índice
de
masa
corporal
viene
dada
por
el
coeficiente
de
variabilidad
explicada
por
el
índice
de
masa
corporal
es
una
parte
significativa
H0: 2β1 =HDL
0 mediante
razón entre las de la
contraste
de regresión
devariabilidad
la hipótesisdel
nula
2 se la
Así,
la
proporción
de
la
colesterol
que
explica
índice
de
masa
corporal
y
el
colesterol
HDL
r
=
(-0,276)
=
0,076.
Para de la hipótesis
2
variabilidad total del colesterol
se realiza
el contraste de regresión
R HDL,
= 3,53/46,15
= 0,076,
determinación
Ejemplo 1.5 Para
transformar
los
valores
del
colesterol
HDL
de
mmol/l
a
mg/dl
se
2 varianzas explicada SSR = 3,53 y residual
nula
H0: βexplicada
la razón
entre las
1 = 0 mediante
varianzas
SSR =
y corporal
residual
sviene
= 42,63/531
=el0,080,
únicamente
con
el variabilidad
índice
de3,53
masa
dada de
pormasa
coeficiente
deuna
determinar
si
esta
explicada
por
el índice
corporal es
2
s = 42,63/531 = 0,080,
2 coeficiente
coincide
con el cuadrado
correlacióndel
muestral entre el
multiplica porque
el factor
de conversión
38,8.Rdel
Así,
utilizando de
la
propiedad
= 3,53/46,15
= 0,076,
25
determinación
F = 3,53/0,080 = 43,93.
2
2
índice
masa
y elHDL
colesterol
HDL
= (-0,276) = 0,076. Para
cambio de escala,
la de
media
delcorporal
colesterol
en mg/dl
sercalcularía
Bajo
la hipótesis
este estadístico
sigue una distribución F de Fisher con 1 grado de
que coincide
con nula,
el cuadrado
del
2 coeficiente de correlación muestral entre el
R =grados
3,53/46,15
= 0,076,
Bajo la hipótesis
nula, estey estadístico
sigue
una
distribución
F de Fisherluego
con 1
ensusi
elmedia
numerador
531
de
en de
elmg/dl.
denominador,
determinar
esta
variabilidad
explicada
por
el2 índice
masa
corporal es una el valor P
⋅libertad
38,8
= 47,45
directamente alibertad
partir de
en mmol/l
como
1,223
2
En conclusión,
las diferencias en el
bilateral
contraste
índice dedel
masa
corporalesyP(F
el colesterol
HDL< r0,001.
= (-0,276)
= 0,076. Para
1,531 ≥ 43,93)
25 en la
grado
de
libertad
en
el
numerador
y
531
grados
de
libertad
en
el
denominador,
índice
de masa
explican
el 7,6% dedelacorrelación
variabilidad
del colesterol
que
coincide
concorporal
el cuadrado
del coeficiente
muestral
entre el HDL
6 es una
P <corporal
0,001).
población
del estudio
EURAMIC
(R2 = 0,076,
determinarde
si referencia
esta variabilidad
explicada
por el índice
de masa
2
2
luego
el
valor
P
bilateral
del
contraste
es
P
(
F
≥
43,93)
<
0,001.
índice de masa corporal y el colesterol HDL r1,531
= (-0,276) = 0,076. En
Paraconclusión,
25
Tabladeterminar
10.3
Tabla
del
análisis
demasa
la varianza
la regresión
del es
colesterol
HDL
las
diferencias
en el
índice de
corporal
explican
el
de
la variabilidad
si esta
variabilidad
explicada
porde
el índice
de7,6%
masalineal
corporal
una
sobre el índice de masa corporal en el grupo control del estudio EURAMIC.*
2
del colesterol HDLSuma
en ladepoblación de
referencia
del estudio EURAMIC (RRazón
= 25
Grados
de
de
cuadrados
libertad
Varianza
varianzas
3,53
42,63
46,15
   1
531
532
3,53
0,080
43,93
0,076, P < 0,001).
Regresión
Error
Total
*
172
Coeficiente de determinación[Tabla
R2 = 3,53/46,15
= 0,076.
10.3 aproximadamente
aquí]
Pastor-Barriuso R.
10.3.3 Inferencia sobre los parámetros de la recta de regresión
0
1
1.2 MEDIDAS DE TENDENCIA CENTRAL
pendiente de la recta de regresión utilizando el método de mínimos cuadrados. A partir
Regresión lineal simple
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
de las distribuciones muestrales de b0 y b1, se derivan a continuación los intervalos de
de una determinada variable o, dicho de forma equivalente,
estos estimadores indican
donde
los coeficientes
clos
xi para
- x )/{(
- de
1) slax2 }recta
dependen
únicamente
valores
confianza
y tests sobre
de hipótesis
losnparámetros
subyacentes
β0 y β1de
dellos
modelo
dede
i = (parámetros
10.3.3
Inferencia
de regresión
alrededor
de qué valor
se agrupan
los datos
de tendencia
En el Apartado
10.3.1
se obtuvieron
los observados.
estimadores Las
b0 y medidas
b1 de la constante
y la pendiente de la
regresión
lineal
simple.que se asumen constantes. Bajo
la
variable
explicativa
las
asunciones
y
recta de regresión utilizando el método de mínimos cuadrados. A partirde
delinealidad
las distribuciones
central
de la muestra
paraa resumir
los resultados
observados
como para
muestrales
de b0 ysirven
b1, setanto
derivan
continuación
los intervalos
de confianza
y tests de hipótesis
El estimador
delamínimos
de la pendiente
homogeneidad
de
varianza,cuadrados
el valor esperado
de b1 esde la recta de regresión puede
para los parámetros subyacentes β0 y β1 del modelo de regresión lineal simple.
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
El
estimadorcomo
de mínimos
cuadrados
de
la pendiente
de la recta
regresión
puede reescribirse
reescribirse
una combinación
lineal
de los
valores
de lade
variable
respuesta
n
n
n
como unasecombinación
lineal
loscivalores
respuesta
E
(principales
b1) =de
Eestimadores
( y i ) =de
β 0lavariable
c i la+ tendencia
β1 
c i x i central
= β1 de una
continuación
describen los
de
n
i =1
i =n1
i =1
2
donde los coeficientes ci = ((xxi -− xx)/{(
de los valores de
y ) s x }dependen
)( y in−- 1)
( x i − x ) yúnicamente

variable.
i
i
n
b1 = cii ==1 y(ixnson
=2 }i =n1dependen
=  c3.4),
y,
comoloslascoeficientes
observaciones
independientes
(véase Apartado
su varianza
i y i ,de
donde
x
)/{(
n
1)
s
valoreses
i
x
la variable explicativa que se asumen constantes.
Bajo las2únicamente
asunciones
de los
linealidad
yde
2
i =1
−
x
x
x
−
x
(
)
(
)


i
i
1.2.1 Media aritmética
i =1
i =1
n
la
variable explicativa
que se asumen
constantes.
de linealidad y
b1 2eslas asunciones
homogeneidad
de la varianza,
eln valor
esperado 2deBajo
σ2
2
2y ) =σ
var(
=
var(
b
)
=
.
c
c
1
La media
denotada
por
,
se define
la 
suma
de valores
los
dondearitmética,
los coeficientes
ci = (x
–i 1)sx }como
dependen
únicamente
de los
de la variable
i de cada uno
i
i – x )/{(n
(n − 1) s x2
i =1
i =1
explicativa
que se de
asumen
constantes.
Bajo
las
asunciones
de
linealidad
y
homogeneidad
de la
b
es
homogeneidad
la varianza,
el
valor
esperado
de
1
n
n
n
valores
muestrales
dividida
por
el número
varianza,
el valor
esperado
b es de observaciones realizadas. Si denotamos
E(bde
1) = 1 c i E ( y i ) = β 0  c i + β 1  c i x i = β1
26
i=
i=
i=
Es decir, b1 es un estimador insesgado
de β1 que
n1
n1 será tanto
n1 más preciso cuanto menor
por n el tamaño muestral y por
observado
para
i = 1, ..., n,
E(bx1i)el
= valor
ci E
( yi ) = β 0 
c i el+ sujeto
β 1  ci-ésimo,

i xi = β 1
i =1
i =1
i =1
sea
la varianza
de la variable
respuesta
alrededor (véase
de la recta
de regresión
mayoreses
y, como
las observaciones
yi son
independientes
Apartado
3.4), suyvarianza
la media
vendría
dada
por
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es
sean
el tamaño
muestral y la
de la variable
explicativa.
Además,
si el tamaño
y, como
las observaciones
yi dispersión
sonn independientes
(véase
Apartado
3.4),
su varianza
es
n
2
σ
n
2x + x + ... +2 x
2
1
var(
= x=c i 1var( y2 i ) = σ 
.
n ci =
2
. una(generalización
x =b1 )
muestral n es suficientemente
grande,
puede aplicarse
del teorema
i1
n
−
1
)
s
1
=
=
i
i
x
2
n
n
n i =1
n
σ
2
2
2
var(b1) =  c i var( y i ) = σ  c i =
.
2
Es central
decir, bdel
es
un
estimador
insesgado
de
β
que
será
tanto
más
preciso
cuanto
menor
límite
(ver
su
versión
más
simple
en
el
Apartado
4.3.3)
para
demostrar
quesea la
(
n
−
1
)
s
1
1
i
=
=
i
1
1
x
Es
decir,
b
es
un
estimador
insesgado
de
β
que
será
tanto
más
preciso
cuanto
menor
1
1
varianza
de
la
variable
respuesta
alrededor
de
la
recta
de
regresión
y
mayores
sean
el
tamaño
La media es la medida de tendencia central más utilizada y de más fácil
b1 se distribuye
de formadeaproximadamente
normal con
la media
muestral
y la dispersión
la variable explicativa.
Además,
si yelvarianza
tamaño descritas
muestral n es
Es
decir,
b
es
un
estimador
insesgado
de
β
que
será
tanto
más
preciso
cuanto
1
1
sea
la
varianza
de
la
variable
respuesta
alrededor
de
la
recta
de
regresión
y
mayores
suficientemente
grande, al
puede
aplicarse
una generalización
central
límite (ver
interpretación.
Corresponde
“centro
de gravedad”
de los datosdel
de teorema
la muestra.
Su delmenor
su anteriormente,
versión más simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
laelvarianza
variable
respuesta
alrededor
de
laexplicativa.
recta
de regresión
y mayores
sean
tamaño
muestral
y laladispersión
de por
la variable
Además,
si el tamaño
principal
limitación
es de
quelaestá
muy
influenciada
los
valores
extremos
y, en este
aproximadamente
normal
con
media y varianza
descritas
anteriormente,
βde
b1 −puede
1 la~aplicarse
sean
el tamaño
muestral
la la
dispersión
Además,del
si teorema
el tamaño
muestral
n es
grande,
generalización
→variable
N (de
0, la
1)explicativa.
.una
caso, puede
no
ser
unsuficientemente
fiel
reflejoyde
tendencia
central
distribución.
σ
muestral
n es
suficientemente
grande,
una generalización
del teorema
central del
límite
(ver su versión
más
en el Apartado
4.3.3) para demostrar
que
s x simple
npuede
− 1 aplicarse
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
central
del
su versión
más simple
en el Apartado
4.3.3)
demostrar
que
Para
usolímite
de este
resultado,
el parámetro
desconocido
de sustituirse
por
la desviación
b1hacer
se distribuye
de(ver
forma
aproximadamente
normal
con σlaha
media
y para
varianza
descritas
Pararesidual
hacer
de este
elHDL
parámetro
desconocido
hadistribución
de sustituirse
por la de b1
típica
s,valores
que
conlleva
un error
adicional
de muestreo.
utilizarán
losuso
delresultado,
colesterol
obtenidos
en los 10σLa
primeros
sujetosresultante
del
b
se
distribuye
de
forma
aproximadamente
normal
con
la
media
y
varianza
descritas
seráanteriormente,
1entonces más dispersa que la normal, siguiendo aproximadamente una distribución t de
desviación
s,Antioxidants,
que conlleva
un error adicional
de muestreo.
Student
lostípica
n – 2residual
grados
de
libertad
correspondientes
aInfarction
la estimación
de laLa
varianza
residual,
estudiocon
“European
Study on
Myocardial
and Cancer
of
anteriormente,
b1b−1 −β 1βmás
1 ~ ~dispersa que la normal, siguiendo
distribución
resultante deun
b1 estudio
será entonces
.casos
→→Nt(n0de
) . y controles realizado
the
Breast“ (EURAMIC),
multicéntrico
−,2 1
s
σ
b − β1 ~
aproximadamente
una
distribución
- 2 grados
de libertad
n 1−e1→
Ncon
(0para
, los
1) . nevaluar
stxs1de
−
x n Student
entre
1991 y 1992 en
ocho
países Europeos
Israel
el efecto
de los
σ
Cabe
destacar que este
resultado
se hade
independencia de la asunción de normalidad
correspondientes
a la
estimación
varianza
sderivado
− 1 con residual,
x la n
y, en
consecuencia,
válido
para cualquier
distribución
subyacente
la variable
Cabe
destacar
este
resultado
se
derivado
con independencia
de
asunción
de
Para
hacer
usoque
deeseste
resultado,
el ha
parámetro
desconocido
σ ha dede
sustituirse
por
la
5 respuesta,
siempre que el tamaño muestral sea suficientemente grande.
normalidad
y, en
para
cualquier
distribución
subyacente
Para
hacer uso
deconsecuencia,
este resultado,
elválido
parámetro
desconocido
σdehamuestreo.
de sustituirse
desviación
típica
residual
s, quees
conlleva
un error
adicional
La pordelala
variable
respuesta,
siempre
tamaño un
muestral
sea suficientemente
grande.
desviación
típica
residual
que
error
adicional
muestreo.
La
distribución
resultante
de bs,1que
seráelconlleva
entonces
más
dispersa
que de
la normal,
siguiendo
A partir deresultante
la distribución
muestral
b1más
, el intervalo
de
100(1 - α)%
distribución
de b1 será
entonces
dispersa
la
normal,
aproximadamente
una distribución
t dedeStudent
con los nque
- 2confianza
grados
dealsiguiendo
libertad
27
Pastor-Barriuso R.
aproximadamente
distribución
t la
de
Student
con los nviene
- 2 grados
de libertad
para
la pendiente subyacente
β1 dedela
recta
de regresión
dado por
correspondientes
auna
la estimación
varianza
residual,
173
A partir de la distribución muestral
b , el intervalo. de confianza al 100(1 - α)%
b1 ± t nde
− 2 ,1−α1 / 2
s x n sea
− 1 suficientemente grande.
variable respuesta, siempre que el tamaño muestral
para la pendiente subyacente β1 de la recta de regresión viene dado por
Correlación y regresión lineal simple
partir
de la el
distribución
muestraldedelabhipótesis
de confianza
al 100(1 lineal
- α)%
1, el intervalo
DeAigual
forma,
contraste bilateral
de ausencia
de asociación
s
.realiza
b1 ±
para
lalaspendiente
subyacente
βy1 respuesta
de
la trecta
regresión
viene dado
por el estadístico
n − 2 ,1−H
αde
/ 2: β
=
mediante
entre
variables
explicativa
0
1
A partir de la distribución muestral de b1, el intervalo
confianza
al 100(1 – α)% para la
s x n0−se
1de
pendiente subyacente β1 de la recta de regresión viene dado por
s
b
.
b1 ± ttde
De igual forma, el contraste bilateral
de asociación lineal
− 2la
,1−αhipótesis
/2 1
n=
, de ausencia
ss x n − 1
sH
=de
0 se
realiza de
mediante
el estadístico
variables
explicativa
y respuesta
11
Deentre
iguallas
forma,
el contraste
bilateral
de la hipótesis
ausencia
asociación
lineal entre las
x 0:nβ−
De
igual
forma,
el
contraste
bilateral
de
la
hipótesis
de
ausencia
de
asociación
variables explicativa
y respuesta
H0: βun
0 se realiza
mediante
el miocardio
estadísticoen lineal
1 =primer
1.2
DE TENDENCIA
CENTRAL
antioxidantes
en elMEDIDAS
riesgo
de desarrollar
infarto
agudo de
s en el riesgo de desarrollar
un primer
agudosedepresentan
miocardio
en
b el
quePara
se distribuye
aproximadamente
como
una
t de
Studentde
con
n - 2 grados
de libertad
completar
la infarto
exposición,
intervalo
confianza
y el test
de
t = H0: 1β
entre
las
variables
explicativa
y
respuesta
1 = ,0 se realiza mediante el estadístico
hombres adultos.
Los
valores
obtenidos
fueron
0,89,
1,58,
0,79,
1,29,
1,42,
0,84,
s
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
ultos. Los valores obtenidos
fueron
0,89,
1,58,de0,79,
1,29,es
0,84, aunque
si laPara
hipótesis
nula
esexposición,
cierta.
Este
test
equivalente
de
regresión
lineal
hipótesis
para
la constante
la recta
de1,42,
regresión,
inferencias
suelen
completar
la
se
presentan
deestas
confianza
y el test
de tener
s x nel− intervalo
1 al contraste
1,06, 0,87, 1,96
y
1,53
mmol/l.
La
media
de
los
niveles
del
colesterol
HDL
en
b
de una determinada variable o,
1de forma equivalente, estos estimadores indican
, el estadístico
t =dicho
,96 y 1,53 mmol/l.
La
media
de los
niveles
del
colesterol
HDL
en
simple
presentado
en
el
apartado
anterior.
De
hecho,
del
contraste
de
queescasa
se
distribuye
aproximadamente
como
una
t
de
Student
con
n –en
2Fla
grados
de
libertad
si la
importancia
porque
la
relación
en
x
=
0
carece
de sentido
mayoría
de las
s
hipótesis para la constante de la recta de regresión,
aunque
estas
inferencias
suelen
tener
estos
10
es
queparticipantes
senula
distribuye
aproximadamente
como
una
t
de
Student
con
n
2
grados
de
libertad
hipótesis
es
cierta.
Este
test
es
equivalente
al
contraste
de
regresión
lineal
simple
presentado
valor se se
agrupan
observados.
Las medidas
dede
tendencia
Para alrededor
completarde
la qué
exposición,
presentan
el− intervalo
de confianza
y el test
s xlosntdatos
1este
ticipantes es en el
regresión
es
igual
al
cuadrado
del
estadístico
de
contraste,
apartado
anterior.
De
hecho,
el
estadístico
F
del
contraste
de
regresión
es
igual
al
cuadrado
aplicaciones.
El
estimador
mínimo-cuadrático
de
la
constante
b
=
y
b
x
es
una
1
escasa importancia porque la relación en x = 0 carece de sentido0 en la mayoría
de las
la hipótesis
nula
es
cierta.
Este
test
es
equivalente
al
contraste
de
regresión
lineal
delsi
estadístico
t
de
este
contraste,
10 la muestra sirven tanto para resumir los resultados observados como para
0,89de+la
1,58
...de+ 1regresión,
,53 el intervalo
hipótesis
para1lade
constante
recta
aunquedeestas
inferencias
suelen
Para central
completar
la exposición,
se+presentan
confianza
y el test
de tener
x
xde
1,223
=
10
2 =
2 mmol/l.
que
se
distribuye
como
una
t
de
Student
con
n
2
grados
de
libertad

i =dos estimadores
1
0combinación
,89 + 1,58 + ...10
,aproximadamente
53
aplicaciones.
El+ 1estimador
mínimo-cuadrático
de
la
constante
b
=
y
b
x
es
una
lineal
independientes
y
y
b
que
tienden
a
distribuirse
0
1
1
(
−
1
)
b
n
s
SSR
2
1
x
i =1 en el
x =  x i = simple presentado
= 1,223
mmol/l.
apartado
anterior.
De
hecho,
el=estadístico
F del contraste de A
F
=10
=parámetros
tsentido
,
realizar
acerca
de2los
poblacionales
2
escasa importancia
porque de
la
relación
en
x
=
0
carece
de
en correspondientes.
la mayoría
de las
hipótesis
para lainferencias
constante
la recta
de
regresión,
aunque
estas inferencias
suelen
tener
10 i =1
10
s
s
si
laforma
hipótesis
nulaconforme
es
Este testelestamaño
equivalente
al contraste
detienden
regresión
lineal
combinación
lineal
decierta.
dos estimadores
independientes
ydey lo
b1 cual
que
a distribuirse
de
normal
aumenta
muestral,
se
deduce
que
la
es igual
al cuadrado
del estadístico
t de este
contraste,
de regresión
tal
forma
que
ambos
procedimientos
lossentido
mismos
(lacentral
distribución
continuación
se describen
losfacilitan
principales
estimadores
aplicaciones.
El
estimador
mínimo-cuadrático
de
la constante
bde0 en
=lavalores
ytendencia
b1 xP es
una
importancia
porque
la relación
en x = 0siempre
carece
de
la -mayoría
de
las de una
La mediaescasa
aritmética
presenta
las siguientes
propiedades:
simple
presentado
en
el
apartado
anterior.
De
hecho,
el
estadístico
F
del
contraste
de
F
de
Fisher
con
1
grado
de
libertad
en
el
numerador
y
n
–
2
grados
de
libertad
en
el
denominador
de
tal
forma
que
ambos
procedimientos
facilitan
siempre
los
mismos
valores
P
(la
distribución
muestral
de b0 aumenta
también será
aproximadamente
media que la
ética presenta las siguientes
propiedades:
de forma normal
conforme
el tamaño
muestral, de normal
lo cual con
se deduce
2
es, aplicaciones.
por definición,
elestimador
cuadrado
de la distribución
de
n0 –= 2tienden
grados
libertad).
variable.
El
mínimo-cuadrático
- b1 xade
es
una
− 1la
)Student
b12 (ntde
saxconstante
SSR
combinación
lineal
de dosSiestimadores
y 2uno
ycon
b1 bde
que
distribuirse
• Cambio
de origen (traslación).
se suma
unaindependientes
constante
cada
losy datos
Fdel
= estadístico
,
=
=
t
regresión
es
igual
al
cuadrado
t
de
este
contraste,
distribución
F
de
Fisher
con
1
grado
de
libertad
en
el
numerador
y
n
2
grados
de
2
2
origen (traslación).Para
Si secompletar
suma una
constante
cada
uno
de los el
datos
la
exposición,
intervalo
de normal
confianza
el test de hipótesis
distribución
muestral
de b)0a=también
conymedia
E(sey presentan
) -sserá
E(b1aproximadamente
) x = sβ
E(b
0
0 + β1 x - β1 x = β0
laforma
constante
de
laconforme
recta
regresión,
aunque
estas
inferencias
tener
escasa
importancia
de para
unacombinación
la media
lademuestra
resultante
es
igual
a laymedia
inicial
más
1.2.1
Media
lineal
dearitmética
dos
estimadores
independientes
y blosuelen
que
tienden
aladistribuirse
demuestra,
normal
aumenta
el tamaño
muestral,
de
se
deduce
que
la
1 cual
libertad
en
el
denominador
es,
por
definición,
el
cuadrado
de
la
distribución
t
de
Student
2
2
tra, la media deporque
la muestra
resultante
a la media
inicial
la relación
en xes=igual
0 carece
deSSR
sentido
la
de
las
aplicaciones.
El
estimador
(nmás
− 1mayoría
)la
b1en
sx
) = E(
+ β1 =
x t-2los
xmismos
= β0 valores P (la
E(bprocedimientos
de tal forma que ambos
1) x = β0siempre
F =yb ) =- E(b
,β1 de
=facilitan
2y por
2.una
–=
bx1 x +,esse
combinación
lineal
decada
dosque
estimadores
mínimo-cuadrático
constante
=laxide
+ 0bc,0 entonces
c
Un
cambio
origen
que
ydistribución
varianza
constante
utilizada;
si yde
Lanormal
media
denotada
define
como
suma
de
uno
iaritmética,
muestral
también
aproximadamente
condeduce
media
de
forma
conforme
aumenta
el
tamaño
muestral,
de normal
lo la
cual
se
lade los
0 sserá
s
con
n
2
grados
de
libertad).
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
ilizada; si yi = xindependientes
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamaño
i
distribución
F deseFisher
conque
1 grado
de libertad
en el numerador
y n -será
2 grados
de
también
aproximadamente
muestral,
de
lo
cual
deduce
la distribución
muestral
de b0normal
valores
muestrales
elaproximadamente
número
deconsiste
observaciones
realizadas.
Si denotamos
y varianza
se realiza
con frecuencia
es de
el centrado
depor
la variable,
que
en2restar
amedia
distribución
muestral
b)0 dividida
también
será
con


=
E(
y
)
E(b
)
x
=
β
+
β
x
β
x
=
β
E(b
x
0
1
1 mismos
0 valores P (la
de
tal
forma
que
ambos
procedimientos
facilitan
2 0siempre
21 1 los
normal
con
media
n frecuencia es el centrado de la variable,
consiste
restar
a=σ  +
.
) = es,
var(
y )definición,
+ en
var(b
var(b0que
1) xel
28
2 
libertad en el denominador
por
cuadrado
la− 1distribución
t de Student
 n de
(
n
)
s
por
n
el
tamaño
muestral
y
por
x
el
valor
observado
para
el
sujeto
x  por i-ésimo, i = 1, ..., n,
 centrada 2será,
i una variable
cada valor de la muestra su media. La media de
E(grado
y ) − E(b
β 0 + el
β21numerador
x1− β 1 x x= βy 0n - 2 grados de
distribución
F de
con
de será,
libertad
0) = 1
1) x =
2 en
e la muestra su media.
La media
de Fisher
unaE(b
variable
centrada
por
y varianza

0) = var( y ) + var(b1) x = σ 
con
n - 2 grados devar(b
libertad).
 + (n − 1) s 2  .
la media vendría dada 2por
tanto,
igual a 0.
2 n
y varianza
x 
Reemplazando
el parámetroes,
σ por
pordefinición,
su estimación
s , el intervalo
de confianza
al Student
100(1 libertad
en el denominador
el cuadrado
de la distribución
t de
a 0.
y varianza
2
 1 datos de
x una
2
• Cambio de escala (unidades).
Si se multiplica
cada
.
2 y ) + var(b
σx21,2los
var(b
+
+ xintervalo
1 1)n xuno= de
0) = var(
2 + ... + xde
con
n
2
grados
de
libertad).
α
)%
para
la
constante
poblacional
β
es
Reemplazando
el
parámetro
σ
por
su
estimación
s
el
al 100(128
0
escala (unidades). Si se multiplica cada uno de los datosxde
= una
xi =
n (n − 1)ns x2. confianza



n i =1resultante
n xa2 la media

2
21
muestra por una constante,
la media
de la muestra
es+igual
.
)
=
var(b
2var( y ) + var(b1) x =
2 σ 
0
2
Reemplazando
el
parámetro
σ
por
su
estimación
s
,
el
intervalo
de
confianza
al 100(1 – α)%
α
)%
para
la
constante
poblacional
β
es


0 a la media
una constante, la media de la muestra resultante es
igual
2n
(
n
−
1
)
s
x


2
2
1
x
paraReemplazando
la constante
poblacional
βsi
es
el utilizada;
parámetro
por
estimación
s ,cel
de confianza al 100(128by0i =
± cx
t n −su
+y =
0σ
xmás
.intervalo
inicial
por
la constante
i,2tendencia
,entonces
1−α / 2 s
La media
es la medida
de
central
2 utilizada y de más fácil
n (n − 1) s x
a constante utilizada; si yi = cxi, entonces y = c x .
2
1 s2, xel2 intervalo de confianza al 100(1 Reemplazando
parámetro
σb por
su
estimación
α)% para
la constante
poblacional
β
0ales
±
t
s
+ cada
interpretación.
Corresponde
“centro
de
gravedad”
delos
losdatos
datosdede la muestra. Su
• Cambio simultáneo
deelorigen
y escala.
Si
se
multiplica
uno
n − 2 ,1−α / 2
0
2 de
n
−
(
n
1
)
s
x
ultáneo de origen yy escala.
Si se multiplica
cadadeuno
de los datos
el estadístico
del contraste
la hipótesis
nuladeH0: β0 = 0 es
α)% para
launa
constante
poblacional
βestá
0 esse
principal
limitación
es
que
muy
influenciada
por los valores
unay muestra
por
constante
y
al
resultado
le
otra constante,
la mediaextremos y, en este
el estadístico del contraste de la hipótesis nulasuma
H
1 0: β0 =x02 es
por una constanteyyelalestadístico
resultado se
suma otrade
bconstante,
± hipótesis
t n − 2,1−α /la2 smedia
+H : β = 20 es
0 la
dellecontraste
nula
0 − 01) s
bpor
x constante,
0ntendencia
puedeesno
ser aunlafiel
reflejo
de
la
de la distribución.
de la muestra caso,
resultante
igual
media
inicial
la(nprimera
más la
,2 central
t=
1
x
2
a resultante es igual a la media inicial por la primera
más
b0 ± tconstante,
+
x la
n − 2 ,1−α1/ 2 s
+
s
n
(nc22−. 1) s x2
b
y
=
c
x
+
c
,
entonces
y
=
c
x
+
segunda
constante;
si
0
i
1 i
2
1
n nula
(n − H
1)0s:xβ0, = 0 es
y el estadístico del contraste de lat hipótesis
=
ejemplos sobre estimadores muestrales, se
y = c1 x1.4
+ cEn
stante; si yi = c1xi + c2, entoncesEjemplo
2. este y en los sucesivos
1
x2
+
queybajo
H0 seguirádel
aproximadamente
unas distribución
de =
Student
n – 2 grados de libertad.
el estadístico
contraste
de la hipótesis
H)0s:tx2β
0 es con
n nula
utilizarán
los
valores
del
colesterol
en
los 10
primeros
del
b(n0 − 1HDL
Ejemplo
Para
los valores deluna
colesterol
HDL0 obtenidos
a con
mg/dl
seguirá aproximadamente
distribución
tdedemmol/l
Student
n -se
2 grados sujetos
de
que1.5
bajo
H0 transformar
,
t
=
Para transformar los valores del colesterol HDL de mmol/l a mg/dl2 se
1
x
estudio
“European38,8.
Study
on +Antioxidants,
Myocardial
Infarction
and Cancer
of
sAsí,
b0
multiplica
por el
factor
de aproximadamente
conversión
utilizando
libertad.
seguirá
una
distribución
de Studentdel
con
n - 2 grados
de
que
bajo
H
2 la tpropiedad
0
,
t
=
174 Pastor-Barriuso R.
n
(
n
1
)
s
−
x
or el factor de conversión 38,8. Así, utilizando la propiedad del
1 estudio
x 2 multicéntrico de casos y controles realizado
the
Breast“
(EURAMIC),
un
s en
+ mg/dl se2 calcularía
cambio
de escala, la media del colesterol HDL
libertad.
n (n −obtenidas
1) s x
scala, la media delque
colesterol
HDL
en
mg/dl
se
calcularía
Ejemplo
10.9
Las
estimaciones
puntuales
el Ejemplo
para losde
t deenStudent
con n10.7
- 2 grados
bajo H seguirá aproximadamente una distribución
0
constante es
0,283
2 s
2
1
x
1 estándar
26,0de
SE(b
)
=
= 0,0035.
=
1
1,69,
b
=
-0,023
y
s
=
0,283.
El
error
la estimación
de lalineal simple
fueron b0 =SE(b
1
s
= 0,092Regresión
+
=
0
,
283
+
)
=
0
s n − 1 3,50 532
n (n − x1) s x2
533 532 ⋅ 3,50 2
1
x2
1
26,0 2
constante es
= 0,092
+ y s = 0,283.
= 0,283
+
=1 s= -0,023
0) b
1,69,
El error estándar
de la
fueron b0 =SE(b
2 estimación de la
533
(n − 1) syx2la pendiente
⋅ 3,de
50regresión
Los ICs al 95% para
lanconstante
de la532
recta
Ejemplo
10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los
y de la pendiente
2
2
constante
parámetrosesde la regresión
HDL 1sobre el26,0
índice
de masa corporal fueron
1 delx colesterol
poblacional
son0)entonces
s
= 0,092
+
=
0
,
283
+
=
SE(b
by0de
= 1,69,
b1 = – 0,023 y s = 0,283. 2El error estándar de la estimación
de la constante es
la pendiente
n (n − 1) ssx
533 532 ⋅ 3,50 2
0,283
SE(b1) = 2
= 0,0035.
=
2
1 SE(b
xs x0) =
1532 =26,0
n −1,69
1 ±3,50
±
t
1,96⋅0,092
(1,51;
1,87)
b
0
531;0,975
+
+
= 0,092
SE(b0 ) = s
2
s2 = 0,2830,283
n
533
(
n
−
1
)
s
532
⋅
3
,
50
= 0,0035.
x
=
y de la pendiente SE(b1) =
s x n − 1 3,50 532
yy
de ICs
la pendiente
Los
al 95% para la constante
y la pendiente de la recta de regresión
s
0,283
y de la pendiente
SE(b
0,0035.
=
1) =
poblacional
son
entonces
Los ICs al b95%
constante
yn la
de la==recta
de regresión
− 1pendiente
3,50 532
± t para laSE(b
) =s -0,023
± 1,96⋅0,0035
(-0,030;
-0,016).
1
531;0,975
1
x
s
0,283
poblacional
son
entonces
Los
ICs al 95%
la constante
y la pendiente
de la= recta
de regresión poblacional son
0,0035.
=
1) =
± tSE(b
b0para
531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
s xpuede
− 1pendiente
3,50 532
Del
para
la pendiente
concluirse
con
del 95% que
Los intervalo
ICs al 95%
para
la constante
yn la
de
la una
rectaconfianza
de regresión
entonces
t531;0,975 SE(b
b0 ±colesterol
0 ) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
ypoblacional
el
nivel medio
HDL
en la población de referencia del estudio
sonde
entonces
Los ICs al 95% para la constante y la pendiente de la recta de regresión
y significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el
EURAMIC
disminuye
entre)0,016
y 0,030
mmol/l por cada
incremento
de 1
y
± bt531;0,975
SE(b
± 1,96⋅0,0035
0,030;
− 0,016).
1 = −0)0,023
poblacionalb1son
± t531;0,975
SE(b
= 1,69
± 1,96⋅0,092==(−(1,51;
1,87)
0entonces
estadístico
2
kg/mintervalo
en el índice
dependiente
masa corporal.
general, con
el intervalo
de confianza
para
Del
para la
puedeEn
concluirse
una confianza
del 95%
queelel nivel
t531;0,975
SE(b1) = puede
-0,023concluirse
± 1,96⋅0,0035
= (-0,030;
-0,016).
b1 ±para
Del
intervalo
la
pendiente
con
una
confianza
del
95%
que
±
t
SE(b
)
=
1,69
±
1,96⋅0,092
=
(1,51;
1,87)
b
y
medio
de colesterol
HDL en la población
de referencia del estudio EURAMIC disminuye
0
531;0,975
0
2 la variable explicativa
bincremento
−incremento
0,023
efecto0,016
subyacente
a cualquier
c en
entre
y 0,030cβ
mmol/l
port =cada
de 1=kg/m
en el índice de masa corporal.
1
1 asociado
=
-6,63
el
nivel
medio
de
colesterol
HDL
en
la
población
de
referencia
Del
intervalo
para
la
pendiente
puede
concluirse
con
una
confianza
del 95% que
de confianza
efecto subyacente del
cβ1 estudio
asociado
a cualquier
SE (bpara
) el0,0035
yEn general,b1el±intervalo
t531;0,975SE(b
1) = -0,0231± 1,96⋅0,0035 = (-0,030; -0,016).
incremento
c en la variable
obtienepara
multiplicando
losincremento,
límites del intervalo
se obtiene multiplicando
losexplicativa
límites del se
intervalo
β1 por dicho
EURAMIC
disminuye
entre HDL
0,016en
y 0,030
mmol/lde
porreferencia
cada incremento
de 1
el nivel
medio
de incremento,
colesterol
la población
del estudio
para
β1 por
dicho
≤
-6,63)
≈
2Φ(-6,63)
<
0,001.
Notar
que este
resulta
en
un
valor
P
bilateral
2P(t
t531;0,975
SE(b1) = puede
-0,023531
± 1,96⋅0,0035
(-0,030;
-0,016).
b1 ±para
Del intervalo
la pendiente
concluirse
con =
una
confianza
del 95% que
2
±
t
SE(cb
)
=
c{b
±
t
SE(b
)}.
cb
n − 2,1corporal.
α /2
1
1
nel
1de confianza
−0,016
− 2,1
− α /2cada incremento
kg/m
en el índice
de1 masa
En
general,
intervalo
EURAMIC
disminuye
entre
y 0,030
mmol/l
por
depara
1 el
test arroja
mismo
valorHDL
P queenellacontraste
dede
regresión
deldel
ejemplo
anterior ya
el1.2
nivel
medioelde
colesterol
población
referencia
estudio
Así,
por
con
un primer
nivel de
confianza
delde95%,
los confianza
incrementos
unaque
desviación
TENDENCIA
CENTRAL
intervalo
paraDE
la pendiente
puede
concluirse
con
una
delde
95%
antioxidantes en elDel
riesgo
deejemplo,
desarrollar
un
infarto
agudo
miocardio
envariable
2MEDIDAS
efecto
subyacente
c
β
asociado
a
cualquier
incremento
c
en
la
explicativa
kg/m
en
el
índice
de
masa
corporal.
En
general,
el
intervalo
de
confianza
para
el media
1
2 un nivel de confianza del 95%, los incrementos de una
Así,
por
ejemplo,
con
típica
c = 3,50yakg/m
el índice
dela
masa
con
una disminución
mediante
el
significativa
que elencontraste
de
hipótesis
nulaseHasocian
0 : β1 = 0
2 corporal
2
EURAMIC
disminuye
entre
yentre
0,030
mmol/l
cada yincremento
de
1
que 2P(t
≤el-6,63)
= P( HDL
t0,016
6,63
)=
P(F
43,93).
531
1,531 por
531 ≥
poblacional
en
colesterol
de
3,50⋅0,016
=de
0,057
3,50∙0,030
= 0,105
mmol/l.
el
nivel
medio
de
colesterol
en
la población
de≥1,42,
referencia
delvalor
estudio
hombres adultos. Los
valores
obtenidos
fueronHDL
0,89,
0,79,
1,29,
0,84,
2 1,58,
Las
medidas
de
tendencia
central
informan
acerca
cuál
es
el
más
representativo
se
obtiene
multiplicando
los
límites
del
intervalo
para
β
por
dicho
incremento,
efecto
subyacente
c
β
asociado
a
cualquier
incremento
c
explicativa
1 en la variable
desviación
típica
c
=
3,50
kg/m
en
el
índice
de
masa
corporal
se
asocian
con
una
1
Por
supuesto, esta disminución es estadísticamente significativa ya que el contraste de la
estadístico
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
disminuye
y 0,030
mmol/l
por
cada
de 1
hipótesis
nula
H0media
: β1 =variable
0entre
el
estadístico
1,06, 0,87, 1,96 y 1,53
mmol/l.
La
demediante
los0,016
niveles
deldecolesterol
HDL
en incremento
una determinada
o,en
dicho
forma
equivalente,
estos
estimadores
sedeobtiene
multiplicando
los
límites
del
intervalo
para
β
por
dicho
incremento,
disminución
media
poblacional
el
colesterol
HDL
de
3,50⋅0,016
= 0,057indican
1entre
)
=
c{b
±
t
SE(b
)}.
cb1 ± tn-2,110.3.4
Bandas
de
confianza
y
predicción
para
la
recta
de
regresión
α/2SE(cb
1
1
n-2,1α
/2
1
− 0,incremento
023
efecto
c en la variable
explicativa
2 subyacente cβ1 asociado abcualquier
1
kg/m
índice
masa
En
general,
confianza
el
= datos
=
=el−intervalo
6,63 Lasdemedidas
estos 10 participantes
es en el de
alrededor
qué de
valor
setcorporal.
agrupan
los
observados.
de para
tendencia
SE (supuesto,
b1 ) 0,0035
y
3,50⋅0,030
=
0,105
mmol/l.
Por
esta
disminución
es
estadísticamente
Además
de ejemplo,
realizar inferencias
sobre
los1parámetros
β0 yαlos
β1,incrementos
es a)}.
menudodeinteresante
± tn-2,1SE(cb
) = c{bdel
tn-2,1cb1 un
α/2de
1 ±95%,
Así,
por
con
nivel
confianza
una
se obtiene
multiplicando
los límites
del intervalo
para
β/2c1SE(b
porla1dicho
incremento,
efecto
subyacente
c
β
asociado
a
cualquier
incremento
en
variable
explicativa
1
10
resulta
en
un
valor
P
bilateral
2P(t
≤
–
6,63)
≈
2F(–
6,63)
<
0,001.
Notar
que este
central
de
la
muestra
sirven
tanto
para
resumir
los
resultados
observados
como
paratest
531
1
0,89 + 1,58 + ... + 1,53
xcalcular
xelen
1,223
mmol/l.
= arroja
=un valor
30
2 =la
intervalos
de
confianza
para
propia
recta
de
regresión
β
+
β
x.
Más

i
mismo
valor
P
que
el
contraste
de
regresión
del
ejemplo
anterior
ya
que
≤
-6,63)
≈
2Φ(-6,63)
<
0,001.
Notar
que
este
resulta
P
bilateral
2P(t
0
1
531
desviación
típica ccon
=10
3,50
kg/mdeenconfianza
el índicedel
de masa
corporal
se asocian
con una 2P(t531
Así,
por ejemplo,
un2 los
nivel
95%,
los
incrementos
de una
10obtiene
i =1
2
se
multiplicando
límites
del
intervalo
para
β
por
dicho
incremento,
±
t
SE(cb
)
=
c{b
±
t
SE(b
)}.
cb
1
1acerca
α/2los
1
1 poblacionales
n-2,1-α/2
1correspondientes. A
de
parámetros
≤ realizar
– 6,63) =inferencias
P(t 531 ≥ 6,63
)n-2,1= P(F
1,531 ≥ 43,93).
2
concretamente,
dado
un
determinado
valor
x
de
la
variable
explicativa,
se
pretende
test
arroja eltípica
mismo
valor
queen
el
contraste
del ejemplo
anterior
ya
0 de
disminución
media
HDL
entre
3,50⋅0,016
=con
0,057
desviación
c =poblacional
3,50 P
kg/m
enel
elcolesterol
índice
de regresión
masa de
corporal
se asocian
una
continuación
se
describen
los
principales
estimadores
de
la
tendencia
central
SE(cb
= c{bdel
tn-2,1-αde
cb1 ±
Así,
porlas
ejemplo,
con
untn-2,1confianza
95%,
los
incrementos
de una de una
α/2de
1) para
1 ±recta
/2SE(b
1)}.
La media aritmética
siguientes
propiedades:
10.3.4presenta
Bandas
de
confianza
ynivel
predicción
la
regresión
2el valor esperado β + β x de la variable
2
obtener
un
intervalo
de
confianza
para
1 es
03,50⋅0,016
2P(t531 ≤media
=mmol/l.
P( t 531 ≥Por
6,63
= P(F1,531
≥disminución
43,93).
yque
3,50⋅0,030
=-6,63)
0,105poblacional
estaHDL
estadísticamente
disminución
ensupuesto,
el) colesterol
de0 entre
= 0,057
2
variable.
Además
de realizar
inferencias
sobre
los
βmasa
y
β
,
es
a
menudo
interesante
desviación
típica
csuma
= 3,50
kg/m
en parámetros
el aíndice
de
corporal
se
asocian
con unacalcular
Cambio de origen
(traslación).
Si
se
una
constante
cada
uno
de
los
datos
0
1
Así, porEl
ejemplo,
conpuntual
un niveldedeeste
confianza
del 95%,
losŷ incrementos
de yuna
respuesta.
estimador
valor
esperado
es
+
b
x
=
+ b1(xdado
=
b
0
1
0
0intervalos
de
confianza
para
la
propia
recta
de
regresión
β
+
β
x.
Más
concretamente,
un
01
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución
es estadísticamente
0
30
determinado
valor
x0aritmética
dec la
variable
pretende
obtener
unasocian
intervalo
deuna
confianza
disminución
media
en
elelpara
colesterol
HDL
de
entre
3,50⋅0,016
= 0,057
2es
1.2.1 de
Media
de una muestra,
la desviación
media
latípica
muestra
resultante
a lase
inicial
más la
=poblacional
3,50
kg/mexplicativa,
enigual
índice
de
masa
se
con
10.3.4
Bandas
de
confianza
y predicción
lamedia
recta
decorporal
regresión
parax el
valor
esperadounβ0razonamiento
+ β1x0 de la análogo
variable al
respuesta.
El estimador
puntual una
de este
) que,
siguiendo
del apartado
anterior, presenta
30 valor
esperado
es
ŷ
=
b
+
b
x
=
+
b
(x
–
)
que,
siguiendo
un
razonamiento
análogo
La
media
aritmética,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
de
los
y
=
x
+
c
,
entonces
y
=
x
+
c
.
Un
cambio
de
origen
que
constante utilizada;
si
y
3,50⋅0,030
=
0,105
mmol/l.
Por
supuesto,
esta
disminución
es
estadísticamente
0i
0 inferencias
1 poblacional
0
Además
dei realizar
sobre1 los
parámetros
, esentre
a menudo
interesante
disminución
media
en0 el
colesterolβHDL
3,50⋅0,016
= 0,057 al del
0 y β1de
distribución
aproximadamente
en muestras
suficientemente grandes,
apartado
anterior,
presenta unanormal
distribución
aproximadamente
normal con
en media
muestras
valores
muestrales
dividida
por
el
número
de
observaciones
realizadas.
Si
denotamos
suficientemente
grandes,
con
media
se realiza concalcular
frecuencia
es el centrado
de
la para
variable,
que consiste
en
restar a β es+ estadísticamente
30
intervalos
confianza
la supuesto,
propia
recta
dedisminución
regresión
β1x. Más
y 3,50⋅0,030
=de0,105
mmol/l.
Por
esta
0
E( ŷ 0 ) = E( y ) + E(b1 )(x0 − x ) = β 0 + β 1 x + β 1 (x0 − x ) = β 0 + β 1 x0
por nsuelmedia.
tamañoLa
muestral
y por
xvariable
observado
para
i-ésimo, i = 1, ..., n,
i el valorcentrada
cada valor deconcretamente,
la muestra
media de
una
será,
porel sujeto
dado un determinado
valor
x0 de la variable
explicativa,
se pretende 30
la media vendría dada por
tanto, igual a 0. y varianza
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable
Pastor-Barriuso R.
Cambio de escala (unidades). Si se multiplica cada uno
n los datos de una
2
x + x + ... + x
1 de
respuesta. El estimador puntual de este
valor
1x0x )= y + b1(x0 =
x
x i = 1 2 es2 ŷ2 0 1= b0n(+x.0b−
 esperado

ˆ
175
explicativa. Esta banda de1.2
confianza
está DE
delimitada
por las ramas
de una hipérbola y su
MEDIDAS
TENDENCIA
CENTRAL
176
medidas
2(x
E( ŷ 0 )en
β10 + β(1xque
x −+Las
- x )de
=de
βsu0tendencia
+media
β1x0 central informan acerca de
= E(
1)(x0 - x )a=medida
0aleja
aumentando
xxβ0)1se
amplitud es mínima
x0 =y )x+, E(b
0
Las
tendencia+central informan
acerca de cuál es el valor más representa
Correlación y regresión lineal simple
b0 +medidas
b1 x 0 ± t nde
.
− 2 ,1−α / 2 s
2
n (n − de
1) suna
determinada variable o, dicho de forma equiv
x
la intuición
de que
el valor
de la variable
muestral x , lo que confirma
de una
determinada
variable
o, esperado
dicho de forma
equivalente, estos estimadores indica
y varianza
alrededor de qué valor se agrupan los datos observad
y varianza
La
bandapuede
de confianza
para
recta de
regresión no
es más que la representación
respuesta
estimarse
conlamayor
en valores
alrededor
de precisión
qué valoren
se valores
agrupancentrados
los datos que
observados.
Las medidas de tendencia
( x 0la−muestra
x ) 2  sirven tanto para resumir los re
2
2 1
central
de
.
− x ) observado
var( ŷ 0explicativa.
y ) +devar(b
= σ  +de la variable
) =a var(
gráfica dede
estos
intervalos
lo largo
todo1 )(x
el 0rango
2 
extremos
la variable
(n − 1) slos
central de la muestra sirven tanto para
x resultados observados como para
 n resumir
realizar2 inferencias acerca de
los parámetros poblaci
explicativa.
Esta banda
confianzatestá
delimitada
por
las ramas
de la
unaestimación
hipérbola sy2,su
Por tanto, utilizando
la de
distribución
resultante
de
sustituir
σ
por
se
tiene
n–2
realizar inferencias acerca de los parámetros
poblacionales correspondientes.
A
2
2
Ejemplo
10.10
Para
cada
valor
fijo
x
del
índice
de
masa
corporal,
el
modelo
de
0resultante
quePor
el intervalo
de confianza
al 100(1 –tn-2
α)%
para el valor
esperado
βdescriben
tanto, utilizando
la distribución
de sustituir
σ βpor
estimación
, se
0 +
1x
0 es
continuación
sela
loss principales
estimadore
amplitud es mínima en x0 = x , aumentando a medida que x0 se aleja de su media
continuación se describen los principales
estimadores de la tendencia central de una
(esperado
x 0el− valor
x ) 2 del
regresión
lineal estima
un IC al 95%
para- el
valor
colesterol
1 para
tiene
que el intervalo
de confianza
al1.2
α
)%
esperado
β0 +HDL
β1x0 de
es
variable.
b0 + b1 x 0 ±
t100(1
s
.
+
DE
TENDENCIA
CENTRAL
,1−α / 2
n − 2MEDIDAS
2
esperado
de
la
variable
muestral x , lo que confirma la intuición de que el valor
n (n − 1) s x
variable.
2
(centrados
26central
,0)que
x 0 que
−Media
1 estendencia
aritmética
La bandapuede
de confianza
recta
de
regresión
no
más
la
representación
gráfica
respuesta
estimarse
con
mayor
en valores
valoresacerca
de
informan
dede
cuál es el valor m
1,69para
023
1Las
,96
0,283
− 0,la
x 0 ±precisión
⋅medidas
+1.2.1
. en
2
La intervalos
banda de aconfianza
la el
recta
de observado
regresión533
no
representación
estos
lo largo1.2.1
depara
todo
rango
dees
la más
variable
explicativa.
Esta banda de
Media
aritmética
532
3,50la
⋅que
media
aritmética,
x ,, se define
com
confianzade
está
por las ramasdedeuna
unadeterminada
hipérbolaLayvariable
su amplitud
es mínima
enequivalente,
xpor
extremos
la delimitada
variable explicativa.
o, dicho
dedenotada
forma
estos estim
0 =
aumentando
medida
que
dedesutodo
media
muestral
intuición
de uno de los
gráfica de aestos
intervalos
aseloaleja
largo
el rango
observado
de confirma
la variable
x ,, lo
se que
define
como lalasuma
de31cada
Lax0media
aritmética,
denotada
por
áreaesperado
en gris oscuro
de la Figura
10.9 representa
lavalores
banda
demayor
confianza
al 95%
que elEl
valor
de la variable
respuesta
puede
estimarse
con
precisión
en
valores
muestrales
dividida
por
el número
observd
alrededor
de qué
valor se
agrupan
los
datos observados.
Las de
medidas
centrados
que en
valores
extremos
defijo
la está
variable
explicativa.
explicativa.
Esta
banda
de confianza
delimitada
las ramas
una
hipérbola
y su
Ejemplo
10.10
Paravalores
cada
valor
x0 del
índice
depor
masa
corporal,
el modelo
derealizadas.
muestrales
dividida
por
el
número
dede
observaciones
Si denotamo
para toda la recta de regresión del colesterol HDL sobre
demuestral
masa y por xi el valor observado
por sirven
nelelíndice
tamaño
central de la muestra
tanto para
resumir los resultados observad
=
x
,
aumentando
a
medida
que
x
se
aleja
de
su
media
amplitud
es
mínima
en
x
regresión
lineal
estima
un
IC
al
95%
para
el
valor
esperado
del
colesterol
HDL
de
por
n
el
tamaño
muestral
y
por
x
el
valor
observado
para
el sujeto
i-ésimo, i = 1, ...,
0corporal, el modelo
i
Ejemplo 10.10 Para0cada valor fijo x0 del índice de masa
de
regresión
corporal, que se obtiene de calcular estos
intervaloslaenmedia
sucesivos
valores
dentro
vendría
dada
lineal estima un IC al 95%
elrealizar
valor± esperado
del=acerca
colesterol
HDL
de por poblacionales correspond
inferencias
los
parámetros
1,69 para
- 0,023⋅32
1,96⋅0,024
(0,90; de
1,00).
la vendría
intuicióndada
de que
la
variable
muestral x , lo que confirma
la media
porel valor esperado de
2
del rango observado del índice de masa corporal.
esta banda de
− 26los
,de
0)principales
1 Los( xlímites
estimadores
.
1,69 − 0,023 x 0 ± 1continuación
,96 ⋅ 0,283 se describen
+ 0
x + x2 +
1 nde la tendencia
2
=
x
xi = 1
respuesta puede estimarse con mayor precisión en533
valores
centrados
que
en
valores
532
⋅
3
,
50
n

x1 + x 2 + ... + x n
1
confianza tienen forma1,69
de hipérbola
y su
amplitud
n i =1
n
- 0,023⋅32
± 1,96⋅0,024
=
(0,90;
1,00).
.
x =aumenta
x i =gradualmente
variable.
[Figura
10.9
aproximadamente
aquí]
El
área
en
gris
oscuro
de
la
Figura
10.9
representa
la
banda
de
confianza
al
95%
para
toda
n
n
i =1
extremos de la variable explicativa.
la recta
dexgris
regresión
del
HDL
sobre
de masa
corporal,
se obtiene
El
área en
delacolesterol
lamedia
Figurax 10.9
representa
la índice
banda
de masa
confianza
alque
95%
aleja de
= 26,0
kg/mel2 índice
del
corporal.
Así,
conforme
0 se oscuro
La
media
es
la
medida
de
tendencia
1.2.1 Media
de calcular estos intervalos en sucesivos
valoresaritmética
dentro del rango observado del índice
de central más u
La recta de regresión puede
utilizarse
no sólode
para
estimarcentral
la media
poblacional
dedelamás fácil
La
media
es
la
medida
tendencia
más
utilizada
y
masa
corporal.
Los
de
esta
banda
deHDL
confianza
tienen
forma
hipérbola
y su
para
toda
la 10.10
recta
de
regresión
del
colesterol
sobre
el
índice
de
masa
por
ejemplo,
el IC
allímites
95%
para
el
valor
del colesterol
HDL
entre
sujetos
[Figura
10.9
aproximadamente
aquí]
Ejemplo
Para
cada
valor
fijo
xmedio
de masa
corporal,
eldelos
modelo
de“centro
0 del índice interpretación.
Corresponde
al
de gravedad”
2
media aritmética,
por x ,=se26,0
define
como
de cada
de la media
kg/m
della suma
amplitud aumenta gradualmente La
conforme
x0 se alejadenotada
de la variable
variable respuesta entre
los sujetos con
un determinado
valorde
x0 gravedad”
2
interpretación.
Corresponde
al
“centro
de
los
datos
de
la
muestra.
Su
corporal,
que
se
obtiene
de
calcular
estos
intervalos
en
sucesivos
valores
dentro
con
unde
índice
decorporal.
masa
corporal
25
kg/m
índice
masa
Así,
porde
el, IC
al 95%
para el valor
medio del
colesterol
regresión
lineal
estima
un IC
alejemplo,
95%
para
el valor
esperado
del
colesterol
HDL
de
principal
limitación
es que
po
2el número
valores
muestrales
dividida
por
deestá
observaciones
realizadas
La recta
de
regresión
utilizarse
sólocorporal
para
estimar
media
de muy
la influenciada
, poblacional
HDL
entre
los
sujetospuede
con
índice
de
masa
de 25laykg/m
sujeto
explicativa,
sino
también
paraun
predecir
lano
respuesta
individual
0 de un nuevo
principal
limitación
es
que
está
muy
influenciada
por
los
valores
extremos
y,
en
este
del rango observado del índice de masa corporal. Los límites de esta banda de
1,69 − 0,023⋅25 ± 1,96⋅0,013 = (1,09;
1,14), no ser
2
un fiel
reflejo depara
la tendencia
cen
porun
n eldeterminado
tamaño muestral
y−0 por
el valor
observado
el sujeto i-és
( xpuede
26,la
0x)i variable
de
variable
respuesta
entre la
losestructura
sujetos con
valor
1caso,
0x
del
modelo
de
regresión
lineal,
el
valor
subyacente
dado su valor
x0. Según
1
,
69
0
,
023
1
,
96
0
,
283
−
x
±
⋅
+
.
caso,
puede
no
ser
un
fiel
reflejo
de
la
tendencia
central
de
la
distribución.
2
0
confianza
tienen más
forma
de hipérbola
yaquellos
su amplitud
aumenta
gradualmente
es sensiblemente
preciso
que entre
con533
un
índice
532de
,50 2 corporal de 32 kg/m ,
⋅ 3masa
media
vendría
dada
por y0 de
es sensiblemente
más preciso
quelaentre
aquellos
con
un índice
de un
masa
corporal
nuevo
sujeto
explicativa,
sino también
para
predecir
respuesta
individual
− 0,023⋅32
1,69
±la1,96⋅0,024
(0,90;
1,00).
1.4 En
viene dado
poreste
y =y βen +los sucesivos ejempl
de la variable respuesta
para
un determinado
sujeto =
con
x = xEjemplo
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice0 de masa corporal.0 Así,0
1.4 En este
y en loslasucesivos
sobre
estimadores muestrales
2 gris oscuro Ejemplo
El valor
área
de la Figura
representa
banda
deejemplos
confianza
al 95%
de su
32
kg/men
del 10.9
modelo
de regresión
lineal,
el valor
subyacente
dado
x,0. Según la estructura
n
+
+ ...la+ x n HDL obten
x
1los poblacional
valores1 delx 2colesterol
La
regresión
puede
utilizarsedenonuevo
sólo para
de
β1xpor
+ ejemplo,
ε0, de
cuyo
estimador
insesgado
yaxmedia
que
ŷ 0 =colesterol
bestimar
0recta
0 + butilizarán
1x0la
.
= entre
xlos
el IC al 95%
para el es
valor medio del
HDL

i = sujetos
utilizarán
los
valores
del
colesterol
HDL
obtenidos
en
los
10
primeros
sujetos
variable respuesta
entre
los
sujetos
con
un
determinado
valor
x
de
la
variable
explicativa,
sino
n
n
32
0
=
i
1
para todarespuesta
la recta de
regresión
del
colesterol
el índice
depor
masa
dado
y0Study
= β0 +on Antioxidants, Myo
de la variable
para
un determinado
sujetoHDL
con aquí]
xsobre
= xestudio
0 viene “European
[Figura
10.9
aproximadamente
también para predecir la respuesta individual y0 de
2 un nuevo sujeto dado su valor x0. Según la
con un índice de
masa
25 kg/m
E(y
- ŷcorporal
+deβ
E(ε0,)Study
- β0 - on
β1xAntioxidants,
E(laε0variable
) = 0.Myocardial
= β0lineal,
0 regresión
1x0el+valor
0 =de
“European
Infarction
0 )estudio
estructuracorporal,
del modelo
de
subyacente
respuesta
para un and Cancer o
que
se obtiene
de calcular
estos
intervalos
enb1sucesivos
valores
dentro
β
x
+
ε
,
cuyo
estimador
insesgado
es
de
nuevo
+
x
ya
que
ŷ
=
b
La
media
es
la
medida
de
tendencia
central
más
de más
1
0
0
0
0
0
Breast“
(EURAMIC),
unutilizada
estudio ymulticént
, cuyo
estimador
insesgado
es
determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + εthe
La recta de regresión puede utilizarse no sólo para estimar la0 media poblacional de la
-the
0,023⋅25
1,96⋅0,013
= (1,09;
1,14),multicéntrico
Breast“
(EURAMIC),
un
estudio
dede
casos y controles realiza
b0 + observado
b x ya1,69
quedel
de nuevodel
ŷ0 =rango
índice
de±por
masa
corporal.
Los
límites
de
esta
banda
Asimismo,
como 1el0 valor estimado
es
independiente
ŷinterpretación.
la recta
de
regresión
en
x
0
Corresponde
al
“centro
de
gravedad”
de losEuropeos
datos deelaI
0
entre 1991 y 1992 en ocho países
E(ylos
+ βun
+ E(ε 0 ) − β 0 −valor
β 1 x0 x=0 E(
= 0.
ŷ 0 ) = β 0con
deεla
variable respuesta entre
0 − sujetos
1 x0determinado
0 ) variable
entre
1991 y 1992
en
ocho países
Europeos
e Israel para evaluar el efecto de lo
confianza tienen
forma
de hipérbola
sulimitación
amplitud
aumenta
gradualmente
es
sensiblemente
más
preciso
queprincipal
entre yaquellos
con un
índice
de
masainfluenciada
corporal
es
que
está
muy
,
se
sigue
que
de
la
nueva
observación
y
0
Asimismo, como el valor estimado
ŷ0 por la recta de regresión en x0 es independiente por
de lalos valores extre
explicativa, sino también para predecir la respuesta individual
y
0 de un nuevo sujeto
nueva
observación
, sealeja
sigue
2 y0el
Asimismo,
como
estimado
es independiente
ŷ 0 xpor= la
recta
de 2regresión
endex0masa
deque
la media
26,0
kg/m
índice
, x0 sevalor
de conforme
32 kg/m
caso, puede
no ser del
un fiel
reflejo
de
lacorporal.
tendenciaAsí,
central de la distribuc
2
( x 0 el
− xvalor
)  subyacente
1lineal,
dado su valor x0. Según la estructura del modelo de regresión
2
1 +colesterol
;
ε 0) +
= var(
) = σ del
var(yel0 −ICŷal
+
32
0y ),95%
2 entre los sujetos
por ejemplo,
para
elvar(
valorŷ 0medio
HDL

que
de la nueva
observación
0 se sigue
n
(
n
−
1
)
s
x 

Ejemplo
y en
lospor
sucesivos
sobre estimado
viene
dado
y0 = β0 ejemplos
+
de la variable respuesta para un determinado sujeto
con1.4
x =Enx0este
con un índice de masa corporal de 25 kg/m2,

x 0 − xde) 2regresión
1 la (recta
2
decir,
la
predicción
de
una
nueva
observación
a
partir
de

;
utilizarán
los
valores
del
HDL obtenidos en los 10 pri
var(y
ε
)
+
var(
ŷ
)
=
var(
ŷ
)
=
1
+
+
σ
β1xes
+
ε
,
cuyo
estimador
insesgado
es
de
nuevo
+
b
x
ya
quecolesterol
ŷ
=
b
0
0
0
0
0
1 0
0
0 0
2 
n (n − 1) s x 

Pastor-Barriuso R.
1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
estimada está sujeta a dos fuentes de error:estudio
la varianza
inherente
de on
cada
respuesta Myocardial Infarction
“European
Study
Antioxidants,
E(y0 - ŷ 0 ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
es
decir,
larespecto
predicción
una
nueva
observación
a partir
la índice
recta
regresión
es sensiblemente
más
preciso
que
entre
aquellos
con
un
de
masa
corporal
individual
a lade
recta
de
regresión
subyacente
eldeerror
en lade
estimación
de
the
Breast“ y(EURAMIC),
un
estudio
multicéntrico
de casos y co
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto
Regresión lineal simple
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente
de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 +
2,25
Colesterol HDL (mmol/l)
β1x0 + ε0, cuyo
estimador insesgado es de nuevo ŷ 0 = b0 + b1x0 ya que
2
E(y0 - ŷ 0 ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
1,5
Asimismo, como el valor estimado ŷ 0 por la recta de regresión en x0 es independiente
de la nueva1observación y0, se sigue que

1 ( x0 − x ) 2

var(y0 - ŷ 0 ) = var(ε0) + var( ŷ 0 ) = σ 1 + +
n (n − 1) s x2

2
0,5

;


0,25
es decir, la predicción de una nueva observación a partir de la recta de regresión
20
24
28
32
36
estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m²)
individual respecto a la recta de regresión subyacente y el error en la estimación deFigura 10.9
Figura 10.9 Bandas de confianza (área en gris oscuro) y predicción (área en gris claro) al 95% para la recta
de regresión
del colesterol
el índice
de masa
corporal
en el grupo
control
del estudio
EURAMIC.
ε0 se
distribuye
de forma
normal
(asunción
dicha recta.
Además,HDL
si elsobre
término
de error
ŷ 0 también seguirá
normal,estimada
de tal está
de normalidad),
la diferencia
y0 - observación
es decir,
la predicción
de una nueva
a partir una
de ladistribución
recta de regresión
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta
de regresión
subyacente
y el error al
en100(1
la estimación
de una
dicha
recta.observación
Además, si el término
nueva
forma
que el intervalo
de predicción
- α)% para
de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 – ŷ0 también
seguirá
una distribución
normal, de tal forma que el intervalo de predicción al 100(1 – α)% para
individual
y0 es
una nueva observación individual y0 es
2
1 ( x0 − x )
b0 + b1 x 0 ± t n − 2,1−α / 2 s 1 + +
.
n (n − 1) s x2
La banda de predicción viene entonces determinada por estos intervalos de predicción en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de predicción
será substancialmente más amplia que la banda de confianza, particularmente cuando el tamaño
muestral es grande, lo que refleja el hecho de que existe mucha más incertidumbre en la
predicción de la respuesta individual de un único sujeto que en la estimación del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por último, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan únicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de predicción para una nueva observación requieren
además de la hipótesis de normalidad, siendo estos últimos incorrectos si la distribución
subyacente de la variable respuesta no es normal.
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el
índice de masa corporal se tiene que el intervalo de predicción al 95% para el nivel de
colesterol HDL de un sujeto con un índice de masa corporal x0 es
Pastor-Barriuso R.
177
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el
índice de masa corporal se tiene que el intervalo de predicción al 95% para el
Correlación y regresión lineal simple
nivel de colesterol HDL de un sujeto con un índice de masa corporal x0 es
1,69 − 0,023 x 0 ± 1,96 ⋅ 0,283 1 +
( x − 26,0) 2
1
.
+ 0
533 532 ⋅ 3,50 2
El cálculo de estos intervalos en distintos valores x0 del índice de masa corporal da lugar
a lacálculo
banda de predicción
en grisenclaro
de la valores
Figura 10.9.
igual de
quemasa
la banda
de confianza,
El
estos intervalos
distintos
x0 delAlíndice
corporal
la banda de predicción está centrada alrededor de la recta de regresión estimada, pero su
amplitud
mayor alenincorporar
de cada
respuesta
da
lugar aeslanotablemente
banda de predicción
gris claro la
devariabilidad
la Figura 10.9.
Al igual
que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de predicción al 95% para el nivel
2
de centrada
índice dealrededor
masa corporal
vienede
dado por
de colesterol
HDL delaun
sujeto
25 kg/mestá
banda
de confianza,
banda
decon
predicción
de la recta
1,69 − 0,023⋅25 ± 1,96⋅0,284 = (0,56; 1,67),
regresión estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho más impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
más
que
el
intervalo
de los
confianza
el del índice de
paraes
el mucho
valorde
medio
del
colesterol
HDL
enrespecto
todos
sujetos
con
dichoen
valor
variabilidad
cadaimpreciso
respuesta
individual
a su
valorcalculado
esperado.
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
parade
el predicción
valor medioaldel
colesterol
HDLde
encolesterol
todos los HDL
sujetos
ejemplo,
el intervalo
95%
para el nivel
decon
un
10.3.5 Evaluación de las
2 asunciones del modelo de regresión lineal simple
dicho valor
índice
masade
corporal
(IC al 95%
1,09−1,14
dede
índice
masa corporal
viene
dado pormmol/l).
sujeto
con 25del
kg/m
Los procedimientos de estimación e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violación de
34
estas asunciones
puede
darasunciones
lugar a conclusiones
erróneas
del modelo
lineal,
siendo así necesario
10.3.5
Evaluación
de las
del modelo
de regresión
lineal
simple
evaluar su idoneidad en cada aplicación práctica. Aunque existen diversos tests para contrastar
curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del
estadísticamente
cada
de las hipótesis
delderivados
modelo lineal
referencias
Los
procedimientos
de una
estimación
e inferencia
en los (véase
apartados
anterioresalsefinal del
tema), en este apartado se presentan algunas técnicas diagnósticas basadas en el análisis gráfico
diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la
de los en
residuos,
proponiéndose
asimismo
extensiones básicas
del modelo
y transformaciones
de
basan
las asunciones
de linealidad,
homogeneidad
de la varianza
y normalidad.
La
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atención
a las hipótesis
dedar
linealidad
y homogeneidad
de la
violación
de estas asunciones
puede
lugar a conclusiones
erróneas
delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresión y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de
variable
respuesta
son aproximadamente
válidas en
encada
muestras
moderadamente
grandes aunque
lineal,
siendo
así necesario
evaluar su idoneidad
aplicación
práctica. Aunque
la distribución
subyacente
de
la
variable
respuesta
no
sea
normal.
linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el
existen
diversos
para
contrastar
cada unade
delas
lasasunciones
hipótesis del
El gráfico
mástests
simple
para
evaluar estadísticamente
el grado de cumplimiento
de la regresión
gráfico
más
parade
chequear
las entre
asunciones
de la regresión
lineal
es el diagrama
lineal
simple
esutilizado
el diagrama
dispersión
las variables
explicativa
y respuesta,
junto con
modelo
lineal
(véase estimada.
referenciasSialsefinal
del tema),
en este apartado
se presentan
algunas de la
la recta de
regresión
cumplen
las hipótesis
de linealidad
y homogeneidad
= ydispersión
a los
valores predichos
ŷ i = b0 +alrededor
b1xi por de
de dispersión
de los
varianza,
los puntos
delresiduos
diagramaei de
han
de distribuirse
aleatoriamente
i - ŷ i frente
técnicas
diagnósticas
basadas
en elde
análisis
gráfico
de los residuos,
proponiéndose
la recta de
regresión sin
evidencia
relaciones
curvilíneas
y con similar
dispersión a lo largo
de la
toda
la de
recta.
Tal parece
el caso
del diagrama
de dispersión
entre elentre
índice
yi masa
recta
regresión.
Este ser
gráfico
es equivalente
al diagrama
de dispersión
xi ede
asimismo
dellamodelo
transformaciones
los datos
para
corporal yextensiones
el colesterolbásicas
HDL de
Figuray10.7,
donde no se de
aprecian
desviaciones
obvias de
estas
En lasimple,
Figurapero
10.2(d),
embargo,
un claro
ejemplo deaviolación
enasunciones.
regresión lineal
tienesin
la ventaja
de se
sermuestra
directamente
generalizable
la
acomodar
posibles
estas
En particular,
se presta especial
de la asunción
de desviaciones
linealidad, yadeque
la asunciones.
relación subyacente
es visiblemente
cuadrática. No
obstante,
el gráfico
másuna
utilizado
chequear
asunciones
la regresión lineal es el
presencia
de más de
variablepara
explicativa
en las
regresión
lineal de
múltiple.
atención
lasdispersión
hipótesis de
de los
linealidad
de
la varianza,
ya que lasŷ = b + b x por
=
y
–
ŷ
frente
a
los
valores
predichos
diagramaade
residuosy ehomogeneidad
i
i
i
i
0
1 i
la recta
de regresión.
Este
gráfico gráfico
es equivalente
al diagrama
de dispersión
entre
xi e yi en
Antes
de proceder
al análisis
de los residuos,
es importante
describir
algunas
principales
inferencias
a la
recta de regresión
y al valor
regresión lineal
simple,relativas
pero tiene
la pendiente
ventaja de de
serladirectamente
generalizable
a la presencia de
másdedesus
unapropiedades.
variable explicativa
en regresión
lineal múltiple.
Bajo las hipótesis
de linealidad
y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente válidas en muestras
Antes de proceder al análisis gráfico de los residuos, es importante describir algunas de
- ŷ i las
tienen
un valor
residuos
ei = yiBajo
sus
propiedades.
hipótesis
de esperado
linealidadsubyacente
y homogeneidad
de la varianza,
moderadamente
grandes
aunque
la distribución
de la variable
respuestalos
noresiduos
ei = yi – ŷi tienen un valor esperado
sea normal.
178
E(ei) = E( yi) − E( ŷ i ) = 0
El gráfico más simple para evaluar el grado de cumplimiento de las asunciones de la
y una varianza
Pastor-Barriuso R.
regresión lineal simple es el diagrama de dispersión entre las variables explicativa y
1 ( xi − x ) 2 
2

.
var(yide
) +regresión
var( ŷ i ) - estimada.
2cov(yi, ŷSi
= σcumplen
var(e
− hipótesis
respuesta, junto
coni)la= recta
i ) se
2  de
1 − las
residuos
realizar
del
modelo
los
residuos
estandarizados
realizarelresiduos
eldiagnóstico
diagnóstico
delcomparables
modelomediante
mediante
losniveles
sean
comparables
a distintos
deestandarizados
la
variable
explicativa,
es preferible
residuos
sean
a distintos
niveles
de
la variable
explicativa,
es preferible
valor se agrupan los datos observados. Las medidas
de
tendencia
E(ei) = E(yi) - E( ŷ i ) = 0
Regresión lineal simple
residuos
estandarizados
realizar
el diagnóstico
deldel
modelo
mediante
los los
residuos
estandarizados
realizar
elsean
diagnóstico
modelo
mediante
e
e
residuos
comparables
a
distintos
niveles
de
la
variable
explicativa,
es
preferible
e
e
i i
i i
stra sirven tanto para resumir losrirresultados
observados
como
== para
=
,,
i=
22
y una varianza
11 ( x( ix i−−x x) ) s s 11−−hhi i
realizar el poblacionales
diagnóstico
mediante
los residuos
s s 11−del
−−
− modelo
e e
e eestandarizados
as acerca de losy parámetros
una varianza
n=rni =(n(n−−1)1s) xs2 ix2 i A = = i i , ,
ri correspondientes.
2
s 1s −1h−i hi
1 1( x i (−x ix−) 2x )CENTRAL
1.2 MEDIDASsDE
TENDENCIA
1 ( xi − x ) 2 
2
1
−
−
s
1
−
−
describen los principales estimadores
de
la
tendencia
central
de
una

.
ei−(n1)−s12i,) sŷ2i ) = σ ei 1 − −
var(ei) = var(yi) + var( nŷ i )n−(n2cov(y
2 
r
=
,
x
x =
i
n
(
n
−
1
)
s
xEl
que
dedesusu
típica.
El
− h
queseseobtienen
obtienendededividir
dividirlos
losresiduos
residuoseiepor
unaestimación
estimación
típica.
i poruna
1desviación
s desviación
comparables
a distintos
niveles
de la variable expli
(residuos
x i − informan
x ) 2 sean
1 central
i
Las medidas de tendencia
acerca
de
cuál
es
el
valor
más representativo
s 1 − −de homogeneidad
Así, aun cuando se cumpla la asunción
de
la
varianza,
los
residuos
ei
2
n por
(por
− una
1)estimación
nuna
conoce
como
eldividir
leverage
dederesiduos
una
observación
ys yxes
una
medida
término
conoce
como
el
leverage
una
observación
es
una
medida
términohtendrán
hi se
que
se
obtienen
de
los
residuos
e
de
su
desviación
típica.
El
i se
que
se
obtienen
de
dividir
los
e
estimación
de
su
desviación
típica.
El
i
i
diferente
varianza
alrededor
de
los
distintos
puntos
de
la
recta
de
regresión
estimada.
Así, aun cuando se cumpla la asunción derealizar
homogeneidad
varianza,
losmediante
residuos elos
del modelo
i residuos estanda
de una determinada variable o, dicho el
dediagnóstico
forma equivalente,
estos
estimadores
indican
Más concretamente, los residuos tenderán a ser mayores en valores centrados que en valores
mética
la
variable
yysu
x x x muy distante
estandarizada
dedela
entre
cada
xixde
dees
ladebido
variable
explicativa
su
media
estandarizada
ladistancia
entre
cada
valor
se
conoce
como
el los
leverage
observación
y puntos
esyde
una
medida
término
ide
sevariable
conoce
como
elvalor
leverage
de
una
observación
es
una
medida
término
hdistancia
ila
con
extremos
explicativa.
Esto
a explicativa
que
los
(xmedia
tendrán
diferente
alrededor
de
los
distintos
puntos
lasu
recta
regresión
que
sehide
obtienen
devarianza
dividir
residuos
euna
una
de
desviación
i, yi)de
i típica. El
i por
alrededor
de qué
valor
se agrupan
losestimación
datos observados.
Las medidas
ede tendencia ei
mucha
influencia
encada
la estimación
de x ,tienen
ica, denotada por
se define
como
la suma de
uno de losde la pendiente, de tal
ri =forma que lai recta de =
,
que
en
el
apartado
siguiente.
No
obstante,
si
el
tamaño
muestral
es
grande
y
2
quesesetratará
tratará
en
el
apartado
siguiente.
No
obstante,
si
el
tamaño
muestral
es
grande
y
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
residuos
sean
comparables
a
distintos
niveles
de
la
variable
explicativa,
es
preferible
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
i
regresión
resultante
tenderá
a
aproximarse
a
estos
puntos
que
presentarán
entonces
pequeños
i
1
−
s
h
(
−
)
x
x
estimada.hi Más
concretamente,
los residuos
tenderán
a ser mayores
valores 1centrados
secentral
conoce
el leverage
de
una
observación
y esresultados
unaen
medida
término
i
decomo
laobjeto
muestra
sirven
tanto
para
resumir
los
para
s observados
1 − niveles
− i como
Por
ello, y con
de que
residuos
sean
comparables
a distintos
de
la
2
es dividida por residuos
el númeroei.de
observaciones
realizadas.
Silosdenotamos
n (n − 1) s x
no
extremos
de
la
variable
explicativa
(observaciones
con
alto
nohay
hayvalores
valores
muy
extremos
de
la
variable
explicativa
(observaciones
con
alto
querealizar
semuy
tratará
en el
apartado
siguiente.
Noexplicativa.
obstante,
sila
elsivariable
tamaño
muestral
eslos
grande
residuos
estandarizados
el
diagnóstico
del
modelo
mediante
los
que
se
tratará
en
el
apartado
No
eldel
tamaño
muestral
essu
grande
variable
explicativa,
es
preferible
realizar
el obstante,
diagnóstico
modelo
mediante
losyresiduos
que
en
valores
extremos
de
lasiguiente.
variable
Esto
es
debido
a que
puntos
(xyix,
de
explicativa
y
media
estandarizada
de
la
distancia
entre
cada
valor
x
i
realizar
inferencias
acerca
de
los
parámetros
poblacionales
correspondientes.
A
muestral y por xestandarizados
i el valor observado para el sujeto i-ésimo, i = 1, ..., n,
se
comportan
análoga.
leverage),
residuos
emuy
yrirextremos
comportan
deforma
forma
análoga.
leverage),
ambos
residuos
iey
iextremos
i se
noambos
hay
valores
muy
la
explicativa
con
alto
hay
devariable
lade
variable
explicativa
con
alto
se
obtienen
deestimación
dividir
los
ei por
de su
xvalores
distante
de
xdesiguiente.
tienen
mucha
influencia
enel(observaciones
la
deresiduos
laespendiente,
yno
que
se
tratará
el
apartado
No
obstante,
si(observaciones
muestral
grande
y unadeestimación
i) con
i muyen
ei que
etamaño
i
continuación
se
describen
los
principales
estimadores
de la tendencia
central
una
=
=
,
r
i
dada por
2
a alos
En
casos
el
gráfico
de
estandarizados
r1análoga.
sanáloga.
−frente
hi como
frente
los
valores
Endeterminados
determinados
casos
el
gráfico
de
estandarizados
(término
− xforma
)tenderá
x i de
1 resultante
y
riregresión
comportan
leverage),
ambos
residuos
e
yse
rresiduos
se
comportan
de
leverage),
ambos
residuos
elos
i
ilos
i residuos
elvalores
de una observación y es u
hforma
de tal
que
la
recta
de
airiaproximarse
aleverage
estos
i se conoce
no
hayforma
valores
muy
extremos
de
la
variable
explicativa
(observaciones
con
altopuntos
s 1− −
variable.
2
n (n − 1) s x
n
+ ...
+casos
x1 + xapreciar
xclaramente
1ŷEn
no
permite
las
posibles
dede
las
predichos
2apreciar
nclaramente
ŷ
no
permite
las
posibles
desviaciones
las
asunciones
predichos
a los
valores
determinados
casos
el
gráfico
de
los
residuos
estandarizados
rasunciones
alos
los
valores
En
determinados
el
gráfico
de
los
residuos
estandarizados
ri frente
i
i frente
i
estandarizada
de
distancia
entre
cada
valor
xi de la variable exp
. pequeños
= ambosentonces
x= 
Por
ello,
y la
con
objeto
de
que
quex ipresentarán
residuos
edesviaciones
forma
análoga.
leverage),
residuos
ei y ri se comportan
i.de
n
n
=
i
1
que se obtienen 1.2.1
de dividir
losaritmética
residuos ei por una estimación de su desviación típica. El término hi
Media
que
se
obtienen
de
dividir
residuos
por
una
estimación
de su desviación
típica.
Elentre si el tamaño
ŷ
no
permite
apreciar
claramente
las
posibles
desviaciones
de
las
asunciones
predichos
iobtener
ŷ
no
permite
apreciar
claramente
las
posibles
de
asunciones
predichos
se
conoce
como
el
leverage
de
una
observación
yresiduos
es
medida
delas
laa distancia
dedelinealidad
yyEn
homogeneidad
de
la
varianza.
Para
una
representación
más
clara
linealidad
homogeneidad
de
la
varianza.
Para
una
representación
clara
i
que
se
tratará
en desviaciones
elestandarizada
apartado
siguiente.
No
obstante,
i
los
valores
determinados
casos los
el
gráfico
deeobtener
los
estandarizados
rmás
i frente
36
de
la
variable
explicativa
y
su
media
que
se
tratará
en
el
apartado
siguiente.
cada
valor
x
La
media
aritmética,
denotada
por
x
,
se
define
como
la
suma
de
cada
uno
deNo
los
i
a medida de tendencia central más utilizada y de más fácil
se
conoce
como
el
leverage
de
una
observación
y
es
una
medida
término
h
i
en
K
grupos
de
tamaño
n
enentales
es
aconsejable
dividir
los
n
residuos
r
en
K
grupos
de
tamaño
n
talescircunstancias,
circunstancias,
es
aconsejable
dividir
los
n
residuos
r
i
k
obstante,
si elyŷ ihomogeneidad
tamaño
muestral
es varianza.
grande
yPara
no
hay
valores
muy
extremos
de
la clara
variable
no
hay
valores
muy
extremos
de las
lamás
explicativa (observac
iobtener
kvariable
de predichos
linealidad
de la
obtener
una
representación
clara
de linealidad
ynohomogeneidad
de
la
varianza.
Para
una
representación
más
permite
apreciar
claramente
las
posibles
desviaciones
de
asunciones
valores
muestrales
dividida
por
el
número
de
observaciones
realizadas.
Si
denotamos
y
r
se
comportan
de
forma
explicativa
(observaciones
con
alto
leverage),
ambos
residuos
e
i
i
orresponde al “centro de gravedad” de los datos de la muestra. Su
de
la
variable
explicativa
y
su
media
x
estandarizada
de
la
distancia
entre
cada
valor
x
i
ŷ
(por
ejemplo,
deciles)
y
calcular
la
media
ordenados
por
valores
crecientes
de
ŷ
(por
ejemplo,
deciles)
y
calcular
la
media
ordenados
por
valores
crecientes
de
le
Download