Uploaded by Hugo Ramírez Maldonado

Muestreo Book Full

advertisement
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/287490384
Muestreo Estadístico: Tamaño de muestra y estimación de parámetros
Book · January 2010
CITATION
READS
1
21,699
1 author:
Osval A Montesinos-López
Universidad de Colima
183 PUBLICATIONS 1,921 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
IHCLab - Internet of Things View project
Theoretical properties of genomic prediction approaches View project
All content following this page was uploaded by Osval A Montesinos-López on 11 September 2019.
The user has requested enhancement of the downloaded file.
1
2
Índice
Pág.
Capítulo 1. Intrducción ....................................................................................................................................................................................... 13
Capítulo 2. Conceptos básicos de estadística.................................................................................................................................................... 16
2.1 Población y muestra ................................................................................................................................................................................ 17
2.2 Variables.................................................................................................................................................................................................... 18
2.3 ¿Qué es una medición? ............................................................................................................................................................................ 20
2.4 Escalas de medición ................................................................................................................................................................................. 21
Escala nominal.......................................................................................................................................................................................... 21
Escala ordinal ........................................................................................................................................................................................... 21
Escala de intervalo ................................................................................................................................................................................... 22
Escala de proporción ............................................................................................................................................................................... 22
2.5 Parámetros y estimadores ....................................................................................................................................................................... 23
2.6 Sumatorias ................................................................................................................................................................................................ 24
Propiedades de las sumatorias ............................................................................................................................................................... 25
2.7 Variable aleatoria ..................................................................................................................................................................................... 26
2.7.1 Variables Aleatorias Discretas ....................................................................................................................................................... 29
2.7.2 Variables Aleatorias Continuas ..................................................................................................................................................... 35
2.8 Teorema Central del Límite .................................................................................................................................................................... 38
2.9 La distribución t-Student ........................................................................................................................................................................ 39
2.10 Tipos de muestreo .................................................................................................................................................................................. 40
2.11 El marco de muestreo ............................................................................................................................................................................ 43
2.12 Pasos a seguir en el diseño de una encuesta ....................................................................................................................................... 45
2.13 Ventajas y desventajas del muestreo ................................................................................................................................................... 49
2.14 Características de una investigación por muestreo............................................................................................................................ 50
2.15 Errores de las encuestas......................................................................................................................................................................... 52
2.16 Muestra preliminar o piloto .................................................................................................................................................................. 53
2.17 Precisión y Exactitud ............................................................................................................................................................................. 53
2.18 Elementos para elegir la precisión o margen de error ....................................................................................................................... 56
2.19 Uso de tablas para la distribución normal estándar y t -Student ..................................................................................................... 59
Distribución normal estándar para n > 30 ........................................................................................................................................... 59
Distribución t-Student para n ≤ 30........................................................................................................................................................ 62
2.20 Filosofía AIPE ......................................................................................................................................................................................... 63
Fundamentos del enfoque AIPE y la importancia de estimaciones exactas ..................................................................................... 65
Pasos del enfoque AIPE........................................................................................................................................................................... 66
Capítulo 3. Muestreo aleatorio simple .............................................................................................................................................................. 73
3
3.1 Definición y tipos de muestreo aleatorio simple .................................................................................................................................. 74
3.2 Selección de una muestra aleatoria simple ........................................................................................................................................... 75
3.3 Estimación de parámetros de interés para promedio bajo MAS ........................................................................................................ 77
Estimación de la media poblacional ......................................................................................................................................................... 77
Estimador de la media y del total muestral .......................................................................................................................................... 77
Estimación de la varianza ....................................................................................................................................................................... 78
Estimador de lavarianza de la media poblacional ............................................................................................................................... 78
Estimadores del total y la varianza del total poblacional.................................................................................................................... 79
Estimadores del total y de la varianza del total muestral ................................................................................................................... 79
Estimación por intervalo ......................................................................................................................................................................... 80
Intervalo de confianza para la estimación del total ............................................................................................................................. 81
Tamaño de la muestra para estimar la media bajo población infinita ............................................................................................... 81
Tamaño de muestra óptimo .................................................................................................................................................................... 84
Aproximación del tamaño de muestra .................................................................................................................................................. 87
Función de densidad de probabilidades del tamaño de muestra para estimar el promedio.......................................................... 88
Comparación de los métodos propuestos ............................................................................................................................................. 90
Tamaño de la muestra para estimar la media bajo población finita .................................................................................................. 92
EJEMPLOS ...................................................................................................................................................................................................... 93
EJERCICIOS .................................................................................................................................................................................................... 99
3.4 Estimación de parámetros de interés para proporción bajo MAS.................................................................................................... 100
Estimación de una proporción poblacional ........................................................................................................................................ 100
La medición ............................................................................................................................................................................................ 101
El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional ................................... 101
La varianza de la población para una proporción ............................................................................................................................. 102
Estimación de la varianza y el error estándar..................................................................................................................................... 103
Media y varianza del estimador de P .................................................................................................................................................. 103
Total poblacional y varianza del estimador de τ................................................................................................................................ 104
Los intervalos de confianza .................................................................................................................................................................. 104
El intervalo de confianza para la estimación de la proporción poblacional ................................................................................... 104
El intervalo de confianza para la estimación del total poblacional .................................................................................................. 104
Varianza acotada de una proporción................................................................................................................................................... 105
Tamaño de muestra bajo población infinita........................................................................................................................................ 105
Derivación del tamaño de muestra óptimo ........................................................................................................................................ 107
El tamaño de muestra para estimar p en poblaciones finitas........................................................................................................... 109
EJEMPLOS .................................................................................................................................................................................................... 110
EJERCICIOS .................................................................................................................................................................................................. 116
4
3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS .................................................................................... 117
Estimación de una proporción poblacional con pruebas imperfectas (Se y Sp menores a uno) ................................................... 117
EJEMPLOS .................................................................................................................................................................................................... 119
EJERCICIOS .................................................................................................................................................................................................. 127
Capítulo 4. Muestreo aleatorio estratificado................................................................................................................................................... 129
4.1 Ventajas de utilizar el MAE .................................................................................................................................................................. 130
Notación .................................................................................................................................................................................................. 131
4.2 ¿Cómo seleccionar una muestra aleatoria estratificada? ................................................................................................................... 132
4.3 Estimación de parámetros de interés para promedio bajo MAE...................................................................................................... 132
Estimación de la media poblacional .................................................................................................................................................... 132
El estimador de la media estratificada................................................................................................................................................. 133
El intervalo de confianza para la estimación de la media estratificada ........................................................................................... 133
El estimador del total estratificado ...................................................................................................................................................... 134
La varianza del estimador del total estratificado ............................................................................................................................... 134
El intervalo de confianza ....................................................................................................................................................................... 134
Determinación del tamaño de la muestra ........................................................................................................................................... 135
El tamaño de muestra para estimar la media estratificada ............................................................................................................... 136
El tamaño de muestra modificado para estimar la media estratificada .......................................................................................... 136
La asignación de la muestra.................................................................................................................................................................. 137
Selección de estratos .............................................................................................................................................................................. 137
EJEMPLOS .................................................................................................................................................................................................... 139
EJERCICIOS .................................................................................................................................................................................................. 149
4.4 Estimación de parámetros de interés para una proporción bajo MAE ............................................................................................ 151
Estimación de la proporción poblacional ............................................................................................................................................ 152
Los estimadores de la proporción y total poblacional ....................................................................................................................... 152
Los estimadores de la varianza de la proporción y total poblacional.............................................................................................. 153
Los intervalos de confianza para la proporción y total poblacional ................................................................................................ 153
El tamaño de muestra para estimar la proporción estratificada ...................................................................................................... 153
Asignación de la muestra ...................................................................................................................................................................... 154
EJEMPLOS .................................................................................................................................................................................................... 155
EJERCICIOS .................................................................................................................................................................................................. 165
4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas bajo MAE ................................................ 166
EJEMPLOS .................................................................................................................................................................................................... 168
EJERCICIOS .................................................................................................................................................................................................. 178
Capítulo 5. Muestreo Sistemático .................................................................................................................................................................... 180
5.1 Tipos de población por su estructura .................................................................................................................................................. 182
5
Población aleatoria ................................................................................................................................................................................. 182
Población ordenada ............................................................................................................................................................................... 182
Población periódica................................................................................................................................................................................ 183
5.2 ¿Cómo seleccionar una muestra sistemática? ..................................................................................................................................... 184
5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático .......................................................................... 186
Estimación de la media y el total de la muestra sistemática ............................................................................................................. 186
La varianza de la media y del total ...................................................................................................................................................... 187
Los intervalos de confianza para la media y para el total ................................................................................................................. 187
La selección del tamaño de la muestra ................................................................................................................................................ 188
El tamaño de muestra para estimar la media ..................................................................................................................................... 188
El tamaño de muestra modificado ....................................................................................................................................................... 188
EJEMPLOS .................................................................................................................................................................................................... 189
EJERCICIOS .................................................................................................................................................................................................. 196
5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático .................................................................... 198
Estimación de la proporción poblacional ............................................................................................................................................ 198
El estimador de la proporción y el total .............................................................................................................................................. 199
La varianza estimada de la proporción y el total sistemático ........................................................................................................... 199
El intervalo de confianza para la proporción y el total sistemático ................................................................................................. 199
El tamaño de muestra para estimar la proporción ............................................................................................................................. 200
El tamaño de muestra modificado ....................................................................................................................................................... 200
EJEMPLOS .................................................................................................................................................................................................... 201
EJERCICIOS .................................................................................................................................................................................................. 208
5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo sistemático. ....................................................... 211
Estimación de la proporción poblacional (Se y Sp) y el total ............................................................................................................ 211
La varianza estimada de la proporción ............................................................................................................................................... 211
El intervalo de confianza para la proporción ..................................................................................................................................... 211
El tamaño de muestra sin aseguramiento para estimar la proporción ............................................................................................ 212
El tamaño de muestra modificado ....................................................................................................................................................... 212
EJEMPLOS .................................................................................................................................................................................................... 212
EJERCICIOS .................................................................................................................................................................................................. 220
Capítulo 6. Muestreo por conglomerados en una etapa ............................................................................................................................... 224
6.1 ¿Qué puede ser un conglomerado?...................................................................................................................................................... 226
6.2 Una comparación con el muestreo estratificado ................................................................................................................................ 227
6.3 Acerca del tamaño del conglomerado ................................................................................................................................................. 228
Notación .................................................................................................................................................................................................. 228
6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados ............................................................................ 229
6
Cálculo de la media y el total poblacional con M conocida .............................................................................................................. 229
El estimador de la media poblacional.................................................................................................................................................. 230
El estimador del total poblacional........................................................................................................................................................ 230
La varianza estimada de ys y τs ............................................................................................................................................................ 230
El intervalo de confianza de la media y el total .................................................................................................................................. 231
La determinación del tamaño de muestra........................................................................................................................................... 231
El tamaño de muestra para estimar el promedio ............................................................................................................................... 232
El tamaño de muestra modificado para estimar el promedio .......................................................................................................... 232
EJEMPLOS .................................................................................................................................................................................................... 233
EJERCICIOS .................................................................................................................................................................................................. 241
6.5 Estimación de parámetros de interés con M desconocida bajo muestreo por conglomerados ..................................................... 243
¿Qué sucede cuando se desconoce el tamaño de la población M? ................................................................................................... 243
El estimador de la media y el total poblacional.................................................................................................................................. 243
La varianza estimada de la media y del total ..................................................................................................................................... 244
El intervalo de confianza de la media y del total ............................................................................................................................... 244
El tamaño de muestra para estimar la media ..................................................................................................................................... 244
El tamaño de muestra modificado para estimar la media ................................................................................................................ 244
6.6 La estimación de una proporción poblacional ................................................................................................................................... 245
EJEMPLOS .................................................................................................................................................................................................... 245
EJERCICIOS .................................................................................................................................................................................................. 254
Capítulo 7. Muestreo basado en el método de respuesta aleatorizada ....................................................................................................... 257
7.1. ¿Cuándo se utiliza esta técnica? .......................................................................................................................................................... 259
7.2. Ventajas y desventajas .......................................................................................................................................................................... 259
7.3. El modelo de respuesta aleatorizada bajo el MAS ............................................................................................................................ 260
El estimador de la proporción y el total poblacional ............................................................................................................................... 262
La varianza estimada de los estimadores de la proporción y del total ................................................................................................. 263
El intervalo de confianza de la proporción y el total ............................................................................................................................... 263
El tamaño de la muestra para la proporción y el total ............................................................................................................................ 263
El tamaño de muestra para estimar la proporción ............................................................................................................................. 263
El tamaño de muestra para estimar el total ........................................................................................................................................ 264
7.4 El modelo de respuesta aleatorizada bajo el MAE ............................................................................................................................. 264
El estimador de la proporción y el total poblacional ......................................................................................................................... 265
La varianza de los estimadores de la proporción y total poblacional.............................................................................................. 265
El intervalo de confianza para el promedio y total poblacional ....................................................................................................... 266
El tamaño de muestra para estimar la proporción ............................................................................................................................. 266
El tamaño de muestra para estimar el total ........................................................................................................................................ 266
7
7.5 Alternativa al modelo de respuesta aleatorizada ............................................................................................................................... 267
7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS ..................................................................................................................... 268
Estimadores para la proporción y el total ........................................................................................................................................... 268
Varianza del estimador de la proporción y el total ............................................................................................................................ 269
Intervalos de confianza para la proporción y el total ........................................................................................................................ 269
Tamaño de muestra para estimar la proporción ................................................................................................................................ 269
Tamaño de muestra modificado para estimar la proporción. .......................................................................................................... 270
¿Cuál método de respuesta aleatorizada es mejor? ................................................................................................................................. 270
EJEMPLOS .................................................................................................................................................................................................... 270
EJERCICIOS .................................................................................................................................................................................................. 278
7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE ..................................................................................................................... 280
Estimador de la proporción y el total estratificado ............................................................................................................................ 280
Varianza de la proporción y el total estratificado .............................................................................................................................. 280
Intervalo de confianza para la proporción y el total .......................................................................................................................... 281
El tamaño de muestra para estimar la proporción ............................................................................................................................. 281
El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 281
EJEMPLOS .................................................................................................................................................................................................... 282
EJERCICIOS .................................................................................................................................................................................................. 293
Capítulo 8. Pruebas por grupos ....................................................................................................................................................................... 296
8.1 Pruebas por grupo bajo MAS ............................................................................................................................................................... 297
La proporción muestral ......................................................................................................................................................................... 297
El estimador de la varianza Sp2 .............................................................................................................................................................. 297
El estimador del total ............................................................................................................................................................................. 297
Los intervalos de confianza para la proporción y el total ................................................................................................................. 297
El estimador del tamaño de muestra (pools) ...................................................................................................................................... 298
EJEMPLOS .................................................................................................................................................................................................... 299
EJERCICIOS .................................................................................................................................................................................................. 306
8.2 Pruebas por grupo en pruebas imperfectas bajo MAS ...................................................................................................................... 306
Proporción muestral .............................................................................................................................................................................. 307
El estimador de la varianza................................................................................................................................................................... 307
El estimador del total ............................................................................................................................................................................. 307
Los intervalos de confianza para la proporción y el total ................................................................................................................. 307
Estimación del tamaño de muestra (pools) ......................................................................................................................................... 308
Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 308
EJEMPLOS .................................................................................................................................................................................................... 309
EJERCICIOS .................................................................................................................................................................................................. 317
8
8.3 Prueba por grupos bajo MAE ............................................................................................................................................................... 317
La proporción estratificada ................................................................................................................................................................... 318
El estimador de la varianza estratificada ............................................................................................................................................ 318
El estimador del total estratificado ...................................................................................................................................................... 318
Los intervalos de confianza para la proporción y el total ................................................................................................................. 318
Estimación del tamaño de muestra (pools) ......................................................................................................................................... 319
Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 319
EJEMPLOS .................................................................................................................................................................................................... 320
8.4 Prueba por grupo con Se y Sp bajo MAE....................................................................................................................................... 331
La proporción estratificada ................................................................................................................................................................... 331
El estimador de la varianza................................................................................................................................................................... 332
El estimador del total ............................................................................................................................................................................. 332
Los intervalos de confianza para la proporción y el total ................................................................................................................. 332
Estimación del tamaño de muestra (pools) ......................................................................................................................................... 332
Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 333
EJEMPLOS .................................................................................................................................................................................................... 333
EJERCICIOS .................................................................................................................................................................................................. 345
Capítulo 9. Muestreo inverso ........................................................................................................................................................................... 347
9.1 Estimación de parámetros de interés bajo muestreo inverso............................................................................................................ 348
El estimador de la proporción .............................................................................................................................................................. 348
La varianza y desviación estándar de la proporción muestral. ........................................................................................................ 348
El estimador del total verdadero. ......................................................................................................................................................... 349
Los intervalos de confianza para la proporción y el total ................................................................................................................. 349
El tamaño de muestra para estimar la proporción ............................................................................................................................. 349
El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 349
EJEMPLOS .................................................................................................................................................................................................... 350
EJERCICIOS .................................................................................................................................................................................................. 356
Apéndice. Tablas de la distribución normal y la distribución t-Student .................................................................................................... 358
Referencias bibliográficas ................................................................................................................................................................................. 363
9
Prologo
Un objetivo común en las sociedades modernas es conocer las características generales y
particulares de una población, entendiendo a esta como un conjunto de unidades que
tienen valores o cualidades de interés. Por ejemplo, desde 1977 el gobierno mexicano ha
mantenido el interés en conocer la actividad económica empresarial para evaluar la
percepción que los directivos empresariales tienen sobre el estado económico del país y
la toma de decisiones en sus empresas. Los dirigentes de la industria automotriz
procuran estar al tanto de los tipos de servicios tradicionales, nuevos e innovadores que
demandan sus clientes y conocer los factores prioritarios que los consumidores emplean
a la hora de comprar un automóvil. Las instituciones financieras se desviven por conocer
como sus clientes valoran sus servicios. Los ejemplos son innumerables y abarcan todas
las áreas del conocimiento.
Pero, ¿qué hace no tan sencillo conocer las características generales y particulares de
una población? La respuesta está en la variabilidad. Si los elementos de la población de
interés fueran exactamente los mismos, bastaría examinar uno de ellos para
caracterizarlos completamente. Sin embargo, las poblaciones son bastantes heterogéneas;
esta es la realidad. La presencia de la variabilidad en los elementos de una población es
la razón principal por la cual cultivamos la estadística.
Una forma de caracterizar a las poblaciones es mediante parámetros, los cuales son
funciones definidas sobre el conjunto población. El valor más pequeño, el valor más
grande, la suma de los cuadrados de los valores, el valor que más se repite, el promedio
de los valores, la proporción de elementos que tienen cierta cualidad, son sólo algunos
ejemplos de parámetros. Por diversas razones plenamente argumentadas, el
conocimiento aproximado de estos parámetros, como la prevalencia de drogadictos en
una ciudad, el promedio de hijos por familia, el ingreso promedio por familia, el
promedio de años de estudios por persona, entre muchos otros, ha ayudado para tener
un mejor desempeño en el proceso administrativo de organizaciones tanto públicas como
privadas.
10
Para tener un conocimiento pleno de los parámetros poblacionales se necesita de la
enumeración o medición de todas las unidades de la población. Sin embargo, realizar
esta actividad, en general, es imposible o impráctico. Por ejemplo, en un lote de semillas
se desea conocer la proporción que tienen la capacidad de germinar. Germinar todas las
semillas no tendría sentido pues nos quedaríamos sin material. También el conocer la
opinión de la población mexicana sobre los organismos genéticamente modificados
demandaría varias decenas de millones de pesos, además de que no localizaríamos a
todas las personas para preguntarles su opinión.
Así pues, dado que efectuar el censo es costoso, impráctico, tardado o imposible, una
alternativa consiste en usar información parcial de la población pero seleccionada
aleatoriamente. Este método es conocido como muestreo probabilístico, el cual tiene dos
características: a) cada unidad de la población tiene una probabilidad positiva y conocida
de ser seleccionada y b) cada unidad tiene una probabilidad positiva y conocida de ser
parte de la muestra. Con la muestra seleccionada aleatoriamente se tendrán argumentos
científicamente defendibles para usar el razonamiento inductivo y concluir que la
evidencia encontrada en la muestra también es válida para la población.
La disponibilidad de literatura sobre muestreo probabilístico es vasta y a diferentes
niveles, acorde a la orientación teórica y práctica del lector. Los libros de Cochran (1977),
Cassel, Sarndal, & Wretman (1977) y Sarndal (1992) son obras clásicas para adentrarse en
el entendimiento de esta disciplina.
En la literatura sobre muestreo probabilístico se proporciona la forma en que las
unidades de muestreo deben elegirse hasta conformar la muestra y la teoría para estimar
los parámetros de interés de manera exacta y precisa, procurando el menor costo. Este
último punto implica, en general, que se busque un tamaño de muestra mínimo pero
suficiente para obtener un intervalo de estimación del parámetro con la precisión deseada
estableciendo de antemano cierta confiabilidad.
Cuando se determina el tamaño de muestra se requieren los valores de algunos
parámetros, usualmente involucrados en la varianza del estimador. En la práctica estos
11
parámetros son desconocidos y usualmente se estiman de estudios previos o muestreos
pilotos. Estas estimaciones son consideradas como los verdaderos valores de los
parámetros, ocasionando que con el tamaño de muestra calculado el intervalo de
estimación no tenga la precisión deseada (Wang, Chow, & Chen, 2005).
Ante esta tesitura, Kupper & Hafner (1989) y Kelley (2007) señalan que en la
estimación de parámetros por intervalos debe considerarse la naturaleza estocástica de
la amplitud del intervalo para no subestimar el tamaño de muestra. Esta forma de
abordar el proceso de estimación, es decir, considerando la naturaleza estocástica del
intervalo de estimación, no se considera en la gran cantidad de libros que existen sobre
muestreo probabilístico.
A diferencia de los textos con enfoque tradicional, este libro presenta las técnicas
clásicas del muestreo estadístico pero considerando la naturaleza estocástica de los
intervalos de estimación. A lo largo del texto se opera con el concepto de nivel de
aseguramiento, el cual se define como la probabilidad de lograr la precisión deseada, es
decir, como la probabilidad, preestablecida de antemano, de que la amplitud del
intervalo de estimación sea menor o igual a la deseada. Explícitamente, en los capítulos
3, 4, 5 y 6 se expone la metodología del muestreo aleatorio simple, estratificado,
sistemático, y por conglomerados en una etapa, respectivamente. También se presentan
los muestreos de respuesta aleatorizada, por grupos e inverso en los capítulos 7, 8 y 9,
respectivamente.
Agradecimientos
En especial nuestros estudiantes por apoyo brindado en las revisiones preliminares del
presente libro.
12
Capítulo 1. Intrducción
CAPÍTULO 1
Introducción
L
as nuevas tecnologías de información y telecomunicaciones han generado una gran
cantidad de información sin precedentes. La tecnología cambió el mundo en que
vivimos, una transformación que se compara a las ocurridas por las revoluciones
industriales de los siglos XVIII y XIX. En las dos últimas décadas, el Internet y las
tecnologías de información han transformado el funcionamiento de las empresas, los
métodos de aprendizaje de los estudiantes, los métodos de investigación de los científicos
y la forma en que los gobiernos prestan sus servicios a los ciudadanos. Las tecnologías
digitales demuestran ser un potente motor del crecimiento económico y de la
competitividad. En general, estos cambios continuos transforman a la sociedad, de una
basada en la producción de objetos físicos a una donde el énfasis principal es la
producción e intercambio de información mediante medios digitales. Por consiguiente,
se ha alterado no sólo la interacción humana con la información, sino también el
comportamiento individual y colectivo de los individuos (Danger, Huizing, Walker,
Rowland, Anderson, & Sciaccaluga, 1996).
Gobiernos, empresas privadas, instituciones y ciudadanos generan día a día gran
cantidad de información. Además, ya se tiene conciencia que el valor de esta información
es de gran importancia para la toma de decisiones acertadas. Sin embargo, dado que el
costo de analizar toda la información mediante una evaluación exhaustiva es muy alto,
por ello se recurre al muestreo estadístico para
ayudar a toma de decisiones en
circunstancias de gran complejidad e incertidumbre usando una fracción de la
información disponible. El uso de una muestra en la mayoría de las circunstancias se
13
justifica principalmente por la carencia de recursos y porque en muchos casos
el
producto a analizar se tiene que destruir. Por ello, gran parte de los conocimientos,
actitudes y decisiones humanas está basado en el análisis de información parcial, o mejor
dicho, en el uso del muestreo. Al hacer la evaluación con solamente una fracción de la
población o del recurso, se espera que las conclusiones también pertenezcan a la
población; sin embargo para que esta suposición sea válida y la muestra elegida
represente a la población es importante tomar la muestra usando los métodos de
muestreo estadístico apropiados.
El uso del muestreo como un medio para obtener conocimiento y tomar decisiones es
normal y cotidiano en las actividades humanas. En estudios de mercado, el muestreo
sirve para conocer las preferencias y actitudes de los consumidores hacia determinado
producto o servicio; en tiempos electorales para saber la preferencia de los ciudadanos
hacia los candidatos que desean representarlos; en los estudios demográficos y sociales,
para conocer los niveles de empleo y desempleo, los ingresos y niveles de escolaridad en
los habitantes de una ciudad o país, la prevalencia y la incidencia de la drogadicción, en
la industria, para el control de calidad en el proceso de producción. En conclusión, el
muestreo se utiliza prácticamente en todas las áreas del conocimiento.
Elegir el esquema de muestreo, calcular el tamaño de la muestra y realizar las
estimaciones correspondientes no es una tarea fácil para personas con poca formación en
estadística. Por ello, en este libro se pretende ayudar a investigadores, estudiantes y
profesionales de las distintas áreas del conocimiento para que calculen la muestra de una
forma apropiada y eficaz. Además, el enfoque para la determinación de los tamaños de
muestra en el presente libro asume que los parámetros involucrados colectados ya sea
por un muestro piloto o estudios previos son estocásticos, lo que garantiza que los
tamaños de muestra no sean subestimados. Este enfoque garantiza cortos intervalos de
confianza debido a que considera la naturaleza estocástica del intervalo de confianza a
partir del cual se obtiene el tamaño de muestra requerido. Este enfoque de estimación
está ganando gran aceptación y ya existen varias publicaciones al respecto, sin embargo
no se ha abordado todavía en ningún libro de muestreo. Por ello, el presente libro es el
primero en abordar los esquemas de muestreo más comunes bajo este enfoque, y
14
consideramos que es lo suficientemente didáctico para que pueda ser utilizado sin
dificultad tanto por estudiantes de cualquier licenciatura, maestría y doctorado ya que
no supone conocimientos profundos sobre matemáticas o probabilidad. Asimismo,
puede ser de utilidad para aquellos estudiantes de estadística que deseen entender este
enfoque de estimación de una forma sencilla sin el uso de demostraciones formales.
Por lo antes expresado los objetivos centrales son del presente libro son: a) exponer el
nuevo paradigma para la estimación de tamaños de muestra, b) exponer con claridad la
importancia de la aleatorización y cada uno de los esquemas de muestreo, así como las
circunstancias donde cada uno de ellos es de gran utilidad, c) exponer sin formalidad
matemática la derivación de cada una de las fórmulas para determinar el tamaño de
muestra bajo cada uno de los esquemas de muestreo, d) proporcionar ejemplos y
ejercicios para cada uno de los esquemas de muestreo para facilitar la compresión y
estimación correcta. Es importante resaltar que los datos utilizados en los ejemplos son
ficticios y en ningún momento se deben de considerar estimaciones válidas.
15
Capítulo 2. Conceptos básicos de estadística
CAPÍTULO 2
Conceptos básicos de estadística
Que la estadística es bella
No lo vengo a presumir.
Sólo requiere de entrega,
Para poderla sentir.
OAML
E
n la literatura existen numerosas definiciones del concepto estadística. En lugar de
hacer acopio de diversas definiciones y darnos a la tarea de compararlas, señalando
su ambigüedad o insuficiencia, aceptaremos la siguiente:
Estadística
La estadística es la ciencia que se ocupa de los métodos y procedimientos para
recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así
como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma
de decisiones y, en su caso, formular predicciones (Johnson, 1996).
La estadística sirve para:
 Describir las diferentes medidas en un conjunto de objetos mediante el
análisis de algunos de sus elementos.
 Tomar decisiones sobre opciones diversas con información parcial contenida
en un conjunto de datos.
 Predecir el comportamiento de una medida o característica, en condiciones
no observadas.
Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden resumir en
algunos de los puntos ya descritos con la finalidad de inferir sobre la población
16
(estimación y prueba de hipótesis). Como en todas las áreas del conocimiento, el
muestreo emplea una terminología específica que define de manera apropiada los
conceptos que se utilizan, por lo que es conveniente revisar algunos de ellos, en particular
de la estadística, y presentar la simbología que se emplea en las técnicas de muestreo.
Conjunto
Es una colección de objetos definidos y distinguibles cuya única propiedad
indispensable es que sean identificados como pertenecientes a dicho conjunto. A
cada uno de los objetos que lo constituyen se le llama elemento.
Por ejemplo, las computadoras dentro de una empresa o laboratorio pueden constituir
un conjunto; también los estudiantes y las sillas dentro de un salón de clases lo integran.
Cabe mencionar que no es un requisito que los objetos sean de la misma naturaleza,
aunque la mayoría de los casos que involucran las técnicas de muestreo los objetos suelen
ser de la misma clase, o al menos muy semejantes.
2.1 Población y muestra
Como se dijo, las técnicas de muestreo y en general los métodos estadísticos se aplican a
un conjunto de datos propios de un conjunto de objetos. Denominamos población al
conjunto de objetos y de valores. El segundo es una función del primero y, aunque con
frecuencia no se distinguen explícitamente, el contexto en que se usa el término de
población deja en claro la referencia. En este libro se usará población para referirse al
conjunto de mediciones que se hacen sobre una característica de interés en todos y cada
uno de los elementos del conjunto de objetos. La población es el conjunto que incluye
todas las partes constitutivas de un recurso; así mismo la población es un conjunto de
números que tienen las unidades en que se hace la medición.
En general, el análisis no suele incluir las unidades de medición de los valores de una
variable, es decir, éstos se analizan simplemente como números. Sin embargo, resulta
conveniente recordar que los valores de una variable siempre representan dimensiones
17
físicas o de otra naturaleza, como peso, volumen, longitud, etcétera, y que éstas son
medidas en unidades como kilogramos, metros cúbicos, centímetros, etcétera, por lo que
los resultados del análisis son coherentes si se usan las unidades de medición, lo cual
facilita enormemente su interpretación.
Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima y la
característica de interés es su estatura promedio, la población original la conforman todos
los estudiantes, pero la población a la que las técnicas de muestreo se referirán es el
conjunto integrado por las estaturas de esos estudiantes, que estarán medidas por un
número; por ejemplo, 1.75 metros podría ser uno de los elementos constitutivos del
conjunto población.
Población y muestra
Población. Es una colección de objetos o entes que se caracterizan por poseer o
compartir ciertas características (propiedades) en común.
Muestra. Es un subconjunto de elementos o unidades seleccionados con alguna
técnica, de la población bajo estudio.
El muestreo, en un sentido amplio, es un proceso que tiene como propósito obtener
conocimientos de las características generales de una población mediante una muestra.
En contraste, el censo es un proceso de revisión exhaustivo de la población, es decir, mide
la característica de interés de todas las unidades de la población.
2.2 Variables
Una variable es una característica de los elementos de una población y se obtiene con una
medición o calificación. La altura de los estudiantes es una variable, lo mismo que la
marca de computadoras portátiles que se encuentran en el mercado actual. El peso de
cada silla o cada estudiante también es una variable.
Una variable continua, como su nombre lo indica, es aquélla donde son posibles todos
los valores dentro de un intervalo de los números reales, al menos teóricamente, ya que
por limitaciones de los instrumentos de medición, muchos valores en ese intervalo no
18
son observables. En general, este tipo de variables incluye mediciones en kilogramos,
centímetros, etcétera, cuya precisión puede incrementarse indefinidamente para afinar
gradualmente el instrumento de medición.
Una variable discreta se puede medir en una escala que no incluya todos los valores
posibles dentro de un intervalo de los números reales. Ejemplos de este tipo de variables
son los conteos, el número de personas de un lugar, el número de libros en una biblioteca,
entre otros.
Las variables por atributos permiten la clasificación en función de la presencia de cierta
propiedad en el elemento que desea evaluarse. La pertenencia a un grupo étnico es un
ejemplo de atributo; podría haber muchos atributos, como tener varios grupos étnicos, lo
que permitiría hacer diversos grupos y cada elemento pertenecería solamente a uno de
esos grupos o clases.
Las técnicas de muestreo se aplican directamente a conjuntos de valores medidos en
escalas apropiadas para variables continuas, discretas o de atributos. Digamos que se
quisiera describir económica y socialmente las familias del estado de Colima, y para ello
se aplica un cuestionario a cada familia con preguntas sobre su situación socioeconómica:
ingreso mensual, número de integrantes, número de individuos que trabajan, tipo de
ocupación, entre otras. El conjunto de mediciones de cualquiera de estas variables
medidas es el sujeto de aplicación de las técnicas de muestreo. Otro ejemplo sería la
determinación de la calidad del aire en la ciudad de México; para ello se toman
mediciones de diferentes contaminantes: el conjunto de estas es la variable a la que se
aplican los conceptos del muestreo. Pueden ser muchas las variables que se midan, pero
el muestreo que aquí estudiaremos es univariado, es decir, se toma solamente una variable
a la vez; aunque el estudio incluya varias, el proceso se realiza sobre todas y no más de
una al mismo tiempo.
Función es otro terminó muy usado. Matemáticamente, el concepto de función consta
de tres elementos, dos conjuntos y una regla que asocia o vincula a cada elemento del
primer conjunto con uno y sólo uno de los elementos del segundo conjunto. Una lista de
19
nombres y un grupo de estudiantes pueden ser una función si cada nombre de la lista
corresponde a uno y sólo uno de los estudiantes. Nótese que incluso todos los elementos
del primer conjunto pueden estar vinculados al mismo elemento del segundo conjunto,
pero no es válido que un elemento del primer conjunto esté vinculado con más de un
elemento del segundo. Las funciones que comúnmente abordaremos en este texto son
funciones matemáticas, las cuales contienen conjuntos de números y donde la regla de
asociación es una ecuación.
Hemos mencionado que en el muestreo nos interesan los valores medidos del
subconjunto muestra, que son seleccionados del conjunto población. A estos valores se les
denomina datos, es decir, un dato es el valor específico que tiene la característica de interés
de un elemento de la población. Conviene mencionar que dato se puede referir a un valor
conocido o existente pero que aún no ha sido determinado. En este libro un dato es un
valor que ya ha sido determinado. En este contexto, el experimento es el procedimiento
que permite obtener un dato. Este procedimiento incluye dos puntos: la forma de elegir
el objeto, y la determinación del valor mediante algún método.
Es prioritario considerar la forma en que se elige el elemento que se observará. La
determinación del valor de la característica es la medición o la calificación, que algunas
veces representa un problema difícil y requiere tratamientos específicos. Este es el tema
que abordaremos a continuación.
2.3 ¿Qué es una medición?
La medición es una tarea en la que la estadística no interviene directamente, pero influye
mucho en los resultados. Para hacer una medición deben usarse las técnicas adecuadas.
En general, la medición es la determinación del valor de la característica de interés de un
elemento de la muestra.
Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que
miden la longitud de un virus o una bacteria; aunque los métodos estadísticos para
analizar los datos de ambos casos pueden ser los mismos.
20
Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. Su
instrumentación, selección y validez son temas de estudio de otras disciplinas, pero la
comparación entre técnicas de medición sí es un motivo de aplicación de los métodos
estadísticos. En este libro no abordaremos las técnicas de medición.
2.4 Escalas de medición
Las reglas que clasifican los datos en distintas categorías se denominan escalas de
medición: nominal, ordinal, intervalo y proporción (Siegel, 1977).
Escala nominal
La escala nominal se utiliza para clasificar a la población en categorías. Por ejemplo, los
seres humanos se clasifican en hombres y mujeres; los colores se clasifican en rojo, azul,
verde, etcétera. En este tipo de datos no existe una relación de orden ni se pueden realizar
operaciones aritméticas como suma, multiplicación, división o resta. Sin embargo, se
pueden establecer frecuencias y proporciones, así como calcular la moda y establecer
relaciones de equivalencia.
Las propiedades de las relaciones de equivalencia son: reflexión: 𝑋 = 𝑋; simetría: si
𝑋 = 𝑌, entonces 𝑌 = 𝑋; y transición: si 𝑋 = 𝑌 y 𝑌 = 𝑍, entonces 𝑋 = 𝑍. Para esta escala de
medición se usan las pruebas estadísticas no paramétricas o modelos lineales
generalizados.
Escala ordinal
La escala ordinal clasifica y ordena las observaciones. Sin embargo, no puede definirse
una distancia entre las observaciones. Las relaciones admisibles en esta escala son: >, < o
=. Por ejemplo, la frecuencia con que un grupo de personas lee una revista científica
podría clasificarse en: regularmente, a veces, pocas veces, casi nunca y nunca. Otro
ejemplo es la definición de la jerarquía militar de un regimiento: teniente> subteniente>
21
sargento 3ro.> sargento 1ro.> cabo. Otro ejemplo es la llegada a la meta de un corredor
en una competencia de 20 participantes: su clasificación C es tal que 𝐶 ∈ {1,2,...,20}. La
popular escala tipo Likert corresponde a esta escala de medida.
Las medidas que se pueden calcular en esta escala son: moda, frecuencia, coeficiente
de contingencia y mediana. Las pruebas estadísticas no paramétricas se usan para este
tipo de datos, en particular las estadísticas de rango, así como los coeficientes de
correlación con base en rangos, es decir, el coeficiente de Sperman y el de Kendall.
Además, actualmente son muy populares los modelos lineales generalizados para
estudios de asociación y predicción cuando la variable dependiente es de tipo ordinal, en
particular la regresión logística y multinomial.
Escala de intervalo
Esta escala incluye las dos anteriores, es decir, clasifica, ordena y además establece la
proporción entre dos intervalos contiguos. Necesita una unidad de medida y un punto
cero arbitrario (no es el cero que pertenece a los reales). En esta escala, además, la
proporción de dos intervalos cualesquiera es independiente de la unidad de medida y
del punto cero. Por ejemplo, la temperatura en grados Celsius o Fahrenheit se mide en
una escala de intervalo, ya que la unidad de medida y el punto cero son arbitrarios.
Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Las
técnicas paramétricas incluyen el cálculo de medias, la desviación estándar, el coeficiente
de correlación de Pearson, etcétera. Las pruebas estadísticas admisibles son la t-Student
y la F de Snedecor, etcétera. Las únicas medidas que no se pueden obtener son el
coeficiente de variación y la media geométrica, pues necesitan el cero de los números
reales.
Escala de proporción
Además de todas las características anteriores, la escala de proporción ubica al punto cero
en el origen. En esta medida, además de conocer la proporción, se debe conocer la
22
distancia entre dos puntos. Admite también todas las operaciones matemáticas y de igual
manera se pueden establecer relaciones de igualdad y orden. Las pruebas estadísticas
admisibles son todas las pruebas paramétricas, así como todas las pruebas estadísticas
anteriores más el coeficiente de variación y la media geométrica. Un ejemplo es el peso
en kilogramos de los estudiantes del primer semestre en alguna universidad. Otro
ejemplo es el diámetro en metros de una plantación de parotas localizadas en Tecomán,
Colima.
2.5 Parámetros y estimadores
Existe un número infinito de parámetros para una población dada. Sin embargo, muchos
no tienen utilidad, en cambio otros manifiestan el interés de la evaluación. Por ejemplo,
la suma de todos los valores correspondientes al gasto de agua por familia en una
localidad (población). El promedio, el total, la varianza, la desviación estándar, el
coeficiente de variación, la moda, la mediana, el porcentaje o la proporción son algunos
ejemplos de parámetros.
Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es una
función de los datos que sirve para calcular (en un censo) o estimar (en un muestreo) un
parámetro. Una definición general de parámetro es la siguiente: es una constante que
describe a la población, usualmente en forma numérica, mientras que un estimador es
una función de los datos disponibles (muestra o censo) que se usa para estimar o calcular
los parámetros.
Parámetros y estimadores
Parámetros
Sobre el conjunto población se pueden definir funciones muy diversas como el valor
más pequeño, el más grande, el que ocupa la posición central una vez que los valores
han sido ordenados ascendente o descendentemente, la suma de todos los valores
después de elevarlos al cuadrado, el valor que se repite el mayor número de veces y
muchos otros más. Todas esas funciones son parámetros. Los parámetros suelen ser
representados por letras griegas como 𝜇, 𝜏 o 𝜎.
23
Estimadores
Son funciones que se pueden proponer para calcular o estimar los parámetros. Un
parámetro es cuando las funciones se definen sobre el conjunto población; pero si
esas funciones se definen para los datos de una muestra, entonces se trata de una
estimación del parámetro. Además, a cada parámetro le corresponde uno o más
estimadores. Existe un número infinito de estimadores, pero sólo algunos tienen
interés práctico.
2.6 Sumatorias
La sumatoria es muy importante para comprender mejor los conceptos detrás del
muestreo. Algunos parámetros y estimadores incluyen en su definición la suma de varios
valores o datos. Si 𝑦𝑖 es cualquiera de esos datos, digamos el i-ésimo de ellos, y se tienen
𝑛 datos, la suma de esos datos se simboliza con el operador de sumatoria (Σ):
𝑛
𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 = ∑ 𝑦𝑖
𝑖=1
Se puede combinar otras operaciones matemáticas con la sumatoria; por ejemplo, si se
desea sumar el cuadrado de cada dato, la simbología apropiada es:
𝑛
𝑦12
+
𝑦22
+ ⋯+
𝑦𝑛2
= ∑ 𝑦𝑖2
𝑖=1
El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una
lista. Es importante hacer notar que el subíndice puede emplear cualquier símbolo,
aunque convencionalmente se emplean letras intermedias minúsculas como i, j, k,
etcétera; incluso, los mismos datos pueden usar subíndices diferentes para indicar las
operaciones apropiadas. Asimismo, un símbolo de dato como y puede tener más de un
subíndice cuando los datos tienen más de dos criterios o sentidos de clasificación, como
puede ser el caso de un cuadro o una matriz que tenga renglones y columnas, como 𝑦𝑖𝑗 ,
24
donde i es el renglón y j la columna, o al revés. Si existen más de dos criterios de
clasificación, podrán emplearse más de dos subíndices para identificar apropiadamente
cada dato.
En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de una
variable, un parámetro o un estimador, para señalar que ese símbolo pertenece al objeto
identificado con la etiqueta que se usa como subíndice. Por ejemplo, 𝜎𝑦 se refiere a la
desviación estándar (de los datos) de la variable 𝑦.
Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En los ejemplos,
i puede tomar valores entre 1 y 𝑛, mientras que 𝑦𝑖 puede ser cualquier valor de la variable
𝑦. Por decir, si estamos hablando de la variable ingreso familiar en el estado de Colima (𝑦),
entonces 𝑦𝑖 representa el ingreso de la familia i.
Propiedades de las sumatorias
𝑛
∎ ∑ 𝑐 = 𝑐 + 𝑐 + 𝑐 + ⋯ + 𝑐 = 𝑛𝑐
𝑖=1
𝑛
𝑛
∎ ∑ 𝑐𝑦𝑖 = 𝑐(𝑦1 + 𝑦2 + 𝑦3 +· · · +𝑦𝑛 ) = 𝑐 ∑ 𝑦𝑖
𝑖=1
𝑖=1
𝑛
∎ ∑(𝑥𝑖 + 𝑦𝑖 ) = (𝑥1 + 𝑦1 ) + (𝑥2 + 𝑦2 ) + · · · +(𝑥𝑛 + 𝑦𝑛 )
𝑖=1
= 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + · · · +𝑥𝑛 + 𝑦𝑛
= (𝑥1 + 𝑥2 +· · · +𝑥𝑛 ) + (𝑦1 + 𝑦2 +· · · +𝑦𝑛 )
𝑛
𝑛
= ∑ 𝑥𝑖 + ∑ 𝑦𝑖
𝑖=1
𝑛
𝑟
𝑖=1
𝑛
∎ ∑ 𝑦𝑖 = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑟 es un número entero mayor que 1 y menor que 𝑛.
𝑖=1
𝑖=1
Por ejemplo:
25
𝑖=𝑟+1
5
2
5
∎ ∑ 𝑦𝑖 = (𝑦1 + 𝑦2 ) + (𝑦3 + 𝑦4 + 𝑦5 ) = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑦𝑖 = cualquier valor.
𝑖=1
𝑖=1
𝑖=2+1
2.7 Variable aleatoria
El concepto de variable aleatoria se relaciona con una característica o dimensión que
tienen las unidades muestrales de una población, y que puede tomar diferentes valores,
cada uno asociado a una unidad muestral. Esos valores posibles forman un conjunto que
se denomina espacio muestral. Así, una variable aleatoria 𝑌 es una función que va del
espacio muestral (constituido por las unidades muestrales) a un subconjunto de números
reales, que son todos los valores que puede tomar la variable bajo un experimento
aleatorio.
Para ser más explícitos, una variable aleatoria es una función, 𝑋(. ) donde a cada
resultado posible 𝑠 en el espacio muestral 𝑆 se le asigna un número real, 𝑋(𝑠).
La definición de variable aleatoria, 𝑋 puede verse como una regla que asocia a cada
resultado de 𝑠  𝑆 un número real 𝑋(𝑠). En la Figura 2.1 se aprecia una visualización
gráfica de una variable aleatoria.
Figura 2.1. Representación gráfica de una variable aleatoria 𝑋(𝑠).
En otras palabras, una variable aleatoria es una función cuyo dominio es el espacio
muestral del experimento aleatorio y tiene como rango el conjunto o un subconjunto de
los números reales.
26
Es de pensar que el concepto de variable aleatoria se genera por el hecho de que
estamos acostumbrados a contar o medir en números las variables que nos interesan. Por
ejemplo, considérese el lanzamiento de dos monedas balanceadas. Se tiene interés en el
número de águilas que resulten de tal experimento. Note que se pueden observar 0, 1 ó
2 águilas. Además, el espacio de resultados tiene cuatro elementos:
𝑆 = {𝑠𝑠, 𝑎𝑠, 𝑠𝑎, 𝑎𝑎}, donde 𝑠 es “sol” y 𝑎 “águila”.
Arbitrariamente podemos definir la variable aleatoria como la correspondencia entre
los puntos muestrales y los valores numéricos que asignamos al experimento, tal como
se ilustra a continuación.
𝑠𝑠 → 0
𝑠𝑎, 𝑎𝑠 → 1
𝑎𝑎 → 2
Lo anterior significa que al punto muestral de dos soles le corresponde el valor 0; al
punto muestral que tiene una águila el valor 1, y al punto muestral que tiene dos águilas
el valor 2.
A los elementos del rango de una variable aleatoria generalmente se representan por
letras minúsculas. De esta forma, la expresión 𝑋(𝑠) = 𝑥 representa la asignación del
número real 𝑥 al punto muestral 𝑠. En términos de funciones, 𝑋(𝑠) = 𝑥 representa a la
función 𝑋 evaluada en el elemento muestral s, cuya imagen es 𝑥.
Al analizar un experimento aleatorio por medio de variables aleatorias primero
debemos definir la función en turno, para posteriormente proceder a encontrar su
dominio y rango. Continuando con el ejemplo 1, definamos a 𝑋 de la siguiente manera:
𝑋: “águilas observadas al lanzar dos monedas balanceadas”.
Al evaluar la función en los cuatro puntos muestrales tenemos
27
𝑋(𝑠𝑠) = 0
𝑋(𝑠𝑎) = 𝑋(𝑎𝑠) = 1
𝑋(𝑎𝑎) = 2
Ahora, asignemos probabilidades a los puntos muestrales de tal forma que los cuatro
mismos tengan la misma probabilidad, es decir, si E1={ss}, E2 = {sa}, E3 = {as} y E4 = {aa},
entonces,
P(Ek) =
1
, para 𝑘 = 0, 1, 2.
4
Si representamos por 𝑃(𝑋 = 𝑥) a la probabilidad de que la variable aleatoria 𝑋 tome el
valor 𝑥, entonces,
P(X=0) = P(E1) =
1
4
P(X=1) = P(E2UE3) =
P(X=2) = P(E4) =
1 1
+ , por ser E2 y E3 mutuamente excluyentes
4 4
1
4
En general, sea 𝑆 el espacio de sucesos de un experimento aleatorio sobre el cual se
define una variable aleatoria que toma valores en un conjunto R X. Si tomamos un
elemento x1 de RX podemos definir al evento A1 en 𝑆 de la siguiente forma
A1 = { s є 𝑆: X(s) = x1 }
de tal manera que P(A1) = P( X=x1).
El establecimiento de variable aleatoria permite introducir el concepto de función de
manera implícita y, por lo tanto, todas las propiedades de las funciones al cálculo de las
probabilidades. Tales propiedades como suma, resta, multiplicación, etc.
28
2.7.1 Variables Aleatorias Discretas
Note que podemos tener variables aleatorias que toman valores dentro de un conjunto
finito, infinito contable* o infinito. Para ejemplificar, consideremos las siguientes
situaciones:
a. X representa el número de artículos defectuosos en un lote de contiene cinco de
ellos. Entonces X puede tomar los valores X = 0, 1, 2, 3, 4, 5. Es decir, X toma valores
dentro del conjunto finito {0, 1, 2, 3, 4, 5}.
b. X representa el número de días que tienen que transcurrir para que el precio de la
acción “a” sea mayor o igual a 40 dólares dado que el precio de cierre actual es de
10 dólares. Es un hecho que X puede tomar los valores X = 1, 2, 3, …, es decir, X
toma valores dentro del conjunto infinito contable {1, 2, 3, … }.
c. Suponga que X representa el precio de cierre de la acción “a”. Entonces X toma
valores dentro del conjunto infinito [0, ∞).
Definición. Variable Aleatoria Discreta. Una variable aleatoria es llamada discreta si
toma valores dentro de un conjunto finito o infinito contable.
En otros términos, podemos decir que una variable aleatoria X es discreta si existe una
correspondencia uno a uno entre los valores que toma X y algunos o todos los números
enteros positivos.
Sea X una variable aleatoria. Defínase a la función Q(B) de la siguiente manera
Q(B) = P(X є B) = P( s є S: X(s) є B)
*
Un conjunto es llamado infinito contable si se puede establecer una correspondencia uno a uno con el conjunto de
los enteros positivos
29
Donde B es cualquier subconjunto de números reales. Llamaremos a Q(.) la distribución
de la variable aleatoria X. Q(B) nos proporciona la probabilidad de que X pertenezca al
conjunto B, es decir, Q(.) nos indica cómo se distribuye la probabilidad de los eventos.
La función Q puede determinarse por una clase de funciones, llamadas de densidad.
Distribuciones Discretas
Una función 𝑓 se llamará función de densidad discreta (o simplemente función de
densidad) si,
1. f (x)  0, para toda x  R
2. Existe un conjunto finito o infinito contable C={x1, x2, …} para el cual f (x)=0, para
toda x  C y  f ( x) =1.
C
La expresión
 f ( x) denota la suma de los números f (x) para cada x  C.
C
Note que si X es una variable aleatoria discreta que toma valores en un conjunto finito o
infinito contable C, entonces la función f(x) = P(X=x) es una función de densidad discreta
y, por lo tanto, la distribución de X puede determinarse por:
P(X є B) =
 f ( x)
BC
En tal caso, diremos que X es una variable aleatoria discreta con función de densidad
𝑓(𝑥).
Modelos Especiales para Variables Aleatorias Discretas
Los modelos que se presentan a continuación son de uso común debido a su derivación
inmediata de situaciones reales, o en todo caso, son muy utilizados para calcular las
probabilidades de eventos de situaciones cotidianas.
30
Distribución Uniforme Discreta. Una variable aleatoria tiene distribución uniforme
discreta con parámetro 𝑛 si y sólo si su función de densidad está dada por:
1

para x  x1 , x 2 ,..., x n
f ( x)   n

 0 de otra forma
Ejemplo: Considere un experimento que consiste en seleccionar aleatoriamente a una
empresa de un total de seis para auditarla. Si X denota la selección de la empresa 𝑖, 𝑖 =
1, … , 6. Entonces la función de densidad de X está dado por:
1

para x  1, 2,..., 6
f ( x)   6

0 de otra forma
es decir, X tiene distribución uniforme discreta con parámetro 6. Es común generar
variables aleatorias con distribución uniforme discreta cuando a cada punto del espacio
muestral (finito con 𝑛 elementos) se le asigna la misma probabilidad.
Distribución Binomial. Una variable aleatoria X se dice que tiene distribución binomial
con parámetros 𝑛, 𝑝 si y sólo si su función de densidad está dada por:
 n  x n  x
  p q
para x  0, 1,..., n
f ( x)   x 
 0
de otra forma

donde: 𝑛  1, 0  p  1 , 𝑞 = 1 − 𝑝
Generalmente una variable aleatoria binomial se deriva del hecho de representar los
éxitos de un experimento binomial, donde un experimento binomial tiene las siguientes
características:
1. El experimento consta de 𝑛 pruebas idénticas.
31
2. En cada prueba se pueden presentar dos resultados; al de interés se le llama éxito
y al otro fracaso.
3. La probabilidad de éxito es constante e igual a 𝑝 en cada prueba ( 0  p  1 ) y, la
probabilidad del fracaso es igual a 𝑞 = 1 − 𝑝.
4. Las pruebas son independientes.
5. La variable aleatoria X representa el número de éxitos en las 𝑛 pruebas.
Ejemplo: Suponga que una maquina llena “correctamente” cada botella con probabilidad
0.95. Se tiene interés en conocer la distribución de la variable aleatoria X: número de
botellas llenadas correctamente de un total de 𝑛.
El proceso puede verse como un experimento binomial donde el evento éxito
corresponde a llenar la botella correctamente con probabilidad 0.95 en cada ensayo. Si se
llenan un total de 𝑛 botellas, entonces la función de densidad de X está dada por:
 n 
 0.95 x 0.05 n  x para x  0, 1,..., n
f ( x)   x 
 0
de otra forma

Distribución Geométrica. Una variable aleatoria X se dice que tiene distribución
geométrica con parámetro 𝑝 ( 0  p  1 ) si y sólo si su función de densidad está dada por:
 pq x 1
f ( x)  
0
para
x  1,2,...
de otra forma
Variables aleatorias con distribución geométrica surgen al representar el número de
pruebas necesarias para que ocurra el primer éxito en ensayos binomiales.
Ejemplo: La probabilidad de que una maquina embotelladora falle en un día
determinado es 𝑝 = 0.05. Sea X el número de días que tienen que transcurrir hasta que
se presenta la primera falla. Entonces X puede tomar los valores X=1, 2, 3 …, con las
probabilidades
32
P(X=1) = q1-1p
P(X=2) = q2-1p
P(X=3) = q3-1p

P(X=x) = qx-1p

es decir, X tiene distribución geométrica con parámetro 𝑝.
Distribución Poisson. Una variable aleatoria X se dice que tiene distribución Poisson con
parámetro λ>0 si y sólo si su función de densidad está dada por:
 e   x

para x  0, 1, 2,...,
f ( x)   x!

 0 de otra forma
La distribución Poisson se puede obtener como el límite de una distribución binomial
cuando el número de ensayos es relativamente “grande” y la probabilidad de éxito 𝑝 es
pequeña en cada uno, es decir
 n  x n x e   x
  p q 
, si 𝑛𝑝→λ
lim
x!
n   x 
Como el número de ensayos “𝑛” es grande y la probabilidad de éxito es pequeña en cada
uno, tal distribución también es conocida como la ley de eventos raros.
La distribución Poisson es muy utilizada para modelar el número de eventos que ocurren
raramente en el tiempo, espacio, etc.
33
Ejemplo: El número de accidentes mensuales en una fábrica se distribuye de acuerdo a
una variable aleatoria Poisson con parámetro 𝜆 = 3. Determine la probabilidad de que
para un mes determinado ocurran 3, 4 o 5 accidentes.
Como X tiene distribución Poisson con parámetro 3, entonces la probabilidad de que para
un mes determinado se presenten 3, 4 o 5 accidentes es igual a
 33
34
35 
f(3)+f(4)+f(5) = e 3    
 3! 4! 5! 
Distribución Hipergeométrica. Una variable aleatoria X se dice que tiene distribución
hipergeométrica con parámetros 𝑚, 𝑛 y 𝑘; 0  m  n , 1  k  n , si y sólo si su función de
densidad está dada por:
  m  n  m 

  
  x  k  x  para x  0, 1,..., m
f ( x)  
n
 

k 

 0
de otra forma
(1)
Variables aleatorias del tipo hipergeométrico surgen al interesarse en el número de
bolas de una clase particular contenidas en una muestra de tamaño 𝑘, extraídas
desordenadamente de una urna que contiene m bolas rojas y n-m bolas blancas, 𝑘 ≤ 𝑛.
Bajo este escenario, si X representa el número de bolas rojas que contiene la muestra,
entonces la función de densidad de X está dada por (1).
El término de urna y bolas es utilizado para referirnos a experimentos de tal
naturaleza, conocidos como modelos de urnas.
Ejemplo: Una caja contiene 20 focos, de los cuales 5 son defectuosos y, se extrae una
muestra desordenada (aleatoria) de tamaño 8.
34
La caja puede verse como la urna, los focos defectuosos como las bolas rojas, y los
focos no defectuosos como las bolas blancas. Si se extrae una muestra de tamaño 8,
entonces la probabilidad de que la muestra contenga exactamente x = 0, 1, …, 5 focos
defectuosos esta dado por:
  5  15 

  
x
8

x

  
para x  0, 1,..., 5
f ( x)    20 
  
 8
0
de otra forma
Es decir, si X representa el número de focos defectuosos contenidos en la muestra
extraída, entonces X tiene distribución hipergeométrica con parámetros 5, 20, 8.
2.7.2 Variables Aleatorias Continuas
La distribución normal
La distribución normal es muy importante debido a que es un modelo adecuado para
fenómenos de diversa índole, como naturales, sociales y financieros,
y
por su
sobresaliente papel en la teoría estadística (Teorema Central del Límite) puesto que sirve
como punto de partida para el desarrollo de muchas técnicas de inferencia (Mood,
Graybill, & Boes, 1974). Es importante mencionar que debido a que la distribución normal
es continua, solamente pueden calcularse probabilidades para intervalos que pertenecen
al espacio muestral de 𝑌, ya que para cualquier posible valor 𝑘 de 𝑌, 𝑃(𝑌 = 𝑘) = 0,
aunque con la corrección por continuidad es posible calcular probabilidades para
cualquier posible valor k (Mood et al., 1974). Decimos que una variable aleatoria Y se
distribuye normal si su función de densidad es:
1
−
(𝑦−𝜇)2
2𝜎2
1
−
(𝑦−𝜇)2
2𝜎2
si 𝑦 ∈ ℝ0.00
𝑒
𝑓𝑌 (𝑦) = {√2𝜋𝜎 2 𝑒
√2𝜋𝜎 2
000000000000 de otra forma00000000000
donde: 𝐸[𝑌] = 𝜇
−<𝜇 <
𝑉𝑎𝑟[𝑌] = 𝜎 2
35
𝜎2 > 0
𝑒 y 𝜋 son constantes conocidas con valores aproximadamente iguales a 2.7183 y 3.1416,
respectivamente. El lector debe notar que 𝜇 y 𝜎 2 son los parámetros de la distribución,
es decir, 𝑌~𝑁(𝜇, 𝜎 2 ).
Para ejemplificar la forma de la distribución normal, supóngase que se mide la estatura
(𝑌) en centímetros a una población de niños de cinco años de edad y se encuentra que su
promedio es de 90 cm con una desviación estándar (𝐷𝐸) de 5 cm, es decir,
𝑌~𝑁(𝜇 = 90, 𝜎 2 = 25). La forma de la distribución se presenta en la Figura 2.2.
La distribución normal tiene forma acampanada con un sólo pico o moda que es igual
a la mediana y media porque es una distribución simétrica. Además, cuando 𝑌~𝑁(𝜇 =
90, 𝜎 2 = 25) el porcentaje de niños con una estatura de entre 80 y 100 cm es de 95.45%
(área sombreada en la Figura 2.2). Los puntos en que cambia la dirección de la concavidad
de la campana se llaman puntos de inflexión, y están situados a una distancia de 𝜎
unidades por encima y por debajo de la media μ. El área total bajo la curva es de 1 o 100%,
ya que es una distribución de probabilidad completamente definida.
Figura 2.2. La distribución normal para la variable estatura (𝑌) y una media de 90 cm y
𝐷𝐸 = 5 cm.
La distribución normal estándar
36
Sea Y una variable aleatoria distribuida 𝑁(𝜇, 𝜎 2 ). Definamos la variable aleatoria 𝑍 =
(𝑌 − 𝜇)/𝜎. Esta nueva variable aleatoria tiene distribución 𝑁(0,1). A una variable
aleatoria normal que tiene media cero y varianza uno se le llama normal estándar. Su
función de densidad es:
1
𝑧2
𝑒 − 2 𝑧 ∈ 𝑠𝑖 𝑧 ∈ ℝ = ⋯ si 0000
𝑓𝑍 (𝑧) = {√2𝜋
. 0 = ⋯ 0000de otra forma0 … . .00
La forma de la variable aleatoria 𝑍 se ilustra en la Figura 2.3. En ella se aprecia que los
valores con mayor ocurrencia de la variable aleatoria 𝑍 están entre -3.6 y 3.6, la media
(igual a la mediana) es igual a cero y su 𝐷𝐸 (igual a la varianza) es uno. La importancia
de esta función de densidad radica en que las probabilidades en cualquier miembro de
la familia, es decir, cualquier normal con media 𝜇 y varianza 𝜎 2 , puede calcularse con la
distribución normal estándar. La ventaja estriba en que tiene media cero y varianza uno
(Mood et al., 1974) y facilita el cálculo de probabilidades porque la variable aleatoria
normal original es una función no integrable, por lo que la integración se obtiene con
tablas de la normal estándar o un software estadístico.
Figura 2.3. La distribución normal estándar (𝑍).
37
2.8 Teorema Central del Límite
El Teorema Central del Límite es importante porque en él se basa gran parte de los
métodos estadísticos. Este teorema provee de una aproximación efectiva a las
probabilidades determinadas por sumas de variables aleatorias independientes y explica
la gran importancia de la distribución normal en la teoría de probabilidades. Su
enunciado preciso es el siguiente: sean 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria de una función
de probabilidades 𝑓𝑌 (𝑦) (es decir, variables aleatorias independientes e idénticamente
2
distribuidas), con media 𝜇𝑌 y varianza 𝜎..𝑌
. Sea 𝑌̅ = (𝑌1 + 𝑌2 +· · · +𝑌𝑛 )/𝑛 la media
aritmética de las variables aleatorias que integran la muestra. Para un tamaño de muestra
𝑛, la distribución de la variable aleatoria 𝑌̅ es aproximadamente normal con media 𝜇𝑌 y
2
varianza 𝜎..𝑌
/𝑛, es decir,
2
Ȳ ∼ 𝑁(𝜇𝑌 , 𝜎..𝑌
/𝑛)
cuando 𝑛 → ∞
De acuerdo con el resultado anterior y estandarizando la variable aleatoria, la
expresión puede escribirse como:
Ȳ − 𝜇𝑌
2
√𝜎..𝑌
𝑛
=
Ȳ − 𝜇𝑌
∼ 𝑁(0, 1)
𝜎𝑦̅
El Teorema Central del Límite establece que para un tamaño de muestra grande, la
distribución de 𝑌̅ es aproximadamente normal, independientemente de la función de
probabilidades de la variable aleatoria 𝑌 (Mood et al., 1974).
Para casi todas las poblaciones, la distribución de muestreo de 𝑌̅ es aproximadamente
normal si una muestra simple al azar es lo suficientemente grande. Pero ¿qué significa una
muestra suficientemente grande? Esto dependerá de la naturaleza de la población
muestreada y del grado de aproximación a la distribución normal requerida.
38
Cuando la población muestreada tiene una distribución de probabilidad normal, no
se requiere el Teorema Central del Límite. En este caso, utilizamos otro teorema que
establece que si la población muestreada es una distribución de probabilidad normal, la
distribución de probabilidad de 𝑌̅ es exactamente normal para cualquier tamaño de muestra.
Puesto que a menudo no conocemos el tipo de población muestreada, el Teorema
Central del Límite nos dice la naturaleza de la distribución de muestreo de 𝑌̅ para una
muestra razonablemente grande, al margen del tipo de distribución que siga la población.
2.9 La distribución t-Student
La distribución t-Student fue publicada por primera vez en 1908 por el químico irlandés
W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba
la publicación de trabajos de investigación; por tal motivo publicó su trabajo con el
seudónimo Student. Por dicha razón esta distribución lleva el nombre de t-Student.
Si 𝑍 es una variable 𝑁(0,1) y 𝜒 2 es una variable 𝜒 2 (𝑣) (Ji-Cuadrada) independiente de
𝑍, entonces la variable aleatoria definida por:
𝑡 =
𝑍
√𝜒 2 /𝑣
tiene una distribución t-Student con 𝑣 grados de libertad (Mood et al., 1974). Su función
de densidad es la siguiente:
−(𝑣+1)/2
Γ[(𝑣 + 1)/2] 𝑡 2
( + 1)
𝑓𝑇 (𝑡) = { √𝑣𝜋
Γ[𝑣/2]
𝑣
0 ….
1
𝑠𝑖 − ∞ < 𝑡 < ∞. .
de otra forma … …
La función de densidad t-Student es simétrica con respecto a cero, como el caso de la
función de densidad normal estándar. Además, para 𝑣 > 1, el valor esperado de 𝑡 es cero,
es decir, 𝐸[𝑡] = 0; y para 𝑣 > 3, 𝑉𝑎𝑟[𝑡 ] = 𝑣(𝑣 − 2). Además, note que cuando 𝑣 → ,
𝑉𝑎𝑟[𝑡 ] → 1. De esta manera vemos que una variable aleatoria t-Student tiene el mismo
valor esperado y varianza que una variable aleatoria con distribución normal estándar
39
cuando 𝑛 es grande. Por ello, la forma de ambas distribuciones es muy semejante. No
obstante, una variable normal estándar siempre tiene varianza 1, mientras que la
varianza de una variable t-Student es superior a 1. Esto se puede apreciar en la Figura
2.4, donde se compara la distribución normal estándar con la distribución t-Student con
1, 3, 5 y 10 grados de libertad. Es decir, se observa que las dos funciones de densidad son
simétricas respecto al origen, pero la distribución t-Student posee mayor masa de
probabilidad en los extremos. Sin embargo, desde el punto de vista práctico, las
diferencias entre estas dos distribuciones son relevantes cuando el tamaño de muestra es
menor o igual a 30. En el presente libro sugerimos obtener los valores de las tablas que
se utilizan para los ejemplos y ejercicios de los capítulos posteriores a partir de la
distribución t-Student, cuando el tamaño de la muestra sea menor o igual a 30; de lo
contrario, obtenerlos de la distribución normal estándar.
Figura 2.4. Comparación entre las distribuciones normal estándar y t-Student con 1, 3,
5 y 10 grados de libertad.
2.10 Tipos de muestreo
A manera de definición, un método de muestreo es una forma objetiva, y comúnmente
científica, de seleccionar unidades que pertenecen a la población. En este sentido el
muestreo consiste en un conjunto de métodos, por medio de los cuales es posible hacer
aseveraciones sobre los parámetros de una población apoyándose en la muestra. Para
40
conocer una población con base en la muestra recurrimos a dos procedimientos
generales, que se diferencian en la manera de seleccionar las unidades de la población y
el método usado para determinar el tamaño de la muestra. Los procedimientos se llaman
muestreo probabilístico y muestreo no probabilístico (Rendón, 1997).
Muestreo probabilístico. Comprende los métodos que usan un mecanismo aleatorio para
la selección de las unidades de la muestra. Cada unidad de la población tendrá una
probabilidad conocida de ser seleccionada, así como una probabilidad de ser incluida en
la muestra; ninguna de tales probabilidades es igual a cero. Entonces, los métodos de este
tipo de muestreo establecen una estructura probabilística que es la base para desarrollar
la teoría del muestreo. Otra característica importante en estos métodos de muestreo es
que la calidad, el error o la precisión de los estimadores pueden ser determinados y
expresados en términos probabilísticos. Algunos métodos de muestreo probabilístico
son: el aleatorio simple, el aleatorio estratificado, el sistemático con iniciación aleatoria,
el por conglomerados, el de respuesta aleatorizada, etcétera (Bradburn, 1998). Este tipo
de métodos de muestreo se desarrollará más adelante.
Muestreo no probabilístico. Incluye los métodos de muestreo donde la selección de las
unidades de la muestra se realiza por medios subjetivos o procedimientos no aleatorios;
en consecuencia, no se tendrá una estructura probabilística para desarrollar una teoría de
muestreo, ni podrá averiguarse la bondad de las estimaciones muestrales en términos
cuantitativos. De hecho, la calidad de las estimaciones se establece con base en la
intuición y la experiencia, o a través de argumentos subjetivos, ya que la única manera
de cuantificar la bondad de los resultados sería teniendo la población total. Aunque el
muestreo no probabilístico resulta inadecuado para el desarrollo de la teoría, en
ocasiones es la única alternativa viable (Bradburn, 1998). Además, como los métodos de
muestreo son de fácil aplicación, los resultados se obtienen con mayor rapidez y no
implica mucho gasto. Veamos a continuación algunos ejemplos de muestreo no
probabilístico:
Muestreo de juicio. También se le conoce como muestreo de expertos o muestreo
dirigido. Su característica principal es la forma subjetiva con que son seleccionadas
41
las unidades de la población. Por el elemento subjetivo no hay una manera de
cuantificar la bondad de los resultados muestrales. En este caso, el investigador
observa toda la población o parte de ella, y después selecciona una muestra
compuesta por una o más unidades que en su opinión son típicas con respecto a
la característica que se desea estudiar. Está claro que el investigador, al medir las
unidades seleccionadas de esta forma, puede derivar estimaciones de los
parámetros de interés. Sin embargo, las estimaciones dependerán de la selección
subjetiva del investigador, de tal manera que otros investigadores podrían
seleccionar muestras distintas y calcular otras estimaciones. Sucede lo mismo con
las estimaciones que se apoyan en el análisis ocular de la población de interés,
porque no involucran la selección ni la medición objetiva de las unidades.
Asimismo, esto puede pasar cuando confiamos en la opinión de personas expertas
a quienes suponemos conocedoras de las características de una población dada
(Rendón, 1997).
Muestreo de cuota. Este método es ampliamente utilizado en las encuestas de
opinión. Para su aplicación, la población se divide en grupos tomando como base
ciertas características generales. Una vez hechas las divisiones, se tomará un
número preestablecido de unidades al cual se le denomina cuota y que satisfaga
las características del grupo de interés. De este modo, la muestra total quedará
integrada por la suma de todas las cuotas. Por ejemplo, un investigador del
observatorio vulcanológico de la Universidad de Colima está interesado en
conocer la opinión de la población sobre un posible plan de emergencia frente a
una eventual erupción volcánica. El investigador podría dividir la población en
grupos definidos según la edad, el sexo, el estado civil, etcétera; y después
entrevistar a cierto número (cuota) de personas de cada grupo, por ejemplo, en
parques, salidas de las tiendas de autoservicio, comunidades aledañas al volcán o
en áreas específicas de la ciudad (Rendón, 1997).
Muestreo de voluntarios. Este método se usa principalmente en aquellas situaciones
donde es difícil el proceso de medición de las unidades. Por ejemplo, si el proceso
de medición requiere de mucho tiempo, resulta penoso y desagradable, o implica
42
una gran concentración y esfuerzo mental, muchos individuos no desearán
participar en el estudio. Por estas razones, el método consiste en integrar una
muestra con aquellas unidades que acepten formar parte de ella, es decir, una
muestra de voluntarios (Rendón, 1997).
Muestreo de unidades accesibles. Este método se usa frecuentemente cuando es difícil
el acceso o la comunicación con las unidades de la población. En este caso, la
muestra se restringe a una parte de la población donde es fácil el acceso o
comunicación. Por ejemplo, para inspeccionar el maíz a granel que es transportado
en un barco, puede tomarse una muestra de maíz a cierta profundidad de la parte
superior del barco (Rendón, 1997).
Obsérvese que en los métodos de muestreo probabilístico, para fundamentar una
estructura probabilística y desarrollar la teoría de muestreo, se debe disponer de un
marco de muestreo que permita la elección de las unidades mediante un procedimiento
aleatorio. No contar con un marco por lo tardado e impráctico de su elaboración, lleva a
la necesidad de usar los métodos de muestreo no probabilístico, con las desventajas que
ya fueron mencionadas.
2.11 El marco de muestreo
El marco de muestreo, o marco muestral, está constituido por un listado, real o virtual,
de todas las unidades de muestreo.
Unidad de muestreo
Cada pieza acumulada constituye la población. A veces son colecciones de
elementos de la población que cubren la población completa. En ocasiones las
unidades de muestreo están naturalmente definidas; en otras, se definen
arbitrariamente por quien realiza el muestreo.
43
Idealmente, cada elemento de la población debe estar incluido en una y sólo una
unidad muestral. Por eso se dice que las unidades muestrales son excluyentes entre sí y
exhaustivas sobre la población. No siempre se satisface cabalmente esta condición ideal y su
aceptación depende de las condiciones en que se suscite.
A veces no todas las partes de la población quedan incluidas en alguna unidad
muestral, como en la evaluación de recursos mediante parcelas de muestreo circulares.
Podría ser intrascendente si las partes que quedan excluidas no presentan una
característica distintiva del resto de la población y las inferencias todavía se pueden
aceptar como aplicables a la población. Sin embargo, en otras aplicaciones puede ser
decisivo el hecho de no incluir algunas partes de la población en la muestra si esas partes
excluidas se distinguen de las incluidas en alguna unidad de muestreo, y, por lo tanto,
en el marco. En estas circunstancias las estimaciones serán sesgadas, o bien solamente
serán aplicables a la población definida por el propio marco de muestreo. Si en las
Ciencias Sociales se aplica una encuesta telefónica a determinada población, debe quedar
claro que los resultados solamente son aplicables a la población constituida por las
personas en hogares que tienen teléfono y no a toda la población, ya que tener teléfono
puede representar una diferencia importante.
Hacer el listado de las unidades muestrales que conforman la población parece una
labor simple, pero en la práctica es una tarea muy complicada, porque algunas
poblaciones tienen características que demandarán tareas particulares al momento de
obtener el marco de muestreo. El marco de muestreo es real o virtual porque en ocasiones
se puede tener físicamente la lista de todas las unidades, mientras que en otras bastaría
con tener la posibilidad de generarlo para lograr el objetivo propuesto.
Entenderemos que el marco de muestreo contiene una identificación única o etiqueta
para cada unidad de muestreo, como puede ser un número progresivo desde uno hasta
𝑁, donde 𝑁 representa el número total de unidades muestrales de la población. Además
es importante que se tenga el nombre completo, dirección, ocupación, sexo, localización
geográfica de cada unidad de muestreo para facilitar el levantamiento de la encuesta
cuando las unidades muestrales son individuos.
44
2.12 Pasos a seguir en el diseño de una encuesta
1. El planteamiento de objetivos
Al empezar a diseñar un plan de muestreo o una encuesta es importante que se definan
los objetivos, pues permitirán mantenerse en una línea de investigación sin perder
tiempo con demasiados detalles.
2. La población bajo muestreo
Es trascendental que se definan desde el principio las unidades muestrales que serán
tomadas en cuenta y se establezcan reglas claras para que el encuestador las
identifique al momento de ubicarlas y hacer la medición. Recuérdese que la población
que se quiere muestrear debe coincidir con la población sobre la cual se desea tener
información.
3. La característica de la realización de la encuesta o mediciones
Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y que
no se omitan datos esenciales. Particularmente, en el caso de poblaciones humanas
existe la tendencia a hacer un número excesivo de preguntas innecesarias. Nótese que
un cuestionario demasiado largo produce una baja general en la calidad de las
respuestas, tanto en las preguntas importantes como en las secundarias.
4. El grado de precisión deseado
Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de
incertidumbre porque sólo se mide una parte de la población. Esta falta de certeza se
puede reducir al aumentar la muestra y emplear mejores dispositivos de medición. Sin
embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación del
grado de precisión deseado es un paso decisivo en la preparación de la encuesta o
45
muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos, ya
que es quien suele entender la magnitud del error tolerable de una encuesta para
hacerla compatible con una buena decisión.
5. Los métodos de medición
Podemos escoger el método de medición y el método de inspección de la población.
Los datos del estado de salud de una persona se pueden obtener de sus declaraciones
o
de un examen médico. La encuesta puede
emplear
un cuestionario
autoadministrado, en el que los entrevistadores simplemente lean el cuestionario
prescrito o una entrevista no estructurada. La inspección puede hacerse por correo,
visitas personales, teléfono o una combinación de los tres medios.
Una parte importante del trabajo preliminar es la construcción de las formas de
registro donde se asientan las preguntas y las respuestas. En los cuestionarios sencillos
a veces es posible precodificar las respuestas, es decir, colocarlas de tal modo que se
puedan transferir rutinariamente a una computadora. De hecho, para la construcción
de buenas formas de registro se necesita proveer de la estructura de las tablas de
resúmenes finales para obtener las conclusiones.
En seguida se enumeran algunos puntos que se deben tomar en cuenta para el
diseño de cuestionarios. Sin embargo, si se va a elaborar un cuestionario, consúltese a
Tanur (1983) y Blair y Presser (1993), dos referencias útiles sobre este tema, debido a
que los puntos que aquí se presentan son muy generales:
a) Decida lo que quiere escribir. Éste es el paso más importante para redactar un
cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se motive
a las personas de la muestra a responder sin problema alguno.
b) Siempre verifique sus preguntas antes de realizar la encuesta. Lo ideal es que las
preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferentes
versiones de las interrogantes y pregunten a los entrevistados en la prueba
preliminar la forma en que interpretaron las preguntas.
46
c) Elabore las preguntas de manera sencilla y clara. Las preguntas que a usted
pueden parecerle claras tal vez no lo sean para quien las escucha por teléfono o
para alguien que hable otro idioma. Con una muestra de 53 personas, Belson
(1981, 240) probó la pregunta ¿Qué proporción de tiempo que ve la televisión lo
dedica a ver noticias? Sólo 14 de ellas interpretaron de manera correcta la palabra
proporción como porcentaje, parte o fracción. Otras las interpretaron como cuánto
tiempo o cuáles programas de noticias ve.
d) Utilice preguntas específicas en lugar de preguntas generales.
e) Relacione las preguntas que elabore con el concepto de interés.
f) Decida si debe utilizar preguntas abiertas o cerradas.
g) Informe sobre la pregunta que se planteó realmente.
h) Evite preguntas que induzcan o motiven al entrevistado a decir lo que usted
quiere escuchar.
i) Utilice preguntas de opción forzosa.
j) Plantee sólo un concepto en cada pregunta.
k) Preste atención al efecto del orden de las preguntas.
6. El marco de muestreo
Antes de seleccionar la muestra, debemos dividir la población en unidades de
muestreo. Éstas deben cubrir toda la población y no traslaparse en el sentido de que
todo elemento de la población pertenezca a solamente una unidad. Algunas veces la
unidad apropiada es obvia, en otras no es sencillo escoger lo que será la unidad de
muestreo. En el muestreo de los residentes de una ciudad, por ejemplo, la unidad
puede ser una persona, los miembros de una familia o las personas que viven en una
manzana. En el muestreo de una cosecha de limón la unidad puede ser un lote, una
parcela o un área de terreno cuya forma y dimensiones son nuestra elección.
7. La selección de la muestra
Existe actualmente gran variedad de planes para seleccionar una muestra. Por cada
plan considerado se pueden hacer estimaciones del tamaño de la muestra partiendo
47
de un conocimiento del nivel de precisión deseado y la varianza de la población. Los
costos relativos y el tiempo empleado en cada plan se estudian antes de tomar una
decisión (Lohr, 2000).
8. La encuesta piloto
Es de gran utilidad para probar el cuestionario y los métodos de campo en pequeña
escala. Esto casi siempre ayuda a mejorar el cuestionario y puede evitar otros
problemas serios, como que el costo fuera más que el esperado.
9. La organización del trabajo de campo
Las encuestas extensas tienen muchos problemas administrativos. Se debe supervisar
al personal y entrenarlo para que aplique las encuestas y los métodos de medición
apropiadamente. De ahí que sea útil un procedimiento de verificación previo de la
calidad de las respuestas, es decir, tener un plan para considerar respuestas en blanco.
(Lohr, 2000).
10. Resumen y análisis de los datos.
Después de realizar la encuesta debe revisarse con la esperanza de corregir errores o,
cuando menos, desechar datos equivocados. Habrá que decidir respecto al cálculo en
caso de omisión de respuestas o la eliminación de datos durante la revisión.
Posteriormente se hacen los cálculos para las estimaciones. Como vimos, los mismos
datos pueden servir para diferentes métodos de estimación.
Un consejo práctico para la presentación de datos es informar sobre la magnitud
esperada del error en las estimaciones más importantes. Una ventaja del muestreo
probabilístico es que se pueden hacer tales enunciados (el error esperado).
11. La información para encuestas futuras
48
Cuanta más información de una población se tenga inicialmente, más fácil será el
diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida es
una guía potencial de futuros muestreos por los datos que revela sobre la media, la
desviación estándar y la naturaleza de la variabilidad de las medidas principales, así
como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente si
se prevé lo necesario para reunir y registrar ese tipo de información.
Hay otro aspecto importante en el que una muestra completa facilita la obtención
de otras posteriores: el encuestador habilidoso aprende a reconocer los errores de
ejecución y a evitar que se repitan.
2.13 Ventajas y desventajas del muestreo
Ventajas
El objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear
recursos mínimos para obtener determinada información, o bien en conseguir la máxima
información con recursos prefijados (Bradburn, 1998).
Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en
los siguientes puntos:
Se empleará el muestreo cuando la población sea tan grande que el censo exceda
las posibilidades del investigador.
Se tomarán muestras cuando la población sea suficientemente uniforme como
para que cualquier muestra dé una buena presentación de la misma.
Se tomarán muestras cuando el proceso de medida o investigación de los
caracteres de cada elemento sea destructivo (consumo de un artículo para juzgar
su calidad, determinación de una dosis letal, etcétera).
Se utilizará el muestreo cuando las personas respondan con desagrado y así
disminuir el número de elementos que serán encuestados.
49
Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el
costo absoluto como el costo relativo (con relación a la cantidad de información
obtenida).
Este criterio suele conocerse como el criterio de economía.
El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al
valor real de la característica en estudio) resulta ser muy buena. Este criterio suele
conocerse con el nombre de criterio de calidad.
El muestreo es conveniente cuando la formación del personal y la intensidad de
los controles y supervisión son onerosos.
En general, el muestreo será conveniente cuando constituya la solución de mayor
eficiencia en el sentido del costo-beneficio.
Desventajas
A veces, el muestreo no es muy conveniente (Bradburn, 1998). Por ejemplo:
Cuando se necesita información de todos los elementos que conforman la
población.
Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo
probabilístico. El muestreo exige menos trabajo material que una investigación
exhaustiva, pero más refinamiento y preparación (conocimientos adecuados de
los diseñadores y preparación de los entrevistadores, inspectores y supervisores),
lo que puede suponer un uso limitado.
Cuando el costo por unidad sea mayor en las encuestas que en los censos y
aconseje desestimar los métodos de muestreo.
2.14 Características de una investigación por muestreo
Las características óptimas a las cuales deberían ajustarse las investigaciones por
muestreo, son las siguientes:
50
Precisión. La proximidad al valor verdadero de las características poblacionales
estimadas.
Pertinencia. La capacidad de los resultados estadísticos obtenidos por muestreo
para completar la información faltante.
Oportunidad. La utilidad de un estudio estadístico en función de su disponibilidad
en el tiempo (puntualidad, rapidez y actualidad). En el caso de censos y grandes
encuestas es aconsejable la publicación de resultados preliminares basados en
muestras.
Accesibilidad. Aunque se disponga de un banco de datos informatizado, puede
haber dificultades legales para utilizarlo (la protección de la privacidad, el secreto
estadístico y la Ley de la Función Estadística Pública). La información obtenida
por muestreo ha de ser totalmente accesible, así como tener en cuenta la legislación
vigente al momento de diseñar un estudio por muestreo.
Detalle y cobertura. La población que posee datos extensos puede complementar
una investigación exhaustiva con una muestra.
Economía. Las consideraciones sobre costos en las diferentes etapas de
planificación, el levantamiento y procesamiento de datos, la evaluación, el análisis
y la publicación pueden indicar la inconveniencia de una investigación
exhaustiva. Luego, este criterio ha de tenerse siempre presente a la hora de
planificar una investigación por muestreo.
Integración. Hay que tener buena concepción global de la información y buena
comparabilidad. La información obtenida en la investigación por muestreo ha de
ser integrable y comparable con otras informaciones existentes o futuras.
51
2.15 Errores de las encuestas
En general, en las encuestas puede haber varias fuentes de error (Bradburn, 1998), como
las siguientes:
Error de muestreo o de estimación. Error que surge cuando sólo se miden las unidades
de una muestra de la población, es decir, cuando sólo se estudia una fracción de
la población. Este error es particular para cada una de las muestras posibles de
tamaño 𝑛, y se define como la diferencia entre el valor del estimador y el valor del
parámetro.
Error de marco. Se presenta debido a los problemas en la elaboración del marco de
muestreo. Tales problemas ocurren al construir marcos incompletos, al no incluir
todas las unidades de muestreo que son de interés, o bien al incluir unidades
ajenas a la población.
Error de respuestas en blanco. Se presenta a consecuencia de las fallas u obstáculos
para medir algunas unidades de la muestra seleccionada. Así, la respuesta en
blanco puede ocurrir por omisión o no localización de algunas unidades, así como
por la renuncia o imposibilidad de medir algunas unidades.
Error de medición. Ocurre al medir las características de una unidad. Se presenta
porque el método de medición puede estar sesgado o es impreciso y en ocasiones,
como en el caso de poblaciones humanas, algunas características son difíciles de
medir, ya sea porque la persona entrevistada no posee la información exacta o da
una respuesta incorrecta a la característica de interés. Tal es el caso en la medición
del ingreso familiar, el padecimiento de cierta enfermedad, el número de abortos
por persona, las ganancias obtenidas en el negocio anterior, etcétera.
Error de procesamiento. Es el error que se puede cometer en la edición, codificación
y tabulación de la información obtenida de la encuesta.
52
Cuando la información se recolecta mediante una enumeración total se está expuesto
a cometer los cuatro últimos errores. Si la recolección se realiza mediante un
muestreo, entonces estaremos expuestos a los cinco errores y en tal caso a los cuatro
últimos se les denomina errores no debidos al muestreo.
2.16 Muestra preliminar o piloto
Una muestra preliminar o piloto es una muestra que antecede a la definitiva, cuya
selección se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se
utilizará en el estudio definitivo.
La muestra preliminar juega un papel importante en el diseño de un estudio por
muestreo, ya que será la fuente de información más inmediata para:
1. Tener una primera aproximación de los costos que se involucran en el estudio.
2. Tener una primera aproximación del tiempo que llevará la realización del estudio.
3. Estimar los parámetros involucrados en la determinación del tamaño de muestra,
usualmente la varianza y el coeficiente de variación.
4. Probar la factibilidad de los métodos de selección de las unidades muestrales, la
medición de las variables y otros aspectos prácticos.
5. Probar la factibilidad del cuestionario y la calidad del marco de muestreo.
Definir la precisión de los estimadores cuando no se tiene idea de los valores entre los
cuales ésta (precisión) puede considerarse razonable. Algunos autores sugieren que la
muestra preliminar podrá considerarse como parte de la muestra definitiva solamente
cuando los métodos de selección, medición, incluyendo el cuestionario y el marco de
muestreo, no hayan sufrido cambios o modificaciones severas.
2.17 Precisión y Exactitud
53
En estadística se pone especial énfasis en los significados de exactitud y precisión ya que
estos conceptos son esenciales para un mejor entendimiento de esta disciplina.
Exactitud se refiere a estimar correctamente el valor verdadero del parámetro. En esta
tesitura, una estimación es exacta si está cerca del valor del parámetro (Figura 2.5,
cuadrantes b y d).
Precisión se refiere al grado de agrupamiento de las estimaciones o valores
muestrales alrededor de su propio promedio (Figura 2.5, cuadrantes c y d).
En la Figura 2.5 se ilustran estos conceptos estadísticos. Note que el peor escenario
(Figura 2.5, cuadrante a) consiste en tener estimaciones inexactas, es decir, sesgadas, e
imprecisas. En ocasiones se tienen estimadas exactas pero no son de utilidad pues son
muy imprecisas (Figura 2.5, cuadrante b). Imagine que alguien estime que su edad esta
entre un año y 100 años, la cual es exacta pero inservible por la enorme imprecisión. Un
tercer escenario consiste en disponer de estimaciones inexactas, es decir, sesgadas, pero
muy precisas (Figura 2.5, cuadrante c). Es precisamente la gran precisión lo que hace que
en ocasiones este tipo de estimadores, sesgados, sean preferibles que los insesgados,
además de que el sesgo tiende a cero conforme aumenta el tamaño de la muestra. El
estimador ideal es aquel que produzca estimadas exactas y precisas (Figura 2.5,
cuadrante d).
a) Estimaciones inexactas e imprecisas
54
b) Estimaciones exactas pero imprecisas
c) Estimaciones inexactas pero precisas
d) Estimaciones exactas y precisas
Figura 2.5. Visualización gráfica de precisión y exactitud en la estimación de parámetros.
Por ello, cuando realizamos un estudio por muestreo es importante preguntarnos cuál
es la cantidad de error tolerable o la precisión de la estimación. La persona que utilizará
los resultados del muestreo debe definir el error, pues conoce el fenómeno en cuestión y
lo delicado de las conclusiones que se desprendan del análisis. Así, en el muestreo
probabilístico es usual referirse a la precisión de la estimación en los términos siguientes:
a) Como un límite máximo que se fija de antemano para la varianza, la desviación
estándar o el coeficiente de variación del estimador. En este libro, este límite
máximo para todos los diseños de muestreo a estudiar se fijará en términos de la
desviación estándar del parámetro de interés.
b) Como un límite máximo de error y una confiabilidad, ambos establecidos de
antemano.
De igual manera en muestreo estadístico es común denominar al error máximo como
precisión del estimador, ésta se define como:
Precisión: es el alejamiento o distancia máxima que el investigador está dispuesto a
aceptar entre el estimador y el parámetro correspondiente (Cochran, 1985). De este modo,
si 𝜃 denota al parámetro y 𝜃̂ su estimador, entonces la precisión del estimador, denotada
por 𝑑, se define como:
55
𝑑 = |𝜃̂ − 𝜃|
Esto significa que debemos especificar que 𝜃 y 𝜃̂ difieren en valor absoluto en una
cantidad menor que 𝑑.
Confiabilidad: es el grado de seguridad deseado en la precisión, y se mide en términos de
probabilidad, aunque se interpreta con base en el muestreo repetido (Cochran, 1985). Así,
1−𝛼 = confiabilidad
donde 𝛼 toma valores entre 0 y 1. La confiabilidad, generalmente, se expresa en
porcentaje y los valores usuales son desde 80%, observándose con más frecuencia 90% y
95%.
El postulado probabilístico siguiente especifica la relación entre los términos precisión
y confiabilidad:
𝑃⌊|𝜃̂ − 𝜃| ≤ 𝑑⌋ = 1 − 𝛼
que es igual a:
𝑃⌊−𝑑 ≤ 𝜃̂ − 𝜃 ≤ 𝑑⌋ = 1 − 𝛼
(2.1)
La ecuación anterior indica que la probabilidad de que la diferencia entre el estimador
y el parámetro tome valores dentro de un intervalo delimitado por los valores −𝑑 y 𝑑, es
1 − 𝛼. La determinación de un límite específico con su confiabilidad asociada (1 − 𝛼) nos
ayuda a comparar diseños diferentes (métodos de selección de la muestra) para
especificar el procedimiento que dé la precisión deseada con un costo mínimo.
2.18 Elementos para elegir la precisión o margen de error
56
Para los investigadores inexperimentados en el diseño de encuestas donde se necesitan
muestras, fijar la precisión es una labor confusa. En muchas ocasiones los investigadores
no saben cuánto grado de precisión desean ni tienen idea alguna de la respuesta. Sin
embargo, la elección adecuada de la precisión es fundamental para la toma de decisiones
acertadas, por lo que a continuación damos algunos elementos para su determinación.
Si la variable a medir es dicotómica recomendamos una precisión menor de 8%. Por
ejemplo, si se desea estimar y comparar los porcentajes de personas que tienen diabetes
en dos estados de la república mexicana, podríamos elegir una precisión de 5%. Sin
embargo, si se tiene información de que los porcentajes en ambos estados son muy
similares, para poder tomar una decisión más certera sobre si el porcentaje de diabéticos
entre los estados es distinto, debemos de elegir un porcentaje de error más pequeño,
digamos 2.5%, para poder discriminar con mayor confiabilidad. Ahora, suponga que la
Secretaría de Economía desea estimar en el país el porcentaje de familias que tienen
ingresos menores de 2,000 pesos mensuales y así determinar el porcentaje de familias que
viven en extrema pobreza. En este caso se puede elegir una precisión de 7% y con los
resultados obtenidos se tendrá una imagen bastante clara del porcentaje de familias en
esta situación. Además, si la Secretaría de Economía persigue implementar un programa
para subsidiar con 1,000 pesos mensuales a cada una de las familias en este estrato, una
estimación con un error de 7% puede provocar que al momento de implementar dicho
programa el presupuesto para tal fin no alcance, por lo que se sugiere considerar un error
más pequeño.
Si la variable respuesta es continua, de igual manera se recomienda una precisión
menor de 8% del promedio verdadero o estimado. Esto significa que para poder estimar
la precisión del promedio o el total, se necesita tener idea del valor verdadero del
promedio o total. En caso de que no se tenga idea alguna, se pueden estimar a partir de
una muestra preliminar (piloto). Por ejemplo, suponga que un nutriólogo desea estimar
el promedio de calorías consumidas de niños de seis años en el estado de Colima, como
experto sabe que el consumo promedio de calorías por niño debe ser de 400. Por lo tanto,
él puede elegir una precisión de 20 calorías, que representa 5% del promedio de consumo
recomendado (𝑑 = 0.05*400 = 20). En este caso, el nutriólogo es un experto y tiene una
57
idea bastante clara del valor del promedio. Pero suponiendo que no tiene la más remota
idea de este valor, él puede estimar este promedio con una muestra piloto y obtener su
precisión también multiplicando 0.05 por el promedio de la muestra preliminar. Ahora,
suponga que un investigador desea conocer el consumo promedio en pesos de energía
eléctrica por hogar en el estado X. Si no tiene la mínima idea de ello, puede proceder a
consultar a un experto en el tema o realizar un muestreo piloto y con base en esto tener
una estimación tentativa del promedio. Suponga que ya obtuvo el promedio preliminar
(500 pesos mensuales por hogar), entonces la precisión que utilizará para calcular su
muestra definitiva será igual a 25, que equivale a 5% del promedio preliminar 𝑑 =
0.05*500 = 25. Si, además, el investigador desea comparar en dicho estado los consumos
promedios entre los distintos municipios que sabe tienen un desarrollo económico
similar, quizá sea necesario una precisión más pequeña. Por el contrario, si desea
comparar los municipios del norte, centro y sur que, de antemano, sabe que son distintos,
la precisión podría ser aceptable.
Por otro lado, si el parámetro que se desea estimar es el total, ya sea a partir de
variables dicotómicas o continuas, se procede de igual forma y se recomienda un error
menor de 8% del total preliminar. Por ejemplo, si se desea estimar el total de drogadictos
en el estado de Colima en el año 2015, para fijar la precisión necesitamos una estimación
tentativa del total. Si suponemos que éste es de 5,000, entonces la precisión será 𝑑 =
0.05*5,000 = 250, es decir, 5% del total preliminar. Esta forma de estimar la precisión del
total es exactamente la misma (𝑑=(porcentaje/100) × valor preliminar del parámetro a estimar)
que para estimar la precisión para una proporción o un promedio. El lector debe
recordar que la precisión se debe calcular para el parámetro de mayor interés en su
investigación, de lo contrario, debe determinar una precisión para cada parámetro y con
ello obtener más de un tamaño de muestra, lo cual, además de desgastarlo, lo puede
confundir. También hay que dejar claro que si se determina la precisión usando la
expresión que presentamos anteriormente, (𝑑=(porcentaje/100) × valor preliminar del
parámetro a estimar), el tamaño de muestra requerido usando el mismo porcentaje de error
para estimar la proporción o total será igual. Lo mismo ocurrirá con el tamaño de muestra
para el promedio y el total. A esta forma de fijar la precisión se le llama precisión relativa.
58
Por último, es importante mencionar que el nivel de precisión se decidirá por la
cantidad de recursos disponibles para el estudio, ya que se pueden obtener resultados
muy confiables con precisiones muy altas, pero ello implica mayores costos. Por otro
lado, para estimar la precisión sugerimos extraer una muestra piloto que permita obtener
estimaciones preliminares de los parámetros, conocer la calidad del cuestionario, las
dificultades de los encuestadores, los problemas del marco de muestreo y otros detalles
que nos auxilien en el diseño de la encuesta definitiva. Finalmente, también es importante
dejar claro que en la mayoría de encuestas donde se trabaja con personas, los márgenes
de error más usados son 3% y 5%, ya que garantizan resultados bastante confiables y
costos razonables.
2.19 Uso de tablas para la distribución normal estándar y t -Student
Distribución normal estándar para 𝒏 > 𝟑𝟎
Es conveniente mencionar que cuando el tamaño de la muestra es mayor a 30 elementos,
los valores de la distribución t-Student son muy cercanos a los de la distribución normal
estándar, por lo cual a menudo se utilizan los valores de esta última distribución en lugar
de la primera. Se debe tener presente que 𝑍 representa a una variable aleatoria que tiene
una distribución normal, con media cero (𝜇 = 0) y desviación estándar uno (𝜎 = 1), mejor
conocida como distribución de probabilidad normal estándar. Casi siempre se usa la letra
𝑍 para indicar esta variable aleatoria especial. Como con otras variables aleatorias
continuas, los cálculos de probabilidad con cualquier distribución normal se llevan a cabo
determinando las áreas bajo la gráfica de la función de densidad de probabilidad. Por
ejemplo, supongamos que se requiere encontrar:
a) La probabilidad de que una variable aleatoria de una distribución normal estándar
sea menor a 1.75, es decir, 𝑃(𝑍 < 1.75). Para encontrar tal probabilidad usamos el
Cuadro A.1 del apéndice. Para esto nos ubicamos en la hilera correspondiente al
valor 1.70 de 𝑍 sobre la primera columna y en la columna correspondiente al valor
0.05 de 𝑍 sobre la primera hilera. Interceptando la hilera y la columna encontramos
que la probabilidad correspondiente es igual a 0.9599 (Cuadro 2.1).
59
Cuadro 2.1. Primer ejemplo para el uso de las tablas de la normal estándar.
Z
Z
.0
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.00
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.10
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1.70
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
3.80
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
3.90
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
b) La probabilidad de que una variable aleatoria normal estándar se encuentre entre
1.64 y 1.98 se representa por 𝑃(1.64 < 𝑍 < 1.98). Encontrar 𝑃(1.64 < 𝑍 < 1.98) es
relativamente sencillo solamente recordando la siguiente relación: 𝑃(1.64 < 𝑍 <
1.98) = 𝑃(𝑍 < 1.98) − 𝑃(𝑍 < 1.64), con la cual únicamente es necesario repetir lo
que se hizo en el inciso a) para cada componente de la resta. Al obtener de las
tablas 𝑃(𝑍 < 1.98) = 0.9761 y 𝑃(𝑍 < 1.64) = 0.9495 se tiene que 𝑃(1.64 < 𝑍 <
1.98) = 0.9761 − 0.9495 = 0.0266 (véase el Cuadro 2.2).
Cuadro 2.2. Segundo ejemplo para el uso de las tablas de la normal estándar.
Z
Z
.0
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.00
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.10
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1.60
0.9552
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.70
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.80
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.90
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
3.80
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
3.90
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
c) Ahora, supóngase que se requiere encontrar el valor de 𝑍0 tal que la probabilidad
de que una variable aleatoria normal estándar sea igual a 0.975, es decir, 𝑃(𝑍 >
𝑍0 ) = 0.975. En este caso, se procede de manera inversa al inciso a), es decir, ahora
se tiene la probabilidad y se busca el valor de 𝑍0 . Por lo tanto, se busca en el Cuadro
A.1 el valor de probabilidad más cercano a 0.975 y se encuentra que éste es
60
exactamente el mismo (0.975). En seguida se obtienen los valores de 𝑍 para este
valor de la columna e hilera en que se ubica. En este caso, el valor de 𝑍 en la
columna es de 0.06 y en la hilera 1.90, por lo que 𝑍0 = 1.90 + 0.06 = 1.96 (véase
un ejemplo en el Cuadro 2.2).
Sin embargo, hay que tener presente que en la práctica la confiabilidad es (1 −
𝛼), para la cual se debe encontrar el valor de 𝑍0 . Por ello, a continuación se muestra
cómo llegar a partir de una confiabilidad especificada al valor de 𝑍0 = 𝑍𝛼/2 .
Suponga que el investigador selecciona una confiabilidad de 90%. Así, el nivel
de significancia en términos de proporción será 𝛼 = 0.1, lo que implica que el valor
de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 , que expresado en términos de
probabilidad es equivalente a encontrar 𝑍0.05 tal que 𝑃(𝑍 < 𝑍0.05 ) = 0.95. Por lo
tanto, se busca en el Cuadro A.1 el valor de probabilidad más cercano a 0.95 y se
encuentra que es igual a 0.9495. Luego, para éste valor se obtienen los valores de
𝑍 de la columna e hilera en que se ubica; en este caso el valor de 𝑍 en la columna
es de 0.04 y en la hilera de 1.6, por lo que 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 = 1.6 + 0.04 =
1.64 (véase un ejemplo en el Cuadro 2.3).
Cuadro 2.3. Tercer ejemplo para el uso de las tablas de la normal estándar.
Z
Z
.0
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.00
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.10
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1.40
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1.60
0.9552
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1.90
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
3.80
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
Ahora suponga que el investigador selecciona una confiabilidad de 85%; esto implica
que 𝛼 = 0.15. Por lo tanto, el valor de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.075 . En
términos
61
de
probabilidad,
buscamos
𝑍0
tal
que
𝑃(𝑍 < 𝑍0 ) = 1 − 0.075 =
0.925. Nuevamente, en el Cuadro 2.3 se busca el valor de probabilidad más próximo a
0.925. En seguida se obtienen los valores de 𝑍 para este valor de la columna e hilera en
que se ubica. Para este caso el valor de 𝑍 en la columna es igual a 0.04 y el de la hilera 1.4.
De esta manera 𝑍0 = 1.4 + 0.04 = 1.44. Es importante enfatizar que al usar esta tabla no
se obtienen valores exactos sino aproximados.
Finalmente, para facilitar el uso del Cuadro A.1, en el Cuadro 2.4 se presentan los
valores de 𝑍𝛼/2 para los niveles de confianza más comunes.
Cuadro 2.4. Valores de 𝑍𝛼/2 .
Nivel de confianza
𝜶
𝜶/𝟐
𝒁𝜶/𝟐
90%
95%
97.5%
0.100
0.050
0.025
0.0500
0.0250
0.0125
1.6449
1.9600
2.2414
99%
0.010
0.0050
2.5758
Distribución t-Student para 𝒏 ≤ 𝟑𝟎
Si el investigador establece una confiabilidad de 1 − 𝛼 con un tamaño de muestra 𝑛, el
valor de tablas que se desea es 𝑡0 = 𝑡𝑛−1,1−𝛼/2 , que en términos de probabilidad equivale
a encontrar 𝑡0 = 𝑡𝑛−1,1−𝛼/2 tal que 𝑃(𝑡 < 𝑡0 ) = 𝑡𝑛−1,1−𝛼/2 = 1 − 𝛼/2. Para hallar este valor
se usa el Cuadro 2.5, cuyos valores corresponden a una distribución t-Student con 𝑣 =
𝑛 − 1 grados de libertad que deja una probabilidad a la derecha de ellos de 1 − 𝛼/2. Por
lo tanto, para usar la tabla se requiere únicamente los valores de 1 − 𝛼/2 y los grados de
libertad que se obtienen en función del tamaño de la muestra. Para los casos abordados
en este texto 𝑣 = 𝑛 − 1. Enseguida, en la primera columna se localizan los grados de
libertad 𝑣, en la segunda hilera el valor de 1 − 𝛼/2, y en la intercepción de esta hilera y
columna se obtiene el valor de 𝑡0 .
Por ejemplo, suponga que un investigador fija para su estudio una confiabilidad de
90% y cuenta con un tamaño de muestra de 𝑛 = 6; esto implica que 𝛼 = 0.1 (en términos
de proporción). Entonces, el valor de tablas que se desea es 𝑡0 = 𝑡6−1,1−0.05, es decir, se
busca el valor de 𝑡0 tal que 𝑃(𝑡 < 𝑡0 ) = 1 − 0.05 = 0.95. Para encontrar dicho valor de 𝑡0 ,
62
en el Cuadro 2.5 se busca en la primera columna los 𝑣 = 6−1 = 5 grados de libertad, en la
segunda hilera el valor 𝛼/2 = 0.05, y en la intercepción se obtiene el valor de 𝑡0 = 2.0150.
Para cerciorarnos de que no habrá dudas para obtener los valores 𝑡0 de tablas, damos
otro ejemplo: suponga que otro investigador fija para su estudio una confiabilidad de
98% y cuenta con un tamaño de muestra de 𝑛 = 16. Por lo tanto, 𝛼/2 = 0.01 y el valor de
tablas que se desea es 𝑡0 = 𝑡(15,1−0.01), que es equivalente a buscar el valor de 𝑡0 tal que
𝑃(𝑡 < 𝑡0 ) = 1 − 0.01. Para encontrar ese valor, en el Cuadro 2.5 se busca en la primera
columna los 𝑣 = 16 − 1 = 15 grados de libertad, en la segunda hilera el valor de 𝛼/2 =
0.01, y en la intercepción de éstas se obtiene el valor de 𝑡0 = 2.6025.
Cuadro 2.5. Ejemplo para el uso de las tablas de la distribución t-Student
𝜶/𝟐
𝒗
.25
.1
.05
.025
.01
.005
.0025
.001
.09
1
1.0000
3.0777
6.3138
12.7062
31.8205
63.6567
127.211
318.3088
636.6192
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
5
0.7267
1.4759
2.0150
2.5706
3.3649
4.0321
4.7733
05.8934
6.8688
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
15
0.6912
1.3406
1.7531
2.1314
2.6025
2.9467
3.2860
03.7328
4.7028
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
180
0.6759
1.2863
1.65340
1.9732
2.3472
2.6034
2.8421
03.1361
3.3454
210
0.6757
1.2856
1.6521
1.9713
2.3442
2.5994
2.8370
03.1295
3.3375
2.20 Filosofía AIPE
Históricamente, los metodólogos han enfatizado la planeación del tamaño de la muestra
en la investigación empírica para obtener información útil de los estudios experimentales
y observacionales desde una perspectiva de potencia analítica pura. Aunque la estructura
de potencia analítica ha dominado la forma en que los investigadores conceptualizan la
planeación del tamaño de muestra, no es ni el único ni el mejor acercamiento que puede
tomarse para estimar el número apropiado de participantes a incluir en algún estudio de
interés. Aunque la potencia estadística es innegablemente importante para un dominio
de investigación, la simple obtención de la potencia adecuada no siempre provee
respuestas significativas para ciertas preguntas de investigación. La obtención de
63
parámetros estimados que sean exactos puede ser una meta aun potencialmente más
significativa que el obtener significación estadística. Por lo tanto, el método apropiado
para la planeación del tamaño de muestra, y el mismo tamaño apropiado de la muestra,
depende de las metas deseadas en una investigación.
Un enfoque alternativo, según Kelly (2007), para el marco de potencia analítica para
la determinación de tamaños de muestra es el que se basa en la exactitud en la estimación
de parámetros (AIPE). El objetivo de AIPE es obtener parámetros estimados que
correspondan con exactitud al valor de la población que representan. Conceptualmente,
la exactitud puede ser definida como la distancia observada entre la estimación del
parámetro y su valor verdadero poblacional. Precisión, sin embargo, es la
reproductibilidad de la estimación y se define como la variabilidad de la estimación
resultante. El sesgo es también un concepto importante en el contexto de exactitud y
precisión. El mantener precisión constante generalmente lleva a discrepancias más
grandes entre las estimaciones y el valor de la población, porque la estimación insesgada
(centrada) es una propiedad deseable en los estimadores (fórmulas para hacer las
estimaciones de parámetros).
La definición formal de exactitud es dada por la raíz cuadrada del error cuadrado
medio y puede ser expresada de la siguiente manera:
2
2
2
𝑅𝑀𝑆𝐸 = √𝐸 [(𝜃̂ − 𝜃) ] = √[𝐸(𝜃̂ − 𝐸[𝜃̂]) ] + (𝐸[𝜃̂ − 𝜃])
donde 𝜃 es el valor verdadero del parámetro de la población (Hellmann & Fowler, 1999;
Rozeboom, 1996). Se puede observar que la raíz cuadrada del error cuadrático medio se
puede desintegrar en dos componentes: la varianza, que es la medida de precisión, y el
cuadrado del sesgo. Por lo tanto, cuando el sesgo es cero (𝐸 [𝜃̂ - 𝜃] = 0), tanto la precisión
como la exactitud son equivalentes y se pueden utilizar indistintamente.
En la práctica, la precisión en la estimación de parámetros suele medirse en términos
de la amplitud del IC correspondiente, que se puede expresar como una proporción de
64
la desviación estándar o en la métrica de la variable dependiente. Cuanto más corta sea
la amplitud de un intervalo de confianza existe menor incertidumbre acerca de los
posibles valores del parámetro poblacional. Es decir, siendo este más estrecho aumenta
la probabilidad de que el punto obtenido represente con precisión el valor real de la
población. Por lo tanto, para que un investigador reduzca las principales fuentes de
incertidumbre debe tratar de desterrar la aleatoriedad e imprecisión (Casti, 1990). La
filosofía AIPE para la estimación del tamaño de muestra puede facilitar mejor el avance
del conocimiento científico que el método de pruebas de hipótesis que se reduce a un
método dicotómico de rechazo o no rechazo.
Lo anterior significa que la determinación de un tamaño de la muestra se puede lograr
a través de (o al menos) dos métodos conceptualmente diferentes, uno de ellos diseñado
para obtener potencia estadística (pruebas de hipótesis) y el otro diseñado para obtener
precisión estadística. Dependiendo de los intereses y los objetivos deseados de un
estudio, la planificación del tamaño de muestra debe abordarse desde el enfoque de
potencia analítica, el enfoque AIPE, o una combinación de ambos. Es importante resaltar
que la planificación del tamaño de muestra que se aborde desde algún tipo de enfoque
será diferente del otro. La distinción entre los dos tipos de enfoques es más que
conceptual, dado que las diferencias en los tamaños de muestra estimados pueden ser
substanciales dependiendo tanto del nivel de potencia, así como el ancho del IC deseado.
Ambos tipos de enfoques, tanto el de potencia analítica como el AIPE, pueden ofrecer
beneficios en ciertas situaciones, dependiendo de la(s) pregunta(s) de investigación. Está
claro que ambos enfoques son importantes y en muchas circunstancias pueden usarse en
conjunto para ayudar a producir estudios de calidad.
Fundamentos del enfoque AIPE y la importancia de estimaciones exactas
Aunque el análisis de potencia estadística (pruebas de hipótesis) ha dominado el campo
de la planificación del tamaño de muestra, otra alternativa que suele ser más adecuada a
las necesidades de algunos investigadores es AIPE. El objetivo de AIPE no es
necesariamente obtener estimaciones de parámetros estadísticamente significativos, si no
65
estimaciones que calculen con exactitud el parámetro de la población correspondiente.
En el marco de AIPE, la exactitud es relativa y se refiere a la correspondencia entre el
valor de la población y su estimado. Ambos, la precisión y entonces la exactitud de un
estimado, se refieren al ancho del IC formado alrededor del parámetro. La selección de
un tamaño de muestra se realiza para lograr que este intervalo sea estrecho y lleve a
estimaciones exactas si el estimador es insesgado. Probabilísticamente, mediante una
planeación del tamaño de muestra tal que el ancho del intervalo de confianza calculado
sea estrecho, los parámetros estimados tendrían mejor correspondencia al valor
poblacional, dado que habrá menor incertidumbre en los puntos estimados obtenidos. A
menudo, obtener los parámetros estimados exactos, lleva a un mejor entendimiento del
fenómeno estudiado que la decisión rechazo - no rechazo vía la prueba de la hipótesis
nula. En el campo de la investigación científica, la imprecisión es una característica de un
parámetro estimado que debe eliminarse tanto como sea posible. Porque la “predicción
y explicación son pilares en los cuales descansan las metas de la empresa científica”
(Casti, 1990). Lograr parámetros estimados exactos no sólo facilitaría la predicción del
parámetro de interés, sino que también podría ayudar cuando se formaran explicaciones
sobre por qué y cómo la(s) variable(s) dependiente(s) e independiente(s) están (o no
están) relacionadas entre ellas. Cuando las predicciones son exactas y las explicaciones
viables están disponibles para algunos fenómenos, la verosimilitud del conocimiento
puede ser realzada en un área en particular, lo cual puede tener mayores consecuencias,
dado que pueden desarrollarse y posteriormente probarse teorías más fuertes y precisas.
Pasos del enfoque AIPE
Como ya se mencionó, el cálculo de tamaños de muestra tradicionalmente se ha
efectuado bajo dos vías, que son la de potencia (prueba de hipótesis) y la de precisión
(estimación de parámetros).
Para estimar el tamaño de muestra bajo el MAS con enfoque tradicional se usan con
mayor frecuencia las siguientes fórmulas:
Para población finita cuando 𝑁 es conocida y no es muy grande (𝑁 < 5,000):
66
n
NZ 2 pq
Nd 2  Z 2 pq
Para población infinita 𝑁 es desconocida:
n
Z 2 pq
d2
Donde: 𝑁 es el tamaño de la población, 𝑑 es la precisión o margen de error, 𝑝 es la
proporción, 𝑞 = (1 − 𝑝) y 𝑍es el cuantil 1 − 𝛼 de una distribución normal estándar.
El estimar el tamaño de muestra bajo el enfoque tradicional tiene principalmente dos
ventajas. Una es que es ampliamente conocida y la otra es la facilidad de su cálculo. Como
desventajas se tienen que es altamente impreciso pues supone una variable normal
cuando en realidad es una variable Bernulli o Binomial, además de ser una aproximación.
Kupper & Hafner (1989), Kelley, Maxwell, & Rausch (2003) y Wang et al. (2005),
demostraron que produce una seria subestimación del tamaño de muestra requerido.
Por otra parte, existe una forma no tan popular para el cálculo de tamaño de muestra
pero que asegura exactitud en la estimación de parámetros (Kupper & Hafner, 1989;
Kelley et al., 2003; Kelley & Rausch, 2011; Montesinos-López, Montesinos-López, LunaEspinoza, Gaytán-Lugo, & Espinosa-Solares, 2012a). Desde el enfoque AIPE, el tamaño
de la muestra se determina de tal manera que la amplitud (anchura) esperada del IC será
suficientemente estrecha. El enfoque AIPE consta de dos pasos. El primero proporciona
el tamaño de muestra requerido bajo el enfoque tradicional de tal manera que la amplitud
esperada del IC será menor o igual al valor especificado a priori por el investigador. A
este valor se le conoce como precisión o margen de error. Sin embargo, la probabilidad
de que la amplitud del IC calculado con la muestra obtenida en el paso anterior sea menor
que el margen de error especificado a priori, está alrededor de 0.5 (50%) (Kupper &
Hafner, 1989; Kelley et al., 2003). Una vez obtenido el tamaño de muestra tradicional se
procederá a calcular un tamaño de muestra con mayor precisión; para esto es necesario
incrementarlo hasta asegurar que la anchura del IC sea menor o igual a la precisión
especificada a priori con una alta probabilidad. A esta probabilidad se le llama nivel de
67
aseguramiento (𝛾). Por ejemplo, si un investigador estima un tamaño de muestra bajo el
enfoque AIPE para estimar el promedio con un nivel de confianza de 95%, con una
precisión 0.5 y un nivel de aseguramiento del 99%, entonces el tamaño de muestra
resultante le asegurará que la amplitud del IC de 95% sea menor o igual 0.5 (precisión
fijada a priori) con una probabilidad de al menos 99%. Es decir, se tiene una probabilidad
de 1% de que no se cumpla la precisión fijada a priori en la amplitud del IC de 95%
(Kupper & Hafner, 1989; Kelley et al., 2003; Kelley, 2007).
Para ejemplificar el enfoque AIPE se utilizó un método para el cálculo de tamaños de
muestra para proporciones binomiales que asegura ICs cortos (Montesinos-López,
Montesinos-López, Santos-Fuentes, Valladares-Cellis, & Magaña-Echeverría, 2011) y
consiste en lo siguiente:
Primero debe hacerse la estimación puntual de la proporción:
pˆ  m / n
donde: 𝑚 es el número de éxitos observados y 𝑛 es el tamaño de la muestra.
La estimación por intervalo será (Ec. 2.2):
pL  B / 2 , y ,n  y  1
pU  B1 / 2 , y  1,n  y
(2.2)
donde: B / 2 , y ,n  y 1 y B / 2 , y ,n  y 1son el límite inferior y superior del intervalo de confianza
para la proporción (𝑝) con una confiabildad 1 − 𝛼.
Amplitud del intervalo de confianza:
w  pU  pL
68
donde: 𝑝𝑈 = Límite superior y 𝑝𝐿 = Límite inferior.
Amplitud relativa del intervalo de confianza (Ec. 2.3):
wr  ( pU  pL ) / p
(2.3)
donde: 𝑝= proporción de interés.
Dado que no se conocen 𝑛 y 𝑚 no es posible calcular 𝑤𝑟 . Sin embargo, de acuerdo con
Vollset (1993) y Newcombe (1998), es posible determinar la amplitud relativa promedio
exacta con la siguiente expresión:
n
n  y
n y
wr ( p, n)   wr   p  1  p 
y 0
 y
donde: 𝑤
̅𝑟 (𝑝, 𝑛) es la amplitud requerida del intervalo de confianza y es calculada
utilizando las fórmula anterior, para 𝑌 = 𝑦 dados 𝑝 y 𝑛.
Ahora se procederá a calcular el tamaño de muestra inicial (o preliminar), siendo éste
el paso 1:
Un algoritmo que garantiza encontrar el tamaño de muestra apropiado consiste en
comenzar con el tamaño de muestra inicial (𝑛0 =1), y se prosigue a encontrar el valor de
𝑛 que satisface:
n  y
n y
wr ( p, n)   wr    p  1  p   re
y 0
 y
n
donde: 𝑟𝑒 es el error relativo, se sugiere que sea menor a 0.1 (10%), 𝑦 es el número de
éxitos observados, y 𝑛 es el tamaño de muestra preliminar requerido.
Después se aplicará la siguiente condición: Si la amplitud relativa promedio
observada del intervalo de confianza (CIRW) es más grande que la amplitud relativa
69
deseada (𝑟𝑒), el tamaño de muestra se incrementará en una unidad y el CIRW deberá
calcularse nuevamente. Este algoritmo se repetirá mientras 𝑤
̅ 𝑟𝑖 ≥ re.
donde: 𝑤
̅ 𝑟𝑖 = Amplitud relativa promedio observada e i = representa la iteración
respetiva.
Sin embargo, el paso anterior no garantiza que para cualquier IC en particular la
anchura observada sea lo suficientemente estrecha porque la media del CIRW, 𝑤
̅𝑟 , será
̂
una variable aleatoria (𝑤
̅𝑟 ) que fluctuará de muestra a muestra si no se conoce el valor
exacto de 𝑝. Para demostrar esto se necesita calcular la probabilidad de obtener CIRW’s
menores que el valor especificado (𝑟𝑒), el cual se calcula con la Ec. 2.4.
n
n  y
n y
P( wˆ r  re)   I ( wr , y, p)  p  1  p 
y 0
 y
(2.4)
donde 𝐼(𝑤𝑟 , 𝑦, 𝑝) es una función indicadora que muestra si el valor de CIRW, calculado
̂𝑟 es considerada una
con las ecuaciones 2.2 y 2.3, no es más grande que el valor de 𝑟𝑒, y 𝑤
̅
variable aleatoria porque no se conoce el valor exacto de 𝑝.
En el Cuadro 2.6 se muestra un tamaño de la muestra inicial ( n ) y tres incrementos
p
(𝑛𝑚100 , 𝑛𝑚300 y 𝑛𝑚800 ), cada uno con su correspondiente probabilidad de que la anchura
relativa del IC esperado (CIRW) sea menor que el valor especificado ( re  0.3 y
̂
𝑃(𝑤
̅𝑟 < 𝑟𝑒)). Para un IC del 95%, 𝑝 es la proporción en la población, 𝑟𝑒 = 0.3 es el CIRW
deseado, y el tamaño de la muestra preliminar es calculado usando la ecuación 𝑤
̅𝑟 (𝑝, 𝑛).
̂
𝑃(𝑤
̅𝑟 < 𝑟𝑒) es la probabilidad de que la media del CIRW sea menor que el valor
especificado ( re  0.3 ), donde 𝑟𝑒 = 0.3 es el error relativo o precisión relativa deseada.
Por lo tanto, se concluye que utilizando la Ec. 2.4 sólo se garantiza una probabilidad de
que se cumpla la amplitud del IC de alrededor de 50%.
Cuadro 2.6. Tamaños de muestra con enfoque tradicional.
𝑝
𝑛𝑝
̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅
𝑛𝑚100
̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅
𝑛𝑚300
̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅
𝑛𝑚800
̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅
0.05
3374
0.4984
3474
0.6775
3674
0.9097
4174
0.9999
70
0.1
1600
0.4878
1700
0.8439
1900
0.9992
2400
1.00
0.15
1009
0.5094
1109
0.9607
1309
1.00
1809
1.00
0.2
713
0.5000
813
0.9982
1013
1.00
1513
1.00
0.25
536
0.4834
636
0.9999
836
1.00
1336
1.00
0.3
417
0.4773
517
1.00
717
1.00
1217
1.00
0.35
333
0.5000
433
1.00
633
1.00
1133
1.00
0.4
270
0.4769
370
1.00
570
1.00
1070
1.00
0.45
220
0.4211
320
1.00
520
1.00
1020
1.00
0.5
181
0.5522
281
1.00
481
1.00
981
1.00
Paso 2: Tamaño de muestra modificado que asegura cortos ICs.
Para que la probabilidad de la amplitud relativa del IC sea alta se usa la siguiente
expresión:
n
n  y
n y
P( ŵr  re )   I ( wr , y , p )  p  1  p   
y 0
 y
donde: 𝛾= Nivel de aseguramiento (gama).
EL Cuadro 2.7 muestra los tamaños de muestra requerido (𝑛) para IC de 95% y
99%,donde 𝑝 es la proporción en la población, 𝛾 es el grado deseado de acercamiento a
un IC para 𝑝 que no sea más amplio que 𝑟𝑒, 𝑟𝑒 es el CIRW relativo deseado, y 𝑛𝑚 es el
tamaño de muestra modificado y requerido cuando se utiliza un nivel de aseguramiento
𝛾. Por lo tanto, se concluye que utilizando un nivel de aseguramiento (enfoque AIPE) se
garantiza que con una probabilidad previamente fijada 𝛾, se cumpla la amplitud del IC,
el cual depende del nivel de aseguramiento 𝛾 (comúnmente de 90 y 99%).
Cuadro 2.7. Tamaños de muestra con enfoque AIPE.
IC=95%.
𝑛𝑝 con
p
 (
𝑛𝑚 con   0.90
 0.5)
𝑛𝑚 con   0.99
0.05
0.1
0.2
0.3
0.05
0.1
0.2
0.3
0.05
0.1
0.2
0.3
0.05
117577
29592
7496
3374
119370
30483
7937
3662
120820
31194
8280
3889
0.1
55714
14026
3554
1600
56509
14420
3747
1729
57154
14736
3899
1826
0.15
35093
8838
2240
1009
35558
9069
2353
1082
35932
9250
2442
1138
0.2
24782
6243
1583
713
25080
6391
1656
760
25321
6507
1711
796
0.25
18596
4687
1189
536
18795
4784
1238
567
18952
4862
1274
589
0.3
14472
3649
927
417
14604
3714
959
439
14708
3764
981
453
71
0.35
11526
2908
739
333
11610
2949
760
346
11677
2980
772
354
0.4
9316
2352
598
270
9366
2376
610
277
9402
2393
616
280
0.45
7598
1919
489
220
7619
1930
493
223
7634
1935
494
223
0.5
6223
1573
401
181
6224
1574
402
182
6224
1574
402
182
IC=99%.
𝑛𝑝 con
P
 (
𝑛𝑚 con   0.90
 0.5)
𝑛𝑚 con   0.99
0.05
0.1
0.2
0.3
0.05
0.1
0.2
0.3
0.05
0.1
0.2
0.3
0.05
202500
50824
12805
5735
204867
52002
13380
6120
206774
52938
13840
6416
0.1
95939
24083
6068
2717
96991
24606
6325
2886
97834
25021
6525
3020
0.15
60419
15169
3823
1712
61029
15473
3974
1811
61524
15716
4090
1888
0.2
42659
10712
2700
1209
43053
10907
2796
1273
43369
11063
2870
1320
0.25
32003
8038
2026
907
32266
8168
2091
949
32474
8269
2140
980
0.3
24899
6255
1577
706
25074
6341
1619
734
25212
6408
1651
753
0.35
19825
4982
1256
562
19937
5037
1284
580
20025
5079
1302
591
0.4
16019
4027
1016
455
16084
4058
1032
465
16135
4081
1041
470
0.45
13059
3284
829
371
13088
3298
835
375
13108
3306
838
375
0.5
10691
2689
679
304
10692
2690
680
305
10692
2690
680
305
El método descrito anteriormente es para determinar tamaños de muestra exactos
para estimar una proporción, garantiza IC cortos a través de dos pasos, toma en cuenta
la naturaleza estocástica del IC (porque normalmente no se conoce el valor verdadero de
la proporción), no tiene relación con rechazar una hipótesis nula (ya que el enfoque que
utiliza es AIPE de 𝑝), y supone una prueba perfecta (sensibilidad y especificidad iguales
a uno).
72
Capítulo 3. Muestreo aleatorio simple
CAPÍTULO 3
Muestreo aleatorio simple
Que el muestreo es imperfecto,
No lo vengo a discutir.
Pero es el mejor amigo,
Que te ayuda a decidir.
OAML
E
l muestreo sirve para determinar, de la mejor manera, las características que
describan a la población. La cantidad de información que la muestra aporte depende
del tamaño de ésta y de la variabilidad existente entre los elementos de la población en
cuanto a la característica o variable de interés. El evaluador decide la forma de seleccionar
la muestra y el número de unidades muestrales que se evaluarán, y con esto podrá
controlar la calidad de la información extraída y la precisión requerida.
Aunque es común en los estudios muestrales evaluar varias características o variables
simultáneamente en cada sujeto o unidad muestral, en el estudio del muestreo
probabilístico solamente se trabaja con una variable a la vez. Si se requiere se pueden
estudiar todas las variables pero una por una y al final unir los resultados. Puede ocurrir
el caso que de dos o más variables se obtenga otra variable que sea de interés. Esto debe
considerarse como una forma de medición y la variable generada simplemente será una
variable más.
Con la información proveniente de la evaluación de la muestra podemos hacer
inferencias
sobre
la
población.
La
validez
de
tales
inferencias
depende
fundamentalmente del diseño de muestreo, es decir, de la forma en que se obtuvo la
muestra. Para que los principios de la probabilidad sean aplicables al hacer la inferencia,
es necesario que la selección de la muestra se haga mediante una técnica de muestreo
probabilístico.
73
El Muestreo Aleatorio Simple (MAS) es el más sencillo que veremos en este libro y nos
dará las bases para desarrollar diseños más elaborados.
3.1 Definición y tipos de muestreo aleatorio simple
La definición de MAS se refiere a que cada una de las unidades de la población tienen la
misma probabilidad de ser seleccionadas (Raj, 1972). Si sabemos que cada muestra
posible tiene la misma probabilidad de ser elegida, nos preguntamos ¿cuántas muestras
posibles existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la
selección con reemplazo y la selección sin reemplazo.
Definición y tipos de muestreo
Definición
Se denomina muestreo aleatorio simple o completamente al azar al diseño que,
habiendo decidido que el tamaño de la muestra será de 𝑛 unidades de muestreo
(o simplemente de tamaño 𝑛), le asigna la misma probabilidad de ser elegida a
cada una de todas las muestras posibles de ese tamaño. Es decir, cualquiera de las
muestras distintas que podemos obtener de la población tendrá la misma
probabilidad de ser elegida (Cochran, 1985).
Con reemplazo
En el muestreo con reemplazo, si el tamaño de la muestra es 𝑛 y el de la población
es 𝑁, existen 𝑁 𝑛 muestras diferentes. El procedimiento de selección consiste en
seleccionar una unidad que tiene la posibilidad de ser incluida nuevamente en la
muestra. Esta opción genera fórmulas de estimación más fáciles, pero en la
práctica tiene poco sentido medir en más de una ocasión la misma unidad
muestral, salvo en diseños específicos u otros más elaborados en los que las
complicaciones teóricas sugieren simplificar los supuestos en que se sustenta su
análisis.
Sin reemplazo
En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como
combinaciones se pueden hacer de N elementos de tamaño 𝑛 (𝑁 𝐶𝑛 ), cantidad que
se calcula con:
𝑁!
𝐶𝑁 𝐶𝑛 =
𝑛! (𝑁 − 𝑛)!
El procedimiento de integración de la muestra difiere en que una vez seleccionada
una unidad, ésta ya no podrá volver a ser seleccionada.
74
Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada
muestra posible, lo que haría suponer que todas las muestras posibles deberían
configurarse antes de seleccionarlas (sería imposible en poblaciones grandes).
Simplemente obsérvese que el número posible de muestras de una población con 100
unidades muestrales y una muestra de tamaño 15, sin reemplazo, es
100C15
=
100!/[15!(100−15)!] = 2.53338×1017, y con reemplazo es 10015 = 1×1030 muestras posibles.
Afortunadamente, la definición se satisface simplemente dejando que cada unidad
muestral tenga la misma oportunidad de ser incluida en la muestra; esa probabilidad es
𝑛/𝑁 y solamente necesitamos conocer una muestra, que será la que usaremos.
Cuando el tamaño de la población (𝑁) es muy grande con respecto al tamaño de la
muestra (𝑛) y el muestreo se lleva a cabo con reemplazo, la probabilidad de que una
unidad muestral sea elegida dos veces es muy pequeña. De hecho, la probabilidad de
elección de cualquier unidad una sola vez también es muy pequeña; de ahí que el MAS
con reemplazo se aproxime al MAS sin reemplazo.
En lo sucesivo consideraremos el MAS sin reemplazo, a menos que se indique otra
especificación. También, es pertinente mencionar que este diseño de muestreo recibe
diferentes nombres como muestreo simple al azar, muestreo completamente aleatorio o
muestreo irrestricto al azar.
3.2 Selección de una muestra aleatoria simple
Una vez que se ha determinado el número de elementos a extraer de la población, el paso
siguiente consiste en seleccionarlos, de tal manera que cada uno tenga la misma
probabilidad de ser seleccionado.
Existen muchos métodos para este fin, entre ellos:
Tabla de números aleatorios
Este método consiste en extraer 𝑛 números de la tabla que estén comprendidos
entre 1 y 𝑁, para lo cual se inicia en cualquier punto de la misma elegido al azar,
75
siguiendo una ruta predeterminada y tomando tantas columnas como dígitos
tenga 𝑁 (recuérdese que la extracción es sin reemplazo). A continuación veamos
dos ejemplos:
1. Supongamos que queremos una muestra aleatoria de cuatro personas de una
población de 15 individuos enumerados del 1 al 15. Para obtener las cuatro
personas, elegimos una hilera y una columna aleatoriamente del Cuadro A.3
(en el Apéndice). Suponemos que la hilera seleccionada es la 23 y la columna es
la cuatro y decidimos utilizar los últimos dos dígitos del extremo derecho del
grupo de cinco, que en este caso es el 10 (primer elemento de la muestra).
Procedemos en cualquier dirección para obtener los individuos que restan en la
muestra. Si vamos hacia abajo de la columna, el siguiente número
(inmediatamente debajo del 10) es el seis. Entonces, nuestra segunda persona
en la muestra sería la seis. Si seguimos, llegamos al 22, pero solamente hay 15
elementos en la población. Por consiguiente, ignoramos el 22 y continuamos
hacia abajo de la columna y nos encontramos el 15. Así, nuestra tercera persona
en la muestra es la 15. Para obtener la cuarta persona que conformará la muestra
continuamos hacia abajo de la columna y nos encontramos el 58, luego 83, 83,
59 y 96, pero recordamos que nuestra población solamente es de 15 personas,
por lo que los ignoramos y continuamos hacia abajo en la columna. Aparece un
siete, así que nuestro cuarto elemento de la muestra es la persona siete.
2. Ahora supongamos que tenemos una población de 9,000 individuos
(enumerados del 1 al 9,000) y necesitamos elegir una muestra aleatoria de 10 de
ellos. De igual manera que el ejemplo anterior, elegimos una hilera y una
columna aleatoriamente del Cuadro A.3. Suponemos que la hilera seleccionada
es la cinco de la columna seis y decidimos utilizar los últimos cuatro dígitos del
extremo derecho del grupo de cinco, que en este caso es el 5,838 (primer
elemento de la muestra). Para obtener los restantes individuos de la muestra
podemos proceder en cualquier dirección. Si decidimos proceder hacia abajo en
la columna, el siguiente número (inmediatamente debajo del 5,838) es el 525.
Entonces, nuestro segundo individuo en la muestra sería el 525. Siguiendo,
76
encontramos que los restantes individuos que conformarán la muestra son:
2,351, 8,605, 2,564, 7,222, 5,232, 7,291, 393 y 4,456.
Extracción de papelitos numerados
Este método es sencillo, pero laborioso si la población es grande, y consiste en
hacer papelitos debidamente numerados entre uno y 𝑁. Se mezclan en una bolsa
y se extraen sin reemplazo hasta completar 𝑛, el tamaño de la muestra.
3.3 Estimación de parámetros de interés para promedio bajo MAS
Estimación de la media poblacional
Al evaluar variables cuantitativas, la media (𝜇) de la variable 𝑦 es el parámetro que con
mayor frecuencia nos interesa estimar. Este parámetro se define de la siguiente forma:
∑𝑁
𝑖=1 𝑦𝑖
Media de la población = 𝜇𝑦 = 𝜇 =
𝑁
Otro parámetro de gran interés es el total (𝜏𝑦 ) de la variable 𝑦 para toda la población:
𝑁
Total de la población = 𝜏𝑦 = 𝑁𝜇𝑦 = ∑ 𝑦𝑖
𝑖=1
A veces se omite el subíndice 𝑦 pues el contexto esclarece su significado. Como no
tenemos todas las 𝑁 unidades muestrales de donde proviene cada 𝑦𝑖 , usamos sus
estimadores.
Estimador de la media y del total muestral
𝜇̂ = 𝑦̅ =
∑𝑛𝑖=1 𝑦i
𝑛
𝜏̂ = 𝑁𝑦̅
77
(3.1)
(3.2)
Los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) aportados por Scheaffer,
Mendenhall & Lyman (1987) se llaman estimaciones. Los estimadores son variables
aleatorias que tienen propiedades estadísticas derivadas de la probabilidad, mientras que
las estimaciones son simplemente números con las unidades de medición
correspondientes.
Los estimadores poseen algunas propiedades estadísticas deseables como el
insesgamiento y la consistencia. Sin embargo, la revisión y demostración de estas
propiedades no es tema de este libro. Los interesados pueden consultar algún libro de
inferencia estadística (Mood et al., 1974).
Estimación de la varianza
La varianza es otro parámetro importante de la población y se simboliza por 𝜎 2 . Con su
ayuda se hacen inferencias probabilísticas sobre la estimación de la media; también refleja
la variabilidad que existe entre los valores de las variables. Este parámetro se define por
la expresión:
𝜎 2𝑌
2
∑𝑁
𝑖=1(𝑦𝑖 − 𝜇)
=𝜎 =
𝑁−1
2
Al igual que 𝜇y 𝜏, 𝜎 2 también tiene su estimador muestral, el cual se obtiene de la
muestra. Este estimador se denota por:
𝑆 2𝑌 = 𝑆 2 =
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑛𝑖=1 𝑦𝑖 2 − 𝑛𝑦̅ 2
=
𝑛−1
𝑛−1
Estimador de lavarianza de la media poblacional
𝜎 2𝑦̅
𝑁 − 𝑛 𝜎 2y
=
𝑁 𝑛
(3.3)
Al no conocer el parámetro 𝜎 2y incluido en la expresión (3.3), utilizamos su estimador
(Scheaffer et al., 1987).
78
𝑆 2𝑦̅ =
𝑆 2𝑦
𝑁 − 𝑛 𝑆 2𝑦
𝑛 𝑆 2𝑦
= [1 − ]
= [1 − 𝑓]
𝑁 𝑛
𝑁 𝑛
𝑛
(3.4)
donde 𝑓 = 𝑛/𝑁 se llama fracción de muestreo y representa la proporción de la población
que está incluida en la muestra, por lo que también se interpreta como la intensidad del
muestreo.
El factor (𝑁 − 𝑛)/𝑁 se denomina Corrección por Población Finita (CPF), el cual
también puede expresarse como [1 − 𝑛/𝑁], donde el cociente 𝑛/𝑁 es la fracción de
muestreo (𝑓). La importancia del factor de corrección se reduce a medida que la fracción
de muestreo se hace más pequeña, es decir, cuando la muestra es muy pequeña
comparada con el total de la población. Por la simplificación de los cálculos,esta
magnitud suele omitirse si la fracción de muestreo es menor que 5%, esto es, si 𝑓 =
(𝑛/𝑁) < 0.05.
Con este estimador (3.4) y las propiedades de la distribución normal podemos
establecer estimaciones por intervalo para el promedio y el total poblacional. Esto se
presenta adelante con más detalle.
Estimadores del total y la varianza del total poblacional
𝜇𝜏̂ = 𝜏̂ = 𝑁𝜇
(3.5)
𝜎 2𝜏̂ = 𝑁𝜎 2𝑦
(3.6)
Como no conocemos los parámetros incluidos en estas expresiones (3.5 y 3.6), utilizamos
sus estimadores muestrales.
Estimadores del total y de la varianza del total muestral
𝜇̂ 𝜏̂ = 𝜏̂ = 𝑁𝜇̂ = 𝑁𝑦̅
(3.7)
𝑆 2𝑦 𝑁 − 𝑛
[
]
𝑛
𝑁
(3.8)
𝑆 2𝜏̂ = 𝑁 2
79
Por lo general, la desviación estándar de los estimadores, es decir, la raíz cuadrada
positiva de sus varianzas, se conoce como error estándar de la media y del total,
respectivamente.
Estimación por intervalo
Debemos recordar que nos interesa estimar la media o el total de la población, es decir, 𝜇
o 𝜏, basándonos en la información de la muestra, esto es, 𝑦̅, 𝑆𝑦2̅ y 𝑆𝜏̂2 , los cuales ya hemos
calculado. Asimismo, suponiendo que los estimadores 𝜇̂ y 𝜏̂ tienen una distribución
normal, la media y el total poblacional se pueden estimar por intervalo.
El Intervalo de Confianza de Wald (ICW) para el promedio (𝜇), con (1 − )100% de
confiabilidad, es
𝑝𝐿 = 𝑦̅ − 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅
(3.9)
𝑝𝑈 = 𝑦̅ + 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅
donde 𝑆𝑦2̅ =
𝑁−𝑛 𝑆𝑦2
𝑁
𝑛
, 𝑡(𝑛−1,1−𝛼/2) es el cuantil 1 − 𝛼/2 de la distribución t-Student con 𝑛 − 1
grados de libertad y 𝑦̅ es el EMV para 𝜇. El ICW dado en (3.11) es fácil de calcular y
permite obtener un tamaño de muestra para una confiabilidad deseada. Además, la
cobertura nominal (1 − )100% normalmente es alcanzada.
Es necesario aclarar la interpretación del intervalo (3.9) y el significado de los términos
que aún no se han definido. Desde el punto de vista del muestreo repetido, significa que
del total de muestras posibles de tamaño 𝑛, aproximadamente 100(1 − 𝛼)% de ellas
producirá intervalos del tipo (3.9) que cubren el valor del parámetro, y que en 100𝛼%
dará intervalos que no cubren el valor del parámetro. Nótese que cuando calculamos:
𝑦̅0 − 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅ y 𝑦̅0 + 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅
80
𝑦̅0 indica el valor de la media muestral obtenido con la muestra específica. Asimismo,
implícitamente se acepta un error de 100𝛼%, esto es, que el valor del parámetro no esté
entre tales límites. El número 𝑡(𝑛−1,1−𝛼/2) representa el valor de una variable t-Student
con (𝑛 − 1) grados de libertad y que deja del lado izquierdo de la curva una probabilidad
de 1 − 𝛼/2. Este valor se obtiene de la distribución t-Student.
Es necesario mencionar que cuando el tamaño de la muestra es grande, digamos
mayor de 30, los valores de 𝑡 son muy similares a los de una variable aleatoria con
distribución normal estándar, por esta razón es común utilizar los valores de 𝑍1−𝛼/2 de la
variable normal estándar en lugar de los valores 𝑡(𝑛−1,1−𝛼/2) .
Intervalo de confianza para la estimación del total
𝜏̂ ± 𝑡(𝑛−1,1− 𝛼/2) 𝑆𝜏̂
donde 𝜏̂ = 𝑁𝑦̅, 𝑆𝜏̂ = √𝑁 2
𝑆 2𝑦 𝑁−𝑛
𝑛
𝑁
(3.10)
𝑆 2 𝑁−𝑛
= 𝑁√ 𝑛𝑦
𝑁
El intervalo de confianza es la referencia de mayor importancia para los resultados de un
muestreo. La anchura del intervalo nos indica la precisión que se ha logrado en la
estimación del parámetro de interés. Por supuesto, siempre es deseable un intervalo con
poca anchura, cuya amplitud depende del nivel de confiabilidad y del error estándar del
estimador. Si deseamos mayor confiabilidad, el intervalo tendría que ampliarse como
resultado de una 𝑡 más grande, pero habrá menor precisión.
Por otro lado, el error estándar depende de la variabilidad de la población y del
tamaño de la muestra. El tamaño de la muestra es el factor que podemos manipular para
lograr una precisión deseada, ya que la varianza de 𝑦̅, y por lo tanto el error estándar, es
cero cuando el tamaño de la muestra es igual al de la población.
Tamaño de la muestra para estimar la media bajo población infinita
81
Determinar el tamaño de muestra es uno de los problemas importantes al que debe
enfrentarse el usuario del muestreo. En la determinación de 𝑛 se debe considerar tanto el
aspecto teórico como el práctico. Por un lado es necesario identificar el parámetro que se
debe estimar, el esquema de muestreo a utilizar, la elección del estimador y las
especificaciones del mismo. Por otro lado el aspecto práctico tiene gran influencia en la
decisión del tamaño de muestra a usar, ya que deben tomarse en cuenta factores como el
dinero y tiempo disponibles, el objetivo del estudio, la cantidad de información que se
captará, el personal especializado, el tipo y la calidad de los materiales, los instrumentos
para las mediciones, etcétera.
A continuación se presentará un procedimiento para calcular un tamaño de muestra
para estimar la media poblacional bajo el enfoque AIPE.
La cantidad agregada y sustraída al promedio (𝑦̅) muestral es 𝐷 = 𝑊/2 =
𝑡(𝑛−1,1− 𝛼/2) √𝑉(𝑦̅) y por lo tanto, la amplitud del IC es igual a:
𝑆2
𝑊 = 2𝑡(𝑛−1,1− 𝛼/2) √ 𝑛
(3.11)
El grado de precisión del IC puede ser concebido como 𝑊 o 𝐷 = 𝑊/2, y es el valor de
mayor importancia dentro del enfoque AIPE. El valor de 𝑊 o 𝐷 puede ser fijado a priori
por el investigador de acuerdo al grado de precisión deseado para la estimación del
parámetro de interés. Por lo tanto, para determinar el tamaño de muestra 𝑛, para una
amplitud deseada 𝜔 = 2𝑑, 𝑛 debe resolverse de la ecuación 3.11 haciendo (𝐷 = 𝑑) o (𝑊 =
𝜔). Usando cualquiera de las dos opciones: (𝐷 = 𝑑) o (𝑊 = 𝜔), el valor de 𝑛 que se
obtendrá será el mismo debido a que 𝐷 = 𝑊/2 y 𝑑 = 𝜔/2. La ecuación (3.11) utiliza la
relación de precisión y confiabilidad de la declaración (2.1), en este caso el parámetro 𝜃 =
𝑌̅, mientras que 𝑑 y (1 − 𝛼) indican, respectivamente, la precisión y confiabilidad fijadas
de antemano por el investigador. Por lo tanto, fijando
la precisión esperada 𝑑 e
ignorando el factor de corrección por población finita (𝑁 − 𝑛)/𝑁 en la varianza del
promedio, se resuelve la ecuación (3.11) en términos de 𝑛, (𝐷 = 𝑑) lo cual produce el
siguiente tamaño de muestra:
82
𝑛=
2
2
𝑡(𝑛−1,1−
𝛼/2) 𝑆
𝑑2
(3.12)
Es importante resaltar que 𝑑 representa la mitad de la amplitud del intervalo de
confianza. Por lo tanto, en términos de la amplitud completa del intervalo de confianza,
la fórmula es igual a: 𝑛 =
2
2
4𝑡(𝑛−1,1−
𝛼/2) 𝑆
𝜔2
. Para determinar el tamaño de muestra, esta
ecuación asume varianza (𝜎 2 ) conocida, razón por la cual se reemplaza 𝜎 2 por 𝑆 2 .
Además, para resolver la ecuación (3.12), si no se cuenta con una muestra piloto, también
se sustituye 𝑡(𝑛−1,1− 𝛼/2) por 𝑍1−𝛼/2 . Sin embargo, en la práctica, el valor verdadero de 𝜎 2
es desconocido, por ello éste es reemplazado por la varianza muestral 𝑆 2 . Aunque la
ecuación (3.12) proporciona el tamaño de muestra para estimar el promedio de acuerdo
a una precisión 𝑑 deseada, este tamaño no es garantía para alcanzar tal precisión para
una confiabilidad fija (véase el Cuadro 3.1).
Esta varianza muestral (𝑆 2 ) será calculada con base en una muestra preliminar de
tamaño 𝑛′, la cual sólo será de utilidad para calcular el tamaño de muestra definitivo,
pero no para el proceso de cálculo de estimaciones por intervalo. El tamaño de muestra
preliminar 𝑛′ se determina de manera arbitraria, pero dependerá de los recursos
económicos y humanos disponibles, así como del tiempo y las condiciones físicas y
administrativas del estudio. Está claro que a medida que se incremente 𝑛′ la estimación
de la varianza poblacional será mejor. En caso de no realizar una encuesta piloto para la
estimación de la varianza, se proponen las dos siguientes alternativas:
Especificar el valor aproximado de la varianza con base en experiencia de estudios
anteriores.
Especificar el valor aproximado de la varianza mediante el conocimiento que se
tenga sobre la forma de la distribución y el rango de variación de los valores de la
variable bajo estudio. La Figura A.1 del Apéndice presenta fórmulas sencillas de
las varianzas de distribuciones a partir de la forma y el rango de variación de la
variable estudiada.
83
En el Cuadro A.1 se presentan fórmulas sencillas de las varianzas de distribuciones a
partir de la forma y el rango de variación de la variable estudiada. Deming (1966) y Kish
(1950) presentan cuadros similares.
Como en la ecuación 3.12 se utiliza una estimación de 𝜎 2 , la amplitud del IC, 𝑊, es
una variable aleatoria que varía entre muestras, esto trae como consecuencia que
aproximadamente 50% de las muestras produzcan IC más grandes que 𝜔 = 2𝑑 (véase el
Cuadro 3.1). Por esta razón, a continuación se presenta un procedimiento para
determinar el tamaño de muestra óptimo, tomando en cuenta la variabilidad de la
varianza muestral 𝑆 2 .
Tamaño de muestra óptimo
El tamaño de muestra óptimo 𝑛 se define como el número entero más pequeño 𝑛𝑚 tal
que
𝑆2
√
𝑃 {𝐷 = 𝑡(𝑛𝑚 −1,1−𝛼/2)
≤ 𝑑} ≥ 𝛾;
𝑛𝑚
equivalentemente,
(𝑛𝑚 − 1)𝑆 2 𝑛𝑚 (𝑛𝑚 − 1)𝑑2
𝑃{
≤ 2 2
} ≥ 𝛾.
𝜎2
𝜎 𝑡(𝑛𝑚 −1,1−𝛼/2)
Note que
es decir,
(𝑛𝑚 −1)𝑆 2
𝜎2
(𝑛𝑚 −1)𝑆 2
𝜎2
(𝑛𝑚 −1)𝑆 2
𝜎2
= 𝜒𝑛2𝑚 −1 tiene distribución Ji-Cuadrada con 𝑛𝑚 − 1 grados de libertad,
tiene distribución gamma con parámetros 𝛼 =
𝑛𝑚 −1
2
y 𝛽 = 2. Si
= 𝐺𝑎((𝑛𝑚 − 1)/2,2), entonces
𝜎 2 𝑡𝑛2𝑚 −1,1−𝛼/2
𝐺𝑎((𝑛𝑚 − 1)/2,2)
(𝑛𝑚 − 1)𝑑 2
84
(3.13)
(3.14)
tiene distribución gamma con parámetros 𝜎 ∗ =
𝑛𝑚 −1
2
y 𝛽∗ =
2
2𝜎2 𝑡(𝑛
𝑚 −1,1−𝛼/2)
(𝑛𝑚 −1)𝑑2
1.
La ecuación (3.13) es equivalente a:
2
𝜎 2 𝑡(𝑛
𝑚 −1,1−𝛼/2)
𝑃{
𝐺𝑎((𝑛𝑚 − 1)/2,2) ≤ 𝑛𝑚 } ≥ 𝛾
(𝑛𝑚 − 1)𝑑2
(3.15)
Por lo tanto, usando (3.15) y (3.17), el tamaño de muestra óptimo 𝑛𝑚 para lograr la
precisión deseada al estimar el promedio, es el entero más pequeño 𝑛𝑚 tal que:
𝑛𝑚 ≥ 𝐺𝑎 −1 (𝛾;
2
(𝑛𝑚 −1) 2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2)
2
,
(𝑛𝑚 −1)𝑑2
),
(3.16)
donde 𝐺𝑎−1 es el 100𝛾 cuantil de la distribución Gamma con parámetros 𝛼 ∗ =
𝛽∗ =
2
2𝜎2 𝑡(𝑛
𝑚 −1,1−𝛼/2)
(𝑛𝑚 −1)𝑑2
(𝑛𝑚 −1)
2
y
, 𝑡(𝑛𝑚 −1,1−𝛼/2) es el percentil 100(1 − 𝛼/2) la distribución t-Student
con 𝑛𝑚 − 1 grados de libertad, 𝛾 es la probabilidad de que la amplitud del intervalo de
confianza para 𝑌̅ no sea más amplio que 𝜔 = 2𝑑, 𝜎 2 es la varianza poblacional y 𝑑 es la
precisión deseada para estimar el promedio.
La ecuación (3.16) proporciona el tamaño de muestra mínimo 𝑛𝑚 que garantiza que la
amplitud del IC 𝑊 sea menor o igual a la precisión deseada 𝜔 = 2𝑑 con una probabilidad
de al menos 𝛾. A diferencia de la ecuación (3.12), la ecuación (3.16) considera la naturaleza
estocástica de la variable aleatoria 𝑆 2 . Sin embargo, como 𝑛𝑚 está en ambos lados de la
ecuación (3.16), es necesario usar un procedimiento iterativo para resolver esta ecuación
en términos de 𝑛𝑚 .
El tamaño de muestra proporcionado en la ecuación (3.12) está basado en una
estimación de 𝜎 2 debido a que esta es desconocida, lo que provoca que el nivel de
aseguramiento de 𝛾 sea de alrededor de 50%. Note, además, que para un 𝑛𝑚 dado, la
1
𝛼
Si 𝜒 es una variable aleatoria que tiene distribución Gamma con parámetros 𝑎, 𝑏, entonces 𝑋 tiene distribución
𝛽
Gamma con parámetros 𝑎,
85
𝛼𝑏
𝛽
.
ecuación (3.16) determina la probabilidad de que 𝑃(𝑊 ≤ 𝜔 = 2𝑑) = 𝛾, donde 𝑊 es la
amplitud del IC. A continuación se presenta un ejemplo para mostrar el grado de
subestimación que se origina por utilizar la ecuación (3.14) en la determinación del
tamaño de muestra 𝑛.
Cuadro 3.1. Tamaños de muestra, determinados con la ecuación (3.12), para estimar
promedios poblacionales, con la correspondiente probabilidad de que la mitad de la
amplitud del IC 𝐷 sea menor que la especificada 𝑑 = 10 y con 95% de confiabilidad.
𝑃(𝐷 ≤ 𝑑) es la probabilidad de que la mitad de la amplitud especificada del IC 𝐷 sea
menor que el valor especificado 𝑑 = 10. 𝑃(𝐷 < 𝑑) se calcula con la ecuación (3.15). Los
incrementos son 𝑛𝑚10 = 𝑛 + 10, 𝑛𝑚25 = 𝑛 + 25, y 𝑛𝑚50 = 𝑛 + 50.
𝝈
𝒏
𝑷(𝑫 ≤ 𝒅)
𝒏𝒎𝟏𝟎
𝑷(𝑫 ≤ 𝒅)
𝒏𝒎𝟐𝟓
𝑷(𝑫 ≤ 𝒅)
𝒏𝒎𝟓𝟎
𝑷(𝑫 ≤ 𝒅)
40
62
0.455
72
0.791
87
0.988
112
1.000
50
97
0.477
107
0.750
122
0.965
147
1.000
60
139
0.475
149
0.707
164
0.930
189
0.999
70
189
0.480
199
0.680
214
0.897
239
0.996
80
246
0.471
256
0.648
271
0.858
296
0.988
90
312
0.485
322
0.643
337
0.836
362
0.978
100
385
0.487
395
0.629
410
0.810
435
0.965
110
465
0.479
475
0.609
490
0.781
515
0.947
120
554
0.489
564
0.608
579
0.767
604
0.933
130
650
0.489
660
0.599
675
0.749
700
0.916
El ejemplo del Cuadro 3.1 es hecho con diversos valores para la desviación estándar
(𝜎). En este mismo ejemplo, para cada tamaño de muestra se calcula la probabilidad de
que la mitad de la amplitud del IC, 𝐷, sea menor que la amplitud deseada 𝑑 = 10.
Observe que el tamaño de muestra requerido para estimar el promedio poblacional,
calculado a partir de la ecuación (3.12), da como resultado una probabilidad alrededor
de 0.50 de que la mitad del IC 𝐷 sea menor o igual a la especificada 𝑑 = 10 (véanse las
columnas dos y tres del Cuadro 3.1). Por ejemplo, con 𝜎 = 50 el tamaño de
muestra obtenido con la ecuación (3.12) es 𝑛 = 97 elementos y 𝑃(𝐷 < 10) = 0.477. Con
𝜎 = 80, 𝑛 = 246, pero sólo el 47.1% de las veces la mitad de los intervalos de confianza
serán menores o iguales a 𝑑 = 10.
86
Cuando el tamaño de la muestra se incrementa en diez, (𝑛𝑚10 , Columna 4, Cuadro 3.1),
la 𝑃(𝐷 ≤ 𝑑 = 10) también se incrementa. Por ejemplo, con 𝜎 = 50 y 𝑛 = 107,
𝑃(𝐷 < 10) = 0.750; y con 𝑛 = 122, con un incremento de 25, 𝑃(𝐷 < 10) = 0.965. Por lo
tanto, los resultados del Cuadro 3.1 muestran que para obtener 𝑃(𝐷 ≤ 𝑑) = 10 con una
alta probabilidad de éxito, se requiere un tamaño de muestra más grande que los
proporcionados por la fórmula tradicional, Ecuación 3.12.
El alto grado de subestimación que se muestra en el Cuadro 3.1 es de esperarse, porque
aproximadamente en la mitad de las muestras 𝑆 2 será más grande que 𝜎 2 , y
consecuentemente, debido a que la amplitud del IC, 𝑊; depende de 𝑆 2 , 𝑊 será más
grande que el valor especificado 𝜔 = 2𝑑 aproximadamente en 50% del total de muestras.
Sin embargo, el valor deseado de 𝑊 es el valor predeterminado 𝜔 = 2𝑑. Por lo tanto, si
se usa la ecuación (3.14) para determinar el tamaño de muestra, la probabilidad de que
la amplitud del IC sea menor que la amplitud deseada 𝜔 = 2𝑑 es alrededor de 0.5, es
decir 𝑃(𝑊 ≤ 𝜔) ≥ 𝛾 ≈ 0.5.
Aproximación del tamaño de muestra
Un inconveniente al calcular 𝑛𝑚 , en la ecuación (3.16), es que no tiene una forma cerrada,
requiriéndose de un procedimiento iterativo para obtener su valor exacto. Sin embargo,
si en la parte derecha de la ecuación (3.16) se considera 𝑛𝑚 = 𝑛, donde 𝑛 =
2
𝑡(𝑛−1,1−𝛼/2)
𝑆2
𝑑2
,
entonces la ecuación (3.16) tiene una solución cerrada en términos de 𝑛𝑚 . En este caso 𝑛𝑚
es:
𝑛𝑚 = 𝐺𝑎
−1
2
(𝑛 − 1) 2𝜎 2 𝑡(𝑛−1,1−
𝛼/2)
(𝛾;
,
).
2
(𝑛 − 1)𝑑
2
(3.17)
La ecuación (3.17) es equivalente a:
𝜎𝑡(𝑛−1,1− 𝛼/2) 2 χ2(𝑛−1,𝛾)
𝑛𝑚 = (
) (
),
𝑑
𝑛−1
87
(3.18)
2
donde 𝜒(𝑛−1,𝛾)
es el percentil 100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de
libertad y 𝑡(𝑛−1,1− 𝛼/2) es el percentil 100(1 − 𝛼/2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas
de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión
significativa, en la ecuación (3.18), el valor 𝑡(𝑛−1,1− 𝛼/2) puede sustituirse por el cuantil 1 −
𝛼/2 de la distribución normal estándar, 𝑍1−𝛼/2 .
Función de densidad de probabilidades del tamaño de muestra para estimar el
promedio
En los resultados presentados en el Cuadro 3.1 columna 2 (calculados con ecuación 3.12)
no se considera la naturaleza estocástica del IC. Esto provoca un problema serio de
subestimación en el tamaño de muestra, 𝑛, e induciendo a que no se logre la precisión
deseada 𝑑. Ante este problema, el tamaño de muestra 𝑛 =
2
2
𝑡(𝑛−1,1−
𝛼/2) 𝑆
𝑑2
, expuesta en la
ecuación (3.12), es considerado como una variable aleatoria porque está basado en una
2
estimación de 𝜎 , es decir, 𝑛̂ =
2
2
𝑡(𝑛−1,1−
𝛼/2) 𝑆
𝑑2
. Utilizando un procedimiento similar al usado
para obtener la ecuación (3.16) se tiene que:
2
2
𝑛 − 1 2𝑡(𝑛−1,1−
𝛼/2) 𝜎
𝑛̂~𝐺𝑎 (
,
)
(𝑛 − 1)𝑑 2
2
∗
con parámetros 𝛼 =
𝑛−1
2
∗
y 𝛽 =
2
2
2𝑡(𝑛−1,1−
𝛼/2) 𝜎
(𝑛−1)𝑑2
, donde 𝑛 es el valor proporcionado por la
ecuación (3.12). La media 𝐸(𝑛̂), varianza 𝑉(𝑛̂), moda
curtosis 𝐸𝑘 de 𝑛̂ son 𝐸(𝑛̂) = 𝛼 ∗ 𝛽 ∗ =
𝑛−3 𝑡(𝑛−1,1−𝛼/2) 𝜎 2
𝑀𝑜 = (𝛼 ∗ − 1)𝛽 ∗ = 𝑛−1 (
𝑑
2
2
𝑡(𝑛−1,1−
𝛼/2) 𝜎
) , 𝑘𝑠 =
(3.19)
𝑑2
2
√𝛼∗
=
Mo ,
coeficiente de simetría 𝑠𝑘 y
2
𝑡(𝑛−1,1− 𝛼/2) 𝜎 4
, 𝑉(𝑛̂) = 𝛼 ∗ 𝛽 ∗2 = (𝑛−1) (
(2)3/2
√𝑛−1
y
Ek 
) ,
𝑑
6

*

12
,
n 1
respectivamente.
Es decir, si se desea un tamaño de muestra 𝑛𝑚 , que garantice con una probabilidad
dada 𝛾, para obtener una amplitud del IC para 𝑌̅ con una amplitud menor o igual a la
deseada 𝑑, entonces se debe obtener el percentil 100𝛾 de la distribución de 𝑛̂, dada en la
ecuación (3.19).
88
La Figura 3.1 muestra la función de densidad de probabilidad (fdp) del tamaño de
muestra (𝑛) con parámetros 𝜎 = 60, IC de 95% de confiabilidad y cinco valores de
precisión: 𝑑 = 5, 6, 7, 8 y 9, los cuales arrojan los tamaños de muestra siguientes: 𝑛 =
554, 385, 283, 217 y 171, respectivamente.
Los resultados muestran que si la varianza es constante y la confiabilidad es de 95%, a
mayor precisión deseada (𝑑), se requieren tamaños de muestra mayores, 𝑛 =
554, 385, 283, 217 y 171, y la fdp presenta mayor variabilidad (Figura 3.1; Cuadro 3.2,
columna 8). Sin embargo, no existe una diferencia significativa en el parámetro de escala
𝛽 ∗ en estas cinco fdp (Cuadro 3.2, columna 6), lo cual implica que las diferencias
encontradas en la varianza 𝑉(𝑛̂) (columna 8, Cuadro 3.2) se deben principalmente al
parámetro de forma 𝛼 ∗ (Cuadro 3.2, columna 4). Esto muestra que los tamaños de
muestra 𝑛 de las fdp con menor precisión, valores 𝑑 más grandes, son más confiables que
los proporcionados para mayor precisión, valores 𝑑 más pequeños. Esto también se
corrobora en el valor de la curtosis, donde las amplitudes deseadas más grandes
presentan mayor valor (Cuadro 3.2, columna 10 y Figura 3.1).
Por otro lado, la media de cada fdp es igual al tamaño de muestra 𝑛 calculado con la
ecuación (3.12), lo que indica que el tamaño de muestra que proporciona la ecuación
(3.12) en realidad es la media de la fdp de 𝑛̂, razón por la cual 𝑃(𝑛̂ ≤ 𝑛) ≈ 0.5. Además, la
pdf de 𝑛̂ es asimétrica porque es una v.a. gamma, observándose (Cuadro 3.2, columna
9) que a menor precisión (valores más grandes de 𝑑) más asimétrica es su distribución.
Cuadro 3.2. Propiedades de la fdp de 𝑛̂, donde 𝜎 = 60, IC de 95% de confiabilidad, y 𝑑 =
5, 6, 7, 8 y 9, los cuales arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171.
Coeficiente de
fdp
𝒅
𝒏
𝜶∗
𝒕𝒏−𝟏,𝟏−𝜶/𝟐
𝜷∗
Media
Varianza
fdp 1
5
554
276.5
1.964
2.009
555.599
1116.422
0.120
0.022
fdp 2
6
385
192
1.966
2.013
386.579
778.350
0.144
0.031
fdp 3
7
283
141
1.968
2.019
284.668
574.722
0.168
0.043
fdp 4
8
217
108
1.971
2.023
218.524
442.155
0.192
0.056
fdp 5
9
171
85
1.974
2.038
173.189
352.874
0.217
0.071
89
simetría
Curtosis
Figura 3.1. Fdp de 𝑛̂, con 𝜎 = 60, IC con 95% de confiabilidad, y 𝑑 = 5, 6, 7, 8 y 9, los cuales
arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171.
Con los resultados anteriores se entiende mejor el por qué los tamaños de muestra que
proporciona la ecuación (3.12) producen una subestimación grave en el tamaño de
muestra. Se observa en la Figura 3.1 y el Cuadro 3.2 que el tamaño de muestra 𝑛 que
arroja la ecuación (3.12) es el valor esperado de la fdp de 𝑛̂, por ello solo garantiza una
probabilidad alrededor de 0.5 de que la amplitud del IC resultante sea menor a la
amplitud fijada a priori 𝜔.
Comparación de los métodos propuestos
En el Cuadro 3.3 se presenta la comparación de la solución aproximada (Ecuación 3.18)
y exacta (Ecuación 3.16) para el cálculo del tamaño de muestra, con un IC de 95% de
confiabilidad, 𝑑 = 10, 15, 20 y 25, 𝛾 = 0.8, 0.9 y 0.99 y 𝜎 de 30 a 110 con incrementos de
10. En el Cuadro 3.3 se aprecia que para 𝛾 = 0.8, en las 36 combinaciones producto de los
cuatro valores de 𝑑 y las nueve desviaciones estándar 𝜎, los tamaños de muestra
aproximados son prácticamente iguales a los exactos. En la mayoría de los casos el
método aproximado es mayor en una unidad. Sin embargo, al aumentar 𝛾 se incrementan
las discrepancias entre ambos métodos. Por ejemplo, con 𝛾 = 0.9, el método aproximado
90
cuenta con tres unidades más, prácticamente para todas las combinaciones, que el
tamaño de muestra requerido por el método exacto; mientras que para 𝛾 = 0.99, el
método aproximado tiene seis unidades más, prácticamente para todas las
combinaciones, que el tamaño de muestra requerido para el método exacto.
Cuadro 3.3. Comparación de los tamaños de muestra, solución aproximada
(𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 ) y exacta (𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 ). IC de 95% de confiabilidad, 𝑑 = 10, 15, 20 y 25 𝛾 =
0.8, 0.9 y 0.99. 𝜎 es la desviación estándar poblacional, y 𝛾 es la probabilidad de que el IC
para el promedio 𝑊 no sea mayor que la amplitud deseada 2𝑑.
𝜎
𝑑
10
15
𝑑
20
25
10
15
𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.8
25
𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.8
30
45
24
17
14
44
22
14
11
40
74
37
24
18
73
36
22
16
50
111
54
33
24
110
53
32
22
60
155
74
45
31
154
73
44
30
70
208
98
58
40
207
97
57
39
80
267
125
74
50
267
124
73
49
90
335
155
91
61
334
154
90
60
100
410
189
111
74
410
188
110
73
110
493
227
132
88
493
226
131
87
𝑔𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.9
𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.9
30
50
28
20
18
47
24
16
12
40
80
41
28
22
77
39
24
17
50
118
59
37
28
116
56
35
24
60
163
80
50
35
161
77
47
33
70
217
104
64
44
215
102
61
42
80
278
132
80
55
276
130
77
53
90
347
163
98
67
345
161
96
64
100
423
198
118
80
421
196
116
77
110
507
236
140
94
506
234
138
92
𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.99
91
20
𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.99
30
62
38
31
29
55
29
20
15
40
94
53
38
32
88
46
29
21
50
135
72
48
38
129
65
41
29
60
184
94
62
46
178
88
55
39
70
240
121
77
56
234
115
71
49
80
304
150
94
68
298
144
88
61
90
376
184
114
81
370
178
108
74
100
455
220
135
94
449
214
129
88
110
542
260
158
110
536
255
152
104
Tamaño de la muestra para estimar la media bajo población finita
En la sección anterior se derivaron expresiones para determinar el tamaño de muestra
para estimar el promedio, pero bajo una población infinita, es decir sin tomar en cuenta
el factor de corrección por población finita (𝑁 − 𝑛)/𝑁. A continuación se presentan las
expresiones para determinar el tamaño de muestra para estimar el promedio asumiendo
una población finita. Sin nivel de aseguramiento la fórmula para el tamaño de muestra
es igual a
𝑛=
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
2
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
(3.22)
donde: 𝑛 es el tamaño de muestra para estimar la media poblacional, 𝑌̅. El tamaño de
muestra obtenido con la ecuación 3.20 es una muestra estimada porque no se conoce la
varianza poblacional (𝜎 2 ) y en su lugar se utiliza su estimador correspondiente (𝑆 2 ), que
es igual a: 𝑆 2 = [∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 ]/(𝑛 − 1). 𝑁 es el tamaño de la población, el cual es un valor
conocido. 𝑡(𝑛−1,1−𝛼⁄2) es el valor de una variable aleatoria t-Student o normal estándar
que tiene a la izquierda de la curva una probabilidad de 1 − 𝛼/2. Este valor se conoce al
fijar la confiabilidad deseada. 𝑑 es la mitad de la amplitud del IC deseado (la precisión),
el cual es un valor conocido y establecido por el investigador. 𝑆 2 es la varianza muestral.
Este valor se obtiene con los datos de una muestra preliminar de tamaño 𝑛′. Este tamaño
de muestra solo garantiza una probabilidad de alrededor de 50% de que se cumpla la
amplitud deseada del IC. El tamaño de muestra que garantiza precisión en la estimación
de la media es igual a:
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼
𝑆
(
∗
⁄2)
𝑛 −1 )
𝑁𝑑 2
92
+
𝜒2 ∗
2
2 ( (𝛾,𝑛 −1) )
𝑡(𝑛−1,1−𝛼
𝑆
⁄2)
𝑛∗ − 1
(3.21)
donde 𝑛 es el tamaño de muestra obtenido con la ecuación 3.22, 𝛾 es la probabilidad de
2
que el IC para el promedio no sea mayor que la amplitud deseada, 𝜒(𝛾,𝑛
∗ −1) es el cuantil
100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de libertad y 𝑡(𝑛−1,1−𝛼⁄2) es el
percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los
cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones tStudent y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, en la ecuación
3.21, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución
normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 3.1. HP produce semanalmente 𝑁 = 1,000 impresoras, de las cuales el gerente
de calidad seleccionó al azar una muestra 𝑛 = 10 impresoras. La información sobre el
número de fallas encontradas en cada una de las impresoras se muestra a continuación:
6, 7, 9, 8, 5, 4, 7, 8, 7 y 6.
a) Estimación puntual del promedio de fallas por impresora.
∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
6+7+9+8+5+4+7+8+7+6
𝑦̅ =
= 6.7
10
b) Varianza muestral del número de fallas (𝑆 2 ).
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2
𝑆 =
𝑛−1
2
𝑆2 =
62 + 72 + ⋯ + 72 + 62 − 10(6.7)2
= 2.2333
9
c) Varianza y desviación estándar de la media muestral de las fallas.
93
𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = (
)( )
𝑁
𝑛
1,000 − 10 2.2333
𝑆𝑦2̅ = (
)(
) = 0.221
1,000
10
𝑆𝑦̅ = √𝑆𝑦2̅ = √0.221 = 0.4702
d) IC del promedio de fallas por impresora con una confiabilidad de 95%.
𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
donde: 𝑦̅ = 6.7, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262
Por lo tanto:
6.7 ± (2.262)(0.4702)
6.7 ± 1.0634
5.6366 ≤ 𝜇 ≤ 7.7634
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de fallas por impresora está entre 5.6366 y 7.7634.
e) Estimación puntual del total de fallas.
𝜏̂ = 𝑁𝑦̅ = (1,000)(6.7) = 6,700
f) IC del total de fallas con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
donde: 𝜏̂ = 6,700, 𝑁 = 1,000, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262
Por lo tanto:
94
6,700 ± (1,000)(2.262)(0.4702)
6,700 ± 1,063.4
5,636.6 ≤ 𝜏 ≤ 7,763.4
Es decir, con 95% de confianza se estima que el total de fallas en la población está entre
5,636.6 y 7,763.4.
g) Ahora si se supone que las impresoras seleccionadas son una muestra preliminar de
tamaño 𝑛 = 10. El tamaño de muestra necesario para estimar el promedio de fallas de
tal manera que el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅) y
una confiabilidad de 95% es:
𝑛∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333 y 𝑦̅ = 6.7.
Como el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo 7%
del promedio preliminar (𝑦̅ = 6.7). Es decir, 𝑑 = (0.07)(6.7) = 0.469.
Por lo tanto:
𝑛∗ =
(1, 000)(2.262)2 (2.2333)
= 49.38 = 50
(1,000)(0.469)2 + (2.262)2 (2.2333)
Entonces, 𝑛∗ = 50 es el número estimado de unidades muestrales (impresoras) para
que la muestra tenga una precisión de ±0.469 fallas con 0.05 de probabilidad de no
incluir en el IC de estimación al promedio verdadero. Es decir, 𝑛∗ impresoras es el
tamaño de muestra definitivo y todos los parámetros se deben estimar tomando en
cuenta dicho tamaño de muestra. El muestreo piloto únicamente es útil para verificar
si el cuestionario funciona bien al momento de aplicarlo, corroborar que el marco de
95
muestreo esté correcto y obtener una estimación de la varianza. Si en el muestreo
piloto se encuentra que todo funciona correctamente, ya no se miden todas las
unidades muestrales del tamaño de muestra definitivo (𝑛∗), sino solamente las
faltantes (𝑛∗ − 𝑛) para completarlo, pues se utilizan las de la muestra piloto (𝑛). En
este ejemplo solamente se seleccionarían 40 impresoras al azar de la población porque
𝑛 = 10.
h) El tamaño de muestra necesario para estimar el promedio de fallas de tal manera que
el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅), una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 99%.
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝑛𝑚 =
𝑁𝑑2
+
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333,
2
2
𝜒(𝛾,𝑛
∗ −1) = 𝜒(0.99,49.38−1) = 74.1529 y 𝑑 = (0.07)(6.7) = 0.469.
Por lo tanto:
𝑛𝑚 =
74.1529
1, 000(2.262)2 (2.2333) (49.38 − 1)
74.1529
1,000(0.469)2 + (2.262)2 (2.2333) (49.38 − 1)
=
17,514.3709
= 73.7524 = 74
237.475371
Es importante mencionar que la 𝑛𝑚 estimada es el tamaño de muestra definitivo y
más exacto, por lo que sólo faltará medir las unidades muestrales restantes
considerando las que ya se midieron. Esto procede siempre y cuando el muestreo
piloto sea considerado apropiado.
Ejemplo 3.2. Una investigadora seleccionó una muestra de 𝑛 = 15 estudiantes de una
universidad, cuya población es de 𝑁 = 420 estudiantes, y les pregunta su gasto semanal
en pesos. Los datos son: 120, 150, 100, 80, 100, 90, 60, 70, 90, 100, 50, 90, 80, 65 y 110.
96
a) Estimación puntual del gasto semanal promedio por estudiante.
∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
120 + 150 + 100 + ⋯ + 65 + 110
𝑦̅ =
= 90.3333
15
b) Varianza muestral para el gasto (𝑆 2 ).
𝑆2 =
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2
𝑛−1
𝑆2 =
1202 + 1502 + 1002 … + 652 + 1102 − (15)(90.3333)2
= 637.381
15 − 1
c) Varianza y desviación estándar de la media muestral para el gasto.
𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = (
)( )
𝑁
𝑛
420 − 15 637.381
𝑆𝑦2̅ = (
)(
) = 40.9745
420
15
𝑆𝑦̅ = √𝑆𝑦2̅ = √40.9745 = 6.4011
d) Intervalo de confianza del gasto promedio por estudiante.
𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
donde: 𝑦̅ = 90.3333, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145
Por lo tanto:
90.3333 ± (2.145)(6.4011)
90.3333 ± 13.7304
76.6029 ≤ 𝜇 ≤ 104.0637
97
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del gasto
promedio por estudiante está entre 76.6029 y 104.0637.
e) Estimación puntual del gasto total de los estudiantes.
𝜏̂ = 𝑁𝑦̅ = (420)(90.3333) = 37,940 pesos
f) IC del gasto total de los estudiantes con 95% de confianza.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
donde: 𝜏̂ = 37,940, 𝑁 = 420, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145
Por lo tanto:
37,940 ± (420)(2.145)(6.4011)
37,940 ± 5,766.751
32,137.249 ≤ 𝜏 ≤ 43,706.751
Es decir, el gasto total de los estudiantes estaría entre 32,137.249 y 43,706.751.
g) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño 𝑛 =
15. ¿Cuál es el tamaño de muestra necesario para estimar el promedio por estudiante,
de tal manera que el promedio tenga una precisión de ±6 pesos y una confiabilidad
de 95%?
𝑛∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑆
donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381 y 𝑑 = 6.
Por lo tanto:
98
𝑛∗ =
(420)(2.145)2 (637.381)
= 68.2281 = 69
(420)(6)2 + (2.145)2 (637.381)
Entonces, 69 son las unidades muestrales necesarias para tener una precisión de ±6
pesos con 0.95 de probabilidad de incluir en el intervalo de estimación al promedio
verdadero. En otras palabras, se deben seleccionar aleatoriamente 𝑛∗ = 69 estudiantes,
lo que garantiza que se cumplirá con una precisión especificada (𝑑 = 6 pesos) para el
promedio con una probabilidad de 0.95.
h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio por estudiante,
de tal manera que el promedio tenga una precisión de ±6 pesos, una confiabilidad de
95% y un nivel de aseguramiento (𝛾) de 99%?
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝜒2 ∗
2
2 ( (𝛾,𝑛 −1) )
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑆
⁄2)
𝑛∗ − 1
donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381,
2
2
𝜒(𝛾,𝑛
∗ −1) = 𝜒(0.99,68.2281−1) = 97.1017 y 𝑑 = 6.
Por lo tanto:
𝑛𝑚 =
97.1017
420(2.145)2 (637.381) (68.2281 − 1)
97.1017
420(6)2 + (2.145)2 (637.381) (68.2281 − 1)
=
1,779,012.471
= 91.9113 = 92.
19,355.74398
EJERCICIOS
En los ejercicios siguientes estime el IC para el promedio y el total con una confiabilidad
de 95%. Además, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra
para estimar el promedio, con una precisión del 5% de la media, una confiabilidad de
95% y un nivel de aseguramiento (γ) de 90%?
99
Ejercicio 3.1. Una empacadora de mango produce por hora 𝑁 = 1,000 rejas. Cada reja
tiene 100 mangos y el gerente de calidad seleccionó una muestra de 𝑛 = 15 rejas. La
información sobre el número de mangos dañados por reja se presenta a continuación: 4,
5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4 y 5.
Ejercicio 3.2. La Secretaría de Deportes del estado de Yucatán desea estimar los alumnos
a nivel bachillerato de la Universidad Autónoma de Yucatán (UAdY) que tienen buena
condición física, para que formen parte de la selección. Hay 𝑁 = 500 grupos y en
promedio cada grupo tiene 40 alumnos. Aleatoriamente se seleccionaron nueve grupos
que hicieron las pruebas necesarias. La información obtenida de los alumnos
seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12 y 10 (alumnos por grupo que tienen
condición física adecuada).
Ejercicio 3.3. Cada hora una exportadora de limón acondiciona 𝑁 = 1,800 limones. Se
desea saber si el limón cumple con las especificaciones de tamaño, y para ello se toma
una muestra aleatoria de 15 limones para medirlos. Los resultados son los siguientes: 3.2,
4.8, 4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6 y 5.9.
Ejercicio 3.4. La Secretaría de Turismo del estado de Michoacán desea estimar la cantidad
de personas de Jalisco que visitan al estado diariamente. En la caseta GuadalajaraMichoacán ingresan por día 𝑁 = 700 vehículos en promedio. Se seleccionan 20 vehículos
aleatoriamente y en cada uno se revisa la cantidad de personas que vienen en interior del
vehículo. Los resultados son los siguientes: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6 y
5.
3.4 Estimación de parámetros de interés para proporción bajo MAS
Estimación de una proporción poblacional
Otra tarea que suele ser de interés al estudiar una población es la determinación de la
proporción 𝑃 o 𝜋 de las unidades muestrales que pertenecen a dos grupos posibles. Por
100
ejemplo, para conocer la proporción de personas analfabetas de una población que apoya
a cierto partido político o iniciativa gubernamental, de estudiantes de la Facultad de
Telemática que tienen computadora portátil, de individuos de la ciudad de Colima que
creen en Dios, etcétera. Todos estos ejemplos tienen dos opciones de respuesta: sí o no.
Por lo tanto, para calcular dicha proporción se hace la suma de todas las respuestas
afirmativas (sí) y se divide sobre el total de respuestas (sí y no), porque sólo se
consideraron dos grupos posibles. En ocasiones son más de dos grupos a los que pueden
pertenecer las unidades muestrales; este caso no lo consideraremos aquí, pero aun así se
podría analizar si se considera que una unidad muestral pertenece o no a uno de los
grupos.
Esta aplicación también se conoce como muestreo por atributos, donde cada unidad de
muestreo tiene la posibilidad de pertenecer a un grupo si posee el atributo
correspondiente.
La medición
La medición consiste en determinar si la unidad de muestreo tiene el atributo para
pertenecer a la proporción que se desea conocer. Para muchos atributos tal determinación
puede ser sencilla; por ejemplo, pertenecer a cierta marca si se tiene un conjunto de 𝑁
computadoras. A veces es difícil determinar el atributo, por ejemplo, calificar a un
paciente como enfermo o no pues el estado de salud es una condición en la que se
presenta una gradualidad desde sano hasta enfermo. Es decir, el MAS para proporciones
no considera los estados intermedios, por lo que debe establecerse un criterio unívoco
que permita calificar al paciente como sano o enfermo solamente, o en su caso tomar en
cuenta la sensibilidad y especificidad de la prueba diagnóstica.
El estimador de la proporción poblacional 𝑷 y su relación con el estimador de una
media poblacional
Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y
que solamente puede tomar los valores de cero o uno. De esta manera podremos usar las
101
fórmulas de los apartados anteriores, aunque conviene adecuar la simbología. Para esto,
sea 𝑃𝑦 la proporción de la población de uno de los dos grupos que posee el atributo
evaluado en 𝑌. La proporción de la población, 𝑃𝑌 , está definida por la siguiente expresión:
𝑃𝑌 = 𝑃 =
∑𝑁
𝐴
𝑖=1 𝑦𝑖
=
𝑁
𝑁
donde 𝐴 es el número de unidades de la población que posee el atributo. Está claro
que ∑ 𝑦𝑖 es igual a 𝐴, ya que si la unidad de muestreo tiene el atributo de interés aporta
un valor de uno y si no la tiene aporta un valor de cero.
Si se realiza un muestreo, se entiende que no se puede tener acceso a todas las 𝑁
unidades de la población sino solamente a las 𝑛 de la muestra. Con ésta definimos un
estimador de la proporción de la población, simbolizado por 𝑃̂ = 𝑝 y definido por la
expresión:
𝑃̂𝑦 = 𝑝 =
∑𝑛𝑖=1 𝑦𝑖 𝑎
=
𝑛
𝑛
(3.22)
De igual manera que la definición del parámetro, 𝑎 = ∑ 𝑦𝑖 representa el número de
unidades de la muestra que tienen el atributo de interés. El complemento de 𝑃 es 𝑄 =
(1 − 𝑃) en el caso de la población y de la muestra es 𝑞 = (1 − 𝑝) , es decir, 𝑞 es un
estimador de 𝑄.
La varianza de la población para una proporción
Ahora bien, definamos la varianza de la población usando las mismas expresiones que
en el caso de una variable continua:
𝜎 2𝑌 = 𝜎 2 =
2
2
2
∑𝑁
∑𝑁
𝑖=1(𝑦𝑖 − 𝜇)
𝑖=1 𝑦 𝑖 − 𝑁𝜇
=
𝑁−1
𝑁−1
(3.23)
2
Como la variable sólo toma valores de cero o uno, entonces ∑𝑁
𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 Así,
haciendo la sustitución en (3.23) tenemos que:
102
𝑁𝑃−𝑁𝑃2 𝑁𝑃(1 − 𝑃)
𝑁𝑃𝑄
𝜎 =
=
=
𝑁−1
𝑁−1
𝑁−1
2
(3.24)
2
La expresión ∑𝑁
𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 en (3.24) representa el número de unidades en la
población que tiene el atributo que se desea evaluar.
Naturalmente, por ser el caso de un muestreo necesitamos un estimador de dicho
parámetro, que se define por la expresión:
(∑𝑛𝑖=1 𝑦𝑖 )2
𝑎
𝑎2
𝑛
2
𝑛
2
∑
𝑎 (1 − 𝑛)
𝑦
−
𝑎
−
∑
(𝑦
−
𝑦
̅)
𝑛𝑝𝑞
𝑖=1
𝑖
𝑖
𝑖=1
𝑛
𝑛
𝑠 2𝑦 =
=
=
=
=
𝑛−1
𝑛−1
𝑛−1
𝑛−1
𝑛−1
(3.25)
donde 𝑎 = ∑𝑛𝑖=1 𝑦𝑖 (3.25) representa el número de unidades en la muestra que tiene el
atributo que se desea evaluar.
En la práctica es común considerar que 𝑛 − 1 es aproximadamente igual a 𝑛, con lo
cual la expresión más usada para calcular la varianza muestral es: 𝑆 2𝑦 = 𝑝𝑞.
Estimación de la varianza y el error estándar
Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua.
Existen otros procedimientos que se conocen como aproximación y que usan la
distribución normal, ello implica una corrección que hemos omitido por su poca
trascendencia práctica. Así se tiene que 𝑝 se distribuye aproximadamente normal con los
siguientes parámetros.
Media y varianza del estimador de 𝑷
𝐸[𝑃̂] = 𝐸[𝑝] = 𝑃
𝑆 2𝑝 = (
103
𝑁 − 𝑛 𝑆 2𝑦
𝑁 − 𝑛 𝑝𝑞
)( ) = (
)( )
𝑁
𝑛
𝑁
𝑛
En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce como
error estándar del estimador de la proporción.
Usando nuevamente el Teorema Central del Límite, 𝑝 tiene aproximadamente una
distribución normal con media 𝑃 (estimada por 𝑝) y una varianza 𝜎 2𝑝 (estimada por 𝑆 2𝑝 ).
Total poblacional y varianza del estimador de 𝝉
𝜏̂ = 𝑁𝑝
𝑁 − 𝑛 𝑆 2𝑦
𝑁 − 𝑛 𝑝𝑞
𝑆𝜏̂ = 𝑁 (
) ( ) = 𝑁2 (
)( )
𝑁
𝑛
𝑁
𝑛
2
La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del
estimador del total.
Los intervalos de confianza
Con el mismo procedimiento que el del caso de una variable continua obtenemos las
expresiones para los intervalos de confianza.
El intervalo de confianza para la estimación de la proporción poblacional
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
donde 𝑆𝑝 =
𝑁−𝑛
𝑁
𝑝𝑞
𝑛
.
El intervalo de confianza para la estimación del total poblacional
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
104
donde 𝑆𝑝 =
𝑁−𝑛
𝑁
𝑝𝑞
𝑛
.
Varianza acotada de una proporción
Las expresiones de 𝜎 2𝑦 y de 𝑠 2𝑝 incluyen el producto 𝑃𝑄 o 𝑝𝑞 que condiciona al tamaño de
la varianza dado el tamaño de la población y la muestra. La varianza de la población y
del estimador son máximas cuando 𝑃 o 𝑝 son iguales a 0.5, que sucede cuando el
producto 𝑃𝑄 = 0.25. Esta propiedad se puede emplear para suponer una varianza
máxima antes de realizar el muestreo (𝑝 = 0.5) y los resultados finales siempre serán
iguales o más precisos que los esperados. En otras palabras, en el MAS para una
proporción, cuando no se dispone del tiempo y de recursos para realizar un muestreo
piloto que sirva para corroborar el marco de muestreo, el cuestionario y los problemas
relacionados con el personal para levantar la encuesta y para estimar la varianza (𝑆 2 =
𝑝𝑞), se supone una varianza máxima (𝑆 2 = 𝑝𝑞 = (0.5)(0.5) = 0.25) para determinar el
tamaño de muestra máximo (conservador). Este método sólo debe usarse cuando se
tenga un marco de muestreo confiable, un cuestionario validado y encuestadores
experimentados.
Tamaño de muestra bajo población infinita
El cálculo del tamaño de muestra efectivo (𝑛) que asegura intervalos de confianza cortos
se realizará bajo el enfoque AIPE, asumiendo una prueba perfecta y homogeneidad en la
población. El Estimador de Máxima Verosimilitud (EMV) de una proporción binomial
(pruebas individuales) asumiendo una prueba perfecta, como se mencionó, es 𝑝̂ = 𝑦/𝑛,
donde 𝑦 es el número de éxitos observados en la muestra de tamaño 𝑛. De acuerdo con
Vollset (1993) and Newcombe (1998), su correspondiente IC de Wald es
𝑝𝐿 = 𝑝̂ − 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛
(3.26)
𝑝𝑈 = 𝑝̂ + 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛
105
donde 𝑉(𝑝̂ ) = 𝑝̂ (1 − 𝑝̂ ), 𝑍1−𝛼/2 es el cuantil 1 − 𝛼/2 de una distribución normal estándar,
𝑝̂ es el EMV (𝑝̂ = 𝑦/𝑛) de 𝑝. Este IC es fácil de calcular y permite derivar fórmulas de
tamaño de muestra cerradas. Sin embargo, cuando 𝑛 y 𝑝 son pequeños, este IC a menudo
produce límites negativos. Además, la probabilidad de cobertura de este IC algunas veces
es menor que 100(1 − 𝛼)%.
La cantidad añadida y substraída a la proporción observada (𝑝̂ ) en la ecuación (3.26)
se define como 𝑊/2. Los límites de confianza superior e inferior son determinados por
𝑑 = 𝑊/2, la anchura media del intervalo de confianza (𝑊 es la anchura total del intervalo
de confianza). El grado de precisión del intervalo de confianza puede ser conceptualizado
como 𝑊 o 𝑑, siendo el valor de mayor interés dentro del marco AIPE. Como se verá, el
valor de 𝑊 (o 𝑑) puede ser establecido a priori por el investigador de acuerdo con la
precisión deseada del parámetro estimado. La anchura total del IC (ecuación 3.26) se
𝑉(𝑝̂)
puede expresar de la siguiente manera: 𝑊 = 2𝑍1−𝛼/2 √
𝑛
. Esto implica que la mitad de
la anchura sea igual a:
𝑉(𝑝̂ )
𝐷 = 𝑍1−𝛼/2 √
𝑛
(3.27)
Para estimar el tamaño de la muestra necesario para la proporción (𝑝) para una
amplitud del IC deseada, 𝑛 debe obtenerse de la ecuación (3.27) (hacer 𝐷 = 𝑑), arrojando
la siguiente expresión:
𝑛𝑝 =
2
𝑍1−𝛼/2
𝑝̂ (1 − 𝑝̂ )
𝑑2
(3.28)
La ecuación (3.29) aparece en la mayoría de los libros de muestreo estadístico
(Cochran, 1977)
y actualmente es utilizada para obtener el número requerido de
individuos para estimar 𝑝 bajo MAS. El mayor inconveniente de la ecuación (3.28) es que
supone conocido el valor verdadero de 𝑉(𝑝), por ello en la ecuación (3.28) esta es
reemplazada por la varianza poblacional 𝑉(𝑝). La fórmula (ecuación 3.28) encuentra el
tamaño de muestra necesario para lograr una amplitud del IC (𝐷) suficientemente
106
estrecha para estimar la proporción de 𝑃. Sin embargo, el estimador no garantiza que la
amplitud observada (𝐷) de cualquier IC sea lo suficientemente estrecha porque se utiliza
una estimación de 𝑉(𝑝). En realidad, la amplitud del IC, 𝐷, es una variable aleatoria que
fluctúa de muestra a muestra. Se ha mostrado que alrededor del 50% de las veces el valor
observado 𝐷 es menor o igual a 𝑑 (Montesinos-López, Montesinos-López, Crossa,
Eskridge, & Hernández-Suárez, 2010). Por esta razón en la siguiente sección se propone
un método de muestreo que asegura con una probabilidad alta de que la amplitud del
intervalo de confianza sea corta.
Derivación del tamaño de muestra óptimo
𝑉(𝑝̂)
La amplitud del IC para 𝑝 es 𝐷 = 𝑍1−𝛼/2 √
𝑛
y 𝐷 debe ser menor o igual que un valor
determinado (𝑑), con una probabilidad (𝛾). Por lo tanto, el tamaño de muestra óptimo se
define como el valor entero más pequeño (𝑛𝑚 ) tal que
𝑃{𝐷 ≤ 𝑑} ≥ 𝛾
𝑃 {𝑍1−𝛼/2 √
𝑝̂ (1 − 𝑝̂ )
≤ 𝑑} ≥ 𝛾
𝑛𝑚
(3.29)
Dado que la distribución de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ) = √𝑝̂ (1 − 𝑝̂ ) es desconocida, no es posible
obtener una solución analítica para 𝑛𝑚 . Una alternativa es utilizar el método delta para
obtener la distribución asintótica de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ). Se sabe qué 𝑝̂ = 𝑦/𝑛 y 𝑝̂ ∼̇ 𝑁 (𝑝, 𝜎 2 =
𝑝(1−𝑝)
𝑛𝑚
). Note que 𝜎 2 ⟶ 0, si 𝑛𝑚 ⟶ ∞, ℎ(𝑥)=√𝑥(1 − 𝑥) es diferenciable con respecto a 𝑥 ∈
(0,1) y ℎ′ (𝑝) =
1−2𝑝
2√𝑝(1−𝑝)
≠ 0 para 𝑝 ≠ 1/2 . Por lo tanto, utilizando el método delta,
2
ℎ(𝑝̂ ) ∼̇ 𝑁 (ℎ(𝑝), (ℎ′ (𝑝)) 𝜎 2 ), es decir,
√ pˆ (1  pˆ ) ∼̇ 𝑁 (√𝑝(1 − 𝑝),
107
(1 − 2𝑝)2
)
4𝑛𝑚
donde ℎ(𝑝)=√𝑝(1 − 𝑝), ℎ′ (𝑝) =
1−2𝑝
. Por lo tanto, la ecuación (3.29) puede
2√𝑝(1−𝑝)
reescribirse como:
√ pˆ (1  pˆ )
𝑃(𝑊 ≤ 𝜔) = 𝑃
𝑑 √𝑛𝑚
𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
(1 − 2𝑝)2
√
4𝑛𝑚
(
𝑑
𝑍1−𝛼/2
≤
(1 − 2𝑝)2
√
4𝑛𝑚
(
𝑃(𝑊 ≤ 𝜔) ≈ 𝑃 𝑍 ≤
− √𝑝(1 − 𝑝)
𝑑 √𝑛𝑚
𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
(1 − 2𝑝)2
√
4𝑛𝑚
≈𝛾⇔
|1 − 2𝑝|𝑍𝛾
2
)
𝑑 √𝑛𝑚
𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
(1 − 2𝑝)2
√
4𝑛𝑚
)
𝑛𝑚 − √𝑝(1 − 𝑝)√𝑛𝑚 −
= 𝛾⇔
≈ 𝑍𝛾 ⇔
≈0
(3.30)
Note que la Ecuación (3.30) tiene una forma cuadrática: 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, con 𝑥 = √𝑛𝑚 ,
𝑎=𝑍
𝑑
1−
𝛼
2
, 𝑏 = −√𝑝(1 − 𝑝), y 𝑐 = −
Utilizando 𝑥 =
−𝑏+√𝑏2 −4𝑎𝑐
2𝑎
|1−2𝑝|𝑍𝛾
2
, con dos soluciones dadas por 𝑥 =
−𝑏±√𝑏 2 −4𝑎𝑐
2𝑎
.
para un valor fijo de 𝑑, el tamaño de muestra requerido es:
2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) +
𝑍1−𝛼/2
𝑛𝑚 =
2𝑑
𝑍1−𝛼/2
(
)
2
2
𝑍1−
𝛼 (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) +
2
𝑛𝑚 =
2𝑑|1 − 2𝑝|𝑍𝛾
)
𝑍1−𝛼/2
4𝑑2
2
𝑛𝑚 =
108
𝑛𝑝
2𝑑|1 − 2𝑝|𝑍𝛾
[1 + √1 +
]
4
𝑍1−𝛼/2 𝑝(1 − 𝑝)
(3.31)
donde 𝑛𝑝 es el tamaño de muestra preliminar (ecuación 3.28) sin nivel de aseguramiento
(𝛾 = 0.5). 𝛾 representa el grado deseado de seguridad (probabilidad requerida) para
lograr una amplitud del IC (𝑊) que no supere al valor deseado (𝜔), 𝑍𝛾 es el cuantil 𝛾 de
la distribución normal estándar. Note que si 𝛾 = 0.5, 𝑍𝛾 = 0 porque corresponde al
cuantil 50% de una distribución normal estándar y esto provoca que la ecuación (3.31)
se reduzca a la ecuación (3.28), la cual proporciona el número requerido de unidades,
asumiendo varianza conocida 𝑉(𝑝̂ ), pero esto implica que la amplitud deseada se logre
solamente alrededor del 50% de las veces. La ecuación (3.31) garantiza que 𝐷 será menor
o igual a 𝑑 con una probabilidad 𝛾. En otras palabras, sólo 100(1 − 𝛾)% de las veces 𝐷
será mayor que la amplitud deseada (𝑑). Hay que dejar claro que los tamaños de muestra
derivados anteriormente son para poblaciones infinitas, a continuación se presenta la
contraparte para población finita. El lector interesado en más detalles para estimar el
tamaño de muestra para una proporción puede consultar Montesino-López et al. (2012).
El tamaño de muestra para estimar 𝒑 en poblaciones finitas
El tamaño de muestra para estimar una proporción bajo población finita sin nivel de
aseguramiento es
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
Mientras su contraparte con nivel de aseguramiento 𝛾 ≥ 0.5 es igual a
2
2𝑑|1 − 2𝑝|𝑍𝛾
1
2
𝑁𝑡(𝑛−1,1−𝛼/2)
(4) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑡
)
(𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 =
2
2𝑑|1 − 2𝑝|𝑍𝛾
1
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2)
( ) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) +
)
4
𝑡(𝑛−1,1−𝛼/2)
Esta ecuación es equivalente a:
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
109
2
2𝑑|1−2𝑝|𝑍𝛾
√𝑝𝑞+√𝑝𝑞+𝑡
(𝑛−1,1−𝛼/2)
donde 𝑛𝑚 =
y 𝑞 = 1 − 𝑝.
2𝑑
𝑡(𝑛−1,1−𝛼/2)
(
)
EJEMPLOS
Ejemplo 3.3 Con la finalidad de estimar la proporción de estudiantes que fuman en una
universidad, cuya población es de 𝑁 = 430 estudiantes, se seleccionó una muestra
aleatoria de 𝑛 = 80 estudiantes. Si la muestra indica que 30 de los estudiantes
seleccionados fuman, calcular lo que se solicita.
a) Proporción verdadera de los estudiantes que fuman.
∑𝑛𝑖=1 𝑦𝑖 𝑎 30
𝑝=
= =
= 0.375 ó 37.5% de estudiantes fumadores.
𝑛
𝑛 80
𝑞 = 1 − 𝑝 = 1 − 0.375 = 0.625 ó 62.5% de estudiantes no fumadores.
b) Desviación estándar de la proporción muestral (𝑆𝑝 ).
𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √(
)( )
𝑁
𝑛
donde: 𝑁 = 430, 𝑛 = 80, 𝑝 = 0.375 y 𝑞 = 0.625. Por lo tanto:
430 − 80 (0.375)(0.625)
𝑆𝑝 = √(
)(
) = √(0.8139)(0.0029) = 0.0488.
430
80
c) IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
110
donde: 𝑝 = 0.375, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.375 ± (1.96)(0.0488)
0.375 ± 0.09565
0.2793 ≤ 𝑃 ≤ 0.4707
Con 95% de confianza se estima que la proporción verdadera de estudiantes que
fuman está entre 0.2793 y 0.4707, es decir, entre 27.93 y 47.07%.
d) Total verdadero de estudiantes que fuman en la universidad.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 430 y 𝑝 = 0.375. Por lo tanto: 𝜏̂ = (430)(0.375) = 161.25.
e) IC del total verdadero de estudiantes que fuman, con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
donde: 𝜏̂ = 161.25, 𝑁 = 430, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
161.25 ± (430)(1.96)(0.0488)
161.25 ± 41.1295
120.0938 ≤ 𝜏 ≤ 202.4062
Con 95% de confianza se estima que el total de estudiantes que fuman está entre
120.0938 y 202.4062.
f) Si 𝑛 = 80 estudiantes es una muestra preliminar, el tamaño de muestra para estimar
111
la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝) y
una confiabilidad de 95% es:
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde: 𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.375, 𝑞 = 0.625. Como
el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo el 10% de
la proporción preliminar (𝑝),. es decir, 𝑑 = (0.1)(0.375) = 0.0375.
Por lo tanto:
𝑛∗ =
(430)(1.96)2 (0.375)(0.625)
= 257.2393 = 258.
(430)(0.0375)2 + (1.96)2 (0.375)(0.625)
g) Calcular el tamaño de muestra para estimar la proporción verdadera con una
precisión del 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%.
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
(𝑛−1,1−𝛼/2)
𝑛𝑚 =
2𝑑
𝑡(𝑛−1,1−𝛼/2)
(
)
donde:𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,
𝑝 = 0.375, 𝑞 = 0.625, 𝑍𝛾 = 2.3263 y 𝑑 = (0.10)(0.375) = 0.0375.
Primeramente se calcula el tamaño de la muestra suponiendo una población infinita:
2
112
√0.375 (0.625) + √0.375 (0.625) + 2(0.0375)|1 − 2(0.375 )|(2.3263)
1.96
𝑛𝑚 =
2(0.0375)
1.96
(
)
0.484123 + √0.234375 + 0.022254
𝑛𝑚 = (
0.038265
2
0.484123 + 0.506586
) =(
0.038265
2
) = 670.330193
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:
430
𝑛𝑚𝐹 = 670.330193 (
) = 261.9595 = 262 estudiantes..
430 + 670.330193
Ejemplo 3.4. Un ingeniero es responsable de un centro de cómputo con 𝑁 = 2,000
computadoras. Por descuido algunas computadoras se infectaron con el virus XXX. Con
la finalidad de estimar la proporción de computadoras afectadas, se seleccionó una
muestra aleatoria de 𝑛 = 50 computadoras, de las cuales sólo 22 computadoras tuvieron
dicho virus. A continuación calcule lo que se pide.
a) Proporción verdadera de computadoras infectadas.
𝑝=
∑𝑛𝑖=1 𝑦𝑖 𝑎 22
= =
= 0.44 ó 44% infectadas.
𝑛
𝑛 50
𝑞 = 1 − 𝑝 = 1 − 0.44 = 0.56 ó 56% limpias.
b) Desviación estándar de la proporción muestral (𝑆𝑝 ).
𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √(
)( )
𝑁
𝑛
donde: 𝑁 = 2,000, 𝑛 = 50, 𝑝 = 0.44 y 𝑞 = 0.56.
Por lo tanto:
2,000 − 50 (0.44)(0.56)
𝑆𝑝 = √(
)(
) = √(0.975)(0.0049) = 0.0693.
2,000
50
c) IC de 95% para la proporción verdadera.
113
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
donde: 𝑝 = 0.44, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.44 ± (1.96)(0.0693)
0.44 ± 0.1358
0.3041 ≤ 𝑃 ≤ 0.5759
Con 95% de confianza se estima que la proporción verdadera de computadoras
infectadas en la población está entre 0.3041 y 0.5759, es decir, entre 30.41 y 57.59%.
d) Total verdadero de computadoras infectadas.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 2,000 y 𝑝 = 0.44.
Por lo tanto:
𝜏̂ = (2,000)(0.44) = 880
e) Intervalo del total verdadero de computadoras infectadas en la población con una
confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
donde: 𝜏̂ = 880, 𝑁 = 2,000, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
114
880 ± (2,000)(1.96)(0.0693)
880 ± 271.6
608.2787 ≤ 𝜏 ≤ 1,151.7213
Con 95% de confianza, se estima que el total de computadoras infectadas por el virus
XXX, está entre 608.2787 y 1,151.7213.
f) Suponga que 𝑛 = 50 computadoras es una muestra preliminar. Por lo tanto, ¿Cuál es
el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.07
y una confiabilidad de 95%?
𝑛∗ =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56 y 𝑑 = 0.07.
Por lo tanto:
𝑛∗ =
(2,000)(1.96)2 (0.44)(0.56)
1,893.1404
=
= 176.1618 = 177
2
2
(2,000)(0.07) + (1.96) (0.44)(0.56)
10.7466
g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una
precisión de 0.07, una confiabilidad de 95% y un nivel de aseguramiento (γ) de 90%?
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
(𝑛−1,1−𝛼/2)
𝑛𝑚 =
2𝑑
𝑡(𝑛−1,1−𝛼/2)
(
)
donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56, 𝑍𝛾 = 1.2816
y 𝑑 = 0.07.
Primero se calcula el tamaño de la muestra para una población infinita.
115
2(0.07)|1 − 2(0.44)|(1.2816)
√0.44 (0.56 ) + √0.44 (0.56) +
1.96
𝑛𝑚 =
2(0.07)
1.96
(
)
2
2
0.496387 + √0.2464 + 0.010985
𝑛𝑚 = (
)
0.071429
0.484123 + 0.507331 2
𝑛𝑚 = (
) = 197.457895
0.071429
Finalmente se obtiene el tamaño de la muestra para una población finita.
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
)
𝑁 + 𝑛𝑚
Por lo tanto:
2,000
𝑛𝑚𝐹 = 197.457895 (
)
2,000 + 197.457895
𝑛𝑚𝐹 = 179.7148 = 180.
EJERCICIOS
En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(𝛾) del 80%?
Ejercicio 3.5. Con la finalidad de saber si la sociedad veracruzana (𝑁 = 10,000) está de
acuerdo con la reforma de Pemex, se encuestó a 𝑛 = 150 personas tomadas al azar. Los
resultados arrojaron que 35 personas estuvieron de acuerdo.
Ejercicio 3.6. La dirección de la Facultad de Economía realizó una encuesta en la ciudad
de Monterrey para saber si las personas conocían el perfil de egreso de los licenciados en
116
Economía. Se aplicó la encuesta a 𝑛 = 100 personas tomadas al azar de un total de 𝑁 =
10,000. La encuesta arrojó que 15 personas conocían el perfil de egreso.
Ejercicio 3.7. La Secretaría de Salud del estado de Michoacán desea encuestar a 𝑛 = 5,000
personas seleccionadas aleatoriamente de una población de 𝑁 = 567,996 para saber si la
población michoacana conoce los productos transgénicos. Los resultados muestran que
1,570 personas conocen los productos transgénicos.
Ejercicio 3.8. Se aplicó una encuesta para saber cuántas personas de la ciudad de México
utilizan tarjetas bancarias. La ciudad de México tiene 𝑁 = 6,500 personas y la encuesta
se realizó a 𝑛 = 1,000 personas tomadas al azar. Los resultados arrojaron que 925
personas utilizaban tarjeta bancaria.
3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS
Estimación de una proporción poblacional con pruebas imperfectas (𝑺𝒆 y 𝑺𝒑 menores
a uno)
En muchas circunstancias para la clasificación de los elementos o individuos de la
muestra se requiere de una prueba de laboratorio o algún dispositivo especializado. En
estos casos la mayoría de las veces el proceso de clasificación no es perfecto ya que las
pruebas clasifican elementos positivos como negativos (tasa de falsos negativos) o
negativos como positivos (tasas de falsos positivos). Es decir, las pruebas o métodos de
clasificación son imperfectos y para realizar estimaciones más precisas es necesario tomar
en cuenta la sensibilidad y especificidad de las pruebas de laboratorio. La sensibilidad
(𝑆𝑒) se define como la probabilidad de clasificar correctamente a un individuo que se
sabe de antemano que es positivo (tiene la enfermedad o característica de interés) como
positivo. Mientras que la especificidad (𝑆𝑝) se define como la probabilidad de clasificar
correctamente un individuo que se sabe que es negativo (está libre de la enfermedad)
como negativo. Por supuesto que al tomar en cuenta la sensibilidad y especificidad los
117
estimadores de la proporción, los IC y el tamaño de muestra son distintos. A continuación
se presentan los estimadores apropiados.
De acuerdo con Rogan (1978) el estimador de la proporción tomando en cuenta la
sensibilidad y especificidad de la prueba es:
𝑝∗ =
𝑝 + 𝑆𝑝 − 1
,
𝑆𝑒 + 𝑆𝑝 − 1
𝑞 ∗ = 1 − 𝑝∗
(3.32)
donde 𝑝 = 𝑎/𝑛 𝑞 = 1 − 𝑝. 𝑎 denota el número de individuos positivos en la muestra de
tamaño 𝑛. 𝑆𝑒y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de laboratorio.
Además, note que si (𝑆𝑒 = 𝑆𝑝 = 1), la ecuación (3.32) se reduce a la ecuación (3.22). El
estimador 𝑝∗ de 𝑝 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝 son conocidas, pero el sesgo es
mayor si estas son desconocidas, es decir, si se usa una estimación de ellas, pero aún bajo
este escenario las estimaciones resultantes son aceptables. Por ello, en este libro se
asumen que 𝑆𝑒 y 𝑆𝑝 son conocidas. Bajo este contexto un estimador de la varianza de 𝑝∗
esta dado por:
𝑆𝑝2∗ = (
𝑁−𝑛
1
𝑝𝑞
)(
)
(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛
𝑁
(3.33)
Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑝∗ = √𝑆𝑝2∗ . Por
otro lado, un intervalo de confianza para 𝑝 esta dado por 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ . Finalmente,
la fórmula para determinar el tamaño de muestra con población finita es igual a:
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑞
(3.34)
Sin embargo, es necesario resaltar que la fórmula anterior (𝑛∗ ) garantiza que la
amplitud del intervalo de confianza se cumpla solamente 50% de las veces. Por ello a
continuación se brinda la expresión apropiada para determinar el tamaño de muestra
que asegura precisión en la estimación de la proporción. Primero se proporciona la
118
expresión para una población infinita (𝑛𝑚 ) y en seguida se ajusta para una población
finita (𝑛𝑚𝐹 ).
2
√𝑝𝑞 + √𝑝𝑞 +
𝑛𝑚 =
2𝑑|1 − 2𝑝|𝑍𝛾
𝑡(𝑛−1,1−𝛼/2)
(
2𝑑
1
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
((3.35)
𝑡(𝑛−1,1−𝛼/2)
(
)
donde 𝑑 es la mitad de la amplitud absoluta deseada del IC (precisión deseada)y 𝑍𝛾 es el
cuantil 𝛾 de una distribución normal estándar. Finalmente, el tamaño de muestra que
garantiza precisión en la estimación de la proporción para una población finita es igual
a:
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
)
𝑁 + 𝑛m
donde 𝑛𝑚 se calcula con la expresión 3.35.
EJEMPLOS
Ejemplo 3.5. Con el objetivo de estimar la proporción de estudiantes que tienen dengue
en la Facultad de Psicología de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 580 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) y especificidad (𝑆𝑝) son de 0.96 y 0.98, respectivamente. Los resultados arrojaron
que 80 de los estudiantes seleccionados tienen dengue. Calcular lo siguiente:
a) La proporción verdadera de los estudiantes con dengue.
𝑎
, 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝∗ = 𝑛
, 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1
𝑝=
119
donde: 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑎 = 80 y 𝑛 = 150.
Por lo tanto:
𝑝=
80
= 0.5333 = 53.33%
150
𝑞 = 1 − 𝑝 = 0.4667 = 46.67%
𝑝∗ =
80
150
+ 0.98 − 1
0.513333
=
= 0.5461 = 54.61%
0.96 + 0.98 − 1
0.94
𝑞 ∗ = 1 − 0.5461 = 0.4539 = 45.39%
b) La varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los estudiantes.
𝑆𝑝2∗ = (
𝑁−𝑛
1
𝑝𝑞
)(
)
2
(𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
𝑁
donde: 𝑁 = 580, 𝑛 = 150, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑝 = 0.5333 y 𝑞 = 0.4667.
Por lo tanto:
𝑆𝑝2∗ =
(0.5333)(0.4667)
580 − 150
1
(
)
2
(0.96 + 0.98 − 1)
580
150
𝑆𝑝2∗ = (0.74138)(1.131734)(0.001659)
𝑆𝑝2∗ = 0.001392 y la desviación estándar: 𝑆𝑝∗ = √𝑆𝑝2∗ = √0.001392 = 0.037309
c) IC de 95% para la proporción verdadera.
𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗
donde: 𝑝∗ = 0.5461, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.037309.
Por lo tanto:
120
0.5461 ± (1.96)(0.037309)
0.5461 ± 0.073126
0.472974 ≤ P ≤ 0.619226
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
estudiantes con dengue está entre 0.472974 y 0.619226.
d) El total de estudiantes con dengue en la Facultad de Psicología.
𝜏̂ = 𝑁𝑝∗
donde: 𝑁 = 580 y 𝑝∗ = 0.5461.
Por lo tanto:
𝜏̂ = (580)(0.5461) = 316.738
e) Calcule un IC del total verdadero de estudiantes con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗
donde: 𝜏̂ = 316.738, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 580 y 𝑆𝑝∗ = 0.037309.
Por lo tanto:
316.738 ± (580)(1.96)(0.037309)
316.738 ± 42.412871
274.3251 ≤ 𝜏 ≤ 359.1508
Es decir, con 95% de confianza se estima que el total de estudiantes está entre 274.3251
y 359.1508.
121
f) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real
para estimar la proporción verdadera con una precisión del 10% de la proporción
preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96 y una
especificidad del 0.98, es:
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667,
𝑑 = 0.10(𝑝∗ ) = 0.10(0.5461) = 0.05461, 𝑆𝑒 = 0.96 y 𝑆𝑝 = 0.98.
Por lo tanto:
580(1.96)2 (0.5333)(0.4667)
𝑛 =
580(0.05461)2 (0.96 + 0.98 − 1)2 + (1.96)2 (0.5333)(0.4667)
∗
𝑛∗ =
554.5612511
= 223.2076 = 224 estudiantes
2.484508502
g) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real
para estimar la proporción verdadera con una precisión del 10% de la proporción
preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96, una especificidad
del 0.98 y un nivel de aseguramiento (𝛾) de 0.99, es:
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
) ,,
𝑁 + 𝑛𝑚
√𝑝𝑞 + √𝑝𝑞 +
𝑛𝑚 =
2𝑑|1 − 2𝑝|𝑍𝛾
𝑡(𝑛−1,1−𝛼/2)
(
2𝑑
𝑡(𝑛−1,1−𝛼/2)
(
1
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
)
donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667,
∗
𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98 y 𝑑 = 0.10(𝑝 ) = 0.10(0.5461) = 0.05461.
Primeramente se determina el tamaño de la muestra suponiendo una población
122
infinita:
2
𝑛𝑚
√0.5333(0.4667) + √0.5333(0.4667) + 2(0.05461)|1 − 2(0.5333)|2.3263
1
1.96
=
(
)
(0.96
+
0.98
− 1)2
2(0.05461)
1.96
(
)
2
0.49889 + √0.248891 + 0.008633
1
𝑛𝑚 = (
)
) (
0.8836
0.055724
2
0.49889 + 0.507468
1
𝑛𝑚 = (
) = 369.117582
) (
0.8836
0.055724
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:
580
𝑛𝑚𝐹 = 369.117582 (
) = 225.5655 = 226 estudiantes.
580 + 369.117582
Ejemplo 3.6. La Secretaría de Salud de la ciudad de Quito Ecuador desea estimar la
proporción de personas que tienen influenza H1N1 en uno de sus hospitales. El hospital
elegido tiene 𝑁 = 1,300 pacientes, de los cuales se seleccionó una muestra aleatoria de
𝑛 = 400. A cada paciente se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒)
es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 𝑎 = 320 de los
pacientes seleccionados tienen influenza H1N1. Calcular lo siguiente:
a) Proporción verdadera de los pacientes que tienen influenza H1N1, con sensibilidad
del 97% y especificidad del 98%.
𝑎
, 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
∗
𝑝 = 𝑛
, 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1
𝑝=
donde: 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑎 = 320 y 𝑛 = 400
Por lo tanto:
123
𝑝=
320
= 0.8 = 80%
400
𝑞 = 1 − 𝑝 = 0.2 = 20%
∗
𝑝 =
320
400
+ 0.98 − 1
0.78
=
= 0.8211 = 82.11%
0.97 + 0.98 − 1 0.95
𝑞 ∗ = 1 − 0.8211 = 0.1789 = 17.89%.
b) Varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los pacientes.
𝑆𝑝2∗ = (
𝑁−𝑛
1
𝑝𝑞
)(
)
2
(𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
𝑁
donde: 𝑁 = 1,300, 𝑛 = 400, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑝 = 0.8 y 𝑞 = 0.2.
Por lo tanto:
𝑆𝑝2∗ =
(0.8)(0.2)
1,300 − 400
1
(
)
2
(0.97 + 0.98 − 1)
1,300
400
𝑆𝑝2∗ = (0.692308)(1.108033)(0.0004) = 0.000307
𝑆𝑝∗ = √𝑆𝑝2∗ = √0.000307 = 0.017521.
c) IC de 95% para la proporción verdadera.
𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗
donde: 𝑝∗ = 0.8211, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.017521.
Por lo tanto:
0.8211 ± (1.96)(0.017521)
0.8211 ± 0.034341
0.786759 ≤ 𝑃 ≤ 0.855441
124
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
pacientes con influenza H1N1 está entre 0.786759 y 0.855441.
d) Total de pacientes con influenza H1N1 en el hospital de Quito.
𝜏̂ = 𝑁𝑝∗ = (1,300)(0.8211) = 1067.43
e) IC del total verdadero de pacientes con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗
donde: 𝜏̂ = 1067.43, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,300 y 𝑆𝑝∗ = 0.017521.
Por lo tanto:
1067.43 ± (1,300)(1.96)(0.017521)
1067.43 ± 44.643508
1022.786492 ≤ 𝜏 ≤ 1112.073508
Es decir, con 95% de confianza se estima que el total de pacientes está entre 1,022.7865
y 1,112.0735.
f) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de
muestra real para estimar la proporción verdadera con una precisión de 0.03 y una
confiabilidad del 95%, cuando la especificidad es de 0.98 y la sensibilidad de 0.97%?
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2,
𝑑 = 0.03, 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98.
125
Por lo tanto:
1,300(1.96)2 (0.8)(0.2)
𝑛 =
1,300(0.03)2 (0.97 + 0.98 − 1)2 + (1.96)2 (0.8)(0.2)
∗
𝑛∗ =
799.0528
1.6706
𝑛∗ = 478.3029 = 479 pacientes.
g) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de
muestra real para estimar la proporción verdadera con una precisión de 0.03, una
confiabilidad del 95%, cuando la especificidad es de 0.98, la sensibilidad del 0.97, y
el nivel de aseguramiento (γ) de 0.99?
2
√𝑝𝑞 + √𝑝𝑞 +
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
) ,,
𝑁 + 𝑛𝑚
𝑛𝑚 =
2𝑑|1 − 2𝑝|𝑍𝛾
𝑡(𝑛−1,1−𝛼/2)
(
2𝑑
𝑡(𝑛−1,1−𝛼/2)
(
1
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
)
donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2,
𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98 y 𝑑 = 0.03.
Primero se determinará el tamaño de la muestra suponiendo población infinita.
2
√0.8(0.2) + √0.8(0.2) + 2(0.03)|1 − 2(0.8)|2.3263
1
1.96
𝑛𝑚 =
(
)
(0.97 + 0.98 − 1)2
2(0.03)
1.96
(
)
2
0.4 + √0.16 + 0.042728
1
𝑛𝑚 = (
)
) (
0.9025
0.030612
2
𝑛𝑚 = (
0.4 + 0.450253
1
) = 854.802387.
) (
0.9025
0.030612
Finalmente se obtendrá el tamaño de la muestra suponiendo una población finita.
126
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
Por lo tanto:
1,300
𝑛𝑚𝐹 = 854.802387 (
)
1,300 + 854.802387
𝑛𝑚𝐹 = 515.7053 = 516 pacientes..
EJERCICIOS
En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción, con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(γ) del 90%?
Ejercicio 3.9. Con el objetivo de estimar la proporción de estudiantes que tienen varicela
en la facultad de turismo de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 500 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 20 de los
estudiantes seleccionados tienen varicela.
Ejercicio 3.91. Con la finalidad de estimar la proporción de pacientes que tienen el virus
XXX en el hospital metropolitano del estado de Jalisco, cuya población es de 850
pacientes. se seleccionó una muestra aleatoria de 100 pacientes. A cada paciente se le
realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝)
de 0.98. Los resultados arrojaron que 17 de los pacientes seleccionados tienen el virus
XXX.
127
Ejercicio 3.92. La Secretaría de Salud del estado de Guanajuato desea conocer la
proporción de estudiantes afectados con el virus XY, para esto se tienen una población
de 𝑁 = 750 estudiantes con una muestra al azar 𝑛 = 100 individuos. A cada estudiante
se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.95 y especificidad
(𝑆𝑝) de 0.97. Los resultados arrojaron que 50 de los pacientes seleccionados tienen el virus
XY.
Ejercicio 3.93. Una clínica en el estado de Zacatecas desea estimar la proporción de
personas que tienen dengue en su hospital central, el cual tiene 𝑁 = 1,200 pacientes, de
los cuales se seleccionó una muestra aleatoria de 350. A cada paciente se le realizó una
prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝) de 0.97. Los
resultados arrojaron que 45 de los pacientes seleccionados tienen dengue.
128
Capítulo 4. Muestreo aleatorio estratificado
CAPÍTULO 4
Muestreo aleatorio estratificado
En este mundo complejo
nunca es fácil elegir.
Pero con datos y muestras
tú lo podrás conseguir,
De una forma inteligente,
que te conduzca a un buen fin.
OAML
C
uando el costo de la investigación es excesivo y la población es heterogénea, el
Muestreo Aleatorio Simple (MAS) no es, en principio, una buena opción. Por esta
razón, este capítulo brinda la opción del Muestreo Aleatorio Estratificado (MAE), el
cual trata de hacer aún más precisas las estimaciones que se pueden obtener con un
diseño básico de muestreo como el aleatorio simple (Cochran, 1985).
Muestreo aleatorio estratificado
A la población de 𝑁 individuos se divide en 𝐸 subpoblaciones o estratos que no se
traslapan, con respecto a criterios que puedan ser importantes en el estudio y
tratando en la medida posible que exista homogeneidad dentro de cada estrato.
Los estratos contienen 𝑁1 , … , 𝑁𝐸 unidades muestrales, de manera que 𝑁 = ∑𝐸𝑖 𝑁𝑖 y
en cada uno de estos estratos o subpoblaciones se realiza un muestreo aleatorio
simple con muestras respectivas de tamaño 𝑛𝑖 . As la muestra estratificada de
tamaño 𝑛 es igual a la suma de todas las muestras de cada estrato, es decir, 𝑛 =
∑𝐸𝑖 𝑛𝑖 .
En general, los estratos naturales o convenientemente definidos deberán ser
homogéneos internamente y heterogéneos entre ellos, con respecto a la variable bajo
estudio. Cada unidad muestral debe estar incluida en sólo un estrato, es decir, no debe
129
haber traslapes entre los estratos. Las unidades que se incluyan en un estrato deben tener
un valor similar en cuanto a la variable de interés, aunque al no conocer esos valores, se
puede usar otra característica para formar los estratos con la esperanza de lograr que los
valores sean muy parecidos dentro de cada estrato. Los estratos formados funcionan
independientemente, y se les aplica un muestreo aleatorio simple para elegir los
elementos concretos que formarán parte de la muestra y obtener así las estimaciones de
los parámetros que nos interesan. En ocasiones las dificultades que plantean los estratos
son demasiado grandes, pues exigen un conocimiento detallado de la población, como
tamaño geográfico, género, edades, niveles de estudio, etcétera (Pérez, 2000).
El MAE se utiliza cuando la población es muy heterogénea y las consideraciones de
costo limitan el tamaño de la muestra. Si no se toman en cuenta tanto la variabilidad
como los costos diferenciados y utilizamos el MAS, las estimaciones podrían ser menos
precisas o el costo sería demasiado elevado. Por otro lado, para la población estratificada
habrá que determinar dos tamaños de muestra: para la población y para cada estrato, 𝑛
y 𝑛ℎ , respectivamente.
4.1 Ventajas de utilizar el MAE
Algunos motivos para utilizar el muestreo aleatorio estratificado en lugar del muestreo
aleatorio simple son:
Produce estimaciones más precisas que las que se obtienen a partir del segundo
método.
El costo por observación puede ser reducido mediante la estratificación de la
población.
Se puede obtener información de parámetros poblacionales para cada estrato de
la población.
Se simplifica el trabajo administrativo y el de control, ya que se puede usar
personal específico para cada estrato.
130
El tamaño de muestra será menor si la estratificación está bien definida, en
comparación con el MAS.
Notación
Para esta técnica de muestreo necesitamos una notación adicional que distingue los
elementos de la población, como la siguiente:
𝑁: el número total de unidades muestrales en la población.
𝐸: el número de estratos en la población.
𝑖: un estrato.
𝑁𝑖 : el número total de unidades en el estrato 𝑖.
𝑛𝑖 : el número de unidades en la muestra en el estrato 𝑖.
𝑗: alguna unidad muestral que siempre pertenece a algún estrato 𝑖.
𝑦𝑖𝑗 : el valor obtenido en la j-ésima unidad dentro del estrato 𝑖.
𝑊𝑖 = 𝑁𝑖 /𝑁: la ponderación, peso o tamaño relativo del estrato 𝑖.
𝑓𝑖 = 𝑛𝑖 /𝑁𝑖 : la fracción de muestreo para el estrato 𝑖.
𝑛
𝑦̅𝑖 =
𝑖 𝑦
∑𝑖=1
𝑖𝑗
𝑛𝑖
: la media muestral del estrato 𝑖.
𝑛
𝑆𝑖2
=
𝑖 (𝑦 −𝑦
∑𝑗=1
𝑖𝑗 ̅ 𝑖 )
𝑛𝑖 −1
2
𝑛
=
2
𝑖 𝑦 2 −𝑛 𝑦
∑𝑗=1
𝑖 ̅𝑖
𝑖𝑗
𝑛𝑖 −1
: la varianza en el estrato 𝑖.
Si se desea conocer la cantidad de horas promedio que cierto grupo de personas de
una ciudad ve la televisión, debemos pensar que habrá niños, jóvenes y adultos, y que el
tiempo de horas libres varía de un grupo a otro. De esta manera dividimos la población
en tres estratos, ya que es lógico afirmar que las tendencias dentro de cada estrato son
similares y son homogéneas. También podemos entender que el número total de
personas de la población es la suma de los elementos de los estratos. Otro ejemplo es el
siguiente: si queremos conocer el ingreso promedio de las familias en Colima, donde se
supone que existen tres clases sociales bien marcadas, podemos considerar las familias
de la misma clase social como un estrato, ya que es homogéneo.
131
4.2 ¿Cómo seleccionar una muestra aleatoria estratificada?
La selección de la muestra de cada estrato es diferente, ya que cada uno tiene
características y costos de medición distintos, por lo que el número de unidades también
será diferente. Por ejemplo, el tamaño de la muestra del estrato debe ser mayor si es muy
variable o si contiene más unidades. Por el contrario, será menor si el costo de la medición
es elevado. Antes de seleccionar una muestra es preciso considerar qué tan grande debe
ser la precisión de estimación y de acuerdo con esto, seleccionar el tamaño de la muestra
(Cochran, 1985).
En resumen, de un estrato dado se toma una muestra más grande si:
El estrato es más grande.
Los elementos del estrato tienen alta variabilidad.
El muestreo es más barato en el estrato.
4.3 Estimación de parámetros de interés para promedio bajo MAE
Estimación de la media poblacional
Supongamos que hemos tomado nuestra muestra aleatoria estratificada, y entonces nos
preguntamos, ¿cómo debemos usarla para estimar los principales parámetros? Es decir,
contestarnos preguntas como: ¿cuál es la media de nuestra población? o ¿cuál es el total? Si 𝜇𝑖
y 𝜏𝑖 son la media y el total para el estrato 𝑖, respetivamente, resulta obvio que 𝜏1 + 𝜏2 +
⋯ + 𝜏𝐸 = 𝜏, donde 𝜏 es el total de la población.
Para comprender mejor las expresiones que nos darán la estimación de 𝜇 y 𝜏, debemos
tomar en cuenta que 𝑦̅𝑖 es un estimador insesgado de 𝜇𝑖 y que 𝑁𝑦̅𝑖 es un estimador
𝑁
𝑖
insesgado del total del estrato 𝜏𝑖 = ∑𝑗=1
𝑦𝑖𝑗 , tal como en el muestreo aleatorio simple.
Hasta aquí todo parece razonable, como formar el estimador de 𝜏(𝜏̂ ) con la suma de los
132
𝜏̂𝑖 y de esta manera construir un estimador para la media de la población al dividir 𝜏̂ entre
𝑁, el cual hereda la propiedad de insesgamiento (Scheaffer et al., 1987).
El estimador de la media estratificada
𝑦̅𝑒𝑠𝑡𝑟
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
=
𝑁
Nótese que se ha usado el subíndice estr en 𝑦̅ para señalar que la estimación se hace
con el muestreo estratificado. Dado que cada estrato se maneja de manera independiente,
las 𝑦̅𝑖 con 𝑖 = 1,2, … 𝐸 también son independientes. Por lo tanto, la varianza de 𝑦̅𝑒𝑠𝑡𝑟 es la
suma de las varianzas de las medias de cada estrato. Este estimador es insesgado.
El estimador de la varianza de la media estratificada
1
[𝑁 2 𝑉̂ (𝑦̅1 ) + 𝑁22 𝑉̂ (𝑦̅2 ) + ⋯ + 𝑁𝐸2 𝑉̂ (𝑦̅𝐸 )]
𝑁2 1
𝑆 2𝑦𝑒𝑠𝑡𝑟 = 𝑉( 𝑦̅𝑒𝑠𝑡𝑟 ) =
=
=
1
𝑁2
1
𝑁1
𝑆2
∑𝐸𝑖=1 𝑁𝑖2 (
2
𝐸 𝑁𝑖
𝑖=1 𝑁 2
𝑁𝑖− 𝑛𝑖
(
𝑁𝑖
1
𝑁𝑖
𝑁𝑖
𝑁𝐸
𝑆2
) (𝑛𝐸 )]
𝐸
𝑆2
) ( 𝑛𝑖 )
𝑖
𝑆𝑖2
) (𝑛 )
𝑁𝑖− 𝑛𝑖
= ∑𝐸𝑖=1 𝑊𝑖2 (
𝑁𝐸− 𝑛𝐸
) (𝑛1 ) + ⋯ + 𝑁𝐸2 (
𝑁𝑖− 𝑛𝑖
𝑁2
= ∑
𝑁1− 𝑛1
[𝑁12 (
𝑖
𝑆2
) ( 𝑛𝑖 )
𝑖
= ∑𝐸𝑖=1 𝑊𝑖2 𝑆𝑦2𝑖
El siguiente paso es la obtención del intervalo de confianza de nuestra estimación.
Cuando hay pocos grados de libertad en cada estrato, el procedimiento para calcular el
error de muestreo (𝑡√𝑉̅ (𝑦̅𝑒𝑠𝑡𝑟 )) consiste en leer el valor de t en las tablas de la t-Student,
como se hizo en el muestreo aleatorio simple, y cuando es mayor de 30 utilizaremos la
tabla 𝑍 de la distribución normal estándar.
El intervalo de confianza para la estimación de la media estratificada
133
𝐸
1
𝑁𝑖− 𝑛𝑖 𝑆𝑖2
2
𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √ 2 ∑ 𝑁𝑖 (
)( )
𝑁
𝑁𝑖
𝑛𝑖
𝑖=1
𝐸
𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑊𝑖2 𝑆𝑦2𝑖
𝑖=1
Se ha revisado lo referente al estimador de la media estratificada; sin embargo, en
ocasiones el principal interés es conocer el total de la población, por ejemplo, el gasto
total semanal de las familias o el total de personas que visitan algún lugar turístico, o
quizá la cantidad de personas que consumen un producto específico.
El estimador del total estratificado
𝐸
𝜏̂𝑒𝑠𝑡𝑟 = 𝑁𝑦𝑒𝑠𝑡𝑟 = 𝑁1 𝑦1 + 𝑁2 𝑦2 + … + 𝑁𝐸 𝑦𝐸 = ∑ 𝑁𝑖 𝑦𝑖
𝑖=1
La varianza se deduce de la varianza de la media y hereda sus propiedades. Para
estimar la varianza, la media y el total, debe haber al menos dos observaciones en cada
estrato.
La varianza del estimador del total estratificado
𝐸
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
𝑉̅ (𝑁𝑦̅𝑒𝑠𝑡𝑟 ) = 𝑁 𝑉(𝑦𝑒𝑠𝑡𝑟 ) = 𝑁 ∑ 𝑊𝑖2 (
)( )
𝑁𝑖
𝑛𝑖
2
2
(4.1)
𝑖=1
La desviación estándar se necesita para crear un intervalo de confianza del total.
El intervalo de confianza
134
𝐸
𝑁𝑦𝑒𝑠𝑡𝑟 ±
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
2
𝑡(𝑛−1,1−𝛼/2) √∑ 𝑁𝑖 (
)( )
𝑁𝑖
𝑛𝑖
𝑖=1
Determinación del tamaño de la muestra
Es tiempo de planear las unidades muestrales que se deben seleccionar aleatoriamente
en toda la población, y las de los estratos, para constituir una muestra que satisfaga una
precisión deseada, 𝑑.
Cuando se decide precisar el tamaño de muestra se deben tomar en cuenta varios
factores como el tipo de muestreo, el parámetro a estimar, la precisión admisible, la
varianza poblacional y el nivel de confianza de la inferencia. Además, dependiendo de
las estrategias de asignación, se puede recurrir a información más específica o adicional.
Anteriormente se revisaron los elementos estadísticos que se deben tomar en cuenta
para obtener un tamaño de muestra preciso; sin embargo, existen otros factores que son
fundamentales para tomar una decisión al respecto. Para la asignación de la muestra a
cada estrato también se requiere información sobre:
El número total de elementos del estrato.
La variabilidad de las observaciones del estrato.
El costo que representa muestrear cada estrato.
De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos, se
obtendrá información más precisa, por lo que a los estratos grandes les corresponden
tamaños muestrales grandes. También es fácil inferir que si en algún estrato hay mucha
variabilidad, debe considerarse un tamaño de muestra mayor.
Por último, es importante considerar que si el costo de obtener una observación varía
entre estratos, se deberán tomar muestras pequeñas en estratos donde el costo sea alto y
viceversa, con el fin de minimizar el costo total del muestreo. Así, la calidad de la
135
información que se obtenga en las estimaciones provendrá directamente de 𝑛, ya que al
incrementarse ésta, la varianza de la media decrecerá. Para lograr la precisión deseada
usamos:
𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝜃)
donde 𝑉(𝜃) es la varianza del estimador de interés y 100(1-𝛼)% es el nivel de confianza.
El tamaño de muestra para estimar la media estratificada
2
𝐸
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛 =
2
𝐸
2
𝑁𝑑 2 + 𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
∗
(4.2)
En la ecuación anterior 𝑊𝑖 = 𝑁𝑖 /𝑁, mientras que 𝑑 es el margen de error (precisión)
que se desea aceptar en la estimación de la media.
Por analogía al MAS bajo AIPE, a continuación sólo se proporciona, sin mostrar su
obtención, la expresión para calcular el tamaño de muestra modificado bajo el MAE.
El tamaño de muestra modificado para estimar la media estratificada
𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑡(2𝑛−1,1−𝛼⁄2) ∑𝐸𝑖=1 𝑊𝑖 𝑆 2𝑖 ( 𝑖 ∗ 𝑖
)
𝑛𝑖 − 1
𝑛𝑚 =
2
∗
2
𝐸
2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
2
∑
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑆 𝑖 (
)
𝑛𝑖∗ − 1
(4.3)
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil
100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖∗ − 1 grados de libertad (por estrato) y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2)% de la distribución t-Student con 𝑛∗ − 1 grados
de libertad (también por estrato). Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar 𝑍1−𝛼/2 .
136
La asignación de la muestra
El muestreo estratificado involucra 𝑖 estratos y, por tanto, 𝐸 tamaños de muestra,
𝑛𝑚 1 , 𝑛𝑚 2 , . . . , 𝑛𝑚 𝐸 correspondientes a los estratos en que se divide la población.
Asimismo, se tiene el tamaño de muestra total 𝑛𝑚 , el cual es la suma de los 𝐸 tamaños de
muestra relacionados con los estratos. Hay que considerar que el número de unidades
del estrato influye en el tamaño de muestra. Se asignará un tamaño de muestra mayor a
los estratos más grandes y uno menor a los estratos más chicos. A los estratos menos
homogéneos les corresponderá un tamaño de muestra mayor, mientras que a los estratos
donde el costo por unidad sea alto, se tomarán muestras más pequeñas. Por lo tanto,
existen diferentes métodos de asignación de la muestra.
El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño
de muestra 𝑛𝑚 requerido, consiste en determinar una parte de 𝑛𝑚 , la cual será
proporcional al tamaño del estrato. Algebraicamente, el criterio está representado por
𝑛𝑚 𝑖 = [(𝑁𝑖 )/𝑁]𝑛𝑚 = 𝑊𝑖 𝑛𝑚 , donde 𝑖 = 1, 2, … , 𝐸, es decir, como:
𝑛𝑚 1 =
𝑁1
𝑁2
𝑁𝐸
𝑛𝑚 , 𝑛𝑚 2 =
𝑛𝑚 , … , 𝑛𝑚 𝐸 =
𝑛
𝑁
𝑁
𝑁 𝑚
(4.4)
Los estratos más grandes requieren un tamaño de muestra mayor, es decir, la
asignación de 𝑛 entre los estratos es proporcional al tamaño del estrato.
Selección de estratos
En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato, pero
¿siempre es así? Definitivamente no. En estadística cada problema es una nueva
experiencia, la cual no necesariamente tiene una respuesta única y un razonamiento
lógico para llegar a la solución más satisfactoria. Este trabajo puede resultar un poco
complicado y tornarse desesperante en algunas ocasiones, por lo que a continuación se
dan algunas ideas útiles.
137
¿Qué hago cuando…?
¿Cómo delimitar los estratos?
¿Se debe estratificar después de seleccionar la muestra?
A veces es una tarea sencilla debido a que los estratos están implícitos y se conoce el
comportamiento con base en registros antiguos, en nuestra experiencia o simplemente en
la naturaleza de los resultados que deseamos obtener.
¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso
cuantitativo. Habrá que construirlos dado un interés particular, porque muchas veces
sólo hasta el momento de diseñar la investigación se conocen los rangos de las
estimaciones. Pero también podría tener el rango de salida de los datos y algunas
frecuencias en categorías generales de la variable de interés o de alguna variable
altamente correlacionada. En este caso podemos usar el sencillo método acumulativo de la
raíz cuadrada de la frecuencia.
Los pasos del método acumulativo de la raíz cuadrada de la frecuencia son:
1. Elegimos el número de estratos que se desea obtener.
2. Sacamos por rangos la frecuencia de la variable de interés, o en su defecto a una
altamente correlacionada con ella. Con estos resultados formamos una columna
de datos.
3. Se forman dos columnas más, una constituida por la raíz de las frecuencias y otra
por su raíz acumulada.
4. Se divide la frecuencia acumulada final entre el número de estratos. Este resultado
es el Ancho de la Clase (AC).
5. Se utiliza la ecuación AC𝑖𝑗 = 𝑖 ∗ AC; 𝑖 = 1,2, … 𝐸, donde 𝑖 representa el estrato.
6. Se puede delimitar con las marcas de clase por estrato, eligiendo la raíz de la
frecuencia acumulada más cercana a la marca de clase y así cada estrato estará
formado por todas las clases de la variable original que le correspondan.
138
EJEMPLOS
Ejemplo 4.1. En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se desea
estimar el promedio de plantas por hectárea que en determinada etapa del cultivo se
infectaron de alguna enfermedad. De acuerdo con las condiciones ecológicas en la región,
se siembran tres variedades de limón. Considerando que el desarrollo de la enfermedad
puede ser distinto de una variedad a otra, la población de parcelas se estratificó en 𝐸 = 3
estratos. Los tamaños de los estratos son: 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330; 𝑁 = 𝑁1 +
𝑁2 + 𝑁3 = 780. Suponga que para realizar las estimaciones se tomó una muestra de
𝑛 = 63 parcelas. Los datos se presentan en Cuadro 4.1.
Cuadro 4.1. Plantas infectadas por hectárea.
Estrato 1
Estrato 2
(𝒏𝟏 = 𝟐𝟏)
Estrato 3
(𝒏𝟐 = 𝟐𝟏)
(𝒏𝟑 = 𝟐𝟏)
48
53
64
20
31
45
74
68
77
62
45
47
36
17
26
70
72
73
59
65
54
15
30
18
78
76
69
45
48
46
40
25
35
69
80
74
50
60
63
24
29
30
80
78
71
55
57
46
19
42
27
72
71
79
64
61
54
33
51
48
76
75
68
a) La estimación puntual del promedio de plantas infectadas por hectárea.
𝑦̅𝑒𝑠𝑡𝑟
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
=
𝑁
donde: 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑁 = 780, 𝐸 = 3,
𝑦̅𝑖 : 𝑦̅1 =
𝑦̅2 =
48+62+59+⋯+46+54
21
20+36+15+⋯+27+48
21
𝑦̅3 =
139
= 54.5714,
= 30.5238 y
74 + 70 + 78 + ⋯ + 79 + 68
= 73.8095
21
Por lo tanto:
(270)(54.5714) + (180)(30.5238) + (330)(73.8095)
780
44,581.697
=
= 57.1612 plantas infectadas por parcela.
780
𝑦̅𝑒𝑠𝑡𝑟 =
𝑦̅𝑒𝑠𝑡𝑟
b) La estimación puntual del total estratificado de plantas infectadas.
𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟
donde: 𝑁 = 780 y 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612
Por lo tanto:
𝜏̂ 𝑒𝑠𝑡𝑟 = 780(57.1612) = 44,585.736 plantas infectadas.
c) La varianza y desviación estándar del promedio estratificado.
𝐸
𝑆𝑦2̅𝑒𝑠𝑡𝑟
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
= ∑( ) (
)( )
𝑁
𝑁𝑖
𝑛𝑖
𝑖=1
donde: 𝑁 = 780, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑛𝑖 : 𝑛1 = 𝑛2 = 𝑛3 = 21,
482 + 622 + 592 + ⋯ + 462 + 542 − (21)(54.57)2
=
= 50.3571,
21 − 1
202 + 362 + 152 + ⋯ + 272 + 482 − (21)(30.52)2
2
𝑆2 =
= 107.2619, y
21 − 1
𝑆𝑖2 : 𝑆12
𝑆32
742 + 702 + 782 + ⋯ + 792 + 682 − (21)(73.80)2
=
= 15.5619
21 − 1
Por lo tanto:
270 2 270 − 21 50.3571
180 2 180 − 21 107.2619
𝑆𝑦2̅𝑒𝑠𝑡𝑟 = (
) (
)(
)+(
) (
)(
)
780
270
21
780
180
21
140
330 2 330 − 21 15.5619
+(
) (
)(
) = 0.6295
780
330
21
𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.6295 = 0.7934
d) El IC de la media estratificada con una confiabilidad de 95%.
𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟
donde: 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934.
Por lo tanto:
57.1612 ± (1.96)(0.7934 )
57.1612 ± 1.5551
55.6061 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 58.7163
El promedio de plantas infectadas por hectárea en la población está entre 55.6061 y
58.7163.
e) El IC del total de plantas infectadas en la población con una confiabilidad de 95%.
𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟
donde: 𝜏̂𝑒𝑠𝑡𝑟 = 44,585.736 , 𝑁 = 780, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y
𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934.
Por lo tanto:
44,585.736 ± (780)(1.96)(0.7934)
44,585.736 ± 1,212.9499
43,372.7861 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 45,798.6859
141
El total de plantas infectadas por hectárea en la población está entre 43,372.7861 y
45,798.6859.
f) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media
con una precisión de ±3% de la media estratificada y una confiabilidad de 95%, es:
𝑛∗ =
2
𝐸
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
2
𝐸
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,
𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3, y
3
∑ 𝑊𝑖 𝑆𝑖2 =
𝑖=1
=
𝑁1 2 𝑁2 2 𝑁3 2
𝑆 + 𝑆2 + 𝑆3
𝑁 1
𝑁
𝑁
270
180
330
(50.3571) +
(107.2619) +
(15.5619)
780
780
780
= 17.4313 + 24.7527 + 6.5839 = 48.7679.
Por lo tanto:
𝑛∗ =
(780)(1.96)2 (48.7679)
(780)(1.7148)2 + (1.96)2 (48.7679 )
𝑛∗ =
146,130.4764
= 58.6877 = 59 árboles (parcelas)
2,489.96722
La asignación de la muestra en forma proporcional:
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 780, 𝑛∗ = 58.6877, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330.
Por lo tanto:
142
270
(58.6877) = 20.3150 = 21
780
180
(58.6877) = 13.5433 = 14
𝑛2∗ =
780
330
(58.6877) = 24.8294 = 25.
𝑛3∗ =
780
𝑛1∗ =
g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media
con precisión de ±3% de la media estratificada, una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 0.99, es:
2
∗
2
𝐸
2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
∑
𝑁𝑡(𝑛−1,1−𝛼
𝑊
𝑆
(
)
⁄2) 𝑖=1 𝑖 𝑖
𝑛𝑖∗ − 1
𝑛𝑚 =
2
∗
2
𝐸
2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
∑
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑆
(
)
⁄2) 𝑖=1 𝑖 𝑖
𝑛𝑖∗ − 1
donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,
𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3,
𝜒12 (𝛾, 𝑛1∗ − 1)
270
36.6252
(50.3571) (
𝑊1 𝑆12 (
)=
) = 33.0533,
∗
𝑛1 − 1
780
20.3150 − 1
𝑊2 𝑆22 (
𝜒22 (𝛾, 𝑛2∗ − 1)
180
27.0187
(107.2619) (
)=
) = 53.3183,
∗
𝑛2 − 1
780
13.5433 − 1
𝜒32 (𝛾, 𝑛3∗
2
𝑊3 𝑆3 (
𝑛3∗ −
3
− 1)
330
36.2034
(15.5619) (
)=
) = 10.0027, y
1
780
24.8294 − 1
𝜒𝑖2 (𝛾, 𝑛𝑖∗
2
∑ 𝑊𝑖 𝑆𝑖 (
𝑛𝑖∗ −
𝑖=1
− 1)
) = 33.0533 + 53.3183 + 10.0027 = 96.3743
1
Por lo tanto:
𝑛𝑚 =
(780)(1.96)2 (96.3743)
(780)(1.7148)2 + (1.96)2 (96.3743 )
𝑛𝑚 =
288,780.5785
= 108.4071 = 109 parcelas (muestra).
2,663.8520
La asignación de la muestra proporcional:
143
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 780, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330 y 𝑛𝑚 = 108.4071.
Por lo tanto:
270
(108.4071) = 37.5255 = 38
780
180
(108.4071) = 25.0170 = 26
=
780
330
(108.4071) = 45.8645 = 46
=
780
𝑛𝑚 1 =
𝑛𝑚 2
𝑛𝑚 3
Ejemplo 4.2. La Facultad de Lenguas Extranjeras de la Universidad Autónoma de
Yucatán (UAdY) desea estimar el promedio y el total de faltas justificadas que tuvieron
los alumnos en un año determinado. Al suponer que podrían encontrarse diferencias
según el grado de estudios (primero, segundo, tercero y cuarto año), se decidió usar el
muestreo estratificado. De esta manera, la población de 𝑁 = 400 estudiantes que alberga
la facultad quedó estratificada de la siguiente manera: Estrato 1 (primer año): 𝑁1 = 120
alumnos, Estrato 2 (segundo año): 𝑁2 = 100 alumnos, Estrato 3 (tercer año): 𝑁3 = 90
alumnos y Estrato 4 (cuarto año): 𝑁4 = 90 alumnos. Se seleccionó una muestra de 𝑛 =
40 alumnos: 12 para el Estrato 1, 10 para el Estrato 2 y 9 para los estratos 3 y 4 (Cuadro
4.2).
Cuadro 4.2. Faltas justificadas por año.
Estrato 1
(𝒏𝟏 = 𝟏𝟐)
7
6
6
7
7
7
8
8
5
5
4
6
a) Estime la media estratificada.
144
Estrato 2
(𝒏𝟐 = 𝟏𝟎)
4
4
5
6
4
4
5
6
6
6
Estrato 3
(𝒏𝟑 = 𝟗)
3
4
3
4
3
3
4
4
4
Estrato 4
(𝒏𝟒 = 𝟗)
3
3
2
2
3
5
4
2
5
𝑦̅𝑒𝑠𝑡𝑟 =
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑁
donde: 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90, 𝑁4 = 90, 𝑁 = 400, 𝐸 = 4,
𝑦̅𝑖 : 𝑦̅1 =
𝑦̅2 =
𝑦̅3 =
𝑦̅4 =
7+6+7+⋯+5+6
12
4+5+4+⋯+6+6
10
3+3+3+⋯+3+4
9
3+2+3+⋯+5+2
9
= 6.3333,
= 5,
= 3.5556 y
= 3.2222.
Por lo tanto:
𝑦̅𝑒𝑠𝑡𝑟 =
(120)(6.3333) + (100)(5) + (90)(3.5556) + (90)(3.2222)
= 4.675 faltas
400
b) La estimación puntual del total estratificado.
𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟
donde: 𝑁 = 400 y 𝑦̅𝑒𝑠𝑡𝑟 = 4.675 .
Por lo tanto:
𝜏̂𝑒𝑠𝑡𝑟 = 400(4.675) = 1,870 faltas justificadas
c) Varianza y desviación estándar del promedio estratificado.
𝐸
𝑆𝑦2̅𝑒𝑠𝑡𝑟
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
= ∑( ) (
)( )
𝑁
𝑁𝑖
𝑛𝑖
𝑖=1
donde: 𝑁 = 400, 𝐸 = 4, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90,
𝑛𝑖 : 𝑛1 = 12, 𝑛2 = 10, 𝑛2 = 𝑛3 = 9,
145
𝑆𝑖2 : 𝑆12 =
72 + 62 + 72 + ⋯ + 52 + 62 − (12)(6.3333)2
= 1.5152
12 − 1
42 + 52 + 42 + ⋯ + 62 + 62 − (10)(5)2
= 0.8889
10 − 1
32 + 32 + 32 + ⋯ + 32 + 42 − (9)(3.5556)2
𝑆32 =
= 0.2728 y
9−1
32 + 22 + 32 + ⋯ + 52 + 22 − (9)(3.2222)2
2
𝑆4 =
= 1.4444
9−1
𝑆22 =
Por lo tanto:
𝑆𝑦2̅𝑒𝑠𝑡𝑟
120 2 120 − 12 1.5152
100 2 100 − 10 0.8889
=(
) (
)(
)+(
) (
)(
)
400
120
12
400
100
10
90 2 90 − 9 0.2728
90 2 90 − 9 1.4444
+(
) (
)(
)+(
) (
)(
) = 0.02395.
400
90
9
400
90
9
𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.02395 = 0.1547.
d) Estime por intervalo la media estratificada con una confiabilidad de 95%.
𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟
donde: 𝑦̅𝑒𝑠𝑡𝑟 = 4.675, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547.
Por lo tanto:
4.675 ± (1.96)(0.1547)
4.675 ± 1.5551
4.3717 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 4.9783
Esto significa que el promedio de faltas justificadas está entre 4.3717 y 4.9783.
e) Estime por intervalo el total estratificado con una confiabilidad de 95%.
𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟
donde: 𝜏̂𝑒𝑠𝑡𝑟 = 1,870 , 𝑁 = 400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y
146
𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547.
Por lo tanto:
1,870 ± (400)(1.96)(0.1547)
1,870 ± 121.3201
1,748.6821 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 1,991.3179
El total de faltas justificadas en la población está entre 1,748.6821 y 1,991.3179.
f) Si 𝑛 = 40 es una muestra preliminar, el tamaño de la muestra para estimar la media
con una precisión de 5% de la media estratificada y una confiabilidad de 95% es:
∗
𝑛 =
2
𝐸
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
2
𝐸
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,
𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4 y
4
∑ 𝑊𝑖 𝑆𝑖2 =
𝑖=1
=
𝑁1 2 𝑁2 2 𝑁3 2 𝑁4 2
𝑆 + 𝑆2 + 𝑆3 + 𝑆4
𝑁 1
𝑁
𝑁
𝑁
120
100
90
90
(1.5152) +
(0.8889) +
(0.2778) +
(1.4444)
400
400
400
400
= 0.4545 + 0.2222 + 0.0625 + 0.3250 = 1.0643.
Por lo tanto:
𝑛∗ =
(400)(1.96)2 (1.0643)
(400)(0.23375)2 + (1.96)2 (1.0643)
𝑛∗ =
1,635.445952
25.934890
𝑛∗ = 63.0597 = 64 alumnos
La asignación de la muestra proporcional:
147
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 400, 𝑛∗ = 63.0597, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90.
Por lo tanto:
120
(63.0597) = 18.9179 = 19
400
100
(63.0597) = 15.7649 = 16
𝑛2∗ =
400
90
(63.0597) = 14.1884 = 15
𝑛3∗ =
400
90
(63.0597) = 14.1884 = 15.
𝑛4∗ =
400
𝑛1∗ =
g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media
con una precisión de ±3% de la media estratificada, una confiabilidad de 95% y un
nivel de aseguramiento (𝛾) de 0.99, es:
2
∗
2
𝐸
2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
∑
𝑁𝑡(𝑛−1,1−𝛼
𝑊
𝑆
(
)
∗
⁄2) 𝑖=1 𝑖 𝑖
𝑛𝑖 − 1
𝑛𝑚 =
2
∗
2
𝐸
2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
∑
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑆
(
)
∗
𝑖
⁄2) 𝑖=1
𝑖
𝑛𝑖 − 1
donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,
𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4,
𝜒12 (𝛾, 𝑛1∗ − 1)
120
34.6911
(1.5152) (
𝑊1 𝑆 21 (
)=
) = 0.8801,
∗
𝑛1 − 1
400
18.9179 − 1
𝜒22 (𝛾, 𝑛2∗ − 1)
100
30.2415
(0.8889) (
𝑊2 𝑆 22 (
)=
) = 0.4552,
∗
𝑛2 − 1
400
15.7649 − 1
𝜒32 (𝛾, 𝑛3∗ − 1)
90
27.9633
(0.2778) (
𝑊3 𝑆 23 (
)=
) = 0.1325,
∗
𝑛3 − 1
400
14.1884 − 1
𝜒32 (𝛾, 𝑛4∗ − 1)
90
27.9633
2
(1.4444) (
𝑊4 𝑆 4 (
)=
) = 0.6891 y
∗
𝑛4 − 1
400
14.1884 − 1
4
∑ 𝑊𝑖 𝑆𝑖2 (
𝑖=1
148
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
) = 0.8801 + 0.4552 + 0.1325 + 0.6891 = 2.1569.
𝑛𝑖∗ − 1
Por lo tanto:
𝑛𝑚 =
(400)(1.96)2 (2.1569)
400(0.23375)2 + (1.96)2 (2.1569 )
𝑛𝑚 =
3,314.3788
= 109.9603 = 110 alumnos (muestra).
30.1416
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 400, 𝑛𝑚 = 109.9603, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90.
Por lo tanto:
120
(109.9603) = 32.9881 = 33
400
100
(109.9603) = 27.4901 = 28
=
400
90
(109.9603) = 24.7411 = 25
=
400
90
(109.9603) = 24.7411 = 25.
=
400
𝑛𝑚 1 =
𝑛𝑚 2
𝑛𝑚 3
𝑛𝑚 4
EJERCICIOS
En los ejercicios siguientes estime un IC para la media y el total con una confiabilidad de
95%. Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la media de tal manera que sean estimados con una
precisión de 5% de la media, una confiabilidad de 95% y un nivel de aseguramiento de
80%?
Ejercicio 4.1. Un químico realizó un estudio con el objetivo de estimar el número de
coliformes fecales que son bioindicadores de contaminación en el Río Colima, cuya
149
longitud es de 𝑁 = 15,000 metros, de los cuales 𝑁1 = 4,000 metros pertenecen a la zona
pre-urbana, 𝑁2 = 8,000 corresponden a la zona urbana, y 𝑁3 = 3,000 a la zona
posturbana. Cabe mencionar que este estudio se realizó en las cuatro estaciones del año,
pero aquí presentamos solamente los resultados de la primavera. Para el estudio se tomó
una muestra de 𝑛 = 12 metros distribuidos de la siguiente manera: 𝑛1 = 4 metros para la
zona pre-urbana, 𝑛2 = 5 metros para la zona urbana, y 𝑛3 = 3 metros para la zona posturbana. Los resultados se presentan en el Cuadro 4.3.
Cuadro 4.3. Coliformes fecales en el agua.
Pre-urbana
Urbana
Post-urbana
350
920
1,600
240
920
2,400
1,600
920
1,600
2,400
1,600
2,400
Ejercicio 4.2. La Secretaría de Educación desea estimar el promedio de calificaciones de
los egresados de una normal superior. En la escuela hay tres licenciaturas: Educación
Preescolar, Educación Primaria y Educación Secundaria. En 2007 la población de
egresados fue de 𝑁1 = 30 de educación preescolar, 𝑁2 = 46 de educación primaria y 𝑁3 =
80 de educación secundaria. Para el estudio se extrajo una muestra de 𝑛 = 16 estudiantes
distribuidos de la siguiente forma: 𝑛1 = 3 (preescolar), 𝑛2 = 5 (primaria) y 𝑛3 = 8
(secundaria). Los datos se presentan en el Cuadro 4.4.
Cuadro 4.4. Calificaciones de egresados.
Preescolar
Primaria
Secundaria
9.5
9.3
8.7
8.7
9.7
8.0
9.9
8.8
9.0
9.0
9.2
8.5
7.8
8.3
9.9
10.0
Ejercicio 4.3. Un investigador desea estimar el daño promedio de tres cepas causantes de
la enfermedad de chagas. Supóngase que 300 ratones tienen la cepa uno, 350 la cepa dos
150
y 350 la cepa tres. Además, como se espera que el daño varíe dependiendo de la cepa, se
toma una muestra estratificada de tamaño 𝑛 = 50 de la población (Cuadro 4.5).
Cuadro 4.5. Daño promedio de las cepas.
Cepa 1
Cepa 2
Cepa 3
(𝒏𝟏 = 𝟏𝟓)
(𝒏𝟐 = 𝟏𝟕)
(𝒏𝟑 = 𝟖)
25
26
28
28
29
29
23
24
27
26
31
32
22
23
29
28
31
33
22
22
28
29
32
31
23
23
27
28
33
33
25
24
28
27
32
33
26
26
29
29
32
32
25
28
29
32
33
28
33
31
Ejercicio 4.4. En una entidad hay tres variedades de nances (500 plantas de la variedad
uno; de la dos, 10,000; y de la tres, 7,000 plantas) y se quiere estimar el promedio de
taninos por árbol. Se toma una muestra de 𝑛 = 44 plantas distribuidas de la siguiente
manera: 𝑛1 = 10 (variedad 1), 𝑛2 = 20 (variedad 2) y 𝑛3 = 14 (variedad 3) (véase el
Cuadro 4.6).
Cuadro 4.6. Taninos por kg de nance (en %).
Variedad 1
Variedad 2
Variedad 3
(𝒏𝟏 = 𝟏𝟎)
(𝒏𝟐 = 𝟐𝟎)
(𝒏𝟑 = 𝟏𝟒)
4
6
6
4
7
5
5
5
5
7
4
7
6
5
7
3
6
5
4
6
5
5
6
6
5
5
7
7
4
6
5
7
3
6
5
6
2
5
5
5
5
5
7
4
4.4 Estimación de parámetros de interés para una proporción bajo MAE
151
Estimación de la proporción poblacional
Suponga que surge la necesidad de estimar la proporción de unidades muestrales que
poseen atributos similares, en otras palabras, nuestro interés radicará en saber cómo se
manifiesta la característica 𝐶 en cada uno de los estratos. En tal caso nos importa estimar
la proporción (𝑝𝑖 ) de unidades muestrales que tienen la característica 𝐶 en el estrato 𝑖.
Defínase:
𝑦𝑖𝑗 = {
1 éxito
0 fracaso
que representa al 𝑗-ésimo componente del 𝑖-ésimo estrato. El éxito consiste en tener la
característica 𝐶.
Esta variable se comporta como una variable aleatoria del tipo binomial, por lo que el
estimador de la proporción de la característica de interés para el estrato 𝑖 es:
𝐸
𝑝𝑖 = ∑
𝑖=1
𝑦𝑖𝑗
.
𝑛𝑖
Y su varianza correspondiente es,
𝑆𝑝2𝑖 = (
𝑁𝑖 − 𝑛𝑖 𝑝𝑖 (1 − 𝑝𝑖 )
)
.
𝑁𝑖
𝑛𝑖
Es importante observar que 𝑝𝑖 es un estimador insesgado de 𝑃𝑖 , la proporción de
unidades muestrales que tienen la característica 𝐶 (Scheaffer, et al., 1987). De la misma
manera, 𝑁𝑝𝑖 también es un estimador insesgado del total en el estrato 𝑖 que cuenta con la
característica 𝐶. Es preciso resaltar que ∑𝐸𝑖=1 𝑁𝑖 𝑝𝑖 es un buen estimador del total
poblacional que cuenta con la característica 𝐶 (Pérez, 2000).
Los estimadores de la proporción y total poblacional
152
𝐸
1
1
𝑝𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑁
𝑖=1
𝐸
𝜏̂ 𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖 = 𝑁𝑝𝑠𝑡
𝑖=1
Los estimadores de la varianza de la proporción y total poblacional
𝑆𝑦2̅𝑠𝑡 =
1
(𝑁 2 𝑆 2 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 )
𝑁 2 1 𝑝1
𝐸
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑁
𝑖=1
𝑆𝜏̂2𝑠𝑡 = (𝑁12 𝑆𝑝21 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 )
𝐸
= ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑖=1
Los intervalos de confianza para la proporción y total poblacional
De forma tradicional construimos un intervalo con la siguiente ecuación:
𝐸
1
𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑝̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 (
)(
)
𝑁
𝑁𝑖
𝑛𝑖
𝑖=1
𝐸
1
𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑡̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 (
)(
)
𝑁
𝑁𝑖
𝑛𝑖
𝑖=1
El tamaño de muestra para estimar la proporción estratificada
En cuanto a la determinación del tamaño de muestra, se procede de manera análoga a la
determinación vista en el apartado anterior. Se utiliza una modificación de la ecuación
(4.2), sustituyendo la estimación de la varianza 𝜎𝑖2 por la varianza de la proporción
estimada, que es 𝑝𝑖 𝑞𝑖 . Por lo tanto, en cuanto a la determinación del tamaño de muestra,
se procede de manera análoga a la determinación expuesta en la sección anterior.
153
∗
𝑛 =
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
2
𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la media.
Con una analogía al MAS para proporción bajo AIPE, la expresión para el tamaño de
muestra modificado en el MAE para proporción se proporciona a continuación:
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
⁄2) 𝑖=1 𝑖 𝑖 𝑖
𝑛𝑖∗ − 1
𝑛𝑚 =
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
⁄2) 𝑖=1 𝑖 𝑖 𝑖
𝑛𝑖∗ − 1
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil
100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad, también por estrato. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
Asignación de la muestra
El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño de
la muestra 𝑛𝑚 requerido, considera como tamaño de muestra de cada estrato una parte
de 𝑛𝑚 , la cual será proporcional al tamaño del estrato. Esto es, algebraicamente el criterio:
∗
𝑛𝑚
=
𝑖
𝑁𝑖
𝑛 = 𝑊𝑖 𝑛𝑚 ;
𝑁 𝑚
𝑖 = 1,2, … , 𝐸,
o específicamente como:
∗
𝑛𝑚
=
1
154
𝑁1 ∗
𝑁2 ∗
𝑁𝑖
∗
∗
𝑛 , = 𝑛𝑚
=
𝑛 , … , 𝑛𝑚
= 𝑛∗
2
3
𝑁
𝑁
𝑁
Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor,
es decir, la asignación de 𝑛𝑚 entre los estratos es proporcional al tamaño de cada estrato.
EJEMPLOS
Ejemplo 4.3. La Secretaría de Educación Pública del estado de Chiapas desea conocer el
porcentaje y el total de personas que ven telenovelas. Suponga que la población de
individuos en el estado es de 𝑁 = 10,000, de los cuales 30% son niños (estrato 1), 50% son
jóvenes (estrato 2) y el resto son adultos (estrato 3). Se estratificó la población de esa forma
ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para
estimar el porcentaje y total de personas que ven telenovelas se tomó una muestra
aleatoria de 𝑛 = 300 individuos distribuidos de la siguiente manera 𝑛1 = 90 del estrato
uno, 𝑛2 = 150 del estrato dos y 𝑛3 = 60 del estrato tres. Los resultados fueron: en el
estrato uno, 30 niños; en el dos, 70; y en el estrato tres, 40.
a) Proporción estratificada de personas que ven telenovelas.
𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1
donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝐸 = 3,
𝑦
30
70
40
𝑝𝑖 : 𝑝1 = ∑𝐸𝑖=1 𝑛𝑖𝑗 = 90 = 0.3333, 𝑝2 = 150 = 0.4666 y 𝑝3 = 60 = 0.6666.
𝑖
Por lo tanto:
1
(3,000(0.3333) + 5,000(0.4666) + 2,000(0.6666))
10,000
𝑝𝑠𝑡 =
1
4,666.6667
(1,000 + 2,333.3333 + 1,333.3333)
= 0.4667 = 46.67%.
10,000
10,000
155
𝑝𝑠𝑡 =
b) El total estratificado.
𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡
donde: 𝑁 = 10,000 y 𝑝𝑠𝑡 = 0.4667.
Por lo tanto:
𝜏̂𝑠𝑡 = 10,000(0.4667) = 4,666.6667 personas ven telenovelas.
c) La varianza y desviación estándar de la proporción estratificada.
𝐸
𝑆𝑦2̅𝑠𝑡
1
2
= 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
𝑁
𝑖=1
donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑛𝑖 : 𝑛1 = 90, 𝑛2 = 150,
𝑛3 = 60, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666, 𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667,
2
𝑞2 = 0.5334, 𝑞3 = 0.3334, 𝐸 = 2 y 𝑆𝑝𝑖
=(
𝑁1 −𝑛1
2
𝑆𝑝1
=(
𝑁1
𝑁2 −𝑛2
2
𝑆𝑝2
=(
𝑁2
𝑁3 −𝑛3
2
𝑆𝑝3
=(
𝑁3
𝑝1 𝑞1
)(
𝑛1
𝑝2 𝑞2
)(
𝑛2
𝑝3 𝑞3
)(
𝑛3
𝑁𝑖 −𝑛𝑖
𝑁𝑖
3,000−90
(0.3333)(0.6667)
3,000
90
)=(
)(
𝑝𝑖 𝑞 𝑖
)(
(0.4666)(0.5334)
5,000
150
)(
) = 0.001609,
2,000−60
(0.6666)(0.3334)
2,000
60
)=(
)(
):
) = 0.002395,
5,000−150
)=(
𝑛𝑖
) = 0.003592.
Por lo tanto:
𝑆𝑦2̅𝑠𝑡 =
1
((3,000)2 (0.002395) + (5,000)2 (0.001609) + (2,000)2 (0.003592))
10,0002
𝑆𝑦2̅𝑠𝑡 = 0.000761.
La desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.000761 = 0.027586.
d) IC para la proporción estratificada con confiabilidad del 95%.
156
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡
donde: 𝑝𝑠𝑡 = 0.4667, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑠𝑡 = 0.027586.
Por lo tanto:
0.4667 ± (1.96)(0.027586)
0.4667 ± 0.054069
0.412631 ≤ 𝑃𝑠𝑡 ≤ 0.520769.
Esto quiere decir que la proporción verdadera de personas que ven telenovelas está
entre 41.26 y 52.07%, con una confiabilidad de 95%.
e) IC para el total estratificado.
𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡
donde: 𝜏̂ 𝑠𝑡 = 4,666.6667, 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y
𝑆𝑦̅𝑠𝑡 = 0.027586.
Por lo tanto:
4,666.6667 ± (10,000)(1.96)(0.027586)
4,666.6667 ± 540.6856
4,125.9811 ≤ 𝜏𝑠𝑡 ≤ 5,207.3523.
El total de personas que ven telenovelas está entre 4,125.9811y 5,207.3523, con una
confiabilidad de 95%.
157
f) Si 𝑛 = 300 es una muestra preliminar. El tamaño de la muestra para estimar la
proporción con una precisión del 0.05 de la proporción preliminar y confiabilidad de
95% es:
∗
𝑛 =
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
2
𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,
𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666,
𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334 y
3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 =
𝑖=1
=
𝑁1
𝑁2
𝑁3
(𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 ) + (𝑝3 )(𝑞3 )
𝑁
𝑁
𝑁
3,000
10,000
(0.3333)(0.6667) +
5,000
10,000
(0.4666)(0.5334) +
2,000
10,000
(0.6666)(0.3334)
= 0.06667 + 0.12444 + 0.04445 = 0.23556.
Por lo tanto:
(10,000)(1.96)2 (0.23556 )
𝑛 =
= 1,425.0487 = 1,426 personas.
(10,000)(0.023335)2 + (1.96)2 (0.23556 )
∗
La asignación de la muestra en forma proporcional es:
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 10,000, 𝑛∗ = 1,425.0487, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,000.
Por lo tanto:
3,000
𝑛1∗ = 10,000 (1,425.0487) = 427.5146 = 428
5,000
𝑛2∗ = 10,000 (1,425.0487) = 712.5244 = 713
158
2,000
𝑛3∗ = 10,000 (1,425.0487) = 285.0097 = 286.
La muestra para estimar la proporción estratificada con una precisión del 0.05 de la
proporción estratificada preliminar y confiabilidad de 95% es de 1,426 personas: 428
niños, 713 jóvenes y 286 adultos.
g) Tamaño de la muestra para estimar la media con precisión de 0.05 de la proporción,
confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 0.99.
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
)
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
𝑛𝑖∗ − 1
𝑛𝑚 =
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
2
∑
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
)
𝑛𝑖∗ − 1
donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,
𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666,
𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334,
𝜒12 (𝛾,𝑛1∗ −1)
𝑊1 𝑝1 𝑞1 (
𝑛1∗ −1
𝜒22 (𝛾,𝑛2∗ −1)
𝑊2 𝑝2 𝑞2 (
𝑛2∗ −1
𝑛3∗ −1
497.3854
5,000
802.2116
2,000
342.3761
) = 10,000 (0.4666)(0.5334) (712.5244−1) = 0.140303,
𝜒32 (𝛾,𝑛3∗ −1)
𝑊3 𝑝3 𝑞3 (
3,000
) = 10,000 (0.3333)(0.6667) (427.5146−1) = 0.07774,
) = 10,000 (0.6666)(0.3334) (285.0097−1) = 0.053584 y
𝜒𝑖2 (𝛾,𝑛𝑖∗ −1)
∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
𝑛𝑖∗ −1
) = 0.07774 + 0.140303 + 0.053584 = 0.271627.
Por lo tanto:
𝑛𝑚 =
(10,000)(1.96)2 (0.271627)
(10,000)(0.023335)2 + (1.96)2 (0.271627)
𝑛𝑚 = 1,608.1531 = 1,609 personas.
La asignación de la muestra proporcional:
159
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 10,000, 𝑛𝑚 = 1,608.1531, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,400.
Por lo tanto:
𝑛𝑚 1 =
3,000
(1,608.1531) = 482.4459 = 483
10,000
𝑛𝑚 2 =
5,000
(1,608.1531) = 804.0766 = 805
10,000
𝑛𝑚 3 =
2,000
(1,608.1531) = 321.6306 = 322
10,000
La muestra para estimar la media estratificada con una precisión del 0.05 de la
proporción estratificada preliminar, una confiabilidad del 90% y un aseguramiento
del 99%, es de 1,609 personas: 483 niños, 805 jóvenes y 322 adultos.
Ejemplo 4.4. En Colima hay 𝑁 = 5,000 personas mayores de 60 años (𝑁1 = 2,600 son
mujeres y 𝑁2 = 2,400 son hombres). Para estimar el porcentaje y el total de personas que
padecen diabetes, se tomó una muestra aleatoria de 𝑛 = 220, donde 𝑛1 = 120 son
mujeres y 𝑛2 = 100 son hombres. Se estratificó la población porque la enfermedad es
influida por el género. De las mujeres, 40 padecen diabetes y de los hombres, 50.
a) La proporción estratificada.
𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1
donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400.
𝑛
𝑛
1
2
Σ𝑖=1
Σ𝑖=1
40
50
𝑝𝑖 : 𝑝1 =
=
= 0.3333 y 𝑝2 =
=
= 0.5
𝑛1
120
𝑛2
100
Por lo tanto:
160
𝑝𝑠𝑡 =
1
2,066.6667
(2,600(0.3333) + 2,400(0.5)) =
= 41.33% personas diabéticas.
5,000
5,000
b) El total estratificado.
𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡
donde: 𝑁 = 5,000 y 𝑝𝑠𝑡 = 0.4133
Por lo tanto:
𝜏̂𝑠𝑡 = 5,000(0.4133) = 2,066.6667 personas con diabetes.
c) La varianza y desviación estándar de la proporción estratificada
𝐸
𝑆𝑦2̅𝑠𝑡
1
2
= 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
𝑁
𝑖=1
donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400, 𝑛𝑖 : 𝑛1 = 120, 𝑛2 = 100,
𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5,
2
2
𝑆𝑝𝑖
: 𝑆𝑝1
=(
𝑁1 −𝑛1
𝑁2 −𝑛2
2
𝑆𝑝2
=(
𝑁2
𝑁1
𝑝2 𝑞2
)(
𝑝1 𝑞1
)(
𝑛2
𝑛1
2,600−120
(0.3333)(0.6667)
2,600
120
)=(
)(
2,400−100
(0.5)(0.5)
2,400
100
)=(
)(
) = 0.001767 y
) = 0.002396.
Por lo tanto:
𝑆𝑦2̅𝑠𝑡 =
1
((2,600)2 (0.001767) + (2,400)2 (0.002396)) = 0.001030
5,0002
Desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.001030 = 0.032094.
d) IC para la proporción estratificada con confiabilidad del 90%.
161
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡
donde: 𝑝𝑠𝑡 = 0.4133, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094.
Por lo tanto:
0.4133 ± (1.645)(0.032094)
0.4133 ± 0.052795
0.360505 ≤ 𝑃𝑠𝑡 ≤ 0.466095.
La proporción verdadera de personas mayores de 60 años que padecen diabetes está
entre 36.05 y 46.61%.
e) La estimación por intervalo para el total estratificado.
𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡
donde: 𝜏̂𝑠𝑡 = 2006.6667, 𝑁 = 5,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094.
Por lo tanto:
2,066.6667 ± (5,000)(1.645)(0.032094)
2,066.6667 ± 263.97315
1,802.6935 ≤ 𝜏𝑠𝑡 ≤ 2,330.6398.
El total de personas diabéticas está entre 1,802.6935 y 2,330.6398, con una
confiabilidad de 90%.
f) Suponga que 𝑛 = 300 es una muestra preliminar. Determine el tamaño de la muestra
para estimar la media con precisión de 0.05 y confiabilidad de 90%. Además, realice
la asignación de 𝑛 a cada estrato en forma proporcional al tamaño del mismo.
162
𝑛∗ =
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑁𝑡(𝑛−1,1−𝛼/2)
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2)
donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400,
𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y
2
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 =
𝑖=1
=
𝑁1
𝑁2
(𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 )
𝑁
𝑁
2,600
2,400
(0.3333)(0.6667) +
(0.5)(0.5)
5,000
5,000
= 0.11555 + 0.12 = 0.23555.
Por lo tanto:
(5,000)(1.645)2 (0.23555 )
𝑛 =
(5,000)(0.05)2 + (1.645)2 (0.23555 )
∗
𝑛∗ =
3,187.0209
= 242.5914 = 243 personas.
13.1374
La asignación de la muestra en forma proporcional:
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 5,000, 𝑛∗ = 242.5914, 𝑁1 = 2,600 y 𝑁2 = 2,400.
Por lo tanto:
𝑛1∗ =
2,600
(242.5914) = 126.1475 = 127
5,000
𝑛2∗ =
2,400
(242.5914) = 116.4439 = 117.
5,000
La muestra para estimar la media con precisión de 0.05 y confiabilidad de 90% debe
163
de ser de 243 personas: 127 hombres y 117 mujeres.
g) El tamaño de la muestra para estimar la media con precisión de 0.05, confiabilidad de
90% y un nivel de aseguramiento (𝛾) de 0.99.
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
⁄2) 𝑖=1 𝑖 𝑖 𝑖
𝑛𝑖∗ − 1
𝑛𝑚 =
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
𝑖
𝑖
𝑖
⁄2)
𝑖=1
𝑛𝑖∗ − 1
donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400,
𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y
𝜒12 (𝛾,𝑛1∗ −1)
𝑊1 𝑝1 𝑞1 (
𝑛1∗ −1
2,600
𝜒22 (𝛾,𝑛2∗ −1)
𝑊2 𝑝2 𝑞2 (
𝑛2∗ −1
164.8632
) = 5,000 (0.3333)(0.6667) (126.1475−1) = 0.152220,
2,400
153.7026
) = 5,000 (0.5)(0.5) (116.4439−1) = 0.159769 y
2
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
) = 0.152220 + 0.159769 = 0.311989.
𝑛𝑖∗ − 1
𝑖=1
Por lo tanto:
(5,000)(1.645)2 (0.311989)
𝑛𝑚 =
(5,000)(0.05)2 + (1.645)2 (0.311989)
𝑛𝑚 =
4,221.250169
= 316.3348 = 317 personas.
13.34425
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 5,000, 𝑛𝑚 = 316.3348, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400.
Por lo tanto:
164
𝑛𝑚 1 =
2,600
(316.3348) = 164.4941 = 165
5,000
𝑛𝑚 2 =
2,400
(316.3348) = 151.8407 = 152.
5,000
La muestra para estimar la media con precisión de 0.05, confiabilidad de 90% y
aseguramiento de 99% debe de ser de 317 personas: 165 hombres y 152 mujeres.
EJERCICIOS
En los ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total estratificado con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción y el total estratificado de tal manera
que la proporción y el total sean estimados con una precisión de 5% de la proporción
preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 85%?
Ejercicio 4.5. Un investigador estudió los niveles de colesterol sérico en 500 personas
mayores de 45 años (300 mujeres y 200 hombres). Dado que piensa que el género influye
en la variable respuesta, estratificó la población por género. Para poder estimar la
cantidad de personas que tiene altos niveles de colesterol, tomó una muestra aleatoria
simple de 120 personas: 84 hombres y 36 mujeres. Al momento de realizar las mediciones
encontró que tres mujeres y cinco hombres tenían un alto nivel de colesterol.
Ejercicio 4.6. Un agrónomo sembró tres variedades de manzanas. En total sembró 5,000
plantas: 1,000 pertenecen a la variedad uno, 2,500 a la dos y 1,500 a la tres. Para calcular
el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria
de 250 plantas: 100 de la primera variedad, 100 de la segunda y 50 de la tercera. El número
de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno, cuatro en la
variedad dos y seis en la variedad tres.
165
Ejercicio 4.7. En una población urbana de 3,500 personas del estado de Michoacán, se
desea conocer la cantidad de personas que utilizan Internet. Supóngase que en dicha
población 45% son adolescentes, 30% niños y el resto adultos. Para estimar el porcentaje
y total de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos
distribuidos de la siguiente manera: adolescentes: 𝑛1 = 200, niños: 𝑛2 = 150 y adultos:
𝑛3 = 250. Los resultados del número de personas que usan Internet por estrato son: 70,
30 y 40, respectivamente.
Ejercicio 4.8. A un centro de salud asisten aproximadamente 7,000 personas de los cuales
4,000 son adolescentes y 3,000 son adultos. Se desea conocer el porcentaje de personas
que hacen ejercicio diariamente y para ello se toma una muestra aleatoria de 350
individuos (150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio
diariamente. Los resultados obtenidos son los siguientes: 12 en el estrato de adolescentes
hacen ejercicio diariamente, mientras que seis en el de adultos.
4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas
bajo MAE
Cuando una población es estratificada y los elementos de sus estratos requieren de una
prueba de laboratorio o algún dispositivo especializado se recurre al MAE (proporción)
para pruebas imperfectas. Lógicamente que al tomar en cuenta la sensibilidad y
especificidad, los estimadores para la proporción estratificada, los IC’s, el total y el
tamaño de muestra son distintos. A continuación se presentan los estimadores
apropiados.
De acuerdo con Rogan & Gladen (1978) el estimador de la proporción estratificada
tomando en cuenta la sensibilidad y especificidad de la prueba es:
𝐸
∗
𝑝𝑠𝑡
1
= ∑ 𝑁𝑖 𝑝𝑖∗
𝑁
𝑖=1
166
𝑝𝑖∗ =
𝑝𝑖 + 𝑆𝑝 − 1
𝑆𝑒 + 𝑆𝑝 − 1
𝑎
donde 𝑝𝑖 = 𝑛𝑖 , 𝑞𝑖 = 1 − 𝑝𝑖 , 𝑎𝑖 denota el número de individuos positivos de la muestra de
𝑖
tamaño 𝑛𝑖 en el estrato 𝑖, 𝑆𝑒 y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de
laboratorio, respectivamente. El estimador 𝑝𝑖∗ de 𝑝𝑖 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝
son conocidas, pero el sesgo es mayor si estas son desconocidas, es decir, si se usa una
estimación de ellas, aunque bajo estas condiciones las estimaciones resultantes son
∗
aceptables. Bajo este contexto un estimador de la varianza de 𝑝𝑠𝑡
es dado por:
𝐸
𝑆𝑦2∗
̅𝑠𝑡
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 ,
𝑁
𝑖=1
𝑆𝑝2∗𝑖 =
𝑁𝑖 − 𝑛𝑖
𝑝𝑖 𝑞𝑖
(
)
2
𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)
𝑛𝑖
Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗
̅𝑠𝑡 . Por
∗
∗
∗
otro lado, un IC para 𝑝𝑠𝑡
es dado por 𝑝𝑠𝑡
± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . El total es 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
y su
correspondiente IC es: 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . La fórmula para determinar el tamaño de
muestra de manera tradicional es igual a:
∗
𝑛 =
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
2
𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la proporción.
Sin embargo, hay que resaltar que la ecuación anterior garantiza que la amplitud del
IC se cumplirá solamente 50% de las veces. Por ello a continuación se brinda la expresión
apropiada para determinar el tamaño de muestra que asegura exactitud en la estimación
de la proporción estratificada:
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
)
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
𝑛𝑖∗ − 1
𝑛𝑚 =
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
⁄2) 𝑖=1 𝑖 𝑖 𝑖
𝑛𝑖∗ − 1
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
la proporción estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el
167
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas
de las distribuciones t-Student y Ji-Cuadrada. Además, sin pérdida de precisión
significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 4.5. En cierto poblado hay una hectárea con 3,000 árboles de limón. Se desea
saber el porcentaje y el total de árboles que han sido atacados con una plaga. De la
población 1,100 son árboles adultos, 1,000 árboles jóvenes y 900 árboles ancianos. Se
realiza una prueba a 800 árboles, 400 adultos, 250 jóvenes y 150 ancianos. Los resultados
indican que 40, 20 y 6 árboles fueron dañados por la plaga, respectivamente. La prueba
tiene 0.99 de sensibilidad y 0.98 de especificidad.
a) La proporción estratificada.
𝐸
∗
𝑝𝑠𝑡
1
= ∑ 𝑁𝑖 𝑝𝑖∗ ,
𝑁
𝑝𝑖∗ =
𝑖=1
𝑝𝑖 + 𝑆𝑝 − 1
𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
40
20
6
𝑝𝑖 : 𝑝1 = 400 = 0.1, 𝑝2 = 250 = 0.08, 𝑝3 = 150 = 0.04, 𝐸 = 3,
𝑝 +𝑆𝑝−1
0.1+0.98−1
0.08
1
𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1
= 0.99+0.98−1 = 0.97 = 0.0825,
𝑝 +𝑆𝑝−1
2
𝑝2∗ = 𝑆𝑒+𝑆𝑝−1
=
𝑝 +𝑆𝑝−1
3
𝑝3∗ = 𝑆𝑒+𝑆𝑝−1
=
0.08+0.98−1
0.99+0.98−1
0.04+0.98−1
0.99+0.98−1
0.06
= 0.97 = 0.0619 y
0.02
= 0.97 = 0.0206.
Por lo tanto:
∗
𝑝𝑠𝑡
=
168
1
(1,100(0.0825) + 1,000(0.0619) + 900(0.0206))
3,000
∗
𝑝𝑠𝑡
=
171.19
= 0.057 ó 6% árboles dañados.
3,000
b) El total estratificado.
∗
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
donde: 𝑁 = 3,000 y 𝑝𝑠𝑡
= 0.057.
Por lo tanto:
𝜏̂ ∗ = 3,000(0.057) = 171.
c) La varianza y desviación estándar de la media estratificada.
𝐸
𝑆𝑦2∗
̅𝑠𝑡
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 ,
𝑁
𝑆𝑝2∗𝑖 =
𝑖=1
𝑁𝑖 − 𝑛𝑖
𝑝𝑖 𝑞𝑖
(
)
𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96, 𝐸 = 3,
1,100−400
𝑆𝑝2∗𝑖 : 𝑆𝑝2∗1 = (1,100(0.99+0.98−1)2 ) (
400
) = 0.00015218,
(0.08)(0.92)
1,000−250
𝑆𝑝2∗2 = (1,000(0.99+0.98−1)2 ) (
900−150
(0.1)(0.9)
250
(0.04)(0.96)
𝑆𝑝2∗3 = (900(0.99+0.98−1)2 ) (
150
) = 0.00023467 y
) = 0.00022673.
Por lo tanto:
𝑆𝑦2∗
̅𝑠𝑡 =
(1,100)2 (0.00015218) + (1,000)2 (0.00023467) + (900)2 (0.00022673)
(3,000)2
𝑆𝑦2∗
̅𝑠𝑡 =
602.4551
= 0.0000669395.
9,000,000
Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗
̅𝑠𝑡 = √0.0000669395 = 0.00818165.
169
d) IC para la proporción estratificada con confiabilidad del 95%.
∗
𝑝𝑠𝑡
± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
∗
donde: 𝑝𝑠𝑡
= 0.057, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.057 ± (1.96)(0.00818165)
0.057 ± 0.016036034
0.040963966 ≤ 𝑃𝑠𝑡 ≤ 0.073036034.
La proporción verdadera de árboles de limón atacados con la plaga está entre
4.09% y 7.3%.
e) IC para el total estratificado con la confiabilidad de 95%.
𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
donde: 𝜏̂ ∗ = 171, 𝑁 = 3,000, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
171 ± (3,000)(1.96)(0.00818165)
171 ± 48.108102
122.891898 ≤ 𝜏 ≤ 219.108102.
f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de la muestra para estimar la
media con precisión de 0.05 y una confiabilidad del 95% (Se utilizan 𝑝 y 𝑞
originales):
∗
𝑛 =
170
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑁𝑡(𝑛−1,1−𝛼/2)
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼/2)
donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96 y
𝐸
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 =
𝑖=1
𝑁1
𝑁2
𝑁3
𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3
𝑁
𝑁
𝑁
=
1,100
1,000
900
(0.1)(0.9) +
(0.08)(0.92) +
(0.04)(0.96)
3,000
3,000
3,000
= 0.033 + 0.02453 + 0.01152 = 0.0691.
Por lo tanto:
𝑛∗ =
(3,000)(1.96)2 (0.0691 )
(3,000)(0.99 + 0.98 − 1)2 (0.05)2 + (1.96)2 (0.0691 )
𝑛∗ =
796.36368
= 108.7601 = 109 árboles.
7.322204
La asignación de la muestra proporcional:
𝑛𝑖 =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 3,000, 𝑛∗ = 108.760, 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900.
Por lo tanto:
1,100
𝑛1 = 3,000 (108.7601) = 39.8787 = 40
1,000
𝑛2 = 3,000 (108.7601) = 36.2533 = 36
900
𝑛3 = 3,000 (108.7601) = 32.6280 = 33.
La muestra para estimar la media estratificada con precisión de 0.05 y
confiabilidad de 95% es de 109 árboles: 38 adultos, 35 jóvenes y 31 ancianos.
171
g) El tamaño de la muestra modificado con una confiabilidad del 95%, una precisión
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es:
𝜒 2 (𝛾, 𝑛∗ − 1)
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖
𝑁𝑡(𝑛−1,1−𝛼/2)
)
𝑛𝑖 − 1
𝑛𝑚 =
𝜒 2 (𝛾, 𝑛∗ − 1)
2
∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2)
)
𝑛𝑖 − 1
donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96,
𝜒12 (𝛾,𝑛1∗ −1)
𝑊1 𝑝1 𝑞1 (
𝑛1∗ −1
1,100
𝜒22 (𝛾,𝑛2∗ −1)
𝑊2 𝑝2 𝑞2 (
𝑛2∗ −1
𝑛3∗ −1
1,000
57.6659
900
53.0048
) = 3,000 (0.08)(0.92) (36.2533−1) = 0.040125,
𝜒32 (𝛾,𝑛3∗ −1)
𝑊3 𝑝3 𝑞3 (
62.2747
) = 3,000 (0.1)(0.9) (39.8787−1) = 0.052858,
) = 3,000 (0.04)(0.96) (32.6280−1) = 0.019306 y
𝜒𝑖2 (𝛾,𝑛𝑖∗ −1)
∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
𝑛𝑖∗ −1
) = 0.052858 + 0.040125 + 0.019306 = 0.112289.
Por lo tanto:
𝑛𝑚 =
(3,000)(1.96)2 (0.112289)
(3,000)(0.05)2 (0.99 + 0.98 − 1)2 + (1.96)2 (0.112289)
𝑛𝑚 =
1294.108267
7.488119
𝑛𝑚 = 172.8215 = 173 árboles.
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 3,000, 𝑛𝑚 = 172.8215, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900.
Por lo tanto:
172
1,100
𝑛𝑚 1 = 3,000 (172.8215) = 63.3679 = 63
1,000
𝑛𝑚 2 = 3,000 (172.8215) = 57.6072 = 58
900
𝑛𝑚 3 = 3,000 (172.8215) = 51.8465 = 52.
La muestra para estimar la media estratificada con precisión de 0.05,
confiabilidad de 95% y aseguramiento de 99%, es de 173 árboles: 63 adultos, 58
jóvenes, y 52 ancianos.
Ejemplo 4.6. Se aplicó una prueba indicadora de contaminación a una población de 𝑁 =
2,000 árboles de papaya. Se desea saber el porcentaje y el total de árboles que han sido
contaminados. En la población, 700 son árboles grandes, 800 árboles medianos y 500
árboles chicos. Se realizó una prueba a 500 árboles, 200 grandes, 150 medianos y 150
chicos. Los resultados fueron 40, 30 y 15 árboles contaminados, respectivamente. La
prueba tiene 0.99 de sensibilidad y 0.97 de especificidad.
a) Proporción estratificada.
𝐸
∗
𝑝𝑠𝑡
1
= ∑ 𝑁𝑖 𝑝𝑖∗ ,
𝑁
𝑝𝑖∗ =
𝑖=1
𝑝𝑖 + 𝑆𝑝 − 1
𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝐸 = 3, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,
40
30
15
𝑝𝑖 : 𝑝1 = 200 = 0.2, 𝑝2 = 150 = 0.2, 𝑝3 = 150 = 0.1,
𝑝 +𝑆𝑝−1
0.2+0.97−1
0.17
1
𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1
= 0.99+0.97−1 = 0.96 = 0.1771,
𝑝 +𝑆𝑝−1
0.2+0.97−1
0.17
𝑝 +𝑆𝑝−1
0.1+0.97−1
0.07
2
𝑝2∗ = 𝑆𝑒+𝑆𝑝−1
= 0.99+0.97−1 = 0.96 = 0.1771 y
3
𝑝3∗ = 𝑆𝑒+𝑆𝑝−1
= 0.99+0.97−1 = 0.96 = 0.0729.
Por lo tanto:
173
∗
𝑝𝑠𝑡
=
1
(700(0.1771) + 800(0.1771) + 500(0.0729))
2,000
∗
𝑝𝑠𝑡
=
302.1
= 0.151 ó 15.1% árboles contaminados.
2,000
b) Total estratificado.
∗
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
donde: 𝑁 = 2,000 y 𝑝𝑠𝑡
= 0.151
Por lo tanto:
𝜏̂ ∗ = 2,000(0.151) = 302.
c) Varianza y desviación estándar de la población estratificada
𝐸
𝑆𝑦2∗
̅𝑠𝑡
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 ,
𝑁
𝑆𝑝2∗𝑖 =
𝑖=1
𝑁𝑖 − 𝑛𝑖
𝑝𝑖 𝑞𝑖
(
)
𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 𝐸 = 3,
𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9,
(0.2)(0.8)
700−200
2∗ 2∗
𝑆𝑝𝑖
: 𝑆𝑝1 = (700(0.99+0.97−1)2 ) (
) = 0.00062004,
(0.2)(0.8)
800−150
2∗
𝑆𝑝2
= (800(0.99+0.97−1)2 ) (
500−150
200
) = 0.00094004 y
150
(0.1)(0.9)
2∗
𝑆𝑝3
= (500(0.99+0.97−1)2 ) (
150
) = 0.00045572.
Por lo tanto:
(700)2 (0.00062004) + (800)2 (0.00094004) + (500)2 (0.00045572)
(2,000)2
𝑆𝑦2∗
̅𝑠𝑡 =
1,019.3752
= 0.0002548.
4,000,000
174
𝑆𝑦2∗
̅𝑠𝑡 =
Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗
̅𝑠𝑡 = √0.0002548 = 0.015962.
d) IC para la proporción estratificada con confiabilidad del 95%.
∗
𝑝𝑠𝑡
± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
∗
donde: 𝑝𝑠𝑡
= 0.151, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96.
Por lo tanto:
0.151 ± (1.96)(0.015962)
0.151 ± 0.031285
∗
0.119715 ≤ 𝑃𝑠𝑡
≤ 0.182285.
La proporción verdadera de árboles contaminados está entre 11.97 y 18.22%.
e) Estimación por intervalo para el total estratificado con la confiabilidad de 95%.
𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
donde: 𝜏̂ ∗ = 302, 𝑁 = 2,000, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96.
Por lo tanto:
302 ± (2,000)(1.96)(0.015962)
302 ± 62.57104
239.4289 ≤ 𝜏 ≤ 364.571.
El total verdadero de árboles contaminados está entre 239.4289 y 364.571.
175
f) Suponga que 𝑛 = 500 es una muestra preliminar. Determina el tamaño de la muestra
para estimar la media con precisión de 0.03 y confiabilidad de 95%. Utilizar 𝑝 y 𝑞
originales.
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 =
2
𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
∗
donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,
𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y
3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 =
𝑖=1
=
𝑁1
𝑁2
𝑁3
𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3
𝑁
𝑁
𝑁
700
800
500
(0.2)(0.8) +
(0.2)(0.8) +
(0.1)(0.9)
2,000
2,000
2,000
= 0.056 + 0.064 + 0.0225 = 0.1425.
Por lo tanto:
𝑛∗ =
(2,000)(1.96)2 (0.1425 )
(2,000)(0.99 + 0.97 − 1)2 (0.03)2 + (1.96)2 (0.1425 )
𝑛∗ =
1,094.856
= 496.239 = 497 árboles.
2.206308
La asignación de la muestra en forma proporcional:
𝑛𝑖 =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 2,000, 𝑛∗ = 496.239, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500.
Por lo tanto:
700
𝑛1 = 2,000 (496.239) = 173.6837 = 174
176
800
𝑛2 = 2,000 (496.239) = 198.4956 = 199
500
𝑛3 = 2,000 (496.239) = 124.0598 = 125.
La muestra para estimar la media con precisión de 0.03 y confiabilidad de 95% debe
de ser de 497 árboles: 174 grandes, 199 medianos, y 125 chicos.
g) Tamaño de la muestra modificado con un nivel de confiabilidad del 95%, una
precisión de 0.03 y un nivel de aseguramiento (𝛾) de 0.90.
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
)
𝑛𝑖∗ − 1
𝑛𝑚 =
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
2
𝐸
∑
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼
𝑊
𝑝
𝑞
(
)
⁄2) 𝑖=1 𝑖 𝑖 𝑖
𝑛𝑖∗ − 1
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,
𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y
𝜒12 (𝛾, 𝑛1∗ − 1)
700
196.8872
(0.2)(0.8)
𝑊1 𝑝1 𝑞1 (
)
=
(
) = 0.063850,
𝑛1∗ − 1
2,000
173.6837 − 1
𝜒22 (𝛾, 𝑛2∗ − 1)
800
223.3554
(0.2)(0.8)
𝑊2 𝑝2 𝑞2 (
)
=
(
) = 0.072380,
𝑛2∗ − 1
2,000
198.4956 − 1
𝜒32 (𝛾, 𝑛3∗ − 1)
500
143.5445
(0.1)(0.9) (
𝑊3 𝑝3 𝑞3 (
)=
) = 0.026245 y
∗
𝑛3 − 1
2,000
124.0598 − 1
3
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 (
) = 0.06385 + 0.07238 + 0.026245 = 0.162475
𝑛𝑖∗ − 1
𝑖=1
Por lo tanto:
(2,000)(1.96)2 (0.162475)
(2,000)(0.03)2 (0.99 + 0.97 − 1)2 + (1.96)2 (0.162475)
𝑛𝑚 =
1,248.3279
= 546.7930 = 547 árboles.
2.2830
177
𝑛𝑚 =
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 2,000, 𝑛𝑚 = 546.7930, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500.
Por lo tanto:
700
𝑛𝑚 1 = 2,000 (546.7930) = 191.3775 = 192
800
𝑛𝑚 2 = 2,000 (546.7930) = 218.7172 = 219
500
𝑛𝑚 3 = 2,000 (546.7930) = 136.6983 = 137.
La muestra para estimar la media con precisión de 0.05, confiabilidad de 95% y
aseguramiento de 90% debe de ser de 547 árboles: 192 grandes, 219 medianos, y 137
chicos.
EJERCICIOS
En los ejercicios siguientes estime los parámetros considerando una Sensibilidad de 97%
y una Especificidad de 98% donde se requiera:
c) El IC para la proporción y el total estratificado con una confiabilidad de 90%.
d) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción de tal manera que sea estimado con una precisión
de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de
aseguramiento de 90%?
Ejercicio 4.9. Una empresa estudió los niveles de azúcar en la sangre en 450 personas
mayores de 40 años (250 mujeres y 200 hombres). Dado que cree que el sexo influye en la
178
variable respuesta, estratificó la población por sexo. Para poder estimar la cantidad de
personas que tienen altos niveles de azúcar, tomó una muestra aleatoria simple de 110
personas: 50 hombres y 60 mujeres. Al momento de realizar las mediciones encontró que
cuatro mujeres y tres hombres tenían un alto nivel de azúcar.
Ejercicio 4.10. Una empresa agraria sembró tres variedades de limón. En total sembró
4,600 plantas: 1,200 pertenecen a la variedad uno, 2,000 a la dos y 1,400 a la tres. Para
calcular el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra
aleatoria de 300 plantas: 120 de la primera variedad, 100 de la segunda y 80 de la tercera.
El número de plantas dañadas por estrato es el siguiente: 14 plantas en la variedad uno,
10 en la variedad dos y 8 en la variedad tres.
Ejercicio 4.11. En una población urbana de 4,200 personas del estado de Sonora se desea
conocer la cantidad de personas que utilizan internet mediante su dispositivo móvil.
Supóngase que en dicha población 40% son adolescentes, 30% niños y el resto adultos.
Para estimar el porcentaje y total de personas que utilizan internet se tomó una muestra
aleatoria de 660 individuos distribuidos de la siguiente manera: adolescentes: 𝑛1 = 240,
niños: 𝑛2 = 220 y adultos: 𝑛3 = 200. Los resultados del número de personas que usan
internet por estrato son: 75, 35 y 38, respectivamente.
Ejercicio 4.12. A un centro médico asisten aproximadamente 6,500 personas de los cuales
3,200 son adolescentes y 2,800 son adultos. Se desea conocer el porcentaje de personas
que practican algún deporte diariamente. Para ello se toma una muestra aleatoria de 340
individuos (160 son adolescentes y 180 adultos) y se les pregunta si practican algún
deporte diariamente. Los resultados obtenidos son los siguientes: 11 en el estrato de
adolescentes y 6 en el de adultos.
179
Capítulo 5. Muestreo Sistemático
CAPÍTULO 5
Muestreo sistemático
La estadística produce
resultados muy precisos,
cuando es bien utilizada
y se respetan sus principios.
OAML
L
a aleatoriedad en la selección de la muestra da sustento a los métodos revisados en
capítulos anteriores: un proceso complicado y costoso. Por tal motivo, podemos usar
el diseño de muestreo o de encuestas por muestreo sistemático, que es ampliamente
utilizado para reducir el proceso de selección de la muestra. Este diseño sólo requiere
fijar un intervalo y de ahí recorrer la población eligiendo las unidades que se encuentren
en el punto seleccionado del intervalo. Ello evidentemente facilita el trabajo de campo en
el muestreo y reduce sustancialmente los errores que se podrían cometer en caso de usar
un procedimiento más laborioso (Pérez, 2000).
Cuando se toma la muestra de una superficie, las unidades se extraen
premeditadamente de un plano cartesiano imaginario. De esta manera el tiempo que se
consumirá y el costo de selección por unidad muestral será menor (Pérez, 2000).
Muestra sistemática
Es una muestra que se obtiene con una unidad muestral por cada 𝑘 unidades en la
población de tamaño 𝑁, una vez que se obtuvo el primer elemento, el cual se selecciona
aleatoriamente dentro de los primeros 𝑘 elementos que conforman el marco de
muestreo. De esta manera se toman el valor apropiado de 𝑘 y se dice que se tiene una
muestra de 1 en 𝑘. A este tipo de muestra la denotaremos como 𝑌𝑠𝑦 .
180
Regularmente, 𝑁 es un múltiplo de 𝑘. A cada conjunto de 𝑘 unidades se le llama grupo.
Cabe señalar que existe el muestreo sistemático cuando 𝑁 no es múltiplo de 𝑘.
En el Cuadro 5.1 se muestra el esquema de un muestreo sistemático, donde 𝑁 es un
múltiplo de 𝑘, y contiene las unidades que se seleccionan de la población, donde la
primera unidad seleccionada (𝑘) es aleatoria.
Cuadro 5.1 Esquema de muestreo sistemático
Grupo
1
2
3
⋯
𝒌
1
1
2
3
⋯
𝑘
2
𝑘+1
𝑘+2
𝑘+3
⋯
2𝑘
3
2𝑘 + 1
2𝑘 + 2
2𝑘 + 3
⋯
3𝑘
⋮
⋮
⋮
⋮
⋮
⋮
𝑗
(𝑗 − 1)𝑘 + 1
(𝑗 − 1)𝑘 + 2
(𝑗 − 1)𝑘 + 3
⋯
𝑗𝑘
⋮
⋮
⋮
⋮
⋮
⋮
𝑛
(𝑛 − 1)𝑘 + 1
(𝑛 − 1)𝑘 + 2
(𝑛 − 1)𝑘 + 3
⋯
𝑛𝑘 = 𝑁
La mayoría de autores coincide en señalar que este diseño es quizá el procedimiento
de selección de muestra más conocido, que además posee ventajas sobre la selección
aleatoria simple, entre las que se pueden mencionar:
Rapidez y facilidad en la selección de los elementos de la muestra en la población.
Ninguna sucesión grande de elementos en la población queda sin representación.
Se está menos expuesto a errores de selección que cometen los investigadores en el
campo.
Bajo costo, por la simplicidad de la selección.
Mejor organización y control en el trabajo de campo.
En la práctica, la estimación de la varianza sistemática del estimador bajo estudio
presenta problemas, ya que se requieren cuando menos dos selecciones aleatorias por
cada intervalo de selección (𝑘), es decir, dos o más muestras sistemáticas para la misma
población.
181
Si se conoce la estructura de la población, la anterior dificultad puede resolverse
considerando el muestreo sistemático como equivalente al muestreo aleatorio simple, y
por lo tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria
simple del estimador bajo estudio.
Es conveniente y oportuno indicar a continuación para cuáles poblaciones es válida
dicha equivalencia.
5.1 Tipos de población por su estructura
Población aleatoria
Una población es aleatoria (Figura 5.1) si sus elementos están ordenados al azar con
respecto a la característica de interés. Autores como Kish (1972), Scheaffer et al. (1987) y
Azorin (1972), entre otros, coinciden al indicar que el muestreo sistemático bajo estas
condiciones es equivalente al muestreo aleatorio simple. Esto significa que la varianza
bajo MAS es aproximadamente igual a la varianza bajo muestreo sistemático.
Figura 5.1. La dispersión del marco de muestreo de una población aleatoria.
Población ordenada
Una población es ordenada (Figura 5.2) si los elementos dentro de la población están
ordenados de acuerdo con algún esquema y con respecto a la variable de interés.
182
Scheaffer et al. (1987) indican que una muestra sistemática de tal población proporciona
más información que una muestra aleatoria simple por unidad de costo (por ende, se
obtiene una mayor eficiencia en la generación de datos) debido a que la varianza
sistemática del estimador será menor que la varianza del mismo cuando se emplee el
muestreo aleatorio simple. La varianza sistemática del estimador no se puede estimar
directamente, por ello empleamos una aproximación conservadora (que es mayor de la
que se esperaría): se calcula la varianza del estimador con las expresiones vistas en el
capítulo 3 (muestreo aleatorio simple).
Población periódica
Una población es periódica cuando sus elementos tienen una variación cíclica con
respecto a la variable de interés. Scheaffer et al. (1987) señalan que una muestra
sistemática extraída de esta población proporciona menos información que una muestra
aleatoria simple por unidad de costo. Como en las situaciones anteriores, la varianza
sistemática del estimador no puede calcularse a partir de una sola muestra sistemática.
Es decir, se puede aproximar su valor empleando las expresiones correspondientes que
da el muestreo aleatorio simple pero, como es de esperarse, esta aproximación
subestimará la varianza verdadera (sistemática).
Figura 5.2. La dispersión del marco de muestreo de una población ordenada.
Como una alternativa para que esta subestimación sea mínima, se sugiere cambiar
varias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la
población y al mismo tiempo seleccionar la correspondiente muestra sistemática. En
183
consecuencia se puede suponer que la muestra así extraída es sistemática y proviene de
una población aleatoria.
Para lecturas adicionales, véanse, por ejemplo, Kish (1972), capítulo 4; Azorin (1972),
capítulo 21; y Scheaffer et al. (1987), capítulo 7.
5.2 ¿Cómo seleccionar una muestra sistemática?
Primero se debe decidir el tamaño del intervalo 1 en 𝑘 unidades, después se selecciona
aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la
𝑘−ésima unidad y así se continuará hasta llegar a 𝑁. Pero surge la pregunta de cómo
seleccionar la k adecuada. En general, para una muestra sistemática de n elementos en
una población de 𝑁, 𝑘 debe ser menor o igual a
𝑁
𝑛
. Si se desconoce 𝑁, entonces se
determina un tamaño de muestra 𝑛 aproximado y así se podría obtener una 𝑘 estimada
(Pérez, 2000).
A continuación, veamos algunas maneras de cómo elegir el valor de 𝑘 dependiente del
tamaño de la población:
I. Cuando el tamaño de la población, 𝑁, es múltiplo de 𝑛, (𝑁 = 𝑘𝑛).
Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.
Procedimiento:
1) Seleccionar aleatoriamente un número entero 𝑖 (arranque o inicio aleatorio)
comprendido entre 1 y 𝑘 (1 ≤ 𝑖 ≤ 𝑘).
184
2) Luego, de manera rígida o sistemática (de ahí proviene el nombre del
procedimiento), tomar el elemento 𝑖 + 𝑘 que está 𝑘 lugares del 𝑖-ésimo en la
lista, el 𝑖 + 2𝑘 que está 2𝑘 lugares después, y así sucesivamente hasta
completar el tamaño 𝑛 de la muestra. Nótese que la tabla de números
aleatorios u otro mecanismo de selección se emplea una sola vez en 𝑖.
Por ejemplo, si 𝑁 = 1,000 y se decide un tamaño de 𝑛 = 10, entonces 𝑘 =
1,000/10 = 100, el primer valor de 𝑘 será un valor entre 1 y 100, el cual se
elige al azar. Suponga que el primer valor es 40, entonces los elementos que
conformarán la muestra son: el 40, 140, 240, 340, 440, 540, 640, 740, 840 y 940.
II. Cuando el tamaño de la población (𝑁) no es múltiplo de 𝑛 (𝑁 ≠ 𝑛𝑘).
Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.
En la práctica, es frecuente que 𝑁 no sea un múltiplo de 𝑛, con lo cual la muestra
sistemática al final puede tener 𝑛 o 𝑛 − 1 elementos.
Azorin (1972) señala que esta diferencia de tamaños no suele ser importante cuando
la población es superior a 50. Por otro lado, Kish (1972) indica que este problema se
puede resolver de varias maneras y el investigador deberá seleccionar la más
conveniente. De las soluciones propuestas por dicho autor, describiremos la más
usual: considerar el marco de muestreo (lista) como si fuera circular.
Procedimiento:
1) Considerar el marco de muestreo como un círculo: que la primera unidad
continúe de la última.
185
2) Sea 𝑘 el entero más próximo a 𝑁/𝑛.
3) Seleccionar aleatoriamente un número entero entre 1 y 𝑁.
4) En seguida, seleccionar cada 𝑘-ésima unidad hasta completar los 𝑛 elementos
Por ejemplo, supóngase que 𝑁 = 300 y se decide un tamaño de 𝑛 = 9, entonces
300/9 = 33.3333 y 𝑘 = 33, ya que es el entero más próximo a 33.3333. Además,
supóngase que 270 es el entero seleccionado aleatoriamente entre uno y 300. Por
tanto, los elementos que conformarán la muestra son: 270, 3, 36, 69, 102, 135, 168,
201 y 234.
III. Cuando se desconoce el tamaño de la población (𝑁).
En este caso puede darse un valor tentativo de 𝑘; sin embargo, podría ser muy
grande y nos daría un tamaño de muestra menor que el requerido en el estudio.
Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente
la muestra y así seleccionar la 𝑘 que proporcione el tamaño requerido. Sin embargo,
hay muchos casos en los que esto no es posible y es necesario tener una precisión
dada al principio. Ello hace difícil la tarea de estimar un valor adecuado de 𝑘 (Pérez,
2000).
5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático
Estimación de la media y el total de la muestra sistemática
Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una
muestra estimando los parámetros de mayor interés, como la media y el total poblacional.
Después se procede a estimar los parámetros con sus correspondientes varianzas y por
último los intervalos de confianza.
𝜇̂ = 𝑦̅𝑠 =
∑𝑛𝑖=1 𝑦𝑖
𝑛
𝜏̂ 𝑠 = 𝑁𝑦̅𝑠
186
A continuación se presentan los estimadores correspondientes a las varianzas de la
media y del total.
La varianza de la media y del total
𝑁 − 𝑛 𝑠2
̂
𝑉 (𝑦̅𝑠 ) = (
)( )
𝑁
𝑛
𝑉(𝜏̂ 𝑠 ) = 𝑁 2 (
𝑁 − 𝑛 𝑠2
)( )
𝑁
𝑛
El estimador de la varianza del total se obtiene multiplicando el estimador de la varianza
de la media por 𝑁 2 .
Los intervalos de confianza para la media y para el total
𝑁 − 𝑛 𝑠2
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √(
)( )
𝑁
𝑛
donde 𝑦̅𝑠 es la media de la muestra sistemática.
𝜏̂ 𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑁 2 (
𝑁 − 𝑛 𝑠2
)( )
𝑁
𝑛
Obsérvese que la estimación de la varianza es la misma que la presentada en el muestreo
aleatorio aleatorio. Sin embargo, las varianzas poblacionales no son las mismas. La
varianza del estimador de la media de una muestra sistemática es:
𝑉(𝑦̅𝑠 ) =
187
𝜎2
[1 + (𝑛 − 1)𝜌𝑋𝑌 ]
𝑛
En la fórmula anterior aparece la medida de correlación 𝜌𝑋𝑌 que indica la relación que
existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy
ligado a este indicador. Si 𝜌𝑋𝑌 está alrededor de uno, quiere decir que los elementos están
estrechamente relacionados entre sí y eso producirá una mayor varianza de la media que
en el muestreo simple aleatorio (éste será el más indicado). En caso contrario, si 𝜌𝑋𝑌 está
cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la
varianza es aproximadamente igual al muestreo simple aleatorio (Scheaffer et al., 1987).
Por lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son
apropiados cuando el coeficiente de correlación (𝜌𝑋𝑌 ) es casi cero, de lo contrario la
muestra debe ser seleccionada bajo MAS o MAE.
La selección del tamaño de la muestra
A fin de determinar el tamaño de la muestra para estimar a 𝜇, se procede como en los
capítulos anteriores. Primero se elige un valor de 𝑑, es decir, la precisión que se está
dispuesto a aceptar en las estimaciones, y se iguala al producto de un valor de 𝑡 (con sus
correspondientes grados de libertad) por la desviación estándar de dicho estimador,
como se representa a continuación:
𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝑦̅𝑠 )
5.1
El tamaño de muestra para estimar la media
Despejando 𝑛 de esta ecuación (5.1), se obtiene lo siguiente:
𝑛∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎
2
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝜎
donde la varianza poblacional 𝜎 2 se puede sustituir por la muestral.
El tamaño de muestra modificado
188
5.2
𝑛𝑚 =
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
2
𝜒(𝛾,
𝑛∗ −1)
2
2
2
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
5.3
donde la varianza poblacional 𝜎 2 se sustituye por la muestral.
EJEMPLOS
Ejemplo 5.1. Una línea de producción de leche ultrapasteurizada elabora 𝑁 = 1,000
envases por hora (cada envase contiene un litro de leche). Se desea saber si cada envase
de leche cumple con el porcentaje de grasa. Para ello se toma una muestra sistemática de
10 envases. Primero se elige 𝑘.
𝑘=
𝑁 1,000
=
= 100.
𝑛
10
Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo
aleatoriamente el primer elemento entre los primeros 100 (Cuadro 5.2).
Cuadro 5.2. Porcentaje de grasa por envase de leche.
No. de muestra
Porcentaje de grasa
80
2.5
180
2.6
280
2.7
380
2.6
480
2.8
580
2.9
680
3.0
780
2.6
880
2.7
980
2.8
a) Promedio de grasa por envase.
189
∑𝑛𝑖=1 𝑦𝑖
𝑛
2.5 + 2.6 + 2.7 + 2.6 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8
𝑦̅𝑠 =
= 2.72 o 2.72% de grasa.
10
𝑦̅𝑠 =
b) La varianza muestral (𝑆𝑠2 ).
𝑆𝑠2 =
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2
𝑛−1
𝑆𝑠2 =
2.52 + 2.62 + ⋯ + 2.72 + 2.82 − 10(2.72)2
= 0.024.
10 − 1
c) La varianza y la desviación estándar de la media muestral.
𝑆𝑦2̅𝑠 = (
𝑁 − 𝑛 𝑆𝑠2
)( )
𝑁
𝑛
𝑆𝑦2̅𝑠 = (
1,000 − 10 0.024
)(
) = 0.002376
1,000
10
𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.002376 = 0.048744.
d) IC del promedio de grasa por e nv ase de leche con una confiabilidad de 95%.
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
donde: 𝑦̅𝑠 = 2.72, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622.
Por lo tanto:
2.72 ± (2.2622)(0.048744)
2.72 ± 0.110269
2.609731 ≤ 𝜇 ≤ 2.830269.
Es decir, con una confiabilidad de 95% se estima que el promedio de grasa por
envase de leche está entre 2.609731 y 2.830269.
190
e) Cantidad total de grasa que se encuentra en los envases.
𝜏̂ = 𝑁𝑦̅𝑠 = (1,000)(2.72) = 2,720 gramos de grasa.
f) IC para el total de grasa por envase.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
donde: 𝜏̂ = 2,720, 𝑁 = 1,000, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622.
Por lo tanto:
2,720 ± (1,000)(2.2622)(0.048744)
2,720 ± 110.268677
2,609.7313 ≤ 𝜏 ≤ 2,830.2687
Es decir, con 95% de confianza se estima que el total de grasa por envase está entre
2,609.7313 y 2,830.2687.
g) Si la muestra seleccionada es una muestra preliminar de tamaño 𝑛 = 10. El tamaño
de muestra necesario para estimar el promedio de grasa por envase, con una precisión
de 0.05% de grasa por envase y una confiabilidad de 95% es:
∗
𝑛 =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑆𝑠
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑆𝑠
donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024 y 𝑑 = 0.05.
Por lo tanto:
𝑛∗ =
191
(1, 000)(2.2622)2 (0.024)
122.8218
=
= 46.8285 = 47 envases.
(1,000)(0.05)2 + (2.2622)2 (0.024)
2.6228
h) El tamaño de muestra para estimar el promedio con una precisión de 0.05% de grasa
por envase, una confiabilidad de 95% y además un nivel de aseguramiento (𝛾) de
99% es:
𝑛𝑚 =
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑁𝑑2
+
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024,
2
2
𝜒(𝛾,
𝑛∗ −1) = 𝜒(0.99,46.8285−1) = 70.9881 y 𝑑 = 0.05.
Por lo tanto:
70.9881
)
46.8285 − 1
𝑛𝑚 =
70.9881
(1,000)(0.05)2 + (2.2622)2 (0.024) (
)
46.8285 − 1
190.249335
= 70.7181 = 71.
𝑛𝑚 =
2.690249
(1, 000)(2.2622)2 (0.024) (
Ejemplo 5.2. Un sembradío tiene 6,000 plantas de caña de azúcar. Por el arreglo de las
plantas (en surcos) es fácil enumerarlas del uno al 6,000. Suponga que se quieren conocer
los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación. Por
lo tanto, se toma una muestra sistemática de 𝑛 = 30. Primeramente se determina el valor
de 𝑘.
𝑘=
𝑁 6,000
=
= 200.
𝑛
30
Entonces, se debe muestrear cada 200 elementos (plantas), eligiendo aleatoriamente a
la primera planta de entre las primeras 200 (Cuadro 5.3).
Cuadro 5.3. Porcentaje de sacarosa por planta.
192
Número de
Porcentaje de
muestra
sacarosa
Número de
Porcentaje de
muestra
sacarosa
1
50
11.06
16
3,050
15.01
2
250
10.61
17
3,250
16.85
3
4
450
14.41
18
3,450
15.93
650
14.45
19
3,650
13.28
5
850
9.46
20
3,850
15.39
6
1,050
13.47
21
4,050
12.83
7
1,250
14.68
22
4,250
14.49
8
1,450
13.99
23
4,450
20.38
9
1,650
9.72
24
4,650
11.33
10
1,850
11.37
25
4,850
16.22
11
2,050
12.29
26
5,050
15.83
12
2,250
11.22
27
5,250
15.68
13
2,450
13.25
28
5,450
11.70
14
2,650
15.78
29
5,650
09.45
15
2,850
14.65
30
5,850
12.16
𝒏
𝒏
a) Promedio muestral.
∑𝑛𝑖=1 𝑦𝑖
𝑛
11.06 + 10.61 + 14.41 + ⋯ + 12.16
𝑦̅𝑠 =
= 13.5647 gr. de sacarosa por planta.
30
𝑦̅𝑠 =
b) La varianza muestral (𝑆𝑠2 ).
𝑆𝑠2
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2
=
𝑛−1
𝑆𝑠2
11.062 + 10.612 + 14.412 + ⋯ + 12.162 − 30(13.5647)2
=
= 6.2571.
30 − 1
c) Varianza y la desviación estándar de la media muestral.
𝑆𝑦2̅𝑠 = (
𝑁 − 𝑛 𝑆𝑠2
)( )
𝑁
𝑛
𝑆𝑦2̅𝑠 = (
6,000 − 30 6.2571
)(
) = 0.207527
6,000
30
La desviación estándar: 𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.207527 = 0.455551.
193
d) IC para el promedio de sacarosa por planta de caña de azúcar.
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
donde: 𝑦̅𝑠 = 13.5647, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452.
Por lo tanto:
13.5647 ± (2.0452)(0.455551)
13.5647 ± 0.931693
12.633 ≤ 𝜇 ≤ 14.4964.
Es decir, con una confiabilidad de 95% se estima que el valor de los gramos
promedio de sacarosa por caña de azúcar se encuentra entre 12.633y 14.4964.
e) Cantidad total de sacarosa en el sembradío de caña de azúcar.
𝜏̂ = 𝑁𝑦̅𝑠 = (6,000)(13.5647) = 81,388.2 gramos.
f) IC para el total de sacarosa en el sembradío de caña de azúcar.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
donde: 𝜏̂ = 81,388.2, 𝑁 = 6,000, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(30−1,1−0.025) = 2.0452.
Por lo tanto:
81,388.2 ± (6,000)(2.0452)(0.455551)
81,388.2 ± 5,590.157431
75,798.0426 ≤ 𝜏 ≤ 86,978.3574
Es decir, con 95% de confianza se estima que el total (gramos) de sacarosa en las 6,000
plantas de caña de azúcar está entre 75,798.0426 y 86,978.3674 gramos.
194
g) Suponga que la muestra seleccionada es a preliminar de tamaño 𝑛 = 30. ¿Cuál es el
tamaño de muestra necesario para estimar el promedio de sacarosa por planta de caña
de azúcar, con una precisión de 0.05 gramos de sacarosa y una confiabilidad de 95%?
𝑛∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑆𝑠
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑆𝑠
donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571 y 𝑑 = 0.05.
Por lo tanto:
(6, 000)(2.0452)2 (6.2571)
157,034.8031
𝑛 =
=
= 3,814.0701 = 3,815.
2
2
(6,000)(0.05) + (2.0452) (6.2571)
41.1725
∗
h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio de grasa por
envase de tal manera que el promedio tenga una precisión de 0.05% de grasa por
envase, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%?
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑁𝑑2
+
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571,
2
2
𝜒(𝛾,
𝑛∗ −1) = 𝜒(0.99,3814.0701−1) = 4,019.2 y 𝑑 = 0.05.
Por lo tanto:
𝑛𝑚 =
𝑛𝑚 =
195
4,019.2
(6,000)(2.0452)2 (6.2571) (3,814.0701 − 1)
4,019.2
(6,000)(0.05)2 + (2.0452)2 (6.2571) (3,814.0701 − 1)
165,523.9123
= 3,886.6965 = 3,887.
42.5873
EJERCICIOS
En los siguientes ejercicios estime los parámetros solicitados.
a) El IC para la media y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de
muestra para estimar la media y el total de tal manera que sean estimados con una
precisión de 5% de la media preliminar, una confiabilidad de 95% y un nivel de
aseguramiento de 90%?
Ejercicio 5.1. Asistieron 𝑁 = 5,000 personas a una fiesta y fueron enumeradas del uno al
5,000. Se desea conocer la cantidad promedio de cervezas ingeridas por persona y se tomó
una muestra sistemática de 25 personas (véase el Cuadro 5.4).
Cuadro 5.4. Datos de la muestra.
1
2
Número de
muestra
25
225
3
425
5
18
3,425
6.0
4
625
7
19
3,625
5.0
5
825
5
20
3,825
6.0
6
1,025
4
21
4,025
5.0
7
1,225
7
22
4,225
4.0
8
1,425
3
23
4,425
4.5
9
1,625
8
24
4,625
5.0
10
1,825
3.5
25
4,825
7.0
11
2,025
4.5
12
2,225
6
13
2,425
6.5
14
2,625
7
15
2,825
3
𝒏
196
Ingeridas
𝒏
7.5
6
16
17
Número de
muestra
3,025
3,225
Ingeridas
6.0
6.0
Ejercicio 5.2. Una empresa de limones de Tecomán, Colima, empaca 𝑁 = 2,000 cajas de
limones por turno. Se desea estimar el número de limones dañados por caja. Se toma una
muestra sistemática de 𝑛 = 20. Use la información del Cuadro 5.5.
Cuadro 5.5. Datos de la muestra.
Muestra
Limones
Muestra
Limones
(No. de caja)
dañados
(No. de caja)
dañados
1
10
105
2
110
106
11
1,010
105
12
1,110
109
3
210
108
13
1,210
100
4
310
100
14
1,310
110
5
410
95
15
1,410
100
6
510
110
16
1,510
100
7
610
109
17
1,610
105
8
710
100
18
1,710
105
9
810
115
19
1,810
100
10
910
080
20
1,910
100
𝒏
𝒏
Ejercicio 5.3. En una colonia de la ciudad de Guadalajara hay 𝑁 = 2,500 casas, las cuales
se enumeraron del uno al 2,500. La Comisión Nacional del Agua desea estimar el gasto
promedio de agua en cientos de litros por casa, para ello tomó una muestra sistemática
de 𝑛 = 12. Use la información del Cuadro 5.6.
Cuadro 5.6. Datos de la muestra.
𝒏
1
197
Muestra
(No. de caja)
Litros
2,300
2.5
2
8
2.2
3
216
2.7
4
424
2.9
5
632
2.4
6
840
2.2
7
1,048
2.8
8
1,258
2.6
9
1,464
2.5
10
1,672
2.4
11
1,880
3
12
2,088
2.9
Ejercicio 5.4. En una empresa que se dedica a la digitalización de documentos, escanea
𝑁 = 1,500 cajas por día. Se desea conocer la cantidad de Documentos No Escaneados
Adecuadamente (DNEA), por lo que se enumeraron las cajas del uno al 1,500 y se tomó
una muestra 𝑛 = 15 cajas (véase la información del Cuadro 5.7).
Cuadro 5.7. Datos de la muestra.
𝒏
Muestra
(No. de caja)
Documentos No Escaneados Adecuadamente (DNEA)
1
60
2
2
160
3
3
260
2
4
360
4
5
460
2
6
560
3
7
660
1
8
760
4
9
860
5
10
960
2
11
1,060
3
12
1,160
3
13
1,260
2
14
1,360
2
15
1,460
4
5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático
Estimación de la proporción poblacional
Al igual que en los métodos anteriores, en ocasiones se desea estimar una proporción, es
decir, la frecuencia de una característica en particular. De esta forma, la observación que
posea la característica de interés tomará el valor de 1 o 0.
No es difícil justificar que la variable medida tiene una distribución binomial con
parámetros 𝑛 y 𝑝, donde 𝑛 representa el tamaño de la muestra y 𝑝 la proporción o
frecuencia relativa de éxitos en las 𝑛 observaciones. Las ecuaciones que se presentarán en
las subsecciones siguientes son idénticas a las expuestas en la sección dedicada a
198
proporciones en el capítulo de muestreo simple aleatorio y poseen las mismas
propiedades estadísticas.
Las varianzas de las poblaciones no necesariamente son las mismas en ambos casos.
Si nos referimos a una muestra sistemática proveniente de una población aleatoria con
un tamaño poblacional grande, las varianzas pueden llegar a ser las mismas (Scheaffer et
al., 1987).
El estimador de la proporción y el total
∑𝑛𝑖=1 𝑦𝑖
𝑝𝑠 = 𝑦̅𝑠 =
𝑛
𝜏𝑠 = 𝑁𝑝𝑠
(5.4)
(5.5)
La varianza estimada de la proporción y el total sistemático
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = (
)(
)
𝑁
𝑛
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝜏2𝑠 = 𝑁 2 (
)(
)
𝑁
𝑛
(5.6)
(5.7)
donde 𝑞𝑠 = 1 − 𝑝𝑠 .
Por último, para los estimadores (5.6 y 5.7) presentamos intervalos de confianza, que
nos indican los límites de la proporción y el total con una confiabilidad de (1−𝛼) por
ciento, y después la forma de seleccionar el tamaño de muestra para la proporción y el
total, la cual sigue el mismo procedimiento visto en capítulos anteriores.
El intervalo de confianza para la proporción y el total sistemático
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √(
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
)(
)
𝑁
𝑛
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √(
)(
)
𝑁
𝑛
199
La selección del tamaño de muestra para la proporción
Para determinar el tamaño de muestra que estime 𝑝𝑠 o 𝜏̂𝑠 se elige una precisión que
estamos dispuestos a aceptar. Es decir,
𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑆𝑝2𝑠
(5.8)
El tamaño de muestra para estimar la proporción
Después de despejar 𝑛 de la ecuación (5.8), obtenemos:
𝑛∗ =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
(5.9)
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
Para fines prácticos la varianza poblacional se sustituye por la varianza muestral.
El tamaño de muestra modificado
Si la población es infinita el tamaño de la muestra modificado es:
2
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑡
(𝑛−1,1−𝛼⁄2)
𝑛𝑚 =
(5.10)
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
)
Mientras que el tamaño de muestra para una población finita es igual a:
𝑛𝑚𝐹 = 𝑛𝑚 (
200
𝑁
)
𝑁 + 𝑛𝑚
(5.11)
EJEMPLOS
Ejemplo 5.3. La administración de la Universidad de Colima desea conocer la cantidad
de alumnos que están satisfechos por las mejoras y los logros alcanzados por el
presidente de México. Para realizar dicha encuesta se elegirán 𝑛 alumnos entre los 10,000
estudiantes de la Universidad de Colima. Se pretende obtener una muestra de 18
alumnos. A continuación se obtiene 𝑘:
𝑘=
𝑁 10,000
=
= 555.5556.
𝑛
18
Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 556, el entero más cercano. Por ello, el
primer alumno que será encuestado se elegirá aleatoriamente entre el primero y el 10,000.
Los datos se presentan en la Cuadro 5.8.
Cuadro 5.8. Alumnos satisfechos e insatisfechos.
No. de alumno
Respuesta
No. de alumno
Respuesta
422
0
5,982
1
978
1
6,538
1
1,534
1
7,094
1
2,090
1
7,650
0
2,646
0
8,206
0
3,202
1
8,762
1
3,758
0
9,318
0
4,314
0
9,874
0
4,870
0
5,426
0
a) La proporción verdadera de alumnos satisfechos.
∑𝑛𝑖=1 𝑦𝑖 𝑎
8
𝑝𝑠 =
= =
= 0.444444 ó 44.44% de alumnos satisfechos.
𝑛
𝑛 18
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.5 = 0.555556 ó 55.55% de alumnos insatisfechos.
b) La desviación estándar de la proporción muestral (𝑆𝑝𝑠 ).
201
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √(
)(
)
𝑁
𝑛
donde: 𝑁 = 10,000, 𝑛 = 18, 𝑝𝑠 = 0.444444 y 𝑞𝑠 = 0.555556.
Por lo tanto:
10,000−18
(0.444444)(0.555556)
10,000
18
𝑆𝑝𝑠 = √(
)(
) = √(0.9982)(0.013717) = 0.117014.
c) El IC de 95% para la proporción verdadera.
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
donde: 𝑝𝑠 = 0.444444, 𝑆𝑝𝑠 = 0.117014, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(18−1,1−0.025) = 2.1098.
Por lo tanto:
0.444444 ± (2.1098)(0.117014)
0.444444 ± 0.246876
0.197568 ≤ 𝑃𝑠 ≤ 0.69132.
Con 95% de confianza se estima que la proporción verdadera de alumnos satisfechos
está entre 0.197568 y 0.69132, es decir, entre 19.75 y 69.13%.
d) El total verdadero de alumnos satisfechos.
𝜏̂ = 𝑁𝑝𝑠
donde: 𝑁 = 10,000 y 𝑝𝑠 = 0.444444.
Por lo tanto:
202
𝜏̂ = (10,000)(0.444444) = 4,444.44.
e) El IC del total de alumnos satisfechos, con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
donde: 𝜏̂ = 4,444.44, 𝑁 = 10,000, 𝑆𝑝𝑠 = 0.117014 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098.
Por lo tanto:
4,444.44 ± (10,000)(2.1098)(0.117014)
4,444.44 ± 2,468.761372
1,975.6786 ≤ τs ≤ 6,913.2014.
Con 95% de confianza se estima que el total de alumnos satisfechos está entre
1,975.6786 y 6,913.2014.
f) Si 𝑛 = 18 alumnos es una muestra preliminar, el tamaño de muestra para estimar la
proporción verdadera con una precisión de 0.05 y una confiabilidad de 95% es:
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
donde: 𝑁 = 10,000, 𝑝𝑠 = 0.444444, 𝑞𝑠 = 0.555556,
𝑡(𝑛−1,1−𝛼⁄2) = 2.1098 y 𝑑 = 0.05.
Por lo tanto:
(10,000)(2.1098)2 (0.444444)(0.555556)
(10,000)(0.05)2 + (2.1098)2 (0.444444)(0.555556)
𝑛∗ =
10,990.753456
= 421.1166 = 422.
26.099075
203
𝑛∗ =
g) Ahora bien, el tamaño de muestra para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%
es:
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑛𝑚 =
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
𝑡(𝑛−1,1−𝛼⁄2)
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
)
donde: 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098, 𝑝𝑠 = 0.444444,
𝑞𝑠 = 0.555556, 𝑍𝛾 = 2.5669 y 𝑑 = 0.05.
Primeramente se obtiene el tamaño de la muestra suponiendo una población infinita:
2
√0.444444(0.555556) + √0.444444(0.555556) + 2(0.05)|1 − 2(0.444444)|(2.5669)
2.1098
𝑛𝑚 =
2(0.05)
2.1098
(
)
2
0.496903 + √0.246913 + 0.013519
𝑛𝑚 = (
)
0.047398
2
0.496903 + 0.510325
𝑛𝑚 = (
) = 451.580882.
0.047398
Finalmente se calcula el tamaño de la muestra suponiendo una población finita:
10,000
𝑛𝑚𝐹 = 451.580882 (
) = 432.0695 = 433..
10,000 + 451.580882
Ejemplo 5.4. Se tiene una población de 600 estudiantes y se pretende saber cuántos de
ellos poseen licencia para conducir. Para realizar la estimación se toma una muestra
sistemática de 19 estudiantes. A continuación obtenemos 𝑘:
𝑘=
204
𝑁 600
=
= 31.5789
𝑛
19
Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 32 (el entero más cercano) y el primer
elemento se elige al azar entre el uno y 600. La encuesta arrojó los datos que aparecen en
el Cuadro 5.9.
Cuadro 5.9. Estudiantes que tienen licencia para conducir.
Número de
Respuesta
estudiantes
Número de
Respuesta
estudiantes
11
0
331
0
43
1
363
0
75
0
395
1
107
0
427
0
139
0
459
1
171
1
491
0
203
1
523
1
235
1
555
0
267
0
587
1
299
0
a) Estimación puntual para la proporción de estudiantes que cuentan con una licencia
para conducir.
𝑝𝑠 =
∑𝑛𝑖=1 𝑦𝑖 𝑎
8
= =
= 0.4211 ó 42.11% de estudiantes con licencia.
𝑛
𝑛 19
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.4211 = 0.5789 o 57.89% sin licencia.
b) Desviación estándar de la proporción muestral (𝑆𝑝𝑠 ).
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √(
)(
)
𝑁
𝑛
donde: 𝑁 = 600, 𝑛 = 19, 𝑝𝑠 = 0.4211 y 𝑞𝑠 = 0.5789.
Por lo tanto:
205
600 − 19 (0.4211)(0.5789)
𝑆𝑝𝑠 = √(
)(
) = √0.012424 = 0.111463.
600
19
c) IC de 95% para la proporción verdadera.
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
donde: 𝑝𝑠 = 0.4211, 𝑆𝑝𝑠 = 0.111463, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(19−1,1−0.025) = 2.101.
Por lo tanto:
0.4211 ± (2.101)(0.111463)
0.4211 ± 0.234184
0.186916 ≤ 𝑃𝑠 ≤ 0.655284.
Con 95% de confianza se estima que la proporción verdadera de estudiantes con
licencia está entre 0.186916 y 0.655284, es decir, entre 18.69 y 65.52%.
d) Total verdadero de estudiantes con licencia.
𝜏̂ = 𝑁𝑝𝑠
donde: 𝑁 = 600 y 𝑝𝑠 = 0.4211.
Por lo tanto:
𝜏̂ = (600)(0.4211) = 252.66.
e) IC del total verdadero de estudiantes con licencia, con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
donde: 𝜏̂ = 252.66, 𝑁 = 600, 𝑆𝑝𝑠 = 0.111463 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.101.
206
Por lo tanto:
252.66 ± (600)(2.101)(0.111463 )
252.66 ± 140.510258
112.149742 ≤ 𝜏𝑠 ≤ 393.170258
Con 95% de confianza se estima que el total de estudiantes con licencia está entre
112.149742 y 393.170258.
f) Suponga que 𝑛 = 19 estudiantes es una muestra preliminar ¿Cuál es el tamaño de
muestra para estimar la proporción verdadera con una precisión de 0.05 de la
proporción preliminar y una confiabilidad de 95%?
𝑛∗ =
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑠 𝑞𝑠
donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 2.101, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789,
y 𝑑 = 𝑑𝑝𝑠 = (0.05)(0.4211) = 0.021055.
Por lo tanto:
𝑛∗ =
(600)(2.101)2 (0.4211)(0.5789)
(600)(0.021055)2 + (2.101)2 (0.4211)(0.5789)
𝑛∗ =
645.642553
= 481.0668 = 482.
1.3421
g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una
precisión de 0.05 de la proporción preliminar, una confiabilidad de 95% y un nivel de
aseguramiento (𝛾) de 99%?
207
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑛𝑚 =
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
𝑡(𝑛−1,1−𝛼⁄2)
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
)
donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789,
𝑍𝛾 = 2.5524 y 𝑑 = 0.021055.
Primeramente se obtendrá el tamaño de la muestra suponiendo una población
infinita:
𝑛𝑚
2(0.021055)|1 − 2(0.4211)|(2.5524)
√(0.4211)(0.5789) + √(0.4211)(0.5789) +
1.96
=
2(0.021055)
1.96
(
)
2
0.493736 + √0.243775 + 0.008653
𝑛𝑚 = (
)
0.021485
𝑛𝑚 = (
0.493736 + 0.502422 2
) = 2,149.8015.
0.021485
Finalmente, el tamaño de la muestra suponiendo una población finita:
600
𝑛𝑚𝐹 = 2,149.8015 (
) = 469.0814 = 470.
600 + 2,149.8015
EJERCICIOS
En los ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
208
2
b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño demuestra
para estimar la proporción y el total de tal manera que sean estimados con una
precisión de 6% de la proporción y el total preliminar con una confiabilidad de 95%?
Ejercicio 5.5. Una empresa constructora tiene empleados a 𝑁 = 1,200 albañiles para una
mega construcción. Con la finalidad de estimar el porcentaje de albañiles a los que les
gusta la cerveza, se toma una muestra sistemática de 𝑛 = 12 albañiles (Cuadro 5.10).
Cuadro 5.10. Albañiles que consumen cerveza.
𝒏
Número de
muestra
Consume
1
7
0
2
107
1
3
207
0
4
307
1
5
407
0
6
507
1
7
607
1
8
707
0
9
807
1
10
907
1
11
1,007
1
12
1,107
1
Ejercicio 5.6. Una empresa que produce 𝑁 = 5,000 colchones por semana, decide tomar
una muestra sistemática de 𝑛 = 10 colchones, el objetivo es estimar el porcentaje de
colchones que no cumplen con los requerimientos de calidad (Cuadro 5.11).
209
𝒏
Número de muestra
Cumple
1
210
1
2
710
1
3
1,210
0
4
1,710
0
5
2,210
1
6
2,710
1
7
3,210
1
8
3,710
1
9
4,210
1
Cuadro 5.11.
10
Muestra de
1
4,710
colchones
Ejercicio 5.7. La Embajada Francesa en México desea conocer el porcentaje de Yucatecos
que han visitado Francia. Supóngase que la población del estado de Yucatán es de 𝑁 =
10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20 individuos. Use
la información del Cuadro 5.12.
Cuadro 5.12. Yucatecos que han visitado Francia
𝒏
Número
de muestra
Respuesta
𝒏
Número
de muestra
Respuesta
1
300
0
11
5,300
0
2
800
0
12
5,800
0
3
1,300
1
13
6,300
0
4
1,800
0
14
6,800
1
5
2,300
1
15
7,300
0
6
2,800
0
16
7,800
0
7
3,300
1
17
8,300
1
8
3,800
0
18
8,800
0
9
4,300
1
19
9,300
0
10
4,800
0
20
9,800
1
Ejercicio 5.8. La Secretaría de Turismo de México desea conocer el porcentaje de
jaliscienses que han visitado la ciudad maya de Palenque, Chiapas. Se supone que la
población del estado de Jalisco es de 𝑁 = 10,000 personas. De esta población se extrae la
muestra sistemática de 𝑛 = 10 individuos. Use la información del Cuadro 5.13.
210
Cuadro 5.13. Jaliscienses que han visitado Palenque Chiapas.
Número de
𝒏
muestra
Cumple
1
100
0
2
1,100
0
3
2,100
1
4
3,100
0
5
4,100
1
6
5,100
0
7
6,100
0
8
7,100
0
9
8,100
0
10
9,100
0
5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo
sistemático.
Estimación de la proporción poblacional (𝑺𝒆 y 𝑺𝒑) y el total
𝑝𝑠∗
𝑎
+ 𝑆𝑝 − 1
=𝑛
𝑆𝑒 + 𝑆𝑝 − 1
𝑞𝑠∗ = 1 − 𝑝𝑠∗
donde: 𝑎 = denota el número de elementos positivos que se encuentran en la muestra de
tamaño 𝑛, Se y 𝑆𝑝 son la sensibilidad y especificidad de las pruebas de laboratorio.
La varianza estimada de la proporción
𝑆𝑝2𝑠 = (
𝑁−𝑛
1
𝑝𝑠 𝑞𝑠
)(
)
2
(𝑆𝑒 + 𝑆𝑝 − 1)
𝑁
𝑛
donde 𝑞𝑠 = 1 − 𝑝𝑠 .
El intervalo de confianza para la proporción
𝑝𝑠 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √(
211
𝑁−𝑛
1
𝑝𝑠 𝑞𝑠
)(
)
(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛
𝑁
(5.12)
El tamaño de muestra sin aseguramiento para estimar la proporción
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
(5.13)
El tamaño de muestra modificado
Si la población es infinita, el tamaño de la muestra modificado es:
2
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑛𝑚 =
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
𝑡(𝑛−1,1− 𝛼/2)
1
(
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
2𝑑
(5.14)
𝑡(𝑛−1,1− 𝛼/2)
(
)
Mientras que el tamaño de muestra para una población finita es igual a:
𝑛𝑚𝐹 = 𝑛𝑚 (
𝑁
)
𝑁 + 𝑛𝑚
(5.15)
EJEMPLOS
Ejemplo 5.5. La Secretaría de Salud del estado de Nayarit está interesada en conocer
cuántos de los trabajadores del gobierno han consumido algún tipo de droga en las
últimas 2 semanas, esto mediante un análisis de sangre. Se tienen 𝑁 = 8,000 trabajadores
y se tomó una muestra de 16. La prueba tiene una sensibilidad (𝑆𝑒) de 0.83 y una
especificidad (𝑆𝑝) de 0.97.
𝑘=
𝑁 8,000
=
= 500.
𝑛
16
La primera persona a quien se medirá será elegida aleatoriamente entre 1 y 500,
consecutivamente cada 500 se tomará a otra persona (Cuadro 5.14).
212
Cuadro 5.14. Trabajadores sometidos al análisis.
No. de trabajador
Resultado
No. de trabajador
Resultado
187
687
0
1
4,187
4,687
0
0
1,187
0
5,187
0
1,687
0
5,687
1
2,187
0
6,187
0
2,687
0
6,187
0
3,187
1
7,187
0
3,687
1
7,687
0
a) La proporción verdadera de los trabajadores que resultaron positivos a la prueba.
𝑎
𝑝𝑠 = , 𝑞𝑠 = 1 − 𝑝𝑠
𝑛
𝑎
+ 𝑆𝑝 − 1
∗
𝑝𝑠 = 𝑛
, 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑎 = 4 y 𝑛 = 16.
Por lo tanto:
𝑝𝑠 =
4
= 0.25 = 25%
16
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.25 = 0.75 = 75%
𝑝𝑠∗ =
4
16
+ 0.97 − 1
0.22
=
= 0.275 = 27.5%
0.83 + 0.97 − 1
0.8
𝑞𝑠∗ = 1 − 0.275 = 0.725 = 72.5%.
b) La varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los trabajadores.
𝑆𝑝2𝑠 = (
𝑁−𝑛
1
𝑝𝑠 𝑞𝑠
)(
)
2
(𝑆𝑒 + 𝑆𝑝 − 1)
𝑁
𝑛
donde: 𝑁 = 8,000, 𝑛 = 16, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑝𝑠 = 0.25 y 𝑞𝑠 = 0.75
Por lo tanto:
213
𝑆𝑝2𝑠 =
(0.25)(0.75)
8,000 − 16
1
(
)
2
(0.83 + 0.97 − 1)
8,000
16
𝑆𝑝2𝑠 = (0.998)(1.5625)(0.011719) = 0.018274
𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.018274 = 0.135181.
c) IC con 95% de confiabilidad para la proporción verdadera.
𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠
donde: 𝑝𝑠∗ = 0.275, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(16−1,1−0.025) = 2.1314 y 𝑆𝑝𝑠 = 0.135181.
Por lo tanto:
0.275 ± (2.1314)(0.135181)
0.275 ± 0.288125
0 ≤ P ≤ 0.563125.
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
trabajadores que consumieron algún tipo de droga está entre 0 y 0.563125.
d) Total de trabajadores que consumieron algún tipo de droga.
𝜏̂ = 𝑁𝑝𝑠∗ = (8,000)(0.275) = 2,200 trabajadores.
e) IC del total verdadero de trabajadores con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠
donde: 𝜏̂ = 2,200, 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314 y 𝑆𝑝𝑠 = 0.135181.
Por lo tanto:
2,200 ± (8,000)(2.1314)(0.135181)
2,200 ± 2,304.998267
0 ≤ 𝜏 ≤ 4,504.998267
214
Es decir, con 95% de confianza se estima que el total de trabajadores está entre 0 y
4,504.9983.
f) Si 𝑛 = 16 es una muestra preliminar, el tamaño de muestra real para estimar la
proporción verdadera con una precisión de 0.075 y una confiabilidad del 95% es:
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
donde: 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314, 𝑝𝑠 = 0.25, 𝑞𝑠 = 0.75,
𝑑 = 0.075, 𝑆𝑒 = 0.83 y 𝑆𝑝 = 0.97.
Por lo tanto:
𝑛∗ =
8,000(2.1314)2 (0.25)(0.75)
8,000(0.075)2 (0.83 + 0.97 − 1)2 + (2.1314)2 (0.25)(0.75)
𝑛∗ =
6,814.2989
= 229.8106 = 230 trabajadores.
29.6518
g) El tamaño de muestra real para estimar la proporción verdadera con una precisión
de 0.075, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99 es:
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑛𝑚 =
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
𝑡(𝑛−1,1− 𝛼/2)
2𝑑
𝑡(𝑛−1,1− 𝛼/2)
(
donde: 𝑁 = 8,000, 𝑡(𝑛−1,1−
(
𝛼/2)
1
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
)
= 2.1314, 𝑝 = 0.25, 𝑞 = 0.75,
𝑍𝛾 = 2.6025, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97 y 𝑑 = 0.075.
Primero se determina el tamaño de la muestra suponiendo población infinita:
2
𝑛𝑚
215
2.6025
√0.25(0.75) + √0.25(0.75) + 2(0.075)|1 − 2(0.25)|
1
2.1314
=
(
)
(0.83 + 0.97 − 1)2
2(0.075)
2.1314
(
)
2
0.433013 + √0.1875 + 0.091577
1
𝑛𝑚 = (
)
) (
0.64
0.070376
2
0.433013 + 0.528278
1
𝑛𝑚 = (
) = 291.527627..
) (
0.64
0.070376
Finalmente se calcula el tamaño de la muestra suponiendo una población finita:
8,000
𝑛𝑚𝐹 = 291.527627 (
) = 281.2776 = 282 trabajadores..
8,000 + 291.527627
Ejemplo 5.6. En el estado de Michoacán una organización privada quiere conocer
cuántos de sus empleados son positivos en el consumo de cafeína, esto mediante un
análisis de sangre. Se tienen 𝑁 = 2,000 empleados y se tomó una muestra de 20. La
prueba tiene una sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.98.
𝑘=
𝑁 2,000
=
= 100.
𝑛
20
La primera persona a quien se le preguntará será elegida aleatoriamente entre uno y 100,
consecutivamente cada 100 se tomará a otra persona (véase el Cuadro 5.15).
Cuadro 5.15. Empleados sometidos al análisis.
No. de empleado
Resultado
No. de empleado
Resultado
64
164
1
1
1,064
1,164
1
0
264
0
1,264
1
364
1
1,364
0
464
1
1,464
0
564
1
1,564
1
664
1
1,664
1
764
1
1,764
1
864
1
1,864
0
964
1
1,964
0
a) Proporción verdadera de los trabajadores que resultaron positivos a la prueba.
𝑝𝑠 =
216
𝑎
𝑛
𝑞𝑠 = 1 − 𝑝𝑠
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠∗ = 𝑛
𝑆𝑒 + 𝑆𝑝 − 1
𝑞𝑠∗ = 1 − 𝑝𝑠∗
donde: 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑎 = 14 y 𝑛 = 20.
Por lo tanto:
𝑝𝑠 =
14
= 0.7 = 70%
20
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.7 = 0.3 = 30%
𝑝𝑠∗
=
14
20
+ 0.98 − 1
0.68
=
= 0.85 = 85%
0.82 + 0.98 − 1
0.8
𝑞𝑠∗ = 1 − 0.85 = 0.15 = 15%.
b) Varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los estudiantes.
𝑆𝑝2𝑠 = (
𝑁−𝑛
1
𝑝𝑠 𝑞𝑠
)(
)
2
(𝑆𝑒 + 𝑆𝑝 − 1)
𝑁
𝑛
donde: 𝑁 = 2,000, 𝑛 = 20, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑝𝑠 = 0.7 y 𝑞𝑠 = 0.3
Por lo tanto:
𝑆𝑝2𝑠 =
(0.7)(0.3)
2,000 − 20
1
(
)
2
(0.82 + 0.98 − 1)
2,000
20
𝑆𝑝2𝑠 = (0.99)(1.5625)(0.0105) = 0.016242
𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.016242 = 0.127444.
c) IC de 95% para la proporción verdadera.
𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠
donde: 𝑝𝑠∗ = 0.85, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(20−1,1−0.025) = 2.093 y 𝑆𝑝𝑠 = 0.127444.
217
Por lo tanto:
0.85 ± (2.093)(0.127444)
0.85 ± 0.26674
0.58326 ≤ 𝑃 ≤ 1.11674
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
empleados que resultaron positivos en el consumo de cocaína está entre 0.5833 y
1.1167.
d) Total de empleados que resultaron positivos en el consumo de cocaína.
𝜏̂ = 𝑁𝑝𝑠∗ = (2,000)(0.85) = 1,700 trabajadores.
e) IC del total verdadero de empleados con la confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑛−1,1−
𝛼/2) 𝑁𝑆𝑝𝑠
donde: 𝜏̂ = 1,700, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑁 = 2,000 y 𝑆𝑝𝑠 = 0.127444.
Por lo tanto:
1,700 ± (2,000)(2.093)(0.127444)
1,700 ± 533.480584
1,166.519416 ≤ 𝜏 ≤ 2,233.480584
Es decir, con 95% de confianza se estima que el total de empleados está entre
1,284.3176 y 2,233.480584.
Suponga que los datos conformaron una muestra preliminar ¿Cuál es el tamaño de
f)
muestra real para estimar la proporción verdadera con una precisión de 0.05 y una
confiabilidad del 95%?
218
∗
𝑛 =
2
𝑁𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2)
𝑝𝑠 𝑞𝑠
donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝𝑠 = 0.7, 𝑞𝑠 = 0.3,
𝑑 = 0.05, 𝑆𝑒 = 0.82 y 𝑆𝑝 = 0.98.
Por lo tanto:
2,000(2.093)2 (0.7)(0.3)
𝑛 =
2,000(0.05)2 (0.82 + 0.98 − 1)2 + (2.093)2 (0.7)(0.3)
∗
𝑛∗ =
1,839.8726
= 446.5819 = 447 empleados.
4.1199
g) ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99?
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑛𝑚 =
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
𝑡(𝑛−1,1− 𝛼/2)
(
2𝑑
𝑡(𝑛−1,1− 𝛼/2)
(
1
)
(𝑆𝑒 + 𝑆𝑝 − 1)2
)
donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝 = 0.7, 𝑞 = 0.3,
𝑍𝛾 = 2.5395, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98 y 𝑑 = 0.05.
Primero se determina el tamaño de la muestra suponiendo población infinita:
2
2(0.05)|1 − 2(0.7)|2.5395
√0.7(0.3) + √0.7(0.3) +
1
2.093
𝑛𝑚 =
(
)
(0.82 + 0.98 − 1)2
2(0.05)
2.093
(
)
2
1
0.458258 + √0.21 + 0.048533
𝑛𝑚 = (
)
) (
0.64
0.047778
0.458258 + 0.508462 2 1
𝑛𝑚 = (
) (
) = 639.684019
0.047778
0.64
219
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
)
𝑁 + 𝑛𝑚
Por lo tanto:
2,000
𝑛𝑚𝐹 = 639.684019 (
) = 484.6648 = 485 empleados.
2,000 + 639.684019
EJERCICIOS
En los ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción de tal manera que sea estimado con
una precisión de 7% de la proporción preliminar, con una confiabilidad de 95% y un
nivel de aseguramiento del 90%?
Ejercicio 5.9. En el estado de Guerrero una organización privada quiere conocer cuántos
de sus empleados son positivos en el consumo de drogas, esto mediante un análisis de
sangre. Se tienen 𝑁 = 1,500 empleados y se tomó una muestra de 15. La prueba tiene una
sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.97 (Cuadro 5.16).
220
No. de empleado
Resultado
No. de empleado
Resultado
12
1
812
1
112
1
912
1
212
0
1,012
1
312
0
1,112
0
412
0
1,212
0
Cuadro
512
0
1,312
0
612
1
1,412
0
712
1
5.16.
Empleados sometidos al análisis.
Ejercicio 5.10. Una clínica tiene 𝑁 = 2,800 enfermos y decide tomar una muestra
sistemática de 𝑛 = 14 enfermos. El objetivo es estimar el porcentaje de enfermos que
tienen diabetes. La prueba tiene una sensibilidad (𝑆𝑒) de 0.92 y una especificidad (𝑆𝑝) de
0.95 (Cuadro 5.17).
Cuadro 5.17. Muestra de enfermos.
n
Número de
enfermo
Positivo
1
111
1
2
311
1
3
511
0
4
711
0
5
911
1
6
1,111
1
7
1,311
1
8
1,511
1
9
1,711
1
10
1,911
1
11
2,111
0
12
2,311
1
13
2,511
1
14
2,711
1
Ejercicio 5.11. La Secretaría de Salud del estado de Yucatán desea conocer el porcentaje
de Yucatecos que son diabéticos. Supóngase que la población del estado de Yucatán es
221
de 𝑁 = 10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20
individuos. La prueba tiene una sensibilidad (𝑆𝑒) de 0.98 y una especificidad (𝑆𝑝) de 0.97.
Use la información del Cuadro 5.18.
Cuadro 5.18. Yucatecos que tienen diabetes.
𝒏
Número
de muestra
Respuesta
𝒏
Número
de muestra
Respuesta
1
300
0
11
5,300
0
2
800
0
12
5,800
0
3
1,300
1
13
6,300
0
4
1,800
0
14
6,800
1
5
2,300
1
15
7,300
0
6
2,800
0
16
7,800
0
7
3,300
0
17
8,300
1
8
3,800
1
18
8,800
0
9
4,300
1
19
9,300
0
10
4,800
0
20
9,800
0
Ejercicio 5.12. La Marina de México desea conocer el porcentaje de soldados que
consumen algún tipo de droga. Se tiene una población de 𝑁 = 6,000 soldados. De esta
población se extrae la muestra sistemática de 𝑛 = 10 individuos. La prueba tiene una
sensibilidad (𝑆𝑒) de 0.97 y una especificidad (𝑆𝑝) de 0.98. Use la información del Cuadro
5.19.
Cuadro 5.19. Soldados que han consumido algún tipo de droga.
𝒏
222
Número de
soldado
Positivo
1
100
0
2
700
0
3
1,300
1
4
1,900
0
5
2,500
1
6
3,100
0
7
3,700
0
8
4,300
0
9
4,900
1
10
5,500
1
223
Capítulo 6. Muestreo por conglomerados en una etapa
CAPÍTULO 6
Muestreo por conglomerados en una etapa
Nunca antes en su historia,
la estadística había sido
tan querida y repudiada.
Tan querida por ser útil,
objetiva y muy precisa.
Repudiada, por compleja,
laboriosa e ingeniosa.
OAML
E
n el estudio del diseño de encuestas o muestreos existen diferentes opciones para
estimar un parámetro. Las diferencias pueden radicar en cuanto a costo, precisión
o facilidad de aplicación. En ocasiones resulta absurdo intentar aplicar alguno de los
esquemas de muestreo antes vistos a una población con ciertas características. Para ello
existe otro diseño de muestreo que proporciona herramientas valiosas.
En los diseños de encuestas las unidades muestrales se pueden definir de diferentes
formas. En el caso del muestreo por conglomerados, que revisamos en este capítulo, a
diferencia de los anteriores, las unidades muestrales (ahora llamadas unidades de
muestreo primarias o conglomerados) están constituidas por varios elementos (o
unidades de muestreo secundarias). En estas últimas se realizará la medición, mientras
224
que los primeros nos auxilian para hacer la selección aleatoria. Este es el principio del
diseño.
La muestra por conglomerados
Una muestra obtenida aleatoriamente de conglomerados (de la misma forma que
en el muestreo simple aleatorio), en donde a las unidades de muestreo primarias
definidas les llamaremos conglomerados, las cuales son grupos de elementos (o
unidades de muestreo secundarias), sobre las que se hará la medición o evaluación
de la característica de interés (Pérez, 2000). Es decir, en éste diseño se extrae bajo
MAS una muestra de tamaño 𝑛 de conglomerados donde cada conglomerado es
una colección de elementos o conglomerados.
Como se sabe, si se desea realizar una selección aleatoria de unidades, debemos contar
con el marco de muestreo adecuado. Con frecuencia no es posible tener el marco de
muestreo u obtenerlo es costoso, además de que el costo crece al tener que medir
unidades separadas entre sí por una gran distancia física. En el muestreo por
conglomerados este costo se reduce sustancialmente, ya que al levantar la información
de elementos contiguos o muy cercanos entre sí se evita el costo de transportación y
puede operarse también aun sin tener un marco de muestreo completo.
El muestreo por conglomerados, en una, dos o más etapas, es un diseño efectivo para
obtener una cantidad específica de información a un costo mínimo, cuando se presentan
las siguientes situaciones:

Cuando no se encuentre disponible, no es confiable o es muy caro obtener un
marco que contenga la lista de los elementos de la población. Sin embargo, es
posible disponer fácilmente de un marco que contenga la lista de todos los
conglomerados de la población.

Aun cuando fuese posible contar con un marco que contenga la lista de todos los
elementos de la población, la selección de una muestra aleatoria simple
ocasionaría costos excesivos; esto se puede ver claramente en poblaciones grandes
225
y dispersas, es decir, el costo aumenta como consecuencia de la distancia existente
entre unidades de estudio.
6.1 ¿Qué puede ser un conglomerado?
En los diseños por conglomerados es importante tener claro lo que será considerado
como conglomerados, ya que pueden ser naturales o convenientemente determinados.
Dado que cada problema tiene características propias, entonces la definición de
conglomerados también la tendrá. Por lo tanto, únicamente se puede hablar de aspectos
generales que es necesario que satisfagan los conglomerados, los cuales son:

Que las unidades que conforman cada conglomerado sean lo más diferentes entre
sí, y que estén lo más próximo posible unas de otras, es decir, que las unidades
dentro de cada conglomerado sean lo más heterogéneas y cercanas entre sí.

Que los conglomerados sean lo más similares entre sí, es decir, homogéneos.
Por ejemplo, si en un municipio deseamos conocer cierto parámetro, los
conglomerados podrían agrupar manzanas, colonias o barrios. La decisión se toma de
acuerdo con la precisión que se quiera, la información disponible, los objetivos o
cualquier criterio de interés para el investigador. Si se tratara del control de calidad de
cajas de cereal, podríamos designar a las cajas como conglomerados (sitios de muestreo)
o en el caso de la evaluación nacional de salud se elegirían hospitales, centros de salud,
etcétera (Pérez, 2000).
Si una encuesta por conglomerados se aplicara a cajas que contienen productos
terminados, entonces los conglomerados contendrían el mismo número M de productos
terminados o elementos (unidades de muestreo secundarias), debido a la uniformidad
del proceso de producción y empaque. En este ejemplo diremos que los conglomerados
son de tamaño homogéneo, pero es evidente que los casos con estas características no son
los más frecuentes y que en general encontraremos conglomerados de tamaños
desiguales, es decir, las colonias no tienen el mismo número de habitantes, los sitios de
226
muestreo forestal tampoco contendrán el mismo número de árboles, etcétera. Pero las
técnicas de muestreo probabilístico cubren estas posibilidades, por lo que no hay de qué
preocuparse. En el diseño de muestreo el investigador elige los conglomerados
aleatoriamente y mide todos sus elementos. Además, esos elementos quedarán
automáticamente seleccionados al elegir el conglomerado en la muestra, es decir, cada
conglomerado de la muestra será censado (Cochran, 1985).
En el diseño de muestreo por conglomerados en una etapa, se asume que todos los
elementos incluidos en los conglomerados seleccionados y que constituyen la muestra
serán estudiados. Además, cabe señalar que entre este diseño y el aleatorio simple existe
gran similitud en cuanto a las expresiones relacionadas con el tamaño de muestra, con la
diferencia de que el aleatorio simple utiliza unidades muestrales elementales, mientras
que el muestreo por conglomerados considera grupos de unidades elementales.
6.2 Una comparación con el muestreo estratificado
Muestreo estratificado
Muestreo por conglomerados
Mayor precisión con relación al muestreo simple
Mayor precisión con relación al muestreo simple
aleatorio.
aleatorio.
Los estratos deben contener elementos que sean
Los conglomerados deben contener elementos lo
muy homogéneos entre sí.
más heterogéneo posible entre sí.
Para obtener mayor precisión, la diferencia debe
Para mayor precisión, los conglomerados deben ser
ser grande entre estratos.
muy similares.
La varianza de la estimación de la media
La varianza de la estimación de la media depende de
depende de la variabilidad de los valores dentro
la variabilidad que existe entre las medias de los
del estrato.
conglomerados.
227
Muestreo estratificado
Muestreo de conglomerados
Figura 6.1. Comparación gráfica entre muestreo estratificado y el de conglomerados.
En el estratificado se seleccionan algunas unidades del estrato y en el de
conglomerados se seleccionan algunos de ellos y de los seleccionados se miden todas las
unidades.
6.3 Acerca del tamaño del conglomerado
Es importante resaltar que el conglomerado debe ser de un tamaño moderado o de tal
naturaleza que todas las observaciones (observación 𝑗 en el conglomerado 𝑖) puedan
obtenerse con relativa facilidad. Sin embargo, no es difícil imaginar situaciones en las que
el conglomerado sea grande. Por ejemplo, si los conglomerados elegidos son conjuntos
de viviendas de 120 manzanas y de ellas deben ser elegidos todos los niños menores de
seis años, el conjunto a censar sería demasiado grande, o si el conjunto fuera un archivero
con miles de hojas y fuera necesario calcular estimaciones por hoja; en tales casos es
razonable pensar que el esquema de muestreo por conglomerados en una etapa no es
apropiado, sino en dos etapas (Pérez, 2000).
Notación
𝑁: el número de conglomerados en la población o unidades de muestreo primarias
(UMP) que cubre a toda la población, sin traslapes.
𝑛: el número de conglomerados seleccionados de una muestra simple aleatoria.
𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias (UMS) en el
conglomerado, 𝑖 = 1, 2, . . . , 𝑁.
M= ∑Ni=1 𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias en la
población.
̅ : el número promedio de UMS por UMP (o conglomerado) en la población.
𝑀
𝜏𝑖 : el total del conglomerado 𝑖.
228
𝑀
𝑖 𝑦
∑𝑖=1
𝑖𝑗
𝑦̅𝑖 =
𝑦̅=
𝑀𝑖
∑𝑁
𝑖=1 𝑦𝑖
𝑁
: la media a nivel de UMS del conglomerado 𝑖.
: el total del promedio por UMP.
𝑀
𝑁
𝑖
𝜏= ∑𝑁
𝑖=1 𝜏𝑖 = ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 : el total de la población.
𝜏
𝜇= 𝑀: la media a nivel de UMS.
𝑦𝑖𝑗 : el valor de la 𝑗-ésima UMS en el 𝑖-ésimo conglomerado.
El punto en el subíndice simboliza todas las UMS del conglomerado 𝑖. 𝑀𝑖 se refiere al
número de UMS que contiene el conglomerado 𝑖. Pudiera darse el caso de que se
seleccione sólo una parte del conglomerado, digamos 𝑚𝑖 entre las 𝑀𝑖 UMS, lo cual nos
lleva al diseño de muestreo conglomerado en dos etapas que no está al alcance de este
libro.
6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados
Cálculo de la media y el total poblacional con M conocida
El muestreo por conglomerados es muy conveniente cuando el costo de llegar a las
unidades primarias es muy alto con relación al costo de medir las unidades secundarias
dentro de un conglomerado. Para elegir los conglomerados UMP que estarán en la
muestra, se sigue el mismo procedimiento que en el muestreo simple aleatorio, por lo
que los estimadores de la media, 𝜇, y el total, 𝜏, se obtienen de manera similar. Sin
embargo, es importante observar que los datos del muestreo por conglomerados
permiten obtener estimaciones a diferentes niveles de la población. Es decir, en una
encuesta sobre los sitios para medir la cantidad de madera de árboles, las observaciones
individuales 𝑦𝑖𝑗 incluyen los volúmenes por árboles que hay, 𝜏𝑖 es el volumen total del
sitio (para un conglomerado incluido en la muestra, pues se contabilizan a todos los
árboles del sitio), 𝜏 es el volumen de toda la población y 𝜇 es el volumen promedio por
árbol.
229
A continuación se presentan los estimadores suponiendo una muestra aleatoria de 𝑛
conglomerados y que cada uno contiene 𝑀𝑖 elementos (Scheaffer et al., 1987).
El estimador de la media poblacional
𝑛
𝑀
𝑖
𝑦𝑖𝑗
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1
𝜇̂ = 𝑦̅𝑠 = 𝑛
=
𝑛
∑𝑖=1 𝑀𝑖
∑𝑖=1 𝑀𝑖
(6.1)
El estimador del total poblacional
∑𝑛𝑖=1 𝑦𝑖
𝜏̂𝑠 = 𝑀𝑦̅𝑠 = 𝑀 ( 𝑛
)
∑𝑖=1 𝑀𝑖
(6.2)
Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del total son de
UMS en toda la población (Scheaffer et al., 1987). Si se sustituye 𝑛 por 𝑁 se obtendrían los
parámetros 𝜇 y 𝜏. Se necesita la varianza de estos estimadores para conocer la dispersión
de los datos y para saber la precisión de las estimaciones. Estas varianzas se muestran a
continuación.
̅𝒔 y 𝝉̂𝒔
La varianza estimada de 𝒚
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2
𝑁−𝑛 1
1
𝑉̂ (𝑦̅𝑠 ) = (
) ( ) ( 2) (
)
̅
𝑁
𝑛 𝑀
𝑛−1
𝑉̂ (𝜏𝑠 ) = 𝑉̂ (𝑀𝜏𝑠 ) = 𝑀2 𝑉̂ (𝑦̅𝑠 )
(6.3)
(6.4)
𝑁−𝑛 1
1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2
= 𝑀2 (
) ( ) ( 2)
̅
𝑁
𝑛 𝑀
𝑛−1
𝑁−𝑛 1
1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2
̅ )2 (
= (𝑁𝑀
) ( ) ( 2)
̅
𝑁
𝑛 𝑀
𝑛−1
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑐 𝑀𝑖 )2
= 𝑁2 (
)( )
𝑁
𝑛
𝑛−1
Al conocer los estimadores de las varianzas de 𝑦̅𝑠 y 𝜏𝑠 (6.3 y 6.4), se puede calcular sus
correspondientes intervalos de confianza, lo que dará los límites en los que se encuentran
230
las estimaciones, es decir, una idea acerca de la precisión de las estimaciones. Es
importante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones
(6.3 y 6.4) son sesgadas, pero pueden ser aceptables si 𝑛 es grande (digamos 𝑛 > 30) y el
sesgo desaparecería si los tamaños de los conglomerados fueran iguales (todas las 𝑀𝑖
iguales).
El intervalo de confianza de la media y el total
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
(6.5)
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑠 )
(6.6)
La determinación del tamaño de muestra
La precisión de las estimaciones depende del tamaño de la muestra y de su conformación.
En el diseño por conglomerados se busca la situación inversa al diseño estratificado, pues
formaremos conglomerados homogéneos entre ellos, pero heterogéneos en su interior.
Es decir, que haya valores superiores e inferiores a la media general, de tal forma que el
diseño resulte casi tan preciso como la selección aleatoria. Pero en algunas ocasiones los
conglomerados ya están definidos por algún esquema y no es posible hacerlos más
eficientes, lo cual es una desventaja en cuanto a la precisión. Por otro lado, esta condición
también puede ser una ventaja, ya que al utilizar un muestreo por conglomerado no
requerimos de un marco de muestreo de elementos.
Obsérvese que a diferencia de los diseños anteriores, la muestra por conglomerados
también será definida por el tamaño relativo de los conglomerados. El tamaño del límite
para el error de estimación depende de la variación entre los totales de conglomerados,
así que confirmamos que para obtener límites pequeños de error de estimación debemos
seleccionar conglomerados con la menor variación posible entre éstos o sus totales.
Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número de
𝑛 conglomerados que seleccionaremos. De la misma manera que en los diseños
231
anteriores, al no conocer 𝜎𝑐2 o el tamaño promedio del conglomerado, se complica la
decisión sobre el número de conglomerados necesarios para conseguir una cantidad
específica de información concerniente a un parámetro poblacional. Si este fuera el caso,
̅ que podrían estar disponibles en encuestas previas
usaríamos los estimadores de 𝜎𝑐2 y 𝑀
o, en todo caso, obtenerse a través de una encuesta piloto seleccionando una muestra
preliminar, digamos 𝑛, y con esta información podemos calcular el tamaño de muestra
definitivo 𝑛.
Procediendo de manera análoga a los diseños anteriores, 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) es el error
asociado a la estimación, llamado precisión, es decir,
𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂)
(6.7)
donde 𝜃̂ representa el estimador del parámetro de interés. De la expresión anterior y con
𝜃̂ = 𝑦̅𝑠 , se despeja 𝑛 para obtener el tamaño de muestra.
El tamaño de muestra para estimar el promedio
∗
𝑛 =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑐
2
2
̅ 2 𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀
⁄2) 𝜎𝑐
donde 𝜎𝑐2 es estimada por 𝑠𝑐2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 ]/(𝑛 − 1).
El tamaño de muestra modificado para estimar el promedio
𝑛𝑚 =
232
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
2
𝜒(𝛾,
𝑛∗ −1)
2
2
2
2
̅
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾,
𝑛∗ −1) es el
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 6.1. Una universidad tiene 𝑀 = 10,000 estudiantes inscritos en 𝑁 = 220 grupos
con diferente clave de estudiante. Con la finalidad de estimar el gasto promedio por
estudiante en útiles escolares, se toma una muestra aleatoria simple de 𝑛 = 5 grupos y se
pregunta a cada integrante de los grupos sobre su gasto en útiles escolares (Cuadro 6.1).
Los tamaños de los conglomerados son:
233
Cuadro 6.1. Gasto en útiles escolares por estudiante (pesos).
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
(𝑀1 = 30)
(𝑀2 = 32)
(𝑀3 = 31)
( 𝑀4 = 36)
(𝑀5 = 34)
104
81
107
116
96
102
91
100
113
124
086
78
106
111
108
112
84
104
118
74
114
121
101
93
114
116
70
87
105
122
106
93
97
67
124
101
79
81
96
87
74
114
64
94
103
106
92
101
119
89
125
92
109
79
98
114
131
94
118
132
114
107
97
91
96
94
88
126
113
94
090
114
102
114
103
109
96
102
97
88
98
101
93
109
124
91
99
69
127
134
120
101
121
109
103
96
100
78
119
111
97
98
130
121
105
99
77
122
115
141
99
92
90
112
104
83
69
73
100
91
112
98
103
99
115
83
102
80
127
112
107
79
104
70
123
94
123
104
114
100
81
109
113
136
125
89
110
67
122
128
114
93
89
102
70
90
92
129
72
107
112
94
82
𝒚𝟏 = 𝟑, 𝟎𝟗𝟒
𝒚𝟐 = 𝟑, 𝟏𝟖𝟒
𝒚𝟑 = 𝟑, 𝟐𝟑𝟖
𝒚𝟒 = 𝟑, 𝟑𝟑𝟔
𝒚𝟓 = 𝟑, 𝟕𝟏𝟔
a) La estimación de la media.
𝑀𝑖
𝑛
𝑦𝑖𝑗
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1
𝜇̂ = 𝑦̅𝑠 = 𝑛
=
∑𝑖=1 𝑀𝑖
∑𝑛𝑖=1 𝑀𝑖
donde: 𝑀 = 10,000, 𝑛 = 5, 𝑦𝑖 : 𝑦1 = 3,094, 𝑦2 = 3,184, 𝑦3 = 3,238, 𝑦4 = 3,336,
𝑦5 = 3,716, 𝑀𝑖 : 𝑀1 = 30, 𝑀2 = 32, 𝑀3 = 31, 𝑀4 = 36 y 𝑀5 = 34.
Por lo tanto:
3,094 + 3,184 + 3,238 + 3,336 + 3,716
30 + 32 + 31 + 36 + 34
16,568
𝑦̅𝑠 =
= 101.6442.
163
𝑦̅𝑠 =
b) La estimación del total.
234
𝜏̂𝑠 = 𝑀𝑦̅𝑠
donde: 𝑀 = 10,000 y 𝑦̅𝑠 = 101.6442.
Por lo tanto:
𝜏̂𝑠 = (10,000)(101.6442) = 1,016,442 pesos.
c) La varianza y la desviación estándar de la media.
𝑁−𝑛
1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2
donde: 𝑀 = 10,000, 𝑁 = 220, 𝑛 = 5, 𝑦̅𝑠 = 101.6442,
̅ = 𝑀 = 10,000 = 45.45: el número promedio de estudiantes por grupo,
𝑀
𝑁
220
𝜎𝑐2 : estimada por 𝑠𝑐2 =
𝑠𝑐2 =
[∑𝑛
̅𝑠 𝑀𝑖 )2 ]
𝑖=1(𝑦𝑖 −𝑦
𝑛−1
:
(3,094−(101.6442)(30))2 +⋯+(3,716−(101.6442)(34))2
(5−1)
= 46,595.
Por lo tanto:
2
2
220 − 5
1
(3,094 − (101.6442)(30)) +. . . +(3,716 − (101.6442)(34))
𝑉̂ (𝑦̅𝑠 ) = (
)(
)(
)
(5)(45.45)2
220
5−1
𝑉̂ (𝑦̅𝑠 ) = 4.4079.
Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √4.4079 = 2.0995.
d) El IC del 90% para la media poblacional (𝜇𝑐 ).
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
donde: 𝑦̅𝑠 = 101.6442, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(5−1,0.95) = 2.1318 y √𝑉̂ (𝑦̅𝑠 ) = 2.0995.
235
Por lo tanto:
101.6442 ± (2.1318)(2.0995)
101.6442 ± 4.4757
97.1685 ≤ 𝜇𝑠 ≤ 106.1199.
Es decir, con 90% de confianza se estima que la media poblacional está entre 97.1685
y 106.1199.
e) Un IC de 90% para el total.
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 )
donde: 𝜏̂𝑠 = 1,016,442, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y
√𝑉̂ (𝜏̂ 𝑠 ) = √𝑀2 𝑉̂ (𝑦̅𝑠 ) = √(10,000)2 (4.4079) = 20,994.9994.
Por lo tanto:
1,016,442 ± (2.1318)(20,994.9994)
1,016,442 ± 44757.1397
971,684.8603 ≤ 𝜏𝑐 ≤ 1,061,199.1397.
Es decir, con 90% de confianza se estima que el total poblacional está entre
971,684.8603 y 1,061,199.1397.
f) Si 𝑛 = 5 grupos es una muestra preliminar. El tamaño de muestra necesario para
estimar el promedio poblacional con una precisión de 4% de la media preliminar y
una confiabilidad de 90% es:
∗
𝑛 =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑐
2
2
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀
⁄2) 𝜎𝑐
̅ = 𝑀 = 45.45, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318,
donde: 𝑁 = 220, 𝑛 = 5, 𝑀
𝑁
236
𝜎𝑐2 : estimada por 𝑠𝑐2 = 46,595 y 𝑑 = (0.04)(101.6442) = 4.0658.
Por lo tanto:
𝑛∗ =
(220)(2.1318)2 (46,595)
(220)(45.45)2 (4.0658)2 + (2.1318)2 (46,595)
𝑛∗ =
46,585,945.3241
7,724,219.5966
𝑛∗ = 6.0311 = 7 grupos.
g) El tamaño de muestra necesario para estimar el promedio poblacional con una
precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel de
aseguramiento (𝛾) de 90%, es:
𝑛𝑚 =
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
2
𝜒(𝛾,
𝑛∗ −1)
2
2
2
2
̅
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
̅ = 𝑀 = 45.45, 𝜎𝑐2 = 46,595, 𝑑 = 4.0658,
donde: 𝑁 = 220, 𝑛 = 5, 𝑀
𝑁
2
2
𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y 𝜒(𝛾,
𝑛∗ −1) = 𝜒(0.99,6.0311−1) = 9.2797.
Por lo tanto:
𝑛𝑚 =
𝑛𝑚 =
(220)(2.1318)2 (46,595) (
9.2797
6.0311 − 1)
9.2797
6.0311 − 1)
(220)(45.45)2 (4.0574)2 + (2.1318)2 (46,595) (
85,926,258.04
7,872,029.548
𝑛𝑚 = 10.9153 = 11
Ejemplo 6.2. La empresa Pepsico procesa 1,000 rejas de refresco por día. Con la
finalidad de conocer si el proceso de producción cumple con el contenido de
carbohidratos, cierto día se selecciona una muestra aleatoria simple de 6 rejas (Cuadro
237
6.2)
a) Promedio de carbohidratos por refresco.
𝑀
𝑖
∑𝑛𝑖=1 ∑𝑗=1
𝑦𝑖𝑗
∑𝑛𝑖=1 𝑦𝑖
𝜇̂ = 𝑦̅𝑠 = 𝑛
=
∑𝑖=1 𝑀𝑖
∑𝑛𝑖=1 𝑀𝑖
donde: 𝑛 = 6: el número de rejas seleccionadas, 𝑀 = 24,000: el total de refrescos
producido en tal día y 𝑀𝑖 : 𝑀1 = 24, 𝑀2 = 24, 𝑀3 = 24, 𝑀4 = 24, 𝑀5 = 24 y
𝑀6 = 24: número de refrescos por reja.
Por lo tanto:
168.3 + 180.2 + 171.2 + 183 + 186 + 162.9
24 + 24 + 24 + 24 + 24 + 24
1051.6
𝑦̅𝑠 =
= 7.3028.
144
𝑦̅𝑠 =
Cuadro 6.2. Contenido de carbohidratos por reja de refresco
Reja 1
Reja 2
Reja 3
Reja 4
Reja 5
Reja 6
6.8
7.2
7.1
7.4
7.1
7.1
7.8
7.3
7.7
7.4
6.7
6.7
6.6
6.8
7.4
7.5
7.3
7.2
7.9
7.7
7.5
8
6.9
6.7
7.1
7.1
7
7.7
6.9
6.9
7.7
7.8
7.8
8
6.7
6.7
7
7.1
7.4
7.5
7
6.4
7.6
7.4
7.6
7.8
6.6
6.8
6.9
7.2
8.0
7.6
7.1
6.9
7.6
7.7
7.8
7.6
6.8
6.7
7.4
7.1
7.2
7.4
7.3
7.5
7.6
7.3
7.9
7.9
6.6
6.7
6.9
7.0
7.5
7.8
7.3
7.1
7.4
7.9
7.8
7.8
6.8
6.7
7
7.2
7.3
7.4
7.3
7.2
7.6
7.4
7.9
7.7
7.2
6.8
7
6.7
7.8
8.1
7.2
7.3
7.6
7.8
8.0
7.5
6.8
6.9
6.8
7.1
7.3
7.5
7.2
7.2
7.5
7.6
7.6
8.0
7.1
6.8
7.2
6.7
7.8
7.5
7.2
6.9
7.5
7.7
7.7
7.8
6.7
6.6
7.2
7.2
7.2
7.8
7.4
7.2
7.9
7.7
7.6
7.6
7
6.9
𝒚𝟏 = 𝟏𝟔𝟖. 𝟑
𝒚𝟐 = 𝟏𝟖𝟎. 𝟐
𝒚𝟑 = 𝟏𝟕𝟏. 𝟐
𝒚𝟒 = 𝟏𝟖𝟑
𝒚𝟓 = 𝟏𝟖𝟔
𝒚𝟔 = 𝟏𝟔𝟐. 𝟗
b) Estimación del total de carbohidratos contenidos en las 1,000 rejas de refrescos.
𝜏̂𝑐 = 𝑀𝑦̅𝑠
238
donde: 𝑀 = 24,000 y 𝑦̅𝑠 = 7.3028.
Por lo tanto:
𝜏̂ 𝑐 = (24,000)(7.3028) = 175,267.2 carbohidratos contenidos en las 1,000 rejas de refrescos.
c) Varianza y la desviación estándar de la media.
𝑁−𝑛
1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2
donde: 𝑀 = 24,000, 𝑁 = 1,000, 𝑛 = 6, 𝑦̅𝑠 = 7.3028,
̅ = 𝑀 = 24,000 = 24: el número promedio de estudiantes por grupo,
𝑀
𝑁
1,000
𝜎𝑐2 : estimada por 𝑠𝑐2 =
𝑠𝑐2 =
[∑𝑛
̅𝑠 𝑀𝑖 )2 ]
𝑖=1(𝑦𝑖 −𝑦
𝑛−1
:
(168.3−(7.3028)(24))2 +⋯+(162.9−(7.3028)(24))2
(6−1)
= 83.152.
Por lo tanto:
1,000 − 6
1
𝑉̂ (𝑦̅𝑠 ) = (
)(
) (83.1520) = 0.024009.
(6)(24)2
1,000
√𝑉̂ (𝑦̅𝑠 ) = √0.024009 = 0.154948.
d) Un IC a 90% para la media poblacional (𝜇𝑠 ).
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
donde: 𝑦̅𝑠 = 7.3028, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(6−1,1−0.1⁄2) = 2.015 y √𝑉̂ (𝑦̅𝑠 ) = 0.154948.
Por lo tanto:
239
7.3028 ± (2.015)(0.154948)
7.3028 ± 0.31222
6.99058 ≤ 𝜇𝑠 ≤ 7.61502.
e) Un IC de 90% para el total.
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 )
donde: 𝜏̂ 𝑠 = 175,267.2, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015,
y √𝑉̂ (𝜏̂ 𝑠 ) = 𝑀√𝑉̂ (𝑦̅𝑠 ) = (24,000)(0.154948) = 3,718.752.
Por lo tanto:
175,267.2 ± (2.015)(3,718.752)
175,267.2 ± 7,493.28528
167,773.9147 ≤ 𝜏𝑠 ≤ 182,760.48528
f) Suponga que 𝑛 = 6 grupos es una muestra preliminar. ¿Cuál es el tamaño de muestra
necesario para estimar la media poblacional con una precisión de 4% de la media
preliminar y una confiabilidad de 90%?
∗
𝑛 =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑐
2
2
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀
⁄2) 𝜎𝑐
̅ = 𝑀 = 24, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015,
donde: 𝑁 = 1,000, 𝑀
𝑁
𝜎𝑐2 : estimada por 𝑠𝑐2 = 83.152 y 𝑑 = (0.04)(7.3028) = 0.292112.
Por lo tanto:
(1,000)(2.015)2 (83.1520)
𝑛 =
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152)
∗
240
𝑛∗ =
337,615.8292
49,487.362062
𝑛∗ = 6.8222 = 7 grupos
g) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con
una precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel
de aseguramiento (𝛾) de 99%?
𝑛𝑚 =
2
𝜒(𝛾,
𝑛∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
2
𝜒(𝛾,
𝑛∗ −1)
2
2
2
2
̅
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
̅ = 24, 𝜎𝑐2 = 83.152, 𝑑 = 0.292112,
donde: 𝑁 = 1,000, 𝑀
2
2
𝑡(𝑛−1,1−𝛼⁄2) = 2.015, y 𝜒(𝛾,
𝑛∗ −1) = 𝜒(0.99,6.8222−1) = 16.5101.
Por lo tanto:
16.5101
6.8222 − 1)
𝑛𝑚 =
16.5101
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152) (
6.8222 − 1)
957,382.2785
𝑛𝑚 =
= 19.1067 = 20 grupos.
50,107.1285
(1,000)(2.015)2 (83.152) (
EJERCICIOS
En los siguientes ejercicios estimar un IC para la media y el total poblacional con una
confiabilidad de 95%, y suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media poblacional de tal
manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 99%?
241
Ejercicio 6.1. La Secretaría de Salud cuenta con 200 hospitales distribuidos en el territorio
nacional, dentro de los cuales tiene laborando a 6,000 médicos con estudios de posgrado.
Para medir el nivel de satisfacción de los empleados en el trabajo, se toma una muestra
aleatoria simple de seis hospitales y un censo en cada uno. El nivel de satisfacción se mide
de 0 (nada satisfecho) a 10 (muy satisfecho) (Cuadro 6.3).
Cuadro 6.3. Nivel de satisfacción de los médicos por hospital.
Hospital 1
Hospital 2
6
9
6
9
8
7
7
6
8
8
8
7
7
7
8
6
7
Hospital 3
8
Hospital 4
Hospital 5
8
9
8
8
9
8
6
8
7
7
10
8
8
7
9
6
7
9
6
9
6
7
8
8
7
8
8
5
9
7
9
9
8
7
6
7
9
7
8
8
6
5
6
5
6
6
8
6
8
9
8
6
9
6
5
8
7
6
7
5
7
6
8
6
4
9
6
7
6
7
10
6
7
6
8
8
6
Hospital 6
9
9
8
6
7
8
7
6
9
6
7
6
4
8
9
6
7
8
9
8
5
8
8
5
6
10
4
9
7
9
9
7
10
8
9
6
7
8
8
9
9
9
9
9
9
6
8
7
8
8
9
8
7
7
6
7
6
7
7
7
8
8
8
9
6
6
5
6
6
7
7
8
8
8
7
5
4
9
5
9
7
Ejercicio 6.2. El presidente municipal de Guadalajara desea estimar el total de basura
producida en la ciudad. Se supone que la ciudad está conformada por 300 manzanas, y
que el número de viviendas es de 10,000. Además, con la finalidad de medir el promedio
y total de basura producida por vivienda semanalmente, se toma una muestra aleatoria
simple de 𝑛 = 8 manzanas. En cada manzana se recaba toda la basura producida por
vivienda. Use la información del Cuadro (6.4).
Cuadro 6.4. Kg. de basura producidos por vivienda.
Manzana 1
Manzana 2
Manzana 3
Manzana 4
40
30
38
48
60
35
29
36
30
45
65
37
40
48
82
72
60
68
88
83
50
75
95
93
48
45
49
63
49
Manzana 5
242
Manzana 6
Manzana 7
Manzana 8
35
45
49
82
38
38
35
83
48
45
28
73
65
66
25
65
70
33
29
45
35
22
79
66
40
45
49
82
40
6.5 Estimación de parámetros de interés con 𝑴 desconocida bajo muestreo por
conglomerados
¿Qué sucede cuando se desconoce el tamaño de la población 𝑴?
Con la información anterior, se puede estimar la media, el total o el intervalo de confianza
para el total poblacional. Sin embargo, para utilizar las expresiones anteriores se debe
conocer 𝑀, pero en ocasiones no es posible saber ese valor. A continuación se muestran
los estimadores donde no es necesario conocer 𝑀.
Es importante mencionar que los estimadores que a continuación se presentan se
recomiendan cuando los tamaños de los conglomerados son aproximadamente iguales.
El estimador de la media y el total poblacional
Para hallar el estimador del total y la media poblacional se recurre a la expresión del total
promedio por conglomerado (𝑦̅):
𝜏̂ 𝑠 = 𝑁𝑦̅
𝜇̂ 𝑠 = 𝑦̅𝑠 =
(6.8)
𝜏̂𝑠
𝑀𝑎𝑝𝑟𝑜𝑥
̅y𝑀
̅ = (∑𝑛𝑖=1 𝑀𝑖 )/𝑛
donde 𝑦̅ = (∑𝑛𝑖=1 𝑦𝑖 )/𝑛 = (∑𝑛𝑖=1 𝜏𝑖 )/𝑛, 𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀
243
(6.9)
La varianza estimada de la media y del total
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
2
̂
̂
𝑉 (𝜏̂ 𝑠 ) = 𝑉 (𝑁𝑦̅) = 𝑁 (
)( )
𝑁
𝑛
𝑛−1
𝑉̂ (𝜇𝑠 ) = 𝑉̂ (𝑦̅𝑠 ) =
𝑉̂ (𝜏̂𝑠 )
1 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
=
(
)( )
2
̅2
𝑀𝑎𝑝𝑟𝑜𝑥
𝑁
𝑛
𝑛−1
𝑀
(6.10)
(6.11)
Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de los mismos.
Los intervalos de confianza para estos estimadores se construyen de forma habitual.
El intervalo de confianza de la media y del total
𝑦̅𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑐 )
(6.12)
𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑐 )
(6.13)
El tamaño de muestra para estimar la media
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
∗
𝑛 =
2
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
donde 𝜎𝑡2 es estimada por 𝑠𝑡2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ]/(𝑛 − 1).
El tamaño de muestra modificado para estimar la media
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( ∗
)
𝑛 −1
𝑁𝑑 2
244
+
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾,
𝑛∗ −1) es el
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
6.6 La estimación de una proporción poblacional
Muchas veces se quiere estimar la característica 𝐺 específica de la población. Por ejemplo:
suponga que se desea conocer la proporción de personas en el estado de Colima que
padecen cierta enfermedad, o la preferencia por cierto partido político, la aceptación de
alguna norma ecológica, etcétera. Cuando se desea estimar una proporción y el total, si
se conoce 𝑀, se deben utilizar los mismos estimadores de la media y el total con 𝑀
conocida, los cuales fueron presentados en el apartado 6.4, sólo que ahora la variable
respuesta contendrá ceros y unos. En caso de desconocerse 𝑀, los estimadores de la
proporción y el total deben ser los mismos que se usaron en el apartado 6.5. En ambos
casos se realizan los cálculos exactamente como los ejemplos presentados en los
apartados 6.4 y 6.5, respectivamente. Es importante recordar que el muestreo por
conglomerados se sugiere cuando:

Las unidades muestrales son grupos de elementos.

Se desea minimizar el costo por unidad muestreada.

Este diseño puede combinarse con otros diseños; por ejemplo, el estratificado.
EJEMPLOS
Ejemplo 6.3. Un agrónomo tiene una parcela experimental de 10,000 𝑚2 . Con la
finalidad de conocer el promedio de cacahuates por planta y el total de cacahuates
245
producidos, divide la parcela en tramos de 4 𝑚2 , y selecciona una muestra aleatoria de
𝑛 = 15 tramos. El Cuadro 6.5 muestra el número de plantas y el total de cacahuates por
tramo.
Cuadro 6.5. Total de cacahuates por tramo de plantas.
Tramo
1
2
Plantas
35
34
Total por tramo
𝑦1 = 1,680
𝑦2 = 1,360
3
28
𝑦3 = 1,904
4
33
𝑦4 = 1,485
5
34
𝑦5 = 2,346
6
27
𝑦6 = 1,809
7
28
𝑦7 = 1,148
8
33
𝑦8 = 1,320
9
31
𝑦9 = 1,953
10
35
𝑦10 = 1,645
11
34
𝑦11 = 2,414
1,680+1,360+⋯+1,450
12
29
𝑦12 = 2,146
15
13
28
𝑦13 = 1,232
14
26
𝑦14 = 1,404
15
29
𝑦15 = 1,450
a) La estimación de la
conglomerado
𝑦̅ =
∑𝑛
𝑖=1 𝑦𝑖
25,290
15
𝑛
= 𝑦̅ =
=
media
por
(tramo).
=
1,686.4 cacahuates por tramo.
b) Estimación del total poblacional.
𝑛
𝑁
𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
donde: 𝑦̅𝑖 = 1,686.4, 𝑁 =
10,000
4
= 2,500: Los tramos en los que se dividió la parcela.
Por lo tanto:
𝜏̂𝑠 = (2,500)(1,686.4) = 4,216,000 cacahuates en toda la población.
c) La estimación de la media poblacional (por planta de cacahuate).
Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:
𝑀𝑎𝑝𝑟𝑜𝑥
246
̅=𝑁
= 𝑁𝑀
∑𝑛𝑖=1 𝑀𝑖
𝑛
̅ = (35 + 34 + ⋯ + 26 + 29)/(15) = 30.9333,
donde: 𝑁 = 2,500, 𝑀
𝑀𝑖 : 𝑀1 = 35, 𝑀2 = 34, 𝑀3 = 28, … , 𝑀15 = 29 y 𝑛 = 15.
Por lo tanto: 𝑀𝑎𝑝𝑟𝑜𝑥 = 2,500(30.9333) = 77,333.3333.
La estimación de la media poblacional es:
𝑦̅𝑠 =
𝜏̂𝑠
𝑀𝑎𝑝𝑟𝑜𝑥
donde: 𝜏̂𝑠 = 4,216,000 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333.
Por lo tanto:
4,216,000
𝑦̅𝑠 = 77,333.3333 = 54.5172 cacahuates en promedio por planta.
d) La varianza y la desviación estándar de la media poblacional.
𝑉̂ (𝑦̅𝑠 ) =
𝑉̂ (𝜏̂𝑠 )
𝑁 2 𝑉̂ (𝑦̅)
=
2
2
𝑀𝑎𝑝𝑟𝑜𝑥
𝑀𝑎𝑝𝑟𝑜𝑥
donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333, 𝑦̅ = 1686.4, 𝑛 = 15, 𝑁 = 2,500,
𝑠𝑡2 =
∑𝑛
̅)2
𝑖=1(𝑦𝑖 −𝑦
𝑛−1
=
[(1,680−1,686.4)2 +⋯+(1,450−1,686.4)2 ]
15−1
= 158,875.2571 y
𝑁−𝑛 1
2,500−15 1
𝑉̂ (𝑦̅) = 𝑁 (𝑛) 𝑠𝑡2 = [ 2,500 (15)] [158,875.2571] = 10,528.1337.
Por lo tanto:
𝑉̂ (𝑦̅𝑠 ) =
(2,500)2 (10,528.1337)
= 11.0026.
(77,333.3333)2
Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √11.0026 = 3.3170.
e) El IC de la media poblacional con una confianza de 90%.
247
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
donde: 𝑦̅𝑠 = 54.5172, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y √𝑉̂ (𝑦̅𝑠 ) = 3.3170.
Por lo tanto:
54.5172 ± (1.7613)(3.3170)
54.5172 ± 5.8423
48.6749 ≤ 𝜇𝑠 ≤ 60.3595.
Es decir, con 90% de confianza se estima que la media poblacional está entre 48.6749
y 60.3595.
f) El IC del total poblacional con una confianza de 90%.
𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅)
donde: 𝜏̂𝑐 = 4,216,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y
√𝑉̂ (𝜏̂ 𝑠 ) = 𝑁√𝑉̂ (𝑦̅) = 2,500√10,528.1337 = 256,516.7356.
Por lo tanto:
4,216,000 ± (1.7613)(256,516.7356)
4,216,000 ± 451,802.9264
3,764,197.074 ≤ 𝜏𝑐 ≤ 4,667,802.926.
Es decir, con 90% de confianza se estima que el total poblacional está entre
3,764,197.074 y 4,667,802.926.
g) Si 𝑛 = 15 tramos es una muestra preliminar. El tamaño de muestra para estimar la
media por conglomerados con una precisión del 10% del promedio preliminar y una
confiabilidad del 90% es:
248
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
∗
𝑛 =
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
donde: 𝑁 = 2,500, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 158,875.2571,
𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y 𝑑 = (0.1)(1,686.4) = 168.64.
Por lo tanto:
𝑛∗ =
(2,500)(1.7613)2 (158,875.2571)
(2,500)(168.64)2 + (1.7613)2 (158,875.2571)
1,232,148,195
𝑛∗ = 71,591,483.28 = 17.2108 = 18 tramos.
h) Finalmente, el tamaño de muestra necesario para estimar el promedio poblacional
con una precisión del 10% del promedio preliminar, una confiabilidad del 90% y un
nivel de aseguramiento (𝛾) de 99% es:
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑁𝑑2
+
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
donde: 𝜎𝑡2 = 158,875.2571, 𝑁 = 2,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613,
2
2
𝑑 = 168.64 y 𝜒(𝛾,𝑛
∗ −1) = 𝜒(0.99,17.2108−1) = 32.2983.
Por lo tanto:
32.2983
17.2108
− 1)
𝑛𝑚 =
32.2983
(2,500)(168.64)2 + (1.7613)2 (158,875.2571) (
17.2108 − 1)
2,454,924,621
𝑛𝑚 =
= 34.0581 = 35 tramos.
72,080,593.85
(2,500)(1.7613)2 (158,875.2571) (
Ejemplo 6.4. Suponga que un predio localizado en una playa de Manzanillo tiene 1,000
palmeras de coco. Un investigador desea conocer la cantidad promedio de agua de coco
249
que producen las palmeras, para lo cual toma una muestra aleatoria de ocho palmeras y
mide la cantidad de agua por coco en cada palmera. En el Cuadro 6.6 se muestra el total
de agua en litros. Resuelva lo solicitado.
Cuadro 6.6. Total de litros de agua de coco por palmera.
Palmera 1
Palmera 2
Palmera 3
Palmera 4
1.12
0.94
0.77
0.81
0.68
1.33
0.95
1.49
1.07
0.76
1.07
0.99
0.85
0.95
0.73
0.89
0.79
1.26
0.96
1.03
0.89
Palmera 5
1.02
0.75
Palmera 6
1.28
0.93
Palmera 7
1.09
1.42
Palmera 8
0.99
0.95
0.51
0.77
0.88
0.99
0.83
1.28
1.23
0.72
1.06
0.96
0.85
1.11
0.77
0.87
0.82
1.14
𝒚𝟏 =
𝟔. 𝟗𝟑
0.85
𝒚𝟐 =
𝟕. 𝟐𝟕
0.95
𝒚𝟑 =
𝟖. 𝟒𝟓
𝒚𝟒 0.97
= 𝟖. 𝟗
1.66
0.56
0.86
0.90
1.50
1.12
0.94
0.71
0.58
0.83
0.72
0.89
0.89
1.08
1.09
𝒚𝟏 = 𝟕. 𝟓𝟗
𝒚𝟐 = 𝟓. 𝟑𝟕
𝒚𝟑 = 𝟗. 𝟒𝟓
𝒚𝟒 = 𝟔. 𝟔𝟗
a) El promedio por conglomerado.
∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 𝜏𝑖
𝑦̅ =
=
𝑛
𝑛
donde: 𝑛 = 8: el número de palmeras seleccionadas.
𝑦𝑖 = 𝜏𝑖 = el total de litros en la palmera 𝑖, 𝑖 = 1,2, … ,8.
Por lo tanto:
𝑦̅ =
250
6.93 + 5.99 + ⋯ + 8.36 + 6.69 60.65
=
= 7.5813 litros por conglomerado.
8
8
b) El total poblacional.
𝑛
𝑁
𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
donde: 𝑦̅ = 7.5813, 𝑁 = 1,000 y 𝑛 = 8.
Por lo tanto:
𝜏̂𝑠 = (1,000)(7.5813) = 7,581.3 litros de agua de coco en el predio.
c) El promedio de litros por coco (media poblacional).
Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:
̅=𝑁
𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀
∑𝑛𝑖=1 𝑀𝑖
𝑛
donde: 𝑁 = 1,000, 𝑛 = 8, 𝑀𝑖 : 𝑀1 = 8, 𝑀2 = 7, 𝑀3 = 9, … , 𝑀8 = 8 cocos por palmera y
̅ = (8 + 7 + 9 + 8 + 6 + 7 + 10 + 8)/8 = 7.875,
𝑀
Por lo tanto:
𝑀𝑎𝑝𝑟𝑜𝑥 = 7.875(1,000) = 7,875 cocos en la población de 1,000 palmeras.
El estimador de la media poblacional es:
𝑦̅𝑠 =
𝜏̂𝑠
𝑀𝑎𝑝𝑟𝑜𝑥
donde: 𝜏̂𝑠 = 7,581.3 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875.
251
Por lo tanto:
𝑦̅𝑠 =
7,581.3
= 0.9627 litros de agua producidos por cada coco.
7,875
d) La varianza y la desviación estándar de la media poblacional.
𝑉̂ (𝑦̅𝑠 ) =
𝑉̂ (𝑦̅) =
𝑉̂ (𝜏̂𝑠 )
𝑁 2 𝑉̂ (𝑦̅)
=
2
2
𝑀𝑎𝑝𝑟𝑜𝑥
𝑀𝑎𝑝𝑟𝑜𝑥
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
( )
𝑁
𝑛
𝑛−1
donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875, 𝑦̅ = 7.5813, 𝑛 = 8, 𝑁 = 1,000,
𝑠𝑡2 =
∑𝑛
̅)2
𝑖=1(𝑦𝑖 −𝑦
̂(𝑦̅ ) =
𝑉
𝑛−1
=
(6.93−7.5813)2 +⋯+(6.69−7.5813)2
𝑁−𝑛 1
𝑁
( ) 𝑠2𝑡 = [
𝑛
8−1
= 1.7416 y
1,000 − 8 1
( )] [1.7416] = 0.21596.
1,000
8
Por lo tanto:
𝑉̂ (𝑦̅𝑠 ) =
(1,000)2 (0.21596)
= 0.00348
(7,875)2
Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √0.00348 = 0.059.
e) El IC de la media poblacional con una confiabilidad de 90%.
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
donde: 𝑦̅𝑠 = 0.9627, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946 y √𝑉̂ (𝑦̅𝑠 ) = 0.059.
Por lo tanto:
0.9627 ± (1.8946)(0.059)
252
0.9627 ± 0.1118
0.8509 ≤ 𝜇𝑠 ≤ 1.0745.
Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua por
coco.
f) El intervalo del total poblacional con una confianza de 90%.
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅𝑠 )
donde: 𝜏̂𝑠 = 7,581.25, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946
y √𝑉̂ (𝜏̂𝑐 ) = 𝑁√𝑉̂ (𝑦̅𝑠 ) = (1,000)(√0.21596) = 464.7111.
Por lo tanto:
7,581.25 ± (1.8946)(464.7111)
7,581.25 ± 880.4317
6,700.8129 ≤ 𝜏𝑠 ≤ 8,461.6817.
Entonces, el total de litros de agua de coco en el predio está entre 6,700.81 y 8,461.68.
g) Suponga que 𝑛 = 8 palmeras es una muestra preliminar. Determine el tamaño de
muestra para estimar la media por conglomerados con una precisión de 10% del
promedio preliminar y una confiabilidad de 90%?
𝑛∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
2
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝜎𝑡
donde: 𝑁 = 1,000, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946
y 𝑑 = (0.1)(7.5813) = 0.75813.
253
Por lo tanto:
(1,000)(1.8946)2 (1.7416)
𝑛 =
1,000(0.75813)2 + (1.8946)2 (1.7416)
∗
𝑛∗ =
6,251.48915
= 10.7596 = 11 palmeras (muestra).
581.01259
h) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con
una precisión de 10% del promedio preliminar, una confiabilidad de 90% y un nivel
de aseguramiento (𝛾) de 99%?
𝑛𝑚 =
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑁𝑑2
+
2
𝜒(𝛾,𝑛
∗ −1)
2
2
𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
donde: 𝑁 = 1,000, 𝜎𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946,
2
2
𝑑 = 0.75813 y 𝜒(𝛾,𝑛
∗ −1) = 𝜒(0.99,10.7597−1) = 22.8411.
Por lo tanto:
22.8411
)
10.7597
−1
𝑛𝑚 =
22.8411
1,000(0.75813)2 + (1.8946)2 (1.7416) (
)
10.7597 − 1
14,630.66374
𝑛𝑚 =
= 24.8233 = 25.
589.39176
(1,000)(1.8946)2 (1.7416) (
EJERCICIOS
En los siguientes ejercicios estime el IC para la media y el total poblacional con una
confiabilidad de 95% y suponga que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de
254
tal manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 90%?
Ejercicio 6.3. El dueño de una plantación forestal necesita estimar el volumen total de
biomasa en 𝑚3 que tiene su plantación. Ha pensado en hacer un muestreo por
conglomerados. Para esto divide la plantación en 300 sitios, de los cuales selecciona
aleatoriamente 40 y dentro de cada uno de ellos mide el volumen de todos los árboles
incluidos. En este caso las UMP (los conglomerados) son los sitios y las UMS son los
árboles. Úse los datos del Cuadro 6.7.
Cuadro 6.7. Volumen de biomasa en 𝑚3 .
Conglom.
𝑴𝒊
𝒚𝒊
Conglom.
𝑴𝒊
𝒚𝒊
1
508
1,709
21
558
2,440
2
302
1,075
22
598
2,005
3
693
3,087
23
532
2,057
4
598
1,729
24
599
2,562
5
459
1,497
25
607
1,853
6
695
2,725
26
609
7
476
2,143
27
640
3,066
8
675
2,945
28
659
1,948
9
432
1,355
29
589
1,942
10
567
2,267
30
674
2,413
11
657
2,724
31
508
1,870
12
650
2,537
32
302
987
13
667
3,284
33
693
3,258
14
598
2,370
34
598
2,700
15
548
2,026
35
459
1,750
16
657
1,987
36
583
2,007
17
508
1,479
37
476
1,231
18
499
1,668
38
675
2,701
19
549
2,163
39
432
1,669
20
543
2,463
40
567
1,904
2,698
Ejercicio 6.4. La Secretaría de Desarrollo Social cuenta con 25 estancias infantiles
distribuidas en el estado de Colima, donde los padres llevan a sus hijos diariamente. Con
el objetivo de conocer el nivel de satisfacción de los padres respecto a este servicio, se
tomó un muestreo aleatorio simple de cinco guarderías y se realizó una encuesta (el nivel
de satisfacción se mide de 0 a 5). Véase el Cuadro 6.8.
255
Cuadro 6.8. Resultados de los conglomerados censados
256
Estancia 1
Estancia 2
Estancia 3
Estancia 4
Estancia 5
3
4
2
3
4
5
3
4
2
3
3
5
2
2
4
4
3
3
4
3
2
2
3
1
2
3
4
2
4
2
2
3
3
2
3
3
4
2
3
5
3
3
2
2
5
4
4
5
3
4
3
3
1
1
5
4
5
4
5
4
4
1
1
3
4
3
4
3
3
3
1
2
3
5
2
5
3
2
2
4
4
5
2
5
4
2
2
4
4
3
3
4
2
4
4
4
3
4
5
Capítulo 7. Muestreo basado en el método de respuesta aleatorizada
CAPÍTULO 7
Muestreo basado en el método de
respuesta aleatorizada
Cuando la gente no quiere
cooperar con las respuestas,
la estadística y su ingenio
te ayudan a conseguirlo.
OAML
P
ara que los resultados de una encuesta sean creíbles es necesario, entre otros
aspectos, que las preguntas tengan suficiente calidad o validez, lo que exige asumir
que las respuestas sean ciertas. Para creer en los resultados de una encuesta primero es
necesario creer en las respuestas de las personas que han sido entrevistadas. Sin embargo,
las respuestas sinceras pueden ser difíciles de obtener, y hay muchos problemas
implícitos al tratar de conseguirlas (Lohr, 2000).
Las personas tienen inclinaciones, tendencias propias, actitudes, distintas formas de
pensar, desconfianza, etc. Tales características dificultan, en algunas ocasiones, la calidad
de las respuestas. Uno de los problemas típicos se denomina deseabilidad social. Por ello
es importante estar consciente de que las personas entrevistadas pueden responder en
función de lo bien visto socialmente. Por ejemplo, el consumo de droga se cataloga como
negativo, por lo que alguien que haya consumido o consuma drogas tenderá con
facilidad a responder no ante la pregunta ¿Ha consumido droga alguna vez? (Lohr, 2000).
257
Por otro lado, la deseabilidad social puede actuar de forma inconsciente, es decir, que
el individuo no controle intencionalmente su respuesta. La deseabilidad social también
es preocupante cuando las preguntas se refieren a temas íntimos como las relaciones
sexuales. En ese caso, las personas suelen mostrar resistencia a exponerse ante extraños
y son más propensos a responder según lo que se considera socialmente aceptable, por
lo que se cubre la verdad (Lohr, 2000). Es decir, cuando una encuesta incluye una o más
preguntas que se refieren a aspectos que pueden considerarse íntimos hacen que el
entrevistado se sienta en peligro o avergonzado si la responde con la verdad (Méndez,
Eslava, & Romero, 2004). Por ello, debe garantizarse que las preguntas y la forma de
hacerlas sean ingeniosas y con calidad para obtener resultados confiables.
Obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se
enfrentan a dificultades que son inherentes a toda persona encuestada: inclinaciones,
actitudes, frustraciones, timidez, formas de pensar, comportamientos, tiempo disponible,
desconfianzas y una propensión a mantener la intimidad. Esto conlleva a que en las
últimas décadas se hayan realizado investigaciones para asegurarse de la calidad y
veracidad de las respuestas obtenidas sobre temas íntimos. La necesidad del ser humano
por hacerse de información y por combatir la no respuesta lo han conducido a desarrollar
nuevas técnicas en la metodología del muestreo, entre ellas: la respuesta aleatorizada
(Méndez y Quintana, 2007).
Respuesta aleatorizada
La técnica de respuesta aleatorizada es un método especialmente diseñado para
asegurar privacidad a los entrevistados en el estudio de temas sensibles, delicados o
embarazosos. Se intenta con ello evitar sesgos de los entrevistados en ciertas
conductas hacia la respuesta socialmente más deseable. Es decir, le asegura al
entrevistado que su respuesta sobre temas sensibles (falsa o verdadera) no será
conocida por el entrevistador, de ahí el nombre de respuesta aleatorizada; la
respuesta se realiza al azar. Se ha utilizado para analizar temas como copiar en los
exámenes, fraudes, haber sido arrestado, conducir bajo los efectos del alcohol,
infidelidad, tener hijos fuera del matrimonio, prácticas abortivas, etc.
Existen varios métodos para evitar la resistencia de las personas a responder con
sinceridad cuando el tema es delicado. Este capítulo presenta un método para estimar
258
proporciones: el método de Warner modificado que fue propuesto por Horvitz, Shah, &
Simmons (1967). Este método obtiene respuestas directas de las personas entrevistadas,
es decir, estima la proporción sin que el entrevistado revele su posición personal respecto
a la pregunta delicada. El objetivo de esta técnica es ayudar a que se den respuestas
veraces y se conserve la confiabilidad. El método presenta una forma sencilla de calcular
el tamaño de muestra necesario y con ello estimar la proporción con la precisión y
confiabilidad fijadas bajo el MAS y el MAE.
7.1. ¿Cuándo se utiliza esta técnica?

Cuando las personas que son entrevistadas se niegan a contestar o dan una
respuesta falsa a preguntas delicadas, porque creen que las exponen o las pueden
perjudicar en algún sentido.

Cuando se quiere estimar el porcentaje de la población que tiene la característica
delicada.
Por características sensitivas o delicadas se entiende a las situaciones en donde los
entrevistados sienten invadida su intimidad al pedir que respondan un cuestionario. Por
lo tanto, las preguntas sirven para captar las características sensitivas de los
entrevistados, las cuales se tienen que manejar con cuidado debido a la no respuesta o a
la respuesta falseada contestando lo socialmente deseable.
7.2. Ventajas y desventajas
Ventajas
 Aumenta la probabilidad de
contestar la verdad que en una
pregunta directa.
 Mayor índice de respuesta.
259
Desventajas
 Aumento en la complejidad de la pregunta.
 Dificultad en entender el método de aleatorización.
 Requiere de tamaños de muestras grandes.
7.3. El modelo de respuesta aleatorizada bajo el MAS
Este método de respuesta aleatorizada fue desarrollado por Warner en 1965 y consiste
en clasificar a las personas en los grupos 𝐴 y 𝐵, respectivamente. Cada persona estará en
uno de los grupos, 𝐴 o 𝐵. Sea 𝜋 la proporción de personas con ciertas características de
interés (grupo 𝐴). El objetivo es estimar 𝜋 sin preguntar a cada persona directamente si
pertenece o no al grupo 𝐴. A continuación se presenta el procedimiento propuesto por
Warner (1965):
1. Se construye un mazo de cartas, pero una fracción de ellas 𝑝, se marca con la letra
𝐴 (grupo 𝐴) y la fracción restante, 1 − 𝑝, con las letras faltantes del abecedario
(grupo 𝐵).
2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin
reemplazo de tamaño 𝑛 de la población (𝑁).
3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.
4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que
seleccione una carta, pero que no nos diga con que letra está marcada.
5. A continuación se le explica que se le va a hacer una pregunta y que la responda
con sí o no, pero resaltando que debe quedarle clara la pregunta.
6. Que el individuo responda a la pregunta que tiene la característica delicada (por
ejemplo ¿Ha consumido drogas ilícitas alguna vez?) si la carta que obtuvo está
marcada con la letra 𝐴. Y que responda a la pregunta que no tiene la característica
delicada si obtuvo cualquier otra letra del abecedario.
7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
260
obtuvo, es decir, si la carta que obtuvo está marcada con la letra 𝐴 debe responder
con la verdad a la pregunta delicada y ésta sería su única respuesta. Lo mismo
sucede si le tocó cualquier otra letra del abecedario, debe responder con la verdad
a la segunda pregunta y ésta sería su única respuesta.
8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a
la siguiente persona.
9. Este procedimiento se aplica a todos los n individuos.
10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en este capítulo.
El mecanismo de aleatorización que originalmente utilizó Warner fue una aguja
giratoria en un disco con dos regiones delimitadas. La aguja apunta con probabilidad 𝑝
a la región 𝐴 y 1 − 𝑝 a la región 𝐴𝑐 . El entrevistado responde a la pregunta 𝑄𝐴 si la aguja
señala la región 𝐴, o a la pregunta 𝑄𝐴𝑐 si la aguja señala a la región 𝐴𝑐 , de esta manera
todo se conjuga a que el entrevistador sólo anote sí o no para cada entrevistado.
Por ejemplo, supóngase que en el estado de Colima se desea estimar el porcentaje de
hombres casados por lo civil que tienen hijos fuera del matrimonio. Además, supóngase
que se extrae una muestra aleatoria simple de 𝑛 = 200 de la población de 𝑁 = 10, 000.
Así, cada uno de los hombres que conforman la muestra recibe una ficha con las
siguientes preguntas:
𝑄𝐴 : Pregunta 1: ¿tiene al menos un hijo fuera de su matrimonio?
𝑄𝐴𝑐 : Pregunta 2: ¿no tiene hijos fuera del matrimonio?
La pregunta 𝑄𝐴 (pregunta 1) será respondida por el entrevistado si la aguja marca la
región 𝐴. Por otra parte, si la aguja marca la región 𝐴𝑐 , el entrevistado responderá la
pregunta 𝑄𝐴𝑐 (pregunta 2). Cada entrevistado responderá un sí o no porque solamente
contestará una de las dos preguntas dependiendo de la región que marque la aguja (𝐴 o
261
𝐴𝑐 ). Esto significa que se tendrán 𝑛 respuestas dicotómicas (sí o no) a partir de las cuales
se derivará la estimación de interés (porcentaje de respuestas afirmativas de la pregunta
1).
El mecanismo de aleatorización puede ser una baraja, un dado, una moneda, una urna,
etcétera, pero se debe tener claro cuál es su equivalente a la región 𝐴 y su respectiva
probabilidad. Recuérdese que el experimentador puede elegir arbitrariamente la fracción
𝑝 de cartas marcadas con 𝐴, pero no debe ser igual a 1/2 ni 𝑝 = 1, esta última porque el
entrevistado se daría cuenta que se le está preguntando si pertenece al grupo 𝐴. En
general, 𝑝 = 3/4 es adecuado. Este método requiere generalmente un tamaño de muestra
muy grande para obtener una varianza del estimador pequeña. Debido a que cada
respuesta produce poca información sobre la proporción poblacional, 𝜋. La técnica de
respuesta aleatorizada es una de las más simples de las que existen.
El estimador de la proporción y el total poblacional
1
Si suponemos que 𝑝 ≠ 2, el estimador de máxima verosimilitud de 𝜋 es:
𝜋̂ =
𝑝−1
𝑎
+
2𝑝 − 1 (2𝑝 − 1)𝑛
y el estimador de máxima verosimilitud de 𝜏 es:
𝜏̂ = 𝑁𝜋̂
donde: 𝑁 es el tamaño de la población, 𝑎 es el total de respuestas si de los 𝑛 entrevistados
y 𝑝 es la fracción de las letras en el mazo de cartas con la letra 𝐴.
262
La varianza estimada de los estimadores de la proporción y del total
𝑆𝜋̂2
𝑆𝜏̂2
=
𝑁−𝑛 1
=(
) [
𝑁
𝑛
𝑁 2 𝑆𝜋̂2
1 2
− (𝜋̂ − ) ]
2
1 2
16 (𝑝 − 2)
1
𝑁−𝑛 1
1
1 2
=𝑁 (
) [
− (𝜋̂ − ) ]
𝑁
𝑛
2
1 2
16 (𝑝 − )
2
2
A continuación se proporcionan los intervalos de confianza para los parámetros 𝜋 y 𝜏
con una confiabilidad del 100(1 − 𝛼)%.
El intervalo de confianza de la proporción y el total
𝜋̂ ± 𝑍𝛼/2 √𝑆𝜋̂2
𝜏̂ ± 𝑍𝛼/2 √𝑆𝜏̂2
donde 𝜋̂ es la proporción de interés, 𝜏̂ es el total de interés, 𝑍𝑎/2 es el valor de tablas de la
distribución normal estándar, √𝑆𝜋̂2 es la desviación estándar de la proporción de interés
y √𝑆𝜏̂2 es la desviación estándar del total de interés.
El tamaño de la muestra para la proporción y el total
El tamaño de muestra para estimar la proporción
Si se fija una precisión deseada con una confiabilidad de 100(1 − 𝛼)%, entonces 𝑑 =
𝑍1−𝛼/2 (√𝑆𝜋̂2 ). Por lo tanto, el tamaño de muestra se determina por la ecuación:
263
𝑛=
2
𝑁𝑍1−𝛼/2
𝑘
2
𝑁𝑑 2 + 𝑍1−𝛼/2
𝑘
donde:
𝑘=
1 2
1
1 2
16(𝑝− )
2
− (𝜋̂ − 2) .
𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.
El tamaño de muestra para estimar el total
𝑛=
2
𝑁 2 𝑍1−𝑎/2
𝑘
2
𝑑 2 + 𝑁𝑍1−𝛼/2
𝑘
donde:
𝑘=
1 2
1
1
2
̂ − 2) .
2 − (𝜋
16(𝑝− )
𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.
7.4 El modelo de respuesta aleatorizada bajo el MAE
Cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión
de las estimaciones. Los criterios para formar dichos estratos son exactamente los mismos
que en el MAE. Por lo tanto, para cada estrato se debe conocer su tamaño, no deben
traslaparse y se debe contar con un marco de muestreo confiable para tener una tasa de
respuesta en blanco muy cercana a cero. Por otro lado, ya que se determine el tamaño de
muestra con la expresión correspondiente, la asignación de la muestra se realizará en
forma proporcional, por su simplicidad y aceptación práctica. El procedimiento del
método de respuesta aleatorizada en MAE es exactamente el mismo que en el MAS. Por
264
lo tanto, a cada individuo que conformará la muestra se entrevistará con el mismo
procedimiento del método de respuesta aleatorizada bajo el MAS, con la diferencia de
que ahora el tamaño de muestra 𝑛 se asigna en forma proporcional a cada estrato, es
decir, 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝐸 .
El estimador de la proporción y el total poblacional
𝜋̂𝑠𝑡 =
𝑁1 𝜋̂1 + 𝑁2 𝜋̂2 + 𝑁𝐸 𝜋̂𝐸
𝑁
𝜏̂ 𝑠𝑡 = 𝑁𝜋̂𝑠𝑡
1
Si 𝑝 ≠ 2 es igual en cada estrato, el estimador de máxima verosimilitud de 𝜋̂ℎ es:
𝜋̂𝑠𝑡 =
𝑝−1
𝑎ℎ
+
; ℎ = 1,2, … 𝐸
2𝑝 − 1 (2𝑝 − 1)𝑛ℎ
donde 𝑝 es la fracción de letras en el mazo de cartas marcadas con la letra A y 𝑎ℎ es el
total de respuestas afirmativas (sí) de los 𝑛ℎ entrevistados en el estrato ℎ. Se necesita la
varianza de estos estimadores para determinar la dispersión de los datos y conocer la
precisión de las estimaciones.
La varianza de los estimadores de la proporción y total poblacional
𝐸
𝑆𝜋̂2𝑠𝑡
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1
1
1 2
= ∑( ) (
) [
− (𝜋̂ℎ − ) ]
𝑁
𝑁ℎ
𝑛ℎ 16(𝑝 − 1/2)2
2
ℎ=1
𝐸
𝑆𝜏̂2𝑠𝑡
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1
1
1 2
= 𝑁 ∑( ) (
) [
− (𝜋̂ℎ − ) ]
𝑁
𝑁ℎ
𝑛ℎ 16(𝑝 − 1/2)2
2
2
ℎ=1
265
Con los estimadores de las varianzas de 𝜋̂𝑠𝑡 y 𝜏̂ 𝑠𝑡 se puede calcular intervalos que
contengan el valor del parámetro con una probabilidad preestablecida.
El intervalo de confianza para el promedio y total poblacional
Los intervalos de confianza para 𝜋𝑠𝑡 y 𝜏𝑠𝑡 son:
𝜋̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜋̂2𝑠𝑡
𝜏̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜏̂2𝑠𝑡
El tamaño de muestra para estimar la proporción
Fijando la precisión 𝑑 = 𝑍1−𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que:
2
∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑁𝑍1−𝛼/2
𝑛=
2
∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑁𝑑 2 + 𝑁𝑍1−𝛼/2
donde:
𝐾ℎ =
1
1 2
−
(𝜋
̂
−
) .
ℎ
16(𝑝 − 1/2)2
2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de
cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.
El tamaño de muestra para estimar el total
Fijando la precisión 𝑑 = 𝑍𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que:
266
𝑛=
2
∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑁 2 𝑍1−𝛼/2
2
∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑑 2 + 𝑁𝑍1−𝛼/2
donde:
1
1 2
𝐾ℎ =
− (𝜋̂ℎ − ) .
16(𝑝 − 1/2)2
2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.
7.5 Alternativa al modelo de respuesta aleatorizada
Como alternativa al método de Warner (1965), Horvitz et al. (1967) sugirieron que la
cooperación de los entrevistados podría mejorar si el segundo enunciado (pregunta 2) no
fuese delicado y no tuviese relación con el primero. A continuación se presenta esta
variación de la idea original de Warner (1965) propuesta por Horvitz et al. (1967):
1. Se construye un mazo de cartas, pero una fracción de ellas (𝑝) se marca con la letra
A (grupo A) y la fracción restante (1 − 𝑝) con las letras faltantes del abecedario
(grupo B).
2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin
reemplazo de tamaño n de la población (𝑁).
3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.
4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo
que seleccione una carta, pero que no diga con qué letra está marcada.
267
5. A continuación se le explica que se le va a hacer una pregunta y que la responda
con sí o no, resaltando que debe quedar clara la pregunta.
6. Responda a la pregunta delicada, por ejemplo: ¿ha consumido droga alguna vez?
Si la carta que obtuvo está marcada con la letra A, por el contrario responda a la
pregunta inocua, por ejemplo: ¿naciste el mes de abril? si obtuvo cualquier otra
letra del abecedario.
7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
obtuvo, es decir, si la carta que obtuvo está marcada con la letra A, debe responder
con la verdad a la pregunta delicada y esta sería su única respuesta. Similarmente,
si le tocó cualquier otra letra del abecedario, debe responder con la verdad a la
pregunta inocua y esta sería su única respuesta.
8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar
a la siguiente persona.
9. Este procedimiento se aplica a los 𝑛 individuos de la muestra.
10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en éste capítulo.
7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS
A continuación se presentan los estimadores de algunos parámetros de interés para el
método de respuesta aleatorizada bajo MAS.
Estimadores para la proporción y el total
268
𝜋̂ =
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝑝
𝜏̂ = 𝑁𝜋̂ = 𝑁 (
𝜙̂ − (1 − 𝑝)𝑝𝐼
)
𝑝
donde: 𝑎 es el total de respuestas afirmativas en la muestra de tamaño 𝑛, 𝜙̂ = 𝑎/𝑛, 𝑁 es
el tamaño de la población, 𝑝 es la probabilidad de la pregunta delicada o íntima, 𝑝𝐼 es la
probabilidad de la pregunta intrascendente y se recomienda estimarla a partir de
registros históricos o de investigaciones confiables ya realizadas.
Varianza del estimador de la proporción y el total
𝑁 − 𝑛 𝑉̂ (𝜙̂)
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜋̂) = (
) 2 =(
)
𝑁
𝑝
𝑁
𝑝2 𝑛
𝑉̂ (𝜏̂ ) = 𝑁 2 𝑉̂ (𝜋̂) = 𝑁 2 (
𝑁 − 𝑛 𝑉̂ (𝜙̂)
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
) 2 = 𝑁2 (
)
𝑁
𝑝
𝑁
𝑝2 𝑛
Intervalos de confianza para la proporción y el total
𝜋̂ ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)
donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
Tamaño de muestra para estimar la proporción
269
𝜙̂(1 − 𝜙̂)
𝑝2
𝑛∗ =
𝜙̂(1 − 𝜙̂)
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2)
𝑝2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2)
donde: 𝑑 es la precisión fijada por el investigador.
Tamaño de muestra modificado para estimar la proporción.
2
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑡(𝑛−1,1−𝛼⁄2)
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
) , 𝑛𝑚 =
𝑁 + 𝑛𝑚
1
( ).
𝑝2
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
)
donde 𝛾 es la probabilidad de que el IC para la proporción no sea mayor que la amplitud
deseada, 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t- Student con 𝑛∗ − 1
grados de libertad por estrato también. Los cuantiles requeridos se pueden obtener
usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una
pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 −
𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
¿Cuál método de respuesta aleatorizada es mejor?
Dowling & Shachtman (1975) muestran que la varianza del estimador de interés (𝜋̂) de la
versión Horvitz et al. (1967) es menor que la propuesta originalmente por Warner (1965).
Esto significa que al usar la versión propuesta por Horvitz et al. (1967) se obtienen
estimaciones de la proporción y el total más precisas, por lo que se sugiere que el
investigador use esta versión para realizar sus estudios.
EJEMPLOS
Ejemplo 7.1. Se elige una muestra aleatoria simple de 𝑛 = 200 de los 𝑁 =
270
1,500 trabajadores de la Coca-Cola. Cada trabajador de la muestra recibe una ficha con
las siguientes preguntas:
1.- ¿Has robado a tu empresa por lo menos una vez?
2.- ¿Cumples años del 1 al 10 de agosto?
Se tienen los expedientes de todos los trabajadores de la Coca-Cola y se sabe que 𝑝𝐼 =
10/365. Suponga que el mecanismo de aleatorización es una baraja con una fracción de
cartas marcadas con la letra A igual a 𝑝 = 0.75, y la fracción restante con las letras
sobrantes del abecedario. De los resultados de la encuesta se tienen que 𝑎 = 90
contestaron que si a la pregunta correspondiente.
a) La proporción de trabajadores que han robado a su empresa por lo menos una vez.
𝜋̂ =
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝑝
𝑎
donde: 𝜙̂ = 𝑛 = 90/200, 𝑝 = 0.75 y 𝑝𝐼 = 10/365.
90
Por lo tanto: 𝜋̂ = 200
10
365
−(1−0.75)
0.75
= 0. 590868.
b) La varianza y la desviación estándar de la proporción muestral (𝜋̂).
𝑉̂ (𝜋̂) = (
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
)
𝑁
𝑝2 𝑛
90
donde: 𝑁 = 1,500, 𝑛 = 200, 𝑝 = 0.75 y 𝜙̂ = 200.
Por lo tanto:
90
90
1,500 − 200 200 (1 − 200)
𝑉̂ (𝜋̂) = (
)
= 0.001907.
1,500
0.752 (200)
271
La desviación estándar: √𝑉̂ (𝜋̂) = √0.001907 = 0.043669.
c) El IC de 95% para la proporción poblacional.
𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)
donde: 𝜋̂ = 0. 590868, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍(1−𝛼⁄2) = 𝑍(1−0.025) = 1.96 y √𝑉̂ (𝜋̂) = 0.043669.
Por lo tanto:
0. 590868 ± (1.96)(0.043669)
0. 590868 ± 0. 085592
0.505276 ≤ 𝜋 ≤ 0. 67646.
d) El total de trabajadores que han robado a su empresa por lo menos una vez.
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜏̂ = 𝑁𝜋̂ = 𝑁 (
)
𝑝
donde: 𝑁 = 1,500 y 𝜋̂ = 0. 590868. Por lo tanto: 𝜏̂ = (1,500)(0. 590868) = 886.
Así se tiene que el total de trabajadores que han robado a su empresa por lo menos
una vez es de 886.
e) El intervalo de confianza de 95% para el total poblacional.
𝜏 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂)
donde: 𝜏̂ = 886, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑁 = 1,500 y √𝑉̂ (𝜋̂) = 0.043669
Por lo tanto:
886 ± (1.96)(1,500)(0.043669)
272
886 ± 128.38686
757.61314 ≤ 𝜏 ≤ 1,014.38686.
Con 95% de confianza se estima que el total de trabajadores que han robado a su
empresa por los menos una vez está entre 757.61314 y 1,014.38686.
f) Si los 200 trabajadores encuestados son una muestra preliminar. El tamaño de
muestra necesario para estimar la proporción con una precisión 𝑑 = 0.05 y una
confiabilidad de 95% es:
𝜙̂(1 − 𝜙̂)
𝑝2
𝑛∗ =
𝜙̂(1 − 𝜙̂)
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2)
𝑝2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2)
90
donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75 y 𝜙̂ = 200.
Por lo tanto:
90
90
(200) (1 − 200)
0.752
𝑛∗ =
= 466.038621 = 467.
90
90
(200) (1 − 200)
(1,500)(0.05)2 + (1.96)2
0.752
(1,500)(1.96)2
g) Finalmente, el tamaño de muestra necesario para estimar la proporción con una
precisión 𝑑 = 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 90%
es:
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑡(𝑛−1,1−𝛼⁄2)
𝑛𝑚 =
(
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75,
273
)
1
𝑝2
)
90
𝜙̂ = 200 = 0.45 y 𝑍𝛾 = 1.2816.
Primero se determina el tamaño de la muestra suponiendo población infinita:
2
𝑛𝑚
√0.45(1 − 0.45) + √0.45(1 − 0.45) + 2(0.05)|1 − 2(0.45)|(1.2816)
1
1.96
=
(
)
(0.75)2
2(0.05)
1.96
(
)
2
0.497494 + √0.2475 + 0.006539
1
𝑛𝑚 = (
)
) (
0.05102
(0.75)2
2
𝑛𝑚 = (
0.497494 + 0.504023
1
) = 685.035717.
) (
0.05102
(0.75)2
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:
1,500
𝑛𝑚𝐹 = 685.035717 (
) = 470.2685 = 471..
1,500 + 685.035717
Ejemplo 7.2. Se elige una muestra aleatoria simple de 180 de los 1,400 trabajadores de la
empresa lechera Liconsa. Cada trabajador de la muestra recibe una ficha con las
siguientes preguntas:
1.- ¿Has observado prácticas ilícitas en la empresa?
2.- ¿El último número de tu credencial de elector es par?
Se tienen los expedientes de todos los trabajadores de la empresa Liconsa y se sabe
que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con una fracción
de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante con las letras
sobrantes del abecedario. De los resultados de la encuesta se tienen que 36 contestaron
que si a la pregunta correspondiente.
a) Proporción de trabajadores que han observado prácticas ilícitas en la empresa donde
laboran.
274
𝜋̂ =
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝑝
donde: 𝜙̂ = 36/180, 𝑝 = 0.8 y 𝑝𝐼 = 0.5.
Por lo tanto:
36
− (1 − 0.8)0.5
180
𝜋̂ =
= 0.125.
0.8
b) Varianza y la desviación estándar de la proporción muestral (𝜋̂).
𝑉̂ (𝜋̂) = (
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
)
𝑁
𝑝2 𝑛
donde: 𝑁 = 1,400, 𝑛 = 180, 𝑝 = 0.8 y 𝜙̂ = 36/180.
Por lo tanto:
36
36
1,400 − 180 180 (1 − 180)
𝑉̂ (𝜋̂) = (
)
= 0.00121.
1,400
0.82 (180)
La desviación estándar: √𝑉̂ (𝜋̂) = √0.00121 = 0.03479.
c) IC de 95% para la proporción poblacional.
𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)
donde: 𝜋̂ = 0.125, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂) = 0.03479.
Por lo tanto:
0.125 ± (1.96)(0.03479)
275
0.125 ± 0.068188
0.056812 ≤ 𝜋 ≤ 0.193188.
d) Total de trabajadores que han observado prácticas ilícitas en la empresa donde
laboran.
𝜏̂ = 𝑁𝜋̂
donde: 𝑁 = 1,400 y 𝜋̂ = 0. 125.
Por lo tanto:
𝜏̂ = (1,400)(0. 125) = 175.
e) Intervalo de confianza de 95% para el total poblacional.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂)
donde: 𝜏̂ = 175, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,400 y √𝑉̂ (𝜋̂) = 0.03479.
Por lo tanto:
175 ± (1.96)(1,400)(0.03479)
175 ± 95.46376
79.53624 ≤ 𝜏 ≤ 270.46376
Con 95% de confianza se estima que el total de trabajadores que han observado
prácticas ilícitas en la empresa donde laboran está entre 79.53624 y 270.46376.
f) Suponga que los 180 trabajadores encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la proporción de tal manera que
sea estimada con una precisión de 𝑑 = 0.05 y una confiabilidad de 95%?
276
𝜙̂(1 − 𝜙̂)
𝑝2
𝑛∗ =
𝜙̂(1 − 𝜙̂)
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2)
𝑝2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2)
36
donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 , 𝑑 = 0.05, 𝑝 = 0.8 y 𝜙̂ = 180 = 0.2.
Por lo tanto:
(0.2)(1 − 0.2)
0.82
𝑛∗ =
= 301.4438 = 302.
(0.2)(1 − 0.2)
2
2
(1.96)
(1,400)(0.05) +
0.82
(1,400)(1.96)2
g) ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera
que sea estimada con una precisión de 𝑑 = 0.05, una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%?
2
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
),
𝑁 + 𝑛𝑚
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑡(𝑛−1,1−𝛼⁄2)
𝑛𝑚 =
(
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
(
1
𝑝2
)
)
donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.8 , 𝜙̂ = 0.2 y
𝑍𝛾 = 2.3263.
Primero se determina el tamaño de la muestra suponiendo una población infinita.
2
𝑛𝑚 = (
2(0.05)|1−2(0.2)|(2.3263)
1.96
2(0.05)
1.96
√0.2(1−0.2)+√0.2(1−0.2)+
0.4+√0.16+0.071213
𝑛𝑚 = (
277
0.05102
2
1
) ((0.8)2 )
1
) ((0.8)2 )
0.4+0.480846 2
𝑛𝑚 = (
0.05102
1
) ((0.8)2 ) = 465.73523.
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita.
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 (
)
𝑁 + 𝑛𝑚
𝑛𝑚𝐹 = 465.73523 (
1,400
) = 349.4758 = 350.
1,400 + 465.73523
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sean estimados con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 80%?
Ejercicio 7.1. Una investigadora desea estimar el porcentaje y total de mujeres casadas
que sufrieron de maltrato físico por parte de su pareja durante el 2014. Supóngase que en
el municipio de Colima, Colima, se tiene una población de matrimonios de 𝑁 = 10,000,
de la cual se toma una muestra aleatoria simple de 𝑛 = 138 parejas (pero sólo se pregunta
a los esposos). Cada esposo recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿golpeó alguna vez a su esposa durante 2014?
Pregunta 2: ¿el número de su credencial de elector es par?
Sabemos que 𝑝𝐼 = 0.5. Supóngase que el mecanismo de aleatorización es una baraja
con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante
con las letras sobrantes del abecedario. De los resultados se tiene que 65 respondieron
que sí.
278
Ejercicio 7.2. Un investigador desea estimar el porcentaje y total de hombres solteros de
24 años que han tenido relaciones sexuales sin protección. Se toma una muestra aleatoria
simple de 𝑛 = 160 hombres de esta edad de un total de 𝑁 = 15,000. Cada hombre de la
muestra recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿has tenido relaciones sexuales sin protección?
Pregunta 2: ¿tu fecha de nacimiento es el 9 de junio de 1984?
A partir de un censo preliminar se determinó que del total de estos hombres, 9% nació
el 9 de junio de 1984. Por lo tanto, 𝑝𝐼 = 0.09. Supóngase que el mecanismo de
aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a
𝑝 = 0.85 y la fracción restante con las letras sobrantes del abecedario. De los resultados
de la encuesta se tiene que 40 respondieron que sí.
Ejercicio 7.3. Una investigadora desea estimar el porcentaje de hombres (de cierto
municipio) de entre 40 y 55 años que padecen o alguna vez padecieron disfunción eréctil.
Se toma una muestra aleatoria simple de 𝑛 = 186 hombres del total de la población (𝑁 =
8,000). A cada hombre se le preguntó (en fichas):
Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil?
Pregunta 2: ¿usted tiene 43 años?
De los registros del Centro de Salud municipal se obtuvo que 19% de esos hombres
tienen 43 años. Por lo tanto, 𝑝𝐼 = 0.19. Supóngase que el mecanismo de aleatorización es
una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.9 y la fracción
restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene
que 48 respondieron que sí.
Ejercicio 7.4. Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad)
entre 16 y 20 años que padecen o alguna vez padecieron bulimia o anorexia. Se toma una
muestra aleatoria simple de 𝑛 = 210 mujeres del total de la población (mujeres de entre
16 y 20 años, 𝑁 = 4,000). Cada una de las mujeres de la muestra recibe una ficha con las
siguientes preguntas:
279
Pregunta 1: ¿padece o ha padecido bulimia o anorexia?
Pregunta 2: ¿su signo zodiacal es tauro?
Se cuenta con un marco de muestreo que específica la fecha de nacimiento de las
mujeres, del cual se obtuvo que 13% pertenece al signo tauro. Por lo tanto, 𝑝𝐼 = 0.13.
Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas
marcadas con la letra A igual a 𝑝 = 0.75 y la fracción restante con las letras sobrantes del
abecedario. De los resultados de la encuesta se tiene que 100 respondieron que sí.
7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE
De igual manera, cuando la población es heterogénea se sugiere formar estratos para
mejorar la precisión.A continuación se presentan los estimadores versión Horvitz bajo
MAE.
Estimador de la proporción y el total estratificado
𝜋̂𝑠𝑡 =
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝑁
𝜏̂ = 𝑁𝜋̂𝑠𝑡
donde: 𝜋̂𝑖 =
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙
𝑝
𝑎
, 𝜙̂𝑖 = 𝑛𝑖 , 𝑁 es el tamaño de la población, 𝐸 es el número de estratos
𝑖
en que se divide la población, 𝑁𝑖 es la población en el estrato 𝑖, 𝑎𝑖 es el total de respuestas
afirmativas en la muestra de tamaño 𝑛𝑖 del estrato 𝑖, 𝑝 es la probabilidad de la pregunta
delicada o íntima, 𝑝𝐼 es la probabilidad de la pregunta intrascendente y se recomienda
estimarla a partir de registros históricos o de investigaciones confiables ya realizadas.
Varianza de la proporción y el total estratificado
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜋̂𝑠𝑡 ) = ∑ ( ) (
)
𝑁
𝑁𝑖
𝑝2 𝑛𝑖
𝑖=1
280
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜏̂ 𝑠𝑡 ) = 𝑁 ∑ ( ) (
)
𝑁
𝑁𝑖
𝑝2 𝑛𝑖
2
𝑖=1
Intervalo de confianza para la proporción y el total
𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )
𝜏̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂𝑠𝑡 )
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato. Los cuantiles requeridos se pueden obtener usando la tabla clásica
de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
El tamaño de muestra para estimar la proporción
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑝2
𝑛∗ =
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
2
𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑝2
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
donde: 𝑑 es la precisión fijada por el investigador y 𝑊𝑖 =
𝑁𝑖
𝑁
.
El tamaño de muestra modificado para estimar la proporción
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑛𝑚 =
𝑁𝑑 2
281
+
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
2
𝐸
𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que
2
∗
∗
la amplitud deseada, 𝜒𝑖(𝛾,𝑛
−1) es el cuantil 100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖 −
𝑖
1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑛 − 1 grados de libertad por estrato. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y JiCuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 7.3. Una persona está interesada en estimar la proporción de hombres con
problemas de erección en el estado de Guanajuato (el total de hombres es de 𝑁 = 20,000).
Además, la persona cree que la edad influye en tal problema, por lo que clasificó a la
población en dos estratos: menores de 30 (estrato 1) y mayores de 30 (estrato 2), donde la
población de cada estrato es 𝑁1 = 11,000 y 𝑁2 = 9,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 800) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
1.- ¿Has tenido problemas de erección en algún momento de tu vida?
2.- ¿El último número de tu credencial de elector es impar?
Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas “si” en los entrevistados por estrato son: de 45 para el estrato 1 y de 40 para
el estrato dos.
a) La estimación de la proporción de hombres con problemas de erección en el estado
de Guanajuato.
282
𝜋̂𝑠𝑡 =
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝑁
donde: 𝑁 = 20,000, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝐸 = 2,
𝑎
45
40
𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500, 𝜙̂2 = 300, 𝑝 = 5/6, 𝑝𝐼 = 0.5,
𝑖
𝜋̂𝑖 =
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙
𝑝
∶ 𝜋̂1 =
45
5
−(1− )0.5
500
6
5
6
= 0.008 y 𝜋̂2 =
40
5
−(1− )0.5
300
6
5
6
= 0.06.
Por lo tanto:
𝜋̂𝑠𝑡 =
(11,000)(0.008) + (9,000)(0.06)
= 0.0314.
20,000
Esto significa que la proporción de hombres con problemas de erección en el estado
de Guanajuato es de 0.0314, es decir, el 3.14%.
b) La varianza y la desviación estándar de la proporción.
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) (
)
𝑁
𝑁𝑖
𝑝2 𝑛𝑖
𝑖=1
donde: 𝑁 = 20,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝐸 = 2,
𝑎
𝑎
45
𝑎
40
5
𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 500 , 𝜙̂2 = 𝑛2 = 300, 𝑝 = 6 y 𝑝𝐼 = 0.5.
𝑖
1
2
Por lo tanto:
45
45
11,000 2 11,000 − 500 500 (1 − 500)
𝑉̂ (𝜋̂𝑠𝑡 ) = (
) (
)
20,000
11,000
5 2
(6) (500)
40
40
9,000 2 9,000 − 300 300 (1 − 300)
+(
) (
)
= 0.000177.
20,000
9,000
5 2
(6) (300)
283
La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.
c) IC de 95% para la proporción poblacional.
𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )
donde: 𝜋̂𝑠𝑡 = 0.0314, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.
Por lo tanto:
0.0314 ± (1.96)(0.013292)
0.0314 ± 0. 026052
0.005348 ≤ 𝜋𝑠𝑡 ≤ 0. 057452
Entonces se estima que la proporción de hombres con problemas de erección en el
estado de Guanajuato está entre 0.005348 y 0.057452.
d) El total estratificado.
𝜏̂ = 𝑁𝜋̂𝑠𝑡
donde: 𝑁 = 20,000 y 𝜋̂𝑠𝑡 = 0.0314.
Por lo tanto:
𝜏̂ = (20,000 )(0.0314) = 628 hombres.
e) El intervalo de confianza de 95% para el total poblacional.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)
donde: 𝜏̂ = 628, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 20,000 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.
284
Por lo tanto:
628 ± (1.96)(20,000)(0.013292)
628 ± 521.046817
106.953183 ≤ 𝜏 ≤ 1,149.046817
Por lo tanto, se estima que el total de hombres con problemas de erección en el estado
de Guanajuato está entre 106.9532 y 1149.0468.
f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de muestra para estimar la
proporción poblacional con una precisión del 75% de la proporción preliminar y una
confiabilidad de 95% es:
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑝2
𝑛∗ =
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
2
𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑝2
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2,
5
𝑎
45
40
𝑑 = 0.75(𝜋̂𝑠𝑡 ) = 0.75(0.0314) = 0.02355, 𝑝 = 6, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300,
𝑖
𝑊𝑖 =
𝑊𝑖
𝑊2
𝑁𝑖
𝑁1 11,000
𝑁2
9,000
: 𝑊1 =
=
= 0.55, 𝑊2 =
=
= 0.45,
𝑁
𝑁 20,000
𝑁 20,000
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
𝑝2
: 𝑊1
̂ 2 (1−𝜙
̂ 2)
𝜙
𝑝2
∑2𝑖=1 𝑊𝑖
̂ 1 (1−𝜙
̂ 1)
𝜙
𝑝2
9,000
40
40
(1− )
300
300
5 2
( )
6
= 20,000 (
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
𝑝2
11,000
45
= 20,000 (500
45
)
500
5 2
( )
6
(1−
) = 0.064865,
) = 0.07488 y
= 0.064865 + 0.07488 = 0.139745.
Por lo tanto:
(20,000)(1.96)2 (0.139745)
10,736.88784
𝑛 =
=
= 923.2939 = 924.
(20,000)(0.02355)2 + (1.96)2 (0.139745)
11.628895
∗
La asignación de la muestra proporcional:
285
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 20,000, 𝑛∗ = 923.2939, 𝑁𝑖 : 𝑁1 = 11,000 y 𝑁2 = 9,000.
Por lo tanto:
𝑛1∗ =
11,000
(923.2939) = 507.811645 = 508
20,000
𝑛2∗ =
9,000
(923.2939) = 415.482255 = 416.
20,000
La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada y una confiabilidad de 95% es de: 924 hombres: 508 menores
de 30 años y 416 mayores de 30 años.
g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión del 75% de la proporción preliminar, una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 90% es:
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑛𝑚 =
𝑁𝑑 2
+
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
2
𝐸
𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
5
donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2, 𝑑 = 0.02355, 𝑝 = 6,
𝑎
45
40
𝑁
11,000
9,000
𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300, 𝑊𝑖 = 𝑁𝑖 : 𝑊1 = 20,000 = 0.55, 𝑊2 = 20,000 = 0.45,
𝑖
2
2
2
∗
𝜒𝑖(𝛾,𝑛
−1) : 𝜒1(𝛾,𝑛1∗ −1) = 548.0172, 𝜒2(𝛾,𝑛2∗ −1) = 451.7821,
𝑖
𝑊1
𝑊2
286
̂ 1 (1−𝜙
̂ 1)
𝜙
𝑝2
̂ 2 (1−𝜙
̂ 2)
𝜙
𝑝2
2
𝜒1(𝛾,𝑛
∗ −1)
1
(
𝑛1∗ −1
2
𝜒2(𝛾,𝑛
∗ −1)
(
2
𝑛2∗ −1
11,000
) = 20,000 (
9,000
45
45
(1− )
500
500
5 2
( )
6
40
) = 20,000 (300
40
)
300
5 2
( )
6
(1−
548.0172
) 507.811645−1 = 0.070139,
451.7821
) (415.482255−1) = 0.081619 y
∑2𝑖=1 𝑊𝑖
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
𝑝2
2
𝜒𝑖(𝛾,𝑛
∗ −1)
(
𝑖
𝑛𝑖∗ −1
) = 0.070139 + 0.081619 = 0.151758.
Por lo tanto:
𝑛𝑚 =
(20,000)(1.96)2 (0.151758)
11659.870656
=
= 998.7004 = 999.
2
2
(20,000)(0.02355) + (1.96) (0.151758)
11.675044
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 20,000, 𝑛𝑀 = 998.7004, 𝑁1 = 11,000 y 𝑁2 = 9,000.
Por lo tanto:
𝑛𝑚 1 =
11,000
(998.7004) = 549.28522 = 549
20,000
𝑛𝑚 2 =
9,000
(998.7004) = 449.41518 = 450.
20,000
La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento de
99% es de: 999 hombres: 549 menores de 30 años y 450 mayores de 30 años.
Ejemplo 7.4. En la ciudad de México un sexólogo desea realizar una investigación para
conocer el número de mujeres que han tenido relaciones sexuales premaritales (se
encontró que el número de mujeres era de 𝑁 = 40,000). Además, se piensa que el nivel
de vida influye en la decisión de tener relaciones sexuales antes del matrimonio, por lo
que se clasificó a la población en tres estratos: pobres (estrato 1), nivel medio (estrato 2)
y ricos (estrato 3). La población de cada estrato es 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 =
5,000. Para el estudio se tomó una muestra aleatoria simple de la población de mujeres
distribuidas de la siguiente manera: 𝑛1 = 2,000, 𝑛2 = 1,400 y 𝑛3 = 600 mujeres.
287
1.- ¿Has tenido relaciones sexuales premaritales?
2.- ¿El año en que naciste es par?
Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas afirmativas en los entrevistados por estrato son: 520 para el primer estrato,
360 para el segundo y 180 para el tercero.
a) La estimación de la proporción de mujeres residentes en la ciudad de México que han
tenido relaciones sexuales premaritales.
𝜋̂𝑠𝑡 =
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝑁
donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180,
𝑎
𝑎
520
𝑎
360
𝑎
180
𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 2,000 , 𝜙̂2 = 𝑛2 = 1,400 , 𝜙̂3 = 𝑛3 = 600 , 𝑝 = 5/6, 𝑝𝐼 = 0.5,
1
𝑖
𝜋̂𝑖 =
𝜋̂3 =
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙
𝑝
2
: 𝜋̂1 =
180
5
−(1− )0.5
600
6
5
6
520
5
−(1− )0.5
2,000
6
5
6
3
= 0.212, 𝜋̂2 =
360
5
−(1− )0.5
1,400
6
5
6
= 0.2086 y
= 0.26.
Por lo tanto:
𝜋̂𝑠𝑡 =
(19,000)(0.212) + (16,000)(0.2086) + (5,000)(0.26)
= 0.2166.
40,000
Esto significa que la proporción de mujeres residentes en la ciudad de México que
han tenido relaciones sexuales premaritales es de 0.2166, es decir, el 21.66%.
b) La varianza y la desviación estándar de la proporción.
288
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) (
)
𝑁
𝑁𝑖
𝑝2 𝑛𝑖
𝑖=1
donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180,
𝑎
𝑝 = 5/6, 𝜙̂𝑖 = 𝑖 : 𝜙̂1 =
𝑛𝑖
520
2,000
, 𝜙̂2 =
360
1,400
180
y 𝜙̂3 =
.
600
Por lo tanto:
520
2
520
)
2,000
(1−
19,000
19,000−2,000
𝑉̂ (𝜋̂𝑠𝑡 ) = (40,000) ( 19,000 ) 2,000
5 2
( ) (2,000)
+
6
180
180
5,000 2 5,000−600 600(1−600)
+ (40,000) (
5,000
)
5 2
6
( ) (600)
360
360
16,000 2 16,000−1,400 1,400(1−1,400)
(40,000) ( 16,000 ) 5 2
( ) (1,400)
6
= 0.000064.
La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.
c) IC de 95% para la proporción poblacional.
𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )
donde: 𝜋̂𝑠𝑡 = 0.2166, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.
Por lo tanto:
0.2166 ± (1.96)(0.007974)
0.2166 ± 0.015629
0.200971 ≤ 𝜋𝑠𝑡 ≤ 0.232229
Por lo tanto, se estima que la proporción de mujeres residentes en la ciudad de México
que han tenido relaciones sexuales premaritales está entre 0.200971 y 0.232229.
d) El total estratificado.
289
𝜏̂ = 𝑁𝜋̂𝑠𝑡
donde: 𝑁 = 40,000 y 𝜋̂𝑠𝑡 = 0.2166.
Por lo tanto:
𝜏̂ = (40,000 )(0.2166) = 8,664 mujeres.
e) El intervalo de confianza de 95% para el total poblacional.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)
donde: 𝜏̂ = 8,664, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁 = 40,000 y
√𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.
Por lo tanto:
8,664 ± (1.96)(40,000)(0.007974)
8,664 ± 625.1616
8,038.8384 ≤ 𝜏 ≤ 9,289.1616
Entonces se estima que el total de mujeres residentes en la ciudad de México que han
tenido relaciones sexuales premaritales está entre 8,038.83 y 9,289.1616.
f) Si 𝑛 = 4,000 es una muestra preliminar. El tamaño de muestra para estimar la
proporción poblacional con una precisión del 10% de la proporción preliminar y una
confiabilidad de 95%, es:
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑝2
𝑛∗ =
𝜙̂𝑖 (1 − 𝜙̂𝑖 )
2
𝐸
∑
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑊
⁄2) 𝑖=1 𝑖
𝑝2
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3,
290
5
𝑑 = 0.1(𝜋̂𝑠𝑡 ) = 0.75(0.2166) = 0.02166, 𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000,
𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520,
𝑁𝑖
𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 =
𝑊2 =
𝜙̂𝑖 =
𝑊𝑖
𝑊2
𝑁2
𝑁
𝑁
: 𝑊1 =
16,000
= 40,000 = 0.4, 𝑊3 =
𝑁2
𝑁
𝑁1
𝑁
19,000
= 40,000 = 0.475,
5,000
= 40,000 = 0.125,
𝑎𝑖
520
360
180
: 𝜙̂1 =
, 𝜙̂2 =
, 𝜙̂3 =
,
𝑛𝑖
2,000
1,400
600
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
𝑝2
: 𝑊1
̂ 2 (1−𝜙
̂ 2)
𝜙
𝑝2
̂ 1 (1−𝜙
̂ 1)
𝜙
𝑝2
16,000
19,000
= 40,000 (
360
360
(1−
)
1,400
1,400
5 2
= 40,000 (
520
520
(1−
)
2,000
2,000
2
5
( )
6
) = 0.131602,
) = 0.110028,
( )
6
𝑊3
̂ 3 (1−𝜙
̂ 3)
𝜙
𝑝2
∑3𝑖=1 𝑊𝑖
5,000
180
180
(1− )
600
600
5 2
( )
6
= 40,000 (
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
𝑝2
) = 0.0378 y
= 0.131602 + 0.110028 + 0.0378 = 0.27943.
Por lo tanto:
(40,000)(1.96)2 (0.27943)
42,938.3315
𝑛 =
=
= 2,164.2651 = 2165.
(40,000)(0.02166)2 + (1.96)2 (0.27943)
19.839682
∗
La asignación de la muestra proporcional:
𝑛𝑖∗ =
𝑁𝑖 ∗
(𝑛 )
𝑁
donde: 𝑁 = 40,000, 𝑛∗ = 2,164.2651, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000
Por lo tanto:
19,000
(2,164.2651) = 1,028.0259 = 1,028
40,000
𝑛2∗ =
16,000
(2,164.2651) = 865.706 = 866
40,000
291
𝑛1∗ =
𝑛3∗ =
5,000
(2,164.2651) = 270.5331 = 271.
40,000
El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada y una confiabilidad de 95%, es de: 2,165 mujeres: 1,028
pobres, 866 de nivel medio y 271 de clase alta.
g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión (𝑑) del 0.05 una confiabilidad de 95% y un nivel de
aseguramiento (𝛾) de 90%, es:
2
𝐸
𝑁𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑛𝑚 =
𝑁𝑑 2 +
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
2
𝐸
𝑡(𝑛−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
2
𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
( ∗
)
𝑛𝑖 − 1
𝑝2
donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3, 𝑑 = 0.02166,
5
𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400,
𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 =
𝑁𝑖
𝑁
19,000
: 𝑊1 = 40,000 = 0.475,
16,000
5,000
𝑎
520
360
180
𝑊2 = 40,000 = 0.4, 𝑊3 = 40,000 = 0.125, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 2,000 , 𝜙̂2 = 1,400, 𝜙̂3 = 600,
𝑖
2
∗
𝜒𝑖(𝛾,𝑛
:
𝑖 −1)
𝑊1
𝑊2
𝑊3
̂ 1 (1−𝜙
̂ 1)
𝜙
𝑝2
̂ 2 (1−𝜙
̂ 2)
𝜙
𝑝2
̂ 3 (1−𝜙
̂ 3)
𝜙
𝑝2
∑3𝑖=1 𝑊𝑖
Por lo tanto:
292
2
∗
𝜒1(𝛾,𝑛
1 −1)
=
2
𝜒1(𝛾,𝑛
∗ −1)
1
(
(
(
𝑛1∗ −1
2
𝜒2(𝛾,𝑛
∗ −1)
2
𝑛2∗ −1
𝑝2
(
520
2
∗
= 964.3807, 𝜒3(𝛾,𝑛
= 326.4674,
3 −1)
520
)
2,000
2
5
( )
6
(1−
) = 0.475 (2,000
360
360
(1−
)
1,400
1,400
5 2
) = 0.4 (
( )
1,135.4
) 1,028.0259−1 = 0.145488,
964.3807
) 865.706−1 = 0.122711,
6
2
𝜒3(𝛾,𝑛
∗
3 −1)
∗
𝑛3 −1
̂ 𝑖 (1−𝜙
̂ 𝑖)
𝜙
2
∗
1,135.4, 𝜒2(𝛾,𝑛
2 −1)
) = 0.125 (
2
𝜒𝑖(𝛾,𝑛
∗ −1)
𝑖
𝑛𝑖∗ −1
180
180
(1− )
600
600
5 2
( )
6
326.4674
) (270.5331−1) = 0.045785 y
) = 0.145488 + 0.122711 + 0.045785 = 0.313984.
𝑛𝑚 =
(40,000)(1.96)2 (0.313984)
(40,000)(0.02166)2 + (1.96)2 (0.313984)
𝑛𝑚 =
48,248.0374
= 2,415.7326 = 2,416.
19.972425
La asignación de la muestra proporcional:
𝑛𝑚 𝑖 =
𝑁𝑖
(𝑛 )
𝑁 𝑚
donde: 𝑁 = 40,000, 𝑛𝑚 = 2,415.7326, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000.
Por lo tanto:
𝑛𝑚 1 =
19,000
(2,415.7326) = 1,147.473 = 1,148
40,000
𝑛𝑚 2 =
16,000
(2,415.7326) = 966.293 = 967
40,000
𝑛𝑚 3 =
5,000
(2,415.7326) = 301.9666 = 302.
40,000
El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento
de 99% es de: 2,417 mujeres: 1,148 pobres, 967 de nivel medio y 302 de clase alta.
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción y el total, de tal
manera que sean estimados con una precisión de 5% de la proporción preliminar y un
nivel de aseguramiento de 90%? Además considerar que 𝑝𝐼 = 0.5 y que el mecanismo de
aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a
𝑝 = 5/6 y la fracción restante con las letras sobrantes del abecedario.
293
Ejercicio 7.5. Una persona está interesada en estimar la proporción de hombres con
experiencias homosexuales en el estado de Nuevo León (el total de hombres es de 𝑁 =
16,000). Además, la persona cree que la edad influye en tal problema, por lo que clasificó
a la población en dos estratos: menores o iguales a 30 (estrato 1) y mayores de 30 (estrato
2), donde la población de cada estrato es 𝑁1 = 9,000 y 𝑁2 = 7,000. Para el estudio se tomó
una muestra aleatoria simple (𝑛 = 650) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 350 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
1.- ¿Has tenido alguna experiencia homosexual en algún momento de tu vida?
2.- ¿Naciste el primero de abril?
De los resultados de la encuesta se tiene que el número de respuestas “Si” en los
entrevistados por estrato es: de 40 para el estrato 1 y de 36 para el estrato dos.
Ejercicio 7.6. Una persona está interesada en estimar la proporción de hombres con doble
vida marital oculta en un municipio del Estado de México (el total de hombres es de 𝑁 =
22,000). Además, la persona cree que la religión influye en tal problema, por lo que
clasificó a la población en dos estratos: católicos (estrato 1) y cristianos (estrato 2), donde
la población de cada estrato es 𝑁1 = 15,000 y 𝑁2 = 7,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 700) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 200 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
1.- ¿Tienes doble vida marital oculta?
2.- ¿Has viajado al extranjero?
De los resultados de la encuesta se tiene que el número de respuestas “Si” en los
entrevistados por estrato es: de 25 para el estrato 1 y de 11 para el estrato dos.
Ejercicio 7.7. Un investigador está interesado en estimar la proporción de hombres que
han visitado por lo menos una vez antros homosexuales en el estado Jalisco (el total de
294
hombres es de 𝑁 = 28,000). Además, la persona cree que la edad influye en tal situación,
por lo que clasificó a la población en dos estratos: menores o iguales a 25 años (estrato 1)
y mayores a 25 años (estrato 2), donde la población de cada estrato es 𝑁1 = 16,000 y 𝑁2 =
12,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 900) de la población
objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 500 y 𝑛2 = 300 hombres. Cada
hombre de la muestra recibe una ficha con las siguientes preguntas:
1.- ¿Has visitado por lo menos una vez antros homosexuales?
2.- ¿Has viajado al extranjero?
De los resultados de la encuesta se tiene que el número de respuestas “Si” en los
entrevistados por estrato es: de 28 para el estrato 1 y de 20 para el estrato dos.
Ejercicio 7.8. Una empresa está interesada en estimar la proporción de mujeres que han
sido víctimas de abuso sexual en el estado Guerrero (el total de mujeres es de 𝑁 =
24,000). Además, la empresa cree que la procedencia influye en tal situación, por lo que
clasificó a la población en dos estratos: procedencia rural (estrato 1) y procedencia urbana
(estrato 2), donde la población de cada estrato es 𝑁1 = 13,000 y 𝑁2 = 11,000. Para el
estudio se tomó una muestra aleatoria simple (𝑛 = 760) de la población objetivo, que se
distribuyó de la siguiente manera: 𝑛1 = 400 y 𝑛2 = 360 mujeres. Cada mujer de la
muestra recibe una ficha con las siguientes preguntas:
1.- ¿Has sufrido de abuso sexual a lo largo de tu vida?
2.- ¿Tienes VISA americana?
De los resultados de la encuesta se tiene que el número de respuestas “si” en las
entrevistadas por estrato es: de 18 para el estrato 1 y de 11 para el estrato dos.
295
Capítulo 8. Pruebas por grupos
CAPÍTULO 8
Pruebas por grupos
En estadística agrupar
es sensato
siempre y cuando,
la situación amerite este trato.
EESF
El método pruebas por grupos (en inglés Group Testing) consiste en aplicar pruebas a un
conjunto de elementos en lugar de realizar pruebas individuales. Para comprender de
mejor manera este método suponga que se tienen 100 personas sospechosas de padecer
el virus de la influenza AH1N1. Para saber quiénes padecen esta enfermedad se
necesitaría hacer una prueba a cada una de estas personas, es decir, hacer una prueba de
laboratorio para cada persona. Sin embargo, Dorfman (1943) propuso que para ahorrar
tiempo y dinero se puede juntar el material (sangre en el caso de Dorfman) de 𝑥 personas
y mezclarlos perfectamente y en lugar de realizar pruebas individuales, ahora se realizará
una sola prueba a la mezcla resultante de estos 𝑥 individuos. Por lo tanto, si se mezcla la
sangre de 10 individuos por grupo, sólo se realizarán 10 pruebas de laboratorio. Si un
grupo resulta negativo se concluye que los 𝑥 individuos que lo conforman están libres de
este virus. Por otro lado, si el grupo resulta positivo significa que al menos uno de los 𝑥
individuos presenta el virus de la influenza y, si se desea saber quién es este individuo,
se sugiere realizar una prueba individual a los individuos que conforman al grupo que
arrojo el resultado positivo. No obstante, para efectos de estimación del porcentaje de
individuos que padecen este virus no es necesario realizar una prueba individual a los
elementos de un grupo positivo. Otros ejemplos de aplicación este método es juntar el
material genético de plantas y realizar pruebas sobre la mezcla obtenida (Montesinos296
López et al., 2011; Montesinos-López et al., 2012a), estimación de prevalencia animal,
detección de agentes infecciosos entre otros (Montesinos-López et al., 2012b)
8.1 Pruebas por grupo bajo MAS
Por lo antes expresado, si se conoce el tamaño de la población (𝑁) y el tamaño del grupo
(𝑥), el número de pruebas de laboratorio a realizar es igual a 𝐺 = 𝑁/𝑥. Sin embargo, si se
toma una muestra de 𝑛 elementos de esta población 𝑁 y se define a 𝑥 como el tamaño del
grupo, el número de pruebas a realizar será igual a 𝑔 = 𝑛/𝑥.
La proporción muestral
El estimador de máxima verosimilitud (EMV) de la prevalencia mínima fue definido por
Kline et al. (1989) como:
𝑦 1⁄𝑥
𝑝 = 1 − (1 − ⁄𝑔)
donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del
grupo.
El estimador de la varianza 𝑺𝟐𝒑
𝐺−𝑔
1 − (1 − 𝑝)𝑥
𝑆𝑝2 = (
)( 2
)
𝐺
𝑔𝑥 (1 − 𝑝)𝑥−2
El estimador del total
𝜏̂ = 𝑁𝑝
Los intervalos de confianza para la proporción y el total
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁𝑆𝑝
297
donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
El estimador del tamaño de muestra (pools)
1 − (1 − 𝑝)𝑥
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
1 − (1 − 𝑝)𝑥
2
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2)
donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
El estimador del tamaño de muestra modificado (pools)
De acuerdo a Montesinos-López et al. (2012a) el tamaño de muestra modificado bajo
enfoque AIPE es:
2
2
1
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
𝑔𝑚 =
2
2
1
2
𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
2
𝑦
donde: 𝑃𝑔 = 𝑔, ℎ(𝑃𝑔 ) =
√(1−𝑃𝑔)𝑥
𝑥2
−1
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
1
𝑃𝑔
,
2( −1)
1 (1−𝑃𝑔 ) 𝑥
ℎ′ (𝑃𝑔 ) = 𝑥
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
(1 −
2𝑃𝑔
𝑥
),
𝛾
es
la
probabilidad de que el IC para la proporción no sea mayor que la amplitud deseada, 𝑍𝛾
298
es el cuantil 𝛾 de la distribución normal estándar y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 −
𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y JiCuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 8.1. En el estado de Zacatecas un grupo de encuestadores quiere conocer
cuántas mujeres de entre 30 y 50 años de edad tienen cáncer de mama. Esto con el objetivo
de poder exigir al centro de salud una cantidad mayor de mamografías gratuitas. Puesto
que el costo de una mamografía es muy elevado, se decide utilizar el método de pruebas
por grupo, donde la población fue de 𝑁 = 5,000 mujeres tomando una muestra de
tamaño 𝑛 = 500 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y
la población son 𝑔 = 50 y 𝐺 = 500 respectivamente. De estos pools muestreados
resultaron 𝑦 = 15 positivos.
a) La proporción de interés.
𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
𝑝 = 1 − (1 − 15⁄50)
1⁄
10
𝑝 = 1 − (1 − 0.3)0.1
𝑝 = 0.035.
b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ).
𝑆𝑝2 = (
𝐺−𝑔
1 − (1 − 𝑝)𝑥
)( 2
)
𝐺
𝑔𝑥 (1 − 𝑝)𝑥−2
donde: 𝐺 = 500, 𝑔 = 50, 𝑝 = 0.035 y 𝑥 = 10.
299
Por lo tanto:
𝑆𝑝2 = (
500−50
500
1−(1−0.035)10
0.299718
) (50(10)2 (1−0.035)10−2 )=(0.9) (3,760.0058) = (0.9)(0.00008) = 0.000072.
La desviación estándar: Sp = √0.000072 = 0.008485.
c) El IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.035, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.008485.
Por lo tanto:
0.035 ± 1.96(0.008485)
0.035 ± 0.016631
0.018369 ≤ 𝑃 ≤ 0.051631
Con 95% de confianza se estima que la proporción de mujeres de entre 30 y 50 años
de edad que tienen cáncer de mama está entre 1.83% y 5.16%.
d) El total verdadero de mujeres que tienen cáncer de mama.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 5,000 y 𝑝 = 0.035. Por lo tanto: 𝜏̂ = 5,000(0.035) = 175 mujeres.
e) El IC para el total con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
donde: 𝜏̂ = 175, 𝑆𝑝 = 0.008485, 𝑁 = 5,000 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
300
Por lo tanto:
𝜏̂ ± (1.96)(5,000)(0.008485)
175 ± 83.153
91.847 ≤ 𝜏 ≤ 258.153
Con 95% de confianza se estima que el total de mujeres que tienen cáncer de mama
está entre 91.847 y 258.153.
f) Si 𝑔 es una muestra preliminar, el número de pools para estimar 𝑝 con una precisión
de 0.05 y con una confiabilidad de 95%, es:
1 − (1 − 𝑝)𝑥
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
1 − (1 − 𝑝)𝑥
2
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2)
donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035, 𝑑 = 0.05 y 𝑥 = 10.
Por lo tanto:
1 − (1 − 0.035)10
8.4626
102 (1 − 0.035)10−2
𝑔∗ =
=
= 6.6797 = 7 pools.
10
1 − (1 − 0.035)
1.2669
2
2
500(0.05) + (1.96)
102 (1 − 0.035)10−2
500(1.96)2
g) Finalmente, el número de pools para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y además un nivel de aseguramiento del 99% (𝛾 = 0.99), es:
2
2
1
4𝑑
2
𝐺𝑡(𝑔−1,1−𝛼
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 =
2
1
4𝑑
2
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
(𝑔−1,1−𝛼⁄2)
2
301
𝑦
15
donde: 𝑃𝑔 = 𝑔 = 50 = 0.3, 𝑥 = 10, 𝑑 = 0.05, 𝑍𝛾 = 𝑍0.99 = 2.3263,
𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035,
2
(1−𝑃𝑔 )𝑥
ℎ(𝑃 ) = √
𝑔
−1
𝑃𝑔
𝑥2
2
(1−0.3)10
=√
−1
(0.3)
102
1
2( −1)
1 (1−𝑃𝑔 ) 𝑥
′
ℎ (𝑃𝑔 ) = 𝑥
ℎ′ (𝑃𝑔 ) =
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
(1 −
2𝑃𝑔
𝑥
= 0.063172,
1
1
) = 10
(1−0.3)2(10−1)
2
−1
2√(1−0.3)10 (0.3)
(1 −
2(0.3)
10
)
(0.7)(−1.8)
1
1 1.900306
(1 − 0.06) =
(
) (0.94) = 0.141383.
10 2√(0.7)−0.8 (0.3)
10 1.263431
Por lo tanto:
2
1
4(0.05)
(2.3263)|0.141383|√0.3(1 − 0.3))
500(1.96)2 ( ) (0.063172 + √(0.063172)2 +
4
1.96
𝑔𝑚 =
500(0.05)2
𝑔𝑚 =
+
1
(1.96)2 ( ) (0.063172
4
2
4(0.05)
(2.3263)|0.141383|√0.3(1 − 0.3))
+ √(0.063172)2 +
1.96
1
1,920.8 (4) (0.063172 + 0.139177)2
1
1.25 + (1.96)2 (4) (0.063172 + 0.139177)2
=
19.6618
= 15.2499 = 16.
1.2893
Ejemplo 8.2. Una empresa privada quiere conocer cuántos hombres de entre 20 y 40 años
de edad tienen cáncer de próstata. Esto con el objetivo de poder exigir al centro de salud
una cantidad mayor de estudios gratuitos. Puesto que el costo de un examen antígeno
prostático específico (PSA) es muy elevado, se decide utilizar el método de pruebas por
grupo, donde la población fue de 𝑁 = 3,500 hombres tomando una muestra de tamaño
𝑛 = 400 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la
población son 𝑔 = 40 y 𝐺 = 350, respectivamente. De estos pools muestreados resultaron
𝑦 = 6 positivos.
a) La proporción de interés.
𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
𝑝 = 1 − (1 − 6⁄40)
1⁄
10
𝑝 = 1 − (1 − 0.15)0.1
302
𝑝 = 0.0161.
b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ).
𝑆𝑝2 = (
𝐺−𝑔
1 − (1 − 𝑝)𝑥
)( 2
)
𝐺
𝑔𝑥 (1 − 𝑝)𝑥−2
donde: 𝐺 = 350, 𝑔 = 40, 𝑝 = 0.0161 y 𝑥 = 10.
Por lo tanto:
𝑆𝑝2 = (
350−40
350
1−(1−0.0161)10
0.149823
) (40(10)2 (1−0.0161)10−2 )=(0.885714) (3,512.915278) = 0.000037.
La desviación estándar: Sp = √0.000037 = 0.006146.
c) El IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.0161, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.006146.
Por lo tanto:
0.0161 ± 1.96(0.006146)
0.0161 ± 0.012046
0.004054 ≤ 𝑃 ≤ 0.028146
Con 95% de confianza se estima que la proporción de hombres de entre 20 y 40 años
de edad que tienen cáncer de próstata está entre 0.40% y 2.81%.
d) El total verdadero de hombres que tienen cáncer de próstata.
303
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 3,500 y 𝑝 = 0.0161.
Por lo tanto:
𝜏̂ = 3,500(0.0161) = 56.35 = 57 hombres.
e) El IC para el total con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
donde: 𝜏̂ = 56.35, 𝑆𝑝 = 0.006146, 𝑁 = 3,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
56.35 ± (1.96)(3,500)(0.006146)
56.35 ± 42.16156
14.18844 ≤ 𝜏 ≤ 98.51156
Con 95% de confianza se estima que el total de hombres que tienen cáncer de próstata
está entre 14.1884 y 98.5115.
f) Si 𝑔 es una muestra preliminar, el tamaño de muestra, número de pools, para estimar
𝑝 con una precisión de 3% y con una confiabilidad de 95%, es:
1 − (1 − 𝑝)𝑥
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
1 − (1 − 𝑝)𝑥
2
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼
⁄2 𝑥 2 (1 − 𝑝) 𝑥−2
2
𝐺𝑡𝑔−1,1−𝛼
⁄2
donde: 𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.0161, 𝑑 = 0.03 y 𝑥 = 10.
304
Por lo tanto:
1 − (1 − 0.0161)10
2.293768
102 (1 − 0.0161)10−2
𝑔∗ =
=
= 7.1334 = 8 pools.
1 − (1 − 0.0161)10
0.321554
350(0.03)2 + (1.96)2 2
10 (1 − 0.0161)10−2
350(1.96)2
g) Finalmente, el tamaño de muestra, número de pools, para estimar 𝑝 con una precisión
de 3%, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99), es:
2
2
1
4𝑑
2
𝐺𝑡(𝑔−1,1−𝛼
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 =
2
2
1
4𝑑
2
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
(𝑔−1,1−𝛼⁄2)
𝑦
6
donde: 𝑃𝑔 = 𝑔 = 40 = 0.15, 𝑥 = 10, 𝑑 = 0.03, 𝑍𝛾 = 2.4341,
𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,
2
(1−𝑃𝑔 )𝑥
ℎ(𝑃 ) = √
𝑔
−1
𝑃𝑔
𝑥2
2
(1−0.15)10
=√
−1
(0.15)
102
1
′
2( −1)
1 (1−𝑃𝑔 ) 𝑥
ℎ (𝑃𝑔 ) = 𝑥
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
1
ℎ′ (𝑃𝑔 ) = 10
(1 −
(0.85)(−1.8)
2√(0.85)−0.8 (0.15)
2𝑃𝑔
𝑥
= 0.041331,
1
(1−0.15)2(10−1)
1
) = 10
2
−1
2√(1−0.15)10 (0.15)
(1 − 0.03) =
1
(
1.339818
(1 −
2(0.15)
10
)
) (0.97) = 0.157221.
10 0.826624
Por lo tanto:
2
1
4(0.03)
(2.4341)|0.157221|√0.15(1 − 0.15))
350(1.96)2 ( ) (0.041331 + √(0.041331)2 +
4
1.96
𝑔𝑚 =
2
1
4(0.03)
(2.4341)|0.157221|√0.15(1 − 0.15))
350(0.03)2 + (1.96)2 ( ) (0.041331 + √(0.041331)2 +
4
1.96
𝑔𝑚 =
305
1
1,344.56 (4) (0.041331 + 0.100372)2
1
0.315 + (1.96)2 (4) (0.041331 + 0.100372)2
=
6.749604
= 20.1911 = 21.
0.334285
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 90%?
Ejercicio 8.1. La Secretaría de Salud del Estado de Nuevo León quiere conocer cuántos
niños de entre 5 y 12 años de edad tienen cáncer. Puesto que el costo de los estudios son
muy elevados, se decide utilizar el método de pruebas por grupo, donde la población fue
de 𝑁 = 4,500 niños tomando una muestra de tamaño 𝑛 = 480 con 𝑥 = 12, de modo que
el número de pools a formar con la muestra y la población son 𝑔 = 40 y 𝐺 = 375
respectivamente, de estos pools muestreados resultaron 𝑦 = 8 positivos.
Ejemplo 8.2. Una empresa particular quiere conocer cuántos ancianos de entre 55 y 70
años de edad tienen el virus XXY. Se decide utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,000 ancianos tomando una muestra de tamaño 𝑛 =
300 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población
son 𝑔 = 30 y 𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 5
positivos.
Ejemplo 8.3. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Monterrey tienen el virus de la hepatitis B. Se decide utilizar el método
de pruebas por grupo. La población es de 𝑁 = 2,880 personas y se toma una muestra de
tamaño 𝑛 = 270 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y
la población son 𝑔 = 30 y 𝐺 = 320, respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos.
8.2 Pruebas por grupo en pruebas imperfectas bajo MAS
306
Proporción muestral
Tanto 𝑆𝑒 como 𝑆𝑝 deben ser más grandes que 0.5 para que exista el EMV, lo cual aplica a
la mayoría de las pruebas de laboratorio que son útiles. Cuando, 1 − 𝑆𝑝 ≤ 𝑦/𝑔 ≤ 𝑆𝑒 el
EMV es:
1⁄
𝑥
𝑦
𝑆𝑒 − ⁄𝑔
𝑝 =1−(
)
𝑆𝑒 + 𝑆𝑝 − 1
donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del
grupo.
El estimador de la varianza
2
−2
𝑦
𝑦
𝑦
(𝑆𝑒 − ⁄𝑔)𝑥
( ⁄𝑔)(1 − ⁄𝑔)
𝐺
−
𝑔
2
𝑆𝑝 = (
)(
)(
)
𝐺
𝑔𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
El estimador del total
𝜏̂ = 𝑁𝑝
Los intervalos de confianza para la proporción y el total
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
307
Estimación del tamaño de muestra (pools)
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 −
2
−2
𝑥
1)
𝑔∗ =
)
2
−2
𝑥
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
2
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ( 2
(
) )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑦
donde 𝑓 = ⁄𝑔 , 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
Estimación del tamaño de muestra modificado (pools)
El tamaño de muestra (pools) modificado bajo el enfoque AIPE se muestra a
continuación
2
2
1
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
𝑔𝑚 =
2
1
4𝑑
2
𝐺𝐻𝑑 2 + 𝑡(𝑔−1,1−𝛼
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
(𝑔−1,1−𝛼⁄2)
2
2
𝑥
𝑦
1−𝑃𝑔
2
−2
𝑥
donde: 𝑃𝑔 = 𝑔, 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 )
𝑔
2
(1−𝑃𝑔 )𝑥
ℎ(𝑃 ) = √
𝑔
𝑥2
−1
𝑃𝑔
1
′
2( −1)
1 (1−𝑃𝑔 ) 𝑥
, ℎ (𝑃𝑔 ) = 𝑥
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
(1 −
2𝑃𝑔
𝑥
),
, 𝛾 es la probabilidad de que el IC para la proporción estratificada no
sea mayor que la amplitud deseada, y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad por estrato. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji308
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 8.3. En el estado de Sonora, una investigadora quiere conocer cuántos hombres
mayores de 50 años tienen cáncer de próstata. Esto con el objetivo de comenzar una
campaña de prevención. Puesto que el costo de un análisis es muy elevado, se decide
utilizar el método de Group Testing para la población 𝑁 = 5,500, tomando una muestra
de tamaño 𝑛 = 660, con 𝑥 = 11, de modo que el número de pools a formar con la muestra
y la población sea de 𝑔 = 60 y 𝐺 = 500. Respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos, además 𝑆𝑒 = 0.98 y 𝑆𝑝 = 0.97.
a) La estimación de la proporción de interés.
1⁄
1⁄
𝑥
𝑦
11
𝑆𝑒 − ⁄𝑔
0.98 − 6⁄60
𝑝 =1−(
) = 1−(
)
= 0.006934.
𝑆𝑒 + 𝑆𝑝 − 1
0.98 + 0.97 − 1
b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ).
2
−2
𝑦
𝑦
𝑦
(𝑆𝑒 − ⁄𝑔)𝑥
( ⁄𝑔)(1 − ⁄𝑔)
𝐺
−
𝑔
2
𝑆𝑝 = (
)(
)(
)
𝐺
𝑔𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
donde: 𝐺 = 500, 𝑔 = 60, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97 𝑦 = 6 y 𝑥 = 11.
Por lo tanto:
2
−2
(0.98 − 6⁄60)11
(6⁄60)(1 − 6⁄60)
500
−
60
2
𝑆𝑝 = (
)(
)(
)
2
500
60(11)2
(0.98 + 0.97 − 1) ⁄11
𝑆𝑝2 = (0.88)(0.000174)(0.090843) = 0.000014.
309
La desviación estándar: 𝑆𝑝 = √0.000014 = 0.003741.
c) El IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.006934, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.003741.
Por lo tanto:
0.006934 ± 1.96(0.003741)
0.006934 ± 0.007332
0 ≤ 𝑃 ≤ 0.014266.
Con 95% de confianza se estima que la proporción de hombres mayores de 50 años
que tienen cáncer de próstata está entre 0 y 1.42%.
d) El total verdadero de hombres.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 5,500 y 𝑝 = 0.006934.
Por lo tanto:
𝜏̂ = 5,500(0.006934) = 38.137 hombres.
e) El intervalo de confianza para el total con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
310
donde: 𝜏̂ = 38.137, 𝑆𝑝 = 0.003741, 𝑁 = 5,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 .
Por lo tanto:
𝜏̂ ± (1.96)(5,500)(0.003741)
38.137 ± 40.32798
0 ≤ 𝜏 ≤ 78.46498.
Con 95% de confianza se estima que el total de hombres mayores de 50 años que
tienen cáncer de próstata está entre 0 y 78.46498.
f) Si 𝑔 es una muestra preliminar, el tamaño de muestra (pools) con una precisión de
0.05 de la proporción preliminar (𝑑) y con una confiabilidad de 95%, es:
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 −
1)
𝑔∗ =
𝐺𝑑2 +
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
𝑡(𝑔−1,1−𝛼
⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 −
2
−2
𝑥
)
2
−2
𝑥
1)
)
donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97,
𝑦
𝑓 = ⁄𝑔 = 6⁄60 = 0.1 y 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467.
Por lo tanto:
2
−2
11
(0.1)(1 − 0.1)
0.98 − 0.1
500(1.96) ( 2
(
)
)
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1
2
𝑔∗ =
2
−2
11
(0.1)(1 − 0.1)
0.98 − 0.1
500(0.0003467)2 + (1.96)2 ( 2
(
)
)
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1
𝑔∗ =
311
1.818998
= 491.754 = 492 pools.
0.003699
g) El número de pools para estimar 𝑝 con una precisión de 0.05 de la proporción
preliminar, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99)
es:
𝑔𝑚
2
2
1
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
=
2
2
1
2
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97,
𝑦
6
𝑦 = 6, 𝑔 = 60, 𝑃𝑔 = 𝑔 = 60 = 0.1, . 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467,
𝐻 = (𝑆𝑒 + 𝑆𝑝 −
2
1)𝑥
2
1 − 𝑃𝑔 𝑥
(
)
𝑆𝑒 − 𝑃𝑔
2
−2
= (0.98 + 0.97 −
2
1)11 (
1 − 0.1 11−2
)
0.98 − 0.1
2
𝐻=
2
(0.95)11 (
0.9 11−2
)
= 0.951053, 𝑍𝛾 = 2.3263,
0.88
2
2
−1
−1
𝑥
√(1 − 𝑃𝑔 ) 𝑃𝑔 √(1 − 0.1)11 (0.1)
ℎ(𝑃𝑔 ) =
=
= 0.030014 y
𝑥2
112
1
2( −1)
1 (1−𝑃𝑔 ) 𝑥
′
ℎ (𝑃𝑔 ) = 𝑥
ℎ′ (𝑃𝑔 ) =
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
(1 −
2𝑃𝑔
𝑥
1
1
) = 11
(1−0.1)2(11−1)
2
−1
2√(1−0.1)11 (0.1)
(1 −
2(0.1)
11
)
1 1.211143
(
) (0.981818) = 0.163714.
11 0.660312
Por lo tanto:
2
1
4(0.0003467)
(2.3263)|0.163714|√0.1(1 − 0.1))
500(1.96)2 ( ) (0.030014 + √(0.030014)2 +
4
1.96
𝑔𝑚 =
2
1
4(0.0003467)
(2.3263)|0.163714|√0.1(1 − 0.1))
500(0.951053)(0.0003467)2 + (1.96)2 ( ) (0.030014 + √(0.030014)2 +
4
1.96
𝑔𝑚 =
312
1
500(1.96)2 (4) (0.030014 + 0.031332)2
1
0.000057 + (1.96)2 (4) (0.030014 + 0.031332)2
𝑔𝑚 =
1.8072
= 492.290 = 493 pools.
0.003671
Ejemplo 8.4. Con el objetivo de comenzar una campaña de prevención, la Secretaría de
Salud del Estado de México quiere conocer cuántas mujeres mayores a 30 años tienen
cáncer de tiroides. Puesto que el costo de un análisis es muy elevado, se decide utilizar
muestreo por grupos. El tamaño de la población es de 𝑁 = 4,600 tomando una muestra
de tamaño 𝑛 = 480 con 𝑥 = 8, de modo que el número de pools a formar con la muestra
y la población es 𝑔 = 60 y 𝐺 = 575, respectivamente. De estos pools muestreados
resultaron 𝑦 = 5 positivos, 𝑎𝑑𝑒𝑚á𝑠 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98.
a) La estimación de la proporción de interés.
1⁄
1⁄
𝑥
𝑦
8
𝑆𝑒 − ⁄𝑔
0.97 − 5⁄60
𝑝 =1−(
) = 1−(
) = 0.008587.
𝑆𝑒 + 𝑆𝑝 − 1
0.97 + 0.98 − 1
b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ).
2
−2
𝑦
𝑦
𝑦
(𝑆𝑒 − ⁄𝑔)𝑥
( ⁄𝑔)(1 − ⁄𝑔)
𝐺
−
𝑔
2
𝑆𝑝 = (
)(
)(
2)
𝐺
𝑔𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)𝑥
donde: 𝐺 = 575, 𝑔 = 60, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑦 = 6 y 𝑥 = 8.
Por lo tanto:
2
−2
8
5
(5⁄60)(1 − 5⁄60)
575 − 60 (0.97 − ⁄60)
2
𝑆𝑝 = (
)
(
2 )
575
60(8)2
(0.97 + 0.98 − 1) ⁄8
(
)
𝑆𝑝2 = (0.895652)(0.000321)(0.077375) = 0.000022.
La desviación estándar: 𝑆𝑝 = √0.000022 = 0.004716.
313
c) El IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.008587, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.004716.
Por lo tanto:
0.008587 ± 1.96(0.004716)
0.008587 ± 0.009243
0 ≤ 𝑃 ≤ 0.01783.
Con 95% de confianza se estima que la proporción de mujeres mayores a 30 años con
cáncer de tiroides está entre 0 y 1.78%.
d) El total verdadero de mujeres con cáncer de tiroides.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 4,600 y 𝑝 = 0.008587.
Por lo tanto:
𝜏̂ = 4,600(0.008587) = 39.5002 = 40 mujeres.
e) El intervalo de confianza para el total con una confiabilidad de 95%.
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
donde: 𝜏̂ = 39.5002, 𝑆𝑝 = 0.004716, 𝑁 = 4,600 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 .
314
Por lo tanto:
𝜏̂ ± (1.96)(4,600)(0.004716)
39.5002 ± 42.519456
0 ≤ 𝜏 ≤ 82.019656.
Con 95% de confianza se estima que el total de mujeres con cáncer de tiroides está
entre 0 y 82.019656.
f) Si 𝑔 es una muestra preliminar. El tamaño de muestra (pools) con una precisión de
0.05 y con una confiabilidad de 95% es:
2
−2
𝑥
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
𝐺𝑡(𝑔−1,1−𝛼
(
(
)
)
⁄2) 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔∗ =
𝐺𝑑2
+
(𝑓)(1 − 𝑓)
𝑆𝑒 − 𝑓
2
𝑡(𝑔−1,1−𝛼
⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 −
1)
2
−2
𝑥
)
donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,
5
𝑦
𝑓 = ⁄𝑔 = 60 y 𝑑 = 0.05.
Por lo tanto:
2
−2
8
5
5
5
(60 ) (1 − 60 )
0.97 − 60
(
)
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1
575(1.96)2
𝑔∗ =
(
)
2
−2
8
5
5
5
(60 ) (1 − 60 )
0.97 − 60
(
)
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1
575(0.05)2 + (1.96)2
(
𝑔∗ =
315
3.296239
= 2.2839 = 3 pools.
1.443232
)
g) Finalmente, el tamaño de pool para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99) es:
2
2
1
2
𝐺𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
𝑔𝑚 =
2
2
1
2
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼
⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡
4𝑑
(𝑔−1,1−𝛼⁄2)
𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,
𝑦
5
𝑃𝑔 = 𝑔 = 60 , . 𝑑 = 0.05, 𝑍𝛾 = 2.3263,
2
𝑥
1−𝑃𝑔
2
−2
𝑥
𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 )
𝑔
2
ℎ(𝑃𝑔 ) =
√(1−𝑃𝑔)𝑥
−1
𝑃𝑔
𝑥2
=
2
8
= (0.97 + 0.98 − 1) (
2
5 8−1 5
( )
60
82
√(1−60)
ℎ′ (𝑃𝑔 ) = 𝑥
=
2
−1
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
(1 −
2𝑃𝑔
𝑥
1
)=8
)
= 0.931411,
= 0.037281 y
1
1
2( −1)
1 (1−𝑃𝑔 ) 𝑥
2
−2
5
8
60
5
0.97−
60
1−
5 2( −1)
(1− ) 8
60
2
−1 5
5
2√(1− )8 ( )
60
60
(1 −
5
60
2( )
8
)
1 1.164474
(
) (0.979166) = 0.238939.
8 0.596499
Por lo tanto:
2
1
4(0.05)
5
5
(2.3263)|0.238939|√ (1 − ))
575(1.96)2 ( ) (0.037281 + √(0.037281)2 +
4
1.96
60
60
𝑔𝑚 =
2
575(0.931411)(0.05)2
𝑔𝑚 =
+
1
(1.96)2 ( ) (0.037281 +
4
√(0.037281)2
4(0.05)
5
5
(2.3263)|0.238939|√ (1 − ))
+
1.96
60
60
1
575(1.96)2 (4) (0.037281 + 0.130637)2
1
575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + 0.130637)2
4
15.570987
𝑔𝑚 =
= 11.3991 = 12 pools.
1.365983
316
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. El tipo de prueba es imperfecta, por lo que los valores de
𝑆𝑒 y 𝑆𝑝 son 0.98 y 0.97, correspondientemente. Además, si la muestra en cada ejercicio es
una muestra preliminar, ¿Cuál es el tamaño de muestra para estimar la proporción, de
tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un
nivel de aseguramiento de 80%?
Ejercicio 8.4. Un investigador quiere conocer cuántas vacas tienen tuberculosis bovina
en el estado de Sonora. Se decidió utilizar el método de pruebas por grupo, donde la
población fue de 𝑁 = 1,500 vacas y se tomó una muestra de tamaño 𝑛 = 280 con 𝑥 = 5,
de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 56 y
𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos.
Ejemplo 8.5. Una empresa particular quiere detectar la presencia de platas transgénicas
de maíz en el estado de Tamaulipas. Se decidió utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,600 plantas y se tomó una muestra de tamaño 𝑛 =
405 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y la población
fue de 𝑔 = 45 y 𝐺 = 400, respectivamente. De estos pools muestreados resultaron 𝑦 = 7
positivos.
Ejemplo 8.6. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Guadalajara tienen el virus de la hepatitis C. Se decidió utilizar el método
de pruebas por grupo, donde la población fue de 𝑁 = 3,680 personas y se tomó una
muestra de tamaño 𝑛 = 400 con 𝑥 = 8, de modo que el número de pools a formar con la
muestra y la población fue de 𝑔 = 50 y 𝐺 = 460, respectivamente. De estos pools
muestreados resultaron 𝑦 = 5 positivos.
8.3 Prueba por grupos bajo MAE
317
Se pueden aplicar pruebas por grupo a una población estratificada para mejorar la
precisión al estimar parámetros. En esta tesitura, a continuación se presentan los
estimadores correspondientes a la prueba por grupos bajo MAE.
La proporción estratificada
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖
𝑝𝑠𝑡 =
,
∑𝐸𝑖=1 𝐺𝑖
1⁄
𝑥
𝑦𝑖
𝑝𝑖 = 1 − (1 − )
𝑔𝑖
donde 𝑦𝑖 denota el número de grupos (pools) positivos en el estrato 𝑖, 𝐸 es el número de
estratos en que se divide la población, 𝑔𝑖 =
𝑛𝑖
𝑥
es el número de pools en el estrato 𝑖, 𝑛𝑖 es
el tamaño de muestra en el estrato i, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la
población por estrato y 𝐺𝑖 =
𝑁𝑖
𝑥
.
El estimador de la varianza estratificada
𝐸
𝑆𝑝2ℎ
2
𝐺
= ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 ,
𝑆𝑝2𝑖 = (
𝑖=1
𝐺𝑖 − 𝑔𝑖
1 − (1 − 𝑝𝑖 )𝑥
)( 2
)
𝐺𝑖
𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 .
El estimador del total estratificado
𝜏̂ = 𝑁𝑝𝑠𝑡
Los intervalos de confianza para la proporción y el total
𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ
𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ
donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
318
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
Estimación del tamaño de muestra (pools)
1 − (1 − 𝑝𝑖 )𝑥
]
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
∗
𝑔 =
1 − (1 − 𝑝𝑖 )𝑥
2
𝐸
∑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
𝑊
[
⁄2) 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑖
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖 [
donde 𝑑 es la precisión requerida, 𝑊𝑖 =
𝑁𝑖
𝑁
, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
Estimación del tamaño de muestra modificado (pools)
De manera análoga al tamaño de muestra modificado bajo MAS, el tamaño de muestra
modificado bajo MAE es:
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑔𝑚 =
2
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
2
𝐺𝑑 2
+
2
𝐸
𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
donde 𝑔𝑚 es el tamaño de muestra (pools) modificado, 𝛾 es la probabilidad de que el IC
2
para la proporción estratificada no sea mayor que la amplitud deseada, 𝜒(𝛾,
𝑛∗ −1) es el
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de
libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las
distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión
319
significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2)
puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 8.5. En el estado de Guerrero, una empresa particular quiere conocer cuántos
de sus trabajadores tienen el virus XXY. El método que se utilizó fue el muestreo por
grupos. La población (𝑁 = 2,490) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos
son los siguientes: sector 1 (𝑁1 = 900), sector 2 (𝑁2 = 870) y sector 3 (𝑁3 = 720). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, con 𝑥 =
6respectivamente, de modo que el número de pools fue 𝑔1 = 4, 𝑔2 = 6 y 𝑔3 = 9. De los
pools muestreados resultaron 𝑦1 = 1, 𝑦2 = 1 y 𝑦3 = 2 positivos, respectivamente.
a) La proporción estratificada.
𝑝𝑠𝑡 =
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖
∑𝐸𝑖=1 𝐺𝑖
𝑝𝑖 = 1 − (1 −
1⁄
𝑥
𝑦𝑖
)
𝑔𝑖
donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2,
𝑁𝑖
900
870
720
: 𝐺1 =
= 150, 𝐺2 =
= 145, 𝐺3 =
= 120,
𝑥
6
6
6
𝑛𝑖
24
36
54
𝑔𝑖 = : 𝑔1 =
= 4, 𝑔2 =
= 6, 𝑔3 =
= 9,
𝑥
6
6
6
𝐺𝑖 =
1⁄
𝑥
𝑦𝑖
𝑝𝑖 = 1 − (1 − 𝑔 )
𝑖
1
𝑝2 = 1 − (1 − 6)
1⁄
6
1
: 𝑝1 = 1 − (1 − 4)
1⁄
6
= 0.046816,
2
= 0.029930 y 𝑝3 = 1 − (1 − 9)
1⁄
6
= 0.041021.
Por lo tanto:
𝑝𝑠𝑡 =
320
150(0.046816) + 145(0.029930) + 120(0.041021) 16.28477
=
= 0.0392 ó 3.92%.
150 + 145 + 120
415
b) El total estratificado.
𝜏̂ = 𝑁𝑝𝑠𝑡
donde: 𝑁 = 2,490 y 𝑝𝑠𝑡 = 0.0392.
Por lo tanto:
𝜏̂ = 2,490(0.0392) = 97.608.
c) La varianza y desviación estándar de la población estratificada.
𝐸
𝑆𝑝2ℎ
2
𝐺
= ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 ,
𝑖=1
𝑆𝑝2𝑖 = (
𝐺𝑖 − 𝑔𝑖
1 − (1 − 𝑝𝑖 )𝑥
)( 2
)
𝐺𝑖
𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3, 𝐺 = 415,
𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120, 𝑔𝑖 : 𝑔1 = 4, 𝑔2 = 6, 𝑔3 = 9,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021.
150−4
𝑆𝑝21 = (
150
145−6
𝑆𝑝22 = (
120−9
120
1−(1−0.029930)6
) (6(6)2 (1−0.029930)6−2 ) = 0.000835 y
145
𝑆𝑝23 = (
1−(1−0.046816)6
) (4(6)2 (1−0.046816)6−2 ) = 0.002047,
1−(1−0.041021)6
) (9(6)2 (1−0.041021)6−2 ) = 0.00075.
Por lo tanto:
2
2
2
𝑆𝑝2ℎ = (150⁄415) (0.002047) + (145⁄415) (0.000835) + (120⁄415) (0.00075)
𝑆𝑝2ℎ = 0.000267 + 0.000102 + 0.000063 = 0.000432.
La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000432 = 0.020785.
d) El Intervalo de confianza para la proporción estratificada con confiabilidad del 95%.
321
𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ
donde: 𝑝𝑠𝑡 = 0.0392, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 .
Por lo tanto:
0.0392 ± (1.96)(0.020785)
0.0392 ± 0.0407386
0 ≤ 𝑃𝑠𝑡 ≤ 0.079939.
La proporción verdadera de trabajadores con el virus XXY está entre 0% y 7.99%.
e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.
𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ
donde: 𝜏̂ = 97.608, 𝑁 = 2,490, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
97.608 ± (2,490)(1.96)(0.020785)
97.608 ± 101.439114
0 ≤ 𝜏 ≤ 199.0471.
f) Si 𝑔 = 19 es una muestra preliminar, el tamaño de muestra (pools) necesario para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:
322
1 − (1 − 𝑝𝑖 )𝑥
]
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
𝑔∗ =
1 − (1 − 𝑝𝑖 )𝑥
2
𝐸
∑
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼
𝑊
[
]
𝑖
⁄2 𝑖=1
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
2
𝐸
𝐺𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖 [
donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3,
𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021,
𝑊𝑖 =
𝐺𝑖
𝐺
150
145
120
: 𝑊1 = 415 , 𝑊2 = 415 , 𝑊3 = 415,
1−(1− 𝑝1 )𝑥
𝑊1 𝑥 2 (1− 𝑝
𝑥−2
1)
1−(1− 𝑝2 )𝑥
𝑊2 𝑥 2 (1− 𝑝
𝑥−2
2)
1−(1− 𝑝3 )𝑥
𝑊3 𝑥 2 (1− 𝑝
𝑥−2
3)
∑3𝑖=1 𝑊𝑖 [
150
1−(1−0.046816)6
145
1−(1−0.029930 )6
120
1−(1−0.041021)6
= (415) 62 (1−0.046816)6−2 = 0.003041,
= (415) 62 (1−0.029930 )6−2 = 0.001826,
= (415) 62 (1−0.041021)6−2 = 0.002110 y
1−(1−𝑝𝑖 )𝑥
𝑥 2 (1−𝑝𝑖 )𝑥−2
] = 0.006977.
Por lo tanto:
𝑔∗ =
(415)(2.1009)2 (0.006977)
12.7799
=
= 11.9628 = 12 pools.
2
2
(415)(0.05) + (2.1009) (0.006977)
1.0683
La asignación de la muestra en forma proporcional:
𝑔𝑖∗ =
𝐺𝑖 ∗
(𝑔 )
𝐺
donde: 𝐺 = 415, 𝑔∗ = 11.9628, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145 y 𝐺3 = 120.
Por lo tanto:
𝑔1∗ = 150⁄415 (11.9628) = 4.3239 = 4
𝑔2∗ = 145⁄415 (11.9628) = 4.1798 = 4
𝑔3∗ = 120⁄415 (11.9628) = 3.4591 = 4.
323
El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95%
es de 12: 4, 4 y 4 para los sectores 1, 2 y 3, respectivamente.
g) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión
absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es:
2
𝐸
𝐺𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖
𝑔𝑚 =
2
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
2
𝐺𝑑 2
+
2
𝐸
𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3,
𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021,
150
145
120
𝑊𝑖 : 𝑊1 = 415 , 𝑊2 = 415, 𝑊3 = 415,
1−(1−𝑝1 )𝑥
𝑊1 [𝑥 2 (1−𝑝
1
](
)𝑥−2
1−(1−𝑝2 )𝑥
𝑊2 [𝑥 2 (1−𝑝
2
3
1
𝑔1∗ −1
2
𝜒2(𝛾,
𝑔∗ −1)
](
)𝑥−2
1−(1−𝑝3 )𝑥
𝑊3 [𝑥 2 (1−𝑝
2
𝜒1(𝛾,
𝑔∗ −1)
2
𝑔2∗ −1
2
𝜒3(𝛾,
𝑔∗ −1)
](
)𝑥−2
3
𝑔3∗ −1
150
1−(1−0.046816)6
2
𝜒1(0.99,4.3239−1)
) = (415) 62 (1−0.046816)6−2 (
145
4.3239−1
2
𝜒2(0.99,4.1798−1)
1−(1−0.029930 )6
) = (415) 62 (1−0.029930 )6−2 (
120
1−(1−0.041021)6
) = 0.011924,
4.1798−1
2
𝜒3(0.99,3.4591−1)
) = (415) 62 (1−0.041021)6−2 (
3.4591−1
) = 0.007323,
) = 0.009665 y
2
𝜒𝑖(𝛾,𝑔
∗ −1)
1−(1−𝑝𝑖 )𝑥
3
𝑖
∑𝑖=1 𝑊𝑖 [ 2
]
(
)=0.028912.
𝑥 (1−𝑝𝑖 )𝑥−2
𝑔𝑖∗ −1
Por lo tanto:
(415)(2.1009)2 (0.028912)
52.958661
𝑔𝑚 =
=
= 45.4537 = 46 pools.
(415)(0.05)2 + (2.1009)2 (0.028912)
1.165111
La asignación proporcional de la muestra:
𝑔𝑚 𝑖 =
324
𝐺𝑖
(𝑔 )
𝐺 𝑚
donde: 𝐺 = 415, 𝑔𝑚 = 45.4537, 𝑔𝑖 : 𝑔1 = 150, 𝑔2 = 145 y 𝑔3 = 120.
Por lo tanto:
𝑔𝑚1 = 150⁄415 (45.4537) = 16.429 = 17
𝑔𝑚 2 = 145⁄415 (45.4537) = 15.8814 = 16
𝑔𝑚 3 = 120⁄415 (45.4537) = 13.1432 = 13.
El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y
nivel de aseguramiento de 99% es de 46: 17, 16 y 13 para los sectores 1, 2 y 3
respetivamente.
Ejemplo 8.6. En el estado de Colima, una empresa particular quiere conocer cuántos de
sus trabajadores tienen paludismo. El método a utilizar es muestreo por grupos. La
población (𝑁 = 2,500) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los
siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 800) y sector 3 (𝑁3 = 750). De los tres
sectores se tomaron las siguientes muestras: 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, con 𝑥 = 5 , de
modo que el número de pools fue 𝑔1 = 6, 𝑔2 = 5 y 𝑔3 = 4, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 1 y 𝑦3 = 1 positivos, respectivamente.
a) La proporción estratificada.
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖
𝑝𝑠𝑡 =
∑𝐸𝑖=1 𝐺𝑖
1⁄
𝑥
𝑦𝑖
𝑝𝑖 = 1 − (1 − )
𝑔𝑖
donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, 𝑦𝑖 : 𝑦1 = 2, 𝑦2 = 1, 𝑦3 = 1,
𝑁𝑖
950
800
750
: 𝐺1 =
= 190, 𝐺2 =
= 160, 𝐺3 =
= 150,
𝑥
5
5
5
𝑛𝑖
30
25
20
𝑔𝑖 = : 𝑔1 =
= 6, 𝑔2 =
= 5, 𝑔3 =
= 4,
𝑥
5
5
5
𝐺𝑖 =
1⁄
𝑥
𝑦
𝑝𝑖 = 1 − (1 − 𝑔𝑖 )
𝑖
325
2
: 𝑝1 = 1 − (1 − 6)
1⁄
5
= 0.077892,
1
1⁄
5
𝑝2 = 1 − (1 − 5)
1
1⁄
5
= 0.043648 y 𝑝3 = 1 − (1 − 4)
= 0.055913.
Por lo tanto:
𝑝𝑠𝑡 =
190(0.077892) + 160(0.043648) + 150(0.055913) 30.17011
=
= 0.0603 ó 6.03%.
190 + 160 + 150
500
b) El total estratificado.
𝜏̂ = 𝑁𝑝𝑠𝑡
donde: 𝑁 = 2,500 y 𝑝𝑠𝑡 = 0.0603.
Por lo tanto:
𝜏̂ = 2,500(0.0603) = 150.75.
c) La varianza y desviación estándar de la población estratificada.
𝐸
𝑆𝑝2ℎ
2
𝐺
= ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 ,
𝑖=1
𝑆𝑝2𝑖 = (
𝐺𝑖 − 𝑔𝑖
1 − (1 − 𝑝𝑖 )𝑥
)( 2
)
𝐺𝑖
𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3, 𝐺 = 500,
𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150, 𝑔𝑖 : 𝑔1 = 6, 𝑔2 = 5, 𝑔3 = 4,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
1−(1−0.077892)5
190−6
𝑆𝑝21 = (
190
) (6(5)2 (1−0.077892)5−2 ) = 0.002745,
160−5
𝑆𝑝22 = (
160
150−4
𝑆𝑝23 = (
Por lo tanto:
326
150
1−(1−0.043648)5
) (5(5)2 (1−0.043648)5−2 ) = 0.001772 y
1−(1−0.055913)5
) (4(5)2 (1−0.055913)5−2 ) = 0.002891.
2
2
2
𝑆𝑝2ℎ = (190⁄500) (0.002745) + (160⁄500) (0.001772) + (150⁄500) (0.002891)
𝑆𝑝2ℎ = 0.000396 + 0.000181 + 0.00026 = 0.000837
La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000837 = 0.028931.
d) El Intervalo de confianza para la proporción estratificada con una confiabilidad del
95%.
𝑝𝑠𝑡 ± 𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ
donde: 𝑝𝑠𝑡 = 0.0603, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 .
Por lo tanto:
0.0603 ± (1.96)(0.028931)
0.0603 ± 0.056705
0.003595 ≤ 𝑃𝑠𝑡 ≤ 0.117005.
La proporción verdadera de trabajadores con paludismo está entre 0.35% y 11.7%.
e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.
𝜏̂ ± 𝑁𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ
donde: 𝜏̂ = 150.75, 𝑁 = 2,500, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
150.75 ± (2,500)(1.96)(0.028931)
150.75 ± 141.7619
327
8.9881 ≤ 𝜏 ≤ 292.5119.
h) Si 𝑔 = 15 es una muestra preliminar, el tamaño de muestra (pools) necesario para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:
1 − (1 − 𝑝𝑖 )𝑥
]
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
𝑔∗ =
1 − (1 − 𝑝𝑖 )𝑥
2
𝐸
∑
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼
𝑊
[
⁄2 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑖
2
𝐸
𝐺𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖 [
donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3,
𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
𝑊𝑖 =
𝐺𝑖
𝐺
190
160
150
: 𝑊1 = 500 , 𝑊2 = 500 , 𝑊3 = 500,
1−(1− 𝑝1 )𝑥
𝑊1 𝑥 2 (1− 𝑝
1
)𝑥−2
1−(1− 𝑝2 )𝑥
𝑊2 𝑥 2 (1− 𝑝
2
)𝑥−2
1−(1− 𝑝3 )𝑥
𝑊3 𝑥 2 (1− 𝑝
3
∑3𝑖=1 𝑊𝑖 [
)𝑥−2
190
1−(1−0.077892)5
160
1−(1−0.043648)5
150
1−(1−0.055913)5
= (500) 52 (1−0.077892)5−2 = 0.006462,
= (500) 52 (1−0.043648)5−2 = 0.002927,
= (500) 52 (1−0.055913)5−2 = 0.003565 y
1−(1−𝑝𝑖 )𝑥
𝑥 2 (1−𝑝𝑖 )𝑥−2
] = 0.006462 + 0.002927 + 0.003565 = 0.012954.
Por lo tanto:
(500)(2.1448)2 (0.012954)
29.795282
𝑔 =
=
= 22.7515 = 23 pools.
(500)(0.05)2 + (2.1448)2 (0.012954)
1.309591
∗
La asignación proporcional de la muestra:
𝑔𝑖∗ =
𝐺𝑖 ∗
(𝑔 )
𝐺
donde: 𝐺 = 500, 𝑔∗ = 22.7515, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150.
328
Por lo tanto:
𝑔1∗ = 190⁄500 (22.7515) = 8.6456 = 9
𝑔2∗ = 160⁄500 (22.7515) = 7.2805 = 7
𝑔3∗ = 150⁄500 (22.7515) = 6.8255 = 7.
El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95%
es de 23: 9, 7 y 7 para los sectores 1, 2 y 3, respectivamente.
i) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión
absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99, es:
2
𝐸
𝐺𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖
𝑔𝑚 =
2
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
2
𝐺𝑑 2
+
2
𝐸
𝑡𝑔−1,1−𝛼
⁄2 ∑𝑖=1 𝑊𝑖
1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
[ 2
] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖
donde: 𝑥 = 5, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3,
𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
190
𝑊𝑖 : 𝑊1 =
500
1−(1−𝑝1 )𝑥
𝑊1 [𝑥 2 (1−𝑝
1
2
𝑊3 [𝑥 2 (1−𝑝
3
500
, 𝑊3 =
1
𝑔1∗ −1
2
𝜒2(𝛾,𝑔
∗ −1)
](
)𝑥−2
1−(1−𝑝3 )𝑥
160
2
𝜒1(𝛾,𝑔
∗ −1)
](
)𝑥−2
1−(1−𝑝2 )𝑥
𝑊2 [𝑥 2 (1−𝑝
, 𝑊2 =
2
𝑔2∗ −1
2
𝜒3(𝛾,𝑔
∗ −1)
](
)𝑥−2
3
𝑔3∗ −1
150
500
190
,
1−(1−0.077892)5
) = (500) 52 (1−0.077892)5−2 (
160
1−(1−0.043648)5
329
8.6456−1
) = (500) 52 (1−0.043648)5−2 (
150
1−(1−0.055913)5
) = (500) 52 (1−0.055913)5−2 (
2
𝜒𝑖(𝛾,𝑔
∗
1−(1−𝑝𝑖 )𝑥
3
𝑖 −1)
∑𝑖=1 𝑊𝑖 [ 2
]
(
)=0.034663.
𝑥 (1−𝑝𝑖 )𝑥−2
𝑔𝑖∗ −1
Por lo tanto:
2
𝜒1(0.99,8.6456−1)
) = 0.016501,
2
𝜒2(0.99,7.2805−1)
7.2805−1
2
𝜒3(0.99,6.8255−1)
6.8255−1
) = 0.008054,
) = 0.010108 y
𝑔𝑚 =
(500)(2.1448)2 (0.034663)
79.727795
=
= 56.5664 = 57 pools.
(500)(0.05)2 + (2.1448)2 (0.034663)
1.409456
La asignación proporcional de la muestra:
𝑔𝑚 𝑖 =
𝐺𝑖
(𝑔 )
𝐺 𝑚
donde: 𝐺 = 500, 𝑔𝑚 = 56.5664, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150.
Por lo tanto:
𝑔𝑚1 = 190⁄500 (56.5664) = 21.4952 = 22
𝑔𝑚 2 = 160⁄500 (56.5664) = 18.1012 = 18
𝑔𝑚 3 = 150⁄500 (56.5664) = 16.9699 = 17
El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y
nivel de aseguramiento de 99%, es de 57: 22, 18 y 17 para los sectores 1, 2 y 3,
respectivamente.
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 5% de la proporción preliminar y un nivel de
aseguramiento de 80%?
Ejemplo 8.7. En la ciudad de Guadalajara, Jalisco, una empresa particular quiere conocer
cuántos de sus empleados tienen el virus XYY. El método a utilizar es muestreo por
grupos. La población (𝑁 = 2,690) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos
330
son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3 (𝑁3 = 840). De los
sectores se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5, de
modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 3 y 𝑦3 = 1 positivos, respectivamente.
Ejemplo 8.8. En el estado de Guanajuato, un investigador desea conocer cuántas vacas
de los ranchos ganaderos con cercana ubicación tienen el virus XXY. El método a utilizar
es muestreo por grupos. La población (𝑁 = 1,900) de los ranchos fue dividida en 𝐸 = 3
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 700), sector 2 (𝑁2 = 600), y sector 3
(𝑁3 = 600). En los tres sectores se tomaron las siguientes muestras: 𝑛1 = 48, 𝑛2 = 30,
𝑛3 = 24, con 𝑥 = 6,, de modo que el número de pools fue 𝑔1 = 8, 𝑔2 = 5 y 𝑔3 = 4 de los
cuales resultaron positivos 𝑦1 = 1, 𝑦2 = 2 y 𝑦3 = 1, respectivamente.
Ejemplo 8.9. Una empresa particular desea conocer cuántos de sus empleados tienen el
virus de la hepatitis C. El método a utilizar es muestreo por grupos. La población (𝑁 =
2,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector
1 (𝑁1 = 1,100), sector 2 (𝑁2 = 1,000), y sector 3 (𝑁3 = 700). En los tres sectores se
tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5 para cada sector,
de modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron
positivos 𝑦1 = 4, 𝑦2 = 2 y 𝑦3 = 1, respectivamente.
8.4 Prueba por grupo con 𝑺𝒆 y 𝑺𝒑 bajo MAE
Cuando la prueba a realizar no es perfecta (sensibilidad y especificidad menores a uno)
se sugiere utilizar los siguientes estimadores para prueba por grupo bajo MAE:
La proporción estratificada
∗
𝑝𝑠𝑡
=
331
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖∗
,
∑𝐸𝑖=1 𝐺𝑖
𝑦
(𝑆𝑒 − 𝑔𝑖 )
𝑖
𝑝𝑖∗ = 1 − (
)
(𝑆𝑒 + 𝑆𝑝 − 1)
1⁄
𝑥
donde 𝑆𝑒 es la sensibilidad, 𝑆𝑝 es la especificidad, 𝑦𝑖 denota el número de grupos (pools)
positivos en el estrato 𝑖, 𝐸 es el número de estratos en que se divide la población, 𝑔𝑖 =
𝑛𝑖
𝑥
es el número de pools en el estrato 𝑖, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la
población en el estrato 𝑖 y 𝐺𝑖 =
𝑁𝑖
𝑥
.
El estimador de la varianza
𝐸
𝑆𝑝2∗𝑠𝑡
2
2
(𝑓𝑖 )(1 − 𝑓𝑖 )
𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )( ⁄𝑥)−2
𝐺
= ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = (
)(
)(
)
2
𝐺𝑖
𝑔𝑖 𝑥
(𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
𝑖=1
𝑦
donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 y 𝑓𝑖 = 𝑔𝑖 .
𝑖
El estimador del total
∗
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
Los intervalos de confianza para la proporción y el total
∗
𝑝𝑠𝑡
± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
Estimación del tamaño de muestra (pools)
332
2
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑔∗ =
−2
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
[ 2 𝑖
(
)
]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2
−2
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
2
𝐸
∑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
𝑊
[
(
)
]
𝑖
⁄2) 𝑖=1
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
Estimación del tamaño de muestra modificado (pools)
De manera análoga al tamaño de muestra modificado bajo MAS (prueba imperfecta), el
tamaño de muestra modificado bajo MAE para prueba imperfecta es:
2
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑔𝑚 =
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
[ 2
(𝑆𝑒 + 𝑆𝑝 − 1) ] ( 𝑔 −𝑖 1 )
2
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)
𝑖
2
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
2
𝑖
𝐸
∑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼
𝑊
[
(
)
]
(
⁄2) 𝑖=1 𝑖 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔𝑖 − 1 )
donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que
2
∗
∗
la amplitud deseada, 𝜒𝑖(𝛾,𝑔
−1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖 −
𝑖
1 grados de libertad por estrato y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
distribución t-Student con 𝑔 − 1 grados de libertad también por estrato. Los cuantiles
requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y
Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2)
puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
333
Ejemplo 8.7. En el estado de Colima, el Centro de Salud quiere conocer cuántas de las
personas instaladas en hospitales tienen dengue con el objetivo de iniciar una campaña
contra esta enfermedad. El método a utilizar es muestreo por grupos. Se utilizarán tres
de los hospitales con mayor número de internos; los cuales cuentan con una población
(𝑁 = 2,190) de 𝑁1 = 600, 𝑁2 = 750 y 𝑁3 = 840 pacientes, respectivamente. Se tomaron
muestras de tamaño 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, con 𝑥 = 5 en cada hospital, de modo que
el número de pools es 𝑔1 = 4, 𝑔2 = 7 y 𝑔3 = 10, de los cuales resultaron positivos 𝑦1 = 1,
𝑦2 = 1 y 𝑦3 = 2. Ademásse utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 95%.
a) La proporción estratificada.
∗
𝑝𝑠𝑡
=
∗
∑𝐸
𝑖=1 𝐺𝑖 𝑝𝑖
∑𝐸
𝑖=1 𝐺𝑖
1⁄
𝑥
𝑦
𝑆𝑒− 𝑖
,
𝑔
𝑖
𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1
)
donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5,
𝐺𝑖 =
𝑔𝑖 =
𝑁𝑖
: 𝐺1 =
𝑥
𝑛𝑖
: 𝑔1 =
𝑥
600
5
20
5
= 120, 𝐺2 =
= 4, 𝑔2 =
0.97−
1
4
𝑝3∗
0.97−
1
7
2
10
= 7, 𝑔3 =
50
5
840
5
= 168,
= 10,
= 0.04784219,
1⁄
5
= 1 − (0.97+0.95−1)
0.97−
5
5
= 150, 𝐺3 =
1⁄
5
𝑝1∗ = 1 − (0.97+0.95−1)
𝑝2∗
35
750
= 0.021054443 y
1⁄
5
= 1 − (0.97+0.95−1)
= 0.034970522.
Por lo tanto:
120(0.04784219) + 150(0.021054443) + 168(0.034970522)
120 + 150 + 168
14.77427696
∗
𝑝𝑠𝑡
=
= 0.0337 ó 3.37% personas con dengue.
438
∗
𝑝𝑠𝑡
=
334
b) El total estratificado.
∗
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
donde: 𝑁 = 2,190 y 𝑝𝑠𝑡
= 0.0337.
Por lo tanto:
𝜏̂ ∗ = 2,190(0.0337) = 73.803.
c) La varianza y desviación estándar de la población estratificada.
𝐸
2
2
𝐺
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 ,
(𝑓𝑖 )(1 − 𝑓𝑖 )
𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2
=(
)(
)(
2)
2
𝐺𝑖
𝑔𝑖 𝑥
𝑥
(𝑆𝑒 + 𝑆𝑝 − 1)
𝑆𝑝2∗𝑖
𝑖=1
donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑘 = 5,
𝐺𝑖 =
𝑁𝑖
𝑥
600
: 𝐺1 =
𝑛
𝑔𝑖 = 𝑥𝑖 : 𝑔1 =
5
20
5
120−4
𝑆𝑝2∗1 = (
𝑆𝑝2∗2
120
)(
150
)(
168−10
𝑆𝑝2∗3 = (
168
= 4, 𝑔2 =
35
2
−2
)5
(0.97−1⁄4
4(5)2
5
(0.97−1⁄7)5
)(
7(5)2
750
5
)(
)(
10(5)2
50
5
2
(0.97+0.95−1) ⁄5
(1⁄7)(1−1⁄7)
2
(0.97+0.95−1) ⁄5
)(
840
5
= 168,
𝑦
1
1
𝑖
) = 0.003169,
) = 0.000934 y
(2⁄10)(1−2⁄10)
2 )
(0.97+0.95−1) ⁄5
= 0.000945.
Por lo tanto:
2
2
2
𝑆𝑝2∗𝑠𝑡 = (120⁄438) (0.003169) + (150⁄438) (0.000934) + (168⁄438) (0.000945)
335
2
= 10, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10,
(1⁄4)(1−1⁄4)
2
−2
(0.97−2⁄10)5
= 150, 𝐺3 =
= 7, 𝑔3 =
2
−2
150−7
=(
= 120, 𝐺2 =
𝑆𝑝2∗𝑠𝑡 = 0.000238 + 0.00011 + 0.000139 = 0.000487.
La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.000487 = 0.022068.
d) El IC para la proporción estratificada con una confiabilidad del 95%.
∗
𝑝𝑠𝑡
± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
∗
donde: 𝑝𝑠𝑡
= 0.0337 , 𝑆𝑝∗𝑠𝑡 = 0.022068 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
0.0337 ± (1.96)(0.022068)
0.0337 ± 0.043253
0 ≤ 𝑃𝑠𝑡 ≤ 0.076973.
La proporción verdadera de personas con dengue está entre 0% y 7.69%.
e) El IC para el total estratificado con una confiabilidad de 95%.
𝜏̂ ∗ ± 𝑁𝑡𝑛−1,1−𝛼⁄2 𝑆𝑝∗𝑠𝑡
donde: 𝜏̂ ∗ = 73.803, 𝑁 = 2, 190, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.022068.
Por lo tanto:
73.803 ± (2,190)(1.96)(0.022068)
73.803 ± 94.724683
0 ≤ 𝜏 ∗ ≤ 168.527683.
336
f) Si 𝑔 = 21 es una muestra preliminar, el tamaño de muestra (pools) necesarios para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:
2
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑔∗ =
−2
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
[ 2
(
) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2
𝐺𝑑2
+
2
𝐸
𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
−2
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
[ 2 𝑖
(
)
]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95,
𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5, 𝐸 = 3,
𝑁𝑖
𝐺𝑖 =
𝑥
600
: 𝐺1 =
𝑛
𝑔𝑖 = 𝑥𝑖 : 𝑔1 =
𝑦
5
20
5
750
= 120, 𝐺2 =
= 4, 𝑔2 =
1
1
35
5
5
= 150, 𝐺3 =
= 7, 𝑔3 =
50
5
840
5
= 168,
= 10,
2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086,
𝑖
𝑊𝑖 =
𝐺𝑖
𝐺
: 𝑊1 =
𝐺1
𝐺
120
𝐺2
= 438, 𝑊2 =
=
=
−2
1⁄ (1−1⁄ )
0.97−1⁄7 5
150
7
7
(438) 52 (0.97+0.95−1)
(
)
2 0.97+0.95−1
=
−2
2⁄ (1−2⁄ )
0.97−2⁄10 5
168
10
( ) 2 10
(
)
438 5 (0.97+0.95−1)2 0.97+0.95−1
2
= 0.009799.
Por lo tanto:
(438)(2.086)2 (0.009799)
16.488001
1.132643
= 14.5571 = 15 pools.
La asignación de la muestra proporcional:
337
= 0.002350,
2
𝑓 (1−𝑓𝑖 )
𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖
(
) ]
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
𝑔∗ = (438)(0.05)2 +(2.086)2 (0.009799) =
= 0.003593,
2
2
−2
𝑓 (1−𝑓3 )
𝑆𝑒−𝑓3
𝑥
𝑊3 [ 2 3
(
) ]
2
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1
𝐺
168
= 438,
−2
1⁄ (1−1⁄ )
0.97−1⁄4 5
120
4
4
( ) 2 (0.97+0.95−1)
(
)
2 0.97+0.95−1
438 5
2
−2
𝑓2 (1−𝑓2 )
𝑆𝑒−𝑓2
𝑥
𝑊2 [𝑥 2 (𝑆𝑒+𝑆𝑝−1)
]
2 (𝑆𝑒+𝑆𝑝−1)
𝐺3
2
2
𝑓 (1−𝑓1 )
𝑆𝑒−𝑓1 𝑥−2
𝑊1 [ 2 1
(
) ]
2
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1
𝐺
150
= 438, 𝑊3 =
= 0.003856 y
𝑔𝑖∗ =
𝐺𝑖
(𝑔)
𝐺
donde: 𝐺 = 438, 𝑔∗ = 15, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168.
Por lo tanto:
𝑔1∗ = 120⁄438 (14.5571) = 3.9882 = 4
𝑔2∗ = 150⁄438 (14.5571) = 4.9853 = 5
𝑔3∗ = 168⁄438 (14.5571) = 5.5835 = 6.
El tamaño de muestra (pools) con precisión de 0.05 y confiabilidad de 95% es de 15:
4, 5 y 6 para los hospitales 1, 2 y 3, respectivamente.
g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.
2
2
𝐸
𝐺𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
𝑔𝑚 =
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
𝑖
[ 2 𝑖
(
)
]
(
)
2
𝑔𝑖∗ − 1
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1
2
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
2
𝐸
2
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ∑𝑖=1 𝑊𝑖 [ 2
(𝑆𝑒 + 𝑆𝑝 − 1) ] ( ∗ 𝑖 )
2
𝑔𝑖 − 1
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)
donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95,
𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5,
𝑁𝑖
𝐺𝑖 =
𝑥
600
: 𝐺1 =
𝑛
𝑔𝑖 = 𝑥𝑖 : 𝑔1 =
𝑦
5
20
5
750
= 120, 𝐺2 =
= 4, 𝑔2 =
1
1
35
5
5
= 150, 𝐺3 =
= 7, 𝑔3 =
50
5
840
5
= 168,
= 10, 𝐸 = 3,
2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086,
𝑖
𝑊𝑖 =
𝑊1 [
𝐺𝑖
𝐺
: 𝑊1 =
𝑓1 (1−𝑓1 )
𝑥
2 (𝑆𝑒+𝑆𝑝−1)2 (
𝐺1
𝐺
120
= 438, 𝑊2 =
𝑆𝑒−𝑓1
𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
𝐺2
𝐺
𝜒21(𝛾,𝑔∗ −1)
1
𝑔1∗ −1
150
= 438, 𝑊3 =
)=(
120
)
438 5
𝐺3
𝐺
168
= 438,
1
1
(1−4)
4
2 (0.97+0.95−1)2 (
2
−2
5
1
0.97−4
0.97+0.95−1
)
2
𝜒1(0.99,3.9882−1)
(
3.9882−1
)
= (0.273973)(0.008861)(1.4802228)(3.7886) = 0.013614,
338
𝑊2 [
𝑓2 (1−𝑓2 )
2(
𝑥 2 (𝑆𝑒+𝑆𝑝−1)
𝑆𝑒−𝑓2
𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
𝜒22(𝛾,𝑔∗ −1)
2
𝑔2∗ −1
)=(
150
)
1
1
(1− )
7
7
2(
438 52 (0.97+0.95−1)
1
7
0.97−
0.97+0.95−1
2
−2
5
)
2
𝜒2(0.99,4.9853−1)
(
4.9853−1
)
= (0.342466)(0.005787)(1.185582)(3.3245) = 0.007811,
𝑊3 [
𝑓3 (1−𝑓3 )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2
(
𝑆𝑒−𝑓3
𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
𝜒23(𝛾,𝑔∗ −1)
3
𝑔3∗ −1
)=(
168
438
)
2
2
(1− )
10
10
52 (0.97+0.95−1)2
(
2
10
0.97−
0.97+0.95−1
2
−2
5
)
2
𝜒3(0.99,5.5835−1)
(
5.5835−1
)
= (0.383562)(0.007561)(1.329460)(3.1296) = 0.012066 y
3
2
2
−2
𝑥
𝜒𝑖(𝛾,
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2
(
) ](
) = 0.033491.
2
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1
𝑔𝑖 − 1
𝑖=1
Por lo tanto:
𝑔𝑚 =
(438)(2.086)2 (0.033491)
63.83088
=
= 51.4461 = 52 pools.
2
2
(438)(0.05) + (2.086) (0.033491) 1.240733
La asignación de la muestra proporcional:
𝑔𝑚 𝑖 =
𝐺𝑖
(𝑔 )
𝐺 𝑚
donde: 𝐺 = 438, 𝑔𝑀 = 51.4461, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168.
Por lo tanto:
𝑔𝑚1 = 120⁄438 (51.4461) = 14.0948 = 14
𝑔𝑚 3 = 150⁄438 (51.4461) = 17.6185 = 18
𝑔𝑚 3 = 168⁄438 (51.4461) = 19.7328 = 20.
El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y
aseguramiento de 99% es de 52: 14, 18 y 20 para los hospitales 1, 2 y 3,
respectivamente.
Ejemplo 8.8. En el estado de Tamaulipas, la Secretaría de Salud desea conocer cuántas
339
de las personas hospitalizadas tienen influenza con el objetivo de tomar medidas de
precaución. El método que se empleo fue el muestreo por grupos. Se utilizaron tres de
los hospitales con mayor número de internos, los cuales cuentan con una población (𝑁 =
2,835) de 𝑁1 = 1050, 𝑁2 = 945 y 𝑁3 = 840, respectivamente. Se tomaron muestras de
tamaño 𝑛1 = 70 y 𝑛2 = 𝑛3 = 56, con 𝑥 = 7 en cada hospital, de modo que el número de
pools fue 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, de los cuales resultaron positivos 𝑦1 = 3, 𝑦2 = 1 y 𝑦3 = 2,
respectivamente. Además se utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 98%.
a) La proporción estratificada.
∗
𝑝𝑠𝑡
=
∗
∑𝐸
𝑖=1 𝐺𝑖 𝑝𝑖
∑𝐸
𝑖=1 𝐺𝑖
𝑦
𝑆𝑒− 𝑖
,
1⁄
𝑥
𝑔𝑖
𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1)
donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7,
𝐺𝑖 =
𝑔𝑖 =
𝑁𝑖
: 𝐺1 =
𝑥
𝑛𝑖
𝑥
: 𝑔1 =
1,050
7
70
7
= 150, 𝐺2 =
= 10, 𝑔2 = 𝑔3 =
0.97−
3
10
0.97−
1
8
0.97−
2
8
7
= 135, 𝐺3 =
56
7
840
7
= 120,
= 8,
1⁄
7
𝑝1∗ = 1 − (0.97+0.98−1)
= 0.048659719,
1⁄
7
𝑝2∗ = 1 − (0.97+0.98−1)
𝑝3∗
945
= 0.016592988 y
1⁄
7
= 1 − (0.97+0.98−1)
= 0.038827647.
Por lo tanto:
150(0.048659719) + 135(0.016592988) + 120(0.038827647)
150 + 135 + 120
14.19832892
∗
𝑝𝑠𝑡
=
= 0.035 ó 3.5% personas con dengue.
405
∗
𝑝𝑠𝑡
=
340
b) El total estratificado.
∗
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
donde: 𝑁 = 2,835 y 𝑝𝑠𝑡
= 0.035.
Por lo tanto:
𝜏̂ ∗ = 2,835(0.035) = 99.225.
c) La varianza y desviación estándar de la población estratificada.
2
𝐸
𝑆𝑝2∗𝑠𝑡
2
𝐺
= ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 ,
𝑆𝑝2∗𝑖
𝑖=1
(𝑓𝑖 )(1 − 𝑓𝑖 )
𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2
=(
)(
)
(
2)
𝐺𝑖
𝑔𝑖 𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)𝑥
donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3,
𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7, 𝐺 = 405,
𝐺𝑖 =
𝑔𝑖 =
𝑆𝑝2∗1
𝑁𝑖
𝑥
𝑛𝑖
𝑥
: 𝐺1 =
1,050
7
= 150, 𝐺2 =
7
= 135, 𝐺3 =
𝑦
3
840
7
= 120,
1
2
: 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8,
𝑖
150−10
=(
)(
150
3
10
2
(0.97− )7
−2
10(7)2
)(
2
𝑆𝑝2∗2
945
=(
135−8
135
)(
1 −2
(0.97− )7
8
8(7)2
)(
2
120−8
𝑆𝑝2∗3 = (
120
)(
2 −2
(0.97− )7
8
8(7)2
)(
3
10
3
10
( )(1− )
2 )
(0.97+0.98−1) ⁄7
1
8
1
8
2
8
2
8
( )(1− )
2 )
(0.97+0.98−1) ⁄7
( )(1− )
2 )
(0.97+0.98−1) ⁄7
= 0.000806,
= 0.000356 y
= 0.000796.
Por lo tanto:
2
2
2
𝑆𝑝2∗𝑠𝑡 = (150⁄405) (0.000806) + (135⁄405) (0.000356) + (120⁄405) (0.000796)
341
𝑆𝑝2∗𝑠𝑡 = 0.000111 + 0.00004 + 0.000069 = 0.00022.
La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.00022 = 0.014832.
d) El IC para la proporción estratificada con una confiabilidad del 95%.
∗
𝑝𝑠𝑡
± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
∗
donde: 𝑝𝑠𝑡
= 0.035, 𝑆𝑝∗𝑠𝑡 = 0.014832 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
0.035 ± (1.96)(0.014832)
0.035 ± 0.029071
0.005929 ≤ 𝑃𝑠𝑡 ≤ 0.064071.
La proporción verdadera de personas con influenza está entre 0.59% y 6.4%.
e) El IC para el total estratificado con la confiabilidad de 95%.
𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
donde: 𝜏̂ ∗ = 99.225, 𝑁 = 2,835, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.014832.
Por lo tanto:
99.225 ± (2,835)(1.96)(0.014832)
99.225 ± 82.415491
16.5845 ≤ 𝜏 ∗ ≤ 181.6405.
f) Si 𝑔 = 26 es una muestra preliminar, el tamaño de muestra (pools) necesarios para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:
342
2
𝑔∗ =
−2
𝑥
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
2
𝐸
∑
𝐺𝑡(𝑔−1,1−𝛼
𝑊
[
(
)
]
𝑖
⁄2) 𝑖=1
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2
𝐺𝑑2
2
𝐸
𝑡(𝑔−1,1−𝛼
⁄2) ∑𝑖=1 𝑊𝑖
+
−2
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
[ 2 𝑖
(
)
]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,
𝑥 = 7, 𝐸 = 3, 𝐺𝑖 =
𝑦
3
𝑁𝑖
𝑥
: 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120,
1
2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(26−1,1−0.025) = 2.0595,
𝑖
𝑊𝑖 =
𝐺𝑖
𝐺
150
: 𝑊1 = 415, 𝑊2 =
𝐺2
𝐺
135
= 415, 𝑊3 =
2
𝑓 (1−𝑓1 )
𝑆𝑒−𝑓1 𝑥−2
𝑊1 [ 2 1
(
) ]
2
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1
2
−2
𝑥
𝑓2 (1−𝑓2 )
𝑆𝑒−𝑓2
(
)
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
𝑊2 [
3
=
𝐺
120
= 415,
3
3
(1− )
0.97−
150
10
10
10
( ) 2 (0.97+0.98−1)
(
)
2
415 7
0.97+0.98−1
1
1
(1− )
8
8
0.97−
2
1
8
2
=
2
2
(1− )
0.97−
120
8
8
8
(415) 72 (0.97+0.98−1)
2 (0.97+0.98−1)
2
𝑓 (1−𝑓𝑖 )
𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖
(
) ]
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
= 0.006078.
Por lo tanto:
(415)(2.0595)2 (0.006078)
𝑔∗ = (415)(0.05)2 +(2.0595)2 (0.006078) =
10.69873
1.06328
= 10.062 = 11 pools.
La asignación de la muestra proporcional:
𝑔𝑖∗ =
𝐺𝑖
(𝑔)
𝐺
donde: 𝐺 = 415, 𝑔∗ = 15, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120,
Por lo tanto:
343
2
−2
7
135
)
(
)
415 72 (0.97+0.98−1)2 0.97+0.98−1
]=(
−2
𝑓3 (1−𝑓3 )
𝑆𝑒−𝑓3
𝑥
𝑊3 [𝑥 2 (𝑆𝑒+𝑆𝑝−1)
]
2 (𝑆𝑒+𝑆𝑝−1)
𝐺3
= 0.003123,
2
−2
7
= 0.000983,
2
−2
7
= 0.001972 y
150
(10.062) = 3.6368 = 4
415
135
(10.062) = 3.2731 = 4
𝑔2∗ =
415
120
(10.062) = 2.9095 = 3.
𝑔3∗ =
415
𝑔1∗ =
El tamaño de muestra (pools) con una precisión de 0.05 y confiabilidad de 95% es de
11: 4, 4 y 3 para los hospitales 1, 2 y 3, respectivamente.
g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.
2
𝑔𝑚 =
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
𝑖
𝐺𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖
(
)
]
(
)
𝑔𝑖∗ − 1
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2
𝐺𝑑 2
+
𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖
2
−2
𝜒𝑖(𝛾,𝑔∗−1)
𝑥
𝑓 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
𝑖
[ 2 𝑖
(
)
]
(
)
𝑔𝑖∗ − 1
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,
𝑥 = 7, 𝐸 = 3, 𝐺𝑖 =
𝑦
𝑁𝑖
𝑥
3
: 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120,
1
2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡26−1,1−0.025 = 2.0595,
𝑖
𝑊𝑖 =
𝑊1 [
𝐺𝑖
𝐺
: 𝑊1 =
𝑓1 (1−𝑓1 )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2
(
150
415
𝐺2
, 𝑊2 =
𝑆𝑒−𝑓1
𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
𝐺
=
135
415
2
𝜒1(𝛾,𝑔
∗ −1)
1
𝑔1∗ −1
, 𝑊3 =
)=(
150
415
)
𝐺3
𝐺
=
120
,
415
3
3
(1−10)
10
72 (0.97+0.98−1)2
(
3
10
0.97−
0.97+0.98−1
2
−2
7
)
(
2
𝜒1(0.99,3.6368−1)
3.6368−1
)
= 0.003123(4.0199) = 0.012554,
𝑊2 [
𝑓2 (1−𝑓2 )
2(
𝑥 2 (𝑆𝑒+𝑆𝑝−1)
𝑆𝑒−𝑓2
𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
2
𝜒2(𝛾,𝑔
∗ −1)
2
𝑔2∗ −1
)=(
135
)
1
1
(1−8)
8
2
−2
7
1
2(
415 72 (0.97+0.98−1)
0.97−8
0.97+0.98−1
)
2
𝜒2(0.99,3.2731−1)
(
3.2731−1
)
= 0.000983(4.3208) = 0.004247,
𝑊3 [
𝑓3 (1−𝑓3 )
(
𝑆𝑒−𝑓3
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
)
2
−2
𝑥
](
2
𝜒3(𝛾,𝑔
∗ −1)
3
𝑔3∗ −1
)=(
120
)
2
2
(1−8)
8
415 72 (0.97+0.98−1)2
2
−2
7
2
(
0.97−8
0.97+0.98−1
)
2
𝜒3(0.99,2.9095−1)
(
2.9095−1
= 0.001972(4.7142) = 0.009296 y
3
2
2
−2
𝑥
𝜒𝑖(𝛾,
𝑓𝑖 (1 − 𝑓𝑖 )
𝑆𝑒 − 𝑓𝑖
𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2
(
)
]
(
) = 0.026097.
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔𝑖 − 1
𝑖=1
344
)
Por lo tanto:
𝑔𝑚 =
(415)(2.0595)2 (0.026097)
45.936963
=
= 40.0081 = 41 pools.
2
2
(415)(0.05) + (2.0595) (0.026097)
1.148191
La asignación proporcional de la muestra:
𝑔𝑚 𝑖 =
𝐺𝑖
(𝑔 )
𝐺 𝑚
donde: 𝐺 = 415, 𝑔∗ = 40.0081, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120.
Por lo tanto:
150
(40.0081) = 14.4608 = 15
415
135
(40.0081) = 13.0146 = 14
=
415
120
(40.0081) = 11.5686 = 12.
=
415
𝑔𝑚1 =
𝑔𝑚 3
𝑔𝑚 3
El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y
aseguramiento de 99% es de 41: 15, 14 y 12 para los hospitales 1, 2 y 3
respectivamente.
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Considere una sensibilidad de 97% y una especificidad de
98% donde se requiera. Además, suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 90%?
345
Ejercicio 8.10. En el estado de Chihuahua la Secretaría de Salud quiere conocer cuántos
de sus trabajadores han padecido la enfermedad XY. El método que se utilizó fue
muestreo por grupos. La población (𝑁 = 3,600) de la Secretaría fue dividida en 𝐸 = 3
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3
(𝑁3 = 840). De cada sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 =
25, con 𝑥 = 5 para cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 =
5 de los cuales resultaron positivos 𝑦1 = 2, 𝑦2 = 3 y 𝑦3 = 1, respectivamente.
Ejercicio 8.11. En el estado de Durango, un investigador desea conocer cuántos cerdos
de una serie de granjas colindantes tienen el virus XZY. El método empleado fue
muestreo por grupos. La población (𝑁 = 2,000) de los ranchos fue dividida en 𝐸 = 2
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 1100) y sector 2 (𝑁2 = 900). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 28 y 𝑛2 = 24, con 𝑥 = 4 para cada sector,
de modo que el número de pools es 𝑔1 = 7 y 𝑔2 = 6 de los cuales resultaron positivos
𝑦1 = 2 y 𝑦2 = 1, respectivamente.
Ejercicio 8.12. L a e m p r e s a GAMESA desea conocer cuántos de sus trabajadores
tienen el virus de la hepatitis B. El método empleado fue muestreo por grupos. La
población (𝑁 = 3,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los
siguientes: sector 1 (𝑁1 = 1,400), sector 2 (𝑁2 = 1,300) y sector 3 (𝑁3 = 1,100). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30 y 𝑛3 = 25, con 𝑥 = 5 para
cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5 de los cuales
resultaron positivos 𝑦1 = 2, 𝑦2 = 1 y 𝑦3 = 3, respectivamente.
346
Capítulo 9. Muestreo inverso
CAPÍTULO 9
Muestreo inverso
Cuando la presencia de un evento raro quieras detectar,
la estadística y su ingenio te pueden ayudar
sólo basta el problema identificar
para así de la mejor manera poderlo solucionar.
EESF
Para detectar la presencia de un evento raro en una población es necesario probar miles
de individuos, y el costo de dichas pruebas por lo general excede los recursos humanos
y económicos disponibles, además de ser una actividad laboriosa y que consume mucho
tiempo y esfuerzo. El muestreo inverso es un método antiguo (Haldane, 1945; Finney,
1949) para estimar una proporción 𝑃. La técnica se basa en la distribución binomial
negativa con una serie de ensayos Bernoulli en el que no se deja de muestrear hasta
obtener un número predeterminado de individuos con la característica de interés. Sin
embargo, cuando la probabilidad de encontrar el atributo deseado es prácticamente nula
(𝑃 ≤ 0.1), usar el muestreo binomial (donde se fija previamente el número de elementos
de la muestra) no es la mejor opción. Según Haldane (1945), el uso de una distribución
binomial no siempre proporciona una estimación insesgada y precisa de 𝑃 cuando ésta
es pequeña (𝑃 ≤ 0.1).
347
9.1 Estimación de parámetros de interés bajo muestreo inverso.
Suponga que 𝑌𝑖 = 𝑦𝑖 individuos son analizados hasta encontrar el primer individuo
positivo. Se puede demostrar que 𝑌𝑖 (𝑖 = 1,2, … , 𝑟) tiene distribución geométrica.
Además, 𝑌1 , 𝑌2 , 𝑌3 , … , 𝑌𝑟 son observados para obtener el r-ésimo individuo positivo.
También se registra el número total de individuos para encontrar 𝑟 individuos positivos,
siendo igual a 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . La prevalencia es denotada por 𝑝, el número de individuos
probados hasta encontrar el primer individuo positivo es 𝑌𝑖 = 𝑦𝑖 , y el número de veces
que el experimento se lleva a cabo está denotado por 𝑟. Es importante mencionar que en
este documento se considera que: (i) el tamaño de muestra es el valor de 𝑟 que representa
el número requerido de individuos positivos para detener el proceso de muestreo y las
pruebas, y (ii) el número total de individuos probados es el valor de 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . Por lo
tanto, el estadístico suficiente 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 tiene una distribución binomial negativa (dbn)
con parámetro 𝑟 y probabilidad de éxito 𝑃 (George & Elston, 1993).
El estimador de la proporción
De acuerdo con George & Elston (1993), el estimador de máxima verosimilitud (EMV) de
𝑃 usando muestreo inverso es:
𝑝=
𝑟
𝑛
donde 𝑟 es el número fijado requerido de individuos positivos. Este EMV de 𝑃 para
muestreo inverso asume una prueba diagnóstica perfecta (especificidad y sensibilidad
iguales a uno).
La varianza y desviación estándar de la proporción muestral.
La varianza está dada por 𝑆𝑝2 =
𝑝2 (1−𝑝)
𝑟
. Si se toma en cuenta el factor de corrección por
población finita, entonces la varianza es igual a:
348
𝑆𝑝2 = (
𝑁 − 𝑛 𝑝2 𝑞
)(
)
𝑁
𝑟
𝑆𝑝 = √(
𝑁 − 𝑛 𝑝2 𝑞
)(
)
𝑁
𝑟
donde 𝑞 = (1 − 𝑝).
El estimador del total verdadero.
𝜏̂ = 𝑁𝑝
Los intervalos de confianza para la proporción y el total
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
El tamaño de muestra para estimar la proporción
∗
𝑟 =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝 𝑞
2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde 𝑑 es la precisión fijada.
El tamaño de muestra modificado para estimar la proporción
349
2
𝑟𝑚𝐹
𝑁
= 𝑟𝑚 (
),
𝑁 + 𝑟𝑚 /𝑝
2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑡(𝑛−1,1−𝛼⁄2) 2
2
2
𝑟𝑚 = (
) [√𝑝 𝑞 + √𝑝 𝑞 +
]
𝜔
𝑡(𝑛−1,1−𝛼⁄2) 𝑝2
donde 𝜔 = 2𝑑 es la precisión fijada, 𝑞 = 1 − 𝑝, 𝑍𝛾 es el cuantil 𝛾 de la distribución normal
estándar (Montesinos-López et al., 2012b).
EJEMPLOS
Ejemplo 9.1. Suponga que un investigador está interesado en estimar la proporción de
computadoras con virus en una empresa cuyo número de equipos es igual a 𝑁 =
4,300. Se decidió usar muestreo inverso bajo MAS. Dado que la prevalencia de
computadoras infectadas es baja, se estableció detener el proceso de muestreo hasta que
se encontraron 𝑟 = 5 computadoras infectadas. Además, se llevó el registro del total de
computadoras extraídas y analizadas, es decir, se extrajo sin remplazo una computadora
y se analizó para determinar su estado: infectada o no infectada. Este proceso de
extracción continuó hasta que se encontraron cinco computadoras infectadas. El total de
computadoras analizadas hasta que se encontraron las cinco infectadas fue de 𝑛 = 250.
Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción preliminar, una
confiabilidad de 100(1 − 𝛼)%=95% y un nivel de aseguramiento (𝛾) de 99%.
a) Proporción de computadoras infectadas.
𝑟
5
𝑝 = 𝑛 = 250 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.
b) Desviación estándar de la proporción muestral (𝑆𝑝 ).
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √(
)(
)
𝑁
𝑟
donde: 𝑁 = 4,300, 𝑛 = 250, 𝑟 = 5, 𝑝 = 0.02 y 𝑞 = 0.98.
350
Por lo tanto:
4,300 − 250 (0.02)2 (0.98)
𝑆𝑝 = √(
)(
) = √(0.94186)(0.0000784) = 0.008593.
4,300
5
c) IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.02, 𝑆𝑝 = 0.008593 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.02 ± (1.96)(0.008593)
0.02 ± 0.016842
0.003158 ≤ 𝑃 ≤ 0.036842.
d) Total verdadero de computadoras infectadas.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 4,300 y 𝑝 = 0.02.
Por lo tanto:
𝜏̂ = (4,300)(0.02) = 86.
e) IC para el total verdadero con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
351
donde: 𝜏̂ = 86, 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96
y 𝑆𝑝 = 0.008593.
Por lo tanto:
86 ± (4,300)(1.96)(0.008593)
86 ± 72.421804
13.578196 ≤ 𝜏 ≤ 158.421804.
f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.
𝑟∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝 𝑞
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y
𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002.
Por lo tanto:
𝑟∗ =
(4,300)(1.96)2 (0.02)2 (0.98)
6.475401
=
= 70.0082 = 71.
(4,300)(0.002)2 + (1.96)2 (0.02)(0.98) 0.092495
g) Tamaño de muestra modificado para estimar la proporción verdadera con una
precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%.
2
𝑟𝑚𝐹 = 𝑟𝑚 (
𝑁
),
𝑁 + 𝑟𝑚 /𝑝
2
𝑟𝑚 = (
𝑡(𝑛−1,1−𝛼⁄2)
) [√𝑝2 𝑞 + √𝑝2 𝑞 +
𝜔
2𝜔|1.5𝑝4
− 𝑝3 |𝑍𝛾
]
𝑡(𝑛−1,1−𝛼⁄2) 𝑝2
donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98,
352
𝑍𝛾 = 2.33 y 𝜔 = 2𝑑 = 2(0.002) = 0.004.
Primeramente se obtiene 𝑟𝑚 suponiendo una población infinita. Por lo tanto:
2
2
1.96
𝑟𝑚 = (
) [√(0.02)2 (0.98) + √(0.02)2 (0.98) +
0.004
2(0.004)|1.5(0.02)4
(0.02)3 |(2.33)
−
1.96(0.02)2
]
𝑟𝑚 = 240,100[0.019799 + 0.02401]2
𝑟𝑚 = 460.806758.
Finalmente se obtiene 𝑟𝑚𝐹 suponiendo una población finita. Por lo tanto:
𝑟𝑚𝐹 = 460.806758 (
4,300
) = 72.4742 = 73.
460.806758
4,300 +
0.02
Ejemplo 9.2. En una empresa distribuidora de carne, cuya población es de 𝑁 = 4,000
vacas, un investigador decide usar muestreo inverso bajo MAS para estimar la
proporción de vacas con virus. Dado que la prevalencia de vacas infectadas es baja se
establece detener el proceso de muestreo hasta que se encuentren 𝑟 = 6 vacas infectadas.
Además, se lleva el registro del total de vacas seleccionadas y analizadas, es decir, se
extraerá sin remplazo una vaca y se determinara su estado:infectada o no infectada. Este
proceso de extracción continuará hasta que se encuentren 6 vacas infectadas. Los
resultados indican que el total de vacas analizadas hasta encontrar las 6 infectadas fue de
𝑛 = 300. Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción
preliminar, una confiabilidad de 100(1 − 𝛼)%=95% ( y un nivel de aseguramiento (𝛾) de
99% (𝛾 = 99/100 = 0.99).
a) Proporción de vacas infectadas.
𝑟
6
𝑝 = 𝑛 = 300 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.
b) Desviación estándar de la proporción muestral (𝑆𝑝 ).
353
𝑁 − 𝑛 𝑝2 𝑞
√(
𝑆𝑝 =
)(
)
𝑁
𝑟
donde: 𝑁 = 4,000, 𝑛 = 300, 𝑟 = 6, 𝑝 = 0.02 y 𝑞 = 0.98.
Por lo tanto:
4,000 − 300 (0.02)2 (0.98)
𝑆𝑝 = √(
)(
) = √(0.925)(0.000065) = 0.007773.
4,000
6
c) IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝑝 = 0.02, 𝑆𝑝 = 0.007773 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.02 ± (1.96)(0.007773)
0.02 ± 0.015235
0.004765 ≤ 𝑃 ≤ 0.035235.
d) Total verdadero de vacas infectadas.
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 4,000 y 𝑝 = 0.02.
Por lo tanto:
354
𝜏̂ = (4,300)(0.02) = 80.
e) IC para el total verdadero con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
donde: 𝜏̂ = 80, 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.007773.
Por lo tanto:
80 ± (4,000)(1.96)(0.007773)
80 ± 60.94032
19.05968 ≤ 𝜏 ≤ 140.94032.
f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.
𝑟∗ =
2
2
𝑁𝑡(𝑛−1,1−𝛼
⁄2) 𝑝 𝑞
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼
⁄2) 𝑝𝑞
donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y
𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002.
Por lo tanto:
𝑟∗ =
(4,000)(1.96)2 (0.02)2 (0.98)
(4,000)(0.002)2 + (1.96)2 (0.02)(0.98)
𝑟∗ =
6.023628
= 65.9798 = 66.
0.091295
g) Tamaño de muestra modificado para estimar la proporción verdadera con una
precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y el nivel
de aseguramiento (𝛾) de 99%.
355
2
𝑟𝑚𝐹
𝑁
= 𝑟𝑚 (
),
𝑁 + 𝑟𝑚 /𝑝
2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑡(𝑛−1,1−𝛼⁄2) 2
𝑟𝑚 = (
) [√𝑝2 𝑞 + √𝑝2 𝑞 +
]
𝜔
𝑡(𝑛−1,1−𝛼⁄2) 𝑝2
donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98,
𝑍𝛾 = 2.3263 y 𝜔 = 2𝑑 = 2(0.002) = 0.004.
Primeramente se obtiene 𝑟𝑀𝐼 suponiendo una población infinita. Por lo tanto:
2
2
1.96
𝑟𝑚 = (
) [√(0.02)2 (0.98) + √(0.02)2 (0.98) +
0.004
2(0.004)|1.5(0.02)4
(0.02)3 |(2.3263)
−
1.96(0.02)2
]
𝑟𝑚 = 240,100[0.019799 + 0.024004]2
𝑟𝑚 = 460.6805.
Finalmente se obtiene 𝑟𝑀𝐹 suponiendo una población finita. Por lo tanto:
𝑟𝑚𝐹 = 460.6805 (
4,000
) = 68.1630 = 69.
460.6805
4,000 + 0.02
EJERCICIOS
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total
con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 99%?
Ejercicio 9.1. En una empresa distribuidora de jamón, cuya población es de 𝑁 =
3,700 cerdos, se decide usar muestreo inverso bajo MAS para estimar la proporción de
cerdos con virus Dado que la prevalencia de cerdos infectados es baja se establece
356
detener el proceso de muestreo hasta encontrar 𝑟 = 7 cerdos infectados. Además, se lleva
el registro del total de cerdos extraídos y analizados, es decir, se extraerá sin remplazo
un cerdo y se analizará si está infectado. Este proceso de extracción continuará hasta que
se encuentren seis cerdos infectados. El total de cerdos analizados hasta encontrar los 6
infectados fue de 𝑛 = 310.
Ejercicio 9.2. En una empresa distribuidora de tomates, cuya población es de 𝑁 = 4,200
plantas de este vegetal, se decide usar muestreo inverso bajo MAS para estimar la
proporción de plantas de tomate con el virus TYLV,. Dado que la prevalencia de
plantas infectadas es baja se establece detener el proceso de muestreo hasta encontrar 𝑟 =
8 plantas infectadas. Además, se lleva el registro del total de plantas extraídas y
analizadas, es decir, se extraerá sin remplazo una planta y se analizará si está infectada.
Este proceso de extracción continuará hasta que se encuentren 8 plantas infectadas. El
númerode plantas analizadas hasta encontrar las 8 infectadas fue de 𝑛 = 350.
Ejercicio 9.3. Para estimar la proporción de niños con el virus D68, cuya población es
de 𝑁 = 3,900 niños, se decide usar muestreo inverso bajo MAS. Dado que la prevalencia
de niños infectados es baja se establece detener el proceso de muestreo hasta encontrar
𝑟 = 9 niños infectados. Además, se lleva el registro del total de niños extraídos y
analizados, es decir, se extraerá sin remplazo un niño y se analizará si está infectado. Este
proceso de extracción continuará hasta que se encuentren 9 niños infectados. El número
total de niños analizados hasta encontrar los 9 infectados fue de 𝑛 = 400.
357
Apéndice de la distribución normal
estándar y la distribución t-Student
Apéndice. Tablas de la distribución normal y la distribución t-Student
1 − 𝛼/2
𝑍0
𝑍0
𝑍0
𝑃(𝑍 < 𝑍0 ) = ∫ 𝑓𝑍 (𝑧)𝑑𝑧 = ∫
1
−∞ √2𝜋
−∞
𝑧2
𝑒 − 2 𝑑𝑧 = 1 − 𝛼/2
Cuadro A.1. Distribución normal estándar acumulada.
358
𝒁
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7794
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8340
0.8389
1.
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8907
0.8944
0.8962
0.8962
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
1.5
0.9332
0.9345
0.9345
0.9345
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.8
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.9
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
2.0
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
2.1
0.9821
0.9826
0.9830
0.9834
0.9838
0.9842
0.9846
0.9850
0.9854
0.9857
2.2
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.9890
2.3
0.9893
0.9896
0.9896
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
2.4
0.9918
0.9920
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
2.5
0.9938
0.9940
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
2.6
0.9953
0.9955
0.9956
0.9957
0.9959
0.9960
0.9961
0.9962
0.9963
0.9964
2.7
0.9965
0.9966
0.9967
0.9968
0.9969
0.9970
0.9971
0.9972
0.9973
0.9974
2.8
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.9980
0.9981
2.9
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9985
0.9985
3
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.9990
0.9990
3.1
0.9990
0.9991
0.9991
0.9991
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
3.2
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
3.3
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
3.4
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
3.5
0.9998
0.9998
0.9998
0.9998
0.9998
0.9998
0.9998
0.9998
0.9998
0.9998
3.6
0.9998
0.9998
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
3.7
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
3.8
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
0.9999
3.9
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1 − 𝛼/2
𝑡0
𝑡0
𝑡0
1 [(𝑣 + 1)/2]! 𝑡 2
𝑃(𝑇 < 𝑡0 ) = ∫ 𝑓𝑇 (𝑡)𝑑𝑡 = ∫
( + 1)
[𝑣/2]!
𝑣
−∞
−∞ √𝑣𝜋
359
−(𝑣+1)/2
𝑑𝑡
Cuadro A.2. Puntos porcentuales de la distribución t-Student.
𝟏 − 𝜶/𝟐
𝒗
0.75
0.9
0.95
0.975
0.99
0.995
0.9975
0.999
0.9995
1
1.0000
3.0777
6.3138
12.7062
31.8205
63.6567
127.3213
318.3088
636.6192
2
0.8165
1.8856
2.9200
4.3027
6.9646
9.9248
14.0890
22.3271
31.5991
3
0.7649
1.6377
2.3534
3.1824
4.5407
5.8409
7.4533
10.2145
12.9240
4
0.7407
1.5332
2.1318
2.7764
3.7469
4.6041
5.5976
7.1732
8.6103
5
0.7267
1.4759
2.0150
2.5706
3.3649
4.0321
4.7733
5.8934
6.8688
6
0.7176
1.4398
1.9432
2.4469
3.1427
3.7074
4.3168
5.2076
5.9588
7
0.7111
1.4149
1.8946
2.3646
2.9980
3.4995
4.0293
4.7853
5.4079
8
0.7064
1.3968
1.8595
2.3060
2.8965
3.3554
3.8325
4.5008
5.0413
9
0.7027
1.3830
1.8331
2.2622
2.8214
3.2498
3.6897
4.2968
4.7809
10
0.6998
1.3722
1.8125
2.2281
2.7638
3.1693
3.5814
4.1437
4.5869
11
0.6974
1.3634
1.7959
2.2010
2.7181
3.1058
3.4966
4.0247
4.4370
12
0.6955
1.3562
1.7823
2.1788
2.6810
3.0545
3.4284
3.9296
4.3178
13
0.6938
1.3502
1.7709
2.1604
2.6503
3.0123
3.3725
3.8520
4.2208
14
0.6924
1.3450
1.7613
2.1448
2.6245
2.9768
3.3257
3.7874
4.1405
15
0.6912
1.3406
1.7531
2.1314
2.6025
2.9467
3.2860
3.7328
4.0728
16
0.6901
1.3368
1.7459
2.1199
2.5835
2.9208
3.2520
3.6862
4.0150
10
0.6998
1.3722
1.8125
2.2281
2.7638
3.1693
3.5814
4.1437
4.5869
11
0.6974
1.3634
1.7959
2.2010
2.7181
3.1058
3.4966
4.0247
4.4370
12
0.6955
1.3562
1.7823
2.1788
2.6810
3.0545
3.4284
3.9296
4.3178
13
0.6938
1.3502
1.7709
2.1604
2.6503
3.0123
3.3725
3.8520
4.2208
14
0.6924
1.3450
1.7613
2.1448
2.6245
2.9768
3.3257
3.7874
4.1405
15
0.6912
1.3406
1.7531
2.1314
2.6025
2.9467
3.2860
3.7328
4.0728
16
0.6901
1.3368
1.7459
2.1199
2.5835
2.9208
3.2520
3.6862
4.0150
17
0.6892
1.3334
1.7396
2.1098
2.5669
2.8982
3.2224
3.6458
3.9651
18
0.6884
1.3304
1.7341
2.1009
2.5524
2.8784
3.1966
3.6105
3.9216
19
0.6876
1.3277
1.7291
2.0930
2.5395
2.8609
3.1737
3.5794
3.8834
20
0.6870
1.3253
1.7247
2.0860
2.5280
2.8453
3.1534
3.5518
3.8495
21
0.6864
1.3232
1.7207
2.0796
2.5176
2.8314
3.1352
3.5272
3.8193
22
0.6858
1.3212
1.7171
2.0739
2.5083
2.8188
3.1188
3.5050
3.7921
23
0.6853
1.3195
1.7139
2.0687
2.4999
2.8073
3.1040
3.4850
3.7676
24
0.6848
1.3178
1.7109
2.0639
2.4922
2.7969
3.0905
3.4668
3.7454
25
0.6844
1.3163
1.7081
2.0595
2.4851
2.7874
3.0782
3.4502
3.7251
26
0.6840
1.3150
1.7056
2.0555
2.4786
2.7787
3.0669
3.4350
3.7066
27
0.6837
1.3137
1.7033
2.0518
2.4727
2.7707
3.0565
3.4210
3.6896
28
0.6834
1.3125
1.7011
2.0484
2.4671
2.7633
3.0469
3.4082
3.6739
360
Cuadro A.3. Tabla de números aleatorios.
361
1
2
3
4
5
6
7
8
9
10
1
75382
51664
50906
54843
32905
00326
27504
54471
00639
59454
2
92841
20566
69880
83226
06380
12130
29205
47054
12072
75769
3
12323
18644
05090
44424
18839
28290
08163
94933
10957
56948
4
08602
51296
74600
68975
37789
00555
68290
57422
73964
47549
5
80399
82376
00388
44573
39881
65838
95955
74046
67407
08054
6
59343
66130
36434
15838
26049
30525
19053
73768
88440
88518
7
00157
82067
71231
57445
33793
42351
01015
04516
60531
83546
8
12069
46302
58624
11725
55014
78605
23840
36910
83589
31919
9
78768
48680
07404
03965
06590
12564
87693
24586
85125
26639
10
12291
50741
29658
33636
40345
67222
33055
58750
21024
15078
11
38758
14871
30273
22217
25539
75232
02119
20767
17775
49060
12
64359
06412
56553
50521
49695
27291
19963
81782
39570
33457
13
67085
90221
12143
24797
40468
70393
59830
85755
65445
08335
14
46890
59592
77610
36664
62336
94456
94958
60791
60083
35078
15
75896
47732
00256
56919
88753
99865
98709
22575
63238
85008
16
87252
4615
80751
05987
36320
41249
73544
75104
86853
59982
17
33171
33551
76533
27365
49256
07832
90820
94734
63906
58669
18
53214
65370
56121
68027
03850
02720
56545
93593
25249
44074
19
67284
19394
95100
96675
06348
36950
17983
57583
93635
37879
20
94800
27736
44906
45537
53098
02820
63161
93488
14455
84774
21
55743
86547
55519
98759
91388
55747
73916
68889
08697
94903
22
60847
43456
64951
08092
58965
98844
89869
81876
35354
72294
23
54218
34014
69127
97810
31995
62818
83871
49159
15614
15023
24
95910
92814
99051
46006
95474
70557
77123
35273
81916
45520
25
92038
24983
32726
99122
24716
98556
26547
06054
46048
52676
26
61866
31950
75273
31815
08289
12285
78943
16326
85289
52314
27
18192
71986
58539
66858
23643
60033
85983
28576
78315
79695
28
11947
43172
24672
02783
88966
31306
33822
95164
31097
68762
29
77536
03361
46239
07783
07028
43727
18278
51924
49441
95899
30
61195
52546
154040
56659
04906
45803
40089
18752
35955
97595
31
96086
37247
47876
29096
05979
50278
12486
37933
70894
53595
32
57948
88044
09427
31507
29869
53686
61184
51042
01733
37122
33
00071
45330
31633
34998
05337
65871
98680
76361
76444
79152
34
64131
60054
68308
67086
66028/
98994
10238
90929
65631
21799
35
74871
16848
81178
58108
66976
31938
37952
52266
13064
50615
36
32490
27246
07531
63193
48241
89570
57062
24051
37501
42452
37
54114
09886
60690
50105
01333
74612
13895
81015
90443
09726
38
75639
00336
43295
47260
37433
49422
65098
81849
14698
17194
39
02171
92713
13839
79191
30050
84055
43180
14378
17322
21188
40
38573
98474
59606
04698
83919
03702
69763
15985
06710
86808
41
78406
23706
48524
56716
26576
50599
98923
61473
83705
58718
42
15989
96405
66295
10264
85656
80210
62378
15065
64875
91762
43
11058
02658
33542
43663
44334
73636
11795
03577
93330
00162
44
39694
08359
38053
52340
71901
12748
72159
90238
90203
41173
45
45041
34528
79417
27992
11550
90446
13282
98381
80568
96066
46
33618
12142
65407
58142
65625
92494
29937
32828
84419
58729
47
01547
38640
65101
26159
53347
73750
04059
29580
30011
62774
48
46120
97243
30236
27911
13340
43979
01488
28199
19023
00411
49
26199
00214
58641
65512
86399
58314
42240
25969
87060
15186
50
72431
70513
14583
24788
53413
26620
44690
40453
50362
74107
Figura A.1. Varianzas de distribuciones infinitas (𝑆 2 ), en función de su forma y rango
(ℎ = rango = máximo 𝑋𝑖 − mínimo 𝑋𝑖 ).
ℎ2
ℎ2
ℎ2
ℎ2
Eclipse: 𝑆 2 = 16
Uniforme continua: 𝑆 2 = 12
ℎ2
Triangular simétrica: 𝑆 2 = 24
ℎ2
Triangular asimétrica: 𝑆 2 = 18
Triangular doble: 𝑆 2 =
362
ℎ
Uniforme discreta: 𝑆 2 = 12 + 6
Normal: 𝑆 2 = 36
ℎ2
8
Referencias bibliográficas
Azorin, F. (1972). Curso de muestreo y aplicaciones. Madrid, España: Ediciones Aguilar.
Blair, J., & Presser, S. (1993). Survey procedures for conducting cognitive interviews to
pretest questionnaires: A review of theory and practice. Proceedings of the Section on
Survey Research Methods, Annual Meetings of the American Statistical Association,
370-375.
Bradburn, N. M., & Sudman, S. (1988). Polls and Surveys: Understanding What They
Tells Us. San Francisco, United States: Jossey-Bass.
Cassel, C. M., Sarndal, C. E., & Wretman, J. H. (1977). Foundations of Inference in Survey
Sampling. New York, United States: Wiley.
Cochran, W. G. (1977). Sampling techniques. New York: John Wiley and Sons.
Cochran, W. G. (1985). Técnicas de muestreo. México, DF: Cecsa.
Danger, S., Huizing, N., Walker, A., Rowland, A., Anderson, R., & Sciaccaluga, R. (1996).
EU Information Society Guide. Brussels, Belgium: The EU Committee on the
American Chamber of Commerce in Belgium.
Deming, W. E. (1950). Some Theory of Sampling. New York, United States: John Wiley &
Sons.
Dorfman, R. (1943). The detection of defective members of large populations. The Annals
of Mathematical Statistics, 14(4): 436-440.
Dowling, F. A., & Shachtman, R. H. (1975). On the Relative Efficiency of Randomized
Response Models. Journal of the American Statistical Association, 70(349): 84−87.
George, V. T., & Elston, R. C. (1993). Confidence limits based on the first occurrence of an
event. Statistics in medicine, 12(7): 685-690.
Horvitz, D. G., Shah, B. V., & Simmons, W. R. (1967). The Unrelated Question
Randomized Response Model. Proceedings of the Social Statistics Section, ASA: 65–
72.
Kelley, K., & Rausch, J. R. (2011). Sample size planning for longitudinal models: Accuracy
in parameter estimation for polynomial change parameters. Psychological
Methods, 16(4): 391-405.
363
Kelley, K. (2007). Sample size planning for the coefficient of variation from the accuracy
in parameter estimation approach. Behavior Research Methods, 39(4): 755-766.
Kelley, K., Maxwell, S. E., & Rausch, J. R. (2003). Obtaining power or obtaining precision
delineating methods of sample-size planning. Evaluation & the Health
Professions, 26(3): 258-287.
Kish, L. (1972). Muestreo de encuestas. México, DF: Trillas.
Kupper, L. L., & Hafner, K. B. (1989). How appropriate are popular sample size
formulas?. The American Statistician, 43(2): 101-105.
Lohr, S. L. (2000). Muestreo: diseño y análisis. México, DF: International Thomson
Editores.
Méndez, I., & Quintana, C. R. H. (2007). Muestreo: Respuesta aleatorizada. En:
http://www.dpye.iimas.unam.mx/finales2007/MuestreoRespuestaAleatorizada.pp
t. Especialidad en Estadística Aplicada. IIMAS, UNAM.
Méndez, I., Eslava, G., & Romero, P. (2004). Conceptos Básicos de Muestreo. México, DF:
IIMAS, UNAM.
Montesinos-López, O. A., Montesinos-López, A., Crossa, J., & Eskridge, K. (2012a).
Sample size under inverse negative binomial group testing for accuracy in parameter
estimation. Plos One, 7(3): e32250.
Montesinos-López, O. A., Montesinos López, A., Santos-Fuentes, E. E., Valladares-Celis,
P. E., & Magaña-Echeverría, M. A. (2011). Tamaños de muestra para estimar
prevalencia animal que aseguran cortos intervalos de confianza. Revista mexicana de
ciencias pecuarias, 2(2): 229-244.
Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & HernándezSuárez, C. M. (2010). Sample size for detecting and estimating the proportion of
transgenic plants with narrow confidence intervals. Seed Science Research, 20(02):
123-136.
Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Sáenz, R. A.
(2011). Optimal sample size for estimating the proportion of transgenic plants using
the Dorfman model with a random confidence interval. Seed Science Research, 21(3):
235-245.
Montesinos-López, O. A., Montesinos-López, A., Luna-Espinoza, I., Lugo, G., Sanely, L.,
& Espinosa Solares, T. (2012b). Prueba de grupo: Una eficiente alternativa para
estimar prevalencia animal. Revista mexicana de ciencias pecuarias, 3(4): 515-531.
Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics.
New York, United States: McGrawHill.
364
Newcombe, R. G. (1998). Two-sided confidence intervals for the single proportion:
comparison of seven methods. Statistics in medicine, 17(8): 857-872.
Pérez, L. C. (2000). Técnicas de muestreo estadístico. Teoría, práctica y aplicaciones
informáticas. México, DF: Alfaomega-Rama.
Raj, D. (1972). The Design of Sample Surveys. New York, United States: McGraw-Hill.
Rendón, S. G. (1997). Métodos estadísticos. Muestreo, diseños experimentales, estadística
no paramétrica. México, DF: Universidad Autónoma de Chapingo.
Sardnal, C. E., Swensson, B., & Wretman, J. H. (1992). Model assisted survey sampling.
New York, United States: Springer.
Scheaffer, R. L., Mendenhall, W., & Lyman, O. (1987). Elementos de muestreo. México,
DF: Grupo Editorial Iberoamérica.
Siegel, S. (1977). Estadística no paramétrica. México, DF: Trillas.
Tanur, J. M. (1983). Methods for large-scale surveys and experiments. Sociological
methodology, 14:1–71.
Vollset, S. E. (1993). Confidence intervals for a binomial proportion. Statistics in
medicine, 12(9): 809-824.
Wang, H., Chow, S. C., & Chen, M. (2005). A Bayesian approach on sample size
calculation for comparing means. Journal of Biopharmaceutical Statistics, 15(5): 799807.
Warner, S. L. (1965). A Survey Technique for Eliminating Evasive
365
View publication stats
Download