See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/287490384 Muestreo Estadístico: Tamaño de muestra y estimación de parámetros Book · January 2010 CITATION READS 1 21,699 1 author: Osval A Montesinos-López Universidad de Colima 183 PUBLICATIONS 1,921 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: IHCLab - Internet of Things View project Theoretical properties of genomic prediction approaches View project All content following this page was uploaded by Osval A Montesinos-López on 11 September 2019. The user has requested enhancement of the downloaded file. 1 2 Índice Pág. Capítulo 1. Intrducción ....................................................................................................................................................................................... 13 Capítulo 2. Conceptos básicos de estadística.................................................................................................................................................... 16 2.1 Población y muestra ................................................................................................................................................................................ 17 2.2 Variables.................................................................................................................................................................................................... 18 2.3 ¿Qué es una medición? ............................................................................................................................................................................ 20 2.4 Escalas de medición ................................................................................................................................................................................. 21 Escala nominal.......................................................................................................................................................................................... 21 Escala ordinal ........................................................................................................................................................................................... 21 Escala de intervalo ................................................................................................................................................................................... 22 Escala de proporción ............................................................................................................................................................................... 22 2.5 Parámetros y estimadores ....................................................................................................................................................................... 23 2.6 Sumatorias ................................................................................................................................................................................................ 24 Propiedades de las sumatorias ............................................................................................................................................................... 25 2.7 Variable aleatoria ..................................................................................................................................................................................... 26 2.7.1 Variables Aleatorias Discretas ....................................................................................................................................................... 29 2.7.2 Variables Aleatorias Continuas ..................................................................................................................................................... 35 2.8 Teorema Central del Límite .................................................................................................................................................................... 38 2.9 La distribución t-Student ........................................................................................................................................................................ 39 2.10 Tipos de muestreo .................................................................................................................................................................................. 40 2.11 El marco de muestreo ............................................................................................................................................................................ 43 2.12 Pasos a seguir en el diseño de una encuesta ....................................................................................................................................... 45 2.13 Ventajas y desventajas del muestreo ................................................................................................................................................... 49 2.14 Características de una investigación por muestreo............................................................................................................................ 50 2.15 Errores de las encuestas......................................................................................................................................................................... 52 2.16 Muestra preliminar o piloto .................................................................................................................................................................. 53 2.17 Precisión y Exactitud ............................................................................................................................................................................. 53 2.18 Elementos para elegir la precisión o margen de error ....................................................................................................................... 56 2.19 Uso de tablas para la distribución normal estándar y t -Student ..................................................................................................... 59 Distribución normal estándar para n > 30 ........................................................................................................................................... 59 Distribución t-Student para n ≤ 30........................................................................................................................................................ 62 2.20 Filosofía AIPE ......................................................................................................................................................................................... 63 Fundamentos del enfoque AIPE y la importancia de estimaciones exactas ..................................................................................... 65 Pasos del enfoque AIPE........................................................................................................................................................................... 66 Capítulo 3. Muestreo aleatorio simple .............................................................................................................................................................. 73 3 3.1 Definición y tipos de muestreo aleatorio simple .................................................................................................................................. 74 3.2 Selección de una muestra aleatoria simple ........................................................................................................................................... 75 3.3 Estimación de parámetros de interés para promedio bajo MAS ........................................................................................................ 77 Estimación de la media poblacional ......................................................................................................................................................... 77 Estimador de la media y del total muestral .......................................................................................................................................... 77 Estimación de la varianza ....................................................................................................................................................................... 78 Estimador de lavarianza de la media poblacional ............................................................................................................................... 78 Estimadores del total y la varianza del total poblacional.................................................................................................................... 79 Estimadores del total y de la varianza del total muestral ................................................................................................................... 79 Estimación por intervalo ......................................................................................................................................................................... 80 Intervalo de confianza para la estimación del total ............................................................................................................................. 81 Tamaño de la muestra para estimar la media bajo población infinita ............................................................................................... 81 Tamaño de muestra óptimo .................................................................................................................................................................... 84 Aproximación del tamaño de muestra .................................................................................................................................................. 87 Función de densidad de probabilidades del tamaño de muestra para estimar el promedio.......................................................... 88 Comparación de los métodos propuestos ............................................................................................................................................. 90 Tamaño de la muestra para estimar la media bajo población finita .................................................................................................. 92 EJEMPLOS ...................................................................................................................................................................................................... 93 EJERCICIOS .................................................................................................................................................................................................... 99 3.4 Estimación de parámetros de interés para proporción bajo MAS.................................................................................................... 100 Estimación de una proporción poblacional ........................................................................................................................................ 100 La medición ............................................................................................................................................................................................ 101 El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional ................................... 101 La varianza de la población para una proporción ............................................................................................................................. 102 Estimación de la varianza y el error estándar..................................................................................................................................... 103 Media y varianza del estimador de P .................................................................................................................................................. 103 Total poblacional y varianza del estimador de τ................................................................................................................................ 104 Los intervalos de confianza .................................................................................................................................................................. 104 El intervalo de confianza para la estimación de la proporción poblacional ................................................................................... 104 El intervalo de confianza para la estimación del total poblacional .................................................................................................. 104 Varianza acotada de una proporción................................................................................................................................................... 105 Tamaño de muestra bajo población infinita........................................................................................................................................ 105 Derivación del tamaño de muestra óptimo ........................................................................................................................................ 107 El tamaño de muestra para estimar p en poblaciones finitas........................................................................................................... 109 EJEMPLOS .................................................................................................................................................................................................... 110 EJERCICIOS .................................................................................................................................................................................................. 116 4 3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS .................................................................................... 117 Estimación de una proporción poblacional con pruebas imperfectas (Se y Sp menores a uno) ................................................... 117 EJEMPLOS .................................................................................................................................................................................................... 119 EJERCICIOS .................................................................................................................................................................................................. 127 Capítulo 4. Muestreo aleatorio estratificado................................................................................................................................................... 129 4.1 Ventajas de utilizar el MAE .................................................................................................................................................................. 130 Notación .................................................................................................................................................................................................. 131 4.2 ¿Cómo seleccionar una muestra aleatoria estratificada? ................................................................................................................... 132 4.3 Estimación de parámetros de interés para promedio bajo MAE...................................................................................................... 132 Estimación de la media poblacional .................................................................................................................................................... 132 El estimador de la media estratificada................................................................................................................................................. 133 El intervalo de confianza para la estimación de la media estratificada ........................................................................................... 133 El estimador del total estratificado ...................................................................................................................................................... 134 La varianza del estimador del total estratificado ............................................................................................................................... 134 El intervalo de confianza ....................................................................................................................................................................... 134 Determinación del tamaño de la muestra ........................................................................................................................................... 135 El tamaño de muestra para estimar la media estratificada ............................................................................................................... 136 El tamaño de muestra modificado para estimar la media estratificada .......................................................................................... 136 La asignación de la muestra.................................................................................................................................................................. 137 Selección de estratos .............................................................................................................................................................................. 137 EJEMPLOS .................................................................................................................................................................................................... 139 EJERCICIOS .................................................................................................................................................................................................. 149 4.4 Estimación de parámetros de interés para una proporción bajo MAE ............................................................................................ 151 Estimación de la proporción poblacional ............................................................................................................................................ 152 Los estimadores de la proporción y total poblacional ....................................................................................................................... 152 Los estimadores de la varianza de la proporción y total poblacional.............................................................................................. 153 Los intervalos de confianza para la proporción y total poblacional ................................................................................................ 153 El tamaño de muestra para estimar la proporción estratificada ...................................................................................................... 153 Asignación de la muestra ...................................................................................................................................................................... 154 EJEMPLOS .................................................................................................................................................................................................... 155 EJERCICIOS .................................................................................................................................................................................................. 165 4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas bajo MAE ................................................ 166 EJEMPLOS .................................................................................................................................................................................................... 168 EJERCICIOS .................................................................................................................................................................................................. 178 Capítulo 5. Muestreo Sistemático .................................................................................................................................................................... 180 5.1 Tipos de población por su estructura .................................................................................................................................................. 182 5 Población aleatoria ................................................................................................................................................................................. 182 Población ordenada ............................................................................................................................................................................... 182 Población periódica................................................................................................................................................................................ 183 5.2 ¿Cómo seleccionar una muestra sistemática? ..................................................................................................................................... 184 5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático .......................................................................... 186 Estimación de la media y el total de la muestra sistemática ............................................................................................................. 186 La varianza de la media y del total ...................................................................................................................................................... 187 Los intervalos de confianza para la media y para el total ................................................................................................................. 187 La selección del tamaño de la muestra ................................................................................................................................................ 188 El tamaño de muestra para estimar la media ..................................................................................................................................... 188 El tamaño de muestra modificado ....................................................................................................................................................... 188 EJEMPLOS .................................................................................................................................................................................................... 189 EJERCICIOS .................................................................................................................................................................................................. 196 5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático .................................................................... 198 Estimación de la proporción poblacional ............................................................................................................................................ 198 El estimador de la proporción y el total .............................................................................................................................................. 199 La varianza estimada de la proporción y el total sistemático ........................................................................................................... 199 El intervalo de confianza para la proporción y el total sistemático ................................................................................................. 199 El tamaño de muestra para estimar la proporción ............................................................................................................................. 200 El tamaño de muestra modificado ....................................................................................................................................................... 200 EJEMPLOS .................................................................................................................................................................................................... 201 EJERCICIOS .................................................................................................................................................................................................. 208 5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo sistemático. ....................................................... 211 Estimación de la proporción poblacional (Se y Sp) y el total ............................................................................................................ 211 La varianza estimada de la proporción ............................................................................................................................................... 211 El intervalo de confianza para la proporción ..................................................................................................................................... 211 El tamaño de muestra sin aseguramiento para estimar la proporción ............................................................................................ 212 El tamaño de muestra modificado ....................................................................................................................................................... 212 EJEMPLOS .................................................................................................................................................................................................... 212 EJERCICIOS .................................................................................................................................................................................................. 220 Capítulo 6. Muestreo por conglomerados en una etapa ............................................................................................................................... 224 6.1 ¿Qué puede ser un conglomerado?...................................................................................................................................................... 226 6.2 Una comparación con el muestreo estratificado ................................................................................................................................ 227 6.3 Acerca del tamaño del conglomerado ................................................................................................................................................. 228 Notación .................................................................................................................................................................................................. 228 6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados ............................................................................ 229 6 Cálculo de la media y el total poblacional con M conocida .............................................................................................................. 229 El estimador de la media poblacional.................................................................................................................................................. 230 El estimador del total poblacional........................................................................................................................................................ 230 La varianza estimada de ys y τs ............................................................................................................................................................ 230 El intervalo de confianza de la media y el total .................................................................................................................................. 231 La determinación del tamaño de muestra........................................................................................................................................... 231 El tamaño de muestra para estimar el promedio ............................................................................................................................... 232 El tamaño de muestra modificado para estimar el promedio .......................................................................................................... 232 EJEMPLOS .................................................................................................................................................................................................... 233 EJERCICIOS .................................................................................................................................................................................................. 241 6.5 Estimación de parámetros de interés con M desconocida bajo muestreo por conglomerados ..................................................... 243 ¿Qué sucede cuando se desconoce el tamaño de la población M? ................................................................................................... 243 El estimador de la media y el total poblacional.................................................................................................................................. 243 La varianza estimada de la media y del total ..................................................................................................................................... 244 El intervalo de confianza de la media y del total ............................................................................................................................... 244 El tamaño de muestra para estimar la media ..................................................................................................................................... 244 El tamaño de muestra modificado para estimar la media ................................................................................................................ 244 6.6 La estimación de una proporción poblacional ................................................................................................................................... 245 EJEMPLOS .................................................................................................................................................................................................... 245 EJERCICIOS .................................................................................................................................................................................................. 254 Capítulo 7. Muestreo basado en el método de respuesta aleatorizada ....................................................................................................... 257 7.1. ¿Cuándo se utiliza esta técnica? .......................................................................................................................................................... 259 7.2. Ventajas y desventajas .......................................................................................................................................................................... 259 7.3. El modelo de respuesta aleatorizada bajo el MAS ............................................................................................................................ 260 El estimador de la proporción y el total poblacional ............................................................................................................................... 262 La varianza estimada de los estimadores de la proporción y del total ................................................................................................. 263 El intervalo de confianza de la proporción y el total ............................................................................................................................... 263 El tamaño de la muestra para la proporción y el total ............................................................................................................................ 263 El tamaño de muestra para estimar la proporción ............................................................................................................................. 263 El tamaño de muestra para estimar el total ........................................................................................................................................ 264 7.4 El modelo de respuesta aleatorizada bajo el MAE ............................................................................................................................. 264 El estimador de la proporción y el total poblacional ......................................................................................................................... 265 La varianza de los estimadores de la proporción y total poblacional.............................................................................................. 265 El intervalo de confianza para el promedio y total poblacional ....................................................................................................... 266 El tamaño de muestra para estimar la proporción ............................................................................................................................. 266 El tamaño de muestra para estimar el total ........................................................................................................................................ 266 7 7.5 Alternativa al modelo de respuesta aleatorizada ............................................................................................................................... 267 7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS ..................................................................................................................... 268 Estimadores para la proporción y el total ........................................................................................................................................... 268 Varianza del estimador de la proporción y el total ............................................................................................................................ 269 Intervalos de confianza para la proporción y el total ........................................................................................................................ 269 Tamaño de muestra para estimar la proporción ................................................................................................................................ 269 Tamaño de muestra modificado para estimar la proporción. .......................................................................................................... 270 ¿Cuál método de respuesta aleatorizada es mejor? ................................................................................................................................. 270 EJEMPLOS .................................................................................................................................................................................................... 270 EJERCICIOS .................................................................................................................................................................................................. 278 7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE ..................................................................................................................... 280 Estimador de la proporción y el total estratificado ............................................................................................................................ 280 Varianza de la proporción y el total estratificado .............................................................................................................................. 280 Intervalo de confianza para la proporción y el total .......................................................................................................................... 281 El tamaño de muestra para estimar la proporción ............................................................................................................................. 281 El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 281 EJEMPLOS .................................................................................................................................................................................................... 282 EJERCICIOS .................................................................................................................................................................................................. 293 Capítulo 8. Pruebas por grupos ....................................................................................................................................................................... 296 8.1 Pruebas por grupo bajo MAS ............................................................................................................................................................... 297 La proporción muestral ......................................................................................................................................................................... 297 El estimador de la varianza Sp2 .............................................................................................................................................................. 297 El estimador del total ............................................................................................................................................................................. 297 Los intervalos de confianza para la proporción y el total ................................................................................................................. 297 El estimador del tamaño de muestra (pools) ...................................................................................................................................... 298 EJEMPLOS .................................................................................................................................................................................................... 299 EJERCICIOS .................................................................................................................................................................................................. 306 8.2 Pruebas por grupo en pruebas imperfectas bajo MAS ...................................................................................................................... 306 Proporción muestral .............................................................................................................................................................................. 307 El estimador de la varianza................................................................................................................................................................... 307 El estimador del total ............................................................................................................................................................................. 307 Los intervalos de confianza para la proporción y el total ................................................................................................................. 307 Estimación del tamaño de muestra (pools) ......................................................................................................................................... 308 Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 308 EJEMPLOS .................................................................................................................................................................................................... 309 EJERCICIOS .................................................................................................................................................................................................. 317 8 8.3 Prueba por grupos bajo MAE ............................................................................................................................................................... 317 La proporción estratificada ................................................................................................................................................................... 318 El estimador de la varianza estratificada ............................................................................................................................................ 318 El estimador del total estratificado ...................................................................................................................................................... 318 Los intervalos de confianza para la proporción y el total ................................................................................................................. 318 Estimación del tamaño de muestra (pools) ......................................................................................................................................... 319 Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 319 EJEMPLOS .................................................................................................................................................................................................... 320 8.4 Prueba por grupo con Se y Sp bajo MAE....................................................................................................................................... 331 La proporción estratificada ................................................................................................................................................................... 331 El estimador de la varianza................................................................................................................................................................... 332 El estimador del total ............................................................................................................................................................................. 332 Los intervalos de confianza para la proporción y el total ................................................................................................................. 332 Estimación del tamaño de muestra (pools) ......................................................................................................................................... 332 Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 333 EJEMPLOS .................................................................................................................................................................................................... 333 EJERCICIOS .................................................................................................................................................................................................. 345 Capítulo 9. Muestreo inverso ........................................................................................................................................................................... 347 9.1 Estimación de parámetros de interés bajo muestreo inverso............................................................................................................ 348 El estimador de la proporción .............................................................................................................................................................. 348 La varianza y desviación estándar de la proporción muestral. ........................................................................................................ 348 El estimador del total verdadero. ......................................................................................................................................................... 349 Los intervalos de confianza para la proporción y el total ................................................................................................................. 349 El tamaño de muestra para estimar la proporción ............................................................................................................................. 349 El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 349 EJEMPLOS .................................................................................................................................................................................................... 350 EJERCICIOS .................................................................................................................................................................................................. 356 Apéndice. Tablas de la distribución normal y la distribución t-Student .................................................................................................... 358 Referencias bibliográficas ................................................................................................................................................................................. 363 9 Prologo Un objetivo común en las sociedades modernas es conocer las características generales y particulares de una población, entendiendo a esta como un conjunto de unidades que tienen valores o cualidades de interés. Por ejemplo, desde 1977 el gobierno mexicano ha mantenido el interés en conocer la actividad económica empresarial para evaluar la percepción que los directivos empresariales tienen sobre el estado económico del país y la toma de decisiones en sus empresas. Los dirigentes de la industria automotriz procuran estar al tanto de los tipos de servicios tradicionales, nuevos e innovadores que demandan sus clientes y conocer los factores prioritarios que los consumidores emplean a la hora de comprar un automóvil. Las instituciones financieras se desviven por conocer como sus clientes valoran sus servicios. Los ejemplos son innumerables y abarcan todas las áreas del conocimiento. Pero, ¿qué hace no tan sencillo conocer las características generales y particulares de una población? La respuesta está en la variabilidad. Si los elementos de la población de interés fueran exactamente los mismos, bastaría examinar uno de ellos para caracterizarlos completamente. Sin embargo, las poblaciones son bastantes heterogéneas; esta es la realidad. La presencia de la variabilidad en los elementos de una población es la razón principal por la cual cultivamos la estadística. Una forma de caracterizar a las poblaciones es mediante parámetros, los cuales son funciones definidas sobre el conjunto población. El valor más pequeño, el valor más grande, la suma de los cuadrados de los valores, el valor que más se repite, el promedio de los valores, la proporción de elementos que tienen cierta cualidad, son sólo algunos ejemplos de parámetros. Por diversas razones plenamente argumentadas, el conocimiento aproximado de estos parámetros, como la prevalencia de drogadictos en una ciudad, el promedio de hijos por familia, el ingreso promedio por familia, el promedio de años de estudios por persona, entre muchos otros, ha ayudado para tener un mejor desempeño en el proceso administrativo de organizaciones tanto públicas como privadas. 10 Para tener un conocimiento pleno de los parámetros poblacionales se necesita de la enumeración o medición de todas las unidades de la población. Sin embargo, realizar esta actividad, en general, es imposible o impráctico. Por ejemplo, en un lote de semillas se desea conocer la proporción que tienen la capacidad de germinar. Germinar todas las semillas no tendría sentido pues nos quedaríamos sin material. También el conocer la opinión de la población mexicana sobre los organismos genéticamente modificados demandaría varias decenas de millones de pesos, además de que no localizaríamos a todas las personas para preguntarles su opinión. Así pues, dado que efectuar el censo es costoso, impráctico, tardado o imposible, una alternativa consiste en usar información parcial de la población pero seleccionada aleatoriamente. Este método es conocido como muestreo probabilístico, el cual tiene dos características: a) cada unidad de la población tiene una probabilidad positiva y conocida de ser seleccionada y b) cada unidad tiene una probabilidad positiva y conocida de ser parte de la muestra. Con la muestra seleccionada aleatoriamente se tendrán argumentos científicamente defendibles para usar el razonamiento inductivo y concluir que la evidencia encontrada en la muestra también es válida para la población. La disponibilidad de literatura sobre muestreo probabilístico es vasta y a diferentes niveles, acorde a la orientación teórica y práctica del lector. Los libros de Cochran (1977), Cassel, Sarndal, & Wretman (1977) y Sarndal (1992) son obras clásicas para adentrarse en el entendimiento de esta disciplina. En la literatura sobre muestreo probabilístico se proporciona la forma en que las unidades de muestreo deben elegirse hasta conformar la muestra y la teoría para estimar los parámetros de interés de manera exacta y precisa, procurando el menor costo. Este último punto implica, en general, que se busque un tamaño de muestra mínimo pero suficiente para obtener un intervalo de estimación del parámetro con la precisión deseada estableciendo de antemano cierta confiabilidad. Cuando se determina el tamaño de muestra se requieren los valores de algunos parámetros, usualmente involucrados en la varianza del estimador. En la práctica estos 11 parámetros son desconocidos y usualmente se estiman de estudios previos o muestreos pilotos. Estas estimaciones son consideradas como los verdaderos valores de los parámetros, ocasionando que con el tamaño de muestra calculado el intervalo de estimación no tenga la precisión deseada (Wang, Chow, & Chen, 2005). Ante esta tesitura, Kupper & Hafner (1989) y Kelley (2007) señalan que en la estimación de parámetros por intervalos debe considerarse la naturaleza estocástica de la amplitud del intervalo para no subestimar el tamaño de muestra. Esta forma de abordar el proceso de estimación, es decir, considerando la naturaleza estocástica del intervalo de estimación, no se considera en la gran cantidad de libros que existen sobre muestreo probabilístico. A diferencia de los textos con enfoque tradicional, este libro presenta las técnicas clásicas del muestreo estadístico pero considerando la naturaleza estocástica de los intervalos de estimación. A lo largo del texto se opera con el concepto de nivel de aseguramiento, el cual se define como la probabilidad de lograr la precisión deseada, es decir, como la probabilidad, preestablecida de antemano, de que la amplitud del intervalo de estimación sea menor o igual a la deseada. Explícitamente, en los capítulos 3, 4, 5 y 6 se expone la metodología del muestreo aleatorio simple, estratificado, sistemático, y por conglomerados en una etapa, respectivamente. También se presentan los muestreos de respuesta aleatorizada, por grupos e inverso en los capítulos 7, 8 y 9, respectivamente. Agradecimientos En especial nuestros estudiantes por apoyo brindado en las revisiones preliminares del presente libro. 12 Capítulo 1. Intrducción CAPÍTULO 1 Introducción L as nuevas tecnologías de información y telecomunicaciones han generado una gran cantidad de información sin precedentes. La tecnología cambió el mundo en que vivimos, una transformación que se compara a las ocurridas por las revoluciones industriales de los siglos XVIII y XIX. En las dos últimas décadas, el Internet y las tecnologías de información han transformado el funcionamiento de las empresas, los métodos de aprendizaje de los estudiantes, los métodos de investigación de los científicos y la forma en que los gobiernos prestan sus servicios a los ciudadanos. Las tecnologías digitales demuestran ser un potente motor del crecimiento económico y de la competitividad. En general, estos cambios continuos transforman a la sociedad, de una basada en la producción de objetos físicos a una donde el énfasis principal es la producción e intercambio de información mediante medios digitales. Por consiguiente, se ha alterado no sólo la interacción humana con la información, sino también el comportamiento individual y colectivo de los individuos (Danger, Huizing, Walker, Rowland, Anderson, & Sciaccaluga, 1996). Gobiernos, empresas privadas, instituciones y ciudadanos generan día a día gran cantidad de información. Además, ya se tiene conciencia que el valor de esta información es de gran importancia para la toma de decisiones acertadas. Sin embargo, dado que el costo de analizar toda la información mediante una evaluación exhaustiva es muy alto, por ello se recurre al muestreo estadístico para ayudar a toma de decisiones en circunstancias de gran complejidad e incertidumbre usando una fracción de la información disponible. El uso de una muestra en la mayoría de las circunstancias se 13 justifica principalmente por la carencia de recursos y porque en muchos casos el producto a analizar se tiene que destruir. Por ello, gran parte de los conocimientos, actitudes y decisiones humanas está basado en el análisis de información parcial, o mejor dicho, en el uso del muestreo. Al hacer la evaluación con solamente una fracción de la población o del recurso, se espera que las conclusiones también pertenezcan a la población; sin embargo para que esta suposición sea válida y la muestra elegida represente a la población es importante tomar la muestra usando los métodos de muestreo estadístico apropiados. El uso del muestreo como un medio para obtener conocimiento y tomar decisiones es normal y cotidiano en las actividades humanas. En estudios de mercado, el muestreo sirve para conocer las preferencias y actitudes de los consumidores hacia determinado producto o servicio; en tiempos electorales para saber la preferencia de los ciudadanos hacia los candidatos que desean representarlos; en los estudios demográficos y sociales, para conocer los niveles de empleo y desempleo, los ingresos y niveles de escolaridad en los habitantes de una ciudad o país, la prevalencia y la incidencia de la drogadicción, en la industria, para el control de calidad en el proceso de producción. En conclusión, el muestreo se utiliza prácticamente en todas las áreas del conocimiento. Elegir el esquema de muestreo, calcular el tamaño de la muestra y realizar las estimaciones correspondientes no es una tarea fácil para personas con poca formación en estadística. Por ello, en este libro se pretende ayudar a investigadores, estudiantes y profesionales de las distintas áreas del conocimiento para que calculen la muestra de una forma apropiada y eficaz. Además, el enfoque para la determinación de los tamaños de muestra en el presente libro asume que los parámetros involucrados colectados ya sea por un muestro piloto o estudios previos son estocásticos, lo que garantiza que los tamaños de muestra no sean subestimados. Este enfoque garantiza cortos intervalos de confianza debido a que considera la naturaleza estocástica del intervalo de confianza a partir del cual se obtiene el tamaño de muestra requerido. Este enfoque de estimación está ganando gran aceptación y ya existen varias publicaciones al respecto, sin embargo no se ha abordado todavía en ningún libro de muestreo. Por ello, el presente libro es el primero en abordar los esquemas de muestreo más comunes bajo este enfoque, y 14 consideramos que es lo suficientemente didáctico para que pueda ser utilizado sin dificultad tanto por estudiantes de cualquier licenciatura, maestría y doctorado ya que no supone conocimientos profundos sobre matemáticas o probabilidad. Asimismo, puede ser de utilidad para aquellos estudiantes de estadística que deseen entender este enfoque de estimación de una forma sencilla sin el uso de demostraciones formales. Por lo antes expresado los objetivos centrales son del presente libro son: a) exponer el nuevo paradigma para la estimación de tamaños de muestra, b) exponer con claridad la importancia de la aleatorización y cada uno de los esquemas de muestreo, así como las circunstancias donde cada uno de ellos es de gran utilidad, c) exponer sin formalidad matemática la derivación de cada una de las fórmulas para determinar el tamaño de muestra bajo cada uno de los esquemas de muestreo, d) proporcionar ejemplos y ejercicios para cada uno de los esquemas de muestreo para facilitar la compresión y estimación correcta. Es importante resaltar que los datos utilizados en los ejemplos son ficticios y en ningún momento se deben de considerar estimaciones válidas. 15 Capítulo 2. Conceptos básicos de estadística CAPÍTULO 2 Conceptos básicos de estadística Que la estadística es bella No lo vengo a presumir. Sólo requiere de entrega, Para poderla sentir. OAML E n la literatura existen numerosas definiciones del concepto estadística. En lugar de hacer acopio de diversas definiciones y darnos a la tarea de compararlas, señalando su ambigüedad o insuficiencia, aceptaremos la siguiente: Estadística La estadística es la ciencia que se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y, en su caso, formular predicciones (Johnson, 1996). La estadística sirve para: Describir las diferentes medidas en un conjunto de objetos mediante el análisis de algunos de sus elementos. Tomar decisiones sobre opciones diversas con información parcial contenida en un conjunto de datos. Predecir el comportamiento de una medida o característica, en condiciones no observadas. Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden resumir en algunos de los puntos ya descritos con la finalidad de inferir sobre la población 16 (estimación y prueba de hipótesis). Como en todas las áreas del conocimiento, el muestreo emplea una terminología específica que define de manera apropiada los conceptos que se utilizan, por lo que es conveniente revisar algunos de ellos, en particular de la estadística, y presentar la simbología que se emplea en las técnicas de muestreo. Conjunto Es una colección de objetos definidos y distinguibles cuya única propiedad indispensable es que sean identificados como pertenecientes a dicho conjunto. A cada uno de los objetos que lo constituyen se le llama elemento. Por ejemplo, las computadoras dentro de una empresa o laboratorio pueden constituir un conjunto; también los estudiantes y las sillas dentro de un salón de clases lo integran. Cabe mencionar que no es un requisito que los objetos sean de la misma naturaleza, aunque la mayoría de los casos que involucran las técnicas de muestreo los objetos suelen ser de la misma clase, o al menos muy semejantes. 2.1 Población y muestra Como se dijo, las técnicas de muestreo y en general los métodos estadísticos se aplican a un conjunto de datos propios de un conjunto de objetos. Denominamos población al conjunto de objetos y de valores. El segundo es una función del primero y, aunque con frecuencia no se distinguen explícitamente, el contexto en que se usa el término de población deja en claro la referencia. En este libro se usará población para referirse al conjunto de mediciones que se hacen sobre una característica de interés en todos y cada uno de los elementos del conjunto de objetos. La población es el conjunto que incluye todas las partes constitutivas de un recurso; así mismo la población es un conjunto de números que tienen las unidades en que se hace la medición. En general, el análisis no suele incluir las unidades de medición de los valores de una variable, es decir, éstos se analizan simplemente como números. Sin embargo, resulta conveniente recordar que los valores de una variable siempre representan dimensiones 17 físicas o de otra naturaleza, como peso, volumen, longitud, etcétera, y que éstas son medidas en unidades como kilogramos, metros cúbicos, centímetros, etcétera, por lo que los resultados del análisis son coherentes si se usan las unidades de medición, lo cual facilita enormemente su interpretación. Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima y la característica de interés es su estatura promedio, la población original la conforman todos los estudiantes, pero la población a la que las técnicas de muestreo se referirán es el conjunto integrado por las estaturas de esos estudiantes, que estarán medidas por un número; por ejemplo, 1.75 metros podría ser uno de los elementos constitutivos del conjunto población. Población y muestra Población. Es una colección de objetos o entes que se caracterizan por poseer o compartir ciertas características (propiedades) en común. Muestra. Es un subconjunto de elementos o unidades seleccionados con alguna técnica, de la población bajo estudio. El muestreo, en un sentido amplio, es un proceso que tiene como propósito obtener conocimientos de las características generales de una población mediante una muestra. En contraste, el censo es un proceso de revisión exhaustivo de la población, es decir, mide la característica de interés de todas las unidades de la población. 2.2 Variables Una variable es una característica de los elementos de una población y se obtiene con una medición o calificación. La altura de los estudiantes es una variable, lo mismo que la marca de computadoras portátiles que se encuentran en el mercado actual. El peso de cada silla o cada estudiante también es una variable. Una variable continua, como su nombre lo indica, es aquélla donde son posibles todos los valores dentro de un intervalo de los números reales, al menos teóricamente, ya que por limitaciones de los instrumentos de medición, muchos valores en ese intervalo no 18 son observables. En general, este tipo de variables incluye mediciones en kilogramos, centímetros, etcétera, cuya precisión puede incrementarse indefinidamente para afinar gradualmente el instrumento de medición. Una variable discreta se puede medir en una escala que no incluya todos los valores posibles dentro de un intervalo de los números reales. Ejemplos de este tipo de variables son los conteos, el número de personas de un lugar, el número de libros en una biblioteca, entre otros. Las variables por atributos permiten la clasificación en función de la presencia de cierta propiedad en el elemento que desea evaluarse. La pertenencia a un grupo étnico es un ejemplo de atributo; podría haber muchos atributos, como tener varios grupos étnicos, lo que permitiría hacer diversos grupos y cada elemento pertenecería solamente a uno de esos grupos o clases. Las técnicas de muestreo se aplican directamente a conjuntos de valores medidos en escalas apropiadas para variables continuas, discretas o de atributos. Digamos que se quisiera describir económica y socialmente las familias del estado de Colima, y para ello se aplica un cuestionario a cada familia con preguntas sobre su situación socioeconómica: ingreso mensual, número de integrantes, número de individuos que trabajan, tipo de ocupación, entre otras. El conjunto de mediciones de cualquiera de estas variables medidas es el sujeto de aplicación de las técnicas de muestreo. Otro ejemplo sería la determinación de la calidad del aire en la ciudad de México; para ello se toman mediciones de diferentes contaminantes: el conjunto de estas es la variable a la que se aplican los conceptos del muestreo. Pueden ser muchas las variables que se midan, pero el muestreo que aquí estudiaremos es univariado, es decir, se toma solamente una variable a la vez; aunque el estudio incluya varias, el proceso se realiza sobre todas y no más de una al mismo tiempo. Función es otro terminó muy usado. Matemáticamente, el concepto de función consta de tres elementos, dos conjuntos y una regla que asocia o vincula a cada elemento del primer conjunto con uno y sólo uno de los elementos del segundo conjunto. Una lista de 19 nombres y un grupo de estudiantes pueden ser una función si cada nombre de la lista corresponde a uno y sólo uno de los estudiantes. Nótese que incluso todos los elementos del primer conjunto pueden estar vinculados al mismo elemento del segundo conjunto, pero no es válido que un elemento del primer conjunto esté vinculado con más de un elemento del segundo. Las funciones que comúnmente abordaremos en este texto son funciones matemáticas, las cuales contienen conjuntos de números y donde la regla de asociación es una ecuación. Hemos mencionado que en el muestreo nos interesan los valores medidos del subconjunto muestra, que son seleccionados del conjunto población. A estos valores se les denomina datos, es decir, un dato es el valor específico que tiene la característica de interés de un elemento de la población. Conviene mencionar que dato se puede referir a un valor conocido o existente pero que aún no ha sido determinado. En este libro un dato es un valor que ya ha sido determinado. En este contexto, el experimento es el procedimiento que permite obtener un dato. Este procedimiento incluye dos puntos: la forma de elegir el objeto, y la determinación del valor mediante algún método. Es prioritario considerar la forma en que se elige el elemento que se observará. La determinación del valor de la característica es la medición o la calificación, que algunas veces representa un problema difícil y requiere tratamientos específicos. Este es el tema que abordaremos a continuación. 2.3 ¿Qué es una medición? La medición es una tarea en la que la estadística no interviene directamente, pero influye mucho en los resultados. Para hacer una medición deben usarse las técnicas adecuadas. En general, la medición es la determinación del valor de la característica de interés de un elemento de la muestra. Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que miden la longitud de un virus o una bacteria; aunque los métodos estadísticos para analizar los datos de ambos casos pueden ser los mismos. 20 Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. Su instrumentación, selección y validez son temas de estudio de otras disciplinas, pero la comparación entre técnicas de medición sí es un motivo de aplicación de los métodos estadísticos. En este libro no abordaremos las técnicas de medición. 2.4 Escalas de medición Las reglas que clasifican los datos en distintas categorías se denominan escalas de medición: nominal, ordinal, intervalo y proporción (Siegel, 1977). Escala nominal La escala nominal se utiliza para clasificar a la población en categorías. Por ejemplo, los seres humanos se clasifican en hombres y mujeres; los colores se clasifican en rojo, azul, verde, etcétera. En este tipo de datos no existe una relación de orden ni se pueden realizar operaciones aritméticas como suma, multiplicación, división o resta. Sin embargo, se pueden establecer frecuencias y proporciones, así como calcular la moda y establecer relaciones de equivalencia. Las propiedades de las relaciones de equivalencia son: reflexión: 𝑋 = 𝑋; simetría: si 𝑋 = 𝑌, entonces 𝑌 = 𝑋; y transición: si 𝑋 = 𝑌 y 𝑌 = 𝑍, entonces 𝑋 = 𝑍. Para esta escala de medición se usan las pruebas estadísticas no paramétricas o modelos lineales generalizados. Escala ordinal La escala ordinal clasifica y ordena las observaciones. Sin embargo, no puede definirse una distancia entre las observaciones. Las relaciones admisibles en esta escala son: >, < o =. Por ejemplo, la frecuencia con que un grupo de personas lee una revista científica podría clasificarse en: regularmente, a veces, pocas veces, casi nunca y nunca. Otro ejemplo es la definición de la jerarquía militar de un regimiento: teniente> subteniente> 21 sargento 3ro.> sargento 1ro.> cabo. Otro ejemplo es la llegada a la meta de un corredor en una competencia de 20 participantes: su clasificación C es tal que 𝐶 ∈ {1,2,...,20}. La popular escala tipo Likert corresponde a esta escala de medida. Las medidas que se pueden calcular en esta escala son: moda, frecuencia, coeficiente de contingencia y mediana. Las pruebas estadísticas no paramétricas se usan para este tipo de datos, en particular las estadísticas de rango, así como los coeficientes de correlación con base en rangos, es decir, el coeficiente de Sperman y el de Kendall. Además, actualmente son muy populares los modelos lineales generalizados para estudios de asociación y predicción cuando la variable dependiente es de tipo ordinal, en particular la regresión logística y multinomial. Escala de intervalo Esta escala incluye las dos anteriores, es decir, clasifica, ordena y además establece la proporción entre dos intervalos contiguos. Necesita una unidad de medida y un punto cero arbitrario (no es el cero que pertenece a los reales). En esta escala, además, la proporción de dos intervalos cualesquiera es independiente de la unidad de medida y del punto cero. Por ejemplo, la temperatura en grados Celsius o Fahrenheit se mide en una escala de intervalo, ya que la unidad de medida y el punto cero son arbitrarios. Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Las técnicas paramétricas incluyen el cálculo de medias, la desviación estándar, el coeficiente de correlación de Pearson, etcétera. Las pruebas estadísticas admisibles son la t-Student y la F de Snedecor, etcétera. Las únicas medidas que no se pueden obtener son el coeficiente de variación y la media geométrica, pues necesitan el cero de los números reales. Escala de proporción Además de todas las características anteriores, la escala de proporción ubica al punto cero en el origen. En esta medida, además de conocer la proporción, se debe conocer la 22 distancia entre dos puntos. Admite también todas las operaciones matemáticas y de igual manera se pueden establecer relaciones de igualdad y orden. Las pruebas estadísticas admisibles son todas las pruebas paramétricas, así como todas las pruebas estadísticas anteriores más el coeficiente de variación y la media geométrica. Un ejemplo es el peso en kilogramos de los estudiantes del primer semestre en alguna universidad. Otro ejemplo es el diámetro en metros de una plantación de parotas localizadas en Tecomán, Colima. 2.5 Parámetros y estimadores Existe un número infinito de parámetros para una población dada. Sin embargo, muchos no tienen utilidad, en cambio otros manifiestan el interés de la evaluación. Por ejemplo, la suma de todos los valores correspondientes al gasto de agua por familia en una localidad (población). El promedio, el total, la varianza, la desviación estándar, el coeficiente de variación, la moda, la mediana, el porcentaje o la proporción son algunos ejemplos de parámetros. Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es una función de los datos que sirve para calcular (en un censo) o estimar (en un muestreo) un parámetro. Una definición general de parámetro es la siguiente: es una constante que describe a la población, usualmente en forma numérica, mientras que un estimador es una función de los datos disponibles (muestra o censo) que se usa para estimar o calcular los parámetros. Parámetros y estimadores Parámetros Sobre el conjunto población se pueden definir funciones muy diversas como el valor más pequeño, el más grande, el que ocupa la posición central una vez que los valores han sido ordenados ascendente o descendentemente, la suma de todos los valores después de elevarlos al cuadrado, el valor que se repite el mayor número de veces y muchos otros más. Todas esas funciones son parámetros. Los parámetros suelen ser representados por letras griegas como 𝜇, 𝜏 o 𝜎. 23 Estimadores Son funciones que se pueden proponer para calcular o estimar los parámetros. Un parámetro es cuando las funciones se definen sobre el conjunto población; pero si esas funciones se definen para los datos de una muestra, entonces se trata de una estimación del parámetro. Además, a cada parámetro le corresponde uno o más estimadores. Existe un número infinito de estimadores, pero sólo algunos tienen interés práctico. 2.6 Sumatorias La sumatoria es muy importante para comprender mejor los conceptos detrás del muestreo. Algunos parámetros y estimadores incluyen en su definición la suma de varios valores o datos. Si 𝑦𝑖 es cualquiera de esos datos, digamos el i-ésimo de ellos, y se tienen 𝑛 datos, la suma de esos datos se simboliza con el operador de sumatoria (Σ): 𝑛 𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 = ∑ 𝑦𝑖 𝑖=1 Se puede combinar otras operaciones matemáticas con la sumatoria; por ejemplo, si se desea sumar el cuadrado de cada dato, la simbología apropiada es: 𝑛 𝑦12 + 𝑦22 + ⋯+ 𝑦𝑛2 = ∑ 𝑦𝑖2 𝑖=1 El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una lista. Es importante hacer notar que el subíndice puede emplear cualquier símbolo, aunque convencionalmente se emplean letras intermedias minúsculas como i, j, k, etcétera; incluso, los mismos datos pueden usar subíndices diferentes para indicar las operaciones apropiadas. Asimismo, un símbolo de dato como y puede tener más de un subíndice cuando los datos tienen más de dos criterios o sentidos de clasificación, como puede ser el caso de un cuadro o una matriz que tenga renglones y columnas, como 𝑦𝑖𝑗 , 24 donde i es el renglón y j la columna, o al revés. Si existen más de dos criterios de clasificación, podrán emplearse más de dos subíndices para identificar apropiadamente cada dato. En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de una variable, un parámetro o un estimador, para señalar que ese símbolo pertenece al objeto identificado con la etiqueta que se usa como subíndice. Por ejemplo, 𝜎𝑦 se refiere a la desviación estándar (de los datos) de la variable 𝑦. Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En los ejemplos, i puede tomar valores entre 1 y 𝑛, mientras que 𝑦𝑖 puede ser cualquier valor de la variable 𝑦. Por decir, si estamos hablando de la variable ingreso familiar en el estado de Colima (𝑦), entonces 𝑦𝑖 representa el ingreso de la familia i. Propiedades de las sumatorias 𝑛 ∎ ∑ 𝑐 = 𝑐 + 𝑐 + 𝑐 + ⋯ + 𝑐 = 𝑛𝑐 𝑖=1 𝑛 𝑛 ∎ ∑ 𝑐𝑦𝑖 = 𝑐(𝑦1 + 𝑦2 + 𝑦3 +· · · +𝑦𝑛 ) = 𝑐 ∑ 𝑦𝑖 𝑖=1 𝑖=1 𝑛 ∎ ∑(𝑥𝑖 + 𝑦𝑖 ) = (𝑥1 + 𝑦1 ) + (𝑥2 + 𝑦2 ) + · · · +(𝑥𝑛 + 𝑦𝑛 ) 𝑖=1 = 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + · · · +𝑥𝑛 + 𝑦𝑛 = (𝑥1 + 𝑥2 +· · · +𝑥𝑛 ) + (𝑦1 + 𝑦2 +· · · +𝑦𝑛 ) 𝑛 𝑛 = ∑ 𝑥𝑖 + ∑ 𝑦𝑖 𝑖=1 𝑛 𝑟 𝑖=1 𝑛 ∎ ∑ 𝑦𝑖 = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑟 es un número entero mayor que 1 y menor que 𝑛. 𝑖=1 𝑖=1 Por ejemplo: 25 𝑖=𝑟+1 5 2 5 ∎ ∑ 𝑦𝑖 = (𝑦1 + 𝑦2 ) + (𝑦3 + 𝑦4 + 𝑦5 ) = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑦𝑖 = cualquier valor. 𝑖=1 𝑖=1 𝑖=2+1 2.7 Variable aleatoria El concepto de variable aleatoria se relaciona con una característica o dimensión que tienen las unidades muestrales de una población, y que puede tomar diferentes valores, cada uno asociado a una unidad muestral. Esos valores posibles forman un conjunto que se denomina espacio muestral. Así, una variable aleatoria 𝑌 es una función que va del espacio muestral (constituido por las unidades muestrales) a un subconjunto de números reales, que son todos los valores que puede tomar la variable bajo un experimento aleatorio. Para ser más explícitos, una variable aleatoria es una función, 𝑋(. ) donde a cada resultado posible 𝑠 en el espacio muestral 𝑆 se le asigna un número real, 𝑋(𝑠). La definición de variable aleatoria, 𝑋 puede verse como una regla que asocia a cada resultado de 𝑠 𝑆 un número real 𝑋(𝑠). En la Figura 2.1 se aprecia una visualización gráfica de una variable aleatoria. Figura 2.1. Representación gráfica de una variable aleatoria 𝑋(𝑠). En otras palabras, una variable aleatoria es una función cuyo dominio es el espacio muestral del experimento aleatorio y tiene como rango el conjunto o un subconjunto de los números reales. 26 Es de pensar que el concepto de variable aleatoria se genera por el hecho de que estamos acostumbrados a contar o medir en números las variables que nos interesan. Por ejemplo, considérese el lanzamiento de dos monedas balanceadas. Se tiene interés en el número de águilas que resulten de tal experimento. Note que se pueden observar 0, 1 ó 2 águilas. Además, el espacio de resultados tiene cuatro elementos: 𝑆 = {𝑠𝑠, 𝑎𝑠, 𝑠𝑎, 𝑎𝑎}, donde 𝑠 es “sol” y 𝑎 “águila”. Arbitrariamente podemos definir la variable aleatoria como la correspondencia entre los puntos muestrales y los valores numéricos que asignamos al experimento, tal como se ilustra a continuación. 𝑠𝑠 → 0 𝑠𝑎, 𝑎𝑠 → 1 𝑎𝑎 → 2 Lo anterior significa que al punto muestral de dos soles le corresponde el valor 0; al punto muestral que tiene una águila el valor 1, y al punto muestral que tiene dos águilas el valor 2. A los elementos del rango de una variable aleatoria generalmente se representan por letras minúsculas. De esta forma, la expresión 𝑋(𝑠) = 𝑥 representa la asignación del número real 𝑥 al punto muestral 𝑠. En términos de funciones, 𝑋(𝑠) = 𝑥 representa a la función 𝑋 evaluada en el elemento muestral s, cuya imagen es 𝑥. Al analizar un experimento aleatorio por medio de variables aleatorias primero debemos definir la función en turno, para posteriormente proceder a encontrar su dominio y rango. Continuando con el ejemplo 1, definamos a 𝑋 de la siguiente manera: 𝑋: “águilas observadas al lanzar dos monedas balanceadas”. Al evaluar la función en los cuatro puntos muestrales tenemos 27 𝑋(𝑠𝑠) = 0 𝑋(𝑠𝑎) = 𝑋(𝑎𝑠) = 1 𝑋(𝑎𝑎) = 2 Ahora, asignemos probabilidades a los puntos muestrales de tal forma que los cuatro mismos tengan la misma probabilidad, es decir, si E1={ss}, E2 = {sa}, E3 = {as} y E4 = {aa}, entonces, P(Ek) = 1 , para 𝑘 = 0, 1, 2. 4 Si representamos por 𝑃(𝑋 = 𝑥) a la probabilidad de que la variable aleatoria 𝑋 tome el valor 𝑥, entonces, P(X=0) = P(E1) = 1 4 P(X=1) = P(E2UE3) = P(X=2) = P(E4) = 1 1 + , por ser E2 y E3 mutuamente excluyentes 4 4 1 4 En general, sea 𝑆 el espacio de sucesos de un experimento aleatorio sobre el cual se define una variable aleatoria que toma valores en un conjunto R X. Si tomamos un elemento x1 de RX podemos definir al evento A1 en 𝑆 de la siguiente forma A1 = { s є 𝑆: X(s) = x1 } de tal manera que P(A1) = P( X=x1). El establecimiento de variable aleatoria permite introducir el concepto de función de manera implícita y, por lo tanto, todas las propiedades de las funciones al cálculo de las probabilidades. Tales propiedades como suma, resta, multiplicación, etc. 28 2.7.1 Variables Aleatorias Discretas Note que podemos tener variables aleatorias que toman valores dentro de un conjunto finito, infinito contable* o infinito. Para ejemplificar, consideremos las siguientes situaciones: a. X representa el número de artículos defectuosos en un lote de contiene cinco de ellos. Entonces X puede tomar los valores X = 0, 1, 2, 3, 4, 5. Es decir, X toma valores dentro del conjunto finito {0, 1, 2, 3, 4, 5}. b. X representa el número de días que tienen que transcurrir para que el precio de la acción “a” sea mayor o igual a 40 dólares dado que el precio de cierre actual es de 10 dólares. Es un hecho que X puede tomar los valores X = 1, 2, 3, …, es decir, X toma valores dentro del conjunto infinito contable {1, 2, 3, … }. c. Suponga que X representa el precio de cierre de la acción “a”. Entonces X toma valores dentro del conjunto infinito [0, ∞). Definición. Variable Aleatoria Discreta. Una variable aleatoria es llamada discreta si toma valores dentro de un conjunto finito o infinito contable. En otros términos, podemos decir que una variable aleatoria X es discreta si existe una correspondencia uno a uno entre los valores que toma X y algunos o todos los números enteros positivos. Sea X una variable aleatoria. Defínase a la función Q(B) de la siguiente manera Q(B) = P(X є B) = P( s є S: X(s) є B) * Un conjunto es llamado infinito contable si se puede establecer una correspondencia uno a uno con el conjunto de los enteros positivos 29 Donde B es cualquier subconjunto de números reales. Llamaremos a Q(.) la distribución de la variable aleatoria X. Q(B) nos proporciona la probabilidad de que X pertenezca al conjunto B, es decir, Q(.) nos indica cómo se distribuye la probabilidad de los eventos. La función Q puede determinarse por una clase de funciones, llamadas de densidad. Distribuciones Discretas Una función 𝑓 se llamará función de densidad discreta (o simplemente función de densidad) si, 1. f (x) 0, para toda x R 2. Existe un conjunto finito o infinito contable C={x1, x2, …} para el cual f (x)=0, para toda x C y f ( x) =1. C La expresión f ( x) denota la suma de los números f (x) para cada x C. C Note que si X es una variable aleatoria discreta que toma valores en un conjunto finito o infinito contable C, entonces la función f(x) = P(X=x) es una función de densidad discreta y, por lo tanto, la distribución de X puede determinarse por: P(X є B) = f ( x) BC En tal caso, diremos que X es una variable aleatoria discreta con función de densidad 𝑓(𝑥). Modelos Especiales para Variables Aleatorias Discretas Los modelos que se presentan a continuación son de uso común debido a su derivación inmediata de situaciones reales, o en todo caso, son muy utilizados para calcular las probabilidades de eventos de situaciones cotidianas. 30 Distribución Uniforme Discreta. Una variable aleatoria tiene distribución uniforme discreta con parámetro 𝑛 si y sólo si su función de densidad está dada por: 1 para x x1 , x 2 ,..., x n f ( x) n 0 de otra forma Ejemplo: Considere un experimento que consiste en seleccionar aleatoriamente a una empresa de un total de seis para auditarla. Si X denota la selección de la empresa 𝑖, 𝑖 = 1, … , 6. Entonces la función de densidad de X está dado por: 1 para x 1, 2,..., 6 f ( x) 6 0 de otra forma es decir, X tiene distribución uniforme discreta con parámetro 6. Es común generar variables aleatorias con distribución uniforme discreta cuando a cada punto del espacio muestral (finito con 𝑛 elementos) se le asigna la misma probabilidad. Distribución Binomial. Una variable aleatoria X se dice que tiene distribución binomial con parámetros 𝑛, 𝑝 si y sólo si su función de densidad está dada por: n x n x p q para x 0, 1,..., n f ( x) x 0 de otra forma donde: 𝑛 1, 0 p 1 , 𝑞 = 1 − 𝑝 Generalmente una variable aleatoria binomial se deriva del hecho de representar los éxitos de un experimento binomial, donde un experimento binomial tiene las siguientes características: 1. El experimento consta de 𝑛 pruebas idénticas. 31 2. En cada prueba se pueden presentar dos resultados; al de interés se le llama éxito y al otro fracaso. 3. La probabilidad de éxito es constante e igual a 𝑝 en cada prueba ( 0 p 1 ) y, la probabilidad del fracaso es igual a 𝑞 = 1 − 𝑝. 4. Las pruebas son independientes. 5. La variable aleatoria X representa el número de éxitos en las 𝑛 pruebas. Ejemplo: Suponga que una maquina llena “correctamente” cada botella con probabilidad 0.95. Se tiene interés en conocer la distribución de la variable aleatoria X: número de botellas llenadas correctamente de un total de 𝑛. El proceso puede verse como un experimento binomial donde el evento éxito corresponde a llenar la botella correctamente con probabilidad 0.95 en cada ensayo. Si se llenan un total de 𝑛 botellas, entonces la función de densidad de X está dada por: n 0.95 x 0.05 n x para x 0, 1,..., n f ( x) x 0 de otra forma Distribución Geométrica. Una variable aleatoria X se dice que tiene distribución geométrica con parámetro 𝑝 ( 0 p 1 ) si y sólo si su función de densidad está dada por: pq x 1 f ( x) 0 para x 1,2,... de otra forma Variables aleatorias con distribución geométrica surgen al representar el número de pruebas necesarias para que ocurra el primer éxito en ensayos binomiales. Ejemplo: La probabilidad de que una maquina embotelladora falle en un día determinado es 𝑝 = 0.05. Sea X el número de días que tienen que transcurrir hasta que se presenta la primera falla. Entonces X puede tomar los valores X=1, 2, 3 …, con las probabilidades 32 P(X=1) = q1-1p P(X=2) = q2-1p P(X=3) = q3-1p P(X=x) = qx-1p es decir, X tiene distribución geométrica con parámetro 𝑝. Distribución Poisson. Una variable aleatoria X se dice que tiene distribución Poisson con parámetro λ>0 si y sólo si su función de densidad está dada por: e x para x 0, 1, 2,..., f ( x) x! 0 de otra forma La distribución Poisson se puede obtener como el límite de una distribución binomial cuando el número de ensayos es relativamente “grande” y la probabilidad de éxito 𝑝 es pequeña en cada uno, es decir n x n x e x p q , si 𝑛𝑝→λ lim x! n x Como el número de ensayos “𝑛” es grande y la probabilidad de éxito es pequeña en cada uno, tal distribución también es conocida como la ley de eventos raros. La distribución Poisson es muy utilizada para modelar el número de eventos que ocurren raramente en el tiempo, espacio, etc. 33 Ejemplo: El número de accidentes mensuales en una fábrica se distribuye de acuerdo a una variable aleatoria Poisson con parámetro 𝜆 = 3. Determine la probabilidad de que para un mes determinado ocurran 3, 4 o 5 accidentes. Como X tiene distribución Poisson con parámetro 3, entonces la probabilidad de que para un mes determinado se presenten 3, 4 o 5 accidentes es igual a 33 34 35 f(3)+f(4)+f(5) = e 3 3! 4! 5! Distribución Hipergeométrica. Una variable aleatoria X se dice que tiene distribución hipergeométrica con parámetros 𝑚, 𝑛 y 𝑘; 0 m n , 1 k n , si y sólo si su función de densidad está dada por: m n m x k x para x 0, 1,..., m f ( x) n k 0 de otra forma (1) Variables aleatorias del tipo hipergeométrico surgen al interesarse en el número de bolas de una clase particular contenidas en una muestra de tamaño 𝑘, extraídas desordenadamente de una urna que contiene m bolas rojas y n-m bolas blancas, 𝑘 ≤ 𝑛. Bajo este escenario, si X representa el número de bolas rojas que contiene la muestra, entonces la función de densidad de X está dada por (1). El término de urna y bolas es utilizado para referirnos a experimentos de tal naturaleza, conocidos como modelos de urnas. Ejemplo: Una caja contiene 20 focos, de los cuales 5 son defectuosos y, se extrae una muestra desordenada (aleatoria) de tamaño 8. 34 La caja puede verse como la urna, los focos defectuosos como las bolas rojas, y los focos no defectuosos como las bolas blancas. Si se extrae una muestra de tamaño 8, entonces la probabilidad de que la muestra contenga exactamente x = 0, 1, …, 5 focos defectuosos esta dado por: 5 15 x 8 x para x 0, 1,..., 5 f ( x) 20 8 0 de otra forma Es decir, si X representa el número de focos defectuosos contenidos en la muestra extraída, entonces X tiene distribución hipergeométrica con parámetros 5, 20, 8. 2.7.2 Variables Aleatorias Continuas La distribución normal La distribución normal es muy importante debido a que es un modelo adecuado para fenómenos de diversa índole, como naturales, sociales y financieros, y por su sobresaliente papel en la teoría estadística (Teorema Central del Límite) puesto que sirve como punto de partida para el desarrollo de muchas técnicas de inferencia (Mood, Graybill, & Boes, 1974). Es importante mencionar que debido a que la distribución normal es continua, solamente pueden calcularse probabilidades para intervalos que pertenecen al espacio muestral de 𝑌, ya que para cualquier posible valor 𝑘 de 𝑌, 𝑃(𝑌 = 𝑘) = 0, aunque con la corrección por continuidad es posible calcular probabilidades para cualquier posible valor k (Mood et al., 1974). Decimos que una variable aleatoria Y se distribuye normal si su función de densidad es: 1 − (𝑦−𝜇)2 2𝜎2 1 − (𝑦−𝜇)2 2𝜎2 si 𝑦 ∈ ℝ0.00 𝑒 𝑓𝑌 (𝑦) = {√2𝜋𝜎 2 𝑒 √2𝜋𝜎 2 000000000000 de otra forma00000000000 donde: 𝐸[𝑌] = 𝜇 −<𝜇 < 𝑉𝑎𝑟[𝑌] = 𝜎 2 35 𝜎2 > 0 𝑒 y 𝜋 son constantes conocidas con valores aproximadamente iguales a 2.7183 y 3.1416, respectivamente. El lector debe notar que 𝜇 y 𝜎 2 son los parámetros de la distribución, es decir, 𝑌~𝑁(𝜇, 𝜎 2 ). Para ejemplificar la forma de la distribución normal, supóngase que se mide la estatura (𝑌) en centímetros a una población de niños de cinco años de edad y se encuentra que su promedio es de 90 cm con una desviación estándar (𝐷𝐸) de 5 cm, es decir, 𝑌~𝑁(𝜇 = 90, 𝜎 2 = 25). La forma de la distribución se presenta en la Figura 2.2. La distribución normal tiene forma acampanada con un sólo pico o moda que es igual a la mediana y media porque es una distribución simétrica. Además, cuando 𝑌~𝑁(𝜇 = 90, 𝜎 2 = 25) el porcentaje de niños con una estatura de entre 80 y 100 cm es de 95.45% (área sombreada en la Figura 2.2). Los puntos en que cambia la dirección de la concavidad de la campana se llaman puntos de inflexión, y están situados a una distancia de 𝜎 unidades por encima y por debajo de la media μ. El área total bajo la curva es de 1 o 100%, ya que es una distribución de probabilidad completamente definida. Figura 2.2. La distribución normal para la variable estatura (𝑌) y una media de 90 cm y 𝐷𝐸 = 5 cm. La distribución normal estándar 36 Sea Y una variable aleatoria distribuida 𝑁(𝜇, 𝜎 2 ). Definamos la variable aleatoria 𝑍 = (𝑌 − 𝜇)/𝜎. Esta nueva variable aleatoria tiene distribución 𝑁(0,1). A una variable aleatoria normal que tiene media cero y varianza uno se le llama normal estándar. Su función de densidad es: 1 𝑧2 𝑒 − 2 𝑧 ∈ 𝑠𝑖 𝑧 ∈ ℝ = ⋯ si 0000 𝑓𝑍 (𝑧) = {√2𝜋 . 0 = ⋯ 0000de otra forma0 … . .00 La forma de la variable aleatoria 𝑍 se ilustra en la Figura 2.3. En ella se aprecia que los valores con mayor ocurrencia de la variable aleatoria 𝑍 están entre -3.6 y 3.6, la media (igual a la mediana) es igual a cero y su 𝐷𝐸 (igual a la varianza) es uno. La importancia de esta función de densidad radica en que las probabilidades en cualquier miembro de la familia, es decir, cualquier normal con media 𝜇 y varianza 𝜎 2 , puede calcularse con la distribución normal estándar. La ventaja estriba en que tiene media cero y varianza uno (Mood et al., 1974) y facilita el cálculo de probabilidades porque la variable aleatoria normal original es una función no integrable, por lo que la integración se obtiene con tablas de la normal estándar o un software estadístico. Figura 2.3. La distribución normal estándar (𝑍). 37 2.8 Teorema Central del Límite El Teorema Central del Límite es importante porque en él se basa gran parte de los métodos estadísticos. Este teorema provee de una aproximación efectiva a las probabilidades determinadas por sumas de variables aleatorias independientes y explica la gran importancia de la distribución normal en la teoría de probabilidades. Su enunciado preciso es el siguiente: sean 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria de una función de probabilidades 𝑓𝑌 (𝑦) (es decir, variables aleatorias independientes e idénticamente 2 distribuidas), con media 𝜇𝑌 y varianza 𝜎..𝑌 . Sea 𝑌̅ = (𝑌1 + 𝑌2 +· · · +𝑌𝑛 )/𝑛 la media aritmética de las variables aleatorias que integran la muestra. Para un tamaño de muestra 𝑛, la distribución de la variable aleatoria 𝑌̅ es aproximadamente normal con media 𝜇𝑌 y 2 varianza 𝜎..𝑌 /𝑛, es decir, 2 Ȳ ∼ 𝑁(𝜇𝑌 , 𝜎..𝑌 /𝑛) cuando 𝑛 → ∞ De acuerdo con el resultado anterior y estandarizando la variable aleatoria, la expresión puede escribirse como: Ȳ − 𝜇𝑌 2 √𝜎..𝑌 𝑛 = Ȳ − 𝜇𝑌 ∼ 𝑁(0, 1) 𝜎𝑦̅ El Teorema Central del Límite establece que para un tamaño de muestra grande, la distribución de 𝑌̅ es aproximadamente normal, independientemente de la función de probabilidades de la variable aleatoria 𝑌 (Mood et al., 1974). Para casi todas las poblaciones, la distribución de muestreo de 𝑌̅ es aproximadamente normal si una muestra simple al azar es lo suficientemente grande. Pero ¿qué significa una muestra suficientemente grande? Esto dependerá de la naturaleza de la población muestreada y del grado de aproximación a la distribución normal requerida. 38 Cuando la población muestreada tiene una distribución de probabilidad normal, no se requiere el Teorema Central del Límite. En este caso, utilizamos otro teorema que establece que si la población muestreada es una distribución de probabilidad normal, la distribución de probabilidad de 𝑌̅ es exactamente normal para cualquier tamaño de muestra. Puesto que a menudo no conocemos el tipo de población muestreada, el Teorema Central del Límite nos dice la naturaleza de la distribución de muestreo de 𝑌̅ para una muestra razonablemente grande, al margen del tipo de distribución que siga la población. 2.9 La distribución t-Student La distribución t-Student fue publicada por primera vez en 1908 por el químico irlandés W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba la publicación de trabajos de investigación; por tal motivo publicó su trabajo con el seudónimo Student. Por dicha razón esta distribución lleva el nombre de t-Student. Si 𝑍 es una variable 𝑁(0,1) y 𝜒 2 es una variable 𝜒 2 (𝑣) (Ji-Cuadrada) independiente de 𝑍, entonces la variable aleatoria definida por: 𝑡 = 𝑍 √𝜒 2 /𝑣 tiene una distribución t-Student con 𝑣 grados de libertad (Mood et al., 1974). Su función de densidad es la siguiente: −(𝑣+1)/2 Γ[(𝑣 + 1)/2] 𝑡 2 ( + 1) 𝑓𝑇 (𝑡) = { √𝑣𝜋 Γ[𝑣/2] 𝑣 0 …. 1 𝑠𝑖 − ∞ < 𝑡 < ∞. . de otra forma … … La función de densidad t-Student es simétrica con respecto a cero, como el caso de la función de densidad normal estándar. Además, para 𝑣 > 1, el valor esperado de 𝑡 es cero, es decir, 𝐸[𝑡] = 0; y para 𝑣 > 3, 𝑉𝑎𝑟[𝑡 ] = 𝑣(𝑣 − 2). Además, note que cuando 𝑣 → , 𝑉𝑎𝑟[𝑡 ] → 1. De esta manera vemos que una variable aleatoria t-Student tiene el mismo valor esperado y varianza que una variable aleatoria con distribución normal estándar 39 cuando 𝑛 es grande. Por ello, la forma de ambas distribuciones es muy semejante. No obstante, una variable normal estándar siempre tiene varianza 1, mientras que la varianza de una variable t-Student es superior a 1. Esto se puede apreciar en la Figura 2.4, donde se compara la distribución normal estándar con la distribución t-Student con 1, 3, 5 y 10 grados de libertad. Es decir, se observa que las dos funciones de densidad son simétricas respecto al origen, pero la distribución t-Student posee mayor masa de probabilidad en los extremos. Sin embargo, desde el punto de vista práctico, las diferencias entre estas dos distribuciones son relevantes cuando el tamaño de muestra es menor o igual a 30. En el presente libro sugerimos obtener los valores de las tablas que se utilizan para los ejemplos y ejercicios de los capítulos posteriores a partir de la distribución t-Student, cuando el tamaño de la muestra sea menor o igual a 30; de lo contrario, obtenerlos de la distribución normal estándar. Figura 2.4. Comparación entre las distribuciones normal estándar y t-Student con 1, 3, 5 y 10 grados de libertad. 2.10 Tipos de muestreo A manera de definición, un método de muestreo es una forma objetiva, y comúnmente científica, de seleccionar unidades que pertenecen a la población. En este sentido el muestreo consiste en un conjunto de métodos, por medio de los cuales es posible hacer aseveraciones sobre los parámetros de una población apoyándose en la muestra. Para 40 conocer una población con base en la muestra recurrimos a dos procedimientos generales, que se diferencian en la manera de seleccionar las unidades de la población y el método usado para determinar el tamaño de la muestra. Los procedimientos se llaman muestreo probabilístico y muestreo no probabilístico (Rendón, 1997). Muestreo probabilístico. Comprende los métodos que usan un mecanismo aleatorio para la selección de las unidades de la muestra. Cada unidad de la población tendrá una probabilidad conocida de ser seleccionada, así como una probabilidad de ser incluida en la muestra; ninguna de tales probabilidades es igual a cero. Entonces, los métodos de este tipo de muestreo establecen una estructura probabilística que es la base para desarrollar la teoría del muestreo. Otra característica importante en estos métodos de muestreo es que la calidad, el error o la precisión de los estimadores pueden ser determinados y expresados en términos probabilísticos. Algunos métodos de muestreo probabilístico son: el aleatorio simple, el aleatorio estratificado, el sistemático con iniciación aleatoria, el por conglomerados, el de respuesta aleatorizada, etcétera (Bradburn, 1998). Este tipo de métodos de muestreo se desarrollará más adelante. Muestreo no probabilístico. Incluye los métodos de muestreo donde la selección de las unidades de la muestra se realiza por medios subjetivos o procedimientos no aleatorios; en consecuencia, no se tendrá una estructura probabilística para desarrollar una teoría de muestreo, ni podrá averiguarse la bondad de las estimaciones muestrales en términos cuantitativos. De hecho, la calidad de las estimaciones se establece con base en la intuición y la experiencia, o a través de argumentos subjetivos, ya que la única manera de cuantificar la bondad de los resultados sería teniendo la población total. Aunque el muestreo no probabilístico resulta inadecuado para el desarrollo de la teoría, en ocasiones es la única alternativa viable (Bradburn, 1998). Además, como los métodos de muestreo son de fácil aplicación, los resultados se obtienen con mayor rapidez y no implica mucho gasto. Veamos a continuación algunos ejemplos de muestreo no probabilístico: Muestreo de juicio. También se le conoce como muestreo de expertos o muestreo dirigido. Su característica principal es la forma subjetiva con que son seleccionadas 41 las unidades de la población. Por el elemento subjetivo no hay una manera de cuantificar la bondad de los resultados muestrales. En este caso, el investigador observa toda la población o parte de ella, y después selecciona una muestra compuesta por una o más unidades que en su opinión son típicas con respecto a la característica que se desea estudiar. Está claro que el investigador, al medir las unidades seleccionadas de esta forma, puede derivar estimaciones de los parámetros de interés. Sin embargo, las estimaciones dependerán de la selección subjetiva del investigador, de tal manera que otros investigadores podrían seleccionar muestras distintas y calcular otras estimaciones. Sucede lo mismo con las estimaciones que se apoyan en el análisis ocular de la población de interés, porque no involucran la selección ni la medición objetiva de las unidades. Asimismo, esto puede pasar cuando confiamos en la opinión de personas expertas a quienes suponemos conocedoras de las características de una población dada (Rendón, 1997). Muestreo de cuota. Este método es ampliamente utilizado en las encuestas de opinión. Para su aplicación, la población se divide en grupos tomando como base ciertas características generales. Una vez hechas las divisiones, se tomará un número preestablecido de unidades al cual se le denomina cuota y que satisfaga las características del grupo de interés. De este modo, la muestra total quedará integrada por la suma de todas las cuotas. Por ejemplo, un investigador del observatorio vulcanológico de la Universidad de Colima está interesado en conocer la opinión de la población sobre un posible plan de emergencia frente a una eventual erupción volcánica. El investigador podría dividir la población en grupos definidos según la edad, el sexo, el estado civil, etcétera; y después entrevistar a cierto número (cuota) de personas de cada grupo, por ejemplo, en parques, salidas de las tiendas de autoservicio, comunidades aledañas al volcán o en áreas específicas de la ciudad (Rendón, 1997). Muestreo de voluntarios. Este método se usa principalmente en aquellas situaciones donde es difícil el proceso de medición de las unidades. Por ejemplo, si el proceso de medición requiere de mucho tiempo, resulta penoso y desagradable, o implica 42 una gran concentración y esfuerzo mental, muchos individuos no desearán participar en el estudio. Por estas razones, el método consiste en integrar una muestra con aquellas unidades que acepten formar parte de ella, es decir, una muestra de voluntarios (Rendón, 1997). Muestreo de unidades accesibles. Este método se usa frecuentemente cuando es difícil el acceso o la comunicación con las unidades de la población. En este caso, la muestra se restringe a una parte de la población donde es fácil el acceso o comunicación. Por ejemplo, para inspeccionar el maíz a granel que es transportado en un barco, puede tomarse una muestra de maíz a cierta profundidad de la parte superior del barco (Rendón, 1997). Obsérvese que en los métodos de muestreo probabilístico, para fundamentar una estructura probabilística y desarrollar la teoría de muestreo, se debe disponer de un marco de muestreo que permita la elección de las unidades mediante un procedimiento aleatorio. No contar con un marco por lo tardado e impráctico de su elaboración, lleva a la necesidad de usar los métodos de muestreo no probabilístico, con las desventajas que ya fueron mencionadas. 2.11 El marco de muestreo El marco de muestreo, o marco muestral, está constituido por un listado, real o virtual, de todas las unidades de muestreo. Unidad de muestreo Cada pieza acumulada constituye la población. A veces son colecciones de elementos de la población que cubren la población completa. En ocasiones las unidades de muestreo están naturalmente definidas; en otras, se definen arbitrariamente por quien realiza el muestreo. 43 Idealmente, cada elemento de la población debe estar incluido en una y sólo una unidad muestral. Por eso se dice que las unidades muestrales son excluyentes entre sí y exhaustivas sobre la población. No siempre se satisface cabalmente esta condición ideal y su aceptación depende de las condiciones en que se suscite. A veces no todas las partes de la población quedan incluidas en alguna unidad muestral, como en la evaluación de recursos mediante parcelas de muestreo circulares. Podría ser intrascendente si las partes que quedan excluidas no presentan una característica distintiva del resto de la población y las inferencias todavía se pueden aceptar como aplicables a la población. Sin embargo, en otras aplicaciones puede ser decisivo el hecho de no incluir algunas partes de la población en la muestra si esas partes excluidas se distinguen de las incluidas en alguna unidad de muestreo, y, por lo tanto, en el marco. En estas circunstancias las estimaciones serán sesgadas, o bien solamente serán aplicables a la población definida por el propio marco de muestreo. Si en las Ciencias Sociales se aplica una encuesta telefónica a determinada población, debe quedar claro que los resultados solamente son aplicables a la población constituida por las personas en hogares que tienen teléfono y no a toda la población, ya que tener teléfono puede representar una diferencia importante. Hacer el listado de las unidades muestrales que conforman la población parece una labor simple, pero en la práctica es una tarea muy complicada, porque algunas poblaciones tienen características que demandarán tareas particulares al momento de obtener el marco de muestreo. El marco de muestreo es real o virtual porque en ocasiones se puede tener físicamente la lista de todas las unidades, mientras que en otras bastaría con tener la posibilidad de generarlo para lograr el objetivo propuesto. Entenderemos que el marco de muestreo contiene una identificación única o etiqueta para cada unidad de muestreo, como puede ser un número progresivo desde uno hasta 𝑁, donde 𝑁 representa el número total de unidades muestrales de la población. Además es importante que se tenga el nombre completo, dirección, ocupación, sexo, localización geográfica de cada unidad de muestreo para facilitar el levantamiento de la encuesta cuando las unidades muestrales son individuos. 44 2.12 Pasos a seguir en el diseño de una encuesta 1. El planteamiento de objetivos Al empezar a diseñar un plan de muestreo o una encuesta es importante que se definan los objetivos, pues permitirán mantenerse en una línea de investigación sin perder tiempo con demasiados detalles. 2. La población bajo muestreo Es trascendental que se definan desde el principio las unidades muestrales que serán tomadas en cuenta y se establezcan reglas claras para que el encuestador las identifique al momento de ubicarlas y hacer la medición. Recuérdese que la población que se quiere muestrear debe coincidir con la población sobre la cual se desea tener información. 3. La característica de la realización de la encuesta o mediciones Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y que no se omitan datos esenciales. Particularmente, en el caso de poblaciones humanas existe la tendencia a hacer un número excesivo de preguntas innecesarias. Nótese que un cuestionario demasiado largo produce una baja general en la calidad de las respuestas, tanto en las preguntas importantes como en las secundarias. 4. El grado de precisión deseado Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de incertidumbre porque sólo se mide una parte de la población. Esta falta de certeza se puede reducir al aumentar la muestra y emplear mejores dispositivos de medición. Sin embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación del grado de precisión deseado es un paso decisivo en la preparación de la encuesta o 45 muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos, ya que es quien suele entender la magnitud del error tolerable de una encuesta para hacerla compatible con una buena decisión. 5. Los métodos de medición Podemos escoger el método de medición y el método de inspección de la población. Los datos del estado de salud de una persona se pueden obtener de sus declaraciones o de un examen médico. La encuesta puede emplear un cuestionario autoadministrado, en el que los entrevistadores simplemente lean el cuestionario prescrito o una entrevista no estructurada. La inspección puede hacerse por correo, visitas personales, teléfono o una combinación de los tres medios. Una parte importante del trabajo preliminar es la construcción de las formas de registro donde se asientan las preguntas y las respuestas. En los cuestionarios sencillos a veces es posible precodificar las respuestas, es decir, colocarlas de tal modo que se puedan transferir rutinariamente a una computadora. De hecho, para la construcción de buenas formas de registro se necesita proveer de la estructura de las tablas de resúmenes finales para obtener las conclusiones. En seguida se enumeran algunos puntos que se deben tomar en cuenta para el diseño de cuestionarios. Sin embargo, si se va a elaborar un cuestionario, consúltese a Tanur (1983) y Blair y Presser (1993), dos referencias útiles sobre este tema, debido a que los puntos que aquí se presentan son muy generales: a) Decida lo que quiere escribir. Éste es el paso más importante para redactar un cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se motive a las personas de la muestra a responder sin problema alguno. b) Siempre verifique sus preguntas antes de realizar la encuesta. Lo ideal es que las preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferentes versiones de las interrogantes y pregunten a los entrevistados en la prueba preliminar la forma en que interpretaron las preguntas. 46 c) Elabore las preguntas de manera sencilla y clara. Las preguntas que a usted pueden parecerle claras tal vez no lo sean para quien las escucha por teléfono o para alguien que hable otro idioma. Con una muestra de 53 personas, Belson (1981, 240) probó la pregunta ¿Qué proporción de tiempo que ve la televisión lo dedica a ver noticias? Sólo 14 de ellas interpretaron de manera correcta la palabra proporción como porcentaje, parte o fracción. Otras las interpretaron como cuánto tiempo o cuáles programas de noticias ve. d) Utilice preguntas específicas en lugar de preguntas generales. e) Relacione las preguntas que elabore con el concepto de interés. f) Decida si debe utilizar preguntas abiertas o cerradas. g) Informe sobre la pregunta que se planteó realmente. h) Evite preguntas que induzcan o motiven al entrevistado a decir lo que usted quiere escuchar. i) Utilice preguntas de opción forzosa. j) Plantee sólo un concepto en cada pregunta. k) Preste atención al efecto del orden de las preguntas. 6. El marco de muestreo Antes de seleccionar la muestra, debemos dividir la población en unidades de muestreo. Éstas deben cubrir toda la población y no traslaparse en el sentido de que todo elemento de la población pertenezca a solamente una unidad. Algunas veces la unidad apropiada es obvia, en otras no es sencillo escoger lo que será la unidad de muestreo. En el muestreo de los residentes de una ciudad, por ejemplo, la unidad puede ser una persona, los miembros de una familia o las personas que viven en una manzana. En el muestreo de una cosecha de limón la unidad puede ser un lote, una parcela o un área de terreno cuya forma y dimensiones son nuestra elección. 7. La selección de la muestra Existe actualmente gran variedad de planes para seleccionar una muestra. Por cada plan considerado se pueden hacer estimaciones del tamaño de la muestra partiendo 47 de un conocimiento del nivel de precisión deseado y la varianza de la población. Los costos relativos y el tiempo empleado en cada plan se estudian antes de tomar una decisión (Lohr, 2000). 8. La encuesta piloto Es de gran utilidad para probar el cuestionario y los métodos de campo en pequeña escala. Esto casi siempre ayuda a mejorar el cuestionario y puede evitar otros problemas serios, como que el costo fuera más que el esperado. 9. La organización del trabajo de campo Las encuestas extensas tienen muchos problemas administrativos. Se debe supervisar al personal y entrenarlo para que aplique las encuestas y los métodos de medición apropiadamente. De ahí que sea útil un procedimiento de verificación previo de la calidad de las respuestas, es decir, tener un plan para considerar respuestas en blanco. (Lohr, 2000). 10. Resumen y análisis de los datos. Después de realizar la encuesta debe revisarse con la esperanza de corregir errores o, cuando menos, desechar datos equivocados. Habrá que decidir respecto al cálculo en caso de omisión de respuestas o la eliminación de datos durante la revisión. Posteriormente se hacen los cálculos para las estimaciones. Como vimos, los mismos datos pueden servir para diferentes métodos de estimación. Un consejo práctico para la presentación de datos es informar sobre la magnitud esperada del error en las estimaciones más importantes. Una ventaja del muestreo probabilístico es que se pueden hacer tales enunciados (el error esperado). 11. La información para encuestas futuras 48 Cuanta más información de una población se tenga inicialmente, más fácil será el diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida es una guía potencial de futuros muestreos por los datos que revela sobre la media, la desviación estándar y la naturaleza de la variabilidad de las medidas principales, así como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente si se prevé lo necesario para reunir y registrar ese tipo de información. Hay otro aspecto importante en el que una muestra completa facilita la obtención de otras posteriores: el encuestador habilidoso aprende a reconocer los errores de ejecución y a evitar que se repitan. 2.13 Ventajas y desventajas del muestreo Ventajas El objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear recursos mínimos para obtener determinada información, o bien en conseguir la máxima información con recursos prefijados (Bradburn, 1998). Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en los siguientes puntos: Se empleará el muestreo cuando la población sea tan grande que el censo exceda las posibilidades del investigador. Se tomarán muestras cuando la población sea suficientemente uniforme como para que cualquier muestra dé una buena presentación de la misma. Se tomarán muestras cuando el proceso de medida o investigación de los caracteres de cada elemento sea destructivo (consumo de un artículo para juzgar su calidad, determinación de una dosis letal, etcétera). Se utilizará el muestreo cuando las personas respondan con desagrado y así disminuir el número de elementos que serán encuestados. 49 Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el costo absoluto como el costo relativo (con relación a la cantidad de información obtenida). Este criterio suele conocerse como el criterio de economía. El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al valor real de la característica en estudio) resulta ser muy buena. Este criterio suele conocerse con el nombre de criterio de calidad. El muestreo es conveniente cuando la formación del personal y la intensidad de los controles y supervisión son onerosos. En general, el muestreo será conveniente cuando constituya la solución de mayor eficiencia en el sentido del costo-beneficio. Desventajas A veces, el muestreo no es muy conveniente (Bradburn, 1998). Por ejemplo: Cuando se necesita información de todos los elementos que conforman la población. Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo probabilístico. El muestreo exige menos trabajo material que una investigación exhaustiva, pero más refinamiento y preparación (conocimientos adecuados de los diseñadores y preparación de los entrevistadores, inspectores y supervisores), lo que puede suponer un uso limitado. Cuando el costo por unidad sea mayor en las encuestas que en los censos y aconseje desestimar los métodos de muestreo. 2.14 Características de una investigación por muestreo Las características óptimas a las cuales deberían ajustarse las investigaciones por muestreo, son las siguientes: 50 Precisión. La proximidad al valor verdadero de las características poblacionales estimadas. Pertinencia. La capacidad de los resultados estadísticos obtenidos por muestreo para completar la información faltante. Oportunidad. La utilidad de un estudio estadístico en función de su disponibilidad en el tiempo (puntualidad, rapidez y actualidad). En el caso de censos y grandes encuestas es aconsejable la publicación de resultados preliminares basados en muestras. Accesibilidad. Aunque se disponga de un banco de datos informatizado, puede haber dificultades legales para utilizarlo (la protección de la privacidad, el secreto estadístico y la Ley de la Función Estadística Pública). La información obtenida por muestreo ha de ser totalmente accesible, así como tener en cuenta la legislación vigente al momento de diseñar un estudio por muestreo. Detalle y cobertura. La población que posee datos extensos puede complementar una investigación exhaustiva con una muestra. Economía. Las consideraciones sobre costos en las diferentes etapas de planificación, el levantamiento y procesamiento de datos, la evaluación, el análisis y la publicación pueden indicar la inconveniencia de una investigación exhaustiva. Luego, este criterio ha de tenerse siempre presente a la hora de planificar una investigación por muestreo. Integración. Hay que tener buena concepción global de la información y buena comparabilidad. La información obtenida en la investigación por muestreo ha de ser integrable y comparable con otras informaciones existentes o futuras. 51 2.15 Errores de las encuestas En general, en las encuestas puede haber varias fuentes de error (Bradburn, 1998), como las siguientes: Error de muestreo o de estimación. Error que surge cuando sólo se miden las unidades de una muestra de la población, es decir, cuando sólo se estudia una fracción de la población. Este error es particular para cada una de las muestras posibles de tamaño 𝑛, y se define como la diferencia entre el valor del estimador y el valor del parámetro. Error de marco. Se presenta debido a los problemas en la elaboración del marco de muestreo. Tales problemas ocurren al construir marcos incompletos, al no incluir todas las unidades de muestreo que son de interés, o bien al incluir unidades ajenas a la población. Error de respuestas en blanco. Se presenta a consecuencia de las fallas u obstáculos para medir algunas unidades de la muestra seleccionada. Así, la respuesta en blanco puede ocurrir por omisión o no localización de algunas unidades, así como por la renuncia o imposibilidad de medir algunas unidades. Error de medición. Ocurre al medir las características de una unidad. Se presenta porque el método de medición puede estar sesgado o es impreciso y en ocasiones, como en el caso de poblaciones humanas, algunas características son difíciles de medir, ya sea porque la persona entrevistada no posee la información exacta o da una respuesta incorrecta a la característica de interés. Tal es el caso en la medición del ingreso familiar, el padecimiento de cierta enfermedad, el número de abortos por persona, las ganancias obtenidas en el negocio anterior, etcétera. Error de procesamiento. Es el error que se puede cometer en la edición, codificación y tabulación de la información obtenida de la encuesta. 52 Cuando la información se recolecta mediante una enumeración total se está expuesto a cometer los cuatro últimos errores. Si la recolección se realiza mediante un muestreo, entonces estaremos expuestos a los cinco errores y en tal caso a los cuatro últimos se les denomina errores no debidos al muestreo. 2.16 Muestra preliminar o piloto Una muestra preliminar o piloto es una muestra que antecede a la definitiva, cuya selección se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se utilizará en el estudio definitivo. La muestra preliminar juega un papel importante en el diseño de un estudio por muestreo, ya que será la fuente de información más inmediata para: 1. Tener una primera aproximación de los costos que se involucran en el estudio. 2. Tener una primera aproximación del tiempo que llevará la realización del estudio. 3. Estimar los parámetros involucrados en la determinación del tamaño de muestra, usualmente la varianza y el coeficiente de variación. 4. Probar la factibilidad de los métodos de selección de las unidades muestrales, la medición de las variables y otros aspectos prácticos. 5. Probar la factibilidad del cuestionario y la calidad del marco de muestreo. Definir la precisión de los estimadores cuando no se tiene idea de los valores entre los cuales ésta (precisión) puede considerarse razonable. Algunos autores sugieren que la muestra preliminar podrá considerarse como parte de la muestra definitiva solamente cuando los métodos de selección, medición, incluyendo el cuestionario y el marco de muestreo, no hayan sufrido cambios o modificaciones severas. 2.17 Precisión y Exactitud 53 En estadística se pone especial énfasis en los significados de exactitud y precisión ya que estos conceptos son esenciales para un mejor entendimiento de esta disciplina. Exactitud se refiere a estimar correctamente el valor verdadero del parámetro. En esta tesitura, una estimación es exacta si está cerca del valor del parámetro (Figura 2.5, cuadrantes b y d). Precisión se refiere al grado de agrupamiento de las estimaciones o valores muestrales alrededor de su propio promedio (Figura 2.5, cuadrantes c y d). En la Figura 2.5 se ilustran estos conceptos estadísticos. Note que el peor escenario (Figura 2.5, cuadrante a) consiste en tener estimaciones inexactas, es decir, sesgadas, e imprecisas. En ocasiones se tienen estimadas exactas pero no son de utilidad pues son muy imprecisas (Figura 2.5, cuadrante b). Imagine que alguien estime que su edad esta entre un año y 100 años, la cual es exacta pero inservible por la enorme imprecisión. Un tercer escenario consiste en disponer de estimaciones inexactas, es decir, sesgadas, pero muy precisas (Figura 2.5, cuadrante c). Es precisamente la gran precisión lo que hace que en ocasiones este tipo de estimadores, sesgados, sean preferibles que los insesgados, además de que el sesgo tiende a cero conforme aumenta el tamaño de la muestra. El estimador ideal es aquel que produzca estimadas exactas y precisas (Figura 2.5, cuadrante d). a) Estimaciones inexactas e imprecisas 54 b) Estimaciones exactas pero imprecisas c) Estimaciones inexactas pero precisas d) Estimaciones exactas y precisas Figura 2.5. Visualización gráfica de precisión y exactitud en la estimación de parámetros. Por ello, cuando realizamos un estudio por muestreo es importante preguntarnos cuál es la cantidad de error tolerable o la precisión de la estimación. La persona que utilizará los resultados del muestreo debe definir el error, pues conoce el fenómeno en cuestión y lo delicado de las conclusiones que se desprendan del análisis. Así, en el muestreo probabilístico es usual referirse a la precisión de la estimación en los términos siguientes: a) Como un límite máximo que se fija de antemano para la varianza, la desviación estándar o el coeficiente de variación del estimador. En este libro, este límite máximo para todos los diseños de muestreo a estudiar se fijará en términos de la desviación estándar del parámetro de interés. b) Como un límite máximo de error y una confiabilidad, ambos establecidos de antemano. De igual manera en muestreo estadístico es común denominar al error máximo como precisión del estimador, ésta se define como: Precisión: es el alejamiento o distancia máxima que el investigador está dispuesto a aceptar entre el estimador y el parámetro correspondiente (Cochran, 1985). De este modo, si 𝜃 denota al parámetro y 𝜃̂ su estimador, entonces la precisión del estimador, denotada por 𝑑, se define como: 55 𝑑 = |𝜃̂ − 𝜃| Esto significa que debemos especificar que 𝜃 y 𝜃̂ difieren en valor absoluto en una cantidad menor que 𝑑. Confiabilidad: es el grado de seguridad deseado en la precisión, y se mide en términos de probabilidad, aunque se interpreta con base en el muestreo repetido (Cochran, 1985). Así, 1−𝛼 = confiabilidad donde 𝛼 toma valores entre 0 y 1. La confiabilidad, generalmente, se expresa en porcentaje y los valores usuales son desde 80%, observándose con más frecuencia 90% y 95%. El postulado probabilístico siguiente especifica la relación entre los términos precisión y confiabilidad: 𝑃⌊|𝜃̂ − 𝜃| ≤ 𝑑⌋ = 1 − 𝛼 que es igual a: 𝑃⌊−𝑑 ≤ 𝜃̂ − 𝜃 ≤ 𝑑⌋ = 1 − 𝛼 (2.1) La ecuación anterior indica que la probabilidad de que la diferencia entre el estimador y el parámetro tome valores dentro de un intervalo delimitado por los valores −𝑑 y 𝑑, es 1 − 𝛼. La determinación de un límite específico con su confiabilidad asociada (1 − 𝛼) nos ayuda a comparar diseños diferentes (métodos de selección de la muestra) para especificar el procedimiento que dé la precisión deseada con un costo mínimo. 2.18 Elementos para elegir la precisión o margen de error 56 Para los investigadores inexperimentados en el diseño de encuestas donde se necesitan muestras, fijar la precisión es una labor confusa. En muchas ocasiones los investigadores no saben cuánto grado de precisión desean ni tienen idea alguna de la respuesta. Sin embargo, la elección adecuada de la precisión es fundamental para la toma de decisiones acertadas, por lo que a continuación damos algunos elementos para su determinación. Si la variable a medir es dicotómica recomendamos una precisión menor de 8%. Por ejemplo, si se desea estimar y comparar los porcentajes de personas que tienen diabetes en dos estados de la república mexicana, podríamos elegir una precisión de 5%. Sin embargo, si se tiene información de que los porcentajes en ambos estados son muy similares, para poder tomar una decisión más certera sobre si el porcentaje de diabéticos entre los estados es distinto, debemos de elegir un porcentaje de error más pequeño, digamos 2.5%, para poder discriminar con mayor confiabilidad. Ahora, suponga que la Secretaría de Economía desea estimar en el país el porcentaje de familias que tienen ingresos menores de 2,000 pesos mensuales y así determinar el porcentaje de familias que viven en extrema pobreza. En este caso se puede elegir una precisión de 7% y con los resultados obtenidos se tendrá una imagen bastante clara del porcentaje de familias en esta situación. Además, si la Secretaría de Economía persigue implementar un programa para subsidiar con 1,000 pesos mensuales a cada una de las familias en este estrato, una estimación con un error de 7% puede provocar que al momento de implementar dicho programa el presupuesto para tal fin no alcance, por lo que se sugiere considerar un error más pequeño. Si la variable respuesta es continua, de igual manera se recomienda una precisión menor de 8% del promedio verdadero o estimado. Esto significa que para poder estimar la precisión del promedio o el total, se necesita tener idea del valor verdadero del promedio o total. En caso de que no se tenga idea alguna, se pueden estimar a partir de una muestra preliminar (piloto). Por ejemplo, suponga que un nutriólogo desea estimar el promedio de calorías consumidas de niños de seis años en el estado de Colima, como experto sabe que el consumo promedio de calorías por niño debe ser de 400. Por lo tanto, él puede elegir una precisión de 20 calorías, que representa 5% del promedio de consumo recomendado (𝑑 = 0.05*400 = 20). En este caso, el nutriólogo es un experto y tiene una 57 idea bastante clara del valor del promedio. Pero suponiendo que no tiene la más remota idea de este valor, él puede estimar este promedio con una muestra piloto y obtener su precisión también multiplicando 0.05 por el promedio de la muestra preliminar. Ahora, suponga que un investigador desea conocer el consumo promedio en pesos de energía eléctrica por hogar en el estado X. Si no tiene la mínima idea de ello, puede proceder a consultar a un experto en el tema o realizar un muestreo piloto y con base en esto tener una estimación tentativa del promedio. Suponga que ya obtuvo el promedio preliminar (500 pesos mensuales por hogar), entonces la precisión que utilizará para calcular su muestra definitiva será igual a 25, que equivale a 5% del promedio preliminar 𝑑 = 0.05*500 = 25. Si, además, el investigador desea comparar en dicho estado los consumos promedios entre los distintos municipios que sabe tienen un desarrollo económico similar, quizá sea necesario una precisión más pequeña. Por el contrario, si desea comparar los municipios del norte, centro y sur que, de antemano, sabe que son distintos, la precisión podría ser aceptable. Por otro lado, si el parámetro que se desea estimar es el total, ya sea a partir de variables dicotómicas o continuas, se procede de igual forma y se recomienda un error menor de 8% del total preliminar. Por ejemplo, si se desea estimar el total de drogadictos en el estado de Colima en el año 2015, para fijar la precisión necesitamos una estimación tentativa del total. Si suponemos que éste es de 5,000, entonces la precisión será 𝑑 = 0.05*5,000 = 250, es decir, 5% del total preliminar. Esta forma de estimar la precisión del total es exactamente la misma (𝑑=(porcentaje/100) × valor preliminar del parámetro a estimar) que para estimar la precisión para una proporción o un promedio. El lector debe recordar que la precisión se debe calcular para el parámetro de mayor interés en su investigación, de lo contrario, debe determinar una precisión para cada parámetro y con ello obtener más de un tamaño de muestra, lo cual, además de desgastarlo, lo puede confundir. También hay que dejar claro que si se determina la precisión usando la expresión que presentamos anteriormente, (𝑑=(porcentaje/100) × valor preliminar del parámetro a estimar), el tamaño de muestra requerido usando el mismo porcentaje de error para estimar la proporción o total será igual. Lo mismo ocurrirá con el tamaño de muestra para el promedio y el total. A esta forma de fijar la precisión se le llama precisión relativa. 58 Por último, es importante mencionar que el nivel de precisión se decidirá por la cantidad de recursos disponibles para el estudio, ya que se pueden obtener resultados muy confiables con precisiones muy altas, pero ello implica mayores costos. Por otro lado, para estimar la precisión sugerimos extraer una muestra piloto que permita obtener estimaciones preliminares de los parámetros, conocer la calidad del cuestionario, las dificultades de los encuestadores, los problemas del marco de muestreo y otros detalles que nos auxilien en el diseño de la encuesta definitiva. Finalmente, también es importante dejar claro que en la mayoría de encuestas donde se trabaja con personas, los márgenes de error más usados son 3% y 5%, ya que garantizan resultados bastante confiables y costos razonables. 2.19 Uso de tablas para la distribución normal estándar y t -Student Distribución normal estándar para 𝒏 > 𝟑𝟎 Es conveniente mencionar que cuando el tamaño de la muestra es mayor a 30 elementos, los valores de la distribución t-Student son muy cercanos a los de la distribución normal estándar, por lo cual a menudo se utilizan los valores de esta última distribución en lugar de la primera. Se debe tener presente que 𝑍 representa a una variable aleatoria que tiene una distribución normal, con media cero (𝜇 = 0) y desviación estándar uno (𝜎 = 1), mejor conocida como distribución de probabilidad normal estándar. Casi siempre se usa la letra 𝑍 para indicar esta variable aleatoria especial. Como con otras variables aleatorias continuas, los cálculos de probabilidad con cualquier distribución normal se llevan a cabo determinando las áreas bajo la gráfica de la función de densidad de probabilidad. Por ejemplo, supongamos que se requiere encontrar: a) La probabilidad de que una variable aleatoria de una distribución normal estándar sea menor a 1.75, es decir, 𝑃(𝑍 < 1.75). Para encontrar tal probabilidad usamos el Cuadro A.1 del apéndice. Para esto nos ubicamos en la hilera correspondiente al valor 1.70 de 𝑍 sobre la primera columna y en la columna correspondiente al valor 0.05 de 𝑍 sobre la primera hilera. Interceptando la hilera y la columna encontramos que la probabilidad correspondiente es igual a 0.9599 (Cuadro 2.1). 59 Cuadro 2.1. Primer ejemplo para el uso de las tablas de la normal estándar. Z Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 b) La probabilidad de que una variable aleatoria normal estándar se encuentre entre 1.64 y 1.98 se representa por 𝑃(1.64 < 𝑍 < 1.98). Encontrar 𝑃(1.64 < 𝑍 < 1.98) es relativamente sencillo solamente recordando la siguiente relación: 𝑃(1.64 < 𝑍 < 1.98) = 𝑃(𝑍 < 1.98) − 𝑃(𝑍 < 1.64), con la cual únicamente es necesario repetir lo que se hizo en el inciso a) para cada componente de la resta. Al obtener de las tablas 𝑃(𝑍 < 1.98) = 0.9761 y 𝑃(𝑍 < 1.64) = 0.9495 se tiene que 𝑃(1.64 < 𝑍 < 1.98) = 0.9761 − 0.9495 = 0.0266 (véase el Cuadro 2.2). Cuadro 2.2. Segundo ejemplo para el uso de las tablas de la normal estándar. Z Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 c) Ahora, supóngase que se requiere encontrar el valor de 𝑍0 tal que la probabilidad de que una variable aleatoria normal estándar sea igual a 0.975, es decir, 𝑃(𝑍 > 𝑍0 ) = 0.975. En este caso, se procede de manera inversa al inciso a), es decir, ahora se tiene la probabilidad y se busca el valor de 𝑍0 . Por lo tanto, se busca en el Cuadro A.1 el valor de probabilidad más cercano a 0.975 y se encuentra que éste es 60 exactamente el mismo (0.975). En seguida se obtienen los valores de 𝑍 para este valor de la columna e hilera en que se ubica. En este caso, el valor de 𝑍 en la columna es de 0.06 y en la hilera 1.90, por lo que 𝑍0 = 1.90 + 0.06 = 1.96 (véase un ejemplo en el Cuadro 2.2). Sin embargo, hay que tener presente que en la práctica la confiabilidad es (1 − 𝛼), para la cual se debe encontrar el valor de 𝑍0 . Por ello, a continuación se muestra cómo llegar a partir de una confiabilidad especificada al valor de 𝑍0 = 𝑍𝛼/2 . Suponga que el investigador selecciona una confiabilidad de 90%. Así, el nivel de significancia en términos de proporción será 𝛼 = 0.1, lo que implica que el valor de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 , que expresado en términos de probabilidad es equivalente a encontrar 𝑍0.05 tal que 𝑃(𝑍 < 𝑍0.05 ) = 0.95. Por lo tanto, se busca en el Cuadro A.1 el valor de probabilidad más cercano a 0.95 y se encuentra que es igual a 0.9495. Luego, para éste valor se obtienen los valores de 𝑍 de la columna e hilera en que se ubica; en este caso el valor de 𝑍 en la columna es de 0.04 y en la hilera de 1.6, por lo que 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 = 1.6 + 0.04 = 1.64 (véase un ejemplo en el Cuadro 2.3). Cuadro 2.3. Tercer ejemplo para el uso de las tablas de la normal estándar. Z Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 Ahora suponga que el investigador selecciona una confiabilidad de 85%; esto implica que 𝛼 = 0.15. Por lo tanto, el valor de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.075 . En términos 61 de probabilidad, buscamos 𝑍0 tal que 𝑃(𝑍 < 𝑍0 ) = 1 − 0.075 = 0.925. Nuevamente, en el Cuadro 2.3 se busca el valor de probabilidad más próximo a 0.925. En seguida se obtienen los valores de 𝑍 para este valor de la columna e hilera en que se ubica. Para este caso el valor de 𝑍 en la columna es igual a 0.04 y el de la hilera 1.4. De esta manera 𝑍0 = 1.4 + 0.04 = 1.44. Es importante enfatizar que al usar esta tabla no se obtienen valores exactos sino aproximados. Finalmente, para facilitar el uso del Cuadro A.1, en el Cuadro 2.4 se presentan los valores de 𝑍𝛼/2 para los niveles de confianza más comunes. Cuadro 2.4. Valores de 𝑍𝛼/2 . Nivel de confianza 𝜶 𝜶/𝟐 𝒁𝜶/𝟐 90% 95% 97.5% 0.100 0.050 0.025 0.0500 0.0250 0.0125 1.6449 1.9600 2.2414 99% 0.010 0.0050 2.5758 Distribución t-Student para 𝒏 ≤ 𝟑𝟎 Si el investigador establece una confiabilidad de 1 − 𝛼 con un tamaño de muestra 𝑛, el valor de tablas que se desea es 𝑡0 = 𝑡𝑛−1,1−𝛼/2 , que en términos de probabilidad equivale a encontrar 𝑡0 = 𝑡𝑛−1,1−𝛼/2 tal que 𝑃(𝑡 < 𝑡0 ) = 𝑡𝑛−1,1−𝛼/2 = 1 − 𝛼/2. Para hallar este valor se usa el Cuadro 2.5, cuyos valores corresponden a una distribución t-Student con 𝑣 = 𝑛 − 1 grados de libertad que deja una probabilidad a la derecha de ellos de 1 − 𝛼/2. Por lo tanto, para usar la tabla se requiere únicamente los valores de 1 − 𝛼/2 y los grados de libertad que se obtienen en función del tamaño de la muestra. Para los casos abordados en este texto 𝑣 = 𝑛 − 1. Enseguida, en la primera columna se localizan los grados de libertad 𝑣, en la segunda hilera el valor de 1 − 𝛼/2, y en la intercepción de esta hilera y columna se obtiene el valor de 𝑡0 . Por ejemplo, suponga que un investigador fija para su estudio una confiabilidad de 90% y cuenta con un tamaño de muestra de 𝑛 = 6; esto implica que 𝛼 = 0.1 (en términos de proporción). Entonces, el valor de tablas que se desea es 𝑡0 = 𝑡6−1,1−0.05, es decir, se busca el valor de 𝑡0 tal que 𝑃(𝑡 < 𝑡0 ) = 1 − 0.05 = 0.95. Para encontrar dicho valor de 𝑡0 , 62 en el Cuadro 2.5 se busca en la primera columna los 𝑣 = 6−1 = 5 grados de libertad, en la segunda hilera el valor 𝛼/2 = 0.05, y en la intercepción se obtiene el valor de 𝑡0 = 2.0150. Para cerciorarnos de que no habrá dudas para obtener los valores 𝑡0 de tablas, damos otro ejemplo: suponga que otro investigador fija para su estudio una confiabilidad de 98% y cuenta con un tamaño de muestra de 𝑛 = 16. Por lo tanto, 𝛼/2 = 0.01 y el valor de tablas que se desea es 𝑡0 = 𝑡(15,1−0.01), que es equivalente a buscar el valor de 𝑡0 tal que 𝑃(𝑡 < 𝑡0 ) = 1 − 0.01. Para encontrar ese valor, en el Cuadro 2.5 se busca en la primera columna los 𝑣 = 16 − 1 = 15 grados de libertad, en la segunda hilera el valor de 𝛼/2 = 0.01, y en la intercepción de éstas se obtiene el valor de 𝑡0 = 2.6025. Cuadro 2.5. Ejemplo para el uso de las tablas de la distribución t-Student 𝜶/𝟐 𝒗 .25 .1 .05 .025 .01 .005 .0025 .001 .09 1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.211 318.3088 636.6192 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 05.8934 6.8688 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 03.7328 4.7028 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 180 0.6759 1.2863 1.65340 1.9732 2.3472 2.6034 2.8421 03.1361 3.3454 210 0.6757 1.2856 1.6521 1.9713 2.3442 2.5994 2.8370 03.1295 3.3375 2.20 Filosofía AIPE Históricamente, los metodólogos han enfatizado la planeación del tamaño de la muestra en la investigación empírica para obtener información útil de los estudios experimentales y observacionales desde una perspectiva de potencia analítica pura. Aunque la estructura de potencia analítica ha dominado la forma en que los investigadores conceptualizan la planeación del tamaño de muestra, no es ni el único ni el mejor acercamiento que puede tomarse para estimar el número apropiado de participantes a incluir en algún estudio de interés. Aunque la potencia estadística es innegablemente importante para un dominio de investigación, la simple obtención de la potencia adecuada no siempre provee respuestas significativas para ciertas preguntas de investigación. La obtención de 63 parámetros estimados que sean exactos puede ser una meta aun potencialmente más significativa que el obtener significación estadística. Por lo tanto, el método apropiado para la planeación del tamaño de muestra, y el mismo tamaño apropiado de la muestra, depende de las metas deseadas en una investigación. Un enfoque alternativo, según Kelly (2007), para el marco de potencia analítica para la determinación de tamaños de muestra es el que se basa en la exactitud en la estimación de parámetros (AIPE). El objetivo de AIPE es obtener parámetros estimados que correspondan con exactitud al valor de la población que representan. Conceptualmente, la exactitud puede ser definida como la distancia observada entre la estimación del parámetro y su valor verdadero poblacional. Precisión, sin embargo, es la reproductibilidad de la estimación y se define como la variabilidad de la estimación resultante. El sesgo es también un concepto importante en el contexto de exactitud y precisión. El mantener precisión constante generalmente lleva a discrepancias más grandes entre las estimaciones y el valor de la población, porque la estimación insesgada (centrada) es una propiedad deseable en los estimadores (fórmulas para hacer las estimaciones de parámetros). La definición formal de exactitud es dada por la raíz cuadrada del error cuadrado medio y puede ser expresada de la siguiente manera: 2 2 2 𝑅𝑀𝑆𝐸 = √𝐸 [(𝜃̂ − 𝜃) ] = √[𝐸(𝜃̂ − 𝐸[𝜃̂]) ] + (𝐸[𝜃̂ − 𝜃]) donde 𝜃 es el valor verdadero del parámetro de la población (Hellmann & Fowler, 1999; Rozeboom, 1996). Se puede observar que la raíz cuadrada del error cuadrático medio se puede desintegrar en dos componentes: la varianza, que es la medida de precisión, y el cuadrado del sesgo. Por lo tanto, cuando el sesgo es cero (𝐸 [𝜃̂ - 𝜃] = 0), tanto la precisión como la exactitud son equivalentes y se pueden utilizar indistintamente. En la práctica, la precisión en la estimación de parámetros suele medirse en términos de la amplitud del IC correspondiente, que se puede expresar como una proporción de 64 la desviación estándar o en la métrica de la variable dependiente. Cuanto más corta sea la amplitud de un intervalo de confianza existe menor incertidumbre acerca de los posibles valores del parámetro poblacional. Es decir, siendo este más estrecho aumenta la probabilidad de que el punto obtenido represente con precisión el valor real de la población. Por lo tanto, para que un investigador reduzca las principales fuentes de incertidumbre debe tratar de desterrar la aleatoriedad e imprecisión (Casti, 1990). La filosofía AIPE para la estimación del tamaño de muestra puede facilitar mejor el avance del conocimiento científico que el método de pruebas de hipótesis que se reduce a un método dicotómico de rechazo o no rechazo. Lo anterior significa que la determinación de un tamaño de la muestra se puede lograr a través de (o al menos) dos métodos conceptualmente diferentes, uno de ellos diseñado para obtener potencia estadística (pruebas de hipótesis) y el otro diseñado para obtener precisión estadística. Dependiendo de los intereses y los objetivos deseados de un estudio, la planificación del tamaño de muestra debe abordarse desde el enfoque de potencia analítica, el enfoque AIPE, o una combinación de ambos. Es importante resaltar que la planificación del tamaño de muestra que se aborde desde algún tipo de enfoque será diferente del otro. La distinción entre los dos tipos de enfoques es más que conceptual, dado que las diferencias en los tamaños de muestra estimados pueden ser substanciales dependiendo tanto del nivel de potencia, así como el ancho del IC deseado. Ambos tipos de enfoques, tanto el de potencia analítica como el AIPE, pueden ofrecer beneficios en ciertas situaciones, dependiendo de la(s) pregunta(s) de investigación. Está claro que ambos enfoques son importantes y en muchas circunstancias pueden usarse en conjunto para ayudar a producir estudios de calidad. Fundamentos del enfoque AIPE y la importancia de estimaciones exactas Aunque el análisis de potencia estadística (pruebas de hipótesis) ha dominado el campo de la planificación del tamaño de muestra, otra alternativa que suele ser más adecuada a las necesidades de algunos investigadores es AIPE. El objetivo de AIPE no es necesariamente obtener estimaciones de parámetros estadísticamente significativos, si no 65 estimaciones que calculen con exactitud el parámetro de la población correspondiente. En el marco de AIPE, la exactitud es relativa y se refiere a la correspondencia entre el valor de la población y su estimado. Ambos, la precisión y entonces la exactitud de un estimado, se refieren al ancho del IC formado alrededor del parámetro. La selección de un tamaño de muestra se realiza para lograr que este intervalo sea estrecho y lleve a estimaciones exactas si el estimador es insesgado. Probabilísticamente, mediante una planeación del tamaño de muestra tal que el ancho del intervalo de confianza calculado sea estrecho, los parámetros estimados tendrían mejor correspondencia al valor poblacional, dado que habrá menor incertidumbre en los puntos estimados obtenidos. A menudo, obtener los parámetros estimados exactos, lleva a un mejor entendimiento del fenómeno estudiado que la decisión rechazo - no rechazo vía la prueba de la hipótesis nula. En el campo de la investigación científica, la imprecisión es una característica de un parámetro estimado que debe eliminarse tanto como sea posible. Porque la “predicción y explicación son pilares en los cuales descansan las metas de la empresa científica” (Casti, 1990). Lograr parámetros estimados exactos no sólo facilitaría la predicción del parámetro de interés, sino que también podría ayudar cuando se formaran explicaciones sobre por qué y cómo la(s) variable(s) dependiente(s) e independiente(s) están (o no están) relacionadas entre ellas. Cuando las predicciones son exactas y las explicaciones viables están disponibles para algunos fenómenos, la verosimilitud del conocimiento puede ser realzada en un área en particular, lo cual puede tener mayores consecuencias, dado que pueden desarrollarse y posteriormente probarse teorías más fuertes y precisas. Pasos del enfoque AIPE Como ya se mencionó, el cálculo de tamaños de muestra tradicionalmente se ha efectuado bajo dos vías, que son la de potencia (prueba de hipótesis) y la de precisión (estimación de parámetros). Para estimar el tamaño de muestra bajo el MAS con enfoque tradicional se usan con mayor frecuencia las siguientes fórmulas: Para población finita cuando 𝑁 es conocida y no es muy grande (𝑁 < 5,000): 66 n NZ 2 pq Nd 2 Z 2 pq Para población infinita 𝑁 es desconocida: n Z 2 pq d2 Donde: 𝑁 es el tamaño de la población, 𝑑 es la precisión o margen de error, 𝑝 es la proporción, 𝑞 = (1 − 𝑝) y 𝑍es el cuantil 1 − 𝛼 de una distribución normal estándar. El estimar el tamaño de muestra bajo el enfoque tradicional tiene principalmente dos ventajas. Una es que es ampliamente conocida y la otra es la facilidad de su cálculo. Como desventajas se tienen que es altamente impreciso pues supone una variable normal cuando en realidad es una variable Bernulli o Binomial, además de ser una aproximación. Kupper & Hafner (1989), Kelley, Maxwell, & Rausch (2003) y Wang et al. (2005), demostraron que produce una seria subestimación del tamaño de muestra requerido. Por otra parte, existe una forma no tan popular para el cálculo de tamaño de muestra pero que asegura exactitud en la estimación de parámetros (Kupper & Hafner, 1989; Kelley et al., 2003; Kelley & Rausch, 2011; Montesinos-López, Montesinos-López, LunaEspinoza, Gaytán-Lugo, & Espinosa-Solares, 2012a). Desde el enfoque AIPE, el tamaño de la muestra se determina de tal manera que la amplitud (anchura) esperada del IC será suficientemente estrecha. El enfoque AIPE consta de dos pasos. El primero proporciona el tamaño de muestra requerido bajo el enfoque tradicional de tal manera que la amplitud esperada del IC será menor o igual al valor especificado a priori por el investigador. A este valor se le conoce como precisión o margen de error. Sin embargo, la probabilidad de que la amplitud del IC calculado con la muestra obtenida en el paso anterior sea menor que el margen de error especificado a priori, está alrededor de 0.5 (50%) (Kupper & Hafner, 1989; Kelley et al., 2003). Una vez obtenido el tamaño de muestra tradicional se procederá a calcular un tamaño de muestra con mayor precisión; para esto es necesario incrementarlo hasta asegurar que la anchura del IC sea menor o igual a la precisión especificada a priori con una alta probabilidad. A esta probabilidad se le llama nivel de 67 aseguramiento (𝛾). Por ejemplo, si un investigador estima un tamaño de muestra bajo el enfoque AIPE para estimar el promedio con un nivel de confianza de 95%, con una precisión 0.5 y un nivel de aseguramiento del 99%, entonces el tamaño de muestra resultante le asegurará que la amplitud del IC de 95% sea menor o igual 0.5 (precisión fijada a priori) con una probabilidad de al menos 99%. Es decir, se tiene una probabilidad de 1% de que no se cumpla la precisión fijada a priori en la amplitud del IC de 95% (Kupper & Hafner, 1989; Kelley et al., 2003; Kelley, 2007). Para ejemplificar el enfoque AIPE se utilizó un método para el cálculo de tamaños de muestra para proporciones binomiales que asegura ICs cortos (Montesinos-López, Montesinos-López, Santos-Fuentes, Valladares-Cellis, & Magaña-Echeverría, 2011) y consiste en lo siguiente: Primero debe hacerse la estimación puntual de la proporción: pˆ m / n donde: 𝑚 es el número de éxitos observados y 𝑛 es el tamaño de la muestra. La estimación por intervalo será (Ec. 2.2): pL B / 2 , y ,n y 1 pU B1 / 2 , y 1,n y (2.2) donde: B / 2 , y ,n y 1 y B / 2 , y ,n y 1son el límite inferior y superior del intervalo de confianza para la proporción (𝑝) con una confiabildad 1 − 𝛼. Amplitud del intervalo de confianza: w pU pL 68 donde: 𝑝𝑈 = Límite superior y 𝑝𝐿 = Límite inferior. Amplitud relativa del intervalo de confianza (Ec. 2.3): wr ( pU pL ) / p (2.3) donde: 𝑝= proporción de interés. Dado que no se conocen 𝑛 y 𝑚 no es posible calcular 𝑤𝑟 . Sin embargo, de acuerdo con Vollset (1993) y Newcombe (1998), es posible determinar la amplitud relativa promedio exacta con la siguiente expresión: n n y n y wr ( p, n) wr p 1 p y 0 y donde: 𝑤 ̅𝑟 (𝑝, 𝑛) es la amplitud requerida del intervalo de confianza y es calculada utilizando las fórmula anterior, para 𝑌 = 𝑦 dados 𝑝 y 𝑛. Ahora se procederá a calcular el tamaño de muestra inicial (o preliminar), siendo éste el paso 1: Un algoritmo que garantiza encontrar el tamaño de muestra apropiado consiste en comenzar con el tamaño de muestra inicial (𝑛0 =1), y se prosigue a encontrar el valor de 𝑛 que satisface: n y n y wr ( p, n) wr p 1 p re y 0 y n donde: 𝑟𝑒 es el error relativo, se sugiere que sea menor a 0.1 (10%), 𝑦 es el número de éxitos observados, y 𝑛 es el tamaño de muestra preliminar requerido. Después se aplicará la siguiente condición: Si la amplitud relativa promedio observada del intervalo de confianza (CIRW) es más grande que la amplitud relativa 69 deseada (𝑟𝑒), el tamaño de muestra se incrementará en una unidad y el CIRW deberá calcularse nuevamente. Este algoritmo se repetirá mientras 𝑤 ̅ 𝑟𝑖 ≥ re. donde: 𝑤 ̅ 𝑟𝑖 = Amplitud relativa promedio observada e i = representa la iteración respetiva. Sin embargo, el paso anterior no garantiza que para cualquier IC en particular la anchura observada sea lo suficientemente estrecha porque la media del CIRW, 𝑤 ̅𝑟 , será ̂ una variable aleatoria (𝑤 ̅𝑟 ) que fluctuará de muestra a muestra si no se conoce el valor exacto de 𝑝. Para demostrar esto se necesita calcular la probabilidad de obtener CIRW’s menores que el valor especificado (𝑟𝑒), el cual se calcula con la Ec. 2.4. n n y n y P( wˆ r re) I ( wr , y, p) p 1 p y 0 y (2.4) donde 𝐼(𝑤𝑟 , 𝑦, 𝑝) es una función indicadora que muestra si el valor de CIRW, calculado ̂𝑟 es considerada una con las ecuaciones 2.2 y 2.3, no es más grande que el valor de 𝑟𝑒, y 𝑤 ̅ variable aleatoria porque no se conoce el valor exacto de 𝑝. En el Cuadro 2.6 se muestra un tamaño de la muestra inicial ( n ) y tres incrementos p (𝑛𝑚100 , 𝑛𝑚300 y 𝑛𝑚800 ), cada uno con su correspondiente probabilidad de que la anchura relativa del IC esperado (CIRW) sea menor que el valor especificado ( re 0.3 y ̂ 𝑃(𝑤 ̅𝑟 < 𝑟𝑒)). Para un IC del 95%, 𝑝 es la proporción en la población, 𝑟𝑒 = 0.3 es el CIRW deseado, y el tamaño de la muestra preliminar es calculado usando la ecuación 𝑤 ̅𝑟 (𝑝, 𝑛). ̂ 𝑃(𝑤 ̅𝑟 < 𝑟𝑒) es la probabilidad de que la media del CIRW sea menor que el valor especificado ( re 0.3 ), donde 𝑟𝑒 = 0.3 es el error relativo o precisión relativa deseada. Por lo tanto, se concluye que utilizando la Ec. 2.4 sólo se garantiza una probabilidad de que se cumpla la amplitud del IC de alrededor de 50%. Cuadro 2.6. Tamaños de muestra con enfoque tradicional. 𝑝 𝑛𝑝 ̂𝑟 < 𝑟𝑒) 𝑃(𝑤 ̅ 𝑛𝑚100 ̂𝑟 < 𝑟𝑒) 𝑃(𝑤 ̅ 𝑛𝑚300 ̂𝑟 < 𝑟𝑒) 𝑃(𝑤 ̅ 𝑛𝑚800 ̂𝑟 < 𝑟𝑒) 𝑃(𝑤 ̅ 0.05 3374 0.4984 3474 0.6775 3674 0.9097 4174 0.9999 70 0.1 1600 0.4878 1700 0.8439 1900 0.9992 2400 1.00 0.15 1009 0.5094 1109 0.9607 1309 1.00 1809 1.00 0.2 713 0.5000 813 0.9982 1013 1.00 1513 1.00 0.25 536 0.4834 636 0.9999 836 1.00 1336 1.00 0.3 417 0.4773 517 1.00 717 1.00 1217 1.00 0.35 333 0.5000 433 1.00 633 1.00 1133 1.00 0.4 270 0.4769 370 1.00 570 1.00 1070 1.00 0.45 220 0.4211 320 1.00 520 1.00 1020 1.00 0.5 181 0.5522 281 1.00 481 1.00 981 1.00 Paso 2: Tamaño de muestra modificado que asegura cortos ICs. Para que la probabilidad de la amplitud relativa del IC sea alta se usa la siguiente expresión: n n y n y P( ŵr re ) I ( wr , y , p ) p 1 p y 0 y donde: 𝛾= Nivel de aseguramiento (gama). EL Cuadro 2.7 muestra los tamaños de muestra requerido (𝑛) para IC de 95% y 99%,donde 𝑝 es la proporción en la población, 𝛾 es el grado deseado de acercamiento a un IC para 𝑝 que no sea más amplio que 𝑟𝑒, 𝑟𝑒 es el CIRW relativo deseado, y 𝑛𝑚 es el tamaño de muestra modificado y requerido cuando se utiliza un nivel de aseguramiento 𝛾. Por lo tanto, se concluye que utilizando un nivel de aseguramiento (enfoque AIPE) se garantiza que con una probabilidad previamente fijada 𝛾, se cumpla la amplitud del IC, el cual depende del nivel de aseguramiento 𝛾 (comúnmente de 90 y 99%). Cuadro 2.7. Tamaños de muestra con enfoque AIPE. IC=95%. 𝑛𝑝 con p ( 𝑛𝑚 con 0.90 0.5) 𝑛𝑚 con 0.99 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 117577 29592 7496 3374 119370 30483 7937 3662 120820 31194 8280 3889 0.1 55714 14026 3554 1600 56509 14420 3747 1729 57154 14736 3899 1826 0.15 35093 8838 2240 1009 35558 9069 2353 1082 35932 9250 2442 1138 0.2 24782 6243 1583 713 25080 6391 1656 760 25321 6507 1711 796 0.25 18596 4687 1189 536 18795 4784 1238 567 18952 4862 1274 589 0.3 14472 3649 927 417 14604 3714 959 439 14708 3764 981 453 71 0.35 11526 2908 739 333 11610 2949 760 346 11677 2980 772 354 0.4 9316 2352 598 270 9366 2376 610 277 9402 2393 616 280 0.45 7598 1919 489 220 7619 1930 493 223 7634 1935 494 223 0.5 6223 1573 401 181 6224 1574 402 182 6224 1574 402 182 IC=99%. 𝑛𝑝 con P ( 𝑛𝑚 con 0.90 0.5) 𝑛𝑚 con 0.99 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 202500 50824 12805 5735 204867 52002 13380 6120 206774 52938 13840 6416 0.1 95939 24083 6068 2717 96991 24606 6325 2886 97834 25021 6525 3020 0.15 60419 15169 3823 1712 61029 15473 3974 1811 61524 15716 4090 1888 0.2 42659 10712 2700 1209 43053 10907 2796 1273 43369 11063 2870 1320 0.25 32003 8038 2026 907 32266 8168 2091 949 32474 8269 2140 980 0.3 24899 6255 1577 706 25074 6341 1619 734 25212 6408 1651 753 0.35 19825 4982 1256 562 19937 5037 1284 580 20025 5079 1302 591 0.4 16019 4027 1016 455 16084 4058 1032 465 16135 4081 1041 470 0.45 13059 3284 829 371 13088 3298 835 375 13108 3306 838 375 0.5 10691 2689 679 304 10692 2690 680 305 10692 2690 680 305 El método descrito anteriormente es para determinar tamaños de muestra exactos para estimar una proporción, garantiza IC cortos a través de dos pasos, toma en cuenta la naturaleza estocástica del IC (porque normalmente no se conoce el valor verdadero de la proporción), no tiene relación con rechazar una hipótesis nula (ya que el enfoque que utiliza es AIPE de 𝑝), y supone una prueba perfecta (sensibilidad y especificidad iguales a uno). 72 Capítulo 3. Muestreo aleatorio simple CAPÍTULO 3 Muestreo aleatorio simple Que el muestreo es imperfecto, No lo vengo a discutir. Pero es el mejor amigo, Que te ayuda a decidir. OAML E l muestreo sirve para determinar, de la mejor manera, las características que describan a la población. La cantidad de información que la muestra aporte depende del tamaño de ésta y de la variabilidad existente entre los elementos de la población en cuanto a la característica o variable de interés. El evaluador decide la forma de seleccionar la muestra y el número de unidades muestrales que se evaluarán, y con esto podrá controlar la calidad de la información extraída y la precisión requerida. Aunque es común en los estudios muestrales evaluar varias características o variables simultáneamente en cada sujeto o unidad muestral, en el estudio del muestreo probabilístico solamente se trabaja con una variable a la vez. Si se requiere se pueden estudiar todas las variables pero una por una y al final unir los resultados. Puede ocurrir el caso que de dos o más variables se obtenga otra variable que sea de interés. Esto debe considerarse como una forma de medición y la variable generada simplemente será una variable más. Con la información proveniente de la evaluación de la muestra podemos hacer inferencias sobre la población. La validez de tales inferencias depende fundamentalmente del diseño de muestreo, es decir, de la forma en que se obtuvo la muestra. Para que los principios de la probabilidad sean aplicables al hacer la inferencia, es necesario que la selección de la muestra se haga mediante una técnica de muestreo probabilístico. 73 El Muestreo Aleatorio Simple (MAS) es el más sencillo que veremos en este libro y nos dará las bases para desarrollar diseños más elaborados. 3.1 Definición y tipos de muestreo aleatorio simple La definición de MAS se refiere a que cada una de las unidades de la población tienen la misma probabilidad de ser seleccionadas (Raj, 1972). Si sabemos que cada muestra posible tiene la misma probabilidad de ser elegida, nos preguntamos ¿cuántas muestras posibles existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la selección con reemplazo y la selección sin reemplazo. Definición y tipos de muestreo Definición Se denomina muestreo aleatorio simple o completamente al azar al diseño que, habiendo decidido que el tamaño de la muestra será de 𝑛 unidades de muestreo (o simplemente de tamaño 𝑛), le asigna la misma probabilidad de ser elegida a cada una de todas las muestras posibles de ese tamaño. Es decir, cualquiera de las muestras distintas que podemos obtener de la población tendrá la misma probabilidad de ser elegida (Cochran, 1985). Con reemplazo En el muestreo con reemplazo, si el tamaño de la muestra es 𝑛 y el de la población es 𝑁, existen 𝑁 𝑛 muestras diferentes. El procedimiento de selección consiste en seleccionar una unidad que tiene la posibilidad de ser incluida nuevamente en la muestra. Esta opción genera fórmulas de estimación más fáciles, pero en la práctica tiene poco sentido medir en más de una ocasión la misma unidad muestral, salvo en diseños específicos u otros más elaborados en los que las complicaciones teóricas sugieren simplificar los supuestos en que se sustenta su análisis. Sin reemplazo En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como combinaciones se pueden hacer de N elementos de tamaño 𝑛 (𝑁 𝐶𝑛 ), cantidad que se calcula con: 𝑁! 𝐶𝑁 𝐶𝑛 = 𝑛! (𝑁 − 𝑛)! El procedimiento de integración de la muestra difiere en que una vez seleccionada una unidad, ésta ya no podrá volver a ser seleccionada. 74 Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada muestra posible, lo que haría suponer que todas las muestras posibles deberían configurarse antes de seleccionarlas (sería imposible en poblaciones grandes). Simplemente obsérvese que el número posible de muestras de una población con 100 unidades muestrales y una muestra de tamaño 15, sin reemplazo, es 100C15 = 100!/[15!(100−15)!] = 2.53338×1017, y con reemplazo es 10015 = 1×1030 muestras posibles. Afortunadamente, la definición se satisface simplemente dejando que cada unidad muestral tenga la misma oportunidad de ser incluida en la muestra; esa probabilidad es 𝑛/𝑁 y solamente necesitamos conocer una muestra, que será la que usaremos. Cuando el tamaño de la población (𝑁) es muy grande con respecto al tamaño de la muestra (𝑛) y el muestreo se lleva a cabo con reemplazo, la probabilidad de que una unidad muestral sea elegida dos veces es muy pequeña. De hecho, la probabilidad de elección de cualquier unidad una sola vez también es muy pequeña; de ahí que el MAS con reemplazo se aproxime al MAS sin reemplazo. En lo sucesivo consideraremos el MAS sin reemplazo, a menos que se indique otra especificación. También, es pertinente mencionar que este diseño de muestreo recibe diferentes nombres como muestreo simple al azar, muestreo completamente aleatorio o muestreo irrestricto al azar. 3.2 Selección de una muestra aleatoria simple Una vez que se ha determinado el número de elementos a extraer de la población, el paso siguiente consiste en seleccionarlos, de tal manera que cada uno tenga la misma probabilidad de ser seleccionado. Existen muchos métodos para este fin, entre ellos: Tabla de números aleatorios Este método consiste en extraer 𝑛 números de la tabla que estén comprendidos entre 1 y 𝑁, para lo cual se inicia en cualquier punto de la misma elegido al azar, 75 siguiendo una ruta predeterminada y tomando tantas columnas como dígitos tenga 𝑁 (recuérdese que la extracción es sin reemplazo). A continuación veamos dos ejemplos: 1. Supongamos que queremos una muestra aleatoria de cuatro personas de una población de 15 individuos enumerados del 1 al 15. Para obtener las cuatro personas, elegimos una hilera y una columna aleatoriamente del Cuadro A.3 (en el Apéndice). Suponemos que la hilera seleccionada es la 23 y la columna es la cuatro y decidimos utilizar los últimos dos dígitos del extremo derecho del grupo de cinco, que en este caso es el 10 (primer elemento de la muestra). Procedemos en cualquier dirección para obtener los individuos que restan en la muestra. Si vamos hacia abajo de la columna, el siguiente número (inmediatamente debajo del 10) es el seis. Entonces, nuestra segunda persona en la muestra sería la seis. Si seguimos, llegamos al 22, pero solamente hay 15 elementos en la población. Por consiguiente, ignoramos el 22 y continuamos hacia abajo de la columna y nos encontramos el 15. Así, nuestra tercera persona en la muestra es la 15. Para obtener la cuarta persona que conformará la muestra continuamos hacia abajo de la columna y nos encontramos el 58, luego 83, 83, 59 y 96, pero recordamos que nuestra población solamente es de 15 personas, por lo que los ignoramos y continuamos hacia abajo en la columna. Aparece un siete, así que nuestro cuarto elemento de la muestra es la persona siete. 2. Ahora supongamos que tenemos una población de 9,000 individuos (enumerados del 1 al 9,000) y necesitamos elegir una muestra aleatoria de 10 de ellos. De igual manera que el ejemplo anterior, elegimos una hilera y una columna aleatoriamente del Cuadro A.3. Suponemos que la hilera seleccionada es la cinco de la columna seis y decidimos utilizar los últimos cuatro dígitos del extremo derecho del grupo de cinco, que en este caso es el 5,838 (primer elemento de la muestra). Para obtener los restantes individuos de la muestra podemos proceder en cualquier dirección. Si decidimos proceder hacia abajo en la columna, el siguiente número (inmediatamente debajo del 5,838) es el 525. Entonces, nuestro segundo individuo en la muestra sería el 525. Siguiendo, 76 encontramos que los restantes individuos que conformarán la muestra son: 2,351, 8,605, 2,564, 7,222, 5,232, 7,291, 393 y 4,456. Extracción de papelitos numerados Este método es sencillo, pero laborioso si la población es grande, y consiste en hacer papelitos debidamente numerados entre uno y 𝑁. Se mezclan en una bolsa y se extraen sin reemplazo hasta completar 𝑛, el tamaño de la muestra. 3.3 Estimación de parámetros de interés para promedio bajo MAS Estimación de la media poblacional Al evaluar variables cuantitativas, la media (𝜇) de la variable 𝑦 es el parámetro que con mayor frecuencia nos interesa estimar. Este parámetro se define de la siguiente forma: ∑𝑁 𝑖=1 𝑦𝑖 Media de la población = 𝜇𝑦 = 𝜇 = 𝑁 Otro parámetro de gran interés es el total (𝜏𝑦 ) de la variable 𝑦 para toda la población: 𝑁 Total de la población = 𝜏𝑦 = 𝑁𝜇𝑦 = ∑ 𝑦𝑖 𝑖=1 A veces se omite el subíndice 𝑦 pues el contexto esclarece su significado. Como no tenemos todas las 𝑁 unidades muestrales de donde proviene cada 𝑦𝑖 , usamos sus estimadores. Estimador de la media y del total muestral 𝜇̂ = 𝑦̅ = ∑𝑛𝑖=1 𝑦i 𝑛 𝜏̂ = 𝑁𝑦̅ 77 (3.1) (3.2) Los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) aportados por Scheaffer, Mendenhall & Lyman (1987) se llaman estimaciones. Los estimadores son variables aleatorias que tienen propiedades estadísticas derivadas de la probabilidad, mientras que las estimaciones son simplemente números con las unidades de medición correspondientes. Los estimadores poseen algunas propiedades estadísticas deseables como el insesgamiento y la consistencia. Sin embargo, la revisión y demostración de estas propiedades no es tema de este libro. Los interesados pueden consultar algún libro de inferencia estadística (Mood et al., 1974). Estimación de la varianza La varianza es otro parámetro importante de la población y se simboliza por 𝜎 2 . Con su ayuda se hacen inferencias probabilísticas sobre la estimación de la media; también refleja la variabilidad que existe entre los valores de las variables. Este parámetro se define por la expresión: 𝜎 2𝑌 2 ∑𝑁 𝑖=1(𝑦𝑖 − 𝜇) =𝜎 = 𝑁−1 2 Al igual que 𝜇y 𝜏, 𝜎 2 también tiene su estimador muestral, el cual se obtiene de la muestra. Este estimador se denota por: 𝑆 2𝑌 = 𝑆 2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑛𝑖=1 𝑦𝑖 2 − 𝑛𝑦̅ 2 = 𝑛−1 𝑛−1 Estimador de lavarianza de la media poblacional 𝜎 2𝑦̅ 𝑁 − 𝑛 𝜎 2y = 𝑁 𝑛 (3.3) Al no conocer el parámetro 𝜎 2y incluido en la expresión (3.3), utilizamos su estimador (Scheaffer et al., 1987). 78 𝑆 2𝑦̅ = 𝑆 2𝑦 𝑁 − 𝑛 𝑆 2𝑦 𝑛 𝑆 2𝑦 = [1 − ] = [1 − 𝑓] 𝑁 𝑛 𝑁 𝑛 𝑛 (3.4) donde 𝑓 = 𝑛/𝑁 se llama fracción de muestreo y representa la proporción de la población que está incluida en la muestra, por lo que también se interpreta como la intensidad del muestreo. El factor (𝑁 − 𝑛)/𝑁 se denomina Corrección por Población Finita (CPF), el cual también puede expresarse como [1 − 𝑛/𝑁], donde el cociente 𝑛/𝑁 es la fracción de muestreo (𝑓). La importancia del factor de corrección se reduce a medida que la fracción de muestreo se hace más pequeña, es decir, cuando la muestra es muy pequeña comparada con el total de la población. Por la simplificación de los cálculos,esta magnitud suele omitirse si la fracción de muestreo es menor que 5%, esto es, si 𝑓 = (𝑛/𝑁) < 0.05. Con este estimador (3.4) y las propiedades de la distribución normal podemos establecer estimaciones por intervalo para el promedio y el total poblacional. Esto se presenta adelante con más detalle. Estimadores del total y la varianza del total poblacional 𝜇𝜏̂ = 𝜏̂ = 𝑁𝜇 (3.5) 𝜎 2𝜏̂ = 𝑁𝜎 2𝑦 (3.6) Como no conocemos los parámetros incluidos en estas expresiones (3.5 y 3.6), utilizamos sus estimadores muestrales. Estimadores del total y de la varianza del total muestral 𝜇̂ 𝜏̂ = 𝜏̂ = 𝑁𝜇̂ = 𝑁𝑦̅ (3.7) 𝑆 2𝑦 𝑁 − 𝑛 [ ] 𝑛 𝑁 (3.8) 𝑆 2𝜏̂ = 𝑁 2 79 Por lo general, la desviación estándar de los estimadores, es decir, la raíz cuadrada positiva de sus varianzas, se conoce como error estándar de la media y del total, respectivamente. Estimación por intervalo Debemos recordar que nos interesa estimar la media o el total de la población, es decir, 𝜇 o 𝜏, basándonos en la información de la muestra, esto es, 𝑦̅, 𝑆𝑦2̅ y 𝑆𝜏̂2 , los cuales ya hemos calculado. Asimismo, suponiendo que los estimadores 𝜇̂ y 𝜏̂ tienen una distribución normal, la media y el total poblacional se pueden estimar por intervalo. El Intervalo de Confianza de Wald (ICW) para el promedio (𝜇), con (1 − )100% de confiabilidad, es 𝑝𝐿 = 𝑦̅ − 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅ (3.9) 𝑝𝑈 = 𝑦̅ + 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅ donde 𝑆𝑦2̅ = 𝑁−𝑛 𝑆𝑦2 𝑁 𝑛 , 𝑡(𝑛−1,1−𝛼/2) es el cuantil 1 − 𝛼/2 de la distribución t-Student con 𝑛 − 1 grados de libertad y 𝑦̅ es el EMV para 𝜇. El ICW dado en (3.11) es fácil de calcular y permite obtener un tamaño de muestra para una confiabilidad deseada. Además, la cobertura nominal (1 − )100% normalmente es alcanzada. Es necesario aclarar la interpretación del intervalo (3.9) y el significado de los términos que aún no se han definido. Desde el punto de vista del muestreo repetido, significa que del total de muestras posibles de tamaño 𝑛, aproximadamente 100(1 − 𝛼)% de ellas producirá intervalos del tipo (3.9) que cubren el valor del parámetro, y que en 100𝛼% dará intervalos que no cubren el valor del parámetro. Nótese que cuando calculamos: 𝑦̅0 − 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅ y 𝑦̅0 + 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅ 80 𝑦̅0 indica el valor de la media muestral obtenido con la muestra específica. Asimismo, implícitamente se acepta un error de 100𝛼%, esto es, que el valor del parámetro no esté entre tales límites. El número 𝑡(𝑛−1,1−𝛼/2) representa el valor de una variable t-Student con (𝑛 − 1) grados de libertad y que deja del lado izquierdo de la curva una probabilidad de 1 − 𝛼/2. Este valor se obtiene de la distribución t-Student. Es necesario mencionar que cuando el tamaño de la muestra es grande, digamos mayor de 30, los valores de 𝑡 son muy similares a los de una variable aleatoria con distribución normal estándar, por esta razón es común utilizar los valores de 𝑍1−𝛼/2 de la variable normal estándar en lugar de los valores 𝑡(𝑛−1,1−𝛼/2) . Intervalo de confianza para la estimación del total 𝜏̂ ± 𝑡(𝑛−1,1− 𝛼/2) 𝑆𝜏̂ donde 𝜏̂ = 𝑁𝑦̅, 𝑆𝜏̂ = √𝑁 2 𝑆 2𝑦 𝑁−𝑛 𝑛 𝑁 (3.10) 𝑆 2 𝑁−𝑛 = 𝑁√ 𝑛𝑦 𝑁 El intervalo de confianza es la referencia de mayor importancia para los resultados de un muestreo. La anchura del intervalo nos indica la precisión que se ha logrado en la estimación del parámetro de interés. Por supuesto, siempre es deseable un intervalo con poca anchura, cuya amplitud depende del nivel de confiabilidad y del error estándar del estimador. Si deseamos mayor confiabilidad, el intervalo tendría que ampliarse como resultado de una 𝑡 más grande, pero habrá menor precisión. Por otro lado, el error estándar depende de la variabilidad de la población y del tamaño de la muestra. El tamaño de la muestra es el factor que podemos manipular para lograr una precisión deseada, ya que la varianza de 𝑦̅, y por lo tanto el error estándar, es cero cuando el tamaño de la muestra es igual al de la población. Tamaño de la muestra para estimar la media bajo población infinita 81 Determinar el tamaño de muestra es uno de los problemas importantes al que debe enfrentarse el usuario del muestreo. En la determinación de 𝑛 se debe considerar tanto el aspecto teórico como el práctico. Por un lado es necesario identificar el parámetro que se debe estimar, el esquema de muestreo a utilizar, la elección del estimador y las especificaciones del mismo. Por otro lado el aspecto práctico tiene gran influencia en la decisión del tamaño de muestra a usar, ya que deben tomarse en cuenta factores como el dinero y tiempo disponibles, el objetivo del estudio, la cantidad de información que se captará, el personal especializado, el tipo y la calidad de los materiales, los instrumentos para las mediciones, etcétera. A continuación se presentará un procedimiento para calcular un tamaño de muestra para estimar la media poblacional bajo el enfoque AIPE. La cantidad agregada y sustraída al promedio (𝑦̅) muestral es 𝐷 = 𝑊/2 = 𝑡(𝑛−1,1− 𝛼/2) √𝑉(𝑦̅) y por lo tanto, la amplitud del IC es igual a: 𝑆2 𝑊 = 2𝑡(𝑛−1,1− 𝛼/2) √ 𝑛 (3.11) El grado de precisión del IC puede ser concebido como 𝑊 o 𝐷 = 𝑊/2, y es el valor de mayor importancia dentro del enfoque AIPE. El valor de 𝑊 o 𝐷 puede ser fijado a priori por el investigador de acuerdo al grado de precisión deseado para la estimación del parámetro de interés. Por lo tanto, para determinar el tamaño de muestra 𝑛, para una amplitud deseada 𝜔 = 2𝑑, 𝑛 debe resolverse de la ecuación 3.11 haciendo (𝐷 = 𝑑) o (𝑊 = 𝜔). Usando cualquiera de las dos opciones: (𝐷 = 𝑑) o (𝑊 = 𝜔), el valor de 𝑛 que se obtendrá será el mismo debido a que 𝐷 = 𝑊/2 y 𝑑 = 𝜔/2. La ecuación (3.11) utiliza la relación de precisión y confiabilidad de la declaración (2.1), en este caso el parámetro 𝜃 = 𝑌̅, mientras que 𝑑 y (1 − 𝛼) indican, respectivamente, la precisión y confiabilidad fijadas de antemano por el investigador. Por lo tanto, fijando la precisión esperada 𝑑 e ignorando el factor de corrección por población finita (𝑁 − 𝑛)/𝑁 en la varianza del promedio, se resuelve la ecuación (3.11) en términos de 𝑛, (𝐷 = 𝑑) lo cual produce el siguiente tamaño de muestra: 82 𝑛= 2 2 𝑡(𝑛−1,1− 𝛼/2) 𝑆 𝑑2 (3.12) Es importante resaltar que 𝑑 representa la mitad de la amplitud del intervalo de confianza. Por lo tanto, en términos de la amplitud completa del intervalo de confianza, la fórmula es igual a: 𝑛 = 2 2 4𝑡(𝑛−1,1− 𝛼/2) 𝑆 𝜔2 . Para determinar el tamaño de muestra, esta ecuación asume varianza (𝜎 2 ) conocida, razón por la cual se reemplaza 𝜎 2 por 𝑆 2 . Además, para resolver la ecuación (3.12), si no se cuenta con una muestra piloto, también se sustituye 𝑡(𝑛−1,1− 𝛼/2) por 𝑍1−𝛼/2 . Sin embargo, en la práctica, el valor verdadero de 𝜎 2 es desconocido, por ello éste es reemplazado por la varianza muestral 𝑆 2 . Aunque la ecuación (3.12) proporciona el tamaño de muestra para estimar el promedio de acuerdo a una precisión 𝑑 deseada, este tamaño no es garantía para alcanzar tal precisión para una confiabilidad fija (véase el Cuadro 3.1). Esta varianza muestral (𝑆 2 ) será calculada con base en una muestra preliminar de tamaño 𝑛′, la cual sólo será de utilidad para calcular el tamaño de muestra definitivo, pero no para el proceso de cálculo de estimaciones por intervalo. El tamaño de muestra preliminar 𝑛′ se determina de manera arbitraria, pero dependerá de los recursos económicos y humanos disponibles, así como del tiempo y las condiciones físicas y administrativas del estudio. Está claro que a medida que se incremente 𝑛′ la estimación de la varianza poblacional será mejor. En caso de no realizar una encuesta piloto para la estimación de la varianza, se proponen las dos siguientes alternativas: Especificar el valor aproximado de la varianza con base en experiencia de estudios anteriores. Especificar el valor aproximado de la varianza mediante el conocimiento que se tenga sobre la forma de la distribución y el rango de variación de los valores de la variable bajo estudio. La Figura A.1 del Apéndice presenta fórmulas sencillas de las varianzas de distribuciones a partir de la forma y el rango de variación de la variable estudiada. 83 En el Cuadro A.1 se presentan fórmulas sencillas de las varianzas de distribuciones a partir de la forma y el rango de variación de la variable estudiada. Deming (1966) y Kish (1950) presentan cuadros similares. Como en la ecuación 3.12 se utiliza una estimación de 𝜎 2 , la amplitud del IC, 𝑊, es una variable aleatoria que varía entre muestras, esto trae como consecuencia que aproximadamente 50% de las muestras produzcan IC más grandes que 𝜔 = 2𝑑 (véase el Cuadro 3.1). Por esta razón, a continuación se presenta un procedimiento para determinar el tamaño de muestra óptimo, tomando en cuenta la variabilidad de la varianza muestral 𝑆 2 . Tamaño de muestra óptimo El tamaño de muestra óptimo 𝑛 se define como el número entero más pequeño 𝑛𝑚 tal que 𝑆2 √ 𝑃 {𝐷 = 𝑡(𝑛𝑚 −1,1−𝛼/2) ≤ 𝑑} ≥ 𝛾; 𝑛𝑚 equivalentemente, (𝑛𝑚 − 1)𝑆 2 𝑛𝑚 (𝑛𝑚 − 1)𝑑2 𝑃{ ≤ 2 2 } ≥ 𝛾. 𝜎2 𝜎 𝑡(𝑛𝑚 −1,1−𝛼/2) Note que es decir, (𝑛𝑚 −1)𝑆 2 𝜎2 (𝑛𝑚 −1)𝑆 2 𝜎2 (𝑛𝑚 −1)𝑆 2 𝜎2 = 𝜒𝑛2𝑚 −1 tiene distribución Ji-Cuadrada con 𝑛𝑚 − 1 grados de libertad, tiene distribución gamma con parámetros 𝛼 = 𝑛𝑚 −1 2 y 𝛽 = 2. Si = 𝐺𝑎((𝑛𝑚 − 1)/2,2), entonces 𝜎 2 𝑡𝑛2𝑚 −1,1−𝛼/2 𝐺𝑎((𝑛𝑚 − 1)/2,2) (𝑛𝑚 − 1)𝑑 2 84 (3.13) (3.14) tiene distribución gamma con parámetros 𝜎 ∗ = 𝑛𝑚 −1 2 y 𝛽∗ = 2 2𝜎2 𝑡(𝑛 𝑚 −1,1−𝛼/2) (𝑛𝑚 −1)𝑑2 1. La ecuación (3.13) es equivalente a: 2 𝜎 2 𝑡(𝑛 𝑚 −1,1−𝛼/2) 𝑃{ 𝐺𝑎((𝑛𝑚 − 1)/2,2) ≤ 𝑛𝑚 } ≥ 𝛾 (𝑛𝑚 − 1)𝑑2 (3.15) Por lo tanto, usando (3.15) y (3.17), el tamaño de muestra óptimo 𝑛𝑚 para lograr la precisión deseada al estimar el promedio, es el entero más pequeño 𝑛𝑚 tal que: 𝑛𝑚 ≥ 𝐺𝑎 −1 (𝛾; 2 (𝑛𝑚 −1) 2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2) 2 , (𝑛𝑚 −1)𝑑2 ), (3.16) donde 𝐺𝑎−1 es el 100𝛾 cuantil de la distribución Gamma con parámetros 𝛼 ∗ = 𝛽∗ = 2 2𝜎2 𝑡(𝑛 𝑚 −1,1−𝛼/2) (𝑛𝑚 −1)𝑑2 (𝑛𝑚 −1) 2 y , 𝑡(𝑛𝑚 −1,1−𝛼/2) es el percentil 100(1 − 𝛼/2) la distribución t-Student con 𝑛𝑚 − 1 grados de libertad, 𝛾 es la probabilidad de que la amplitud del intervalo de confianza para 𝑌̅ no sea más amplio que 𝜔 = 2𝑑, 𝜎 2 es la varianza poblacional y 𝑑 es la precisión deseada para estimar el promedio. La ecuación (3.16) proporciona el tamaño de muestra mínimo 𝑛𝑚 que garantiza que la amplitud del IC 𝑊 sea menor o igual a la precisión deseada 𝜔 = 2𝑑 con una probabilidad de al menos 𝛾. A diferencia de la ecuación (3.12), la ecuación (3.16) considera la naturaleza estocástica de la variable aleatoria 𝑆 2 . Sin embargo, como 𝑛𝑚 está en ambos lados de la ecuación (3.16), es necesario usar un procedimiento iterativo para resolver esta ecuación en términos de 𝑛𝑚 . El tamaño de muestra proporcionado en la ecuación (3.12) está basado en una estimación de 𝜎 2 debido a que esta es desconocida, lo que provoca que el nivel de aseguramiento de 𝛾 sea de alrededor de 50%. Note, además, que para un 𝑛𝑚 dado, la 1 𝛼 Si 𝜒 es una variable aleatoria que tiene distribución Gamma con parámetros 𝑎, 𝑏, entonces 𝑋 tiene distribución 𝛽 Gamma con parámetros 𝑎, 85 𝛼𝑏 𝛽 . ecuación (3.16) determina la probabilidad de que 𝑃(𝑊 ≤ 𝜔 = 2𝑑) = 𝛾, donde 𝑊 es la amplitud del IC. A continuación se presenta un ejemplo para mostrar el grado de subestimación que se origina por utilizar la ecuación (3.14) en la determinación del tamaño de muestra 𝑛. Cuadro 3.1. Tamaños de muestra, determinados con la ecuación (3.12), para estimar promedios poblacionales, con la correspondiente probabilidad de que la mitad de la amplitud del IC 𝐷 sea menor que la especificada 𝑑 = 10 y con 95% de confiabilidad. 𝑃(𝐷 ≤ 𝑑) es la probabilidad de que la mitad de la amplitud especificada del IC 𝐷 sea menor que el valor especificado 𝑑 = 10. 𝑃(𝐷 < 𝑑) se calcula con la ecuación (3.15). Los incrementos son 𝑛𝑚10 = 𝑛 + 10, 𝑛𝑚25 = 𝑛 + 25, y 𝑛𝑚50 = 𝑛 + 50. 𝝈 𝒏 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟏𝟎 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟐𝟓 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟓𝟎 𝑷(𝑫 ≤ 𝒅) 40 62 0.455 72 0.791 87 0.988 112 1.000 50 97 0.477 107 0.750 122 0.965 147 1.000 60 139 0.475 149 0.707 164 0.930 189 0.999 70 189 0.480 199 0.680 214 0.897 239 0.996 80 246 0.471 256 0.648 271 0.858 296 0.988 90 312 0.485 322 0.643 337 0.836 362 0.978 100 385 0.487 395 0.629 410 0.810 435 0.965 110 465 0.479 475 0.609 490 0.781 515 0.947 120 554 0.489 564 0.608 579 0.767 604 0.933 130 650 0.489 660 0.599 675 0.749 700 0.916 El ejemplo del Cuadro 3.1 es hecho con diversos valores para la desviación estándar (𝜎). En este mismo ejemplo, para cada tamaño de muestra se calcula la probabilidad de que la mitad de la amplitud del IC, 𝐷, sea menor que la amplitud deseada 𝑑 = 10. Observe que el tamaño de muestra requerido para estimar el promedio poblacional, calculado a partir de la ecuación (3.12), da como resultado una probabilidad alrededor de 0.50 de que la mitad del IC 𝐷 sea menor o igual a la especificada 𝑑 = 10 (véanse las columnas dos y tres del Cuadro 3.1). Por ejemplo, con 𝜎 = 50 el tamaño de muestra obtenido con la ecuación (3.12) es 𝑛 = 97 elementos y 𝑃(𝐷 < 10) = 0.477. Con 𝜎 = 80, 𝑛 = 246, pero sólo el 47.1% de las veces la mitad de los intervalos de confianza serán menores o iguales a 𝑑 = 10. 86 Cuando el tamaño de la muestra se incrementa en diez, (𝑛𝑚10 , Columna 4, Cuadro 3.1), la 𝑃(𝐷 ≤ 𝑑 = 10) también se incrementa. Por ejemplo, con 𝜎 = 50 y 𝑛 = 107, 𝑃(𝐷 < 10) = 0.750; y con 𝑛 = 122, con un incremento de 25, 𝑃(𝐷 < 10) = 0.965. Por lo tanto, los resultados del Cuadro 3.1 muestran que para obtener 𝑃(𝐷 ≤ 𝑑) = 10 con una alta probabilidad de éxito, se requiere un tamaño de muestra más grande que los proporcionados por la fórmula tradicional, Ecuación 3.12. El alto grado de subestimación que se muestra en el Cuadro 3.1 es de esperarse, porque aproximadamente en la mitad de las muestras 𝑆 2 será más grande que 𝜎 2 , y consecuentemente, debido a que la amplitud del IC, 𝑊; depende de 𝑆 2 , 𝑊 será más grande que el valor especificado 𝜔 = 2𝑑 aproximadamente en 50% del total de muestras. Sin embargo, el valor deseado de 𝑊 es el valor predeterminado 𝜔 = 2𝑑. Por lo tanto, si se usa la ecuación (3.14) para determinar el tamaño de muestra, la probabilidad de que la amplitud del IC sea menor que la amplitud deseada 𝜔 = 2𝑑 es alrededor de 0.5, es decir 𝑃(𝑊 ≤ 𝜔) ≥ 𝛾 ≈ 0.5. Aproximación del tamaño de muestra Un inconveniente al calcular 𝑛𝑚 , en la ecuación (3.16), es que no tiene una forma cerrada, requiriéndose de un procedimiento iterativo para obtener su valor exacto. Sin embargo, si en la parte derecha de la ecuación (3.16) se considera 𝑛𝑚 = 𝑛, donde 𝑛 = 2 𝑡(𝑛−1,1−𝛼/2) 𝑆2 𝑑2 , entonces la ecuación (3.16) tiene una solución cerrada en términos de 𝑛𝑚 . En este caso 𝑛𝑚 es: 𝑛𝑚 = 𝐺𝑎 −1 2 (𝑛 − 1) 2𝜎 2 𝑡(𝑛−1,1− 𝛼/2) (𝛾; , ). 2 (𝑛 − 1)𝑑 2 (3.17) La ecuación (3.17) es equivalente a: 𝜎𝑡(𝑛−1,1− 𝛼/2) 2 χ2(𝑛−1,𝛾) 𝑛𝑚 = ( ) ( ), 𝑑 𝑛−1 87 (3.18) 2 donde 𝜒(𝑛−1,𝛾) es el percentil 100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de libertad y 𝑡(𝑛−1,1− 𝛼/2) es el percentil 100(1 − 𝛼/2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, en la ecuación (3.18), el valor 𝑡(𝑛−1,1− 𝛼/2) puede sustituirse por el cuantil 1 − 𝛼/2 de la distribución normal estándar, 𝑍1−𝛼/2 . Función de densidad de probabilidades del tamaño de muestra para estimar el promedio En los resultados presentados en el Cuadro 3.1 columna 2 (calculados con ecuación 3.12) no se considera la naturaleza estocástica del IC. Esto provoca un problema serio de subestimación en el tamaño de muestra, 𝑛, e induciendo a que no se logre la precisión deseada 𝑑. Ante este problema, el tamaño de muestra 𝑛 = 2 2 𝑡(𝑛−1,1− 𝛼/2) 𝑆 𝑑2 , expuesta en la ecuación (3.12), es considerado como una variable aleatoria porque está basado en una 2 estimación de 𝜎 , es decir, 𝑛̂ = 2 2 𝑡(𝑛−1,1− 𝛼/2) 𝑆 𝑑2 . Utilizando un procedimiento similar al usado para obtener la ecuación (3.16) se tiene que: 2 2 𝑛 − 1 2𝑡(𝑛−1,1− 𝛼/2) 𝜎 𝑛̂~𝐺𝑎 ( , ) (𝑛 − 1)𝑑 2 2 ∗ con parámetros 𝛼 = 𝑛−1 2 ∗ y 𝛽 = 2 2 2𝑡(𝑛−1,1− 𝛼/2) 𝜎 (𝑛−1)𝑑2 , donde 𝑛 es el valor proporcionado por la ecuación (3.12). La media 𝐸(𝑛̂), varianza 𝑉(𝑛̂), moda curtosis 𝐸𝑘 de 𝑛̂ son 𝐸(𝑛̂) = 𝛼 ∗ 𝛽 ∗ = 𝑛−3 𝑡(𝑛−1,1−𝛼/2) 𝜎 2 𝑀𝑜 = (𝛼 ∗ − 1)𝛽 ∗ = 𝑛−1 ( 𝑑 2 2 𝑡(𝑛−1,1− 𝛼/2) 𝜎 ) , 𝑘𝑠 = (3.19) 𝑑2 2 √𝛼∗ = Mo , coeficiente de simetría 𝑠𝑘 y 2 𝑡(𝑛−1,1− 𝛼/2) 𝜎 4 , 𝑉(𝑛̂) = 𝛼 ∗ 𝛽 ∗2 = (𝑛−1) ( (2)3/2 √𝑛−1 y Ek ) , 𝑑 6 * 12 , n 1 respectivamente. Es decir, si se desea un tamaño de muestra 𝑛𝑚 , que garantice con una probabilidad dada 𝛾, para obtener una amplitud del IC para 𝑌̅ con una amplitud menor o igual a la deseada 𝑑, entonces se debe obtener el percentil 100𝛾 de la distribución de 𝑛̂, dada en la ecuación (3.19). 88 La Figura 3.1 muestra la función de densidad de probabilidad (fdp) del tamaño de muestra (𝑛) con parámetros 𝜎 = 60, IC de 95% de confiabilidad y cinco valores de precisión: 𝑑 = 5, 6, 7, 8 y 9, los cuales arrojan los tamaños de muestra siguientes: 𝑛 = 554, 385, 283, 217 y 171, respectivamente. Los resultados muestran que si la varianza es constante y la confiabilidad es de 95%, a mayor precisión deseada (𝑑), se requieren tamaños de muestra mayores, 𝑛 = 554, 385, 283, 217 y 171, y la fdp presenta mayor variabilidad (Figura 3.1; Cuadro 3.2, columna 8). Sin embargo, no existe una diferencia significativa en el parámetro de escala 𝛽 ∗ en estas cinco fdp (Cuadro 3.2, columna 6), lo cual implica que las diferencias encontradas en la varianza 𝑉(𝑛̂) (columna 8, Cuadro 3.2) se deben principalmente al parámetro de forma 𝛼 ∗ (Cuadro 3.2, columna 4). Esto muestra que los tamaños de muestra 𝑛 de las fdp con menor precisión, valores 𝑑 más grandes, son más confiables que los proporcionados para mayor precisión, valores 𝑑 más pequeños. Esto también se corrobora en el valor de la curtosis, donde las amplitudes deseadas más grandes presentan mayor valor (Cuadro 3.2, columna 10 y Figura 3.1). Por otro lado, la media de cada fdp es igual al tamaño de muestra 𝑛 calculado con la ecuación (3.12), lo que indica que el tamaño de muestra que proporciona la ecuación (3.12) en realidad es la media de la fdp de 𝑛̂, razón por la cual 𝑃(𝑛̂ ≤ 𝑛) ≈ 0.5. Además, la pdf de 𝑛̂ es asimétrica porque es una v.a. gamma, observándose (Cuadro 3.2, columna 9) que a menor precisión (valores más grandes de 𝑑) más asimétrica es su distribución. Cuadro 3.2. Propiedades de la fdp de 𝑛̂, donde 𝜎 = 60, IC de 95% de confiabilidad, y 𝑑 = 5, 6, 7, 8 y 9, los cuales arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171. Coeficiente de fdp 𝒅 𝒏 𝜶∗ 𝒕𝒏−𝟏,𝟏−𝜶/𝟐 𝜷∗ Media Varianza fdp 1 5 554 276.5 1.964 2.009 555.599 1116.422 0.120 0.022 fdp 2 6 385 192 1.966 2.013 386.579 778.350 0.144 0.031 fdp 3 7 283 141 1.968 2.019 284.668 574.722 0.168 0.043 fdp 4 8 217 108 1.971 2.023 218.524 442.155 0.192 0.056 fdp 5 9 171 85 1.974 2.038 173.189 352.874 0.217 0.071 89 simetría Curtosis Figura 3.1. Fdp de 𝑛̂, con 𝜎 = 60, IC con 95% de confiabilidad, y 𝑑 = 5, 6, 7, 8 y 9, los cuales arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171. Con los resultados anteriores se entiende mejor el por qué los tamaños de muestra que proporciona la ecuación (3.12) producen una subestimación grave en el tamaño de muestra. Se observa en la Figura 3.1 y el Cuadro 3.2 que el tamaño de muestra 𝑛 que arroja la ecuación (3.12) es el valor esperado de la fdp de 𝑛̂, por ello solo garantiza una probabilidad alrededor de 0.5 de que la amplitud del IC resultante sea menor a la amplitud fijada a priori 𝜔. Comparación de los métodos propuestos En el Cuadro 3.3 se presenta la comparación de la solución aproximada (Ecuación 3.18) y exacta (Ecuación 3.16) para el cálculo del tamaño de muestra, con un IC de 95% de confiabilidad, 𝑑 = 10, 15, 20 y 25, 𝛾 = 0.8, 0.9 y 0.99 y 𝜎 de 30 a 110 con incrementos de 10. En el Cuadro 3.3 se aprecia que para 𝛾 = 0.8, en las 36 combinaciones producto de los cuatro valores de 𝑑 y las nueve desviaciones estándar 𝜎, los tamaños de muestra aproximados son prácticamente iguales a los exactos. En la mayoría de los casos el método aproximado es mayor en una unidad. Sin embargo, al aumentar 𝛾 se incrementan las discrepancias entre ambos métodos. Por ejemplo, con 𝛾 = 0.9, el método aproximado 90 cuenta con tres unidades más, prácticamente para todas las combinaciones, que el tamaño de muestra requerido por el método exacto; mientras que para 𝛾 = 0.99, el método aproximado tiene seis unidades más, prácticamente para todas las combinaciones, que el tamaño de muestra requerido para el método exacto. Cuadro 3.3. Comparación de los tamaños de muestra, solución aproximada (𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 ) y exacta (𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 ). IC de 95% de confiabilidad, 𝑑 = 10, 15, 20 y 25 𝛾 = 0.8, 0.9 y 0.99. 𝜎 es la desviación estándar poblacional, y 𝛾 es la probabilidad de que el IC para el promedio 𝑊 no sea mayor que la amplitud deseada 2𝑑. 𝜎 𝑑 10 15 𝑑 20 25 10 15 𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.8 25 𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.8 30 45 24 17 14 44 22 14 11 40 74 37 24 18 73 36 22 16 50 111 54 33 24 110 53 32 22 60 155 74 45 31 154 73 44 30 70 208 98 58 40 207 97 57 39 80 267 125 74 50 267 124 73 49 90 335 155 91 61 334 154 90 60 100 410 189 111 74 410 188 110 73 110 493 227 132 88 493 226 131 87 𝑔𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.9 𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.9 30 50 28 20 18 47 24 16 12 40 80 41 28 22 77 39 24 17 50 118 59 37 28 116 56 35 24 60 163 80 50 35 161 77 47 33 70 217 104 64 44 215 102 61 42 80 278 132 80 55 276 130 77 53 90 347 163 98 67 345 161 96 64 100 423 198 118 80 421 196 116 77 110 507 236 140 94 506 234 138 92 𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.99 91 20 𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.99 30 62 38 31 29 55 29 20 15 40 94 53 38 32 88 46 29 21 50 135 72 48 38 129 65 41 29 60 184 94 62 46 178 88 55 39 70 240 121 77 56 234 115 71 49 80 304 150 94 68 298 144 88 61 90 376 184 114 81 370 178 108 74 100 455 220 135 94 449 214 129 88 110 542 260 158 110 536 255 152 104 Tamaño de la muestra para estimar la media bajo población finita En la sección anterior se derivaron expresiones para determinar el tamaño de muestra para estimar el promedio, pero bajo una población infinita, es decir sin tomar en cuenta el factor de corrección por población finita (𝑁 − 𝑛)/𝑁. A continuación se presentan las expresiones para determinar el tamaño de muestra para estimar el promedio asumiendo una población finita. Sin nivel de aseguramiento la fórmula para el tamaño de muestra es igual a 𝑛= 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 2 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 (3.22) donde: 𝑛 es el tamaño de muestra para estimar la media poblacional, 𝑌̅. El tamaño de muestra obtenido con la ecuación 3.20 es una muestra estimada porque no se conoce la varianza poblacional (𝜎 2 ) y en su lugar se utiliza su estimador correspondiente (𝑆 2 ), que es igual a: 𝑆 2 = [∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 ]/(𝑛 − 1). 𝑁 es el tamaño de la población, el cual es un valor conocido. 𝑡(𝑛−1,1−𝛼⁄2) es el valor de una variable aleatoria t-Student o normal estándar que tiene a la izquierda de la curva una probabilidad de 1 − 𝛼/2. Este valor se conoce al fijar la confiabilidad deseada. 𝑑 es la mitad de la amplitud del IC deseado (la precisión), el cual es un valor conocido y establecido por el investigador. 𝑆 2 es la varianza muestral. Este valor se obtiene con los datos de una muestra preliminar de tamaño 𝑛′. Este tamaño de muestra solo garantiza una probabilidad de alrededor de 50% de que se cumpla la amplitud deseada del IC. El tamaño de muestra que garantiza precisión en la estimación de la media es igual a: 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼 𝑆 ( ∗ ⁄2) 𝑛 −1 ) 𝑁𝑑 2 92 + 𝜒2 ∗ 2 2 ( (𝛾,𝑛 −1) ) 𝑡(𝑛−1,1−𝛼 𝑆 ⁄2) 𝑛∗ − 1 (3.21) donde 𝑛 es el tamaño de muestra obtenido con la ecuación 3.22, 𝛾 es la probabilidad de 2 que el IC para el promedio no sea mayor que la amplitud deseada, 𝜒(𝛾,𝑛 ∗ −1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de libertad y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones tStudent y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, en la ecuación 3.21, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 3.1. HP produce semanalmente 𝑁 = 1,000 impresoras, de las cuales el gerente de calidad seleccionó al azar una muestra 𝑛 = 10 impresoras. La información sobre el número de fallas encontradas en cada una de las impresoras se muestra a continuación: 6, 7, 9, 8, 5, 4, 7, 8, 7 y 6. a) Estimación puntual del promedio de fallas por impresora. ∑𝑛𝑖=1 𝑦𝑖 𝑦̅ = 𝑛 6+7+9+8+5+4+7+8+7+6 𝑦̅ = = 6.7 10 b) Varianza muestral del número de fallas (𝑆 2 ). ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 𝑆 = 𝑛−1 2 𝑆2 = 62 + 72 + ⋯ + 72 + 62 − 10(6.7)2 = 2.2333 9 c) Varianza y desviación estándar de la media muestral de las fallas. 93 𝑁 − 𝑛 𝑆2 𝑆𝑦2̅ = ( )( ) 𝑁 𝑛 1,000 − 10 2.2333 𝑆𝑦2̅ = ( )( ) = 0.221 1,000 10 𝑆𝑦̅ = √𝑆𝑦2̅ = √0.221 = 0.4702 d) IC del promedio de fallas por impresora con una confiabilidad de 95%. 𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅ donde: 𝑦̅ = 6.7, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262 Por lo tanto: 6.7 ± (2.262)(0.4702) 6.7 ± 1.0634 5.6366 ≤ 𝜇 ≤ 7.7634 Es decir, con una confiabilidad de 95% se estima que el valor verdadero del promedio de fallas por impresora está entre 5.6366 y 7.7634. e) Estimación puntual del total de fallas. 𝜏̂ = 𝑁𝑦̅ = (1,000)(6.7) = 6,700 f) IC del total de fallas con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅ donde: 𝜏̂ = 6,700, 𝑁 = 1,000, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262 Por lo tanto: 94 6,700 ± (1,000)(2.262)(0.4702) 6,700 ± 1,063.4 5,636.6 ≤ 𝜏 ≤ 7,763.4 Es decir, con 95% de confianza se estima que el total de fallas en la población está entre 5,636.6 y 7,763.4. g) Ahora si se supone que las impresoras seleccionadas son una muestra preliminar de tamaño 𝑛 = 10. El tamaño de muestra necesario para estimar el promedio de fallas de tal manera que el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅) y una confiabilidad de 95% es: 𝑛∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333 y 𝑦̅ = 6.7. Como el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo 7% del promedio preliminar (𝑦̅ = 6.7). Es decir, 𝑑 = (0.07)(6.7) = 0.469. Por lo tanto: 𝑛∗ = (1, 000)(2.262)2 (2.2333) = 49.38 = 50 (1,000)(0.469)2 + (2.262)2 (2.2333) Entonces, 𝑛∗ = 50 es el número estimado de unidades muestrales (impresoras) para que la muestra tenga una precisión de ±0.469 fallas con 0.05 de probabilidad de no incluir en el IC de estimación al promedio verdadero. Es decir, 𝑛∗ impresoras es el tamaño de muestra definitivo y todos los parámetros se deben estimar tomando en cuenta dicho tamaño de muestra. El muestreo piloto únicamente es útil para verificar si el cuestionario funciona bien al momento de aplicarlo, corroborar que el marco de 95 muestreo esté correcto y obtener una estimación de la varianza. Si en el muestreo piloto se encuentra que todo funciona correctamente, ya no se miden todas las unidades muestrales del tamaño de muestra definitivo (𝑛∗), sino solamente las faltantes (𝑛∗ − 𝑛) para completarlo, pues se utilizan las de la muestra piloto (𝑛). En este ejemplo solamente se seleccionarían 40 impresoras al azar de la población porque 𝑛 = 10. h) El tamaño de muestra necesario para estimar el promedio de fallas de tal manera que el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅), una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%. 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 ) 𝑛𝑚 = 𝑁𝑑2 + 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 ) donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333, 2 2 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,49.38−1) = 74.1529 y 𝑑 = (0.07)(6.7) = 0.469. Por lo tanto: 𝑛𝑚 = 74.1529 1, 000(2.262)2 (2.2333) (49.38 − 1) 74.1529 1,000(0.469)2 + (2.262)2 (2.2333) (49.38 − 1) = 17,514.3709 = 73.7524 = 74 237.475371 Es importante mencionar que la 𝑛𝑚 estimada es el tamaño de muestra definitivo y más exacto, por lo que sólo faltará medir las unidades muestrales restantes considerando las que ya se midieron. Esto procede siempre y cuando el muestreo piloto sea considerado apropiado. Ejemplo 3.2. Una investigadora seleccionó una muestra de 𝑛 = 15 estudiantes de una universidad, cuya población es de 𝑁 = 420 estudiantes, y les pregunta su gasto semanal en pesos. Los datos son: 120, 150, 100, 80, 100, 90, 60, 70, 90, 100, 50, 90, 80, 65 y 110. 96 a) Estimación puntual del gasto semanal promedio por estudiante. ∑𝑛𝑖=1 𝑦𝑖 𝑦̅ = 𝑛 120 + 150 + 100 + ⋯ + 65 + 110 𝑦̅ = = 90.3333 15 b) Varianza muestral para el gasto (𝑆 2 ). 𝑆2 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 𝑛−1 𝑆2 = 1202 + 1502 + 1002 … + 652 + 1102 − (15)(90.3333)2 = 637.381 15 − 1 c) Varianza y desviación estándar de la media muestral para el gasto. 𝑁 − 𝑛 𝑆2 𝑆𝑦2̅ = ( )( ) 𝑁 𝑛 420 − 15 637.381 𝑆𝑦2̅ = ( )( ) = 40.9745 420 15 𝑆𝑦̅ = √𝑆𝑦2̅ = √40.9745 = 6.4011 d) Intervalo de confianza del gasto promedio por estudiante. 𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅ donde: 𝑦̅ = 90.3333, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145 Por lo tanto: 90.3333 ± (2.145)(6.4011) 90.3333 ± 13.7304 76.6029 ≤ 𝜇 ≤ 104.0637 97 Es decir, con una confiabilidad de 95% se estima que el valor verdadero del gasto promedio por estudiante está entre 76.6029 y 104.0637. e) Estimación puntual del gasto total de los estudiantes. 𝜏̂ = 𝑁𝑦̅ = (420)(90.3333) = 37,940 pesos f) IC del gasto total de los estudiantes con 95% de confianza. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅ donde: 𝜏̂ = 37,940, 𝑁 = 420, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145 Por lo tanto: 37,940 ± (420)(2.145)(6.4011) 37,940 ± 5,766.751 32,137.249 ≤ 𝜏 ≤ 43,706.751 Es decir, el gasto total de los estudiantes estaría entre 32,137.249 y 43,706.751. g) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño 𝑛 = 15. ¿Cuál es el tamaño de muestra necesario para estimar el promedio por estudiante, de tal manera que el promedio tenga una precisión de ±6 pesos y una confiabilidad de 95%? 𝑛∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆 donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381 y 𝑑 = 6. Por lo tanto: 98 𝑛∗ = (420)(2.145)2 (637.381) = 68.2281 = 69 (420)(6)2 + (2.145)2 (637.381) Entonces, 69 son las unidades muestrales necesarias para tener una precisión de ±6 pesos con 0.95 de probabilidad de incluir en el intervalo de estimación al promedio verdadero. En otras palabras, se deben seleccionar aleatoriamente 𝑛∗ = 69 estudiantes, lo que garantiza que se cumplirá con una precisión especificada (𝑑 = 6 pesos) para el promedio con una probabilidad de 0.95. h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio por estudiante, de tal manera que el promedio tenga una precisión de ±6 pesos, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%? 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 ) 𝜒2 ∗ 2 2 ( (𝛾,𝑛 −1) ) 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑆 ⁄2) 𝑛∗ − 1 donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381, 2 2 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,68.2281−1) = 97.1017 y 𝑑 = 6. Por lo tanto: 𝑛𝑚 = 97.1017 420(2.145)2 (637.381) (68.2281 − 1) 97.1017 420(6)2 + (2.145)2 (637.381) (68.2281 − 1) = 1,779,012.471 = 91.9113 = 92. 19,355.74398 EJERCICIOS En los ejercicios siguientes estime el IC para el promedio y el total con una confiabilidad de 95%. Además, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra para estimar el promedio, con una precisión del 5% de la media, una confiabilidad de 95% y un nivel de aseguramiento (γ) de 90%? 99 Ejercicio 3.1. Una empacadora de mango produce por hora 𝑁 = 1,000 rejas. Cada reja tiene 100 mangos y el gerente de calidad seleccionó una muestra de 𝑛 = 15 rejas. La información sobre el número de mangos dañados por reja se presenta a continuación: 4, 5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4 y 5. Ejercicio 3.2. La Secretaría de Deportes del estado de Yucatán desea estimar los alumnos a nivel bachillerato de la Universidad Autónoma de Yucatán (UAdY) que tienen buena condición física, para que formen parte de la selección. Hay 𝑁 = 500 grupos y en promedio cada grupo tiene 40 alumnos. Aleatoriamente se seleccionaron nueve grupos que hicieron las pruebas necesarias. La información obtenida de los alumnos seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12 y 10 (alumnos por grupo que tienen condición física adecuada). Ejercicio 3.3. Cada hora una exportadora de limón acondiciona 𝑁 = 1,800 limones. Se desea saber si el limón cumple con las especificaciones de tamaño, y para ello se toma una muestra aleatoria de 15 limones para medirlos. Los resultados son los siguientes: 3.2, 4.8, 4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6 y 5.9. Ejercicio 3.4. La Secretaría de Turismo del estado de Michoacán desea estimar la cantidad de personas de Jalisco que visitan al estado diariamente. En la caseta GuadalajaraMichoacán ingresan por día 𝑁 = 700 vehículos en promedio. Se seleccionan 20 vehículos aleatoriamente y en cada uno se revisa la cantidad de personas que vienen en interior del vehículo. Los resultados son los siguientes: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6 y 5. 3.4 Estimación de parámetros de interés para proporción bajo MAS Estimación de una proporción poblacional Otra tarea que suele ser de interés al estudiar una población es la determinación de la proporción 𝑃 o 𝜋 de las unidades muestrales que pertenecen a dos grupos posibles. Por 100 ejemplo, para conocer la proporción de personas analfabetas de una población que apoya a cierto partido político o iniciativa gubernamental, de estudiantes de la Facultad de Telemática que tienen computadora portátil, de individuos de la ciudad de Colima que creen en Dios, etcétera. Todos estos ejemplos tienen dos opciones de respuesta: sí o no. Por lo tanto, para calcular dicha proporción se hace la suma de todas las respuestas afirmativas (sí) y se divide sobre el total de respuestas (sí y no), porque sólo se consideraron dos grupos posibles. En ocasiones son más de dos grupos a los que pueden pertenecer las unidades muestrales; este caso no lo consideraremos aquí, pero aun así se podría analizar si se considera que una unidad muestral pertenece o no a uno de los grupos. Esta aplicación también se conoce como muestreo por atributos, donde cada unidad de muestreo tiene la posibilidad de pertenecer a un grupo si posee el atributo correspondiente. La medición La medición consiste en determinar si la unidad de muestreo tiene el atributo para pertenecer a la proporción que se desea conocer. Para muchos atributos tal determinación puede ser sencilla; por ejemplo, pertenecer a cierta marca si se tiene un conjunto de 𝑁 computadoras. A veces es difícil determinar el atributo, por ejemplo, calificar a un paciente como enfermo o no pues el estado de salud es una condición en la que se presenta una gradualidad desde sano hasta enfermo. Es decir, el MAS para proporciones no considera los estados intermedios, por lo que debe establecerse un criterio unívoco que permita calificar al paciente como sano o enfermo solamente, o en su caso tomar en cuenta la sensibilidad y especificidad de la prueba diagnóstica. El estimador de la proporción poblacional 𝑷 y su relación con el estimador de una media poblacional Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y que solamente puede tomar los valores de cero o uno. De esta manera podremos usar las 101 fórmulas de los apartados anteriores, aunque conviene adecuar la simbología. Para esto, sea 𝑃𝑦 la proporción de la población de uno de los dos grupos que posee el atributo evaluado en 𝑌. La proporción de la población, 𝑃𝑌 , está definida por la siguiente expresión: 𝑃𝑌 = 𝑃 = ∑𝑁 𝐴 𝑖=1 𝑦𝑖 = 𝑁 𝑁 donde 𝐴 es el número de unidades de la población que posee el atributo. Está claro que ∑ 𝑦𝑖 es igual a 𝐴, ya que si la unidad de muestreo tiene el atributo de interés aporta un valor de uno y si no la tiene aporta un valor de cero. Si se realiza un muestreo, se entiende que no se puede tener acceso a todas las 𝑁 unidades de la población sino solamente a las 𝑛 de la muestra. Con ésta definimos un estimador de la proporción de la población, simbolizado por 𝑃̂ = 𝑝 y definido por la expresión: 𝑃̂𝑦 = 𝑝 = ∑𝑛𝑖=1 𝑦𝑖 𝑎 = 𝑛 𝑛 (3.22) De igual manera que la definición del parámetro, 𝑎 = ∑ 𝑦𝑖 representa el número de unidades de la muestra que tienen el atributo de interés. El complemento de 𝑃 es 𝑄 = (1 − 𝑃) en el caso de la población y de la muestra es 𝑞 = (1 − 𝑝) , es decir, 𝑞 es un estimador de 𝑄. La varianza de la población para una proporción Ahora bien, definamos la varianza de la población usando las mismas expresiones que en el caso de una variable continua: 𝜎 2𝑌 = 𝜎 2 = 2 2 2 ∑𝑁 ∑𝑁 𝑖=1(𝑦𝑖 − 𝜇) 𝑖=1 𝑦 𝑖 − 𝑁𝜇 = 𝑁−1 𝑁−1 (3.23) 2 Como la variable sólo toma valores de cero o uno, entonces ∑𝑁 𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 Así, haciendo la sustitución en (3.23) tenemos que: 102 𝑁𝑃−𝑁𝑃2 𝑁𝑃(1 − 𝑃) 𝑁𝑃𝑄 𝜎 = = = 𝑁−1 𝑁−1 𝑁−1 2 (3.24) 2 La expresión ∑𝑁 𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 en (3.24) representa el número de unidades en la población que tiene el atributo que se desea evaluar. Naturalmente, por ser el caso de un muestreo necesitamos un estimador de dicho parámetro, que se define por la expresión: (∑𝑛𝑖=1 𝑦𝑖 )2 𝑎 𝑎2 𝑛 2 𝑛 2 ∑ 𝑎 (1 − 𝑛) 𝑦 − 𝑎 − ∑ (𝑦 − 𝑦 ̅) 𝑛𝑝𝑞 𝑖=1 𝑖 𝑖 𝑖=1 𝑛 𝑛 𝑠 2𝑦 = = = = = 𝑛−1 𝑛−1 𝑛−1 𝑛−1 𝑛−1 (3.25) donde 𝑎 = ∑𝑛𝑖=1 𝑦𝑖 (3.25) representa el número de unidades en la muestra que tiene el atributo que se desea evaluar. En la práctica es común considerar que 𝑛 − 1 es aproximadamente igual a 𝑛, con lo cual la expresión más usada para calcular la varianza muestral es: 𝑆 2𝑦 = 𝑝𝑞. Estimación de la varianza y el error estándar Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua. Existen otros procedimientos que se conocen como aproximación y que usan la distribución normal, ello implica una corrección que hemos omitido por su poca trascendencia práctica. Así se tiene que 𝑝 se distribuye aproximadamente normal con los siguientes parámetros. Media y varianza del estimador de 𝑷 𝐸[𝑃̂] = 𝐸[𝑝] = 𝑃 𝑆 2𝑝 = ( 103 𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞 )( ) = ( )( ) 𝑁 𝑛 𝑁 𝑛 En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce como error estándar del estimador de la proporción. Usando nuevamente el Teorema Central del Límite, 𝑝 tiene aproximadamente una distribución normal con media 𝑃 (estimada por 𝑝) y una varianza 𝜎 2𝑝 (estimada por 𝑆 2𝑝 ). Total poblacional y varianza del estimador de 𝝉 𝜏̂ = 𝑁𝑝 𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞 𝑆𝜏̂ = 𝑁 ( ) ( ) = 𝑁2 ( )( ) 𝑁 𝑛 𝑁 𝑛 2 La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del estimador del total. Los intervalos de confianza Con el mismo procedimiento que el del caso de una variable continua obtenemos las expresiones para los intervalos de confianza. El intervalo de confianza para la estimación de la proporción poblacional 𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 donde 𝑆𝑝 = 𝑁−𝑛 𝑁 𝑝𝑞 𝑛 . El intervalo de confianza para la estimación del total poblacional 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 104 donde 𝑆𝑝 = 𝑁−𝑛 𝑁 𝑝𝑞 𝑛 . Varianza acotada de una proporción Las expresiones de 𝜎 2𝑦 y de 𝑠 2𝑝 incluyen el producto 𝑃𝑄 o 𝑝𝑞 que condiciona al tamaño de la varianza dado el tamaño de la población y la muestra. La varianza de la población y del estimador son máximas cuando 𝑃 o 𝑝 son iguales a 0.5, que sucede cuando el producto 𝑃𝑄 = 0.25. Esta propiedad se puede emplear para suponer una varianza máxima antes de realizar el muestreo (𝑝 = 0.5) y los resultados finales siempre serán iguales o más precisos que los esperados. En otras palabras, en el MAS para una proporción, cuando no se dispone del tiempo y de recursos para realizar un muestreo piloto que sirva para corroborar el marco de muestreo, el cuestionario y los problemas relacionados con el personal para levantar la encuesta y para estimar la varianza (𝑆 2 = 𝑝𝑞), se supone una varianza máxima (𝑆 2 = 𝑝𝑞 = (0.5)(0.5) = 0.25) para determinar el tamaño de muestra máximo (conservador). Este método sólo debe usarse cuando se tenga un marco de muestreo confiable, un cuestionario validado y encuestadores experimentados. Tamaño de muestra bajo población infinita El cálculo del tamaño de muestra efectivo (𝑛) que asegura intervalos de confianza cortos se realizará bajo el enfoque AIPE, asumiendo una prueba perfecta y homogeneidad en la población. El Estimador de Máxima Verosimilitud (EMV) de una proporción binomial (pruebas individuales) asumiendo una prueba perfecta, como se mencionó, es 𝑝̂ = 𝑦/𝑛, donde 𝑦 es el número de éxitos observados en la muestra de tamaño 𝑛. De acuerdo con Vollset (1993) and Newcombe (1998), su correspondiente IC de Wald es 𝑝𝐿 = 𝑝̂ − 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛 (3.26) 𝑝𝑈 = 𝑝̂ + 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛 105 donde 𝑉(𝑝̂ ) = 𝑝̂ (1 − 𝑝̂ ), 𝑍1−𝛼/2 es el cuantil 1 − 𝛼/2 de una distribución normal estándar, 𝑝̂ es el EMV (𝑝̂ = 𝑦/𝑛) de 𝑝. Este IC es fácil de calcular y permite derivar fórmulas de tamaño de muestra cerradas. Sin embargo, cuando 𝑛 y 𝑝 son pequeños, este IC a menudo produce límites negativos. Además, la probabilidad de cobertura de este IC algunas veces es menor que 100(1 − 𝛼)%. La cantidad añadida y substraída a la proporción observada (𝑝̂ ) en la ecuación (3.26) se define como 𝑊/2. Los límites de confianza superior e inferior son determinados por 𝑑 = 𝑊/2, la anchura media del intervalo de confianza (𝑊 es la anchura total del intervalo de confianza). El grado de precisión del intervalo de confianza puede ser conceptualizado como 𝑊 o 𝑑, siendo el valor de mayor interés dentro del marco AIPE. Como se verá, el valor de 𝑊 (o 𝑑) puede ser establecido a priori por el investigador de acuerdo con la precisión deseada del parámetro estimado. La anchura total del IC (ecuación 3.26) se 𝑉(𝑝̂) puede expresar de la siguiente manera: 𝑊 = 2𝑍1−𝛼/2 √ 𝑛 . Esto implica que la mitad de la anchura sea igual a: 𝑉(𝑝̂ ) 𝐷 = 𝑍1−𝛼/2 √ 𝑛 (3.27) Para estimar el tamaño de la muestra necesario para la proporción (𝑝) para una amplitud del IC deseada, 𝑛 debe obtenerse de la ecuación (3.27) (hacer 𝐷 = 𝑑), arrojando la siguiente expresión: 𝑛𝑝 = 2 𝑍1−𝛼/2 𝑝̂ (1 − 𝑝̂ ) 𝑑2 (3.28) La ecuación (3.29) aparece en la mayoría de los libros de muestreo estadístico (Cochran, 1977) y actualmente es utilizada para obtener el número requerido de individuos para estimar 𝑝 bajo MAS. El mayor inconveniente de la ecuación (3.28) es que supone conocido el valor verdadero de 𝑉(𝑝), por ello en la ecuación (3.28) esta es reemplazada por la varianza poblacional 𝑉(𝑝). La fórmula (ecuación 3.28) encuentra el tamaño de muestra necesario para lograr una amplitud del IC (𝐷) suficientemente 106 estrecha para estimar la proporción de 𝑃. Sin embargo, el estimador no garantiza que la amplitud observada (𝐷) de cualquier IC sea lo suficientemente estrecha porque se utiliza una estimación de 𝑉(𝑝). En realidad, la amplitud del IC, 𝐷, es una variable aleatoria que fluctúa de muestra a muestra. Se ha mostrado que alrededor del 50% de las veces el valor observado 𝐷 es menor o igual a 𝑑 (Montesinos-López, Montesinos-López, Crossa, Eskridge, & Hernández-Suárez, 2010). Por esta razón en la siguiente sección se propone un método de muestreo que asegura con una probabilidad alta de que la amplitud del intervalo de confianza sea corta. Derivación del tamaño de muestra óptimo 𝑉(𝑝̂) La amplitud del IC para 𝑝 es 𝐷 = 𝑍1−𝛼/2 √ 𝑛 y 𝐷 debe ser menor o igual que un valor determinado (𝑑), con una probabilidad (𝛾). Por lo tanto, el tamaño de muestra óptimo se define como el valor entero más pequeño (𝑛𝑚 ) tal que 𝑃{𝐷 ≤ 𝑑} ≥ 𝛾 𝑃 {𝑍1−𝛼/2 √ 𝑝̂ (1 − 𝑝̂ ) ≤ 𝑑} ≥ 𝛾 𝑛𝑚 (3.29) Dado que la distribución de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ) = √𝑝̂ (1 − 𝑝̂ ) es desconocida, no es posible obtener una solución analítica para 𝑛𝑚 . Una alternativa es utilizar el método delta para obtener la distribución asintótica de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ). Se sabe qué 𝑝̂ = 𝑦/𝑛 y 𝑝̂ ∼̇ 𝑁 (𝑝, 𝜎 2 = 𝑝(1−𝑝) 𝑛𝑚 ). Note que 𝜎 2 ⟶ 0, si 𝑛𝑚 ⟶ ∞, ℎ(𝑥)=√𝑥(1 − 𝑥) es diferenciable con respecto a 𝑥 ∈ (0,1) y ℎ′ (𝑝) = 1−2𝑝 2√𝑝(1−𝑝) ≠ 0 para 𝑝 ≠ 1/2 . Por lo tanto, utilizando el método delta, 2 ℎ(𝑝̂ ) ∼̇ 𝑁 (ℎ(𝑝), (ℎ′ (𝑝)) 𝜎 2 ), es decir, √ pˆ (1 pˆ ) ∼̇ 𝑁 (√𝑝(1 − 𝑝), 107 (1 − 2𝑝)2 ) 4𝑛𝑚 donde ℎ(𝑝)=√𝑝(1 − 𝑝), ℎ′ (𝑝) = 1−2𝑝 . Por lo tanto, la ecuación (3.29) puede 2√𝑝(1−𝑝) reescribirse como: √ pˆ (1 pˆ ) 𝑃(𝑊 ≤ 𝜔) = 𝑃 𝑑 √𝑛𝑚 𝑍1−𝛼/2 − √𝑝(1 − 𝑝) (1 − 2𝑝)2 √ 4𝑛𝑚 ( 𝑑 𝑍1−𝛼/2 ≤ (1 − 2𝑝)2 √ 4𝑛𝑚 ( 𝑃(𝑊 ≤ 𝜔) ≈ 𝑃 𝑍 ≤ − √𝑝(1 − 𝑝) 𝑑 √𝑛𝑚 𝑍1−𝛼/2 − √𝑝(1 − 𝑝) (1 − 2𝑝)2 √ 4𝑛𝑚 ≈𝛾⇔ |1 − 2𝑝|𝑍𝛾 2 ) 𝑑 √𝑛𝑚 𝑍1−𝛼/2 − √𝑝(1 − 𝑝) (1 − 2𝑝)2 √ 4𝑛𝑚 ) 𝑛𝑚 − √𝑝(1 − 𝑝)√𝑛𝑚 − = 𝛾⇔ ≈ 𝑍𝛾 ⇔ ≈0 (3.30) Note que la Ecuación (3.30) tiene una forma cuadrática: 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, con 𝑥 = √𝑛𝑚 , 𝑎=𝑍 𝑑 1− 𝛼 2 , 𝑏 = −√𝑝(1 − 𝑝), y 𝑐 = − Utilizando 𝑥 = −𝑏+√𝑏2 −4𝑎𝑐 2𝑎 |1−2𝑝|𝑍𝛾 2 , con dos soluciones dadas por 𝑥 = −𝑏±√𝑏 2 −4𝑎𝑐 2𝑎 . para un valor fijo de 𝑑, el tamaño de muestra requerido es: 2 2𝑑|1 − 2𝑝|𝑍𝛾 √𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑍1−𝛼/2 𝑛𝑚 = 2𝑑 𝑍1−𝛼/2 ( ) 2 2 𝑍1− 𝛼 (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 2 𝑛𝑚 = 2𝑑|1 − 2𝑝|𝑍𝛾 ) 𝑍1−𝛼/2 4𝑑2 2 𝑛𝑚 = 108 𝑛𝑝 2𝑑|1 − 2𝑝|𝑍𝛾 [1 + √1 + ] 4 𝑍1−𝛼/2 𝑝(1 − 𝑝) (3.31) donde 𝑛𝑝 es el tamaño de muestra preliminar (ecuación 3.28) sin nivel de aseguramiento (𝛾 = 0.5). 𝛾 representa el grado deseado de seguridad (probabilidad requerida) para lograr una amplitud del IC (𝑊) que no supere al valor deseado (𝜔), 𝑍𝛾 es el cuantil 𝛾 de la distribución normal estándar. Note que si 𝛾 = 0.5, 𝑍𝛾 = 0 porque corresponde al cuantil 50% de una distribución normal estándar y esto provoca que la ecuación (3.31) se reduzca a la ecuación (3.28), la cual proporciona el número requerido de unidades, asumiendo varianza conocida 𝑉(𝑝̂ ), pero esto implica que la amplitud deseada se logre solamente alrededor del 50% de las veces. La ecuación (3.31) garantiza que 𝐷 será menor o igual a 𝑑 con una probabilidad 𝛾. En otras palabras, sólo 100(1 − 𝛾)% de las veces 𝐷 será mayor que la amplitud deseada (𝑑). Hay que dejar claro que los tamaños de muestra derivados anteriormente son para poblaciones infinitas, a continuación se presenta la contraparte para población finita. El lector interesado en más detalles para estimar el tamaño de muestra para una proporción puede consultar Montesino-López et al. (2012). El tamaño de muestra para estimar 𝒑 en poblaciones finitas El tamaño de muestra para estimar una proporción bajo población finita sin nivel de aseguramiento es ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 Mientras su contraparte con nivel de aseguramiento 𝛾 ≥ 0.5 es igual a 2 2𝑑|1 − 2𝑝|𝑍𝛾 1 2 𝑁𝑡(𝑛−1,1−𝛼/2) (4) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑡 ) (𝑛−1,1−𝛼/2) 𝑛𝑚𝐹 = 2 2𝑑|1 − 2𝑝|𝑍𝛾 1 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) ( ) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + ) 4 𝑡(𝑛−1,1−𝛼/2) Esta ecuación es equivalente a: 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 109 2 2𝑑|1−2𝑝|𝑍𝛾 √𝑝𝑞+√𝑝𝑞+𝑡 (𝑛−1,1−𝛼/2) donde 𝑛𝑚 = y 𝑞 = 1 − 𝑝. 2𝑑 𝑡(𝑛−1,1−𝛼/2) ( ) EJEMPLOS Ejemplo 3.3 Con la finalidad de estimar la proporción de estudiantes que fuman en una universidad, cuya población es de 𝑁 = 430 estudiantes, se seleccionó una muestra aleatoria de 𝑛 = 80 estudiantes. Si la muestra indica que 30 de los estudiantes seleccionados fuman, calcular lo que se solicita. a) Proporción verdadera de los estudiantes que fuman. ∑𝑛𝑖=1 𝑦𝑖 𝑎 30 𝑝= = = = 0.375 ó 37.5% de estudiantes fumadores. 𝑛 𝑛 80 𝑞 = 1 − 𝑝 = 1 − 0.375 = 0.625 ó 62.5% de estudiantes no fumadores. b) Desviación estándar de la proporción muestral (𝑆𝑝 ). 𝑁 − 𝑛 𝑝𝑞 𝑆𝑝 = √( )( ) 𝑁 𝑛 donde: 𝑁 = 430, 𝑛 = 80, 𝑝 = 0.375 y 𝑞 = 0.625. Por lo tanto: 430 − 80 (0.375)(0.625) 𝑆𝑝 = √( )( ) = √(0.8139)(0.0029) = 0.0488. 430 80 c) IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 110 donde: 𝑝 = 0.375, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96. Por lo tanto: 0.375 ± (1.96)(0.0488) 0.375 ± 0.09565 0.2793 ≤ 𝑃 ≤ 0.4707 Con 95% de confianza se estima que la proporción verdadera de estudiantes que fuman está entre 0.2793 y 0.4707, es decir, entre 27.93 y 47.07%. d) Total verdadero de estudiantes que fuman en la universidad. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 430 y 𝑝 = 0.375. Por lo tanto: 𝜏̂ = (430)(0.375) = 161.25. e) IC del total verdadero de estudiantes que fuman, con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 donde: 𝜏̂ = 161.25, 𝑁 = 430, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96. Por lo tanto: 161.25 ± (430)(1.96)(0.0488) 161.25 ± 41.1295 120.0938 ≤ 𝜏 ≤ 202.4062 Con 95% de confianza se estima que el total de estudiantes que fuman está entre 120.0938 y 202.4062. f) Si 𝑛 = 80 estudiantes es una muestra preliminar, el tamaño de muestra para estimar 111 la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝) y una confiabilidad de 95% es: ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde: 𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.375, 𝑞 = 0.625. Como el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo el 10% de la proporción preliminar (𝑝),. es decir, 𝑑 = (0.1)(0.375) = 0.0375. Por lo tanto: 𝑛∗ = (430)(1.96)2 (0.375)(0.625) = 257.2393 = 258. (430)(0.0375)2 + (1.96)2 (0.375)(0.625) g) Calcular el tamaño de muestra para estimar la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%. 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 2𝑑|1 − 2𝑝|𝑍𝛾 √𝑝𝑞 + √𝑝𝑞 + 𝑡 (𝑛−1,1−𝛼/2) 𝑛𝑚 = 2𝑑 𝑡(𝑛−1,1−𝛼/2) ( ) donde:𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.375, 𝑞 = 0.625, 𝑍𝛾 = 2.3263 y 𝑑 = (0.10)(0.375) = 0.0375. Primeramente se calcula el tamaño de la muestra suponiendo una población infinita: 2 112 √0.375 (0.625) + √0.375 (0.625) + 2(0.0375)|1 − 2(0.375 )|(2.3263) 1.96 𝑛𝑚 = 2(0.0375) 1.96 ( ) 0.484123 + √0.234375 + 0.022254 𝑛𝑚 = ( 0.038265 2 0.484123 + 0.506586 ) =( 0.038265 2 ) = 670.330193 Finalmente se obtiene el tamaño de la muestra suponiendo una población finita: 430 𝑛𝑚𝐹 = 670.330193 ( ) = 261.9595 = 262 estudiantes.. 430 + 670.330193 Ejemplo 3.4. Un ingeniero es responsable de un centro de cómputo con 𝑁 = 2,000 computadoras. Por descuido algunas computadoras se infectaron con el virus XXX. Con la finalidad de estimar la proporción de computadoras afectadas, se seleccionó una muestra aleatoria de 𝑛 = 50 computadoras, de las cuales sólo 22 computadoras tuvieron dicho virus. A continuación calcule lo que se pide. a) Proporción verdadera de computadoras infectadas. 𝑝= ∑𝑛𝑖=1 𝑦𝑖 𝑎 22 = = = 0.44 ó 44% infectadas. 𝑛 𝑛 50 𝑞 = 1 − 𝑝 = 1 − 0.44 = 0.56 ó 56% limpias. b) Desviación estándar de la proporción muestral (𝑆𝑝 ). 𝑁 − 𝑛 𝑝𝑞 𝑆𝑝 = √( )( ) 𝑁 𝑛 donde: 𝑁 = 2,000, 𝑛 = 50, 𝑝 = 0.44 y 𝑞 = 0.56. Por lo tanto: 2,000 − 50 (0.44)(0.56) 𝑆𝑝 = √( )( ) = √(0.975)(0.0049) = 0.0693. 2,000 50 c) IC de 95% para la proporción verdadera. 113 𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 donde: 𝑝 = 0.44, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. Por lo tanto: 0.44 ± (1.96)(0.0693) 0.44 ± 0.1358 0.3041 ≤ 𝑃 ≤ 0.5759 Con 95% de confianza se estima que la proporción verdadera de computadoras infectadas en la población está entre 0.3041 y 0.5759, es decir, entre 30.41 y 57.59%. d) Total verdadero de computadoras infectadas. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 2,000 y 𝑝 = 0.44. Por lo tanto: 𝜏̂ = (2,000)(0.44) = 880 e) Intervalo del total verdadero de computadoras infectadas en la población con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝 donde: 𝜏̂ = 880, 𝑁 = 2,000, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. Por lo tanto: 114 880 ± (2,000)(1.96)(0.0693) 880 ± 271.6 608.2787 ≤ 𝜏 ≤ 1,151.7213 Con 95% de confianza, se estima que el total de computadoras infectadas por el virus XXX, está entre 608.2787 y 1,151.7213. f) Suponga que 𝑛 = 50 computadoras es una muestra preliminar. Por lo tanto, ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.07 y una confiabilidad de 95%? 𝑛∗ = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56 y 𝑑 = 0.07. Por lo tanto: 𝑛∗ = (2,000)(1.96)2 (0.44)(0.56) 1,893.1404 = = 176.1618 = 177 2 2 (2,000)(0.07) + (1.96) (0.44)(0.56) 10.7466 g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.07, una confiabilidad de 95% y un nivel de aseguramiento (γ) de 90%? 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 2𝑑|1 − 2𝑝|𝑍𝛾 √𝑝𝑞 + √𝑝𝑞 + 𝑡 (𝑛−1,1−𝛼/2) 𝑛𝑚 = 2𝑑 𝑡(𝑛−1,1−𝛼/2) ( ) donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56, 𝑍𝛾 = 1.2816 y 𝑑 = 0.07. Primero se calcula el tamaño de la muestra para una población infinita. 115 2(0.07)|1 − 2(0.44)|(1.2816) √0.44 (0.56 ) + √0.44 (0.56) + 1.96 𝑛𝑚 = 2(0.07) 1.96 ( ) 2 2 0.496387 + √0.2464 + 0.010985 𝑛𝑚 = ( ) 0.071429 0.484123 + 0.507331 2 𝑛𝑚 = ( ) = 197.457895 0.071429 Finalmente se obtiene el tamaño de la muestra para una población finita. 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) 𝑁 + 𝑛𝑚 Por lo tanto: 2,000 𝑛𝑚𝐹 = 197.457895 ( ) 2,000 + 197.457895 𝑛𝑚𝐹 = 179.7148 = 180. EJERCICIOS En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción con una precisión de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento(𝛾) del 80%? Ejercicio 3.5. Con la finalidad de saber si la sociedad veracruzana (𝑁 = 10,000) está de acuerdo con la reforma de Pemex, se encuestó a 𝑛 = 150 personas tomadas al azar. Los resultados arrojaron que 35 personas estuvieron de acuerdo. Ejercicio 3.6. La dirección de la Facultad de Economía realizó una encuesta en la ciudad de Monterrey para saber si las personas conocían el perfil de egreso de los licenciados en 116 Economía. Se aplicó la encuesta a 𝑛 = 100 personas tomadas al azar de un total de 𝑁 = 10,000. La encuesta arrojó que 15 personas conocían el perfil de egreso. Ejercicio 3.7. La Secretaría de Salud del estado de Michoacán desea encuestar a 𝑛 = 5,000 personas seleccionadas aleatoriamente de una población de 𝑁 = 567,996 para saber si la población michoacana conoce los productos transgénicos. Los resultados muestran que 1,570 personas conocen los productos transgénicos. Ejercicio 3.8. Se aplicó una encuesta para saber cuántas personas de la ciudad de México utilizan tarjetas bancarias. La ciudad de México tiene 𝑁 = 6,500 personas y la encuesta se realizó a 𝑛 = 1,000 personas tomadas al azar. Los resultados arrojaron que 925 personas utilizaban tarjeta bancaria. 3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS Estimación de una proporción poblacional con pruebas imperfectas (𝑺𝒆 y 𝑺𝒑 menores a uno) En muchas circunstancias para la clasificación de los elementos o individuos de la muestra se requiere de una prueba de laboratorio o algún dispositivo especializado. En estos casos la mayoría de las veces el proceso de clasificación no es perfecto ya que las pruebas clasifican elementos positivos como negativos (tasa de falsos negativos) o negativos como positivos (tasas de falsos positivos). Es decir, las pruebas o métodos de clasificación son imperfectos y para realizar estimaciones más precisas es necesario tomar en cuenta la sensibilidad y especificidad de las pruebas de laboratorio. La sensibilidad (𝑆𝑒) se define como la probabilidad de clasificar correctamente a un individuo que se sabe de antemano que es positivo (tiene la enfermedad o característica de interés) como positivo. Mientras que la especificidad (𝑆𝑝) se define como la probabilidad de clasificar correctamente un individuo que se sabe que es negativo (está libre de la enfermedad) como negativo. Por supuesto que al tomar en cuenta la sensibilidad y especificidad los 117 estimadores de la proporción, los IC y el tamaño de muestra son distintos. A continuación se presentan los estimadores apropiados. De acuerdo con Rogan (1978) el estimador de la proporción tomando en cuenta la sensibilidad y especificidad de la prueba es: 𝑝∗ = 𝑝 + 𝑆𝑝 − 1 , 𝑆𝑒 + 𝑆𝑝 − 1 𝑞 ∗ = 1 − 𝑝∗ (3.32) donde 𝑝 = 𝑎/𝑛 𝑞 = 1 − 𝑝. 𝑎 denota el número de individuos positivos en la muestra de tamaño 𝑛. 𝑆𝑒y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de laboratorio. Además, note que si (𝑆𝑒 = 𝑆𝑝 = 1), la ecuación (3.32) se reduce a la ecuación (3.22). El estimador 𝑝∗ de 𝑝 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝 son conocidas, pero el sesgo es mayor si estas son desconocidas, es decir, si se usa una estimación de ellas, pero aún bajo este escenario las estimaciones resultantes son aceptables. Por ello, en este libro se asumen que 𝑆𝑒 y 𝑆𝑝 son conocidas. Bajo este contexto un estimador de la varianza de 𝑝∗ esta dado por: 𝑆𝑝2∗ = ( 𝑁−𝑛 1 𝑝𝑞 )( ) (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛 𝑁 (3.33) Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑝∗ = √𝑆𝑝2∗ . Por otro lado, un intervalo de confianza para 𝑝 esta dado por 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ . Finalmente, la fórmula para determinar el tamaño de muestra con población finita es igual a: ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞 (3.34) Sin embargo, es necesario resaltar que la fórmula anterior (𝑛∗ ) garantiza que la amplitud del intervalo de confianza se cumpla solamente 50% de las veces. Por ello a continuación se brinda la expresión apropiada para determinar el tamaño de muestra que asegura precisión en la estimación de la proporción. Primero se proporciona la 118 expresión para una población infinita (𝑛𝑚 ) y en seguida se ajusta para una población finita (𝑛𝑚𝐹 ). 2 √𝑝𝑞 + √𝑝𝑞 + 𝑛𝑚 = 2𝑑|1 − 2𝑝|𝑍𝛾 𝑡(𝑛−1,1−𝛼/2) ( 2𝑑 1 ) (𝑆𝑒 + 𝑆𝑝 − 1)2 ((3.35) 𝑡(𝑛−1,1−𝛼/2) ( ) donde 𝑑 es la mitad de la amplitud absoluta deseada del IC (precisión deseada)y 𝑍𝛾 es el cuantil 𝛾 de una distribución normal estándar. Finalmente, el tamaño de muestra que garantiza precisión en la estimación de la proporción para una población finita es igual a: 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) 𝑁 + 𝑛m donde 𝑛𝑚 se calcula con la expresión 3.35. EJEMPLOS Ejemplo 3.5. Con el objetivo de estimar la proporción de estudiantes que tienen dengue en la Facultad de Psicología de la Universidad Nacional Autónoma de México (UNAM), cuya población es de 580 estudiantes, se seleccionó una muestra aleatoria de 150 estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) y especificidad (𝑆𝑝) son de 0.96 y 0.98, respectivamente. Los resultados arrojaron que 80 de los estudiantes seleccionados tienen dengue. Calcular lo siguiente: a) La proporción verdadera de los estudiantes con dengue. 𝑎 , 𝑞 = 1 − 𝑝, 𝑛 𝑎 + 𝑆𝑝 − 1 𝑝∗ = 𝑛 , 𝑞 ∗ = 1 − 𝑝∗ 𝑆𝑒 + 𝑆𝑝 − 1 𝑝= 119 donde: 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑎 = 80 y 𝑛 = 150. Por lo tanto: 𝑝= 80 = 0.5333 = 53.33% 150 𝑞 = 1 − 𝑝 = 0.4667 = 46.67% 𝑝∗ = 80 150 + 0.98 − 1 0.513333 = = 0.5461 = 54.61% 0.96 + 0.98 − 1 0.94 𝑞 ∗ = 1 − 0.5461 = 0.4539 = 45.39% b) La varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los estudiantes. 𝑆𝑝2∗ = ( 𝑁−𝑛 1 𝑝𝑞 )( ) 2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛 𝑁 donde: 𝑁 = 580, 𝑛 = 150, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑝 = 0.5333 y 𝑞 = 0.4667. Por lo tanto: 𝑆𝑝2∗ = (0.5333)(0.4667) 580 − 150 1 ( ) 2 (0.96 + 0.98 − 1) 580 150 𝑆𝑝2∗ = (0.74138)(1.131734)(0.001659) 𝑆𝑝2∗ = 0.001392 y la desviación estándar: 𝑆𝑝∗ = √𝑆𝑝2∗ = √0.001392 = 0.037309 c) IC de 95% para la proporción verdadera. 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ donde: 𝑝∗ = 0.5461, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.037309. Por lo tanto: 120 0.5461 ± (1.96)(0.037309) 0.5461 ± 0.073126 0.472974 ≤ P ≤ 0.619226 Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de estudiantes con dengue está entre 0.472974 y 0.619226. d) El total de estudiantes con dengue en la Facultad de Psicología. 𝜏̂ = 𝑁𝑝∗ donde: 𝑁 = 580 y 𝑝∗ = 0.5461. Por lo tanto: 𝜏̂ = (580)(0.5461) = 316.738 e) Calcule un IC del total verdadero de estudiantes con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗ donde: 𝜏̂ = 316.738, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 580 y 𝑆𝑝∗ = 0.037309. Por lo tanto: 316.738 ± (580)(1.96)(0.037309) 316.738 ± 42.412871 274.3251 ≤ 𝜏 ≤ 359.1508 Es decir, con 95% de confianza se estima que el total de estudiantes está entre 274.3251 y 359.1508. 121 f) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real para estimar la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96 y una especificidad del 0.98, es: ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667, 𝑑 = 0.10(𝑝∗ ) = 0.10(0.5461) = 0.05461, 𝑆𝑒 = 0.96 y 𝑆𝑝 = 0.98. Por lo tanto: 580(1.96)2 (0.5333)(0.4667) 𝑛 = 580(0.05461)2 (0.96 + 0.98 − 1)2 + (1.96)2 (0.5333)(0.4667) ∗ 𝑛∗ = 554.5612511 = 223.2076 = 224 estudiantes 2.484508502 g) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real para estimar la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96, una especificidad del 0.98 y un nivel de aseguramiento (𝛾) de 0.99, es: 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑁 + 𝑛𝑚 √𝑝𝑞 + √𝑝𝑞 + 𝑛𝑚 = 2𝑑|1 − 2𝑝|𝑍𝛾 𝑡(𝑛−1,1−𝛼/2) ( 2𝑑 𝑡(𝑛−1,1−𝛼/2) ( 1 ) (𝑆𝑒 + 𝑆𝑝 − 1)2 ) donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667, ∗ 𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98 y 𝑑 = 0.10(𝑝 ) = 0.10(0.5461) = 0.05461. Primeramente se determina el tamaño de la muestra suponiendo una población 122 infinita: 2 𝑛𝑚 √0.5333(0.4667) + √0.5333(0.4667) + 2(0.05461)|1 − 2(0.5333)|2.3263 1 1.96 = ( ) (0.96 + 0.98 − 1)2 2(0.05461) 1.96 ( ) 2 0.49889 + √0.248891 + 0.008633 1 𝑛𝑚 = ( ) ) ( 0.8836 0.055724 2 0.49889 + 0.507468 1 𝑛𝑚 = ( ) = 369.117582 ) ( 0.8836 0.055724 Finalmente se obtiene el tamaño de la muestra suponiendo una población finita: 580 𝑛𝑚𝐹 = 369.117582 ( ) = 225.5655 = 226 estudiantes. 580 + 369.117582 Ejemplo 3.6. La Secretaría de Salud de la ciudad de Quito Ecuador desea estimar la proporción de personas que tienen influenza H1N1 en uno de sus hospitales. El hospital elegido tiene 𝑁 = 1,300 pacientes, de los cuales se seleccionó una muestra aleatoria de 𝑛 = 400. A cada paciente se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 𝑎 = 320 de los pacientes seleccionados tienen influenza H1N1. Calcular lo siguiente: a) Proporción verdadera de los pacientes que tienen influenza H1N1, con sensibilidad del 97% y especificidad del 98%. 𝑎 , 𝑞 = 1 − 𝑝, 𝑛 𝑎 + 𝑆𝑝 − 1 ∗ 𝑝 = 𝑛 , 𝑞 ∗ = 1 − 𝑝∗ 𝑆𝑒 + 𝑆𝑝 − 1 𝑝= donde: 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑎 = 320 y 𝑛 = 400 Por lo tanto: 123 𝑝= 320 = 0.8 = 80% 400 𝑞 = 1 − 𝑝 = 0.2 = 20% ∗ 𝑝 = 320 400 + 0.98 − 1 0.78 = = 0.8211 = 82.11% 0.97 + 0.98 − 1 0.95 𝑞 ∗ = 1 − 0.8211 = 0.1789 = 17.89%. b) Varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los pacientes. 𝑆𝑝2∗ = ( 𝑁−𝑛 1 𝑝𝑞 )( ) 2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛 𝑁 donde: 𝑁 = 1,300, 𝑛 = 400, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑝 = 0.8 y 𝑞 = 0.2. Por lo tanto: 𝑆𝑝2∗ = (0.8)(0.2) 1,300 − 400 1 ( ) 2 (0.97 + 0.98 − 1) 1,300 400 𝑆𝑝2∗ = (0.692308)(1.108033)(0.0004) = 0.000307 𝑆𝑝∗ = √𝑆𝑝2∗ = √0.000307 = 0.017521. c) IC de 95% para la proporción verdadera. 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ donde: 𝑝∗ = 0.8211, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.017521. Por lo tanto: 0.8211 ± (1.96)(0.017521) 0.8211 ± 0.034341 0.786759 ≤ 𝑃 ≤ 0.855441 124 Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de pacientes con influenza H1N1 está entre 0.786759 y 0.855441. d) Total de pacientes con influenza H1N1 en el hospital de Quito. 𝜏̂ = 𝑁𝑝∗ = (1,300)(0.8211) = 1067.43 e) IC del total verdadero de pacientes con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗ donde: 𝜏̂ = 1067.43, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,300 y 𝑆𝑝∗ = 0.017521. Por lo tanto: 1067.43 ± (1,300)(1.96)(0.017521) 1067.43 ± 44.643508 1022.786492 ≤ 𝜏 ≤ 1112.073508 Es decir, con 95% de confianza se estima que el total de pacientes está entre 1,022.7865 y 1,112.0735. f) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una precisión de 0.03 y una confiabilidad del 95%, cuando la especificidad es de 0.98 y la sensibilidad de 0.97%? ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2, 𝑑 = 0.03, 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98. 125 Por lo tanto: 1,300(1.96)2 (0.8)(0.2) 𝑛 = 1,300(0.03)2 (0.97 + 0.98 − 1)2 + (1.96)2 (0.8)(0.2) ∗ 𝑛∗ = 799.0528 1.6706 𝑛∗ = 478.3029 = 479 pacientes. g) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una precisión de 0.03, una confiabilidad del 95%, cuando la especificidad es de 0.98, la sensibilidad del 0.97, y el nivel de aseguramiento (γ) de 0.99? 2 √𝑝𝑞 + √𝑝𝑞 + 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑁 + 𝑛𝑚 𝑛𝑚 = 2𝑑|1 − 2𝑝|𝑍𝛾 𝑡(𝑛−1,1−𝛼/2) ( 2𝑑 𝑡(𝑛−1,1−𝛼/2) ( 1 ) (𝑆𝑒 + 𝑆𝑝 − 1)2 ) donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2, 𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98 y 𝑑 = 0.03. Primero se determinará el tamaño de la muestra suponiendo población infinita. 2 √0.8(0.2) + √0.8(0.2) + 2(0.03)|1 − 2(0.8)|2.3263 1 1.96 𝑛𝑚 = ( ) (0.97 + 0.98 − 1)2 2(0.03) 1.96 ( ) 2 0.4 + √0.16 + 0.042728 1 𝑛𝑚 = ( ) ) ( 0.9025 0.030612 2 𝑛𝑚 = ( 0.4 + 0.450253 1 ) = 854.802387. ) ( 0.9025 0.030612 Finalmente se obtendrá el tamaño de la muestra suponiendo una población finita. 126 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 Por lo tanto: 1,300 𝑛𝑚𝐹 = 854.802387 ( ) 1,300 + 854.802387 𝑛𝑚𝐹 = 515.7053 = 516 pacientes.. EJERCICIOS En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, con una precisión de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento(γ) del 90%? Ejercicio 3.9. Con el objetivo de estimar la proporción de estudiantes que tienen varicela en la facultad de turismo de la Universidad Nacional Autónoma de México (UNAM), cuya población es de 500 estudiantes, se seleccionó una muestra aleatoria de 150 estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 20 de los estudiantes seleccionados tienen varicela. Ejercicio 3.91. Con la finalidad de estimar la proporción de pacientes que tienen el virus XXX en el hospital metropolitano del estado de Jalisco, cuya población es de 850 pacientes. se seleccionó una muestra aleatoria de 100 pacientes. A cada paciente se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 17 de los pacientes seleccionados tienen el virus XXX. 127 Ejercicio 3.92. La Secretaría de Salud del estado de Guanajuato desea conocer la proporción de estudiantes afectados con el virus XY, para esto se tienen una población de 𝑁 = 750 estudiantes con una muestra al azar 𝑛 = 100 individuos. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.95 y especificidad (𝑆𝑝) de 0.97. Los resultados arrojaron que 50 de los pacientes seleccionados tienen el virus XY. Ejercicio 3.93. Una clínica en el estado de Zacatecas desea estimar la proporción de personas que tienen dengue en su hospital central, el cual tiene 𝑁 = 1,200 pacientes, de los cuales se seleccionó una muestra aleatoria de 350. A cada paciente se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝) de 0.97. Los resultados arrojaron que 45 de los pacientes seleccionados tienen dengue. 128 Capítulo 4. Muestreo aleatorio estratificado CAPÍTULO 4 Muestreo aleatorio estratificado En este mundo complejo nunca es fácil elegir. Pero con datos y muestras tú lo podrás conseguir, De una forma inteligente, que te conduzca a un buen fin. OAML C uando el costo de la investigación es excesivo y la población es heterogénea, el Muestreo Aleatorio Simple (MAS) no es, en principio, una buena opción. Por esta razón, este capítulo brinda la opción del Muestreo Aleatorio Estratificado (MAE), el cual trata de hacer aún más precisas las estimaciones que se pueden obtener con un diseño básico de muestreo como el aleatorio simple (Cochran, 1985). Muestreo aleatorio estratificado A la población de 𝑁 individuos se divide en 𝐸 subpoblaciones o estratos que no se traslapan, con respecto a criterios que puedan ser importantes en el estudio y tratando en la medida posible que exista homogeneidad dentro de cada estrato. Los estratos contienen 𝑁1 , … , 𝑁𝐸 unidades muestrales, de manera que 𝑁 = ∑𝐸𝑖 𝑁𝑖 y en cada uno de estos estratos o subpoblaciones se realiza un muestreo aleatorio simple con muestras respectivas de tamaño 𝑛𝑖 . As la muestra estratificada de tamaño 𝑛 es igual a la suma de todas las muestras de cada estrato, es decir, 𝑛 = ∑𝐸𝑖 𝑛𝑖 . En general, los estratos naturales o convenientemente definidos deberán ser homogéneos internamente y heterogéneos entre ellos, con respecto a la variable bajo estudio. Cada unidad muestral debe estar incluida en sólo un estrato, es decir, no debe 129 haber traslapes entre los estratos. Las unidades que se incluyan en un estrato deben tener un valor similar en cuanto a la variable de interés, aunque al no conocer esos valores, se puede usar otra característica para formar los estratos con la esperanza de lograr que los valores sean muy parecidos dentro de cada estrato. Los estratos formados funcionan independientemente, y se les aplica un muestreo aleatorio simple para elegir los elementos concretos que formarán parte de la muestra y obtener así las estimaciones de los parámetros que nos interesan. En ocasiones las dificultades que plantean los estratos son demasiado grandes, pues exigen un conocimiento detallado de la población, como tamaño geográfico, género, edades, niveles de estudio, etcétera (Pérez, 2000). El MAE se utiliza cuando la población es muy heterogénea y las consideraciones de costo limitan el tamaño de la muestra. Si no se toman en cuenta tanto la variabilidad como los costos diferenciados y utilizamos el MAS, las estimaciones podrían ser menos precisas o el costo sería demasiado elevado. Por otro lado, para la población estratificada habrá que determinar dos tamaños de muestra: para la población y para cada estrato, 𝑛 y 𝑛ℎ , respectivamente. 4.1 Ventajas de utilizar el MAE Algunos motivos para utilizar el muestreo aleatorio estratificado en lugar del muestreo aleatorio simple son: Produce estimaciones más precisas que las que se obtienen a partir del segundo método. El costo por observación puede ser reducido mediante la estratificación de la población. Se puede obtener información de parámetros poblacionales para cada estrato de la población. Se simplifica el trabajo administrativo y el de control, ya que se puede usar personal específico para cada estrato. 130 El tamaño de muestra será menor si la estratificación está bien definida, en comparación con el MAS. Notación Para esta técnica de muestreo necesitamos una notación adicional que distingue los elementos de la población, como la siguiente: 𝑁: el número total de unidades muestrales en la población. 𝐸: el número de estratos en la población. 𝑖: un estrato. 𝑁𝑖 : el número total de unidades en el estrato 𝑖. 𝑛𝑖 : el número de unidades en la muestra en el estrato 𝑖. 𝑗: alguna unidad muestral que siempre pertenece a algún estrato 𝑖. 𝑦𝑖𝑗 : el valor obtenido en la j-ésima unidad dentro del estrato 𝑖. 𝑊𝑖 = 𝑁𝑖 /𝑁: la ponderación, peso o tamaño relativo del estrato 𝑖. 𝑓𝑖 = 𝑛𝑖 /𝑁𝑖 : la fracción de muestreo para el estrato 𝑖. 𝑛 𝑦̅𝑖 = 𝑖 𝑦 ∑𝑖=1 𝑖𝑗 𝑛𝑖 : la media muestral del estrato 𝑖. 𝑛 𝑆𝑖2 = 𝑖 (𝑦 −𝑦 ∑𝑗=1 𝑖𝑗 ̅ 𝑖 ) 𝑛𝑖 −1 2 𝑛 = 2 𝑖 𝑦 2 −𝑛 𝑦 ∑𝑗=1 𝑖 ̅𝑖 𝑖𝑗 𝑛𝑖 −1 : la varianza en el estrato 𝑖. Si se desea conocer la cantidad de horas promedio que cierto grupo de personas de una ciudad ve la televisión, debemos pensar que habrá niños, jóvenes y adultos, y que el tiempo de horas libres varía de un grupo a otro. De esta manera dividimos la población en tres estratos, ya que es lógico afirmar que las tendencias dentro de cada estrato son similares y son homogéneas. También podemos entender que el número total de personas de la población es la suma de los elementos de los estratos. Otro ejemplo es el siguiente: si queremos conocer el ingreso promedio de las familias en Colima, donde se supone que existen tres clases sociales bien marcadas, podemos considerar las familias de la misma clase social como un estrato, ya que es homogéneo. 131 4.2 ¿Cómo seleccionar una muestra aleatoria estratificada? La selección de la muestra de cada estrato es diferente, ya que cada uno tiene características y costos de medición distintos, por lo que el número de unidades también será diferente. Por ejemplo, el tamaño de la muestra del estrato debe ser mayor si es muy variable o si contiene más unidades. Por el contrario, será menor si el costo de la medición es elevado. Antes de seleccionar una muestra es preciso considerar qué tan grande debe ser la precisión de estimación y de acuerdo con esto, seleccionar el tamaño de la muestra (Cochran, 1985). En resumen, de un estrato dado se toma una muestra más grande si: El estrato es más grande. Los elementos del estrato tienen alta variabilidad. El muestreo es más barato en el estrato. 4.3 Estimación de parámetros de interés para promedio bajo MAE Estimación de la media poblacional Supongamos que hemos tomado nuestra muestra aleatoria estratificada, y entonces nos preguntamos, ¿cómo debemos usarla para estimar los principales parámetros? Es decir, contestarnos preguntas como: ¿cuál es la media de nuestra población? o ¿cuál es el total? Si 𝜇𝑖 y 𝜏𝑖 son la media y el total para el estrato 𝑖, respetivamente, resulta obvio que 𝜏1 + 𝜏2 + ⋯ + 𝜏𝐸 = 𝜏, donde 𝜏 es el total de la población. Para comprender mejor las expresiones que nos darán la estimación de 𝜇 y 𝜏, debemos tomar en cuenta que 𝑦̅𝑖 es un estimador insesgado de 𝜇𝑖 y que 𝑁𝑦̅𝑖 es un estimador 𝑁 𝑖 insesgado del total del estrato 𝜏𝑖 = ∑𝑗=1 𝑦𝑖𝑗 , tal como en el muestreo aleatorio simple. Hasta aquí todo parece razonable, como formar el estimador de 𝜏(𝜏̂ ) con la suma de los 132 𝜏̂𝑖 y de esta manera construir un estimador para la media de la población al dividir 𝜏̂ entre 𝑁, el cual hereda la propiedad de insesgamiento (Scheaffer et al., 1987). El estimador de la media estratificada 𝑦̅𝑒𝑠𝑡𝑟 ∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖 = 𝑁 Nótese que se ha usado el subíndice estr en 𝑦̅ para señalar que la estimación se hace con el muestreo estratificado. Dado que cada estrato se maneja de manera independiente, las 𝑦̅𝑖 con 𝑖 = 1,2, … 𝐸 también son independientes. Por lo tanto, la varianza de 𝑦̅𝑒𝑠𝑡𝑟 es la suma de las varianzas de las medias de cada estrato. Este estimador es insesgado. El estimador de la varianza de la media estratificada 1 [𝑁 2 𝑉̂ (𝑦̅1 ) + 𝑁22 𝑉̂ (𝑦̅2 ) + ⋯ + 𝑁𝐸2 𝑉̂ (𝑦̅𝐸 )] 𝑁2 1 𝑆 2𝑦𝑒𝑠𝑡𝑟 = 𝑉( 𝑦̅𝑒𝑠𝑡𝑟 ) = = = 1 𝑁2 1 𝑁1 𝑆2 ∑𝐸𝑖=1 𝑁𝑖2 ( 2 𝐸 𝑁𝑖 𝑖=1 𝑁 2 𝑁𝑖− 𝑛𝑖 ( 𝑁𝑖 1 𝑁𝑖 𝑁𝑖 𝑁𝐸 𝑆2 ) (𝑛𝐸 )] 𝐸 𝑆2 ) ( 𝑛𝑖 ) 𝑖 𝑆𝑖2 ) (𝑛 ) 𝑁𝑖− 𝑛𝑖 = ∑𝐸𝑖=1 𝑊𝑖2 ( 𝑁𝐸− 𝑛𝐸 ) (𝑛1 ) + ⋯ + 𝑁𝐸2 ( 𝑁𝑖− 𝑛𝑖 𝑁2 = ∑ 𝑁1− 𝑛1 [𝑁12 ( 𝑖 𝑆2 ) ( 𝑛𝑖 ) 𝑖 = ∑𝐸𝑖=1 𝑊𝑖2 𝑆𝑦2𝑖 El siguiente paso es la obtención del intervalo de confianza de nuestra estimación. Cuando hay pocos grados de libertad en cada estrato, el procedimiento para calcular el error de muestreo (𝑡√𝑉̅ (𝑦̅𝑒𝑠𝑡𝑟 )) consiste en leer el valor de t en las tablas de la t-Student, como se hizo en el muestreo aleatorio simple, y cuando es mayor de 30 utilizaremos la tabla 𝑍 de la distribución normal estándar. El intervalo de confianza para la estimación de la media estratificada 133 𝐸 1 𝑁𝑖− 𝑛𝑖 𝑆𝑖2 2 𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √ 2 ∑ 𝑁𝑖 ( )( ) 𝑁 𝑁𝑖 𝑛𝑖 𝑖=1 𝐸 𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑊𝑖2 𝑆𝑦2𝑖 𝑖=1 Se ha revisado lo referente al estimador de la media estratificada; sin embargo, en ocasiones el principal interés es conocer el total de la población, por ejemplo, el gasto total semanal de las familias o el total de personas que visitan algún lugar turístico, o quizá la cantidad de personas que consumen un producto específico. El estimador del total estratificado 𝐸 𝜏̂𝑒𝑠𝑡𝑟 = 𝑁𝑦𝑒𝑠𝑡𝑟 = 𝑁1 𝑦1 + 𝑁2 𝑦2 + … + 𝑁𝐸 𝑦𝐸 = ∑ 𝑁𝑖 𝑦𝑖 𝑖=1 La varianza se deduce de la varianza de la media y hereda sus propiedades. Para estimar la varianza, la media y el total, debe haber al menos dos observaciones en cada estrato. La varianza del estimador del total estratificado 𝐸 𝑁𝑖 −𝑛𝑖 𝑆𝑖2 𝑉̅ (𝑁𝑦̅𝑒𝑠𝑡𝑟 ) = 𝑁 𝑉(𝑦𝑒𝑠𝑡𝑟 ) = 𝑁 ∑ 𝑊𝑖2 ( )( ) 𝑁𝑖 𝑛𝑖 2 2 (4.1) 𝑖=1 La desviación estándar se necesita para crear un intervalo de confianza del total. El intervalo de confianza 134 𝐸 𝑁𝑦𝑒𝑠𝑡𝑟 ± 𝑁𝑖 −𝑛𝑖 𝑆𝑖2 2 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑁𝑖 ( )( ) 𝑁𝑖 𝑛𝑖 𝑖=1 Determinación del tamaño de la muestra Es tiempo de planear las unidades muestrales que se deben seleccionar aleatoriamente en toda la población, y las de los estratos, para constituir una muestra que satisfaga una precisión deseada, 𝑑. Cuando se decide precisar el tamaño de muestra se deben tomar en cuenta varios factores como el tipo de muestreo, el parámetro a estimar, la precisión admisible, la varianza poblacional y el nivel de confianza de la inferencia. Además, dependiendo de las estrategias de asignación, se puede recurrir a información más específica o adicional. Anteriormente se revisaron los elementos estadísticos que se deben tomar en cuenta para obtener un tamaño de muestra preciso; sin embargo, existen otros factores que son fundamentales para tomar una decisión al respecto. Para la asignación de la muestra a cada estrato también se requiere información sobre: El número total de elementos del estrato. La variabilidad de las observaciones del estrato. El costo que representa muestrear cada estrato. De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos, se obtendrá información más precisa, por lo que a los estratos grandes les corresponden tamaños muestrales grandes. También es fácil inferir que si en algún estrato hay mucha variabilidad, debe considerarse un tamaño de muestra mayor. Por último, es importante considerar que si el costo de obtener una observación varía entre estratos, se deberán tomar muestras pequeñas en estratos donde el costo sea alto y viceversa, con el fin de minimizar el costo total del muestreo. Así, la calidad de la 135 información que se obtenga en las estimaciones provendrá directamente de 𝑛, ya que al incrementarse ésta, la varianza de la media decrecerá. Para lograr la precisión deseada usamos: 𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝜃) donde 𝑉(𝜃) es la varianza del estimador de interés y 100(1-𝛼)% es el nivel de confianza. El tamaño de muestra para estimar la media estratificada 2 𝐸 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 𝑛 = 2 𝐸 2 𝑁𝑑 2 + 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 ∗ (4.2) En la ecuación anterior 𝑊𝑖 = 𝑁𝑖 /𝑁, mientras que 𝑑 es el margen de error (precisión) que se desea aceptar en la estimación de la media. Por analogía al MAS bajo AIPE, a continuación sólo se proporciona, sin mostrar su obtención, la expresión para calcular el tamaño de muestra modificado bajo el MAE. El tamaño de muestra modificado para estimar la media estratificada 𝜒 2 (𝛾, 𝑛∗ − 1) 𝑁𝑡(2𝑛−1,1−𝛼⁄2) ∑𝐸𝑖=1 𝑊𝑖 𝑆 2𝑖 ( 𝑖 ∗ 𝑖 ) 𝑛𝑖 − 1 𝑛𝑚 = 2 ∗ 2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1) 2 ∑ 𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑆 𝑖 ( ) 𝑛𝑖∗ − 1 (4.3) donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil 100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖∗ − 1 grados de libertad (por estrato) y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2)% de la distribución t-Student con 𝑛∗ − 1 grados de libertad (también por estrato). Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar 𝑍1−𝛼/2 . 136 La asignación de la muestra El muestreo estratificado involucra 𝑖 estratos y, por tanto, 𝐸 tamaños de muestra, 𝑛𝑚 1 , 𝑛𝑚 2 , . . . , 𝑛𝑚 𝐸 correspondientes a los estratos en que se divide la población. Asimismo, se tiene el tamaño de muestra total 𝑛𝑚 , el cual es la suma de los 𝐸 tamaños de muestra relacionados con los estratos. Hay que considerar que el número de unidades del estrato influye en el tamaño de muestra. Se asignará un tamaño de muestra mayor a los estratos más grandes y uno menor a los estratos más chicos. A los estratos menos homogéneos les corresponderá un tamaño de muestra mayor, mientras que a los estratos donde el costo por unidad sea alto, se tomarán muestras más pequeñas. Por lo tanto, existen diferentes métodos de asignación de la muestra. El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño de muestra 𝑛𝑚 requerido, consiste en determinar una parte de 𝑛𝑚 , la cual será proporcional al tamaño del estrato. Algebraicamente, el criterio está representado por 𝑛𝑚 𝑖 = [(𝑁𝑖 )/𝑁]𝑛𝑚 = 𝑊𝑖 𝑛𝑚 , donde 𝑖 = 1, 2, … , 𝐸, es decir, como: 𝑛𝑚 1 = 𝑁1 𝑁2 𝑁𝐸 𝑛𝑚 , 𝑛𝑚 2 = 𝑛𝑚 , … , 𝑛𝑚 𝐸 = 𝑛 𝑁 𝑁 𝑁 𝑚 (4.4) Los estratos más grandes requieren un tamaño de muestra mayor, es decir, la asignación de 𝑛 entre los estratos es proporcional al tamaño del estrato. Selección de estratos En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato, pero ¿siempre es así? Definitivamente no. En estadística cada problema es una nueva experiencia, la cual no necesariamente tiene una respuesta única y un razonamiento lógico para llegar a la solución más satisfactoria. Este trabajo puede resultar un poco complicado y tornarse desesperante en algunas ocasiones, por lo que a continuación se dan algunas ideas útiles. 137 ¿Qué hago cuando…? ¿Cómo delimitar los estratos? ¿Se debe estratificar después de seleccionar la muestra? A veces es una tarea sencilla debido a que los estratos están implícitos y se conoce el comportamiento con base en registros antiguos, en nuestra experiencia o simplemente en la naturaleza de los resultados que deseamos obtener. ¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso cuantitativo. Habrá que construirlos dado un interés particular, porque muchas veces sólo hasta el momento de diseñar la investigación se conocen los rangos de las estimaciones. Pero también podría tener el rango de salida de los datos y algunas frecuencias en categorías generales de la variable de interés o de alguna variable altamente correlacionada. En este caso podemos usar el sencillo método acumulativo de la raíz cuadrada de la frecuencia. Los pasos del método acumulativo de la raíz cuadrada de la frecuencia son: 1. Elegimos el número de estratos que se desea obtener. 2. Sacamos por rangos la frecuencia de la variable de interés, o en su defecto a una altamente correlacionada con ella. Con estos resultados formamos una columna de datos. 3. Se forman dos columnas más, una constituida por la raíz de las frecuencias y otra por su raíz acumulada. 4. Se divide la frecuencia acumulada final entre el número de estratos. Este resultado es el Ancho de la Clase (AC). 5. Se utiliza la ecuación AC𝑖𝑗 = 𝑖 ∗ AC; 𝑖 = 1,2, … 𝐸, donde 𝑖 representa el estrato. 6. Se puede delimitar con las marcas de clase por estrato, eligiendo la raíz de la frecuencia acumulada más cercana a la marca de clase y así cada estrato estará formado por todas las clases de la variable original que le correspondan. 138 EJEMPLOS Ejemplo 4.1. En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se desea estimar el promedio de plantas por hectárea que en determinada etapa del cultivo se infectaron de alguna enfermedad. De acuerdo con las condiciones ecológicas en la región, se siembran tres variedades de limón. Considerando que el desarrollo de la enfermedad puede ser distinto de una variedad a otra, la población de parcelas se estratificó en 𝐸 = 3 estratos. Los tamaños de los estratos son: 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330; 𝑁 = 𝑁1 + 𝑁2 + 𝑁3 = 780. Suponga que para realizar las estimaciones se tomó una muestra de 𝑛 = 63 parcelas. Los datos se presentan en Cuadro 4.1. Cuadro 4.1. Plantas infectadas por hectárea. Estrato 1 Estrato 2 (𝒏𝟏 = 𝟐𝟏) Estrato 3 (𝒏𝟐 = 𝟐𝟏) (𝒏𝟑 = 𝟐𝟏) 48 53 64 20 31 45 74 68 77 62 45 47 36 17 26 70 72 73 59 65 54 15 30 18 78 76 69 45 48 46 40 25 35 69 80 74 50 60 63 24 29 30 80 78 71 55 57 46 19 42 27 72 71 79 64 61 54 33 51 48 76 75 68 a) La estimación puntual del promedio de plantas infectadas por hectárea. 𝑦̅𝑒𝑠𝑡𝑟 ∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖 = 𝑁 donde: 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑁 = 780, 𝐸 = 3, 𝑦̅𝑖 : 𝑦̅1 = 𝑦̅2 = 48+62+59+⋯+46+54 21 20+36+15+⋯+27+48 21 𝑦̅3 = 139 = 54.5714, = 30.5238 y 74 + 70 + 78 + ⋯ + 79 + 68 = 73.8095 21 Por lo tanto: (270)(54.5714) + (180)(30.5238) + (330)(73.8095) 780 44,581.697 = = 57.1612 plantas infectadas por parcela. 780 𝑦̅𝑒𝑠𝑡𝑟 = 𝑦̅𝑒𝑠𝑡𝑟 b) La estimación puntual del total estratificado de plantas infectadas. 𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟 donde: 𝑁 = 780 y 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612 Por lo tanto: 𝜏̂ 𝑒𝑠𝑡𝑟 = 780(57.1612) = 44,585.736 plantas infectadas. c) La varianza y desviación estándar del promedio estratificado. 𝐸 𝑆𝑦2̅𝑒𝑠𝑡𝑟 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2 = ∑( ) ( )( ) 𝑁 𝑁𝑖 𝑛𝑖 𝑖=1 donde: 𝑁 = 780, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑛𝑖 : 𝑛1 = 𝑛2 = 𝑛3 = 21, 482 + 622 + 592 + ⋯ + 462 + 542 − (21)(54.57)2 = = 50.3571, 21 − 1 202 + 362 + 152 + ⋯ + 272 + 482 − (21)(30.52)2 2 𝑆2 = = 107.2619, y 21 − 1 𝑆𝑖2 : 𝑆12 𝑆32 742 + 702 + 782 + ⋯ + 792 + 682 − (21)(73.80)2 = = 15.5619 21 − 1 Por lo tanto: 270 2 270 − 21 50.3571 180 2 180 − 21 107.2619 𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ( ) ( )( )+( ) ( )( ) 780 270 21 780 180 21 140 330 2 330 − 21 15.5619 +( ) ( )( ) = 0.6295 780 330 21 𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.6295 = 0.7934 d) El IC de la media estratificada con una confiabilidad de 95%. 𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟 donde: 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934. Por lo tanto: 57.1612 ± (1.96)(0.7934 ) 57.1612 ± 1.5551 55.6061 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 58.7163 El promedio de plantas infectadas por hectárea en la población está entre 55.6061 y 58.7163. e) El IC del total de plantas infectadas en la población con una confiabilidad de 95%. 𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟 donde: 𝜏̂𝑒𝑠𝑡𝑟 = 44,585.736 , 𝑁 = 780, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934. Por lo tanto: 44,585.736 ± (780)(1.96)(0.7934) 44,585.736 ± 1,212.9499 43,372.7861 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 45,798.6859 141 El total de plantas infectadas por hectárea en la población está entre 43,372.7861 y 45,798.6859. f) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media con una precisión de ±3% de la media estratificada y una confiabilidad de 95%, es: 𝑛∗ = 2 𝐸 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 2 𝐸 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3, y 3 ∑ 𝑊𝑖 𝑆𝑖2 = 𝑖=1 = 𝑁1 2 𝑁2 2 𝑁3 2 𝑆 + 𝑆2 + 𝑆3 𝑁 1 𝑁 𝑁 270 180 330 (50.3571) + (107.2619) + (15.5619) 780 780 780 = 17.4313 + 24.7527 + 6.5839 = 48.7679. Por lo tanto: 𝑛∗ = (780)(1.96)2 (48.7679) (780)(1.7148)2 + (1.96)2 (48.7679 ) 𝑛∗ = 146,130.4764 = 58.6877 = 59 árboles (parcelas) 2,489.96722 La asignación de la muestra en forma proporcional: 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 780, 𝑛∗ = 58.6877, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330. Por lo tanto: 142 270 (58.6877) = 20.3150 = 21 780 180 (58.6877) = 13.5433 = 14 𝑛2∗ = 780 330 (58.6877) = 24.8294 = 25. 𝑛3∗ = 780 𝑛1∗ = g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media con precisión de ±3% de la media estratificada, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 0.99, es: 2 ∗ 2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1) ∑ 𝑁𝑡(𝑛−1,1−𝛼 𝑊 𝑆 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1 𝑛𝑚 = 2 ∗ 2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1) ∑ 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑆 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1 donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3, 𝜒12 (𝛾, 𝑛1∗ − 1) 270 36.6252 (50.3571) ( 𝑊1 𝑆12 ( )= ) = 33.0533, ∗ 𝑛1 − 1 780 20.3150 − 1 𝑊2 𝑆22 ( 𝜒22 (𝛾, 𝑛2∗ − 1) 180 27.0187 (107.2619) ( )= ) = 53.3183, ∗ 𝑛2 − 1 780 13.5433 − 1 𝜒32 (𝛾, 𝑛3∗ 2 𝑊3 𝑆3 ( 𝑛3∗ − 3 − 1) 330 36.2034 (15.5619) ( )= ) = 10.0027, y 1 780 24.8294 − 1 𝜒𝑖2 (𝛾, 𝑛𝑖∗ 2 ∑ 𝑊𝑖 𝑆𝑖 ( 𝑛𝑖∗ − 𝑖=1 − 1) ) = 33.0533 + 53.3183 + 10.0027 = 96.3743 1 Por lo tanto: 𝑛𝑚 = (780)(1.96)2 (96.3743) (780)(1.7148)2 + (1.96)2 (96.3743 ) 𝑛𝑚 = 288,780.5785 = 108.4071 = 109 parcelas (muestra). 2,663.8520 La asignación de la muestra proporcional: 143 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 780, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330 y 𝑛𝑚 = 108.4071. Por lo tanto: 270 (108.4071) = 37.5255 = 38 780 180 (108.4071) = 25.0170 = 26 = 780 330 (108.4071) = 45.8645 = 46 = 780 𝑛𝑚 1 = 𝑛𝑚 2 𝑛𝑚 3 Ejemplo 4.2. La Facultad de Lenguas Extranjeras de la Universidad Autónoma de Yucatán (UAdY) desea estimar el promedio y el total de faltas justificadas que tuvieron los alumnos en un año determinado. Al suponer que podrían encontrarse diferencias según el grado de estudios (primero, segundo, tercero y cuarto año), se decidió usar el muestreo estratificado. De esta manera, la población de 𝑁 = 400 estudiantes que alberga la facultad quedó estratificada de la siguiente manera: Estrato 1 (primer año): 𝑁1 = 120 alumnos, Estrato 2 (segundo año): 𝑁2 = 100 alumnos, Estrato 3 (tercer año): 𝑁3 = 90 alumnos y Estrato 4 (cuarto año): 𝑁4 = 90 alumnos. Se seleccionó una muestra de 𝑛 = 40 alumnos: 12 para el Estrato 1, 10 para el Estrato 2 y 9 para los estratos 3 y 4 (Cuadro 4.2). Cuadro 4.2. Faltas justificadas por año. Estrato 1 (𝒏𝟏 = 𝟏𝟐) 7 6 6 7 7 7 8 8 5 5 4 6 a) Estime la media estratificada. 144 Estrato 2 (𝒏𝟐 = 𝟏𝟎) 4 4 5 6 4 4 5 6 6 6 Estrato 3 (𝒏𝟑 = 𝟗) 3 4 3 4 3 3 4 4 4 Estrato 4 (𝒏𝟒 = 𝟗) 3 3 2 2 3 5 4 2 5 𝑦̅𝑒𝑠𝑡𝑟 = ∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖 𝑁 donde: 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90, 𝑁4 = 90, 𝑁 = 400, 𝐸 = 4, 𝑦̅𝑖 : 𝑦̅1 = 𝑦̅2 = 𝑦̅3 = 𝑦̅4 = 7+6+7+⋯+5+6 12 4+5+4+⋯+6+6 10 3+3+3+⋯+3+4 9 3+2+3+⋯+5+2 9 = 6.3333, = 5, = 3.5556 y = 3.2222. Por lo tanto: 𝑦̅𝑒𝑠𝑡𝑟 = (120)(6.3333) + (100)(5) + (90)(3.5556) + (90)(3.2222) = 4.675 faltas 400 b) La estimación puntual del total estratificado. 𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟 donde: 𝑁 = 400 y 𝑦̅𝑒𝑠𝑡𝑟 = 4.675 . Por lo tanto: 𝜏̂𝑒𝑠𝑡𝑟 = 400(4.675) = 1,870 faltas justificadas c) Varianza y desviación estándar del promedio estratificado. 𝐸 𝑆𝑦2̅𝑒𝑠𝑡𝑟 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2 = ∑( ) ( )( ) 𝑁 𝑁𝑖 𝑛𝑖 𝑖=1 donde: 𝑁 = 400, 𝐸 = 4, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝑛𝑖 : 𝑛1 = 12, 𝑛2 = 10, 𝑛2 = 𝑛3 = 9, 145 𝑆𝑖2 : 𝑆12 = 72 + 62 + 72 + ⋯ + 52 + 62 − (12)(6.3333)2 = 1.5152 12 − 1 42 + 52 + 42 + ⋯ + 62 + 62 − (10)(5)2 = 0.8889 10 − 1 32 + 32 + 32 + ⋯ + 32 + 42 − (9)(3.5556)2 𝑆32 = = 0.2728 y 9−1 32 + 22 + 32 + ⋯ + 52 + 22 − (9)(3.2222)2 2 𝑆4 = = 1.4444 9−1 𝑆22 = Por lo tanto: 𝑆𝑦2̅𝑒𝑠𝑡𝑟 120 2 120 − 12 1.5152 100 2 100 − 10 0.8889 =( ) ( )( )+( ) ( )( ) 400 120 12 400 100 10 90 2 90 − 9 0.2728 90 2 90 − 9 1.4444 +( ) ( )( )+( ) ( )( ) = 0.02395. 400 90 9 400 90 9 𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.02395 = 0.1547. d) Estime por intervalo la media estratificada con una confiabilidad de 95%. 𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟 donde: 𝑦̅𝑒𝑠𝑡𝑟 = 4.675, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547. Por lo tanto: 4.675 ± (1.96)(0.1547) 4.675 ± 1.5551 4.3717 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 4.9783 Esto significa que el promedio de faltas justificadas está entre 4.3717 y 4.9783. e) Estime por intervalo el total estratificado con una confiabilidad de 95%. 𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟 donde: 𝜏̂𝑒𝑠𝑡𝑟 = 1,870 , 𝑁 = 400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 146 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547. Por lo tanto: 1,870 ± (400)(1.96)(0.1547) 1,870 ± 121.3201 1,748.6821 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 1,991.3179 El total de faltas justificadas en la población está entre 1,748.6821 y 1,991.3179. f) Si 𝑛 = 40 es una muestra preliminar, el tamaño de la muestra para estimar la media con una precisión de 5% de la media estratificada y una confiabilidad de 95% es: ∗ 𝑛 = 2 𝐸 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 2 𝐸 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖 donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4 y 4 ∑ 𝑊𝑖 𝑆𝑖2 = 𝑖=1 = 𝑁1 2 𝑁2 2 𝑁3 2 𝑁4 2 𝑆 + 𝑆2 + 𝑆3 + 𝑆4 𝑁 1 𝑁 𝑁 𝑁 120 100 90 90 (1.5152) + (0.8889) + (0.2778) + (1.4444) 400 400 400 400 = 0.4545 + 0.2222 + 0.0625 + 0.3250 = 1.0643. Por lo tanto: 𝑛∗ = (400)(1.96)2 (1.0643) (400)(0.23375)2 + (1.96)2 (1.0643) 𝑛∗ = 1,635.445952 25.934890 𝑛∗ = 63.0597 = 64 alumnos La asignación de la muestra proporcional: 147 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 400, 𝑛∗ = 63.0597, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90. Por lo tanto: 120 (63.0597) = 18.9179 = 19 400 100 (63.0597) = 15.7649 = 16 𝑛2∗ = 400 90 (63.0597) = 14.1884 = 15 𝑛3∗ = 400 90 (63.0597) = 14.1884 = 15. 𝑛4∗ = 400 𝑛1∗ = g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media con una precisión de ±3% de la media estratificada, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 0.99, es: 2 ∗ 2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1) ∑ 𝑁𝑡(𝑛−1,1−𝛼 𝑊 𝑆 ( ) ∗ ⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖 − 1 𝑛𝑚 = 2 ∗ 2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1) ∑ 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑆 ( ) ∗ 𝑖 ⁄2) 𝑖=1 𝑖 𝑛𝑖 − 1 donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4, 𝜒12 (𝛾, 𝑛1∗ − 1) 120 34.6911 (1.5152) ( 𝑊1 𝑆 21 ( )= ) = 0.8801, ∗ 𝑛1 − 1 400 18.9179 − 1 𝜒22 (𝛾, 𝑛2∗ − 1) 100 30.2415 (0.8889) ( 𝑊2 𝑆 22 ( )= ) = 0.4552, ∗ 𝑛2 − 1 400 15.7649 − 1 𝜒32 (𝛾, 𝑛3∗ − 1) 90 27.9633 (0.2778) ( 𝑊3 𝑆 23 ( )= ) = 0.1325, ∗ 𝑛3 − 1 400 14.1884 − 1 𝜒32 (𝛾, 𝑛4∗ − 1) 90 27.9633 2 (1.4444) ( 𝑊4 𝑆 4 ( )= ) = 0.6891 y ∗ 𝑛4 − 1 400 14.1884 − 1 4 ∑ 𝑊𝑖 𝑆𝑖2 ( 𝑖=1 148 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) ) = 0.8801 + 0.4552 + 0.1325 + 0.6891 = 2.1569. 𝑛𝑖∗ − 1 Por lo tanto: 𝑛𝑚 = (400)(1.96)2 (2.1569) 400(0.23375)2 + (1.96)2 (2.1569 ) 𝑛𝑚 = 3,314.3788 = 109.9603 = 110 alumnos (muestra). 30.1416 La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 400, 𝑛𝑚 = 109.9603, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90. Por lo tanto: 120 (109.9603) = 32.9881 = 33 400 100 (109.9603) = 27.4901 = 28 = 400 90 (109.9603) = 24.7411 = 25 = 400 90 (109.9603) = 24.7411 = 25. = 400 𝑛𝑚 1 = 𝑛𝑚 2 𝑛𝑚 3 𝑛𝑚 4 EJERCICIOS En los ejercicios siguientes estime un IC para la media y el total con una confiabilidad de 95%. Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la media de tal manera que sean estimados con una precisión de 5% de la media, una confiabilidad de 95% y un nivel de aseguramiento de 80%? Ejercicio 4.1. Un químico realizó un estudio con el objetivo de estimar el número de coliformes fecales que son bioindicadores de contaminación en el Río Colima, cuya 149 longitud es de 𝑁 = 15,000 metros, de los cuales 𝑁1 = 4,000 metros pertenecen a la zona pre-urbana, 𝑁2 = 8,000 corresponden a la zona urbana, y 𝑁3 = 3,000 a la zona posturbana. Cabe mencionar que este estudio se realizó en las cuatro estaciones del año, pero aquí presentamos solamente los resultados de la primavera. Para el estudio se tomó una muestra de 𝑛 = 12 metros distribuidos de la siguiente manera: 𝑛1 = 4 metros para la zona pre-urbana, 𝑛2 = 5 metros para la zona urbana, y 𝑛3 = 3 metros para la zona posturbana. Los resultados se presentan en el Cuadro 4.3. Cuadro 4.3. Coliformes fecales en el agua. Pre-urbana Urbana Post-urbana 350 920 1,600 240 920 2,400 1,600 920 1,600 2,400 1,600 2,400 Ejercicio 4.2. La Secretaría de Educación desea estimar el promedio de calificaciones de los egresados de una normal superior. En la escuela hay tres licenciaturas: Educación Preescolar, Educación Primaria y Educación Secundaria. En 2007 la población de egresados fue de 𝑁1 = 30 de educación preescolar, 𝑁2 = 46 de educación primaria y 𝑁3 = 80 de educación secundaria. Para el estudio se extrajo una muestra de 𝑛 = 16 estudiantes distribuidos de la siguiente forma: 𝑛1 = 3 (preescolar), 𝑛2 = 5 (primaria) y 𝑛3 = 8 (secundaria). Los datos se presentan en el Cuadro 4.4. Cuadro 4.4. Calificaciones de egresados. Preescolar Primaria Secundaria 9.5 9.3 8.7 8.7 9.7 8.0 9.9 8.8 9.0 9.0 9.2 8.5 7.8 8.3 9.9 10.0 Ejercicio 4.3. Un investigador desea estimar el daño promedio de tres cepas causantes de la enfermedad de chagas. Supóngase que 300 ratones tienen la cepa uno, 350 la cepa dos 150 y 350 la cepa tres. Además, como se espera que el daño varíe dependiendo de la cepa, se toma una muestra estratificada de tamaño 𝑛 = 50 de la población (Cuadro 4.5). Cuadro 4.5. Daño promedio de las cepas. Cepa 1 Cepa 2 Cepa 3 (𝒏𝟏 = 𝟏𝟓) (𝒏𝟐 = 𝟏𝟕) (𝒏𝟑 = 𝟖) 25 26 28 28 29 29 23 24 27 26 31 32 22 23 29 28 31 33 22 22 28 29 32 31 23 23 27 28 33 33 25 24 28 27 32 33 26 26 29 29 32 32 25 28 29 32 33 28 33 31 Ejercicio 4.4. En una entidad hay tres variedades de nances (500 plantas de la variedad uno; de la dos, 10,000; y de la tres, 7,000 plantas) y se quiere estimar el promedio de taninos por árbol. Se toma una muestra de 𝑛 = 44 plantas distribuidas de la siguiente manera: 𝑛1 = 10 (variedad 1), 𝑛2 = 20 (variedad 2) y 𝑛3 = 14 (variedad 3) (véase el Cuadro 4.6). Cuadro 4.6. Taninos por kg de nance (en %). Variedad 1 Variedad 2 Variedad 3 (𝒏𝟏 = 𝟏𝟎) (𝒏𝟐 = 𝟐𝟎) (𝒏𝟑 = 𝟏𝟒) 4 6 6 4 7 5 5 5 5 7 4 7 6 5 7 3 6 5 4 6 5 5 6 6 5 5 7 7 4 6 5 7 3 6 5 6 2 5 5 5 5 5 7 4 4.4 Estimación de parámetros de interés para una proporción bajo MAE 151 Estimación de la proporción poblacional Suponga que surge la necesidad de estimar la proporción de unidades muestrales que poseen atributos similares, en otras palabras, nuestro interés radicará en saber cómo se manifiesta la característica 𝐶 en cada uno de los estratos. En tal caso nos importa estimar la proporción (𝑝𝑖 ) de unidades muestrales que tienen la característica 𝐶 en el estrato 𝑖. Defínase: 𝑦𝑖𝑗 = { 1 éxito 0 fracaso que representa al 𝑗-ésimo componente del 𝑖-ésimo estrato. El éxito consiste en tener la característica 𝐶. Esta variable se comporta como una variable aleatoria del tipo binomial, por lo que el estimador de la proporción de la característica de interés para el estrato 𝑖 es: 𝐸 𝑝𝑖 = ∑ 𝑖=1 𝑦𝑖𝑗 . 𝑛𝑖 Y su varianza correspondiente es, 𝑆𝑝2𝑖 = ( 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 (1 − 𝑝𝑖 ) ) . 𝑁𝑖 𝑛𝑖 Es importante observar que 𝑝𝑖 es un estimador insesgado de 𝑃𝑖 , la proporción de unidades muestrales que tienen la característica 𝐶 (Scheaffer, et al., 1987). De la misma manera, 𝑁𝑝𝑖 también es un estimador insesgado del total en el estrato 𝑖 que cuenta con la característica 𝐶. Es preciso resaltar que ∑𝐸𝑖=1 𝑁𝑖 𝑝𝑖 es un buen estimador del total poblacional que cuenta con la característica 𝐶 (Pérez, 2000). Los estimadores de la proporción y total poblacional 152 𝐸 1 1 𝑝𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖 𝑁 𝑁 𝑖=1 𝐸 𝜏̂ 𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖 = 𝑁𝑝𝑠𝑡 𝑖=1 Los estimadores de la varianza de la proporción y total poblacional 𝑆𝑦2̅𝑠𝑡 = 1 (𝑁 2 𝑆 2 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 ) 𝑁 2 1 𝑝1 𝐸 1 = 2 ∑ 𝑁𝑖2 𝑆𝑝2𝑖 𝑁 𝑖=1 𝑆𝜏̂2𝑠𝑡 = (𝑁12 𝑆𝑝21 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 ) 𝐸 = ∑ 𝑁𝑖2 𝑆𝑝2𝑖 𝑖=1 Los intervalos de confianza para la proporción y total poblacional De forma tradicional construimos un intervalo con la siguiente ecuación: 𝐸 1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖 𝑝̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( ) 𝑁 𝑁𝑖 𝑛𝑖 𝑖=1 𝐸 1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖 𝑡̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( ) 𝑁 𝑁𝑖 𝑛𝑖 𝑖=1 El tamaño de muestra para estimar la proporción estratificada En cuanto a la determinación del tamaño de muestra, se procede de manera análoga a la determinación vista en el apartado anterior. Se utiliza una modificación de la ecuación (4.2), sustituyendo la estimación de la varianza 𝜎𝑖2 por la varianza de la proporción estimada, que es 𝑝𝑖 𝑞𝑖 . Por lo tanto, en cuanto a la determinación del tamaño de muestra, se procede de manera análoga a la determinación expuesta en la sección anterior. 153 ∗ 𝑛 = 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 2 𝐸 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la media. Con una analogía al MAS para proporción bajo AIPE, la expresión para el tamaño de muestra modificado en el MAE para proporción se proporciona a continuación: 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1 𝑛𝑚 = 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1 donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad, también por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Asignación de la muestra El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño de la muestra 𝑛𝑚 requerido, considera como tamaño de muestra de cada estrato una parte de 𝑛𝑚 , la cual será proporcional al tamaño del estrato. Esto es, algebraicamente el criterio: ∗ 𝑛𝑚 = 𝑖 𝑁𝑖 𝑛 = 𝑊𝑖 𝑛𝑚 ; 𝑁 𝑚 𝑖 = 1,2, … , 𝐸, o específicamente como: ∗ 𝑛𝑚 = 1 154 𝑁1 ∗ 𝑁2 ∗ 𝑁𝑖 ∗ ∗ 𝑛 , = 𝑛𝑚 = 𝑛 , … , 𝑛𝑚 = 𝑛∗ 2 3 𝑁 𝑁 𝑁 Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor, es decir, la asignación de 𝑛𝑚 entre los estratos es proporcional al tamaño de cada estrato. EJEMPLOS Ejemplo 4.3. La Secretaría de Educación Pública del estado de Chiapas desea conocer el porcentaje y el total de personas que ven telenovelas. Suponga que la población de individuos en el estado es de 𝑁 = 10,000, de los cuales 30% son niños (estrato 1), 50% son jóvenes (estrato 2) y el resto son adultos (estrato 3). Se estratificó la población de esa forma ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para estimar el porcentaje y total de personas que ven telenovelas se tomó una muestra aleatoria de 𝑛 = 300 individuos distribuidos de la siguiente manera 𝑛1 = 90 del estrato uno, 𝑛2 = 150 del estrato dos y 𝑛3 = 60 del estrato tres. Los resultados fueron: en el estrato uno, 30 niños; en el dos, 70; y en el estrato tres, 40. a) Proporción estratificada de personas que ven telenovelas. 𝐸 1 𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖 𝑁 𝑖=1 donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝐸 = 3, 𝑦 30 70 40 𝑝𝑖 : 𝑝1 = ∑𝐸𝑖=1 𝑛𝑖𝑗 = 90 = 0.3333, 𝑝2 = 150 = 0.4666 y 𝑝3 = 60 = 0.6666. 𝑖 Por lo tanto: 1 (3,000(0.3333) + 5,000(0.4666) + 2,000(0.6666)) 10,000 𝑝𝑠𝑡 = 1 4,666.6667 (1,000 + 2,333.3333 + 1,333.3333) = 0.4667 = 46.67%. 10,000 10,000 155 𝑝𝑠𝑡 = b) El total estratificado. 𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡 donde: 𝑁 = 10,000 y 𝑝𝑠𝑡 = 0.4667. Por lo tanto: 𝜏̂𝑠𝑡 = 10,000(0.4667) = 4,666.6667 personas ven telenovelas. c) La varianza y desviación estándar de la proporción estratificada. 𝐸 𝑆𝑦2̅𝑠𝑡 1 2 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖 𝑁 𝑖=1 donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑛𝑖 : 𝑛1 = 90, 𝑛2 = 150, 𝑛3 = 60, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666, 𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 2 𝑞2 = 0.5334, 𝑞3 = 0.3334, 𝐸 = 2 y 𝑆𝑝𝑖 =( 𝑁1 −𝑛1 2 𝑆𝑝1 =( 𝑁1 𝑁2 −𝑛2 2 𝑆𝑝2 =( 𝑁2 𝑁3 −𝑛3 2 𝑆𝑝3 =( 𝑁3 𝑝1 𝑞1 )( 𝑛1 𝑝2 𝑞2 )( 𝑛2 𝑝3 𝑞3 )( 𝑛3 𝑁𝑖 −𝑛𝑖 𝑁𝑖 3,000−90 (0.3333)(0.6667) 3,000 90 )=( )( 𝑝𝑖 𝑞 𝑖 )( (0.4666)(0.5334) 5,000 150 )( ) = 0.001609, 2,000−60 (0.6666)(0.3334) 2,000 60 )=( )( ): ) = 0.002395, 5,000−150 )=( 𝑛𝑖 ) = 0.003592. Por lo tanto: 𝑆𝑦2̅𝑠𝑡 = 1 ((3,000)2 (0.002395) + (5,000)2 (0.001609) + (2,000)2 (0.003592)) 10,0002 𝑆𝑦2̅𝑠𝑡 = 0.000761. La desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.000761 = 0.027586. d) IC para la proporción estratificada con confiabilidad del 95%. 156 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡 donde: 𝑝𝑠𝑡 = 0.4667, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑠𝑡 = 0.027586. Por lo tanto: 0.4667 ± (1.96)(0.027586) 0.4667 ± 0.054069 0.412631 ≤ 𝑃𝑠𝑡 ≤ 0.520769. Esto quiere decir que la proporción verdadera de personas que ven telenovelas está entre 41.26 y 52.07%, con una confiabilidad de 95%. e) IC para el total estratificado. 𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡 donde: 𝜏̂ 𝑠𝑡 = 4,666.6667, 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑠𝑡 = 0.027586. Por lo tanto: 4,666.6667 ± (10,000)(1.96)(0.027586) 4,666.6667 ± 540.6856 4,125.9811 ≤ 𝜏𝑠𝑡 ≤ 5,207.3523. El total de personas que ven telenovelas está entre 4,125.9811y 5,207.3523, con una confiabilidad de 95%. 157 f) Si 𝑛 = 300 es una muestra preliminar. El tamaño de la muestra para estimar la proporción con una precisión del 0.05 de la proporción preliminar y confiabilidad de 95% es: ∗ 𝑛 = 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 2 𝐸 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666, 𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334 y 3 ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑖=1 = 𝑁1 𝑁2 𝑁3 (𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 ) + (𝑝3 )(𝑞3 ) 𝑁 𝑁 𝑁 3,000 10,000 (0.3333)(0.6667) + 5,000 10,000 (0.4666)(0.5334) + 2,000 10,000 (0.6666)(0.3334) = 0.06667 + 0.12444 + 0.04445 = 0.23556. Por lo tanto: (10,000)(1.96)2 (0.23556 ) 𝑛 = = 1,425.0487 = 1,426 personas. (10,000)(0.023335)2 + (1.96)2 (0.23556 ) ∗ La asignación de la muestra en forma proporcional es: 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 10,000, 𝑛∗ = 1,425.0487, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,000. Por lo tanto: 3,000 𝑛1∗ = 10,000 (1,425.0487) = 427.5146 = 428 5,000 𝑛2∗ = 10,000 (1,425.0487) = 712.5244 = 713 158 2,000 𝑛3∗ = 10,000 (1,425.0487) = 285.0097 = 286. La muestra para estimar la proporción estratificada con una precisión del 0.05 de la proporción estratificada preliminar y confiabilidad de 95% es de 1,426 personas: 428 niños, 713 jóvenes y 286 adultos. g) Tamaño de la muestra para estimar la media con precisión de 0.05 de la proporción, confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 0.99. 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ) ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ − 1 𝑛𝑚 = 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 2 ∑ 𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) 𝑛𝑖∗ − 1 donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666, 𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334, 𝜒12 (𝛾,𝑛1∗ −1) 𝑊1 𝑝1 𝑞1 ( 𝑛1∗ −1 𝜒22 (𝛾,𝑛2∗ −1) 𝑊2 𝑝2 𝑞2 ( 𝑛2∗ −1 𝑛3∗ −1 497.3854 5,000 802.2116 2,000 342.3761 ) = 10,000 (0.4666)(0.5334) (712.5244−1) = 0.140303, 𝜒32 (𝛾,𝑛3∗ −1) 𝑊3 𝑝3 𝑞3 ( 3,000 ) = 10,000 (0.3333)(0.6667) (427.5146−1) = 0.07774, ) = 10,000 (0.6666)(0.3334) (285.0097−1) = 0.053584 y 𝜒𝑖2 (𝛾,𝑛𝑖∗ −1) ∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ −1 ) = 0.07774 + 0.140303 + 0.053584 = 0.271627. Por lo tanto: 𝑛𝑚 = (10,000)(1.96)2 (0.271627) (10,000)(0.023335)2 + (1.96)2 (0.271627) 𝑛𝑚 = 1,608.1531 = 1,609 personas. La asignación de la muestra proporcional: 159 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 10,000, 𝑛𝑚 = 1,608.1531, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,400. Por lo tanto: 𝑛𝑚 1 = 3,000 (1,608.1531) = 482.4459 = 483 10,000 𝑛𝑚 2 = 5,000 (1,608.1531) = 804.0766 = 805 10,000 𝑛𝑚 3 = 2,000 (1,608.1531) = 321.6306 = 322 10,000 La muestra para estimar la media estratificada con una precisión del 0.05 de la proporción estratificada preliminar, una confiabilidad del 90% y un aseguramiento del 99%, es de 1,609 personas: 483 niños, 805 jóvenes y 322 adultos. Ejemplo 4.4. En Colima hay 𝑁 = 5,000 personas mayores de 60 años (𝑁1 = 2,600 son mujeres y 𝑁2 = 2,400 son hombres). Para estimar el porcentaje y el total de personas que padecen diabetes, se tomó una muestra aleatoria de 𝑛 = 220, donde 𝑛1 = 120 son mujeres y 𝑛2 = 100 son hombres. Se estratificó la población porque la enfermedad es influida por el género. De las mujeres, 40 padecen diabetes y de los hombres, 50. a) La proporción estratificada. 𝐸 1 𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖 𝑁 𝑖=1 donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400. 𝑛 𝑛 1 2 Σ𝑖=1 Σ𝑖=1 40 50 𝑝𝑖 : 𝑝1 = = = 0.3333 y 𝑝2 = = = 0.5 𝑛1 120 𝑛2 100 Por lo tanto: 160 𝑝𝑠𝑡 = 1 2,066.6667 (2,600(0.3333) + 2,400(0.5)) = = 41.33% personas diabéticas. 5,000 5,000 b) El total estratificado. 𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡 donde: 𝑁 = 5,000 y 𝑝𝑠𝑡 = 0.4133 Por lo tanto: 𝜏̂𝑠𝑡 = 5,000(0.4133) = 2,066.6667 personas con diabetes. c) La varianza y desviación estándar de la proporción estratificada 𝐸 𝑆𝑦2̅𝑠𝑡 1 2 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖 𝑁 𝑖=1 donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400, 𝑛𝑖 : 𝑛1 = 120, 𝑛2 = 100, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 2 2 𝑆𝑝𝑖 : 𝑆𝑝1 =( 𝑁1 −𝑛1 𝑁2 −𝑛2 2 𝑆𝑝2 =( 𝑁2 𝑁1 𝑝2 𝑞2 )( 𝑝1 𝑞1 )( 𝑛2 𝑛1 2,600−120 (0.3333)(0.6667) 2,600 120 )=( )( 2,400−100 (0.5)(0.5) 2,400 100 )=( )( ) = 0.001767 y ) = 0.002396. Por lo tanto: 𝑆𝑦2̅𝑠𝑡 = 1 ((2,600)2 (0.001767) + (2,400)2 (0.002396)) = 0.001030 5,0002 Desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.001030 = 0.032094. d) IC para la proporción estratificada con confiabilidad del 90%. 161 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡 donde: 𝑝𝑠𝑡 = 0.4133, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094. Por lo tanto: 0.4133 ± (1.645)(0.032094) 0.4133 ± 0.052795 0.360505 ≤ 𝑃𝑠𝑡 ≤ 0.466095. La proporción verdadera de personas mayores de 60 años que padecen diabetes está entre 36.05 y 46.61%. e) La estimación por intervalo para el total estratificado. 𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡 donde: 𝜏̂𝑠𝑡 = 2006.6667, 𝑁 = 5,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094. Por lo tanto: 2,066.6667 ± (5,000)(1.645)(0.032094) 2,066.6667 ± 263.97315 1,802.6935 ≤ 𝜏𝑠𝑡 ≤ 2,330.6398. El total de personas diabéticas está entre 1,802.6935 y 2,330.6398, con una confiabilidad de 90%. f) Suponga que 𝑛 = 300 es una muestra preliminar. Determine el tamaño de la muestra para estimar la media con precisión de 0.05 y confiabilidad de 90%. Además, realice la asignación de 𝑛 a cada estrato en forma proporcional al tamaño del mismo. 162 𝑛∗ = 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 𝑁𝑡(𝑛−1,1−𝛼/2) 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y 2 ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑖=1 = 𝑁1 𝑁2 (𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 ) 𝑁 𝑁 2,600 2,400 (0.3333)(0.6667) + (0.5)(0.5) 5,000 5,000 = 0.11555 + 0.12 = 0.23555. Por lo tanto: (5,000)(1.645)2 (0.23555 ) 𝑛 = (5,000)(0.05)2 + (1.645)2 (0.23555 ) ∗ 𝑛∗ = 3,187.0209 = 242.5914 = 243 personas. 13.1374 La asignación de la muestra en forma proporcional: 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 5,000, 𝑛∗ = 242.5914, 𝑁1 = 2,600 y 𝑁2 = 2,400. Por lo tanto: 𝑛1∗ = 2,600 (242.5914) = 126.1475 = 127 5,000 𝑛2∗ = 2,400 (242.5914) = 116.4439 = 117. 5,000 La muestra para estimar la media con precisión de 0.05 y confiabilidad de 90% debe 163 de ser de 243 personas: 127 hombres y 117 mujeres. g) El tamaño de la muestra para estimar la media con precisión de 0.05, confiabilidad de 90% y un nivel de aseguramiento (𝛾) de 0.99. 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1 𝑛𝑚 = 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) 𝑖 𝑖 𝑖 ⁄2) 𝑖=1 𝑛𝑖∗ − 1 donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y 𝜒12 (𝛾,𝑛1∗ −1) 𝑊1 𝑝1 𝑞1 ( 𝑛1∗ −1 2,600 𝜒22 (𝛾,𝑛2∗ −1) 𝑊2 𝑝2 𝑞2 ( 𝑛2∗ −1 164.8632 ) = 5,000 (0.3333)(0.6667) (126.1475−1) = 0.152220, 2,400 153.7026 ) = 5,000 (0.5)(0.5) (116.4439−1) = 0.159769 y 2 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.152220 + 0.159769 = 0.311989. 𝑛𝑖∗ − 1 𝑖=1 Por lo tanto: (5,000)(1.645)2 (0.311989) 𝑛𝑚 = (5,000)(0.05)2 + (1.645)2 (0.311989) 𝑛𝑚 = 4,221.250169 = 316.3348 = 317 personas. 13.34425 La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 5,000, 𝑛𝑚 = 316.3348, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400. Por lo tanto: 164 𝑛𝑚 1 = 2,600 (316.3348) = 164.4941 = 165 5,000 𝑛𝑚 2 = 2,400 (316.3348) = 151.8407 = 152. 5,000 La muestra para estimar la media con precisión de 0.05, confiabilidad de 90% y aseguramiento de 99% debe de ser de 317 personas: 165 hombres y 152 mujeres. EJERCICIOS En los ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total estratificado con una confiabilidad de 95%. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción y el total estratificado de tal manera que la proporción y el total sean estimados con una precisión de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 85%? Ejercicio 4.5. Un investigador estudió los niveles de colesterol sérico en 500 personas mayores de 45 años (300 mujeres y 200 hombres). Dado que piensa que el género influye en la variable respuesta, estratificó la población por género. Para poder estimar la cantidad de personas que tiene altos niveles de colesterol, tomó una muestra aleatoria simple de 120 personas: 84 hombres y 36 mujeres. Al momento de realizar las mediciones encontró que tres mujeres y cinco hombres tenían un alto nivel de colesterol. Ejercicio 4.6. Un agrónomo sembró tres variedades de manzanas. En total sembró 5,000 plantas: 1,000 pertenecen a la variedad uno, 2,500 a la dos y 1,500 a la tres. Para calcular el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria de 250 plantas: 100 de la primera variedad, 100 de la segunda y 50 de la tercera. El número de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno, cuatro en la variedad dos y seis en la variedad tres. 165 Ejercicio 4.7. En una población urbana de 3,500 personas del estado de Michoacán, se desea conocer la cantidad de personas que utilizan Internet. Supóngase que en dicha población 45% son adolescentes, 30% niños y el resto adultos. Para estimar el porcentaje y total de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos distribuidos de la siguiente manera: adolescentes: 𝑛1 = 200, niños: 𝑛2 = 150 y adultos: 𝑛3 = 250. Los resultados del número de personas que usan Internet por estrato son: 70, 30 y 40, respectivamente. Ejercicio 4.8. A un centro de salud asisten aproximadamente 7,000 personas de los cuales 4,000 son adolescentes y 3,000 son adultos. Se desea conocer el porcentaje de personas que hacen ejercicio diariamente y para ello se toma una muestra aleatoria de 350 individuos (150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio diariamente. Los resultados obtenidos son los siguientes: 12 en el estrato de adolescentes hacen ejercicio diariamente, mientras que seis en el de adultos. 4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas bajo MAE Cuando una población es estratificada y los elementos de sus estratos requieren de una prueba de laboratorio o algún dispositivo especializado se recurre al MAE (proporción) para pruebas imperfectas. Lógicamente que al tomar en cuenta la sensibilidad y especificidad, los estimadores para la proporción estratificada, los IC’s, el total y el tamaño de muestra son distintos. A continuación se presentan los estimadores apropiados. De acuerdo con Rogan & Gladen (1978) el estimador de la proporción estratificada tomando en cuenta la sensibilidad y especificidad de la prueba es: 𝐸 ∗ 𝑝𝑠𝑡 1 = ∑ 𝑁𝑖 𝑝𝑖∗ 𝑁 𝑖=1 166 𝑝𝑖∗ = 𝑝𝑖 + 𝑆𝑝 − 1 𝑆𝑒 + 𝑆𝑝 − 1 𝑎 donde 𝑝𝑖 = 𝑛𝑖 , 𝑞𝑖 = 1 − 𝑝𝑖 , 𝑎𝑖 denota el número de individuos positivos de la muestra de 𝑖 tamaño 𝑛𝑖 en el estrato 𝑖, 𝑆𝑒 y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de laboratorio, respectivamente. El estimador 𝑝𝑖∗ de 𝑝𝑖 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝 son conocidas, pero el sesgo es mayor si estas son desconocidas, es decir, si se usa una estimación de ellas, aunque bajo estas condiciones las estimaciones resultantes son ∗ aceptables. Bajo este contexto un estimador de la varianza de 𝑝𝑠𝑡 es dado por: 𝐸 𝑆𝑦2∗ ̅𝑠𝑡 1 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑁 𝑖=1 𝑆𝑝2∗𝑖 = 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖 ( ) 2 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛𝑖 Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗ ̅𝑠𝑡 . Por ∗ ∗ ∗ otro lado, un IC para 𝑝𝑠𝑡 es dado por 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . El total es 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 y su correspondiente IC es: 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . La fórmula para determinar el tamaño de muestra de manera tradicional es igual a: ∗ 𝑛 = 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 2 𝐸 𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la proporción. Sin embargo, hay que resaltar que la ecuación anterior garantiza que la amplitud del IC se cumplirá solamente 50% de las veces. Por ello a continuación se brinda la expresión apropiada para determinar el tamaño de muestra que asegura exactitud en la estimación de la proporción estratificada: 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ) ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ − 1 𝑛𝑚 = 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1 donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que la proporción estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el 167 cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 4.5. En cierto poblado hay una hectárea con 3,000 árboles de limón. Se desea saber el porcentaje y el total de árboles que han sido atacados con una plaga. De la población 1,100 son árboles adultos, 1,000 árboles jóvenes y 900 árboles ancianos. Se realiza una prueba a 800 árboles, 400 adultos, 250 jóvenes y 150 ancianos. Los resultados indican que 40, 20 y 6 árboles fueron dañados por la plaga, respectivamente. La prueba tiene 0.99 de sensibilidad y 0.98 de especificidad. a) La proporción estratificada. 𝐸 ∗ 𝑝𝑠𝑡 1 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑁 𝑝𝑖∗ = 𝑖=1 𝑝𝑖 + 𝑆𝑝 − 1 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98, 40 20 6 𝑝𝑖 : 𝑝1 = 400 = 0.1, 𝑝2 = 250 = 0.08, 𝑝3 = 150 = 0.04, 𝐸 = 3, 𝑝 +𝑆𝑝−1 0.1+0.98−1 0.08 1 𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1 = 0.99+0.98−1 = 0.97 = 0.0825, 𝑝 +𝑆𝑝−1 2 𝑝2∗ = 𝑆𝑒+𝑆𝑝−1 = 𝑝 +𝑆𝑝−1 3 𝑝3∗ = 𝑆𝑒+𝑆𝑝−1 = 0.08+0.98−1 0.99+0.98−1 0.04+0.98−1 0.99+0.98−1 0.06 = 0.97 = 0.0619 y 0.02 = 0.97 = 0.0206. Por lo tanto: ∗ 𝑝𝑠𝑡 = 168 1 (1,100(0.0825) + 1,000(0.0619) + 900(0.0206)) 3,000 ∗ 𝑝𝑠𝑡 = 171.19 = 0.057 ó 6% árboles dañados. 3,000 b) El total estratificado. ∗ 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 ∗ donde: 𝑁 = 3,000 y 𝑝𝑠𝑡 = 0.057. Por lo tanto: 𝜏̂ ∗ = 3,000(0.057) = 171. c) La varianza y desviación estándar de la media estratificada. 𝐸 𝑆𝑦2∗ ̅𝑠𝑡 1 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑁 𝑆𝑝2∗𝑖 = 𝑖=1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖 ( ) 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖 donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98, 𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96, 𝐸 = 3, 1,100−400 𝑆𝑝2∗𝑖 : 𝑆𝑝2∗1 = (1,100(0.99+0.98−1)2 ) ( 400 ) = 0.00015218, (0.08)(0.92) 1,000−250 𝑆𝑝2∗2 = (1,000(0.99+0.98−1)2 ) ( 900−150 (0.1)(0.9) 250 (0.04)(0.96) 𝑆𝑝2∗3 = (900(0.99+0.98−1)2 ) ( 150 ) = 0.00023467 y ) = 0.00022673. Por lo tanto: 𝑆𝑦2∗ ̅𝑠𝑡 = (1,100)2 (0.00015218) + (1,000)2 (0.00023467) + (900)2 (0.00022673) (3,000)2 𝑆𝑦2∗ ̅𝑠𝑡 = 602.4551 = 0.0000669395. 9,000,000 Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗ ̅𝑠𝑡 = √0.0000669395 = 0.00818165. 169 d) IC para la proporción estratificada con confiabilidad del 95%. ∗ 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡 ∗ donde: 𝑝𝑠𝑡 = 0.057, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96. Por lo tanto: 0.057 ± (1.96)(0.00818165) 0.057 ± 0.016036034 0.040963966 ≤ 𝑃𝑠𝑡 ≤ 0.073036034. La proporción verdadera de árboles de limón atacados con la plaga está entre 4.09% y 7.3%. e) IC para el total estratificado con la confiabilidad de 95%. 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡 donde: 𝜏̂ ∗ = 171, 𝑁 = 3,000, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96. Por lo tanto: 171 ± (3,000)(1.96)(0.00818165) 171 ± 48.108102 122.891898 ≤ 𝜏 ≤ 219.108102. f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de la muestra para estimar la media con precisión de 0.05 y una confiabilidad del 95% (Se utilizan 𝑝 y 𝑞 originales): ∗ 𝑛 = 170 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 𝑁𝑡(𝑛−1,1−𝛼/2) 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼/2) donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98, 𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96 y 𝐸 ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑖=1 𝑁1 𝑁2 𝑁3 𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3 𝑁 𝑁 𝑁 = 1,100 1,000 900 (0.1)(0.9) + (0.08)(0.92) + (0.04)(0.96) 3,000 3,000 3,000 = 0.033 + 0.02453 + 0.01152 = 0.0691. Por lo tanto: 𝑛∗ = (3,000)(1.96)2 (0.0691 ) (3,000)(0.99 + 0.98 − 1)2 (0.05)2 + (1.96)2 (0.0691 ) 𝑛∗ = 796.36368 = 108.7601 = 109 árboles. 7.322204 La asignación de la muestra proporcional: 𝑛𝑖 = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 3,000, 𝑛∗ = 108.760, 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900. Por lo tanto: 1,100 𝑛1 = 3,000 (108.7601) = 39.8787 = 40 1,000 𝑛2 = 3,000 (108.7601) = 36.2533 = 36 900 𝑛3 = 3,000 (108.7601) = 32.6280 = 33. La muestra para estimar la media estratificada con precisión de 0.05 y confiabilidad de 95% es de 109 árboles: 38 adultos, 35 jóvenes y 31 ancianos. 171 g) El tamaño de la muestra modificado con una confiabilidad del 95%, una precisión de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es: 𝜒 2 (𝛾, 𝑛∗ − 1) 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 𝑁𝑡(𝑛−1,1−𝛼/2) ) 𝑛𝑖 − 1 𝑛𝑚 = 𝜒 2 (𝛾, 𝑛∗ − 1) 2 ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) ) 𝑛𝑖 − 1 donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98, 𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96, 𝜒12 (𝛾,𝑛1∗ −1) 𝑊1 𝑝1 𝑞1 ( 𝑛1∗ −1 1,100 𝜒22 (𝛾,𝑛2∗ −1) 𝑊2 𝑝2 𝑞2 ( 𝑛2∗ −1 𝑛3∗ −1 1,000 57.6659 900 53.0048 ) = 3,000 (0.08)(0.92) (36.2533−1) = 0.040125, 𝜒32 (𝛾,𝑛3∗ −1) 𝑊3 𝑝3 𝑞3 ( 62.2747 ) = 3,000 (0.1)(0.9) (39.8787−1) = 0.052858, ) = 3,000 (0.04)(0.96) (32.6280−1) = 0.019306 y 𝜒𝑖2 (𝛾,𝑛𝑖∗ −1) ∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ −1 ) = 0.052858 + 0.040125 + 0.019306 = 0.112289. Por lo tanto: 𝑛𝑚 = (3,000)(1.96)2 (0.112289) (3,000)(0.05)2 (0.99 + 0.98 − 1)2 + (1.96)2 (0.112289) 𝑛𝑚 = 1294.108267 7.488119 𝑛𝑚 = 172.8215 = 173 árboles. La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 3,000, 𝑛𝑚 = 172.8215, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900. Por lo tanto: 172 1,100 𝑛𝑚 1 = 3,000 (172.8215) = 63.3679 = 63 1,000 𝑛𝑚 2 = 3,000 (172.8215) = 57.6072 = 58 900 𝑛𝑚 3 = 3,000 (172.8215) = 51.8465 = 52. La muestra para estimar la media estratificada con precisión de 0.05, confiabilidad de 95% y aseguramiento de 99%, es de 173 árboles: 63 adultos, 58 jóvenes, y 52 ancianos. Ejemplo 4.6. Se aplicó una prueba indicadora de contaminación a una población de 𝑁 = 2,000 árboles de papaya. Se desea saber el porcentaje y el total de árboles que han sido contaminados. En la población, 700 son árboles grandes, 800 árboles medianos y 500 árboles chicos. Se realizó una prueba a 500 árboles, 200 grandes, 150 medianos y 150 chicos. Los resultados fueron 40, 30 y 15 árboles contaminados, respectivamente. La prueba tiene 0.99 de sensibilidad y 0.97 de especificidad. a) Proporción estratificada. 𝐸 ∗ 𝑝𝑠𝑡 1 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑁 𝑝𝑖∗ = 𝑖=1 𝑝𝑖 + 𝑆𝑝 − 1 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝐸 = 3, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 40 30 15 𝑝𝑖 : 𝑝1 = 200 = 0.2, 𝑝2 = 150 = 0.2, 𝑝3 = 150 = 0.1, 𝑝 +𝑆𝑝−1 0.2+0.97−1 0.17 1 𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1 = 0.99+0.97−1 = 0.96 = 0.1771, 𝑝 +𝑆𝑝−1 0.2+0.97−1 0.17 𝑝 +𝑆𝑝−1 0.1+0.97−1 0.07 2 𝑝2∗ = 𝑆𝑒+𝑆𝑝−1 = 0.99+0.97−1 = 0.96 = 0.1771 y 3 𝑝3∗ = 𝑆𝑒+𝑆𝑝−1 = 0.99+0.97−1 = 0.96 = 0.0729. Por lo tanto: 173 ∗ 𝑝𝑠𝑡 = 1 (700(0.1771) + 800(0.1771) + 500(0.0729)) 2,000 ∗ 𝑝𝑠𝑡 = 302.1 = 0.151 ó 15.1% árboles contaminados. 2,000 b) Total estratificado. ∗ 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 ∗ donde: 𝑁 = 2,000 y 𝑝𝑠𝑡 = 0.151 Por lo tanto: 𝜏̂ ∗ = 2,000(0.151) = 302. c) Varianza y desviación estándar de la población estratificada 𝐸 𝑆𝑦2∗ ̅𝑠𝑡 1 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑁 𝑆𝑝2∗𝑖 = 𝑖=1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖 ( ) 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖 donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 𝐸 = 3, 𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9, (0.2)(0.8) 700−200 2∗ 2∗ 𝑆𝑝𝑖 : 𝑆𝑝1 = (700(0.99+0.97−1)2 ) ( ) = 0.00062004, (0.2)(0.8) 800−150 2∗ 𝑆𝑝2 = (800(0.99+0.97−1)2 ) ( 500−150 200 ) = 0.00094004 y 150 (0.1)(0.9) 2∗ 𝑆𝑝3 = (500(0.99+0.97−1)2 ) ( 150 ) = 0.00045572. Por lo tanto: (700)2 (0.00062004) + (800)2 (0.00094004) + (500)2 (0.00045572) (2,000)2 𝑆𝑦2∗ ̅𝑠𝑡 = 1,019.3752 = 0.0002548. 4,000,000 174 𝑆𝑦2∗ ̅𝑠𝑡 = Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗ ̅𝑠𝑡 = √0.0002548 = 0.015962. d) IC para la proporción estratificada con confiabilidad del 95%. ∗ 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡 ∗ donde: 𝑝𝑠𝑡 = 0.151, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96. Por lo tanto: 0.151 ± (1.96)(0.015962) 0.151 ± 0.031285 ∗ 0.119715 ≤ 𝑃𝑠𝑡 ≤ 0.182285. La proporción verdadera de árboles contaminados está entre 11.97 y 18.22%. e) Estimación por intervalo para el total estratificado con la confiabilidad de 95%. 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡 donde: 𝜏̂ ∗ = 302, 𝑁 = 2,000, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96. Por lo tanto: 302 ± (2,000)(1.96)(0.015962) 302 ± 62.57104 239.4289 ≤ 𝜏 ≤ 364.571. El total verdadero de árboles contaminados está entre 239.4289 y 364.571. 175 f) Suponga que 𝑛 = 500 es una muestra preliminar. Determina el tamaño de la muestra para estimar la media con precisión de 0.03 y confiabilidad de 95%. Utilizar 𝑝 y 𝑞 originales. 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 𝑛 = 2 𝐸 𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ∗ donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y 3 ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑖=1 = 𝑁1 𝑁2 𝑁3 𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3 𝑁 𝑁 𝑁 700 800 500 (0.2)(0.8) + (0.2)(0.8) + (0.1)(0.9) 2,000 2,000 2,000 = 0.056 + 0.064 + 0.0225 = 0.1425. Por lo tanto: 𝑛∗ = (2,000)(1.96)2 (0.1425 ) (2,000)(0.99 + 0.97 − 1)2 (0.03)2 + (1.96)2 (0.1425 ) 𝑛∗ = 1,094.856 = 496.239 = 497 árboles. 2.206308 La asignación de la muestra en forma proporcional: 𝑛𝑖 = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 2,000, 𝑛∗ = 496.239, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500. Por lo tanto: 700 𝑛1 = 2,000 (496.239) = 173.6837 = 174 176 800 𝑛2 = 2,000 (496.239) = 198.4956 = 199 500 𝑛3 = 2,000 (496.239) = 124.0598 = 125. La muestra para estimar la media con precisión de 0.03 y confiabilidad de 95% debe de ser de 497 árboles: 174 grandes, 199 medianos, y 125 chicos. g) Tamaño de la muestra modificado con un nivel de confiabilidad del 95%, una precisión de 0.03 y un nivel de aseguramiento (𝛾) de 0.90. 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) ) 𝑛𝑖∗ − 1 𝑛𝑚 = 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) 2 𝐸 ∑ 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 𝑊 𝑝 𝑞 ( ) ⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y 𝜒12 (𝛾, 𝑛1∗ − 1) 700 196.8872 (0.2)(0.8) 𝑊1 𝑝1 𝑞1 ( ) = ( ) = 0.063850, 𝑛1∗ − 1 2,000 173.6837 − 1 𝜒22 (𝛾, 𝑛2∗ − 1) 800 223.3554 (0.2)(0.8) 𝑊2 𝑝2 𝑞2 ( ) = ( ) = 0.072380, 𝑛2∗ − 1 2,000 198.4956 − 1 𝜒32 (𝛾, 𝑛3∗ − 1) 500 143.5445 (0.1)(0.9) ( 𝑊3 𝑝3 𝑞3 ( )= ) = 0.026245 y ∗ 𝑛3 − 1 2,000 124.0598 − 1 3 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) ∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.06385 + 0.07238 + 0.026245 = 0.162475 𝑛𝑖∗ − 1 𝑖=1 Por lo tanto: (2,000)(1.96)2 (0.162475) (2,000)(0.03)2 (0.99 + 0.97 − 1)2 + (1.96)2 (0.162475) 𝑛𝑚 = 1,248.3279 = 546.7930 = 547 árboles. 2.2830 177 𝑛𝑚 = La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 2,000, 𝑛𝑚 = 546.7930, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500. Por lo tanto: 700 𝑛𝑚 1 = 2,000 (546.7930) = 191.3775 = 192 800 𝑛𝑚 2 = 2,000 (546.7930) = 218.7172 = 219 500 𝑛𝑚 3 = 2,000 (546.7930) = 136.6983 = 137. La muestra para estimar la media con precisión de 0.05, confiabilidad de 95% y aseguramiento de 90% debe de ser de 547 árboles: 192 grandes, 219 medianos, y 137 chicos. EJERCICIOS En los ejercicios siguientes estime los parámetros considerando una Sensibilidad de 97% y una Especificidad de 98% donde se requiera: c) El IC para la proporción y el total estratificado con una confiabilidad de 90%. d) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción de tal manera que sea estimado con una precisión de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 90%? Ejercicio 4.9. Una empresa estudió los niveles de azúcar en la sangre en 450 personas mayores de 40 años (250 mujeres y 200 hombres). Dado que cree que el sexo influye en la 178 variable respuesta, estratificó la población por sexo. Para poder estimar la cantidad de personas que tienen altos niveles de azúcar, tomó una muestra aleatoria simple de 110 personas: 50 hombres y 60 mujeres. Al momento de realizar las mediciones encontró que cuatro mujeres y tres hombres tenían un alto nivel de azúcar. Ejercicio 4.10. Una empresa agraria sembró tres variedades de limón. En total sembró 4,600 plantas: 1,200 pertenecen a la variedad uno, 2,000 a la dos y 1,400 a la tres. Para calcular el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria de 300 plantas: 120 de la primera variedad, 100 de la segunda y 80 de la tercera. El número de plantas dañadas por estrato es el siguiente: 14 plantas en la variedad uno, 10 en la variedad dos y 8 en la variedad tres. Ejercicio 4.11. En una población urbana de 4,200 personas del estado de Sonora se desea conocer la cantidad de personas que utilizan internet mediante su dispositivo móvil. Supóngase que en dicha población 40% son adolescentes, 30% niños y el resto adultos. Para estimar el porcentaje y total de personas que utilizan internet se tomó una muestra aleatoria de 660 individuos distribuidos de la siguiente manera: adolescentes: 𝑛1 = 240, niños: 𝑛2 = 220 y adultos: 𝑛3 = 200. Los resultados del número de personas que usan internet por estrato son: 75, 35 y 38, respectivamente. Ejercicio 4.12. A un centro médico asisten aproximadamente 6,500 personas de los cuales 3,200 son adolescentes y 2,800 son adultos. Se desea conocer el porcentaje de personas que practican algún deporte diariamente. Para ello se toma una muestra aleatoria de 340 individuos (160 son adolescentes y 180 adultos) y se les pregunta si practican algún deporte diariamente. Los resultados obtenidos son los siguientes: 11 en el estrato de adolescentes y 6 en el de adultos. 179 Capítulo 5. Muestreo Sistemático CAPÍTULO 5 Muestreo sistemático La estadística produce resultados muy precisos, cuando es bien utilizada y se respetan sus principios. OAML L a aleatoriedad en la selección de la muestra da sustento a los métodos revisados en capítulos anteriores: un proceso complicado y costoso. Por tal motivo, podemos usar el diseño de muestreo o de encuestas por muestreo sistemático, que es ampliamente utilizado para reducir el proceso de selección de la muestra. Este diseño sólo requiere fijar un intervalo y de ahí recorrer la población eligiendo las unidades que se encuentren en el punto seleccionado del intervalo. Ello evidentemente facilita el trabajo de campo en el muestreo y reduce sustancialmente los errores que se podrían cometer en caso de usar un procedimiento más laborioso (Pérez, 2000). Cuando se toma la muestra de una superficie, las unidades se extraen premeditadamente de un plano cartesiano imaginario. De esta manera el tiempo que se consumirá y el costo de selección por unidad muestral será menor (Pérez, 2000). Muestra sistemática Es una muestra que se obtiene con una unidad muestral por cada 𝑘 unidades en la población de tamaño 𝑁, una vez que se obtuvo el primer elemento, el cual se selecciona aleatoriamente dentro de los primeros 𝑘 elementos que conforman el marco de muestreo. De esta manera se toman el valor apropiado de 𝑘 y se dice que se tiene una muestra de 1 en 𝑘. A este tipo de muestra la denotaremos como 𝑌𝑠𝑦 . 180 Regularmente, 𝑁 es un múltiplo de 𝑘. A cada conjunto de 𝑘 unidades se le llama grupo. Cabe señalar que existe el muestreo sistemático cuando 𝑁 no es múltiplo de 𝑘. En el Cuadro 5.1 se muestra el esquema de un muestreo sistemático, donde 𝑁 es un múltiplo de 𝑘, y contiene las unidades que se seleccionan de la población, donde la primera unidad seleccionada (𝑘) es aleatoria. Cuadro 5.1 Esquema de muestreo sistemático Grupo 1 2 3 ⋯ 𝒌 1 1 2 3 ⋯ 𝑘 2 𝑘+1 𝑘+2 𝑘+3 ⋯ 2𝑘 3 2𝑘 + 1 2𝑘 + 2 2𝑘 + 3 ⋯ 3𝑘 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑗 (𝑗 − 1)𝑘 + 1 (𝑗 − 1)𝑘 + 2 (𝑗 − 1)𝑘 + 3 ⋯ 𝑗𝑘 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 (𝑛 − 1)𝑘 + 1 (𝑛 − 1)𝑘 + 2 (𝑛 − 1)𝑘 + 3 ⋯ 𝑛𝑘 = 𝑁 La mayoría de autores coincide en señalar que este diseño es quizá el procedimiento de selección de muestra más conocido, que además posee ventajas sobre la selección aleatoria simple, entre las que se pueden mencionar: Rapidez y facilidad en la selección de los elementos de la muestra en la población. Ninguna sucesión grande de elementos en la población queda sin representación. Se está menos expuesto a errores de selección que cometen los investigadores en el campo. Bajo costo, por la simplicidad de la selección. Mejor organización y control en el trabajo de campo. En la práctica, la estimación de la varianza sistemática del estimador bajo estudio presenta problemas, ya que se requieren cuando menos dos selecciones aleatorias por cada intervalo de selección (𝑘), es decir, dos o más muestras sistemáticas para la misma población. 181 Si se conoce la estructura de la población, la anterior dificultad puede resolverse considerando el muestreo sistemático como equivalente al muestreo aleatorio simple, y por lo tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria simple del estimador bajo estudio. Es conveniente y oportuno indicar a continuación para cuáles poblaciones es válida dicha equivalencia. 5.1 Tipos de población por su estructura Población aleatoria Una población es aleatoria (Figura 5.1) si sus elementos están ordenados al azar con respecto a la característica de interés. Autores como Kish (1972), Scheaffer et al. (1987) y Azorin (1972), entre otros, coinciden al indicar que el muestreo sistemático bajo estas condiciones es equivalente al muestreo aleatorio simple. Esto significa que la varianza bajo MAS es aproximadamente igual a la varianza bajo muestreo sistemático. Figura 5.1. La dispersión del marco de muestreo de una población aleatoria. Población ordenada Una población es ordenada (Figura 5.2) si los elementos dentro de la población están ordenados de acuerdo con algún esquema y con respecto a la variable de interés. 182 Scheaffer et al. (1987) indican que una muestra sistemática de tal población proporciona más información que una muestra aleatoria simple por unidad de costo (por ende, se obtiene una mayor eficiencia en la generación de datos) debido a que la varianza sistemática del estimador será menor que la varianza del mismo cuando se emplee el muestreo aleatorio simple. La varianza sistemática del estimador no se puede estimar directamente, por ello empleamos una aproximación conservadora (que es mayor de la que se esperaría): se calcula la varianza del estimador con las expresiones vistas en el capítulo 3 (muestreo aleatorio simple). Población periódica Una población es periódica cuando sus elementos tienen una variación cíclica con respecto a la variable de interés. Scheaffer et al. (1987) señalan que una muestra sistemática extraída de esta población proporciona menos información que una muestra aleatoria simple por unidad de costo. Como en las situaciones anteriores, la varianza sistemática del estimador no puede calcularse a partir de una sola muestra sistemática. Es decir, se puede aproximar su valor empleando las expresiones correspondientes que da el muestreo aleatorio simple pero, como es de esperarse, esta aproximación subestimará la varianza verdadera (sistemática). Figura 5.2. La dispersión del marco de muestreo de una población ordenada. Como una alternativa para que esta subestimación sea mínima, se sugiere cambiar varias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la población y al mismo tiempo seleccionar la correspondiente muestra sistemática. En 183 consecuencia se puede suponer que la muestra así extraída es sistemática y proviene de una población aleatoria. Para lecturas adicionales, véanse, por ejemplo, Kish (1972), capítulo 4; Azorin (1972), capítulo 21; y Scheaffer et al. (1987), capítulo 7. 5.2 ¿Cómo seleccionar una muestra sistemática? Primero se debe decidir el tamaño del intervalo 1 en 𝑘 unidades, después se selecciona aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la 𝑘−ésima unidad y así se continuará hasta llegar a 𝑁. Pero surge la pregunta de cómo seleccionar la k adecuada. En general, para una muestra sistemática de n elementos en una población de 𝑁, 𝑘 debe ser menor o igual a 𝑁 𝑛 . Si se desconoce 𝑁, entonces se determina un tamaño de muestra 𝑛 aproximado y así se podría obtener una 𝑘 estimada (Pérez, 2000). A continuación, veamos algunas maneras de cómo elegir el valor de 𝑘 dependiente del tamaño de la población: I. Cuando el tamaño de la población, 𝑁, es múltiplo de 𝑛, (𝑁 = 𝑘𝑛). Notación: 𝑁: tamaño de la población. 𝑛: tamaño de la muestra. 𝑘 = 𝑁/𝑛: intervalo de selección o muestreo. Procedimiento: 1) Seleccionar aleatoriamente un número entero 𝑖 (arranque o inicio aleatorio) comprendido entre 1 y 𝑘 (1 ≤ 𝑖 ≤ 𝑘). 184 2) Luego, de manera rígida o sistemática (de ahí proviene el nombre del procedimiento), tomar el elemento 𝑖 + 𝑘 que está 𝑘 lugares del 𝑖-ésimo en la lista, el 𝑖 + 2𝑘 que está 2𝑘 lugares después, y así sucesivamente hasta completar el tamaño 𝑛 de la muestra. Nótese que la tabla de números aleatorios u otro mecanismo de selección se emplea una sola vez en 𝑖. Por ejemplo, si 𝑁 = 1,000 y se decide un tamaño de 𝑛 = 10, entonces 𝑘 = 1,000/10 = 100, el primer valor de 𝑘 será un valor entre 1 y 100, el cual se elige al azar. Suponga que el primer valor es 40, entonces los elementos que conformarán la muestra son: el 40, 140, 240, 340, 440, 540, 640, 740, 840 y 940. II. Cuando el tamaño de la población (𝑁) no es múltiplo de 𝑛 (𝑁 ≠ 𝑛𝑘). Notación: 𝑁: tamaño de la población. 𝑛: tamaño de la muestra. 𝑘 = 𝑁/𝑛: intervalo de selección o muestreo. En la práctica, es frecuente que 𝑁 no sea un múltiplo de 𝑛, con lo cual la muestra sistemática al final puede tener 𝑛 o 𝑛 − 1 elementos. Azorin (1972) señala que esta diferencia de tamaños no suele ser importante cuando la población es superior a 50. Por otro lado, Kish (1972) indica que este problema se puede resolver de varias maneras y el investigador deberá seleccionar la más conveniente. De las soluciones propuestas por dicho autor, describiremos la más usual: considerar el marco de muestreo (lista) como si fuera circular. Procedimiento: 1) Considerar el marco de muestreo como un círculo: que la primera unidad continúe de la última. 185 2) Sea 𝑘 el entero más próximo a 𝑁/𝑛. 3) Seleccionar aleatoriamente un número entero entre 1 y 𝑁. 4) En seguida, seleccionar cada 𝑘-ésima unidad hasta completar los 𝑛 elementos Por ejemplo, supóngase que 𝑁 = 300 y se decide un tamaño de 𝑛 = 9, entonces 300/9 = 33.3333 y 𝑘 = 33, ya que es el entero más próximo a 33.3333. Además, supóngase que 270 es el entero seleccionado aleatoriamente entre uno y 300. Por tanto, los elementos que conformarán la muestra son: 270, 3, 36, 69, 102, 135, 168, 201 y 234. III. Cuando se desconoce el tamaño de la población (𝑁). En este caso puede darse un valor tentativo de 𝑘; sin embargo, podría ser muy grande y nos daría un tamaño de muestra menor que el requerido en el estudio. Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente la muestra y así seleccionar la 𝑘 que proporcione el tamaño requerido. Sin embargo, hay muchos casos en los que esto no es posible y es necesario tener una precisión dada al principio. Ello hace difícil la tarea de estimar un valor adecuado de 𝑘 (Pérez, 2000). 5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático Estimación de la media y el total de la muestra sistemática Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una muestra estimando los parámetros de mayor interés, como la media y el total poblacional. Después se procede a estimar los parámetros con sus correspondientes varianzas y por último los intervalos de confianza. 𝜇̂ = 𝑦̅𝑠 = ∑𝑛𝑖=1 𝑦𝑖 𝑛 𝜏̂ 𝑠 = 𝑁𝑦̅𝑠 186 A continuación se presentan los estimadores correspondientes a las varianzas de la media y del total. La varianza de la media y del total 𝑁 − 𝑛 𝑠2 ̂ 𝑉 (𝑦̅𝑠 ) = ( )( ) 𝑁 𝑛 𝑉(𝜏̂ 𝑠 ) = 𝑁 2 ( 𝑁 − 𝑛 𝑠2 )( ) 𝑁 𝑛 El estimador de la varianza del total se obtiene multiplicando el estimador de la varianza de la media por 𝑁 2 . Los intervalos de confianza para la media y para el total 𝑁 − 𝑛 𝑠2 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( )( ) 𝑁 𝑛 donde 𝑦̅𝑠 es la media de la muestra sistemática. 𝜏̂ 𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑁 2 ( 𝑁 − 𝑛 𝑠2 )( ) 𝑁 𝑛 Obsérvese que la estimación de la varianza es la misma que la presentada en el muestreo aleatorio aleatorio. Sin embargo, las varianzas poblacionales no son las mismas. La varianza del estimador de la media de una muestra sistemática es: 𝑉(𝑦̅𝑠 ) = 187 𝜎2 [1 + (𝑛 − 1)𝜌𝑋𝑌 ] 𝑛 En la fórmula anterior aparece la medida de correlación 𝜌𝑋𝑌 que indica la relación que existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy ligado a este indicador. Si 𝜌𝑋𝑌 está alrededor de uno, quiere decir que los elementos están estrechamente relacionados entre sí y eso producirá una mayor varianza de la media que en el muestreo simple aleatorio (éste será el más indicado). En caso contrario, si 𝜌𝑋𝑌 está cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la varianza es aproximadamente igual al muestreo simple aleatorio (Scheaffer et al., 1987). Por lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son apropiados cuando el coeficiente de correlación (𝜌𝑋𝑌 ) es casi cero, de lo contrario la muestra debe ser seleccionada bajo MAS o MAE. La selección del tamaño de la muestra A fin de determinar el tamaño de la muestra para estimar a 𝜇, se procede como en los capítulos anteriores. Primero se elige un valor de 𝑑, es decir, la precisión que se está dispuesto a aceptar en las estimaciones, y se iguala al producto de un valor de 𝑡 (con sus correspondientes grados de libertad) por la desviación estándar de dicho estimador, como se representa a continuación: 𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝑦̅𝑠 ) 5.1 El tamaño de muestra para estimar la media Despejando 𝑛 de esta ecuación (5.1), se obtiene lo siguiente: 𝑛∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎 2 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎 donde la varianza poblacional 𝜎 2 se puede sustituir por la muestral. El tamaño de muestra modificado 188 5.2 𝑛𝑚 = 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) 2 𝜒(𝛾, 𝑛∗ −1) 2 2 2 𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) 5.3 donde la varianza poblacional 𝜎 2 se sustituye por la muestral. EJEMPLOS Ejemplo 5.1. Una línea de producción de leche ultrapasteurizada elabora 𝑁 = 1,000 envases por hora (cada envase contiene un litro de leche). Se desea saber si cada envase de leche cumple con el porcentaje de grasa. Para ello se toma una muestra sistemática de 10 envases. Primero se elige 𝑘. 𝑘= 𝑁 1,000 = = 100. 𝑛 10 Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo aleatoriamente el primer elemento entre los primeros 100 (Cuadro 5.2). Cuadro 5.2. Porcentaje de grasa por envase de leche. No. de muestra Porcentaje de grasa 80 2.5 180 2.6 280 2.7 380 2.6 480 2.8 580 2.9 680 3.0 780 2.6 880 2.7 980 2.8 a) Promedio de grasa por envase. 189 ∑𝑛𝑖=1 𝑦𝑖 𝑛 2.5 + 2.6 + 2.7 + 2.6 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8 𝑦̅𝑠 = = 2.72 o 2.72% de grasa. 10 𝑦̅𝑠 = b) La varianza muestral (𝑆𝑠2 ). 𝑆𝑠2 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2 𝑛−1 𝑆𝑠2 = 2.52 + 2.62 + ⋯ + 2.72 + 2.82 − 10(2.72)2 = 0.024. 10 − 1 c) La varianza y la desviación estándar de la media muestral. 𝑆𝑦2̅𝑠 = ( 𝑁 − 𝑛 𝑆𝑠2 )( ) 𝑁 𝑛 𝑆𝑦2̅𝑠 = ( 1,000 − 10 0.024 )( ) = 0.002376 1,000 10 𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.002376 = 0.048744. d) IC del promedio de grasa por e nv ase de leche con una confiabilidad de 95%. 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠 donde: 𝑦̅𝑠 = 2.72, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622. Por lo tanto: 2.72 ± (2.2622)(0.048744) 2.72 ± 0.110269 2.609731 ≤ 𝜇 ≤ 2.830269. Es decir, con una confiabilidad de 95% se estima que el promedio de grasa por envase de leche está entre 2.609731 y 2.830269. 190 e) Cantidad total de grasa que se encuentra en los envases. 𝜏̂ = 𝑁𝑦̅𝑠 = (1,000)(2.72) = 2,720 gramos de grasa. f) IC para el total de grasa por envase. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠 donde: 𝜏̂ = 2,720, 𝑁 = 1,000, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622. Por lo tanto: 2,720 ± (1,000)(2.2622)(0.048744) 2,720 ± 110.268677 2,609.7313 ≤ 𝜏 ≤ 2,830.2687 Es decir, con 95% de confianza se estima que el total de grasa por envase está entre 2,609.7313 y 2,830.2687. g) Si la muestra seleccionada es una muestra preliminar de tamaño 𝑛 = 10. El tamaño de muestra necesario para estimar el promedio de grasa por envase, con una precisión de 0.05% de grasa por envase y una confiabilidad de 95% es: ∗ 𝑛 = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠 donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024 y 𝑑 = 0.05. Por lo tanto: 𝑛∗ = 191 (1, 000)(2.2622)2 (0.024) 122.8218 = = 46.8285 = 47 envases. (1,000)(0.05)2 + (2.2622)2 (0.024) 2.6228 h) El tamaño de muestra para estimar el promedio con una precisión de 0.05% de grasa por envase, una confiabilidad de 95% y además un nivel de aseguramiento (𝛾) de 99% es: 𝑛𝑚 = 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) 𝑁𝑑2 + 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024, 2 2 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,46.8285−1) = 70.9881 y 𝑑 = 0.05. Por lo tanto: 70.9881 ) 46.8285 − 1 𝑛𝑚 = 70.9881 (1,000)(0.05)2 + (2.2622)2 (0.024) ( ) 46.8285 − 1 190.249335 = 70.7181 = 71. 𝑛𝑚 = 2.690249 (1, 000)(2.2622)2 (0.024) ( Ejemplo 5.2. Un sembradío tiene 6,000 plantas de caña de azúcar. Por el arreglo de las plantas (en surcos) es fácil enumerarlas del uno al 6,000. Suponga que se quieren conocer los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación. Por lo tanto, se toma una muestra sistemática de 𝑛 = 30. Primeramente se determina el valor de 𝑘. 𝑘= 𝑁 6,000 = = 200. 𝑛 30 Entonces, se debe muestrear cada 200 elementos (plantas), eligiendo aleatoriamente a la primera planta de entre las primeras 200 (Cuadro 5.3). Cuadro 5.3. Porcentaje de sacarosa por planta. 192 Número de Porcentaje de muestra sacarosa Número de Porcentaje de muestra sacarosa 1 50 11.06 16 3,050 15.01 2 250 10.61 17 3,250 16.85 3 4 450 14.41 18 3,450 15.93 650 14.45 19 3,650 13.28 5 850 9.46 20 3,850 15.39 6 1,050 13.47 21 4,050 12.83 7 1,250 14.68 22 4,250 14.49 8 1,450 13.99 23 4,450 20.38 9 1,650 9.72 24 4,650 11.33 10 1,850 11.37 25 4,850 16.22 11 2,050 12.29 26 5,050 15.83 12 2,250 11.22 27 5,250 15.68 13 2,450 13.25 28 5,450 11.70 14 2,650 15.78 29 5,650 09.45 15 2,850 14.65 30 5,850 12.16 𝒏 𝒏 a) Promedio muestral. ∑𝑛𝑖=1 𝑦𝑖 𝑛 11.06 + 10.61 + 14.41 + ⋯ + 12.16 𝑦̅𝑠 = = 13.5647 gr. de sacarosa por planta. 30 𝑦̅𝑠 = b) La varianza muestral (𝑆𝑠2 ). 𝑆𝑠2 ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2 = 𝑛−1 𝑆𝑠2 11.062 + 10.612 + 14.412 + ⋯ + 12.162 − 30(13.5647)2 = = 6.2571. 30 − 1 c) Varianza y la desviación estándar de la media muestral. 𝑆𝑦2̅𝑠 = ( 𝑁 − 𝑛 𝑆𝑠2 )( ) 𝑁 𝑛 𝑆𝑦2̅𝑠 = ( 6,000 − 30 6.2571 )( ) = 0.207527 6,000 30 La desviación estándar: 𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.207527 = 0.455551. 193 d) IC para el promedio de sacarosa por planta de caña de azúcar. 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠 donde: 𝑦̅𝑠 = 13.5647, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452. Por lo tanto: 13.5647 ± (2.0452)(0.455551) 13.5647 ± 0.931693 12.633 ≤ 𝜇 ≤ 14.4964. Es decir, con una confiabilidad de 95% se estima que el valor de los gramos promedio de sacarosa por caña de azúcar se encuentra entre 12.633y 14.4964. e) Cantidad total de sacarosa en el sembradío de caña de azúcar. 𝜏̂ = 𝑁𝑦̅𝑠 = (6,000)(13.5647) = 81,388.2 gramos. f) IC para el total de sacarosa en el sembradío de caña de azúcar. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠 donde: 𝜏̂ = 81,388.2, 𝑁 = 6,000, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(30−1,1−0.025) = 2.0452. Por lo tanto: 81,388.2 ± (6,000)(2.0452)(0.455551) 81,388.2 ± 5,590.157431 75,798.0426 ≤ 𝜏 ≤ 86,978.3574 Es decir, con 95% de confianza se estima que el total (gramos) de sacarosa en las 6,000 plantas de caña de azúcar está entre 75,798.0426 y 86,978.3674 gramos. 194 g) Suponga que la muestra seleccionada es a preliminar de tamaño 𝑛 = 30. ¿Cuál es el tamaño de muestra necesario para estimar el promedio de sacarosa por planta de caña de azúcar, con una precisión de 0.05 gramos de sacarosa y una confiabilidad de 95%? 𝑛∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠 donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571 y 𝑑 = 0.05. Por lo tanto: (6, 000)(2.0452)2 (6.2571) 157,034.8031 𝑛 = = = 3,814.0701 = 3,815. 2 2 (6,000)(0.05) + (2.0452) (6.2571) 41.1725 ∗ h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio de grasa por envase de tal manera que el promedio tenga una precisión de 0.05% de grasa por envase, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%? 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) 𝑁𝑑2 + 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 ) donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571, 2 2 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,3814.0701−1) = 4,019.2 y 𝑑 = 0.05. Por lo tanto: 𝑛𝑚 = 𝑛𝑚 = 195 4,019.2 (6,000)(2.0452)2 (6.2571) (3,814.0701 − 1) 4,019.2 (6,000)(0.05)2 + (2.0452)2 (6.2571) (3,814.0701 − 1) 165,523.9123 = 3,886.6965 = 3,887. 42.5873 EJERCICIOS En los siguientes ejercicios estime los parámetros solicitados. a) El IC para la media y el total con una confiabilidad de 95%. b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de muestra para estimar la media y el total de tal manera que sean estimados con una precisión de 5% de la media preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 90%? Ejercicio 5.1. Asistieron 𝑁 = 5,000 personas a una fiesta y fueron enumeradas del uno al 5,000. Se desea conocer la cantidad promedio de cervezas ingeridas por persona y se tomó una muestra sistemática de 25 personas (véase el Cuadro 5.4). Cuadro 5.4. Datos de la muestra. 1 2 Número de muestra 25 225 3 425 5 18 3,425 6.0 4 625 7 19 3,625 5.0 5 825 5 20 3,825 6.0 6 1,025 4 21 4,025 5.0 7 1,225 7 22 4,225 4.0 8 1,425 3 23 4,425 4.5 9 1,625 8 24 4,625 5.0 10 1,825 3.5 25 4,825 7.0 11 2,025 4.5 12 2,225 6 13 2,425 6.5 14 2,625 7 15 2,825 3 𝒏 196 Ingeridas 𝒏 7.5 6 16 17 Número de muestra 3,025 3,225 Ingeridas 6.0 6.0 Ejercicio 5.2. Una empresa de limones de Tecomán, Colima, empaca 𝑁 = 2,000 cajas de limones por turno. Se desea estimar el número de limones dañados por caja. Se toma una muestra sistemática de 𝑛 = 20. Use la información del Cuadro 5.5. Cuadro 5.5. Datos de la muestra. Muestra Limones Muestra Limones (No. de caja) dañados (No. de caja) dañados 1 10 105 2 110 106 11 1,010 105 12 1,110 109 3 210 108 13 1,210 100 4 310 100 14 1,310 110 5 410 95 15 1,410 100 6 510 110 16 1,510 100 7 610 109 17 1,610 105 8 710 100 18 1,710 105 9 810 115 19 1,810 100 10 910 080 20 1,910 100 𝒏 𝒏 Ejercicio 5.3. En una colonia de la ciudad de Guadalajara hay 𝑁 = 2,500 casas, las cuales se enumeraron del uno al 2,500. La Comisión Nacional del Agua desea estimar el gasto promedio de agua en cientos de litros por casa, para ello tomó una muestra sistemática de 𝑛 = 12. Use la información del Cuadro 5.6. Cuadro 5.6. Datos de la muestra. 𝒏 1 197 Muestra (No. de caja) Litros 2,300 2.5 2 8 2.2 3 216 2.7 4 424 2.9 5 632 2.4 6 840 2.2 7 1,048 2.8 8 1,258 2.6 9 1,464 2.5 10 1,672 2.4 11 1,880 3 12 2,088 2.9 Ejercicio 5.4. En una empresa que se dedica a la digitalización de documentos, escanea 𝑁 = 1,500 cajas por día. Se desea conocer la cantidad de Documentos No Escaneados Adecuadamente (DNEA), por lo que se enumeraron las cajas del uno al 1,500 y se tomó una muestra 𝑛 = 15 cajas (véase la información del Cuadro 5.7). Cuadro 5.7. Datos de la muestra. 𝒏 Muestra (No. de caja) Documentos No Escaneados Adecuadamente (DNEA) 1 60 2 2 160 3 3 260 2 4 360 4 5 460 2 6 560 3 7 660 1 8 760 4 9 860 5 10 960 2 11 1,060 3 12 1,160 3 13 1,260 2 14 1,360 2 15 1,460 4 5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático Estimación de la proporción poblacional Al igual que en los métodos anteriores, en ocasiones se desea estimar una proporción, es decir, la frecuencia de una característica en particular. De esta forma, la observación que posea la característica de interés tomará el valor de 1 o 0. No es difícil justificar que la variable medida tiene una distribución binomial con parámetros 𝑛 y 𝑝, donde 𝑛 representa el tamaño de la muestra y 𝑝 la proporción o frecuencia relativa de éxitos en las 𝑛 observaciones. Las ecuaciones que se presentarán en las subsecciones siguientes son idénticas a las expuestas en la sección dedicada a 198 proporciones en el capítulo de muestreo simple aleatorio y poseen las mismas propiedades estadísticas. Las varianzas de las poblaciones no necesariamente son las mismas en ambos casos. Si nos referimos a una muestra sistemática proveniente de una población aleatoria con un tamaño poblacional grande, las varianzas pueden llegar a ser las mismas (Scheaffer et al., 1987). El estimador de la proporción y el total ∑𝑛𝑖=1 𝑦𝑖 𝑝𝑠 = 𝑦̅𝑠 = 𝑛 𝜏𝑠 = 𝑁𝑝𝑠 (5.4) (5.5) La varianza estimada de la proporción y el total sistemático 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 𝑆𝑝2𝑠 = ( )( ) 𝑁 𝑛 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 𝑆𝜏2𝑠 = 𝑁 2 ( )( ) 𝑁 𝑛 (5.6) (5.7) donde 𝑞𝑠 = 1 − 𝑝𝑠 . Por último, para los estimadores (5.6 y 5.7) presentamos intervalos de confianza, que nos indican los límites de la proporción y el total con una confiabilidad de (1−𝛼) por ciento, y después la forma de seleccionar el tamaño de muestra para la proporción y el total, la cual sigue el mismo procedimiento visto en capítulos anteriores. El intervalo de confianza para la proporción y el total sistemático 𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 )( ) 𝑁 𝑛 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √( )( ) 𝑁 𝑛 199 La selección del tamaño de muestra para la proporción Para determinar el tamaño de muestra que estime 𝑝𝑠 o 𝜏̂𝑠 se elige una precisión que estamos dispuestos a aceptar. Es decir, 𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑆𝑝2𝑠 (5.8) El tamaño de muestra para estimar la proporción Después de despejar 𝑛 de la ecuación (5.8), obtenemos: 𝑛∗ = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 (5.9) 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 Para fines prácticos la varianza poblacional se sustituye por la varianza muestral. El tamaño de muestra modificado Si la población es infinita el tamaño de la muestra modificado es: 2 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑡 (𝑛−1,1−𝛼⁄2) 𝑛𝑚 = (5.10) 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( ) Mientras que el tamaño de muestra para una población finita es igual a: 𝑛𝑚𝐹 = 𝑛𝑚 ( 200 𝑁 ) 𝑁 + 𝑛𝑚 (5.11) EJEMPLOS Ejemplo 5.3. La administración de la Universidad de Colima desea conocer la cantidad de alumnos que están satisfechos por las mejoras y los logros alcanzados por el presidente de México. Para realizar dicha encuesta se elegirán 𝑛 alumnos entre los 10,000 estudiantes de la Universidad de Colima. Se pretende obtener una muestra de 18 alumnos. A continuación se obtiene 𝑘: 𝑘= 𝑁 10,000 = = 555.5556. 𝑛 18 Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 556, el entero más cercano. Por ello, el primer alumno que será encuestado se elegirá aleatoriamente entre el primero y el 10,000. Los datos se presentan en la Cuadro 5.8. Cuadro 5.8. Alumnos satisfechos e insatisfechos. No. de alumno Respuesta No. de alumno Respuesta 422 0 5,982 1 978 1 6,538 1 1,534 1 7,094 1 2,090 1 7,650 0 2,646 0 8,206 0 3,202 1 8,762 1 3,758 0 9,318 0 4,314 0 9,874 0 4,870 0 5,426 0 a) La proporción verdadera de alumnos satisfechos. ∑𝑛𝑖=1 𝑦𝑖 𝑎 8 𝑝𝑠 = = = = 0.444444 ó 44.44% de alumnos satisfechos. 𝑛 𝑛 18 𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.5 = 0.555556 ó 55.55% de alumnos insatisfechos. b) La desviación estándar de la proporción muestral (𝑆𝑝𝑠 ). 201 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 𝑆𝑝𝑠 = √( )( ) 𝑁 𝑛 donde: 𝑁 = 10,000, 𝑛 = 18, 𝑝𝑠 = 0.444444 y 𝑞𝑠 = 0.555556. Por lo tanto: 10,000−18 (0.444444)(0.555556) 10,000 18 𝑆𝑝𝑠 = √( )( ) = √(0.9982)(0.013717) = 0.117014. c) El IC de 95% para la proporción verdadera. 𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠 donde: 𝑝𝑠 = 0.444444, 𝑆𝑝𝑠 = 0.117014, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(18−1,1−0.025) = 2.1098. Por lo tanto: 0.444444 ± (2.1098)(0.117014) 0.444444 ± 0.246876 0.197568 ≤ 𝑃𝑠 ≤ 0.69132. Con 95% de confianza se estima que la proporción verdadera de alumnos satisfechos está entre 0.197568 y 0.69132, es decir, entre 19.75 y 69.13%. d) El total verdadero de alumnos satisfechos. 𝜏̂ = 𝑁𝑝𝑠 donde: 𝑁 = 10,000 y 𝑝𝑠 = 0.444444. Por lo tanto: 202 𝜏̂ = (10,000)(0.444444) = 4,444.44. e) El IC del total de alumnos satisfechos, con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠 donde: 𝜏̂ = 4,444.44, 𝑁 = 10,000, 𝑆𝑝𝑠 = 0.117014 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098. Por lo tanto: 4,444.44 ± (10,000)(2.1098)(0.117014) 4,444.44 ± 2,468.761372 1,975.6786 ≤ τs ≤ 6,913.2014. Con 95% de confianza se estima que el total de alumnos satisfechos está entre 1,975.6786 y 6,913.2014. f) Si 𝑛 = 18 alumnos es una muestra preliminar, el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.05 y una confiabilidad de 95% es: ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 donde: 𝑁 = 10,000, 𝑝𝑠 = 0.444444, 𝑞𝑠 = 0.555556, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098 y 𝑑 = 0.05. Por lo tanto: (10,000)(2.1098)2 (0.444444)(0.555556) (10,000)(0.05)2 + (2.1098)2 (0.444444)(0.555556) 𝑛∗ = 10,990.753456 = 421.1166 = 422. 26.099075 203 𝑛∗ = g) Ahora bien, el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99% es: 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑛𝑚 = 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 𝑡(𝑛−1,1−𝛼⁄2) 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( ) donde: 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098, 𝑝𝑠 = 0.444444, 𝑞𝑠 = 0.555556, 𝑍𝛾 = 2.5669 y 𝑑 = 0.05. Primeramente se obtiene el tamaño de la muestra suponiendo una población infinita: 2 √0.444444(0.555556) + √0.444444(0.555556) + 2(0.05)|1 − 2(0.444444)|(2.5669) 2.1098 𝑛𝑚 = 2(0.05) 2.1098 ( ) 2 0.496903 + √0.246913 + 0.013519 𝑛𝑚 = ( ) 0.047398 2 0.496903 + 0.510325 𝑛𝑚 = ( ) = 451.580882. 0.047398 Finalmente se calcula el tamaño de la muestra suponiendo una población finita: 10,000 𝑛𝑚𝐹 = 451.580882 ( ) = 432.0695 = 433.. 10,000 + 451.580882 Ejemplo 5.4. Se tiene una población de 600 estudiantes y se pretende saber cuántos de ellos poseen licencia para conducir. Para realizar la estimación se toma una muestra sistemática de 19 estudiantes. A continuación obtenemos 𝑘: 𝑘= 204 𝑁 600 = = 31.5789 𝑛 19 Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 32 (el entero más cercano) y el primer elemento se elige al azar entre el uno y 600. La encuesta arrojó los datos que aparecen en el Cuadro 5.9. Cuadro 5.9. Estudiantes que tienen licencia para conducir. Número de Respuesta estudiantes Número de Respuesta estudiantes 11 0 331 0 43 1 363 0 75 0 395 1 107 0 427 0 139 0 459 1 171 1 491 0 203 1 523 1 235 1 555 0 267 0 587 1 299 0 a) Estimación puntual para la proporción de estudiantes que cuentan con una licencia para conducir. 𝑝𝑠 = ∑𝑛𝑖=1 𝑦𝑖 𝑎 8 = = = 0.4211 ó 42.11% de estudiantes con licencia. 𝑛 𝑛 19 𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.4211 = 0.5789 o 57.89% sin licencia. b) Desviación estándar de la proporción muestral (𝑆𝑝𝑠 ). 𝑁 − 𝑛 𝑝𝑠 𝑞𝑠 𝑆𝑝𝑠 = √( )( ) 𝑁 𝑛 donde: 𝑁 = 600, 𝑛 = 19, 𝑝𝑠 = 0.4211 y 𝑞𝑠 = 0.5789. Por lo tanto: 205 600 − 19 (0.4211)(0.5789) 𝑆𝑝𝑠 = √( )( ) = √0.012424 = 0.111463. 600 19 c) IC de 95% para la proporción verdadera. 𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠 donde: 𝑝𝑠 = 0.4211, 𝑆𝑝𝑠 = 0.111463, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(19−1,1−0.025) = 2.101. Por lo tanto: 0.4211 ± (2.101)(0.111463) 0.4211 ± 0.234184 0.186916 ≤ 𝑃𝑠 ≤ 0.655284. Con 95% de confianza se estima que la proporción verdadera de estudiantes con licencia está entre 0.186916 y 0.655284, es decir, entre 18.69 y 65.52%. d) Total verdadero de estudiantes con licencia. 𝜏̂ = 𝑁𝑝𝑠 donde: 𝑁 = 600 y 𝑝𝑠 = 0.4211. Por lo tanto: 𝜏̂ = (600)(0.4211) = 252.66. e) IC del total verdadero de estudiantes con licencia, con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠 donde: 𝜏̂ = 252.66, 𝑁 = 600, 𝑆𝑝𝑠 = 0.111463 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.101. 206 Por lo tanto: 252.66 ± (600)(2.101)(0.111463 ) 252.66 ± 140.510258 112.149742 ≤ 𝜏𝑠 ≤ 393.170258 Con 95% de confianza se estima que el total de estudiantes con licencia está entre 112.149742 y 393.170258. f) Suponga que 𝑛 = 19 estudiantes es una muestra preliminar ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.05 de la proporción preliminar y una confiabilidad de 95%? 𝑛∗ = 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠 donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 2.101, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789, y 𝑑 = 𝑑𝑝𝑠 = (0.05)(0.4211) = 0.021055. Por lo tanto: 𝑛∗ = (600)(2.101)2 (0.4211)(0.5789) (600)(0.021055)2 + (2.101)2 (0.4211)(0.5789) 𝑛∗ = 645.642553 = 481.0668 = 482. 1.3421 g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.05 de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%? 207 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑛𝑚 = 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 𝑡(𝑛−1,1−𝛼⁄2) 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( ) donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789, 𝑍𝛾 = 2.5524 y 𝑑 = 0.021055. Primeramente se obtendrá el tamaño de la muestra suponiendo una población infinita: 𝑛𝑚 2(0.021055)|1 − 2(0.4211)|(2.5524) √(0.4211)(0.5789) + √(0.4211)(0.5789) + 1.96 = 2(0.021055) 1.96 ( ) 2 0.493736 + √0.243775 + 0.008653 𝑛𝑚 = ( ) 0.021485 𝑛𝑚 = ( 0.493736 + 0.502422 2 ) = 2,149.8015. 0.021485 Finalmente, el tamaño de la muestra suponiendo una población finita: 600 𝑛𝑚𝐹 = 2,149.8015 ( ) = 469.0814 = 470. 600 + 2,149.8015 EJERCICIOS En los ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95%. 208 2 b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño demuestra para estimar la proporción y el total de tal manera que sean estimados con una precisión de 6% de la proporción y el total preliminar con una confiabilidad de 95%? Ejercicio 5.5. Una empresa constructora tiene empleados a 𝑁 = 1,200 albañiles para una mega construcción. Con la finalidad de estimar el porcentaje de albañiles a los que les gusta la cerveza, se toma una muestra sistemática de 𝑛 = 12 albañiles (Cuadro 5.10). Cuadro 5.10. Albañiles que consumen cerveza. 𝒏 Número de muestra Consume 1 7 0 2 107 1 3 207 0 4 307 1 5 407 0 6 507 1 7 607 1 8 707 0 9 807 1 10 907 1 11 1,007 1 12 1,107 1 Ejercicio 5.6. Una empresa que produce 𝑁 = 5,000 colchones por semana, decide tomar una muestra sistemática de 𝑛 = 10 colchones, el objetivo es estimar el porcentaje de colchones que no cumplen con los requerimientos de calidad (Cuadro 5.11). 209 𝒏 Número de muestra Cumple 1 210 1 2 710 1 3 1,210 0 4 1,710 0 5 2,210 1 6 2,710 1 7 3,210 1 8 3,710 1 9 4,210 1 Cuadro 5.11. 10 Muestra de 1 4,710 colchones Ejercicio 5.7. La Embajada Francesa en México desea conocer el porcentaje de Yucatecos que han visitado Francia. Supóngase que la población del estado de Yucatán es de 𝑁 = 10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20 individuos. Use la información del Cuadro 5.12. Cuadro 5.12. Yucatecos que han visitado Francia 𝒏 Número de muestra Respuesta 𝒏 Número de muestra Respuesta 1 300 0 11 5,300 0 2 800 0 12 5,800 0 3 1,300 1 13 6,300 0 4 1,800 0 14 6,800 1 5 2,300 1 15 7,300 0 6 2,800 0 16 7,800 0 7 3,300 1 17 8,300 1 8 3,800 0 18 8,800 0 9 4,300 1 19 9,300 0 10 4,800 0 20 9,800 1 Ejercicio 5.8. La Secretaría de Turismo de México desea conocer el porcentaje de jaliscienses que han visitado la ciudad maya de Palenque, Chiapas. Se supone que la población del estado de Jalisco es de 𝑁 = 10,000 personas. De esta población se extrae la muestra sistemática de 𝑛 = 10 individuos. Use la información del Cuadro 5.13. 210 Cuadro 5.13. Jaliscienses que han visitado Palenque Chiapas. Número de 𝒏 muestra Cumple 1 100 0 2 1,100 0 3 2,100 1 4 3,100 0 5 4,100 1 6 5,100 0 7 6,100 0 8 7,100 0 9 8,100 0 10 9,100 0 5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo sistemático. Estimación de la proporción poblacional (𝑺𝒆 y 𝑺𝒑) y el total 𝑝𝑠∗ 𝑎 + 𝑆𝑝 − 1 =𝑛 𝑆𝑒 + 𝑆𝑝 − 1 𝑞𝑠∗ = 1 − 𝑝𝑠∗ donde: 𝑎 = denota el número de elementos positivos que se encuentran en la muestra de tamaño 𝑛, Se y 𝑆𝑝 son la sensibilidad y especificidad de las pruebas de laboratorio. La varianza estimada de la proporción 𝑆𝑝2𝑠 = ( 𝑁−𝑛 1 𝑝𝑠 𝑞𝑠 )( ) 2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑁 𝑛 donde 𝑞𝑠 = 1 − 𝑝𝑠 . El intervalo de confianza para la proporción 𝑝𝑠 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √( 211 𝑁−𝑛 1 𝑝𝑠 𝑞𝑠 )( ) (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛 𝑁 (5.12) El tamaño de muestra sin aseguramiento para estimar la proporción ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 (5.13) El tamaño de muestra modificado Si la población es infinita, el tamaño de la muestra modificado es: 2 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑛𝑚 = 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 𝑡(𝑛−1,1− 𝛼/2) 1 ( ) (𝑆𝑒 + 𝑆𝑝 − 1)2 2𝑑 (5.14) 𝑡(𝑛−1,1− 𝛼/2) ( ) Mientras que el tamaño de muestra para una población finita es igual a: 𝑛𝑚𝐹 = 𝑛𝑚 ( 𝑁 ) 𝑁 + 𝑛𝑚 (5.15) EJEMPLOS Ejemplo 5.5. La Secretaría de Salud del estado de Nayarit está interesada en conocer cuántos de los trabajadores del gobierno han consumido algún tipo de droga en las últimas 2 semanas, esto mediante un análisis de sangre. Se tienen 𝑁 = 8,000 trabajadores y se tomó una muestra de 16. La prueba tiene una sensibilidad (𝑆𝑒) de 0.83 y una especificidad (𝑆𝑝) de 0.97. 𝑘= 𝑁 8,000 = = 500. 𝑛 16 La primera persona a quien se medirá será elegida aleatoriamente entre 1 y 500, consecutivamente cada 500 se tomará a otra persona (Cuadro 5.14). 212 Cuadro 5.14. Trabajadores sometidos al análisis. No. de trabajador Resultado No. de trabajador Resultado 187 687 0 1 4,187 4,687 0 0 1,187 0 5,187 0 1,687 0 5,687 1 2,187 0 6,187 0 2,687 0 6,187 0 3,187 1 7,187 0 3,687 1 7,687 0 a) La proporción verdadera de los trabajadores que resultaron positivos a la prueba. 𝑎 𝑝𝑠 = , 𝑞𝑠 = 1 − 𝑝𝑠 𝑛 𝑎 + 𝑆𝑝 − 1 ∗ 𝑝𝑠 = 𝑛 , 𝑞𝑠∗ = 1 − 𝑝𝑠∗ 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑎 = 4 y 𝑛 = 16. Por lo tanto: 𝑝𝑠 = 4 = 0.25 = 25% 16 𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.25 = 0.75 = 75% 𝑝𝑠∗ = 4 16 + 0.97 − 1 0.22 = = 0.275 = 27.5% 0.83 + 0.97 − 1 0.8 𝑞𝑠∗ = 1 − 0.275 = 0.725 = 72.5%. b) La varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los trabajadores. 𝑆𝑝2𝑠 = ( 𝑁−𝑛 1 𝑝𝑠 𝑞𝑠 )( ) 2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑁 𝑛 donde: 𝑁 = 8,000, 𝑛 = 16, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑝𝑠 = 0.25 y 𝑞𝑠 = 0.75 Por lo tanto: 213 𝑆𝑝2𝑠 = (0.25)(0.75) 8,000 − 16 1 ( ) 2 (0.83 + 0.97 − 1) 8,000 16 𝑆𝑝2𝑠 = (0.998)(1.5625)(0.011719) = 0.018274 𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.018274 = 0.135181. c) IC con 95% de confiabilidad para la proporción verdadera. 𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠 donde: 𝑝𝑠∗ = 0.275, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(16−1,1−0.025) = 2.1314 y 𝑆𝑝𝑠 = 0.135181. Por lo tanto: 0.275 ± (2.1314)(0.135181) 0.275 ± 0.288125 0 ≤ P ≤ 0.563125. Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de trabajadores que consumieron algún tipo de droga está entre 0 y 0.563125. d) Total de trabajadores que consumieron algún tipo de droga. 𝜏̂ = 𝑁𝑝𝑠∗ = (8,000)(0.275) = 2,200 trabajadores. e) IC del total verdadero de trabajadores con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠 donde: 𝜏̂ = 2,200, 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314 y 𝑆𝑝𝑠 = 0.135181. Por lo tanto: 2,200 ± (8,000)(2.1314)(0.135181) 2,200 ± 2,304.998267 0 ≤ 𝜏 ≤ 4,504.998267 214 Es decir, con 95% de confianza se estima que el total de trabajadores está entre 0 y 4,504.9983. f) Si 𝑛 = 16 es una muestra preliminar, el tamaño de muestra real para estimar la proporción verdadera con una precisión de 0.075 y una confiabilidad del 95% es: ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 donde: 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314, 𝑝𝑠 = 0.25, 𝑞𝑠 = 0.75, 𝑑 = 0.075, 𝑆𝑒 = 0.83 y 𝑆𝑝 = 0.97. Por lo tanto: 𝑛∗ = 8,000(2.1314)2 (0.25)(0.75) 8,000(0.075)2 (0.83 + 0.97 − 1)2 + (2.1314)2 (0.25)(0.75) 𝑛∗ = 6,814.2989 = 229.8106 = 230 trabajadores. 29.6518 g) El tamaño de muestra real para estimar la proporción verdadera con una precisión de 0.075, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99 es: 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑛𝑚 = 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 𝑡(𝑛−1,1− 𝛼/2) 2𝑑 𝑡(𝑛−1,1− 𝛼/2) ( donde: 𝑁 = 8,000, 𝑡(𝑛−1,1− ( 𝛼/2) 1 ) (𝑆𝑒 + 𝑆𝑝 − 1)2 ) = 2.1314, 𝑝 = 0.25, 𝑞 = 0.75, 𝑍𝛾 = 2.6025, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97 y 𝑑 = 0.075. Primero se determina el tamaño de la muestra suponiendo población infinita: 2 𝑛𝑚 215 2.6025 √0.25(0.75) + √0.25(0.75) + 2(0.075)|1 − 2(0.25)| 1 2.1314 = ( ) (0.83 + 0.97 − 1)2 2(0.075) 2.1314 ( ) 2 0.433013 + √0.1875 + 0.091577 1 𝑛𝑚 = ( ) ) ( 0.64 0.070376 2 0.433013 + 0.528278 1 𝑛𝑚 = ( ) = 291.527627.. ) ( 0.64 0.070376 Finalmente se calcula el tamaño de la muestra suponiendo una población finita: 8,000 𝑛𝑚𝐹 = 291.527627 ( ) = 281.2776 = 282 trabajadores.. 8,000 + 291.527627 Ejemplo 5.6. En el estado de Michoacán una organización privada quiere conocer cuántos de sus empleados son positivos en el consumo de cafeína, esto mediante un análisis de sangre. Se tienen 𝑁 = 2,000 empleados y se tomó una muestra de 20. La prueba tiene una sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.98. 𝑘= 𝑁 2,000 = = 100. 𝑛 20 La primera persona a quien se le preguntará será elegida aleatoriamente entre uno y 100, consecutivamente cada 100 se tomará a otra persona (véase el Cuadro 5.15). Cuadro 5.15. Empleados sometidos al análisis. No. de empleado Resultado No. de empleado Resultado 64 164 1 1 1,064 1,164 1 0 264 0 1,264 1 364 1 1,364 0 464 1 1,464 0 564 1 1,564 1 664 1 1,664 1 764 1 1,764 1 864 1 1,864 0 964 1 1,964 0 a) Proporción verdadera de los trabajadores que resultaron positivos a la prueba. 𝑝𝑠 = 216 𝑎 𝑛 𝑞𝑠 = 1 − 𝑝𝑠 𝑎 + 𝑆𝑝 − 1 𝑝𝑠∗ = 𝑛 𝑆𝑒 + 𝑆𝑝 − 1 𝑞𝑠∗ = 1 − 𝑝𝑠∗ donde: 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑎 = 14 y 𝑛 = 20. Por lo tanto: 𝑝𝑠 = 14 = 0.7 = 70% 20 𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.7 = 0.3 = 30% 𝑝𝑠∗ = 14 20 + 0.98 − 1 0.68 = = 0.85 = 85% 0.82 + 0.98 − 1 0.8 𝑞𝑠∗ = 1 − 0.85 = 0.15 = 15%. b) Varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los estudiantes. 𝑆𝑝2𝑠 = ( 𝑁−𝑛 1 𝑝𝑠 𝑞𝑠 )( ) 2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑁 𝑛 donde: 𝑁 = 2,000, 𝑛 = 20, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑝𝑠 = 0.7 y 𝑞𝑠 = 0.3 Por lo tanto: 𝑆𝑝2𝑠 = (0.7)(0.3) 2,000 − 20 1 ( ) 2 (0.82 + 0.98 − 1) 2,000 20 𝑆𝑝2𝑠 = (0.99)(1.5625)(0.0105) = 0.016242 𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.016242 = 0.127444. c) IC de 95% para la proporción verdadera. 𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠 donde: 𝑝𝑠∗ = 0.85, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(20−1,1−0.025) = 2.093 y 𝑆𝑝𝑠 = 0.127444. 217 Por lo tanto: 0.85 ± (2.093)(0.127444) 0.85 ± 0.26674 0.58326 ≤ 𝑃 ≤ 1.11674 Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de empleados que resultaron positivos en el consumo de cocaína está entre 0.5833 y 1.1167. d) Total de empleados que resultaron positivos en el consumo de cocaína. 𝜏̂ = 𝑁𝑝𝑠∗ = (2,000)(0.85) = 1,700 trabajadores. e) IC del total verdadero de empleados con la confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑛−1,1− 𝛼/2) 𝑁𝑆𝑝𝑠 donde: 𝜏̂ = 1,700, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑁 = 2,000 y 𝑆𝑝𝑠 = 0.127444. Por lo tanto: 1,700 ± (2,000)(2.093)(0.127444) 1,700 ± 533.480584 1,166.519416 ≤ 𝜏 ≤ 2,233.480584 Es decir, con 95% de confianza se estima que el total de empleados está entre 1,284.3176 y 2,233.480584. Suponga que los datos conformaron una muestra preliminar ¿Cuál es el tamaño de f) muestra real para estimar la proporción verdadera con una precisión de 0.05 y una confiabilidad del 95%? 218 ∗ 𝑛 = 2 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 2 𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠 donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝𝑠 = 0.7, 𝑞𝑠 = 0.3, 𝑑 = 0.05, 𝑆𝑒 = 0.82 y 𝑆𝑝 = 0.98. Por lo tanto: 2,000(2.093)2 (0.7)(0.3) 𝑛 = 2,000(0.05)2 (0.82 + 0.98 − 1)2 + (2.093)2 (0.7)(0.3) ∗ 𝑛∗ = 1,839.8726 = 446.5819 = 447 empleados. 4.1199 g) ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una precisión de 0.05, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99? 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 √𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑛𝑚 = 2𝑑|1 − 2𝑝𝑠 |𝑍𝛾 𝑡(𝑛−1,1− 𝛼/2) ( 2𝑑 𝑡(𝑛−1,1− 𝛼/2) ( 1 ) (𝑆𝑒 + 𝑆𝑝 − 1)2 ) donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝 = 0.7, 𝑞 = 0.3, 𝑍𝛾 = 2.5395, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98 y 𝑑 = 0.05. Primero se determina el tamaño de la muestra suponiendo población infinita: 2 2(0.05)|1 − 2(0.7)|2.5395 √0.7(0.3) + √0.7(0.3) + 1 2.093 𝑛𝑚 = ( ) (0.82 + 0.98 − 1)2 2(0.05) 2.093 ( ) 2 1 0.458258 + √0.21 + 0.048533 𝑛𝑚 = ( ) ) ( 0.64 0.047778 0.458258 + 0.508462 2 1 𝑛𝑚 = ( ) ( ) = 639.684019 0.047778 0.64 219 Finalmente se obtiene el tamaño de la muestra suponiendo una población finita: 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) 𝑁 + 𝑛𝑚 Por lo tanto: 2,000 𝑛𝑚𝐹 = 639.684019 ( ) = 484.6648 = 485 empleados. 2,000 + 639.684019 EJERCICIOS En los ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95%. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción de tal manera que sea estimado con una precisión de 7% de la proporción preliminar, con una confiabilidad de 95% y un nivel de aseguramiento del 90%? Ejercicio 5.9. En el estado de Guerrero una organización privada quiere conocer cuántos de sus empleados son positivos en el consumo de drogas, esto mediante un análisis de sangre. Se tienen 𝑁 = 1,500 empleados y se tomó una muestra de 15. La prueba tiene una sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.97 (Cuadro 5.16). 220 No. de empleado Resultado No. de empleado Resultado 12 1 812 1 112 1 912 1 212 0 1,012 1 312 0 1,112 0 412 0 1,212 0 Cuadro 512 0 1,312 0 612 1 1,412 0 712 1 5.16. Empleados sometidos al análisis. Ejercicio 5.10. Una clínica tiene 𝑁 = 2,800 enfermos y decide tomar una muestra sistemática de 𝑛 = 14 enfermos. El objetivo es estimar el porcentaje de enfermos que tienen diabetes. La prueba tiene una sensibilidad (𝑆𝑒) de 0.92 y una especificidad (𝑆𝑝) de 0.95 (Cuadro 5.17). Cuadro 5.17. Muestra de enfermos. n Número de enfermo Positivo 1 111 1 2 311 1 3 511 0 4 711 0 5 911 1 6 1,111 1 7 1,311 1 8 1,511 1 9 1,711 1 10 1,911 1 11 2,111 0 12 2,311 1 13 2,511 1 14 2,711 1 Ejercicio 5.11. La Secretaría de Salud del estado de Yucatán desea conocer el porcentaje de Yucatecos que son diabéticos. Supóngase que la población del estado de Yucatán es 221 de 𝑁 = 10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20 individuos. La prueba tiene una sensibilidad (𝑆𝑒) de 0.98 y una especificidad (𝑆𝑝) de 0.97. Use la información del Cuadro 5.18. Cuadro 5.18. Yucatecos que tienen diabetes. 𝒏 Número de muestra Respuesta 𝒏 Número de muestra Respuesta 1 300 0 11 5,300 0 2 800 0 12 5,800 0 3 1,300 1 13 6,300 0 4 1,800 0 14 6,800 1 5 2,300 1 15 7,300 0 6 2,800 0 16 7,800 0 7 3,300 0 17 8,300 1 8 3,800 1 18 8,800 0 9 4,300 1 19 9,300 0 10 4,800 0 20 9,800 0 Ejercicio 5.12. La Marina de México desea conocer el porcentaje de soldados que consumen algún tipo de droga. Se tiene una población de 𝑁 = 6,000 soldados. De esta población se extrae la muestra sistemática de 𝑛 = 10 individuos. La prueba tiene una sensibilidad (𝑆𝑒) de 0.97 y una especificidad (𝑆𝑝) de 0.98. Use la información del Cuadro 5.19. Cuadro 5.19. Soldados que han consumido algún tipo de droga. 𝒏 222 Número de soldado Positivo 1 100 0 2 700 0 3 1,300 1 4 1,900 0 5 2,500 1 6 3,100 0 7 3,700 0 8 4,300 0 9 4,900 1 10 5,500 1 223 Capítulo 6. Muestreo por conglomerados en una etapa CAPÍTULO 6 Muestreo por conglomerados en una etapa Nunca antes en su historia, la estadística había sido tan querida y repudiada. Tan querida por ser útil, objetiva y muy precisa. Repudiada, por compleja, laboriosa e ingeniosa. OAML E n el estudio del diseño de encuestas o muestreos existen diferentes opciones para estimar un parámetro. Las diferencias pueden radicar en cuanto a costo, precisión o facilidad de aplicación. En ocasiones resulta absurdo intentar aplicar alguno de los esquemas de muestreo antes vistos a una población con ciertas características. Para ello existe otro diseño de muestreo que proporciona herramientas valiosas. En los diseños de encuestas las unidades muestrales se pueden definir de diferentes formas. En el caso del muestreo por conglomerados, que revisamos en este capítulo, a diferencia de los anteriores, las unidades muestrales (ahora llamadas unidades de muestreo primarias o conglomerados) están constituidas por varios elementos (o unidades de muestreo secundarias). En estas últimas se realizará la medición, mientras 224 que los primeros nos auxilian para hacer la selección aleatoria. Este es el principio del diseño. La muestra por conglomerados Una muestra obtenida aleatoriamente de conglomerados (de la misma forma que en el muestreo simple aleatorio), en donde a las unidades de muestreo primarias definidas les llamaremos conglomerados, las cuales son grupos de elementos (o unidades de muestreo secundarias), sobre las que se hará la medición o evaluación de la característica de interés (Pérez, 2000). Es decir, en éste diseño se extrae bajo MAS una muestra de tamaño 𝑛 de conglomerados donde cada conglomerado es una colección de elementos o conglomerados. Como se sabe, si se desea realizar una selección aleatoria de unidades, debemos contar con el marco de muestreo adecuado. Con frecuencia no es posible tener el marco de muestreo u obtenerlo es costoso, además de que el costo crece al tener que medir unidades separadas entre sí por una gran distancia física. En el muestreo por conglomerados este costo se reduce sustancialmente, ya que al levantar la información de elementos contiguos o muy cercanos entre sí se evita el costo de transportación y puede operarse también aun sin tener un marco de muestreo completo. El muestreo por conglomerados, en una, dos o más etapas, es un diseño efectivo para obtener una cantidad específica de información a un costo mínimo, cuando se presentan las siguientes situaciones: Cuando no se encuentre disponible, no es confiable o es muy caro obtener un marco que contenga la lista de los elementos de la población. Sin embargo, es posible disponer fácilmente de un marco que contenga la lista de todos los conglomerados de la población. Aun cuando fuese posible contar con un marco que contenga la lista de todos los elementos de la población, la selección de una muestra aleatoria simple ocasionaría costos excesivos; esto se puede ver claramente en poblaciones grandes 225 y dispersas, es decir, el costo aumenta como consecuencia de la distancia existente entre unidades de estudio. 6.1 ¿Qué puede ser un conglomerado? En los diseños por conglomerados es importante tener claro lo que será considerado como conglomerados, ya que pueden ser naturales o convenientemente determinados. Dado que cada problema tiene características propias, entonces la definición de conglomerados también la tendrá. Por lo tanto, únicamente se puede hablar de aspectos generales que es necesario que satisfagan los conglomerados, los cuales son: Que las unidades que conforman cada conglomerado sean lo más diferentes entre sí, y que estén lo más próximo posible unas de otras, es decir, que las unidades dentro de cada conglomerado sean lo más heterogéneas y cercanas entre sí. Que los conglomerados sean lo más similares entre sí, es decir, homogéneos. Por ejemplo, si en un municipio deseamos conocer cierto parámetro, los conglomerados podrían agrupar manzanas, colonias o barrios. La decisión se toma de acuerdo con la precisión que se quiera, la información disponible, los objetivos o cualquier criterio de interés para el investigador. Si se tratara del control de calidad de cajas de cereal, podríamos designar a las cajas como conglomerados (sitios de muestreo) o en el caso de la evaluación nacional de salud se elegirían hospitales, centros de salud, etcétera (Pérez, 2000). Si una encuesta por conglomerados se aplicara a cajas que contienen productos terminados, entonces los conglomerados contendrían el mismo número M de productos terminados o elementos (unidades de muestreo secundarias), debido a la uniformidad del proceso de producción y empaque. En este ejemplo diremos que los conglomerados son de tamaño homogéneo, pero es evidente que los casos con estas características no son los más frecuentes y que en general encontraremos conglomerados de tamaños desiguales, es decir, las colonias no tienen el mismo número de habitantes, los sitios de 226 muestreo forestal tampoco contendrán el mismo número de árboles, etcétera. Pero las técnicas de muestreo probabilístico cubren estas posibilidades, por lo que no hay de qué preocuparse. En el diseño de muestreo el investigador elige los conglomerados aleatoriamente y mide todos sus elementos. Además, esos elementos quedarán automáticamente seleccionados al elegir el conglomerado en la muestra, es decir, cada conglomerado de la muestra será censado (Cochran, 1985). En el diseño de muestreo por conglomerados en una etapa, se asume que todos los elementos incluidos en los conglomerados seleccionados y que constituyen la muestra serán estudiados. Además, cabe señalar que entre este diseño y el aleatorio simple existe gran similitud en cuanto a las expresiones relacionadas con el tamaño de muestra, con la diferencia de que el aleatorio simple utiliza unidades muestrales elementales, mientras que el muestreo por conglomerados considera grupos de unidades elementales. 6.2 Una comparación con el muestreo estratificado Muestreo estratificado Muestreo por conglomerados Mayor precisión con relación al muestreo simple Mayor precisión con relación al muestreo simple aleatorio. aleatorio. Los estratos deben contener elementos que sean Los conglomerados deben contener elementos lo muy homogéneos entre sí. más heterogéneo posible entre sí. Para obtener mayor precisión, la diferencia debe Para mayor precisión, los conglomerados deben ser ser grande entre estratos. muy similares. La varianza de la estimación de la media La varianza de la estimación de la media depende de depende de la variabilidad de los valores dentro la variabilidad que existe entre las medias de los del estrato. conglomerados. 227 Muestreo estratificado Muestreo de conglomerados Figura 6.1. Comparación gráfica entre muestreo estratificado y el de conglomerados. En el estratificado se seleccionan algunas unidades del estrato y en el de conglomerados se seleccionan algunos de ellos y de los seleccionados se miden todas las unidades. 6.3 Acerca del tamaño del conglomerado Es importante resaltar que el conglomerado debe ser de un tamaño moderado o de tal naturaleza que todas las observaciones (observación 𝑗 en el conglomerado 𝑖) puedan obtenerse con relativa facilidad. Sin embargo, no es difícil imaginar situaciones en las que el conglomerado sea grande. Por ejemplo, si los conglomerados elegidos son conjuntos de viviendas de 120 manzanas y de ellas deben ser elegidos todos los niños menores de seis años, el conjunto a censar sería demasiado grande, o si el conjunto fuera un archivero con miles de hojas y fuera necesario calcular estimaciones por hoja; en tales casos es razonable pensar que el esquema de muestreo por conglomerados en una etapa no es apropiado, sino en dos etapas (Pérez, 2000). Notación 𝑁: el número de conglomerados en la población o unidades de muestreo primarias (UMP) que cubre a toda la población, sin traslapes. 𝑛: el número de conglomerados seleccionados de una muestra simple aleatoria. 𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias (UMS) en el conglomerado, 𝑖 = 1, 2, . . . , 𝑁. M= ∑Ni=1 𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias en la población. ̅ : el número promedio de UMS por UMP (o conglomerado) en la población. 𝑀 𝜏𝑖 : el total del conglomerado 𝑖. 228 𝑀 𝑖 𝑦 ∑𝑖=1 𝑖𝑗 𝑦̅𝑖 = 𝑦̅= 𝑀𝑖 ∑𝑁 𝑖=1 𝑦𝑖 𝑁 : la media a nivel de UMS del conglomerado 𝑖. : el total del promedio por UMP. 𝑀 𝑁 𝑖 𝜏= ∑𝑁 𝑖=1 𝜏𝑖 = ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 : el total de la población. 𝜏 𝜇= 𝑀: la media a nivel de UMS. 𝑦𝑖𝑗 : el valor de la 𝑗-ésima UMS en el 𝑖-ésimo conglomerado. El punto en el subíndice simboliza todas las UMS del conglomerado 𝑖. 𝑀𝑖 se refiere al número de UMS que contiene el conglomerado 𝑖. Pudiera darse el caso de que se seleccione sólo una parte del conglomerado, digamos 𝑚𝑖 entre las 𝑀𝑖 UMS, lo cual nos lleva al diseño de muestreo conglomerado en dos etapas que no está al alcance de este libro. 6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados Cálculo de la media y el total poblacional con M conocida El muestreo por conglomerados es muy conveniente cuando el costo de llegar a las unidades primarias es muy alto con relación al costo de medir las unidades secundarias dentro de un conglomerado. Para elegir los conglomerados UMP que estarán en la muestra, se sigue el mismo procedimiento que en el muestreo simple aleatorio, por lo que los estimadores de la media, 𝜇, y el total, 𝜏, se obtienen de manera similar. Sin embargo, es importante observar que los datos del muestreo por conglomerados permiten obtener estimaciones a diferentes niveles de la población. Es decir, en una encuesta sobre los sitios para medir la cantidad de madera de árboles, las observaciones individuales 𝑦𝑖𝑗 incluyen los volúmenes por árboles que hay, 𝜏𝑖 es el volumen total del sitio (para un conglomerado incluido en la muestra, pues se contabilizan a todos los árboles del sitio), 𝜏 es el volumen de toda la población y 𝜇 es el volumen promedio por árbol. 229 A continuación se presentan los estimadores suponiendo una muestra aleatoria de 𝑛 conglomerados y que cada uno contiene 𝑀𝑖 elementos (Scheaffer et al., 1987). El estimador de la media poblacional 𝑛 𝑀 𝑖 𝑦𝑖𝑗 ∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1 𝜇̂ = 𝑦̅𝑠 = 𝑛 = 𝑛 ∑𝑖=1 𝑀𝑖 ∑𝑖=1 𝑀𝑖 (6.1) El estimador del total poblacional ∑𝑛𝑖=1 𝑦𝑖 𝜏̂𝑠 = 𝑀𝑦̅𝑠 = 𝑀 ( 𝑛 ) ∑𝑖=1 𝑀𝑖 (6.2) Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del total son de UMS en toda la población (Scheaffer et al., 1987). Si se sustituye 𝑛 por 𝑁 se obtendrían los parámetros 𝜇 y 𝜏. Se necesita la varianza de estos estimadores para conocer la dispersión de los datos y para saber la precisión de las estimaciones. Estas varianzas se muestran a continuación. ̅𝒔 y 𝝉̂𝒔 La varianza estimada de 𝒚 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 𝑁−𝑛 1 1 𝑉̂ (𝑦̅𝑠 ) = ( ) ( ) ( 2) ( ) ̅ 𝑁 𝑛 𝑀 𝑛−1 𝑉̂ (𝜏𝑠 ) = 𝑉̂ (𝑀𝜏𝑠 ) = 𝑀2 𝑉̂ (𝑦̅𝑠 ) (6.3) (6.4) 𝑁−𝑛 1 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 = 𝑀2 ( ) ( ) ( 2) ̅ 𝑁 𝑛 𝑀 𝑛−1 𝑁−𝑛 1 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 ̅ )2 ( = (𝑁𝑀 ) ( ) ( 2) ̅ 𝑁 𝑛 𝑀 𝑛−1 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑐 𝑀𝑖 )2 = 𝑁2 ( )( ) 𝑁 𝑛 𝑛−1 Al conocer los estimadores de las varianzas de 𝑦̅𝑠 y 𝜏𝑠 (6.3 y 6.4), se puede calcular sus correspondientes intervalos de confianza, lo que dará los límites en los que se encuentran 230 las estimaciones, es decir, una idea acerca de la precisión de las estimaciones. Es importante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones (6.3 y 6.4) son sesgadas, pero pueden ser aceptables si 𝑛 es grande (digamos 𝑛 > 30) y el sesgo desaparecería si los tamaños de los conglomerados fueran iguales (todas las 𝑀𝑖 iguales). El intervalo de confianza de la media y el total 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) (6.5) 𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑠 ) (6.6) La determinación del tamaño de muestra La precisión de las estimaciones depende del tamaño de la muestra y de su conformación. En el diseño por conglomerados se busca la situación inversa al diseño estratificado, pues formaremos conglomerados homogéneos entre ellos, pero heterogéneos en su interior. Es decir, que haya valores superiores e inferiores a la media general, de tal forma que el diseño resulte casi tan preciso como la selección aleatoria. Pero en algunas ocasiones los conglomerados ya están definidos por algún esquema y no es posible hacerlos más eficientes, lo cual es una desventaja en cuanto a la precisión. Por otro lado, esta condición también puede ser una ventaja, ya que al utilizar un muestreo por conglomerado no requerimos de un marco de muestreo de elementos. Obsérvese que a diferencia de los diseños anteriores, la muestra por conglomerados también será definida por el tamaño relativo de los conglomerados. El tamaño del límite para el error de estimación depende de la variación entre los totales de conglomerados, así que confirmamos que para obtener límites pequeños de error de estimación debemos seleccionar conglomerados con la menor variación posible entre éstos o sus totales. Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número de 𝑛 conglomerados que seleccionaremos. De la misma manera que en los diseños 231 anteriores, al no conocer 𝜎𝑐2 o el tamaño promedio del conglomerado, se complica la decisión sobre el número de conglomerados necesarios para conseguir una cantidad específica de información concerniente a un parámetro poblacional. Si este fuera el caso, ̅ que podrían estar disponibles en encuestas previas usaríamos los estimadores de 𝜎𝑐2 y 𝑀 o, en todo caso, obtenerse a través de una encuesta piloto seleccionando una muestra preliminar, digamos 𝑛, y con esta información podemos calcular el tamaño de muestra definitivo 𝑛. Procediendo de manera análoga a los diseños anteriores, 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) es el error asociado a la estimación, llamado precisión, es decir, 𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) (6.7) donde 𝜃̂ representa el estimador del parámetro de interés. De la expresión anterior y con 𝜃̂ = 𝑦̅𝑠 , se despeja 𝑛 para obtener el tamaño de muestra. El tamaño de muestra para estimar el promedio ∗ 𝑛 = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐 2 2 ̅ 2 𝑑 2 + 𝑡(𝑛−1,1−𝛼 𝑁𝑀 ⁄2) 𝜎𝑐 donde 𝜎𝑐2 es estimada por 𝑠𝑐2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 ]/(𝑛 − 1). El tamaño de muestra modificado para estimar el promedio 𝑛𝑚 = 232 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) 2 𝜒(𝛾, 𝑛∗ −1) 2 2 2 2 ̅ 𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que 2 el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 6.1. Una universidad tiene 𝑀 = 10,000 estudiantes inscritos en 𝑁 = 220 grupos con diferente clave de estudiante. Con la finalidad de estimar el gasto promedio por estudiante en útiles escolares, se toma una muestra aleatoria simple de 𝑛 = 5 grupos y se pregunta a cada integrante de los grupos sobre su gasto en útiles escolares (Cuadro 6.1). Los tamaños de los conglomerados son: 233 Cuadro 6.1. Gasto en útiles escolares por estudiante (pesos). Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 (𝑀1 = 30) (𝑀2 = 32) (𝑀3 = 31) ( 𝑀4 = 36) (𝑀5 = 34) 104 81 107 116 96 102 91 100 113 124 086 78 106 111 108 112 84 104 118 74 114 121 101 93 114 116 70 87 105 122 106 93 97 67 124 101 79 81 96 87 74 114 64 94 103 106 92 101 119 89 125 92 109 79 98 114 131 94 118 132 114 107 97 91 96 94 88 126 113 94 090 114 102 114 103 109 96 102 97 88 98 101 93 109 124 91 99 69 127 134 120 101 121 109 103 96 100 78 119 111 97 98 130 121 105 99 77 122 115 141 99 92 90 112 104 83 69 73 100 91 112 98 103 99 115 83 102 80 127 112 107 79 104 70 123 94 123 104 114 100 81 109 113 136 125 89 110 67 122 128 114 93 89 102 70 90 92 129 72 107 112 94 82 𝒚𝟏 = 𝟑, 𝟎𝟗𝟒 𝒚𝟐 = 𝟑, 𝟏𝟖𝟒 𝒚𝟑 = 𝟑, 𝟐𝟑𝟖 𝒚𝟒 = 𝟑, 𝟑𝟑𝟔 𝒚𝟓 = 𝟑, 𝟕𝟏𝟔 a) La estimación de la media. 𝑀𝑖 𝑛 𝑦𝑖𝑗 ∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1 𝜇̂ = 𝑦̅𝑠 = 𝑛 = ∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖 donde: 𝑀 = 10,000, 𝑛 = 5, 𝑦𝑖 : 𝑦1 = 3,094, 𝑦2 = 3,184, 𝑦3 = 3,238, 𝑦4 = 3,336, 𝑦5 = 3,716, 𝑀𝑖 : 𝑀1 = 30, 𝑀2 = 32, 𝑀3 = 31, 𝑀4 = 36 y 𝑀5 = 34. Por lo tanto: 3,094 + 3,184 + 3,238 + 3,336 + 3,716 30 + 32 + 31 + 36 + 34 16,568 𝑦̅𝑠 = = 101.6442. 163 𝑦̅𝑠 = b) La estimación del total. 234 𝜏̂𝑠 = 𝑀𝑦̅𝑠 donde: 𝑀 = 10,000 y 𝑦̅𝑠 = 101.6442. Por lo tanto: 𝜏̂𝑠 = (10,000)(101.6442) = 1,016,442 pesos. c) La varianza y la desviación estándar de la media. 𝑁−𝑛 1 𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2 donde: 𝑀 = 10,000, 𝑁 = 220, 𝑛 = 5, 𝑦̅𝑠 = 101.6442, ̅ = 𝑀 = 10,000 = 45.45: el número promedio de estudiantes por grupo, 𝑀 𝑁 220 𝜎𝑐2 : estimada por 𝑠𝑐2 = 𝑠𝑐2 = [∑𝑛 ̅𝑠 𝑀𝑖 )2 ] 𝑖=1(𝑦𝑖 −𝑦 𝑛−1 : (3,094−(101.6442)(30))2 +⋯+(3,716−(101.6442)(34))2 (5−1) = 46,595. Por lo tanto: 2 2 220 − 5 1 (3,094 − (101.6442)(30)) +. . . +(3,716 − (101.6442)(34)) 𝑉̂ (𝑦̅𝑠 ) = ( )( )( ) (5)(45.45)2 220 5−1 𝑉̂ (𝑦̅𝑠 ) = 4.4079. Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √4.4079 = 2.0995. d) El IC del 90% para la media poblacional (𝜇𝑐 ). 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) donde: 𝑦̅𝑠 = 101.6442, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(5−1,0.95) = 2.1318 y √𝑉̂ (𝑦̅𝑠 ) = 2.0995. 235 Por lo tanto: 101.6442 ± (2.1318)(2.0995) 101.6442 ± 4.4757 97.1685 ≤ 𝜇𝑠 ≤ 106.1199. Es decir, con 90% de confianza se estima que la media poblacional está entre 97.1685 y 106.1199. e) Un IC de 90% para el total. 𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 ) donde: 𝜏̂𝑠 = 1,016,442, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y √𝑉̂ (𝜏̂ 𝑠 ) = √𝑀2 𝑉̂ (𝑦̅𝑠 ) = √(10,000)2 (4.4079) = 20,994.9994. Por lo tanto: 1,016,442 ± (2.1318)(20,994.9994) 1,016,442 ± 44757.1397 971,684.8603 ≤ 𝜏𝑐 ≤ 1,061,199.1397. Es decir, con 90% de confianza se estima que el total poblacional está entre 971,684.8603 y 1,061,199.1397. f) Si 𝑛 = 5 grupos es una muestra preliminar. El tamaño de muestra necesario para estimar el promedio poblacional con una precisión de 4% de la media preliminar y una confiabilidad de 90% es: ∗ 𝑛 = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐 2 2 ̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑁𝑀 ⁄2) 𝜎𝑐 ̅ = 𝑀 = 45.45, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318, donde: 𝑁 = 220, 𝑛 = 5, 𝑀 𝑁 236 𝜎𝑐2 : estimada por 𝑠𝑐2 = 46,595 y 𝑑 = (0.04)(101.6442) = 4.0658. Por lo tanto: 𝑛∗ = (220)(2.1318)2 (46,595) (220)(45.45)2 (4.0658)2 + (2.1318)2 (46,595) 𝑛∗ = 46,585,945.3241 7,724,219.5966 𝑛∗ = 6.0311 = 7 grupos. g) El tamaño de muestra necesario para estimar el promedio poblacional con una precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel de aseguramiento (𝛾) de 90%, es: 𝑛𝑚 = 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) 2 𝜒(𝛾, 𝑛∗ −1) 2 2 2 2 ̅ 𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) ̅ = 𝑀 = 45.45, 𝜎𝑐2 = 46,595, 𝑑 = 4.0658, donde: 𝑁 = 220, 𝑛 = 5, 𝑀 𝑁 2 2 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,6.0311−1) = 9.2797. Por lo tanto: 𝑛𝑚 = 𝑛𝑚 = (220)(2.1318)2 (46,595) ( 9.2797 6.0311 − 1) 9.2797 6.0311 − 1) (220)(45.45)2 (4.0574)2 + (2.1318)2 (46,595) ( 85,926,258.04 7,872,029.548 𝑛𝑚 = 10.9153 = 11 Ejemplo 6.2. La empresa Pepsico procesa 1,000 rejas de refresco por día. Con la finalidad de conocer si el proceso de producción cumple con el contenido de carbohidratos, cierto día se selecciona una muestra aleatoria simple de 6 rejas (Cuadro 237 6.2) a) Promedio de carbohidratos por refresco. 𝑀 𝑖 ∑𝑛𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 ∑𝑛𝑖=1 𝑦𝑖 𝜇̂ = 𝑦̅𝑠 = 𝑛 = ∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖 donde: 𝑛 = 6: el número de rejas seleccionadas, 𝑀 = 24,000: el total de refrescos producido en tal día y 𝑀𝑖 : 𝑀1 = 24, 𝑀2 = 24, 𝑀3 = 24, 𝑀4 = 24, 𝑀5 = 24 y 𝑀6 = 24: número de refrescos por reja. Por lo tanto: 168.3 + 180.2 + 171.2 + 183 + 186 + 162.9 24 + 24 + 24 + 24 + 24 + 24 1051.6 𝑦̅𝑠 = = 7.3028. 144 𝑦̅𝑠 = Cuadro 6.2. Contenido de carbohidratos por reja de refresco Reja 1 Reja 2 Reja 3 Reja 4 Reja 5 Reja 6 6.8 7.2 7.1 7.4 7.1 7.1 7.8 7.3 7.7 7.4 6.7 6.7 6.6 6.8 7.4 7.5 7.3 7.2 7.9 7.7 7.5 8 6.9 6.7 7.1 7.1 7 7.7 6.9 6.9 7.7 7.8 7.8 8 6.7 6.7 7 7.1 7.4 7.5 7 6.4 7.6 7.4 7.6 7.8 6.6 6.8 6.9 7.2 8.0 7.6 7.1 6.9 7.6 7.7 7.8 7.6 6.8 6.7 7.4 7.1 7.2 7.4 7.3 7.5 7.6 7.3 7.9 7.9 6.6 6.7 6.9 7.0 7.5 7.8 7.3 7.1 7.4 7.9 7.8 7.8 6.8 6.7 7 7.2 7.3 7.4 7.3 7.2 7.6 7.4 7.9 7.7 7.2 6.8 7 6.7 7.8 8.1 7.2 7.3 7.6 7.8 8.0 7.5 6.8 6.9 6.8 7.1 7.3 7.5 7.2 7.2 7.5 7.6 7.6 8.0 7.1 6.8 7.2 6.7 7.8 7.5 7.2 6.9 7.5 7.7 7.7 7.8 6.7 6.6 7.2 7.2 7.2 7.8 7.4 7.2 7.9 7.7 7.6 7.6 7 6.9 𝒚𝟏 = 𝟏𝟔𝟖. 𝟑 𝒚𝟐 = 𝟏𝟖𝟎. 𝟐 𝒚𝟑 = 𝟏𝟕𝟏. 𝟐 𝒚𝟒 = 𝟏𝟖𝟑 𝒚𝟓 = 𝟏𝟖𝟔 𝒚𝟔 = 𝟏𝟔𝟐. 𝟗 b) Estimación del total de carbohidratos contenidos en las 1,000 rejas de refrescos. 𝜏̂𝑐 = 𝑀𝑦̅𝑠 238 donde: 𝑀 = 24,000 y 𝑦̅𝑠 = 7.3028. Por lo tanto: 𝜏̂ 𝑐 = (24,000)(7.3028) = 175,267.2 carbohidratos contenidos en las 1,000 rejas de refrescos. c) Varianza y la desviación estándar de la media. 𝑁−𝑛 1 𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2 donde: 𝑀 = 24,000, 𝑁 = 1,000, 𝑛 = 6, 𝑦̅𝑠 = 7.3028, ̅ = 𝑀 = 24,000 = 24: el número promedio de estudiantes por grupo, 𝑀 𝑁 1,000 𝜎𝑐2 : estimada por 𝑠𝑐2 = 𝑠𝑐2 = [∑𝑛 ̅𝑠 𝑀𝑖 )2 ] 𝑖=1(𝑦𝑖 −𝑦 𝑛−1 : (168.3−(7.3028)(24))2 +⋯+(162.9−(7.3028)(24))2 (6−1) = 83.152. Por lo tanto: 1,000 − 6 1 𝑉̂ (𝑦̅𝑠 ) = ( )( ) (83.1520) = 0.024009. (6)(24)2 1,000 √𝑉̂ (𝑦̅𝑠 ) = √0.024009 = 0.154948. d) Un IC a 90% para la media poblacional (𝜇𝑠 ). 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) donde: 𝑦̅𝑠 = 7.3028, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(6−1,1−0.1⁄2) = 2.015 y √𝑉̂ (𝑦̅𝑠 ) = 0.154948. Por lo tanto: 239 7.3028 ± (2.015)(0.154948) 7.3028 ± 0.31222 6.99058 ≤ 𝜇𝑠 ≤ 7.61502. e) Un IC de 90% para el total. 𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 ) donde: 𝜏̂ 𝑠 = 175,267.2, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015, y √𝑉̂ (𝜏̂ 𝑠 ) = 𝑀√𝑉̂ (𝑦̅𝑠 ) = (24,000)(0.154948) = 3,718.752. Por lo tanto: 175,267.2 ± (2.015)(3,718.752) 175,267.2 ± 7,493.28528 167,773.9147 ≤ 𝜏𝑠 ≤ 182,760.48528 f) Suponga que 𝑛 = 6 grupos es una muestra preliminar. ¿Cuál es el tamaño de muestra necesario para estimar la media poblacional con una precisión de 4% de la media preliminar y una confiabilidad de 90%? ∗ 𝑛 = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐 2 2 ̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑁𝑀 ⁄2) 𝜎𝑐 ̅ = 𝑀 = 24, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015, donde: 𝑁 = 1,000, 𝑀 𝑁 𝜎𝑐2 : estimada por 𝑠𝑐2 = 83.152 y 𝑑 = (0.04)(7.3028) = 0.292112. Por lo tanto: (1,000)(2.015)2 (83.1520) 𝑛 = (1,000)(24)2 (0.292112)2 + (2.015)2 (83.152) ∗ 240 𝑛∗ = 337,615.8292 49,487.362062 𝑛∗ = 6.8222 = 7 grupos g) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con una precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel de aseguramiento (𝛾) de 99%? 𝑛𝑚 = 2 𝜒(𝛾, 𝑛∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) 2 𝜒(𝛾, 𝑛∗ −1) 2 2 2 2 ̅ 𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 ) ̅ = 24, 𝜎𝑐2 = 83.152, 𝑑 = 0.292112, donde: 𝑁 = 1,000, 𝑀 2 2 𝑡(𝑛−1,1−𝛼⁄2) = 2.015, y 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,6.8222−1) = 16.5101. Por lo tanto: 16.5101 6.8222 − 1) 𝑛𝑚 = 16.5101 (1,000)(24)2 (0.292112)2 + (2.015)2 (83.152) ( 6.8222 − 1) 957,382.2785 𝑛𝑚 = = 19.1067 = 20 grupos. 50,107.1285 (1,000)(2.015)2 (83.152) ( EJERCICIOS En los siguientes ejercicios estimar un IC para la media y el total poblacional con una confiabilidad de 95%, y suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la media poblacional de tal manera que sean estimados con una precisión de 5% de la media preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 99%? 241 Ejercicio 6.1. La Secretaría de Salud cuenta con 200 hospitales distribuidos en el territorio nacional, dentro de los cuales tiene laborando a 6,000 médicos con estudios de posgrado. Para medir el nivel de satisfacción de los empleados en el trabajo, se toma una muestra aleatoria simple de seis hospitales y un censo en cada uno. El nivel de satisfacción se mide de 0 (nada satisfecho) a 10 (muy satisfecho) (Cuadro 6.3). Cuadro 6.3. Nivel de satisfacción de los médicos por hospital. Hospital 1 Hospital 2 6 9 6 9 8 7 7 6 8 8 8 7 7 7 8 6 7 Hospital 3 8 Hospital 4 Hospital 5 8 9 8 8 9 8 6 8 7 7 10 8 8 7 9 6 7 9 6 9 6 7 8 8 7 8 8 5 9 7 9 9 8 7 6 7 9 7 8 8 6 5 6 5 6 6 8 6 8 9 8 6 9 6 5 8 7 6 7 5 7 6 8 6 4 9 6 7 6 7 10 6 7 6 8 8 6 Hospital 6 9 9 8 6 7 8 7 6 9 6 7 6 4 8 9 6 7 8 9 8 5 8 8 5 6 10 4 9 7 9 9 7 10 8 9 6 7 8 8 9 9 9 9 9 9 6 8 7 8 8 9 8 7 7 6 7 6 7 7 7 8 8 8 9 6 6 5 6 6 7 7 8 8 8 7 5 4 9 5 9 7 Ejercicio 6.2. El presidente municipal de Guadalajara desea estimar el total de basura producida en la ciudad. Se supone que la ciudad está conformada por 300 manzanas, y que el número de viviendas es de 10,000. Además, con la finalidad de medir el promedio y total de basura producida por vivienda semanalmente, se toma una muestra aleatoria simple de 𝑛 = 8 manzanas. En cada manzana se recaba toda la basura producida por vivienda. Use la información del Cuadro (6.4). Cuadro 6.4. Kg. de basura producidos por vivienda. Manzana 1 Manzana 2 Manzana 3 Manzana 4 40 30 38 48 60 35 29 36 30 45 65 37 40 48 82 72 60 68 88 83 50 75 95 93 48 45 49 63 49 Manzana 5 242 Manzana 6 Manzana 7 Manzana 8 35 45 49 82 38 38 35 83 48 45 28 73 65 66 25 65 70 33 29 45 35 22 79 66 40 45 49 82 40 6.5 Estimación de parámetros de interés con 𝑴 desconocida bajo muestreo por conglomerados ¿Qué sucede cuando se desconoce el tamaño de la población 𝑴? Con la información anterior, se puede estimar la media, el total o el intervalo de confianza para el total poblacional. Sin embargo, para utilizar las expresiones anteriores se debe conocer 𝑀, pero en ocasiones no es posible saber ese valor. A continuación se muestran los estimadores donde no es necesario conocer 𝑀. Es importante mencionar que los estimadores que a continuación se presentan se recomiendan cuando los tamaños de los conglomerados son aproximadamente iguales. El estimador de la media y el total poblacional Para hallar el estimador del total y la media poblacional se recurre a la expresión del total promedio por conglomerado (𝑦̅): 𝜏̂ 𝑠 = 𝑁𝑦̅ 𝜇̂ 𝑠 = 𝑦̅𝑠 = (6.8) 𝜏̂𝑠 𝑀𝑎𝑝𝑟𝑜𝑥 ̅y𝑀 ̅ = (∑𝑛𝑖=1 𝑀𝑖 )/𝑛 donde 𝑦̅ = (∑𝑛𝑖=1 𝑦𝑖 )/𝑛 = (∑𝑛𝑖=1 𝜏𝑖 )/𝑛, 𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀 243 (6.9) La varianza estimada de la media y del total 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 2 ̂ ̂ 𝑉 (𝜏̂ 𝑠 ) = 𝑉 (𝑁𝑦̅) = 𝑁 ( )( ) 𝑁 𝑛 𝑛−1 𝑉̂ (𝜇𝑠 ) = 𝑉̂ (𝑦̅𝑠 ) = 𝑉̂ (𝜏̂𝑠 ) 1 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ( )( ) 2 ̅2 𝑀𝑎𝑝𝑟𝑜𝑥 𝑁 𝑛 𝑛−1 𝑀 (6.10) (6.11) Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de los mismos. Los intervalos de confianza para estos estimadores se construyen de forma habitual. El intervalo de confianza de la media y del total 𝑦̅𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑐 ) (6.12) 𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑐 ) (6.13) El tamaño de muestra para estimar la media 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 ∗ 𝑛 = 2 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 donde 𝜎𝑡2 es estimada por 𝑠𝑡2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ]/(𝑛 − 1). El tamaño de muestra modificado para estimar la media 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( ∗ ) 𝑛 −1 𝑁𝑑 2 244 + 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 ) donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que 2 el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . 6.6 La estimación de una proporción poblacional Muchas veces se quiere estimar la característica 𝐺 específica de la población. Por ejemplo: suponga que se desea conocer la proporción de personas en el estado de Colima que padecen cierta enfermedad, o la preferencia por cierto partido político, la aceptación de alguna norma ecológica, etcétera. Cuando se desea estimar una proporción y el total, si se conoce 𝑀, se deben utilizar los mismos estimadores de la media y el total con 𝑀 conocida, los cuales fueron presentados en el apartado 6.4, sólo que ahora la variable respuesta contendrá ceros y unos. En caso de desconocerse 𝑀, los estimadores de la proporción y el total deben ser los mismos que se usaron en el apartado 6.5. En ambos casos se realizan los cálculos exactamente como los ejemplos presentados en los apartados 6.4 y 6.5, respectivamente. Es importante recordar que el muestreo por conglomerados se sugiere cuando: Las unidades muestrales son grupos de elementos. Se desea minimizar el costo por unidad muestreada. Este diseño puede combinarse con otros diseños; por ejemplo, el estratificado. EJEMPLOS Ejemplo 6.3. Un agrónomo tiene una parcela experimental de 10,000 𝑚2 . Con la finalidad de conocer el promedio de cacahuates por planta y el total de cacahuates 245 producidos, divide la parcela en tramos de 4 𝑚2 , y selecciona una muestra aleatoria de 𝑛 = 15 tramos. El Cuadro 6.5 muestra el número de plantas y el total de cacahuates por tramo. Cuadro 6.5. Total de cacahuates por tramo de plantas. Tramo 1 2 Plantas 35 34 Total por tramo 𝑦1 = 1,680 𝑦2 = 1,360 3 28 𝑦3 = 1,904 4 33 𝑦4 = 1,485 5 34 𝑦5 = 2,346 6 27 𝑦6 = 1,809 7 28 𝑦7 = 1,148 8 33 𝑦8 = 1,320 9 31 𝑦9 = 1,953 10 35 𝑦10 = 1,645 11 34 𝑦11 = 2,414 1,680+1,360+⋯+1,450 12 29 𝑦12 = 2,146 15 13 28 𝑦13 = 1,232 14 26 𝑦14 = 1,404 15 29 𝑦15 = 1,450 a) La estimación de la conglomerado 𝑦̅ = ∑𝑛 𝑖=1 𝑦𝑖 25,290 15 𝑛 = 𝑦̅ = = media por (tramo). = 1,686.4 cacahuates por tramo. b) Estimación del total poblacional. 𝑛 𝑁 𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖 𝑛 𝑖=1 donde: 𝑦̅𝑖 = 1,686.4, 𝑁 = 10,000 4 = 2,500: Los tramos en los que se dividió la parcela. Por lo tanto: 𝜏̂𝑠 = (2,500)(1,686.4) = 4,216,000 cacahuates en toda la población. c) La estimación de la media poblacional (por planta de cacahuate). Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media poblacional: 𝑀𝑎𝑝𝑟𝑜𝑥 246 ̅=𝑁 = 𝑁𝑀 ∑𝑛𝑖=1 𝑀𝑖 𝑛 ̅ = (35 + 34 + ⋯ + 26 + 29)/(15) = 30.9333, donde: 𝑁 = 2,500, 𝑀 𝑀𝑖 : 𝑀1 = 35, 𝑀2 = 34, 𝑀3 = 28, … , 𝑀15 = 29 y 𝑛 = 15. Por lo tanto: 𝑀𝑎𝑝𝑟𝑜𝑥 = 2,500(30.9333) = 77,333.3333. La estimación de la media poblacional es: 𝑦̅𝑠 = 𝜏̂𝑠 𝑀𝑎𝑝𝑟𝑜𝑥 donde: 𝜏̂𝑠 = 4,216,000 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333. Por lo tanto: 4,216,000 𝑦̅𝑠 = 77,333.3333 = 54.5172 cacahuates en promedio por planta. d) La varianza y la desviación estándar de la media poblacional. 𝑉̂ (𝑦̅𝑠 ) = 𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅) = 2 2 𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥 donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333, 𝑦̅ = 1686.4, 𝑛 = 15, 𝑁 = 2,500, 𝑠𝑡2 = ∑𝑛 ̅)2 𝑖=1(𝑦𝑖 −𝑦 𝑛−1 = [(1,680−1,686.4)2 +⋯+(1,450−1,686.4)2 ] 15−1 = 158,875.2571 y 𝑁−𝑛 1 2,500−15 1 𝑉̂ (𝑦̅) = 𝑁 (𝑛) 𝑠𝑡2 = [ 2,500 (15)] [158,875.2571] = 10,528.1337. Por lo tanto: 𝑉̂ (𝑦̅𝑠 ) = (2,500)2 (10,528.1337) = 11.0026. (77,333.3333)2 Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √11.0026 = 3.3170. e) El IC de la media poblacional con una confianza de 90%. 247 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) donde: 𝑦̅𝑠 = 54.5172, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y √𝑉̂ (𝑦̅𝑠 ) = 3.3170. Por lo tanto: 54.5172 ± (1.7613)(3.3170) 54.5172 ± 5.8423 48.6749 ≤ 𝜇𝑠 ≤ 60.3595. Es decir, con 90% de confianza se estima que la media poblacional está entre 48.6749 y 60.3595. f) El IC del total poblacional con una confianza de 90%. 𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅) donde: 𝜏̂𝑐 = 4,216,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y √𝑉̂ (𝜏̂ 𝑠 ) = 𝑁√𝑉̂ (𝑦̅) = 2,500√10,528.1337 = 256,516.7356. Por lo tanto: 4,216,000 ± (1.7613)(256,516.7356) 4,216,000 ± 451,802.9264 3,764,197.074 ≤ 𝜏𝑐 ≤ 4,667,802.926. Es decir, con 90% de confianza se estima que el total poblacional está entre 3,764,197.074 y 4,667,802.926. g) Si 𝑛 = 15 tramos es una muestra preliminar. El tamaño de muestra para estimar la media por conglomerados con una precisión del 10% del promedio preliminar y una confiabilidad del 90% es: 248 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 ∗ 𝑛 = 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 donde: 𝑁 = 2,500, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 158,875.2571, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y 𝑑 = (0.1)(1,686.4) = 168.64. Por lo tanto: 𝑛∗ = (2,500)(1.7613)2 (158,875.2571) (2,500)(168.64)2 + (1.7613)2 (158,875.2571) 1,232,148,195 𝑛∗ = 71,591,483.28 = 17.2108 = 18 tramos. h) Finalmente, el tamaño de muestra necesario para estimar el promedio poblacional con una precisión del 10% del promedio preliminar, una confiabilidad del 90% y un nivel de aseguramiento (𝛾) de 99% es: 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 ) 𝑁𝑑2 + 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 ) donde: 𝜎𝑡2 = 158,875.2571, 𝑁 = 2,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613, 2 2 𝑑 = 168.64 y 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,17.2108−1) = 32.2983. Por lo tanto: 32.2983 17.2108 − 1) 𝑛𝑚 = 32.2983 (2,500)(168.64)2 + (1.7613)2 (158,875.2571) ( 17.2108 − 1) 2,454,924,621 𝑛𝑚 = = 34.0581 = 35 tramos. 72,080,593.85 (2,500)(1.7613)2 (158,875.2571) ( Ejemplo 6.4. Suponga que un predio localizado en una playa de Manzanillo tiene 1,000 palmeras de coco. Un investigador desea conocer la cantidad promedio de agua de coco 249 que producen las palmeras, para lo cual toma una muestra aleatoria de ocho palmeras y mide la cantidad de agua por coco en cada palmera. En el Cuadro 6.6 se muestra el total de agua en litros. Resuelva lo solicitado. Cuadro 6.6. Total de litros de agua de coco por palmera. Palmera 1 Palmera 2 Palmera 3 Palmera 4 1.12 0.94 0.77 0.81 0.68 1.33 0.95 1.49 1.07 0.76 1.07 0.99 0.85 0.95 0.73 0.89 0.79 1.26 0.96 1.03 0.89 Palmera 5 1.02 0.75 Palmera 6 1.28 0.93 Palmera 7 1.09 1.42 Palmera 8 0.99 0.95 0.51 0.77 0.88 0.99 0.83 1.28 1.23 0.72 1.06 0.96 0.85 1.11 0.77 0.87 0.82 1.14 𝒚𝟏 = 𝟔. 𝟗𝟑 0.85 𝒚𝟐 = 𝟕. 𝟐𝟕 0.95 𝒚𝟑 = 𝟖. 𝟒𝟓 𝒚𝟒 0.97 = 𝟖. 𝟗 1.66 0.56 0.86 0.90 1.50 1.12 0.94 0.71 0.58 0.83 0.72 0.89 0.89 1.08 1.09 𝒚𝟏 = 𝟕. 𝟓𝟗 𝒚𝟐 = 𝟓. 𝟑𝟕 𝒚𝟑 = 𝟗. 𝟒𝟓 𝒚𝟒 = 𝟔. 𝟔𝟗 a) El promedio por conglomerado. ∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 𝜏𝑖 𝑦̅ = = 𝑛 𝑛 donde: 𝑛 = 8: el número de palmeras seleccionadas. 𝑦𝑖 = 𝜏𝑖 = el total de litros en la palmera 𝑖, 𝑖 = 1,2, … ,8. Por lo tanto: 𝑦̅ = 250 6.93 + 5.99 + ⋯ + 8.36 + 6.69 60.65 = = 7.5813 litros por conglomerado. 8 8 b) El total poblacional. 𝑛 𝑁 𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖 𝑛 𝑖=1 donde: 𝑦̅ = 7.5813, 𝑁 = 1,000 y 𝑛 = 8. Por lo tanto: 𝜏̂𝑠 = (1,000)(7.5813) = 7,581.3 litros de agua de coco en el predio. c) El promedio de litros por coco (media poblacional). Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media poblacional: ̅=𝑁 𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀 ∑𝑛𝑖=1 𝑀𝑖 𝑛 donde: 𝑁 = 1,000, 𝑛 = 8, 𝑀𝑖 : 𝑀1 = 8, 𝑀2 = 7, 𝑀3 = 9, … , 𝑀8 = 8 cocos por palmera y ̅ = (8 + 7 + 9 + 8 + 6 + 7 + 10 + 8)/8 = 7.875, 𝑀 Por lo tanto: 𝑀𝑎𝑝𝑟𝑜𝑥 = 7.875(1,000) = 7,875 cocos en la población de 1,000 palmeras. El estimador de la media poblacional es: 𝑦̅𝑠 = 𝜏̂𝑠 𝑀𝑎𝑝𝑟𝑜𝑥 donde: 𝜏̂𝑠 = 7,581.3 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875. 251 Por lo tanto: 𝑦̅𝑠 = 7,581.3 = 0.9627 litros de agua producidos por cada coco. 7,875 d) La varianza y la desviación estándar de la media poblacional. 𝑉̂ (𝑦̅𝑠 ) = 𝑉̂ (𝑦̅) = 𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅) = 2 2 𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ( ) 𝑁 𝑛 𝑛−1 donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875, 𝑦̅ = 7.5813, 𝑛 = 8, 𝑁 = 1,000, 𝑠𝑡2 = ∑𝑛 ̅)2 𝑖=1(𝑦𝑖 −𝑦 ̂(𝑦̅ ) = 𝑉 𝑛−1 = (6.93−7.5813)2 +⋯+(6.69−7.5813)2 𝑁−𝑛 1 𝑁 ( ) 𝑠2𝑡 = [ 𝑛 8−1 = 1.7416 y 1,000 − 8 1 ( )] [1.7416] = 0.21596. 1,000 8 Por lo tanto: 𝑉̂ (𝑦̅𝑠 ) = (1,000)2 (0.21596) = 0.00348 (7,875)2 Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √0.00348 = 0.059. e) El IC de la media poblacional con una confiabilidad de 90%. 𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) donde: 𝑦̅𝑠 = 0.9627, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946 y √𝑉̂ (𝑦̅𝑠 ) = 0.059. Por lo tanto: 0.9627 ± (1.8946)(0.059) 252 0.9627 ± 0.1118 0.8509 ≤ 𝜇𝑠 ≤ 1.0745. Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua por coco. f) El intervalo del total poblacional con una confianza de 90%. 𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅𝑠 ) donde: 𝜏̂𝑠 = 7,581.25, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946 y √𝑉̂ (𝜏̂𝑐 ) = 𝑁√𝑉̂ (𝑦̅𝑠 ) = (1,000)(√0.21596) = 464.7111. Por lo tanto: 7,581.25 ± (1.8946)(464.7111) 7,581.25 ± 880.4317 6,700.8129 ≤ 𝜏𝑠 ≤ 8,461.6817. Entonces, el total de litros de agua de coco en el predio está entre 6,700.81 y 8,461.68. g) Suponga que 𝑛 = 8 palmeras es una muestra preliminar. Determine el tamaño de muestra para estimar la media por conglomerados con una precisión de 10% del promedio preliminar y una confiabilidad de 90%? 𝑛∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 2 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡 donde: 𝑁 = 1,000, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946 y 𝑑 = (0.1)(7.5813) = 0.75813. 253 Por lo tanto: (1,000)(1.8946)2 (1.7416) 𝑛 = 1,000(0.75813)2 + (1.8946)2 (1.7416) ∗ 𝑛∗ = 6,251.48915 = 10.7596 = 11 palmeras (muestra). 581.01259 h) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con una precisión de 10% del promedio preliminar, una confiabilidad de 90% y un nivel de aseguramiento (𝛾) de 99%? 𝑛𝑚 = 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 ) 𝑁𝑑2 + 2 𝜒(𝛾,𝑛 ∗ −1) 2 2 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 ) donde: 𝑁 = 1,000, 𝜎𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946, 2 2 𝑑 = 0.75813 y 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,10.7597−1) = 22.8411. Por lo tanto: 22.8411 ) 10.7597 −1 𝑛𝑚 = 22.8411 1,000(0.75813)2 + (1.8946)2 (1.7416) ( ) 10.7597 − 1 14,630.66374 𝑛𝑚 = = 24.8233 = 25. 589.39176 (1,000)(1.8946)2 (1.7416) ( EJERCICIOS En los siguientes ejercicios estime el IC para la media y el total poblacional con una confiabilidad de 95% y suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de 254 tal manera que sean estimados con una precisión de 5% de la media preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 90%? Ejercicio 6.3. El dueño de una plantación forestal necesita estimar el volumen total de biomasa en 𝑚3 que tiene su plantación. Ha pensado en hacer un muestreo por conglomerados. Para esto divide la plantación en 300 sitios, de los cuales selecciona aleatoriamente 40 y dentro de cada uno de ellos mide el volumen de todos los árboles incluidos. En este caso las UMP (los conglomerados) son los sitios y las UMS son los árboles. Úse los datos del Cuadro 6.7. Cuadro 6.7. Volumen de biomasa en 𝑚3 . Conglom. 𝑴𝒊 𝒚𝒊 Conglom. 𝑴𝒊 𝒚𝒊 1 508 1,709 21 558 2,440 2 302 1,075 22 598 2,005 3 693 3,087 23 532 2,057 4 598 1,729 24 599 2,562 5 459 1,497 25 607 1,853 6 695 2,725 26 609 7 476 2,143 27 640 3,066 8 675 2,945 28 659 1,948 9 432 1,355 29 589 1,942 10 567 2,267 30 674 2,413 11 657 2,724 31 508 1,870 12 650 2,537 32 302 987 13 667 3,284 33 693 3,258 14 598 2,370 34 598 2,700 15 548 2,026 35 459 1,750 16 657 1,987 36 583 2,007 17 508 1,479 37 476 1,231 18 499 1,668 38 675 2,701 19 549 2,163 39 432 1,669 20 543 2,463 40 567 1,904 2,698 Ejercicio 6.4. La Secretaría de Desarrollo Social cuenta con 25 estancias infantiles distribuidas en el estado de Colima, donde los padres llevan a sus hijos diariamente. Con el objetivo de conocer el nivel de satisfacción de los padres respecto a este servicio, se tomó un muestreo aleatorio simple de cinco guarderías y se realizó una encuesta (el nivel de satisfacción se mide de 0 a 5). Véase el Cuadro 6.8. 255 Cuadro 6.8. Resultados de los conglomerados censados 256 Estancia 1 Estancia 2 Estancia 3 Estancia 4 Estancia 5 3 4 2 3 4 5 3 4 2 3 3 5 2 2 4 4 3 3 4 3 2 2 3 1 2 3 4 2 4 2 2 3 3 2 3 3 4 2 3 5 3 3 2 2 5 4 4 5 3 4 3 3 1 1 5 4 5 4 5 4 4 1 1 3 4 3 4 3 3 3 1 2 3 5 2 5 3 2 2 4 4 5 2 5 4 2 2 4 4 3 3 4 2 4 4 4 3 4 5 Capítulo 7. Muestreo basado en el método de respuesta aleatorizada CAPÍTULO 7 Muestreo basado en el método de respuesta aleatorizada Cuando la gente no quiere cooperar con las respuestas, la estadística y su ingenio te ayudan a conseguirlo. OAML P ara que los resultados de una encuesta sean creíbles es necesario, entre otros aspectos, que las preguntas tengan suficiente calidad o validez, lo que exige asumir que las respuestas sean ciertas. Para creer en los resultados de una encuesta primero es necesario creer en las respuestas de las personas que han sido entrevistadas. Sin embargo, las respuestas sinceras pueden ser difíciles de obtener, y hay muchos problemas implícitos al tratar de conseguirlas (Lohr, 2000). Las personas tienen inclinaciones, tendencias propias, actitudes, distintas formas de pensar, desconfianza, etc. Tales características dificultan, en algunas ocasiones, la calidad de las respuestas. Uno de los problemas típicos se denomina deseabilidad social. Por ello es importante estar consciente de que las personas entrevistadas pueden responder en función de lo bien visto socialmente. Por ejemplo, el consumo de droga se cataloga como negativo, por lo que alguien que haya consumido o consuma drogas tenderá con facilidad a responder no ante la pregunta ¿Ha consumido droga alguna vez? (Lohr, 2000). 257 Por otro lado, la deseabilidad social puede actuar de forma inconsciente, es decir, que el individuo no controle intencionalmente su respuesta. La deseabilidad social también es preocupante cuando las preguntas se refieren a temas íntimos como las relaciones sexuales. En ese caso, las personas suelen mostrar resistencia a exponerse ante extraños y son más propensos a responder según lo que se considera socialmente aceptable, por lo que se cubre la verdad (Lohr, 2000). Es decir, cuando una encuesta incluye una o más preguntas que se refieren a aspectos que pueden considerarse íntimos hacen que el entrevistado se sienta en peligro o avergonzado si la responde con la verdad (Méndez, Eslava, & Romero, 2004). Por ello, debe garantizarse que las preguntas y la forma de hacerlas sean ingeniosas y con calidad para obtener resultados confiables. Obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se enfrentan a dificultades que son inherentes a toda persona encuestada: inclinaciones, actitudes, frustraciones, timidez, formas de pensar, comportamientos, tiempo disponible, desconfianzas y una propensión a mantener la intimidad. Esto conlleva a que en las últimas décadas se hayan realizado investigaciones para asegurarse de la calidad y veracidad de las respuestas obtenidas sobre temas íntimos. La necesidad del ser humano por hacerse de información y por combatir la no respuesta lo han conducido a desarrollar nuevas técnicas en la metodología del muestreo, entre ellas: la respuesta aleatorizada (Méndez y Quintana, 2007). Respuesta aleatorizada La técnica de respuesta aleatorizada es un método especialmente diseñado para asegurar privacidad a los entrevistados en el estudio de temas sensibles, delicados o embarazosos. Se intenta con ello evitar sesgos de los entrevistados en ciertas conductas hacia la respuesta socialmente más deseable. Es decir, le asegura al entrevistado que su respuesta sobre temas sensibles (falsa o verdadera) no será conocida por el entrevistador, de ahí el nombre de respuesta aleatorizada; la respuesta se realiza al azar. Se ha utilizado para analizar temas como copiar en los exámenes, fraudes, haber sido arrestado, conducir bajo los efectos del alcohol, infidelidad, tener hijos fuera del matrimonio, prácticas abortivas, etc. Existen varios métodos para evitar la resistencia de las personas a responder con sinceridad cuando el tema es delicado. Este capítulo presenta un método para estimar 258 proporciones: el método de Warner modificado que fue propuesto por Horvitz, Shah, & Simmons (1967). Este método obtiene respuestas directas de las personas entrevistadas, es decir, estima la proporción sin que el entrevistado revele su posición personal respecto a la pregunta delicada. El objetivo de esta técnica es ayudar a que se den respuestas veraces y se conserve la confiabilidad. El método presenta una forma sencilla de calcular el tamaño de muestra necesario y con ello estimar la proporción con la precisión y confiabilidad fijadas bajo el MAS y el MAE. 7.1. ¿Cuándo se utiliza esta técnica? Cuando las personas que son entrevistadas se niegan a contestar o dan una respuesta falsa a preguntas delicadas, porque creen que las exponen o las pueden perjudicar en algún sentido. Cuando se quiere estimar el porcentaje de la población que tiene la característica delicada. Por características sensitivas o delicadas se entiende a las situaciones en donde los entrevistados sienten invadida su intimidad al pedir que respondan un cuestionario. Por lo tanto, las preguntas sirven para captar las características sensitivas de los entrevistados, las cuales se tienen que manejar con cuidado debido a la no respuesta o a la respuesta falseada contestando lo socialmente deseable. 7.2. Ventajas y desventajas Ventajas Aumenta la probabilidad de contestar la verdad que en una pregunta directa. Mayor índice de respuesta. 259 Desventajas Aumento en la complejidad de la pregunta. Dificultad en entender el método de aleatorización. Requiere de tamaños de muestras grandes. 7.3. El modelo de respuesta aleatorizada bajo el MAS Este método de respuesta aleatorizada fue desarrollado por Warner en 1965 y consiste en clasificar a las personas en los grupos 𝐴 y 𝐵, respectivamente. Cada persona estará en uno de los grupos, 𝐴 o 𝐵. Sea 𝜋 la proporción de personas con ciertas características de interés (grupo 𝐴). El objetivo es estimar 𝜋 sin preguntar a cada persona directamente si pertenece o no al grupo 𝐴. A continuación se presenta el procedimiento propuesto por Warner (1965): 1. Se construye un mazo de cartas, pero una fracción de ellas 𝑝, se marca con la letra 𝐴 (grupo 𝐴) y la fracción restante, 1 − 𝑝, con las letras faltantes del abecedario (grupo 𝐵). 2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reemplazo de tamaño 𝑛 de la población (𝑁). 3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que las cartas están marcadas con las letras del abecedario. 4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta, pero que no nos diga con que letra está marcada. 5. A continuación se le explica que se le va a hacer una pregunta y que la responda con sí o no, pero resaltando que debe quedarle clara la pregunta. 6. Que el individuo responda a la pregunta que tiene la característica delicada (por ejemplo ¿Ha consumido drogas ilícitas alguna vez?) si la carta que obtuvo está marcada con la letra 𝐴. Y que responda a la pregunta que no tiene la característica delicada si obtuvo cualquier otra letra del abecedario. 7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas y que solamente tiene que responder una de ellas dependiendo de la letra que 260 obtuvo, es decir, si la carta que obtuvo está marcada con la letra 𝐴 debe responder con la verdad a la pregunta delicada y ésta sería su única respuesta. Lo mismo sucede si le tocó cualquier otra letra del abecedario, debe responder con la verdad a la segunda pregunta y ésta sería su única respuesta. 8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente persona. 9. Este procedimiento se aplica a todos los n individuos. 10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los estimadores expuestos en este capítulo. El mecanismo de aleatorización que originalmente utilizó Warner fue una aguja giratoria en un disco con dos regiones delimitadas. La aguja apunta con probabilidad 𝑝 a la región 𝐴 y 1 − 𝑝 a la región 𝐴𝑐 . El entrevistado responde a la pregunta 𝑄𝐴 si la aguja señala la región 𝐴, o a la pregunta 𝑄𝐴𝑐 si la aguja señala a la región 𝐴𝑐 , de esta manera todo se conjuga a que el entrevistador sólo anote sí o no para cada entrevistado. Por ejemplo, supóngase que en el estado de Colima se desea estimar el porcentaje de hombres casados por lo civil que tienen hijos fuera del matrimonio. Además, supóngase que se extrae una muestra aleatoria simple de 𝑛 = 200 de la población de 𝑁 = 10, 000. Así, cada uno de los hombres que conforman la muestra recibe una ficha con las siguientes preguntas: 𝑄𝐴 : Pregunta 1: ¿tiene al menos un hijo fuera de su matrimonio? 𝑄𝐴𝑐 : Pregunta 2: ¿no tiene hijos fuera del matrimonio? La pregunta 𝑄𝐴 (pregunta 1) será respondida por el entrevistado si la aguja marca la región 𝐴. Por otra parte, si la aguja marca la región 𝐴𝑐 , el entrevistado responderá la pregunta 𝑄𝐴𝑐 (pregunta 2). Cada entrevistado responderá un sí o no porque solamente contestará una de las dos preguntas dependiendo de la región que marque la aguja (𝐴 o 261 𝐴𝑐 ). Esto significa que se tendrán 𝑛 respuestas dicotómicas (sí o no) a partir de las cuales se derivará la estimación de interés (porcentaje de respuestas afirmativas de la pregunta 1). El mecanismo de aleatorización puede ser una baraja, un dado, una moneda, una urna, etcétera, pero se debe tener claro cuál es su equivalente a la región 𝐴 y su respectiva probabilidad. Recuérdese que el experimentador puede elegir arbitrariamente la fracción 𝑝 de cartas marcadas con 𝐴, pero no debe ser igual a 1/2 ni 𝑝 = 1, esta última porque el entrevistado se daría cuenta que se le está preguntando si pertenece al grupo 𝐴. En general, 𝑝 = 3/4 es adecuado. Este método requiere generalmente un tamaño de muestra muy grande para obtener una varianza del estimador pequeña. Debido a que cada respuesta produce poca información sobre la proporción poblacional, 𝜋. La técnica de respuesta aleatorizada es una de las más simples de las que existen. El estimador de la proporción y el total poblacional 1 Si suponemos que 𝑝 ≠ 2, el estimador de máxima verosimilitud de 𝜋 es: 𝜋̂ = 𝑝−1 𝑎 + 2𝑝 − 1 (2𝑝 − 1)𝑛 y el estimador de máxima verosimilitud de 𝜏 es: 𝜏̂ = 𝑁𝜋̂ donde: 𝑁 es el tamaño de la población, 𝑎 es el total de respuestas si de los 𝑛 entrevistados y 𝑝 es la fracción de las letras en el mazo de cartas con la letra 𝐴. 262 La varianza estimada de los estimadores de la proporción y del total 𝑆𝜋̂2 𝑆𝜏̂2 = 𝑁−𝑛 1 =( ) [ 𝑁 𝑛 𝑁 2 𝑆𝜋̂2 1 2 − (𝜋̂ − ) ] 2 1 2 16 (𝑝 − 2) 1 𝑁−𝑛 1 1 1 2 =𝑁 ( ) [ − (𝜋̂ − ) ] 𝑁 𝑛 2 1 2 16 (𝑝 − ) 2 2 A continuación se proporcionan los intervalos de confianza para los parámetros 𝜋 y 𝜏 con una confiabilidad del 100(1 − 𝛼)%. El intervalo de confianza de la proporción y el total 𝜋̂ ± 𝑍𝛼/2 √𝑆𝜋̂2 𝜏̂ ± 𝑍𝛼/2 √𝑆𝜏̂2 donde 𝜋̂ es la proporción de interés, 𝜏̂ es el total de interés, 𝑍𝑎/2 es el valor de tablas de la distribución normal estándar, √𝑆𝜋̂2 es la desviación estándar de la proporción de interés y √𝑆𝜏̂2 es la desviación estándar del total de interés. El tamaño de la muestra para la proporción y el total El tamaño de muestra para estimar la proporción Si se fija una precisión deseada con una confiabilidad de 100(1 − 𝛼)%, entonces 𝑑 = 𝑍1−𝛼/2 (√𝑆𝜋̂2 ). Por lo tanto, el tamaño de muestra se determina por la ecuación: 263 𝑛= 2 𝑁𝑍1−𝛼/2 𝑘 2 𝑁𝑑 2 + 𝑍1−𝛼/2 𝑘 donde: 𝑘= 1 2 1 1 2 16(𝑝− ) 2 − (𝜋̂ − 2) . 𝑁 = el tamaño de la población. 𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de cartas que están marcadas con la letra 𝐴. 𝑑 = la precisión fijada por el investigador. El tamaño de muestra para estimar el total 𝑛= 2 𝑁 2 𝑍1−𝑎/2 𝑘 2 𝑑 2 + 𝑁𝑍1−𝛼/2 𝑘 donde: 𝑘= 1 2 1 1 2 ̂ − 2) . 2 − (𝜋 16(𝑝− ) 𝑁 = el tamaño de la población. 𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de cartas que están marcadas con la letra 𝐴. 𝑑 = la precisión fijada por el investigador. 7.4 El modelo de respuesta aleatorizada bajo el MAE Cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión de las estimaciones. Los criterios para formar dichos estratos son exactamente los mismos que en el MAE. Por lo tanto, para cada estrato se debe conocer su tamaño, no deben traslaparse y se debe contar con un marco de muestreo confiable para tener una tasa de respuesta en blanco muy cercana a cero. Por otro lado, ya que se determine el tamaño de muestra con la expresión correspondiente, la asignación de la muestra se realizará en forma proporcional, por su simplicidad y aceptación práctica. El procedimiento del método de respuesta aleatorizada en MAE es exactamente el mismo que en el MAS. Por 264 lo tanto, a cada individuo que conformará la muestra se entrevistará con el mismo procedimiento del método de respuesta aleatorizada bajo el MAS, con la diferencia de que ahora el tamaño de muestra 𝑛 se asigna en forma proporcional a cada estrato, es decir, 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝐸 . El estimador de la proporción y el total poblacional 𝜋̂𝑠𝑡 = 𝑁1 𝜋̂1 + 𝑁2 𝜋̂2 + 𝑁𝐸 𝜋̂𝐸 𝑁 𝜏̂ 𝑠𝑡 = 𝑁𝜋̂𝑠𝑡 1 Si 𝑝 ≠ 2 es igual en cada estrato, el estimador de máxima verosimilitud de 𝜋̂ℎ es: 𝜋̂𝑠𝑡 = 𝑝−1 𝑎ℎ + ; ℎ = 1,2, … 𝐸 2𝑝 − 1 (2𝑝 − 1)𝑛ℎ donde 𝑝 es la fracción de letras en el mazo de cartas marcadas con la letra A y 𝑎ℎ es el total de respuestas afirmativas (sí) de los 𝑛ℎ entrevistados en el estrato ℎ. Se necesita la varianza de estos estimadores para determinar la dispersión de los datos y conocer la precisión de las estimaciones. La varianza de los estimadores de la proporción y total poblacional 𝐸 𝑆𝜋̂2𝑠𝑡 𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2 = ∑( ) ( ) [ − (𝜋̂ℎ − ) ] 𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2 ℎ=1 𝐸 𝑆𝜏̂2𝑠𝑡 𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2 = 𝑁 ∑( ) ( ) [ − (𝜋̂ℎ − ) ] 𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2 2 ℎ=1 265 Con los estimadores de las varianzas de 𝜋̂𝑠𝑡 y 𝜏̂ 𝑠𝑡 se puede calcular intervalos que contengan el valor del parámetro con una probabilidad preestablecida. El intervalo de confianza para el promedio y total poblacional Los intervalos de confianza para 𝜋𝑠𝑡 y 𝜏𝑠𝑡 son: 𝜋̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜋̂2𝑠𝑡 𝜏̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜏̂2𝑠𝑡 El tamaño de muestra para estimar la proporción Fijando la precisión 𝑑 = 𝑍1−𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que: 2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ 𝑁𝑍1−𝛼/2 𝑛= 2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ 𝑁𝑑 2 + 𝑁𝑍1−𝛼/2 donde: 𝐾ℎ = 1 1 2 − (𝜋 ̂ − ) . ℎ 16(𝑝 − 1/2)2 2 𝑁 = el tamaño de la población. 𝜋̂ℎ = la proporción de interés en el estrato ℎ. 𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de cartas que están marcadas con la letra A. 𝑑 = la precisión fijada por el investigador. El tamaño de muestra para estimar el total Fijando la precisión 𝑑 = 𝑍𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que: 266 𝑛= 2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ 𝑁 2 𝑍1−𝛼/2 2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ 𝑑 2 + 𝑁𝑍1−𝛼/2 donde: 1 1 2 𝐾ℎ = − (𝜋̂ℎ − ) . 16(𝑝 − 1/2)2 2 𝑁 = el tamaño de la población. 𝜋̂ℎ = la proporción de interés en el estrato ℎ. 𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de cartas que están marcadas con la letra A. 𝑑 = la precisión fijada por el investigador. 7.5 Alternativa al modelo de respuesta aleatorizada Como alternativa al método de Warner (1965), Horvitz et al. (1967) sugirieron que la cooperación de los entrevistados podría mejorar si el segundo enunciado (pregunta 2) no fuese delicado y no tuviese relación con el primero. A continuación se presenta esta variación de la idea original de Warner (1965) propuesta por Horvitz et al. (1967): 1. Se construye un mazo de cartas, pero una fracción de ellas (𝑝) se marca con la letra A (grupo A) y la fracción restante (1 − 𝑝) con las letras faltantes del abecedario (grupo B). 2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reemplazo de tamaño n de la población (𝑁). 3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que las cartas están marcadas con las letras del abecedario. 4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta, pero que no diga con qué letra está marcada. 267 5. A continuación se le explica que se le va a hacer una pregunta y que la responda con sí o no, resaltando que debe quedar clara la pregunta. 6. Responda a la pregunta delicada, por ejemplo: ¿ha consumido droga alguna vez? Si la carta que obtuvo está marcada con la letra A, por el contrario responda a la pregunta inocua, por ejemplo: ¿naciste el mes de abril? si obtuvo cualquier otra letra del abecedario. 7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas y que solamente tiene que responder una de ellas dependiendo de la letra que obtuvo, es decir, si la carta que obtuvo está marcada con la letra A, debe responder con la verdad a la pregunta delicada y esta sería su única respuesta. Similarmente, si le tocó cualquier otra letra del abecedario, debe responder con la verdad a la pregunta inocua y esta sería su única respuesta. 8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente persona. 9. Este procedimiento se aplica a los 𝑛 individuos de la muestra. 10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los estimadores expuestos en éste capítulo. 7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS A continuación se presentan los estimadores de algunos parámetros de interés para el método de respuesta aleatorizada bajo MAS. Estimadores para la proporción y el total 268 𝜋̂ = 𝜙̂ − (1 − 𝑝)𝑝𝐼 𝑝 𝜏̂ = 𝑁𝜋̂ = 𝑁 ( 𝜙̂ − (1 − 𝑝)𝑝𝐼 ) 𝑝 donde: 𝑎 es el total de respuestas afirmativas en la muestra de tamaño 𝑛, 𝜙̂ = 𝑎/𝑛, 𝑁 es el tamaño de la población, 𝑝 es la probabilidad de la pregunta delicada o íntima, 𝑝𝐼 es la probabilidad de la pregunta intrascendente y se recomienda estimarla a partir de registros históricos o de investigaciones confiables ya realizadas. Varianza del estimador de la proporción y el total 𝑁 − 𝑛 𝑉̂ (𝜙̂) 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂) 𝑉̂ (𝜋̂) = ( ) 2 =( ) 𝑁 𝑝 𝑁 𝑝2 𝑛 𝑉̂ (𝜏̂ ) = 𝑁 2 𝑉̂ (𝜋̂) = 𝑁 2 ( 𝑁 − 𝑛 𝑉̂ (𝜙̂) 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂) ) 2 = 𝑁2 ( ) 𝑁 𝑝 𝑁 𝑝2 𝑛 Intervalos de confianza para la proporción y el total 𝜋̂ ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂) 𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂) donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Tamaño de muestra para estimar la proporción 269 𝜙̂(1 − 𝜙̂) 𝑝2 𝑛∗ = 𝜙̂(1 − 𝜙̂) 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) donde: 𝑑 es la precisión fijada por el investigador. Tamaño de muestra modificado para estimar la proporción. 2 2𝑑|1 − 2𝜙̂|𝑍𝛾 √𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) + 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) , 𝑛𝑚 = 𝑁 + 𝑛𝑚 1 ( ). 𝑝2 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( ) donde 𝛾 es la probabilidad de que el IC para la proporción no sea mayor que la amplitud deseada, 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t- Student con 𝑛∗ − 1 grados de libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . ¿Cuál método de respuesta aleatorizada es mejor? Dowling & Shachtman (1975) muestran que la varianza del estimador de interés (𝜋̂) de la versión Horvitz et al. (1967) es menor que la propuesta originalmente por Warner (1965). Esto significa que al usar la versión propuesta por Horvitz et al. (1967) se obtienen estimaciones de la proporción y el total más precisas, por lo que se sugiere que el investigador use esta versión para realizar sus estudios. EJEMPLOS Ejemplo 7.1. Se elige una muestra aleatoria simple de 𝑛 = 200 de los 𝑁 = 270 1,500 trabajadores de la Coca-Cola. Cada trabajador de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has robado a tu empresa por lo menos una vez? 2.- ¿Cumples años del 1 al 10 de agosto? Se tienen los expedientes de todos los trabajadores de la Coca-Cola y se sabe que 𝑝𝐼 = 10/365. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.75, y la fracción restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tienen que 𝑎 = 90 contestaron que si a la pregunta correspondiente. a) La proporción de trabajadores que han robado a su empresa por lo menos una vez. 𝜋̂ = 𝜙̂ − (1 − 𝑝)𝑝𝐼 𝑝 𝑎 donde: 𝜙̂ = 𝑛 = 90/200, 𝑝 = 0.75 y 𝑝𝐼 = 10/365. 90 Por lo tanto: 𝜋̂ = 200 10 365 −(1−0.75) 0.75 = 0. 590868. b) La varianza y la desviación estándar de la proporción muestral (𝜋̂). 𝑉̂ (𝜋̂) = ( 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂) ) 𝑁 𝑝2 𝑛 90 donde: 𝑁 = 1,500, 𝑛 = 200, 𝑝 = 0.75 y 𝜙̂ = 200. Por lo tanto: 90 90 1,500 − 200 200 (1 − 200) 𝑉̂ (𝜋̂) = ( ) = 0.001907. 1,500 0.752 (200) 271 La desviación estándar: √𝑉̂ (𝜋̂) = √0.001907 = 0.043669. c) El IC de 95% para la proporción poblacional. 𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂) donde: 𝜋̂ = 0. 590868, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍(1−𝛼⁄2) = 𝑍(1−0.025) = 1.96 y √𝑉̂ (𝜋̂) = 0.043669. Por lo tanto: 0. 590868 ± (1.96)(0.043669) 0. 590868 ± 0. 085592 0.505276 ≤ 𝜋 ≤ 0. 67646. d) El total de trabajadores que han robado a su empresa por lo menos una vez. 𝜙̂ − (1 − 𝑝)𝑝𝐼 𝜏̂ = 𝑁𝜋̂ = 𝑁 ( ) 𝑝 donde: 𝑁 = 1,500 y 𝜋̂ = 0. 590868. Por lo tanto: 𝜏̂ = (1,500)(0. 590868) = 886. Así se tiene que el total de trabajadores que han robado a su empresa por lo menos una vez es de 886. e) El intervalo de confianza de 95% para el total poblacional. 𝜏 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂) donde: 𝜏̂ = 886, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑁 = 1,500 y √𝑉̂ (𝜋̂) = 0.043669 Por lo tanto: 886 ± (1.96)(1,500)(0.043669) 272 886 ± 128.38686 757.61314 ≤ 𝜏 ≤ 1,014.38686. Con 95% de confianza se estima que el total de trabajadores que han robado a su empresa por los menos una vez está entre 757.61314 y 1,014.38686. f) Si los 200 trabajadores encuestados son una muestra preliminar. El tamaño de muestra necesario para estimar la proporción con una precisión 𝑑 = 0.05 y una confiabilidad de 95% es: 𝜙̂(1 − 𝜙̂) 𝑝2 𝑛∗ = 𝜙̂(1 − 𝜙̂) 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 90 donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75 y 𝜙̂ = 200. Por lo tanto: 90 90 (200) (1 − 200) 0.752 𝑛∗ = = 466.038621 = 467. 90 90 (200) (1 − 200) (1,500)(0.05)2 + (1.96)2 0.752 (1,500)(1.96)2 g) Finalmente, el tamaño de muestra necesario para estimar la proporción con una precisión 𝑑 = 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 90% es: 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 2𝑑|1 − 2𝜙̂|𝑍𝛾 √𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) + 𝑡(𝑛−1,1−𝛼⁄2) 𝑛𝑚 = ( 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75, 273 ) 1 𝑝2 ) 90 𝜙̂ = 200 = 0.45 y 𝑍𝛾 = 1.2816. Primero se determina el tamaño de la muestra suponiendo población infinita: 2 𝑛𝑚 √0.45(1 − 0.45) + √0.45(1 − 0.45) + 2(0.05)|1 − 2(0.45)|(1.2816) 1 1.96 = ( ) (0.75)2 2(0.05) 1.96 ( ) 2 0.497494 + √0.2475 + 0.006539 1 𝑛𝑚 = ( ) ) ( 0.05102 (0.75)2 2 𝑛𝑚 = ( 0.497494 + 0.504023 1 ) = 685.035717. ) ( 0.05102 (0.75)2 Finalmente se obtiene el tamaño de la muestra suponiendo una población finita: 1,500 𝑛𝑚𝐹 = 685.035717 ( ) = 470.2685 = 471.. 1,500 + 685.035717 Ejemplo 7.2. Se elige una muestra aleatoria simple de 180 de los 1,400 trabajadores de la empresa lechera Liconsa. Cada trabajador de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has observado prácticas ilícitas en la empresa? 2.- ¿El último número de tu credencial de elector es par? Se tienen los expedientes de todos los trabajadores de la empresa Liconsa y se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tienen que 36 contestaron que si a la pregunta correspondiente. a) Proporción de trabajadores que han observado prácticas ilícitas en la empresa donde laboran. 274 𝜋̂ = 𝜙̂ − (1 − 𝑝)𝑝𝐼 𝑝 donde: 𝜙̂ = 36/180, 𝑝 = 0.8 y 𝑝𝐼 = 0.5. Por lo tanto: 36 − (1 − 0.8)0.5 180 𝜋̂ = = 0.125. 0.8 b) Varianza y la desviación estándar de la proporción muestral (𝜋̂). 𝑉̂ (𝜋̂) = ( 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂) ) 𝑁 𝑝2 𝑛 donde: 𝑁 = 1,400, 𝑛 = 180, 𝑝 = 0.8 y 𝜙̂ = 36/180. Por lo tanto: 36 36 1,400 − 180 180 (1 − 180) 𝑉̂ (𝜋̂) = ( ) = 0.00121. 1,400 0.82 (180) La desviación estándar: √𝑉̂ (𝜋̂) = √0.00121 = 0.03479. c) IC de 95% para la proporción poblacional. 𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂) donde: 𝜋̂ = 0.125, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂) = 0.03479. Por lo tanto: 0.125 ± (1.96)(0.03479) 275 0.125 ± 0.068188 0.056812 ≤ 𝜋 ≤ 0.193188. d) Total de trabajadores que han observado prácticas ilícitas en la empresa donde laboran. 𝜏̂ = 𝑁𝜋̂ donde: 𝑁 = 1,400 y 𝜋̂ = 0. 125. Por lo tanto: 𝜏̂ = (1,400)(0. 125) = 175. e) Intervalo de confianza de 95% para el total poblacional. 𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂) donde: 𝜏̂ = 175, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,400 y √𝑉̂ (𝜋̂) = 0.03479. Por lo tanto: 175 ± (1.96)(1,400)(0.03479) 175 ± 95.46376 79.53624 ≤ 𝜏 ≤ 270.46376 Con 95% de confianza se estima que el total de trabajadores que han observado prácticas ilícitas en la empresa donde laboran está entre 79.53624 y 270.46376. f) Suponga que los 180 trabajadores encuestados son una muestra preliminar. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de 𝑑 = 0.05 y una confiabilidad de 95%? 276 𝜙̂(1 − 𝜙̂) 𝑝2 𝑛∗ = 𝜙̂(1 − 𝜙̂) 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 36 donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 , 𝑑 = 0.05, 𝑝 = 0.8 y 𝜙̂ = 180 = 0.2. Por lo tanto: (0.2)(1 − 0.2) 0.82 𝑛∗ = = 301.4438 = 302. (0.2)(1 − 0.2) 2 2 (1.96) (1,400)(0.05) + 0.82 (1,400)(1.96)2 g) ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de 𝑑 = 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%? 2 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑁 + 𝑛𝑚 2𝑑|1 − 2𝜙̂|𝑍𝛾 √𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) + 𝑡(𝑛−1,1−𝛼⁄2) 𝑛𝑚 = ( 2𝑑 𝑡(𝑛−1,1−𝛼⁄2) ( 1 𝑝2 ) ) donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.8 , 𝜙̂ = 0.2 y 𝑍𝛾 = 2.3263. Primero se determina el tamaño de la muestra suponiendo una población infinita. 2 𝑛𝑚 = ( 2(0.05)|1−2(0.2)|(2.3263) 1.96 2(0.05) 1.96 √0.2(1−0.2)+√0.2(1−0.2)+ 0.4+√0.16+0.071213 𝑛𝑚 = ( 277 0.05102 2 1 ) ((0.8)2 ) 1 ) ((0.8)2 ) 0.4+0.480846 2 𝑛𝑚 = ( 0.05102 1 ) ((0.8)2 ) = 465.73523. Finalmente se obtiene el tamaño de la muestra suponiendo una población finita. 𝑁 𝑛𝑚𝐹 = 𝑛𝑚 ( ) 𝑁 + 𝑛𝑚 𝑛𝑚𝐹 = 465.73523 ( 1,400 ) = 349.4758 = 350. 1,400 + 465.73523 EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sean estimados con una precisión de 10% de la proporción preliminar y un nivel de aseguramiento de 80%? Ejercicio 7.1. Una investigadora desea estimar el porcentaje y total de mujeres casadas que sufrieron de maltrato físico por parte de su pareja durante el 2014. Supóngase que en el municipio de Colima, Colima, se tiene una población de matrimonios de 𝑁 = 10,000, de la cual se toma una muestra aleatoria simple de 𝑛 = 138 parejas (pero sólo se pregunta a los esposos). Cada esposo recibe una ficha con las siguientes preguntas: Pregunta 1: ¿golpeó alguna vez a su esposa durante 2014? Pregunta 2: ¿el número de su credencial de elector es par? Sabemos que 𝑝𝐼 = 0.5. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante con las letras sobrantes del abecedario. De los resultados se tiene que 65 respondieron que sí. 278 Ejercicio 7.2. Un investigador desea estimar el porcentaje y total de hombres solteros de 24 años que han tenido relaciones sexuales sin protección. Se toma una muestra aleatoria simple de 𝑛 = 160 hombres de esta edad de un total de 𝑁 = 15,000. Cada hombre de la muestra recibe una ficha con las siguientes preguntas: Pregunta 1: ¿has tenido relaciones sexuales sin protección? Pregunta 2: ¿tu fecha de nacimiento es el 9 de junio de 1984? A partir de un censo preliminar se determinó que del total de estos hombres, 9% nació el 9 de junio de 1984. Por lo tanto, 𝑝𝐼 = 0.09. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.85 y la fracción restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene que 40 respondieron que sí. Ejercicio 7.3. Una investigadora desea estimar el porcentaje de hombres (de cierto municipio) de entre 40 y 55 años que padecen o alguna vez padecieron disfunción eréctil. Se toma una muestra aleatoria simple de 𝑛 = 186 hombres del total de la población (𝑁 = 8,000). A cada hombre se le preguntó (en fichas): Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil? Pregunta 2: ¿usted tiene 43 años? De los registros del Centro de Salud municipal se obtuvo que 19% de esos hombres tienen 43 años. Por lo tanto, 𝑝𝐼 = 0.19. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.9 y la fracción restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene que 48 respondieron que sí. Ejercicio 7.4. Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad) entre 16 y 20 años que padecen o alguna vez padecieron bulimia o anorexia. Se toma una muestra aleatoria simple de 𝑛 = 210 mujeres del total de la población (mujeres de entre 16 y 20 años, 𝑁 = 4,000). Cada una de las mujeres de la muestra recibe una ficha con las siguientes preguntas: 279 Pregunta 1: ¿padece o ha padecido bulimia o anorexia? Pregunta 2: ¿su signo zodiacal es tauro? Se cuenta con un marco de muestreo que específica la fecha de nacimiento de las mujeres, del cual se obtuvo que 13% pertenece al signo tauro. Por lo tanto, 𝑝𝐼 = 0.13. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.75 y la fracción restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene que 100 respondieron que sí. 7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE De igual manera, cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión.A continuación se presentan los estimadores versión Horvitz bajo MAE. Estimador de la proporción y el total estratificado 𝜋̂𝑠𝑡 = ∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖 𝑁 𝜏̂ = 𝑁𝜋̂𝑠𝑡 donde: 𝜋̂𝑖 = ̂ 𝑖 −(1−𝑝)𝑝𝐼 𝜙 𝑝 𝑎 , 𝜙̂𝑖 = 𝑛𝑖 , 𝑁 es el tamaño de la población, 𝐸 es el número de estratos 𝑖 en que se divide la población, 𝑁𝑖 es la población en el estrato 𝑖, 𝑎𝑖 es el total de respuestas afirmativas en la muestra de tamaño 𝑛𝑖 del estrato 𝑖, 𝑝 es la probabilidad de la pregunta delicada o íntima, 𝑝𝐼 es la probabilidad de la pregunta intrascendente y se recomienda estimarla a partir de registros históricos o de investigaciones confiables ya realizadas. Varianza de la proporción y el total estratificado 𝐸 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝑉̂ (𝜋̂𝑠𝑡 ) = ∑ ( ) ( ) 𝑁 𝑁𝑖 𝑝2 𝑛𝑖 𝑖=1 280 𝐸 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝑉̂ (𝜏̂ 𝑠𝑡 ) = 𝑁 ∑ ( ) ( ) 𝑁 𝑁𝑖 𝑝2 𝑛𝑖 2 𝑖=1 Intervalo de confianza para la proporción y el total 𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 ) 𝜏̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂𝑠𝑡 ) 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad por estrato. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . El tamaño de muestra para estimar la proporción 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝑝2 𝑛∗ = 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 2 𝐸 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 donde: 𝑑 es la precisión fijada por el investigador y 𝑊𝑖 = 𝑁𝑖 𝑁 . El tamaño de muestra modificado para estimar la proporción 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑛𝑚 = 𝑁𝑑 2 281 + 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 2 𝐸 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que 2 ∗ ∗ la amplitud deseada, 𝜒𝑖(𝛾,𝑛 −1) es el cuantil 100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖 − 𝑖 1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y JiCuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 7.3. Una persona está interesada en estimar la proporción de hombres con problemas de erección en el estado de Guanajuato (el total de hombres es de 𝑁 = 20,000). Además, la persona cree que la edad influye en tal problema, por lo que clasificó a la población en dos estratos: menores de 30 (estrato 1) y mayores de 30 (estrato 2), donde la población de cada estrato es 𝑁1 = 11,000 y 𝑁2 = 9,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 800) de la población objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has tenido problemas de erección en algún momento de tu vida? 2.- ¿El último número de tu credencial de elector es impar? Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con las demás letras del abecedario. De los resultados de la encuesta se tiene que el número de respuestas “si” en los entrevistados por estrato son: de 45 para el estrato 1 y de 40 para el estrato dos. a) La estimación de la proporción de hombres con problemas de erección en el estado de Guanajuato. 282 𝜋̂𝑠𝑡 = ∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖 𝑁 donde: 𝑁 = 20,000, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝐸 = 2, 𝑎 45 40 𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500, 𝜙̂2 = 300, 𝑝 = 5/6, 𝑝𝐼 = 0.5, 𝑖 𝜋̂𝑖 = ̂ 𝑖 −(1−𝑝)𝑝𝐼 𝜙 𝑝 ∶ 𝜋̂1 = 45 5 −(1− )0.5 500 6 5 6 = 0.008 y 𝜋̂2 = 40 5 −(1− )0.5 300 6 5 6 = 0.06. Por lo tanto: 𝜋̂𝑠𝑡 = (11,000)(0.008) + (9,000)(0.06) = 0.0314. 20,000 Esto significa que la proporción de hombres con problemas de erección en el estado de Guanajuato es de 0.0314, es decir, el 3.14%. b) La varianza y la desviación estándar de la proporción. 𝐸 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) ̂ 𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( ) 𝑁 𝑁𝑖 𝑝2 𝑛𝑖 𝑖=1 donde: 𝑁 = 20,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝐸 = 2, 𝑎 𝑎 45 𝑎 40 5 𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 500 , 𝜙̂2 = 𝑛2 = 300, 𝑝 = 6 y 𝑝𝐼 = 0.5. 𝑖 1 2 Por lo tanto: 45 45 11,000 2 11,000 − 500 500 (1 − 500) 𝑉̂ (𝜋̂𝑠𝑡 ) = ( ) ( ) 20,000 11,000 5 2 (6) (500) 40 40 9,000 2 9,000 − 300 300 (1 − 300) +( ) ( ) = 0.000177. 20,000 9,000 5 2 (6) (300) 283 La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292. c) IC de 95% para la proporción poblacional. 𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 ) donde: 𝜋̂𝑠𝑡 = 0.0314, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292. Por lo tanto: 0.0314 ± (1.96)(0.013292) 0.0314 ± 0. 026052 0.005348 ≤ 𝜋𝑠𝑡 ≤ 0. 057452 Entonces se estima que la proporción de hombres con problemas de erección en el estado de Guanajuato está entre 0.005348 y 0.057452. d) El total estratificado. 𝜏̂ = 𝑁𝜋̂𝑠𝑡 donde: 𝑁 = 20,000 y 𝜋̂𝑠𝑡 = 0.0314. Por lo tanto: 𝜏̂ = (20,000 )(0.0314) = 628 hombres. e) El intervalo de confianza de 95% para el total poblacional. 𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂) donde: 𝜏̂ = 628, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 20,000 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292. 284 Por lo tanto: 628 ± (1.96)(20,000)(0.013292) 628 ± 521.046817 106.953183 ≤ 𝜏 ≤ 1,149.046817 Por lo tanto, se estima que el total de hombres con problemas de erección en el estado de Guanajuato está entre 106.9532 y 1149.0468. f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de muestra para estimar la proporción poblacional con una precisión del 75% de la proporción preliminar y una confiabilidad de 95% es: 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝑝2 𝑛∗ = 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 2 𝐸 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2, 5 𝑎 45 40 𝑑 = 0.75(𝜋̂𝑠𝑡 ) = 0.75(0.0314) = 0.02355, 𝑝 = 6, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300, 𝑖 𝑊𝑖 = 𝑊𝑖 𝑊2 𝑁𝑖 𝑁1 11,000 𝑁2 9,000 : 𝑊1 = = = 0.55, 𝑊2 = = = 0.45, 𝑁 𝑁 20,000 𝑁 20,000 ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 𝑝2 : 𝑊1 ̂ 2 (1−𝜙 ̂ 2) 𝜙 𝑝2 ∑2𝑖=1 𝑊𝑖 ̂ 1 (1−𝜙 ̂ 1) 𝜙 𝑝2 9,000 40 40 (1− ) 300 300 5 2 ( ) 6 = 20,000 ( ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 𝑝2 11,000 45 = 20,000 (500 45 ) 500 5 2 ( ) 6 (1− ) = 0.064865, ) = 0.07488 y = 0.064865 + 0.07488 = 0.139745. Por lo tanto: (20,000)(1.96)2 (0.139745) 10,736.88784 𝑛 = = = 923.2939 = 924. (20,000)(0.02355)2 + (1.96)2 (0.139745) 11.628895 ∗ La asignación de la muestra proporcional: 285 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 20,000, 𝑛∗ = 923.2939, 𝑁𝑖 : 𝑁1 = 11,000 y 𝑁2 = 9,000. Por lo tanto: 𝑛1∗ = 11,000 (923.2939) = 507.811645 = 508 20,000 𝑛2∗ = 9,000 (923.2939) = 415.482255 = 416. 20,000 La muestra para estimar la media estratificada con una precisión del 75% de la proporción estratificada y una confiabilidad de 95% es de: 924 hombres: 508 menores de 30 años y 416 mayores de 30 años. g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión del 75% de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 90% es: 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑛𝑚 = 𝑁𝑑 2 + 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 2 𝐸 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 5 donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2, 𝑑 = 0.02355, 𝑝 = 6, 𝑎 45 40 𝑁 11,000 9,000 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300, 𝑊𝑖 = 𝑁𝑖 : 𝑊1 = 20,000 = 0.55, 𝑊2 = 20,000 = 0.45, 𝑖 2 2 2 ∗ 𝜒𝑖(𝛾,𝑛 −1) : 𝜒1(𝛾,𝑛1∗ −1) = 548.0172, 𝜒2(𝛾,𝑛2∗ −1) = 451.7821, 𝑖 𝑊1 𝑊2 286 ̂ 1 (1−𝜙 ̂ 1) 𝜙 𝑝2 ̂ 2 (1−𝜙 ̂ 2) 𝜙 𝑝2 2 𝜒1(𝛾,𝑛 ∗ −1) 1 ( 𝑛1∗ −1 2 𝜒2(𝛾,𝑛 ∗ −1) ( 2 𝑛2∗ −1 11,000 ) = 20,000 ( 9,000 45 45 (1− ) 500 500 5 2 ( ) 6 40 ) = 20,000 (300 40 ) 300 5 2 ( ) 6 (1− 548.0172 ) 507.811645−1 = 0.070139, 451.7821 ) (415.482255−1) = 0.081619 y ∑2𝑖=1 𝑊𝑖 ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 𝑝2 2 𝜒𝑖(𝛾,𝑛 ∗ −1) ( 𝑖 𝑛𝑖∗ −1 ) = 0.070139 + 0.081619 = 0.151758. Por lo tanto: 𝑛𝑚 = (20,000)(1.96)2 (0.151758) 11659.870656 = = 998.7004 = 999. 2 2 (20,000)(0.02355) + (1.96) (0.151758) 11.675044 La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 20,000, 𝑛𝑀 = 998.7004, 𝑁1 = 11,000 y 𝑁2 = 9,000. Por lo tanto: 𝑛𝑚 1 = 11,000 (998.7004) = 549.28522 = 549 20,000 𝑛𝑚 2 = 9,000 (998.7004) = 449.41518 = 450. 20,000 La muestra para estimar la media estratificada con una precisión del 75% de la proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento de 99% es de: 999 hombres: 549 menores de 30 años y 450 mayores de 30 años. Ejemplo 7.4. En la ciudad de México un sexólogo desea realizar una investigación para conocer el número de mujeres que han tenido relaciones sexuales premaritales (se encontró que el número de mujeres era de 𝑁 = 40,000). Además, se piensa que el nivel de vida influye en la decisión de tener relaciones sexuales antes del matrimonio, por lo que se clasificó a la población en tres estratos: pobres (estrato 1), nivel medio (estrato 2) y ricos (estrato 3). La población de cada estrato es 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000. Para el estudio se tomó una muestra aleatoria simple de la población de mujeres distribuidas de la siguiente manera: 𝑛1 = 2,000, 𝑛2 = 1,400 y 𝑛3 = 600 mujeres. 287 1.- ¿Has tenido relaciones sexuales premaritales? 2.- ¿El año en que naciste es par? Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con las demás letras del abecedario. De los resultados de la encuesta se tiene que el número de respuestas afirmativas en los entrevistados por estrato son: 520 para el primer estrato, 360 para el segundo y 180 para el tercero. a) La estimación de la proporción de mujeres residentes en la ciudad de México que han tenido relaciones sexuales premaritales. 𝜋̂𝑠𝑡 = ∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖 𝑁 donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180, 𝑎 𝑎 520 𝑎 360 𝑎 180 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 2,000 , 𝜙̂2 = 𝑛2 = 1,400 , 𝜙̂3 = 𝑛3 = 600 , 𝑝 = 5/6, 𝑝𝐼 = 0.5, 1 𝑖 𝜋̂𝑖 = 𝜋̂3 = ̂ 𝑖 −(1−𝑝)𝑝𝐼 𝜙 𝑝 2 : 𝜋̂1 = 180 5 −(1− )0.5 600 6 5 6 520 5 −(1− )0.5 2,000 6 5 6 3 = 0.212, 𝜋̂2 = 360 5 −(1− )0.5 1,400 6 5 6 = 0.2086 y = 0.26. Por lo tanto: 𝜋̂𝑠𝑡 = (19,000)(0.212) + (16,000)(0.2086) + (5,000)(0.26) = 0.2166. 40,000 Esto significa que la proporción de mujeres residentes en la ciudad de México que han tenido relaciones sexuales premaritales es de 0.2166, es decir, el 21.66%. b) La varianza y la desviación estándar de la proporción. 288 𝐸 𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) ̂ 𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( ) 𝑁 𝑁𝑖 𝑝2 𝑛𝑖 𝑖=1 donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180, 𝑎 𝑝 = 5/6, 𝜙̂𝑖 = 𝑖 : 𝜙̂1 = 𝑛𝑖 520 2,000 , 𝜙̂2 = 360 1,400 180 y 𝜙̂3 = . 600 Por lo tanto: 520 2 520 ) 2,000 (1− 19,000 19,000−2,000 𝑉̂ (𝜋̂𝑠𝑡 ) = (40,000) ( 19,000 ) 2,000 5 2 ( ) (2,000) + 6 180 180 5,000 2 5,000−600 600(1−600) + (40,000) ( 5,000 ) 5 2 6 ( ) (600) 360 360 16,000 2 16,000−1,400 1,400(1−1,400) (40,000) ( 16,000 ) 5 2 ( ) (1,400) 6 = 0.000064. La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974. c) IC de 95% para la proporción poblacional. 𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 ) donde: 𝜋̂𝑠𝑡 = 0.2166, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974. Por lo tanto: 0.2166 ± (1.96)(0.007974) 0.2166 ± 0.015629 0.200971 ≤ 𝜋𝑠𝑡 ≤ 0.232229 Por lo tanto, se estima que la proporción de mujeres residentes en la ciudad de México que han tenido relaciones sexuales premaritales está entre 0.200971 y 0.232229. d) El total estratificado. 289 𝜏̂ = 𝑁𝜋̂𝑠𝑡 donde: 𝑁 = 40,000 y 𝜋̂𝑠𝑡 = 0.2166. Por lo tanto: 𝜏̂ = (40,000 )(0.2166) = 8,664 mujeres. e) El intervalo de confianza de 95% para el total poblacional. 𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂) donde: 𝜏̂ = 8,664, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁 = 40,000 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974. Por lo tanto: 8,664 ± (1.96)(40,000)(0.007974) 8,664 ± 625.1616 8,038.8384 ≤ 𝜏 ≤ 9,289.1616 Entonces se estima que el total de mujeres residentes en la ciudad de México que han tenido relaciones sexuales premaritales está entre 8,038.83 y 9,289.1616. f) Si 𝑛 = 4,000 es una muestra preliminar. El tamaño de muestra para estimar la proporción poblacional con una precisión del 10% de la proporción preliminar y una confiabilidad de 95%, es: 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝑝2 𝑛∗ = 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 2 𝐸 ∑ 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 𝑊 ⁄2) 𝑖=1 𝑖 𝑝2 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3, 290 5 𝑑 = 0.1(𝜋̂𝑠𝑡 ) = 0.75(0.2166) = 0.02166, 𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑁𝑖 𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 = 𝑊2 = 𝜙̂𝑖 = 𝑊𝑖 𝑊2 𝑁2 𝑁 𝑁 : 𝑊1 = 16,000 = 40,000 = 0.4, 𝑊3 = 𝑁2 𝑁 𝑁1 𝑁 19,000 = 40,000 = 0.475, 5,000 = 40,000 = 0.125, 𝑎𝑖 520 360 180 : 𝜙̂1 = , 𝜙̂2 = , 𝜙̂3 = , 𝑛𝑖 2,000 1,400 600 ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 𝑝2 : 𝑊1 ̂ 2 (1−𝜙 ̂ 2) 𝜙 𝑝2 ̂ 1 (1−𝜙 ̂ 1) 𝜙 𝑝2 16,000 19,000 = 40,000 ( 360 360 (1− ) 1,400 1,400 5 2 = 40,000 ( 520 520 (1− ) 2,000 2,000 2 5 ( ) 6 ) = 0.131602, ) = 0.110028, ( ) 6 𝑊3 ̂ 3 (1−𝜙 ̂ 3) 𝜙 𝑝2 ∑3𝑖=1 𝑊𝑖 5,000 180 180 (1− ) 600 600 5 2 ( ) 6 = 40,000 ( ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 𝑝2 ) = 0.0378 y = 0.131602 + 0.110028 + 0.0378 = 0.27943. Por lo tanto: (40,000)(1.96)2 (0.27943) 42,938.3315 𝑛 = = = 2,164.2651 = 2165. (40,000)(0.02166)2 + (1.96)2 (0.27943) 19.839682 ∗ La asignación de la muestra proporcional: 𝑛𝑖∗ = 𝑁𝑖 ∗ (𝑛 ) 𝑁 donde: 𝑁 = 40,000, 𝑛∗ = 2,164.2651, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000 Por lo tanto: 19,000 (2,164.2651) = 1,028.0259 = 1,028 40,000 𝑛2∗ = 16,000 (2,164.2651) = 865.706 = 866 40,000 291 𝑛1∗ = 𝑛3∗ = 5,000 (2,164.2651) = 270.5331 = 271. 40,000 El tamaño de muestra para estimar la media estratificada con una precisión del 10% de la proporción estratificada y una confiabilidad de 95%, es de: 2,165 mujeres: 1,028 pobres, 866 de nivel medio y 271 de clase alta. g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión (𝑑) del 0.05 una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 90%, es: 2 𝐸 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑛𝑚 = 𝑁𝑑 2 + 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 2 𝐸 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 2 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1) ( ∗ ) 𝑛𝑖 − 1 𝑝2 donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3, 𝑑 = 0.02166, 5 𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 = 𝑁𝑖 𝑁 19,000 : 𝑊1 = 40,000 = 0.475, 16,000 5,000 𝑎 520 360 180 𝑊2 = 40,000 = 0.4, 𝑊3 = 40,000 = 0.125, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 2,000 , 𝜙̂2 = 1,400, 𝜙̂3 = 600, 𝑖 2 ∗ 𝜒𝑖(𝛾,𝑛 : 𝑖 −1) 𝑊1 𝑊2 𝑊3 ̂ 1 (1−𝜙 ̂ 1) 𝜙 𝑝2 ̂ 2 (1−𝜙 ̂ 2) 𝜙 𝑝2 ̂ 3 (1−𝜙 ̂ 3) 𝜙 𝑝2 ∑3𝑖=1 𝑊𝑖 Por lo tanto: 292 2 ∗ 𝜒1(𝛾,𝑛 1 −1) = 2 𝜒1(𝛾,𝑛 ∗ −1) 1 ( ( ( 𝑛1∗ −1 2 𝜒2(𝛾,𝑛 ∗ −1) 2 𝑛2∗ −1 𝑝2 ( 520 2 ∗ = 964.3807, 𝜒3(𝛾,𝑛 = 326.4674, 3 −1) 520 ) 2,000 2 5 ( ) 6 (1− ) = 0.475 (2,000 360 360 (1− ) 1,400 1,400 5 2 ) = 0.4 ( ( ) 1,135.4 ) 1,028.0259−1 = 0.145488, 964.3807 ) 865.706−1 = 0.122711, 6 2 𝜒3(𝛾,𝑛 ∗ 3 −1) ∗ 𝑛3 −1 ̂ 𝑖 (1−𝜙 ̂ 𝑖) 𝜙 2 ∗ 1,135.4, 𝜒2(𝛾,𝑛 2 −1) ) = 0.125 ( 2 𝜒𝑖(𝛾,𝑛 ∗ −1) 𝑖 𝑛𝑖∗ −1 180 180 (1− ) 600 600 5 2 ( ) 6 326.4674 ) (270.5331−1) = 0.045785 y ) = 0.145488 + 0.122711 + 0.045785 = 0.313984. 𝑛𝑚 = (40,000)(1.96)2 (0.313984) (40,000)(0.02166)2 + (1.96)2 (0.313984) 𝑛𝑚 = 48,248.0374 = 2,415.7326 = 2,416. 19.972425 La asignación de la muestra proporcional: 𝑛𝑚 𝑖 = 𝑁𝑖 (𝑛 ) 𝑁 𝑚 donde: 𝑁 = 40,000, 𝑛𝑚 = 2,415.7326, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000. Por lo tanto: 𝑛𝑚 1 = 19,000 (2,415.7326) = 1,147.473 = 1,148 40,000 𝑛𝑚 2 = 16,000 (2,415.7326) = 966.293 = 967 40,000 𝑛𝑚 3 = 5,000 (2,415.7326) = 301.9666 = 302. 40,000 El tamaño de muestra para estimar la media estratificada con una precisión del 10% de la proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento de 99% es de: 2,417 mujeres: 1,148 pobres, 967 de nivel medio y 302 de clase alta. EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción y el total, de tal manera que sean estimados con una precisión de 5% de la proporción preliminar y un nivel de aseguramiento de 90%? Además considerar que 𝑝𝐼 = 0.5 y que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con las letras sobrantes del abecedario. 293 Ejercicio 7.5. Una persona está interesada en estimar la proporción de hombres con experiencias homosexuales en el estado de Nuevo León (el total de hombres es de 𝑁 = 16,000). Además, la persona cree que la edad influye en tal problema, por lo que clasificó a la población en dos estratos: menores o iguales a 30 (estrato 1) y mayores de 30 (estrato 2), donde la población de cada estrato es 𝑁1 = 9,000 y 𝑁2 = 7,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 650) de la población objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 350 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has tenido alguna experiencia homosexual en algún momento de tu vida? 2.- ¿Naciste el primero de abril? De los resultados de la encuesta se tiene que el número de respuestas “Si” en los entrevistados por estrato es: de 40 para el estrato 1 y de 36 para el estrato dos. Ejercicio 7.6. Una persona está interesada en estimar la proporción de hombres con doble vida marital oculta en un municipio del Estado de México (el total de hombres es de 𝑁 = 22,000). Además, la persona cree que la religión influye en tal problema, por lo que clasificó a la población en dos estratos: católicos (estrato 1) y cristianos (estrato 2), donde la población de cada estrato es 𝑁1 = 15,000 y 𝑁2 = 7,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 700) de la población objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 200 (estrato 2). Cada hombre de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Tienes doble vida marital oculta? 2.- ¿Has viajado al extranjero? De los resultados de la encuesta se tiene que el número de respuestas “Si” en los entrevistados por estrato es: de 25 para el estrato 1 y de 11 para el estrato dos. Ejercicio 7.7. Un investigador está interesado en estimar la proporción de hombres que han visitado por lo menos una vez antros homosexuales en el estado Jalisco (el total de 294 hombres es de 𝑁 = 28,000). Además, la persona cree que la edad influye en tal situación, por lo que clasificó a la población en dos estratos: menores o iguales a 25 años (estrato 1) y mayores a 25 años (estrato 2), donde la población de cada estrato es 𝑁1 = 16,000 y 𝑁2 = 12,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 900) de la población objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 500 y 𝑛2 = 300 hombres. Cada hombre de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has visitado por lo menos una vez antros homosexuales? 2.- ¿Has viajado al extranjero? De los resultados de la encuesta se tiene que el número de respuestas “Si” en los entrevistados por estrato es: de 28 para el estrato 1 y de 20 para el estrato dos. Ejercicio 7.8. Una empresa está interesada en estimar la proporción de mujeres que han sido víctimas de abuso sexual en el estado Guerrero (el total de mujeres es de 𝑁 = 24,000). Además, la empresa cree que la procedencia influye en tal situación, por lo que clasificó a la población en dos estratos: procedencia rural (estrato 1) y procedencia urbana (estrato 2), donde la población de cada estrato es 𝑁1 = 13,000 y 𝑁2 = 11,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 760) de la población objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 400 y 𝑛2 = 360 mujeres. Cada mujer de la muestra recibe una ficha con las siguientes preguntas: 1.- ¿Has sufrido de abuso sexual a lo largo de tu vida? 2.- ¿Tienes VISA americana? De los resultados de la encuesta se tiene que el número de respuestas “si” en las entrevistadas por estrato es: de 18 para el estrato 1 y de 11 para el estrato dos. 295 Capítulo 8. Pruebas por grupos CAPÍTULO 8 Pruebas por grupos En estadística agrupar es sensato siempre y cuando, la situación amerite este trato. EESF El método pruebas por grupos (en inglés Group Testing) consiste en aplicar pruebas a un conjunto de elementos en lugar de realizar pruebas individuales. Para comprender de mejor manera este método suponga que se tienen 100 personas sospechosas de padecer el virus de la influenza AH1N1. Para saber quiénes padecen esta enfermedad se necesitaría hacer una prueba a cada una de estas personas, es decir, hacer una prueba de laboratorio para cada persona. Sin embargo, Dorfman (1943) propuso que para ahorrar tiempo y dinero se puede juntar el material (sangre en el caso de Dorfman) de 𝑥 personas y mezclarlos perfectamente y en lugar de realizar pruebas individuales, ahora se realizará una sola prueba a la mezcla resultante de estos 𝑥 individuos. Por lo tanto, si se mezcla la sangre de 10 individuos por grupo, sólo se realizarán 10 pruebas de laboratorio. Si un grupo resulta negativo se concluye que los 𝑥 individuos que lo conforman están libres de este virus. Por otro lado, si el grupo resulta positivo significa que al menos uno de los 𝑥 individuos presenta el virus de la influenza y, si se desea saber quién es este individuo, se sugiere realizar una prueba individual a los individuos que conforman al grupo que arrojo el resultado positivo. No obstante, para efectos de estimación del porcentaje de individuos que padecen este virus no es necesario realizar una prueba individual a los elementos de un grupo positivo. Otros ejemplos de aplicación este método es juntar el material genético de plantas y realizar pruebas sobre la mezcla obtenida (Montesinos296 López et al., 2011; Montesinos-López et al., 2012a), estimación de prevalencia animal, detección de agentes infecciosos entre otros (Montesinos-López et al., 2012b) 8.1 Pruebas por grupo bajo MAS Por lo antes expresado, si se conoce el tamaño de la población (𝑁) y el tamaño del grupo (𝑥), el número de pruebas de laboratorio a realizar es igual a 𝐺 = 𝑁/𝑥. Sin embargo, si se toma una muestra de 𝑛 elementos de esta población 𝑁 y se define a 𝑥 como el tamaño del grupo, el número de pruebas a realizar será igual a 𝑔 = 𝑛/𝑥. La proporción muestral El estimador de máxima verosimilitud (EMV) de la prevalencia mínima fue definido por Kline et al. (1989) como: 𝑦 1⁄𝑥 𝑝 = 1 − (1 − ⁄𝑔) donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del grupo. El estimador de la varianza 𝑺𝟐𝒑 𝐺−𝑔 1 − (1 − 𝑝)𝑥 𝑆𝑝2 = ( )( 2 ) 𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2 El estimador del total 𝜏̂ = 𝑁𝑝 Los intervalos de confianza para la proporción y el total 𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁𝑆𝑝 297 donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . El estimador del tamaño de muestra (pools) 1 − (1 − 𝑝)𝑥 𝑥 2 (1 − 𝑝)𝑥−2 𝑔∗ = 1 − (1 − 𝑝)𝑥 2 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . El estimador del tamaño de muestra modificado (pools) De acuerdo a Montesinos-López et al. (2012a) el tamaño de muestra modificado bajo enfoque AIPE es: 2 2 1 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) 𝑔𝑚 = 2 2 1 2 𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 2 𝑦 donde: 𝑃𝑔 = 𝑔, ℎ(𝑃𝑔 ) = √(1−𝑃𝑔)𝑥 𝑥2 −1 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) 1 𝑃𝑔 , 2( −1) 1 (1−𝑃𝑔 ) 𝑥 ℎ′ (𝑃𝑔 ) = 𝑥 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 (1 − 2𝑃𝑔 𝑥 ), 𝛾 es la probabilidad de que el IC para la proporción no sea mayor que la amplitud deseada, 𝑍𝛾 298 es el cuantil 𝛾 de la distribución normal estándar y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y JiCuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 8.1. En el estado de Zacatecas un grupo de encuestadores quiere conocer cuántas mujeres de entre 30 y 50 años de edad tienen cáncer de mama. Esto con el objetivo de poder exigir al centro de salud una cantidad mayor de mamografías gratuitas. Puesto que el costo de una mamografía es muy elevado, se decide utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 5,000 mujeres tomando una muestra de tamaño 𝑛 = 500 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población son 𝑔 = 50 y 𝐺 = 500 respectivamente. De estos pools muestreados resultaron 𝑦 = 15 positivos. a) La proporción de interés. 𝑦 1 𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥 𝑝 = 1 − (1 − 15⁄50) 1⁄ 10 𝑝 = 1 − (1 − 0.3)0.1 𝑝 = 0.035. b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ). 𝑆𝑝2 = ( 𝐺−𝑔 1 − (1 − 𝑝)𝑥 )( 2 ) 𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2 donde: 𝐺 = 500, 𝑔 = 50, 𝑝 = 0.035 y 𝑥 = 10. 299 Por lo tanto: 𝑆𝑝2 = ( 500−50 500 1−(1−0.035)10 0.299718 ) (50(10)2 (1−0.035)10−2 )=(0.9) (3,760.0058) = (0.9)(0.00008) = 0.000072. La desviación estándar: Sp = √0.000072 = 0.008485. c) El IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.035, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.008485. Por lo tanto: 0.035 ± 1.96(0.008485) 0.035 ± 0.016631 0.018369 ≤ 𝑃 ≤ 0.051631 Con 95% de confianza se estima que la proporción de mujeres de entre 30 y 50 años de edad que tienen cáncer de mama está entre 1.83% y 5.16%. d) El total verdadero de mujeres que tienen cáncer de mama. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 5,000 y 𝑝 = 0.035. Por lo tanto: 𝜏̂ = 5,000(0.035) = 175 mujeres. e) El IC para el total con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝 donde: 𝜏̂ = 175, 𝑆𝑝 = 0.008485, 𝑁 = 5,000 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. 300 Por lo tanto: 𝜏̂ ± (1.96)(5,000)(0.008485) 175 ± 83.153 91.847 ≤ 𝜏 ≤ 258.153 Con 95% de confianza se estima que el total de mujeres que tienen cáncer de mama está entre 91.847 y 258.153. f) Si 𝑔 es una muestra preliminar, el número de pools para estimar 𝑝 con una precisión de 0.05 y con una confiabilidad de 95%, es: 1 − (1 − 𝑝)𝑥 𝑥 2 (1 − 𝑝)𝑥−2 𝑔∗ = 1 − (1 − 𝑝)𝑥 2 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035, 𝑑 = 0.05 y 𝑥 = 10. Por lo tanto: 1 − (1 − 0.035)10 8.4626 102 (1 − 0.035)10−2 𝑔∗ = = = 6.6797 = 7 pools. 10 1 − (1 − 0.035) 1.2669 2 2 500(0.05) + (1.96) 102 (1 − 0.035)10−2 500(1.96)2 g) Finalmente, el número de pools para estimar 𝑝 con una precisión de 0.05, una confiabilidad de 95% y además un nivel de aseguramiento del 99% (𝛾 = 0.99), es: 2 2 1 4𝑑 2 𝐺𝑡(𝑔−1,1−𝛼 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 (𝑔−1,1−𝛼⁄2) 𝑔𝑚 = 2 1 4𝑑 2 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 (𝑔−1,1−𝛼⁄2) 2 301 𝑦 15 donde: 𝑃𝑔 = 𝑔 = 50 = 0.3, 𝑥 = 10, 𝑑 = 0.05, 𝑍𝛾 = 𝑍0.99 = 2.3263, 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035, 2 (1−𝑃𝑔 )𝑥 ℎ(𝑃 ) = √ 𝑔 −1 𝑃𝑔 𝑥2 2 (1−0.3)10 =√ −1 (0.3) 102 1 2( −1) 1 (1−𝑃𝑔 ) 𝑥 ′ ℎ (𝑃𝑔 ) = 𝑥 ℎ′ (𝑃𝑔 ) = 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 (1 − 2𝑃𝑔 𝑥 = 0.063172, 1 1 ) = 10 (1−0.3)2(10−1) 2 −1 2√(1−0.3)10 (0.3) (1 − 2(0.3) 10 ) (0.7)(−1.8) 1 1 1.900306 (1 − 0.06) = ( ) (0.94) = 0.141383. 10 2√(0.7)−0.8 (0.3) 10 1.263431 Por lo tanto: 2 1 4(0.05) (2.3263)|0.141383|√0.3(1 − 0.3)) 500(1.96)2 ( ) (0.063172 + √(0.063172)2 + 4 1.96 𝑔𝑚 = 500(0.05)2 𝑔𝑚 = + 1 (1.96)2 ( ) (0.063172 4 2 4(0.05) (2.3263)|0.141383|√0.3(1 − 0.3)) + √(0.063172)2 + 1.96 1 1,920.8 (4) (0.063172 + 0.139177)2 1 1.25 + (1.96)2 (4) (0.063172 + 0.139177)2 = 19.6618 = 15.2499 = 16. 1.2893 Ejemplo 8.2. Una empresa privada quiere conocer cuántos hombres de entre 20 y 40 años de edad tienen cáncer de próstata. Esto con el objetivo de poder exigir al centro de salud una cantidad mayor de estudios gratuitos. Puesto que el costo de un examen antígeno prostático específico (PSA) es muy elevado, se decide utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 3,500 hombres tomando una muestra de tamaño 𝑛 = 400 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población son 𝑔 = 40 y 𝐺 = 350, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos. a) La proporción de interés. 𝑦 1 𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥 𝑝 = 1 − (1 − 6⁄40) 1⁄ 10 𝑝 = 1 − (1 − 0.15)0.1 302 𝑝 = 0.0161. b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ). 𝑆𝑝2 = ( 𝐺−𝑔 1 − (1 − 𝑝)𝑥 )( 2 ) 𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2 donde: 𝐺 = 350, 𝑔 = 40, 𝑝 = 0.0161 y 𝑥 = 10. Por lo tanto: 𝑆𝑝2 = ( 350−40 350 1−(1−0.0161)10 0.149823 ) (40(10)2 (1−0.0161)10−2 )=(0.885714) (3,512.915278) = 0.000037. La desviación estándar: Sp = √0.000037 = 0.006146. c) El IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.0161, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.006146. Por lo tanto: 0.0161 ± 1.96(0.006146) 0.0161 ± 0.012046 0.004054 ≤ 𝑃 ≤ 0.028146 Con 95% de confianza se estima que la proporción de hombres de entre 20 y 40 años de edad que tienen cáncer de próstata está entre 0.40% y 2.81%. d) El total verdadero de hombres que tienen cáncer de próstata. 303 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 3,500 y 𝑝 = 0.0161. Por lo tanto: 𝜏̂ = 3,500(0.0161) = 56.35 = 57 hombres. e) El IC para el total con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝 donde: 𝜏̂ = 56.35, 𝑆𝑝 = 0.006146, 𝑁 = 3,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. Por lo tanto: 56.35 ± (1.96)(3,500)(0.006146) 56.35 ± 42.16156 14.18844 ≤ 𝜏 ≤ 98.51156 Con 95% de confianza se estima que el total de hombres que tienen cáncer de próstata está entre 14.1884 y 98.5115. f) Si 𝑔 es una muestra preliminar, el tamaño de muestra, número de pools, para estimar 𝑝 con una precisión de 3% y con una confiabilidad de 95%, es: 1 − (1 − 𝑝)𝑥 𝑥 2 (1 − 𝑝)𝑥−2 𝑔∗ = 1 − (1 − 𝑝)𝑥 2 𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ⁄2 𝑥 2 (1 − 𝑝) 𝑥−2 2 𝐺𝑡𝑔−1,1−𝛼 ⁄2 donde: 𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.0161, 𝑑 = 0.03 y 𝑥 = 10. 304 Por lo tanto: 1 − (1 − 0.0161)10 2.293768 102 (1 − 0.0161)10−2 𝑔∗ = = = 7.1334 = 8 pools. 1 − (1 − 0.0161)10 0.321554 350(0.03)2 + (1.96)2 2 10 (1 − 0.0161)10−2 350(1.96)2 g) Finalmente, el tamaño de muestra, número de pools, para estimar 𝑝 con una precisión de 3%, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99), es: 2 2 1 4𝑑 2 𝐺𝑡(𝑔−1,1−𝛼 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 (𝑔−1,1−𝛼⁄2) 𝑔𝑚 = 2 2 1 4𝑑 2 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 (𝑔−1,1−𝛼⁄2) 𝑦 6 donde: 𝑃𝑔 = 𝑔 = 40 = 0.15, 𝑥 = 10, 𝑑 = 0.03, 𝑍𝛾 = 2.4341, 𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 2 (1−𝑃𝑔 )𝑥 ℎ(𝑃 ) = √ 𝑔 −1 𝑃𝑔 𝑥2 2 (1−0.15)10 =√ −1 (0.15) 102 1 ′ 2( −1) 1 (1−𝑃𝑔 ) 𝑥 ℎ (𝑃𝑔 ) = 𝑥 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 1 ℎ′ (𝑃𝑔 ) = 10 (1 − (0.85)(−1.8) 2√(0.85)−0.8 (0.15) 2𝑃𝑔 𝑥 = 0.041331, 1 (1−0.15)2(10−1) 1 ) = 10 2 −1 2√(1−0.15)10 (0.15) (1 − 0.03) = 1 ( 1.339818 (1 − 2(0.15) 10 ) ) (0.97) = 0.157221. 10 0.826624 Por lo tanto: 2 1 4(0.03) (2.4341)|0.157221|√0.15(1 − 0.15)) 350(1.96)2 ( ) (0.041331 + √(0.041331)2 + 4 1.96 𝑔𝑚 = 2 1 4(0.03) (2.4341)|0.157221|√0.15(1 − 0.15)) 350(0.03)2 + (1.96)2 ( ) (0.041331 + √(0.041331)2 + 4 1.96 𝑔𝑚 = 305 1 1,344.56 (4) (0.041331 + 0.100372)2 1 0.315 + (1.96)2 (4) (0.041331 + 0.100372)2 = 6.749604 = 20.1911 = 21. 0.334285 EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un nivel de aseguramiento de 90%? Ejercicio 8.1. La Secretaría de Salud del Estado de Nuevo León quiere conocer cuántos niños de entre 5 y 12 años de edad tienen cáncer. Puesto que el costo de los estudios son muy elevados, se decide utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 4,500 niños tomando una muestra de tamaño 𝑛 = 480 con 𝑥 = 12, de modo que el número de pools a formar con la muestra y la población son 𝑔 = 40 y 𝐺 = 375 respectivamente, de estos pools muestreados resultaron 𝑦 = 8 positivos. Ejemplo 8.2. Una empresa particular quiere conocer cuántos ancianos de entre 55 y 70 años de edad tienen el virus XXY. Se decide utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 3,000 ancianos tomando una muestra de tamaño 𝑛 = 300 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población son 𝑔 = 30 y 𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 5 positivos. Ejemplo 8.3. Un investigador quiere conocer cuántas personas de las clínicas particulares de la Ciudad de Monterrey tienen el virus de la hepatitis B. Se decide utilizar el método de pruebas por grupo. La población es de 𝑁 = 2,880 personas y se toma una muestra de tamaño 𝑛 = 270 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y la población son 𝑔 = 30 y 𝐺 = 320, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos. 8.2 Pruebas por grupo en pruebas imperfectas bajo MAS 306 Proporción muestral Tanto 𝑆𝑒 como 𝑆𝑝 deben ser más grandes que 0.5 para que exista el EMV, lo cual aplica a la mayoría de las pruebas de laboratorio que son útiles. Cuando, 1 − 𝑆𝑝 ≤ 𝑦/𝑔 ≤ 𝑆𝑒 el EMV es: 1⁄ 𝑥 𝑦 𝑆𝑒 − ⁄𝑔 𝑝 =1−( ) 𝑆𝑒 + 𝑆𝑝 − 1 donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del grupo. El estimador de la varianza 2 −2 𝑦 𝑦 𝑦 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔) 𝐺 − 𝑔 2 𝑆𝑝 = ( )( )( ) 𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥 El estimador del total 𝜏̂ = 𝑁𝑝 Los intervalos de confianza para la proporción y el total 𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝 𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝 donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . 307 Estimación del tamaño de muestra (pools) (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 2 −2 𝑥 1) 𝑔∗ = ) 2 −2 𝑥 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 2 𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ( 2 ( ) ) 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑦 donde 𝑓 = ⁄𝑔 , 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Estimación del tamaño de muestra modificado (pools) El tamaño de muestra (pools) modificado bajo el enfoque AIPE se muestra a continuación 2 2 1 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) 𝑔𝑚 = 2 1 4𝑑 2 𝐺𝐻𝑑 2 + 𝑡(𝑔−1,1−𝛼 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 (𝑔−1,1−𝛼⁄2) 2 2 𝑥 𝑦 1−𝑃𝑔 2 −2 𝑥 donde: 𝑃𝑔 = 𝑔, 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 ) 𝑔 2 (1−𝑃𝑔 )𝑥 ℎ(𝑃 ) = √ 𝑔 𝑥2 −1 𝑃𝑔 1 ′ 2( −1) 1 (1−𝑃𝑔 ) 𝑥 , ℎ (𝑃𝑔 ) = 𝑥 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 (1 − 2𝑃𝑔 𝑥 ), , 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que la amplitud deseada, y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji308 Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 8.3. En el estado de Sonora, una investigadora quiere conocer cuántos hombres mayores de 50 años tienen cáncer de próstata. Esto con el objetivo de comenzar una campaña de prevención. Puesto que el costo de un análisis es muy elevado, se decide utilizar el método de Group Testing para la población 𝑁 = 5,500, tomando una muestra de tamaño 𝑛 = 660, con 𝑥 = 11, de modo que el número de pools a formar con la muestra y la población sea de 𝑔 = 60 y 𝐺 = 500. Respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos, además 𝑆𝑒 = 0.98 y 𝑆𝑝 = 0.97. a) La estimación de la proporción de interés. 1⁄ 1⁄ 𝑥 𝑦 11 𝑆𝑒 − ⁄𝑔 0.98 − 6⁄60 𝑝 =1−( ) = 1−( ) = 0.006934. 𝑆𝑒 + 𝑆𝑝 − 1 0.98 + 0.97 − 1 b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ). 2 −2 𝑦 𝑦 𝑦 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔) 𝐺 − 𝑔 2 𝑆𝑝 = ( )( )( ) 𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥 donde: 𝐺 = 500, 𝑔 = 60, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97 𝑦 = 6 y 𝑥 = 11. Por lo tanto: 2 −2 (0.98 − 6⁄60)11 (6⁄60)(1 − 6⁄60) 500 − 60 2 𝑆𝑝 = ( )( )( ) 2 500 60(11)2 (0.98 + 0.97 − 1) ⁄11 𝑆𝑝2 = (0.88)(0.000174)(0.090843) = 0.000014. 309 La desviación estándar: 𝑆𝑝 = √0.000014 = 0.003741. c) El IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.006934, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.003741. Por lo tanto: 0.006934 ± 1.96(0.003741) 0.006934 ± 0.007332 0 ≤ 𝑃 ≤ 0.014266. Con 95% de confianza se estima que la proporción de hombres mayores de 50 años que tienen cáncer de próstata está entre 0 y 1.42%. d) El total verdadero de hombres. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 5,500 y 𝑝 = 0.006934. Por lo tanto: 𝜏̂ = 5,500(0.006934) = 38.137 hombres. e) El intervalo de confianza para el total con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝 310 donde: 𝜏̂ = 38.137, 𝑆𝑝 = 0.003741, 𝑁 = 5,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 . Por lo tanto: 𝜏̂ ± (1.96)(5,500)(0.003741) 38.137 ± 40.32798 0 ≤ 𝜏 ≤ 78.46498. Con 95% de confianza se estima que el total de hombres mayores de 50 años que tienen cáncer de próstata está entre 0 y 78.46498. f) Si 𝑔 es una muestra preliminar, el tamaño de muestra (pools) con una precisión de 0.05 de la proporción preliminar (𝑑) y con una confiabilidad de 95%, es: (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑔∗ = 𝐺𝑑2 + (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 2 −2 𝑥 ) 2 −2 𝑥 1) ) donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97, 𝑦 𝑓 = ⁄𝑔 = 6⁄60 = 0.1 y 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467. Por lo tanto: 2 −2 11 (0.1)(1 − 0.1) 0.98 − 0.1 500(1.96) ( 2 ( ) ) 11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1 2 𝑔∗ = 2 −2 11 (0.1)(1 − 0.1) 0.98 − 0.1 500(0.0003467)2 + (1.96)2 ( 2 ( ) ) 11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1 𝑔∗ = 311 1.818998 = 491.754 = 492 pools. 0.003699 g) El número de pools para estimar 𝑝 con una precisión de 0.05 de la proporción preliminar, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99) es: 𝑔𝑚 2 2 1 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) = 2 2 1 2 𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97, 𝑦 6 𝑦 = 6, 𝑔 = 60, 𝑃𝑔 = 𝑔 = 60 = 0.1, . 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467, 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 2 1)𝑥 2 1 − 𝑃𝑔 𝑥 ( ) 𝑆𝑒 − 𝑃𝑔 2 −2 = (0.98 + 0.97 − 2 1)11 ( 1 − 0.1 11−2 ) 0.98 − 0.1 2 𝐻= 2 (0.95)11 ( 0.9 11−2 ) = 0.951053, 𝑍𝛾 = 2.3263, 0.88 2 2 −1 −1 𝑥 √(1 − 𝑃𝑔 ) 𝑃𝑔 √(1 − 0.1)11 (0.1) ℎ(𝑃𝑔 ) = = = 0.030014 y 𝑥2 112 1 2( −1) 1 (1−𝑃𝑔 ) 𝑥 ′ ℎ (𝑃𝑔 ) = 𝑥 ℎ′ (𝑃𝑔 ) = 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 (1 − 2𝑃𝑔 𝑥 1 1 ) = 11 (1−0.1)2(11−1) 2 −1 2√(1−0.1)11 (0.1) (1 − 2(0.1) 11 ) 1 1.211143 ( ) (0.981818) = 0.163714. 11 0.660312 Por lo tanto: 2 1 4(0.0003467) (2.3263)|0.163714|√0.1(1 − 0.1)) 500(1.96)2 ( ) (0.030014 + √(0.030014)2 + 4 1.96 𝑔𝑚 = 2 1 4(0.0003467) (2.3263)|0.163714|√0.1(1 − 0.1)) 500(0.951053)(0.0003467)2 + (1.96)2 ( ) (0.030014 + √(0.030014)2 + 4 1.96 𝑔𝑚 = 312 1 500(1.96)2 (4) (0.030014 + 0.031332)2 1 0.000057 + (1.96)2 (4) (0.030014 + 0.031332)2 𝑔𝑚 = 1.8072 = 492.290 = 493 pools. 0.003671 Ejemplo 8.4. Con el objetivo de comenzar una campaña de prevención, la Secretaría de Salud del Estado de México quiere conocer cuántas mujeres mayores a 30 años tienen cáncer de tiroides. Puesto que el costo de un análisis es muy elevado, se decide utilizar muestreo por grupos. El tamaño de la población es de 𝑁 = 4,600 tomando una muestra de tamaño 𝑛 = 480 con 𝑥 = 8, de modo que el número de pools a formar con la muestra y la población es 𝑔 = 60 y 𝐺 = 575, respectivamente. De estos pools muestreados resultaron 𝑦 = 5 positivos, 𝑎𝑑𝑒𝑚á𝑠 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98. a) La estimación de la proporción de interés. 1⁄ 1⁄ 𝑥 𝑦 8 𝑆𝑒 − ⁄𝑔 0.97 − 5⁄60 𝑝 =1−( ) = 1−( ) = 0.008587. 𝑆𝑒 + 𝑆𝑝 − 1 0.97 + 0.98 − 1 b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ). 2 −2 𝑦 𝑦 𝑦 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔) 𝐺 − 𝑔 2 𝑆𝑝 = ( )( )( 2) 𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)𝑥 donde: 𝐺 = 575, 𝑔 = 60, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑦 = 6 y 𝑥 = 8. Por lo tanto: 2 −2 8 5 (5⁄60)(1 − 5⁄60) 575 − 60 (0.97 − ⁄60) 2 𝑆𝑝 = ( ) ( 2 ) 575 60(8)2 (0.97 + 0.98 − 1) ⁄8 ( ) 𝑆𝑝2 = (0.895652)(0.000321)(0.077375) = 0.000022. La desviación estándar: 𝑆𝑝 = √0.000022 = 0.004716. 313 c) El IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.008587, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.004716. Por lo tanto: 0.008587 ± 1.96(0.004716) 0.008587 ± 0.009243 0 ≤ 𝑃 ≤ 0.01783. Con 95% de confianza se estima que la proporción de mujeres mayores a 30 años con cáncer de tiroides está entre 0 y 1.78%. d) El total verdadero de mujeres con cáncer de tiroides. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 4,600 y 𝑝 = 0.008587. Por lo tanto: 𝜏̂ = 4,600(0.008587) = 39.5002 = 40 mujeres. e) El intervalo de confianza para el total con una confiabilidad de 95%. 𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝 donde: 𝜏̂ = 39.5002, 𝑆𝑝 = 0.004716, 𝑁 = 4,600 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 . 314 Por lo tanto: 𝜏̂ ± (1.96)(4,600)(0.004716) 39.5002 ± 42.519456 0 ≤ 𝜏 ≤ 82.019656. Con 95% de confianza se estima que el total de mujeres con cáncer de tiroides está entre 0 y 82.019656. f) Si 𝑔 es una muestra preliminar. El tamaño de muestra (pools) con una precisión de 0.05 y con una confiabilidad de 95% es: 2 −2 𝑥 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 𝐺𝑡(𝑔−1,1−𝛼 ( ( ) ) ⁄2) 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔∗ = 𝐺𝑑2 + (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 2 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) 2 −2 𝑥 ) donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 5 𝑦 𝑓 = ⁄𝑔 = 60 y 𝑑 = 0.05. Por lo tanto: 2 −2 8 5 5 5 (60 ) (1 − 60 ) 0.97 − 60 ( ) 82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1 575(1.96)2 𝑔∗ = ( ) 2 −2 8 5 5 5 (60 ) (1 − 60 ) 0.97 − 60 ( ) 82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1 575(0.05)2 + (1.96)2 ( 𝑔∗ = 315 3.296239 = 2.2839 = 3 pools. 1.443232 ) g) Finalmente, el tamaño de pool para estimar 𝑝 con una precisión de 0.05, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99) es: 2 2 1 2 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) 𝑔𝑚 = 2 2 1 2 𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 4𝑑 (𝑔−1,1−𝛼⁄2) 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 )) donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑦 5 𝑃𝑔 = 𝑔 = 60 , . 𝑑 = 0.05, 𝑍𝛾 = 2.3263, 2 𝑥 1−𝑃𝑔 2 −2 𝑥 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 ) 𝑔 2 ℎ(𝑃𝑔 ) = √(1−𝑃𝑔)𝑥 −1 𝑃𝑔 𝑥2 = 2 8 = (0.97 + 0.98 − 1) ( 2 5 8−1 5 ( ) 60 82 √(1−60) ℎ′ (𝑃𝑔 ) = 𝑥 = 2 −1 2√(1−𝑃𝑔 )𝑥 𝑃𝑔 (1 − 2𝑃𝑔 𝑥 1 )=8 ) = 0.931411, = 0.037281 y 1 1 2( −1) 1 (1−𝑃𝑔 ) 𝑥 2 −2 5 8 60 5 0.97− 60 1− 5 2( −1) (1− ) 8 60 2 −1 5 5 2√(1− )8 ( ) 60 60 (1 − 5 60 2( ) 8 ) 1 1.164474 ( ) (0.979166) = 0.238939. 8 0.596499 Por lo tanto: 2 1 4(0.05) 5 5 (2.3263)|0.238939|√ (1 − )) 575(1.96)2 ( ) (0.037281 + √(0.037281)2 + 4 1.96 60 60 𝑔𝑚 = 2 575(0.931411)(0.05)2 𝑔𝑚 = + 1 (1.96)2 ( ) (0.037281 + 4 √(0.037281)2 4(0.05) 5 5 (2.3263)|0.238939|√ (1 − )) + 1.96 60 60 1 575(1.96)2 (4) (0.037281 + 0.130637)2 1 575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + 0.130637)2 4 15.570987 𝑔𝑚 = = 11.3991 = 12 pools. 1.365983 316 EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. El tipo de prueba es imperfecta, por lo que los valores de 𝑆𝑒 y 𝑆𝑝 son 0.98 y 0.97, correspondientemente. Además, si la muestra en cada ejercicio es una muestra preliminar, ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un nivel de aseguramiento de 80%? Ejercicio 8.4. Un investigador quiere conocer cuántas vacas tienen tuberculosis bovina en el estado de Sonora. Se decidió utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 1,500 vacas y se tomó una muestra de tamaño 𝑛 = 280 con 𝑥 = 5, de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 56 y 𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos. Ejemplo 8.5. Una empresa particular quiere detectar la presencia de platas transgénicas de maíz en el estado de Tamaulipas. Se decidió utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 3,600 plantas y se tomó una muestra de tamaño 𝑛 = 405 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 45 y 𝐺 = 400, respectivamente. De estos pools muestreados resultaron 𝑦 = 7 positivos. Ejemplo 8.6. Un investigador quiere conocer cuántas personas de las clínicas particulares de la Ciudad de Guadalajara tienen el virus de la hepatitis C. Se decidió utilizar el método de pruebas por grupo, donde la población fue de 𝑁 = 3,680 personas y se tomó una muestra de tamaño 𝑛 = 400 con 𝑥 = 8, de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 50 y 𝐺 = 460, respectivamente. De estos pools muestreados resultaron 𝑦 = 5 positivos. 8.3 Prueba por grupos bajo MAE 317 Se pueden aplicar pruebas por grupo a una población estratificada para mejorar la precisión al estimar parámetros. En esta tesitura, a continuación se presentan los estimadores correspondientes a la prueba por grupos bajo MAE. La proporción estratificada ∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑝𝑠𝑡 = , ∑𝐸𝑖=1 𝐺𝑖 1⁄ 𝑥 𝑦𝑖 𝑝𝑖 = 1 − (1 − ) 𝑔𝑖 donde 𝑦𝑖 denota el número de grupos (pools) positivos en el estrato 𝑖, 𝐸 es el número de estratos en que se divide la población, 𝑔𝑖 = 𝑛𝑖 𝑥 es el número de pools en el estrato 𝑖, 𝑛𝑖 es el tamaño de muestra en el estrato i, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la población por estrato y 𝐺𝑖 = 𝑁𝑖 𝑥 . El estimador de la varianza estratificada 𝐸 𝑆𝑝2ℎ 2 𝐺 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( 𝑖=1 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥 )( 2 ) 𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2 donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 . El estimador del total estratificado 𝜏̂ = 𝑁𝑝𝑠𝑡 Los intervalos de confianza para la proporción y el total 𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ 𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de 318 la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Estimación del tamaño de muestra (pools) 1 − (1 − 𝑝𝑖 )𝑥 ] 𝑥 2 (1 − 𝑝𝑖 )𝑥−2 ∗ 𝑔 = 1 − (1 − 𝑝𝑖 )𝑥 2 𝐸 ∑ 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 𝑊 [ ⁄2) 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ] 𝑖 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ donde 𝑑 es la precisión requerida, 𝑊𝑖 = 𝑁𝑖 𝑁 , 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Estimación del tamaño de muestra modificado (pools) De manera análoga al tamaño de muestra modificado bajo MAS, el tamaño de muestra modificado bajo MAE es: 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑔𝑚 = 2 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 2 𝐺𝑑 2 + 2 𝐸 𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 donde 𝑔𝑚 es el tamaño de muestra (pools) modificado, 𝛾 es la probabilidad de que el IC 2 para la proporción estratificada no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖∗ − 1 grados de libertad por estrato y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión 319 significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS Ejemplo 8.5. En el estado de Guerrero, una empresa particular quiere conocer cuántos de sus trabajadores tienen el virus XXY. El método que se utilizó fue el muestreo por grupos. La población (𝑁 = 2,490) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 900), sector 2 (𝑁2 = 870) y sector 3 (𝑁3 = 720). De cada sector se tomaron las siguientes muestras: 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, con 𝑥 = 6respectivamente, de modo que el número de pools fue 𝑔1 = 4, 𝑔2 = 6 y 𝑔3 = 9. De los pools muestreados resultaron 𝑦1 = 1, 𝑦2 = 1 y 𝑦3 = 2 positivos, respectivamente. a) La proporción estratificada. 𝑝𝑠𝑡 = ∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 ∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 = 1 − (1 − 1⁄ 𝑥 𝑦𝑖 ) 𝑔𝑖 donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑁𝑖 900 870 720 : 𝐺1 = = 150, 𝐺2 = = 145, 𝐺3 = = 120, 𝑥 6 6 6 𝑛𝑖 24 36 54 𝑔𝑖 = : 𝑔1 = = 4, 𝑔2 = = 6, 𝑔3 = = 9, 𝑥 6 6 6 𝐺𝑖 = 1⁄ 𝑥 𝑦𝑖 𝑝𝑖 = 1 − (1 − 𝑔 ) 𝑖 1 𝑝2 = 1 − (1 − 6) 1⁄ 6 1 : 𝑝1 = 1 − (1 − 4) 1⁄ 6 = 0.046816, 2 = 0.029930 y 𝑝3 = 1 − (1 − 9) 1⁄ 6 = 0.041021. Por lo tanto: 𝑝𝑠𝑡 = 320 150(0.046816) + 145(0.029930) + 120(0.041021) 16.28477 = = 0.0392 ó 3.92%. 150 + 145 + 120 415 b) El total estratificado. 𝜏̂ = 𝑁𝑝𝑠𝑡 donde: 𝑁 = 2,490 y 𝑝𝑠𝑡 = 0.0392. Por lo tanto: 𝜏̂ = 2,490(0.0392) = 97.608. c) La varianza y desviación estándar de la población estratificada. 𝐸 𝑆𝑝2ℎ 2 𝐺 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑖=1 𝑆𝑝2𝑖 = ( 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥 )( 2 ) 𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2 donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3, 𝐺 = 415, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120, 𝑔𝑖 : 𝑔1 = 4, 𝑔2 = 6, 𝑔3 = 9, 𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021. 150−4 𝑆𝑝21 = ( 150 145−6 𝑆𝑝22 = ( 120−9 120 1−(1−0.029930)6 ) (6(6)2 (1−0.029930)6−2 ) = 0.000835 y 145 𝑆𝑝23 = ( 1−(1−0.046816)6 ) (4(6)2 (1−0.046816)6−2 ) = 0.002047, 1−(1−0.041021)6 ) (9(6)2 (1−0.041021)6−2 ) = 0.00075. Por lo tanto: 2 2 2 𝑆𝑝2ℎ = (150⁄415) (0.002047) + (145⁄415) (0.000835) + (120⁄415) (0.00075) 𝑆𝑝2ℎ = 0.000267 + 0.000102 + 0.000063 = 0.000432. La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000432 = 0.020785. d) El Intervalo de confianza para la proporción estratificada con confiabilidad del 95%. 321 𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ donde: 𝑝𝑠𝑡 = 0.0392, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 . Por lo tanto: 0.0392 ± (1.96)(0.020785) 0.0392 ± 0.0407386 0 ≤ 𝑃𝑠𝑡 ≤ 0.079939. La proporción verdadera de trabajadores con el virus XXY está entre 0% y 7.99%. e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ donde: 𝜏̂ = 97.608, 𝑁 = 2,490, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96. Por lo tanto: 97.608 ± (2,490)(1.96)(0.020785) 97.608 ± 101.439114 0 ≤ 𝜏 ≤ 199.0471. f) Si 𝑔 = 19 es una muestra preliminar, el tamaño de muestra (pools) necesario para estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una confiabilidad de 95% es: 322 1 − (1 − 𝑝𝑖 )𝑥 ] 𝑥 2 (1 − 𝑝𝑖 )𝑥−2 𝑔∗ = 1 − (1 − 𝑝𝑖 )𝑥 2 𝐸 ∑ 𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 𝑊 [ ] 𝑖 ⁄2 𝑖=1 𝑥 2 (1 − 𝑝𝑖 )𝑥−2 2 𝐸 𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120, 𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021, 𝑊𝑖 = 𝐺𝑖 𝐺 150 145 120 : 𝑊1 = 415 , 𝑊2 = 415 , 𝑊3 = 415, 1−(1− 𝑝1 )𝑥 𝑊1 𝑥 2 (1− 𝑝 𝑥−2 1) 1−(1− 𝑝2 )𝑥 𝑊2 𝑥 2 (1− 𝑝 𝑥−2 2) 1−(1− 𝑝3 )𝑥 𝑊3 𝑥 2 (1− 𝑝 𝑥−2 3) ∑3𝑖=1 𝑊𝑖 [ 150 1−(1−0.046816)6 145 1−(1−0.029930 )6 120 1−(1−0.041021)6 = (415) 62 (1−0.046816)6−2 = 0.003041, = (415) 62 (1−0.029930 )6−2 = 0.001826, = (415) 62 (1−0.041021)6−2 = 0.002110 y 1−(1−𝑝𝑖 )𝑥 𝑥 2 (1−𝑝𝑖 )𝑥−2 ] = 0.006977. Por lo tanto: 𝑔∗ = (415)(2.1009)2 (0.006977) 12.7799 = = 11.9628 = 12 pools. 2 2 (415)(0.05) + (2.1009) (0.006977) 1.0683 La asignación de la muestra en forma proporcional: 𝑔𝑖∗ = 𝐺𝑖 ∗ (𝑔 ) 𝐺 donde: 𝐺 = 415, 𝑔∗ = 11.9628, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145 y 𝐺3 = 120. Por lo tanto: 𝑔1∗ = 150⁄415 (11.9628) = 4.3239 = 4 𝑔2∗ = 145⁄415 (11.9628) = 4.1798 = 4 𝑔3∗ = 120⁄415 (11.9628) = 3.4591 = 4. 323 El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95% es de 12: 4, 4 y 4 para los sectores 1, 2 y 3, respectivamente. g) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es: 2 𝐸 𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 𝑔𝑚 = 2 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 2 𝐺𝑑 2 + 2 𝐸 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120, 𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021, 150 145 120 𝑊𝑖 : 𝑊1 = 415 , 𝑊2 = 415, 𝑊3 = 415, 1−(1−𝑝1 )𝑥 𝑊1 [𝑥 2 (1−𝑝 1 ]( )𝑥−2 1−(1−𝑝2 )𝑥 𝑊2 [𝑥 2 (1−𝑝 2 3 1 𝑔1∗ −1 2 𝜒2(𝛾, 𝑔∗ −1) ]( )𝑥−2 1−(1−𝑝3 )𝑥 𝑊3 [𝑥 2 (1−𝑝 2 𝜒1(𝛾, 𝑔∗ −1) 2 𝑔2∗ −1 2 𝜒3(𝛾, 𝑔∗ −1) ]( )𝑥−2 3 𝑔3∗ −1 150 1−(1−0.046816)6 2 𝜒1(0.99,4.3239−1) ) = (415) 62 (1−0.046816)6−2 ( 145 4.3239−1 2 𝜒2(0.99,4.1798−1) 1−(1−0.029930 )6 ) = (415) 62 (1−0.029930 )6−2 ( 120 1−(1−0.041021)6 ) = 0.011924, 4.1798−1 2 𝜒3(0.99,3.4591−1) ) = (415) 62 (1−0.041021)6−2 ( 3.4591−1 ) = 0.007323, ) = 0.009665 y 2 𝜒𝑖(𝛾,𝑔 ∗ −1) 1−(1−𝑝𝑖 )𝑥 3 𝑖 ∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.028912. 𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1 Por lo tanto: (415)(2.1009)2 (0.028912) 52.958661 𝑔𝑚 = = = 45.4537 = 46 pools. (415)(0.05)2 + (2.1009)2 (0.028912) 1.165111 La asignación proporcional de la muestra: 𝑔𝑚 𝑖 = 324 𝐺𝑖 (𝑔 ) 𝐺 𝑚 donde: 𝐺 = 415, 𝑔𝑚 = 45.4537, 𝑔𝑖 : 𝑔1 = 150, 𝑔2 = 145 y 𝑔3 = 120. Por lo tanto: 𝑔𝑚1 = 150⁄415 (45.4537) = 16.429 = 17 𝑔𝑚 2 = 145⁄415 (45.4537) = 15.8814 = 16 𝑔𝑚 3 = 120⁄415 (45.4537) = 13.1432 = 13. El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y nivel de aseguramiento de 99% es de 46: 17, 16 y 13 para los sectores 1, 2 y 3 respetivamente. Ejemplo 8.6. En el estado de Colima, una empresa particular quiere conocer cuántos de sus trabajadores tienen paludismo. El método a utilizar es muestreo por grupos. La población (𝑁 = 2,500) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 800) y sector 3 (𝑁3 = 750). De los tres sectores se tomaron las siguientes muestras: 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, con 𝑥 = 5 , de modo que el número de pools fue 𝑔1 = 6, 𝑔2 = 5 y 𝑔3 = 4, de los cuales resultaron 𝑦1 = 2, 𝑦2 = 1 y 𝑦3 = 1 positivos, respectivamente. a) La proporción estratificada. ∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑝𝑠𝑡 = ∑𝐸𝑖=1 𝐺𝑖 1⁄ 𝑥 𝑦𝑖 𝑝𝑖 = 1 − (1 − ) 𝑔𝑖 donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, 𝑦𝑖 : 𝑦1 = 2, 𝑦2 = 1, 𝑦3 = 1, 𝑁𝑖 950 800 750 : 𝐺1 = = 190, 𝐺2 = = 160, 𝐺3 = = 150, 𝑥 5 5 5 𝑛𝑖 30 25 20 𝑔𝑖 = : 𝑔1 = = 6, 𝑔2 = = 5, 𝑔3 = = 4, 𝑥 5 5 5 𝐺𝑖 = 1⁄ 𝑥 𝑦 𝑝𝑖 = 1 − (1 − 𝑔𝑖 ) 𝑖 325 2 : 𝑝1 = 1 − (1 − 6) 1⁄ 5 = 0.077892, 1 1⁄ 5 𝑝2 = 1 − (1 − 5) 1 1⁄ 5 = 0.043648 y 𝑝3 = 1 − (1 − 4) = 0.055913. Por lo tanto: 𝑝𝑠𝑡 = 190(0.077892) + 160(0.043648) + 150(0.055913) 30.17011 = = 0.0603 ó 6.03%. 190 + 160 + 150 500 b) El total estratificado. 𝜏̂ = 𝑁𝑝𝑠𝑡 donde: 𝑁 = 2,500 y 𝑝𝑠𝑡 = 0.0603. Por lo tanto: 𝜏̂ = 2,500(0.0603) = 150.75. c) La varianza y desviación estándar de la población estratificada. 𝐸 𝑆𝑝2ℎ 2 𝐺 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑖=1 𝑆𝑝2𝑖 = ( 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥 )( 2 ) 𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2 donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3, 𝐺 = 500, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150, 𝑔𝑖 : 𝑔1 = 6, 𝑔2 = 5, 𝑔3 = 4, 𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913. 1−(1−0.077892)5 190−6 𝑆𝑝21 = ( 190 ) (6(5)2 (1−0.077892)5−2 ) = 0.002745, 160−5 𝑆𝑝22 = ( 160 150−4 𝑆𝑝23 = ( Por lo tanto: 326 150 1−(1−0.043648)5 ) (5(5)2 (1−0.043648)5−2 ) = 0.001772 y 1−(1−0.055913)5 ) (4(5)2 (1−0.055913)5−2 ) = 0.002891. 2 2 2 𝑆𝑝2ℎ = (190⁄500) (0.002745) + (160⁄500) (0.001772) + (150⁄500) (0.002891) 𝑆𝑝2ℎ = 0.000396 + 0.000181 + 0.00026 = 0.000837 La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000837 = 0.028931. d) El Intervalo de confianza para la proporción estratificada con una confiabilidad del 95%. 𝑝𝑠𝑡 ± 𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ donde: 𝑝𝑠𝑡 = 0.0603, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 . Por lo tanto: 0.0603 ± (1.96)(0.028931) 0.0603 ± 0.056705 0.003595 ≤ 𝑃𝑠𝑡 ≤ 0.117005. La proporción verdadera de trabajadores con paludismo está entre 0.35% y 11.7%. e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ donde: 𝜏̂ = 150.75, 𝑁 = 2,500, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼/2 = 1.96. Por lo tanto: 150.75 ± (2,500)(1.96)(0.028931) 150.75 ± 141.7619 327 8.9881 ≤ 𝜏 ≤ 292.5119. h) Si 𝑔 = 15 es una muestra preliminar, el tamaño de muestra (pools) necesario para estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una confiabilidad de 95% es: 1 − (1 − 𝑝𝑖 )𝑥 ] 𝑥 2 (1 − 𝑝𝑖 )𝑥−2 𝑔∗ = 1 − (1 − 𝑝𝑖 )𝑥 2 𝐸 ∑ 𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 𝑊 [ ⁄2 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ] 𝑖 2 𝐸 𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150, 𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913. 𝑊𝑖 = 𝐺𝑖 𝐺 190 160 150 : 𝑊1 = 500 , 𝑊2 = 500 , 𝑊3 = 500, 1−(1− 𝑝1 )𝑥 𝑊1 𝑥 2 (1− 𝑝 1 )𝑥−2 1−(1− 𝑝2 )𝑥 𝑊2 𝑥 2 (1− 𝑝 2 )𝑥−2 1−(1− 𝑝3 )𝑥 𝑊3 𝑥 2 (1− 𝑝 3 ∑3𝑖=1 𝑊𝑖 [ )𝑥−2 190 1−(1−0.077892)5 160 1−(1−0.043648)5 150 1−(1−0.055913)5 = (500) 52 (1−0.077892)5−2 = 0.006462, = (500) 52 (1−0.043648)5−2 = 0.002927, = (500) 52 (1−0.055913)5−2 = 0.003565 y 1−(1−𝑝𝑖 )𝑥 𝑥 2 (1−𝑝𝑖 )𝑥−2 ] = 0.006462 + 0.002927 + 0.003565 = 0.012954. Por lo tanto: (500)(2.1448)2 (0.012954) 29.795282 𝑔 = = = 22.7515 = 23 pools. (500)(0.05)2 + (2.1448)2 (0.012954) 1.309591 ∗ La asignación proporcional de la muestra: 𝑔𝑖∗ = 𝐺𝑖 ∗ (𝑔 ) 𝐺 donde: 𝐺 = 500, 𝑔∗ = 22.7515, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150. 328 Por lo tanto: 𝑔1∗ = 190⁄500 (22.7515) = 8.6456 = 9 𝑔2∗ = 160⁄500 (22.7515) = 7.2805 = 7 𝑔3∗ = 150⁄500 (22.7515) = 6.8255 = 7. El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95% es de 23: 9, 7 y 7 para los sectores 1, 2 y 3, respectivamente. i) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99, es: 2 𝐸 𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 𝑔𝑚 = 2 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 2 𝐺𝑑 2 + 2 𝐸 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1) [ 2 ] ( 𝑔∗ − 1 ) 𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖 donde: 𝑥 = 5, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150, 𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913. 190 𝑊𝑖 : 𝑊1 = 500 1−(1−𝑝1 )𝑥 𝑊1 [𝑥 2 (1−𝑝 1 2 𝑊3 [𝑥 2 (1−𝑝 3 500 , 𝑊3 = 1 𝑔1∗ −1 2 𝜒2(𝛾,𝑔 ∗ −1) ]( )𝑥−2 1−(1−𝑝3 )𝑥 160 2 𝜒1(𝛾,𝑔 ∗ −1) ]( )𝑥−2 1−(1−𝑝2 )𝑥 𝑊2 [𝑥 2 (1−𝑝 , 𝑊2 = 2 𝑔2∗ −1 2 𝜒3(𝛾,𝑔 ∗ −1) ]( )𝑥−2 3 𝑔3∗ −1 150 500 190 , 1−(1−0.077892)5 ) = (500) 52 (1−0.077892)5−2 ( 160 1−(1−0.043648)5 329 8.6456−1 ) = (500) 52 (1−0.043648)5−2 ( 150 1−(1−0.055913)5 ) = (500) 52 (1−0.055913)5−2 ( 2 𝜒𝑖(𝛾,𝑔 ∗ 1−(1−𝑝𝑖 )𝑥 3 𝑖 −1) ∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.034663. 𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1 Por lo tanto: 2 𝜒1(0.99,8.6456−1) ) = 0.016501, 2 𝜒2(0.99,7.2805−1) 7.2805−1 2 𝜒3(0.99,6.8255−1) 6.8255−1 ) = 0.008054, ) = 0.010108 y 𝑔𝑚 = (500)(2.1448)2 (0.034663) 79.727795 = = 56.5664 = 57 pools. (500)(0.05)2 + (2.1448)2 (0.034663) 1.409456 La asignación proporcional de la muestra: 𝑔𝑚 𝑖 = 𝐺𝑖 (𝑔 ) 𝐺 𝑚 donde: 𝐺 = 500, 𝑔𝑚 = 56.5664, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150. Por lo tanto: 𝑔𝑚1 = 190⁄500 (56.5664) = 21.4952 = 22 𝑔𝑚 2 = 160⁄500 (56.5664) = 18.1012 = 18 𝑔𝑚 3 = 150⁄500 (56.5664) = 16.9699 = 17 El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y nivel de aseguramiento de 99%, es de 57: 22, 18 y 17 para los sectores 1, 2 y 3, respectivamente. EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sea estimado con una precisión de 5% de la proporción preliminar y un nivel de aseguramiento de 80%? Ejemplo 8.7. En la ciudad de Guadalajara, Jalisco, una empresa particular quiere conocer cuántos de sus empleados tienen el virus XYY. El método a utilizar es muestreo por grupos. La población (𝑁 = 2,690) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos 330 son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3 (𝑁3 = 840). De los sectores se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5, de modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron 𝑦1 = 2, 𝑦2 = 3 y 𝑦3 = 1 positivos, respectivamente. Ejemplo 8.8. En el estado de Guanajuato, un investigador desea conocer cuántas vacas de los ranchos ganaderos con cercana ubicación tienen el virus XXY. El método a utilizar es muestreo por grupos. La población (𝑁 = 1,900) de los ranchos fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 700), sector 2 (𝑁2 = 600), y sector 3 (𝑁3 = 600). En los tres sectores se tomaron las siguientes muestras: 𝑛1 = 48, 𝑛2 = 30, 𝑛3 = 24, con 𝑥 = 6,, de modo que el número de pools fue 𝑔1 = 8, 𝑔2 = 5 y 𝑔3 = 4 de los cuales resultaron positivos 𝑦1 = 1, 𝑦2 = 2 y 𝑦3 = 1, respectivamente. Ejemplo 8.9. Una empresa particular desea conocer cuántos de sus empleados tienen el virus de la hepatitis C. El método a utilizar es muestreo por grupos. La población (𝑁 = 2,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 1,100), sector 2 (𝑁2 = 1,000), y sector 3 (𝑁3 = 700). En los tres sectores se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5 para cada sector, de modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron positivos 𝑦1 = 4, 𝑦2 = 2 y 𝑦3 = 1, respectivamente. 8.4 Prueba por grupo con 𝑺𝒆 y 𝑺𝒑 bajo MAE Cuando la prueba a realizar no es perfecta (sensibilidad y especificidad menores a uno) se sugiere utilizar los siguientes estimadores para prueba por grupo bajo MAE: La proporción estratificada ∗ 𝑝𝑠𝑡 = 331 ∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖∗ , ∑𝐸𝑖=1 𝐺𝑖 𝑦 (𝑆𝑒 − 𝑔𝑖 ) 𝑖 𝑝𝑖∗ = 1 − ( ) (𝑆𝑒 + 𝑆𝑝 − 1) 1⁄ 𝑥 donde 𝑆𝑒 es la sensibilidad, 𝑆𝑝 es la especificidad, 𝑦𝑖 denota el número de grupos (pools) positivos en el estrato 𝑖, 𝐸 es el número de estratos en que se divide la población, 𝑔𝑖 = 𝑛𝑖 𝑥 es el número de pools en el estrato 𝑖, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la población en el estrato 𝑖 y 𝐺𝑖 = 𝑁𝑖 𝑥 . El estimador de la varianza 𝐸 𝑆𝑝2∗𝑠𝑡 2 2 (𝑓𝑖 )(1 − 𝑓𝑖 ) 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )( ⁄𝑥)−2 𝐺 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )( )( ) 2 𝐺𝑖 𝑔𝑖 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥 𝑖=1 𝑦 donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 y 𝑓𝑖 = 𝑔𝑖 . 𝑖 El estimador del total ∗ 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 Los intervalos de confianza para la proporción y el total ∗ 𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡 𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡 donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Estimación del tamaño de muestra (pools) 332 2 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑔∗ = −2 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 [ 2 𝑖 ( ) ] 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 2 −2 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 2 𝐸 ∑ 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 𝑊 [ ( ) ] 𝑖 ⁄2) 𝑖=1 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . Estimación del tamaño de muestra modificado (pools) De manera análoga al tamaño de muestra modificado bajo MAS (prueba imperfecta), el tamaño de muestra modificado bajo MAE para prueba imperfecta es: 2 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑔𝑚 = 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 [ 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( 𝑔 −𝑖 1 ) 2 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑖 2 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 2 𝑖 𝐸 ∑ 𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 𝑊 [ ( ) ] ( ⁄2) 𝑖=1 𝑖 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1 ) donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que 2 ∗ ∗ la amplitud deseada, 𝜒𝑖(𝛾,𝑔 −1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖 − 𝑖 1 grados de libertad por estrato y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad también por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . EJEMPLOS 333 Ejemplo 8.7. En el estado de Colima, el Centro de Salud quiere conocer cuántas de las personas instaladas en hospitales tienen dengue con el objetivo de iniciar una campaña contra esta enfermedad. El método a utilizar es muestreo por grupos. Se utilizarán tres de los hospitales con mayor número de internos; los cuales cuentan con una población (𝑁 = 2,190) de 𝑁1 = 600, 𝑁2 = 750 y 𝑁3 = 840 pacientes, respectivamente. Se tomaron muestras de tamaño 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, con 𝑥 = 5 en cada hospital, de modo que el número de pools es 𝑔1 = 4, 𝑔2 = 7 y 𝑔3 = 10, de los cuales resultaron positivos 𝑦1 = 1, 𝑦2 = 1 y 𝑦3 = 2. Ademásse utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝) del 95%. a) La proporción estratificada. ∗ 𝑝𝑠𝑡 = ∗ ∑𝐸 𝑖=1 𝐺𝑖 𝑝𝑖 ∑𝐸 𝑖=1 𝐺𝑖 1⁄ 𝑥 𝑦 𝑆𝑒− 𝑖 , 𝑔 𝑖 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1 ) donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5, 𝐺𝑖 = 𝑔𝑖 = 𝑁𝑖 : 𝐺1 = 𝑥 𝑛𝑖 : 𝑔1 = 𝑥 600 5 20 5 = 120, 𝐺2 = = 4, 𝑔2 = 0.97− 1 4 𝑝3∗ 0.97− 1 7 2 10 = 7, 𝑔3 = 50 5 840 5 = 168, = 10, = 0.04784219, 1⁄ 5 = 1 − (0.97+0.95−1) 0.97− 5 5 = 150, 𝐺3 = 1⁄ 5 𝑝1∗ = 1 − (0.97+0.95−1) 𝑝2∗ 35 750 = 0.021054443 y 1⁄ 5 = 1 − (0.97+0.95−1) = 0.034970522. Por lo tanto: 120(0.04784219) + 150(0.021054443) + 168(0.034970522) 120 + 150 + 168 14.77427696 ∗ 𝑝𝑠𝑡 = = 0.0337 ó 3.37% personas con dengue. 438 ∗ 𝑝𝑠𝑡 = 334 b) El total estratificado. ∗ 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 ∗ donde: 𝑁 = 2,190 y 𝑝𝑠𝑡 = 0.0337. Por lo tanto: 𝜏̂ ∗ = 2,190(0.0337) = 73.803. c) La varianza y desviación estándar de la población estratificada. 𝐸 2 2 𝐺 𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , (𝑓𝑖 )(1 − 𝑓𝑖 ) 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 =( )( )( 2) 2 𝐺𝑖 𝑔𝑖 𝑥 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑝2∗𝑖 𝑖=1 donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑘 = 5, 𝐺𝑖 = 𝑁𝑖 𝑥 600 : 𝐺1 = 𝑛 𝑔𝑖 = 𝑥𝑖 : 𝑔1 = 5 20 5 120−4 𝑆𝑝2∗1 = ( 𝑆𝑝2∗2 120 )( 150 )( 168−10 𝑆𝑝2∗3 = ( 168 = 4, 𝑔2 = 35 2 −2 )5 (0.97−1⁄4 4(5)2 5 (0.97−1⁄7)5 )( 7(5)2 750 5 )( )( 10(5)2 50 5 2 (0.97+0.95−1) ⁄5 (1⁄7)(1−1⁄7) 2 (0.97+0.95−1) ⁄5 )( 840 5 = 168, 𝑦 1 1 𝑖 ) = 0.003169, ) = 0.000934 y (2⁄10)(1−2⁄10) 2 ) (0.97+0.95−1) ⁄5 = 0.000945. Por lo tanto: 2 2 2 𝑆𝑝2∗𝑠𝑡 = (120⁄438) (0.003169) + (150⁄438) (0.000934) + (168⁄438) (0.000945) 335 2 = 10, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, (1⁄4)(1−1⁄4) 2 −2 (0.97−2⁄10)5 = 150, 𝐺3 = = 7, 𝑔3 = 2 −2 150−7 =( = 120, 𝐺2 = 𝑆𝑝2∗𝑠𝑡 = 0.000238 + 0.00011 + 0.000139 = 0.000487. La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.000487 = 0.022068. d) El IC para la proporción estratificada con una confiabilidad del 95%. ∗ 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡 ∗ donde: 𝑝𝑠𝑡 = 0.0337 , 𝑆𝑝∗𝑠𝑡 = 0.022068 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96. Por lo tanto: 0.0337 ± (1.96)(0.022068) 0.0337 ± 0.043253 0 ≤ 𝑃𝑠𝑡 ≤ 0.076973. La proporción verdadera de personas con dengue está entre 0% y 7.69%. e) El IC para el total estratificado con una confiabilidad de 95%. 𝜏̂ ∗ ± 𝑁𝑡𝑛−1,1−𝛼⁄2 𝑆𝑝∗𝑠𝑡 donde: 𝜏̂ ∗ = 73.803, 𝑁 = 2, 190, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.022068. Por lo tanto: 73.803 ± (2,190)(1.96)(0.022068) 73.803 ± 94.724683 0 ≤ 𝜏 ∗ ≤ 168.527683. 336 f) Si 𝑔 = 21 es una muestra preliminar, el tamaño de muestra (pools) necesarios para estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una confiabilidad de 95% es: 2 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑔∗ = −2 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 [ 2 ( ) ] 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 2 𝐺𝑑2 + 2 𝐸 𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 −2 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 [ 2 𝑖 ( ) ] 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5, 𝐸 = 3, 𝑁𝑖 𝐺𝑖 = 𝑥 600 : 𝐺1 = 𝑛 𝑔𝑖 = 𝑥𝑖 : 𝑔1 = 𝑦 5 20 5 750 = 120, 𝐺2 = = 4, 𝑔2 = 1 1 35 5 5 = 150, 𝐺3 = = 7, 𝑔3 = 50 5 840 5 = 168, = 10, 2 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086, 𝑖 𝑊𝑖 = 𝐺𝑖 𝐺 : 𝑊1 = 𝐺1 𝐺 120 𝐺2 = 438, 𝑊2 = = = −2 1⁄ (1−1⁄ ) 0.97−1⁄7 5 150 7 7 (438) 52 (0.97+0.95−1) ( ) 2 0.97+0.95−1 = −2 2⁄ (1−2⁄ ) 0.97−2⁄10 5 168 10 ( ) 2 10 ( ) 438 5 (0.97+0.95−1)2 0.97+0.95−1 2 = 0.009799. Por lo tanto: (438)(2.086)2 (0.009799) 16.488001 1.132643 = 14.5571 = 15 pools. La asignación de la muestra proporcional: 337 = 0.002350, 2 𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2 ∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] 𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔∗ = (438)(0.05)2 +(2.086)2 (0.009799) = = 0.003593, 2 2 −2 𝑓 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥 𝑊3 [ 2 3 ( ) ] 2 𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝐺 168 = 438, −2 1⁄ (1−1⁄ ) 0.97−1⁄4 5 120 4 4 ( ) 2 (0.97+0.95−1) ( ) 2 0.97+0.95−1 438 5 2 −2 𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥 𝑊2 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) ] 2 (𝑆𝑒+𝑆𝑝−1) 𝐺3 2 2 𝑓 (1−𝑓1 ) 𝑆𝑒−𝑓1 𝑥−2 𝑊1 [ 2 1 ( ) ] 2 𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝐺 150 = 438, 𝑊3 = = 0.003856 y 𝑔𝑖∗ = 𝐺𝑖 (𝑔) 𝐺 donde: 𝐺 = 438, 𝑔∗ = 15, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168. Por lo tanto: 𝑔1∗ = 120⁄438 (14.5571) = 3.9882 = 4 𝑔2∗ = 150⁄438 (14.5571) = 4.9853 = 5 𝑔3∗ = 168⁄438 (14.5571) = 5.5835 = 6. El tamaño de muestra (pools) con precisión de 0.05 y confiabilidad de 95% es de 15: 4, 5 y 6 para los hospitales 1, 2 y 3, respectivamente. g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99. 2 2 𝐸 𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑔𝑚 = 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑖 [ 2 𝑖 ( ) ] ( ) 2 𝑔𝑖∗ − 1 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 2 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 2 𝐸 2 𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ∑𝑖=1 𝑊𝑖 [ 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( ∗ 𝑖 ) 2 𝑔𝑖 − 1 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5, 𝑁𝑖 𝐺𝑖 = 𝑥 600 : 𝐺1 = 𝑛 𝑔𝑖 = 𝑥𝑖 : 𝑔1 = 𝑦 5 20 5 750 = 120, 𝐺2 = = 4, 𝑔2 = 1 1 35 5 5 = 150, 𝐺3 = = 7, 𝑔3 = 50 5 840 5 = 168, = 10, 𝐸 = 3, 2 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086, 𝑖 𝑊𝑖 = 𝑊1 [ 𝐺𝑖 𝐺 : 𝑊1 = 𝑓1 (1−𝑓1 ) 𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 ( 𝐺1 𝐺 120 = 438, 𝑊2 = 𝑆𝑒−𝑓1 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 𝐺2 𝐺 𝜒21(𝛾,𝑔∗ −1) 1 𝑔1∗ −1 150 = 438, 𝑊3 = )=( 120 ) 438 5 𝐺3 𝐺 168 = 438, 1 1 (1−4) 4 2 (0.97+0.95−1)2 ( 2 −2 5 1 0.97−4 0.97+0.95−1 ) 2 𝜒1(0.99,3.9882−1) ( 3.9882−1 ) = (0.273973)(0.008861)(1.4802228)(3.7886) = 0.013614, 338 𝑊2 [ 𝑓2 (1−𝑓2 ) 2( 𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒−𝑓2 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 𝜒22(𝛾,𝑔∗ −1) 2 𝑔2∗ −1 )=( 150 ) 1 1 (1− ) 7 7 2( 438 52 (0.97+0.95−1) 1 7 0.97− 0.97+0.95−1 2 −2 5 ) 2 𝜒2(0.99,4.9853−1) ( 4.9853−1 ) = (0.342466)(0.005787)(1.185582)(3.3245) = 0.007811, 𝑊3 [ 𝑓3 (1−𝑓3 ) 𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 ( 𝑆𝑒−𝑓3 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 𝜒23(𝛾,𝑔∗ −1) 3 𝑔3∗ −1 )=( 168 438 ) 2 2 (1− ) 10 10 52 (0.97+0.95−1)2 ( 2 10 0.97− 0.97+0.95−1 2 −2 5 ) 2 𝜒3(0.99,5.5835−1) ( 5.5835−1 ) = (0.383562)(0.007561)(1.329460)(3.1296) = 0.012066 y 3 2 2 −2 𝑥 𝜒𝑖(𝛾, 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑔𝑖 −1) ∑ 𝑊𝑖 [ 2 ( ) ]( ) = 0.033491. 2 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1 𝑖=1 Por lo tanto: 𝑔𝑚 = (438)(2.086)2 (0.033491) 63.83088 = = 51.4461 = 52 pools. 2 2 (438)(0.05) + (2.086) (0.033491) 1.240733 La asignación de la muestra proporcional: 𝑔𝑚 𝑖 = 𝐺𝑖 (𝑔 ) 𝐺 𝑚 donde: 𝐺 = 438, 𝑔𝑀 = 51.4461, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168. Por lo tanto: 𝑔𝑚1 = 120⁄438 (51.4461) = 14.0948 = 14 𝑔𝑚 3 = 150⁄438 (51.4461) = 17.6185 = 18 𝑔𝑚 3 = 168⁄438 (51.4461) = 19.7328 = 20. El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y aseguramiento de 99% es de 52: 14, 18 y 20 para los hospitales 1, 2 y 3, respectivamente. Ejemplo 8.8. En el estado de Tamaulipas, la Secretaría de Salud desea conocer cuántas 339 de las personas hospitalizadas tienen influenza con el objetivo de tomar medidas de precaución. El método que se empleo fue el muestreo por grupos. Se utilizaron tres de los hospitales con mayor número de internos, los cuales cuentan con una población (𝑁 = 2,835) de 𝑁1 = 1050, 𝑁2 = 945 y 𝑁3 = 840, respectivamente. Se tomaron muestras de tamaño 𝑛1 = 70 y 𝑛2 = 𝑛3 = 56, con 𝑥 = 7 en cada hospital, de modo que el número de pools fue 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, de los cuales resultaron positivos 𝑦1 = 3, 𝑦2 = 1 y 𝑦3 = 2, respectivamente. Además se utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝) del 98%. a) La proporción estratificada. ∗ 𝑝𝑠𝑡 = ∗ ∑𝐸 𝑖=1 𝐺𝑖 𝑝𝑖 ∑𝐸 𝑖=1 𝐺𝑖 𝑦 𝑆𝑒− 𝑖 , 1⁄ 𝑥 𝑔𝑖 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1) donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7, 𝐺𝑖 = 𝑔𝑖 = 𝑁𝑖 : 𝐺1 = 𝑥 𝑛𝑖 𝑥 : 𝑔1 = 1,050 7 70 7 = 150, 𝐺2 = = 10, 𝑔2 = 𝑔3 = 0.97− 3 10 0.97− 1 8 0.97− 2 8 7 = 135, 𝐺3 = 56 7 840 7 = 120, = 8, 1⁄ 7 𝑝1∗ = 1 − (0.97+0.98−1) = 0.048659719, 1⁄ 7 𝑝2∗ = 1 − (0.97+0.98−1) 𝑝3∗ 945 = 0.016592988 y 1⁄ 7 = 1 − (0.97+0.98−1) = 0.038827647. Por lo tanto: 150(0.048659719) + 135(0.016592988) + 120(0.038827647) 150 + 135 + 120 14.19832892 ∗ 𝑝𝑠𝑡 = = 0.035 ó 3.5% personas con dengue. 405 ∗ 𝑝𝑠𝑡 = 340 b) El total estratificado. ∗ 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡 ∗ donde: 𝑁 = 2,835 y 𝑝𝑠𝑡 = 0.035. Por lo tanto: 𝜏̂ ∗ = 2,835(0.035) = 99.225. c) La varianza y desviación estándar de la población estratificada. 2 𝐸 𝑆𝑝2∗𝑠𝑡 2 𝐺 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 𝑖=1 (𝑓𝑖 )(1 − 𝑓𝑖 ) 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 =( )( ) ( 2) 𝐺𝑖 𝑔𝑖 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)𝑥 donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3, 𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7, 𝐺 = 405, 𝐺𝑖 = 𝑔𝑖 = 𝑆𝑝2∗1 𝑁𝑖 𝑥 𝑛𝑖 𝑥 : 𝐺1 = 1,050 7 = 150, 𝐺2 = 7 = 135, 𝐺3 = 𝑦 3 840 7 = 120, 1 2 : 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑖 150−10 =( )( 150 3 10 2 (0.97− )7 −2 10(7)2 )( 2 𝑆𝑝2∗2 945 =( 135−8 135 )( 1 −2 (0.97− )7 8 8(7)2 )( 2 120−8 𝑆𝑝2∗3 = ( 120 )( 2 −2 (0.97− )7 8 8(7)2 )( 3 10 3 10 ( )(1− ) 2 ) (0.97+0.98−1) ⁄7 1 8 1 8 2 8 2 8 ( )(1− ) 2 ) (0.97+0.98−1) ⁄7 ( )(1− ) 2 ) (0.97+0.98−1) ⁄7 = 0.000806, = 0.000356 y = 0.000796. Por lo tanto: 2 2 2 𝑆𝑝2∗𝑠𝑡 = (150⁄405) (0.000806) + (135⁄405) (0.000356) + (120⁄405) (0.000796) 341 𝑆𝑝2∗𝑠𝑡 = 0.000111 + 0.00004 + 0.000069 = 0.00022. La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.00022 = 0.014832. d) El IC para la proporción estratificada con una confiabilidad del 95%. ∗ 𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡 ∗ donde: 𝑝𝑠𝑡 = 0.035, 𝑆𝑝∗𝑠𝑡 = 0.014832 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96. Por lo tanto: 0.035 ± (1.96)(0.014832) 0.035 ± 0.029071 0.005929 ≤ 𝑃𝑠𝑡 ≤ 0.064071. La proporción verdadera de personas con influenza está entre 0.59% y 6.4%. e) El IC para el total estratificado con la confiabilidad de 95%. 𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡 donde: 𝜏̂ ∗ = 99.225, 𝑁 = 2,835, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.014832. Por lo tanto: 99.225 ± (2,835)(1.96)(0.014832) 99.225 ± 82.415491 16.5845 ≤ 𝜏 ∗ ≤ 181.6405. f) Si 𝑔 = 26 es una muestra preliminar, el tamaño de muestra (pools) necesarios para estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una confiabilidad de 95% es: 342 2 𝑔∗ = −2 𝑥 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 2 𝐸 ∑ 𝐺𝑡(𝑔−1,1−𝛼 𝑊 [ ( ) ] 𝑖 ⁄2) 𝑖=1 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 2 𝐺𝑑2 2 𝐸 𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 + −2 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 [ 2 𝑖 ( ) ] 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑥 = 7, 𝐸 = 3, 𝐺𝑖 = 𝑦 3 𝑁𝑖 𝑥 : 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120, 1 2 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(26−1,1−0.025) = 2.0595, 𝑖 𝑊𝑖 = 𝐺𝑖 𝐺 150 : 𝑊1 = 415, 𝑊2 = 𝐺2 𝐺 135 = 415, 𝑊3 = 2 𝑓 (1−𝑓1 ) 𝑆𝑒−𝑓1 𝑥−2 𝑊1 [ 2 1 ( ) ] 2 𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 2 −2 𝑥 𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 ( ) 𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑊2 [ 3 = 𝐺 120 = 415, 3 3 (1− ) 0.97− 150 10 10 10 ( ) 2 (0.97+0.98−1) ( ) 2 415 7 0.97+0.98−1 1 1 (1− ) 8 8 0.97− 2 1 8 2 = 2 2 (1− ) 0.97− 120 8 8 8 (415) 72 (0.97+0.98−1) 2 (0.97+0.98−1) 2 𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2 ∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] 𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 = 0.006078. Por lo tanto: (415)(2.0595)2 (0.006078) 𝑔∗ = (415)(0.05)2 +(2.0595)2 (0.006078) = 10.69873 1.06328 = 10.062 = 11 pools. La asignación de la muestra proporcional: 𝑔𝑖∗ = 𝐺𝑖 (𝑔) 𝐺 donde: 𝐺 = 415, 𝑔∗ = 15, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120, Por lo tanto: 343 2 −2 7 135 ) ( ) 415 72 (0.97+0.98−1)2 0.97+0.98−1 ]=( −2 𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥 𝑊3 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) ] 2 (𝑆𝑒+𝑆𝑝−1) 𝐺3 = 0.003123, 2 −2 7 = 0.000983, 2 −2 7 = 0.001972 y 150 (10.062) = 3.6368 = 4 415 135 (10.062) = 3.2731 = 4 𝑔2∗ = 415 120 (10.062) = 2.9095 = 3. 𝑔3∗ = 415 𝑔1∗ = El tamaño de muestra (pools) con una precisión de 0.05 y confiabilidad de 95% es de 11: 4, 4 y 3 para los hospitales 1, 2 y 3, respectivamente. g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99. 2 𝑔𝑚 = 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑖 𝐺𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( ) 𝑔𝑖∗ − 1 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 2 𝐺𝑑 2 + 𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 2 −2 𝜒𝑖(𝛾,𝑔∗−1) 𝑥 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑖 [ 2 𝑖 ( ) ] ( ) 𝑔𝑖∗ − 1 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑥 = 7, 𝐸 = 3, 𝐺𝑖 = 𝑦 𝑁𝑖 𝑥 3 : 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120, 1 2 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡26−1,1−0.025 = 2.0595, 𝑖 𝑊𝑖 = 𝑊1 [ 𝐺𝑖 𝐺 : 𝑊1 = 𝑓1 (1−𝑓1 ) 𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 ( 150 415 𝐺2 , 𝑊2 = 𝑆𝑒−𝑓1 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 𝐺 = 135 415 2 𝜒1(𝛾,𝑔 ∗ −1) 1 𝑔1∗ −1 , 𝑊3 = )=( 150 415 ) 𝐺3 𝐺 = 120 , 415 3 3 (1−10) 10 72 (0.97+0.98−1)2 ( 3 10 0.97− 0.97+0.98−1 2 −2 7 ) ( 2 𝜒1(0.99,3.6368−1) 3.6368−1 ) = 0.003123(4.0199) = 0.012554, 𝑊2 [ 𝑓2 (1−𝑓2 ) 2( 𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒−𝑓2 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 2 𝜒2(𝛾,𝑔 ∗ −1) 2 𝑔2∗ −1 )=( 135 ) 1 1 (1−8) 8 2 −2 7 1 2( 415 72 (0.97+0.98−1) 0.97−8 0.97+0.98−1 ) 2 𝜒2(0.99,3.2731−1) ( 3.2731−1 ) = 0.000983(4.3208) = 0.004247, 𝑊3 [ 𝑓3 (1−𝑓3 ) ( 𝑆𝑒−𝑓3 𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 ) 2 −2 𝑥 ]( 2 𝜒3(𝛾,𝑔 ∗ −1) 3 𝑔3∗ −1 )=( 120 ) 2 2 (1−8) 8 415 72 (0.97+0.98−1)2 2 −2 7 2 ( 0.97−8 0.97+0.98−1 ) 2 𝜒3(0.99,2.9095−1) ( 2.9095−1 = 0.001972(4.7142) = 0.009296 y 3 2 2 −2 𝑥 𝜒𝑖(𝛾, 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑔𝑖 −1) ∑ 𝑊𝑖 [ 2 ( ) ] ( ) = 0.026097. 𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1 𝑖=1 344 ) Por lo tanto: 𝑔𝑚 = (415)(2.0595)2 (0.026097) 45.936963 = = 40.0081 = 41 pools. 2 2 (415)(0.05) + (2.0595) (0.026097) 1.148191 La asignación proporcional de la muestra: 𝑔𝑚 𝑖 = 𝐺𝑖 (𝑔 ) 𝐺 𝑚 donde: 𝐺 = 415, 𝑔∗ = 40.0081, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120. Por lo tanto: 150 (40.0081) = 14.4608 = 15 415 135 (40.0081) = 13.0146 = 14 = 415 120 (40.0081) = 11.5686 = 12. = 415 𝑔𝑚1 = 𝑔𝑚 3 𝑔𝑚 3 El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y aseguramiento de 99% es de 41: 15, 14 y 12 para los hospitales 1, 2 y 3 respectivamente. EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Considere una sensibilidad de 97% y una especificidad de 98% donde se requiera. Además, suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un nivel de aseguramiento de 90%? 345 Ejercicio 8.10. En el estado de Chihuahua la Secretaría de Salud quiere conocer cuántos de sus trabajadores han padecido la enfermedad XY. El método que se utilizó fue muestreo por grupos. La población (𝑁 = 3,600) de la Secretaría fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3 (𝑁3 = 840). De cada sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5 para cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5 de los cuales resultaron positivos 𝑦1 = 2, 𝑦2 = 3 y 𝑦3 = 1, respectivamente. Ejercicio 8.11. En el estado de Durango, un investigador desea conocer cuántos cerdos de una serie de granjas colindantes tienen el virus XZY. El método empleado fue muestreo por grupos. La población (𝑁 = 2,000) de los ranchos fue dividida en 𝐸 = 2 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 1100) y sector 2 (𝑁2 = 900). De cada sector se tomaron las siguientes muestras: 𝑛1 = 28 y 𝑛2 = 24, con 𝑥 = 4 para cada sector, de modo que el número de pools es 𝑔1 = 7 y 𝑔2 = 6 de los cuales resultaron positivos 𝑦1 = 2 y 𝑦2 = 1, respectivamente. Ejercicio 8.12. L a e m p r e s a GAMESA desea conocer cuántos de sus trabajadores tienen el virus de la hepatitis B. El método empleado fue muestreo por grupos. La población (𝑁 = 3,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector 1 (𝑁1 = 1,400), sector 2 (𝑁2 = 1,300) y sector 3 (𝑁3 = 1,100). De cada sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30 y 𝑛3 = 25, con 𝑥 = 5 para cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5 de los cuales resultaron positivos 𝑦1 = 2, 𝑦2 = 1 y 𝑦3 = 3, respectivamente. 346 Capítulo 9. Muestreo inverso CAPÍTULO 9 Muestreo inverso Cuando la presencia de un evento raro quieras detectar, la estadística y su ingenio te pueden ayudar sólo basta el problema identificar para así de la mejor manera poderlo solucionar. EESF Para detectar la presencia de un evento raro en una población es necesario probar miles de individuos, y el costo de dichas pruebas por lo general excede los recursos humanos y económicos disponibles, además de ser una actividad laboriosa y que consume mucho tiempo y esfuerzo. El muestreo inverso es un método antiguo (Haldane, 1945; Finney, 1949) para estimar una proporción 𝑃. La técnica se basa en la distribución binomial negativa con una serie de ensayos Bernoulli en el que no se deja de muestrear hasta obtener un número predeterminado de individuos con la característica de interés. Sin embargo, cuando la probabilidad de encontrar el atributo deseado es prácticamente nula (𝑃 ≤ 0.1), usar el muestreo binomial (donde se fija previamente el número de elementos de la muestra) no es la mejor opción. Según Haldane (1945), el uso de una distribución binomial no siempre proporciona una estimación insesgada y precisa de 𝑃 cuando ésta es pequeña (𝑃 ≤ 0.1). 347 9.1 Estimación de parámetros de interés bajo muestreo inverso. Suponga que 𝑌𝑖 = 𝑦𝑖 individuos son analizados hasta encontrar el primer individuo positivo. Se puede demostrar que 𝑌𝑖 (𝑖 = 1,2, … , 𝑟) tiene distribución geométrica. Además, 𝑌1 , 𝑌2 , 𝑌3 , … , 𝑌𝑟 son observados para obtener el r-ésimo individuo positivo. También se registra el número total de individuos para encontrar 𝑟 individuos positivos, siendo igual a 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . La prevalencia es denotada por 𝑝, el número de individuos probados hasta encontrar el primer individuo positivo es 𝑌𝑖 = 𝑦𝑖 , y el número de veces que el experimento se lleva a cabo está denotado por 𝑟. Es importante mencionar que en este documento se considera que: (i) el tamaño de muestra es el valor de 𝑟 que representa el número requerido de individuos positivos para detener el proceso de muestreo y las pruebas, y (ii) el número total de individuos probados es el valor de 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . Por lo tanto, el estadístico suficiente 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 tiene una distribución binomial negativa (dbn) con parámetro 𝑟 y probabilidad de éxito 𝑃 (George & Elston, 1993). El estimador de la proporción De acuerdo con George & Elston (1993), el estimador de máxima verosimilitud (EMV) de 𝑃 usando muestreo inverso es: 𝑝= 𝑟 𝑛 donde 𝑟 es el número fijado requerido de individuos positivos. Este EMV de 𝑃 para muestreo inverso asume una prueba diagnóstica perfecta (especificidad y sensibilidad iguales a uno). La varianza y desviación estándar de la proporción muestral. La varianza está dada por 𝑆𝑝2 = 𝑝2 (1−𝑝) 𝑟 . Si se toma en cuenta el factor de corrección por población finita, entonces la varianza es igual a: 348 𝑆𝑝2 = ( 𝑁 − 𝑛 𝑝2 𝑞 )( ) 𝑁 𝑟 𝑆𝑝 = √( 𝑁 − 𝑛 𝑝2 𝑞 )( ) 𝑁 𝑟 donde 𝑞 = (1 − 𝑝). El estimador del total verdadero. 𝜏̂ = 𝑁𝑝 Los intervalos de confianza para la proporción y el total 𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 . El tamaño de muestra para estimar la proporción ∗ 𝑟 = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞 2 𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde 𝑑 es la precisión fijada. El tamaño de muestra modificado para estimar la proporción 349 2 𝑟𝑚𝐹 𝑁 = 𝑟𝑚 ( ), 𝑁 + 𝑟𝑚 /𝑝 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾 𝑡(𝑛−1,1−𝛼⁄2) 2 2 2 𝑟𝑚 = ( ) [√𝑝 𝑞 + √𝑝 𝑞 + ] 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2 donde 𝜔 = 2𝑑 es la precisión fijada, 𝑞 = 1 − 𝑝, 𝑍𝛾 es el cuantil 𝛾 de la distribución normal estándar (Montesinos-López et al., 2012b). EJEMPLOS Ejemplo 9.1. Suponga que un investigador está interesado en estimar la proporción de computadoras con virus en una empresa cuyo número de equipos es igual a 𝑁 = 4,300. Se decidió usar muestreo inverso bajo MAS. Dado que la prevalencia de computadoras infectadas es baja, se estableció detener el proceso de muestreo hasta que se encontraron 𝑟 = 5 computadoras infectadas. Además, se llevó el registro del total de computadoras extraídas y analizadas, es decir, se extrajo sin remplazo una computadora y se analizó para determinar su estado: infectada o no infectada. Este proceso de extracción continuó hasta que se encontraron cinco computadoras infectadas. El total de computadoras analizadas hasta que se encontraron las cinco infectadas fue de 𝑛 = 250. Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción preliminar, una confiabilidad de 100(1 − 𝛼)%=95% y un nivel de aseguramiento (𝛾) de 99%. a) Proporción de computadoras infectadas. 𝑟 5 𝑝 = 𝑛 = 250 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98. b) Desviación estándar de la proporción muestral (𝑆𝑝 ). 𝑁 − 𝑛 𝑝2 𝑞 𝑆𝑝 = √( )( ) 𝑁 𝑟 donde: 𝑁 = 4,300, 𝑛 = 250, 𝑟 = 5, 𝑝 = 0.02 y 𝑞 = 0.98. 350 Por lo tanto: 4,300 − 250 (0.02)2 (0.98) 𝑆𝑝 = √( )( ) = √(0.94186)(0.0000784) = 0.008593. 4,300 5 c) IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.02, 𝑆𝑝 = 0.008593 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. Por lo tanto: 0.02 ± (1.96)(0.008593) 0.02 ± 0.016842 0.003158 ≤ 𝑃 ≤ 0.036842. d) Total verdadero de computadoras infectadas. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 4,300 y 𝑝 = 0.02. Por lo tanto: 𝜏̂ = (4,300)(0.02) = 86. e) IC para el total verdadero con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 351 donde: 𝜏̂ = 86, 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.008593. Por lo tanto: 86 ± (4,300)(1.96)(0.008593) 86 ± 72.421804 13.578196 ≤ 𝜏 ≤ 158.421804. f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de 10% de la proporción preliminar (𝑝) y una confiabilidad de 95%. 𝑟∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y 𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002. Por lo tanto: 𝑟∗ = (4,300)(1.96)2 (0.02)2 (0.98) 6.475401 = = 70.0082 = 71. (4,300)(0.002)2 + (1.96)2 (0.02)(0.98) 0.092495 g) Tamaño de muestra modificado para estimar la proporción verdadera con una precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%. 2 𝑟𝑚𝐹 = 𝑟𝑚 ( 𝑁 ), 𝑁 + 𝑟𝑚 /𝑝 2 𝑟𝑚 = ( 𝑡(𝑛−1,1−𝛼⁄2) ) [√𝑝2 𝑞 + √𝑝2 𝑞 + 𝜔 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾 ] 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2 donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98, 352 𝑍𝛾 = 2.33 y 𝜔 = 2𝑑 = 2(0.002) = 0.004. Primeramente se obtiene 𝑟𝑚 suponiendo una población infinita. Por lo tanto: 2 2 1.96 𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + 0.004 2(0.004)|1.5(0.02)4 (0.02)3 |(2.33) − 1.96(0.02)2 ] 𝑟𝑚 = 240,100[0.019799 + 0.02401]2 𝑟𝑚 = 460.806758. Finalmente se obtiene 𝑟𝑚𝐹 suponiendo una población finita. Por lo tanto: 𝑟𝑚𝐹 = 460.806758 ( 4,300 ) = 72.4742 = 73. 460.806758 4,300 + 0.02 Ejemplo 9.2. En una empresa distribuidora de carne, cuya población es de 𝑁 = 4,000 vacas, un investigador decide usar muestreo inverso bajo MAS para estimar la proporción de vacas con virus. Dado que la prevalencia de vacas infectadas es baja se establece detener el proceso de muestreo hasta que se encuentren 𝑟 = 6 vacas infectadas. Además, se lleva el registro del total de vacas seleccionadas y analizadas, es decir, se extraerá sin remplazo una vaca y se determinara su estado:infectada o no infectada. Este proceso de extracción continuará hasta que se encuentren 6 vacas infectadas. Los resultados indican que el total de vacas analizadas hasta encontrar las 6 infectadas fue de 𝑛 = 300. Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción preliminar, una confiabilidad de 100(1 − 𝛼)%=95% ( y un nivel de aseguramiento (𝛾) de 99% (𝛾 = 99/100 = 0.99). a) Proporción de vacas infectadas. 𝑟 6 𝑝 = 𝑛 = 300 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98. b) Desviación estándar de la proporción muestral (𝑆𝑝 ). 353 𝑁 − 𝑛 𝑝2 𝑞 √( 𝑆𝑝 = )( ) 𝑁 𝑟 donde: 𝑁 = 4,000, 𝑛 = 300, 𝑟 = 6, 𝑝 = 0.02 y 𝑞 = 0.98. Por lo tanto: 4,000 − 300 (0.02)2 (0.98) 𝑆𝑝 = √( )( ) = √(0.925)(0.000065) = 0.007773. 4,000 6 c) IC de 95% para la proporción verdadera. 𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝑝 = 0.02, 𝑆𝑝 = 0.007773 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96. Por lo tanto: 0.02 ± (1.96)(0.007773) 0.02 ± 0.015235 0.004765 ≤ 𝑃 ≤ 0.035235. d) Total verdadero de vacas infectadas. 𝜏̂ = 𝑁𝑝 donde: 𝑁 = 4,000 y 𝑝 = 0.02. Por lo tanto: 354 𝜏̂ = (4,300)(0.02) = 80. e) IC para el total verdadero con una confiabilidad de 95%. 𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝 donde: 𝜏̂ = 80, 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.007773. Por lo tanto: 80 ± (4,000)(1.96)(0.007773) 80 ± 60.94032 19.05968 ≤ 𝜏 ≤ 140.94032. f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de 10% de la proporción preliminar (𝑝) y una confiabilidad de 95%. 𝑟∗ = 2 2 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞 2 𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞 donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y 𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002. Por lo tanto: 𝑟∗ = (4,000)(1.96)2 (0.02)2 (0.98) (4,000)(0.002)2 + (1.96)2 (0.02)(0.98) 𝑟∗ = 6.023628 = 65.9798 = 66. 0.091295 g) Tamaño de muestra modificado para estimar la proporción verdadera con una precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y el nivel de aseguramiento (𝛾) de 99%. 355 2 𝑟𝑚𝐹 𝑁 = 𝑟𝑚 ( ), 𝑁 + 𝑟𝑚 /𝑝 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾 𝑡(𝑛−1,1−𝛼⁄2) 2 𝑟𝑚 = ( ) [√𝑝2 𝑞 + √𝑝2 𝑞 + ] 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2 donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98, 𝑍𝛾 = 2.3263 y 𝜔 = 2𝑑 = 2(0.002) = 0.004. Primeramente se obtiene 𝑟𝑀𝐼 suponiendo una población infinita. Por lo tanto: 2 2 1.96 𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + 0.004 2(0.004)|1.5(0.02)4 (0.02)3 |(2.3263) − 1.96(0.02)2 ] 𝑟𝑚 = 240,100[0.019799 + 0.024004]2 𝑟𝑚 = 460.6805. Finalmente se obtiene 𝑟𝑀𝐹 suponiendo una población finita. Por lo tanto: 𝑟𝑚𝐹 = 460.6805 ( 4,000 ) = 68.1630 = 69. 460.6805 4,000 + 0.02 EJERCICIOS En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un nivel de aseguramiento de 99%? Ejercicio 9.1. En una empresa distribuidora de jamón, cuya población es de 𝑁 = 3,700 cerdos, se decide usar muestreo inverso bajo MAS para estimar la proporción de cerdos con virus Dado que la prevalencia de cerdos infectados es baja se establece 356 detener el proceso de muestreo hasta encontrar 𝑟 = 7 cerdos infectados. Además, se lleva el registro del total de cerdos extraídos y analizados, es decir, se extraerá sin remplazo un cerdo y se analizará si está infectado. Este proceso de extracción continuará hasta que se encuentren seis cerdos infectados. El total de cerdos analizados hasta encontrar los 6 infectados fue de 𝑛 = 310. Ejercicio 9.2. En una empresa distribuidora de tomates, cuya población es de 𝑁 = 4,200 plantas de este vegetal, se decide usar muestreo inverso bajo MAS para estimar la proporción de plantas de tomate con el virus TYLV,. Dado que la prevalencia de plantas infectadas es baja se establece detener el proceso de muestreo hasta encontrar 𝑟 = 8 plantas infectadas. Además, se lleva el registro del total de plantas extraídas y analizadas, es decir, se extraerá sin remplazo una planta y se analizará si está infectada. Este proceso de extracción continuará hasta que se encuentren 8 plantas infectadas. El númerode plantas analizadas hasta encontrar las 8 infectadas fue de 𝑛 = 350. Ejercicio 9.3. Para estimar la proporción de niños con el virus D68, cuya población es de 𝑁 = 3,900 niños, se decide usar muestreo inverso bajo MAS. Dado que la prevalencia de niños infectados es baja se establece detener el proceso de muestreo hasta encontrar 𝑟 = 9 niños infectados. Además, se lleva el registro del total de niños extraídos y analizados, es decir, se extraerá sin remplazo un niño y se analizará si está infectado. Este proceso de extracción continuará hasta que se encuentren 9 niños infectados. El número total de niños analizados hasta encontrar los 9 infectados fue de 𝑛 = 400. 357 Apéndice de la distribución normal estándar y la distribución t-Student Apéndice. Tablas de la distribución normal y la distribución t-Student 1 − 𝛼/2 𝑍0 𝑍0 𝑍0 𝑃(𝑍 < 𝑍0 ) = ∫ 𝑓𝑍 (𝑧)𝑑𝑧 = ∫ 1 −∞ √2𝜋 −∞ 𝑧2 𝑒 − 2 𝑑𝑧 = 1 − 𝛼/2 Cuadro A.1. Distribución normal estándar acumulada. 358 𝒁 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0. 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7794 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8340 0.8389 1. 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8907 0.8944 0.8962 0.8962 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9345 0.9345 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9896 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9985 0.9985 3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1 − 𝛼/2 𝑡0 𝑡0 𝑡0 1 [(𝑣 + 1)/2]! 𝑡 2 𝑃(𝑇 < 𝑡0 ) = ∫ 𝑓𝑇 (𝑡)𝑑𝑡 = ∫ ( + 1) [𝑣/2]! 𝑣 −∞ −∞ √𝑣𝜋 359 −(𝑣+1)/2 𝑑𝑡 Cuadro A.2. Puntos porcentuales de la distribución t-Student. 𝟏 − 𝜶/𝟐 𝒗 0.75 0.9 0.95 0.975 0.99 0.995 0.9975 0.999 0.9995 1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192 2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991 3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240 4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103 5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688 6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588 7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995 4.0293 4.7853 5.4079 8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413 9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809 10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869 11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370 12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178 13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208 14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405 15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728 16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150 10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869 11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370 12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178 13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208 14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405 15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728 16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150 17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.2224 3.6458 3.9651 18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.1966 3.6105 3.9216 19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834 20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453 3.1534 3.5518 3.8495 21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.1352 3.5272 3.8193 22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921 23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676 24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454 25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251 26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787 3.0669 3.4350 3.7066 27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896 28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739 360 Cuadro A.3. Tabla de números aleatorios. 361 1 2 3 4 5 6 7 8 9 10 1 75382 51664 50906 54843 32905 00326 27504 54471 00639 59454 2 92841 20566 69880 83226 06380 12130 29205 47054 12072 75769 3 12323 18644 05090 44424 18839 28290 08163 94933 10957 56948 4 08602 51296 74600 68975 37789 00555 68290 57422 73964 47549 5 80399 82376 00388 44573 39881 65838 95955 74046 67407 08054 6 59343 66130 36434 15838 26049 30525 19053 73768 88440 88518 7 00157 82067 71231 57445 33793 42351 01015 04516 60531 83546 8 12069 46302 58624 11725 55014 78605 23840 36910 83589 31919 9 78768 48680 07404 03965 06590 12564 87693 24586 85125 26639 10 12291 50741 29658 33636 40345 67222 33055 58750 21024 15078 11 38758 14871 30273 22217 25539 75232 02119 20767 17775 49060 12 64359 06412 56553 50521 49695 27291 19963 81782 39570 33457 13 67085 90221 12143 24797 40468 70393 59830 85755 65445 08335 14 46890 59592 77610 36664 62336 94456 94958 60791 60083 35078 15 75896 47732 00256 56919 88753 99865 98709 22575 63238 85008 16 87252 4615 80751 05987 36320 41249 73544 75104 86853 59982 17 33171 33551 76533 27365 49256 07832 90820 94734 63906 58669 18 53214 65370 56121 68027 03850 02720 56545 93593 25249 44074 19 67284 19394 95100 96675 06348 36950 17983 57583 93635 37879 20 94800 27736 44906 45537 53098 02820 63161 93488 14455 84774 21 55743 86547 55519 98759 91388 55747 73916 68889 08697 94903 22 60847 43456 64951 08092 58965 98844 89869 81876 35354 72294 23 54218 34014 69127 97810 31995 62818 83871 49159 15614 15023 24 95910 92814 99051 46006 95474 70557 77123 35273 81916 45520 25 92038 24983 32726 99122 24716 98556 26547 06054 46048 52676 26 61866 31950 75273 31815 08289 12285 78943 16326 85289 52314 27 18192 71986 58539 66858 23643 60033 85983 28576 78315 79695 28 11947 43172 24672 02783 88966 31306 33822 95164 31097 68762 29 77536 03361 46239 07783 07028 43727 18278 51924 49441 95899 30 61195 52546 154040 56659 04906 45803 40089 18752 35955 97595 31 96086 37247 47876 29096 05979 50278 12486 37933 70894 53595 32 57948 88044 09427 31507 29869 53686 61184 51042 01733 37122 33 00071 45330 31633 34998 05337 65871 98680 76361 76444 79152 34 64131 60054 68308 67086 66028/ 98994 10238 90929 65631 21799 35 74871 16848 81178 58108 66976 31938 37952 52266 13064 50615 36 32490 27246 07531 63193 48241 89570 57062 24051 37501 42452 37 54114 09886 60690 50105 01333 74612 13895 81015 90443 09726 38 75639 00336 43295 47260 37433 49422 65098 81849 14698 17194 39 02171 92713 13839 79191 30050 84055 43180 14378 17322 21188 40 38573 98474 59606 04698 83919 03702 69763 15985 06710 86808 41 78406 23706 48524 56716 26576 50599 98923 61473 83705 58718 42 15989 96405 66295 10264 85656 80210 62378 15065 64875 91762 43 11058 02658 33542 43663 44334 73636 11795 03577 93330 00162 44 39694 08359 38053 52340 71901 12748 72159 90238 90203 41173 45 45041 34528 79417 27992 11550 90446 13282 98381 80568 96066 46 33618 12142 65407 58142 65625 92494 29937 32828 84419 58729 47 01547 38640 65101 26159 53347 73750 04059 29580 30011 62774 48 46120 97243 30236 27911 13340 43979 01488 28199 19023 00411 49 26199 00214 58641 65512 86399 58314 42240 25969 87060 15186 50 72431 70513 14583 24788 53413 26620 44690 40453 50362 74107 Figura A.1. Varianzas de distribuciones infinitas (𝑆 2 ), en función de su forma y rango (ℎ = rango = máximo 𝑋𝑖 − mínimo 𝑋𝑖 ). ℎ2 ℎ2 ℎ2 ℎ2 Eclipse: 𝑆 2 = 16 Uniforme continua: 𝑆 2 = 12 ℎ2 Triangular simétrica: 𝑆 2 = 24 ℎ2 Triangular asimétrica: 𝑆 2 = 18 Triangular doble: 𝑆 2 = 362 ℎ Uniforme discreta: 𝑆 2 = 12 + 6 Normal: 𝑆 2 = 36 ℎ2 8 Referencias bibliográficas Azorin, F. (1972). Curso de muestreo y aplicaciones. Madrid, España: Ediciones Aguilar. Blair, J., & Presser, S. (1993). Survey procedures for conducting cognitive interviews to pretest questionnaires: A review of theory and practice. Proceedings of the Section on Survey Research Methods, Annual Meetings of the American Statistical Association, 370-375. Bradburn, N. M., & Sudman, S. (1988). Polls and Surveys: Understanding What They Tells Us. San Francisco, United States: Jossey-Bass. Cassel, C. M., Sarndal, C. E., & Wretman, J. H. (1977). Foundations of Inference in Survey Sampling. New York, United States: Wiley. Cochran, W. G. (1977). Sampling techniques. New York: John Wiley and Sons. Cochran, W. G. (1985). Técnicas de muestreo. México, DF: Cecsa. Danger, S., Huizing, N., Walker, A., Rowland, A., Anderson, R., & Sciaccaluga, R. (1996). EU Information Society Guide. Brussels, Belgium: The EU Committee on the American Chamber of Commerce in Belgium. Deming, W. E. (1950). Some Theory of Sampling. New York, United States: John Wiley & Sons. Dorfman, R. (1943). The detection of defective members of large populations. The Annals of Mathematical Statistics, 14(4): 436-440. Dowling, F. A., & Shachtman, R. H. (1975). On the Relative Efficiency of Randomized Response Models. Journal of the American Statistical Association, 70(349): 84−87. George, V. T., & Elston, R. C. (1993). Confidence limits based on the first occurrence of an event. Statistics in medicine, 12(7): 685-690. Horvitz, D. G., Shah, B. V., & Simmons, W. R. (1967). The Unrelated Question Randomized Response Model. Proceedings of the Social Statistics Section, ASA: 65– 72. Kelley, K., & Rausch, J. R. (2011). Sample size planning for longitudinal models: Accuracy in parameter estimation for polynomial change parameters. Psychological Methods, 16(4): 391-405. 363 Kelley, K. (2007). Sample size planning for the coefficient of variation from the accuracy in parameter estimation approach. Behavior Research Methods, 39(4): 755-766. Kelley, K., Maxwell, S. E., & Rausch, J. R. (2003). Obtaining power or obtaining precision delineating methods of sample-size planning. Evaluation & the Health Professions, 26(3): 258-287. Kish, L. (1972). Muestreo de encuestas. México, DF: Trillas. Kupper, L. L., & Hafner, K. B. (1989). How appropriate are popular sample size formulas?. The American Statistician, 43(2): 101-105. Lohr, S. L. (2000). Muestreo: diseño y análisis. México, DF: International Thomson Editores. Méndez, I., & Quintana, C. R. H. (2007). Muestreo: Respuesta aleatorizada. En: http://www.dpye.iimas.unam.mx/finales2007/MuestreoRespuestaAleatorizada.pp t. Especialidad en Estadística Aplicada. IIMAS, UNAM. Méndez, I., Eslava, G., & Romero, P. (2004). Conceptos Básicos de Muestreo. México, DF: IIMAS, UNAM. Montesinos-López, O. A., Montesinos-López, A., Crossa, J., & Eskridge, K. (2012a). Sample size under inverse negative binomial group testing for accuracy in parameter estimation. Plos One, 7(3): e32250. Montesinos-López, O. A., Montesinos López, A., Santos-Fuentes, E. E., Valladares-Celis, P. E., & Magaña-Echeverría, M. A. (2011). Tamaños de muestra para estimar prevalencia animal que aseguran cortos intervalos de confianza. Revista mexicana de ciencias pecuarias, 2(2): 229-244. Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & HernándezSuárez, C. M. (2010). Sample size for detecting and estimating the proportion of transgenic plants with narrow confidence intervals. Seed Science Research, 20(02): 123-136. Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Sáenz, R. A. (2011). Optimal sample size for estimating the proportion of transgenic plants using the Dorfman model with a random confidence interval. Seed Science Research, 21(3): 235-245. Montesinos-López, O. A., Montesinos-López, A., Luna-Espinoza, I., Lugo, G., Sanely, L., & Espinosa Solares, T. (2012b). Prueba de grupo: Una eficiente alternativa para estimar prevalencia animal. Revista mexicana de ciencias pecuarias, 3(4): 515-531. Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics. New York, United States: McGrawHill. 364 Newcombe, R. G. (1998). Two-sided confidence intervals for the single proportion: comparison of seven methods. Statistics in medicine, 17(8): 857-872. Pérez, L. C. (2000). Técnicas de muestreo estadístico. Teoría, práctica y aplicaciones informáticas. México, DF: Alfaomega-Rama. Raj, D. (1972). The Design of Sample Surveys. New York, United States: McGraw-Hill. Rendón, S. G. (1997). Métodos estadísticos. Muestreo, diseños experimentales, estadística no paramétrica. México, DF: Universidad Autónoma de Chapingo. Sardnal, C. E., Swensson, B., & Wretman, J. H. (1992). Model assisted survey sampling. New York, United States: Springer. Scheaffer, R. L., Mendenhall, W., & Lyman, O. (1987). Elementos de muestreo. México, DF: Grupo Editorial Iberoamérica. Siegel, S. (1977). Estadística no paramétrica. México, DF: Trillas. Tanur, J. M. (1983). Methods for large-scale surveys and experiments. Sociological methodology, 14:1–71. Vollset, S. E. (1993). Confidence intervals for a binomial proportion. Statistics in medicine, 12(9): 809-824. Wang, H., Chow, S. C., & Chen, M. (2005). A Bayesian approach on sample size calculation for comparing means. Journal of Biopharmaceutical Statistics, 15(5): 799807. Warner, S. L. (1965). A Survey Technique for Eliminating Evasive 365 View publication stats