Inferencia Estadı́stica: Guı́a para Estudiantes

Inferencia Estadı́stica J. Humberto Mayorga A. Profesor Asociado Departamento de Estadı́stica - Facultad de Ciencias Universidad Nacional de Colombia 2 Índice General Prólogo iii Introducción v 1 DISTRIBUCIONES MUESTRALES 1.1 La Inferencia estadı́stica, un soporte epistemológico . . . . . . . 1.2 Preliminares en la Inferencia estadı́stica . . . . . . . . . . . . . 1.3 Preliminares en convergencia de variables aleatorias . . . . . . 1.4 Caracterı́sticas generales de algunas estadı́sticas . . . . . . . . . 1.5 Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Distribución de las estadı́sticas de orden . . . . . . . . . 1.5.2 Distribución del rango, semirango y mediana muestrales 1.5.3 Distribución de la función de distribución empı́rica . . . 1.6 Momentos de estadı́sticas de orden . . . . . . . . . . . . . . . . 1.7 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . 1.8 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 9 12 18 19 20 21 23 25 42 2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 49 2.1 Métodos clásicos para construir estimadores . . . . . . . . . . . . 51 2.1.1 El método de máxima verosimilitud . . . . . . . . . . . . 51 2.1.2 El método de los momentos . . . . . . . . . . . . . . . . . 61 2.1.3 El método por analogı́a . . . . . . . . . . . . . . . . . . . 64 2.1.4 Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . 65 2.2 Criterios para examinar estimadores . . . . . . . . . . . . . . . . 69 2.2.1 Concentración, un requisito de precisión . . . . . . . . . . 69 2.2.2 Consistencia, un requisito ligado al tamaño de la muestra 73 2.2.3 Suficiencia, un requisito de retención de información . . . 75 2.2.4 Varianza mı́nima, un requisito de máxima precisión . . . 83 2.2.5 Completez, un requisito de la distribución muestral . . . . 90 2.2.6 Robustez, un requisito de estabilidad . . . . . . . . . . . . 96 2.3 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 98 2.4 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 104 i ii ÍNDICE GENERAL 3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 115 3.1 Conceptos preliminares . . . . . . . . . . . . . . . . . . . . . . . . 116 3.2 El método de la variable pivote . . . . . . . . . . . . . . . . . . . 117 3.3 Estimación de promedios, bajo Normalidad . . . . . . . . . . . . 124 3.3.1 Intervalos confidenciales para el promedio de una población124 3.3.2 Estimación de la proporción poblacional . . . . . . . . . . 127 3.3.3 Intervalo confidencial para la diferencia de promedios basado una muestra pareada . . . . . . . . . . . . . . . . . . . 128 3.3.4 Intervalos confidenciales para la diferencia de promedios en poblaciones independientes . . . . . . . . . . . . . . . . 129 3.4 Estimación de varianzas, bajo Normalidad . . . . . . . . . . . . . 131 3.4.1 Intervalos confidenciales para la varianza de una población 131 3.4.2 Intervalos confidenciales para el cociente de varianzas de dos poblaciones independientes . . . . . . . . . . . . . . . 134 3.5 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 137 3.6 Tamaño de la muestra simple bajo Normalidad . . . . . . . . . . 139 3.7 Estimación Bayesiana por intervalo . . . . . . . . . . . . . . . . . 140 3.8 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 142 3.9 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 144 4 JUZGAMIENTO DE HIPÓTESIS 4.1 Elementos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Tests más potentes . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad . . . 4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 . . . . . . . 4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 . . . . 4.4 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad . . . 4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02 . . . . . . . 4.4.2 Juzgamiento de homoscedasticidad . . . . . . . . . . . . . 4.5 Juzgamiento de proporciones . . . . . . . . . . . . . . . . . . . . 4.6 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 4.7 Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Juzgamiento secuencial . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Juzgamiento del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 4.9.1 Juzgamiento del ajuste por el método de Pearson . . . . . 4.9.2 Juzgamiento del ajuste por el método de KolmogorovSmirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 4.11 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 147 148 158 172 172 180 189 189 191 193 196 198 200 208 209 214 218 223 Prólogo La escritura de este libro siempre estuvo animada por el deseo obstinado de secundar el trabajo que realiza el estudiante tanto en el salón de clase como fuera de él; pues entiendo que en definitiva es el estudiante quien aprehende los conceptos como fruto de sus quehaceres académicos, conceptos inducidos más por sus dudas, por sus dificultades y por algunas contradicciones con algunos de sus preconceptos, que por alguna exposición frente al tablero. En mi criterio, el profesor como acompañante en la formación profesional, se convierte solamente en orientador, animador y crı́tico. Con ese espı́ritu quise que este libro se constituyese en una juiciosa preparación de clase de la asignatura Inferencia Estadı́stica, preparación que ha acopiado las memorias de cada una de las oportunidades en las cuales fui el el encargado del curso a través de mis años como docente en la Universidad Nacional de Colombia. De ese acopio es profuso lo desechado y lo corregido, pues las preguntas de los estudiantes confundidos, las preguntas inteligentes y las respuestas sobresalientes como las equivocadas en las evaluaciones, generalmente sucitaron la reflexión sobre las formas y contenidos de los guiones de la clase. No pretendo publicar un texto mas, pues los hay de una calidad inmejorable, algunos clásicos cuya consulta es obligada, otros de reciente edición que han incorporado nuevos desarrollos conceptuales. Pretende el texto apoyar el trabajo académico que se realiza en el curso, especialmente con el propósito de optimizar el tiempo y la calidad de la exposición de los temas, dando paso a la utilización del tablero acompañado de la tecnologı́a audiovisual como posibilidad para profundizar algunos de los temas y como medio para tratar las preguntas e inquietudes estudiantiles y no como instrumento transcriptor de frases y gráficas. En este libro expreso mis apreciaciones personales semánticas y conceptuales promovidas por la concepción que tengo sobre la Estadı́stica y particularmente sobre la Inferencia estadı́stica, concepción que he madurado y he hecho propia, a partir de las reflexiones con profesores del Departamento de Estadı́stica, a partir de discusiones informales y dentro de eventos académicos. Su contenido y organización responden a la forma tradicional como he realizado el curso, a las limitaciones de un semestre académico para su desarrollo y a los requisitos curriculares exigidos a los estudiantes que lo cursan. Fue la circunstancia de mi año sabático, disfrutado durante el año 2002, la que hizo posible la redacción y digitación de este texto, pues fueron múltiples iii iv PRÓLOGO las ocasiones fallidas de organizar en un libro el material de la clase, debido a las ocupaciones derivadas de mis compromisos académicos, administrativos y de servicios de asesorı́a estadı́stica que la Universidad me encargó llevar a cabo. Finalmente, creó que debo agradecer tanto a mis alumnos pues ellos son el motivo para organizar las ideas que presento entorno a la Inferencia estadı́stica, como a la Universidad Nacional de Colombia que aceptó como plan de actividades de mi año sabático, la elaboración de este texto. Introducción Este texto ha sido concebido para ser fundamentalmente un texto guı́a en el desarrollo de la asignatura Inferencia Estadı́stica, que cursan tanto los estudiantes del pregrado en Estadı́stica como los estudiantes de la Carrera de Matemáticas. Puede apoyar igualmente algunos temas de la asignatura Estadı́stica Matemática de la Maestrı́a en Estadı́stica. El requisito natural e inmediato para abordar los temas de cada uno de los capı́tulos del libro, es un curso de Probabilidad, y por supuesto los cursos de Cálculo. Consta de cuatro capı́tulos que pueden desarrollarse durante un semestre académico con seis horas semanales de clase tradicional. He adaptado traducciones de uso corriente en los textos de Estadı́stica a formas y términos con un mejor manejo del idioma y que semánticamente correspondan con mayor fidelidad al concepto que denominan. Igualmente hago precisión sobre algunas expresiones usuales para mayor claridad conceptual. Cada capı́tulo está estructurado en tres partes: exposición de los temas, demostraciones de los teoremas y la relación de los ejercicios correspondientes. Esto no significa que el manejo del texto deba llevarse en el orden mencionado. He querido organizarlo ası́, con el objeto de que la presentación de los temas exhiba una forma continua y que las demostraciones y los ejercicios tengan su sitio especial propio. Los ejercicios no están ordenados ni por su complejidad, ni por el tema tratado, para no encasillarlos. El estudiante se acerca a un ejercicio con información y trabajo previos, y es con su organización de ideas y búsqueda de caminos que debe evaluar si con los elementos estudiados hasta un cierto punto le es posible abordar el ejercicio particular; sin embargo, el profesor puede sugerir la realización de alguno o algunos ejercicios cuando haya culminado un tema o parte de él. El primer capı́tulo como fundamento del texto, ubica sintéticamente a la Inferencia Estadı́stica dentro del problema filosófico secular de la inducción. Retoma el tema de la convergencia de sucesiones de variables aleatorias, y expone las ideas preliminares de la Inferencia Estadı́stica. El segundo capı́tulo presenta los métodos corrientes de construcción de estimadores y los criterios para examinar las estadı́sticas en su calidad de estimadores. En el tercer capı́tulo se presenta el método de la variable pivote para construir intervalos confidenciales y se hace algún énfasis en los intervalos confidenciales bajo Normalidad. En el cuarto capı́tulo se adopta la expresión juzgamiento de hipótesis a cambio de prueba, docimasia o cotejo, porque esta acepción v vi INTRODUCCIÓN está más cerca del sentido de la toma de decisiones estadı́sticas e igualmente se da un espacio importante en el juzgamiento de hipótesis bajo Normalidad. Capı́tulo 1 DISTRIBUCIONES MUESTRALES “El conocimiento que tenemos del mundo está basado en la elaboración de un modelo de la realidad, modelo que puede cotejarse con la experiencia tan sólo de manera parcial y ocasionalmente... Este modelo se construye teniendo en cuenta la utilización que hacemos del mismo...” J. Bruner, “On cognitive growth” Antes de entrar en materia, es preciso destinar unos pocos párrafos para introducir un bosquejo del contexto en el cual la Inferencia estadı́stica puede ubicarse, más como exposición de ideas generales que el pretender una disquisición filosófica al respecto. Ese contexto está contenido dentro de un problema más general de carácter epistemológico, que el lector puede profundizar con las copiosas publicaciones sobre el tema. Posteriormente, por tratarse de uno de los fundamentos sobre el cual la Inferencia Estadı́sitica erige algunos de sus conceptos, se incluye la sección 1.3 a manera de un extracto de la convergencia de sucesiones de variables aleatorias, tema integrante de un curso previo de Probabilidad, pero que se retoma por su carácter y por su utilidad próxima. 1.1 La Inferencia estadı́stica, un soporte epistemológico La inferencia inductiva, procedimiento que utiliza la lógica como una forma de generalizar a partir de hechos particulares o a partir de la observación de un número finito de casos, es uno de los temas que ha ocupado a filósofos y cientı́ficos de todos los tiempos, desde la época de Aristóteles, tres siglos antes de Cristo, hasta la actualidad. 1 2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Varios filósofos antiguos formados en el empirismo gnoseológico, convencidos de que la observación era la única fuente segura de conocimiento, fueron los primeros en proponer la inducción o inferencia inductiva como método lógico. Tempranamente la inducción se convierte en un tema de mucha controversia que aún se mantiene; si para Aristóteles, quien planteó inicialmente el procedimiento inductivo, la Ciencia es “conocimiento demostrativo”, por el contrario para Sexto Empı́rico, uno de los filósofos representantes del Escepticismo, la Ciencia es “comprensión segura, cierta e inmutable fundada en la razón”. Ası́, mientras Sexto Empı́rico rechaza la validez de la inducción, Filodemo de Gadara, filósofo seguidor del Epicureı́smo, defiende la inducción como método pertinente. Y la controversia, llamada el problema de la inducción o también conocida como el “problema de Hume”, reside precisamente en que mientras la inferencia deductiva avala la transferencia de la verdad de las premisas a la conclusión, es decir, a partir de premisas verdaderas todas deducción es cierta, a costa de no incorporar nada al contenido de las premisas, la inducción por su parte que va más allá de las premisas, por su carácter amplificador, puede dar lugar a conclusiones falsas; en pocas palabras la controversia se centra en la validez que puedan tener los razonamientos inductivos, puesto que las conclusiones por medio de la inducción no siempre serán verdaderas. Algunos pensadores medievales también se preocuparon de la inducción. El inglés Robert Grosseteste al utilizar para su trabajo cientı́fico los métodos aplicados por sus discı́pulos de Oxford en Óptica y Astronomı́a, reabre en la Edad Media el tema de la inducción; si bien varios filósofos de la época orientaron sus reflexiones hacia los métodos inductivos, los ensayos y trabajos de Francis Bacon inspirados en la reorganización de las ciencias naturales, constituyeron el apogeo del método inductivo. No obstante, para Hume las leyes cientı́ficas no tienen carácter universal, es decir son válidas únicamente cuando la experiencia ha mostrado su certidumbre y tampoco tiene la función de la previsibilidad. Popper, filósofo de la Ciencia, conocido por su teorı́a del método cientı́fico y por su crı́tica al determinismo histórico, en el mismo sentido de Hume, afirma que no puede existir ningún razonamiento válido a partir de enunciados singulares a leyes universales o a teorı́as cientı́ficas. Mas recientemente, Bertrand Russell mantiene la posición de Hume de la invalidez de la inducción, pero considera que ella es el camino para incrementar la probabilidad, como grado racional de creencia, de las generalizaciones. La conocida Ley débil de los grandes números incluida en la cuarta parte del trabajo más sobresaliente de Jacob Bernoulli, Ars Conjectandi, publicado después de su muerte en el año 1713, y el también conocido teorema de Bayes publicado cincuenta años más tarde, trajeron nuevos elementos en la discusión al constituirse en argumentos matemáticos que sustentan la posibilidad de inferir probabilidades desconocidas a partir de frecuencias relativas. Sin embargo para Popper, sustituir la exigencia de verdad por la validez probabilı́stica para las inferencias inductivas no lo hace un procedimiento legı́timo. Durante las primeras décadas del siglo pasado, a raı́z de los importantes avances de la Ciencia ocurridos a finales del siglo XIX y a principios del siglo 1.1. LA INFERENCIA ESTADÍSTICA, UN SOPORTE EPISTEMOLÓGICO 3 XX, avances que no podı́an pasar desapercibidos para los pensadores, obligaron a los filósofos a revisar muchas de las ideas de los clásicos y es ası́ como un grupo de hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en torno al fı́sico Moritz Schlick, profesor de filosofı́a de la ciencia de la Universidad de Viena, convirtiéndose en un movimiento filosófico internacional, principal promotor del positivismo lógico, (también llamado neopositivismo, neoempirismo o empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformado entre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Waismann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran considerados como miembros honorı́ficos y Ramsey y Reinchenbach como miembros simpatizantes del mismo. Este movimiento filosófico se dedicó a muchos y variados temas de la Filosofı́a de la Ciencia, y por supuesto al problema de la inducción. En sı́ntesis se puede afirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensa de una visión cientı́fica del mundo a través de una ciencia unificada ligado al empleo del análisis lógico en el sentido de Russell. Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concretamente para Popper y sus seguidores, la escuela del refutacionismo, el método cientı́fico no utiliza razonamientos inductivos, sino razonamientos hipotéticodeductivos, ası́ se acopien datos y hechos particulares dentro del procedimiento de evaluación de una hipótesis que dan paso a una conclusión de carácter general, no existe como tal un razonamiento inductivo. Para el refutacionismo la ciencia se concibe como una sucesión de conjeturas y refutaciones: se proponen conjeturas para explicar los hechos, que luego serán refutadas para promover nuevas conjeturas. En sı́ntesis, para Popper y su escuela, ninguna teorı́a cientı́fica puede establecerse en forma concluyente. Sin embargo, para Feyerabend y Kuhn, en otro momento de gran controversia en este tema, las décadas del 60 y 70, la práctica cientı́fica no está en correspondencia con este proceder racional ni tampoco puede lograrlo, porque en gran medida existen supuestos relativos a la objetividad, a la verdad, al papel de la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen, principios universables de racionalidad cientı́fica; el crecimiento del conocimiento es siempre especı́fico y diferente como tampoco sigue un camino de antemano fijado. Dentro de esta controversia, a la Inferencia estadı́stica no se le ha eximido del problema de la inducción. Ronald Fisher, considerado por muchos el padre de la Estadı́stica, defendió el papel inductivo que conlleva el juzgamiento de hipótesis 1 . Sin embargo un sector de cientı́ficos y filósofos consideran que tanto la estimación de parámetros como el juzgamiento de hipótesis tienen dirección inductiva pero el razonamiento o inferencia que se lleva a cabo es de carácter deductivo. En fin, la Historia y la Filosofı́a de la Ciencia tuvieron un enorme auge a lo largo del siglo pasado, continúan acopiando y estructurando reflexiones y argumentos sobre la inducción, pero al no ser el propósito de esta sección tratar 1 La denominación juzgamiento de hipótesis será justificada en el capı́tulo 4. 4 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES el proceso lógico de la inducción desde el punto de vista filosófico, ni tampoco pretender su recuento histórico, ni mucho menos asumir una posición respecto a ella, se omiten nombres de muy destacados pensadores contemporáneos. Lo que realmente motiva incluir los párrafos anteriores es poner de manifiesto de manera muy concisa el hecho de que el problema de la inducción es un problema filosófico vigente con 23 siglos de existencia al cual generaciones de filósofos y cientı́ficos se han dedicado. Y más allá del debate epistemológico y metafı́sico contermporáneo dentro de la Filosofı́a de la Ciencia, es cierto que gran parte de la Ciencia actual frente a una naturaleza entrelazada de azar concomitante con una variabilidad inherente, reconoce de una u otra manera que el ensanche de su cuerpo conceptual requiere de la participación impresindible de la Estadı́stica. Mucho antes de la omnipresencia del computador, de los avances vertiginosos de la teorı́a y métodos estadı́sticos de los últimos tiempos, Hempel en 1964 en su libro, Aspectos de la explicación cientı́fica, se referı́a a los dos modelos de explicación de tipo estadı́stico:“el modelo estadı́stico deductivo, en el que las regularidades estadı́sticas son deducidas de otras leyes estadı́sticas más amplias, y el modelo estadı́stico inductivo, en el que los hechos singulares se explican subsumiéndolos bajo leyes estadı́sticas”. En esta dirección cuando en los quehaceres cientı́ficos, tecnológicos o administrativos se recurre a la Estadı́stica para organizar y orientar sus procesos y métodos, como de igual manera cuando se recurre a ella para apoyar argumentos y decisiones, ese recurso suele convertirse, desde uno de los puntos de vista, en un proceso de inducción especı́ficamente en un proceso que puede ser clasificado como de inducción amplificadora, de manera análoga a como Francis Bacon vio en la inducción el procedimiento escencial del método experimental, o convertirse en una serie de actividades ligadas a un procedimiento propio de la ciencia o la tecnologı́a , en un procedimiento hipotético-deductivo, como lo entiende la escuela propperiana. Para cualquiera de los dos puntos de vista que se asuma, la Estadı́stica brinda un respaldo exclusivo en la inferencia. 1.2 Preliminares en la Inferencia estadı́stica Dentro del contexto del parágrafo anterior, cabe formularse varias preguntas; la primera de ellas: ¿Cuál es el objeto para el cual son válidos los enunciados generales producto de la inducción, de la decisión o la estimación que realiza una aplicación estadı́stica?. Paralelamente tiene lugar la segunda pregunta: ¿Cuáles son las unidades que permiten obtener la información de casos particulares como punto inicial en el citado proceso?. Y la tercera pregunta, que interroga sobre la calidad del proceso de inferencia estadı́stica: ¿Cuáles son los principios que rigen este proceso tan particular de inferencia?. La primera pregunta indaga por el conjunto de todos los elementos que en un determinado momento son del interés de un investigador, de un gestor o de un tomador de decisiones. Elementos que son diferentes entre sı́ pero que tienen una o varias caracterı́sticas comunes que los hacen miembros del 1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 5 conjunto en consideración. Al respecto en algunas disciplinas cientı́ficas esas caracterı́sticas comunes son denominadas criterios de inclusión, complementados con los criterios de exclusión, para definir concisamente la pertenencia de un elemento al conjunto y para precisar igualmente la pérdida de la calidad de pertenencia del elemento. Para referirse a ese conjunto mencionado anteriormente el lenguaje corriente de la Estadı́stica utiliza el término población; ese agregado o colección de las unidades de interés es en últimas el objeto receptor del producto del proceso de inducción, de la decisión o de la estimación. La segunda pregunta parece confundirse con la primera. Si bien es cierto que la pregunta se refiere a esas entidades que corresponden a los hechos particulares, a los casos singulares, a ese conjunto finito de casos, que son examinados durante la primera etapa de la inferencia, la reunión de todas las unidades posibles, constituye ese conjunto que se ha llamado población. Pero su estricta determinación radica en que cada una de esas unidades será, en sentido metafórico, un interlocutor con el investigador. Interlocutor, porque la investigación puede entenderse, de manera análoga, como un proceso comunicativo: el investigador pregunta, la naturaleza responde. Esas unidades pueden ser denotadas como unidades estadı́sticas, de manera genérica para subsumir en esa denominación, otras como unidad experimental, unidad de análisis, sujeto, caso, entre otras. Como en casi todas las oportunidades, de hecho no existe la posibilidad de “dialogar”con todas y cada una de las unidades estadı́sticas, debido a imperativos que lo impiden, asociados a varios aspectos. Por ejemplo, cuando el tamaño de la población, es decir, el cardinal del conjunto que reúne a todas las unidades estadı́sticas, es ingente; o también cuando la respuesta de la unidad implica su desnaturalización o deterioro; igualmente cuando ese “diálogo”es oneroso, o cuando los resultados de la investigación se requieren con apremio. A ese subconjunto de unidades que un párrafo anterior se referı́a como el conjunto finito de casos que son examinados durante la primera etapa del proceso de inferencia, circunscrito al subconjunto de unidades estadı́sticas elegidas por medio de procedimientos estadı́sticos formales, por supuesto, se le designa corrientemente como muestra. A diferencia de las dos preguntas anteriores, cuyas respuestas son en últimas acuerdos semánticos, la tercera es una pregunta fundamental que requiere respuestas a partir de elaboraciones conceptuales, repuestas que se darán gradualmente con el desarrollo de los capı́tulos objeto de este texto; pero previamente de una manera sucinta se esboza el fundamento de las respuestas. La Estadı́stica facultada para sustentar y conducir procesos de inducción, decisión y estimación muy caracterı́sticos, cuenta con la inferencia estadı́stica como la fuente conceptual que nutre, avala y licencia la estructura y funcionamiento de métodos y procedimientos estadı́sticos. Para el desarrollo de cada una de sus dos componentes, relativos a la estimación de parámetros y el juzgamiento de hipótesis, la inferencia estadı́stica tiene como punto de partida la referencia o el establecimiento de modelos para representar variables observables o no observables, modelos que pueden ser explı́citos o generales. 6 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Semánticamente el vocablo modelo responde a varias acepciones, particularmente dentro del lenguaje cientı́fico y tecnológico. Sin embargo el sentido que la Estadı́stica le confiere al término, es el de consistir en una traducción de un aspecto de la realidad a un lenguaje simbólico, como uno de los recursos para representar de manera simplificada su comportamiento, que habilite procesos de generalización, que incluya sus aspectos fundamentales, que facilite su descripción o permita la toma de decisiones. La factibilidad de representar variables muy disı́miles asociadas con fenómenos de distintos campos del saber a través de un mismo modelo de probabilidad, permite a la Inferencia estadı́stica detenerse en el modelo mismo para convertirlo en su objeto de estudio. A partir de su estructura, de las expresiones matemáticas asociada a su naturaleza y con ellas de la presencia y papel que desempeñan los parámetros, se construyen y evalúan posibles estimadores de estos últimos, y de igual manera se derivan y evalúan procedimientos que permitan juzgar afirmaciones sobre el modelo. En consecuencia, los principios que avalan procesos de carácter estadı́stico, tratados por la Inferencia estadı́stica y motivo de la tercera pregunta, consisten en métodos y criterios relacionados tanto con la construcción de estimadores y test como con el examen de la aptitud e idoneidad de los mismos, y que tal como se anunció, la descripción y el desarrollo de los citados principios son en definitiva el contenido mismo de este texto. Definición 1.2.1. Una muestra aleatoria es una sucesión finita de variables aleatorias independientes e idénticamente distribuidas X1 , X2 , . . . , Xn . De manera más general una sucesión de variables aleatorias X1 , X2 , . . . , independientes y con idéntica distribución, también se denomina muestra aleatoria. En el caso de una sucesión finita, el valor n recibe el nombre de tamaño de la muestra o tamaño muestral. La definción anterior revela que en el contexto estadı́stico el término muestra presenta dos acepciones: la de ser un subconjunto de unidades estadı́sticas elegidas por métodos estadı́sticos formales y la adjetivada como aleatoria expuesta en la definición anterior, ésta referida a una sucesión de variables aleatorias. Lo mismo le ocurre al término población: denota al conjunto completo de unidades estadı́sticas objeto de estudio y ahora se le concibe como una variable aleatoria, en el sentido que se expone seguidamente. El acceso al estudio de ese conjunto de unidades estadı́sticas, se lleva a cabo mediante el examen de las caracterı́sticas o respuestas de sus integrantes, interpretadas como variables; el discernimiento de la esencia ya no individual sino colectiva de las unidades es en suma el motivo de la investigación o estudio; por ello el comportamiento de las variables se convierte entonces en un elemento revelador de caracterı́sticas y propiedades que sustentan la descripción de la colectividad, las explicaciones o las decisiones a que haya lugar. El comportamiento real de una o varias variables es un comportamiento reflejo de la naturaleza de la población, que no siempre es posible conocer. Por ello acudir a modelos de probabilidad para emular el comportamiento poblacional es un recurso legı́timo que reduce carencias, permite aprovechar las virtudes 1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 7 propias del modelo y hace posible la utilización de un lenguaje universal, por supuesto sobre la base de una escogencia juiciosa del modelo. Entonces, un aspecto de las unidades estadı́sticas observado, medido o cuantificado en una variable, (o varios aspectos utilizando un vector para disponer las variables) se le abstrae como una variable aleatoria (o un vector aleatorio) que tiene asociado un modelo particular. Esta variable aleatoria que representa una variable en la población suele denominársele igualmente población. Bajo estas consideraciones la sucesión de variables aleatorias X1 , X2 , . . . , Xn , de la definición anterior denominada muestra aleatoria además de ser un elemento del ámbito conceptual de la Teorı́a Estadı́stica, puede vincularse con la información especı́fica acopiada de un subconjunto de n unidades estadı́sticas de las cuales se dispone de los valores x1 , x2 , . . . , xn , correspondientes a una variable denotada por X. Dicho en otros términos el valor xi puede entenderse como una realización de la correspondiente variable aleatoria Xi , i = 1, 2, . . . , n, por eso es habitual encontrar recurrentemente la expresión “sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad...”. El contexto en el cual se encuentre el vocablo población, delimita la acepción en uso: un conjunto o una variable aleatoria. Definición 1.2.2. Se denomina Estadı́stica a una variable aleatoria construida como una función de las variables aleatorias X1 , X2 , . . . , Xn que conforman una muestra aleatoria, función que no depende de parámetro alguno constitutivo de la expresión algebraica que identifica al modelo asumido para representar una variable en la población, ni tampoco depende de constantes desconocidas, también llamados parámetros, que cuantifican rasgos generales en la población cuando no se asume un modelo especı́fico. Como el aspecto determinante en la naturaleza de una estadı́stica es su no dependencia funcional de parámetros, se le resalta por medio del siguiente ejemplo. Ejemplo 1.2.1. Asumiendo el modelo Gaussiano para representar una variable en la población, y si X1 , X2 , . . . , Xn es una muestra aleatoria de la población ası́ modelada, son estadı́sticas entre otras • X1 + X2 + · · · + Xn = Xn n • (X1 − X n )2 + (X2 − X n )2 + · · · + (Xn − X n )2 = Sn2 n−1 • X1,n = min{X1 , X2 , . . . , Xn } Puesto que los parámetros μ y σ son las constantes caracterı́sticas del modelo Gaussiano, particularmente las dos siguientes variables aleatorias no son estadı́sticas n 2 (Xi − μ)2 n Xi − X n i=1 σ n−1 i=1 8 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES El contenido semántico que se les da en Estadı́stica tanto al término estimar como al término estimación, para referirse a su acción o efecto, proviene de una de las acepciones corrientes que tiene el segundo vocablo. El significado en mención de: aprecio o valor que se da y en que se tasa o considera algo 2 , no sugiere un cálculo aproximado de un valor como equivocadamente se entiende, porque no hay referentes para calificar su aproximación, ni tampoco como un proceso adivinatorio; debe entenderse como la realización formal de un avalúo, es decir en llevar a cabo un proceso que exige de manera imprescindible el contar con información de ese algo del cual se quiere fijar su valor. Por lo tanto la calidad de la estimación, depende directamente de la calidad original y la cantidad de información que se posea. Consecuentemente una cantidad insuficiente de información genera estimaciones no fiables, como igualmente las genera una gran cantidad de información de calidad exigua. A manera de sinopsis, considerando simultáneamente tanto la cantidad de información como su calidad y utilizando el plano cartesiano para su representación, en la siguiente figura se adjetivan distintas circunstancias en calidad y cantidad de información que constituye el insumo en el proceso de estimación. 100% Desechable ADMISIBLE Cantidad Ideal Funesta 0 Inadmisible Calidad 100% Figura 1.1: Diagrama de calidad y cantidad de información La calidad de la información, de la cual este texto no se ocupa porque se pretenden propósitos de otro tipo, debe asegurarse a partir del diseño, construcción y calibración de instrumentos para el registro de la información, dentro de la organización y ejecución de las actividades de acopio de información y durante 2 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edición.2001 1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9 el proceso de almacenamiento y guarda de la información. Definición 1.2.3. Una estadı́stica cuyas realizaciones son utilizadas para llevar a cabo estimaciones de los parámetros de un modelo probabilı́stico se denomina estimador y a las citadas realizaciones o valores particulares se les conoce como estimaciones. Definición 1.2.4. El modelo probabilı́stico que rige el comportamiento de una estadı́stica o de un estimador se denomina distribución muestral de la respectiva estadı́stica o del respectivo estimador. Algunos autores se refieren a la distribución de la variable aleatoria que representa a la población, como la distribución original de las observaciones, o modelo original y a la distribución muestral de una estadı́stica como la distribución reducida o modelo reducido. Definición 1.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con momentos oridinarios y centrales μr y μr respectivamente. Los momentos muestrales, ordinarios y centrales de orden r, r = 1, 2, . . . , cumplen en la muestra funciones análogas a los momentos poblacionales μr y μr , y se denotan y definen como = Mr,n 1 r X n i=1 i Mr,n = 1 (Xi − X n )r n i=1 n n En particular cuando r = 1, primer momento ordinario muestral, M1,n = X n, es llamado de manera más corriente, promedio muestral o promedio de la muestra. Se prefiere como varianza muestral en cambio del segundo momento muestral, por razones que posteriormente se justificarán, a la expresión 1 (Xi − X n )2 n − 1 i=1 n 1.3 Preliminares en convergencia de variables aleatorias Para aprestar los elementos que se requieren en el tema de Inferencia estadı́stica, es preciso abordar de una manera suscinta los tipos de convergencia de variables aleatorias en razón a que posteriormente el crecimiento del tamaño de muestra permite derivar propiedades interesantes de algunas estadı́sticas, y por lo tanto el propósito de esta sección es presentar los tipos más corrientes de convergencia de variables aleatorias. Por medio de {Xn }, n = 1, 2, . . . , se describe una sucesión de variables aleatorias X1 , X2 , . . . , la cual es una sucesión de funciones medibles {Xn (w)} 10 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES definida en un espacio muestral Ω, y teniendo en cuenta que todas las variables aleatorias constituyentes de la sucesión están consideradas en el mismo espacio de probabilidad (Ω, A, P ). En primer lugar, siendo {Xn } una sucesión de variables aleatorias y c un número real, el conjunto {w|Xn (w) = c} ∈ A, de tal manera que P lim Xn = c = 1 n→∞ esté siempre definido. Se dice que la sucesión de variables aleatorias {Xn } converge casi seguro a cero o converge a cero con probabilidad uno si: P lim Xn = 0 = 1 n→∞ Además, si las variables aleatorias X1 , X2 , . . . , y la variable aleatoria particular X están definidas en el mismo espacio de probabilidad, se afirma que la sucesión de variables aleatorias {Xn } converge casi seguro a la variable aleatoria X, si la sucesión de variables aleatorias {Xn − X} converge casi seguro a cero, este tipo de convergencia también se conoce como convergencia fuerte y se simboliza como a.s. Xn −−→ X Ejemplo 1.3.1. Si el comportamiento probabilı́stico de cada una de las variables aleatorias de la sucesión {Xn } se modela por medio de la distribución de Bernoulli de manera que Xn ∼ Ber(( 12 )n ), entonces a.s. Xn −−→ 0 En efecto, P lim Xn = 0 = 1 n→∞ n n n 1 − 12 , puede puesto que P [Xn = 0] = 1 − 2 . Como V [Xn ] = 12 notarse el decrecimiento de la varianza en cuanto n se incrementa, es decir que Xn va perdiendo el carácter de variable aleatoria porque su varianza va tendiendo a cero, la variable va asumiendo rasgos de una constante. 1 En segundo lugar, se dice que la sucesión de variables aleatorias {Xn } converge en probabilidad a la variable aleatoria X, hecho simbolizado como, p →X Xn − si lim P [|Xn − X| < ] = 1, para > 0. Para referirse a la convergencia en n→∞ probabilidad también puede utilizarse convergencia estocástica, convergencia en medida o convergencia débil . 1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 11 Un tercer tipo de convergencia se conoce como convergencia en momento de orden r . En este caso cada variable de la sucesión de variables aleatorias {Xn } y X poseen el momento ordinario de orden r. En estas circunstancias se afirma que la sucesión de variables aleatorias converge en momento de orden r a la variable aleatoria X, lo cual se representa como, L r X Xn −→ si lim E [(|Xn − X|)r ] = 0. Particularmente, si r = 1 suele decirse que la sucen→∞ sión de variables aleatorias {Xn } converge en valor esperado a la variable aleatoria X. Similarmente, cuando r = 2 la convergencia se conoce como convergencia en media cuadrática. Un cuarto y último tipo de convergencia de variables aleatorias se refiere a una sucesión de variables aleatorias {Xn }, cuya correspondiente sucesión de funciones de distribución F1 (x), F2 (x), . . . , es considerada. De esta manera la sucesión de variables aleatorias {Xn } converge en distribución a la variable aleatoria X, cuya función de distribución es F (x), hecho denotado: d →X Xn − si lim Fn (x) = F (x) para todo x. n→∞ Entre los diferentes tipos de convergencia existen relaciones que es necesario destacar. El siguiente teorema las reúne. Teorema 1.3.1. Estando las variables aleatorias X1 , X2 , . . . y la variable particular X difinidas sobre el mismo espacio de probabilidad (Ω, A, P ), 1. Si {Xn } converge casi seguro a la variable aleatoria X con probabilidad 1, implica que {Xn } converge en probabilidad a la variable aleatoria X. 2. Si {Xn } converge en valor esperado a la variable aleatoria X, implica que {Xn } convergen en probabilidad a la variable aleatoria X. 3. Si {Xn } converge en probabilidad a la variable aleatoria X implica que {Xn } converge en distribución a la variable aleatoria X. 4. Siendo r > s, la convergencia de una sucesión de variables aleatorias {Xn } en momento de orden r implica la convergencia de la sucesión en momento de orden s. De manera gráfica las relaciones que enuncia el teorema 1.3.1, se pueden recapitular en la figura 1.2 Teorema 1.3.2 (Teorema de Lévy). Considerando la variable aleatoria particular X y la sucesión de variables aleatorias {Xn }, definidas sobre el mismo espacio de probabilidad, y siendo {φn (t)} la sucesión de funciones caracterı́sticas correspondientes a las variables de la sucesión {Xn }, d → X si y sólo si lim φn (t) = φ(t) Xn − n→∞ 12 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Convergencia casi segura Convergencia en probabilidad Convergencia en distribución Convergencia en valor esperado Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleatorias para t ∈ R y φ(t) función caracterı́stica de la variable aleatoria X, continua en cero. Teorema 1.3.3 (Teorema de Lévy). - Versión para funciones generatrices de momentos - Considerando la variable aleatoria particular X y la sucesión de variables aleatorias {Xn }, definidas sobre el mismo espacio de probabilidad, y siendo {Mn (t)} la sucesión de funciones generatrices de momentos correspondientes a las variables de la sucesión {Xn }, las cuales existen para t real en algún intervalo alrededor de cero, d → X si y sólo si lim Mn (t) = M (t) Xn − n→∞ para t real en algún intervalo alrededor de cero y M (t) función generatriz de momentos de la variable aleatoria X. Teorema 1.3.4. Sea {Xn } una sucesión de variables aleatorias. p → c si y sólo si lim Fn (x) = F (x) Xn − n→∞ siendo c una constante, Fn (x) la función de distribución de Xn y F (x) una función de distribución tal que F (x) = 0 para x < c y F (x) = 1 para x ≥ c. 1.4 Caracterı́sticas generales de algunas estadı́sticas Los momentos muestrales, además de cumplir funciones análogas a los momentos poblacionales como se incorporó en la definición 1.2.5, son estadı́sticas de 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 13 uso frencuente que bajo la garantı́a de la existencia de determinados momentos poblacionales, sus distribuciones muestrales poseen propiedades generales respecto a su posición y a su dispersión en la forma como el siguiente teorema lo indica. Teorema 1.4.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población representada por la variable aleatoria X con varianza σ 2 y con momento ordinario μ2r , r = 1, 2, . . . , entonces el valor esperado y la varianza del momento muestral ordinario son respectivamente: E[Mr,n ] = μr 1 E[X 2r ] − (E[X r ])2 n 1 μ − (μr )2 = n 2r V [Mr,n ]= Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1, E[X n ] = μ1 = μ V [X n ] = σ2 n Teorema 1.4.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado, también llamado promedio poblacional, μ y varianza σ 2 , y existiendo además el momento central de orden cuatro μ4 , entonces 1 (Xi − X n )2 = σ 2 n − 1 i=1 n E[Sn2 ] = E V [Sn2 ] 1 = n n−3 4 σ ,n > 1 μ4 − n−1 El tamaño de la muestra es un elemento substancial tanto para las disquisiciones en la teorı́a de la estadı́stica como para la utilización de la misma. La pregunta por su magnitud es quizá de las más inquietantes para el investigador en la búsqueda de respaldo a la confiabilidad de su investigación; el tamaño muestral es uno de los aspectos con los cuales se certifican o descalifican estudios, es en definitiva un punto obligado para dilucidar. La incidencia relevante del tamaño de la muestra en la distribución muestral de muchas estadı́sticas, gira alrededor del tema conocido como distribuciones asintóticas. En particular en la medida que se vaya incrementando el tamaño de la muestra, el promedio muestral adquiere unos rasgos propios que los siguientes teoremas describen. 14 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Teorema 1.4.3 (Ley débil de los grandes números). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado μ y varianza σ 2 , entonces X1 + X2 + . . . + Xn p − →μ n La nota de la demostración del teorema anterior, destaca el hecho de que P − < X n − μ < ≥ 1 − δ σ2 para n entero mayor que 2 , > 0, δ > 0; lo cual permite determinar la δ magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para el tamaño de la muestra debe entenderse dentro del contexto de una población infinita y una muestra simple. Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener una probabilidad de 0.95 de que el promedio muestral no difiera en más de una cuarta parte de la desviación estándar de μ? En esta situación, = 0.25σ, δ = 0.05, por lo tanto n> σ2 = 320 (0.25σ)2 0.05 Modificando parcialmente las condiciones del teorema 1.4.3 en el sentido de no hacer ninguna mención de la varianza σ 2 , es posible reiterar la convergencia en probabilidad del promedio de la muestra, como lo presenta el siguiente teorema. Teorema 1.4.4 (Teorema de Khintchine). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado μ entonces p Xn − →μ De manera más general, la convergencia en probabilidad de los momentos muestrales ordinarios a los momentos poblacionales ordinarios está avalada por el siguiente teorema. Teorema 1.4.5. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población para la cual el momento central μ2r existe, entonces p Mr,n − → μr , r = 1, 2, . . . Para cerrar esta relación de teoremas que giran alrededor de la idea de la Ley débil de los grandes números, se incluye el siguiente teorema que puede entenderse como una generalización de la citada ley. 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 15 Teorema 1.4.6. Si X1 , X2 , . . . es una sucesión de variables aleatorias tales que E[Xi ] = μi y V [Xi ] = σi2 son finitos y ρ(Xi , Xj ) = 0, i = j, para i = 1, 2, . . . , entonces p X n − μn − →0 siendo μn = n 1 μi n i=1 La Ley fuerte de los grandes números es un conjunto de teoremas referentes a la convergencia casi segura de sucesiones de variables aleatorias. El teorema siguiente es el más divulgado de todos y fue enunciado originalmente por Kolmogorov. Teorema 1.4.7 (Ley fuerte de los grandes números). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado μ, entonces la sucesión {X n − μ} converge casi seguro a cero. Teorema 1.4.8. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado μ y varianza σ 2 , entonces a.s. Sn2 −−→ σ 2 p y en consecuencia Sn2 − → σ2 Con la denominación de Teorema del Lı́mite Central debe entenderse más a un conjunto de teoremas concernientes a la convergencia en distribución de la suma de un número creciente de variables aleatorias al modelo Gaussiano, que a la más popular de sus versiones. Es un conjunto de teoremas fundamentales de la Estadı́stica pues constituyen puntos de apoyo substanciales de la Inferencia estadı́stica y de las aplicaciones. Bajo la citada denominación de teorema del lı́mite central se incluyen variantes como la versión original conocida como la ley de los errores, derivada de los trabajos de Gauss y Laplace sobre la teorı́a de errores, que permitió el surgimiento de las versiones más antiguas referentes a variables con distribución de Bernoulli, debidas a De Moivre y Laplace en los siglos XVI y XVII, se incluyen las versiones de Lindeberg-Lévy y Lindeberg-Feller, que son consecuencia de un trabajo inciado por Chevyshev y Liapunov a finales del siglo XIX, trabajo encaminado a la búsqueda de una demostración rigurosa, se incluyen las versiones de Bikelis y aquellas adaptadas para los casos multivariados, y también se incluyen aquellas para el caso de variables dependientes. En particular la versión clásica o Teorema de Lindeberg-Lévy, la versión más difundida, corresponde al siguiente teorema, resultado al que llegaron de manera independiente J.W.Lindeberg y P.Lévy en la segunda década del siglo XX. Teorema 1.4.9 (Teorema del Lı́mite Central (Lindeberg-Lévy)). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado μ y varianza σ 2 finitos, considerando la variable aleatoria Zn = Xn − μ √σ n 16 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES entonces la sucesión de variables aleatorias {Zn } converge en distribución a una variable aleatoria con distribución Normal estándar. En pocas palabras, esta difundida versión determina que, √ n(X n − μ) d − → Z ∼ N (0, 1) σ El teorema del lı́mite central es la mejor justificación de la existencia del modelo Gaussiano y del énfasis que de él se hace reiteradamente. Por otra parte lo admirable del teorema radica en que no importa el modelo regente del comportamiento probabilı́stico de la población, y en que la exigencia de finitud del valor esperado y la varianza es fácil satisfacerla en las aplicaciones. Para finalizar estas consideraciones acerca del teorema del lı́mite central se presenta una versión especial la cual corresponde al teorema de Lindeberg-Feller. Teorema 1.4.10 (Teorema del Lı́mite Central (Lindeberg-Feller)). Si X1 , X2 , . . . es una sucesión de variables aleatorias independientes con valor esn σi2 → ∞ perado μi y varianza σi2 finitos, i = 1, 2, . . . y asumiendo que τn2 = i=1 2 σ y además que max τ i2 → 0 cuando n → ∞, entonces 1≤i≤n n n (Xi − μi ) i=1 τn d − → Z ∼ N (0, 1) si y sólo si para cada > 0, n 1 lim 2 (x − μi )2 fi (x)dx = 0 n→∞ τn |x−μ |≥τ i n i=1 siendo fi (x) la función de densidad de la variable aleatoria Xi , i = 1, 2, . . . Cuando el comportamiento de una población se asume regido por el modelo Gaussiano, se pueden deducir propiedades especı́ficas adicionales para el promedio y varianza muestrales, propiedades que hacen explı́citas los siguientes teoremas. Teorema 1.4.11. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución Normal de valor esperado μ y varianza σ 2 , entonces σ2 X n ∼ N μ, n Teorema 1.4.12. Si X1 , X2 , . . . , Xn es una sucesión de variables aleatorias independientes tales que Xi ∼ N (μi , σi2 ), entonces 2 n Xi − μi ∼ χ2 (n) U= σ i i=1 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 17 Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye una muestra aleatoria de una población con distribución Normal, de valor esperado μ y varianza σ 2 , U= 2 n Xi − μ σ i=1 ∼ χ2 (n) Teorema 1.4.13. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución Normal de valor esperado μ y varianza σ 2 , entonces las estadı́sticas X n y Sn2 son dos variables aleatorias estadı́sticamente independientes. Teorema 1.4.14. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal de valor esperado μ y varianza σ 2 , entonces n (Xi − X n )2 i=1 σ2 = (n − 1)Sn2 ∼ χ2 (n − 1) σ2 Con supuestos menos taxativos, el promedio y la varianza muestrales presentan un comportamiento muy particular. Los siguientes teoremas resaltan la marcada autonomı́a de las estadı́sticas X n y Sn2 . Teorema 1.4.15. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población cuya función de densidad es simétrica, entonces cov(X n , Sn2 ) = 0 La expresión usual de la varianza muestral incluye el promedio de la muestra, es decir que la varianza podrı́a entenderse como función de éste. Sin embargo, su presencia en la expresión puede considerarse aparente puesto que la varianza de la muestra puede prescindir del promedio muestral en la forma como lo garantiza el siguiente teorema 3 . Teorema 1.4.16. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población para la cual no se asume un modelo de probabilidad especı́fico, entonces 1 (Xi − Xj )2 2n(n − 1) i=1 j=1 n Sn2 = n En sı́ntesis, es claro que el promedio y varianza de la muestra son estadı́sticas tales que bajo el modelo Gaussiano son estadı́sticamente independientes, bajo un modelo de probabilidad cuya función de densidad es simétrica, las estadı́sticas no están correlacionadas, y en cualquier situación la varianza de la muestra no depende funcionalmente del promedio de la muestra. 3 Jorge E. Ortiz P. Boletı́n de Matemáticas. Volúmen VI No. 1 (1999), pp. 43-51 18 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES 1.5 Estadı́sticas de orden Una modalidad especial de estadı́sticas la integran las llamadas estadı́sticas de orden. Ellas desempeñan papeles importantes en algunas aplicaciones como en las Cartas de Control Estadı́stico de la Calidad y como en el fundamento y manejo de algunos conceptos en Estadı́stica no paramétrica. Además de estos y otros usos, las estadı́sticas de orden son particularmente los estimadores apropiados de parámetros que rigen el recorrido de la población, y ası́ mismo son utilizadas en el juzgamiento de hipótesis referentes a estos parámetros. Por ser estimadores y sustentar reglas de decisión en poblaciones especiales es menester exponer algunos elementos y consideraciones acerca de su distribución. Definición 1.5.1. La k-ésima estadı́stica de orden, k = 1, 2, . . . , n, correspondiente a una muestra aleatoria X1 , X2 , . . . , Xn , denotada por Xk,n , está definida de la siguiente manera Xk,n = min {{X1 , X2 , . . . , Xn } − {X1,n , X2,n , . . . , Xk−1,n }} siendo X1,n : mı́nimo de la muestra Xn,n : máximo de la muestra Al conjunto de estadı́sticas de orden X1,n , X2,n , . . . , Xn,n se le designa con el nombre de muestra aleatoria ordenada. A partir de las estadı́sticas de orden pueden definirse otras estadı́sticas como: • El rango muestral R = Xn,n − X1,n • El semirango muestral SR = X1,n + Xn,n 2 • La mediana muestral ⎧ X n+1 ,n , si n es impar ⎪ ⎪ 2 ⎪ ⎨ Me = ⎪ ⎪ X n + X n2 +1,n ⎪ ⎩ 2 ,n , si n es par 2 • La función de distribución empı́rica o función de distribución muestral 1 Fn (x) = I(−∞,x] (xi ) n i=1 n 19 1.5. ESTADÍSTICAS DE ORDEN es decir, ⎧ 0, ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ k Fn (x) = , ⎪n ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1, 1.5.1 si x < X1,n si Xk,n ≤ x < Xk+1,n si x ≥ Xn,n , k = 1, 2, . . . , n − 1 Distribución de las estadı́sticas de orden Las estadı́sticas heredan en menor o mayor medida los rasgos del modelo elegido para representar el comportamiento poblacional. Especı́ficamente la distribución muestral de las estadı́sticas de orden incluye de manera explı́cita las funciones de densidad y distribución de la población como lo registran los siguientes teoremas. Teorema 1.5.1. Siendo X1,n , X2,n , . . . , Xn,n las estadı́sticas de orden o la muestra ordenada de una población con función de distribución FX (x), entonces para k = 1, 2, . . . , n n n FXk,n (y) = [FX (y)]j [1 − FX (y)]n−j j j=k Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la muestra se tiene: FX1,n (y) = 1 − [1 − FX (y)]n FXn,n (y) = [FX (y)]n Teorema 1.5.2. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de distribución contı́nua FX (x), la función de densidad de la késima estadı́stica de orden es fXk,n (y) = n! [FX (y)]k−1 [1 − FX (y)]n−k fX (y), (k − 1)!(n − k)! k = 1, 2, . . . , n La función conjunta de densidad de la j-ésima estadı́stica de orden y la k-ésima estadı́stica de orden fXj,n ,Xk,n (x, y) es c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y) para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La función conjunta de densidad de las estadı́sticas de orden es fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = ⎧ ⎪ ⎨ n! ⎪ ⎩ n fX (yi ) i=1 0 y1 < y2 < · · · < yn en otros casos 20 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Ejemplo 1.5.1. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo (α, β), determinar la función de densidad de la k-ésima estadı́stica de orden. 1 I(α,β) (x) β−α x−α I(α,β) (x) + I[β,∞) (x) FX (x) = β−α k−1 n−k 1 y−α n! y−α fXk,n (y) = I(α,β) (y) 1− (k − 1)!(n − k)! β − α β−α β−α n n! 1 = (y − α)k−1 (β − y)n−k I(α,β) (y) (k − 1)!(n − k)! β − α fX (x) = La distribución de la k-ésima estadı́stica de orden es la de una variable aleatoria con distribución Beta en el intervalo (α, β) con parámetros k y (n−k+1) cuando la población es Uniforme en el intervalo (α, β). Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puede generar una variable aleatoria Y con distribución Beta en el intervalo (α, β) mediante la relación Y = α + (β − α)X Teorema 1.5.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de distribución FX (x) continua. Para p fijo, si xp denota al único percentil 100p poblacional, entonces P [Xj,n < xp < Xk,n ] = k−1 l=j 1.5.2 n l p (1 − p)n−l l Distribución del rango, semirango y mediana muestrales Las estadı́sticas correspondientes al rango y semirango son funciones del máximo y mı́nimo muestrales, por lo tanto la determinación de su distribución parte de la consideración de la distribución conjunta de X1,n y Xn,n fX1,n ,Xn,n (x, y) = n(n − 1) [FX (y) − FX (x)] Definidas las estadı́sticas: R = Xn,n − X1,n T = X1,n + Xn,n 2 n−2 fX (x)fX (y)I(x,∞) (y) 21 1.5. ESTADÍSTICAS DE ORDEN se considera la siguiente transformación r r y =t+ x=t− 2 2 cuyo jacobiano es ∂x ∂r ∂y ∂r ∂x 1 ∂t = 2 ∂y 1 2 ∂t 1 =1 1 con lo cual n−2 fR,T (r, t) = n(n − 1) FX t + 2r − FX t − r2 fX t − En consecuencia, para r > 0, se tiene ∞ fR (r) = fR,T (r, t)dt −∞ ∞ fR,T (r, t)dr fT (t) = r 2 fX t − r 2 −∞ La distribución de la mediana está dependiendo del tamaño de la muestra. Si éste es entero impar, su distribución está totalmente determinada pues corresponde a la distribución de la estadı́stica de orden n+1 2 . Para la situación en la cual n es par, la mediana es función de las estadı́sticas de orden X n2 ,n y X n2 +1,n . Ası́ al tomar n = 2m, m = 1, 2, . . . fX n ,n ,X n +1,n (x, y) = fXm,n ,Xm+1,n (x, y) 2 2 (2m)! [FX (x)]m−1 [1 − FX (x)]m−1 fX (x)fX (y) [(m − 1)!]2 = con x < y. Considerando la transformación u = f x+y (u) = fU (u) 2 = 1.5.3 2(2m)! [(m − 1)!]2 ∞ x+y 2 ,v = y, se tiene que [FX (2u − v)]m−1 [1 − FX (v)]m−1 fX (2u − v)fX (v)dv u Distribución de la función de distribución empı́rica La función de distribución empı́rica tiene varios usos especialmente en métodos y conceptos de la Estadı́stica no paramétrica. Su gráfico se convierte en un indicativo de una primera aproximación al ajuste que brinda el modelo. Algunos aspectos de su distribución se presentan a continuación. n k P Fn (x) = = [FX (x)]k [1 − FX (x)]n−k n k donde k = 0, 1, 2, . . . , n. En efecto, denotando la variable aleatoria Zi = I(−∞,x] (Xi ) 22 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES luego Zi ∼ Ber(FX (x)), por lo tanto n Zi ∼ Bin(n, FX (x)) y por consiguiente i=1 E[Fn (x)] = FX (x) V [Fn (x)] = FX (x)[1 − FX (x)] n Teorema 1.5.4. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de distribución FX (x), entonces P Fn (x) −→ FX (x) para un valor x dado. Teorema 1.5.5 (Teorema de Glivenko-Cantelli). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de distribución FX (x), entonces Fn (x) converge uniformemente a FX (x), esto es, para cada > 0, lim P sup |Fn (x) − FX (x)| < = 1 n→∞ −∞<x<∞ FX (x) Fn (x) | x Figura 1.3: Esquema de las funciones de distribución Fn (x) y FX (x) Teorema 1.5.6. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de distribución FX (x), la sucesión de variables aleatorias √ n[Fn (x) − FX (x)] FX (x)[1 − FX (x)] converge en distribución a una variable aleatoria con distribución Normal estándar. 1.6. MOMENTOS DE ESTADÍSTICAS DE ORDEN 1.6 23 Momentos de estadı́sticas de orden Los teoremas 1.5.1 y 1.5.2 puntualizan respectivamente la función de distribución y la función de densidad de la k-ésima estadı́stica de orden. En principio, garantizada la existencia del momento de interés y determinada explı́citamente la función de distribución FX (x), podrı́a formalizarse el momento con base en las referidas funciones de distribución o de densidad. Sin embargo, su logro depende de la complejidad de la integración requerida para su cálculo, dado que algunas veces se alcanza únicamente por medio de integración numérica. A manera de ejemplo, considerando el comportamiento poblacional como indiferente para cualquier valor del intervalo (0, 1), el valor esperado, la varianza y el momento de orden r de la estadı́stica de orden k es factible determinarlos. Ejemplo 1.6.1. Siendo X1,n , X2,n , . . . , Xn,n es una muestra ordenada de una población con distribución Uniforme en el intervalo (0, 1) E[Xk,n ] = V [Xk,n ] = k n+1 k(n − k + 1) (n + 2)(n + 1)2 j(n − k + 1) ρ(Xj,n , Xk,n ) = k(n − j + 1) 12 , j<k En efecto. En primer lugar, de manera general 1 n! r E[Xk,n ] = xr+k−1 (1 − x)n−k dx (k − 1)!(n − 1)! 0 n! β(r + k, n − k + 1) = (k − 1)!(n − 1)! y utilizando la relación β(a, b) = Γ(a)Γ(b) , entonces Γ(a + b) n! Γ(r + k)Γ(n − k + 1) (k − 1)!(n − 1)! Γ(r + k + n − k + 1) n!(r + k − 1)! , 1≤k≤n = (r + n)!(k − 1)! r ]= E[Xk,n particularmente, E[Xk,n ] = k n!k! = (n + 1)!(k − 1)! n+1 2 ] − (E[Xk,n ])2 V [Xk,n ] = E[Xk,n k(k + 1) n!(k + 2 − 1)! = (n + 2)!(k − 1)! (n + 1)(n + 2) k2 k(k + 1) k(n − k + 1) − V [Xk,n ] = = 2 (n + 1)(n + 2) (n + 1) (n + 2)(n + 1)2 2 E[Xk,n ]= 24 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Por otra parte, denotándo E[Xj,n , Xk,n ] = Δ, se tiene que Δ= n! (j − 1)!(k − j − 1)!(n − k)! = n! (j − 1)!(k − j − 1)!(n − k)! Realizando la sustitución v = 1 y xj y(y − x)k−j−1 (1 − y)n−k dxdy 0 0 y 1 n−k j k−j−1 y(1 − y) x (y − x) dx dy 0 0 x y 1 n! Δ= y(1 − y)n−k y k β(j + 1, k − j) dy (j − 1)!(k − j − 1)!(n − k)! 0 n! β(1 + j, k − j)β(k + 2, n − k + 1) = (j − 1)!(k − j − 1)!(n − k)! j(k + 1) = E[Xj,n , Xk,n ] = (n + 1)(n + 2) con lo cual Cov(Xj,n , Xk,n ) = jk j(k + 1) − (n + 1)(n + 2) (n + 1)2 ρ(Xj,n , Xk,n ) = j(n − k + 1) k(n − j + 1) j<k j<k por lo tanto, como caso especial, la correlación entre el mı́nimo y máximo de la muestra bajo comportamiento poblacional Uniforme en el intervalo (0, 1) es ρ(X1,n , Xn,n ) = 1 n Como ya se mencionó, en algunos casos se requiere integración numérica para determinar momentos de una estadı́stica de orden. Sin embargo es posible presentar expresiones que permiten aproximar el valor esperado y varianza de la k-ésima estadı́stica de orden. El desarrollo de estas expresiones se basa en una expansión en serie de Taylor y en el hecho de que si X es una variable aleatoria con función de distribución FX (x) continua, la variable aleatoria Y = FX (X) tiene distribución Uniforme en (0, 1), entonces k −1 E[Xk,n ] FX n+1 k(n − k + 1) V [Xk,n ] 2 −1 k (n + 1)2 (n + 2) fX FX n+1 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25 Finalmente se expone una breve alusión a la distribución asintótica de las estadı́sticas de orden. El estudio de la distribución asintótica de la k-ésima estadı́stica de orden incluye dos casos a saber: el primero cuando n tiende a infinito y nk permanece fijo, el segundo cuando n tiende a infinito y k o n − k permanecen finitos. Para algunos efectos, el primer caso es de mayor interés; el teorema siguiente se adscribe a ese caso. Teorema 1.6.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población cuya función de distribución FX (x) es estrictamente monótona. Asumiendo que xp es el percentil 100p poblacional, es decir, FX (xp ) = p, entonces la estadı́stica de orden [np] + 1 tiene distribución asintótica Normal con valor esperado xp y varianza n[fp(1−p) 2. X (xp )] Particularmente, si p = 12 (mediana) y la población es Normal con valor esperado μ y varianza σ 2 la mediana muestral tiene distribución Normal con 2 valor esperado μ y varianza πσ 2n . Con este teorema relativo a la distribución asintótica de la k-ésima estadı́stica de orden concluye la introducción a las ideas preliminares de la Inferencia estadı́stica, presentación que además entreabre el contexto filosófico en el cual se desempeña, que describe las caracterı́sticas más relevantes de algunas estadı́sticas y registra como estadı́sticas especiales a las estadı́sticas de orden. Con esto se da paso a la exposición de los argumentos que sustentan las afirmaciones de los enunciados de los teoremas relacionados y finalmente a la serie de ejercicios cuyo desarrollo complementará la reflexión sobre estos temas iniciales y será un componente más en la aprehensión de los conceptos expuestos en este primer capı́tulo. 1.7 Demostración de los teoremas del capı́tulo Demostración (Teorema 1.3.1). Algunos apartes de la demostración pueden consultarse en A first course in mathematical statistics, de G. Roussas, páginas 133 a 135 y en Basic probability theory de R. Ash, páginas 204 y 205. p Demostración (Teorema 1.3.4). Suponiendo que Xn − → c, entonces para >0 lim P [|Xn − c| < ] = 1 = lim P [c − < Xn < c + ] n→∞ n→∞ = lim [Fn (c + ) − Fn (c − )] n→∞ = lim [Fn (c + )] − lim [Fn (c − )] n→∞ n→∞ La imagen de cualquier función de distribución es un valor que pertenece al intervalo [0, 1], luego la única posibilidad para que la igualdad anterior se de es que lim Fn (c + ) = 1 n→∞ y lim Fn (c − ) = 0 n→∞ 26 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES hecho revelador de que Fn (x) −→ F (x) siendo F (x) una función de distribución tal que 0 si x < c F (x) = 1 si x ≥ c es decir que F (x) es la función de distribución de una constante c. Suponiendo ahora que Fn (x) −→ F (x) con F (x) = I[c,∞) (x), es decir que lim Fn (x) = F (x) n→∞ entonces lim Fn (c − ) = 0 para > 0 y lim Fn (c + ) = 1 n→∞ n→∞ luego lim [Fn (c + ) − Fn (c − )] = 1 = lim P [c − < Xn < c + ] n→∞ n→∞ = lim P [|Xn − c| < ] n→∞ p lo cual significa que Xn − → c. Demostración (Teorema 1.4.1). El valor esperado del momento ordinario de orden r puede determinarse mediante dos argumentos. En primer lugar, utilizando las propiedades del valor esperado se tiene que 1 r 1 Xi = E[Xir ], n i=1 n i=1 n ]=E E[Mr,n n r = 1, 2, . . . En segundo lugar, como todas las variables aleatorias de la sucesión tienen la misma distribución, por constituir una muestra aleatoria, E[Xir ] = μr , para i = 1, 2, . . . , n, en consecuencia 1 1 μ = (nμr ) = μr n i=1 r n n E[Mr,n ]= De manera similar puede determinarse la varianza del momento ordinario de orden r. De las propiedades de la varianza, se puede afirmar que ]=V V [Mr,n n n 1 r 1 Xi = 2 V Xir , n i=1 n i=1 r = 1, 2, . . . y debido a que las variables aleatorias son independientes, pues constituyen una muestra aleatoria, lo son también las variables X1r , X2r , . . . , Xnr , con lo cual V ] [Mr,n n n 1 1 2 r E[Xi2r ] − (E[Xir ]) = 2 V [Xi ] = 2 n i=1 n i=1 27 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO y como las variables tienen distribución idéntica, V [Mr,n ]= n 1 1 μ − (μr )2 μ2r − (μr )2 = 2 n i=1 n 2r Demostración (Teorema 1.4.2). Para determinar el valor esperado de la varianza muestral, es necesario previamente verificar la identidad: n (Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2 i=1 El sumar y restar X n es el punto de partida en la verificación de la identidad, de tal manera que n (Xi − μ)2 = i=1 n (Xi − X n + X n − μ)2 = i=1 n (Xi − X n ) + (X n − μ) 2 i=1 Asimismo después de desarrollar el cuadrado indicado, n (Xi − μ)2 = i=1 n (Xi − X n )2 + 2(X n − μ) i=1 = n n (Xi − X n ) + n(X n − μ)2 i=1 (Xi − X n )2 + n(X n − μ)2 i=1 porque n (Xi − X n ) = i=1 n Xi − nX n = nX n − nX n = 0, y por lo tanto i=1 n (Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2 i=1 Con el anterior recurso, 1 n (X n − μ)2 (Xi − μ)2 − n − 1 i=1 n−1 n 1 = E[(Xi − μ)2 ] − nE[(X n − μ)2 ] n − 1 i=1 n E[Sn2 ] = E como E[(Xi − μ)2 ] = V [Xi ], E[(X n − μ)2 ] = V [X n ] y teniendo en cuenta que todas las variables aleatorias de la sucesión tienen la misma distribución, E[Sn2 ] = 2 n 1 σ 1 [nσ 2 − σ 2 ] = σ 2 σ2 − n = n − 1 i=1 n n−1 La demostración del segundo enunciado del teorema, es uno de los ejercicios de este capı́tulo. 28 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Demostración (Teorema 1.4.3). La herramienta procedente para sustentar el desarrollo de esta demostración será la desigualdad de Chevyshev, la cual 2 asegura que si X es una variable aleatoria con valor esperado μX y varianza σX finita, P [|X − μX | < rσX ] ≥ 1 − 1 r2 para cada r > 0 Aplicando la desigualdad al caso especial de la variable aleatoria X n , teniendo en σ2 , como lo manifiesta el corolario 1.4.1.1, cuenta que E[X n ] = μ y V [X n ] = n σ 1 P Xn − μ < r √ para cada r > 0 ≥1− 2 n r utilizando el reemplazo = r √σn se tiene que > 0 y σ2 P [X n − μ < ] ≥ 1 − 2 n de tal manera que σ2 lim P [X n − μ < ] ≥ lim 1 − 2 = 1 n→∞ n→∞ n es decir que lim P [X n − μ < ] = 1 n→∞ p → μ, como lo afirma la ley débil de los grandes números. lo cual significa que X n − σ2 Nota. La cota 1 − 2 crece en cuanto n crece. Si se fija la cota en 1 − δ, n 0 < δ < 1, significa que existe un tamaño de muestra mı́nimo n, para el cual σ2 P [|X n − μ| < ] ≥ 1 − δ. Dicho en otros términos 1 − 2 > 1 − δ, es decir, n P [− < X n − μ < ] ≥ 1 − δ, para n > σ2 δ2 Demostración (Teorema 1.4.4). Utilizando la función generatriz de momentos de la variable que representa a la población MX (t), o en su defecto la función caracterı́stica φX (t), t t t tX n = E exp X1 + X2 + · · · + Xn MX n (t) = E e n n n como las variables constituyen una muestra aleatoria, n MX n (t) = E e i=1 t n Xi n t t X n = = MX E e n i=1 n 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO entonces μ MX n (t) = 1 + 1! 2 t t 1 + ··· + E[X 2 ] n 2! n 29 n n t μt +O = eμt 1+ n→∞ n n lim MX n (t) = lim n→∞ función generatriz que corresponde a la función generatriz de una constante μ. (O es el sı́mbolo “o pequeña”usado en el estudio de las series). Lo cual significa que d Xn − →μ y con base en el teorema 1.3.4 se tiene que p Xn − →μ Demostración (Teorema 1.4.5). Como la sucesión X1r , X2r , . . . , Xnr conforma un conjunto de variables aleatorias independientes e idénticamente distribuidas porque la sucesión X1 , X2 , . . . , Xn es una muestra aleatoria, entonces sólo resta aplicar el teorema relativo a la Ley débil de los grandes números utilizando la sucesión X1r , X2r , . . . , Xnr , con lo cual se puede concluir que 1 r p [X ] − → E [X1r ] = μr n i=1 i n Demostración (Teorema 1.4.7). Puede consultarse en Probability and Statistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996) en las páginas 430 a 431. Demostración (Teorema 1.4.9). La estrategia para la demostración consiste en el uso de la función generatriz de momentos y de sus propiedades, para lo cual se asume la existencia de la función generatriz de momentos de la población. Se apoya la demostración en el desarrollo en serie de McLaurin de la función generatriz de momentos, demostración que también se puede llevar a cabo, utilizando la función caracterı́stica. Denotando como MZn (t) la función generatriz de momentos de la variable aleatoria Zn , se tiene: MZn (t) = E etZn √ n Xn − μ t = E exp σ n t √ Xi − μ = E exp n n σ i=1 n t √ Xi − μ exp n =E n σ i=1 30 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES como las variables de la sucesión X1 , X2 , . . . , Xn son variables aleatorias independientes por tratarse de una muestra aleatoria, las variables Y1 , Y2 , . . . , Yn también lo son, siendo Yi = Xiσ−μ , i = 1, 2, . . . , n y por lo tanto, n t t E exp √ Yi MYi √ = n n i=1 i=1 n MZn (t) = la misma distribución, con función como las variables Y1 , Y2 , . . ., Yntienen generatriz de momentos MYi √tn = MY √tn , i = 1, 2, . . . , n, entonces n MZn (t) = MY i=1 t √ n n t = MY √ n El desarrollo en serie de McLaurin de la función generatriz MY (t) evaluada en el valor √tn es 1 μ2 μ1 t √ + MY (t) = 1 + σ n 2! σ 2 t √ n 2 1 μ3 + 3! σ 3 t √ n 3 + ··· como el valor esperado es igual a cero, por lo tanto, si existen, μr = μr , r = 1, 2, . . . , y además la varianza es igual a uno, 2 3 1 μ3 t t t 1 σ2 √ √ + + ··· MY √ =1+ n 2! σ 2 n 3! σ 3 n 1 1 2 1 1 3 4 =1+ t + √ μ3 t + μ4 t + · · · n 2! 3! n 4!n efectuando el reemplazo Pn (t) = n MZn (t) = MY √tn , 1 2 2! t + 1 √ μ t3 3! n 3 + 1 4 4!n μ4 t + · · · y dado que n MZn (t) = [1 + Pn (t)] n lim MZn (t) = lim [1 + Pn (t)] n→∞ = exp lim Pn (t) n→∞ n→∞ 1 2 = e2t porque los coeficientes de t3 , t4 , . . . tienden a cero cuando n → ∞. 1 2 Además e 2 t se reconoce como la función generatriz de momentos de una variable aleatoria con distribución Normal estándar. Como 1 2 lim MZn (t) = MZ (t) = e 2 t n→∞ d de acuerdo con el teorema de Lévy, Zn − → Z, Z ∼ N (0, 1). 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 31 Demostración (Teorema 1.4.10). Los elementos que se requieren para el desarrollo de la demostración de este teorema están más allá del alcance de este texto. Demostración (Teorema 1.4.11). Nuevamente se ha elegido a la función generatriz de momentos como medio para llevar a cabo esta demostración. Siendo 1 MX (t) = exp μt + σ 2 t2 2 la función generatriz de una variable aleatoria X, X ∼ N (μ, σ 2 ), MX n (t) = E etX n n 1 Xi = E exp t n i=1 n =E t exp Xi n i=1 debido a la independencia de las variables que constituyen la muestra aleatoria, n n t t MX n (t) = E exp Xi = MXi n n i=1 i=1 Finalmente, como las citadas variables están identicamente distribuidas, de acuerdo al modelo Gaussiano, n t MX MX n (t) = n i=1 2 n 1 2 t t = exp μ + σ n 2 n i=1 2 n t 1 t = exp μ + σ 2 n 2 n 1 σ2 2 t = exp μt + 2 n 2 lo cual significa que X n ∼ N μ, σn Xi − μi , para σi i = 1, 2, . . . , n, es una variable aleatoria con distribución Normal estándar lo cual permite afirmar que Zi2 ∼ χ2 (1). Con el concurso de la función generatriz de momentos, puede establecerse que Demostración (Teorema 1.4.12). La variable aleatoria Zi = n MU (t) = E e tU =E e t i=1 Zi2 n 2 etZi =E i=1 32 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES como la sucesión Z1 , Z2 , . . . , Zn es una sucesión de variables aleatorias independientes, 12 n2 n n n 2 1 1 MU (t) = E etZi = MZi2 (t) = = 1 − 2t 1 − 2t i=1 i=1 i=1 lo cual significa que U ∼ χ2 (n). Demostración (Teorema 1.4.13). La demostración está orientada a la determinación de la independencia de X n , (X1 − X n ), (X2 , X n ), . . . , (Xn − X n ) n para luego concluir la independencia entre X n y (Xi − X n )2 . i=1 En primer lugar, la función generatriz de momentos M (t, t1 , t2 , . . . , tn ) de las n 1 variables aleatorias X n , (X1 −X n ), (X2 , X n ), . . . , (Xn −X n ), con c = √2πσ , es n (xi − μ)2 exp txn + t1 (x1 − xn ) + · · · + tn (xn − xn ) − dx1 · · · dxn c 2σ 2 Rn i=1 En segundo lugar, al considerar la integral sobre xi , i = 1, 2, . . . , n se tiene ! " ∞ (xi − μ)2 1 xi √ exp [t + nti − (t1 + t2 + · · · + tn )] − dxi n 2σ 2 2πσ −∞ que al efectuar el reemplazo n n 1 1 1 t + nti − t + n(ti − t) con t = ti = ti n n n i=1 i=1 entonces la integral anterior puede expresarse como ! " ∞ 1 1 (xi − μ)2 √ t + n(ti − t) xi − exp dxi n 2σ 2 2πσ −∞ cuyo valor es finalmente 2 σ 2 t + n(ti − t) μ t + n(ti − t) + exp n 2n2 por consiguiente M (t, t1 , t2 , . . . , tn ) = exp n i=1 y como n i=1 σ 2 t + n(ti − t) μ t + n(ti − t) + n 2n2 (ti − t) = 0, entonces n σ2 σ 2 t2 + (ti − t)2 M (t, t1 , . . . , tn ) = exp μt + 2n 2 i=1 ! " n 1 σ2 2 σ2 2 t exp (ti − t) = exp μt + 2 n 2 i=1 2 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 33 hecho que revela la independencia de X n , (X1 −X n ), (X2 −X n ), . . . , (Xn −X n ). Por consiguiente X n , (X1 − X n )2 , (X2 − X n )2 , . . . , (Xn − X n )2 es un conjunto n de variables aleatorias independientes e igualmente X n y (Xi − X n )2 . En i=1 consecuencia X n y Sn2 son estadı́sticamente independientes. Demostración (Teorema 1.4.14). De la demostración del teorema 1.4.2 se tiene que n (Xi − μ)2 = n i=1 i=1 n n (Xi − X n )2 + n(X n − μ)2 por lo tanto (Xi − μ)2 i=1 = σ2 (Xi − X n )2 i=1 + σ2 n(X n − μ)2 σ2 luego ⎡ ⎡ ⎤⎤ n (Xi − μ)2 2 2 ⎢ ⎢ i=1 ⎥⎥ ⎢t ⎥⎥ = E exp t (n − 1)Sn + t n(X n − μ) E⎢ exp ⎣ ⎣ ⎦⎦ σ2 σ2 σ2 (n − 1)Sn2 n(X n − μ)2 = E exp t E t σ2 σ2 puesto que X n y Sn2 son estadı́sticamente independientes. Debido a que n (Xi − μ)2 i=1 ∼ χ2 (n) y σ2 n(X n − μ)2 ∼ χ2 (1) σ2 entonces 1 1 − 2t n2 12 1 (n − 1)Sn2 = E exp t σ2 1 − 2t es decir (n − 1)Sn2 E exp t σ2 = 1 1 − 2t n−1 2 t< dicho de otra manera n (Xi − X n )2 i=1 σ2 = (n − 1)Sn2 ∼ χ2 (n − 1) σ2 1 2 34 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Demostración (Teorema 1.4.15). La demostración de este teorema se llevará a cabo mediante inducción matemática sobre el tamaño de muestra. Previamente a ella y con el fin de incluirlos en la demostración, es necesario aprestar tres elementos a saber: 1. Si X, Y son dos variables aleatorias independientes, cov(X, XY ) = E[Y ]V [X] 2. Si la función de densidad de una variable aleatoria X es simétrica con respecto a E[X], cov(X, X 2 ) = 2E[X]V [X] 3. Y finalmente las relaciones 1 nX n + Xn+1 n+1 n Xn+1 − X n = (n − 1)Sn2 + n+1 X n+1 = 2 nSn+1 2 En primer lugar, al ser X, Y independientes tambien lo son X 2 y Y . Por ello cov(X, XY ) = E[X 2 Y ] − E[X]E[XY ] = E[Y ]E[X 2 ] − E[Y ](E[X])2 es decir, cov(X, XY ) = E[Y ] E[X 2 ] − (E[X])2 = E[Y ]V [X]. En segundo lugar, si la función de densidad es simétrica con respecto a E[X] E (X − E[X])3 = 0 = E X 3 − 3X 2 E[X] + 3X (E[X])2 − (E[X])3 3 = E X 3 − 3E X 2 E[X] + 2 (E[X]) 3 con lo cual E X 3 = 3E X 2 E[X] − 2 (E[X]) . cov(X, X 2 ) = E X 3 − E[X]E[X 2 ] = 3E[X 2 ]E[X] − 2 (E[X])3 − E[X]E[X 2 ] 3 = 2E[X]E[X 2] − 2 (E[X]) = 2E[X] E[X 2 ] − (E[X])2 = 2E[X]V [X] Por último, X n+1 n+1 n 1 1 1 = Xi = Xi + Xn+1 = nX n + Xn+1 n + 1 i=1 n + 1 i=1 n+1 35 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 2 nSn+1 = = n+1 Xi − X n+1 i=1 n+1 2 = n+1 Xi − X n + X n − X n+1 2 i=1 Xi − X n 2 2 + 2 X n − X n+1 Xi − X n + X n − X n+1 i=1 = (n − 1)Sn2 + Xn+1 − X n 2 n Xi − X n + 2 X n − X n+1 i=1 + 2 X n − X n+1 Xn+1 − X n + (n + 1) X n − X n+1 como 2 n Xi − X n = 0, i=1 2 2 nSn+1 = (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xn+1 − X n 2 + (n + 1) X n − X n+1 2 = (n − 1)Sn2 + Xn+1 − X n + X n − X n+1 2Xn+1 + (n − 1)X n − (n + 1)X n+1 realizando los reemplazos: (n + 1)X n+1 = nX n + Xn+1 y X n − X n+1 = 1 X n − Xn+1 n+1 2 2 = (n − 1)Sn2 + Xn+1 − X n nSn+1 X n − Xn+1 2Xn+1 + (n − 1)X n − nX n + Xn+1 + n+1 Xn+1 − X n 2 2 = (n − 1)Sn + Xn+1 − X n − Xn+1 − X n n+1 n 2 = (n − 1)Sn2 + Xn+1 − X n n+1 Entrando en materia, teniendo en cuenta que E[Xi ] = μ, V [Xi ] = σ 2 , para i = 1, 2, . . . , n, al considerar una muestra de tamaño n = 2, 1 = Xi − X 2 2 − 1 i=1 2 S22 2 2 = (X1 − X2 ) 2 36 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES X1 + X2 (X1 − X2 )2 1 , = cov X1 + X2 , (X1 − X2 )2 2 2 4 1 cov X1 + X2 , X12 − 2X1 X2 + X22 = 4 1 = cov(X1 , X12 ) − 2cov(X1 , X1 X2 ) + cov X1 , X22 4 1 + cov(X2 , X12 ) − 2cov(X2 , X1 X2 ) + cov X2 , X22 4 1 = [2E[X1 ]V [X1 ] − 2E[X2 ]V [X1 ] − 2E[X1 ]V [X2 ] + 2E[X2 ]V [X2 ]] 4 cov X 2 , S22 = cov porque X1 tiene la misma distribución de X2 y además son variables independientes, 1 2μσ 2 − 2μσ 2 − 2μσ 2 + 2μσ 2 = 0 cov X 2 , S22 = 4 Por hipótesis de inducción cov X n , Sn2 2 =Δ tamaño n + 1, cov X n+1 , Sn+1 = 0. Ahora para una muestra de n 1 1 2 Xn+1 , (n − 1)Sn2 + Xn+1 − X n Xn + n+1 n+1 n+1 n n−1 2 cov X n , Sn2 + cov X , X − X = n n+1 n n+1 (n + 1)2 n−1 1 2 cov Xn+1 , Sn2 + + cov Xn+1 , Xn+1 − X n 2 n(n + 1) (n + 1) Δ = cov como cov X n , Sn2 = 0 y Xn+1 , Sn2 son independientes, 2 cov X n+1 , Sn+1 = n 2 cov X , X − X n n+1 n (n + 1)2 1 2 + cov X , X − X n+1 n+1 n (n + 1)2 Ahora bien, 2 2 2 − 2X n Xn+1 + X n = cov X n , Xn+1 cov X n , Xn+1 − X n 2 − 2cov X n , X n Xn+1 = cov X n , Xn+1 2 + cov X n , X n σ2 σ2 + 2E X n n n σ2 σ2 + 2μ =0 = −2μ n n = −2E[Xn+1 ] 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 37 2 2 2 = cov Xn+1 , Xn+1 cov Xn+1 , Xn+1 − X n − 2X n Xn+1 + X n 2 = cov Xn+1 , Xn+1 − 2cov Xn+1 , X n Xn+1 2 + cov Xn+1 , X n = −2μσ 2 + 2μσ 2 = 0 luego 2 cov X n+1 , Sn+1 =0 1 n +0 =0 2 (n + 1) (n + 1)2 Demostración (Teorema 1.4.16). Similarmente al punto de partida de la demostración del teorema 1.4.2, n (Xi − Xj )2 = i=1 n (Xi − X n ) − (Xj − X n ) 2 i=1 Desarrollando el cuadrado allı́ indicado y como n (Xi − X n ) = 0, entonces i=1 n (Xi − Xj )2 = i=1 n (Xi − X n )2 + n(Xj − X n )2 i=1 luego n n (Xi − Xj )2 = n j=1 i=1 n (Xi − X n )2 + n i=1 n = 2n n (Xj − X n )2 j=1 (Xi − X n )2 i=1 En consecuencia 1 1 (Xi − X n )2 = (Xi − Xj )2 n − 1 i=1 2n(n − 1) j=1 i=1 n n n Demostración (Teorema 1.5.1). Fijando un valor particular y, se construye la variable aleatoria dicotómica Zi = I(−∞,y] (Xi ), i = 1, 2, . . . , n. Cada una de las variables independientes Z1 , Z2 , . . . , Zn tiene distribución de Bernoulli con parámetro FX (y), puesto que P [Zi = 1] = P [Xi ≤ y] = FX (y). n Adicionalmente Zi ∼ Bin(n, FX (y)) dada la independencia citada de las i=1 variables Z1 , Z2 , . . . , Zn . n Zi representa al número de observaciones mues- i=1 trales menores o iguales al valor especı́fico y. 38 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES ! Como el evento {Xk,n ≤ y} es equivalente al evento n " Zi ≥ k , entonces la i=1 función de distribución de la k-ésima estadı́stica de orden corresponde a FXk,n (y) = P [Xk,n ≤ y] = P = n n j=k j n Zi ≥ k i=1 j n−j [FX (y)] [1 − FX (y)] Demostración (Teorema 1.5.2). La primera afirmación del teorema se refiere a la función de densidad de la estadı́stica Xk,n , función que corresponde a la derivada, con respecto a los valores particulares de Xk,n , de su función de distribución FXk,n (y). Ası́ entonces fXk,n (y) = x FXk,n (y + h) − FXk,n (y) ∂ FX (y) = lim h→0 ∂y k,n h P [y ≤ Xk,n ≤ y + h] = lim h→0 h x+h y y+t Por medio de la distribución multinomial se calcula la probabilidad del evento A(h) = {y ≤ Xk,n ≤ y + h}, evento descrito como A(h) :“(k − 1) observaciones de la muestra son menores de y, una observación pertenece al intervalo [y, y + h] y las restantes (n − k) observaciones son mayores que y + h ” P [A(h)] = n! k−1 n−k [FX (y)] [FX (y + h) − FX (y)] [1 − FX (y)] (k − 1)!1!(n − k)! reemplazando FX (v) por F (v), entonces lim h→0 n! P [A(h)] F (y + h) − F (y) k−1 n−k = [F (y)] [1 − F (y)] lim h→0 h (k − 1)!(n − k)! h n! [FX (y)]k−1 [1 − FX (y)]n−k fX (y) = fXk,n (y) = (k − 1)!(n − k)! La segunda parte del teorema que enuncia la función conjunta de densidad de las estadı́sticas de orden j y k, fXj,n ,Xk,n (x, y) se demuestra de manera similar. 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 39 xk,n y+t y x x+h xj,n Tomando Δ = fXj,n ,Xk,n (x, y) y FXj,n ,Xk,n (u, v) = F (u, v), entonces F (x + h, y + t) − F (x, y + t) − F (x + h, y) + F (x, y) ht P [x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t] = lim h→0,t→0 ht Δ= lim h→0,t→0 La probabilidad del evento A(h, t) = {x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t} igualmente se calcula por medio de la distribución multinomial. Dicho evento está descrito como A(h, t) :“(j − 1) observaciones pertenecen al intervalo I1 , una observación pertenece al intervalo I2 , una observación pertenece al I4 , (n − k) de las observaciones pertenecen al intervalo I5 y las restantes (k − j − 1) pertenecen al intervalo I3 ” Para su cálculo es menester disponer de la siguiente relación de probabilidades de pertenencia de una unidad al intervalo correspondiente. Intervalo (−∞, x] = I1 (x, x + h] = I2 (x + h, y] = I3 (y, y + t] = I4 (y + t, ∞) = I5 Probabilidad FX (x) = p1 FX (x + h) − FX (x) = p2 FX (y) − FX (x + h) = p3 FX (y + t) − FX (y) = p4 1 − FX (y + t) = p5 40 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES luego P [A(h, t)] = n! (j−1) (k−j−1) (n−k) p p2 p3 p4 p5 (j − 1)!1!(k − j − 1)!1!(n − k)! 1 si c(n, j, k)[FX (x)]j−1 = B(x), FX (v) = F (v), entonces D(h, t) es [F (x + h) − F (x)][F (y) − F (x + h)]k−j−1 [F (y + t) − F (y)][1 − F (y + t)]n−k entonces lim h→0,t→0 lim donde D(h,t) A(h, t) D(h, t) = B(x) lim h→0,t→0 ht ht corresponde a ht h→0,t→0 F (x+h)−F (x) [F (y) lim h h→0,t→0 − F (x + h)]k−j−1 F (y+t)−F (y) t [1 − F (y + t)]n−k esto es D(h, t) = [fX (x)][FX (y) − FX (x)]k−j−1 [fX (y)][1 − FX (y)]n−k h→0,t→0 ht lim es decir que fXj,n ,Xk,n (x, y) es c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y) para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La última parte es la generalización de los casos anteriores. Igualmente con el apoyo de la distribución multinomial y teniendo en cuenta que la función conjunta de densidad fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) es lim h1 →0,h2 →0,... ,hn →0 1 n ) n * P hi [yi ≤ Xi,n ≤ yi + hi ] i=1 i=1 fácilmente se deduce que n fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = n! fX (yi ) para y1 < y2 < · · · < yn i=1 Demostración (Teorema 1.5.3). Al igual que en una demostración anterior, se construye la variable aleatoria dicotómica Zi = I(−∞,xp ] (Xi ), i = 1, 2, . . . , n. Como Zi ∼ Ber(FX (xp )), considerando los eventos A : {Xj,n ≤ xp } y B : {Xk,n > xp } ellos son tales que P [A ∪ B] = 1, por lo tanto P [Xj,n ≤ xp ≤ Xk,n ] = P [A ∩ B] = P [A] + P [B] − 1 = P [A] − P [B c ] 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 41 luego P [Xj,n ≤ xp ≤ Xk,n ] = P [Xj,n ≤ xp ] − P [Xk,n ≤ xp ] como el evento A (similarmente el evento B) puede transcribirse como A : “j o más observaciones son menores o iguales a xp ”, entonces n n n l P [Xj,n ≤ xp ] = P Zi ≥ j = p (1 − p)n−l l i=1 l=j por lo tanto P [Xj,n n n n l n l n−l ≤ xp ≤ Xk,n ] = − p (1 − p) p (1 − p)n−l l l l=j l=k como j < k, P [Xj,n ≤ xp ≤ Xk,n ] = k−1 l=j n l p (1 − p)n−l l Demostración (Teorema 1.5.4). La función de distribución empı́rica puede ser reconocida como: n Zi i=1 Fn (x) = = Zn n siendo Zi = I(−∞,x] (Xi ) tal como se habı́a convenido en la sección referente a la distribución de Fn (x). Desde este punto de vista, al entenderse que Z1 , Z2 , . . . , Zn es una muestra aleatoria de una población con distribución de Bernoulli de parámetro FX (x), entonces el teorema de Khintchine garantiza que p p Zn − → FX (x), es decir que Fn (x) − → FX (x) Demostración (Teorema 1.5.5). Puede consultarse en Probability and Statistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996) en las páginas 726 a 729. Demostración (Teorema 1.5.6). En los términos de la demostración del teorema 1.5.4 y teniendo en cuenta que FX (x)[1 − FX (x)] n son finitos, entonces a la luz del teorema del lı́mite central (Lindeberg-Lévy), la sucesión {Zn }, siendo Zn , √ n[Fn ((x) − FX (x)] Fn (x) − FX (x) = Zn = √ FX (1−FX (x)) FX (1 − FX (x)) √ E[Fn (x)] = FX (x) y V [Fn (x)] = n converge en distribución a una variable aleatoria con distribución Normal estándar. 42 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES 1.8 Ejercicios del capı́tulo 1. Demuestre que si la sucesión {Xn } converge en media cuadrática también converge en probabilidad. 2. Demuestre que el promedio basado en una muestra de tamaño n de una población con valor esperado μ y varianza σ 2 , converge en media cuadrática a μ. 3. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una población con función de densidad, fX (x) = 2x I(0,1) (x) Determine la distribución muestral del mı́nimo de la muestra. 4. Continúe realizando la demostración del teorema 1.4.2 5. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una población con distribución Exponencial de parámetro θ, determine la distribución muestral del promedio de la muestra. 6. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una población con distribución Exponencial de parámetro θ, determine la distribución muestral del mı́nimo de la muestra. 7. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, 1), determine la distribución muestral del recorrido de la muestra. 8. Un dispositivo electrónico funciona a partir del funcionamiento de n componentes conectados en serie que funcionan de manera independiente. Si el tiempo al fallar de cualquier componente se modela como una variable aleatoria con distribución Exponencial de parámetro θ, determine el valor esperado y la varianza del tiempo de funcionamiento del dispositivo. 9. Una muestra de 36 botellas corresponde a la lı́nea antigua de llenado A, que estando el proceso bajo control estadı́stico el contenido de una de ellas en ml se modela como una variable aleatoria con distribución Normal de valor esperado μ y desviación estándar 12; igualmente se considera otra muestra de 49 botellas de la nueva lı́nea de llenado B, que similarmente estando el proceso bajo control estadı́stico el contenido de una de ellas se modela como una variable aleatoria con distribución Normal de valor esperado μ y desviación estándar 4. Determine la probabilidad de que los promedios muestrales difieran a lo sumo en 3 ml. 10. En el laboratorio de control de calidad de una compañı́a que produce elementos para cierto tipo de retroproyector, se encienden simultáneamente n bombillas. Utilizando el modelo Exponencial para describir el tiempo de vida de la bombilla, determine el valor esperado del tiempo de vida de la tercera bombilla en fallar. 1.8. EJERCICIOS DEL CAPÍTULO 43 11. El exámen de admisión de la Universidad Nacional de Colombia tiene un tiempo lı́mite de dos horas y media y dentro de sus normas se establece que ningún aspirante puede retirarse del aula antes de haber transcurrido una hora de examen. Podrı́a pensarse que el modelo para simbolizar el tiempo de permanencia del aspirante en el aula serı́a el modelo Exponencial doblemente truncado. Sin embargo una buena elección la constituye el modelo Exponencial desplazado. Teniendo en cuenta que el tiempo medio de permanencia es de dos horas, ¿Cuál es la probabilidad de que el docente que vigila el examen, en un aula con 25 aspirantes, no tenga que pronunciar la frase: “Por favor suspendan porque el tiempo de examen ha concluido”?. La función de densidad de una variable aleatoria X con distribución Exponencial desplazada con parámetro θ = (θ1 , θ2 ), θ1 ∈ R, θ2 > 0, es: −(x − θ1 ) 1 fX (x, θ) = exp I(θ1 ,∞) (x) θ2 θ2 12. Con referencia al ejercicio anterior, ¿Cuál es el tiempo medio de permanencia en el aula del aspirante que se retira en primer lugar?. 13. Igualmente con referencia al ejercicio 11, ¿Cómo cambia la respuesta al mismo y cómo cambia la respuesta al ejercicio 12, si se adopta el modelo de Pareto?. La función de densidad de una variable aleatoria X con distribución de Pareto con parámetro θ = (θ1 , θ2 ), θ1 > 0, θ2 > 0, es: θ2 θ1θ2 I(θ1 ,∞) (x) fX (x, θ) = xθ2 +1 14. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con función de distribución absolutamente continua, ¿Cuál es la probabilidad de que el máximo de la muestra exceda a la mediana poblacional?. 15. Si las variables aleatorias X1 , X2 , . . . , Xn , tienen la misma varianza y si la correlación entre cualquier par de variables tiene el mismo valor, demuestre que dicha correlación tiene como cota inferior a −1/(n − 1). 16. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ, detern mine la probabilidad de que X1 = 1 dado que Xi = j, j = 1, 2, . . . , n. i=1 17. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución de Poisson con parámetro θ, demuestre que para cualquier entero positivo k, k ≤ n, la distribución n condicional de X1 , X2 , . . . , Xn dado que Xi = k, corresponde a una i=1 distribución multinomial. 44 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES 18. Un procedimiento de control estadı́stico de calidad establece para cierto proceso de fabricación, la selección de manera aleatoria y sin reemplazo de cinco amortiguadores de un lote de inspección que contiene seis de clase A y ocho de clase B, para ser examinados en el laboratorio. Si X 5 es la proporción muestral de amortiguadores de clase A, determine el valor esperado y la varianza de dicha estadı́stica. 19. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Binomial negativa de parámetros k n y π, determine la distribución muestral de la estadı́stica Tn = Xi . i=1 20. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con valor esperado μ y varianza 4, determine el tamaño mı́nimo de la muestra para el cual la probabilidad de que el valor esperado y el promedio de la muestra no difieran en más de 0.1, sea superior a 0.95. 21. Con referencia al ejercicio anterior, ¿Cuál debe ser el tamaño de la muestra, si la varianza fuese el doble?. 22. La fracción de baldosas de cerámica con imperfectos producidas por una compañı́a, es del 0.8% cuando el proceso está bajo control estadı́stico. Determine el tamaño de muestra mı́nimo para el cual la probabilidad de que la fracción con imperfectos y la proporción de baldosas con imperfectos en la muestra no difieran en más del 1%, sea superior a 0.95. 23. Una norma particular de metrologı́a determina que deben realizarse 36 mediciones de la emisión de ondas de un horno de microondas. El equipo debe estar calibrado de tal forma que la variabilidad en cada medición, cuantificada por medio de la desviación estándar es de σ unidades. Utilice la desigualdad de Chevyshev y el teorema del lı́mite central en forma comparativa, para establecer el valor mı́nimo de la probabilidad de que el promedio de las mediciones difiera a lo sumo del verdadero valor promedio en σ5 unidades. ¿Cuál es la razón de la diferencia de los resultados?. 24. Con referencia al ejercicio anterior, también utilizando en forma comparativa la desigualdad de Chevyshev y el teorema del lı́mite central, determine cuál debe ser el número de mediciones para que el valor mı́nimo de la probabilidad de que el promedio de las mediciones difiera a lo sumo del verdadero valor promedio en σ6 unidades, sea de 0.95. ¿Cuál es la razón de la diferencia de los resultados?. 25. Un procedimiento de control estadı́stico de calidad ha establecido para la inspección del proceso de elaboración de láminas de madera aglomerada, un tamaño de muestra de 125 láminas. Si además se ha reconocido que el modelo de Poisson de parámetro 3 es un buen modelo para describir el número de defectos por lámina, determine la probabilidad de que el promedio de defectos por lámina en la muestra sea menor de 2. 1.8. EJERCICIOS DEL CAPÍTULO 45 26. Siendo dos minutos y cuarenta y cinco segundos el tiempo medio de transacción en un cajero electrónico y que el modelo Exponencial es un modelo admisible para representar el tiempo que utiliza un cliente en la transacción, determine la probabilidad de que se requieran más de 55 minutos para atender una cola de 16 clientes, pues la persona que ocupa el puesto 16 debe decidir si espera o no, en razón a que cuenta únicamente con los citados 55 minutos para realizar la diligencia. 27. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ, ¿Cuál es la distribución conjunta de X1 , X2 , . . . , Xn y cuál es la distribución de n Xi ?. la estadı́stica i=1 28. En el perı́odo preelectoral de la elección presidencial del año 2002 en Colombia, los estimativos del favoritismo del candidato en definitiva elegido estuvieron persistentemente cerca del 52%. ¿Con cuál tamaño de muestra se hubiese podido predecir que no habrı́a segunda vuelta, suponiendo como cierta la información que se disponı́a en ese momento y adoptando una probabilidad del 95%?. 29. El tercer momento central es un elemento ligado a la descripción de la simetrı́a de la función de densidad de una variable aleatoria. ¿Qué puede afirmarse de la simetrı́a de la función de densidad del promedio de una muestra de una población con distribución de Bernoulli de parámetro θ, cuando el tamaño de la muestra crece?. 30. Determine el valor esperado y la varianza de la desviación estándar de una muestra aleatoria de una población con distribución normal de valor esperado μ y varianza σ 2 . 31. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con función de densidad, fX (x) = 1 I{1,2,... ,k} (x) k determine el valor esperado del semirango de la muestra. 32. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con valor esperado μ y varianza finitos, muestre que las estadı́sticas, n 2 iXi n(n + 1) i=1 n 6 • i 2 Xi n(n + 1)(2n + 1) i=1 • convergen en probabilidad a μ. 46 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES 33. Si las variables X1 , X2 , . . . , constituyen una sucesión de variables aleatorias, tales que P [Xi = i] = P [Xi = −i] = 12 , entonces E[Xi ] = μ = 0, n X i no converge en probabilidad a μ = 0. i = 1, 2, . . . . Muestre que n i=1 34. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ), muestre que el máximo de la muestra converge en probabilidad a θ. 35. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una población con mediana θ, muestre que la mediana de la muestra converge en probabilidad a θ. 36. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, 1), determine el valor al cual la media geométrica de la muestra Gn converge en probabilidad. + , n , n Gn = Xi i=1 37. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Exponencial con parámetro θ, muestre que la variable aleatoria, √ d → Z ∼ N (0, 1) Qn = n θX n − 1 − 38. La cantidad de café molido que se empaca en bolsas de 500 gr mediante un proceso que estando bajo control estadı́stico, puede modelarse como una variable aleatoria con valor esperado 500 y desviación estándar 10. Con base en una muestra de 100 bolsas determine la probabilidad de que el promedio de la muestra esté entre 495 gr y 504 gr. 39. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una problación con distribución de Bernoulli de parámetro θ, muestre que la estadı́stica, Xn − θ Qn = . X n 1 − X n /n converge en distribución a una variable aleatoria con distribución Normal estándar. 40. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una problación con distribución de Poisson de parámetro θ, muestre que p → P [X1 = 0] exp −X n − 47 1.8. EJERCICIOS DEL CAPÍTULO 41. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con función de densidad, fX (x) = x exp(−x) I(0,∞) (x) determine el valor de la constante d, tal que P X n > d = 0.95. 42. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con función de densidad, fX (x) = 12x2 (1 − x) I(0,1) (x) determine el valor del tamaño de muestra tal que P n i=1 Xi > 4 5n ≤ 0.05. 43. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ). Determine la función de distribución de la variable aleatoria Wn = n(θ − Xn,n ). ¿Cómo se distribuye la variable aleatoria a la cual la sucesión W1 , W2 , . . . , Wn , . . . converge en distribución?. 48 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES Capı́tulo 2 ESTIMACIÓN PUNTUAL DE PARÁMETROS La primera sección del capı́tulo anterior mencionó que los modelos son elementos conexos con los quehaceres de la Ciencia. De ı́ndole diferente y con propósitos distintos, los modelos son artificios que cooperan en la descripción y explicación de la realidad al representarla de una manera muy peculiar, que posibilitan descripciones y explicaciones generales o minuciosas, según sea el propósito. Entre otras funciones, el modelo subsume en una especie de ideograma, una variedad de casos similares. Como modelo especial el modelo probabilı́stico, por su parte, simboliza mediante una expresión algebraica el comportamiento genérico de variables que aluden mediciones, conteos, o valoraciones de unidades estadı́sticas; pero igualmente el modelo probabilı́stico puede entenderse como la representación del compendio de situaciones individuales, es decir constituye una familia de modelos particulares de la misma naturaleza, modelos que se pueden singularizar determinando valores especı́ficos de los parámetros, aquellas constantes que son elementos integrantes del modelo. El vocablo puntual, que adjetiva la estimación motivo de este capı́tulo, tiene en el Castellano varias acepciones. El sentido que se le debe otorgar dentro del contexto de la Inferencia estadı́stica es el de perteneciente o relativo al punto, por tratarse de la estimación de un parámetro por medio de un valor particular de una estadı́stica, un punto del recorrido de ella, y también para distinguirla de otra forma de estimación, la estimación por intervalo; por ello es que algunos traductores utilizan la expresión de estimación de punto. En ese sentido la estimación puntual de los parámetros puede interpretarse como la adopción de un modelo individual elegido dentro de una familia, para representar una realidad particular, elección fruto de la tasación de los respectivos parámetros por medio de un cálculo realizado con los valores observados de la muestra aleatoria, a través de la expresión que define la estadı́stica facultada como estimador. La finalidad de este capı́tulo es la exposición de algunos criterios que per49 50 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS miten estudiar el desempeño de estadı́sticas propuestas como estimadores, criterios que como consecuencia son algunos de los principios que facultan definitivamente a una estadı́stica para desempeñarse como estimador. La estadı́stica propuesta, o en examen, es habitualmente producto de la utilización de un método de construcción de estimadores. La parte inicial del capı́tulo está dedicada a la presentación e ilustración de los métodos más corrientes en la construcción de estimadores y la segunda parte substancial del capı́tulo está dedicada al estudio de esos criterios evaluativos de un estimador. Como ya se ha venido insinuando, se acude al concepto de variable aleatoria para representar una variable de interés que corresponde a la respuesta de cualquier unidad estadı́stica, variable que al denotarse como X, su función de densidad 1 , su función de distribución, su función generatriz de momentos y su función caracterı́stica serán escritas casi siempre y de ahora en adelante como, fX (x, θ), FX (x, θ), MX (t, θ) y φX (t, θ) respectivamente, para enfatizar el hecho de que las funciones asociadas al modelo asumido como modelo poblacional dependen, además de los valores para los cuales existen las mencionadas funciones, de las constantes inherentes al modelo dispuestas en el vector de k componentes θ = (θ1 , θ2 , . . . , θk ) . La finalidad de la estimación puntual de parámetros es estimar de la manera más eficiente los componentes del vector o una función r(θ) del mismo, a partir de la información disponible en la muestra. Como preámbulo de la primera sección concerniente a los métodos tradicionales de construcción de estimadores, se presenta la definición inicial para la aprehensión de los elementos conceptuales integrantes del proceso de estimación estadı́stica. Definición 2.0.1. Siendo X una variable aleatoria cuya función de densidad es fX (x, θ), se denomina espacio del parámetro al conjunto de todos los posibles valores de los componentes del vector θ, denotado como Θ, Θ ⊆ Rk Ejemplo 2.0.1. El modelo Uniforme es un modelo apto para emular variables que se distinguen por presentar frecuencias indiferentes para sus distintos valores. Considerando la variable aleatoria X con distribución Uniforme en el intervalo (0, θ), es evidente a partir de su función de densidad, fX (x, θ) = 1 I(0,θ) (x) θ que el cero es una frontera fija y que el parámetro θ se desempeña como la frontera superior del recorrido de la variable, el cual asume un valor especı́fico ante una situación también especı́fica. En este caso el parámetro θ es un real positivo, por consiguiente, el espacio del parámetro es el conjunto: Θ = {θ|θ > 0} 1 Este texto, con el objeto de simplificar el lenguaje, utiliza la expresión función de densidad para referirse a la función de densidad de una variable aleatoria continua, a la función de masa, de probabilidad o de cuantı́a de una variable aleatoria discreta. El contexto de su utilización revelará el tipo de variable en referencia o se precisará cuando sea requerido. 51 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES Ejemplo 2.0.2. El modelo Gaussiano comentado y utilizado profusamente representa variables cuyas frecuencias, con marcada simetrı́a, resaltan los valores intermedios y marginan los valores inferiores y superiores. Como es conocido son muchas las variables factibles de ser abstraı́das por este modelo. Considerando la variable aleatoria X con distribución Normal de valor esperado θ1 y varianza θ2 , es sabido que θ1 se desempeña como punto de simetrı́a de su función de densidad 2 1 (x−θ1 ) 1 fX (x, θ) = √ √ e− 2 θ2 2π θ2 y θ2 regula su grado de apuntamiento como consecuencia de su dispersión. El modelo admite cualquier real como punto de simetrı́a, mientras que exige un valor positivo para θ2 ; por consiguiente, el espacio del parámetro es el conjunto Θ = {θ1 , θ2 |θ1 ∈ R, θ2 > 0} θ2 θ1 2.1 2.1.1 Métodos clásicos para construir estimadores El método de máxima verosimilitud Con la denominación de método de máxima verosimilitud resultado de una amplia aceptación de la traducción por verosimilitud del término inglés likelihood, es el método de construcción de estimadores más difundido y tal vez más utilizado, aunque en forma muy particular ya habı́a sido concebido y empleado por Gauss, se debe realmente a Fisher quien lo hizo público en la primera década del siglo XX. Por su fundamento y por producir estimadores que poseen propiedades especiales, propiedades que se estudiarán más adelante se convierte en un método con atractivos propios. Definición 2.1.1. Siendo X1 , X2 , . . . , Xn una sucesión de variables aleatorias idénticamente distribuidas pero no necesariamente independientes, la función conjunta de densidad de X1 , X2 , . . . , Xn se conoce con el nombre de función de verosimilitud de X1 , X2 , . . . , Xn . 52 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Definición 2.1.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ, la función de verosimilitud de la muestra se denota y corresponde a: n L(θ; x1 , x2 , . . . , xn ) = fX (xi , θ) i=1 Acudiendo nuevamente a la primera sección del capı́tulo anterior para tener presente el sentido semántico que allı́ se aclaró, donde estimar significa la realización formal de un avalúo, como proceso expreso, preciso y determinado que exige contar con información, los valores particulares x1 , x2 , . . . , xn , valores ya observados de las variables constituyentes de la muestra aleatoria, son el acervo de información con el cual se cuenta una vez haya concluido el acopio y registro de la misma en el estudio o investigación particular. En consecuencia dichos valores pueden asumirse como fijos en la función de verosimilitud y es por eso que en muchos textos se le considera como función de θ exclusivamente y suele expresarse como L(θ). Este texto utilizará en algunas oportunidades la expresión condensada L(θ) o simplemente L a cambio de L(θ; x1 , x2 , . . . , xn ). Definición 2.1.3. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ, el estimador T = t(X1 , X2 , . . . , Xn ) se dice que es el estimador máximo-verosı́mil de θ (MLE de θ, conservando las siglas inglesas), si el valor particular de t = t(x1 , x2 , . . . , xn ) es tal que el supremum de L, sup{L(θ)|θ ∈ Θ} se consigue cuando θ = t, en cuyo caso t se denomina estimación máximoverosı́mil de θ. El derrotero de la estimación máximo-verosı́mil puede percibirse inicialmente a través del siguiente ejemplo. Ejemplo 2.1.1. Como parte de una estrategia de mercadeo, una marca de pilas obsequia a la persona que presente 10 pilas usadas impresas con el rótulo de promoción “sello de oro”, un paquete de cuatro pilas nuevas. Para imprimir en las pilas el rótulo se dispone de una máquina rotuladora que tiene tres niveles: alto, medio y bajo; la máquina estampa aleatoriamente el rótulo promocional en el nivel alto, medio y bajo respectivamente al 75%, 50% y 25% de las pilas. El comité ejecutivo de la empresa, basado en la información de las ventas, determina el nivel en que debe operar la rotuladora en un periodo determinado. Un comprador de un paquete desea estimar el nivel en el cual está operando la rotuladora. Para ello construye la tabla 2.1 basado en que el número de pilas rotuladas como “sello de oro”en un paquete de cuatro se puede modelar como una variable aleatoria X distribuida binomialmente con n = 4 y probabilidad de éxito θ. En este caso particular el espacio del parámetro es Θ = { 14 , 12 , 34 }. Si el comprador sólo dispone de un paquete de cuatro pilas para inferir el nivel 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 53 de la rotuladora, sus estimaciones máximo-verosı́miles serán: 1 4 1 2 3 4 o equivalentemente nivel bajo, si x = 0 o si x = 1 o equivalentemente nivel medio, si x = 2 o equivalentemente nivel alto, si x = 3 o si x = 4 x θ 0 1 2 3 4 1 4 1 2 3 4 0.316406 0.421875 0.210938 0.046875 0.003906 0.062500 0.250000 0.375000 0.250000 0.062500 0.003906 0.046875 0.210938 0.421875 0.316406 Tabla 2.1: Tabla de compilación de valores de una función de densidad Binomial con n = 4 y probabilidad de éxito θ justamente porque para un valor especı́fico x, la estimación corresponde a aquella donde la probabilidad es máxima. El éxito de la promoción fue tal que una compañı́a de gaseosas acudió a la misma estrategia, obsequiando una canasta de 30 unidades a la persona que presente 75 tapas con la leyenda “Apaga gratis tu sed”. A diferencia de la anterior, la rotuladora de la compañı́a de gaseosas tiene la particularidad de que el nivel de estampación se puede ajustar a cualquier porcentaje. Igualmente a partir del número de botellas cuyas tapas contienen la leyenda de la promoción en una canasta de 30 unidades, un comprador de una canasta desea estimar el nivel en el cual está operando la rotuladora. Para este caso ya no es posible construir una tabla como la tabla 2.1, porque el espacio del parámetro es un conjunto infinito, Θ = {θ|0 < θ < 1}. Se podrı́a construir una tabla similar bajo una selección de valores particulares de θ, entonces, denotando como X: número de botellas cuyas tapas contienen la leyenda promocional en una canasta de 30 unidades, los valores de la función 30 x L(θ) = P [X = x] = θ (1 − θ)30−x x vistos como los componentes de una fila en una tabla similar a la tabla 2.1, son los valores de una función de densidad para un valor especı́fico de θ. Una columna de una tabla construida con algunos valores de θ, estarı́a constituida por un conjunto de valores de funciones de densidad calculados con distintos valores del parámetro θ y fijo el valor de x. Leı́da verticalmente esta tabla, 54 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS mostrarı́a el máximo del citado conjunto, la mayor probabilidad, indicativa de que su correspondiente valor de θ es el valor más verosı́mil bajo las condiciones mencionadas. Como para efectos de esta estimación no existe la posibilidad de elegir valores particulares del parámetro, se acude al Cálculo diferencial y en esta forma el valor de θ para el cual L(θ) sea máxima corresponde al valor más verosı́mil del nivel de estampación. Por ejemplo, si en una canasta se encuentran seis botellas cuyas tapas están marcadas con la leyenda promocional, 30 6 L(θ) = P [X = 6] = θ (1 − θ)24 6 función cuya primera derivada es 30 6θ5 (1 − θ)2 4 − 24θ6 (1 − θ)2 3 L (θ) = 6 derivada que es nula cuando θ = 15 , y en ese punto la función L(θ) tiene máximo, lo cual significa que el valor más verosı́mil del nivel de estampación es del 20%, cuando se dispone únicamente de la información relativa a una canasta que contiene seis unidades premiadas. El anterior y los cuatro ejemplos siguientes, a la luz de la definición 2.1.3 mencionan el máximo de un conjunto o función, teniendo en cuenta que cuando un conjunto posee máximo, el cual pertenece al conjunto, el supremum de dicho conjunto es el mismo máximo. Lema 2.1.1. Si t hace máxima a L(θ), t igualmente hace máximo a ln L(θ) Ejemplo 2.1.2. Se toma una muestra de tamaño tres de una población con distribución de Poisson de parámetro θ cuyos los resultados son, x1 = 2, x2 = 0, x3 = 5. Determinar la estimación máximo-verosı́mil de θ. 2 −θ 0 −θ 5 −θ θ e θ e θ e θ7 e−3θ L(θ) = = 2! 0! 5! 2!5! 1 L (θ) = 7θ6 e−3θ − 3θ7 e−3θ 2!5! L (θ) = 0 cuando θ = 0 o cuando θ = 73 . Luego, la estimación máximo-verosı́mil de θ es 73 , el valor θ = 0 no es un valor admisible por el modelo de Poisson porque θ ∈ Θ = {θ|θ > 0} Ejemplo 2.1.3. Determinar el MLE de θ a partir de una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) = θx (1 − θ)1−x I{0,1} (x), θ ∈ Θ = {θ|θ ∈ (0, 1)} 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 55 L(θ; x1 , x2 , . . . , xn ) = θx1 (1 − θ)1−x1 θx2 (1 − θ)1−x2 . . . θxn (1 − θ)1−xn n xi ln L(θ; x1 , x2 , . . . , xn ) = n i=1 xi xi ln θ + n − i=1 n ∂ ln L(θ; x1 , x2 , . . . , xn ) = ∂θ n n− = θi=1 (1 − θ) θ n xi ln(1 − θ) i=1 n n− xi i=1 n xi i=1 − 1−θ n xi n− xi ∂2 i=1 i=1 ln L(θ; x , x , . . . , x ) = − − <0 1 2 n ∂θ2 θ2 (1 − θ)2 lo cual garantiza la existencia del máximo de la función ln(L(θ; x1 , x2 , . . . , xn )). Luego ln L(θ) tiene máximo cuando n i=1 θ n n− xi xi i=1 = 1−θ o de otra manera cuando n 1 −1= −1 n θ xi i=1 entonces ln L(θ) tiene máximo en θ = 1 n n xi . Es decir, el estimador máximo- i=1 verosı́mil de θ es X n , llamado en este caso proporción muestral . Ejemplo 2.1.4. Determinar el MLE de θ a partir de una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) = e−θ θx I{0,1,2,... } (x), x! θ ∈ Θ = {θ|θ > 0} 56 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS L(θ; x1 , x2 , . . . , xn ) = e−θ θx1 x1 ! n = e −nθ θi=1 n ) xi ! e−θ θx2 x2 ! ... e−θ θxn xn ! xi i=1 ln L(θ; x1 , x2 , . . . , xn ) = n n xi ln θ − nθ − ln i=1 n ∂ ln L(θ; x1 , x2 , . . . , xn ) = ∂θ xi ! i=1 xi i=1 −n θ n xi ∂2 i=1 ln L(θ; x , x , . . . , x ) = − <0 1 2 n ∂θ2 θ2 con lo cual se garantiza la existencia del máximo de ln L(θ; x1 , x2 , . . . , xn ) en n n θ = n1 xi , es decir el MLE de θ es n1 Xi . i=1 i=1 Ejemplo 2.1.5. Determinar el MLE de θ a partir de una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad θ ∈ Θ = {θ|θ > 0} fX (x, θ) = θxθ−1 I(0,1) (x), Como en los casos anteriores al hacer uso del Cálculo diferencial se deduce que el MLE de θ es n − n ) ln Xi i=1 Es evidente el respaldo que el Cálculo diferencial prestó para la construcción de los estimadores máximo-verosı́miles en los ejemplos anteriores, tratándose de la herramienta matemática central del procedimiento, pues la consecución de estimadores de esta naturaleza es en sı́ uno de los denominados problemas de máximos y mı́nimos. Sin embargo, no siempre es pertinente la utilización de esta herramienta, por ejemplo en un caso particular en el cual la función de verosimilitud no sea diferenciable. Los siguientes ejemplos muestran una forma alternativa de encontrar un MLE. Ejemplo 2.1.6. Determinar el MLE de θ a partir de una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad θ ∈ Θ = {θ|θ ∈ R} fX (x, θ) = I[θ− 12 ,θ+ 12 ] (x), n L(θ; x1 , x2 , . . . , xn ) = I[θ− 12 ,θ+ 12 ] (xi ) i=1 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 57 fX (x, θ) | θ− | 1 2 | θ+ θ 1 2 x Figura 2.1: Gráfica de la función de densidad correspondiente al ejemplo 2.1.6 como θ − 1 2 ≤ xi ≤ θ + 12 , i = 1, 2, . . . , n entonces 1 ≤ xi 2 1 y θ + ≥ xi 2 θ− luego xi − 1 2 ≤ θ ≤ xi + 1 2 implica implica 1 2 1 θ ≥ xi − 2 θ ≤ xi + para i = 1, 2, . . . , n, particularmente xn,n − 1 1 ≤ θ ≤ x1,n + 2 2 de tal manera que la función de verosimilitud se puede expresar como L(θ) = I[xn,n − 12 ,x1,n + 12 ] (θ) L(θ) | xn,n − | 1 2 | x1,n + 1 2 θ Figura 2.2: Gráfica de la función de verosimilitud correspondiente al ejemplo 2.1.6 Como se deduce de la figura 2.2, cualquier valor entre xn,n − 12 y x1,n + 12 hace máxima la función de verosimilitud. Como el papel que desempeña el parámetro 58 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS es la determinación de la posición de la función de densidad, que coincide con el centro del recorrido de la variable, es razonable asumir como MLE de θ a X1,n + Xn,n 2 Ejemplo 2.1.7. Determinar el MLE de θ a partir de una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) = 1 I(0,θ) (x), θ θ ∈ Θ = {θ|θ > 0} n n 1 L(θ; x1 , x2 , . . . , xn ) = I(0,θ) (xi ) θ i=1 Como 0 < xi < θ, en particular xn,n < θ, luego n 1 L(θ; x1 , x2 , . . . , xn ) = I(xn,n ,∞) (θ) θ El estimador máximo-verosı́mil de θ es Xn,n , porque el sup(L(θ)) = 1 xn,n n . L(θ) | xn,n θ Figura 2.3: Gráfica de la función de verosimilitud correspondiente al ejemplo 2.1.7 Teorema 2.1.1 (Principio de invarianza de un MLE). Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad fX (x, θ), Tn = t(X1 , X2 , . . . , Xn ) un MLE de θ, θ ∈ Θ, Θ ⊆ R, y si r(θ) es una función uno a uno, entonces r(Tn ) es el estimador máximo-verosı́mil de la imágen de θ bajo la función r. De manera más general, este principio de invarianza de los estimadores máximo-verosı́miles, se puede enunciar como lo establece el siguiente teorema. 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES Teorema 2.1.2. Siendo Tn = (1) (2) (k) Tn , Tn , . . . , Tn 59 un MLE de θ, donde (j) Tn = tj (X1 , X2 , . . . , Xn ) para cualquier 1 ≤ j ≤ k, un estimador basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), θ = (θ1 , θ2 , . . . , θk ) . Si la función r(θ) = (r1 (θ), r2 (θ), . . . , rl (θ)), 1 ≤ l ≤ k entonces el MLE de la imágen de θ bajo r es (r1 (Tn ), r2 (Tn ), . . . , rl (Tn )) Ejemplo 2.1.8 (Estimación en muestras censuradas). Para concluir el tema del método de máxima verosimilitud, se presenta una breve alusión a las muestras censuradas. En algunas aplicaciones como las relacionadas con los ensayos clı́nicos, con el análisis de sobrevivencia o con algunas investigaciones de laboratorio, el acopio de la información pertinente consiste en obtener el valor de la medición del tiempo de duración de algún evento vital o biológico de cada una de las n unidades estadı́sticas elegidas como tamaño de muestra, sólo que al finalizar el tiempo t establecido para el estudio, k < n de las unidades presentan valores en la duración inferiores a t, porque las (n − k) unidades restantes superaron el tiempo establecido pero a causa de la finalización del estudio no se conocen con exactitud sus valores. También se presentan situaciones en las cuales el estudio finaliza cuando únicamente k ≤ n de las unidades estadı́sticas hayan concluido su observación, faltando las restantes (n − k) unidades. En cualquiera de las dos situaciones se habla de una muestra censurada. Cuando t se ha establecido como un tiempo fijo, k representada por la variable K puede entenderse como una variable aleatoria y se habla en este caso de una muestra censurada del tipo I . Si el número de unidades k necesario para concluir el estudio se fija de antemano y el tiempo correspondiente t representado por la variable T es considerado como una variable aleatoria, entonces la muestra recibe el nombre de muestra censurada del tipo II . Siendo X la variable aleatoria que representa la duración del evento vital o biológico de cualquier unidad estadı́stica, el valor x1,n representa la duración de la unidad con menor valor, x2,n representa la duración de la unidad con el siguiente valor, y ası́ sucesivamente hasta xk,n que representa la duración de la última unidad con mayor duración inferior al tiempo t. Las restantes (n − k) unidades, tienen una duración mayor al tiempo t, duración que no se puede establecer por la culminación del acopio la de información del estudio. Considerando como objeto una muestra aleatoria censurada del tipo II, fijando los valores de k y n, como también asumiendo el modelo del tipo Exponencial para representar la duración del evento como la variable aleatoria X, con función de densidad, fX (x, θ) = 1 −x e θ I(0,∞) (x) θ se busca estimar el parámetro θ, bajo estas condiciones. Para determinar un estimador máximo-verosı́mil del parámetro, la función de verosimilitud acorde 60 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS con el tipo de muestra, está constituida por el producto de dos factores: k n! 1 − xi,n e θ (n − k)! i=1 θ n e− y xk,n θ i=k+1 El primer factor es la parte de la función de verosimilitud correspondiente a las k unidades con duración inferior al tiempo de corte; la presencia del coeficiente n! del producto de densidades radica en el hecho de que hay (n−k)! formas de tener k unidades de un total de n con tiempos inferiores al citado corte, por tratarse de k-uplas ordenadas sin repetición. El segundo factor corresponde a la probabilidad de que (n − k) unidades tengan una duración superior a xk,n x debido a que P [X > x] = e− θ . De esta manera la función de verosimilitud de las n variables aleatorias es: k L(θ; x1 , x2 , . . . , xn ) = 1 − xi,n n! e θ (n − k)! i=1 θ n e− xk,n θ =L i=k+1 k k 1 1 (n − k)xk,n exp − xi,n exp − θ θ i=1 θ k k 1 1 n! exp − xi,n + (n − k)xk,n L= (n − k)! θ θ i=1 n! L= (n − k)! Procediendo de la manera usual se puede deducir que el MLE de θ con base en una muestra aleatoria censurada del tipo II bajo este modelo Exponencial es k Tn = Xi,n + (n − k)Xk,n i=1 k Por supuesto si se asume otro modelo para describir la duración del evento vital o biológico, la determinación del correspondiente MLE dependerá del referido modelo, pero el bosquejo aquı́ presentado se mantiene. Nota. La denominada función de verosimilitud en el ejemplo anterior referente a una estimación en una muestra censurada, no es una función de verosimilitud estrictamente hablando. Es una función de cuasiverosimilitud, cuyo máximo reside en una estimación cuasimáximo-verosı́mil. Precisamente para denotar a un estimador de esta naturaleza, se utiliza la sigla QMLE (quasi maximum likelihood estimator). Incorrectas funciones de verosimilitud son propias de situaciones cuando la función de verosimilitud es supremamente complicada, cuando hay presencia de datos censurados, cuando se realizan algunos estudios basados en simulación o cuando se requiere de excesivo cómputo estadı́stico para determinar una estimación máximo-verosı́mil y se acude a una función de cuasiverosimilitud para simplificarlo. 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 2.1.2 61 El método de los momentos Antes de la divulgación del método de máxima verosimilitud, surgió el método más antiguo de construcción de estimadores, denominado el método de los momentos, que fue propuesto y utilizado por Pearson a finales del siglo XIX. En casi todos los textos se le describe como un método que deduce los estimadores por medio de un eje consistente en igualdades algebraicas de momentos muestrales con momentos poblacionales. Este texto sin apartarse radicalmente del proceso tradicional, fundamenta el método y por lo tanto su procedimiento en la convergencia en probabilidad de los momentos muestrales a sus respectivos momentos poblacionales. Antes de exponer la idea del método es preciso hacer referencia a dos teoremas que auxilian la fundamentación de método y su aplicación. (j) Teorema 2.1.3. Considerando las variables aleatorias Xn , Xj , j = 1, 2, . . . , k, (1) (2) (k) y la función g : Rk −→ R continua, tal que tanto g(Xn , Xn , . . . , Xn ) como (j) p → Xj implica que g(X1 , X2 , . . . , Xn ) sean variables aleatorias, entonces si Xn − p → g(X1 , X2 , . . . , Xn ) g(Xn(1) , Xn(2) , . . . , Xn(k) ) − p p → X y Wn − → W entonces Corolario 2.1.3.1. Si Xn − p →X +W 1. Xn + Wn − p → XW 2. Xn Wn − p → aX + bW ; 3. aXn + bWn − 4. Xn Wn p − → X W ; a, b constantes P [Wn = 0] = P [W = 0] = 1 p → X2 5. Xn2 − 6. 1 Xn p − → 1 X; P [Xn = 0] = P [X = 0] = 1 Teorema 2.1.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Existiendo el momento μ2r = E X 2r , r = 1, 2, . . . , 1 Xi − X n n i=1 n r p − → μr El método de los momentos consiste fundamentalmente en determinar las estadı́sticas que convergen en probabilidad a cada componente θj , j = 1, 2, . . . , k, del parámetro θ, a partir de un sistema de expresiones p M1 − → μ1 p M2 − → μ2 .. . p → μk Mk − 62 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS sistema fundamentado en los enunciados de los teoremas de Kintchine y 1.4.5 de la página 14. En la determinación de las estadı́sticas en consideración, también se puede incluir en el sistema de expresiones el hecho de que p → μr Mr − como lo enuncia el teorema anterior. Ejemplo 2.1.9. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = θ2θ1 θ1 −1 −θ2 x x e I(0,∞) (x) Γ(θ1 ) determinar los estimadores de los componentes θ1 , θ2 del vector θ = (θ1 , θ2 ) . Como X ∼ Gama(θ1 , θ2 ), E[X] = θ1 θ2 y θ1 θ22 V [X] = entonces debido a la convergencia en probabilidad de los momentos muestrales p Xn − → 1 Xi − X n n i=1 n θ1 θ2 y θ1 θ22 2 p − → igualmente con el apoyo del corolario 2.1.3.1, X n p θ1 − → 2 θ2 θ2 luego 1 n n Xn θ2 p (Xi − X n − →1 )2 i=1 por lo anterior 1 n n Xn (Xi − X n )2 p − → θ2 i=1 Por otra parte 1 p θ2 − → θ1 Xn luego θ1 Xn 2 p − → θ22 también 1 n n θ1 (Xi − X n )2 i=1 p − → θ22 1 n por lo tanto n i=1 θ1 (Xi −X n )2 θ1 Xn 2 p − →1 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 63 en consecuencia 2 1 n En sı́ntesis, n Xn p − → θ1 (Xi − X n )2 i=1 ⎛ ⎞ ⎜ ⎜ n ⎝1 n 2 Xn , (Xi − X n )2 i=1 1 n n Xn (Xi − X n )2 ⎟ ⎟ ⎠ i=1 es el estimador por el método de los momentos de θ = (θ1 , θ2 ) . El método de los momentos, posee cierta flexibilidad en la construcción de estimadores, al admitir relativa libertad en la conformación del sistema de expresiones que son el punto de partida del método. En algunas oportunidades es posible acudir a otro momento para eludir un obstáculo no advertido. Muestra de ello es el siguiente ejemplo. Ejemplo 2.1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población Uniforme en el intervalo (−θ, θ). Determinar por el método de los momentos el estimador de θ. p → 0, al no contener información sobre θ se Partiendo del hecho de que X n − θ2 explora en otra dirección. Como el segundo momento ordinario es 3 n 2 1 2 p θ X − → n i=1 i 3 y por lo tanto luego 3 n n i=1 + , n ,3 p X2 − →θ n i=1 i Xi2 es el estimador por el método de los momentos de θ. Ejemplo 2.1.11. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal de valor esperado θ1 y varianza θ2 p Xn − → θ1 1 p (Xi − X n )2 − → θ2 n i=1 n 1 2 luego X n , (Xi − X n ) es el estimador por el método de los momentos n i=1 de θ = (θ1 , θ2 ) . n 64 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Ejemplo 2.1.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = θe−θx I(0,∞) (x), θ>0 Determinar el estimador de la mediana poblacional por medio del método de los momentos. p Xn − → 1 θ 1 p − →θ Xn 1 es el estimador por el método de los momentos de θ. Teniendo en Xn ln(2) cuenta que la mediana poblacional es su estimador por el método de los θ p ln(2) . momentos es X n ln(2) porque X n ln(2) − → θ luego 2.1.3 El método por analogı́a La pretensión primaria al proponer un modelo es lograr la mayor fidelidad a los hechos, es decir que haya concordancia entre los atributos de la realidad y los elementos del modelo que los representan. Los parámetros de un modelo probabilı́stico desempeñan funciones muy especı́ficas, y es procedente por lo tanto que sus estimaciones estén en afinidad con ellos en el desempeño de funciones similares. Sugerido por Pleszczynska, el método por analogı́a, como su nombre lo indica, elige el estimador luego de indagar el papel que cumplen los componentes del parámetro dentro del modelo, derivando una estadı́stica que de manera análoga realice la misma función dentro de la distribución empı́rica. Un par de ejemplos ilustran la manera como este método particular procede. Ejemplo 2.1.13. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = θe−θx I(0,∞) (x), θ>0 determinar usando el método por analogı́a un estimador de θ. Como E[X] = 1 θ entonces θ= 1 E[X] El parámetro es el recı́proco del valor esperado; su estimador debe desempeñar 1 una función análoga. Por lo tanto puede adoptarse como el estimador de θ X usando el método por analogı́a. 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 65 Ejemplo 2.1.14. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = 1 I(0,θ) (x) θ el parámetro θ determina el valor máximo de la variable aleatoria que representa a la población; Xn,n representa al valor máximo en cualquier muestra, por lo tanto Xn,n es el estimador de θ usando el método por analogı́a. 2.1.4 Estimación Bayesiana El enfoque Bayesiano en la Estadı́stica es un enfoque muy singular inspirado en la concepción de la denominada probabilidad subjetiva, probabilidad que el investigador puede alterar a la luz de información o conocimiento adicional sobre la naturaleza del fenómeno en estudio. Coherentemente, la estimación Bayesiana fundamenta su proceder sobre el principio de que información o conocimiento previo sobre algunos rasgos del parámetro son elementos contribuyentes en su estimación. Por ello a diferencia de lo tratado hasta el momento, en el sentido de considerar una muestra aleatoria de una población con función de densidad fX (x, θ), cuyo parámetro, un valor fijo que pertenece a un conjunto Θ, el enfoque Bayesiano considera una muestra aleatoria de una población con función de densidad fX (x, θ) en la cual el parámetro θ es entendido como un valor particular de una variable aleatoria Θ, variable que tiene una función de densidad gΘ (θ), cuyo parámetro es totalmente conocido. La función gΘ (θ) recibe la denominación de función de densidad a priori de Θ. Dependiendo de la naturaleza de θ, la variable Θ es una variable aleatoria continua o discreta, según sea el caso. Algunas situaciones en la práctica requieren un modelado especial y el enfoque Bayesiano es propicio para tal fin. Por ejemplo, si una compañı́a recibe en su planta de producción materia prima cuyo nivel de calidad, medido en términos de la fracción disconforme de artı́culos, es variable de entrega a entrega, pero frecuentemente con valores bajos y muy raramente con valores altos, y si ese nivel de calidad es para un perı́odo de inspección de lotes, en el control de calidad de la materia prima, el valor del parámetro θ de la función de densidad de una variable Y que contabiliza el número de artı́culos disconformes en una caja de 48 unidades, entonces para destacar esa ı́ndole de variabilidad y de marcada tendencia en la generación de valores bajos, el parámetro θ puede modelarse como una variable aleatoria con distribución Beta, cuya función de densidad manifieste un fuerte sesgo a la derecha. De la familia de densidades Beta, para esta explicación, se opta por una individual que preserve los rasgos esperados del parámetro, gΘ (θ) = 1 θa−1 (1 − θ)b−1 I(0,1) (θ) β(a, b) densidad para la cual a y b son conocidos y para el caso b lo suficientemente mayor que a para registrar el sesgo pretendido. 66 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Adoptada la distribución a priori de Θ, se selecciona una muestra aleatoria X1 , X2 , . . . , Xn , de una población ya no con función de densidad fX (x, θ) como hasta ahora se ha venido concibiendo, sino con función de densidad fX (x|θ) entendida esta como una función de densidad condicional debido a que depende de los valores de la variable aleatoria Θ. Para el caso particular asociado en esta descripción, la muestra se selecciona de una población con función de densidad fX (x|θ) = θx (1 − θ)1−x I{0,1} (x) La función de densidad condicional fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) se le conoce como la función de densidad a posteriori de Θ, función de densidad condicional que corresponde a fX1 ,X2 ,... ,Xn |Θ=θ (x1 , x2 , . . . , xn |θ)gΘ (θ) fX1 ,X2 ,... ,Xn (x1 , x2 , . . . , xn ) y debido a la independencia existente entre las variables aletorias que conforman la muestra y la variable aleatoria que representa al parámetro θ, la función de densidad a posteriori de Θ conviniendo que Θ es una variable continua, puede expresarse como n ) fX (xi |θ) gΘ (θ) i=1 n fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = 5∞ ) f (x |θ) gΘ (θ)dθ X i −∞ i=1 Particularmente al asumir el modelo de Bernoulli, como comportamiento poblacional, y el modelo Beta para el comportamiento del parámetro, n ) xi 1−xi θa−1 (1 − θ)b−1 θ (1 − θ) i=1 fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = n n xi n− xi 51 i=1 i=1 (1 − θ) θa−1 (1 − θ)b−1 dθ 0 θ n xi +a−1 n− n xi +b−1 (1 − θ) i=1 θi=1 = n n β xi + a , n + b − xi i=1 i=1 luego la distribución a posteriori de Θ es una distribución Beta. El hecho de que la familia de densidades a la cual pertenece la función de densidad a priori de Θ sea la misma de la función de densidad a posteriori de Θ, produce un hecho atractivo para la computación estadı́stica, pues se puede simular la distribución a posteriori sin acudir directamente a los resultados del teorema de Bayes. Pero no siempre se cuenta con esta ventaja. Si se asume la función de densidad a priori de Θ como Uniforme en el intervalo (0, 1) y la función de densidad fX (x|θ) = θx (1 − θ)1−x I{0,1} (x), fácilmente puede comprobarse que la distribución a posteriori de Θ es Beta. 67 2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES Definición 2.1.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Una familia D de densidades se dice que es conjugada para la función de densidad fX (x, θ), o que es cerrada bajo muestreo respecto a la función de densidad fX (x, θ), si la función de densidad a priori de Θ, gΘ (θ) ∈ D y si fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) ∈ D. De lo anteriormente desarrollado se deriva que la familia de densidades Beta es conjugada para la función de densidad de un modelo de Bernoulli. Definición 2.1.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), gΘ (θ) la función de densidad a priori de Θ, r(θ) una función del parámetro θ. El estimador Bayesiano para la imagen de θ bajo la función r, con respecto a la función de densidad a priori gΘ (θ), es aquel cuya estimación corresponde a: n 5∞ ) r(θ) f (x |θ) gΘ (θ)dθ X i −∞ i=1 n E [r(Θ)|X1 , X2 , . . . , Xn ] = 5∞ ) f (x |θ) gΘ (θ)dθ X i −∞ i=1 Ejemplo 2.1.15. Como se afirmó anteriormente la familia de densidades Beta es conjugada para la función de densidad de un modelo de Bernoulli; entonces la estimación Bayesiana de θ, corresponde a 51 0 n θ θi=1 E [Θ|X1 , X2 , . . . , Xn ] = β xi +a−1 n n− (1 − θ) i=1 xi + a , n + b − i=1 θ 0 i=1 = β = n dθ xi n xi +a n n− (1 − θ) i=1 xi +b−1 xi + a , n + b − i=1 n xi +b−1 i=1 n 51 n n dθ xi i=1 xi + a i=1 n+a+b dicho en otros términos, el estimador Bayesiano para θ con respecto a la función de densidad a priori de Θ, perteneciente a la familia Bernoulli de densidades, es n Tn = Xi + a i=1 n+a+b Puede comprobarse que si se hubiese asumido el modelo uniforme en el intervalo (0, 1) como la distribución a priori de Θ, el estimador Bayesiano correspondiente 68 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS serı́a: n Tn = Xi + 1 i=1 n+2 y la estimación Bayesiana para la varianza de la población θ(1 − θ), es decir la estimación Bayesiana de la imagen de θ bajo la función r(θ) = θ(1 − θ), asumiendo el mencionado modelo Uniforme en el intervalo (0, 1) como la distribución a priori de Θ, se deriva en la forma siguiente 51 0 n E [r(Θ)|X1 , X2 , . . . , Xn ] = n 51 θ 0 n 51 θi=1 0 = = i=1 xi +1 xi n n− n n− (1 − θ) i=1 n− (1 − θ) n i=1 n i=1 xi xi +1 n xi dθ dθ dθ xi + 1 , n + 1 − xi i=1 n n xi + 1 n + 1 − xi β xi θ(1 − θ) θi=1 (1 − θ) i=1 i=1 i=1 (n + 3)(n + 2) Ejemplo 2.1.16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Normal de valor esperado θ y varianza σ 2 asumida como una constante conocida. La distribución a priori de Θ se establece como Normal de valor esperado μp y varianza σp2 , por supuesto conocidos. Puede comprobarse que la familia de densidades Gaussiana es conjugada para la función de densidad de un modelo Gaussiano e igualmente que la distribución a posteriori de Θ es normal de valor esperado nσp2 xn + μp σ 2 nσp2 + σ 2 y varianza σp2 σ 2 nσp2 + σ 2 Nota. Como μp y σp2 son valores fijos y conocidos, en la medida en que el tamaño de la muestra se incremente este estimador tiende al estimador máximoverosı́mil para θ. Para terminar, los estimadores Bayesianos definidos en esta sección, realmente son estimadores Bayesianos cuyas estimaciones minimizan una función de pérdida particular llamada error cuadrático. Quiere decir esto que si se adopta otra función de pérdida, el estimador Bayesiano puede ser de otra naturaleza. 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 2.2 69 Criterios para examinar estimadores Otorgar facultades a una estadı́stica para que se desempeñe cabalmente como estimador es el resultado del cumplimiento por parte de ella de cada uno de los requisitos de un conjunto de requisitos deseables para un estimador idóneo; consiste en colocar en balanza los requisitos que la estadı́stica cumple, sus capacidades, y aquellos rasgos que menoscaban en algún grado su misión, es decir, la evaluación del costo beneficio de adoptar un estimador con algunas deficiencias frente a sus virtudes. Se trata de un procedimiento análogo a un procedimiento de certificación de calidad que asegura que un producto, un proceso o un servicio, cumple con los requisitos especificados, lo cual genera un factor imprescindible en la cimentación de la confianza en las relaciones cliente proveedor. Facultar una estadı́stica es en sı́ acreditar la calidad de un proceso, un proceso particular de inferencia, para que el usuario pueda aplicarlo con la confianza derivada de la certificación, a semejanza del uso que un cliente le da a un producto o servicio certificado. Ası́ como en una relación comercial, el proveedor necesita disponer de evidencias que confirmen la aptitud del producto o la diligencia del servicio, para que su cliente pueda confiar en su destreza para satisfacer sus expectativas y necesidades, análogamente de un estimador es menester contar con una relación de sus solvencias para que su uso, sujeto al modelo adoptado, satisfaga la precisión y exactitud previstas en el proceso de estimación y tenga en cuenta las limitaciones y particularidades del entorno de su aplicación. Contrario a lo que frencuentemente se presenta como propiedades de los estimadores, este texto las destaca como requisitos para facultar estadı́sticas en su desempeño como estimadores. Los requisitos indagan sobre el carácter del centro de gravedad de la distribución muestral de la estadı́stica, sobre la naturaleza de su concentración, sobre atributos especiales derivados de su construcción, sobre el efecto que pueda tener el tamaño de la muestra en su esencia y sobre otras condiciones de mayor abstracción. Es usual en la certificación de estimadores adjetivar al estimador con el requisito que cumple. Por ejemplo se designará como estimador insesgado al estimador que cumple el requisito del insesgamiento, estimador consistente al estimador que satisface el requerimiento de la consistencia, etc. Igualmente, la estimación correspondiente, es decir el valor particular del estimador, se le adjetiva de igual forma: estimación insesgada, estimación consistente. Para dar paso a la exposición de estos requisitos o criterios para el examen de una estadı́stica, se describe en primer lugar lo relativo a la concentración de un estimador. 2.2.1 Concentración, un requisito de precisión Definición 2.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), la función r(θ) una función del parámetro (1) (2) θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ) dos estimadores 70 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS (1) para la imagen de θ bajo la función r. Se dice que el estimador Tn es más (2) concentrado que el estimador Tn si y sólo si Pθ r(θ) − λ < Tn(1) < r(θ) + λ ≥ Pθ r(θ) − λ < Tn(2) < r(θ) + λ para cada λ > 0 y cada θ ∈ Θ. En la definición anterior se utilizó el sı́mbolo Pθ en cambio del sı́mbolo usual P para acentuar el hecho de que el cálculo de la probabilidad allı́ indicado se basa en un modelo asumido, modelo que lleva consigo al parámetro θ como su componente connatural; quiere decir entonces que el citado cálculo alude a cualquier valor del parámetro, en su respectivo espacio, por supuesto. En este mismo sentido, al utilizar Eθ y Vθ se hace referencia al valor esperado y a la varianza respectivamente de una variable aleatoria, bajo las consideraciones hechas de la dependencia del modelo asumido y de su parámetro inherente. Definición 2.2.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) y r(θ) una función del parámetro. El estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el estimador más concentrado para la imagen de θ bajo r, si él es más concentrado que cualquier otro estimador para la imagen de θ bajo la función r. (1) Definición 2.2.3. Dentro del marco de la definición 2.2.1 el estimador Tn se (2) denomina estimador Pitman más concentrado que el estimador Tn para la imagen de θ bajo la función r si y sólo si 1 Pθ |Tn(1) − r(θ)| < |Tn(2) − r(θ)| ≥ 2 Definición 2.2.4. El estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el estimador Pitman más concentrado para la imagen de θ bajo la función r si él es Pitman más concentrado que cualquier otro estimador para imagen de θ bajo r. Definición 2.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), la función r(θ) una función del parámetro θ y Tn = t(X1 , X2 , . . . , Xn ) un estimador de la imagen de θ bajo la función r. Una medida de concentración del estimador Tn es llamada error cuadrático medio (ECM) definido como ECMTn (θ) = Eθ (Tn − r(θ))2 El centro de gravedad de la función de densidad de una variable aleatoria es un punto de referencia destacado. Para una estadı́stica, lo es en mayor medida al tornarse en ineludible el conocimiento, con el máximo detalle posible, de la ı́ndole de su valor esperado. En particular el saber si el centro de gravedad de la función de densidad de la estadı́stica postulada coincide con el valor del parámetro o con la imagen del parámetro bajo una función determinada, según 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 71 sea el caso, es una cualidad deseable dentro de los pormenores de la exactitud que se le exige, y por lo tanto es un ingrediente necesario dentro del examen de idoneidad como estimador. Por ello cobra importancia el requisito de insesgamiento como uno de los elementos para facultar estadı́sticas, requisito que a continuación se presenta. Definición 2.2.6. Dentro de las condiciones de la definición 2.2.5 un estimador Tn se dice que es un estimador insesgado para la imagen de θ bajo la función r si y sólo si Eθ [Tn ] = r(θ) para todo θ ∈ Θ Definición 2.2.7. Bajo las consideraciones de la definición 2.2.5, la diferencia Bθ [Tn ] = Eθ [Tn ] − r(θ) se denomina sesgo del estimador Tn para la imagen de θ bajo r. El error cuadrático medio de un estimador Tn puede expresarse como la suma de dos componentes: la varianza del estimador Tn y el cuadrado del sesgo del mismo. En efecto ECMTn (θ) = Eθ (Tn − r(θ))2 6 7 = Eθ [(Tn − Eθ [Tn ]) + (Eθ [Tn ] − r(θ))]2 = Vθ [Tn ] + Bθ2 [Tn ] porque (Eθ [Tn ] − r(θ))Eθ [Tn − Eθ [Tn ]] = 0. Por supuesto si Tn es un estimador insesgado para la imagen de θ bajo la función r, entonces Bθ [Tn ] = 0 y por lo tanto ECMTn (θ) = Vθ [Tn ] El requisito de insesgamiento se puede cumplir en muchos casos modificando ligeramente la estadı́stica en consideración. En otras oportunidades el sesgo pierde interés y no es obstáculo en el buen desempeño del estimador, porque en la medida en que el tamaño de la muestra se incrementa el sesgo se disipa. Definición 2.2.8. Bajo las consideraciones de la definción 2.2.5 al estimador Tn = t(X1 , X2 , . . . , Xn ) basado en una muestra aleatoria de un población con función de densidad fX (x, θ) se le denomina estimador asintóticamente insesgado para la imagen de θ bajo la función r si lim {Eθ [Tn ] − r(θ)} = 0 n→∞ para todo θ ∈ Θ. 72 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Ejemplo 2.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = 1 I(0,θ) (x), θ θ>0 El método por analogı́a sugiere el estimador Tn = Xn,n para θ; determinar el ECM de Xn,n . fXn,n (y) = θ Eθ [Xn,n ] = 0 Bθ [Xn,n ] = ny n−1 I(0,θ) (y) θn n n n θ y dy = θn n+1 θ n θ−θ =− n+1 n+1 Claramente Xn,n es un estimador asintóticamente insesgado para θ. θ n n 2 2 θ ]= n y n+1 dy = Eθ [Xn,n θ 0 n+2 Vθ [Xn,n ] = n 2 n2 n θ − θ2 θ2 = n+2 (n + 1)2 (n + 1)2 (n + 2) luego ECMXn,n (θ) = 2θ2 (n + 1)(n + 2) Ejemplo 2.2.2. El MLE de σ 2 basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población Gaussiana de valor esperado μ y varianza σ 2 es 1 Xi − X n n i=1 n Tn = 2 estadı́stica con un sesgo que puede pasarse por alto al contar con una muestra 2 grande, porque Eθ [Tn ] = n−1 n σ . Sin embargo es factible corregir esta ligera imperfección construyendo una estadı́stica que cumpla el requisito de insesgamiento. Precisamente la estadı́stica 1 Xi − X n n − 1 i=1 n Sn2 = 2 cuenta con una función de densidad cuyo centro de gravedad es justamente σ 2 , como lo asegura de manera general el teorema 1.4.2. Independientemente del modelo asumido, el insesgamiento de Sn2 como estimador de la varianza poblacional es la razón por la cual Sn2 se adopta como varianza de la muestra. 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES (1) 73 (2) Ejemplo 2.2.3. Si Tn y Tn son dos estimadores insesgados para θ cuyas (i) varianzas son respectivamente σ12 y σ22 y si además Tn ∼ N (θ, σi2 ) entonces (1) (2) Tn es más concentrado que Tn para θ si y sólo si σ12 < σ22 . En efecto, como (i) Tn − θ λ −λ < < Pθ Tn(i) − θ < λ = Pθ σi σi σi λ λ λ −Φ − = 2Φ =Φ σi σi σi 5v 1 2 siendo Φ(v) = −∞ √12π e− 2 z dz, entonces Pθ Tn(1) − θ < λ ≥ Pθ Tn(2) − θ < λ λ λ 2Φ − 1 ≥ 2Φ −1 σ1 σ2 λ λ ≥Φ Φ σ1 σ2 desigualdad que se cumple cuando 2.2.2 λ λ ≥ , en sı́ntesis cuando σ1 < σ2 . σ1 σ2 Consistencia, un requisito ligado al tamaño de la muestra Definición 2.2.9. Sea Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen de θ bajo r, r una función de θ, construido con base en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ). Tn se denomina estimador consistente en error cuadrático medio para la imagen de θ bajo la función r, si la sucesión de estadı́sticas {Tn } converge en media cuadrática a r(θ), es decir si lim Eθ (Tn − r(θ))2 = 0 n→∞ para todo θ ∈ Θ. Definición 2.2.10. Bajo las consideraciones de la definición 2.2.9, Tn es un estimador consistente simple o consistente débil para la imagen de θ bajo r si, la sucesión de estadı́sticas {Tn } converge en probabilidad a r(θ), es decir si lim Pθ [r(θ) − < Tn < r(θ) + ] = 1 n→∞ para todo θ ∈ Θ. Nota. Un estimador que haya sido construido por el método de los momentos, naturalmente es un estimador consistente simple. 74 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Como la consistencia de un estimador es una propiedad inherente a la convergencia, un estimador consistente en error cuadrático medio es un estimador consistente simple. Lo contrario no siempre es cierto. Definición 2.2.11. Sea Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica basada en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) estadı́stica elegida como estimador para la imagen de θ bajo una función r. Tn∗ se denomina estimador BAN (best asymptotically Normal) si y sólo si 1. La sucesión de variables aleatorias √ { n[Tn∗ − r(θ)]} converge en distribución a una variable aleatoria con distribución Normal 2 de valor esperado cero y varianza σ ∗ (θ). 2. El estimador Tn∗ es consistente simple para la imagen de θ bajo la función r. 3. Siendo Tn cualquier otro estimador consistente simple para la imagen de θ bajo la función r para el cual la sucesión √ { n[Tn − r(θ)]} converge en distribución a una variable aleatoria con distribución Normal de valor esperado cero y varianza σ 2 (θ), se tiene que 2 σ ∗ (θ) ≤ σ 2 (θ) Definición 2.2.12. Un estimador Tn para la imagen de θ bajo la función r con las condiciones de la definición 2.2.11 se denomina estimador CAN (consistent asymptotically Normal) o Tn es CANE, si √ d n(Tn − r(θ)) − → N (0, σ 2 (θ)) para todo θ ∈ Θ. (1) (2) Definición 2.2.13. Si Tn y Tn son dos estimadores CAN para la imágen de θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), cuyas varianzas son respectivamente (1) (2) σ12 (θ) y σ22 (θ), se dice que Tn es asintóticamente más concentrado que Tn si σ12 (θ) ≤ σ22 (θ), para todo θ ∈ Θ. Teorema 2.2.1. Siendo X1 , X2 , . . . , Xn una muestra de una población con función de densidad fX (x, θ), una función continua y positiva en el percentil xp con p un valor fijado de antemano, entonces la estadı́stica de orden X[np]+1,n es un estimador CAN para el percentil xp con σ 2 (θ) = nfp(1−p) o dicho de otra 2 X (xp ,θ) manera 8 n d fX (xp , θ) X[np]+1,n − xp − → Z ∼ N (0, 1) p(1 − p) 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 2.2.3 75 Suficiencia, un requisito de retención de información El concepto de suficiencia que no es tan intuitivo como el concepto de consistencia, insesgamiento o concentración, fue definido por Fisher en 1922. En una de sus afirmaciones, expresaba que una estadı́stica suficiente es “equivalente, para todos los propósitos de estimación, a los datos originales de los cuales fue derivada”, afirmación que permite señalar entonces la importancia de una estadı́stica suficiente y colegir que un buen estimador debe ser función de una estadı́stica con esta propiedad. La idea de suficiencia indaga sobre la “pérdida de información”, que para efectos de estimación del parámetro θ, supone la reducción de los valores observados x1 , x2 , . . . , xn en un solo dato: tn = t(x1 , x2 , . . . , xn ), que a la luz de la afirmación de Fisher, citada en el párrafo anterior, significa que una estadı́stica suficiente conserva de alguna manera la información contenida en la muestra aleatoria, es decir en las variables aleatorias que representan a los datos originales. El concepto de suficiencia involucra a las observaciones muestrales, observaciones que pueden considerarse como un elemento del espacio de las observaciones X subconjunto de Rn definido como X = {(x1 , x2 , . . . , xn )|x1 , x2 , . . . , xn son valores observados de X1 , X2 , . . . , Xn } El conocimiento de un valor particular tn de una estadı́stica Tn no permite la identificación de cada uno de los valores muestrales x1 , x2 , . . . , xn , que lo produjeron, porque varios elementos del espacio de las observaciones X pueden tener como imagen el mismo valor tn , elementos éstos que conforman un subconjunto denominado contorno de la estadı́stica Tn . Cualquier contorno de una estadı́stica suficiente, posee una propiedad especial: su comportamiento probabilı́stico no depende del parámetro θ. Esta idea se abstrae y se formaliza en la siguiente definición. Definición 2.2.14. El estimador Tn = t(X1 , X2 , . . . , Xn ) para el parámetro θ se dice que es una estadı́stica suficiente para θ, basada en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), si la distribución condicional de las variables aleatorias X1 , X2 , . . . , Xn dado Tn = tn , no depende de θ para todo valor tn . Ejemplo 2.2.4. Sea X1 , X2 una muestra aleatoria de tamaño dos de una población con distribución de Bernoulli de parámetro θ. T2 = X1 + X2 es una estadı́stica suficiente para θ. Pθ [X1 = 0, X2 = 0|T2 = 0] = 1, Pθ [X1 = 1, X2 = 1|T2 = 2] = 1 76 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Pθ [T2 = 1] = Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1] = θ(1 − θ) + θ(1 − θ) = 2θ(1 − θ) Pθ [X1 = 1, X2 = 0] Pθ [T2 = 1] θ(1 − θ) = 2θ(1 − θ) 1 = 2 Pθ [X1 = 1, X2 = 0|T2 = 1] = Pθ [X1 = 0, X2 = 1] Pθ [T2 = 1] θ(1 − θ) = 2θ(1 − θ) 1 = 2 Pθ [X1 = 0, X2 = 1|T2 = 1] = Se concluye de esta manera que T2 = X1 + X2 es una estadı́stica suficiente para θ pues la distribución condicional de las variables X1 , X2 dada la estadı́stica T2 no depende de θ. Por su parte la estadı́stica T2 = X1 X2 , no es una estadı́stica suficiente para θ. La estadı́stica toma dos valores: 0 y 1. Pθ [T2 = 0] = Pθ [X1 = 0, X2 = 0] + Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1] = (1 − θ)2 + 2(1 − θ)θ = 1 − θ2 Pθ [T2 = 1] = θ2 Según la definición anterior es preciso examinar la distribución codicional de X1 , X2 dado T2 = t2 , es decir si las siguientes probabilidades dependen o no del parámetro θ, para poder concluir sobre la suficiencia de la estadı́stica. (1 − θ)2 1−θ = 1 − θ2 1+θ θ(1 − θ) θ = Pθ [X1 = 0, X2 = 1|T2 = 0] = 2 1−θ 1+θ θ(1 − θ) θ Pθ [X1 = 1, X2 = 0|T2 = 0] = = 1 − θ2 1+θ Pθ [X1 = 1, X2 = 1|T2 = 1] = 1 Pθ [X1 = 0, X2 = 0|T2 = 0] = Con estos resultados puede deducirse que la estadı́stica T2 = X1 X2 no es una estadı́stica sufiente para θ. 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 77 Determinar a partir de la definición 2.2.14 si una estadı́stica especı́fica es una estadı́stica suficiente no es una tarea fácil en la mayorı́a de las situaciones, porque la sola construcción de la distribución condicional puede resultar dispendiosa. Menos complicado podrı́a resultar el uso de la siguiente definición, apropiada más para señalar la no suficiencia que la suficiencia de una estadı́stica particular. Por fortuna, el criterio de Fisher-Neyman es un instrumento seguro para la búsqueda o confirmación de estadı́sticas suficientes. Definición 2.2.15. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Una estadı́stica Tn = t(X1 , X2 , . . . , Xn ) es una estadı́stica suficiente para el parámetro θ si y sólo si la distribución condicional de Tn = t (X1 , X2 , . . . , Xn ) dado Tn = tn , no depende de θ, Tn es cualquier estadı́stica. Teorema 2.2.2 (Criterio de factorización de Fisher-Neyman). (Versión para estadı́sticas suficientes unidimensionales). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Siendo Tn una estadı́stica, Tn = t(X1 , X2 , . . . , Xn ), ella es suficiente para θ si y sólo si la función de verosimilitud de la muestra puede expresarse como el producto de dos factores: L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn ) siendo h una función no negativa que depende exclusivamente de x1 , x2 , . . . , xn y la función g, no negativa, que depende de θ y de x1 , x2 , . . . , xn a través de t(x1 , x2 , . . . , xn ). El ejemplo 2.2.4 pretende ser inductor del concepto de la suficiencia de una estadı́stica, ejemplo despojado de toda complicación de cálculo, para centrar la reflexión sobre el concepto a la luz de la definición 2.2.14. Por el contrario, el siguiente ejemplo generalización del citado ejemplo, ilustra una forma mecánica de determinar estadı́sticas suficientes con el recurso del criterio de factorización de Fisher-Neyman. Ejemplo 2.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ. 78 Tn = CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS n Xi es una estadı́stica suficiente para θ. En efecto, i=1 n L(θ; x1 , x2 , . . . , xn ) = θ i=1 xi n− (1 − θ) n i=1 n xi I{0,1} (xi ) i=1 = θ 1−θ n i=1 xi n (1 − θ) n I{0,1} (xi ) i=i ⎡ ⎤ n xi n θ i=1 =⎣ (1 − θ)n ⎦ I{0,1} (xi ) 1−θ i=1 :; < 9 :; <9 g n i=1 h(x1 ,x2 ,... ,xn ) xi ,θ luego el criterio de Fisher-Neyman permite concluir que n Xi es una estadı́stica i=1 suficiente para θ. Definición 2.2.16. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población (1) (2) (m) con función de densidad fX (x, θ). Las estadı́sticas Tn , Tn , . . . , Tn , siendo (i) Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, . . . , m, se denominan estadı́sticas conjuntamente suficientes para θ si y sólo si la distribución de X1 , X2 , . . . , Xn (1) (2) (m) dado Tn , Tn , . . . , Tn no depende de θ. (1) (2) Teorema 2.2.3. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . , (m) Tn = tm (X1 , X2 , . . . , Xn ) es un conjunto de estadı́sticas conjuntamente su(1) (2) (m) ficientes, entonces cualquier transformación uno a uno de Tn , Tn , . . . , Tn es también un conjunto de estadı́sticas suficientes. Teorema 2.2.4 (Criterio de Factorización de Fisher-Neyman). (Versión para estadı́sticas conjuntamente suficientes). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). El conjunto de es(1) (2) = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), tadı́sticas Tn (m) . . . , Tn = tm (X1 , X2 , . . . , Xn ) constituye una colección de estadı́sticas conjuntamente suficientes para θ si y sólo si la función de verosimilitud de la muestra L(θ; x1 , x2 , . . . , xn ) = L puede expresarse como L = g(t1 (x1 , x2 , . . . , xn ), . . . , tm (x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn ) la función h es una función no negativa que depende de x1 , x2 , . . . , xn exclusivamente y g una función no negativa que depende de θ y de x1 , x2 , . . . , xn a través de t1 , t2 , . . . , tm . Ejemplo 2.2.6. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 79 Normal de valor esperado μ y varianza σ 2 , θ = (μ, σ 2 ) . 2 n 1 1 xi − μ √ L(θ; x1 , x2 , . . . , xn ) = exp − 2 σ 2πσ i=1 n n 1 1 −n 2 2 exp − 2 xi − 2μ xi + nμ = n σ 2σ (2π) 2 i=1 i=1 9 :; < g n i=1 h(x1 , x2 , . . . , xn ) = 1. Luego n Xi y i=1 n i=1 x2i , n i=1 xi ,θ Xi2 son conjuntamente suficientes para θ = (μ, σ 2 ) . También son conjuntamente suficientes para θ n n 1 1 2 Xi , (Xi − X n ) n i=1 n − 1 i=1 Se decı́a en la parte introductoria del método de máxima verosimilitud, que los estimadores construidos bajo este procedimiento poseen propiedades especiales que los hacen atractivos. Sin destacarlas en sección alguna del texto, esas propiedades van surgiendo con el desarrollo del capı́tulo. En primer lugar un MLE puede ser una estadı́stica suficiente, teniendo en cuenta los enunciados de los teoremas 2.2.5 y 2.2.6. Teorema 2.2.5. Si Tn es una estadı́stica suficiente para θ basada en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ) y si Tn∗ es un MLE para θ, y es único, entonces Tn∗ es función de Tn . Definición 2.2.17. Una estadı́stica suficiente Tn se denomina suficiente minimal si Tn es función de cualquier otra estadı́stica suficiente. Definición 2.2.18. Una colección de estadı́sticas conjuntamente suficientes se denomina minimal si y sólo si, ellas son función de cualquier otro conjunto de estadı́sticas suficientes. Teorema 2.2.6. Sea Tn un MLE para θ, estimador basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ). Si Tn es el único MLE para θ, entonces Tn es función de una colección minimal de estadı́sticas conjuntamente suficientes. Si Tn no es el único MLE para θ, entonces existe un estimador máximo-verosı́mil Tn que es una función de una colección minimal de estadı́sticas conjuntamente suficientes. Para propósitos diversos suele constituirse familias de densidades, que agrupan modelos probabilı́sticos que poseen alguna o algunas caracterı́sticas comunes. La familia Pearsoniana por ejemplo congrega densidades que satisfacen la ecuación diferencial y = x+α y β + γx + δx2 80 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS siendo y = fX (x) y α, β, γ, δ constantes. En otras oportunidades se construye una familia de densidades que se puede entender como un “macromodelo”puesto que incluye modelos probabilı́sticos tradicionales como sus casos particulares. Tal es el caso de la denominada distribución Gama generalizada, propuesta por Stacy, que incluye modelos particulares como la distribución Gama, la distribución Exponencial, la distribución Weibull e inclusive la distribución Lognormal entendida como el caso en el cual k → ∞. La función de densidad que identifica a esta distribución, a esta familia o a este macromodelo tiene como expresión a x β β x βk−1 exp − I(0,∞) (x) αΓ(k) α α con x cualquier valor de la variable aleatoria, α, β y k constantes positivas. Esta tendencia a la agrupación de modelos de probabilidad en familias tiene en cada caso propósitos especı́ficos, como se habı́a mencionado. Concretamente en el estudio de la suficiencia y la completez tiene un singular interés una familia de densidades conocida corrientemente como la familia exponencial de densidades, que la definición 2.2.19 detalla. Definición 2.2.19. Sea (X1 , X2 , . . . , Xp ) un vector aleatorio. Se afirma que la función de densidad de (X1 , X2 , . . . , Xp ) pertenece a la clase o familia p-dimensional de Koopman-Darmois k-paramétrica, que tiene la forma Koopman-Darmois o que pertenece a la clase o familia exponencial p-dimensional de densidades k-paramétrica si la función de densidad fX1 ,X2 ,... ,Xp (x1 , x2 , . . . , xp ) se puede expresar como ⎤ ⎡ k dj (x1 , x2 , . . . , xp )cj (θ) + a(θ) + b(x1 , x2 , . . . , xp )⎦ exp ⎣ j=1 para todo θ ∈ Θ ⊆ Rk , para b, d1 , d2 , . . . , dk , funciones de x1 , x2 , . . . , xp y a, c1 , c2 , . . . , ck , funciones de θ escogidas convenientemente. Definición 2.2.20. Como caso especial en la definición 2.2.19, una función de densidad fX (x, θ), θ ∈ Θ ⊆ R, pertenece a la familia exponencial unidimensional de densidades si la función de densidad fX (x, θ) puede expresarse como fX (x, θ) = a(θ)b(x)exp[c(θ)d(x)] para todo x, θ ∈ Θ con a, b, c, d funciones escogidas convenientemente. Definición 2.2.21. También particularizando la definición 2.2.19, la función de densidad fX (x, θ) pertenece a la familia exponencial de densidades kparamétrica si fX (x, θ) puede expresarse como k fX (x, θ) = a (θ1 , θ2 , . . . , θk ) b(x)exp cj (θ1 , θ2 , . . . , θk ) dj (x) i=1 para todo x, y todo θ ∈ Θ ⊆ Rk , con a, b, cj , dj funciones elegidas convenientemente. 81 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES En general sin hacer mención al entero k que se refiere al número de componentes del vector θ, ni al número p de variables aleatorias que constituyen el vector aleatorio, se habla simplemente de clase o familia Koopman-Darmois, clase o familia exponencial de densidades. La determinación de k y p será explı́cita o se podrá deducir del contexto. Ejemplo 2.2.7. La función de densidad de una variable aleatoria con distribución Exponencial negativa pertenece a la familia exponencial de densidades. Efectivamente, fX (x, θ) = θe−θx I(0,∞) (x) = [θ]I(0,∞) (x)exp{[−θ][x]} donde a(θ) = θ, b(x) = I(0,∞) (x), c(θ) = −θ, d(x) = x Ejemplo 2.2.8. La función de densidad de una variable aleatoria con distribución de Poisson pertenece a la familia exponencial de densidades debido a que θx e−θ (x) I x! {0,1,2,... } I{0,1,2... } (x) −θ = e exp{[ln θ][x]} x! fX (x, θ) = donde a(θ) = e−θ , b(x) = I{0,1,2,... } (x)/x!, c(θ) = ln θ, d(x) = x Nota. Si fX (x, θ) pertenece a la familia exponencial unidimensional de densidades y si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con dicha función de densidad, la estadı́stica n d(Xi ) i=1 es una estadı́stica suficiente. Esta afirmación puede sustentarse utilizando el criterio de factorización. Como fX (x, θ) pertenece a la familia exponencial unidimensional de densidades, fX (x, θ) = a(θ)b(x)exp{c(θ)d(x)} n n L(x1 , x2 , . . . , xn ; θ) = a (θ) b(xi )exp c(θ) i=1 g n d(xi ), θ i=1 estadı́stica k ! n = a (θ)exp c(θ) n i=1 n d(xi ) i=1 " n ) d(xi ) y h(x1 , x2 , . . . , xn ) = b(xi ) La i=1 d(Xi ) ha sido denominada por algunos autores como la estadı́stica i=1 natural de la familia exponencial unidimensional e igualmente por las razones de la nota anterior, para efectos de suficiencia, se le conoce como la estadı́stica natural suficiente de la familia exponencial unidimensional. También al vector θ∗ = (c1 (θ), c2 (θ), . . . , ck (θ)) se le denomina el parámetro natural de la 82 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS distribución y en general a la estadı́stica n d1 (Xi ), i=1 n d2 (Xi ), . . . , i=1 n dk (Xi ) i=1 se le conoce como estadı́stica natural k-dimensional para θ. Ejemplo 2.2.9. La función de densidad de una variable aleatoria X fX (x, θ) = 1 xθ1 −1 (1 − x)θ2 −1 I(0,1) (x) β(θ1 , θ2 ) pertenece a la familia exponencial 2-paramétrica de densidades. 1 I(0,1) (x) exp {[θ1 − 1][ln(x)] + [θ2 − 1][ln(1 − x)]} fX (x, θ) = β(θ1 , θ2 ) donde a(θ) = 1/β(θ1 , θ2 ), b(x) = I(0,1) (x), c1 (θ1 , θ2 ) = θ1 −1, c2 (θ1 , θ2 ) = θ2 −1, d1 (x) = ln x, d2 (x) = ln(1 − x). Nota. Igualmente, con el apoyo del criterio de factorización se deduce que si fX (x, θ) pertenece a la familia exponencial k-paramétrica de densidades, las estadı́sticas n i=1 d1 (Xi ), n i=1 d2 (Xi ), . . . , n dk (Xi ) i=1 son conjuntamente suficientes para θ. Además se puede demostrar que constituyen una colección minimal. Antes de concluir lo concerniente a la suficiencia, es menester precisar el término equivalencia y su efecto en la suficiencia, debido a la existencia de estadı́sticas que para efectos de inferencia proporcionan la misma información. Igualmente si la suficiencia se asocia con la idea de retención de información, lo contrario el no poseer información relativa al parámetro es un atributo que de alguna manera debe señalarse. Definición 2.2.22. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ). Siendo Tn∗ y Tn dos estadı́sticas tales que Tn∗ = t∗ (X1 , X2 , . . . , Xn ) y Tn = t(X1 , X2 , . . . , Xn ), se dice que las dos estadı́sticas son equivalentes si existe una función g uno a uno de tal manera que Tn∗ = g(Tn ). Teorema 2.2.7. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ). Siendo las estadı́sticas Tn = t(X1 , X2 , . . . , Xn ) y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) estadı́sticas equivalentes, si Tn es una estadı́stica suficiente para θ, también lo es Tn∗ . Esta propiedad que resalta el anterior teorema, se intuye fácilmente porque dado cualquier contorno de la estadı́stica Tn∗ él corresponde al mismo contorno de la estadı́stica Tn . Es esta propiedad la que permite construir buenos estimadores a partir de una estadı́stica suficiente. 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 83 Finalmente, contrario a lo expresado en esta sección dedicada a la suficiencia, en el sentido de que una estadı́stica suficiente contiene toda la información respecto del parámetro, existen estadı́sticas que no contienen dicha información. Entonces la idea contraria a la suficiencia puede formalizarse en la siguiente definición y una utilización particular de ella la precisa el teorema de Basu. Definición 2.2.23. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ). La estadı́stica Tn = t(X1 , X2 , . . . , Xn ) se denomina estadı́stica auxiliar para el parámetro θ si fTn (t) es una función que no depende de θ. Si especı́ficamente E[Tn ] es un valor que no depende de θ, Tn se denomina estadı́stica auxiliar de primer orden Teorema 2.2.8 (Teorema de Basu). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Siendo la estadı́stica Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica auxiliar para el parámetro θ y la estadı́stica Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica suficiente para θ, entonces Tn y Tn∗ son variables aleatorias estadı́sticamente independientes. Ejemplo 2.2.10. Cuando se derivaba el estimador por el método de los momentos para el parámetro θ bajo el modelo Uniforme en el intervalo (−θ, θ), p → 0. Allı́ ejemplo 2.1.10, página 63, el método encontró un obstáculo: X n − se afirmó que X n no contenı́a información sobre θ. Como Eθ X n = 0, X n entonces es una estadı́stica auxiliar de primer orden. Ejemplo 2.2.11. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población X1,n (1) (2) y Tn = Xn,n son Uniforme en el intervalo (0, θ), las estadı́sticas Tn = Xn,n variables aleatorias independientes. Como Xn,n es una estadı́stica suficiente para θ, de acuerdo al teorema de Basu (1) sólo resta mostrar que Tn es una estadı́stica auxiliar. En efecto, X1,n FT (1) (t) = P ≤t , 0<t<1 n Xn,n = P [X1,n ≤ tXn,n ] θ ty n(n − 1) y x n−1 = dx dy − θ2 θ θ 0 0 = 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t) por lo tanto la función de densidad correspondiente no depende de θ. Entonces (1) (2) Tn y Tn son estadı́sticamente independientes. 2.2.4 Varianza mı́nima, un requisito de máxima precisión La variabilidad es en esencia inherente a la Estadı́stica, su razón y su objeto. El poder conocer su comportamiento, el poder cuantificarla y en muchos casos el poderla mantener bajo control son propósitos deseables y además viables. 84 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Los estimadores surgidos de esa condición de variabilidad, heredan esa misma naturaleza, sólo que para éstos la precisión en su papel de estimar parámetros es reconocida a través de su variabilidad. Por ello la variabilidad medida por medio de la varianza se convierte en un criterio de examen de estadı́sticas, pues evidentemente es más preciso aquel estimador que tenga menor varianza, pues tiene la capacidad de producir estimaciones más concentradas. Esta sección se enfoca hacia este requisito. Definición 2.2.24. Siendo Tn y Tn dos estimadores insesgados para θ, basados en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), se dice que Tn es uniformemente mejor que Tn si Vθ [Tn ] ≤ Vθ [Tn ], para todo θ ∈ Θ ⊂ R. Definición 2.2.25. Un estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), r(θ) una función de θ, es insesgado de varianza uniformemente mı́nima UMVUE para la imagen de θ bajo la función r si y sólo si Tn∗ es un estimador insesgado para la imagen de θ bajo r y Vθ [Tn∗ ] ≤ Vθ [Tn ] siendo Tn = t(X1 , X2 , . . . , Xn ) cualquier otro estimador insesgado para la imagen de θ bajo la función r. Teorema 2.2.9 (Teorema de Rao-Blackwell). Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una (1) (2) función de θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . , (m) Tn = tm (X1 , X2 , . . . , Xn ) estadı́sticas conjuntamente suficientes, y además siendo la estadı́stica Vn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la imagen de θ bajo la función r y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) un estimador tal que la estimación t∗n se determina como t∗n = Eθ [Vn |Tn(1) , Tn(2) , . . . , Tn(m) ] entonces, 1. Tn∗ es una estadı́stica, función de estadı́sticas suficientes sólamente 2. Eθ [Tn∗ ] = r(θ) 3. Vθ [Tn∗ ] ≤ Vθ [Vn ] Ejemplo 2.2.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ. n (1) Xi A partir de Tn = X1 , como un estimador insesgado para θ y de Tn = i=1 85 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES una estadı́stica suficiente, se determina la estimación t∗n = Eθ [Tn |Tn ]. n = 0, X = t X P n θ 1 i 1 n i=1 Pθ X1 = 0 | X i = t1 = i=1 Pθ X i = t1 i=1 n X i = t1 Pθ X1 = 0, n i=2 = Pθ X i = t1 i=1 n−1 (1 − θ) t1 (θ)t1 (1 − θ)n−1−t1 n = t1 n−t1 t1 (θ) (1 − θ) n − t1 = n (1) Pθ X1 = 1 | n n Pθ X1 = 1, X i = t1 n i=1 Pθ X i = t1 i=1 n X i = t1 − 1 Pθ X1 = 1, n i=2 = Pθ X i = t1 i=1 n−1 t −1 1 θ θ (1 − θ)n−1−t1 +1 t1 = t1 −1 n t = n−t 1 1 n t1 θ (1 − θ) X i = t1 = i=1 luego Eθ X1 | n Xi = t1 = 0. i=1 n − t1 n + 1. t1 n en consecuencia 1 Xi n i=1 n Tn∗ = V [Tn ] = θ(1 − θ) > V [Tn∗ ] = θ(1 − θ) n Definición 2.2.26. Sea X una variable aleatoria cuya función de densidad es ∂ ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R. fX (x, θ) tal que ∂θ La información de Fisher acerca del parámetro θ en la variable aleatoria X, 86 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS I(θ) se define como I(θ) = Eθ 2 ∂ ln fX (X, θ) ∂θ 2 ∂ Nota. Si ∂θ 2 ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R la información de Fisher acerca del parámetro θ, en la variable aleatoria X, también puede definirse como 2 ∂ I(θ) = −Eθ ln f (X, θ) X ∂θ2 (x−θ)2 1 Ejemplo 2.2.13. Sea fX (x, θ) = √ e− 2σ2 con σ conocido. 2πσ √ 1 ln fX (x, θ) = − ln σ − ln 2π − 2 (x − θ)2 2σ x−θ ∂ ln fX (x, θ) = ∂θ σ2 I(θ) = Eθ = X −θ σ2 2 = 1 Eθ (X − θ)2 σ4 Vθ (X) 1 = 2 4 σ σ Definición 2.2.27. La información de Fisher acerca del parámetro θ en la muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) se define como ⎡ 2 ⎤ n ∂ Eθ ⎣ ln fX (Xi , θ) ⎦ ∂θ i=1 y es equivalente a nI(θ), siendo I(θ) la información de Fisher acerca del parámetro θ en la población, cuya función de densidad es fX (x, θ). Definición 2.2.28. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Se habla de un caso regular de estimación o de cumplimiento de condiciones de regularidad cuando el modelo escogido para representar el comportamiento de la población y la estadı́stica en consideración cumplen las siguientes condiciones: 1. ∂ ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R. ∂θ 2. La información de Fisher acerca del parámetro θ en la población I(θ) es finita para todo θ ∈ Θ. 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 87 3. Si la variable X que representa a la población es continua n n ∂ ∂ fX (xi , θ)dx1 . . . dxn = · · · fX (xi , θ)dx1 . . . dxn ··· ∂θ ∂θ i=1 i=1 análogamente cuando X es discreta. 4. Si la variable X que representa a la población es continua n ∂ fX (xi , θ)dx1 dx2 . . . dxn · · · t(x1 , x2 , . . . , xn ) ∂θ i=1 n ∂ = · · · t(x1 , x2 , . . . , xn ) fX (xi , θ)dx1 dx2 . . . dxn ∂θ i=1 análogamente cuando X es discreta. Teorema 2.2.10 (Desigualdad de Cramer-Rao). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una función de θ, Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen de θ bajo la función r y Bθ (Tn ) el sesgo de Tn . Dentro de un caso regular de estimación, Eθ (Tn − r(θ))2 ≥ (r (θ) + Bθ (Tn ))2 nI(θ) ∂ Bθ (Tn ). ∂θ Es claro que dentro de un caso regular de estimación, si Tn es un estimador insesgado para la imagen de θ bajo una función r, la desigualdad de Cramer-Rao adquiere la versión particular con Bθ (Tn ) = Vθ (Tn ) ≥ (r (θ))2 nI(θ) correspondiente a la versión más difundida entendida como la determinación de una cota para la varianza de cualquier estimador insesgado para la imagen de θ bajo una función r, conocida precisamente como la cota de Cramer-Rao. Corolario 2.2.10.1. La igualdad en el teorema 2.2.10 se da cuando n ∂ ln fX (xi , θ) = K(θ, n) (t(x1 , x2 , . . . , xn ) − r(θ)) ∂θ i=1 en este caso Tn es un UMVUE para la imagen de θ bajo la función r. En la desigualdad de Schwarz E[(XY )2 ] = E[X 2 ]E[Y 2 ] cuando Y = kX, 2 [Bθ (Tn ) + r (θ)] siendo k una constante. Por lo tanto Eθ (Tn − r(θ))2 = nI(θ) cuando existe una constante tal que, n ∂ ln fX (xi , θ) = k(tn − r(θ)) ∂θ i=1 88 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS En esta oportunidad se menciona la estimación máximo-verosı́mil en relación con la consistencia asintóticamente normal, como una propiedad particular que en casos especiales presentan los estimadores construidos mediante este procedimiento. El siguiente teorema da fe de ello. Teorema 2.2.11. En un caso regular de estimación, si Tn es el estimador máximo verosı́mil para la imagen de θ bajo la función r , Tn es un estimador CAN de tal manera que √ 1 d n(Tn − r(θ)) − → N 0, I(θ) n 1 Xi el MLE para θ en el caso de una n i=1 población de Bernoulli de parámetro θ, Pn es un estimador CAN para θ. Esto es √ d n(Pn − θ) − → N (0, θ(1 − θ)) Ejemplo 2.2.14. Siendo Pn = Para el modelo de Bernoulli y la estadı́stica n Xi se cumplen las condiciones i=1 de regularidad, entonces fX (x, θ) = θx (1 − θ)1−x I{0,1} (x) ln fX (x, θ) = x ln θ + (1 − x) ln(1 − θ) ∂ x 1−x ln fX (x, θ) = − ∂θ θ 1−θ 2 X 1−X − I(θ) = Eθ θ 1−θ 1 2 = 2 Eθ ((1 − θ)X − θ(1 − θ)) 2 θ (1 − θ) 6 7 1 Vθ (X) = 2 Eθ (X − θ)2 = 2 2 θ (1 − θ) θ (1 − θ)2 θ(1 − θ) 1 = 2 = 2 θ (1 − θ) θ(1 − θ) luego √ d n(Pn − θ) − → N (0, θ(1 − θ)) (2) Definición 2.2.29. La eficiencia relativa de Tn = t2 (X1 , X2 , . . . , Xn ) con (1) respecto a Tn = t1 (X1 , X2 , . . . , Xn ), estimadores insesgados para la imagen de θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), corresponde al cociente (1) Vθ [Tn ] (2) Vθ [Tn ] 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 89 Siendo la eficiencia relativa un elemento de comparación entre dos estimadores, pueden involucrarse elementos adicionales para enriquecer la mencionada comparación, como por ejemplo el tamaño de la muestra. Suponiendo (1) (2) que Tn y Tm seandos estimadores de θ bajo para la imagen una función r, σ12 (θ) σ22 (θ) (1) (2) tales que Tn ∼ N r(θ), y Tm ∼ N r(θ), asumiendo que n m (2) (1) σ12 (θ) < σ22 (θ), la eficiencia relativa de Tm con respecto a Tn corresponde a σ12 (θ) n σ22 (θ) m (2) (1) En estos términos, Tm será tan eficiente como Tn en la medida que la citada n σ 2 (θ) = . Teniendo en eficiencia tenga un valor igual a uno; caso en el cual 12 σ2 (θ) m n < 1. Si en gracia a esta consideración cuenta que σ12 (θ) < σ22 (θ), entonces m 2 σ (θ) (2) el valor del cociente 12 se asume en 0.9 quiere decir que Tm requiere una σ2 (θ) muestra de un tamaño cercano al 11.11% mayor que el tamaño de la mues(1) tra n calculado con base en el estimador Tn para tener igual desempeño, o (1) igualmente que a Tn sólo le basta contar con un 90% del tamaño de muestra (2) calculado para Tm . (2) Definición 2.2.30. La eficiencia relativa asintótica de Tn con respecto a (1) (1) (2) Tn , siendo Tn y Tn estimadores CAN, para la imagen de θ bajo una función 2 r, con varianzas σ1 (θ) y σ22 (θ) respectivamente, es el cociente σ12 (θ) σ22 (θ) Definición 2.2.31. En un caso regular de estimación la eficiencia de un estimador Tn insesgado para la imagen de θ bajo una función r se define como Efθ (Tn ) = (r (θ))2 / nI(θ) Vθ [Tn ] Definición 2.2.32. En un caso regular de estimación, si Tn un estimador insesgado para la imagen de θ bajo una función r , Tn se denomina estimador eficiente o BRUE (best regular unbiased estimator) para la imagen de θ bajo la función r si Efθ (Tn ) = 1. Nota. Todo BRUE es un UMVUE, mas no todo UMVUE es BRUE. Definición 2.2.33. En un caso regular de estimación, la eficiencia asintótica de un estimador Tn insesgado para la imagen de θ bajo una función r, se define como lim Efθ (Tn ) n→∞ 90 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Ejemplo 2.2.15. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = 1 −1x e θ I(0,∞) (x) θ Teniendo en cuenta que E[X] = θ, V [X] = θ2 , I(θ) = para θ, entonces E[X n ] = θ V [X n ] = 1 θ2 , y que X n es MLE θ2 n de donde, 1 θ2 1 n 2 Efθ (X n ) = θ2 = n2 = 1 θ θ n n luego X n es un BRUE y UMVUE para θ. 2.2.5 Completez, un requisito de la distribución muestral El requerimiento de completez, es el menos intuitivo de los requisitos. Tomado del análisis funcional, en lo concerniente a un conjunto completo de elementos de un espacio de Hilbert, se adapta y configura una formalidad que puede clasificarse como un requisito referente a la familia de densidades correspondiente a la distribución muestral de la estadı́stica en examen. Definición 2.2.34. La familia de densidades {fX (x, θ)|θ ∈ Θ} se dice que es una familia de densidades completa si la condición Eθ [z(X)] para todo θ ∈ Θ, implica que Pθ [z(X) = 0] = 1 para todo x tal que fX (x, θ) > 0. Definición 2.2.35. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Tn se dice que es una estadı́stica completa para el parámetro θ si la función de densidad fTn (t) pertenece a una familia de densidades completa. Ejemplo 2.2.16. La familia de densidades ! " n n−x x fX (x, θ) = (1 − θ) θ | θ ∈ (0, 1) x es una familia de densidades completa. Es ası́ puesto que si Eθ [z(X)] = 0 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 91 n j 0= z(j) θ (1 − θ)n−j j j=1 j n n θ 0= z(j) (1 − θ)n j 1 − θ j=1 n n j θ 0= z(j) α , α= j 1−θ j=1 n luego n 1 n n n 0 α + · · · + z(n) α 0 = z(0) α + z(1) 1 n 0 y la única forma de tener esta igualdad es cuando z(0) = z(1) = · · · = z(n) = 0 entonces Eθ [z(X)] = 0 implica que z(j) = 0, para j = 0, 1, 2, . . . , n. Por lo tanto, la familia de densidades Binomial es completa. Ejemplo 2.2.17. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ, la estadı́stica n Xi i=1 es una estadı́stica completa para θ. En efecto, n Xi ∼ Bin(n, θ), como se i=1 confirmó la familia de densidades Binomial es completa, entonces la estadı́stica n Xi es completa. i=1 Ejemplo 2.2.18. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Uniforme en el intervalo (0, θ), Xn,n es una estadı́stica completa para θ. En efecto, como y 1 1 dx + I(0,∞) (y) = yI(0,θ)(y) + I(0,∞) (y) FX (y) = θ 0 θ la función de densidad del máximo de la muestra es fXn,n (y) = n[FX (y)]n−1 fX (y) n−1 1 1 =n y (y) I θ θ (0,θ) n = n y n−1 I(0,θ) (y) θ 92 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Partiendo de la condición θ Eθ [z(Y )] = z(y) 0 n = n θ n n−1 y dy = 0 θn θ z(y)y n−1 dy = 0 0 y utilizando el Teorema Fundamental del Cálculo se obtiene que z(θ)θn−1 = 0 es decir z(θ) = 0 para todo θ > 0 con lo cual se concluye que Xn,n es una estadı́stica completa para θ, porque Eθ [z(X)] = 0 implica que z(y) = θ para 0 < y < θ. Ejemplo 2.2.19. La familia de densidades " ! 1 1 fX (x, θ) = e− θ x I(0,∞) (x) | θ > 0 θ es una familia completa. Eθ [z(Tn )] = 0 = 0 ∞ 1 1 z(t)e− θ t dt θ expresión que corresponde a la transformada de Laplace de una función z(t) con θ > 0. Si esta transformación es cero para todo θ > 0 entonces z debe ser la función nula. La familia exponencial de densidades ha mostrado un conjunto de propiedades interesantes. El siguiente teorema viene a ampliar ese conjunto incluyendo una propiedad adicional que integra la suficiencia y la completez en esta familia. Teorema 2.2.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), función de densidad que pertenece a la familia n d(Xi ) es una exponencial de densidades, la estadı́stica natural de la familia i=1 estadı́stica suficiente y completa para θ. El concepto de completez no dispone de la autonomı́a de otros requisitos en el proceso de facultar estadı́sticas, por ello a priori no es fácil intuir su sentido ni tampoco comprender su inclusión dentro de una lista de requisitos. La integración de la completez al conjunto de requerimientos responde a que su participación en la configuración de un UMVUE, participación expresa en el enunciado del Teorema de Lehmann-Scheffé, es obligatoria para la sustentación de uno de los argumentos de la demostración del mismo; realmente su importancia radica en este hecho. Se puede afirmar que la completez es un requisito indirecto para el examen o mejoramiento de la precisión de un estimador. Como exordio al valioso teorema de Lehmann-Scheffé y como argumento en su demostración se presenta el siguiente teorema. 93 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES Teorema 2.2.13. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ, r(θ) una función del parámetro θ y Tn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la imagen de θ bajo la función r. Si Tn es una estadı́stica completa para θ, entonces Tn es el único estimador insesgado de la imagen de θ bajo la función r. Teorema 2.2.14 (Teorema de Lehmann-Scheffé). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) y r una (1) (2) función de θ. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . , (m) Tn = tm (X1 , X2 , . . . , Xn ) es una colección de estadı́sticas conjuntamente su(1) (2) (m) ficientes y completas para θ y si Tn∗ = t∗ (Tn , Tn , . . . , Tn ) es un estimador insesgado para la imagen de θ bajo la función r entonces Tn∗ es UMVUE para la imagen de θ bajo la función r. Ejemplo 2.2.20. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución de Poisson de parámetro θ, X n es UMVUE para θ. Esta afirmación es cierta, teniendo en cuenta lo siguiente: 1. La familia de densidades a la cual pertenece la densidad de Poisson es una familia exponencial de densidades. Por lo tanto n Xi i=1 es una estadı́stica suficiente y completa para θ tal como lo garantiza el teorema 2.2.12. 2. X n es una función de la estadı́stica n Xi , esta última suficiente y com- i=1 pleta para θ. 3. X n es un estimador insesgado para θ. En virtud de estos resultados y con el auxilio del teorema del Lehmann-Scheffé X n es UMVUE para θ. Por otra parte, si el interés se centra en estimar la imagen de θ bajo la función r(θ) = e−θ , donde e−θ = P [X = 0], el proceso de determinar un estimador UMVUE para e−θ requiere de algunos pasos especiales. 1. I{0} (X1 ) es un estimador insesgado para e−θ , porque Eθ I{0} (X1 ) = 0.P [X1 ≥ 1] + 1.P [X1 = 0] = e−θ n n 2. Eθ I{0} (X1 ) | Xi es una estimación insesgada función de xi coni=1 i=1 94 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS forme al teorema de Rao-Blackwel (2.2.9), página 84. Eθ I{0} (X1 ) | n Xi = 0.Pθ X1 ≥ 1 | i=1 + 1.Pθ X1 = 0 | n i=1 n Xi = t Xi = t i=1 Pθ n Xi = t Pθ X1 = 0, n i=1 X1 = 0 | Xi = t = i=1 Pθ Xi = t n i=1 n Pθ X1 = 0, Xi = t n i=2 = Pθ Xi = t i=1 n Pθ [X1 = 0]Pθ Xi = t n i=2 = Pθ Xi = t i=1 t Como cada Xi ∼ P oiss(θ) entonces MXi (t) = eθ(e −1) , i = 1, 2, . . . , n. n t Si Y = Xi , entonces MY (t) = e(n−1)θ(e −1) , luego Y ∼ P oiss((n−1)θ). Si Z = i=2 n t Xi , entonces MZ (t) = enθ(e −1) , luego Z ∼ P oiss(nθ). i=1 por lo tanto, Pθ n e−θ e−(n−1)θ [(n − 1)θ]t /t! = Xi = t = X1 = 0 | e−nθ (nθ)t /t! i=1 n Entonces Eθ I{0} (X1 ) | Xi = n−1 n n i=1 xi n−1 n n i=1 xi , luego la estadı́stica i=1 n−1 n n i=1 Xi es un estimador insesgado función de una estadı́stica suficiente y completa, por lo tanto es UMVUE para e−θ . Ejemplo 2.2.21. Determinar un UMVUE para θ cuando el modelo asumido para representar la población es un modelo Exponencial negativo, fX (x, θ) = θe−θx I(0,∞) (x) 95 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 1. fX (x, θ) pertenece a la familia exponencial de densidades, n Xi es una i=1 estadı́stica suficiente y completa para θ. 2. X n es una función de n Xi , X n es un estimador insesgado para i=1 lo tanto X n es un UMVUE para 1 , por θ 1 θ c El estimador para θ se intuye como con c constante, entonces n Xi i=1 ⎡ ⎤ ∞ ⎢ c ⎥ 1 1 ⎢ ⎥ fT (t)dt, Eθ ⎣ n ⎦ = θ = c Eθ T = c t 0 Xi T = n Xi i=1 i=1 como la suma de variables aleatorias con distribución exponencial es una variable aleatoria con distribución Gama, se tiene que ⎡ ⎤ ⎢ c ⎥ ⎥=c Eθ ⎢ n ⎣ ⎦ Xi i=1 o ∞ 1 1 n n−1 −θt e dt θ t t Γ(n) ∞ 1 θn tn−2 e−θt dt Γ(n) 0 ∞ cθ un−2 e−u du utilizando la sustitución u = θt = Γ(n) 0 cθ cθΓ(n − 1) = n>1 = Γ(n) n−1 =c n−1 Un estimador insesgado para θ es , el cual es una estadı́stica función de n Xi i=1 una estadı́stica suficiente y completa. Por ser insesgado para θ, es UMVUE para el parámetro θ. Expuestos, de manera separada por razones académicas, los criterios más conocidos para facultar estadı́sticas como estimadores de parámetros, le resta entonces al lector con el apoyo de los ejercicios propuestos y de los que encuentre en otros textos, la realización de una actividad de sı́ntesis conceptual integradora de los requisitos exigibles a los estimadores, respaldada por los enunciados de los teoremas incluidos y por los argumentos que los garantizan, argumentos que se presentan en la siguiente sección. 96 2.2.6 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Robustez, un requisito de estabilidad Este capı́tulo cierra con una breve exposición de un requisito denominado robustez, término acuñado por Box, pero cuya idea ya habı́a sido expresada mucho antes por Pearson, requisito que en ciertas oportunidades es exigible a algunos estimadores y en forma general a algunos procedimientos estadı́sticos, que adquiere un destacado interés cuando no existe plena afinidad entre el comportamiento global e individual de las observaciones de la muestra y el modelo postulado como modelo original de las observaciones, o cuando no hay coherencia total con los supuestos admitidos. Los requisitos presentados en el desarrollo de este capı́tulo de ninguna manera controvierten la afinidad o incompatibilidad entre las observaciones de la muestra y el modelo original. El modelo define un ambiente y bajo él, una estadı́stica exhibe sus atributos y desatinos en la misión de ser un estimador del parámetro caracterı́stico del modelo. Definición 2.2.36. Un procedimiento o método estadı́stico se denomina robusto, si su desempeño es imperturbable a ligeras discordancias del modelo original o de los supuestos asumidos con la información acopiada. Particularmente un estimador Tn basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), recibe la denominación de estimador robusto, si su desempeño permanece inalterado ante discrepancias con el modelo original. Que el desempeño de un estimador o de un método estadı́stico sea inalterable frente a ligeras discordancias con el modelo o con los supuestos, es decir que sea robusto, es en sı́ una propiedad deseable. Sin embargo es un criterio vago porque es impreciso el término desempeño del estimador , como igualmente es impreciso el alejamiento del modelo o de los supuestos y como también lo es el no cumplimiento de los supuestos. El alejamiento de un modelo puede tener varias facetas: presencia de outliers, valores insólitos bajo el modelo original, discrepancias en la forma de la densidad, como el apuntamiento y la simetrı́a entre otras. El no cumplimiento de los supuestos por su parte, podrı́a ser taxativo: no se cumplen unas condiciones sobre las cuales un procedimiento estadı́stico se ha estructurado, ¿pero en qué medida no se cumplen los supuestos?; por ejemplo la homoscedasticidad, más alla de la definición clara y precisa de igualdad de varianzas, ¿cuándo k poblaciones no tienen la misma variabilidad?. Suponiendo que se desea estimar el promedio poblacional, valor esperado de una variable aleatoria, que el estimador elegido es X n , basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), y que asumido el modelo original, X n posee propiedades inmejorables, propiedades válidas únicamente bajo la regencia del modelo adoptado, ante la presencia de discrepancias con el modelo puede menoscabarse su idoneidad, en cuyo caso se habları́a de la no robustez del estimador. Las discrepancias con el modelo se pueden teorizar de variadas formas, una de ellas en forma particular a través de la contaminación. Definición 2.2.37. Una variable aleatoria Xc se dice que es una variable 2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 97 aleatoria contaminada, si su función de densidad fXc (x, θ) es un combinación lineal de dos o más funciones de densidad, fXc (x, θ) = k j fXj (x), siendo j=1 k j = 1 j=1 Concretamente si la función de densidad del modelo original es fX (x, θ), y las discrepancias con el modelo motivan la consideración de una nueva función de densidad para la variable aleatoria X, de la forma fXc (x, θ) = (1 − )fX (x, θ) + g(x) elegida g(x) de manera que sea la responsable de generar los valores insólitos, bajo el modelo original cuya función de densidad es fX (x, θ), entonces X n es altamente sensible frente a las discrepancias citadas. Esa falta de robustez de la media de la muestra, ha sido paliada por eliminación de los valores más extremos, o por la utilización de la medianade la muestra, menos afectada por dichos valores. En general son varios los mecanismos de enfrentar la no robustez, sólo que dentro del contexto del capı́tulo se desea en un sentido destacar uno basado en la idea de excluir valores extremos, o de reemplazarlos para eliminar los outliers o amortiguar su efecto: los estimadores L y en otro sentido hacer una ligera mención de los estimadores M. Definición 2.2.38. Sea X1,n , X2,n , . . . , Xn,n , una muetra ordenada de una población con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, θ un parámetro de localización. Un estimador L para θ, es una estadı́stica de la forma Tn = n cn,i Xi,n i=1 donde los coeficientes cn,i , i = 1, 2, . . . , n están determinados. Son ejemplos de estimadores L, el promedio, el mı́nimo y el máximo de la muestra, pero deben destacarse, respondiendo a esta idea de exclusión o reemplazo de valores extremos, los promedios recortados y los promedios “windsorizados”. Un α-promedio recortado, es el promedio aritmético de las n − 2[nα] estadı́sticas de orden centrales, con 0 < α < 12 , es decir que se elimina la fracción α de las observaciones inferiores de la muestra e igualmente se elimina la fracción α de las observaciones superiores de la muestra y con la restante fracción de observaciones 1 − 2α, se determina el promedio aritmético que justamente se adjetiva como recortado. Su expresión corresponde a r X n,α = 1 n − 2[nα] n−[nα] i=[nα]+1 Xi,n 98 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Un α-promedio windsorizado, no elimina la fracción α de las observaciones inferiores ni la fracción α de las observaciones superiores de la muestra, 0 < α < 12 , sino que reemplaza cada una de ellas por las estadı́sticas de orden X[nα]+1,n y Xn−[nα],n respectivamente y luego considera el promedio aritmético de estas n variables como lo indica su expresión, ⎫ ⎧ n−[nα] ⎬ 1⎨ Xi,n + [nα]Xn−[nα],n [nα]X[nα]+1,n + w X n,α = ⎭ n⎩ i=[nα]+1 Por otra parte un estimador M para θ, basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), es un estimador que minimiza la suma n H(Xi − t) i=1 siendo H una función predeterminada, o es un estimador que es solución de la ecuación n h(Xi − t) = 0 i=1 igualmente para una función h predeterminada. Entonces el estimador M está dependiendo de una elección de una función H o h según sea el fin. Como casos especiales se pueden construir estimadores M correspondientes a los estimadores ∂ máximo-verosı́miles tomando h(x, t) = − ln fX (x, θ) como también construir ∂t estimadores M correspondientes a los denominados estimadores de mı́nimos cuadrados tomando H(x, t) = (x − t)2 , estimadores muy corrientes en los Modelos lineales y en el Diseño experimental. Finalmente, es pertinente señalar que en la actualidad se utilizan procedimientos de mejoramiento de estimadores, procedimientos que requieren de extenso uso de cómputo estadı́stico, conocidos como métodos de remuestreo, de los cuales se destacan el jackknifing y el boostraping, consistentes en pocas palabras en la utilización sistemática de todas las posibles submuestras obtenidas removiendo observaciones de la muestra original y calculando la estimación correspondiente. 2.3 Demostración de los teoremas del capı́tulo Demostración (Teorema 2.1.1). En primer lugar, asumiendo que la función ∗ r(θ) = θ∗ es una función uno a uno, con dominio Θ y recorrido Θ , entonces θ = r−1 (θ∗ ). Como la función de verosimilitud L(θ; x1 , x2 , . . . , xn ) tiene máximo en el punto θ = tn es equivalente a afirmar que la función tiene máximo en el punto r−1 (θ∗ ) = tn , es decir en θ∗ = r(tn ). De esta manera el MLE de θ∗ es r(Tn ). 2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 99 En segundo lugar, si la función r(θ) no es una función uno a uno, el principio de invarianza se mantiene. Como se afirmó la función de verosimilitud tiene máximo en el punto θ = tn . Varios valores de θ tienen como imágen a θ∗ = r(tn ), uno de ellos hace máxima a L(θ; x1 , x2 , . . . , xn ) precisamente θ = tn . En conclusión, cualquiera sea el caso el MLE de θ∗ = r(θ) es r(Tn ). Demostración (Teorema 2.1.4). Como preparación a la demostración, hay que tener presente que el momento central de orden r, μr = E [(X − μ)r ] puede expresarse en términos de los momentos ordinarios, de menor orden. Utilizando el teorema binomial se logra dicho propósito. ⎤ ⎡ r r r r μr = E [(X − μ)r ] = E ⎣ X j (−μ)r−j ⎦ = (μj )j (−μ)r−j j j j=0 j=0 Igualmente el momento muestral central de orden r, puede expresarse en términos de los momentos muestrales ordinarios de menor orden. n n r 1 1 r r Xij (−X n )r−j Xi − X n = n i=1 n i=1 j=0 j r n 1 r = Xij (−X n )r−j j n j=0 i=1 r n r 1 (−X n )r−j Xij = j n j=0 i=1 r r j Mj (−X n )r−j = j j=0 como el momento μ2r existe, los momentos μs y μs , s ≤ 2r, existen. El teorema 1.4.5, página 14, y el teorema 2.1.3, página 61 garantizan que Mr = r r Mj j j=0 j p (−X n )r−j − → r r μj j j=0 j (−μ)r−j Demostración (Teorema 2.2.1). Este teorema coincide con el teorema 1.6.1, vista la estadı́stica de orden X[np]+1,n como estimador de xp . Demostración (Teorema 2.2.2). La demostración se realizará en dos sentidos. En primer lugar se supone la suficiencia de la estadı́stica para concluir que la función de verosimilitud se puede expresar como el producto de factores en la forma indicada. La segunda parte se desarrolla en sentido contrario. Se considera únicamente el caso discreto, porque el caso continuo requiere de consideraciones adicionales; sin embargo las ideas y argumentos utilizados son similares para los dos casos. 100 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Antes de abordar la demostración, como X1 , X2 , . . . , Xn constituyen una muestra aleatoria, P [X1 = x1 , X2 = x2 , . . . , Xn = xn ] = fX (x1 , θ)fX (x2 , θ) · · · fX (xn , θ) = L(θ; x1 , x2 , . . . , xn ) Para efectos de notación, al conjunto de valores (x1 , x2 , . . . , xn ) tales que t(x1 , x2 , . . . , xn ) = t,llamado un entorno de Tn , se denota como A(t), con L(θ; x1 , x2 , . . . , xn ). lo cual Pθ [Tn = t] = A(t) En primer término, como se habı́a manifestado, se parte del supuesto de que Tn es una estadı́stica suficiente para θ es decir que Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] no depende de θ, probabilidad que puede denotarse como h(x1 , x2 , . . . , xn ) porque únicamente depende de los valores particulares x1 , x2 , . . . , xn . Por otra parte, la probabilidad Pθ [Tn = t] al depender del valor t y de θ puede denotarse como g(t, θ), con lo cual L(θ; x1 , x2 , . . . , xn ) = Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ] = Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] Pθ [Tn = t] = h(x1 , x2 , . . . , xn )g(t, θ) En segundo término, partiendo del supuesto de que L(θ; x1 , x2 , . . . , xn ) = g(t, θ)h(x1 , x2 , . . . , xn ) / A(t) y considerando un valor particular t (evidentemente si (x1 , x2 , . . . , xn ) ∈ Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = 0) Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = Δ Δ= L(θ; x1 , x2 , . . . , xn ) Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ] = Pθ [Tn = t] L(θ; x1 , x2 , . . . , xn ) A(t) g(t, θ)h(x1 , x2 , . . . , xn ) g(t, θ)h(x1 , x2 , . . . , xn ) = = h(x1 , x2 , . . . , xn )g(t, θ) g(t, θ) h(x1 , x2 , . . . , xn ) A(t) A(t) h(x1 , x2 , . . . , xn ) = h(x1 , x2 , . . . , xn ) A(t) que no depende de θ. Demostración (Teorema 2.2.4). La demostración de este teorema es muy similar a la demostración del teorema que hace referencia al criterio de 2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 101 factorización de Fisher-Neyman para el caso de una estadı́stica suficiente unidimensional. Para efectos de la demostración, se introducen algunos elementos como el (1) (2) (m) vector T = (Tn , Tn , . . . , Tn ) , el conjunto A(t) que para este caso se refiere al conjunto de valores (x1 , x2 , . . . , xn ) tales que t1 (x1 , x2 , . . . , xn ) = t1 , t2 (x1 , x2 , . . . , xn ) = t2 , . . . , tm (x1 , x2 , . . . , xn ) = tm y t corresponde al vector t = (t1 , t2 , . . . , tm ) , con lo cual Pθ Tn(1) = t1 , Tn(2) = t2 , . . . , Tn(m) = tm = Pθ [T = t] = L(θ; x1 , x2 , . . . , xn ) A(t) El desarrollo de la demostración a partir de estos elementos es el mismo que se realizó para el caso de una estadı́stica suficiente unidimensional. Demostración (Teorema 2.2.5). Siendo Tn una estadı́stica suficiente para θ, entonces según el criterio de factorización de Fisher-Neyman, L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn )); θ)h(x1 , x2 , . . . , xn ) En el caso de ser Tn∗ = t∗ (X1 , X2 , . . . , Xn ) el único MLE de θ, entonces θ = t∗ hace máxima a L y por supuesto a g(t(x1 , x2 , . . . , xn )), luego t∗ es una función de t(x1 , x2 , . . . , xn ). Demostración (Teorema 2.2.9). En cuanto al punto 1, afirmar que Tn∗ es una estadı́stica función de estadı́sticas suficientes sólamente, es consecuencia del (1) (2) (m) hecho de ser Tn , Tn , . . . , Tn , una colección de estadı́sticas conjuntamente suficientes; debido a su construcción Tn∗ es una estadı́stica suficiente por ser función únicamente de dicha colección. Con referencia al punto 2, se considera sólo el caso en el cual la variable aleatoria que representa a la población es una variable continua; el caso discreto es similar. (1) (2) (m) = r(θ), Como el objeto es concluir que Eθ Eθ Vn |Tn , Tn , . . . , Tn para facilitar la notación, la colección de estadı́sticas conjuntamente suficientes (1) (2) (m) se dispone en el vector aleatorio T = (Tn , Tn , . . . , Tn ) cuya función de densidad es fT (t), siendo t = (t1 , t2 , . . . , tn ). Eθ [Vn |T ] = ∞ vn fVn |T (vn |t) dvn fVn ,T (vn , t) = vn dvn fT (t) −∞ 5∞ vn fVn ,T (vn , t)dvn = c(t) = −∞ fT (t) −∞ ∞ El valor esperado Eθ [Vn |T ] = c(t) es una función que depende únicamente de 102 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS los valores particulares de t. Eθ [Eθ [Vn |T ]] = Eθ [c(T )] ∞ ∞ ∞ = ··· c(t)fT (t)dt1 dt2 · · · dtm −∞ −∞ −∞ ∞ ∞ ∞ ∞ = ··· vn fVn ,T (vn , t)dvn dt1 dt2 · · · dtm −∞ −∞ −∞ −∞ 5∞ porque −∞ vn fVn ,T (vn , t)dvn = c(t)fT (t), intercambiando apropiadamente el orden de integración se tiene que ∞ ∞ ∞ Eθ [Eθ [Vn |T ]] = vn ··· fVn ,T (vn , t)dt1 dt2 · · · dtm dvn −∞ −∞ −∞ ∞ = vn fVn (vn )dvn = E[Vn ] = r(θ) −∞ 5∞ 5∞ porque −∞ · · · −∞ fVn ,T (vn , t)dt1 dt2 · · · dtm = fVn (vn ). Para concluir el desarrollo de lo pertinente al punto 3, se parte de la conocida adición de un cero, ası́ Vθ [Vn ] = Eθ (Vn − r(θ)2 ) = Eθ (Vn − c(T ) + c(T ) − r(θ))2 = Eθ (Vn − c(T ))2 + Eθ (c(T ) − r(θ))2 = Eθ (Vn − c(T ))2 + Vθ [c(T )] puesto que Eθ [c(T )] = r(θ) y 2Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0. Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0, como se deduce a continuación. Eθ [(Vn − c(T ))(c(T ) − r(θ))] = Eθ [Vn c(T )] − r2 (θ) − Eθ c2 (T ) + r2 (θ) = Eθ [c(T )(Vn − c(T ))] = Δ ∞ ∞ Δ= −∞ ∞ −∞ ∞ −∞ −∞ = ∞ −∞ ··· ··· ∞ −∞ ∞ −∞ ∞ c(t)(vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm ∞ c(t) (vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm −∞ −∞ (vn − c(t))fVn ,T (vn , t)dvn = ∞ vn fVn ,T (vn , t)dvn ∞ − c(t) fVn ,T (vn , t)dvn −∞ −∞ = c(t)fT (t) − c(t)fT (t) = 0 2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 103 por lo tanto Δ = Eθ [c(T )(Vn − c(T ))] = 0. Regresando al paso en el cual se enunció que Vθ [Vn ] = Eθ (Vn − c(T ))2 + Vθ [c(T )] y teniendo en cuenta que Eθ (Vn − c(T ))2 ≥ 0 entonces Vθ [c(T )] ≤ Vθ [Vn ] o Vθ [Eθ [Vn |T ]] ≤ Vθ [Vn ]. En sı́ntesis, Vθ [Tn∗ ] ≤ Vθ [Vn ] Demostración (Teorema 2.2.10). Esta demostración parte de la definición de sesgo y utiliza las condiciones de regularidad como argumentos para su desarrollo. Dado que Bθ (Tn ) = Eθ (Tn ) − r(θ), Bθ (Tn ) + r(θ) = Eθ (Tn ) ∞ ∞ ··· = −∞ −∞ ∞ −∞ t(x1 , · · · , xn ) ∞ ∞ Δ= −∞ ∞ −∞ ∞ = −∞ −∞ ··· −∞ ··· ∞ ∞ −∞ t(x1 , · · · , xn ) t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn i=1 como se trata de un caso regular de estimación, n ∂ ∂θ n ∂ Bθ (Tn ) + r (θ) = Δ ∂θ fX (xi , θ) dx1 · · · dxn i=1 n n ∂ ln fX (xi , θ) fX (xi , θ)dx1 · · · dxn ∂θ i=1 i=1 n n n ) ) ∂ ∂ ) ln puesto que fX (xi , θ) = fX (xi , θ) fX (xi , θ) porque ∂θ i=1 ∂θ i=1 i=1 g (x) d d dx ln g(x) = g(x) , y por lo tanto g (x) = dx ln g(x) g(x). Antes de continuar, es necesario demostrar que n ∞ ∞ ∞ n ∂ ln ··· r(θ) fX (xi , θ) fX (xi , θ) dx1 · · · dxn = 0 ∂θ i=1 −∞ −∞ −∞ i=1 es nula dicha expresión porque n ∞ ∞ ∞ n ∂ r(θ) ln ··· fX (xi , θ) fX (xi , θ) dx1 · · · dxn ∂θ i=1 −∞ −∞ −∞ i=1 ∞ ∞ ∞ n ∂ = r(θ) ··· fX (xi , θ)dx1 · · · dxn −∞ −∞ −∞ ∂θ i=1 ∞ n ∞ ∞ ∂ ∂ = r(θ) ··· fX (xi , θ)dx1 · · · dxn = r(θ) (1) = 0 ∂θ −∞ −∞ ∂θ −∞ i=1 104 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Continuando el desarrollo de la n ) fX (xi , θ), L = L(θ; x1 , x2 , . . . , xn ) = demostración y utilizando i=1 ∞ ∞ ··· ∞ (t(x1 , · · · , xn ) − r(θ)) −∞ −∞ −∞ n ∂ ln = Eθ (Tn − r(θ)) fX (Xi , θ) ∂θ i=1 Δ= ∂ ln L (L) dx1 · · · dxn ∂θ Aplicando la desigualdad de Schwarz la cual afirma que si X, Y son dos variables 2 aleatorias, [E[XY ]] ≤ E[X 2 ] Y 2 por lo tanto + n , , ∂ Bθ (Tn ) + r (θ) = ln fX (Xi , θ) Eθ (Tn − r(θ)) ∂θ i=1 ≤ Eθ [(Tn − r(θ))2 ] nI(θ) 2 entonces [Bθ (Tn ) + r (θ)]2 ≤ Eθ (Tn − r(θ))2 [nI(θ)], con lo cual se permite establecer la cota: Eθ (Tn − r(θ))2 ≥ [Bθ (Tn ) + r (θ)] nI(θ) 2 Demostración (Teorema 2.2.13). Suponiendo que exista otro estimador insesgado para la imagen de θ, que sea función de Tn , especı́ficamente Un = h(Tn ), entonces Eθ [Un ] = r(θ). Bajo la hipótesis del teorema, Eθ [Tn ] = r(θ), por lo tanto Eθ [Tn ] − Eθ [Un ] = 0 lo cual equivale a afirmar que Eθ [Tn − h(Tn )] = 0 pero como Tn es una estadı́stica completa, Pθ [(Tn − h(Tn )) = 0] = 1. Como consecuencia, la función h obligatoriamente es la función idéntica, es decir Tn es único. 2.4 Ejercicios del capı́tulo 1. Al considerar el modelo Beta como modelo para representar el comportamiento probabilı́stico de una población, es preciso saber como se deben estimar las dos constantes que intervienen en el modelo. Teniendo presente que la función de densidad de una variable aleatoria X con distribución Beta es fX (x, θ) = 1 xθ1 −1 (1 − x)θ2 −1 I(0,1) (x) β(θ1 , θ2 ) 105 2.4. EJERCICIOS DEL CAPÍTULO Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0. ¿Cuál es el MLE para θ?. ¿Cuál es el estimador por el método de los momentos para θ?. Dado el caso en el cual se asuma conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para θ2 ?, ¿es pertinente pensar en estimador por analogı́a para θ2 ?. Igualmente, dado el caso en el cual se asuma conocido o fijo el valor de θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para θ1 ?, ¿es factible determinar un estimador por analogı́a para θ1 ?. 2. El modelo de Pareto es otro de los modelos frecuentemente utilizados. Recordando que la función de densidad de una variable aleatoria X, con distribución de Pareto es fX (x, θ) = θ2 θ1θ2 I (x) xθ2 +1 (θ1 ,∞) Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0. ¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los momentos para θ?, ¿es procedente pensar en un estimador por analogı́a para θ?. Asumiendo conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para θ2 ?, ¿es procedente la construcción de un estimador por analogı́a para θ2 ?. De la misma manera, asumiendo conocido o fijo el valor de θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para θ1 ?, ¿es factible determinar un estimador por analogı́a para θ1 ?. 3. El modelo Zeta, utilizado particularmente en Lingüı́stica, está construido con base en la función Zeta de Riemann, función definida como ∞ 1 , ζ(s) = s j j=1 con s > 1 Una varible aleatoria X se dice que tiene distribución Zeta con parámetro θ, θ > 0, o que tiene distribución de Zipf (en honor a George Zipf), si su función de densidad es 1 I{1,2,... } (x) fX (x, θ) = θ x ζ(θ) en cuyo caso E X k = ζ(θ−k) ζ(θ) , E[X] = V [X] = con θ > k + 1, k = 1, 2, ... Particularmente ζ(θ − 1) ζ(θ) si θ > 2 2 ζ(θ − 1) ζ(θ − 2) − ζ(θ) ζ(θ) si θ > 3 106 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Explore la forma de estimar puntualmente el parámetro θ. 4. El modelo de Poisson, modelo muy conocido por sus múltiples aplicaciones incluye una constante θ que corresponde tanto al centro de gravedad de la función de densidad de una variable aleatoria regido por este modelo como la cuantificación de la dispersión de la misma. Dado que la función de densidad de una variable aleatoria X, con distribución de Poisson es fX (x, θ) = θx −θ e I{0,1,2,... } (x) x! siendo θ > 0, ¿cuál es el MLE para θ?, ¿cuál es el estimador por el método de los momentos para θ?, ¿cuál es el estimador por analogı́a para θ?. 5. El modelo Gaussiano representa una gama amplia de situaciones y es el modelo capital en Estadı́stica. Es necesario diferenciar las formas como se deben estimar las dos constantes que participan en el modelo. Señalando que la función de densidad de una variable aleatoria X, con distribución Gaussiana es fX (x, θ) = √ (x−θ1 )2 1 e− 2θ2 2πθ2 los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0. ¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los momentos para θ?. Para el caso particular en el cual se asuma conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para θ2 ?, ¿cuál es el estimador por analogı́a para θ2 ?. Del mismo modo, dado el caso en el cual se asuma conocido o fijo el valor de θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?. 6. El modelo Gama realmente es una familia de modelos. Las dos constantes que intervienen en la naturaleza del modelo, usualmente llamadas parámetro de forma y parámetro de escala, se pueden estimar de varias formas. Recordando que la función de densidad de una variable aleatoria X, con distribución Gama es fX (x, θ) = θ2θ1 θ1 −1 −θ2 x x e I(0,∞) (x) Γ(θ1 ) los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0. ¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los momentos para θ?. Cuando se asume conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para θ2 ?, ¿cuál es el estimador por analogı́a para θ2 ?. Similarmente cuando se asume conocido o fijo el valor de θ2 , ¿cuál es el 107 2.4. EJERCICIOS DEL CAPÍTULO MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?. 7. Una variable aleatoria X, con distribución de Gumbel tiene como función de distribución a x − θ1 FX (x, θ) = exp − exp θ2 los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0. Explore la forma de estimar puntualmente el parámetro θ, teniendo en π2 θ2 cuenta que E[X] = θ1 + γθ2 , siendo γ ≈ 0.577216, y V (X) = 6 2 . 8. Una variable aleatoria X, con distribución de Laplace o con distribución Exponencial doble, tiene como función de densidad a fX (x, θ) = 1| 1 − |x−θ e θ2 2θ2 los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0. Explore la forma de estimar puntualmente el parámetro θ, teniendo en cuenta que E[X] = θ1 y V [X] = 2θ22 . 9. Determine la eficiencia relativa asintótica de 1 n n Xi − X n 2 frente a i=1 Sn2 , para estimar σ 2 cuando se ha asumido un modelo Normal con valor esperado μ y varianza σ 2 . 10. De los dos estimadores para σ 2 del ejercicio anterior, ¿cuál tiene mayor error cuadrático medio?. 11. Igualmente, de los dos estimadores para σ 2 del ejercicio anterior, ¿cuál tiene menor varianza?. 12. Un tramposo juega con una moneda de dos sellos, pero algunas veces para no despertar sospechas, utiliza una moneda equitativa. El objeto de este ejercicio es estimar cuál moneda está utilizando en un momento dado, a partir de los resultados de n lanzamientos de una misma moneda, es 6 7 decir, estimar el parámetro θ, cuyo espacio es el conjunto Θ = 12 , 1 . Compruebe que el MLE para θ es n n 1 Tn = I{0,1,... ,n−1} Xi + I{n} Xi 2 i=1 i=1 13. ¿El estimador Tn del ejercicio anterior es un estimador insesgado, o es un estimador asintóticamente insesgado para θ?. 14. Determine el error cuadrático medio del estimador Tn del ejercicio anterior. 108 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS 15. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ), determine la varianza del estimador por el método de los momentos para θ, basado en la muestra aleatoria, y examine si es un estimador insesgado para θ. 16. (Este ejercicio y los cinco siguientes hacen referencia al ejercicio 15). Determine la varianza del estimador máximo-verosı́mil para θ, basado en la muestra aleatoria, y concluya si es un estimador consistente para θ. 17. Construya un estimador insesgado para θ, que sea función del máximo de la muestra, y determine su varianza. ¿Es este estimador consistente para θ?. 18. Entre el estimador del ejercicio anterior y el estimador por el método de los momentos, ¿cuál elige? 19. ¿Es posible construir un estimador insesgado para θ que sea función del mı́nimo de la muestra?. Si es factible, identifı́quelo y determine su varianza. ¿Es este un estimador consistente para θ?. 20. Considere los estimadores para θ de la forma Tn = h(n)Xn,n , siendo h(n) una función exclusiva del tamaño de la muestra. Determine el estimador de esta clase que tenga el menor error cuadrático medio. 21. En sı́ntesis, ¿cuál estimador elige como el más apto estimador para θ?. 22. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución de Laplace con θ2 = 1, ¿existe una estadı́stica suficiente para θ1 ?. 23. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) = θ I[θ,∞) (x), x2 θ>0 determine el MLE de θ. Compruebe que este estimador es una estadı́stica suficiente para θ. 24. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución de Poisson con parámetro λ y θ = P [Xi = 0] = e−λ , determine el MLE de θ, mediante dos procedimientos: directamente y usando la propiedad de invarianza de los estimadores máximo-verosı́miles. 25. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución de Bernoulli de parámetro θ, determine el MLE para la varianza poblacional. 26. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Gaussiana de valor esperado θ1 y varianza θ2 , determine el MLE para θ12 + θ2 . 2.4. EJERCICIOS DEL CAPÍTULO 109 27. Determine la cota de Cramer-Rao para la varianza de los estimadores insesgados para θ, basados en una muestra aleatoria de tamaño n de una población con distribución de Bernoulli de parámetro θ. 28. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?. 29. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Binomial de valor esperado mθ y varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1). Obtenga el MLE, el estimador por el método de los momentos y el estimador por analogı́a para θ. ¿Existe una estadı́stica suficiente?. Si es factible, determine el UMVUE para θ. 30. Determine la cota de Cramer-Rao para la varianza de los estimadores insesgados para θ, basados en una muestra aleatoria de tamaño n de una población con distribución de Poisson de parámetro θ. 31. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?. 32. Si se asume el modelo Gaussiano, ¿X n es un UMVUE para el promedio poblacional?. ¿La varianza de Sn2 es igual a la correspondiente cota de Cramer-Rao para los estimadores insesgados para la varianza poblacional?. 33. Si se adopta el modelo Gaussiano, y se asume que el promedio poblacional es conocido, ¿existe un UMVUE para la varianza poblacional?. ¿Qué ocurrirı́a si no se asume que el promedio poblacional es conocido?. 34. Determine la cota de Cramer-Rao para la varianza de los estimadores insesgados para el parámetro de escala, basados en una muestra aleatoria de tamaño n de una población con distribución Gama. ¿Existe un UMVUE para el parámetro de escala?. 35. Teniendo en cuenta una muestra aleatoria de tamaño n de una población 2 ∂ ln fX (x, θ) y compárelo Uniforme en el intervalo (0, θ), calcule Eθ ∂θ con la varianza del estimador insesgado para θ basado en el máximo de la muestra. ¿Se presenta alguna contradicción?. 36. Sea X1 , X2 , . . . , Xn una sucesión de variables aleatorias incorrelacionadas tales que σi2 = V [Xi ] y E[Xi ] = μ, i = 1, 2, . . . , n. Considere el esn βi Xi , siendo β1 , β2 , . . . , βn , constantes determinadas. timador Tn = i=1 ¿Cuál condición deben cumplir estas constantes para que el estimador Tn sea insesgado para μ?. Determine la varianza de Tn en términos de β1 , β2 , . . . , βn y σ1 , σ2 , . . . , σn . Bajo la restricción del insesgamiento de Tn use multiplicadores de Lagrange para comprobar que la varianza de Tn 110 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS es mı́nima, cuando 1 σ2 j βj = n 1 i=1 para j = 1, 2, . . . , n σj2 Si σ1 , σ2 , . . . , σn se asumen conocidas, una estadı́stica como lo sugiere este ejercicio se denomina BLUE(best linear unbiased estimator) para μ. 37. Teniendo en cuenta lo expuesto en el ejercicio anterior, si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con valor esperado μ y varianza σ 2 , ¿X n es BLUE para μ?, ¿se requiere conocer el valor de σ?. 38. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con disn Xi es tribución de Poisson con parámetro θ, muestre que la estadı́stica i=1 una estadı́stica suficiente para θ, ¿existe una estadı́stica suficientte minimal para θ?. 39. Si X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Gama con parámetro θ = (θ1 , θ2 ) y siendo Gn la media geométrica muestral, ¿la estadı́stica Tn = (X n , Gn ), es una estadı́stica suficiente para θ?. Si se asume conocido θ1 , ¿existe un UMVUE para θ2 ?. 40. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Beta con parámetro θ = (θ1 , θ2 ), ¿existe una estadı́stica suficiente minimal para θ?. 41. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ), ¿existe una estadı́stica suficiente para θ?. 42. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (θ, θ + 1), θ > 0, compruebe que la estadı́stica (X1,n , Xn,n ) es una estadı́stica suficiente minimal para θ. 43. Muestre que si Tn es una estadı́stica completa para θ, y si Tn es otra estadı́stica, ella es completa si Tn y Tn son estadı́sticas equivalentes. 44. La estadı́stica ⎡ n 2 ⎤ n 1 1 Xi − ⎣ Xi ⎦ n − 1 i=1 n(n − 1) i=1 basada en una muestra aleatoria X1 , X2 , . . . , Xn de una población con distribución de Bernoulli de parámetro θ, ¿es UMVUE para θ(1 − θ)?. 111 2.4. EJERCICIOS DEL CAPÍTULO 45. Y = 100X es el contenido porcentual de calcio en cierto compuesto, que se puede modelar como una variable aleatoria tal que la función de densidad de la variable aleatoria X es fX (x, θ) = θxθ−1 I(0,1) (x), θ>0 Con base en n determinaciones independientes Y1 , Y2 , . . . , Yn , las cuales se pueden tratar como una muestra aleatoria, encuentre un MLE y un UMVUE para el contenido medio de calcio. ¿Existe alguna función de θ tal que haya un estimador insesgado para la imagen de θ, cuya varianza coincida con su correspondiente cota de Cramer-Rao?. 46. El tiempo en la atención a un cliente en un banco se puede modelar como una variable aleatoria con distribución Exponencial de valor esperado θ1 . Con base en una muestra de n clientes atendidos, se desea estimar el tiempo mediano de atención. Obtenga un MLE y un UMVUE para este tiempo mediano. 47. El número de animales de cierta especie que se pueden encontrar dentro de un cuadrante (cuadrado ubicado cartográficamente en el área de investigación), se modela corrientemente como una vairable aleatoria con distribución de Poisson de parámetro θ. Existe un interés paricular dentro de la descripción de la distribución espacial, por la probabilidad de encontrar a lo sumo un ejemplar de la especie, es decir, por la función r(θ) = (1 + θ)e−θ . Construya un MLE y un UMVUE para la imágen de θ bajo la función r, basado en una muestra aleatoria X1 , X2 , . . . , Xn , siendo Xi la variable aleatoria que representa al número de animales de la especie en el i-ésimo cuadrante elegido, i = 1, 2, . . . , n. 48. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Gaussiana de valor esperado θ y varianza θ, ¿cuál estimador considera que debe adoptarse en términos de insesgamiento, completez y suficiencia?. 49. Si en el ejercicio anterior se establece que el valor esperado es θ y la varianza θ2 , bajo los mismos términos, ¿de cuál o cuales estimadores se puede disponer?. 50. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una población con distribución Binomial de valor esperado mθ y varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1), ¿es factible determinar un UMVUE para θm ?. 51. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Geométrica con parámetro θ, es decir de una población con función de densidad fX (x, θ) = (1 − θ)x−1 θI{1,2,... } , θ ∈ (0, 1) Establezca un UMVUE para θ y un UMVUE para 1−θ θ . 112 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS 52. Para el análisis de la fatiga de un material, se planea un ensayo con una muestra de n probetas, el cual culmina cuando k de las n probetas hayan fallado. Determine el MLE para θ2 suponiendo conocido θ1 si el modelo adoptado para la descripción del tiempo de falla de la probeta es el modelo de Weibull, cuya función de densidad es θ1 fX (x, θ) = θ1 xθ1 −1 exp − θ2 x θ2 θ1 I(0,∞) (x), θ = (θ1 , θ2 ) 53. Compruebe que la familia de densidades Gama es conjugada para la función de densidad de un modelo de Poisson. 54. Teniendo en cuenta el ejercicio anterior determine el estimador Bayesiano para el parámetro θ de una distribución de Poisson. 55. ¿La familia de densidades Gama es cerrada bajo muestreo para la función de densidad de un modelo Exponencial?. 56. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (−θ, θ). ¿Son las estadı́sticas X1,n y Xn,n conjuntamente suficientes para θ?. ¿Es Tn = max(−X1,n , Xn,n ) un MLE para θ?. ¿La familia a la cual pertenece la función de densidad de la población es una familia completa?. 57. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Exponencial desplazada con parámetro θ = (θ1 , θ2 ). Determine una colección minimal de estadı́sticas suficientes para θ. 58. X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = 1 − xθ e I(0,∞) (x) θ Muestre que nX1,n n Xi y n Xi i=1 i=1 son dos variables estadı́sticamente independientes. 59. Se repite un ensayo de Bernoulli, con probabilidad de éxito θ, hasta que ocurren exactamente k éxitos. Siendo X la variable aleatoria que contabiliza el número de ensayos necesarios para obtener los k éxitos. Es decir que x−1 k θ (1 − θ)x−k I{k,k+1,... } (x) fX (x, θ) = k−1 113 2.4. EJERCICIOS DEL CAPÍTULO ¿La familia de densidades a la cual pertenece la función de densidad de la k−1 variable aleatoria X, es una familia completa?. ¿Es x−1 una estimación insesgada de θ?. 60. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme en el intervalo (θ1 −θ2 , θ1 +θ2 ) con θ1 ∈ R y θ2 > 0. Muestre que las estadı́sticas X1,n , Xn,n son estadı́sticas conjuntamente suficientes para θ = (θ1 , θ2 ). 61. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = θ2 xe−θx I(0,∞) (x), ¿Es n θ>0 Xi una estadı́stica suficiente y completa para θ?. Determine un i=1 estimador insesgado para θ que sea una función de n Xi tal que él tenga i=1 la varianza mı́nima. 62. Compruebe que el MLE para θ es una función de la media geométrica muestral, y que ésta es una estadistica suficiente y completa para el parámetro θ, basados en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ) = θxθ−1 I(0,1) (x), θ>0 63. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Uniforme discreta con parámetro θ, es decir que su función de densidad es fX (x, θ) = 1 I{1,2,... ,θ} (x), θ θ>0 Muestre que el máximo de la muestra es una estadı́stica suficiente y completa. 64. Con base en el ejercicio anterior determine un estimador insesgado de varianza mı́nima para θ. 65. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = e−(x−θ)I(θ,∞) (x), θ∈R Determine una estadı́stica suficiente y completa y un UMVUE para θ. 114 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS Capı́tulo 3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS Una estadı́stica facultada para estimar un parámetro particular, producirá estimaciones alrededor del valor especı́fico del parámetro, porque cumplió con el requisito de insesgamiento y esas estimaciones serán de la mayor precisión debido a que la estadı́stica elegida posee la menor varianza. Y seguramente tal estimador tiene en su haber otras cualidades primordiales que lo hacen apto para su labor, y de esa manera está certificada su competencia. Esa certificación brinda el suficiente respaldo para que las estimaciones gocen de toda la confianza, y ası́ poder sustituir esas constantes fundamentales del modelo por estimaciones válidas y sustentadas, de tal manera que sean la licencia para poner en marcha el modelo concebido y ası́ responder de manera técnica a las preguntas pertinentes del fenómeno modelado. Pero no siempre el fin de la inferencia es estimar un parámetro de la forma como hasta este punto se ha considerado; en ciertas aplicaciones el propósito de la inferencia está en el sentido de llevar a cabo un alvalúo de ese parámetro por medio de un intervalo, emitiendo ya no un único valor sino un rango de valores como estimación del parámetro. Algunas investigaciones encuentran en este procedimiento una mejor forma de estimación de parámetros, más útil y provechosa, frente a la declaración de un único valor; por ello corrientemente suelen dar a conocer, el punto medio de un intervalo y sus extremos, para declarar además de la estimación de un parámetro, una idea de variabilidad asociada a tal estimación, máxime cuando el punto medio corresponde a una estimación puntual de la mejor calidad. Este proceder especial de estimación conlleva elementos conceptuales propios que el presente capı́tulo menciona en su primera parte; también cuenta con varios métodos para la construcción de esos intervalos de estimación, llamados intervalos confidenciales o intervalos de confianza, de los cuales este texto 115 116 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS sólamente tratará el método de la variable pivote. Para comenzar, se da paso a esta parte inicial, consistente en la primera fase dentro de la construcción conceptual de la estimación por intervalo de parámetros. 3.1 Conceptos preliminares Definición 3.1.1. Un intervalo aleatorio es un intervalo tal que al menos uno de sus extremos es una variable aleatoria. Definición 3.1.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población (1) con función de densidad fX (x, θ), θ ∈ Θ y Tn = t1 (X1 , X2, . . . , Xn ), (2) (1) (2) Tn = t2 (X1 , X2 , . . . , Xn ) dos estadı́sticas tales que Pθ Tn < Tn = 1, r(θ) una función del parámetro, función cuyo recorrido es un conjunto de números (1) (2) reales. El intervalo aleatorio Tn , Tn se denomina intervalo confidencial para la imagen de θ bajo r del 100(1 − α)% de confianza si Pθ Tn(1) < r(θ) < Tn(2) = 1 − α probabilidad que no depende de θ. (1) (2) Definición 3.1.3. En la definición 3.1.2, Tn y Tn reciben el nombre de lı́mite confidencial inferior y lı́mite confidencial superior respectivamente y el valor 1 − α nivel confidencial o confianza. Definición 3.1.4. Bajo las consideraciones de la definición intervalo 3.1.2 el (1) (2) (t1 , t2 ) como intervalo particular del intervalo confidencial Tn , Tn , se denomina estimación por intervalo del 100(1 − α)% de confianza para la imagen de θ bajo r. Definición 3.1.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una función del parámetro, cuyo (1) recorrido es un conjunto de números reales, con δ < r(θ) < βy Tn una (1) (1) estadı́stica, Tn = t1 (X1 , X2 , . . . , Xn ). El intervalo aleatorio Tn , β es un intervalo confidencial unilateral del 100(1 − α)% de confianza para la (1) imagen de θ bajo r si Pθ Tn < r(θ) = 1 − α, probabilidad que no depende de θ. (2) También si Tn = t2 (X1 , X2 , . . . , Xn ) es una estadı́stica, el intervalo aleato(2) rio (δ, Tn ) es un intervalo confidencial unilateral del 100(1 − α)% de con(2) fianza para la imagen de θ bajo r, si Pθ [r(θ) < Tn ] = 1 − α, probabilidad que no depende de θ. (1) (2) Definición 3.1.6. Tn y Tn en la definción 3.1.5 reciben respectivamente el nombre de lı́mite confidencial inferior unilateral para r(θ) y lı́mite confidencial superior unilateral para r(θ). 3.2. EL MÉTODO DE LA VARIABLE PIVOTE 117 Teorema 3.1.1. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población (i) con función de densidad fX (x, θ), y Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, es (1) (2) tadı́sticas tales que Tn , Tn es un intervalo confidencial para θ. Si r(θ) es una función monótona con dominio Θ y recorrido un subconjunto estrictamente (1) (2) es un intervalo confidencial para la imagen de θ bajo de R, r Tn , r Tn (2) (1) r cuando ésta es estrictamente creciente y r Tn , r Tn es un intervalo confidencial para la imagen de θ bajo r cuando la función r es estrictamente decreciente. El concepto de intervalo confidencial es un caso particular de un concepto más general: la región confidencial. Definición 3.1.7. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ). Un subconjunto A(X1 , X2 , . . . , Xn ) del espacio de las observaciones X, se denomina región confidencial del 100(1 − α)% de confianza para el parámetro θ, si Pθ [θ ∈ A(X1 , X2 , . . . , Xn )] = 1 − α, probabilidad que no depende de θ. 3.2 El método de la variable pivote Como se mencionó en la introducción de este capı́tulo, la estimación por intervalo posee varios métodos para la construcción de intervalos confidenciales, sin embargo el de mayor tradición y renombre es el método de la variable pivote, método que se describe en esta sección. Definición 3.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Sea QX = q(θ; X1 , X2 , . . . , Xn ) una función de las variables que conforman la muestra aleatoria y del parámetro θ. QX se denomina variable aleatoria pivote (variable pivote) para el parámetro θ si la distribución de QX no depende de θ. Ejemplo 3.2.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal de valor esperado θ y varianza σ 2 conocida, entonces √ n(X n − θ) σ es una variable pivote para θ porque además de depender de X1 , X2 , . . . , Xn , a través de X n , √ n(X n − θ) ∼ N (0, 1) σ Ejemplo 3.2.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal de valor esperado θ y varianza σ 2 , X n y Sn2 , el promedio y varianza muestrales, entonces √ n(X n − θ) QX = Sn 118 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS es una variable pivote para θ. En efecto. QX es una función de X1 , X2 , . . . , Xn a través de X n y Sn . Además, √ n(X n − θ) ∼ N (0, 1) 1. σ n 2. (n − 1)Sn2 σ2 = (Xi − X n )2 i=1 σ2 ∼ χ2 (n − 1) 3. Debido a que X n y Sn2 son estadı́sticamente independientes, √ n(X n − θ) σ (n − 1)Sn2 σ2 y también lo son, entonces QX = √ n(X n −θ) . σ 2 (n−1)Sn (n−1)σ2 √ n(X n − θ) = ∼ t(n − 1) Sn El método de la variable pivote es el método más utilizado en la construcción de intervalos confidenciales. Consiste en partir del paso inicial, una vez definido el coeficiente 1 − α, Pθ [a < QX < b] = 1 − α continuar con pasos intermedios que consisten en considerar eventos equivalentes hasta determinar el evento tal que Pθ [T1 < r(θ) < T2 ] = 1 − α (1) (2) y como consecuencia el intervalo aleatorio (Tn , Tn ) será un intervalo confidencial del 100(1 − α)% para r(θ). Ejemplo 3.2.3. Determinar un intervalo confidencial para el parámetro θ basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ) = θe−θx I(0,∞) (x) La variable aleatoria Yi = 2θXi tiene distribución exponencial con parámetro 1 2 , hecho que se reconoce de la siguiente manera: y FYi (y) = P [2θXi ≤ y] = P Xi ≤ 2θ y = FXi i = 1, 2, . . . , n 2θ 3.2. EL MÉTODO DE LA VARIABLE PIVOTE 119 por lo tanto, y 2θ FYi (y) = θe−θxi dxi , luego 0 1 − θy e 2θ 2θ 1 1 = e− 2 y I(0,∞) (y) 2 fYi (y) = θ Con base en este resultado se establece a QX = n Yi = 2θ i=1 n Xi i=1 como una variable aleatoria pivote, variable que tiene distribución Ji-cuadrado de parámetro 2n, debido a lo siguiente n 1 1 2 para t < 12 , MYi (t) = 1 2−t , y por lo tanto, MQX (t) = por ser (2 ) ( 12 −t) Y1 , Y2 , . . . , Yn un conjunto de variables aleatorias independientes; esta función generatriz de momentos es propia de una variable aleatoria con distribución Ji-cuadrado con 2n grados de libertad. Como la distribución de QX no depende de θ, ésta constituye una auténtica variable pivote, y con base en lo anterior, como punto de partida en la construcción del intervalo confidencial, se considera el evento aleatorio {a < QX < b}. En consecuencia, ⎡ ⎤ Pθ a < 2θ n ⎢ ⎥ a b ⎥=1−α Xi < b = Pθ ⎢ <θ< n n ⎣ ⎦ i=1 2 Xi 2 Xi i=1 i=1 Eligiendo los valores a, b, como: a = χ2α , b = χ21− α , el intervalo aleatorio 2 2 ⎛ ⎞ χ21− α ⎟ ⎜ χ2α2 2 ⎜ ⎟ , n n ⎝ ⎠ 2 Xi 2 Xi i=1 i=1 es un intervalo confidencial del 100(1 − α)% para el parámetro θ, porque además de ser ⎡ ⎤ χ21− α ⎥ ⎢ χ2α2 2 ⎥=1 Pθ ⎢ < n n ⎣ ⎦ 2 Xi 2 Xi i=1 i=1 el valor de 1 − α no está supeditado a ningún valor de θ. 120 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS Sobra decir que la anterior elección de a y b es una escogencia particular, y por supuesto puede adoptarse otra pareja de valores a, b. La pareja (a, b) puede ser única cuando se le plantean requerimientos al intervalo, como por ejemplo que su longitud sea mı́nima, en cuyo caso es menester llevar a cabo unos pasos adicionales con el fin determinar el intervalo que satisfaga esa condición. El método de la variable pivote tiene tres condiciones esenciales: la primera, concerniente a la existencia misma de una variable pivote como tal, la segunda (1) (2) a la factibilidad de deducir las estadı́sticas Tn y Tn a partir de la variable pivote, estadı́sticas que definen en últimas el intervalo confidencial, y la tercera en lograr encontrar la variable pivote con una distribución, en lo posible conocida, que permita determinar sus percentiles. El siguiente ejemplo trata del establecimiento de una variable pivote general, para aquellos casos en los cuales la función de distribución tiene una expresión algebraica explı́cita. Ejemplo 3.2.4 (Una variable pivote general). Partiendo del hecho del cual si X es una variable aleatoria con función de distribución FX (x, θ) continua, entonces la variable aleatoria Y = FX (X, θ) tiene distribución Uniforme en el intervalo (0, 1), es posible construir una variable pivote de la manera siguiente. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de distribución FX (x, θ) continua, Ui = FX (Xi , θ) ∼ U (0, 1), i = 1, 2, . . . , n Ri = − ln Ui ∼ Exp(1) porque FRi (r) = P [Ri ≤ r] = P [− ln Ui ≤ r] = P [ln Ui > −r] = P [Ui > e−r ] = 1 − P [Ui ≤ e−r ] = 1 − FUi (e−r ) = 1 − e−r luego Ri ∼ Exp(1). Definiendo QX = n i=1 Ri = n − ln FX (Xi , θ) ∼ Gama(n, 1) i=1 porque MQX (t) = E e tQX =E e t n i=1 Ri = E etR1 etR2 . . . etRn = E etR1 E etR2 . . . E etRn dado que U1 , U2 , . . . , Un es una muestra aleatoria, R1 , R2 , . . . , Rn son variables 121 3.2. EL MÉTODO DE LA VARIABLE PIVOTE aleatorias independientes e idénticamente distribuidas, luego n MQX (t) = n MRi (t) = i=1 = 1 1−t i=1 n , 1 1−t t<1 entonces QX ∼ Gama(n, 1). Por lo anterior la variable QX = n Ri = n i=1 − ln FX (Xi , θ) ∼ Gama(n, 1) i=1 variable que puede utilizarse como una variable pivote para θ, siempre y cuando, la función de distribución de la población tenga una expresión que permita aplicar el método. La deducción de una variable aleatoria pivote general, se basó en el hecho de que FX (Xi , θ) para i = 1, 2, . . . , n, tiene distribución Uniforme en el intervalo (0, 1). Para algunos casos particulares, por razones expeditivas, la variable aleatoria pivote se construye a partir de que igualmente 1−FX (Xi , θ) ∼ U (0, 1). Una sutil modificación a la variable aleatoria pivote general, regido por el modelo Gama, permite la construcción de otra variable aleatoria pivote, ésta bajo la distribución Ji-cuadrado, ası́ Q∗X = −2 n ln FX (Xi , θ) ∼ χ2 (2n) i=1 Porque, de la misma manera a lo expresado en el ejemplo 3.2.4, como FX (Xi , θ) tiene distribución Uniforme en el intervalo (0, 1), −2 ln FX (Xi , θ) ∼ Exp 12 , n −2 ln FX (Xi , θ) ∼ Gama n, 12 , es decir, con lo cual la variable aleatoria i=1 Q∗X = −2 n ln FX (Xi , θ) ∼ χ2 (2n) i=1 Cualquiera de las variables aleatorias pivotes generales puede expresarse de forma alternativa, forma conveniente para algunos casos individuales, gracias a la propiedad fundamental de la función logaritmo, ası́ n QX = − ln n FX (Xi , θ) o Q∗X = −2 ln i=1 FX (Xi , θ) i=1 Ejemplo 3.2.5. El desarrollo del ejemplo 3.2.3, produjo un intervalo confidencial para el parámetro θ, basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ) = θe−θx I(0,∞) (x) 122 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS Como FX (x, θ) = 1 − e−θx I(0,∞) (x), (1 − FX(x, θ)) I(0,∞) (x) = e−θx I(0,∞) (x), con lo cual e−θXi ∼ U (0, 1) e igualmente − ln e−θXi = θXi tiene distribución Exponencial con parámetro igual a uno, hecho que permite justificar el motivo para la adopción de la variable pivote: QX = 2θ n Xi ∼ χ2 (2n) i=1 A partir de esta variable es fácil determinar un intervalo confidencial para θ. Para coadyuvar en el cumplimiento de la primera condición del método, la determinación de una variable pivote, la función que desempeña el parámetro en consideración es algunas veces una vı́a para identificar dicha variable. Tales son los casos cuando el parámetro es identificado como parámetro de localización o cuando el parámetro es denominado como parámetro de escala. Definición 3.2.2. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El componente θj de θ se denomina componente de localización, si y sólo si la distribución de X − θj o X + θj , según sea el caso, no depende de θj . Cuando Θ ⊆ R el parámetro θ se denomina parámetro de localización si y sólo si la distribución de X − θ o X + θ no depende de θ. Ejemplo 3.2.6. Si (x−θ )2 1 − 2θ 1 2 , fX (x, θ) = √ √ e 2π θ2 θ = (θ1 , θ2 ) entonces θ1 es el componente de localización. En efecto, (X − θ1 ) ∼ N (0, θ2 ), distribución que no depende del valor de θ1 . Definición 3.2.3. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El componente θj de θ se denomina componente de escala, si y sólo si la disX tribución de o (Xθj ), según sea el caso, no depende de θj . Cuando Θ ⊆ R θj el parámetro θ se denomina parámetro de escala si y sólo si la distribución X de o de (Xθ) no depende de θ. θ Ejemplo 3.2.7. Si fX (x, θ) = θe−θx I(0,∞) (x) el parámetro θ es un parámetro de escala dado que la distribución de Z = θX, no depende de θ, porque FZ (z) = P [Z ≤ z] = P [θX ≤ z] z z = FX =P X ≤ θ θ = 1 − e−z luego Z ∼ Exp(1), distribución que no depende del valor que asuma el parámetro θ. 3.2. EL MÉTODO DE LA VARIABLE PIVOTE 123 El reconocer a un parámetro como un parámetro de escala o como un parámetro de localización, es una vı́a para la identificación de una variable pivote como se habı́a expresado anteriormente. Por consiguiente, si θ es un parámetro de escala, según sea el caso, Xθi o θXi , es una variable aleatoria n n Xi pivote, y lo es también Xi dependiendo de la situación. De maθ o θ nera similar n i=1 i=1 n (Xi − θ) o i=1 (Xi + θ), según el caso, es una variable pivote para i=1 el parámetro de localización θ. Teorema 3.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población (1) (2) con función de densidad fX (x, θ), θ ∈ ΘRk , y las estadı́sticas Tn , Tn y Tn , estadı́sticas basadas en esta muestra aleatoria. 1. Si θ es un parámetro de localización y si Tn es MLE de θ, Tn − θ o Tn + θ es una variable aleatoria pivote. Tn 2. Si θ es un parámetro de escala y si Tn es MLE de θ, o θTn es una θ variable aleatoria pivote para θ. (1) 3. Si θ1 es el componente de localización y Tn un MLE de θ1y además si (1) − θ T n 1 (2) θ2 es el componente de escala y Tn un MLE de θ2 entonces (2) Tn es una variable aleatoria pivote para θ1 , si ésta no depende de los demás componentes de θ, o si éstos son conocidos. Teorema 3.2.2. Bajo un caso regular de estimación, si Tn = t(X1 , X2 , . . . , Xn ) es un estimador insesgado para la imagen de θ bajo una función r cuya varianza coincide con la cota de Cramer-Rao, basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), entonces la variable aleatoria nI(θ) (Tn − θ) r (θ) converge en distribución a una variable aleatoria con distribución Normal estándar. Las dos secciones siguientes, dedicadas a los intervalos confidenciales bajo Normalidad, son fundamentalmente una relación de ejemplos del uso del método de la variable pivote, cuando se ha asumido el modelo Gaussiano como regente del comportamiento probabilı́stico de la población.Estos intervalos son los que comúnmente se describen en la mayorı́a de textos de Estadı́stica; su inclusión, además de ser una serie de ejemplos en la construcción de intervalos confidenciales, responde a que dichos intervalos son de uso corriente. 124 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS 3.3 Estimación de promedios, bajo Normalidad 3.3.1 Intervalos confidenciales para el promedio de una población Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Normal de valor esperado μ y varianza σ 2 . Se consideran dos casos, dependiendo de los supuestos que se hagan sobre la varianza poblacional. Caso 1 Un intervalo confidencial del 100(1 − α)% para μ, de longitud mı́nima, cuando el valor de la varianza σ 2 es conocido, es σ σ X n − z1− α2 √ , X n + z1− α2 √ n n La variable pivote mencionada en el ejemplo 3.2.1, es la variable pivote que utiliza este primer caso, √ QX = n(X n − μ) ∼ N (0, 1) σ El punto de partida del método, como se ha indicado de manera general, es para este caso Pμ a < √ n(X n − μ) < b = (1 − α) σ que corresponde gráficamente al esquema que presenta la figura 3.1 fQX (q) 1−α a b q Figura 3.1: Esquema del punto de partida del método de la variable pivote para el caso 1 3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 125 √ 1 − α = Pμ aσ < n(X n − μ) < bσ aσ bσ = Pμ √ < (X n − μ) < √ n n aσ bσ = Pμ −X n + √ < μ < −X n + √ n n bσ aσ = Pμ X n − √ < μ < X n − √ n n Se ha determinado entonces un intervalo confidencial para μ, bσ aσ Xn − √ , Xn − √ n n cuya longitud LI es factible hacerla mı́nima. aσ bσ √ √ LI = X n − − Xn − n n σ = √ (b − a) n Cualquier elección de la pareja (a, b) debe satisfacer para sus componentes la relación fundamental: b fQX (q)dq = 1 − α a o equivalentemente FQX (b) − FQX (a) = 1 − α Acatando esta relación entre a y b, ∂ ∂ σ σ ∂ ∂ LI = √ b− a = √ 1− a ∂b ∂b ∂b n ∂b n y derivando la relación fundamental en términos de b se deduce que fQX (b) − fQX (a) ∂ a=0 ∂b y por lo tanto ∂ fQX (b) = a fQX (a) ∂b Sustituyendo esta última relación se tiene por consiguiente que ∂ σ fQX (b) LI = √ 1− ∂b fQX (a) n 126 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS De esta manera ∂ LI = 0 ∂b cuando fQX (b) = fQX (a) o cuando a = b, pero esta última solución no es admisible porque no satisface la relación fundamental entre a y b. Gráficamente la figura 3.1 muestra la elección apropiada de a y b para conseguir el intervalo confidencial con la exigencia de longitud mı́nima. fQX (q) 1−α α 2 α 2 | a (−z1− α2 ) 0 b (z1− α2 ) q Figura 3.2: Elección de los valores a y b que minimizan la longitud del intervalo confidencial correspondiente al caso 1 Por lo tanto, el intervalo confidencial del 100(1−α)% para μ de longitud mı́nima bajo el supuesto de que la varianza σ 2 es conocida corresponde a σ σ X n − z1− α2 √ , X n + z1− α2 √ n n Caso 2 Un intervalo confidencial del 100(1 − α)% para μ de longitud mı́nima, cuando la varianza de la población es desconocida es Sn Sn α α √ √ , X n + t1− 2 (n − 1) X n − t1− 2 (n − 1) n n Este intervalo atañe a situaciones más realistas, o por lo menos más corrientes que a la considerada por el Caso 1. La variable aleatoria pivote para μ que genera este intervalo confidencial es √ n(X n − μ) ∼ t(n − 1) QX = Sn tal como fue mencionada en el ejemplo 3.2.2. A partir de ella y siguiendo prácticamente los mismos pasos y consideraciones del Caso 1, se puede deducir 3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 127 el citado intervalo confidencial. Un buen estimador de la probabilidad de éxito π en un modelo de Bernoulli, también llamada proporción poblacional , es el promedio de la muestra que por su singularidad se le denomina proporción muestral y es denotado como Pn . Este estimador derivado con base en el método de máxima verosimilitud goza de buenas propiedades que lo hacen óptimo. Con base en él es factible construir un intervalo confidencial para la proporción poblacional utilizando muestras grandes. El siguiente teorema apresta el fundamento de su construcción. Teorema 3.3.1. Sea Tn un MLE insesgado para θ, cuya varianza coincide con la cota de Cramer-Rao y que cumple conjuntamente las condiciones de regularidad con el modelo probabilı́stico elegido, entonces para un tamaño de muestra suficientemente grande, un intervalo confidencial de aproximadamente 100(1−α)% de confianza para θ es z1− α2 z1− α2 , Tn + Tn − nI(Tn ) nI(Tn ) donde I(Tn ) es la información de Fisher evaluada en la estadı́stica Tn . 3.3.2 Estimación de la proporción poblacional Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución de Bernoulli de parámetro π, un intervalo confidencial del 100(1 − α)% para π es 8 8 Pn (1 − Pn ) Pn (1 − Pn ) , Pn + z1− α2 Pn − z1− α2 n n En efecto, teniendo en cuenta que 1 θ(1 − θ) 1 I(Tn ) = I(Pn ) = Pn (1 − Pn ) I(θ) = y utilizando el teorema 3.3.1, el intervalo confidencial para la proporción poblacional es ⎛ ⎞ z1− α2 z1− α2 ⎝Pn − . ⎠ , Pn + . 1 1 n Pn (1−P n Pn (1−Pn ) n) es decir 8 Pn − z1− α2 Pn (1 − Pn ) , Pn + z1− α2 n 8 Pn (1 − Pn ) n 128 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS Como este intervalo requiere para su aplicación que el tamaño de la muestra sea grande, una recomendación práctica para su utilización, según varios autores, es confirmar que npn > 5 y n(1 − pn ) > 5. Un intervalo confidencial también utilizado en la estimación de π, citado en algunos textos, basado en la misma variable pivote nI(θ)(Pn − θ) es 8 8 ⎛ ⎞ 2 2 z2 α 2 ⎜ Pn + 1− 2n ⎜ − z1− α2 2 ⎝ z1− α 1+ n2 3.3.3 Pn (1−Pn ) n 1+ + 2 z1− α n z1− α 2 4n2 , 2 Pn + 1+ 2 z1− α 2 2n 2 z1− α n 2 + z1− α2 Pn (1−Pn ) n 1+ + z1− α 2 4n2 2 z1− α n 2 Intervalo confidencial para la diferencia de promedios basado una muestra pareada Cuando las variables aleatorias X, Y representan variables medidas en las mismas unidades y que cuantifican el mismo aspecto de la unidad estadı́stica sólo que en circunstancias distintas y cuando la variable aleatoria Xi − Yi , i = 1, 2, . . . , n, representa una variable que tenga sentido, la muestra aleatoria (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) se denomina muestra pareada. Siendo la muestra pareada (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de una población con distribución Normal bivariada, cuya función de densidad fX,Y (x, y) es 2 2 x − μ1 y − μ2 x − μ1 y − μ2 1 K exp − − − 2ρ 2(1 − ρ) σ1 σ2 σ1 σ2 √ siendo la constante K = 1/(2πσ1 σ2 1 − ρ), el intervalo confidencial del 100(1 − α)% de confianza para la diferencia de promedios μd = μ1 − μ2 con longitud mı́nima es Sd,n Sd,n Dn − t1− α2 (n − 1) √ , Dn + t1− α2 (n − 1) √ n n siendo (D = X − Y ) • Di = Xi − Yi • D ∼ N μ1 − μ2 , σ12 + σ22 − 2ρσ1 σ2 2 = • Sd,n n 1 (Di − Dn )2 , n − 1 i=1 Dn = n 1 Di n i=1 La deducción de este intervalo confidencial corresponde a la de un intervalo confidencial del 100(1 − α)% de confianza para μd = μ1 − μ2 bajo Normalidad y asumiendo que la varianza σ12 + σ22 − 2ρσ1 σ2 es desconocida. Por lo tanto constituye un caso particular de un intervalo ya desarrollado. ⎟ ⎟ ⎠ 3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 3.3.4 129 Intervalos confidenciales para la diferencia de promedios en poblaciones independientes Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Normal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 . Las dos poblaciones son estadı́sticamente independientes. Los casos que se consideran a continuación también corresponden a supuestos que se hacen sobre las varianzas poblacionales. Caso 1 Un intervalo confidencial del 100(1− α)% para la diferencia de promedios de dos poblaciones independientes, de longitud mı́nima, cuando σ12 y σ22 son conocidas se desarrolla con base en los siguientes elementos: σ12 σ22 X n ∼ N μ1 , Y m ∼ N μ2 , , n m (X n − Y m ) ∼ N QX = σ2 σ2 μ1 − μ2 , 1 + 2 n m (X n − Y m ) − (μ1 − μ2 ) 8 ∼ N (0, 1) σ22 σ12 + n m A partir de esta variable pivote para (μ1 − μ2 ), puede generarse el intervalo confidencial correspondiente 8 8 σ22 σ22 σ12 σ12 (X n − Y m ) − z1− α2 + , (X n − Y m ) + z1− α2 + n m n m Caso 2 Un intervalo del 100(1 − α)% para la diferencia de promedios poblacionales correspondientess a dos poblaciones independientes, de longitud mı́nima, bajo el supuesto de que las varianzas poblacionales son desconocidas pero iguales, se desarrolla teniendo en cuenta lo siguiente: Sea σ12 = σ22 = σ 2 , entonces (X n − Y m ) − (μ1 − μ2 ) 8 ∼ N (0, 1) σ2 σ2 + n m n (n (m 2 − 1)S1,n σ2 2 − 1)S2,m σ2 = (Xi − X n )2 i=1 n = σ2 ∼ χ2 (n − 1) (Yj − Y m )2 j=1 σ2 ∼ χ2 (m − 1) 130 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS como las poblaciones son estadı́sticamente independientes, n n (Xi − X n )2 + (Yj − Y m )2 i=1 j=1 ∼ χ2 (m + n − 2) σ2 2 2 (n − 1)S1,n + (m − 1)S2,m ∼ χ2 (m + n − 2) 2 σ y a partir de estos resultados, la variable pivote para μ1 − μ2 será por lo tanto QX = . QX = (X n −Y m )−(μ1 −μ2 ) √1 1 σ n +m 2 +(m−1)S 2 (n−1)S1,n 2,m (m+n−2)σ2 (X n − Y m ) − (μ1 − μ2 ) . ∼ t(n + m − 2) 1 Sp,n+m n1 + m 2 2 (n − 1)S1,n + (m − 1)S2,m es el estimador de la varianza (n + m − 2) común σ 2 . El intervalo confidencial para (μ1 − μ2 ) basado en esta variable pivote tiene como lı́mite confidencial inferior a 8 1 1 + (X n − Y m ) − t1− α2 (n + m − 2)Sp,n+m n m y como lı́mite confidencial superior a 8 1 1 α (X n − Y m ) + t1− 2 (n + m − 2)Sp,n+m + n m Caso 3 Un intervalo confidencial del 100(1 − α)% de confianza para la diferencia de los promedios de dos poblaciones independientes de longitud mı́nima, cuando las varianzas poblacionales se asumen distintas y desconocidas, está basado en la variable pivote 2 donde Sp,n+m = T = (X n − Y m ) − (μ1 − μ2 ) . 2 2 S1,n S2,m n + m variable que tiene una distribución similar a la distribución t. Se puede decir que tiene distribución t aproximada con v grados de libertad. Welch propone que los grados de libertad v deben ser el entero más cercano a s2 2 s22,m 1,n + n m v ≈ s2 2 2 s2 1,n n n−1 + 2,m m m−1 3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 131 de esta manera, el intervalo confidencial en consideración es: ⎛ ⎞ 2 2 2 2 S2,m S2,m S1,n S1,n ⎝(X n − Y m ) − t1− α (v) ⎠ + , (X n − Y m ) + t1− α2 (v) + 2 n m n m 3.4 3.4.1 Estimación de varianzas, bajo Normalidad Intervalos confidenciales para la varianza de una población Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Normal de valor esperado μ y varianza σ 2 . Dependiendo el supuesto asumido para μ se consideran dos casos. Caso 1 Un intervalo confidencial del 100(1 − α)% para σ 2 cuando μ es conocido se basa en la siguiente variable pivote n (Xi − μ)2 i=1 ∼ χ2 (n) σ2 por lo tanto la determinación del intervalo confidencial es como sigue. El punto de partida ⎡ ⎤ n (Xi − μ)2 ⎢ ⎥ i=1 < b⎥ Pσ2 ⎢ ⎣a < 2 ⎦=1−α σ que corresponde gráficamente al esquema que presenta la figura 3.3. Equivalentemente ⎡ ⎤ ⎢1 Pσ2 ⎢ n ⎣b < σ2 < (Xi − μ)2 1⎥ ⎥=1−α a⎦ i=1 es decir ⎡ n n (Xi − μ)2 ⎢ i=1 Pσ2 ⎢ ⎣ b < σ2 < (Xi − μ)2 i=1 a ⎤ ⎥ ⎥=1−α ⎦ 132 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS fQX (q) 1−α a q b Figura 3.3: Esquema del punto de partida del método de la variable pivote para el caso 1 La longitud del intervalo ⎛ n ⎜ i=1 ⎜ ⎝ n (Xi − μ)2 , b (Xi − μ)2 i=1 a ⎞ ⎟ ⎟ ⎠ manifestado en este punto de la deducción puede minimizarse. La longitud mencionada, n LI = n (Xi − μ)2 i=1 a − (Xi − μ)2 i=1 b = n (Xi − μ) 2 i=1 está sujeta a la relación fundamental entre a y b, b fQX (q)dq = 1 − α = FQX (b) − FQX (a) a Utilizando los recursos del Cálculo diferencial, n ∂ 1 ∂ 1 LI = b (Xi − μ)2 − 2 + 2 ∂a a b ∂a i=1 de la relación fundamental entre a y b se deduce que 0 = fQX (b) ∂ b − fQX (a) ∂a fQX (a) ∂ = b fQX (b) ∂a 1 1 − a b 3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD luego 133 ∂ 1 1 ∂ LI = 0 cuando 2 = 2 b, es decir, cuando ∂a a b ∂a 1 1 fQX (a) = 2 a2 b fQX (b) Concretamente, el intervalo confidencial tiene longitud mı́nima cuando a2 fQX (a) = b2 fQX (b) Establecidos los grados de libertad y en nivel confidencial (1 − α), es posible identificar los valores de a y b que cumplen con la anterior condición, a través de métodos numéricos. Algunos autores han desarrollado tablas para este propósito, pero es fácil elaborar un programa de computador que los calcule. Esta limitación menor se elude en la medida que se cuente con una muestra grande. Corrientemente, para muestras grandes se prefiere a = χ2α2 (n) b = χ21− α2 (n) como gráficamente lo ilustra la figura 3.4 fQX (q) α 2 1−α α 2 a (χ2α ) b (χ21− α ) 2 q 2 Figura 3.4: Elección corriente de los valores a y b para el intervalo confidencial correspondiente al caso 1 En sı́ntesis, el intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuya longitud no es mı́nima, usado corrientemente es ⎛ ⎞ n n 2 2 (X − μ) (Xi − μ) ⎜ i=1 i ⎟ i=1 ⎜ ⎟ , 2 ⎝ χ2 α (n) ⎠ χ α (n) 1− 2 2 Caso 2 Un intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuando μ es 134 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS desconocido es ⎛ n n (Xi − X n )2 ⎜ i=1 ⎜ ⎝ χ2 (n 1− α 2 − 1) , (Xi − X n )2 i=1 χ2 α 2 (n − 1) ⎞ ⎟ ⎟ ⎠ Intervalo confidencial que se puede construir a partir de la variable pivote para σ2 : n QX = (Xi − X n )2 i=1 ∼ χ2 (n − 1) σ2 y cuya deducción es idéntica al Caso 1. El intervalo de longitud mı́nima, al igual que el anterior, debe ser aquel para el cual se cumpla que a2 fQX (a) = b2 fQX (b) 3.4.2 Intervalos confidenciales para el cociente de varianzas de dos poblaciones independientes Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Normal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 . Las dos poblaciones son estadı́sticamente independientes. Los casos que se consideran a continuación también corresponden a supuestos que se hacen sobre las varianzas poblacionales. Caso 1 Un intervalo confidencial del 100(1 − α)% de confianza para el cociente de vaσ2 rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 son conocidos es 2 el siguiente ⎞ ⎛ n n 2 2 (X − μ1 ) /n (Xi − μ1 ) /n ⎟ ⎜ i=1 i i=1 ⎜ α (m, n), f f1− α2 (m, n)⎟ m m ⎠ 2 ⎝ (Yj − μ2 )2 /m (Yj − μ2 )2 /m j=1 j=1 En efecto, n m (Xi − μ1 )2 i=1 ∼ χ (n) 2 σ12 (Yj − μ2 )2 j=1 σ22 ∼ χ2 (m) con base en estas variables y reiterando la independencia estadı́stica de las 3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD poblaciones se construye la siguiente variable pivote para m QX = j=1 n m (Yj − μ2 )2 /(mσ22 ) σ 2 j=1 = 12 σ2 n (Xi − μ1 )2 /(nσ12 ) i=1 135 σ12 σ22 (Yj − μ2 )2 /m (Xi − μ1 )2 /n ∼ F (m, n) i=1 Al partir de ⎡ m ⎢ σ12 j=1 Pσ12 ,σ22 ⎢ a < n ⎣ σ22 (Yj − μ2 )2 /m (Xi − μ1 )2 /n ⎤ ⎥ < b⎥ ⎦=1−α i=1 que corresponde gráficamente al esquema que presenta la figura 3.5. fQX (q) 1−α a q b Figura 3.5: Esquema del punto de partida del método de la variable pivote para el caso 1 surge un intervalo confidencial para el cociente de varianzas debido a que ⎡ ⎤ n n 2 (Xi − μ1 )2 /n (X − μ ) /n i 1 ⎢ i=1 ⎥ σ12 i=1 ⎥=1−α Pσ12 ,σ22 ⎢ < b < a m m 2 ⎣ ⎦ σ 2 2 2 (Yj − μ2 ) /m (Yj − μ2 ) /m j=1 j=1 Para simplificar los pasos posteriores en la construcción del intervalo confidencial en consideración, se establece la sustitución n T = (Xi − μ1 )2 /n i=1 m (Yj − μ2 )2 /m j=1 136 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS con ello σ2 Pσ12 ,σ22 aT < 12 < bT = 1 − α σ2 y la longitud del intervalo LI es LI = bT − aT = T (b − a) longitud que se minimiza como en casos anteriores haciendo uso de los procedimientos respectivos del cálculo diferencial. ∂ LI = T ∂a ∂ b−1 ∂a ∂ fQX (a) ∂ fQX (a) como ya se ha establecido b = , luego LI = T −1 , ∂a fQX (b) ∂a fQX (b) ∂ LI = 0 cuando fQX (a) = fQX (b). entonces ∂a Similarmente al caso de los intervalos confidenciales de longitud mı́nima para las varianzas bajo normalidad, establecidos los grados de libertad y el nivel confidencial (1 − α), es posible identificar los valores de a y b que cumplen con la condición anterior, como lo muestra la figura 3.6, por medio de métodos numéricos. De la misma manera, es fácil elaborar un programa de computador que los calcule. E igualmente esta limitación se soslaya en la medida que se cuente con muestras grandes. fQX (q) 1−α a b q Figura 3.6: Elección de los valores a y b que minimizan la longitud del intervalo confidencial correspondiente al caso 1 Para n y m grandes, corrientemente se utilizan a = f α2 (m, n), b = f1− α2 (m, n), 3.5. EJEMPLOS NUMÉRICOS DE APLICACIÓN en cuyo caso, el intervalo confidencial para σ12 σ22 137 del 100(1 − α)% de confianza es ⎛ ⎞ n n (Xi − μ1 )2 /n (Xi − μ1 )2 /n ⎜ i=1 ⎟ ⎜ α (m, n)⎟ f α2 (m, n) , i=1 f 1− m m ⎝ 2 ⎠ (Yj − μ2 )2 /m (Yj − μ2 )2 /m j=1 j=1 Caso 2 Un intervalo confidencial del 100(1 − α)% de confianzas para el cociente de vaσ2 rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 se desconocen, 2 es ⎛ ⎞ n n (Xi − X n )2 /(n − 1) (Xi − X n )2 /(n − 1) ⎜ i=1 ⎟ ⎜ a , i=1 b⎟ m m ⎝ ⎠ (Yj − Y m )2 /(m − 1) (Yj − Y m )2 /(m − 1) j=1 j=1 intervalo confidencial basado en la variable pivote para QX = m (Yj − Y m )2 /(m − 1) 2 σ1 j=1 n σ22 (Xi − X n )2 /(n − 1) i=1 σ12 σ22 ∼ F (m − 1, n − 1) Para tamaños de muestra suficientemente grandes, un intervalo confidencial para σ12 es σ2 2 3.5 2 2 S1,n S1,n F α2 (m − 1, n − 1), 2 F1− α2 (m − 1, n − 1) 2 S2,m S2,m Ejemplos numéricos de aplicación Ejemplo 3.5.1. El servicio de asesorı́a estadı́stica que la Universidad Nacional presta a través del Departamento, realizó en 1997 un estudio de opinión sobre la Justicia en Colombia y entre muchos de los interrogantes que el Consejo Superior de la Judicatura querı́a dilucidar con esta investigación era la percepción de los abogados, que se desempeñan en el área penal, frente al nuevo sistema acusatorio, fruto de la creación de la Fiscalı́a. Para ello diseñó una muestra en varias etapas y concretamente encontró que 315 abogados de los 509 entrevistados consideraron que el nuevo sistema acusatorio no es un instrumento en la lucha contra la impunidad. Con base en estos resultados se precisa estimar con una confianza del 95% el nivel de asentimiento del nuevo sistema acusatorio por parte de los abogados penalistas, en ese momento. Siendo p509 = 315/509 = 0.61886 la proporción de interés en la muestra, y con la 138 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS adopción de z0.975 = 1.96 y debido a que npn = 315 > 5 y n(1 − pn ) = 194 > 5, entonces se puede estimar con una confianza del 95% que entre el 57.66% y el 66.1% de los abogados que se desempeñan en asuntos del Derecho Penal, consideran que el nuevo sistema acusatorio no es un instrumento contra la impunidad puesto que la estimación por intervalo de la proporción en mención es 8 pn (1 − pn ) pn (1 − pn ) , pn + z1− α2 pn − z1− α2 n n 8 8 0.6188 ∗ 0.3811 0.6188 ∗ 0.3811 = 0.6188 − 1.96 , 0.6188 + 1.96 509 509 8 = (0.5766, 0.6610) Ejemplo 3.5.2. Antes de implementar los gráficos de control, para el monitoreo de un proceso industrial, es preciso desarrollar varias actividades, entre otras el llamado precontrol. El modelo Normal es una herramienta muy utilizada en esta etapa para estimar el promedio del proceso e igualmente para determinar sus cambios. Para controlar estadı́sticamente el proceso de fabricación de un tipo de fibra para la elaboración de alfombras, se analiza la información relativa a la resistencia a la tensión de trozos de fibra, en kilogramos, elegidos para la respectiva prueba en el laboratorio. En diez periodos de inspección con cinco trozos cada uno, se acopió la siguiente información con el propósito de estimar el promedio de resistencia de la fibra. Perı́odo 1 2 3 4 5 6 7 8 9 10 Resistencias observadas 78.4 79.9 78.9 78.3 77.5 75.9 75.1 75.1 79.9 77.1 78.9 78.4 78.1 78.3 77.8 75.9 79.5 79.1 77.9 77.5 78.1 79.9 77.9 77.8 79.9 77.1 79.7 76.9 78.4 79 77.9 79.5 78.9 78.5 78.9 78.9 79.8 78.6 78.2 77.6 78.5 79.5 79.9 78.4 77.7 78.6 79.9 78.6 77.4 77.5 Para cumplir con la estimación mencionada, se consideran las 50 observaciones como una sola muestra particular de tamaño 50, que presenta un promedio de 78.3 Kg y una desviación estándar de 1.184078 Kg, con lo cual se estima con una confianza del 95% que la resistencia media a la tensión está entre 77.96 Kg y 78.63 Kg puesto que la estimación por intervalo del 95% de confianza para el 3.6. TAMAÑO DE LA MUESTRA SIMPLE BAJO NORMALIDAD 139 promedio de resistencia, desconocida la varianza poblacional, es sn sn xn − t1− α2 (n − 1) √ , xn + t1− α2 (n − 1) √ n n 1.184078 1.184078 , 78.3 + 2.009574 √ = 78.3 − 2.009574 √ 50 50 = (77.9634, 78.6365) 3.6 Tamaño de la muestra simple bajo Normalidad Esta sección es una presentación sucinta, dedicada al tamaño la de muestra. Este tema primordial y complejo es un tema extenso que abarca varios aspectos incluyendo el relativo a la determinación de la numerosidad de la muestra propiamente dicha. Si el lector continúa trabajando sobre conceptos del área de la Estadı́stica, tendrá la oportunidad de profundizar sobre este tema tan fundamental tanto en el diseño como en la ejecución de investigaciones auxiliadas por la Estadı́stica. Entonces esta sección se trata de un modesto anticipo sin la menor pretensión de lo que significa la determinación del tamaño muestral. Para estimar el parámetro μ, promedio poblacional, se puede deducir el tamaño de una muestra a partir de la expresión de uno de sus intervalos confidenciales. σ σ α α √ √ < μ < X n + z1− 2 =1−α P X n − z1− 2 n n σ σ P −z1− α2 √ < μ − X n < z1− α2 √ =1−α n n σ =1−α P |X n − μ| < z1− α2 √ n P |X n − μ| < e = 1 − α Fijando de antemano como medida de precisión de la estimación de μ el valor z1− α2 √σn = e, el tamaño de muestra puede ser derivado inmediatamente como n= z1− α σ 2 2 e En esta expresión corriente del tamaño de una muestra simple, e se denomina error máximo admisible en la estimación de μ, o margen de error, y constituye una cota para la diferencia aleatoria |X n − μ|. Con la denominación de confianza se hace referencia al valor 1 − α, y el valor de σ usualmente se estima por medio de una muestra llamada muestra piloto, en caso de no asumirlo conocido. Para estimar la diferencia de promedios entre dos poblaciones independientes, los tamaños de muestra pueden establecerse como z1− α 2 2 (σ12 + σ22 ) n=m= e 140 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS En el ejercicio 11 se deduce la expresión anterior. 1 4 z1 −α/2 e n 2 1 2 1 π Figura 3.7: Tamaño holgado de la muestra para estimar la proporción poblacional Para estimar la proporción poblacional π, el tamaño de muestra requerido es z1− α 2 2 n= π(1 − π) e cuyo tamaño más holgado puede adoptarse como z1− α 2 1 2 n= e 4 pues al ser n una función de π, además de otras variables, z1− α 2 n = g(π) = π(1 − π) e su máximo puede determinarse fácilmente en los siguientes términos. z1− α 2 (1 − 2π) g (π) = e z1− α 2 g (π) = −2 <0 e 1 g (π) = 0 cuando π = 2 como lo destaca la figura 3.7 3.7 Estimación Bayesiana por intervalo El numeral 2.1.4 de la página 65 se dedicó a la presentación de algunas ideas globales de la estimación Bayesiana. Precisamente se definió como función de densidad a posteriori de Θ a la función de densidad condicional fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) 141 3.7. ESTIMACIÓN BAYESIANA POR INTERVALO y ésta permite deducir directamente un intervalo para estimar el parámetro θ. Definición 3.7.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x|θ), gΘ (θ) la función de densidad a priori de Θ, y fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) la función de densidad a posteriori de Θ. Sean θ0 y θ1 dos valores de la variable aleatoria Θ tales que θ1 P [θ0 < Θ < θ1 ] = fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn )dθ = 1 − α θ0 entonces el intervalo (θ0 , θ1 ) se denomina intervalo Bayesiano para θ de probabilidad 1 − α. El intervalo (θ0 , θ1 ) se adopta como una estimación de θ con probabilidad asociada 1 − α, cuya interpretación no es la misma que la de una estimación por intervalo del 100(1 − α)% para el mismo parámetro. Es válido entonces decir, dentro del enfoque Bayesiano, que la probabilidad de que el parámetro se encuentre entre los valores θ0 y θ1 es 1 − α, más serı́a una interpretación errónea si se tratase de una estimación por intervalo. Ejemplo 3.7.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución Normal de valor esperado θ y varianza σ 2 asumida como una constante conocida, y si la distribución a priori de Θ se establece como Normal de valor esperado μp y varianza σp2 , el ejemplo 2.1.16 de la página 68, menciona que la distribución a posteriori de Θ es Normal de valor esperado nσp2 xn + μp σ 2 σp2 σ 2 2 μ∗ = y varianza σ = . Entonces ∗ nσp2 + σ 2 nσp2 + σ 2 θ0 − μ∗ θ1 − μ∗ <Z< P [θ0 < Θ < θ1 ] = P =1−α σ∗ σ∗ El intervalo Bayesiano (θ0 , θ1 ) tiene longitud mı́nima escogiendo θ0 − μ∗ θ1 − μ∗ = −z1− α2 y = z1− α2 σ∗ σ∗ de esta forma el intervalo Bayesiano de probabilidad 1 − α bajo las condiciones establecidas es ⎞ ⎛ σp σz1− α2 σp σz1− α2 nσp2 xn + μp σ 2 nσp2 xn + μp σ 2 ⎠ ⎝ − + 1 , 1 nσp2 + σ 2 nσp2 + σ 2 nσ 2 + σ 2 2 nσ 2 + σ 2 2 p p Tanto la estimación como los intervalos Bayesianos tratados en este texto son menciones tangenciales de unos conceptos que pertenecen a un cuerpo conceptual propio dentro de la Estadı́stica: el Análisis Bayesiano o Estadı́stica Bayesiana. El lector puede contar con una extensa bibliografı́a en el tema si es de su interés conocer a profundidad la filosofı́a y los métodos de este enfoque estadı́stico. 142 3.8 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS Demostración de los teoremas del capı́tulo (1) (2) es un intervalo confiDemostración (Teorema 3.1.1). Como Tn , Tn (1) (2) dencial para θ es porque en particular Pθ Tn < Tn = 1. Si r(θ) es una fun (1) (2) ción estrictamente decreciente, entonces Pθ r Tn > r Tn = 1 y el even (1) (2) (1) (2) to r Tn > r(θ) > r Tn es equivalente al evento Tn < θ < Tn , por lo tanto 1 − α = Pθ Tn(1) < θ < Tn(2) = Pθ r Tn(2) < r(θ) < r Tn(1) (2) (1) < r Tn = 1, el intevalo aleatorio como 1−α no depende de θ y Pθ r Tn (2) (1) r Tn , r Tn es un intervalo confidencial del 100(1 − α)% de confianza para la imagen de θ bajo la función r. (1) (2) De manera similar, el intervalo aleatorio r Tn , r Tn es un intervalo confidencial del 100(1 − α)% para la imágen de θ bajo la función r, cuando ésta es una función estrictamente creciente. Demostración (Teorema 3.2.2). Los argumentos de la demostración de este teorema se basan en ideas circundantes a la información de Fisher y en el teorema del lı́mite central. El elemento original consiste en considerar la variable aleatoria H(X, θ) = ∂ [ln fX (X, θ)] ∂θ Esta variable tiene valor esperado cero y varianza I(θ). ∞ ∂ [ln fX (x, θ)] fX (x, θ) dx ∂θ −∞ ∞ ∂ fX (x, θ) ∂θ fX (x, θ) dx = −∞ fX (x, θ) ∞ ∂ fX (x, θ) dx = −∞ ∂θ ∞ ∂ ∂ (1) = 0 fX (x, θ) dx = = ∂θ −∞ ∂θ E[H(X, θ)] = V [H(X, θ) = E H 2 (X, θ) = I(θ)] Creada de esta forma la variable aleatoria H(X, θ), la sucesión de variables aleatorias, H(X1 , θ), H(X2 , θ), . . . , H(Xn , θ) constituye una muestra aleatoria de tal manera que aplicando la versión de Lindeberg-Feller del teorema del lı́mite 3.8. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 143 central, teorema 1.4.10, página 16, n H(Xi , θ) i=1 = nI(θ) n ∂ [ln fX (Xi , θ)] d i=1 ∂θ − → Z ∼ N (0, 1) nI(θ) Como se afirma que Tn es un estimador insesgado para la imágen de θ bajo la función r, cuya varianza es la cota de Cramer-Rao, es porque existe una función K(θ, n) tal que n n ∂ ∂ ln ln fX (Xi , θ) = K(θ, n) [Tn − r(θ)] fX (Xi , θ) = ∂θ ∂θ i=1 i=1 como lo asegura el corolario 2.2.10.1, página 87, esto es n H(Xi , θ) = K(θ, n) [Tn − r(θ)] i=1 por lo tanto 1 H(Xi , θ) K(θ, n) i=1 n Tn = r(θ) + expresión de la cual se puede afirmar que V [Tn ] = nI(θ) K 2 (θ, n) entonces n H(Xi , θ) K(θ, n) [Tn − r(θ)] Tn − r(θ) = = 2 nI(θ) K (θ, n)V [Tn ] V [Tn ] i=1 Como Tn es insesgado pra la imagen de θ bajo la función r, cuya varianza es la cota de Cramer-Rao, V [Tn ] = (r (θ))2 nI(θ) lo cual finalmente permite concluir que nI(θ) Tn − r(θ) d . 2 = [Tn − r(θ)] − → Z ∼ N (0, 1) (r (θ)) r (θ) nI(θ) Demostración (Teorema 3.3.1). El hecho de que Tn sea MLE e insesgado para θ, cuya varianza corresponde a la cota de Cramer-Rao, permite garantizar, según el teorema 3.2.2 que QX = nI(θ)(Tn − θ) 144 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS converge en distribución a una variable aleatoria con distribución normal estándar; luego para un tamaño de muestra suficientemente grande, QX se puede asumir como una variable aleatoria pivote para θ. Ası́ entonces, Pθ a < nI(θ)(Tn − θ) < b = δn ≈ 1 − α La probabilidad δn es cercana a 1 − α, porque en la práctica n es finito, probabilidad que no depende de θ y como la información de Fisher es una cantidad positiva a b < Tn − θ < δn = Pθ nI(θ) nI(θ) a b = Pθ − < θ − Tn < − nI(θ) nI(θ) b a = Pθ Tn − < θ < Tn − nI(θ) nI(θ) la elección de a y b puede ser hasta cierto punto arbitraria, sujeta a la relación entre a y b para garantizar el nivel de confianza δn , pero pueden utilizarse los valores que generan el intervalo de longitud mı́nima como en los casos 1 y 2 tratados en el numeral 3.3.1. En concreto, una estimación aproximadamente del 100(1 − α)% de confianza para θ puede realizarse mediante el intervalo confidencial, z1− α2 z1− α2 , Tn + Tn − nI(θ) nI(θ) 3.9 Ejercicios del capı́tulo 1. Sea X1,n , X2,n , . . . , Xn,n una muestra aleatoria ordenada de una población con distribución Uniforme en el intervalo (0, θ), y sean las estadı́sticas 1 n (1) (2) Tn = Xn,n , Tn = c Xn,n , con c una constante. Muestre que el (1) (2) intervalo Tn , Tn , es un intervalo confidencial para θ, determine el valor esperado de la longitud del intervalo y su nivel confidencial. 2. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = e−(x−θ) I(θ,∞) (x) ¿Es el intervalo aleatorio X1,n + n1 ln α, X1,n un intervalo confidencial del 100(1 − α)% de confianza para θ?. 3. Explore la forma de estimar por intervalo el parámetro θ, a partir de una muestra alatoria X1 , X2 , . . . , Xn , de una población con distribución de Poisson de parámetro θ. 3.9. EJERCICIOS DEL CAPÍTULO 145 4. Asumiendo que θ1 es una cantidad conocida, proponga una forma de estimar por intervalo el parámetro θ2 , a partir de una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ) = θ2θ1 θ1 −1 − θx x e 2 I(0,∞) (x) Γ(θ1 ) 5. Explore la forma de estimar por intervalo el parámetro θ, y θ2 a partir de una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución Normal de valor esperado θ y varianza kθ2 , conocido el valor de k. 6. Considere el intervalo confidencial de longitud mı́nima para el valor esperado, desconocida la varianza , bajo el modelo Gaussiano. ¿Cómo varı́a el valor esperado de la longitud del intervalo cuando el tamaño de muestra se incrementa?. Y además, ¿Cuál es la relación entre el citado valor esperado y el nivel confidencial?. 7. Consiga una forma de estimar por intervalo el coeficiente de variación σ/μ a partir de una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución Gaussiana de valor esperado μ y varianza σ 2 . 8. Suponiendo que σ12 /σ22 = c, c una constante conocida, determine un intervalo confidencial para la diferencia μ1 −μ2 con base en dos muestras aleatorias independientes de sus respectivas poblaciones cuyas distribuciones son asumidas como Gaussianas de valores esperados μ1 , μ2 y varianzas σ12 , σ22 , respectivamente. 9. Asumiendo θ1 como una constante conocida, explore la forma de estimar por medio de un intervalo confidencial el parámetro θ2 , basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución de Pareto, es decir con función de densidad fX (x, θ) = θ2 θ1θ2 I(θ ,∞) (x) xθ2 +1 1 10. ¿Cuál de los dos intervalos confidenciales para la estimación de la proporción poblacional, presentados en el numeral 3.3.2, prefiere utilizar?. 11. Deduzca la expresión para el tamaño de la muestra simple requerido en la estimación de la diferencia de promedios en poblaciones independientes, bajo Normalidad. 12. En número de disconformidades de una baldosa de cerámica se modela para efectos de control de calidad, como una variable aleatoria con distribución de Poisson. La variabilidad propia del proceso de manufactura, sugiere reconocer al parámetro como una variable aleatoria, para la cual se propone un modelo Exponencial de parámetro igual a uno. Determine un intervalo Bayesiano para estimar la tasa de disconformidades por unidad, con base en una muestra aleatoria de tamaño n. 146 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS 13. Deduzca un intervalo confidencial del 100(1 − α)% de confianza para θ, basado en una muestra aleatoria censurada de una población con función de densidad tal como la presenta el ejemplo 2.1.8, de la página 59 14. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de 1densidad Uniforme en el intervalo (0, θ). Fijo el valor k, ¿es Xn,n , kn Xn,n un intervalo confidencial para el parámetro θ?. Si dicho intervalo aleatorio es un intervalo confidencial, determine su correspondiente coeficiente confidencial. 15. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Beta con θ1 = 3 y θ2 = θ. Determine un intervalo confidencial del 100(1 − α)% de confianza para θ. de una población con función 16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de densidad Uniforme en el intervalo θ − 12 , θ + 12 . Determine un intervalo confidencial del 100(1 − α)% de confianza para θ. 17. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = θ exp(−θx)I(0,∞) (x) Determine un intervalo confidencial del 100(1 − α)% de confianza para P [X > 1]. 18. Teniendo en cuenta el ejercicio anterior, determine un intervalo confidencial del 100(1 − α)% de confianza para θ, basado únicamente en el mı́nimo de la muestra. 19. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad 2x fX (x, θ) = 2 I(0,θ) (x), con θ > 0 θ Determine un intervalo confidencial del 100(1 − α)% de confianza para θ. 20. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad 1 1 fX (x, θ) = x θ −1 I(0,1) (x), con θ > 0 θ Determine un intervalo confidencial del 100(1 − α)% de confianza para θ. 21. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = θxθ−1 I(0,1) (x), con θ > 0 Determine un intervalo Bayesiano para θ, si la distribución a priori de Θ es Gama con los componentes del parámetro especificados. Capı́tulo 4 JUZGAMIENTO DE HIPÓTESIS A este capı́tulo tradicionalmente se le ha llamado prueba de hipótesis, contraste de hipótesis, docimasia de hipótesis e incluso cotejo de hipótesis, como resultado de las traducciones del vocablo inglés test, o testing, que con el propósito de conservar su sentido original han sugerido estas expresiones mencionadas. Sin embargo, al volver a examinar las acepciones de cada uno de los términos utilizados se encuentra que no ofrecen la precisión semántica necesaria para enmarcar un sistema de conceptos substanciales dentro de la estructura conceptual de la Inferencia estadı́stica. Prueba de hipótesis tal vez la forma más cotidiana para referirse al contenido del capı́tulo, utiliza un término que dentro de sus muchas acepciones, presenta algunas asociadas con el tema. “Prueba: Razón, argumento, instrumento u otro medio con que se pretende mostrar y hacer patente la verdad o falsedad de algo. Ensayo o experimento que se hace de algo para saber cómo resultará en su forma definitiva. Indicio, señal o muestra que se da de algo ”1 . Pero quizá uno de sus sinónimos que mejor resume su sentido es cateo. Pero decidir a favor o en contra de una aseveración que traduce una explicación apriorı́stica de algún fenómeno particular de la realidad, aseveración cuya decisión se toma a la luz de la información de la muestra, no puede entenderse como un cateo. Por otra parte, contraste de hipótesis tampoco es una acertada elección para la denominación del tema porque además de utilizar el vocablo contraste, muy propio en el planteamiento de hipótesis en los Modelos Lineales o en el Diseño Experimental entre otros, término que podrı́a introducir confusión, ninguna de sus acepciones ligadas al tema es suficiente para describir globalmente esta área del conocimiento estadı́stico. En efecto “Contrastar: Ensayar o comprobar y fijar la ley, peso y valor de las monedas o de los objetos . . . Comprobar la exactitud o autenticidad de algo. Mostrar notable diferencia, o condiciones opuestas, 1 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edición.2001 147 148 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS con otra, cuando se comparan ambas ”(op. cit.), es un término más cercano a estimar o a destacar que a la toma de decisiones a partir de la información de la muestra. Docimasia como “Arte de ensayar los minerales para determinar la naturaleza y proporción de los metales que contienen ”2 , y de otras de sus acepciones, presenta más un sentido de análisis que un sentido de opción por algo a la luz de los hechos. Además su origen etimológico de ensayar o probar, la colocarı́a como término sinónimo de prueba, y no habrı́an razones para adoptarla. Cotejo como acción y efecto de cotejar, siendo cotejar “Confrontar algo con otra u otras cosas; compararlas teniéndolas a la vista ”(op. cit), consistirı́a igualmente en un simple sinómino de contraste, que no introduce elementos adicionales para admitirlo como palabra nuclear. Como juzgamiento es acción y efecto de juzgar, entendiendo que juzgar significa “Deliberar acerca de la culpabilidad de alguien o de la razón que le asiste en un asunto y sentenciar lo procedente. Decidir en favor o en contra y especialmente pronunciar como juez una sentencia acerca de alguna cuestión o sobre alguno ”(op. cit), además de tomarse como directriz a una de sus acepciones que condensa la finalidad de un procedimiento de toma de una decisión a favor o en contra de algo, juzgamiento por su parte es un vocablo que permite construir una analogı́a magistral entre un juicio que se realiza ante un juez y los elementos, pasos y conceptos en el acopio de información, su procesamiento y la decisión que se toma ante una afirmación relativa al fenómeno en estudio, que la Inferencia estadı́stica abstrae y estructura como una de sus partes fundamentales. En consecuencia este texto titula al presente capı́tulo como Juzgamiento de Hipótesis, porque como se comprenderá en la medida que se vaya desarrollando, se trata realmente de algo análogo a un juicio, particularmente a un juicio penal. Para iniciar la exposición de los conceptos propios del juzgamiento de hipótesis, se parte del concepto de Hipótesis Estadı́stica. 4.1 Elementos básicos Definición 4.1.1. Una hipótesis estadı́stica es una aseveración o conjetura acerca de la distribución de una población, afirmación que generalmente está asociada a un subconjunto del espacio del parámetro Θ correspondiente al modelo probabilı́stico que representa la citada población. Como notación, la aseveración se enuncia después de la abreviatura H0 o H1 . El juzgamiento de una hipótesis estadı́stica es un proceso que culmina con una decisión de rechazar o de no rechazar una hipótesis con base en la información de una muestra aleatoria X1 , X2 , . . . , Xn de una población para la cual se ha asumido un modelo probabilı́stico cuya función de densidad es fX (x, θ). 2 Gran Diccionario General de la Lengua Española. VOX. Segunda Edición. 1991 4.1. ELEMENTOS BÁSICOS 149 Definición 4.1.2. La hipótesis sobre la cual se estructura el proceso de juzgamiento se denomina hipótesis nula, se denota H0 y se enuncia como H0 : θ ∈ Θ 0 , Θ0 ⊂ Θ Definición 4.1.3. La hipótesis elegida como contraste a la hipótesis nula se denomina hipótesis alterna, se denota H1 y se enuncia como H1 : θ ∈ Θ1 , Θ1 ⊂ Θ, Θ1 ∩ Θ0 = ∅ Definición 4.1.4. La diada de hipótesis nula y alterna constituye el sistema de hipótesis del proceso de juzgamiento de la hipótesis nula, sistema que se enuncia como H0 : θ ∈ Θ0 f rente a H1 : θ ∈ Θ1 Definición 4.1.5. Una hipótesis H : θ ∈ Θ , Θ ⊂ Θ se denomina hipótesis simple si con dicha aseveración queda plenamente especificada la función de densidad fX (x, θ). En caso contrario se denomina hipótesis compuesta. Ejemplo 4.1.1. El diseño de un producto establece un envase de 20 onzas fluidas; en consecuencia el proceso de llenado debe adecuarse a ese requerimiento y deben planearse y ejecutarse los controles periódicos para poder tomar las decisiones a que haya lugar sobre los ajustes a las máquinas y al proceso en general una vez se obtenga y se procese la información pertinente durante los controles. Para respaldar cualquier decisión con el apoyo de procedimientos estadı́sticos, una manera consistirı́a en idealizar el contenido del producto en el envase como una variable aleatoria y adoptar un modelo probabilı́stico como regente de su comportamiento. En particular si se elige el modelo Gaussiano como el más idóneo para representar el contenido mencionado, con valor esperado θ y bajo el supuesto de varianza conocida, la declaración H : θ = 20 indicativa de que el proceso de llenado está centrado de acuerdo con el requerimiento del diseño, corresponde a una hipótesis simple, puesto que conocida la varianza y admitido θ = 20 como el valor esperado de la variable que representa el citado contenido, queda plenamente determinada la distribución de dicha variable. Por su parte la afirmación de que el proceso de llenado tiende a rebosar el envase, traducida como H : θ > 20, corresponde a una hipótesis compuesta, porque se trata de una afirmación que aunque lleva tácita la alusión a una variable con distribución Gaussiana de varianza conocida, no identifica una distribución singular. Continuando dentro de este contexto industrial, si en el instante de cierre del envase posterior al llenado, mediante la utilización de una fotocélula, se detectan envases con contenido inferior a 18.5 fl oz, éstos son trasladados a un proceso de reciclaje prácticamente sin costo alguno, mientras que los recipientes que 150 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS contienen 18.5 fl oz o más, no activan señal alguna de la fotocélula, siendo la preocupación central por aquellos envases que contienen más de 20 fl oz pues proporcionalmente al contenido adicional generan costos considerables. Para el seguimiento del proceso, en cada perı́odo de control se acopia la información correspondiente al contenido de 49 envases elegidos en forma aleatoria dentro del lote de producción, como parte del aprestamiento para el control estadı́stico de calidad del proceso, con la finalidad de decidir si deben realizarse ajustes a las máquinas o al proceso en general, o por el contrario, para dar parte de la no presencia de factores perturbadores del proceso. El sistema de hipótesis que origina el procedimiento que permite la toma de decisiones dentro de este proceso industrial particular, puede formularse ası́ H0 : θ = 20 f rente a H1 : θ > 20 sistema entendido como el juzgamiento de la aseveración de que el proceso está controlado o equivalentemente que está centrado en 20 fl oz, declaración concretada en la hipótesis nula H0 y enfrentada a una manifestación de una situación alternativa relacionada con la inconveniencia de producir unidades con contenido superior al establecido por el diseño del producto, representada por la hipótesis alterna H1 . Definición 4.1.6. El proceso de juzgamiento de la hipótesis nula conlleva un procedimiento, regla o norma que permite tomar la decisión a que haya lugar, denominado test. Como notación, el test se enuncia después de la letra τ . Definición 4.1.7. El test utilizado dentro del proceso de juzgamiento de la hipótesis nula H0 , tiene vinculado un subconjunto del espacio de las observaciones X. Este subconjunto denotado por Cτ,n está determinado por su respectivo test ası́ τ : “Rechazar la hipótesis H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ” El conjunto Cτ,n se denomina región crı́tica o región de rechazo del test para juzgar a H0 y el test ası́ definido se denomina test no aleatorizado. El conjunto X − Cτ,n recibe el nombre de región de aceptación del test para juzgar a H0 . Definición 4.1.8. Un test τ recibe la denominación de test aleatorizado para el juzgamiento de la hipótesis nula H0 , si la función ψτ calculada en los valores observados de una muestra aleatoria 0 < ψτ (x1 , x2 , . . . , xn ) < 1 determina la probabilidad de éxito de una variable aleatoria Y con distribución de Bernoulli, cuyos valores particulares se generan por un procedimiento aleatorio adicional, y está definido como τ : “Rechazar H0 si y = 1” A la función ψτ se le denomina función crı́tica del test aleatorizado τ . 4.1. ELEMENTOS BÁSICOS 151 Como los tests aleatorizados no son del interés de este texto, debe entenderse que dentro del contenido del presente capı́tulo el término test hace mención únicamente a los tests no aleatorizados. Ejemplo 4.1.2. Un test propuesto para el juzgamiento de H0 dentro del sistema de hipótesis del ejemplo 4.1.1 es τ : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla” norma que permite optar por la exploración y remoción de causas extrañas al proceso responsables de la no adecuación a los requerimientos, si el contenido promedio en una muestra aleatoria particular de 49 envases supera las 20.27 fl oz. Por otra parte permite no reportar novedad alguna en el desarrollo del proceso, cuando el señalado promedio es a lo sumo 20.27 fl oz. La región crı́tica asociada a este test es por consiguiente Cτ,49 = {(x1 , x2 , . . . , x49 )|x49 > 20.27} Cualquier decisión que se tome en el juzgamiento de una hipótesis estadı́stica, lleva consigo el riesgo de incurrir en una opción equivocada. Como en la analogı́a acogida, el juzgamiento de una persona en un tribunal o juzgado, es factible concluir el correspondiente proceso judicial con una decisión ajustada a las normas procesales y a la naturaleza de las pruebas, pero en realidad no acertada en cuanto a la verdad de los hechos, verdad que no siempre el juez puede conocer enteramente; por ello repetidamente se mencionan expresiones relativas a los inocentes que se encuentran purgando penas, o a los culpables que gozan de libertad plena. De manera similar a los errores en los cuales se puede incurrir en el juzgamiento de una persona, análogamente en el juzgamiento de hipótesis estadı́sticas se corren riesgos semejantes. Ası́ como un proceso judicial termina en forma normal, con la decisión de un juez o tribunal, el proceso de juzgamiento de una hipótesis nula culmina con una decisión: ya sea la de rechazar la hipótesis nula cuando hay evidencia estadı́stica para hacerlo o al no contar con dicha evidencia para rechazar la hipótesis, la de optar por no rechazarla; en este sentido, cualquiera de las decisiones puede ocasionar una equivocación o error. Uno de ellos consiste en rechazar una hipótesis nula cuando la hipótesis es verdadera, el otro en no rechazar una hipótesis nula en el caso de ser falsa. Cuando se traducen apartes de las explicaciones previas o provisionales de un fenómeno a afirmaciones de carácter estadı́stico, o sea cuando se formalizan hipótesis estadı́sticas, éstas heredan la veracidad o falsedad acorde con la explicación apriorı́stica del fenómeno. Esa veracidad o falsedad inmanentes a la incertidumbre misma que motiva la realización de la investigación, no son directamente el objetivo de su juzgamiento; el objetivo inmediato es la toma de una decisión frente a la afirmación que determina la hipótesis a la luz de la información contenida en los datos acopiados. En este sentido es pertinente precisar que cuando se utilizan expresiones como: bajo la hipótesis ..., siendo cierta la hipótesis..., debe entenderse que la afirmación de la frase precedente a 152 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS alguna de las expresiones mencionadas, o a otra similar, está condicionada a la veracidad de la hipótesis en consideración, o al supuesto de que la afirmación fuese verdadera. Como los errores en los cuales se puede incurrir cuando se toma la decisión están dependiendo de la real o supuesta veracidad de la hipótesis, la concisión y denominación de cada uno de estos errores se indica en la definición siguiente. Definición 4.1.9. Dentro del proceso de juzgamiento de la hipótesis H0 se denomina error del tipo I a la decisión de rechazar H0 , siendo verdadera la hipótesis; asimismo se designa como error del tipo II a la decisión de no rechazar la hipótesis nula siendo ella falsa. En resúmen, DECISIÓN H0 Rechazar H0 No rechazar H0 Cierta Error del tipo I Correcta Falsa Correcta Error del tipo II Definición 4.1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ) y sea además τ un test no aleatorizado para el juzgamiento de la hipótesis nula H0 : θ ∈ Θ0 definido como τ : “Rechazar H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ” La función ψτ (xn ) ! = 1 0 si si (x1 , x2 , . . . , xn ) = xn ∈ Cτ,n c c xn ∈ Cτ,n siendo Cτ,n = X − Cτ,n se denomina función crı́tica del test no aleatorizado τ . Si la hipótesis nula H0 : θ = θ0 es una hipótesis simple, es decir la aseveración alude que la distribución de la variable representativa de la problación está plenamente determinada, y si además dicha hipótesis se asume verdadera, entonces el error del tipo I puede calcularse como )=1 Pθ0 ψτ (Xn dicho de otra manera, calcular este error del tipo I corresponde al cálculo de la probabildad de rechazar la hipótesis nula dado que el valor del parámetro es θ = θ0 . Sin embargo, bajo una situación relativa a una hipótesis nula compuesta, que se refiere a una variedad de distribuciones, el error del tipo I no serı́a único, serı́a un conjunto de errores del tipo I. El máximo del conjunto citado, la mayor probabilidad de rechazar la hipótesis nula siendo cierta, se adopta como uno de los elementos constituyentes en la construcción, en la caracterización o en la evaluación de un test. La siguiente definición hace referencia a ello. 4.1. ELEMENTOS BÁSICOS 153 Definición 4.1.11. El tamaño del test τ , el tamaño de la región crı́tica Cτ,n , la probabilidad de error del tipo I o nivel del test τ se denota usualmente por α y está definido como )=1 α = max Pθ ψτ (Xn θ∈Θ0 En palabras corrientes el nivel del test se entiende como la mayor probabilidad de tomar una decisión incorrecta asumiendo verdadero cualquier valor del parámetro θ asociado con la hipótesis nula, y aun cuando es un elemento que dentro del proceso de juzgamiento de hipótesis es controlable y elegible arbitrariamente, por supuesto debe corresponder a una probabilidad relativamente pequeña, es usual asumirlo como alguno de los tres niveles: α = 0.1, α = 0.05 y α = 0.01, niveles que generalmente se les conoce como niveles del 10%, 5% y 1% respectivamente. El error del tipo II, denotado frecuentemente por β, es otro elemento constitutivo del proceso de juzgamiento de la hipótesis nula, tal vez habitualmente menos aludido que el error del tipo I, pero igualmente esencial. De manera afı́n al cálculo del error del tipo I, se puede generar una variedad de errores del tipo II correspondientes a cada situación particular indicativa de la falsedad de la hipótesis nula, un poco más complejo porque la probabilidad de no rechazar la hipótesis nula, se calcula bajo la consideración de que la hipótesis nula es falsa. Entonces cabe preguntarse: ¿Qué significa que H0 se considere falsa?. Si c Θ1 = Θ0 , entonces H0 es falsa cuando H1 sea considerada cierta, en cuyo caso el sistema de hipótesis está conformado por hipótesis antitéticas; pero cuando c Θ1 = Θ0 , entonces el subconjunto de valores de Θ asociados con la falsedad de la hipótesis nula será Θ − Θ0 , conjunto que contiene a Θ1 . Este hecho pone de manifiesto que si H0 se asume como falsa no implica necesariamente que H1 sea verdadera, puntualización ésta que no se puede pasar por alto cuando se realiza el cálculo del error del tipo II. ¿Cuál de los dos errores que se pueden cometer en el juzgamiento de hipótesis estadı́sticas es el más grave?. La respuesta realmente es que en forma general no se puede evaluar su gravedad; cada caso particular permitirá valorar las implicaciones de una decisión errónea. Por ejemplo, si el propósito es remplazar un medicamento existente por uno nuevo con base en el análisis de su eficacia, podrı́a asumirse el modelo de Bernoulli para representar si la aplicación del medicamento en un tipo de paciente surte el efecto esperado o no, y evaluar la citada eficacia por medio de una muestra de pacientes a los cuales se les administre el medicamento. De esta manera si θ denota la probabilidad de que el efecto de la aplicación del nuevo medicamento en un paciente sea el esperado y si el fármaco existente tiene una eficacia cuantificada en θ0 , puede establecerse el siguiente sistema de hipótesis H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 154 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS La afirmación de que el nuevo medicamento es a lo sumo tan eficaz como el actual, traducida a lenguaje estadı́stico corresponde a la hipótesis nula en este sistema. Con respecto a la decisión que debe tomarse, ésta se encuentra explı́cita en el párrafo anterior: mantener el medicamento vigente o reemplazarlo por el nuevo medicamento. Entonces bajo esta situación particular, el error del tipo I consiste en colocar en el mercado un medicamento con menor o igual eficacia que el actual, mientras que el error del tipo II radica en abstenerse de colocar en el mercado un medicamento más eficaz que el vigente. La primera decisión implica pérdidas para el laboratorio productor, mientras que la segunda involucra pérdida de rentabilidad. Con la ayuda de la información financiera de la compañı́a farmacéutica puede establecerse cual decisión serı́a más costosa. Pero desde el punto de vista de Salud Pública, las decisiones pueden valorarse contrariamente. ¿Es más grave consumir un fármaco de menor calidad a no tener la posibilidad de utilizar uno altamente eficaz?. Es obligado precisar con mayor detalle el contexto propio para valorar las implicaciones de la decisión: ¿se trata de un medicamento contra el resfriado común, o se trata de un medicamento para la cura de un determinado tipo de cáncer?. Como se deduce de lo anterior, no se puede hablar en términos absolutos cuál de los errores es más oneroso, mientras que para una situación especı́fica sı́ existe mayor factibilidad de hacerlo. En caso de poder establecer la preponderancia de uno de los dos errores, algunos autores sugieren que se establezca el sistema de hipótesis orientado por la convención de que el error del tipo I es más serio que el error del tipo II. De esta manera se controla el error del tipo I, o lo que es equivalente se regula el nivel del test, y el cálculo o la determinación del error del tipo II estarı́a sujeto a esta elección de α. Sin embargo, esta sugerencia es más una invitación a valorar la magnitud de los potenciales errores en un caso determinado y no debe tenerse como principio inquebrantable. Ejemplo 4.1.3. Retomando el ejemplo 4.1.2 y estableciendo el valor de la desviación estándar como 0.75 fl oz, tanto la probabilidad de error del tipo I como la probabilidad de error del tipo II, utilizando cada uno de los siguientes tests, pueden ser calculadas y comparadas para varios valores de θ. τ1 : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla” τ2 : “Rechazar H0 si x49 > 20.24, en caso contrario no rechazarla” τ3 : “Rechazar H0 si x49 > 20.21, en caso contrario no rechazarla” El nivel del primer test es α = 0.00587 porque √ (20.27 − 20) 49 P20 X 49 > 20.27 = 1 − Φ = 1 − Φ(2.52) = 0.00587 0.75 De igual manera los niveles de los test τ2 y τ3 son respectivamente del 1.255% y 2.5%. 155 4.1. ELEMENTOS BÁSICOS Probabilidad de error del tipo II Test θ = 19.9 θ = 20.1 θ = 20.2 θ = 20.3 θ = 20.4 θ = 20.5 θ = 20.6 τ1 0.9997 0.9437 0.7432 0.3897 0.1125 0.0159 0.0010 τ2 0.9993 0.9043 0.6456 0.2877 0.0677 0.0076 0.0004 τ3 0.9981 0.8477 0.5372 0.2005 0.0381 0.0034 0.0001 Tabla 4.1: Tabla de compilación de probabilidades de error del tipo II, para tres test particulares, según algunos supuestos valores de θ Del contenido de la tabla 4.1 y de los niveles de los tests en consideración, se deduce la superioridad del tercer test. Si se pretende elegir un test con nivel inferior al 5%, los tests en comparación cumplen la exigencia y aunque con mayor error del tipo I, el tercer test presenta persistentemente los menores valores de la probabilidad de error del tipo II dentro del rango de valores de θ señalados en la tabla mencionada. Los temas de próximas secciones están justamente relacionados con la construcción de los mejores tests, construcción basada en métodos con alcances mucho más generales que lo logrado en el ejemplo inmediatamente anterior. El buen uso de la Estadı́stica además de ser realizado bajo principios éticos, consiste en la elección y aplicación de los mejores procedimientos disponibles para el logro de los objetivos en una situación particular. La incertidumbre con la cual trabaja tanto el investigador, el analista estadı́stico como el usuario ocasional de la estadı́stica, no justifica la utilización de cualquier herramienta para abordar la explicación, descripción de un fenómeno o para la toma de decisiones frente a él. Es preciso acudir a los cánones estadı́sticos para evaluar la condición de cada procedimiento elegible para ser utilizado. Cada uno de los procedimientos de la Inferencia estadı́stica está recomendado por medio de una certificación relativa a su propósito. Los buenos estimadores son elegibles a la luz de los requisitos tratados en el segundo capı́tulo, las mejores estimaciones por intervalo se logran a través de intervalos confidenciales construidos con base en buenos estimadores puntuales pero escencialmente por su mı́nima longitud. La calidad de un test por su parte, al configurarse como la estrategia fundamental para la toma de decisiones estadı́sticas, es examinada desde varios puntos de vista pero connaturalmente desde su capacidad de rechazar la hipótesis nula bajo presuntos escenarios relativos a valores del parámetro, perspectiva conocida como la potencia de un test. Siendo ésta la directriz de la construcción y evaluación del desempeño de un test, se tratará a partir de la siguiente definición inicial conocida como función de potencia. Definición 4.1.12. Sea τ un test no aleatorizado para el juzgamiento de H0 con función crı́tica ψτ (xn ). La función de potencia denotada como πτ (θ) es una función con dominio Θ y recorrido el intervalo (0, 1), definida como )=1 πτ (θ) = Pθ ψτ (Xn 156 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS c Definición 4.1.13. Siendo Θ1 = Θ0 la función βτ (θ) = 1 − πτ (θ), es llamada curva caracterı́stica de operación o curva CO del test τ . Ejemplo 4.1.4. El tiempo que una persona requiere para comprar una tarjeta de ingreso al sistema de Transmilenio en la estación de Alcalá durante el año 2002, ha mostrado un comportamiento que sugiere el modelo Uniforme en el intervalo (0, θ) para su descripción. Se afirma que el tiempo máximo de permanencia en la fila está entre dos y tres minutos. Para evaluar la afirmación y tomar los correctivos del caso, se va a registrar el tiempo empleado por n personas que serán elegidas por medio de un procedimiento especial de muestreo en la rampa de ingreso, y se propone la utilización del test τ : “Rechazar H0 si yn ≤ 1.9 o si yn > 2.9” para el juzgamiento de la hipótesis nula H0 en el sistema H0 : θ ∈ [2, 3] f rente a H1 : θ ∈ / [2, 3] La función de potencia del test propuesto es πτ (θ) = Pθ [Yn ≤ 1.9] + Pθ [Yn > 2.9] = Pθ [Yn ≤ 1.9] + 1 − Pθ [Yn ≤ 2.9] = 1 + FYn (1.9, θ) − FYn (2.9, θ) πτ (θ) = I(0,1.9] (θ) + 1.9 θ n n n 1.9 2.9 I(1.9,2.9] (θ) + 1 + − I(2.9,∞) (θ) θ θ cuya representación gráfica se observa en la figura 4.1. Idealmente, la función de potencia de un test τ serı́a πτ (θ) = 1 − IΘ (θ) o 0 equivalentemente la curva CO ideal del test τ se establecerı́a como βτ (θ) = 1 − IΘ (θ). 1 La función de potencia ideal para el ejemplo anterior tendrı́a la forma que muestra la figura 4.2 Definición 4.1.14. El test τ con función crı́tica ψτ (xn ) se dice que es un test insesgado para la hipótesis H0 si max Pθ ψτ (Xn ) = 1 ≤ min Pθ ψτ (Xn )=1 θ∈Θ0 θ∈Θ1 o dicho en otra forma si max πτ (θ) ≤ min πτ (θ) θ∈Θ0 θ∈Θ1 157 4.1. ELEMENTOS BÁSICOS πτ (θ) 1 | | | | | 1 2 3 4 5 θ Figura 4.1: Gráfico de la función de potencia del correspondiente al ejemplo 4.1.4 πτ (θ) 1 1.9 2.9 θ Figura 4.2: Gráfico de la función de potencia ideal correspondiente al ejemplo 4.1.4 El tamaño de la muestra reveló sus efectos en la estimación de parámetros y ahora nuevamente se manifiesta como un elemento trascendental en la toma de decisiones basadas en información estadı́stica. Como se señaló en el Capı́tulo 2, la calidad y la cantidad de información con la cual se cuenta para llevar a cabo procesos de Inferencia estadı́stica, son dos ejes esenciales sobre los cuales se sustentan los alcances de los procesos. Es evidente que el contar con una cantidad suficiente de información de excelente calidad, permite tomar decisiones acertadas sin mayores riesgos. El concepto de la consistencia de un test, presentado a través de la siguiente definición, es la formalización y compendio de esta evidencia. Definición 4.1.15. Siendo τn un test de nivel α, n = 1, 2, . . . , para H0 : θ ∈ Θ0 c frente a H1 : θ ∈ Θ1 = Θ0 , basado en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), dicho test recibe la denom- 158 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS inación de test consistente para H0 , si para cada θ ∈ Θ1 , lim Pθ [ψτn (Xn = 1)] = 1 n→∞ 4.2 Tests más potentes La función de potencia, además de describir perfectamente el comportamiento de un test ante cualquier valor del parámetro, como ya se mencionó es la directriz de la construcción de tests. Esa construcción o evaluación, fija la atención sobre el valor o valores particulares de la función de potencia para uno o varios valores especı́ficos del parámetro, en especial para valores del parámetro asociados con la hipótesis alterna. Como precisión semántica el término potencia del test se deja exclusivamente para referirse al valor de la función de potencia para un elemento particular del espacio del parámetro, ası́ varios autores se refieran a ella como la probabilidad de rechazar H0 siendo H1 verdadera. En ese sentido la siguiente sección inicia lo pertinente a la idea de test más potente. Definición 4.2.1. Si dentro del proceso de juzgamiento de la hipótesis nula H0 , se considera a H0 y H1 como hipótesis simples, conformando el sistema de hipótesis H0 : θ = θ 0 f rente a H1 : θ = θ 1 el test τ ∗ con nivel α se dice que es más potente para H0 que cualquier otro test τ para H0 si 1. πτ ∗ (θ0 ) = α Θ0 = {θ0 }, Θ1 = {θ1 } 2. πτ ∗ (θ1 ) ≥ πτ (θ1 ) Teniendo en cuenta un sistema de hipótesis como en el precisado en la definición 4.2.1, de inmediato se advierte que 1 − πτ (θ1 ) es la probabilidad de ocurrencia del error del tipo II al utilizar el test τ . En estas condiciones, bajo un sistema de hipótesis simples, un test más potente de tamaño α es aquel que induce menor β, tal como lo logra el resaltado test τ ∗ , de la aludida definición. Con el propósito de minimizar el error del tipo II, manteniendo el control del error del tipo I viene a cooperar el Teorema de Neyman y Pearson, que a continuación se presenta, teorema que permite deducir una forma de obtención de tests más potentes, es decir revela un procedimiento para la construcción de tests con menores errores del tipo II. Para aprestar su enunciado es menester contar con la siguiente definición. Definición 4.2.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Si el sistema de hipótesis de juzgamiento de 4.2. TESTS MÁS POTENTES 159 la hipótesis nula H0 es un sistema de hipótesis simples H0 : θ = θ 0 f rente a H1 : θ = θ 1 un test definido como τ : “Rechazar H0 si λn < k” recibe la denominación de test de razón simple de verosimilitudes siendo n ) λn = L(θ0 ; x1 , x2 , . . . , xn ) = i=1 n ) L(θ1 ; x1 , x2 , . . . , xn ) fX (xi , θ0 ) fX (xi , θ1 ) i=1 Teorema 4.2.1 (Lema de Neyman Pearson). Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Si el sistema de hipótesis es H0 : θ = θ 0 f rente a H1 : θ = θ 1 el test τ cuya función crı́tica corresponde a ⎧ n n ⎪ ⎪ ⎪ f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn 1 si k ⎪ X i 1 ⎨ i=1 i=1 ψτ (xn ) = n n ⎪ ⎪ ⎪ 0 si k f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn ⎪ X i 1 ⎩ i=1 i=1 es un test más potente para H0 , siendo k una constante positiva y πτ (θ0 ) = α. Ejemplo 4.2.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución Normal de valor esperado μ y varianza conocida σ 2 , determinar un test más potente para H0 , en el sistema H0 : μ = μ0 f rente a H1 : μ = μ1 Conviniendo que μ1 > μ0 , n ) λn = i=1 n ) i=1 =e 1 σ2 2 xi −μ0 σ ) 1 xi −μ1 σ ) √ 1 e− 2 ( 2πσ (μ0 −μ1 ) 2 1 √ 1 e− 2 ( 2πσ n i=1 2 2 n xi − 2σ 2 (μ0 −μ1 ) 160 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS El test de razón simple de verosimilitudes para H0 dentro del sistema establecido puede formularse como 1 2 τ : “Rechazar H0 si e σ (μ0 −μ1 ) n i=1 2 2 n xi − 2σ 2 (μ0 −μ1 ) < k” test que es equivalente a τ : “Rechazar H0 si n 1 n (μ − μ ) xi − 2 (μ20 − μ21 ) < ln k” 0 1 σ2 2σ i=1 simplificadamente equivalente al test conseguido a partir de operaciones convenientes τ : “Rechazar H0 si n xi > c” i=1 La idea de la razón simple de verosimilitudes da pie para presuponer que ese concepto puede originar un concepto más general que abarque aquellas situaciones en las cuales el sistema de hipótesis incluya al menos una hipótesis compuesta. En efecto, la razón generalizada de verosimilitudes, hace referencia a un sistema de hipótesis como el mencionado pero con la especificidad de estar constituido por hipótesis antitéticas. La siguiente definición formaliza dicho concepto. Definición 4.2.3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ). Si el sistema de hipótesis en el juzgamiento de la hipótesis nula es H0 : θ ∈ Θ 0 f rente a H1 : θ ∈ Θ 1 con Θ1 = Θ − Θ0 , la razón generalizada de verosimilitudes corresponde al cociente sup L(θ; x1 , x2 , . . . , xn ) λn = θ∈Θ0 sup L(θ; x1 , x2 , . . . , xn ) = λ(x1 , x2 , . . . , xn ) θ∈Θ Acerca de λn objeto de la definción 4.2.3 es conveniente puntualizar lo siguiente 1. λn es un valor particular de la variable aleatoria Λn = λ(X1 , X2 , . . . , Xn ) 2. λn ∈ (0, 1] 4.2. TESTS MÁS POTENTES 161 3. El denominador de Λn es la función de verosimilitud evaluada en el estimador máximo verosı́mil de θ El conocimiento de la distribución de Λn permite consecuentemente la formulación definitiva del test, pero esto no siempre sucede, y es por ello que en muchas oportunidades es necesario recurrir a tests equivalentes derivados del comportamiento de Λn . Sin embargo algunas veces la exploración de la citada distribución no es factible, pero se puede contar con un tamaño de muestra relativamente grande. Bajo ciertas condiciones la variable aleatoria −2 ln(Λn ) puede manejarse como una variable aleatoria con distribución Ji-cuadrado, como lo indica el siguiente teorema, y de esta manera se puede establecer una forma especial del test. Teorema 4.2.2. Bajo condiciones de regularidad, dentro del juzgamiento de la hipótesis nula, siendo L(θ1 , θ2 , . . . , θl , u1 , u2 , . . . , uN ) la función de verosimilitud de las variables aleatorias U1 , U2 , . . . , UN y l0 el número de componentes especificadas por la hipótesis nula, entonces la variable aleatoria −2 ln(ΛN ), converge en distribución a una variable aleatoria con distribución Ji-cuadrado con v grados de libertad, v = l − l0 . Bajo estas condiciones un test de razón generalizada de verosimilitudes puede presentarse en una forma especial correspondiente a τ : “Rechazar H0 si − 2 ln(λN ) > χ21−α (v)” Ejemplo 4.2.2. El juzgamiento de la homoscedasticidad ha inducido el desarrollo de varios tests. Este ejemplo, como forma especial de juzgarla, es una ilustración del teorema 4.2.2. Se consideran k poblaciones independientes asumiendo para cada una de ellas el modelo Gaussiano, de tal manera que la variable que representa a la población j tiene valor esperado μj y desviación estándar σj , j = 1, 2, . . . , k. Bajo estas consideraciones, Xj1 , Xj2 , . . . , Xjnj , representa la muestra aleatoria de tamaño nj , correspondiente a la población j. La homoscedasticidad entendida como la caracterı́stica de que un grupo de poblaciones tienen la misma dispersión, expresada en términos de sus varianzas, se puede traducir en la hipótesis nula que forma parte del siguiente sistema H0 : σ12 = σ22 = . . . = σk2 f rente a H1 : no todas las varianzas son iguales La función de verosimilitud L = L μ1 , μ2 , . . . , μk , σ12 , σ22 , ..., σk2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk de las N variables aleatorias X11 , X12 , . . . , X1,n1 , . . . , Xk1 , Xk2 , . . . , Xknk , inn nj ; por otra parte denotando por σ 2 cluye l = 2k componentes, donde N = j=1 162 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS el valor común desconocido de las varianzas de cada población, 6 7 Θ0 = (μ1 , μ2 , . . . , μk , σ 2 )|μj ∈ R, σ 2 > 0 determinado por la hipótesis nula, incluye l0 = (k + 1) componentes, especificadas por ésta. Ası́ entonces 2 k nj 1 1 xji − μj √ exp − L= 2 σj 2πσj j=1 i=1 sup L La determinación de λN = Θ0 sup L requiere de los siguientes elementos: Θ • La estimación máximo-verosı́mil de μj es • La estimación máximo-verosı́mil de σj2 es 1 nj 1 nj nj xji = xj i=1 nj (xji − xj )2 i=1 • La estimación máximo-verosı́mil del valor común σ 2 bajo la hipótesis nula nj k es N1 (xji − xj )2 j=1 i=1 con lo anterior sup L λN = Θ0 sup L k ) = 1 nj j=1 ⎡ k nj (xji − xj )2 i=1 nj (xji −xj )2 ⎢ j=1 i=1 ⎣ k Θ j=1 nj n2j ⎤ N2 ⎥ ⎦ pero la determinación de la distribución de ΛN es una tarea muy intrincada. Por ello si se cuenta con muestras relativamente grandes, −2 ln(ΛN ) converge en distribución a una variable aleatoria con distribución Ji-cuadrado con v grados de libertad, v = l − l0 = 2k − (k + 1) = (k − 1), por lo tanto se le puede tratar como tal y por consiguiente el test puede enunciarse como k ) τ : “Rechazar H0 si − 2 ln j=1 ⎡ 1 nj k nj (xji − xj )2 i=1 nj (x −xj )2 ⎢ j=1 i=1 ji ⎣ N n2j ⎤ N2 ⎥ ⎦ > χ21−α (k − 1)” 163 4.2. TESTS MÁS POTENTES Definición 4.2.4. Conforme a la definición 4.2.3, un test τ cuya función crı́tica corresponde a: ⎧ n n ⎪ ⎪ ⎪ 1 si k f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn ⎪ X i 1 ⎨ i=1 i=1 ψτ (xn ) = n n ⎪ ⎪ ⎪ 0 si k f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn ⎪ X i 1 ⎩ i=1 i=1 recibe la denominación de test de razón generalizada de verosimilitudes de nivel α, siendo k una constante positiva y max Pθ [ψτ (Xn ) = 1] = α. θ∈Θ0 La sigla LRT (likelihood ratio test) es utilizada frecuentemente como abreviatura para referirse a un test de razón de verosimilitudes, denominación ésta que cubre tanto a los tests de razón simple de verosimilitudes como a los tests de razón generalizada de verosimilitudes. Ejemplo 4.2.3. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad fX (x, θ) definida como fX (x, θ) = θe−θx I(0,∞) (x) determinar un test de razón generalizada de verosimilitudes para el juzgamiento de H0 en el sistema H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 como L(θ; x1 , x2 , . . . , xn ) = θn e −θ sup L(θ; x1 , x2 , . . . , xn ) = θ∈Θ n i=1 1 xn xi n y además e−n y con el apoyo de la figura 4.3 ⎧ n 1 1 ⎪ ⎪ ⎨ e−n cuando ≤ θ0 x x n n sup L(θ; x1 , x2 , . . . , xn ) = 1 ⎪ 0<θ<θ0 ⎪ ⎩ θ0n e−θ0 nxn cuando > θ0 xn luego ⎧ ⎪ ⎪ ⎪ ⎨ λn = 1 θ0n e−θ0 nxn ⎪ n ⎪ ⎪ ⎩ 1 e−n xn 1 ≤ θ0 xn 1 cuando > θ0 xn cuando 164 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS L(θ) | θ0 x1n θ L(θ) | 1 xn θ0 θ Figura 4.3: Determinación del supremum para θ < θ0 , según la localización de θ0 , correspondiente al ejemplo 4.2.3 por lo tanto el test de razón generalizada de verosimilitudes se puede enunciar como τ : “Rechazar H0 si 1 θn e−θ0 nxn > θ0 y 0 n < k” xn 1 e−n xn o equivalentemente τ : “Rechazar H0 si xn θ0 < 1 y (θ0 xn )n e−n(θ0 xn −1) < k” Reemplazando θ0 xn = y, nótese que y n e−n(y−1) tiene máximo cuando y = 1 y dado que y < 1, y n e−n(y−1) < k si y sólo si y ≤ k0 , como se deriva de la figura 4.4 En consecuencia, el test puede enunciarse como τ : “Rechazar H0 si θ0 xn ≤ k0 ” 165 4.2. TESTS MÁS POTENTES y n e−n(y−1) 1 k y k0 1 Figura 4.4: Representación gráfica de la equivalencia del test de razón generalizada de verosimilitudes con el test final del ejemplo 4.2.3 El nivel de test puede determinarse ahora, de la siguiente manera. α = Pθ0 θ0 X n ≤ k0 = Pθ0 θ0 = 0 porque θ0 n n Xi ≤ nk0 i=1 nk0 1 n−1 −t t e dt Γ(n) Xi ∼ Gama(n, 1). A partir de este punto es posible redefinir el i=1 test, pues de la última igualdad se obtiene el valor de k0 , siendo por supuesto nk0 el correspondiente percentil α. Definición 4.2.5. Si dentro del proceso de juzgamiento de la hipótesis nula H0 se considera el sistema de hipótesis H0 : θ ∈ Θ0 f rente a H1 : θ ∈ Θ1 el test τ ∗ se denomina test uniformemente más potente, UMP, para H0 con nivel α si 1. sup πτ ∗ (θ) = α θ∈Θ0 2. πτ ∗ (θ) ≥ πτ (θ) para todo θ ∈ Θ1 y para todo test τ con nivel menor o igual a α. 166 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Ejemplo 4.2.4. Determinar un UMP para H0 en el sistema de hipótesis H0 : θ = θ 0 f rente a H1 : θ > θ 0 basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ) = θe−θx I(0,∞) (x) En el sistema de hipótesis H0 : θ = θ 0 f rente a H1 : θ = θ 1 y conviniendo que θ1 > θ0 , un test más potente para H0 puede obtenerse a partir del Lema de Neyman Pearson (teorema 4.2.1, página 159). Siendo λn = θ0n e θ1n e −θ0 −θ1 n i=1 n i=1 xi xi el test más potente para H0 en este último sistema está formulado como τ : “Rechazar H0 si θ0 θ1 n e −(θ0 −θ1 ) n i=1 xi < k” o equivalentemente τ : “Rechazar H0 si n i=1 xi < 1 ln θ1 − θ0 θ1 θ0 n k ” o de manera más simple, como τ : “Rechazar H0 si n xi < c” i=1 Este test es más potente para H0 bajo cualquier elección de θ1 > θ0 , de tal manera que el test τ : “Rechazar H0 si n i=1 xi < c” 4.2. TESTS MÁS POTENTES 167 es UMP para H0 en el sistema H0 : θ = θ 0 f rente a H1 : θ > θ 0 y finalmente para un nivel preestablecido del test, la constante c puede determinarse de la siguiente forma. α = Pθ0 = 0 n Xi < c i=1 c 1 n n−1 −θ0 t θ t e dt Γ(n) 0 c es entonces el percentil α de una Gama(n, θ0 ). Definición 4.2.6. Una familia de densidades {fX (x, θ)}, θ ∈ Θ ⊆ R se dice que tiene razón monótona de verosimilitudes , MLR, en la estadı́stica T = t(X1 , X2 , . . . , Xn ) si para dicha estadı́stica, el cociente L(θ1 ; x1 , x2 , . . . , xn ) L(θ2 ; x1 , x2 , . . . , xn ) es una función no creciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 o no decreciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 . Ejemplo 4.2.5. La familia de densidades de Poisson tiene razón monótona de n verosimilitudes en Xi . En efecto, i=1 L(θ1 ; x1 , x2 , . . . , xn ) = L(θ2 ; x1 , x2 , . . . , xn ) la cual es una función no decreciente de θ1 θ2 n n i=1 xi e−n(θ1 −θ2 ) xi . i=1 Teorema 4.2.3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y la familia {fX (x, θ)} tiene MLR en la estadı́stica T = t(X1 , X2 , . . . , Xn ). 1. Si la razón monótona de verosimilitudes es no decreciente y si tα es tal que Pθ0 [t(X1 , X2 , . . . , Xn ) < tα ] = α entonces el test τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) < tα ” 168 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS es UMP para H0 , en el sistema H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 2. Si la razón monótona de verosimilitudes es no creciente y si t1−α es tal que Pθ0 [t(X1 , X2 , . . . , Xn ) > t1−α ] = α entonces el test τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) > t1−α ” es UMP para H0 , en el sistema H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 Teorema 4.2.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, y fX (x, θ) perteneciente a la familia exponencial unidimensional de densidades. Siendo la estadı́stica natural n de la familia exponencial unidimensional Tn = t(X1 , X2 , . . . , Xn ) = d(Xi ), i=1 si c(θ) es una función estrictamente monótona, entonces la familia de densidades {fX (x, θ)} tiene MLR en la estadı́stica Tn . Teorema 4.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y fX (x, θ) pertenece a la familia exponencial unidimensional de densidades. Siendo la estadı́stica natural de la n d(Xi ) entonces familia Tn = t(X1 , X2 , . . . , Xn ) = i=1 1. Si c(θ) es una función monótona creciente de θ y t1−α tal que Pθ0 n d(Xi ) > t1−α = α i=1 el test τ : “Rechazar H0 si n d(xi ) > t1−α ” i=1 es UMP para H0 en el sistema H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 4.2. TESTS MÁS POTENTES 169 o en el sistema H0 : θ = θ 0 f rente a H1 : θ > θ 0 2. Si c(θ) es una función monótona decreciente de θ y tα tal que Pθ0 n d(Xi ) < tα = α i=1 el test τ : “Rechazar H0 si n d(xi ) < tα ” i=1 es UMP para H0 en el sistema H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 o en el sistema H0 : θ = θ 0 f rente a H1 : θ > θ 0 Antes de continuar en la siguiente sección dedicada al estudio de algunos tests bajo normalidad, es necesario concluir la presentación de los conceptos básicos del juzgamiento de hipótesis con una mención del denominado Valor p. Para hacer expedito un test, su forma final debe ser preferentemente muy sencilla. En lo posible debe conocerse la distribución de la estadı́stica que lo soporta y debe ser factible el cálculo de sus percentiles, precisamente para que la utilización del test sea fácil. Igualmente esa forma final, como la de muchos tests, debe estar en la forma estándar consistente en la comparación de un valor de una estadı́stica con un percentil de la misma elegido conforme al nivel del test asumido, para conservar estable un modo común muy difundido y generalmente aceptado. Muchos test han sido construidos teniendo en cuenta estas sugerencias y la realización de los cálculos respectivos y la determinación de los percentiles se logran mediante la utilización de alguno de los múltiples programas de cómputo estadı́stico que se encuentran en el mercado de software o a disposición en Internet. Justamente esos programas han incorporado dentro de sus cálculos y por ende dentro de la presentación de los resultados el denominado valor p. Este 170 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS valor puede entenderse como una ayuda muy eficiente en la lectura de los resultados para el juzgamiento de una hipótesis, proque su valor condensa los elementos del test y hace más diligente la decisión. Tratando al valor particular de la estadı́stica explı́cito en el test como un percentil de la misma, la forma estándar que compara el valor de la estadı́stica con algunos de sus percentiles, es decir, que compara valores de una variable aleatoria, puede vérsela de manera equivalente desde otro ángulo, la de comparar probabilidades: la probabilidad asociada al valor particular de la estadı́stica tratado como un percentil y la probabilidad que representa el valor α. Ası́ entonces, un test de nivel α puede transformarse a una manera equivalente utilizando el recurso del valor p, de la siguiente manera, τ : “Rechazar H0 si el valor p es inferior a α” Esta probabilidad asociada al valor particular de la estadı́stica, el valor p, corresponde a una función de la probabilidad de que la variable aleatoria que soporta el test sea menor que el valor especı́fico obtenido de la información de la muestra particular. Un par de ejemplos ilustran mejor la idea del valor p. Ejemplo 4.2.6. El test obtenido en el ejemplo 4.2.4 puede modificarse finalmente como a continuación se indica y de allı́ originar el valor p correspondiente. n Xi ∼ Gama(n, θ0 ), entonces la variable Debido a que bajo la hipótesis nula que soporta el test Wc = 2θ0 n i=1 Xi tiene distribución Ji-cuadrado con 2n grados i=1 de libertad. Con estos elementos el test presenta su forma final τ : “Rechazar H0 si wc < χ2α (2n)” El valor p en este caso es wc p = P [Wc < wc ] = 0 1 Γ(n) n 1 1 xn−1 e− 2 x dx 2 Por supuesto si wc < χ2α (2n) implica que p < α y como consecuencia el test puede expresarse equivalentemente como: τ : “Rechazar H0 si p < α” Ejemplo 4.2.7. La muestra de 49 envases que señala el ejemplo 4.1.1, también puede utilizarse para respaldar el control de las disconformidades en la fase de rotulación del envase, puesto que las normas internas de aseguramiento de la calidad admiten a lo sumo el 1% como fracción disconforme en la fase de rotulación y exigen que el test escogido debe tener nivel inferior a 5%. Acudiendo al modelo de Bernoulli, conviniendo que el término éxito corresponde a la representación de un envase que revela alguna disconformidad en su rótulo (colocación incorrecta, rotura, decoloración o inexistencia) y denotando la probabilidad de éxito como π (fracción disconforme), el seguimiento estadı́stico 4.2. TESTS MÁS POTENTES wc P [Wc > wc ] 0 0.3888827605 1 0.0864105914 2 0.0130840050 3 0.0014801344 4 0.0001322100 171 Tabla 4.2: Algunos valores p en el juzgamiento sobre la fracción disconforme de la fase de rotulación del proceso puede estar encauzado por el sistema de hipótesis: H0 : π ≤ 0.01 f rente a H1 : π > 0.01 Como la familia de densidadesnde Bernoulli tiene razón monótona de verosimili tudes en la estadı́stica Wc = Xi (variable que registra el número de envases i=1 en la muestra rotulados no apropiadamente), y además la razón es no decreciente n en xi , entonces un test UMP para H0 en el sistema planteado es i=1 τ : “Rechazar H0 si wc > k” Teniendo en cuenta que bajo la hipótesis nula 49 Xi ∼ Bin(49, 0.01) y que un i=1 test con nivel del 5% no es posible conseguirse, la tabla 4.2 nos permite dos finalidades: la especificación de α, siguiendo la recomendación de las normas internas, y la enumeración de algunos valores p. El valor p en este caso corresponde a p = 1 − P [Wc ≤ wc ] y del contenido de la tabla anterior se deduce que α = 0.013084, porque 0.086410 no es admisible por las normas. Finalmente el test correspondiente formulado especı́ficamente para tomar decisiones en la fase de rotulación, τ : “Rechazar H0 si 49 xi > 2” i=1 es equivalente a: τ : “Rechazar H0 si p < 0.013084” Por lo tanto si el monitor de un computador muestra el valor p = 0.08641059 significa que en la muestra se encontraron 2 envases disconformes y por lo tanto 172 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS no se toma correctivo alguno. Mientras que si p = 0.00013221 significa que en la muestra se encontraron 5 envases rotulados no apropiadamente y por lo tanto la decisión consiste en evaluar las posibles causas atribuibles a la perturbación y de tomar los correctivos a que haya lugar. 4.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad Utilizar el modelo Gaussiano como asistente en la toma de decisiones es una práctica común no siempre realizada empleando las mejores premisas. La divulgación acentuada que hacen los textos sobre los tests bajo Normalidad da pie para que el lector cimiente la idea de que el juzgamiento de hipótesis se reduce únicamente a casos particulares regidos por el modelo Gaussiano. La inclusión de dos secciones en este capı́tulo relativas a algunos tests bajo normalidad debe entenderse como aplicaciones muy especiales de conceptos previos en la construcción de tests bajo el modelo soberano de los modelos de probabilidad, y que su aplicación está sujeta a los resultados favorables a la normalidad dentro de un proceso de juzgamiento del ajuste al modelo, tema que será tratado posteriormente, o bajo argumentos sólidos de tamaño de muestra suficiente que justifican su utilización. Esta sección está dedicada al desarrollo de tests para el juzgamiento de hipótesis referentes a promedios poblacionales y la sección siguiente trata lo pertinente al juzgamiento de hipótesis sobre varianzas, bajo la adopción del modelo de Gauss. 4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 Siendo X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n con distribución Normal de valor esperado μ y varianza σ 2 , pueden fijarse tres sistemas de hipótesis en el juzgamiento de esta hipótesis particular. • Sistema A H0 : μ = μ0 f rente a H1 : μ < μ0 • Sistema B H0 : μ = μ0 f rente a H1 : μ > μ0 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 173 • Sistema C H0 : μ = μ0 f rente a H1 : μ = μ0 1. Primer Supuesto: σ 2 es una cantidad conocida. Considerando especı́ficamente el Sistema B, fX (x, θ) puede expresarse como: 1 (x−θ) 2 1 e− 2 [ σ ] 2πσ 1 θ 2 1 x 2 θ 2 1 e− 2 ( σ ) e− 2 ( σ ) e( σ ) =√ 2πσ fX (x, θ) = √ de esta manera se deduce que fX (x, θ) pertenece a la familia exponencial de densidades, estableciendo las funciones, 1 θ 2 1 x 2 θ 1 e− 2 ( σ ) , b(x) = e− 2 ( σ ) , c(θ) = , d(x) = x a(θ) = √ σ 2πσ En razón a que c(θ) es monótona creciente, considerando la estadı́stica t(X1 , X2 , . . . , Xn ) = n Xi i=1 en consecuencia el test τB : “Rechazar H0 si n xi > k ∗ ” i=1 es UMP para H0 en el Sistema B. Pμ n Xi > k ∗ = α i=1 k∗ Pμ X n > =α n X n − μ0 k ∗ /n − μ0 √ √ Pμ > =α σ/ n σ/ n Pμ [Zc > d] = α donde Zc = X n − μ0 √ , entonces σ/ n τB : “Rechazar H0 si zc > z1−α ” 174 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS α | Rechazar H0 z 0 Figura 4.5: Región crı́tica del test τA De manera similar un test para H0 en el Sistema A es τA : “Rechazar H0 si zc < zα ” que gráficamente la figura 4.5 lo representa. Bajo la misma suposición de que σ 2 es conocido, finalmente el juzgamiento de H0 : μ = μ0 dentro del Sistema C, H0 : μ = μ0 f rente a H1 : μ = μ0 está apoyado por un test que se deduce de la forma siguiente. ⎫ ⎧ n ⎪ 2⎪ ⎪ ⎪ n − (x − θ) i ⎬ ⎨ 1 i=1 L(θ; x1 , x2 , . . . , xn ) = √ exp ⎪ ⎪ 2σ 2 2πσ ⎪ ⎪ ⎭ ⎩ sup L λn = θ=μ0 sup L = θ∈Θ √1 2πσ √1 2πσ ⎧ ⎨− n exp n exp ⎩ ⎧ ⎨− ⎩ ⎫ n (xi −μ0 )2 ⎬ i=1 n 2σ2 ⎭ ⎫ (xi −xn )2 ⎬ i=1 2σ2 ⎭ ⎫ ⎧ n n ⎪ ⎪ ⎪ (xi − xn )2 − (xi − μ0 )2 ⎪ ⎬ ⎨ λn = exp i=1 ⎪ ⎪ ⎩ i=1 2σ 2 ⎪ ⎪ ⎭ 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 175 Como n (xi − μ0 )2 = n i=1 {(xi − xn ) + (xn − μ0 )}2 i=1 = n (xi − xn ) + 2 2 i=1 = n n (xi − xn ) i=1 n (xn − μ0 ) + n(xn − μ0 )2 i=1 (xi − xn )2 + n(xn − μ0 )2 i=1 entonces ⎫ ⎧ n n ⎪ 2 2 2⎪ ⎪ ⎪ (x − x ) − (x − x ) − n(x − μ ) i n i n n 0 ⎬ ⎨ λn = exp i=1 i=1 ⎪ ⎪ ⎩ n(xn − μ0 )2 = exp − 2σ 2 ⎪ ⎪ ⎭ 2σ 2 por lo tanto el test construido con base en la razón generalizada de verosimilitudes está determinado como n(xn − μ0 )2 τC : “Rechazar H0 si exp − < k” 2σ 2 pero n(xn − μ0 )2 exp − <k 2σ 2 implica que 8 n(x − μ )2 n 0 > k0 2σ 2 y consecuentemente que |zc | > k ∗ . En definitiva se establece el test como τc : “Rechazar H0 si |zc | > z1− α2 ” que gráficamente está representado por la figura 4.6. La función de potencia de este test se puede establecer fácilmente como √ √ n(θ − μ0 ) n(θ − μ0 ) πτc (θ) = Φ −z1− α2 + + Φ −z1− α2 − σ σ Gráficamente esta función de potencia se presenta en la figura 4.7 2. Segundo Supuesto: σ 2 es una cantidad desconocida. • Con referencia al Sistema C, estrictamente hablando el sistema deberı́a plantearse ası́ H0 : μ = μ0 , σ 2 > 0 f rente a H1 : μ = μ0 , σ 2 > 0 176 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS 1−α α 2 α 2 | Rechazar H0 Rechazar H0 z 0 Figura 4.6: Región crı́tica del test τc de esta manera Θ0 = {(μ, σ 2 )|μ = μ0 , σ 2 > 0}, Θ = {(μ, σ 2 )|μ ∈ R, σ 2 > 0} y por lo tanto ⎛ n ⎞⎞ 1 ⎜ i=1(xi −xn )2 ⎟ − ⎝ ⎠⎟ ⎜ s2 n 2 1 ⎟ ⎜ sup L = ⎜ √ e ⎟ 2 ⎠ ⎝ 2π sn θ∈Θ ⎛ =√ ⎛ ⎜ =⎜ ⎝ −1 1 e 2 2 2π sn ns2 n s2 n n 2π n (xi − xn )2 ⎞ n2 ⎟ −n ⎟ e 2 ⎠ i=1 Por otra parte ⎛ ⎜ sup L = ⎜ ⎝ θ∈Θ0 ⎞ n2 n 2π n (xi − μ0 )2 ⎟ −n ⎟ e 2 ⎠ i=1 porque bajo Θ0 , la función de verosimilitud L tiene máximo cuando 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 177 πτc (θ) 1 α | μ0 θ Figura 4.7: Forma de la función de potencia del test τc para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto de varianza conocida μ = μ0 y σ 2 = 1 n n (xi − μ0 )2 . En consecuencia i=1 ⎛ n ⎜ i=1 λn = ⎜ n ⎝ ⎛ (xi − μ0 )2 ⎞ n2 ⎟ ⎟ ⎠ i=1 ⎜ =⎜ n ⎝ ⎛ (xi − xn ) 2 n (xi − xn )2 i=1 (xi − xn )2 + n i=1 ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝1 + n (xi − μ0 )2 ⎞ n2 ⎟ ⎟ ⎠ i=1 ⎞ n2 ⎟ ⎟ ⎟ 1 ⎟ n ⎟ n (xn −μ0 )2 ⎟ i=1 ⎠ n (xi −xn )2 i=1 ası́ entonces, el test de razón generalizada de verosimilitudes para la hipótesis en consideración en el sistema C, τC : “Rechazar H0 si λn < k” puede formularse en términos de n(xn − μ0 )2 n (xi −xn )2 i=1 n−1 178 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS puesto que cuando esta expresión crece el valor de λn decrece. Ahora bien, como + + , n(X n −μ0 )2 √ , , 2 n X n − μ0 , n(X n − μ0 ) , σ =, n = ∼ t(n − 1) Tc = , n 2 2 Sn - (Xi −X n ) (Xi −X n ) i=1 i=1 n−1 σ(n−1) el test para el juzgamiento de H0 en el Sistema C queda establecido como τC : “Rechazar H0 si |tc | > d” o más precisamente, cuando se especifica un valor de α, como τC : “Rechazar H0 si |tc | > t1− α2 (n − 1)” • En el Sistema A se tiene que H0 : μ = μ0 f rente a H1 : μ < μ0 de manera que el test para juzgar H0 corresponde a τA : “Rechazar H0 si tc < tα (n − 1)” • Para el Sistema B, H0 : μ = μ0 f rente a H1 : μ > μ0 el test para juzgar H0 en este sistema está dado por τB : “Rechazar H0 si tc > t1−α (n − 1)” La decisión que se tome mediante el test τA , puede asumirse igualmente mediante su correspondiente valor p, valor que puede calcularse como: p = Φ(zc ) mientras que el valor p asociado al test τB , se obtiene mediante la probabilidad, p = 1 − Φ(zc ) y finalmente para el caso del valor p ligado al test τc , se calcula mediante p = 2(1 − Φ(|zc |)) 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 179 | z z1−α |zc | z1− α2 Figura 4.8: Justificación sobre el valor p asociado al test τc La razón de este cálculo lo sugiere la figura 4.8; ante una situación en la cual el valor particular zc fuese tal que z1−α < |zc | < z1− α2 , y admitiendo p = 1−Φ(zc ), no se dispondrı́a de una forma alternativa de decisión equivalente al test τc , puesto que claramente no habrı́a evidencia estadı́stica para rechazar la hipótesis nula por ser |zc | < z1− α2 , pero por otra parte como p < α la decisión serı́a contraria. De esta manera la decisión que se tome mediante el test τc es idéntica a la que se tome mediante la utilización del valor p = 2(1 − Φ(|zc |)). Las funciones de potencia de los tests τA y τB se ilustran en las figuras 4.9 y 4.10. πτA (θ) 1 α | μ0 θ Figura 4.9: Forma de la función de potencia del test τA para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto de varianza conocida 180 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS πτB (θ) 1 α | μ0 θ Figura 4.10: Forma de la función de potencia del test τB para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto de varianza conocida 4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población con distribución Normal de valor esperado μ1 y varianza σ12 . De la misma forma, sea Y1 , Y2 , . . . , Ym una muestra aleatoria de tamaño m, de una población Normal de valor esperado μ2 y varianza σ22 . Siendo independientes las dos muestras, la hipótesis nula puede juzgarse frente a tres hipótesis alternas, en los siguientes términos • Sistema A H0 : μ1 − μ2 = δ0 f rente a Ha : μ1 − μ2 < δ0 • Sistema B H0 : μ1 − μ2 = δ0 f rente a Ha : μ1 − μ2 > δ0 • Sistema C H0 : μ1 − μ2 = δ0 f rente a Ha : μ1 − μ2 = δ0 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 181 Juzgamiento de H0 : μ = μ0 √ tc = Sistema A H0 : μ = μ0 frente a H1 : μ < μ0 Sistema B H0 : μ = μ0 frente a H1 : μ > μ0 n(xn − μ0 ) No sn ¿El valor de σ2 se Sistema C H0 : μ = μ0 frente a H1 : μ = μ0 Si asume conocido? zc = √ n(xn − μ0 ) σ Tests Tests τA : “Rechazar H0 si tc < tα (n − 1)” τA : “Rechazar H0 si zc < zα ” τB : “Rechazar H0 si tc > t1−α (n − 1)” τB : “Rechazar H0 si zc > z1−α ” τC : “Rechazar H0 si |tc | > t1− α2 (n − 1)” τC : “Rechazar H0 si |zc | > z1− α2 ” Figura 4.11: Compendio 1 El propósito de expresar la diferencia de promedios poblacionales en términos de δ0 tiene el fin de presentar de una manera más general el caso particular muy corriente en el cual la hipótesis nula establece que δ0 = 0. 1. Primer Supuesto: σ12 , σ22 son constantes conocidas. Considerando la variable aleatoria Zc = (X n − Y m ) − δ0 . σ12 σ22 n + m es muy sencillo confirmar que se trata de una variable aleatoria con distribución Normal estándar, teniendo en cuenta que las muestras aleatorias son independientes; esta expresión por su condición es una variable pivote para la construcción de un intervalo confidencial para μ1 − μ2 . Se hace esta mención en razón a que existe cierta correspondencia en- 182 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS trela estimación por intervalo y el juzgamiento de hipótesis. En efecto, (1) (2) es un intervalo confidencial del 100(1 − α)% de confianza si Tn , Tn para el parámetro θ, un test razonable de nivel α para el juzgamiento de la hipótesis nula H0 : θ = θ0 , frente a H1 : θ = θ0 descrito como (1) (2) / tn , tn ”, es un test que da origen a uno τ : “Rechazar H0 si θ0 ∈ equivalente formulado en la forma caracterı́stica. De los intevalos confidenciales unilaterales también se pueden deducir tests. Utilizando este recurso, se pueden derivar los test correspondientes ası́ τA : “Rechazar H0 si zc < zα ” τB : “Rechazar H0 si zc > z1−α ” τC : “Rechazar H0 si |zc | > z1− α2 ” 2. Segundo Supuesto: σ12 = σ22 = σ 2 son constantes desconocidas (Homoscedasticidad). La función de verosimilitud de X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym , depende particularmente de μ1 , μ2 y σ 2 , dado que el supuesto de homoscedasticidad declara que las varianzas son iguales, su expresión es entonces, L = L(μ1 , μ2 , σ 2 ; x1 , x2 , . . . , xn , y1 , y2 , . . . , ym ) m n n2 m2 (yj −μ2 )2 (xi −μ1 )2 j=1 1 1 − 12 i=1 σ2 − 12 σ2 = e e 2πσ 2 2πσ 2 Al acoger esta suposición de homoscedasticidad pero desconocidos los valores de las varianzas, los estimadores de μ1 , μ2 y σ 2 son res-pec-ti-va-men-te X n, Y m, 1 2 2 (n − 1)S1,n + (m − 1)S2,m m+n ası́ entonces, ⎡ ⎢ ⎢ sup L = ⎢ ⎢ ⎣ θ∈Θ ⎤ m+n 2 2π ⎥ ⎥ ⎥ ⎥ n m ⎦ (xi − xn )2 + (yj − y m )2 n+m i=1 e− n+m 2 j=1 En Θ0 , los estimadores máximo-verosı́miles de μ = μ1 = μ2 y σ 2 cuando δ0 = 0 son ⎛ ⎞ n m nX n + mY m 1 ⎝ Xi + Yj ⎠ = μ @= m + n i=1 m+n j=1 ⎡ ⎤ n m 1 mn A2 = ⎣ (Xi − X n )2 + (X n − Y m )2 ⎦ (Yj − X m )2 + σ m + n i=1 m + n j=1 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 183 de esta forma el sup L corresponde a θ∈Θ0 ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ m+n 2 ⎥ ⎥ ⎥ ⎥ n m ⎦ mn 2 2 2 (xi − xn ) + (yj − y m ) + m+n (xn − y m ) m+n 2π i=1 e− n+m 2 j=1 con lo cual ⎡ ⎤− m+n 2 ⎢ λn+m = ⎢ n ⎣1 + ⎥ − ym) ⎥ m ⎦ (xi − xn )2 + (yj − y m )2 mn m+n (xn i=1 2 j=1 Teniendo en cuenta que • (X n − Y m ) − δ0 . ∼ N (0, 1) 1 σ n1 + m n • m (Xi − X n )2 + i=1 (Yj − Y m )2 j=1 ∼ χ2 (n + m − 2) σ2 y dada la independencia de las dos variables aleatorias mencionadas, Tc = (X n −Y m −δ0 ) √1 1 σ n +m n (Xi −X n )2 + i=1 m j=1 ∼ t(m + n − 2) (Yj −Y m )2 σ2 (n+m−2) Con este complemento, la razón generalizada de verosimilitudes se puede expresar en forma más simple como λn+m = 1 1+ n+m 2 t2c n+m−2 A partir de ella, se pueden formular los test en la forma siguiente. τC : “Rechazar H0 si |tc | > t1− α2 (n + m − 2)” τA : “Rechazar H0 si tc < tα (n + m − 2)” τB : “Rechazar H0 si tc > t1−α (n + m − 2)” 184 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Es importante hacer notar que la expresión simplificada de Tc es Tc = (X n − Y m ) − δ0 . 1 1 n + m Sp donde n Sp2 = i=1 (Xi − X n )2 + m (Yj − Y m )2 j=1 n+m−2 El supuesto de homoscedasticidad, σ12 = σ22 , puede ser sustentado mediante argumentos tomados de la explicación teórica del fenómeno o de la información detallada fruto de un seguimiento permanente del mismo, que avalen la no existencia de razones para asegurar que una población es más variable que la otra. Cuando estos argumentos no están disponibles o aún contando con ellos, el camino estadı́stico para la adopción de la homocedasticidad o para descartarla es el juzgamiento de la hipótesis nula H0 : σ12 = σ22 cuya determinación de tests para tal propósito, bajo Normalidad, será tratada en el numeral 4.4.2. Dentro de la construcción de tests bajo Normalidad, el no poder asumir el supuesto de homoscedasticidad, impide simplificar en forma mayúscula muchas etapas en la búsqueda de la distribución de una estadı́stica que soporte el correspondiente test como no ocurre cuando se le asume; para el juzgamiento de la diferencia de promedios poblacionales, la adopción de la homoscedasticidad encausa la construcción del test sobre las ideas de Gosset para obtener un test fundamentado en la distribución de Student, en la forma como se dedujo en este punto relativo al segundo supuesto. Esa imposibilidad de la adopción de la homoscedasticidad en el juzgamiento de la diferencia de promedios poblacionales, asumiendo el modelo Gaussiano, genera un problema importante en la Inferencia estadı́stica y por consiguiente en la toma de decisiones en la práctica, denominado como el Problema de Behrens-Fisher, del cual se tiene una solución exacta, basada en Análisis Estadı́stico Secuencial, solución que requiere un tipo de muestras seleccionadas en etapas, que este texto no aborda por no estar dentro del propósito del mismo. Se presenta a continuación una solución aproximada al problema, solución que aparece citada en muchos libros de Estadı́stica. 3. Tercer Supuesto: σ12 = σ22 constantes desconocidas. (Problema de BehrensFisher) Dentro de las soluciones, en la actualidad se destaca la solución de Welch. 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 185 Esta solución utiliza la siguiente estadı́stica X n − Y m − δ0 Tc = . 2 2 S1,n S2,m n + m Esta estadı́stica no tiene distribución t. Welch propone los test siguientes τA : “Rechazar H0 si tc < tα (f − 1)” τB : “Rechazar H0 si tc > t1−α (f − 1)” τC : “Rechazar H0 si |tc | > t1− α2 (f − 1)” donde f = min{m, n}. Estos test pueden mejorarse en potencia, escogiendo f entre min{m, n} y (m + n − 2). La solución de Welch en este mejoramiento de potencia escoge a f como el entero más próximo a s2 1,n f= n s2 1,n n n−1 + 2 + s22,m m 2 s2 2,m m 2 m−1 Como conclusión esta sección 4.3 y como generalización del numeral 4.3.2, asumiendo el modelo de Gauss para cada una de las k poblaciones independientes, de tal manera que la variable que representa a la población j tiene valor esperado μj y desviación estándar σ, j = 1, 2, . . . , k, y siendo Xj1 , Xj2 , . . . , Xjnj , la muestra aleatoria de tamaño nj correspondiente a la población j y bajo el supuesto de homocedasticidad, el procedimiento de juzgamiento de la hipótesis nula que forma parte del sistema H0 : μ1 = μ2 = . . . = μk f rente a H1 : no todos los promedios poblacionales son iguales se le conoce como Análisis de varianza a una vı́a, procedimiento tratado inicialmente por Fisher en la segunda década del siglo XX. La denominación de este procedimiento estadı́stico como análisis de varianza, aparentemente sin vinculación con el sentido de la hipótesis planteada, proviene de la expresión de la estadı́stica que fundamenta el test correspondiente, al tratarse de una separación de componentes de una varianza, concordante con el término análisis que significa “Distinción y separación de las partes de un todo hasta llegar a conocer sus principios o elementos ”. 3 3 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda Edición. 2001 186 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Juzgamiento de H0 : μ1 − μ2 = δ0 Sistema A H0 : μ1 − μ2 = δ0 frente a H1 : μ1 − μ2 < δ0 No Sistema B H0 : μ1 − μ2 = δ0 frente a H1 : μ1 − μ2 > δ0 Sistema C H0 : μ1 − μ2 = δ0 frente a H1 : μ1 − μ2 = δ0 Si ¿σ12 , σ22 son conocidos? n − y m ) − δ0 Si t = (x. c 1 1 n + m sp ¿σ12 = σ22 ? zc = (xn − ym ) − δ0 . σ12 σ22 n + m No (xn − y ) − δ0 tc = . 2 m 2 s1,n s2,m n + m Tests Tests Tests τA : “Rechazar H0 si tc < tα (f − 1)” τA : “Rechazar H0 si tc < tα (n + m − 2)” τA : “Rechazar H0 si zc < zα ” τB : “Rechazar H0 si tc > t1−α (f − 1)” τB : “Rechazar H0 si tc > t1−α (n + m − 2)” τB : “Rechazar H0 si zc > z1−α ” τC : “Rechazar H0 si |tc | > t1− α2 (f − 1)” τC : “Rechazar H0 si |tc | > t1− α2 (n + m − 2)” τC : “Rechazar H0 si |zc | > z1− α2 ” Figura 4.12: Compendio 2 La función de verosimilitud L = L(μ1 , μ2 , . . . , μk , σ 2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk ) de las n variables aleatorias X11 , X12 , . . . , X1n1 , . . . , Xk1 , Xk2 , . . . , Xknk , siendo σ 2 el valor común desconocido de las varianzas de cada población adoptando la k homocedasticidad y n = nj , es especı́ficamente j=1 2 1 xji − μj 1 √ exp − L= 2 σ 2πσ j=1 i=1 ⎧ ⎫ nj k ⎨ 1 ⎬ n = (2πσ 2 ) 2 exp − 2 (xji − μj )2 ⎩ 2σ ⎭ j=1 i=1 k nj 4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 187 con la utilización de esta función se puede establecer que • La estimación máximo-verosı́mil de μj es • La estimación máximo-verosı́mil de σ 2 es ⎡ ⎢ de tal manera que sup L = ⎣ k 2π nj (xji −xj )2 j=1 i=1 n 1 nj 1 n ⎤− n2 ⎥ ⎦ Θ nj xji = xj . i=1 nj k (xji − xj )2 . j=1 i=1 n . exp − 2 Acorde con la hipótesis nula, denotando 6 por μ el valor común 7 desconocido de los promedios de cada población, Θ0 = (μ, σ 2 )|μ ∈ R, σ 2 > 0 , de donde se pueden establecer los siguientes elementos • La estimación máximo-verosı́mil del valor común μ bajo la hipótesis nula nj es n1 xji = x. i=1 • La estimación máximo-verosı́mil de σ 2 bajo la hipótesis nula es k nj 1 (xji − x)2 . n j=1 i=1 ⎡ ⎢ Por lo tanto sup L = ⎣ k 2π nj (xji −x)2 j=1 i=1 ⎤− n2 ⎥ ⎦ Θ0 ⎡ ⎤− n2 nj k (xji − x) ⎥ ⎢ ⎥ ⎢ j=1 i=1 = ⎢ k nj ⎥ sup L ⎣ ⎦ 2 (x − x ) ji j Θ sup L λn = n , y en consecuencia exp − 2 2 Θ0 j=1 i=1 Algebraicamente la expresión nj k (xji −x)2 , llamada suma total de cuadrados, j=1 i=1 puede expresarse como la adición de dos cantidades, k j=1 nj (xj − x)2 + nj k (xji − xj )2 j=1 i=1 conocidas estas últimas como suma de cuadrados entre grupos (en el lenguaje del Diseño Experimental, suma de cuadrados entre tratamientos) y suma de cuadrados de errores respectivamente. Como estas cantidades son calculadas a partir de los valores observados de las muestras, la suma total de cuadrados es el numerador de una varianza muestral particular, varianza que se descompone 188 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS entonces en dos partes: una varianza entre grupos o tratamientos o intervarianza y una varianza dentro de los grupos o intravarianza. ⎡ k nj k nj (xj − x) + (xji − xj ) ⎢ j=1 i=1 ⎢ j=1 λn = ⎢ nj k ⎣ (xji − xj )2 2 2 ⎤− n2 ⎥ ⎥ ⎥ ⎦ j=1 i=1 sustituyendo k j=1 nj (xj −x)2 k−1 k nj por fc entonces λn = (xji −xj )2 − n2 k−1 fc 1+ n−k j=1 i=1 n−k visto λn de esta manera, los valores pequeños de la razón generalizada de verosimilitudes son causados por valores grandes de fc , y sólo resta entonces conocer la distribución de la variable Fc porque ya se manifiesta la forma del test equivalente al test original basado en λn . En primer lugar, la independencia de las variables aleatorias k nj X j − X j=1 2 nj k y Xji − X j 2 j=1 i=1 está garantizada por la independencia estadı́stica entre X j y nj 2 Xji − X j . i=1 En segundo lugar, bajo la hipótesis nula k nj X j − X 2 j=1 σ 2 (k − 1) n j k Xji − X j j=1 i=1 σ 2 (n y − k) ∼ χ2 (k − 1) 2 ∼ χ2 (n − k) por consiguiente, el cociente Fc tiene distribución F con (k − 1) y (n − k) grados de libertad. Para concluir, el test original τ : “Rechazar H0 si λn < c” puede reformularse como: τ : “Rechazar H0 si fc > f1−α ((k − 1), (n − k))” 4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 4.4 189 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad 4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02 Bajo las condiciones establecidas en la parte 4.3.1, página 172, los tres sistemas que pueden plantearse son • Sistema A H0 : σ 2 = σ02 f rente a H1 : σ 2 < σ02 • Sistema B H0 : σ 2 = σ02 f rente a H1 : σ 2 > σ02 • Sistema C H0 : σ 2 = σ02 f rente a H1 : σ 2 = σ02 1. Primer Supuesto: μ es una constante conocida. El juzgamiento de la hipótesis H0 bajo el Sistema B, suponiendo μ conocido, puede llevarse a cabo por medio de un test derivado de lo siguiente, con θ = σ 2 . Como n n 1 − 2θ (xi −μ)2 1 i=1 √ L(θ; x1 , x2 , . . . , xn ) = √ e 2π θ =e 1 − 2θ n (xi −μ)2 +ln i=1 √ 1√ 2π θ n 1 entonces considerando c(θ) = − 2θ y la pertenencia a la familia exponencial de densidades, como c(θ) es decreciente, por lo tanto τB : “Rechazar H0 si n (xi − μ)2 > k” i=1 Este test es un test UMP para H0 en el Sistema B, equivalente a n τB : “Rechazar H0 si χ2c1 = (xi − μ)2 i=1 σ02 > χ21−α (n)” que gráficamente está representado por la figura 4.13 190 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS α Rechazar H0 χ2 (n) Figura 4.13: Región crı́tica del test τB 2. Segundo Supuesto: μ es una constante desconocida. Similarmente, un test para H0 en el Sistema B, cuando μ es deconocido es n τB : “Rechazar H0 si χ2c2 = (xi − xn )2 i=1 σ02 > χ21−α (n − 1)” Para los Sistemas A y C los test son los siguientes τA : “Rechazar H0 si χ2c1 < χ2α (n)” τA : “Rechazar H0 si χ2c2 < χ2α (n − 1)” según el supuesto que se adopte acerca de μ. Igualmente, τC : “Rechazar H0 si χ2c1 < χ2 (n) o χ2c1 > χ2δ (n)” τC : “Rechazar H0 si χ2c2 < χ2 (n − 1) o χ2c2 > χ2δ (n − 1)” que gráficamente están representados en la figura 4.14 donde α = +(1−δ). La escogencia de los percentiles χ2 y χ2δ es la misma que la de los percentiles que minimizan la longitud del intervalo confidencial para σ 2 . La solución = α2 y δ = 1 − α2 debe evitarse para muestras pequeñas. Nota. El teorema utilizado para la construcción del test bajo el Sistema B, permite utilizar el mismo test para juzgar H0 en el sistema siguiente H0 : σ 2 ≤ σ02 f rente a H1 : σ 2 > σ02 4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 191 δ Rechazar H0 Rechazar H0 χ2 (v) Figura 4.14: Región crı́tica del test τc , con v = n o v = n − 1 según sea el caso 4.4.2 Juzgamiento de homoscedasticidad El juzgamiento de homoscedasticidad fue tratado en el ejemplo 4.2.2, página 161. Sin embargo para el caso usual referente a dos poblaciones independientes, corresponde al juzgamiento de la hipótesis nula H0 : σ12 = σ22 . Para tal efecto, pueden establecerse tres sistemas de hipótesis, a saber • Sistema A H0 : σ12 = σ22 f rente a H1 : σ12 < σ22 • Sistema B H0 : σ12 = σ22 f rente a H1 : σ12 > σ22 • Sistema C H0 : σ12 = σ22 f rente a H1 : σ12 = σ22 Los test utilizados en el juzgamiento de H0 , en cualquiera de los tres sistemas están basados en el valor de la estadı́stica fc = s21 s22 192 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Juzgamiento de H0 : σ 2 = σ02 Sistema A H0 : σ 2 = σ02 frente a H1 : σ 2 < σ02 n χ2c2 = Sistema B H0 : σ 2 = σ02 frente a H1 : σ 2 > σ02 (xi − xn )2 No i=1 σ02 ¿El valor de μ se asume conocido? Sistema C H0 : σ 2 = σ02 frente a H1 : σ 2 = σ02 n Si χ2c1 = (xi − μ)2 i=1 σ02 Tests Tests τA : “Rechazar H0 si χ2c2 < χ2α (n − 1)” τA : “Rechazar H0 si χ2c1 < χ2α (n)” τB : “Rechazar H0 si χ2c2 > χ2α (n − 1)” τB : “Rechazar H0 si χ2c1 > χ2α (n)” τC : “Rechazar H0 si χ2c2 < χ2 (n − 1) o si χ2c2 > χ2δ (n − 1)” τC : “Rechazar H0 si χ2c1 < χ2 (n) o si χ2c1 > χ2δ (n)” α = + (1 − δ) α = + (1 − δ) Figura 4.15: Compendio 3 donde Fc ∼ F (n − 1, m − 1) bajo las condiciones del numeral 4.3.2, página 180. Entonces, los respectivos tests pueden enunciarse como τA : “Rechazar H0 si fc < fα (n − 1, m − 1)” τB : “Rechazar H0 si fc > f1−α (n − 1, m − 1)” τC : “Rechazar H0 si fc < f (n − 1, m − 1) o fc > fδ (n − 1, m − 1)” Igualmente que en el caso anterior α = +(1−δ). La escogencia de los percentiles f (n − 1, m − 1), fδ (n − 1, m − 1) que incluye el test τC , es la misma que la de los percentiles de los intervalos confidenciales para el cociente de varianzas de dos poblaciones independientes desarrollados en el numeral 3.4.2, página 134. Si los tamaños de las muestras son relativamente grandes, se pueden usar = α2 = δ. 193 4.5. JUZGAMIENTO DE PROPORCIONES 4.5 Juzgamiento de proporciones El juzgamiento de proporciones poblacionales es un tema muy común en los textos de Estadı́stica de todos los niveles, en razón a que muchas afirmaciones de la cotidianidad, de la actividad industrial, del desarrollo del comercio, de los quehaceres de la ciencia recurren a porcentajes y por lo tanto su empleo es muy amplio. El lenguaje común y el especializado han incorporado tasas y porcentajes con el sentido especı́fico de su campo, para proporcionar un elemento descriptivo en la obtención de información o conocimiento sobre el tema en cuestión y su usanza se ha ampliado porque aritméticamente es simple y su comprensión muy generalizada. Presentar algunas ideas en el juzgamiento de la cuantı́a de una proporción poblacional, o porcentaje como ordinalmente se le designa, cuantı́a que generalmente no es posible determinar para una población particular, constituye el propósito de esta sección. Se evitan algunos detalles considerados en secciones anteriores, pues en este punto ya debe ser familiar la estructura y rutinas propias del juzgamiento de hipótesis, pero a partir de las consideraciones que se realizan es posible construir con los detalles necesarios los distintos test requeridos. Para comenzar, el modelo asumido es el modelo de Bernoulli de parámetro π. La familia de densidades de Bernoulli posee caracterı́sticas especiales, en el sentido que los teoremas 4.2.3 y 4.2.4, páginas 167 y 168 respectivamente, legin Xi como la estadı́stica que fundamenta el juzgamiento timan a la estadı́stica i=1 de la hipótesis nula H0 : π = π0 en el sistema, H0 : π = π0 f rente a H1 : π > π0 por medio de un test establecido como, τ : “Rechazar H0 si Bajo la hipótesis nula n n xi > k”. i=1 Xi ∼ Bin(n, π0 ), elegido un nivel del test α, y con i=1 el ánimo de determinar plenamente el valor de k, puede suceder que Pπ0 n i=1 Xi ≥ k + 1 < α < Pπ0 n Xi ≥ k i=1 es decir que no se puede determinar un valor de k para el cual el nivel del test sea exactamente α. En esta situación hay dos soluciones: modificar el valor de α por un valor menor α , o establecer un test aleatorizado. n Xi ≥ k + 1 . La seLa primera solución es adoptar el nivel α = Pπ0 i=1 194 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS gunda solución es establecer una función ⎧ ⎪ ⎪1 si ⎪ ⎪ ⎪ ⎨ ψ(xn ) = δ si ⎪ ⎪ ⎪ ⎪ ⎪ ⎩0 si crı́tica, n i=1 n i=1 n xi ≥ k + 1 xi = k xi < k i=1 la probabilidad de éxito δ de la variable auxiliar en el test aleatorizado corresponde a: n n α − Pπ0 Xi ≥ k + 1 Xi ≥ k + 1 α − Pπ0 i=1 = n n i=1 δ= n Pπ0 Xi ≥ k − Pπ0 Xi ≥ k + 1 Pπ0 Xi = k i=1 i=1 i=1 de tal manera que el tamaño del test será: n X ≥ k + 1 α − P n n π0 i i=1 0.Pπ0 Xi < k + Xi = k P π 0 n i=1 i=1 Pπ0 Xi = k i=1 + 1.Pπ0 = n Xi ≥ k + 1 i=1 α − Pπ0 n Xi ≥ k + 1 + Pπ0 i=1 n Xi ≥ k + 1 = α i=1 Consideraciones similares pueden llevarse a cabo para el juzgamiento de la hipótesis nula H0 : π = π0 en el sistema, H0 : π = π0 f rente a H1 : π < π0 a través de un test establecido como, τ : “Rechazar H0 si n xi < k”, y para el i=1 juzgamiento de la referida hipótesis nula en el sistema, H0 : π = π0 f rente a H1 : π = π0 por intermedio de un test τ : “Rechazar H0 si n i=1 xi < k1 o si n i=1 xi > k2 ”. 195 4.5. JUZGAMIENTO DE PROPORCIONES Recurriendo a otras consideraciones, estas referentes a tamaños de muestra grandes, las cuales encaminan el desarrollo de los tests más difundidos en el juzgamiento de un proporción poblacional, se presentan los rasgos generales de la deducción de los tests correspondientes. Siendo X1 , X2 , . . . , Xn , una muestra aleatoris de una población con distribun Xi , la proporción ción de Bernoulli de parámetro π, la estadı́stica Pn = n1 i=1 1 muestral, es un MLE insesgado para π, y siendo π(1−π) la correspondiente información de Fisher, 8 n d (Pn − π) − → Z ∼ N (0, 1) π(1 − π) con lo cual la hipótesis nula H0 : π = π0 puede juzgarse atendiendo a este resultado, según alguno de los siguientes sistemas • Sistema A H0 : π = π0 f rente a H1 : π < π0 • Sistema B H0 : π = π0 f rente a H1 : π > π0 • Sistema C H0 : π = π0 f rente a H1 : π = π0 Basados en la estadı́stica Pn − π0 Zc = . π0 (1−π0 ) n los tests respectivos pueden formularse como τA :“Rechazar H0 si zc < zα ” τB :“Rechazar H0 si zc > z1−α ” τC :“Rechazar H0 si |zc | < z1− α2 ” 196 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS El requisito que algunos autores subrayan en la utilización correcta de estos tests consiste en garantizar que npn > 5 y que n(1 − pn ) > 5. Por último cuando se desea juzgar la diferencia entre dos proporciones poblacionales correspondientes a dos poblaciones, se considera una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución de Bernoulli de parámetro π1 y una muestra Y1 , Y2 , . . . , Ym , de una población con distribución de Bernoulli de parámetro π2 , siendo estas poblaciones estadı́sticamente independientes. Particularmente si los tamaños de las muestras son relativamente grandes, los tests para el juzgamiento de la hipótesis nula H0 : π1 − π2 = δ0 , se basan en la estadı́stica (1) (2) Pn − Pm − δ0 ZC = 8 (1) Pn (1) 1−Pn n (1) siendo Pn = 1 n n (2) Xi y Pm = i=1 1 m m (2) + Pm (2) 1−Pm m Yj . j=1 Si algún sistema enuncia la hipótesis nula como H0 = π1 − π2 = 0, la estadı́stica apropiada que fundamenta el respectivo test es (1) (2) Pn − Pm ZC = . P (1 − P ) n1 + (1) 1 m (2) nPn + mPm , entendida esta estadı́stica como un estimador del n+m valor común π = π1 = π2 . siendo P = 4.6 Ejemplos numéricos de aplicación Ejemplo 4.6.1. El ı́ndice de Fishman es un indicador de la madurez esquelética de adolescentes y preadolescentes. Dentro del estudio epidemiológico de salud y maloclusión dental realizado por la Facultad de Odontologı́a de la Universidad Nacional de Colombia y la Caja de compensación familiar COLSUBSIDIO, entre 1994 y 1996 y basado en una muestra de 4724 pacientes de su antigua clı́nica infantil, se comparó la edad cronológica de niños y niñas con igual maduración esquelética. Particularmente para un análisis puntual, se consideró una submuestra de 64 niñas con ı́ndice igual a siete que registró un promedio de edad de 12.6 años con una desviación estándar de 1.21 años, y paralelamente una submuestra de 51 niños, con ı́ndice igual a siete presentó un promedio de edad de 14.4 años con una desviación estándar de un año. Bajo el modelo Gaussiano, que mostró ser apto para representar la edad cronológica en este nivel de maduración, ¿es razonable afirmar que el promedio de edad en la cual los niños y las niñas alcanzan un ı́ndice de maduración esquelética de siete, difiere según el género?. En primer lugar, ¿es pertinente adoptar la homoscedasticidad?. Dado que 4.6. EJEMPLOS NUMÉRICOS DE APLICACIÓN 197 s2 s1 = 1.21, s2 = 1 y fc = s12 = 1.4641, el valor p dentro del juzgamiento de 2 la homoscedasticidad es 0.0811587, teniendo en cuenta que Fc ∼ F (63, 50), valor que adoptando α = 0.05, permite descartar la homoscedasticidad como supuesto de juzgamiento de H0 : μ1 = μ2 (el promedio de edad en la cual los niños y las niñas alcanzan un ı́ndice de maduración de siete es el mismo) dentro del sistema H0 : μ1 = μ2 f rente a H1 : μ1 = μ2 De esta manera se acude a la solución de Welch para poder contar con los argumentos necesarios para sustentar la afirmación. Dado que tc = . xn − y m s21,n n + s22,m m 12.6 − 14.4 =. = −8.6928 1.4641 1 + 64 51 su valor absoluto supera ampliamente al percentil 0.975 de una distribución t con 112 grados de libertad, 1.98137059, porque f= s21,n n s2 1,n n n−1 + 2 s22,m m 2 s2 2,m + m 1.4641 2 = 64 2 ( 1.4641 64 ) 63 + + 1 2 51 2 ( 511 ) = 112.83397 50 m−1 En consecuencia, hay la suficiente evidencia estadı́stica para rechazar la hipótesis H0 : μ1 = μ2 , es decir que la información contenida en la muestra respalda cuantitativamente la afimación motivada por este análisis puntual. Ejemplo 4.6.2. El estrés afecta de manera importantela producción de leche en el ganado vacuno. Las causas que lo producen son de distinta naturaleza, pero una de ellas parece ser la temperatura del ambiente, pues las reses tienden a reducir la ingestión de alimento cuando la temperatura aumenta y por consiguiente se ve reducida la producción láctea. Para evaluar esta circunstancia, se construyeron establos con cubierta de material aislante del calor para ubicar durante un mes 47 vacas Holstein de las mismas caracterı́sticas que 38 vacas mantenidas en los potreros, durante el mismo perı́odo, cuya protección solar fueron los árboles y arbustos presentes en el lugar. Del acopio de información de la producción de leche de cada una de las vacas, se tiene lo siguiente: El promedio de producción mensual de las 47 vacas aisladas del calor fue de 597 lt con una desviación estándar de 36 lt, mientras que el promedio de producción de leche del otro grupo de vacas fue de 360 lt con una desviación estándar de 45 lt. ¿Independientemente de la producción lechera, modelada apropiadamente de forma Normal según el test de Lilliefors, se puede afirmar que de todas maneras la variabilidad de la producción es prácticamente igual en las dos condiciones de temperatura?. 198 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Además de preguntarse si ante las condiciones de temperatura del ambiente se modifica la producción lechera, lo cual puede analizarse de manera similar al ejemplo anterior, el investigador centra su atención sobre la variabilidad de la producción. La hipótesis de que el efecto de la temperatura no altera la variabilidad de la producción, H0 : σ12 = σ22 , al manifestarse el sentido de aumento o disminución de la misma, se juzga en el sistema H0 : σ12 = σ22 f rente a H1 : σ12 = σ22 s2 2 Entonces fc = s12 = (36) (45)2 = 0.64. La solución corriente en la determinación de 2 los percentiles permite establecer para este caso que f0.025 (46, 37) = 0.54323124 y que f0.975 (46, 37) = 1.8880067, con lo cual f0.025 (46, 37) < fc < f0.975 (46, 37) y de allı́ concluir que no hay la suficiente evidencia estadı́stica para rechazar la homoscedasticidad, con lo cual se puede asegurar que bajo las dos condiciones de temperatura en las cuales permanecen las reses, la variabilidad no se modifica de una manera notable. 4.7 Tamaño de la muestra El tamaño de la muestra tiene consecuencias ostensibles en la toma de decisiones, ası́ como las tiene en la calidad de las estimaciones. Estimar un parámetro es una actividad que persigue fines distintos a los propios del juzgamiento de una afirmación acerca de él, y por lo tanto la disposición de lo necesario para el logro de los fines, estrictamente no es la misma. Son dos procesos entroncados pero distintos en sus efectos o trascendencias. El tamaño de la muestra que se utiliza con la finalidad de estimar parámetros no necesariamente es el tamaño apto para el juzgamiento de hipótesis, o contrariamente, un tamaño elegido para juzgar una hipótesis no propiamente es el tamaño adecuado para estimar el parámetro correspondiente. El tema del tamaño de la muestra es un tema que induce la reflexión en los teóricos y la indagación de su magnitud en los usuarios de la Estadı́stica; corresponde a un tema de gran amplitud que contiene muchas singularidades y por supuesto no puede ser abordado por un texto que tiene otra mira. Reiterando lo expresado en el Capı́tulo 3, sólo se presentan unas minúsculas consideraciones, sin mayor pretensión, sobre dos tamaños de muestra simple bajo la orientación del modelo Gaussiano. Como el tamaño de la muestra tiene efectos directos sobre los errores del tipo I y del tipo II, la función de potencia asiste su determinación. Usualmente se suele asumir un valor de α deseado y a partir de él ajustar un tamaño muestral para obtener un pretendido valor de β. 4.7. TAMAÑO DE LA MUESTRA 199 Particularmente el juzgamiento de la hipótesis nula H0 : μ = μ0 en el Sistema A, asumiendo Normalidad y varianza conocida, requiere un tamaño de muestra especı́fico. Bajo las consideraciones anteriores, el test correspondiente de tamaño α, como se dedujo en la subsección 4.3.1, es √ n(xn − μ0 ) < zα ” τ : “Rechazar H0 si σ test que puede enunciarse igualmente como σzα τ : “Rechazar H0 si xn < μ0 + √ ” n Si μ fuese igual a μ∗ (μ∗ = μ0 ), la probabilidad del error del tipo II serı́a por consiguiente, σzα β = Pμ∗ X n ≥ μ0 + √ n √ √ ∗ n Xn − μ n(μ0 − μ∗ ) ≥ + zα = Pμ∗ σ σ por lo tanto √ n(μ0 − μ∗ ) + zα = z1−β σ y como zα = −z1−α , entonces √ n(μ0 − μ∗ ) − z1−α = z1−β σ de donde finalmente, σ (z1−α + z1−β ) n= μ0 − μ∗ 2 tamaño idéntico al requerido para el juzgamiento de la hipótesis nula H0 : μ = μ0 en el Sistema B. La determinación de μ∗ no es del todo arbitraria, como puede ser la de α o la de β. Concretamente la pretensión del menor riesgo en la decisión se materializa en la adopción de probabilidades pequeñas para los errores del tipo I y II; pero la elección de μ∗ que acompaña las reflexiones alrededor del error del tipo II, que correponda al valor de β deseado, debe responder a razones de ı́ndole de sensibilidad del test. Fijar el valor de μ∗ cercano a μ0 , permaneciendo constantes los valores de la desviación estándar y los percentiles señalados, tiene un efecto extraordinario en el tamaño de la muestra, pues lo magnifica sobremanera. En este sentido, la respuesta a la pregunta: ¿Qué tan sensible debe ser el test?, es la única vı́a que proporciona los elementos y argumentos para la escogencia de μ∗ . 200 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Otra situación particular la constituye el establecimiento del tamaño de muestra adecuado para el juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 , en el Sistema B. Al igual que el caso anterior se asume el modelo Gaussiano y adicionalmente el conocimiento de las varianzas poblacionales σ12 y σ22 . El test τB desarrollado en el numeral 4.3.2, considerando m = n puede formularse de otra manera como 8 σ12 + σ22 z1−α ” τB : “Rechazar H0 si (xn − yn ) > δ0 + n Si μ1 − μ2 fuese igual a δ ∗ , la probabillidad del error del tipo II serı́a en consecuencia, 8 σ12 + σ22 z1−α β = Pδ∗ X n − Y n ≤ δ0 + n ⎡ ⎤ ∗ X n − Y n − δ∗ − δ δ 0 . = Pδ∗ ⎣ ≤. + z1−α ⎦ σ12 +σ22 n σ12 +σ22 n con lo cual, se puede afirmar que δ0 − δ ∗ . + z1−α = zβ , y debido a que zβ = −z1−β entonces 2 2 σ1 +σ2 n δ0 − δ ∗ . σ12 +σ22 n + z1−α = −z1−β , luego δ ∗ − δ0 . = z1−α + z1−β , con lo cual se deduce que 2 2 σ1 +σ2 n m=n= (σ12 + σ22 )(z1−α + z1−β )2 (δ ∗ − δ0 )2 Cada una de las dos muestras debe entonces contar con n unidades para cumplir cabalmente con las exigencias relacionadas con las probabilidades de los errores en la decisión. Esta expresión es igualmente válida para el cálculo del número de unidades estadı́sticas que deben seleccionarse en cada una de las dos poblaciones, para el caso del juzgamiento de la hipótesis nula H0 : μ1 −μ2 = δ0 , en el Sistema A. La sensibilidad del test, como en el caso anterior, es la determinante del valor δ∗. 4.8 Juzgamiento secuencial Como formas especiales de juzgamiento de hipótesis, dentro de la temática conocida como Análisis Secuencial que incluye también estimación de parámetros, se encuentran procedimientos basados en tests llamados tests secuenciales surgidos 4.8. JUZGAMIENTO SECUENCIAL 201 de la idea de Wald, denominada originalmente como tests secuenciales de razón de probabilidad (SPRT). Estas formas especiales de juzgamiento de hipótesis, utilizan explı́citamente tanto la probabilidad del error del tipo I como la probabilidad del error del tipo II fijando de antemano sus valores, de tal manera que el tamaño de la muestra no está predeterminado sino que ahora depende de α y β y la decisión final está sujeta a decisiones previas tomadas en pasos consecutivos dentro del proceso. En términos generales un test secuencial requiere de menor número de observaciones muestrales que un test basado en una muestra aleatoria de tamaño fijo. Como punto de partida en la construcción del concepto de juzgamiento secuencial de hipótesis, se presenta la siguiente definición inicial que detalla la idea de una clase particular de tests secuenciales, reconocida como tests secuenciales de razón de verosimilitudes. Definición 4.8.1. Siendo X1 , X2 , . . . , Xj una muestra aleatoria de tamaño j de una población con función de densidad fX (x, θ), fijando los valores κ0 y κ1 tales que κ0 < κ1 , estableciendo el sistema de hipótesis H0 : fX (x, θ) = fX (x, θ0 ) f rente a H1 : fX (x, θ) = fX (x, θ1 ) y denotando la razón de verosimilitudes λj , para j = 1, 2, . . . , como j ) L(θ0 ; x1 , x2 , . . . , xj ) = i=1 λj = j L(θ1 ; x1 , x2 , . . . , xj ) ) fX (x, θ0 ) fX (x, θ1 ) i=1 al test descrito por τ :“Rechazar H0 en el paso j si λj ≤ κ0 ; no rechazar H0 si λj ≥ κ1 ; incluir la observación xj+1 y calcular la nueva razón de verosimilitudes λj+1 para continuar en el paso j + 1 si κ0 < λj < κ1 ” se le denomina test secuencial de razón de verosimilitudes. La región crı́tica Cτ de un test secuencial τ está conformada por la unión de las regiones Cτ,n a saber: Cτ = ∞ B n=1 Cτ,n 6 7 donde la región Cτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≤ κ0 , j = 1, 2, . . . , n − 1 describe el subconjunto del espacio de las observaciones, cuyos elementos facultan al test secuencial para rechazar la hipótesis nula en el sistema de hipótesis establecido. 202 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS La región de aceptación del test secuencial τ , denotada por Aτ , de manera similar a su región crı́tica es Aτ = ∞ B Aτ,n n=1 6 7 siendo Aτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≥ κ1 , j = 1, 2, . . . , n − 1 . Como se comentó al iniciar la sección 4.8, el juzgamiento secuencial establece previamente los valores de α y β manejando ası́ simultáneamente los errores del tipo I y del tipo II y la delimitación del tamaño de la muestra sujeta a esas determinaciones previas. En consecuencia, ∞ n fX (xi , θ0 )dx1 dx2 · · · dxn α= β= n=1 Cτ,n i=1 ∞ n n=1 fX (xi , θ1 )dx1 dx2 · · · dxn Aτ,n i=1 Como α y β han sido establecidos de antemano, por lo tanto los conjuntos Aτ,n y Cτ,n no están totalmente especificados y requieren para su determinación de los valores de las constantes κ0 y κ1 , valores que definen plenamente el test secuencial. Entonces el paso siguiente consiste en la concreción de dichos valores, para los cuales el teorema siguiente facilita una aproximación. Teorema 4.8.1. Definidos los tamaños de los errores α y β, los valores κ0 y κ1 , que definen un test secuencial τ , pueden aproximarse mediante α 1−α y κ1 ≈ κ0 ≈ 1−β β Teorema 4.8.2. Definidos los tamaños de los errores α y β, y aproximados los α valores κ0 y κ1 , por κ∗0 = 1−β y κ∗1 = 1−α respectivamente, los tamaños α∗ y β ∗ ∗ ∗ β correspondientes a los valores por κ0 y κ1 , son tales que α∗ + β ∗ < α + β Ejemplo 4.8.1. Sea X1 , X2 , . . . , Xn una muestra aletoria de tamaño n, n un valor no prefijado, de una población con distribución de Bernoulli de parámetro θ. Un test secuencial τ para el juzgamiento de la hipótesis H0 : θ = θ0 en el sistema de hipótesis simples H0 : θ = θ 0 f rente a H1 : θ = θ 1 habiendo definido previamente α y β, puede formularse en los siguientes términos. Definida la razón de verosimilitudes j ) j j x θ0xi (1 − θ0 )1−xi θ0 (1 − θ1 ) i=1 i 1 − θ0 i=1 λj = j = θ1 (1 − θ0 ) 1 − θ1 ) xi θ1 (1 − θ1 )1−xi i=1 4.8. JUZGAMIENTO SECUENCIAL 203 el test secuencial τ rechaza H0 : θ = θ0 si λj ≤ κ0 . Al utilizar la aproximación α derivada anteriormente, el test rechaza H0 si λj ≤ 1−β , es decir si θ0 (1 − θ1 ) θ1 (1 − θ0 ) j i=1 xi j 1 − θ1 α ≤ 1 − β 1 − θ0 1 asumiendo que θ0 < θ1 , entonces 1−θ 1−θ0 < 1 y rechaza la hipótesis nula H0 : θ = θ0 , si ln θ0 (1−θ1 ) θ1 (1−θ0 ) < 1, luego el test secuencial j θ1 (1 − θ0 ) 1−β 1 − θ0 xi ≥ ln + j ln θ0 (1 − θ1 ) i=1 α 1 − θ1 Denotando por ln 1−β α a1 = θ1 (1−θ0 ) ln θ0 (1−θ1 ) y por 0 ln 1−θ 1−θ1 b= θ1 (1−θ0 ) ln θ0 (1−θ1 ) entonces el test rechaza la hipótesis nula si j xi ≥ a1 + bj i=1 De otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 ; igualmente que al utilizar la aproximación derivada anteriormente, el test no rechaza H0 si λj ≥ 1−α β , es decir si θ0 (1 − θ1 ) θ1 (1 − θ0 ) j i=1 xi j 1 − α 1 − θ1 ≥ β 1 − θ0 Denotando por − ln 1−α β a0 = 0) ln θθ10 (1−θ (1−θ1 ) entonces el test no rechaza la hipótesis nula si j i=1 xi ≤ a0 + bj 204 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS En sı́ntesis, el test secuencial se puede formular de manera simplificada como τ :“En el paso j rechazar H0 si j xi ≥ a1 + bj; no rechazar H0 i=1 en el paso j si j xi ≤ a0 + bj ; incluir la observación xj+1 para i=1 calcular el nuevo valor j+1 xi y continuar en el paso j + 1 si i=1 a0 + bj < j xi < a1 + bj” i=1 De manera gráfica puede entenderse el test como lo muestra la figura 4.16. j xi i=1 Rechazar H0 • • • 1 2 • • • Continuar • 3 • 4 • 5 • • • • • • • • • • No rechazar H0 6 7 8 9 10 j Figura 4.16: Representación del test secuencial del ejemplo 4.8.1 Ejemplo 4.8.2. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de tamaño n, n un valor no prefijado, de una población con distribución Gaussiana de valor esperado θ y varianza σ 2 conocida. Un test secuencial τ para el juzgamiento de la hipótesis H0 : θ = μ0 en el sistema de hipótesis simples H0 : θ = μ0 f rente a H1 : θ = μ0 + cσ 205 4.8. JUZGAMIENTO SECUENCIAL siendo c una constante conocida y definidos previamente α y β, puede formularse en los siguientes términos. En primer lugar, j j 1 (xi − μ0 − cσ)2 − (xi − μ0 )2 λj = exp 2σ 2 i=1 i=1 El test secuencial τ rechaza H0 : θ = μ0 , si λj ≤ κ0 , que al utilizar la aproxiα mación obtenida anteriormente, el test rechaza H0 si λj ≤ 1−β , es decir si 1 exp 2σ 2 j (xi − μ0 − cσ) − 2 i=1 j (xi − μ0 ) ≤ 2 i=1 α 1−β o equivalentemente, rechazar la hipótesis nula si j (xi − μ0 ) i=1 σ 1 ≥ − ln c 1−α β +j c 2 Por otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 , igualmente que al utilizar la aproximación obtenida anteriormente, el test no rechaza H0 si λj ≥ 1−α β , es decir si j (xi − μ0 ) i=1 σ 1 ≤ − ln c 1−α β +j c 2 Recapitulando, el test secuencial se puede formular de manera simplificada como α 1 c ≥ − ln +j ; σ c 1 − β 2 i=1 j (xi − μ0 ) 1−α 1 c no rechazarla si ≤ − ln + j ; calcular el σ c β 2 i=1 τ :“En el paso j rechazar H0 si valor j+1 (xi − μ0 ) i=1 σ j (xi − μ0 ) i=1 σ j (xi − μ0 ) para continuar en el paso j + 1 si α 1−α 1 c 1 c ∈ − ln + j , − ln +j ” c 1−β 2 c β 2 El tamaño de la muestra que siempre ha sido un interrogante mayúsculo, en el juzgamiento secuencial tiene un sentido singular. Como la decisión de rechazar o no rechazar la hipótesis nula puede ser pronta es decir tomada con muy pocas unidades observadas, pero también tardı́a después de haber observado un número considerable de unidades, entonces el interrogante cambia de ¿cuál será el número de unidades que se debe elegir?, a ¿cuántas unidades en 206 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS promedio se deben elegir?, puesto que el tamaño de la muestra final como no está predeterminado ya no es un número fijo sino variable porque depende de λj y precisamente para estos precedimientos de tipo secuencial se asume como una variable aleatoria, denotada como N . En términos de la definción 4.8.1 se puede demostrar que tanto Eθ0 [N ] como Eθ1 [N ] son finitos. A través de la llamada ecuación de Wald es posible establecer aproximaciones a estos valores esperados del tamaño de muestra. Teorema 4.8.3 (Ecuación de Wald). Si la sucesión Y1 , Y2 , . . . , Yn , . . . , es una sucesión de variables aleatorias independientes e idénticamente distribuidas, tales que E[|Yi |] y E[Yi ] = η son finitos, y si N es una variable aleatoria cuyo recorrido es el conjunto de los naturales y cuyos valores n, dependen de las variables Y1 , Y2 , . . . , Yn , entonces E N Yi = ηE[N ] i=1 Efectuando la sustitución yi = ln fX (xi ,θ0 ) fX (xi ,θ1 ) , i = 1, 2, 3, . . . , entonces la razón de verosimilitudes λj se puede expresar como λj = j yi . De esta manera i=1 el test secuencial se puede enunciar como τ :“Rechazar H0 : θ = θ0 , si j yi ≤ ln κ0 , no rechazar H0 : θ = θ0 , i=1 si j yi ≥ ln κ1 , . . . ; incluir la observación yj+1 para calcular la i=1 nueva razón de verosimilitudes j+1 yi , para continuar en el paso i=1 j + 1 si ln κ0 < j yi < ln κ1 ” i=1 Como el tamaño de muestra no está prefijado, y sus valores considerados como observaciones de la variable aleatoria N , cuando el test secuencial conduce a N N Yi ≤ ln κ0 = 1 y Yi tiende a tomar varechazar la hipótesis nula, P i=1 i=1 el test conduce a no rechazar la hipótesis nula lores Ncercanos a ln κ0 y cuando N P Yi ≥ ln κ1 = 1 y Yi tiende a tomar valores cercanos a ln κ1 . Bajo i=1 i=1 N N Yi ≈ ln κ0 e igualmente Eθ1 Yi ≈ ln κ1 , ası́ estas consideraciones, Eθ0 i=1 i=1 N entonces E Yi ≈ r ln κ0 + (1 − r) ln κ1 siendo r la probabilidad de rechazar i=1 la hipótesis nula. 207 4.8. JUZGAMIENTO SECUENCIAL Usando la ecuación de Wald el tamaño de muestra esperado N Yi E i=1 E[N ] = η de tal manera que su valor puede aproximarse como E[N ] ≈ r ln κ0 + (1 − r) ln κ1 η luego α ln α ln κ0 + (1 − α) ln κ1 1. Eθ0 [N ] ≈ ≈ Eθ0 [Yi ] 2. Eθ1 [N ] ≈ (1 − β) ln κ0 + β ln κ1 ≈ Eθ1 [Yi ] α 1−β + (1 − α) ln 1−α β Eθ0 [Yi ] α (1 − β) ln 1−β + β ln 1−α β Eθ1 [Yi ] Ejemplo 4.8.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Gaussiana de valor esperado θ y varianza conocida σ 2 . Determinar el tamaño de la muestra requerido para el juzgamiento de la hipótesis nula H0 , en el sistema de hipótesis: H0 : θ = 75 f rente a H1 : θ = 80 bajo las siguientes condiciones: α = 0.01, β = 0.05, σ 2 = 25. Igualmente determinar los tamaños de muestra esperados si el test que se va utilizar es un test secuencial. El test τ : “Rechazar H0 si xn > c” es un test equivalente al test de razón simple de verosimilitudes. Entonces √ √ n(X n − 75) n(c − 75) Pθ=75 X n > c = 0.01 = Pθ=75 > 5 5 √ √ n(X n − 80) n(c − 80) < Pθ=80 X n < c = 0.05 = Pθ=80 5 5 luego Φ √ √ n(c − 75) n(c − 80) = 0.99 y Φ = 0.05 5 5 es decir √ √ n(c − 75) n(c − 80) = z0.99 = 2.326347 y = z0.05 = −1.64485348 5 5 208 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS √ de donde se deduce que n = 3.97120048, entonces n = 15.7704332, es decir n = 16. En general si el sistema de hipótesis se formula como H0 : θ = μ0 f rente a H1 : θ = μ1 siendo μ0 < μ1 , fX (xi , μ0 ) 1 yi = ln , i = 1, 2, 3, . . . , yi = − 2 (μ20 − μ21 ) − 2xi (μ0 − μ1 ) fX (xi , μ1 ) 2σ luego 1 (μ1 − μ0 )2 2σ 2 1 Eμ1 [Yi ] = − 2 (μ1 − μ0 )2 2σ Eμ0 [Yi ] = Para el caso particular μ0 = 75, μ1 = 80, σ 2 = 25, Eθ=75 [Yi ] = Eθ=80 [Yi ] = − 21 , α = 0.01, β = 0.05, entonces α 1−α Eθ0 [N ] ≈ 2 α ln + (1 − α) ln = 5.8206 ≈ 6 1−β β α 1−α Eθ1 [N ] ≈ −2 (1 − β) ln + β ln = 8.3538 ≈ 9 1−β β 1 2, En general esta propiedad de necesitar un tamaño esperado de la muestra menor al tamaño de la muestra que requieren los tests que deben determinar previamente el citado tamaño, es una propiedad que caracteriza a los tests secuenciales. Terminada esta breve presentación de la idea central de un test secuencial, se continua con la siguiente sección dedicada al juzgamiento del ajuste. 4.9 Juzgamiento del ajuste Constituyendo distintas formas de teorizar y de aplicar conceptos, posiciones que no rivalizan dentro de una concepción unitaria de la Estadı́stica, algunas áreas de la Estadı́stica prescinden de los modelos de probabilidad mientras que otras, como la concepción Bayesiana, extienden su tarea. Pero indiscutiblemente a la esencia misma de la Inferencia estadı́stica le son inherentes los modelos probabilı́sticos; por ello en reiteradas ocasiones este texto se ha referido al modelo de probabilidad elegido, como la manera propia de representar el comportamiento de una variable y más especı́ficamente para representarlo en la acepción de población. A partir de la elección de un modelo se buscan o evalúan estadı́sticas para su certificación como estimadores, se construyen buenos intervalos confidenciales para alguna función del parámetro o para sus componentes, se apoya el 4.9. JUZGAMIENTO DEL AJUSTE 209 juzgamiento de una hipótesis relativa precisamente al modelo elegido. ¿Pero, para un caso particular, cuál debe ser el modelo adecuado?. Por supuesto que hay innumerables distribuciones estadı́sticas que pueden servir de modelo para representar una población especı́fica; pero por tratarse de una tarea de adopción de un paradigma lo más fiel a la realidad en estudio, la elección debe responder tanto a razones estadı́sticas como a argumentos no estadı́sticos. La tradición de un modelo para representar una variable puede ser un argumento importante, porque permite la comparación de resultados de distintas investigaciones o estudios, pero no siempre debe ser el único argumento; indiscutiblemente en los detalles del conocimiento del fenómeno dentro del cual se modela una variable se encuentran argumentos de mayor significación para señalar a un modelo en particular. Pero al lado de razones propias de la naturaleza del fenómeno, hay instrumentos estadı́sticos que permiten valorar la aptitud del modelo de ser emulado por la información disponible en la muestra. Se trata de un variado repertorio de procedimientos bajo la denominación de bondad del ajuste, construidos sobre diversos puntos de vista. El lector encontrará una profusa bibliografı́a sobre el ajuste a modelos probabilı́sticos, principalmente al modelo Gaussiano, conocido como pruebas de Normalidad . Este texto sólamente introduce las ideas pertinentes al tema por medio de los tests, de Pearson, como uno de los procedimientos más tradicionales para el examen de la calidad del ajuste y el test de Kolmogorov-Smirnov. Sin embargo es necesario mencionar la existencia de tests como los de Lilliefors, el test de Normalidad de Anderson-Darling, pruebas especiales para el juzgamiento de la Normalidad como la de Shapiro-Wilk o la de Martinez-Iglewics, que poseen propiedades especiales y las hacen en cierta forma más demandadas, tests entre otros que el lector podrá estudiar y profundizar en un curso de Estadı́stica no paramétrica principalmente. 4.9.1 Juzgamiento del ajuste por el método de Pearson Propuesta a principio del siglo XX por Pearson, es la forma pionera de los tests de juzgamientos del ajuste, aún cuando un concepto paralelo al tema venı́a desarrollándose en el siglo anterior: la estimación de una función de densidad. Para dar inicio a las consideraciones del juzgamiento del ajuste, se fija una partición del recorrido de la variable que va a ser representada por la variable aleatoria X, asumida como modelo para la población, partición constituida por k clases disyuntas y se considera además una muestra aleatoria X1 , X2 , . . . , Xn , de tamaño n de una población cuya función de densidad no se conoce. En palabras muy concretas, la decisión frente a la elección de un modelo propuesto, corresponde al juzgamiento de la hipótesis: “el modelo candidato interpreta adecuadamente el comportamiento poblacional”, hipótesis que se traduce en la mayorı́a de las veces a través de la función de distribución como H0 : FX (x) = F0 (x, θ) para todo x, frente a alguna hipótesis alterna apropiada. Siendo Nj la variable que contabiliza el número de observaciones muestrales que pertenecen a la j-ésima clase cj , j = 1, 2, . . . , k, el vector aleatorio V = (N1 , N2 , . . . , Nk ) tiene distribución multinomial con parámetro 210 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS θ = (π1 , π2 , . . . , πk ) cuyos componentes son tales que k πj = 1, y por otra j=1 parte k nj = n, nj ∈ {0, 1, . . . , n}. En otros términos, que su función de j=1 densidad es: P [V = v = (n1 , n2 , . . . , nk )] = P [N1 = n1 , N2 = n2 , . . . , Nk = nk ] n n! n πj j k ) nj ! i=1 = j=1 El j-ésimo componente del vector θ, πj , denota la probabilidad de que una observación muestral pertenezca a la clase j, probabilidad que se calcula por supuesto por medio del modelo en consideración. De esta manera el sistema de hipótesis que incluye la hipótesis nula reformulada puede plantearse como H0 : πj = πj0 , j = 1, 2, . . . , k f rente a H1 : πj = πj0 , j = 1, 2, . . . , k Ası́ entonces el test de razón generalizada de verosimilitudes será nj k πj0 τ : “Rechazar H0 si λn = nn <c” nj j=1 test que al contar con un tamaño de muestra suficientemente grande, en consonancia con el enunciado del teorema 4.2.2 página 161, puede enunciarse como ⎡ nj ⎤ k πj0 ⎦ > χ21−α (k − 1) ” τ : “Rechazar H0 si − 2 ln ⎣nn n j j=1 La idea de Pearson, anterior a la existencia de conceptos como la razón generalizada de verosimilitudes, es la de cotejar la frecuencia Nj , denominada j-ésima frecuencia observada con la frecuencia nπj0 conocida como j-ésima frecuencia esperada, porque bajo la adopción del modelo, E[Nj ] = nπj0 . Pearson sintetiza su idea en la estadı́stica k (Nj − nπj0 )2 nπj0 j=1 pues valores pequeños de ella se constituyen en argumentos a favor de la hipótesis nula, que en general se le entiende como ajuste, mientras que los valores grandes son evidencias estadı́sticas de no coherencia con el modelo, es decir de no ajuste. La Estadı́stica de Pearson converge en distribución a una variable aletoria con 4.9. JUZGAMIENTO DEL AJUSTE 211 distribución Ji-cuadrado con (k − 1) grados de libertad, luego la adopción del modelo se desecha si k (Nj − nπj0 )2 > χ21−α (k − 1) 0 nπ j j=1 Ejemplo 4.9.1. Como preparación a la evaluación del ajuste al modelo Uniforme en el intervalo (0, 1) de una variable que toma valores en el mismo intervalo, se establece una partición que por comodidad puede consistir de jsubintervalos de igual amplitud; es decir, que el subintervalo j-ésimo es j−1 k , k , de tal manera que kj 1 0 πj = dx = , j = 1, 2, . . . , k j−1 k k En segundo lugar se considera una muestra aleatoria X1 , X2 , . . . , Xn , de tamaño n de una población Uniforme en el intervalo (0, 1), y a partir de ella se determina cada una de las variables Nj , tal como se señaló anteriormente, con lo cual se establece la Estadı́stica de Pearson. De manera particular, la proporción de la prima legal que el asalariado dedica a pagar obligaciones económicas contraı́das anteriormente, es una de las variables de interés para un estudio sociológico, de cuyos resultados se extrae la tabla 4.3, basada en los resultados de una entrevista a 950 empleados del sector manufacturero. Porcentaje dedicado Más de hasta 0 20 20 40 40 60 60 80 80 100 Total Número de Pacientes 162 210 194 186 198 950 Tabla 4.3: Distribución del número de empleados según el porcentaje de la prima que dedican al pago de sus obligaciones económicas adquiridas Los teóricos sociales encargados de la conducción del estudio no encuentran razones especiales para afirmar que la proporción de la prima dedicada a cubrir obligaciones económicas contraı́das, tenga una distribución con algún sesgo o que tenga un apuntamiento especial, por lo tanto encuentran razonable el uso del modelo Uniforme para describir rasgos de este aspecto de los empleados. La tabla 4.4 presenta tanto las frecuencias observadas y esperadas como los sumandos para la determinación del valor de la Estadı́stica de Pearson, derivados de la información precedente. 212 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS j Clase j nj nπj0 1 2 3 4 5 [0, 0.2] (0.2, 0.4] (0.4, 0.6] (0.6, 0.8] (0.8, 1.0] 174 198 194 186 198 190 190 190 190 190 Total (nj − npi0j )2 npi0j 1.34736842 0.33684211 0.08421053 0.08421053 0.33684211 2.18947368 Tabla 4.4: Elementos para el cálculo del valor de la Estadı́stica de Pearson correspondiente al ejemplo 4.9.1 El percentil 95 de una variable con distribución Ji-cuadrado con (k − 1) = 4 grados de libertad, corresponde al valor 9.48778, por lo tanto al ser el valor de la Estadı́stica de Pearson menor que el mencionado percentil, se concluye que no hay evidencia estadı́stica para rechazar el modelo uniforme para caracterizar con propiedad la proporción de la prima de los empleados dedicada a cubrir obligaciones económicas contraı́das, decisión idéntica si se utiliza el valor p cuyo valor corresponde a 0.70095688. Ejemplo 4.9.2. Igualmente como preparación a la evaluación del ajuste al modelo Gaussiano con valor esperado μ y varianza σ 2 totalmente especificados, de una variable de interés, se determina una partición de la recta real que por comodidad puede consistir de k subintervalos disyuntos de igual amplitud, exceptuándose el primero y el último. El subintervalo j-ésimo (xj−1 , xj ), con x0 = −∞ y xk = ∞, es un intervalo cuya probabilidad es πj0 = xj xj−1 1 1 √ exp − 2 2πσ x−μ σ 2 dx = Φ xj − μ σ −Φ xj−1 − μ σ j = 1, 2, . . . , k, y seguidamente se considera una muestra aleatoria X1 , X2 , . . . , Xn , de tamaño n de una población cuya densidad se desconoce y a partir de ella se determina cada una de las variables Nj , tal como se ha señalado, para establecer la correspondiente Estadı́stica de Pearson. Especı́ficamente en un estudio Neumológico, la CPT (capacidad pulmonar total) definida como el volúmen máximo que los pulmones pueden alcanzar con el máximo esfuerzo, es una de las variables relevantes. En los adultos la CPT tiene como promedio 5800 ml, con una desviación estándar de 150 ml. De una muestra de 270 pacientes, sin antecedentes neumológicos, a los cuales se les realizó un exámen para determinar la CPT, se ha resumido la información de esta variable en la tabla 4.5. ¿El modelo Gaussiano de valor esperado 5800 y desviación estándar de 150, será una elección acertada como modelo para representar la capacidad pulmonar total de pacientes que cumplen los criterios de inclusión definidos para el estudio?. 213 4.9. JUZGAMIENTO DEL AJUSTE CPT(ml) Menos de 5400 de 5400 a 5500 de 5500 a 5700 de 5700 a 5850 de 5850 a 6000 de 6000 y más Total Número de Pacientes 12 46 78 80 39 15 270 Tabla 4.5: Distribución del número de pacientes según la capacidad pulmonar total La tabla 4.6 presenta tanto las frecuencias observadas y esperadas como los sumandos para la determinación del valor de la Estadı́stica de Pearson, derivados de la información precedente. j Clase j nj πj0 nπj0 1 2 3 4 5 6 (−∞, 5400] (5400, 5550] (5550, 5700] (5700, 5850] (5850, 6000] (6000, ∞] 2 15 60 102 71 20 0.003830425 0.043959905 0.204702137 0.378066128 0.278230122 0.091211282 1.03421478 11.86917443 55.26957697 102.07785468 75.12213300 24.62704613 Total (nj − npi0j )2 npi0j 0.90188334 0.82584251 0.40486834 5.9680E-05 0.22619140 0.86935135 3.22819633 Tabla 4.6: Elementos para el cálculo del valor de la Estadı́stica de Pearson correspondiente al ejemplo 4.9.2 El percentil 95% de una variable con distribución Ji-cuadrado con (k − 1) = 5 grados de libertad, corresponde al valor 11.0705, por lo tanto al ser el valor de la estadı́stica de Pearson menor que el mencionado percentil, se concluye que no hay evidencia estadı́stica para rechazar el modelo Gaussiano como modelo apto para caracterizar la CPT, decisión equivalente a utilizar el valor p cuyo valor es 0.66485144. En estos ejemplos se proporcionaron explı́citamente los valores de los componentes del parámetro. En el primer caso θ1 = 0 y θ2 = 1, en el segundo caso θ1 = μ = 5800 y θ2 = σ 2 = (150)2 . Sin embargo no siempre ocurre que el modelo en elección esté completamente especificado; muchas veces se candidatiza a la familia de modelos y no a un miembro particular de ella, lo cual implica la estimación de componentes del parámetro, bajo el modelo en consideración por supuesto, y de esta manera se afecta la distribución de la Estadı́stica de Pearson, 214 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS pues se reducen los grados de libertad en el número de componentes estimados. La demostración de esta afirmación está en concordancia con el teorema 4.2.2 y está fuera de los alcances de este texto. Entonces si en el ejemplo anterior no se hubiesen especificado los valores de μ = 5800 y σ = 150, habrı́a sido necesario estimar los dos componentes del parámetro, y como consecuencia los grados de libertad disminuirı́an de 5 a 3. Con esta modificación en los grados de libertad y la sustitución de μ y σ por sus respectivas estimaciones, que para este caso son x270 = 5698.88 y s270 = 182.45, el procedimiento es el mismo que el seguido en los dos ejemplos anteriores. 4.9.2 Juzgamiento del ajuste por el método de KolmogorovSmirnov Como se manifesto en el tı́tulo anterior, que la decisión frente a la elección de un modelo propuesto, es equivalente al juzgamiento de la hipótesis: “el modelo candidato interpreta adecuadamente el comportamiento poblacional ”, traducida generalmente a través de la función de distribución, este método evalúa el ajuste a modelos que representen variables continuas y juzga la hipótesis nula H0 : FX (x) = F0 (x, θ) para todo x, dentro del sistema de hipótesis H0 : FX (x) = F0 (x, θ) para todo x f rente a H1 : FX (x) = F0 (x, θ) para algún x A diferencia de la idea de Pearson que coteja las frecuencias observadas con las frecuencias esperadas, la idea de Kolmogorov por su parte, coteja la función de distribución correspondiente al modelo postulado con la función de distribución empı́rica. A principio de los años 30 del siglo pasado, Kolmogorov, condensó su idea en la estadı́stica Dn = sup −∞<x<∞ |Fn (x) − F0 (x, θ)| que luego Smirnov a finales de los mencionados años la hizo extensiva a otros propósitos, estadı́stica cuya distribución depende directamente del tamaño de la muestra como lo garantiza el teorema de Glivenko-Cantelli. Del mismo teorema, se puede afirmar que valores pequeños de la estadı́stica Dn son argumentos estadı́sticos a favor de la hipótesis nula, porque si la mayor diferencia entre la distribución propuesta y la función de distribución empı́rica es relativamente pequeña, las demás diferencias también serán pequeñas y por lo tanto el modelo es pertinente; mientras que valores grandes de la estadı́stica se constituyen en evidencias estadı́sticas para prescindir del modelo propuesto como representante del comportamiento poblacional. La distribución muestral de Dn tiene una expresión engorrosa, que el lector puede consultar en Nonparametric Statistical Inference de J.D.Gibbons (1971) páginas 77 a 81. El siguiente teorema presenta una aproximación cuando el tamaño de muestra es relativamente grande. 4.9. JUZGAMIENTO DEL AJUSTE 215 Teorema 4.9.1. Si F0 (x, θ) es una función de distribución continua, entonces para cada v > 0, ∞ v lim P Dn ≤ √ (−1)j−1 exp(−2j 2 v 2 ) = h(v) = 1 − 2 n→∞ n j=1 La función h(v) fue tabulada por Smirnov a mediados del siglo pasado y muchos programas de cómputo estadı́stico han incluido algoritmos para la determinación de los respectivos percentiles y el cálculo de los valores p, e igualmente algunos textos, principalmente los textos de Estadı́stica no paramétrica incluyen tablas que permiten determinar los percentiles correspondientes. En pocas palabras, cuando la calidad del ajuste no es satisfactoria se descarta el modelo propuesto, decisión que se adopta cuando dn > c. Utilizando la aproximación ofrecida por el teorema anterior, el tamaño del test puede establecerse mediante, la expresión v α = P Dn > √ n Ejemplo 4.9.3. Para ilustrar la parte operativa del ajuste por el método de Kolmogorov-Smirnov, una muestra de 25 baldosas de cerámica de un lote de producción fueron seleccionadas para identificar el modelo apropiado para describir la variabilidad del grosor de la baldosa que ella alcanza al final del proceso de fabricación. Teniendo en cuenta información que acopia el Departamento de control de calidad, es razonable pensar que el grosor tiene un comportamiento uniforme entre 90 y 110 milı́metros. La tabla 4.7, presenta los valores particulares de la muestra ordenados, la función empı́rica, la función de distribución correspondiente al modelo en consideración y las diferencias entre ellas. Como sup |F25 (x) − F0 (x, θ)| = 0.05 y el percentil 95 de la distribución de Dn es 0.238 (valor tomado de la Tabla III en Applied Nonparametric Statistical Methods de P. Sprent (1993)), no hay evidencia estadı́stica para desechar el modelo uniforme en el intervalo (90, 110) para describir las irregularidades, con respecto al estándar, del grosor de la baldosa. Nota. El juzgamiento del ajuste de una variable discreta mediante el método de Pearson no tiene restricción alguna, sólo la que le es común a cualquier tipo de variable: tamaño de una muestra relativamente grande, para que sea legı́timo el uso de los percentiles de una variable aleatoria con distribución Ji-cuadrado, o el cálculo de los valores p a través de ella, como los puntos de referencia para tomar la decisión. El método de juzgamiento del ajuste mediante la estadı́stica de Kolmogorov-Smirnov se ha establecido sobre la consideración de que F0 (x, θ) es continua. Sin embargo algunos autores como Noether han demostrado que se puede utilizar el procedimiento para ajuste de modelos discretos, pero que el nivel del test se altera. Para dar fin a este capı́tulo y por consiguiente al contenido de este texto, un punto final al vocablo: modelo, que aparece por primera vez en este texto 216 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Valores ordenados 91 92 93 94 94 95 95 96 97 98 99 100 101 102 103 104 104 104 106 107 107 108 109 109 110 F25 (x) 0.04 0.08 0.12 0.20 0.20 0.28 0.28 0.32 0.36 0.40 0.44 0.48 0.52 0.56 0.60 0.72 0.72 0.72 0.76 0.84 0.84 0.88 0.96 0.96 1.00 F0 (x, θ) 0.05 0.10 0.15 0.20 0.20 0.25 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.70 0.70 0.80 0.85 0.85 0.90 0.95 0.95 1.00 |F25 (x) − F0 (x, θ)| 0.01 0.02 0.03 0.00 0.00 0.03 0.03 0.02 0.01 0.00 0.01 0.02 0.03 0.04 0.05 0.02 0.02 0.02 0.04 0.01 0.01 0.02 0.01 0.01 0.00 Tabla 4.7: Valores muestrales ordenados del grosor de las baldosas y sus respectivos valores de las funciones de distribución precisamente en la primera página cuando se cita una frase del psicólogo Jerome Seymour Bruner, con la cual se encabeza el capı́tulo inicial, vocablo mencionado con frecuencia de manera explı́cita o tácita en todos los capı́tulos y que incluso también en esta última página se hace alusión a él. La mente humana puede construir modelos tan artificiosos y complejos como quiera, pues cuenta con herramientas que le permiten elaborar ilimitadamente mundos virtuales donde puede incorporar a voluntad, propiedades, relaciones, normas, semánticas, en fin, un sinnúmero de elementos, agregados a voluntad o en coherencia con otros, para generar la dinámica propia de ese mundo virtual. Pero tal vez no sea la mejor ruta, el excesivo detalle y meticulosidad en la elaboración del modelo, tratándose de encontrar un paradigma que a manera de una réplica ofrezca alternativas de explicación de la realidad, de reproduc- 4.9. JUZGAMIENTO DEL AJUSTE 217 ción simplificada de los rasgos y caracterı́sticas de ella. Si bien es cierto que en el modelado de la realidad se incluyen elementos no reales y se excluyen realidades que se suponen o se demuestran que son superfluas, en la descripción o explicación de un fenómeno, ese proceso modelador debe estar inspirado en un principio de economı́a que permite simplificar al máximo los conceptos, elementos y relaciones del modelo. Guillermo de Ockham polémico filósofo del siglo XIV ya lo advertı́a con su famosa “Ley de parsimonia ”que corrientemente se le conoce como “Navaja de Ockham ”, consistente en la inutilidad de multiplicar los elementos explicativos o descriptivos de algún fenómeno, enunciada como “Entia non sunt multiplicanda sine necessitate ”que puede traducirse como, no hay que multiplicar las cosas sin necesidad, y entenderse en este texto como la intención sana de formular modelos y teorı́as que busquen explicar los hechos utilizando el mı́nimo de presupuestos. Los modelos probabilı́sticos, como se ha afirmado a lo largo de este texto son modelos especiales que intentan reproducir un comportamiento exclusivo de variabilidad, modelos que incorporan expresiones matemáticas propias que lo identifican y lo caracterizan, expresiones que dependen principalmente de parámetros que habilitan la identificación de miembros de una familia particular de modelos. Como modelos que son, los modelos probabilı́sticos no están exentos de ser construidos de manera exagerada y compleja complicando muy posiblemente su manejo. La sencillez del modelo despojado de lo superfluo, con parsimonia en sus parámetros, lo enaltece, lo hace atractivo, lo hace útil. Por ello la propuesta de modelos sencillos para representar una población particular, cuando los modelos usuales y tradicionales no colman las expectativas de los investigadores y analistas estadı́sticos en casos especı́ficos, es un reto interesante para una mente inquieta que ve en la naturaleza la fuente de inspiración y el motivo de sus reflexiones estadı́sticas. “La mayorı́a de las ideas fundamentales de la ciencia son esencialmente sencillas y por lo general pueden ser expresadas en un lenguaje comprensible para todos”. Albert Einstein 218 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS 4.10 Demostración de los teoremas del capı́tulo Demostración (Teorema 4.2.1). Como preparación a la demostración, se tienen los siguientes elementos 1. Paralelamente al test τ , se considera cualquier test τ para el juzgamiento de la hipótesis nula, con función crı́tica ϕτ (xn ) y nivel α. 2. Además de la región crı́tica Cτ,n asociada al test τ , cuya función crı́tica es ψτ (xn ), se establecen los siguientes conjuntos, disyuntos entre sı́ y disyuntos con Cτ,n , n n D = xn k fX (xi , θ1 ) < fX (xi , θ0 ) i=1 i=1 n n E = xn k fX (xi , θ1 ) = fX (xi , θ0 ) i=1 i=1 ) puede considerarse como una variable aleatoria con distribución 3. ψτ (Xn de Bernoulli cuya probabilidad de éxito bajo θ0 es 4. El sı́mbolo 5 Pθ0 ψτ (Xn ) = 1 = Eθ0 ψτ (Xn ) =α corresponde a la integral múltiple sobre el conjunto A y dxn A representa a dx1 dx2 . . . dxn . El objeto de la demostración es simple: concluir que πτ (θ1 ) ≥ πτ (θ1 ) tal como lo estipula la definición 4.2.1 o en otros términos concluir que ) ≥ Eθ1 ϕτ (Xn ) Eθ1 ψτ (Xn Para ello la demostración gira alrededor de la diferencia: ) − Eθ1 ϕτ (Xn ) = Eθ ψτ (Xn ) − ϕτ (Xn ) Δ = Eθ1 ψτ (Xn n ψτ (xn ) − ϕτ (xn ) = fX (xi , θ1 )dxn i=1 X Como X = Cτ,n ∪ D ∪ E Δ= n ψτ (xn ) − ϕτ (xn ) i=1 Cτ,n + n ψτ (xn ) − ϕτ (xn ) + E fX (xi , θ1 )dxn i=1 D fX (xi , θ1 )dxn n ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn i=1 4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 219 cuando xn ∈ Cτ,n , ψτ (xn ) = 1 y cuando xn ∈ D, ψτ (xn ) = 0, ası́ entonces, 1− Δ1 = + fX (xi , θ1 )dxn i=1 D ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn i=1 Adicionalmente cuando xn ∈ Cτ,n , k fX (xi , θ1 )dxn n E n ) fX (xi , θ1 ) > i=1 n 1 − ϕτ (xn ) k n −ϕτ (xn ) + i=1 Cτ,n n ϕτ (xn ) fX (xi , θ1 )dxn > i=1 Cτ,n igualmente, cuando xn ∈ D entonces −k n ) fX (xi , θ0 ), y con ello i=1 n 1 − ϕτ (xn ) fX (xi , θ0 )dxn Cτ,n i=1 n ) n ) fX (xi , θ1 ) > − i=1 fX (xi , θ0 ) y por i=1 lo tanto −ϕ k D (xn ) fX (xi , θ1 )dxn i=1 E n −ϕ > τ (xn ) n ) fX (xi , θ1 ) = i=1 fX (xi , θ0 )dxn i=1 D y finalmente cuando xn ∈ E, k k n τ n ) fX (xi , θ0 ), con lo cual, i=1 n ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn i=1 = E n ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn i=1 220 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS teniendo en cuenta las desigualdades descritas, kΔ1 > n 1 − ϕτ (xn ) i=1 Cτ,n + fX (xi , θ0 )dxn + Δ2 = + + fX (xi , θ0 )dxn = Δ2 n ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn i=1 n ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn i=1 n ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn i=1 E = Eθ0 i=1 i=1 D fX (xi , θ0 )dxn n Cτ,n n −ϕτ (xn ) D ψτ (xn ) − ϕτ (xn ) E ψτ (Xn ) − ϕτ (Xn ) como los test tienen el mismo nivel, Δ2 = α − α = 0 y como kΔ1 > Δ2 se puede afirmar que Δ1 ≥ 0, luego Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ (Xn ) conclusión que garantiza que el test τ cuya región crı́tica es Cτ,n es un test más potente para H0 : θ = θ 0 f rente a H1 : θ = θ 1 Demostración (Teorema 4.2.2). Puede consultarse en Mathematical Statistics de Wilks (1962), en las páginas 419 y 420. Demostración (Teorema 4.2.3). Sean θ1 y θ2 dos valores de θ de tal manera que θ1 ≤ θ0 y θ2 > θ0 , con ellos se formula un nuevo sistema de hipótesis simples como: H0∗ : θ = θ1 f rente a H1∗ : θ = θ2 El lema de Neyman-Pearson garantiza que el test, τ : “Rechazar H0∗ si λn = L(θ1 ; x1 , x2 , . . . , xn ) < κ” L(θ2 ; x1 , x2 , . . . , xn ) 4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 221 es un test más potente para H0∗ en el nuevo sistema. Dado que la familia {fX (x, θ)} tiene MLR en la estadı́stica T = t(X1 , X2 , . . . , Xn ), y suponiendo que el cociente de verosimilitudes es una función no creciente de t(x1 , x2 , . . . , xn ), afirmar que λn < κ equivale a afirmar que t(x1 , x2 , . . . , xn ) > t1−α , como lo indica la figura 4.17, λn k t1−α t Figura 4.17: Esquema de un cociente no creciente de verosimilitudes como función de los valores de la estadı́stica Tn por lo tanto el test se puede formular de manera equivalente como τ : “Rechazar H0∗ si t(x1 , x2 , . . . , xn ) > t1−α ” Este test es UMP para H0 en el sistema, H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 debido a que el test no depende de θ1 ni de θ2 , porque el test es más potente para cualquier escogencia de θ1 , θ2 ∈ Θ, sujetos a que θ1 ≤ θ0 < θ2 . El otro numeral del enunciado del teorema se demuestra de igual manera. Demostración (Teorema 4.8.1). Asumiendo que la hipótesis nula es cierta, entonces ∞ n fX (xi , θ0 )dx1 dx2 · · · dxn α= n=1 Cτ,n i=1 222 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS y además que n n fX (xi , θ0 ) ≤ κ0 i=1 fX (xi , θ1 ) i=1 por lo tanto α ≤ κ0 ∞ n fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β) Cτ,n i=1 n=1 porque ∞ n fX (xi , θ1 )dx1 dx2 · · · dxn Cτ,n i=1 n=1 corresponde a la probabilidad de rechazar H0 cuando H1 se considera cierta. Luego α ≤ κ0 (1 − β), es decir α ≤ κ0 1−β Por otra parte, la probabilidad de no rechazar H0 siendo ella verdadera corresponde a 1−α= ∞ n=1 n fX (xi , θ0 )dx1 dx2 · · · dxn Aτ,n i=1 y como en los casos de no rechazo de la hipótesis nula, n n fX (xi , θ0 ) ≥ κ1 i=1 fX (xi , θ1 ) i=1 entonces 1 − α ≥ κ1 ∞ n=1 n fX (xi , θ1 )dx1 dx2 · · · dxn = κ1 β Aτ,n i=1 luego 1 − α ≥ κ1 β, es decir κ1 ≤ 1−α β α y κ1 tiene una cota superior 1−α κ0 tiene entonces una cota inferior 1−β β , cotas que se pueden asumir como aproximaciones a κ0 y κ1 respectivamente. ∗ Demostración (Teorema 4.8.2). Sean Cτ∗ , Cτ,n , A∗τ , A∗τ,n las regiones crı́ticas y de aceptación correspondientes a los niveles α∗ y β ∗ derivados de los valores 223 4.11. EJERCICIOS DEL CAPÍTULO κ∗0 y κ∗1 . α∗ = ∞ n=1 ≤ n ∗ Cτ,n i=1 ∞ α 1−β n=1 fX (xi , θ0 )dx1 dx2 · · · dxn n ∗ Cτ,n i=1 fX (xi , θ1 )dx1 dx2 · · · dxn de acuerdo a uno de los pasos de la demostración del teorema 4.8.1, ∞ n α α (1 − β ∗ ) fX (xi , θ1 )dx1 dx2 · · · dxn = 1 − β n=1 Cτ,n 1 − β ∗ i=1 similarmente, 1 − α∗ = ∞ n=1 ≥ n A∗ τ,n i=1 ∞ 1−α β n=1 fX (xi , θ0 )dx1 dx2 · · · dxn n A∗ τ,n i=1 fX (xi , θ1 )dx1 dx2 · · · dxn a su vez ∞ n 1−α ∗ 1−α β fX (xi , θ1 )dx1 dx2 · · · dxn = β n=1 A∗τ,n i=1 β Concretamente de lo anterior, α∗ ≤ α (1 − β ∗ ) 1−β y (1 − α∗ ) ≥ 1−α β A partir de estas desigualdades es fácil comprobar que α∗ + β ∗ ≤ α + β 4.11 Ejercicios del capı́tulo 1. Adoptanto el modelo Uniforme en el intervalo (0, θ) para representar el comportamiento de una población, para la cual se conjetura además que el valor del parámetro no excede a θ0 , se determina el siguiente sistema de hipótesis H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 formalice un test con nivel α para el juzgamiento de H0 dentro de este sistema de hipótesis, basado en una muestra aleatoria de tamaño n de esta población. 224 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS 2. Bajo las consideraciones del ejercicio anterior, formalice un test con nivel α para el juzgamiento de H0 dentro del sistema de hipótesis H0 : θ = θ 0 f rente a H1 : θ = θ0 3. Establezca una expresión algebraica para la función de potencia del test determinado en el ejercicio 1. 4. Al adoptar la distribución de Poisson con parámetro θ para modelar una población particular, es conveniente proveer un test que permita decidir sobre la hipótesis nula H0 dentro del sistema H0 : θ = θ 0 f rente a H1 : θ = θ0 Para tal efecto determine un test con nivel α basado en una muestra aleatoria de tamaño n de la citada población. 5. La distribución de Cauchy es un modelo muy singular debido a sus particularidades de no existencia de sus momentos. ¿La familia de densidades de Cauchy es una familia que tiene MLR en alguna estadı́stica? 6. Considere la distribución particular de Cauchy fX (x) = 1 ,x ∈ R π [1 + (x − θ)2 ] ¿Bajo el siguiente sistema de hipótesis es posible determinar un UMP de nivel α para el juzgamiento de H0 basado en una muestra aleatoria de tamaño n?. H0 : θ = 0 f rente a H1 : θ > 0 7. El modelo Exponencial desplazado, mencionado en los ejercicios del primer capı́tulo y en un ejemplo de este capı́tulo tiene diversas aplicaciones. En particular, regido por este modelo resulta algunas veces interesante evaluar el hecho de si para un caso individual el desplazameinto es un elemento significativo dentro del modelado, es decir si es preciso introducir un componente del parámetro para indicar el desplazamiento, o por el contrario es inocuo hacerlo y de esta manera simplificar el modelo elegido. 4.11. EJERCICIOS DEL CAPÍTULO 225 En el lenguaje del juzgamiento de hipótesis corresponde al sistema H0 : θ 1 = 0 f rente a H1 : θ 1 > 0 Teniendo presente que el parámetro θ = (θ1 , θ2 ) reserva el primer componente para referirse precisamente al desplazamiento, construya un test de nivel α para este propósito. 8. Una modalidad caracterı́stica de procedimientos en el Control Estadı́stico de la Calidad, se ha denominado Muestreo para la aceptación de lotes, dentro de la cual se menciona un procedimiento particular correspondiente al juzgamiento de la hipótesis H0 dentro del sistema H0 : θ < θ 0 f rente a H1 : θ ≥ θ 0 parámetro cuyo espacio corresponde al intervalo (0, 1) y que representa la denominada fracción no conforme de materia prima, de productos en proceso o de productos terminados, según sea el objeto y momento de su aplicación, que dentro del modelo de Bernoulli corresponde a la probabilidad de éxito. Determine un test de nivel cercano a α y su función de potencia. Bosqueje la curva de operación OC. 9. Desarrolle un test para el juzgamiento de la homocedasticidad como el presentado en el numeral 4.4.2, página 191, asumiendo que μ1 y μ2 son valores conocidos. 10. ¿Cambiará radicalmente el test para homocedasticidad en dos poblaciones Normales, si se asume que μ1 y μ2 son desconocidos pero iguales?. 11. Determine una expresión para el cálculo del tamaño de muestra apropiado para el juzgamiento de la hipótesis nula H0 : π = π0 en el sistema H0 : π = π0 f rente a H1 : π > π0 por medio de un test construido bajo consideraciones de tamaño de muestra grande, siendo π la probabilidad de éxito o proporción poblacional. 12. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = θ(1 − x)θ−1 I(0,1) (x), con θ > 0. Este modelo se propone como emulador del comportamiento de la fracción no conforme de la materia prima que recibe cierta compañı́a para utilizarlo como la 226 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS distribución a priori de Θ. Pero previo a ello y dentro del análisis de su ajuste se desea contar con un test que juzgue la hipótesis nula H0 : θ ≤ θ0 dentro del sistema de hipótesis H0 : θ ≤ θ 0 f rente a H1 : θ > θ 0 Determine un test para tal fin. 13. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad Uniforme en el intervalo (0, θ). Fijando el valor k, si Xn,n , k1n Xn,n es un intervalo confidencial para el parámetro θ, entonces use este hecho para derivar de allı́ un test para juzgar la hipótesis nula H0 : θ = θ0 dentro del sistema de hipótesis H0 : θ = θ 0 f rente a H1 : θ = θ0 Si no es ası́ desarrolle un test utilizando otros medios para el juzgamiento de la hipótesis nula en el citado sistema. 14. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad Uniforme en el intervalo (θ, θ + 1), con θ ∈ R. Determine un test para el juzgamiento de la hipótesis nula H0 : θ = 0 dentro del sistema de hipótesis H0 : θ = 0 f rente a H1 : θ > 0 15. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de densidad fX (x, θ) = θ exp(−θx)I(0,∞) (x). Determine la función de potencia de un test para el juzgamiento de la hipótesis nula H0 : θ = 1 dentro del sistema de hipótesis H0 : θ = 1 f rente a H1 : θ = 1 16. Determine la función de potencia del test correspondiente al juzgamiento de la hipótesis nula H0 : μ1 − μ2 ≤ δ0 dentro del sistema de hipótesis H0 : μ1 − μ2 ≤ δ0 f rente a H1 : μ1 − μ2 > δ0 4.11. EJERCICIOS DEL CAPÍTULO 227 bajo Normalidad y con base en dos muestras seleccionadas de dos poblaciones independientes y homoscedásticas. Exprese dicha función de potencia en términos de δ0 . 17. Sea (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ), una muestra aleatoria de una población Normal bivariada. Determine un test para el juzgamiento de la hipótesis nula H0 : ρ = 0 dentro del sistema de hipótesis H0 : ρ = 0 f rente a H1 : ρ = 0 18. La contaminacion de los rı́os es un desastre para la humanidad. El rı́o Bogotá recibe en casi todo su recorrido desechos que trastornan extraordinariamente la vida del rı́o. Si una autoridad de Salud Pública tiene que evaluar el nivel de contaminación del rı́o en un punto especial y tomar decisiones al respecto, y particularmente sobre el contenido promedio de plomo μ, que no debe exceder μ0 partes por millón por litro de agua, decisión que debe tomarse a través de un test estadı́stico basado en una muestra de tamaño n. Lleve a cabo una reflexión sobre los valores del error del tipo I que deben adoptarse. 19. Muestre que la función de potencia del test τc , correspondiente al Sistema C para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo Normalidad y adoptando el primer supuesto, presentada en la sección 4.3.1, página 172, cumple las siguientes propiedades: (a) πτc (θ) es simétrica con respecto a μ0 . (b) πτc (θ) es decreciente en el intervalo (−∞, μ0 ) y creciente en el intervalo (μ0 , ∞). (c) lim πτc (θ) = 1 y lim πτc (θ) = 1. θ→−∞ θ→∞ (d) πτc (μ0 ) = α. 20. Desarrolle un test de nivel α para juzgar la hipótesis nula H0 : θ ≤ μ0 frente a la hipótesis alterna H1 : θ > μ0 bajo Normalidad y conocido el valor de σ. Muestre que la función de potencia del test es √ n(θ − μ0 ) πτ (θ) = Φ −z1−α + σ función que cumple las siguientes propiedades: (a) πτ (θ) es creciente. (b) lim πτ (θ) = 0 y lim πτ (θ) = 1. θ→−∞ (c) πτ (μ0 ) = α. θ→∞ 228 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS 21. Muestre que la expresión algebraica que permite el cálculo del valor p al utilizar el test τc en el juzgamiento de la hipótesis nula H0 : μ = μ0 frente a la hipótesis alterna H1 : μ = μ0 , bajo Normalidad asumiendo el segundo supuesto, es p = 2 1 − F(n−1) (|tc |) siendo F(n−1) (x) la función de distribución de una variable aleatoria X, con distribución t con (n − 1) grados de libertad. 22. Muestre que la expresión algebraica que permite el cálculo del valor p al utilizar el test τ en el juzgamiento de la hipótesis nula H0 : μ ≤ μ0 frente a la hipótesis alterna H1 : μ > μ0 , bajo Normalidad asumiendo desconocido el valor del promedio poblacional y eligiendo = δ = α2 es: 2 2 2 2 σ0 χ1− α σ0 χ α 2 2 πτ (θ) = 1 − F(n−1) + F (n−1) σ2 σ2 siendo F(n−1) (x) la función de distribución de una variable aleatoria X, con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las propiedades de esta función de potencia. 23. Con respecto al ejercicio anterior, determine la expresión para el cálculo del correspondiente valor p. 24. Muestre que la expresión algebraica de la función de potencia, a utilizar el test τ en el juzgamiento de la hipótesis nula H0 : σ 2 ≤ σ02 frente a la hipótesis alterna H0 : σ 2 > σ02 , bajo Normalidad asumiendo desconocido el valor promedio poblacional es: πτ (θ) = 1 − F(n−1) (tc ) siendo F(n−1) (x) la función de distribución de una variable aletaoria X, con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las propiedades de esta función de potencia. 25. Con respecto al ejercicio anterior, determine la expresión para el cálculo del correspondiente valor p. 26. Se cuenta con recursos económicos únicamente para seleccionar N = n+m unidades estadı́sticas para el juzgamiento de la hipótesis nula H0 : μ1 = μ2 concerniente a la “comparación de los promedios poblacionales”de dos poblaciones independientes regidas por el modelo Gaussiano y conocidos los valores de σ12 y σ22 , frente a la hipótesis alterna H1 : μ1 = μ2 . ¿Cómo deben elegirse los tamaños de las muestras n y m para mantener las caracterı́sticas del test desarrollado para el mencionado juzgamiento?. 27. Desarrolle un test para el juzgamiento de la hipótesis nula H0 : μ1 = 2μ2 bajo la regencia del modelo Gaussiano correspondiente a dos poblaciones independientes de las cuales se conocen los valores de σ12 y σ22 , frente a la hipótesis alterna H1 : μ1 = 2μ2 . 4.11. EJERCICIOS DEL CAPÍTULO 229 28. ¿Existe algún impedimento en el desarrollo de un test para el juzgamiento de una hipótesis nula más general, que la del ejercicio anterior, H0 : μ1 = cμ2 , siendo c > 0 una constante conocida?. 29. Determine un test secuencial para el juzgamiento de la hipótesis nula H0 : θ = θ0 , en el sistema de hipótesis simples H0 : θ = θ 0 f rente a H1 : θ = θ 1 basado en una muestra aleatoria de una población con distribución de Poisson de parámetro θ. 30. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribución Beta con θ1 = θ2 = θ. Determine un test más potente para el juzgamiento de la hipótesis nula H0 : θ = 1, dentro del sistema de hipótesis H0 : θ = 1 f rente a H1 : θ = 2 31. Determine un test más potente para juzgar la hipótesis nula H0 : θ = 1 dentro del sistema de hipótesis del ejercicio anterior, si el modelo asumido es un modelo cuya función de densidad es fX (x, θ) = θxθ−1 I(0,1) (x), θ>0 32. Teniendo en cuenta el ejercicio anterior, muestre que el test uniforme más potente para juzgar la hipótesis nula dentro del sistema, H0 : θ = 1 f rente a H1 : θ < 1 está basado en una estadı́stica suficiente para θ. 33. En un estudio de opinión se realizaron 6348 llamadas telefónicas y la firma encuestadora informa que el 25% de las llamadas fueron fallidas y que por lo tanto los resultados se refieren a las entrevistas realizadas a personas mayores de 18 años correspondiente al restante porcentaje. El auditor estadı́stico considera que el porcentaje de no respuesta está muy elevado, y propone juzgar la afirmación de la compañı́a por medio de una muestra seleccionada de los registros de las llamadas realizadas por los entrevistadores para comprobar la no respuesta. Puede entonces asumirse el modelo 230 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS Bernoulli con parámetro θ, y juzgar la hipótesis nula H0 : θ = 14 , dentro del sistema de hipótesis: 1 4 f rente a 1 H1 : θ < 4 H0 : θ = Determine un test que permita el juzgamiento de esta hipótesis. 34. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Gaussiana de valor esperado cero y varianza θ. ¿Existe un test uniforme más potente para juzgar la hipótesis nula H0 : θ = θ0 , frente a la hipótesis alterna H1 : θ = θ0 ?. Bibliografı́a [1] Arthanari, T.S. Mathematical Programming in statistics / T. S. Arthanari, Yadolah Dodge. New York: John Wiley. 1981 xviii, 413 p. (Wiley series in probability and mathematical statistics) [2] Ash B. Robert. Basic Probability Theory. 1970 John Wiley & Sons, Inc. [3] Barnett, Victor David Comparative statistical inference / Vic Barnett. London : John Wiley. 1975 xv, 287 p. (Wiley series in probability and mathematical statistics) [4] Barndorff-Nielsen. Ole Information and exponential families: in statistical theory / O. Barndorff-Nielsen. New York: John Wiley. 1978 ix, 238 p. (Wiley series in probability and mathematical statistics) [5] Bartoszynski Robert. Probability and Statistical Inference / Robert Bartoszynski and Magdalena Niewiadomska-Bugaj. (Wiley series in probability and mathematical statistics) 1996. [6] Bernardo, José Miguel. Bayesian theory / José M. Bernardo, Andrain F.M. Smith. New York: John Wiley. 1994 xiv, 586 p. (Wiley series in probability and mathematical statistics) [7] Berger, James O. Statistical decision theory and Bayesian analysis / James O. Berger. 2a ed. New York: Springer-Verlag. 1985 xvi, 617 p. [8] Brunk, H.D. An introduction to mathematical statistics. 2a ed. Waltham, Mass. Blaisdell. 1965 429 p. (Blaisdell Book in Pure and Applied Mathematics) [9] Beard, Robert Eric. Risk theory: the stochastics basis of insurance / R.E. Beard, T. Pentikainen, E. Pesonen. 3a ed. London: Chapman and Hall. 1984 xvii, 408 p. (Monographs on statistics and applied probability) [10] Cramer, Harald. Métodos matemáticos de estadı́stica. Madrid: Aguilar. 1960. 660 p. [11] Cramer, Harald. Elementos de la teoria de probabilidades y algunas de sus aplicaciones / tr. Anselmo Calleja. 6a ed. Madrid: Aguilar. 1972 xvi, 321 p. 231 232 BIBLIOGRAFÍA [12] Daykin, Chris D. Practical risk theory for actuaries / C.D. Daykin, T. Pentikainen, M. Pesonen. New York: Chapman and Hall. 1944 xxi, 546 p. (Monographs on Statistics and Applied Probability; 53) [13] De Groot Morris. Probabilidad y Estadı̀stica. Addison-Wesley Iberoamericana. 1988. [14] Dorea, Chang Chung Yu. Teoria assintotica das estatisticas / Chang C.Y. Dorea. Rio de Janeiro: Instituto de Matematica Pura e Aplicada. 1995. 79 p. [15] Dudewics Edward J. Modern Mathematical Statistics / Edward J. Dudewics and Satya N. Mishra (Wiley series in probability and mathematical statistics). 1998 [16] Edwards, Anthony William Fairbank. Likelihood: an account of the satistical concept of likelihood and its application to scientific inference / A.W.F. Edwards. Cambridge: Cambridge University Press. 1972 xv, 235 p. [17] Ellis, Richard B. Statistical inference: basic concepts / Richard B. Ellis. Englewood Cliffs: Prentice-Hall. 1975 xiv, 258 p. [18] Ekeblad, Frederick A. The statistical method in business, applications of probability and inference of business and other problems. New York: John Wiley. 1962. 791 p. [19] Feller, William. An introduction to probability theory and its applications. 3a ed. New York: John Wiley. 1968-71 (Wiley series in probability and mathematical statistics) [20] Fisz, Marek. Probability theory and mathematical statistics. 3a ed. New York: John Wiley. 1967 xvi, 677 p. (Wiley series in probability and mathematical statistics). (Wiley publication in mathematical statistics) [21] Freund, John E. Mathematical statistics. Englewood Cliffs: Prentice-Hall. 1962. 390 p. [22] Freeman, Harold. Introduction to statistical inference. Reading, Mass. Addison-Wesley. 1963. 445 p. (Addison-Wesley series in statistics) [23] Guenther, William C. Concepts of statistical inference. New York: McGraw-Hill. 1965. 353 p. [24] Gmurman, Vladimir Efimovich. Teoria de las probabilidades y estadı́stica matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir. 1974. 387 p. [25] Gmurman, Vladimir Efimovich. Problemas de la teoria de las probabilidades y de estadı́stica matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir. 1975. 374 p. BIBLIOGRAFÍA 233 [26] Hacking, Ian. The emergence of probability: a philosophical study of early ideas about probability, induction and statistical inference / Ian Hacking. Cambridge: Cambridge University Press. 1987. 209 p. [27] Hettmansperger, Thomas P. Statistical inference based on ranks. New York: John Wiley. 1984 xviii. 323 p. (Wiley series in probability and mathematical statistics) [28] Hogg, Robert V. Introduction to mathematical statistics / Robert V. Hogg, Allen T. Craig. 5a ed. Prentice Hall. 1995. 438 p. [29] Hoel Paul G. Introduction to mathematical statistics. 2a ed. New York: John Wiley. 1954. 331 p. [30] Keeping E.S. Introduction to statistical inference. New York: D. Van Nostrand. 1962. 451 p. [31] Larson, Harold J. Introduction to probability theory and statistical inference. Harold J. Larson. New York: John Wiley. 1974 xi, 430 p. (Wiley series in probability and mathematical statistics) [32] Lehmann, Erich Leo. Theory of point estimation. New York: John Wiley. 1983 xii, 506 p. (Wiley series in probability and mathematical statistics) [33] Mood, Alexander McFarlane. Introduction to the theory of statistics. Alexander M. Mood, Franklin A. Graybill, Duane C. Boes. 3th ed. / International ed. Signapore: McGraw-Hill. 1974 xvi, 564 p. (McGraw-Hill series in probability and statistics) [34] Muirhead, Robb John. Aspects of multivariate statistical theory. New York: John Wiley. 1982 xix, 673 p. (Wiley series in probability and mathematical statistics) [35] Parzen, Emanuel. Modern probability theory and its applications. New York: John Wiley. 1971 xv, 464 p. (Wiley Publication in Mathematical Statistics) [36] Randles, Ronald H. Introduction to the theory of nonparametric statistics. Ronald H. Randles, Douglas A. Wolfe. New York: John Wiley. 1979 xiii, 450 p. (Wiley series in probability and mathematical statistics) [37] Rohatgi, Vijak K. Statistical inference / Vijak K. Roahtgi. New York: John Wiley. 1984 xiv, 940 p. (Wiley series in probability and mathematical statistics) [38] Serfling, Robert J. Approximation theorems of mathematical statistics. Robert J. Serfling. New York: John Wiley. 1980 xiv, 371 p. (Wiley series in probability and mathematical statistics) [39] Tanner, Martin Abba. Tools for statistical inference: methods for the exploration of posterior distributions and likelihood functions. 2a ed. New York: Springer-Verlag. 1993 ix, 156 p. (Springer series in statistics) 234 BIBLIOGRAFÍA [40] Tucker, Howard G. An introduction to probability and mathematical statistics. New York: Academic Press. 1967. 228 p. [41] Tennant-Smith. J. Estadı́stica: teorı́a, problemas y aplicaciones en BASIC. J. Tennant-Smith. tr. Manuel Urrutia Avisrror. Madrid: Anaya Multimedia. 1986. 218 p. [42] Thomasian, Aram J. The structure of probability theory with applications. New York: McGraw-Hill. 1969. 746 p. (McGraw-Hill Series in Probability and Statistics) [43] Weatherburn, C.E. A first course in mathematical statistics. 2a ed. Cambridge: Cambridge University Press. 1962. 277 p. [44] Wilks, S.S. Mathematical statistics. Princeton: Princeton University Press. 1950. 284 p. [45] Zacks, Shelemyahu. The theory statistical inference. New York: Wiley. 1971 xiii, 609 p. (Wiley series in probability and mathematical statistics) Índice de Materias análisis de varianza a una vı́a, 185 cota, 87 desigualdad de, 87 criterios de exclusión, 5 de inclusión, 5 curva caracterı́stica de operación, 156 CO del test, 156 Basu teorema de, 83 Behrens-Fisher problema de, 184 bondad del ajuste, 209 caso regular de estimación, 86 completez, 90 componente de escala, 122 de localización, 122 concentración, 69 condiciones de regularidad cumplimiento de, 86 confianza, 116 consistencia, 73 contorno, 75 convergencia casi segura, 10 con probabilidad uno, 10 débil, 10 en distribución, 11 en media cuadrática, 11 en medida, 10 en momento de orden r, 11 en probabilidad, 10 en valor esperado, 11 estocástica, 10 cota de Cramer-Rao, 87 Cramer-Rao desigualdad de Cramer-Rao, 87 distribución Beta, 104 de Cauchy, 224 de Gumbel, 107 de la función de distribución empı́rica, 21 de la mediana muestral, 20 de Laplace, 107 de las estadı́sticas de orden, 19 de Pareto, 43, 105, 145 de Poisson, 106 de Zipf, 105 del rango, 20 del semirango, 20 exponencial desplazada, 43 exponencial doble, 107 Gama, 106 Gaussiana, 106 muestral, 9 original de las observaciones, 9 reducida, 9 235 236 ÍNDICE DE MATERIAS Uniforme discreta, 113 Zeta, 105 eficiencia asintótica, 89 de un estimador, 89 relativa, 88 asintótica, 89 equivalencia, 82 error cuadrático medio, 70 del tipo I, 152 del tipo II, 152 máximo admisible, 139 espacio de las observaciones, 75 del parámetro, 50 estadı́stica, 7 auxiliar, 83 de primer orden, 83 completa, 90 contorno de la, 75 de orden, 18 de Pearson, 210–212 natural, 81 k-dimensional, 82 suficiente, 81 suficiente, 75, 77 minimal, 79 estadı́sticas conjuntamente suficientes, 78 equivalentes, 82 estimación, 8 Bayesiana, 65 por intervalo, 140 cuasimáximo-verosı́mil, 60 de la proporción poblacional, 127 en muestras censuradas, 59 máximo-verosı́mil, 52 por intervalo, 116 estimaciones, 9 estimador, 9 asintóticamente más concentrado, 74 asintóticamente insesgado, 71 BAN, 74 Bayesiano, 67 BLUE, 110 BRUE, 89 CAN, 74 CANE, 74 consistente débil, 73 en error cuadrático medio, 73 simple, 73 de mı́nimos cuadrados, 98 eficiencia de un, 89 eficiente, 89 el más concentrado, 70 insesgado, 71 insesgado de varianza uniformemente mı́nima, 84 L, 97 M, 98 más concentrado, 70 máximo-verosı́mil, 52 MLE, 52 Pitman el más concentrado, 70 más concentrado, 70 QMLE, 60 robusto, 96 UMVUE, 84 uniformemente mejor, 84 estimar, 8 familia de densidades cerrada bajo muestreo, 67 completa, 90 conjugada, 67 de densidades Pearsoniana, 79 exponencial de densidades k-paramétrica, 80 p-dimensional de densidades, 80 unidimensional de densidades, 80 ÍNDICE DE MATERIAS Fisher información de, 85, 86 Fisher-Neyman criterio de factorización de, 77, 78 función crı́tica del test aleatorizado, 150 del test no aleatorizado, 152 de cuasiverosimilitud, 60 de densidad a posteriori, 66 a priori, 65 de distribución empı́rica, 18 muestral, 18 de potencia, 155 de verosimilitud, 51 de la muestra, 52 Glivenko-Cantelli teorema de, 22 hipótesis alterna, 149 compuesta, 149 estadı́stica, 148 juzgamiento de una, 148 nula, 149 simple, 149 sistema de, 149 homoscedasticidad, 182, 184 juzgamiento de la, 191 información de Fisher, 85, 86 intervalo aleatorio, 116 Bayesiano, 141 confidencial, 116 unilateral, 116 juzgamiento del ajuste, 208 método de Kolmogorov-Smirnov, 214 237 método de Pearson, 209 secuencial, 200 Khintchine teorema de, 14 Kolmogorov-Smirnov juzgamiento del ajuste, método de, 214 Koopman-Darmois familia o clase p-dimensional, 80 Lévy teorema de, 11, 12 lı́mite confidencial inferior, 116 inferior unilateral, 116 superior, 116 superior unilateral, 116 lı́mite central Lindeberg-Feller, teorema del, 16 Lindeberg-Lévy, teorema del, 15 Lehmann-Scheffé teorema de, 93 Ley débil de los grandes números, 14 fuerte de los grandes números, 15 máximo de la muestra, 18 método de la variable pivote, 117 de los momentos, 61 de máxima verosimilitud, 51 por analogı́a, 64 mı́nimo de la muestra, 18 mediana, 25 muestral, 18 modelo, 6, 49, 215 Beta, 104 de Pareto, 43, 105 238 ÍNDICE DE MATERIAS de Poisson, 106 exponencial desplazado, 43 Gama, 106 Gaussiano, 106 original, 9 probabilı́stico, 49 reducido, 9 Zeta, 105 momentos de estadı́sticas de orden, 23 muestrales centrales, 9 ordinarios, 9 muestra, 5 aleatoria, 6 bivariada, 128 ordenada, 18 censurada, 59 del tipo I, 59 del tipo II, 59 pareada, 128 piloto, 139 tamaño, 6 tamaño de la, 198 muestra simple tamaño de la, 139 muestras censuradas estimación, 59 Neyman Pearson lema de, 159 nivel confidencial, 116 del test, 153 parámetro de escala, 122 de localización, 122 natural, 81 Pearson estadı́stica de, 210–212 juzgamiento del ajuste, método de, 209 población, 5 principio de invarianza de un MLE, 58 probabilidad de error del tipo I, 153 procedimiento robusto, 96 promedio “windsordizado”, 97 de la muestra, 9 muestral, 9 poblacional, 13 recortado, 97 proporción muestral, 55 poblacional, 127 proporción poblacional estimación de la, 127 pruebas de Normalidad, 209 rango muestral, 18 Rao-Blackwell teorema de, 84 razón generalizada de verosimilitudes, 160 MLR, 167 monótona de verosimilitudes, 167 región confidencial, 117 crı́tica, 150 tamaño de la, 153 de aceptación, 150 de rechazo, 150 robustez, 96 semirango muestral, 18 sesgo del estimador, 71 suficiencia, 75 tamaño de la muestra, 6, 198 de la muestra simple, 139 de la región crı́tica, 153 ÍNDICE DE MATERIAS del test, 153 muestral, 6 test, 150 aleatorizado, 150 función crı́tica del, 150 consistente, 158 curva CO del, 156 de razón generalizada de verosimilitudes, 163 de razón simple de verosimilitudes, 159 insesgado, 156 LRT, 163 más potente, 158 nivel del, 153 no aleatorizado, 150 función crı́tica del, 152 secuencial de razón de verosimilitudes, 201 tamaño del, 153 UMP, 165 uniformemente más potente, 165 unidades estadı́sticas, 5 valor p, 169 variable aleatoria contaminada, 97 pivote, 117 pivote, 117 general, 120 método de la, 117 varianza mı́nima, 83 muestral, 9 Wald ecuación de, 206 Welch solución de, 184 239

Inferencia Estadı́stica: Guı́a para Estudiantes

Related documents

Products

Support

Inferencia Estadı́stica: Guı́a para Estudiantes

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib