00-Indice.indd 1 10/2/10 22:13:53 00-Indice.indd 2 10/2/10 22:13:53 Bioestadística sin dificultades matemáticas En busca de tesoros escondidos 00-Indice.indd 3 10/2/10 22:13:53 00-Indice.indd 4 10/2/10 22:13:53 Luis Prieto Valiente Inmaculada Herranz Tejedor Bioestadística sin dificultades matemáticas En busca de tesoros escondidos Análisis estadístico de datos en investigación médica y sociológica Para estudiantes y profesionales Incluye 500 ejercicios y 600 preguntas de autoevaluación Y ANEXO CON TODAS LAS SOLUCIONES ERRNVPHGLFRVRUJ Madrid - Buenos Aires - México, D.F. - Bogotá 00-Indice.indd 5 10/2/10 22:13:54 © Luis Prieto Valiente, Inmaculada Herranz Tejedor, 2010 Reservados los derechos. No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright. Ediciones Díaz de Santos www.diazdesantos.es/ediciones (España) www.diazdesantos.com.ar (Argentina) ISBN: 978-84-7978-959-6 Depósito legal: M. 8.259-2010 Diseño de Cubierta: P55 Servicios Culturales Fotocomposición: Estefanía Grimoldi Impresión: FER Fotocomposición, S. A. 00-Indice.indd 6 10/2/10 22:13:54 Este libro no hubiera sido posible sin la presencia decisiva de: Blanca, Md, PhD. Ana Belén y Luchi. Jaime y Alfonso. José Luis y Araceli. 00-Indice.indd 7 10/2/10 22:13:54 00-Indice.indd 8 10/2/10 22:13:54 Índice Introducción..................................................................................................... XV 1. Estadística Descriptiva. Distribuciones de Frecuencia ......................... 1.1. Etapas de una investigación.............................................................. 1.2. Tabulación de datos........................................................................... 1.3. Frecuencias Relativas, FR . .............................................................. 1.4. Distribuciones de Frecuencia, DF . .................................................. 1.5. Percentiles......................................................................................... 1.6. Calculando porcentajes de porcentajes............................................. 1.7. Tipos de estudios en Ciencias de la Salud........................................ No olvide recordar . .................................................................................... Autoevaluación . ......................................................................................... Análisis de la Base de Datos DARIO.......................................................... 2. Estadística Descriptiva. Medidas de Centralización y de Dispersión... 2.1. Medidas de dispersión....................................................................... 2.2. Medidas de dispersión en la muestra................................................ 2.3. Cálculo de promedios en Distribuciones de Frecuencia................... 2.4. Valores Estandarizados..................................................................... 2.5. La media ponderada.......................................................................... No olvide recordar . .................................................................................... Autoevaluación . ......................................................................................... Análisis de la Base de Datos DARIO.......................................................... 1 1 2 3 4 6 7 9 10 11 13 3. Estadística Descriptiva. Relación entre dos variables............................ 3.1. Cómo se estudia la relación entre dos variables .............................. 3.2. Relación entre dos variables cualitativas ......................................... 3.3. Independencia................................................................................... 25 25 26 29 15 16 18 19 20 20 22 23 24 IX 00-Indice.indd 9 11/2/10 13:17:05 X ÍNDICE 3.4. Relación entre una variable cualitativa y otra cuantitativa............... 3.5. Relación entre dos variables cuantitativas........................................ 3.6. Variables respuesta y Factores. Respuesta y Efectos........................ No olvide recordar....................................................................................... Autoevaluación............................................................................................ Análisis de la Base de Datos DARIO.......................................................... 4. R elación entre tres variables. Análisis estratificado. Confusión e Interacción ....................................................................................................... 4.1. Presuntas Paradojas . ........................................................................ 4.2. Confusión.......................................................................................... 4.3. Interacción......................................................................................... 4.4. Modos de medir el efecto y la Interacción: Aditivo y Multiplicativo... 4.5.Ejemplos de Confusión y de Interacción con variable respuesta continua................................................................................................... 4.6.+++ Los fundamentos lógicos del Análisis Multivariado. Dos confusores simultáneamente................................................................... No olvide recordar . .................................................................................... Autoevaluación . ......................................................................................... Análisis de la Base de Datos DARIO.......................................................... 32 33 34 36 37 39 43 43 45 47 49 50 53 56 57 59 5. Proporciones y Probabilidad. Teorema de Bayes................................... 5.1. Frecuencias Relativas y Probabilidades............................................ 5.2. Multiplicación de Probabilidades .................................................... 5.3. El azar y la necesidad........................................................................ 5.4. Probabilidades conjuntas, marginales y condicionadas.................... 5.5. Teorema de Bayes ............................................................................ 5.6. Tests Diagnósticos............................................................................. No olvide recordar . .................................................................................... Autoevaluación . ......................................................................................... 61 61 63 64 66 67 70 73 74 6. Distribuciones de Probabilidad: Binomial y Poisson............................. 6.1. Poblaciones y Muestras . .................................................................. 6.2.La variabilidad e incertidumbre inherente a la extracción de una muestra.............................................................................................. 6.3.La Regularidad propia del Muestreo Aleatorio, MA. Distribución Binomial............................................................................................ 6.4. ¿Para qué vale la Regularidad propia del MA?................................. 6.5. Distribución Binomial en general. ................................................... 6.6. Media y Desviación de la Distribución Binomial............................. 6.7. Distribución de Poisson. Binomial con N grande y π pequeña........ 6.8. Distribución de Poisson sin haber una Binomial explícita............... 6.9. +++ Partículas disueltas en líquidos................................................. No olvide recordar . .................................................................................... Autoevaluación . ......................................................................................... 77 77 00-Indice.indd 10 78 79 82 82 84 85 87 89 91 92 11/2/10 13:18:43 00-Indice.indd 11 ÍNDICE XI 7. Distribución Normal y Teorema Central del Límite.............................. 7.1. Distribución de variables continuas.................................................. 7.2. La Distribución Normal ................................................................... 7.3. Distribución de las Medias Muestrales en el MA............................. 7.4. La DN es el límite de la Binomial con N grande y π fijo................ No olvide recordar....................................................................................... Autoevaluación............................................................................................ 95 95 97 101 104 107 108 8. Inferencia Estadística con una Proporción............................................. 8.1. Inferencia Estadística con una proporción........................................ 8.2. Intervalo de Confianza para proporción poblacional π..................... 8.3. Test de Significación con una proporción......................................... 8.4. Valor P del test con Binomial con resultado extremo....................... 8.5. El valor P del test con resultado no extremo. P de la cola................ 8.6.Probabilidad del valor encontrado en la muestra y probabilidad de la cola.................................................................................... 8.7.Cálculo del valor P del test en Binomial con N grande. Aproximación Normal....................................................................................... 8.8. Resultados estadísticamente “significativos” y “muy significativos”. Las barreras del 5% y del 1%.................................................. 8.9. +++ El riesgo de rechazar HO equivocadamente............................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ Análisis de la Base de Datos DARIO.......................................................... 111 112 113 114 115 116 119 122 124 126 128 129 132 9. Inferencia Estadística con una Media...................................................... 9.1. Intervalo de Confianza para una media............................................. 9.2. El Valor P con σ desconocida y DN.................................................. 9.3. Valor P a una cola y a dos colas........................................................ 9.4. Test con una media no conociendo σ................................................ 9.5. Muestras muy pequeñas.................................................................... 9.6. El Valor P del test NO es la probabilidad de que sea cierta la HO. ... 9.7. La probabilidad de la HO y el Valor P del Test.................................. 9.8. Intervalo de Confianza versus Tests Estadísticos.............................. 9.9. +++ Ausencia de Normalidad y tests no paramétricos...................... 9.10. +++ Tests de Normalidad.................................................................. 9.11. +++ Tests no paramétricos................................................................ 9.12. +++ Estimadores sesgados y estimadores insesgados. Varianza muestral = SC/(N-1).......................................................................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ Análisis de la Base de Datos DARIO.......................................................... 133 133 134 136 137 139 140 141 142 144 145 146 10. La Inferencia Estadística con dos Medias............................................... 10.1. Intervalo de Confianza para diferencia de dos medias...................... 10.2. Tests para la comparación de dos medias......................................... 153 154 155 147 149 150 152 11/2/10 13:20:24 XII ÍNDICE 10.3. IC para diferencia de dos medias con datos apareados .................... 10.4. Tests para diferencia de dos medias con datos apareados................. 10.5. +++ Asunciones del test “t” para comparar dos medias .................. 10.6. +++ Tests No Paramétricos............................................................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ Análisis de la Base de Datos DARIO.......................................................... 159 160 162 163 165 166 169 11. La Inferencia Estadística con dos Proporciones..................................... 11.1. Intervalo de confianza para π2 - π1.................................................... 11.2. Test para la igualdad de proporciones poblacionales........................ 11.3. Comparación de dos proporciones con datos apareados................... 11.4. Dos proporciones: datos apareados versus datos independientes..... No olvide recordar....................................................................................... Autoevaluación............................................................................................ Análisis de la Base de Datos DARIO.......................................................... 171 171 172 175 176 178 179 182 12.Tamaño de muestra para estimación....................................................... 12.1. Una anécdota para llamar la atención sobre un error........................ 12.2. Tamaño de muestra para estimar una proporción............................. 12.3. Tamaño de muestra para estimar diferencia de dos proporciones..... 12.4. Tamaño de muestra para estimar una media .................................... 12.5.Elementos de subjetividad e imprecisión al aplicar la fórmula para estimar una media ............................................................................ 12.6. Tamaño de muestra para estimar diferencia de dos medias ............. 12.7. Mitos y realidades en el tamaño de la muestra................................. 12.8. Tamaños de muestra inadecuados..................................................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ 13. Diseños Caso-Control................................................................................ 13.1. Riesgo Específico y Riesgo Relativo................................................ 13.2. Concepto de ODD y ODD Ratio (OR)............................................. 13.3. En población OR(P´s) = OR(R´s)..................................................... 13.4. Proximidad entre los valores de OR y RR........................................ 13.5. Tipos de muestreo: Prospectivos y Retrospectivos........................... 13.6. Inferencias sobre OR . ...................................................................... 13.7. Recordando el Análisis Estratificado y la Confusión........................ 13.8. Análisis estratificado en diseños Caso-Control................................. 13.9. +++ Medidas de Impacto: Riesgos Atribuibles................................. 13.10. +++ Riesgos Atribuibles: Estimadores en C-C ................................ No olvide recordar....................................................................................... Autoevaluación............................................................................................ 183 184 184 186 188 14. Tablas de Contingencia ............................................................................ 14.1. Tablas R x C: R muestra con C categorías........................................ 219 220 00-Indice.indd 12 189 190 192 193 195 196 199 200 200 202 202 203 206 208 209 212 213 215 216 11/2/10 13:21:29 00-Indice.indd 13 ÍNDICE XIII 14.2. Comparación de varias proporciones . ............................................. 14.3. Colapsando tablas............................................................................. 14.4. El tipo de muestreo en las Tablas de Contingencia........................... 14.5. +++ Cálculo para tests con Tablas de Contingencia......................... 14.6. +++ Una muestra con C categorías .................................................. No olvide recordar....................................................................................... Autoevaluación............................................................................................ 222 224 226 227 229 232 233 15. Análisis de Varianza ................................................................................. 15.1. La salida típica con los resultados del Anova................................... 15.2. Suma de Cuadrados y Media Cuadrada Dentro de grupos............... 15.3. Suma de Cuadrados y Media Cuadrada Entre de grupos.................. 15.4. La razón de medias cuadradas o Razón F y el valor P...................... 15.5. Los fundamentos lógicos del Análisis de Varianza........................... 15.6. +++ La Homogeneidad de Varianzas................................................ 15.7.+++ El test de Homogeneidad de Varianzas tiene poca potencia estadística cuando son muestras pequeñas .......................................... 15.8. +++ Tests No Paramétricos para comparar más de dos medias........ 15.9. +++ La condición de Normalidad..................................................... 15.10. +++ Anova con tamaños desiguales.................................................. 15.11. +++ Comparaciones post-Anova...................................................... 15.12. +++ Comparaciones a priori: dos medias o dos grupos.................... 15.13. +++ Comparaciones a priori de Tendencia Lineal............................ 15.14. +++ El problema de las comparaciones múltiples............................ 15.15. +++ Sesgo de publicación................................................................. 15.16. +++ Comparaciones a posteriori tras el Anova................................. No olvide recordar....................................................................................... Autoevaluación............................................................................................ 235 236 236 237 237 240 242 16. Regresión Lineal........................................................................................ 16.1. Crecimiento y decrecimiento lineal.................................................. 16.2. Recta más ajustada a los datos. Criterio de mínimos cuadrados....... 16.3. Recta de Mínimos Cuadrados en la muestra..................................... 16.4. Coeficiente de Correlación Lineal y Coeficiente de Determinación. 16.5. Regresión Lineal: Modelo poblacional y Muestreo.......................... 16.6. Inferencia en la Regresión Lineal..................................................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ 265 266 269 270 273 274 275 280 281 17. La Inferencia Bayesiana............................................................................ 17.1. Probabilidad “a priori” frecuentista.................................................. 17.2. La PPOSTERIORI depende de la PPRIORI.................................................... 17.3. La PPOSTERIORI depende del resultado del experimento actual............. 17.4. Inferencia Bayesiana en la investigación real................................... 17.5. La Probabilidad A PRIORI “subjetiva”.................................................. 17.6. Acotando los posibles valores de probabilidad................................. 285 286 287 288 289 291 292 244 244 247 247 248 249 251 253 254 255 258 260 11/2/10 13:22:26 XIV ÍNDICE 17.7.Si el resultado del experimento actual es muy claro las PPRIORI son poco relevantes.................................................................................. 17.8. Varios valores para la hipótesis alternativa....................................... 17.9. La Inferencia Clásica y la Inferencia Bayesiana............................... No olvide recordar....................................................................................... Autoevaluación............................................................................................ 18.Potencia Estadística de una investigación y tamaño de muestra para tests . ................................................................................................. 18.1. Error tipo I y Error Tipo II. Región Crítica de Rechazo................... 18.2. Potencia estadística de un test........................................................... 18.3. Potencia estadística de un estudio con variable cualitativa............... 18.4. Tamaño mínimo de muestra para tests con Una Proporción............. 18.5. Tamaño mínimo de muestra para tests con Dos Proporciones.......... 18.6. Tamaño mínimo de muestra para tests con Una Media.................... 18.7. Tamaño mínimo demuestra para tests con Dos Medias.................... 18.8. Tamaños extremadamente pequeños o grandes................................ 18.9. Potencia de un estudio programada y significación estadística del resultado obtenido............................................................................. No olvide recordar....................................................................................... Autoevaluación............................................................................................ Apéndice A: Más sobre probabilidad . .......................................................... Apéndice B: Más sobre el valor P del test...................................................... Apéndice C: Cálculo de la Recta de Regresión............................................. Tablas Estadísticas........................................................................................... Soluciones de los ejercicios.............................................................................. 00-Indice.indd 14 293 294 295 296 297 299 299 301 304 306 309 311 312 314 315 318 319 323 331 345 351 361 11/2/10 13:23:09 Introducción ¿QUÉ ES EL ANÁLISIS ESTADÍSTICO DE DATOS? Del salón en el ángulo oscuro, de su dueño tal vez olvidada, silenciosa y cubierta de polvo, veíase el arpa. ¡Cuánta nota dormía en sus cuerdas, como el pájaro duerme en la rama, esperando la mano de nieve que sabe arrancarla! ¡Ay —pensé— cuántas veces el genio así duerme en el fondo del alma y una voz como Lázaro espera que le diga “levántate y anda”! 1.El tesoro escondido Quizá la más bella rima de Bécquer es un canto a los maestros en general, a todo el que ayuda a otro a saber más o hacer mejor, cuyo paradigma sería Ana Sullivan. Pero también alude a todos los que buscan y encuentran tesoros escondidos, como los especialistas en Análisis Estadístico de Datos, AED. Los submarinistas bucean en los mares y encuentran galeones hundidos hace siglos con cofres repletos de joyas. Los buscadores de Alaska criban la arena de los ríos propicios y encuentran pepitas de oro. Miguel Ángel y Rodin separan del bloque de mármol los trozos periféricos no necesarios y encuentran La Piedad, El David, El Pensador, El Beso. XV 00-Indice.indd 15 10/2/10 22:13:54 XVI introducción Los expertos en AED bucean en las bases de datos, criban grandes listas de números, desechan los no necesarios y encuentran relaciones no conocidas hasta ese momento, tales como: – en los fumadores fallan más veces los implantes dentarios; – los masajes oculares retrasan la aparición de “vista cansada”; – la aspirina disminuye notablemente el riesgo de enfermedad cardiovascular. Por ejemplo, el archivo de Historias Clínicas de un gran hospital que tiene 200 000 expedientes y unos 300 datos de interés en cada uno, contiene 60 millones de datos. Esa gran colección de números encierra información muy útil, pero solamente usando las herramientas adecuadas se pueden desenterrar los tesoros escondidos en ella. La función del AED es sacar a la luz la información inmersa en bases de datos como los archivos de hospitales, censos de población, y registros de resultados de encuestas y estudios de todo tipo. 2.Los mismos métodos en todas las aplicaciones, la misma asignatura en todas las carreras universitarias Todas las encuestas que evalúan las opciones políticas que elegirán los votantes, los productos que prefiere el consumidor, el alivio del dolor que produce un fármaco, el perjuicio que para la salud supone el sedentarismo… son analizadas con los mismos métodos. Así, para calcular la media aritmética de la edad de un grupo de personas o de la puntuación obtenida en un test de inteligencia, el procedimiento es el mismo: sumar las cantidades de todas las personas y dividir por el número de ellas. Y para calcular el porcentaje de matrimonios que se divorcian o de accidentes de tráfico en que el conductor iba ebrio, se divide el número de casos en que se da esa característica por el total de ellos y se multiplica por cien. El AED es básicamente el mismo en todas las áreas: medicina, sociología, economía, control de calidad... Por ello, en Occidente esta disciplina se imparte como obligatoria en prácticamente todas las licenciaturas universitarias y aunque el nombre varía según la carrera, en todas ellas el contenido es esencialmente el mismo. Conocer los fundamentos lógicos, que no matemáticos, del AED es una necesidad para el científico y el profesional de este siglo, porque ello le permite entender aspectos importantes de la información que son inaccesibles al que ignore esos conceptos básicos. Al aprender estos métodos se está adquiriendo una herramienta útil en todos los campos de investigación. 3.Una herramienta cada vez más necesaria en la investigación científica, la gestión empresarial y el control de calidad El auge del AED en los últimos decenios se debe a dos hechos: 00-Indice.indd 16 10/2/10 22:13:54 introducción XVII a)El creciente desarrollo tecnológico permite generar información detallada masiva sobre los más diversos temas de interés. b)El desarrollo de la informática permite analizar esa información con rapidez, precisión y bajo costo, inimaginables hace 40 años. Aunque de lo dicho se desprende que el AED es herramienta necesaria para analizar la información que continuamente se genera en todas las ramas de saber y de la actividad social, son especialmente clarificadoras las palabras de Deming, padre del milagro industrial japonés: “Ningún recurso es tan escaso en las empresas como el conocimiento estadístico. No hay conocimiento que pueda contribuir tanto a mejorar la calidad, la productividad y la competitividad de las empresas como el de los métodos estadísticos”. E Ishikawa, otra de la figuras claves en el desarrollo industrial nipón dice: “Las herramientas estadísticas básicas deben ser conocidas y utilizadas por todo el mundo en una empresa, desde la alta gerencia hasta los operarios en las líneas” (R. Romero y L Zúñiga. Métodos Estadísticos en Ingeniería. Ed. Uni. Politécnica de Valencia. 2005. Pág. 3). 4. Los investigadores y profesionales aceptan con sumisión veredictos que no entienden Más del 90% de los profesionales desconocen los conceptos básicos (de naturaleza lógica, no matemática) manejados en el AED, a los que se enfrentan ineludiblemente cuando leen informes técnicos y cuando tienen que comunicar sus propios resultados. Los cálculos del AED son para ellos una caja negra de la que salen números o frases incomprensibles que se ven obligados a usar por imperativo de la comunidad científica. Y creyendo que para entender esos conceptos necesitan habilidades matemáticas que no tienen, se resignan a no entenderlos y se refugian en recetas simplistas, repitiendo una y otra vez frases hechas que estorban más que ayudan, pues no las entiende ni quien las enuncia ni quien las lee. Ejemplos típicos son: “La muestra de N = 250 es estadísticamente representativa” “El resultado es estadísticamente significativo (P < 0.05)”. Estas son las estaciones del vía crucis que sufren muchos profesionales cuando planean un estudio, publican sus resultados o leen los publicados por otros investigadores 1ºEn primer lugar tiene que decidir el tamaño de la muestra que va a estudiar. Cree que hay fórmulas matemáticas para ello, las busca con esmero, no consigue entender cómo se aplican y suele tardar decenios en descubrir que en la decisión del tamaño de la muestra esas fórmulas tienen escaso, muchas veces nulo, peso. 2ºCualquier efecto de interés que encuentre en la muestra, por ejemplo, que una medicina cura más que otra, puede ser un artefacto debido a la Confusión creada por una tercera variable. Detectar factores de confusión es tarea obligada en toda investigación, pero para la mayoría de los investigadores es tarea imposible porque ignoran ese concepto. 00-Indice.indd 17 10/2/10 22:13:54 XVIII introducción 3º Una vez identificado el resultado muestral correcto, hay que ver cuánta evidencia constituye a favor de la hipótesis investigada. De ello nos informa el valor P, pero el investigador no sabe interpretarlo e intenta usarlo para tomar decisiones donde no hay nada que decidir. 4ºFinalmente, los investigadores ignoran incluso la existencia de la Inferencia Bayesiana, que debería formar parte esencial del análisis estadístico, no como alternativa, sino como complemento de los métodos clásicos. Pero este estado de desconocimiento e insatisfacción puede ser revertido. Podemos revelarnos contra él y cambiar la caja negra por un pequeño conjunto de ideas claras que permitan interpretar correctamente los resultados del AED. Este libro pretende colaborar a poner fin a tanta desinformación, enseñando a los investigadores esos conceptos básicos, de modo que puedan actuar cómoda y correctamente donde ahora actúan con inseguridad y muchas veces con error. 5.Una disciplina matemática al servicio de y entendible por los profesionales sin conocimientos matemáticos El AED es, en sus fundamentos teóricos y en sus aplicaciones prácticas, una disciplina matemática, pero está al servicio de profesionales no matemáticos y puede ser entendida y usada con eficiencia sin entrar en las razones matemáticas que la sustentan. Los razonamientos lógicos del AED son los mismos que utiliza el hombre de la calle en la actividad cotidiana. No hay ningún proceso mental sofisticado que sea propio del análisis estadístico. Por ello pueden entenderlo todas las personas que se lo propongan, cualquiera que sea su formación previa. Ronald Fisher, la figura más destacada de la estadística teórica y aplicada de todos los tiempos dice: “Las conclusiones lógicas que siguen a los cálculos estadísticos… son una cuestión exclusiva de la capacidad pensante de los humanos. Todas las personas inteligentes están igualmente capacitadas para ello y los estadísticos no tienen especial autoridad en ese aspecto” (Fisher, R. The design of experiments. Hafner Press. N.Y. 1935. Pág. 1-2). 6.El 5% de los métodos cubren el 80% de las necesidades En este libro se ven los conceptos fundamentales y las técnicas más sencillas del AED, que integran el “Análisis Elemental”. Este Análisis Elemental constituye del orden del 5% de esta disciplina, pero cubre más del 80% de los análisis requeridos en las investigaciones habituales. Un símil fiel sería el número de palabras que se usan habitualmente en un idioma. El castellano, por ejemplo, tiene más de cien mil términos, pero con el 3% de ellos (unos 3 000) se confecciona más del 80% de las conversaciones habituales. El AED contiene cientos de técnicas, algunas muy sofisticadas y potentes, que se aplican para resolver cuestiones específicas de gran interés. Pero la inmensa 00-Indice.indd 18 10/2/10 22:13:54 introducción XIX mayoría de los análisis requieren en primer lugar el uso del Análisis Elemental y muchos estudios quedan básicamente completados con esas técnicas básicas. 7.El AED usa valores medios El AED opera calculando valores medios de las variables implicadas en ciertos grupos de individuos. En el AED no interesa el valor que la variable toma en cada individuo, sino la media del grupo. Así, para diagnosticar y tratar correctamente a un enfermo, el médico debe saber cuanto fuma y su tensión arterial, TA. Pero para saber si fumar aumenta la TA, el médico tiene que conocer la media de la TA en el grupo de fumadores y el grupo de no fumadores. Muchas de las frases con que describimos los más variados aspectos del mundo en torno se refieren a valores medios, aunque no lo digan explícitamente. Decimos “Fumar incrementa la TA”, aunque haya fumadores con TA inferior a algunos no fumadores, porque la media de la TA es mayor en el colectivo de fumadores que en el de no fumadores. Decimos “Comer poco alarga la vida en los ratones”, aunque alguno de ellos con dieta escasa haya muerto antes que otros con dieta abundante, porque la media de supervivencia fue mayor en el primer grupo que en el segundo. Del mismo modo, muchas de las afirmaciones que describen relaciones en el mundo vivo y el inerte se refieren a medias, aunque no se hace explícito. Y calculando promedios de unas variables en distintos grupos de individuos el AED puede detectar relaciones no conocidas previamente. En el caso de variables tipo “sí” o “no” se evalúa la proporción de individuos con esa característica en los grupos de interés. Así, decimos “La obesidad favorece la diabetes”, aunque haya obesos sin diabetes y delgados con ella, porque la proporción de diabéticos es mucho mayor en el colectivo de obesos que en el de no obesos. 8. Estadística Descriptiva e Inferencia Estadística Pero cada vez que analizando unos datos concretos se detecta en ellos una relación interesante nos preguntamos si el hallazgo encontrado en la muestra analizada es una verdad general, válida para toda la población. Por ejemplo, si en la muestra analizada se encuentra que la media de la TA es mayor en el grupo de sedentarios que en el de deportistas, la cuestión es: ¿ocurre eso en la población general o es una anécdota de nuestra muestra? Puesto que generalmente observamos muestras que son solo una pequeña parte de la población que intentamos conocer, esa pregunta es constante en todos los campos de la actividad científica, del análisis de encuestas y del control de calidad. Por ello en el AED se distinguen dos fases claramente diferenciadas y complementarias: –La Estadística Descriptiva describe las relaciones de interés en las muestras que estamos explorando, calculando medias y proporciones en ellas. –La Inferencia Estadística valora en qué medida las relaciones encontradas en nuestros datos ocurren también en la población general. 00-Indice.indd 19 10/2/10 22:13:54 XX introducción 9. La Estadística Descriptiva descubre las relaciones en la muestra Calcula medias y proporciones en distintos subgrupos de individuos de las muestras analizadas. Un ejemplo típico sería: Entre 600 pacientes con cierta enfermedad tratados con el fármaco “A” curaron el 32%, y entre otros 600 con la misma enfermedad tratados con el fármaco “B” curaron 50.3%. La interpretación de estos resultados es obvia. Pero en otros casos la interpretación correcta de los resultados puede requerir reflexión cuidadosa, como se ve en estos ejemplos: En una ciudad de 100 000 habitantes practican deporte (PD) 1 000, es decir, el 1%. Tras una campaña animando a los vecinos a que PD se consigue que lo hagan otros 1000. El alcalde dice que el número de personas que PD se ha duplicado, es decir, ha aumentado el 100%. Pero la oposición dice que antes de la campaña eran sedentarias 99% y tras ella lo son 98%, es decir, el sedentarismo bajó solamente un 1%. Son dos enfoques muy diferentes de una misma realidad. Como otro ejemplo veamos los resultados de un estudio que analiza el porcentaje de curaciones, “%+”, obtenidas con cada uno de dos tratamientos, ‘A’ y ‘B’, para la misma enfermedad. Mujeres Varones Total Total 100 500 600 A + 80 110 190 %+ 80% 22% 32% Total 500 100 600 B + 300 2 302 %+ 60% 2% 50.3% En mujeres “A” cura el 80% y “B” cura el 60%. En varones “A” cura el 22% y “B” cura el 2%. Por tanto, “A” es más efectivo que “B” tanto en mujeres como en varones. Pero si no se considera el sexo y se comparan los resultados en “personas” (última fila de la tabla), se ve que “A” es peor que “B”. Estos datos dejan confuso al investigador. Se pregunta cuál de los dos tratamientos es, según estas muestras, más efectivo, pues parece haber argumentos a favor de uno y a favor del otro. Aclarar este tipo de “contradicciones” es esencial para interpretar correctamente los datos y uno de los objetivos de la Estadística Descriptiva. 10. La Inferencia Estadística se basa en el cálculo de probabilidades En biología, medicina, estudio de mercados y sociología hay pocas certezas. Las actitudes correctas no garantizan la respuesta buscada, solo aumentan la probabilidad de que ocurra. Suele pensarse que el cálculo de probabilidades implica notable complejidad matemática, pero la realidad es que en sus aplicaciones más frecuentes solo contiene cálculo matemático muy elemental y razonamiento lógico al alcance de todas las personas. Veamos con cuatro ejemplos algunas de sus aplicaciones. 1.El ciudadano de a pie observa admirado la vertiginosa ascensión de algunos personajes del mundo de las finanzas. Pero muchos de esos triunfadores no tienen ninguna habilidad especial, son solamente la consecuencia ne- 00-Indice.indd 20 10/2/10 22:13:54 introducción XXI cesaria de las leyes del azar. Sea un millar de ejecutivos que teniendo un capital inicial de 100 000 € y mucha ambición deciden arriesgarlo todo en operaciones donde hay probabilidad 0.50 de duplicar su dinero en un año y 0.50 de perderlo todo. En el primer intento unos 500 de ellos perderán su capital inicial y los otros 500 lo duplican. Si estos últimos lo invierten todo en otra operación similar, 250 perderán todo y otros 250 tendrán 400 000 €. Si estos 250 repiten el proceso, unos 125 tendrán ahora 800 000 €. Hasta aquí los “supervivientes” se han arriesgado tres veces. El cálculo de probabilidades nos permite saber que si continúan haciéndolo hasta 8 veces, aproximadamente 4 de los 1000 iniciales van a tener éxito en los 8 intentos y su capital llegará a 25 600 000 €, por azar e independientemente de sus habilidades. Son los triunfadores del momento. El público los mira con admiración. Pero ellos no han hecho nada especial. Todo el que conoce el cálculo elemental de probabilidades sabía desde el principio que 4 de ellos, aunque no se supiera cuales, superarían las 8 primeras apuestas. 2. En una ciudad de 4 millones de habitantes la enfermedad “E”, que es mortal si no se diagnóstica a tiempo, afecta a 4 000 de ellos. Se pone en marcha un método diagnóstico precoz que da positivo en el 99% de los enfermos, pero también da positivo (equivocadamente) en el 20% de los sanos. Se somete a ese método a todos los ciudadanos y en los que da positivo son convocados a un estudio más completo para averiguar si realmente tienen E. La mayoría de los convocados están muy asustados e incluso han hecho testamento, pues asumen que tienen alta probabilidad de tener E. Pero los pocos que conocen el cálculo elemental de probabilidades saben que su probabilidad de tener E es solamente 5 por mil. 3.En un famoso concurso de la TV el presentador muestra al concursante tres cajas iguales cerradas. Dos están vacías, la otra contiene 20 000 €. El concursante elige una y si es la del dinero se lo queda. Tras la elección del concursante, el presentador (que sabe cuál es la caja buena), para dar más animación al proceso señala una de las cajas no elegidas, le dice que esa no es la buena y le pregunta si quiere reafirmarse en su elección inicial o prefiere cambiar a la otra. El concursante se debate en la duda. Se pregunta si elegir la otra caja supone aumentar, disminuir o dejar igual la probabilidad de acertar, pero no sabe la respuesta a esa pregunta. Solamente la saben los que conocen el cálculo elemental de probabilidades. 4.Como último ejemplo de Inferencia Estadística consideremos el caso de una enfermedad para la que no hay tratamiento y cura espontáneamente en el 20% de los casos. Un investigador cree que el producto “A” cura más del 20%, lo prueba en 8 enfermos y se le curan todos. Muchos miembros de la comunidad científica objetarán que tan buen resultado puede haberse presentado por azar, sin que “A” sea realmente efectivo, ya que es una muestra muy pequeña. Es una objeción muy razonable, pero los que conocen el cálculo elemental de probabilidades enseguida comprueban que podemos tener gran confianza en que “A” es realmente efectivo. 00-Indice.indd 21 10/2/10 22:13:55 XXII introducción EL LIBRO Expone las ideas fundamentales aplicándolas siempre a situaciones concretas que entienden los estudiantes y profesionales de todas las disciplinas y sin utilizar más recursos matemáticos que las operaciones aritméticas elementales, de modo que sea accesible a todos, cualquiera que sea su nivel de formación en Ciencias. La explicación de cada nuevo concepto se sigue de numerosos ejemplos y ejercicios prácticos que deben ser resueltos para afianzar esos conocimientos. El énfasis se pone en los conceptos básicos que permiten entender los principios lógicos y procedimientos más comúnmente usados. No se entra en detalles que se usan con menor frecuencia y que el lector puede encontrar en libros más extensos, algunos de los cuales se reportan a continuación. Para el lector interesado en realizar él mismo los cálculos más sencillos, se incluyen las fórmulas más usadas. Todos los conceptos fundamentales pueden entenderse sin conocerlas, pero conocerlas puede ayudar a entenderlos mejor y además permite aplicarlas a los propios datos sin depender de un programa informático. Algunos capítulos incluyen uno o más apartados con explicaciones complementarias que amplían conceptos ya expuestos pero no son imprescindibles para seguir el hilo del razonamiento central. Su título aparece precedido por tres signos positivos (+++). El lector que quiera centrarse en las ideas básicas no necesita entrar en estos temas avanzados. Sin embargo, serán muy útiles al que desee adentrarse más en los fundamentos lógicos. El Resumen al final de cada capítulo sintetiza las ideas fundamentales desarrolladas en él. Si el contenido de alguna frase del resumen no es claro para el lector, este debe buscar en el texto su explicación antes de pasar al siguiente capítulo. La Encuesta de Autoevaluación de cada capítulo ayuda a repasar los conceptos vistos en él y a evaluar el nivel de conocimientos en ese tema. Se ha asimilado el tema cuando se han respondido correctamente más del 85% de las preguntas. Si la puntuación es inferior, se necesita revisar el capítulo. El último apartado de algunos capítulos, Análisis con Ordenador, propone al lector que realice con un paquete de programas estadísticos de su elección una serie de cálculos sobre la base de datos “DARIO”, y le da los resultados que debe obtener. La presentación de esta base de datos se da a continuación y los datos están en la dirección de Internet www.metodologiadelainvestigacion.es. Contenidos peculiares del libro Hay muchos libros —algunos muy buenos— que exponen los fundamentos del análisis de datos en ciencias biomédicas, sociales y económicas. Por ello los autores de éste se resistieron durante decenios a hacer uno más. Al fin se deciden a publicar este porque estiman que se diferencia claramente de otros en el enfoque de los siguientes temas: – El Teorema de Bayes y su uso práctico. 00-Indice.indd 22 10/2/10 22:13:55 introducción – – – – – XXIII El Efecto de Confusión y su control con Análisis Estratificado. Las Distribuciones Estadísticas básicas. Los Diseños Caso-Control. El valor P de los tests estadísticos. El tamaño de Muestra. Lecturas sugeridas • A rmitage P, Berry G. Statistical methods for medical researchers. Blackwell. 1996. • Box G.E., Hunter W.G., Hunter J.S. Statistics for experimenters. John Wiley. 2008. • Martín Andrés A, Luna del Castillo JD. Bioestadística + para las Ciencias de la Salud. Norma-Capitel. 2004. • Prieto L, Herranz I. ¿Qué significa ‘estadísticamente significativo’? La falacia del criterio del 5% en la investigación científica. Madrid. Díaz de Santos. 2005. • Prieto L, Herranz I. Bioestadística. Madrid. Editorial universitaria. 2008. • Romero R, Zúnica L. Estadística. Universidad de Valencia. 2004. • Rothman K. Modern Epidemiology. Little Brown. Toronto. 1986. • Snedecor G, Cochran WG. Statistical Methods. John Wiley and sons. 1982. • García Márquez G. Cien años de soledad. • Borges JL. La Biblioteca de Babel y La Lotería de Babilonia. • Darío R. La marcha triunfal, Sonatina, Canción de otoño en primavera. 00-Indice.indd 23 10/2/10 22:13:55 XXIV introducción LA BASE DE DATOS DARIO Al final de algunos capítulos se propone al lector una serie de cálculos sobre esta base de datos, para que los realice con un paquete estadístico de su elección. 300 personas fueron tomadas al azar usando el censo de la población de Granada. En cada una se evaluó 20 variables relativas a su estado de salud, a los hábitos de vida que pueden influir en ella y a su opinión sobre cuestiones de ese ámbito. En este archivo se incluyen diez de ellas, para las 200 personas que aceptaron volver a medirse la TAD tras un día de ayuno total (salvo agua). Variable Edad Valores En años Sexo 1 = Varón, 2 = Mujer Deporte3 Practica ejercicio con regularidad 0 = No práctica, 1= Práctica moderada, 2 = Práctica intensa Dieta Hace dieta hipocalórica 0 = No, 1 = Sí Yoga Practica yoga con regularidad 0 = No, 1= Sí ResisInf Resistencia a las infecciones 0 = Baja, 1 = Moderada, 2 = Media, 3 = Alta Ministro Qué opinión le merecería que se designase como Ministro de Sanidad a una persona ajena a todos los ámbitos de ese tema. Escala de 0 (= muy mal) a 10 (= muy bien) Sanidad Qué opinión tiene sobre la sanidad pública, en una escala de 0 (= muy mala) a 100 (= muy buena) Tad Tensión arterial diastólica en mm de Hg, en condiciones basales Tadpost Tensión arterial diastólica en mm de Hg, TRAS un día de ayuno total A partir de las variables anteriores genere usted las tres siguientes: Deporte2 Diftad Edad2 00-Indice.indd 24 0 = Sedentarios No practica ejercicio con regularidad 1= Activos practica ejercicio (son los ‘1’ y ´2’ de “Deporte3”) = Tadpost - Tad 1 = menores de 40 años, 2 = 40 o más años 10/2/10 22:13:55 introducción XXV Abreviaturas más usadas en este texto Cada una de las cuatro abreviaturas que siguen se usa cientos de veces en el libro. Abreviatura Expresión completa, descripción y apartado en que se explica Frecuencia Relativa (singular o plural) FR Relacionan el tamaño de una parte con el tamaño total de un colectivo. Apartado 1.4 DF Distribución de Frecuencias (singular o plural) Dice la cantidad o la FR de individuos que tienen cada valor de una variable o están incluidos en cada intervalo. Apartado 1.5 Prob Probabilidad (singular o plural) La FR de veces que aparece cierto resultado si un fenómeno aleatorio se repite millones y millones (un número indefinidamente grande) de veces. Apartado 5.1 Muestreo Aleatorio MA 00-Indice.indd 25 El hecho de extraer de una población millones y millones (un número indefinidamente grande) de muestras del mismo tamaño. Apartado 6.3 10/2/10 22:13:55 00-Indice.indd 26 10/2/10 22:13:55 Capítulo 1 ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 1.1. Etapas de una investigación En toda investigación científica pueden identificarse estas fases que siguen un orden cronológico evidente. Para llevar a cabo cada una de ellas es imprescindible que las anteriores estén correctamente realizadas. 1. Diseño del estudio 2. Recogida de la información (fase de campo) 3. Análisis de la información: A. Tabulación de los datos B. Estadística Descriptiva C. Inferencia Estadística 4. Discusión y conclusiones 1. Diseño Es la planificación de todo lo que se va a hacer. Se confecciona un Protocolo en el que se justifica la necesidad de esa investigación, se demuestra su viabilidad y se explican los recursos y gastos que se emplearán. La elaboración del protocolo ayuda decisivamente a clarificar y ordenar las ideas, así como a prever las dificultades y prevenir sus soluciones. Además es necesario presentarlo a los comités científicos, económicos y éticos para obtener autorización y apoyo económico. 2. Recogida de la información: recopilación de datos (fase de campo) La calidad de los datos es requisito imprescindible para la validez de la investigación. Es fundamental la motivación adecuada de todas las personas implicadas. Los “decretos” pueden conseguir que se obtenga información, pero no que esta sea de calidad. Un ejemplo muy ilustrativo es el incremento del rendimiento del 1 01-cap1.indd 1 10/2/10 22:11:56 2 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS Departamento de Cálculo del Proyecto Manhattan cuando al ser encargado de ello R. Feynman consiguió motivarles informándoles del objetivo de su trabajo. Un segundo ejemplo más próximo en el espacio y en el tiempo es el Estudio Español de Malformaciones Congénitas (ECEMC), en el que desde hace 30 años más de un centenar de médicos recogen meticulosamente información sobre 200 variables de cada bebé malformado nacido en su centro y de otros tantos controles sanos. 3. Análisis de la información Comienza recopilando la información más relevante en forma de Tablas. Continúa haciendo Estadística Descriptiva de lo observado. Y culmina haciendo Inferencia Estadística para ver hasta qué punto los resultados encontrados en la muestra pueden extrapolarse a la población. 4. Discusión y conclusiones Se elaboran teniendo en cuenta los conocimientos previos que había sobre el tema y los resultados obtenidos en esta investigación. Esta disciplina, Análisis de Datos, cubre el tercer punto. Los cuatro primeros capítulos tratan de la Tabulación y la Estadística Descriptiva. El resto del libro se dedica a la Estadística Inferencial. 1. 2. Tabulación de datos A lo largo de la fase de campo de un estudio la información de los distintos individuos implicados se va recogiendo en Historias Clínicas (estudios hospitalarios), en Libretas de Laboratorio (investigaciones básicas con animales o cultivos) o en Encuestas Sanitarias (estudios epidemiológicos). Las características evaluadas en cada uno de los individuos se denominan variables. El análisis de esa información comienza con la Tabulación de los datos, que consiste en disponerlos en tablas donde cada fila corresponde a un individuo y cada columna corresponde a una variable. El siguiente esquema representa una tabla con datos de 200 individuos en los que se ha recogido, entre otras, las variables: sexo, grupo sanguíneo, número de caries, peso y edad. Para cada individuo, cada variable toma un valor concreto. Por ejemplo, el primer individuo, identificado con el número 1 es un hombre (codificamos con “1” a los hombres y con “2” a las mujeres), tiene grupo sanguíneo “AB”, tiene 3 caries, pesa 65.9 kg y tiene 18 años. 0BInd. nº Sexo Fuma Grupo S. 4 1 2 A 1 8 01-cap1.indd 2 1 2 --- --- 200 1 2 2 2 AB 0 ... Caries TA 1BEdad 65.0 42 3 65.9 2 59.4 3 --- --- AB 1 --- 83.7 18 25 --49 10/2/10 22:11:56 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 3 En general, las variables se clasifican en: • C ualitativas, si recogen alguna cualidad no numérica del individuo. Se llaman dicotómicas si presentan solamente dos posibilidades y politómicas si presentan varias posibilidades (ordenables o no). Los valores de este tipo de variables suelen registrarse con códigos numéricos, que no indican cantidad, sino un convenio, como por ejemplo 1 = Varón, 2 = Mujer. • Cuantitativas, si recogen una información numérica. Pueden ser discretas si toman valores enteros, como número de hijos o número de caries (1, 2, 3,… caries) o continuas si pueden tomar cualquier valor dentro de un intervalo, como edad, peso, tensión arterial… CUALITATIVA CUANTITATIVA Dicotómica. Sexo: 1=Varón, 2=Mujer Politómica. Grupo Sanguíneo: 1=A, 2=B, 3=AB, 4=O Politómica Ordenada. Higiene: 1=Nada, 2=Poca, 3=Media, 4=Mucha Discreta. Número de Caries Continua. Concentración de ácido úrico, Edad, TA ... La clasificación de los individuos en cada variable tiene que ser exhaustiva (todo individuo debe tener un grupo en el que encaje) y excluyente (cada individuo encaja solamente en un grupo). Las tablas así creadas contienen toda la información de interés, pero en muchos casos el investigador no está interesado en el valor que toma una variable en cada individuo, sino en la proporción de ellos con cierto valor o en la media de esa variable en un grupo. Una de las variables de nuestra tabla indica si fuman o no y la otra su tensión arterial, TA. Para diagnosticar y tratar a cada sujeto el médico necesita conocer su TA y cuánto fuma. Pero para investigar si fumar favorece la aparición de hipertensión hay que formar dos grupos de personas, los que fuman y los que no, y en cada uno de ellos ver la media de la TA o la proporción de hipertensos. Por ello el siguiente paso en el análisis de los datos es realizar la Estadística Descriptiva, que tiene por objeto resumir el comportamiento de cada una de las variables en el grupo estudiado y en cada subgrupo que sea de interés. Este resumen se hará de distinta forma dependiendo del tipo de variable. En todas ellas se pueden calcular Distribuciones de Frecuencia y en las cuantitativas se puede, además, calcular medias y desviaciones. 1. 3. Frecuencias Relativas, FR Las frecuencias relativas, FR, relacionan el tamaño de una parte con el tamaño total de un colectivo. Si decimos que en Oviedo hay 4 000 obesos y en Madrid hay 16 000, es claro que en la capital de España hay muchos más casos que en la de Asturias y la cantidad de recursos necesarios para asistir a estos pacientes es mucho mayor en la primera que en la segunda. 01-cap1.indd 3 10/2/10 22:11:56 4 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS Pero la frecuencia relativa, FR, de ese problema es mayor en Oviedo, ya que entre los 200 000 ovetenses los obesos son 4 000 / 200 000 = 2 / 100 = 0.02, es decir, dos por cien o veinte por mil. Entre los 4 millones de habitantes de Madrid los obesos son 16 000 / 4 000 0000 = 16 / 4 000 = 0.004, es decir, 4 cada mil. La tabla siguiente resume estos datos: Oviedo Madrid Frecuencia Absoluta Núm. de habitantes FR Proporción FR Porcentaje FR Tanto por mil 16 000 4 000 000 0.004 0.4 % 4 por 1 000 4 000 200 000 0.02 2% 20 por 1 000 La FR se puede dar como proporción (por ejemplo, 0.02) o como porcentaje (2%). Pero si son FR muy bajas es más útil darlas como tanto por mil o por diez mil u otra cantidad pertinente. Por ejemplo, si en Madrid hay 80 hemofílicos, la frecuencia relativa es “80 entre 4 millones”, es decir, 80 / 4 000 000 = 0.00002 ó 0.002%. Pero esa cifra se entiende mejor expresándola como “2 por cien mil” ó “20 por millón”. El porcentaje se calcula multiplicando la proporción por 100, es decir, corriendo la coma (hoy día el punto) dos lugares a la derecha. Si de un total de 80 personas 32 son enfermos, dividiendo 32 por 80 obtenemos la proporción de enfermos, que multiplicada por 100 nos da el porcentaje: Proporción: 32 / 80 = 0.40 , Porcentaje: 0.40 · 100 = 40% Tanto en Estadística Descriptiva como en la Inferencial se usa constantemente las Frecuencias Relativas. La mayoría de las veces se las refiere como “FR”. 1. 4. Distribuciones de Frecuencias, DF El comportamiento de una variable cualitativa en un grupo de individuos se resume dando su Distribución de Frecuencias, DF, que consiste en anotar la cantidad de individuos que tienen cada valor de la variable. Por ejemplo, si de cada individuo se recoge el tipo de dieta que sigue (hay tres posibilidades) la columna del medio de la siguiente tabla da la frecuencia absoluta de cada dieta: Proteínas Lípidos Hidratos Total 01-cap1.indd 4 Frecuencia FR 68 0.34 46 0.23 86 200 Hidratos 23% Proteínas 34% 0.43 Lípidos 43% 1 10/2/10 22:11:56 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 5 De los 200 individuos estudiados, 68 siguen dieta rica en proteínas, 86 dieta rica en lípidos y 46 dieta rica en hidratos. Estas cantidades forman la DF Absolutas (número de individuos en cada una de las categorías). La DF Relativas indica la FR de individuos para cada valor de la variable. En nuestro ejemplo 68 / 200 = 0.34 o 34% sigue dieta rica en proteínas, 43% en lípidos y 23% en hidratos. Estas cantidades pueden representarse gráficamente en diagramas de sectores, donde el ángulo de cada sector es proporcional a la frecuencia del valor que representa. También puede presentarse en un diagrama de barras, donde la altura de cada una es proporcional a las frecuencias de cada clase Este diagrama de barras representa la distribución de frecuen­ cias relativa de la variable “Hábitos de Higiene” recogida en 200 individuos: el 30% presentaba nada de higiene, el 32% poca, el 18% una cantidad media y el 20% mucha. • S i la variable en estudio es cuantitativa con pocos valores, su comportamiento se resume también dando su DF de la misma forma que con las cualitativas. Con variables cuantitativas podemos, además, calcular las llamadas Frecuencias Acumuladas, que indican la cantidad o FR de individuos con valor igual o menor que uno dado. Por ejemplo: Num de Caries 0 1 2 3 4 Frecuencia absoluta 40 10 50 80 20 FR 0.20 0.05 0.25 0.40 0.10 FR acumulada 0.20 0.25 0.50 0.90 1 El 25% (20+5) tiene una caries o menos, el 50% (25+25) tiene 2 caries o menos,... • Si la variable en estudio es cuantitativa discreta con muchos valores o continua se pueden hacer intervalos y contar el número de individuos en cada uno para hacer la correspondiente DF. Los intervalos deben cubrir todo el rango de posibles valores y no solaparse. No hay razones matemáticas ni biológicas para determinar la anchura de los intervalos. El investigador agrupa los datos como sea más útil a su estudio. Una misma variable puede ser agrupada con distintos criterios en distintos momentos. Por ejemplo, con la edad pueden formarse dos grandes grupos, niños y adultos. Y en otro momento pueden agruparse como niños, jóvenes, maduros y viejos, esta- 01-cap1.indd 5 10/2/10 22:11:57 6 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS bleciendo los puntos de corte pertinentes. O pueden hacerse intervalos por decenios: de 0 a 9, de 10 a 19… de 90 a 99. También se pueden representar las frecuencias absolutas y/o relativas de cada intervalo en diagramas de barras o sectores, y las frecuencias acumuladas en diagramas barras y de líneas. La tabla que sigue da la DF de la edad de 200 individuos: INTERVALOS DE EDAD Menos de 25 años 25-29 años 30-34 años 35-39 años 40 o más años Total 10 20 80 60 30 200 5,0 10,0 40,0 30,0 15,0 100,0 Porcentaje 5,0 15,0 55,0 85,0 100,0 La DF acumulada —columna a la derecha— dice que el 15% de los individuos tiene 29 o menos años, el 55% tiene 34 o menos y el 85% tiene menos de 40. Muchos investigadores tienden a tabular las variables continuas acordando una partición en intervalos y registrando para cada individuo el intervalo al que pertenece. Ello supone una notable pérdida de información que debe evitarse. Si, por ejemplo, la edad se sustituye por la década a la que pertenece, un paciente de 41 años es indistinguible de uno de 49, lo que disminuiría la posibilidad de detectar relaciones de interés. Por ello lo razonable es tabular los valores originales y en la fase de análisis agrupar por los intervalos que interesan en cada momento. 1. 5. Percentiles Asociado al concepto de FR Acumulada está el de Percentil. En una DF de una variable cuantitativa el percentil que le corresponde a cada valor es el porcentaje de individuos con valor igual o menor que aquel. En la DF del número de caries, 1 carie es el percentil 25, 2 caries es el percentil 50,... En la DF de la edad, 39 años es el percentil 85. Si en la DF de la estatura de un colectivo, 177 cm es el percentil 90, quiere decir que el 90% de los individuos mide 177 o menos. 01-cap1.indd 6 10/2/10 22:11:57 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 7 La idea de percentil es muy útil al ubicar un individuo en el contexto del grupo al que pertenece y esta ubicación relativa suele ser más útil que el valor numérico original. A unos padres preocupados por el escaso desarrollo del niño no les ayuda saber que en un test de capacidad mental alcanzó 220 puntos. Inmediatamente preguntan cuáles son las puntuaciones propias de los niños normales. Lo que necesitan es saber en qué percentil está su hijo. Si resulta ser el percentil 3, es mala noticia, puesto que solo el 3% de los niños de esa edad tienen esa capacidad o menos. Si 220 puntos es el percentil 47 o el 55, es una noticia tranquilizadora, puesto que el niño está en la zona media. Y si 220 puntos es el percentil 99, de cada cien niños solo uno le supera. Los percentiles se usan constantemente en la Inferencia Estadística. A un paciente no le dice mucho saber que su tensión arterial es 120. Lo útil para él es saber a qué percentil corresponde esa cifra. Si es el percentil 97 quiere decir que de su sexo y edad, solo 3 de cada 100 le superan. Es una cifra relativamente muy alta, y por ello preocupante. En muchas ocasiones para analizar los datos hay que calcular “proporción de una proporción”. Si, por ejemplo, en un colectivo son enfermos el 10% y el 50% de los enfermos han sido operados, es claro que los operados son el 5% del colectivo (la mitad del 10%), pero con cifras menos sencillas se requiere un cálculo con el que algunos investigadores no están familiarizados. La siguiente sección lo explica. 1. 6. Calculando porcentajes de porcentajes A. Cálculo del Total de individuos si se conoce el porcentaje Si sabemos que de un total de 80 personas el 60% son varones, para saber la cantidad de varones se multiplica el total por la proporción: Cantidad de varones = 80 · 0.60 = 48 varones **Ejercicio 1.1: En un grupo de 300 personas el 20% son fumadores. ¿Cuántos fumadores hay? **Ejercicio 1.2: En un grupo de 120 personas el 30.83% son bebedores. ¿Cuántos bebedores hay? B. Cálculo del porcentaje de un porcentaje El porcentaje de un porcentaje se calcula multiplicando las proporciones. Si el 60% de un colectivo son varones y el 10% de los varones tienen adenoma de próstata, ¿qué porcentaje de personas tiene adenoma de próstata? Son el 10% del 60% = 0.10 · 0.60 = 0.06 o 6% **Ejercicio 1.3: a.En otra población el 70% de los habitantes son mujeres y el 80% de ellas han parido, ¿qué porcentaje de la población ha parido? b.Si el 40% de las mujeres que parieron lo hicieron con cesárea, ¿qué porcentaje de la población sufrió cesárea? 01-cap1.indd 7 10/2/10 22:11:57 8 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS c.Si en el 20% de las mujeres que sufrieron cesárea, ésta fue transversal, ¿qué porcentaje de la población sufrió cesárea transversal? **Ejercicio 1.4: En otra población el 13.8% son enfermos. El 37.4% de los enfermos están hospitalizados. El 4.3% de los hospitalizados están en la UVI y el 0.72% (no el 72%) de los que están en la UVI sufrieron traqueotomía (no se ha practicado ninguna traqueotomía fuera de la UVI). Calcule el porcentaje de la población que: a. Están hospitalizados b. Están en la UVI c. Tienen hecha traqueotomía C. Proporción de enfermos debido a cierto factor Para practicar el cálculo de proporciones averigüemos cuántos casos de la enfermedad “E” son atribuibles a la presencia de un factor, por ejemplo fumar, en una población. Para ello se calcula El total de enfermos que habría en la población si nadie fumara; y El total de enfermos que habrá teniendo en cuenta que parte de ella fuma. La diferencia de esas dos cantidades es el exceso de enfermos debido al tabaco. Esta cantidad depende de lo perjudicial que sea fumar (cuanto aumenta el riesgo de enfermedad) y de cuan frecuentes sean la enfermedad y el hábito de fumar. Calculemos el exceso de enfermos debido al tabaco en una población donde: El número total de habitantes es de 1 000 000. La enfermedad afecta al 1% de los No-fumadores. Fuman el 10% de la población. Fumar multiplica por 4 el riesgo de contraer la enfermedad, es decir, la FR de E es 4 veces mayor entre los fumadores que entre los No-fumadores. Se pide: 1. Calcular el exceso de enfermos debidos al tabaco. 2. Calcular el porcentaje de enfermos debidos al tabaco. • Número de enfermos que habría si nadie fumara: 1% de 1 000 000 = 10 000 • Número de enfermos que habrá dado que fuma el 10% de la población: Si el tabaco cuadruplica el porcentaje de enfermos Enferman el 4% de los Fumadores. Hay 100 000 fumadores Enferman el 4% = 4 000 Hay 900 000 No fumadores Enferman el 1% = 9 000 Total de enfermos (fumadores y no fumadores) = 13 000 • El exceso de enfermos debido al Tabaco: 13 000 – 10 000 = 3 000 • Porcentaje de enfermos debido al tabaco: (3 000 / 13 000)·100 = 23% **Ejercicio 1.5: Calcule el exceso y el porcentaje de enfermos debidos al tabaco en una población de 1 millón de habitantes donde fuman el 60%, la enfermedad afecta al 20% de los no-fumadores y fumar multiplica por 4 el riesgo de enfermar. (Vemos que siendo el tabaco igual de perjudicial en ambas poblaciones es el causante de 3 000 enfermedades en la primera y de 360 000 en la segunda. La diferencia se debe a que en la segunda la enfermedad es más frecuente y hay más fumadores). 01-cap1.indd 8 10/2/10 22:11:57 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 9 **Ejercicio 1.6: Si beber multiplica el riesgo de la enfermedad A por 3, calcule el exceso de enfermos debido al alcohol en una población de 2 000 000 de personas en la que A afecta al 3% de los no bebedores y beben el 20% de los individuos. 1. 7. Tipos de estudios en Ciencias de la Salud y Sociales La lógica de la investigación es prácticamente la misma en todas las ciencias, pero en las ciencias de la salud - somática o psíquica, individual o colectiva - concurren algunas circunstancias que le confieren matices especiales. Los estudios en este campo pueden clasificarse en tres grandes categorías: • Estudios experimentales Las unidades de experimentación son animales o cultivos de células o tejidos. También se le llama “investigación básica”. • Estudios clínicos Se estudia a pacientes o grupos aquejados de enfermedades o anomalías. Dentro de este grupo los Ensayos Clínicos aleatorizados y controlados se consideran hoy día imprescindibles para demostrar la ventaja de un procedimiento terapéutico nuevo sobre sus competidores. • Estudios epidemiológicos Se estudia típicamente, aunque no siempre, a individuos sanos, para detectar factores que favorecen o dificultan la aparición de enfermedades. Este tipo de estudios son imprescindibles en Medicina y Sociología Preventivas. Téngase en cuenta que el paradigma de la Medicina no es curar todas las enfermedades, sino evitar su aparición. 01-cap1.indd 9 10/2/10 22:11:57 10 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS No olvide recordar - 1 1.La Estadística Aplicada se encarga de analizar la información recogida en cualquier investigación. El análisis comienza recopilando la información en Tablas, continúa haciendo Estadística Descriptiva (resumen de la información) y termina con la Inferencia Estadística (intento de extrapolar a la población los resultados obtenidos en la muestra). 2.Las características evaluadas en cada uno de los individuos estudiados se llaman variables. Pueden ser cualitativas (dicotómicas o politómicas) y cuantitativas (discretas o continuas). 3.Distribución de Frecuencias, DF, absoluta es la cantidad de individuos en cada uno de los posibles valores de la variable o de los intervalos convenidos. 4.Los intervalos de cada variable cuantitativa los decide el investigador. No hay criterios matemáticos para ello. Pero cada individuo debe pertenecer a una categoría y solo a una (clasificación exhaustiva y excluyente). Una misma variable se puede agrupar de diferentes modos en diferentes momentos 5.Las Frecuencias Relativas, FR, relacionan el tamaño de una parte con el tamaño total de un colectivo. Las FR se puede dar como proporción, o porcentaje o tanto por mil o tanto por otra cantidad. 6.La DF relativas da la FR de individuos en cada uno de los posibles valores de la variable o de los intervalos convenidos. 7.Las DF se pueden representar en diagramas de sectores, barras o histogramas. 8.Con variables cuantitativas se calculan también frecuencias acumuladas. Si en la DF de la estatura hay, por ejemplo, 70% de individuos con estatura menor de 180 cm, se dice que 180 cm es el percentil 70. 9.En muchas situaciones no interesa tanto la magnitud que cierta variable toma en un individuo como el percentil que representa, la posición que ocupa en su grupo. 10.El porcentaje de un porcentaje se calcula multiplicando las proporciones. 11.Para calcular la cantidad de enfermos debida a la presencia de un factor se calcula la cantidad de ellos que hay estando presente el factor y se le resta la cantidad de enfermos que habría si nadie estuviera expuesto. 12.Las investigaciones en Ciencias de la Salud y sociales pueden clasificarse en tres grandes categorías: experimentales, clínicas y epidemiológicas. 01-cap1.indd 10 10/2/10 22:11:57 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 11 EJERCICIO DE AUTOEVALUACIÓN - 1 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.En todo estudio razonablemente planteado, lo primero es hacer un buen diseño con previsiones de gastos y esfuerzo que requerirá. 2.Acabada la fase de campo lo primero que se hace es una tabulación sistemática de los datos que se van a analizar. 3.A partir de las Tablas de recogida de datos se comienza con la Estadística Descriptiva. 4.La Estadística Descriptiva comienza haciendo Distribuciones de Frecuencias de las variables de interés. 5.En los estudios epidemiológicos se trabaja preferentemente con enfermos. 6.En los estudios epidemiológicos se trabaja preferentemente con animales o cultivos. 7.En los estudios epidemiológicos se trabaja con personas sanas o enfermas, tratando de identificar factores de riesgo o de prevención para una enfermedad. 8.La Tabulación es previa a la fase de campo o recogida de datos. 9.Lo habitual es que en las Tablas de recogida de datos cada individuo ocupe una columna y cada variable ocupe una fila. 10.Los códigos numéricos son números que no expresan cantidad, sino que se asocian por convenio con valores cualitativos o con intervalos. 11.Cuando en una variable numérica se hacen intervalos, hay fórmulas matemáticas para determinar la anchura idónea de ellos. 12.Al analizar los resultados de un estudio lo primero es hacer Inferencia Estadística sencilla y posteriormente hacer un buen estudio descriptivo de aquellos aspectos que resultaron relevantes. 13.Al analizar los resultados de un estudio lo primero es hacer Inferencia Estadística compleja y sofisticada y posteriormente hacer un buen estudio descriptivo de aquellos aspectos que resultaron relevantes. 14.La edad del paciente es una variable cualitativa. 15. La edad del paciente es una variable cuantitativa. 16.La edad del paciente es una variable cuantitativa que en una fase del análisis podría tratarse como dicotómica, codificando “1= niños” y “2 = adultos”. 17.La clasificación de los individuos por cualquier variable ha de ser exhaustiva y excluyente. 18.El comportamiento de una variable cualitativa en un grupo de individuos se resume dando la Distribución de Frecuencias. 01-cap1.indd 11 10/2/10 22:11:57 12 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 19.Las FR pueden darse como proporción (tanto por uno), como porcentaje o como tanto por 1 000 o por diez mil o por otra cantidad cualquiera. 20.Si la estatura de Juan corresponde al percentil 37, el 37% de la población mide más que él. 21.Si el peso de Juan corresponde al percentil 2, el 2% de la población pesa igual o menos que él. 22.El 80% de un colectivo fuma. Si beben el 70% de los no fumadores y el 40% de los fumadores, la proporción total de bebedores es 0.8 · 0.7 = 0.56. 23.El 80% de un colectivo fuma. Si beben el 70% de los no fumadores y el 40% de los fumadores, la proporción total de bebedores es 0.2 · 0.4 = 0.08. 24.El 80% de un colectivo fuma. Si beben el 70% de los no fumadores y el 40% de los fumadores, la proporción total de bebedores es 0.2 · 0.4 + 0.8 · 0.7 = 0.08 + 0.56 = 0.64. 25.En un colectivo son españoles el 30% y el 10% de los españoles fuman. Son belgas el 60% y el 20% de los belgas fuman. Son checos el 10% y el 80% de los checos fuman. Los fumadores son 0.3 · 0.6 · 0.1 + 0.1 · 0.2 · 0.8 = 0.034 del total. 26.En el colectivo anterior los fumadores son 0.3 · 0.1 + 0.6 · 0.2 + 0.1 · 0.8 = 0.03 + 0.12 + 0.08 = 0.23 del total. 27.Si el 8% de los políticos son inteligentes y el 6% de los políticos inteligentes son honestos, de cada 10 000 políticos, 48 son honestos e inteligentes, “hei”. 28.Según la afirmación 27 la Frecuencia Relativa, FR, de políticos “hei” es 0.0048. 29.Según la afirmación 27 la FR de políticos “hei” es 48%. 30. Según la afirmación 27 la FR de políticos “hei” es 4.8%. 31. Según la afirmación 27 la FR de políticos “hei” es 0.48%. 32. Según la afirmación 27 la FR de políticos “hei” es 4 800 por millón. Análisis de la Base de Datos DARIO: enunciados - 1 Resuma la información de cada una de las siguientes variables recogidas en la Base de Datos Darío: sexo, deporte2, deporte3, dieta, yoga, resisinf y ministro. Acompañe esa información con un diagrama de sectores para deporte3, y un diagrama de barras para resisinf . 01-cap1.indd 12 10/2/10 22:11:57 1. ESTADÍSTICA DESCRIPTIVA. DISTRIBUCIONES DE FRECUENCIAS 13 Análisis de la Base de Datos DARIO - 1 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. 01-cap1.indd 13 10/2/10 22:11:58 01-cap1.indd 14 10/2/10 22:11:58 Capítulo 2 ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión Con variables cuantitativas, además de resumir la información agrupando los valores en intervalos y calculando la Distribución de Frecuencias de estos, se pueden calcular las llamadas medidas de posición (o centralización) y de dispersión. Las medidas de posición indican en torno a qué valores están los datos. Su significado es obvio y su cálculo no ofrece dificultades conceptuales. La más utilizada es la media aritmética, el promedio de los datos, que es la suma de todos los valores divida por el número de ellos, es decir, M = (∑ X) / N. Algunas veces se utiliza la mediana, valor de la variable con frecuencia acumulada de 50%, es decir, el percentil 50, el valor situado en el centro cuando se ordenan los datos de menor a mayor valor. La moda es el valor más frecuente de la variable, el más repetido. Las medidas de dispersión son menos conocidas pero no menos importantes. Dan idea de lo agrupados o dispersos que están entre sí los datos. Imagine una asignatura en que la nota final es la media de dos exámenes parciales. Si las notas del estudiante A son 4.8 y 5.2, su media es 5. Si las del estudiante B son 0 y 10 también tiene media 5, pero la situación es muy diferente del anterior. A tiene un conocimiento moderado de ambas partes de la materia, mientras que B ignora totalmente una parte y conoce perfectamente la otra. Si una variable corporal de las muchas que se miden en Medicina presenta sistemáticamente valores muy próximos a la media, cuando en un paciente se encuentra un valor moderadamente alejado de ella se considerará indicio de enfermedad, señal de alarma. Pero en una variable que presenta espontáneamente valores muy dispersos respecto a la media, un valor moderadamente alejado de ella no se considerará un indicio de enfermedad, sino expresión de la variabilidad de esa medida. En este capítulo se explican las medidas de dispersión más usadas de modo que todo lector entienda lo que indican. Términos como “Varianza”, “Des15 02-cap2.indd 15 10/2/10 22:11:33 16 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión viación Estándar” y “Error Típico” no pueden ser para el investigador “índices matemáticos” o “parámetros estadísticos” de significado incierto, cuya existencia acepta como un mal menor sin entender lo que expresan. Veremos que todas son medias de cantidades que indican la dispersión de los valores respecto a la media aritmética y por tanto tienen una interpretación intuitiva muy sencilla. 2.1. Medidas de dispersión Para exponer las medidas de dispersión tomemos como ejemplo dos grupos de N = 9 individuos cada uno, en los que se mide la variable cuantitativa “X”, cuyos valores aparecen en la primera columna de la tabla que sigue. En ambos grupos la media es M = 10 años. El grupo del ejemplo 1º tiene mediana y moda 10 y en el otro ambas son 13 años. En la segunda columna de cada tabla aparece la diferencia d = valor del individuo menos la media del grupo y en la tercera columna esa diferencia al cuadrado. Así, el primer individuo del grupo 1 tiene valor X = 11 y está 1 unidad por encima (signo +) de la media de su grupo y el primer individuo del segundo grupo, que tiene valor X = 5 y está 5 por debajo (signo -) de la media de su grupo. Ejemplo 1º Poca dispersión X d = (X-M) d2 = (X -M)2 11 +1 1 9 -1 1 10 0 0 12 +2 4 9 -1 1 10 0 0 8 -2 4 10 0 0 11 +1 1 M= 10 ∑|d|=8 SC = ∑ d2 = 12 Ejemplo 2º Mucha dispersión X d = (X- M) d2 = (X - M)2 5 -5 25 13 +3 9 2 -8 64 20 +10 100 15 +5 25 4 -6 36 17 +7 49 13 +3 9 1 -9 81 M= 10 ∑|d|=56 SC = ∑ d2 = 398 La tabla siguiente recoge las distintas medidas de dispersión. –El rango nos dice entre qué mínimo y máximo están los valores de la variable. –La Desviación Media, DM, es la media de los valores absolutos de las d, es decir, la suma de ellas ignorando el signo dividida por el número de casos (la suma de las d´s con su signo es cero, y por ello no informa acerca de si son grandes o pequeñas). Si la DM de un grupo es, por ejemplo, 3 quiere decir que por término medio los valores se alejan 3 de su media, unos por encima de ella y otros por debajo, no que cada uno de ellos se aleje justamente 3 (del mismo modo que si la media, M, es 10 no quiere decir que todos los valores sean 10). 02-cap2.indd 16 10/2/10 22:11:33 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión MEDIDA Fórmula Rango o Amplitud RA Desviación Media DM Suma de Cuadrados Varianza Desviación Estándar SC σ2 σ Valores máximo y mínimo GRUPO 1 GRUPO 2 De 8 a 12 De 1 a 20 ∑ d = Σ(X - M) 8/9= 0.89 12 56/9 = 6.22 ∑|d| / N 2 2 SC / N 1.33 (1.33) (Varianza) 1/2 1/2 = 1.15 17 398 398/9 = 44.22 (44.22)1/2 = 6.65 En la siguiente lista de 4 números (7, 7, 13 y 13) con media 10, la DM es 3 y cada uno se aleja 3 de la media, los dos primeros por debajo de 10 (d = -3) y los otros por encima de 10 (d = +3). Valores Distancias 7 -3 7 -3 13 +3 13 +3 M = 10 DM = (3 +3 +3 +3) / 4 = 3 Esta otra lista también tiene M =10 y DM = 3. Unos se alejan 2 y otros 4, y la media de esas distancias es 3 (DM = 3). Valores Distancias 6 -4 8 -2 12 +2 14 +4 M = 10 DM = (4 +2 +2 +4) / 4 = 3 En esta otra lista con media 10, las distancias individuales son 6, 0, 2 y 4 y la media de estas desviaciones es 3 (DM = 3). Valores Distancias 4 -6 10 0 12 +2 14 +4 M = 10 DM = (6 +0 +2 +4) / 4 = 3 Por tanto, en una lista de valores con DM pequeña las d son pequeñas, pero generalmente no iguales, y si la DM es grande las d son en general grandes pero puede haber unas pequeñas y otras muy grandes. –La Suma de Cuadrados, SC, es la suma de las d2; es decir, de los cuadrados de las distancias de cada valor a la media del grupo (no debe confundirse con la suma de los valores originales al cuadrado). Para este último ejemplo es SC = -62 + 02 + 22 + 42 = 56 , no 42 + 102 + 122 + 142 = 456. –La varianza, σ2, es la media de las d2, es decir, la SC partido por N. –La desviación estándar o típica es la raíz cuadrada de la varianza, es decir, la raíz cuadrada de la media de los cuadrados de las desviaciones. Tiene valor numérico próximo a la DM y nos informa, como aquella, de cuánto, por término medio, se alejan los valores de la media aritmética. En la práctica, para resumir en un solo número el alejamiento de los valores respecto a la media, se usa la Desviación Estándar, nunca la DM. Esta última se ha mencionado aquí para facilitar la comprensión de lo que indica aquella. 02-cap2.indd 17 10/2/10 22:11:33 18 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión 2.2. Medidas de dispersión en la muestra Llamamos Población al total de individuos con ciertas características y Muestra al conjunto de individuos extraídos de la población que observamos y/o manipulamos en un estudio, evaluando en ellos ciertas variables que son de nuestro interés. En el capítulo 6 se comentan detenidamente estos conceptos. Es habitual representar la media poblacional por μ y la Desviación Estándar poblacional por σ. Cuando la lista de valores que tenemos corresponde a toda la población de interés, las medidas de posición y dispersión se calculan como se dijo en el apartado anterior. Cuando la lista de valores que tenemos corresponde a una muestra, en vez de calcular la Varianza, σ2 = SC / N, calculamos la Cuasivarianza o Varianza Muestral: S2 = SC / (N-1) y en vez de calcular la Desviación Estándar, σ = (SC / N)1/2, calculamos la Desviación Estándar Muestral: S = {SC / (N-1)}1/2. En el capítulo 9 se explica por qué la Desviación Estándar Muestral se calcula dividiendo la SC por N-1, en vez de dividirla por N. El resto de medidas se calculan como se vio anteriormente. En la muestra se calcula también el Error Estándar o Típico: ES = S/ (N)1/2 = [ SC / N (N-1) ] ½, que va a tener especial protagonismo cuando intentamos adquirir conocimiento sobre una población a partir de la muestra. Ejemplo: Se toma una muestra de N = 7 varones adultos sanos españoles y en cada uno se mide la frecuencia cardiaca, X, obteniéndose: Resultados, X d = (X-Media) d2 80 0 0 83 3 9 85 5 25 78 -2 4 76 -4 16 86 6 36 72 -8 64 ∑ = 560 ∑=0 ∑ = 154 Media = 560 / 7 = 80 SC = 0+9+25+ 4+16+36+64 = 154 Cuasivarianza: S2 = 154 / 6 = 25.67 Desviación Estándar Muestral: S = { 25.67 }1/2 = 5.07 Error Estándar: ES = S/ (n)1/2 = 5.07 / 71/2 = 1.9 **Ejercicio 2.1: Calcule la Media, DM, SC, S2 y S para cada una de las siguientes listas de valores. a. 7 – 8 – 8 – 9. b. 6 – 10 – 6 – 10. c. 4 – 8 – 8 – 12. d. ¿En qué se parecen y en qué se diferencian estas tres listas de valores? 02-cap2.indd 18 10/2/10 22:11:33 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión 19 2.3. Cálculo de promedios en Distribuciones de Frecuencia Si la lista de valores sobre la que queremos calcular promedios contiene varios valores que se repiten varias veces, es más eficiente tratar esa información en forma de Distribución de Frecuencias. Las fórmulas para la Media, Suma de Cuadrados, Varianza, etc., son esencialmente las mismas que en el caso general, pero teniendo en cuenta que si, por ejemplo, el valor 3 se repite 60 veces, en vez de sumarlo esas 60 veces es más cómodo escribir y calcular 3 x 60. Ejemplo: En un grupo de 240 individuos se cuenta para cada uno el Nº de hijos. Xi : ni: fi: Fi: 0 12 .05 .05 1 48 .20 .25 2 60 .25 .50 3 48 .20 .70 4 48 .20 .90 5 24 .10 1.00 Valores de la variable Frecuencias Absolutas Frecuencias Relativas Frecuencias Acumuladas MEDIDAS DE POSICIÓN: MODA. Clase con mayor frecuencia, 2 hijos. PERCENTIL 90 = 4 (el 90% tiene 4 hijos o menos). MEDIANA: Es el percentil 50, 2 hijos. MEDIA ARITMÉTICA: M≡ ∑X N i ,, M≡ ∑n X ∑n i i ,, M ≡ ∑ fi X i i M = (12 x 0 + 48 x1+ 60 x 2 + 48 x 3 + 48 x 4 + 24 x 5) / 240 = 624 / 240 = 2.6 M = .05 x 0 + .20 x 1 + .25 x 2 + .20 x 3 + .20 x 4 + .10 x 5 = = .20 + .50 + .60 + .80 + .50 = 2.6 Para calcular el total de hijos se multiplica cada valor por el número de veces que se repite, es decir, por su frecuencia absoluta y se suman todos esos productos, es decir, 0 x 12 + 1 x 48 + 2 x 60 + ... = 624. La media es ese total dividido por el número de personas. Pero si no se conocen las frecuencias absolutas, se puede calcular la media multiplicando cada valor por su Frecuencia Relativa y sumando esos productos (0 x 0.05 + 1 x 0.20 + 2 x 0.25 + ...). Ahora ya no hay que dividir por el total porque ya se ha dividido cada frecuencia absoluta para calcular la relativa. 02-cap2.indd 19 10/2/10 22:11:34 20 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión **Ejercicio 2.2: Considere la siguiente población formada por N = 20 mujeres y la variable X = Nº de hijos. Calcule la Distribución de Frecuencias y la media de hijos. Valores: 1,2,1,3,1,0,1,0,3,0, Distribución de Frecuencias 1 2 3 4 1,2,0,3,1,4,1,2,0,1 Xi : 0 ni : fi : ** Ejercicio 2.3: Una muestra de 5 individuos tiene estos valores: 3 , 2 , 4 , 0 , 2 a. ¿Tiene sentido calcular la Distribución de Frecuencias? ¿Por qué? b. Calcule M, SC, S2, S y ES. 2.4. Valores Estandarizados Cuando se evalúa una variable cualitativa su distribución se concreta en la proporción de casos que presentan cada valor. Esa proporción nos da la probabilidad de encontrar individuos con ese valor en las muestras. Decimos, por ejemplo, que el 20% de los individuos son del grupo sanguíneo ‘A’, el 18% son del ‘B’, etc. Con variable cuantitativa continua no cabe hablar de proporción de cada valor porque hay infinitos valores posibles y cada uno de ellos —considerado con total precisión— tiene proporción “casi-cero”. Lo que se hace es evaluar la proporción de valores comprendidos en ciertos intervalos. Diremos, por ejemplo, que el 27% de los individuos tienen Tensión Arterial, TA, entre 100 y 120, o que el 15% de los individuos tienen TA menor de 98, etc. Es muy útil dar los intervalos usando los llamados “Valores Estandarizados”, que indican el número de desviaciones estándar que se aleja de la media cada valor de la variable. Por ejemplo, si un conjunto de valores tiene Media µ = 160 y Desviación Estándar σ = 10, el valor 180 está 20 unidades por encima de la media, esto es, 2 desviaciones estándar por encima de la Media, y decimos que su valor estandarizado es Z = 2. Y el valor 150 está 10 unidades por debajo de la media, esto es 1 desviación estándar por debajo de la media y decimos que su valor estandarizado es Z = -1. Y el valor 168 está 8/10 = 0.8 σ por encima de µ y decimos que su valor estandarizado es Z = 0.8. En general, el valor estandarizado se calcula: Z= X −µ σ Para X = 170 es Z = 1, para X = 175 es Z = 1.5, para X = 140 es Z = -2 y para X = 165 es Z = 0.5. Y para esta variable es equivalente decir, por ejemplo, que el 9% de los individuos tienen valor de X entre 170 y 175 a decir que el 9% de los individuos tienen valor estandarizado entre 1 y 1.5: P(170< X <175) = P(1< Z <1.5) = 0.09. 2.5.La media ponderada Para introducir este concepto consideremos los siguientes ejemplos. 02-cap2.indd 20 10/2/10 22:11:34 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión 21 Ejemplo 1: Un alumno ha hecho en una asignatura 5 exámenes parciales de importancia similar con estas notas 7, 7, 7, 7 y 2, y el profesor le dice que la nota media del curso es la media entre 7 y 2, es decir (7 + 2) / 2 = 4.5. El alumno hará notar que no ha tenido un 7 y un 2, sino cuatro 7 y un 2, por lo que la media es M = (7+ 7+ 7+ 7+ 2) / 5 = (7 · 4 + 2 ·1) / (4 + 1) = 30 / 5 = 6. Decimos que la nota “7” se ponderó por 4, porque hay cuatro exámenes con ella, mientras que la nota 2 solamente se presentó una vez. Ejemplo 2: En una familia de 6 personas hay 4 mujeres, cada una con 8 € y 2 varones, cada uno con 1 €. Si alguien dice que la media de euros por persona es (8 + 1) / 2 = 4.5 €, le corregimos haciendo notar que hay 4 personas con 8 € y 2 personas con 1 €, por lo que la media es M = (8 · 4 + 1 · 2) / (4 + 2) = 34 / 6 = 5.67 Decimos que la cantidad “8” se ponderó por 4, porque hay cuatro personas con ella, mientras que la cantidad “1” solamente se presentó 2 veces. Ejemplo 3: Si en una fábrica hay 20 obreros con sueldo de 100 € y 5 obreros con sueldo de 300 €, la media de sueldo en la empresa no es (100 + 300) / 2 = 200, sino M = (100 · 20 + 300 · 5) / (5 + 20) = 3 500 / 25 = 140. En general se llama media ponderada de dos cantidades que se repiten distinto número de veces a la suma teniendo en cuenta el número de veces que se repite cada una, dividida por el número total de individuos. Es la media total de todo el colectivo. Si lo que se evalúa en dos grupos es la proporción de individuos con cierta característica, la proporción del colectivo formado por la fusión de los dos grupos es una media de las dos proporciones, ponderada cada una por el tamaño de su grupo. En la siguiente tabla vemos que en un grupo de 8 mujeres enfermó 1, proporción = 1 / 8 = 0.125 y en un grupo de 22 varones enfermaron 11, proporción = 0.50. Mujeres Varones Todos Enfermos 1 11 12 Total 8 22 30 P(Enf | Muj) = 1 / 8 = 0.125 P(Enf | Var) = 11 / 22 = 0.500 P(Enf) = 12 / 30 = 0.400 La proporción en el total es 12 / 30 = 0.40 y puede escribirse como la media de las dos proporciones anteriores ponderadas por el tamaño de las muestras. Proporción total = 12 / 30 = (1 + 11) / (8 + 22) = = (8 · 1 / 8 + 22 · 11/ 22) / (8 + 22) = (8 · 0.125 + 22 · 0.50) / (8 + 22) = 0.40 En todos los ejemplos anteriores se ve, y es una verdad general, que la media ponderada de dos cantidades es siempre un valor comprendido entre ellas y más cercano al que recibe mayor peso. Cuando las cantidades por las que se pondera son los tamaños de dos grupos implicados, la media ponderada es la media del conjunto formado por la fusión de los dos grupos en un solo. 02-cap2.indd 21 10/2/10 22:11:34 22 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión No olvide recordar - 2 1.Con variables cuantitativas, además de resumir la información agrupando los valores en intervalos y calculando la distribución de frecuencias, DF, de estos, se pueden calcular las llamadas medidas de posición (o centralización) y de dispersión. 2.Las medidas de posición indican en torno a qué valores están los datos: La media aritmética nos dice “a cuanto toca cada individuo si el total se reparte por igual entre todos ellos”. La media se puede calcular a partir de la DF relativas, sin conocer ni las frecuencias absolutas ni el tamaño del grupo. 3.Otras medidas de posición son la Moda (el valor más repetido) y la Mediana (el percentil 50). 4.Las medidas de dispersión dan idea de lo agrupados o dispersos que están los datos entre sí. El Rango o Amplitud es la diferencia entre el mayor y el menor valor. La Desviación Media es la media del valor absoluto de las distancia de cada valor a la media aritmética. La Suma de Cuadrados es la suma de los cuadrados de esas distancias. La Varianza es Suma de Cuadrados dividida por el número de individuos, es decir, la media de esas distancias elevadas al cuadrado. La Desviación Estándar o Típica es la raíz cuadrada de la Varianza. 5.En la muestra se calculan la Cuasivarianza, Desviación Estándar Muestral y Error Estándar. 6.El valor estandarizado, Z, indica el número de desviaciones estándar que cada valor de la variable se aleja de la media. 7.La media ponderada de dos valores es un valor comprendido entre esos dos valores. 8.La media de dos medias muestrales ponderadas por el tamaño de las muestras es la media del conjunto formado por la fusión de las dos muestras en un solo grupo. 9.La media de dos proporciones muestrales ponderadas por el tamaño de las muestras es la proporción del conjunto formado por la fusión de las dos muestras en un solo grupo. 02-cap2.indd 22 10/2/10 22:11:34 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión 23 EJERCICIO DE AUTOEVALUACIÓN - 2 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1. P ara resumir el comportamiento de una variable cualitativa en un grupo se calculan medidas de centralización como la media aritmética y medidas de dispersión como la varianza. 2.Si en un colectivo hay 30% de españoles y 70% de franceses la media de la variable “país de origen” es 50%. 3. Si en un colectivo hay 30% de españoles y 70% de franceses la media de la variable “país de origen” es 1. 4.Las dos afirmaciones anteriores son una total incongruencia. 5. Para resumir el comportamiento de una variable cuantitativa en un grupo se calculan medidas de centralización como la media aritmética y medidas de dispersión como la varianza. 6. Si la media de un grupo de valores es 9, todos y cada uno de ellos es 9. 7.Si la media de un grupo de valores es 9, no quiere decir que todos sean 9. 8.Si la Desviación Media, DM, de un grupo es, por ejemplo, 5 quiere decir que cada uno de los valores se aleja justamente 5 unidades de la media, unos por encima de ella y otros por debajo. 9.Si la DM de un grupo es, por ejemplo, 5 quiere decir que por término medio los valores se alejan 5 unidades de su media, unos por encima de ella y otros por debajo, no que cada uno de ellos se aleje justamente 5 (del mismo modo que si la media es 9 no implica que todos sean 9). 10. La DM de { 7, 7, 13 y 13 } es (3 + 3 + 3 + 3) / 4 = 12 / 4 = 3. 11.En el ejemplo anterior la DM es 3 y además cada valor se aleja justamente 3 unidades de la media. 12. La DM de { 6, 8, 12 y 14 } es (4 + 2 + 2 + 4) / 4 = 12 / 4 = 3. 13. La DM de { 4, 10, 10 y 16 } es (6 + 0 + 0 + 6) / 4 = 12 / 4 = 3. 14.Dada una lista de números, la Suma de Cuadrados, SC, es la suma de los cuadrados de esos números. 15. La SC de { 6, 8 y 10 } es 36 + 64 + 100 = 200. 16.Dada una lista de números, la Suma de Cuadrados, SC, es la suma de los cuadrados de las distancias de esos números a su media aritmética. 17. La SC de { 6, 8 y 10 } es 2 2 + 0 2 + 2 2 = 4 + 4 = 8. 18. La SC de { 5, 5 y 8 } es 25 + 25 + 64 = 114. 19. La SC de { 5, 5 y 8 } es 1 2 + 1 2 + 2 2 = 6. 02-cap2.indd 23 10/2/10 22:11:34 24 2. ESTADÍSTICA DESCRIPTIVA. Medidas de centralización y de dispersión 20.La Varianza es una media, puesto que es la suma de un conjunto de valores dividida por el número de ellos. 21.La Varianza es la media de las desviaciones de los valores respecto a la media aritmética. 22. La Varianza es la media del cuadrado de las desviaciones de los valores respecto a la media aritmética. 23.La desviación estándar toma valor próximo a la DM y debe ser interpretada como la DM. 24.Si el 20% de un colectivo tiene 2 € y el 80% tiene 5 €, para calcular la media aritmética hay que conocer el total de personas para poder sumar el dinero de todas y dividir por el número de ellas. 25.Si el 20% de un colectivo tiene 2 € y el 80% tiene 5 €, para calcular la media aritmética no es necesario conocer el total de personas. La media es 0.2 · 2 + 0.8 · 5 = 0.4 + 4 = 4.4 . 26. Si el 10% de un colectivo tiene un hijo, el 30% tienen 2 hijos y el 60% tienen 3 hijos, la media de hijos es 0.1 · 1 + 0.3 · 2 + 0.6 · 3 = 0.1+ 0.6 + 1.8 = 2.5 27. Si en un colectivo la variable X tiene Media = 20 y σ = 4, al valor X = 28 le corresponde el valor estandarizado Z = 2. 28.Si en un colectivo la variable X tiene Media = 20 y σ = 4, al valor X = 16 le corresponde el valor estandarizado Z = -1. 29.Si en un colectivo la variable X tiene Media = 20 y σ = 10, al valor X = 28 le corresponde el valor estandarizado Z = -2.5 . 30.Si en un colectivo la variable X tiene Media = 20 y σ = 10, al valor X = 33 le corresponde el valor estandarizado Z = 3.3 . 31.Si en un colectivo la variable X tiene Media = 20 y σ = 10, al valor X = 20 le corresponde el valor estandarizado Z = 0. Análisis de la Base de Datos DARIO - 2 Calcule la media, valores máximo y mínimo, desviación típica y error típico de cada una de las siguientes variables recogidas en la Base de Datos Darío: edad, resisinf, ministro, sanidad, tad, tadpost y diftad. EDAD RESISINF MINISTRO SANIDAD TAD TADPOST DIFTAD 02-cap2.indd 24 N 200 200 200 200 200 200 200 Mínimo 19 0 0 30 46 45 -24 Máximo 87 3 4 95 93 107 19 Media 46,96 1,50 2,06 65,40 72,20 70,88 -1,32 Desv. típica 17,280 1,027 0,837 16,222 9,381 14,454 10,924 Error típico 1,22 0,07 0,06 1,15 0,66 1,02 0,77 10/2/10 22:11:34 Capítulo 3 ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES En los capítulos anteriores estudiábamos el comportamiento de una variable en un grupo de individuos resumiéndolo mediante medias o proporciones. Pero muy raramente el análisis de una investigación se limita a estudiar el comportamiento de cada variable por separado. Lo habitual es estudiar relaciones entre variables, viendo cómo los valores de una son distintos en los individuos con diferentes valores de otra. Comenzaremos por explicar en qué consiste el estudio de la relación entre dos variables. Se trata de un principio fundamental en el análisis de datos y todo investigador debe tenerlo perfectamente claro antes de adentrarse en los modos concretos de ejecutarlo. 3.1. Cómo se estudia la relación entre dos variables La idea básica es siempre la misma: estudiar el comportamiento de una de las variables (mediante medias o proporciones) en los distintos niveles de la otra. Si el comportamiento de una de las variables es el mismo en los distintos niveles de la otra, decimos que los valores de la primera no dependen de la otra, o que las variables son Independientes. Si el comportamiento de una de las variables no es el mismo en los distintos niveles de la otra, decimos que los valores de la primera dependen de la otra, o que esas variables son Dependientes. Esta idea tan sencilla preside continuamente el análisis de la información, cualquiera que sea la técnica concreta que se use y el nivel de complejidad de la misma. Como ejemplo sencillo podemos considerar el estudio de la relación entre sexo y cáncer de pulmón (CP) en un colectivo. Describir dicha relación es reportar la FR de CP en los varones y en las mujeres. Si esa FR es la misma en ambos géneros, decimos que la incidencia de CP es independiente del sexo. Si el CP es más frecuente en un sexo decimos esa incidencia depende del sexo. 25 03-cap3.indd 25 10/2/10 22:12:10 26 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES Ejemplo más sofisticado podría ser un “Análisis de supervivencia con regresión múltiple de Cox”. Esta técnica contiene cierta complejidad conceptual y matemática. Pero el análisis termina siempre diciendo cuánto mayor es cierto coeficiente (el “Hazard” de Cox) en un sexo que en otro, o en jóvenes que en viejos o en los pacientes con un tratamiento que en los que no lo han recibido. Es decir, aquí también se cumple que analizar la relación entre dos variables es estudiar el comportamiento de una de las ella en los distintos niveles de la otra. En la práctica esto se hará de distinta forma dependiendo del tipo de variables implicadas. Veremos que: •Si las dos variables son cualitativas construiremos lo que llamaremos Tablas de Contingencia, y en ellas calcularemos y compararemos las Distribuciones de Frecuencias Conjuntas, Marginales y Condicionadas. •Si una variable es cualitativa y la otra cuantitativa compararemos las medias y desviaciones de la cuantitativa para cada categoría de la cualitativa. •Si las dos variables son cuantitativas haremos nubes de puntos y cálculos de Regresión y Correlación. 3.2. Relación entre dos variables cualitativas Veremos esta situación sobre un ejemplo concreto. De cada uno de los individuos de un grupo de 2 000 pacientes con cáncer de pulmón, sabemos si tuvo o no fiebre inicial (Fiebre = ‘F+’ y No fiebre= ‘F-’) y si aparecieron o no metástasis a otros órganos (Sí metástasis = ‘M+’ y No metástasis = ‘M-’). Esa información estaría inicialmente recogida en una tabla como la de la izquierda: Nº de Individuo 1 2 --- 2 000 Fiebre Metástasis NO SÍ SÍ NO Valor SI SÍ NO Total --- --- DF de la Fiebre NO n 600 1 400 2 000 DF de las Metástasis FR 0.30 Valor SI n 1 100 FR 0.55 1 Total 2 000 1 0.70 NO 900 0.45 Ya sabemos cómo resumir la información de cada variable en este grupo: calculando su DF. Así, en la tabla del centro vemos que de los 2 000 pacientes, 600 tuvieron fiebre (un 30%) y 1 400 no la tuvieron (un 70%) y en la tabla de la derecha vemos que 1100 presentaron metástasis (55%) y 900 no lo presentaron (45%). Pero esta información, aunque útil, no dice si fiebre y metástasis están o no relacionadas. La relación se ve calculando la FR de casos con metástasis en los individuos con fiebre y en los individuos sin fiebre. Para ello comenzamos por anotar los recuentos en una tabla de dos dimensiones: 03-cap3.indd 26 10/2/10 22:12:10 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 27 DF CONJUNTAS Y MARGINALES ABSOLUTAS La DF Conjunta absoluta se hace dando en una tabla de doble entrada la cantidad de individuos que hay en cada casilla. Sumando las frecuencias conjuntas se obtienen las DF Marginales absolutas M+ M- Total 420 1 400 120 480 Total 1 100 900 2 000 M- Total 0.21 0.70 F- 980 DF CONJUNTAS Y MARGINALES RELATIVAS La DF Conjunta y Marginales RELATIVAS, se obtienen dividiendo las frecuencias absolutas por el total de individuos estudiados (2000 pacientes) 600 F+ M+ F+ 0.06 0.24 Total 0.55 0.45 F- 0.49 0.30 1 Vemos que de los 2 000 pacientes, 120 tuvieron fiebre y metástasis (un 6%), 480 tuvieron fiebre y no metástasis (24%), 980 tuvieron metástasis y no fiebre (49%) y 420 no tuvieron ninguna de las dos (21%). Estas 4 cantidades forman la DF conjunta. Hubo 600 pacientes con fiebre (con o sin metástasis), lo que supone el 30% del total, y 1 400 (70%) no la tuvieron, ambas forman la DF marginal de la fiebre. De la misma forma, 1 100 pacientes (55%) no presentaron metástasis y 900 (45%) sí la presentaron, lo que forma la DF marginal de metástasis. DF DE FIEBRE CONDICIONADA A METÁSTASIS Dividiendo las frecuencias conjuntas por las marginales de Metástasis obtenemos las Frecuencias Condicionadas a Metástasis F+ F- M+ 120/1 100 = 0.11 980/1 100 = 0.89 1 M- 480/900 = 0.53 420/900 = 0.47 1 Así, habían tenido fiebre inicial el 11% de los pacientes que hicieron metástasis y, por tanto, no tuvieron fiebre el 89% de ellos. De los que no hicieron metástasis, tuvieron fiebre el 53% y no la tuvieron el 47%. DF DE METÁSTASIS CONDICIONADA A FIEBRE Dividiendo las conjuntas por las marginales de Fiebre obtenemos Frecuencias Condicionadas a Fiebre. F+ F- M+ 120/600 = 0.20 980/1 400 = 0.70 M- 480/600 = 0.80 420/1 400 = 0.30 1 1 Así, hicieron metástasis el 20% de los que habían tenido fiebre y, por tanto, no hicieron metástasis el 80% de ellos. Hicieron metástasis el 70% de los que no habían tenido fiebre y no hicieron metástasis el 30% de ellos. ** Ejercicio 3.1: Con los datos del ejemplo anterior: a. ¿Qué proporción de individuos fueron F-? P ( F- ) = b. ¿Qué proporción de individuos tuvieron Fiebre? P( F+ ) = c. ¿Qué proporción de individuos fueron F- y M+? P( F- y M+ ) = d. ¿Qué proporción de individuos con metástasis fueron F-? P( F- | M+) = 03-cap3.indd 27 10/2/10 22:12:10 28 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES e. ¿Qué proporción de individuos F+ no tuvieron metástasis ? P( M-|F+) = f. Entre los F-, ¿qué proporción de ellos tuvieron metástasis? g. ¿Qué proporción de individuos tuvieron metástasis siendo F-? h.¿La frecuencia con la que aparecen metástasis es igual en los dos tipos de Fiebre, o depende de la fiebre? i.¿Tener fiebre modifica el pronóstico, modifica el riesgo de hacer metástasis? Continuamos estudiando la relación entre dos variables tomando como ejemplo la presencia o no de dos enfermedades ‘A’ y ‘B’. Debemos tener en cuenta que conocer P(A) y P(B), proporción de casos con cada una de las enfermedades: I)no permite conocer cómo es la relación entre A y B, es decir, si la presencia de una favorece o estorba la presencia de la otra, II)no permite conocer P(A y B), es decir, la proporción de individuos que tienen ambas enfermedades. Veamos ambos puntos con ejemplos: I)Si sabemos que en un colectivo de 2 000 personas 600 padecen la enfermedad A (el 30%) y 800 padecen la enfermedad B (el 40%), no podemos deducir si B es más frecuente en las personas con A que en las sin A. Véalo en estos 4 supuestos, todos con P(A) = 0.30 y P(B) = 0.40. 1º A A- DF de A Condicionada a B B 500 300 800 B- 100 1 100 1 200 600 1 400 2 000 A A- P(A| B) = 500 / 800 = 0.625 P(A| B-) = 100 / 1 200 = 0.083 P(A) = 600 / 2 000 = 0.30 Tienen A el 62.5% de los que tienen B y el 8.3% de los que no tienen B. Es más probable tener A cuando se tiene B. Fuerte dependencia directa. 2º DF de A Condicionada a B B 100 700 800 B- 500 700 1 200 600 1 400 2 000 P(A| B) = 100 / 800 = 0.125 P(A| B-) = 500 / 1 200 = 0.417 P(A) = 600 / 2 000 = 0.30 Tienen A el 12.5% de los que tienen B y el 41.7% de los que no tienen B. Es menos probable tener A cuando se tiene B. Fuerte dependencia inversa. 3º A A- DF de A Condicionada a B B 240 560 800 B- 360 840 1 200 600 1 400 2 000 P(A| B) = 240 / 800 = 0.30 P(A| B-) = 360 / 1 200 = 0.30 P(A) = 600 / 2 000 = 0.30 Tienen A el 30% de los que tienen B y el 30% de los que no tienen B. Es igual de probable tener A cuando se tiene que cuando no se tiene B. Decimos que hay Independencia entre ellas. 03-cap3.indd 28 10/2/10 22:12:10 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 4º B B- A 0 600 600 A- 800 600 1 400 29 DF de A Condicionada a B 800 1 200 P(A| B) = 0 / 800 = 0 P(A| B-) = 600 / 1 200 = 0.50 P(A) = 600 / 2 000 = 0.30 2 000 Tienen la enfermedad A el 0% de los individuos que tienen la B y el 50% de los que no tienen la B. No es posible tener A si se tiene B. Son características Incompatibles (máxima dependencia inversa). En todos estos ejemplos se ve que el valor de P(A) = 0.30 está comprendido entre P(A| B) y P(A| B-). En la tercera tabla en que es P(A| B) = P(A| B-) el valor de P(A) es igual a los dos condicionados. Esto es una verdad general: el valor marginal está comprendido entre los condicionados y cuando estos son iguales entre sí, el marginal es igual a ellos. **Ejercicio 3.2: Para cada uno de los cuatro colectivos anteriores calcule P(B | A), P(B | A-) y P(B) y rellene esta tabla. 1 P(B | A) = P(B | A-) = P(B) = 3 P(B | A) = P(B | A-) = P(B) = 2 4 P(B | A) = P(B | A) = P(B | A-) = P(B) = P(B | A-) = P(B) = Vemos que la dependencia se puede estudiar comparando las DF de A condicionadas a B, como se hizo antes para los ejemplos 1º a 4º, o las DF de B condicionadas a A, como se acaba de hacer en este ejercicio 3.2, y se llega a la misma conclusión. II)Para ver que conocer la P(A) y P(B) no permite conocer la P(A y B), es decir, la proporción de individuos que tienen ambas enfermedades, calculemos P(A y B) en los cuatro colectivos de anteriores: 1º P(A y B) = 500/2 000 = 0.25 3º P(A y B) = 240/2 000 = 0.12 2º P(A y B) = 100/2 000 = 0.05 4º P(A y B) = 0/2 000 = 0 Vemos que en los cuatro colectivos es P(A) = 0.30 y P(B) = 0.40 y, sin embargo, no es igual P(A y B). 3.3. Independencia En la tercera tabla de arriba veíamos que la proporción de enfermos de A es la misma entre las personas con B que entre las sin B, en este caso 0.30. Es decir, P(A| B) = P(A| B-) A eso se llama Independencia e implica también que la proporción de enfermos de B es la misma entre las personas con A que entre las sin A, en este caso 0.40. P(B| A) = P(B| A-) 03-cap3.indd 29 10/2/10 22:12:10 30 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES En la independencia ocurren estos dos hechos: I-Siempre que hay independencia, y solamente cuando la hay, la P(A) marginal es igual a las P(A) condicionadas a B+ y a B-: P(A) = P(A| B) = P(A| B-) Es decir, la FR de casos con A en todo el colectivo es igual a la FR de casos con A entre los que tiene B y a la FR de casos con A entre los que no tiene B. Ello se deduce del hecho de que la P(A) marginal siempre es un valor comprendido entre los valores de las dos condicionadas. Si la FR marginal es un valor entre las dos condicionadas, cuando estas son iguales entre sí (lo que llamamos independencia) tiene que ser igual a ese valor único de las condicionadas. Por la misma razón es P(B) = P(B|A) = P(B|A-). II-Siempre que hay independencia, y solamente cuando la hay, la P (A y B) es el producto de la P(A) marginal por la P(B) marginal: P(A y B) = P(A) · P(B) Es decir, la FR de individuos en los que se dan las dos enfermedades es el producto de las FR con las que se da cada una de ellas. Para demostrar eso recordemos que en todos los casos, con dependencia o con independencia, la FR conjunta puede verse como “proporción de una proporción”: Por ejemplo, si del total de un colectivo tienen B el 20% y el 50% de los que tienen B también tiene A, tendrán A y B el 50% del 20%, es decir, 0.50 · 0.20 = 0.10 del total. En general, si P(B) es la FR de ellos que tienen B y entre los que tienen B, P(A|B) es la FR de ellos que, además, tienen A, la FR de los que tienen A y B es el producto de esas dos FR: P(A y B) = P(A|B) · P(B) Como vimos en el punto I, si hay independencia, y solo cuando la hay, es P(A) = P(A|B), y la expresión anterior queda: P(A y B) = P(A) · P(B) En el ejemplo de la tercera tabla arriba, con características independientes, era P(A) = 0.30 y P(B ) = 0.40 por lo que P(A y B) tiene que ser 0.30 · 0.40 = 0.12. En efecto, en la casilla superior izquierda se ve que tienen ambas enfermedades 240 personas, que sobre el total de 2 000 son 240 / 2 000 = 0.12 ó 12%. Ejemplo: En un colectivo fuman (F) el 40% y son asmáticos (A) el 70%. Con esa información no podemos saber qué proporción del total son fumadores y asmáticos. Podrían tener ambas características desde solamente el 10% hasta un máximo del 40%. Tampoco podemos saber si el asma es más frecuente en los fumadores o en los no fumadores. Podría, por ejemplo, ocurrir esto (asma más frecuente en no fumadores): A ADF de A Condicionada a F 0.12 0.28 0.40 P(A| F) = 0.12 / 0.40 = 0.30 0.58 0.02 0.60 P(A| F-) = 0.58 / 0.60 = 0.967 0.70 0.30 Son fumadores y asmáticos el 12%. Tienen asma el 30% de los fumadores y el 96.7% de los no fumadores. F F- 03-cap3.indd 30 10/2/10 22:12:10 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 31 Pero también podría ocurrir esto (asma independiente de fumar): F F- A 0.28 0.42 0.70 A- 0.12 0.40 0.18 0.60 0.30 DF de A Condicionada a F P(A| F) = 0.28 / 0.40 = 0.70 P(A| F-) = 0.42 / 0.60 = 0.70 Son fumadores y asmáticos el 28% Tienen asma el 70% de los fumadores y el 70% de los no fumadores. **Ejercicio 3.3: El 20% de los individuos de un grupo tiene la enfermedad ‘H’ y el 30% tiene la ‘K’. a.¿Podemos deducir a partir de esos datos el porcentaje de individuos que tienen ambas enfermedades? ¿Puede ser que tengan ambas el 40% del grupo? b.¿Entre qué valores mínimo y máximo tiene que estar ese porcentaje de individuos con ambas enfermedades? c.¿En qué circunstancias ocurre que tienen ambas el 6% (0.2 x 0.3 = 0.06)? **Ejercicio 3.4: Para saber si en un grupo de 43 individuos hay relación entre la práctica de deporte (Sí/No) y la dieta predominante (proteínas, lípidos o hidratos) se recogen los datos en la siguiente tabla de contingencia 2 x 3 (2 categorías de deporte y 3 categorías de dieta) Tabla de contingencia DEPORTE Total DEPORTE * DIETA Dieta Proteínas Lípidos Sí 3 12 No 11 7 14 19 Hidratos Total 5 20 5 23 10 43 Para ver cómo es la dieta en los deportistas y en los no deportistas se calcula la DF de dieta condicionada a deporte, y se pueden representar en un diagrama de barras. a. En este grupo ¿son dieta y deporte dependientes o independientes? b.¿La respuesta a la pregunta anterior sería la misma si se compararan las DF del deporte condicionado a la dieta? Dist. Frecuencia de DIETA | DEPORTE DEPORTE Sí No Total 03-cap3.indd 31 Proteínas Dieta Lípidos Hidratos Total 15,0% 60,0% 25,0% 100,0% 47,8% 30,4% 21,7% 100,0% 3 11 14 12 7 19 5 5 10 20 23 43 10/2/10 22:12:11 32 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 3.4. Relación entre una variable cualitativa y otra cuantitativa En una empresa se desea estudiar si el nivel de agresividad de 24 mujeres (clasificado en 4 categorías: nada, poco, medio o mucho) está relacionado con su rendimiento en el trabajo (medido en una escala de 0 a 60). La información se recoge en la tabla siguiente a la izquierda. El comportamiento de cada una de las variables se resume: Agresividad DF para cada categoría (hay 25% de mujeres en cada una) Rendimiento Media y Desviación Estándar. Pero esta información no permite saber si el rendimiento está relacionado con la agresividad, es decir, si a mayor agresividad corresponde mayor o menor rendimiento. Nº de individuo 1 2 --- 24 Rendimiento 15 Nivel agresividad Nada 26 Poco --- --- 36 Mucho Nada D. de F. de agresividad Poco Medio Mucho 6 6 6 6 0.25 0.25 0.25 Resumen de rendimiento Media = 33 DS = 11.6 ES = 2.4 0.25 Para ver la relación entre estos dos caracteres debemos comparar las medias y desviaciones del rendimiento en cada uno de los niveles de agresividad. Se puede resumir esta información representando en una gráfica la media de agresividad más/menos el Error Estándar. Nivel de agresividad Nada Poco Medio Mucho 15 25 34 35 Rendimiento en el trabajo 26 9 14 30 28 33 29 38 17 54 47 53 38 41 33 53 38 31 23 36 Media 22 33 41 36 S 8.8 12.7 7.8 9.8 ES 3.6 5.2 3.2 4.0 Vemos que hay clara dependencia: en las tres primeras categorías a mayor nivel de agresividad hay mayor rendimiento, pero en las mujeres muy agresivas el rendimiento es algo menor que en el nivel medio. Hablaríamos de independencia si las cuatro medias fueran similares. Esta forma de estudiar la relación entre una variable cualitativa y otra cuantitativa es la más común, pero hay otras posibilidades: 03-cap3.indd 32 10/2/10 22:12:11 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 33 •Si la variable cuantitativa es discreta con pocos valores puede ser tratada como cualitativa. Se estudia la relación entre ella y la cualitativa haciendo Tablas de Contingencia y comparando las DF Condicionadas. •Si la variable cuantitativa es continua se pueden agrupar sus valores en intervalos, y hacer Tablas de Contingencia cruzándola con la cualitativa. Hay que tener en cuenta que todo agrupamiento en intervalos supone una pérdida de información, ya que todos los individuos con valores de la variable en un mismo intervalo son considerados equivalentes. Por ejemplo, si se agrupan las edades por quinquenios, serán equivalentes todos aquellos que tengan 20, 21, 22, 23 y 24 años, ya que pertenecerían al mismo quinquenio. Es preferible mantener la edad como tal. **Ejercicio 3.5: Para estudiar la relación entre sexo (varón = V y mujer = H) y evolución clínica (muerte = M, secuelas = S y curación = C) en cierta enfermedad, se anotan estas dos variables en un conjunto de 20 enfermos: V-S V-C H-M V-S V-C H-C V-C H-S H-M V-M V-C V-C H-S H-M V-C H-M V-C V-C V-C H-C a. Rellene la tabla de la izquierda con las DF conjunta y marginales relativas. V H M S C Total V H M S C Total b.Rellene la tabla de la derecha con la df de evolución condicionada a sexo. c.¿En qué sexo hay mejor evolución? d. ¿Sexo y evolución son dependientes? 3.5. Relación entre dos variables cuantitativas Para estudiar la relación entre dos variables cuantitativas se pueden agrupar los valores de ambas en intervalos y tratarlas como dos cualitativas (apartado 3.2) o se puede agrupar los valores de una en intervalos y ver la relación con la otra como en el apartado 3.4. Pero recordemos que esto supone cierta pérdida de información. Otra opción es hacer un gráfico de dispersión o “nube de puntos” con los valores originales de las variables, sin agrupar en intervalos. Por ejemplo, para estudiar la relación entre la tensión arterial, TA, y la edad, en el eje horizontal se representan los valores posibles de edad y en el vertical los valores de TA. Cada individuo está representado por un punto con su edad y su TA. X ≡ Edad (años) Y ≡ T.A. (unid. especiales) En cada uno de los 4 ejemplos siguientes aparecen los datos de 8 individuos. En el primero de ellos, el primer individuo tenía 65 años y TA de 8, el segundo 70 años y TA de 10... Para cada uno de los ejemplos, la representación de la nube de puntos nos permite ver la relación entre edad y TA. 03-cap3.indd 33 10/2/10 22:12:11 34 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES Edad TA 65 70 64 68 73 84 80 78 8 10 5 7 11 13 14 10 Edad TA La TA aumenta linealmente con la edad: a mayor edad, mayor TA. Edad TA 65 70 64 68 73 84 80 78 12 12 13 11 8 6 5 8 La TA disminuye linealmente con la edad: a mayor edad, menor TA. 65 70 64 68 73 84 80 78 12 8 7 10 12 12 7 9 Edad TA No hay relación de TA y edad: a medida que aumenta la edad, la TA no varía 65 70 64 68 73 84 80 78 12 6 14 8 5 14 8 6 Relación parabólica: La TA disminuye hasta los 75 años y luego aumenta **Ejercicio 3.6: Un grupo de 350 individuos se clasifica según dos criterios: raza (A, B o C) y número de piezas dentarias que le faltan (variable cuantitativa). La tabla de contingencia que resume esta información es la siguiente: A B C 0 1 20 40 10 30 120 60 2 40 20 Total A B C 0 1 2 Total A 0 1 2 Total B C a.Complete las DF conjunta y marginales relativas y la de piezas faltantes condicionada a raza. b.¿Qué probabilidad tiene un individuo de ser de la raza c? c. ¿Qué probabilidad tiene un individuo de la raza c de faltarle dos piezas? d. Calcule la media de “piezas faltantes“ para cada una de las razas. e. ¿En qué raza se caen más los dientes? ¿En cuál se caen menos? f.Si se toman dos individuos de la raza A, ¿cuál es la probabilidad de que a ambos no le falte ninguna pieza dentaria? 3.6. Variables respuesta y Factores. Respuesta y Efectos Al estudiar la relación entre dos variables, aquella por la que se forman los estratos se suele llamar “factor”, mientras que la otra, de la que se calcula la media o la FR para cada estrato de la anterior, se suele llamar “variable respuesta”. 03-cap3.indd 34 10/2/10 22:12:11 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 35 Se le suele llamar Respuesta a la proporción o media de la variable respuesta en cada nivel del factor implicado. Se le suele llamar Efecto a la diferencia (o cociente) entre dos respuestas. Si, por ejemplo, se estudia la FR de enfermos en fumadores (F+) y en no fumadores (F-), el tabaco es el factor y la enfermedad es la variable respuesta. Si los resultados son los de esta tabla (“+” son enfermos), vemos que de 50 fumadores, 35 están enfermos (70%) y de 80 no fumadores, 24 están enfermos (30%): Total 50 F+ + 35 %+ 0.70 Total 80 F+ 24 %+ 0.30 Efecto de F 0.70 – 0.30 = 0.40 sube 40 puntos Total 80 G+ + 32 %+ 0.40 Total 80 G+ 60 %+ 0.75 Efecto de G 0.75 – 0.40 = 0.35 baja 35 puntos Total 80 G+ + 32 %+ 0.40 Total 80 G+ 8 %+ 0.10 Efecto de G 0.40 – 0.10 = 0.30 sube 30 puntos Decimos que la respuesta ha sido 30% en los no fumadores y 70% en los fumadores. Y decimos que el efecto del tabaco es incrementar la respuesta, es decir, el porcentaje de enfermos, en 40 (70-30) puntos. Para saber cómo un factor influye en una variable no es suficiente conocer la respuesta en el grupo expuesto al factor. Esa respuesta solo es valorable al compararla con la respuesta en el grupo no expuesto al factor. Por ejemplo, para ver si la medicina “G” ayuda a curar la tuberculosis no basta con saber que en un grupo de 80 tuberculosos tratados con G curaron 32, el 40%. Esa cifra solo es informativa al compararla con el % de curaciones en los no tratados. Si en un grupo de 80 no tratados curaron 60 (75%), el efecto de G es disminuir el % de curados en 35 puntos. Pero si entre los 80 no tratados curaron 8 (10%), el efecto de G es incrementar el % de curados en 30 (40-10) puntos. El efecto del factor también puede expresarse como cociente entre las respuestas en individuos con y sin factor, en vez de usar las diferencias. En este último ejemplo se puede decir que el % de curaciones es 4 veces mayor en el grupo con G, o que G multiplica por 4 la proporción de curaciones (0.40 / 0.10 = 4). Los dos modos de expresar el efecto, con diferencias o con cocientes, son igualmente válidos. En la vida cotidiana también usamos los dos modos. Si, por ejemplo, un sueldo pasa de 1 000 a 1 500 €, decimos que se incrementó en 500€ o que se multiplicó por 1.5. En adelante, salvo que expresamente se diga lo contrario, los efectos serán comentados como diferencia de respuesta. Como ejemplo de variable respuesta cuantitativa supongamos que la media de la Tensión Arterial, TA, en un grupo de jóvenes es MJOV = 70 y en un grupo de viejos es MVIE = 95. Aquí el factor es la edad y la variable respuesta es la TA. La respuesta es 70 en jóvenes y 95 en viejos. El efecto de la edad es aumentar la respuesta en 25 (95-70). 03-cap3.indd 35 10/2/10 22:12:12 36 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES No olvide recordar - 3 1.Estudiar la relación entre dos variables es estudiar el comportamiento de una de las variables (dando su media o proporción) en los distintos niveles de la otra. 2.Si el comportamiento de una de las variables es el mismo en los distintos niveles de la otra, decimos que son variables Independientes; en caso contrario decimos que son Dependientes. 3.Si las dos variables son cualitativas (o cuantitativas agrupadas en intervalos) se construyen Tablas de Contingencia. Se calcula la DF Conjunta (frecuencia de individuos con las dos características sobre el total de estudiados), las Marginales (DF de cada variable, sin tener en cuenta la otra) y las Condicionadas (DF de una característica en los distintos niveles de la otra). Si estas últimas son iguales, decimos que las características son independientes. 4.En el caso de dos variables dicotómicas, A y B, la independencia consiste en que P(AІB) = P(AІB-), lo que implica que P(BІA) = P(BІA-). 5.Cuando hay independencia, y solamente cuando la hay, ocurre que P(A) = P(AІB) = P(AІB-) y P(B) = P(BІA)= P(BІA-) P(A y B) = P(A) · P(B) 6.Si una variable es cualitativa o cuantitativa agrupada en intervalos, y la otra cuantitativa, se calculan medias y desviaciones de la segunda para cada categoría de la cualitativa. Si las medias son iguales, decimos que las variables son independientes. 7.Si ambas variables son cuantitativas se representa la nube de puntos y se hacen cálculos de Regresión y Correlación. Si no existe una cierta tendencia a variar una a medida que aumenta o disminuye la otra, decimos que son independientes. 8.La variable por la que se divide en categorías o estratos se le suele llamar “factor” y a la otra, “variable respuesta”. Llamamos Respuesta a la media o proporción de la variable respuesta y llamamos Efecto a la diferencia (o cociente) entre dos respuestas. 03-cap3.indd 36 10/2/10 22:12:12 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 37 EJERCICIO DE AUTOEVALUACIÓN - 3 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). Un grupo de 350 individuos se clasifica según dos criterios: raza (A, B o C) y número de piezas dentarias que le faltan (variable cuantitativa, valores posibles: 0, 1 o 2). La tabla de contingencia que resume esta información es Piezas faltantes R A Z A S A B C 0 20 120 10 1 40 60 30 2 40 20 1. Puesto que la característica “piezas faltantes” es cuantitativa, se puede estudiar la relación con la “raza” calculando las medias de las piezas dentarias que les faltan a los individuos en cada una de las tres razas. 2. Puesto que la característica “piezas faltantes” es cuantitativa, al tener pocos posibles valores, se puede estudiar la relación con la “raza” construyendo la tabla de contingencia y comparando sus DF condicionadas. 3. Para calcular la DF marginal de la “raza” hay que ignorar el número de piezas faltantes de cada individuo. 4.La DF marginal de la “raza” es el porcentaje de individuos que hay en cada raza, respecto del total de estudiados. 5.El 50% de los individuos estudiados son de la raza C. 6.El 85.7% de los individuos pertenecen a las razas A o B. 7.En todo el conjunto de individuos el número medio de piezas faltantes es 0.77. 8. La probabilidad de que un individuo sea de la raza C es 0.5. 9. Al 20% de los individuos le faltan 2 piezas dentarias. 10. La probabilidad de que a un individuo le falte alguna pieza dentaria es 0.57 . 11. Al 57% de los individuos estudiados le falta más de 1 pieza dentaria. 12.La DF conjunta de “raza” y “piezas faltantes” es el porcentaje de individuos con cada número de piezas faltantes y en cada raza. 13.La DF de “raza” condicionada a “piezas faltantes” es el porcentaje de individuos con cada número de piezas faltantes en cada raza. 14.La DF de “piezas faltantes” en la raza B es 60%, 30% y 10%. 15.La DF de “piezas faltantes” en la raza C es 10%, 30%, 10%. 16.Si un individuo es de raza C, la probabilidad de que le falten 2 piezas es 0.20. 03-cap3.indd 37 10/2/10 22:12:12 38 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 17. Al 20% de los individuos de la raza C le faltan 2 piezas. 18.Si un individuo es de raza B, la probabilidad de que le falte alguna pieza es 0.60. 19. Si un individuo es de raza A, la prob de que le falte más de 1 pieza es 0.80. 20. El 20% de los individuos con alguna pieza faltante son de la raza C. 21. El 60% de los individuos con todas las piezas dentarias son de la raza B. 22.La probabilidad de que un individuo tenga todas las piezas dentarias es de 0.20 si es de la raza A, de 0.60 si es de la raza B y de 0.20 si es de la raza C. 23.La probabilidad de que un individuo tenga todas las piezas dentarias es de 0.429 si no se sabe de que raza es. 24. El número medio de piezas faltantes es 1 en la raza A. 25. El número medio de piezas faltantes es 0.5 en la raza B. 26.“Raza” y “piezas faltantes” son características independientes en esta muestra. 27.“Raza” y “piezas faltantes” son características dependientes porque las FR conjuntas no son iguales en las 9 casillas resultantes de 3 razas y 3 posibilidades de piezas faltantes. 28.“Raza” y “piezas faltantes” NO son características independientes en esta muestra ya que, por término medio, faltan más piezas en la raza A que en la B. 29.“Raza” y “piezas faltantes” son características dependientes porque el porcentaje de individuos con todas las piezas dentarias no es el mismo en las tres razas. Análisis de la Base de Datos DARIO: ENUNCIADOS - 3 1.Analice la relacionado del sexo con el deporte3 y del sexo con la dieta y del sexo con la resistencia a las infecciones. Descríbalas, si las hay. 2.¿Hay relación entre la resistencia a las infecciones y el deporte2? Descríbala. 3.¿Están relacionadas edad, tad, tadpost, ministro y sanidad con el sexo? ¿Y esas mismas variables con deporte3? Haga un gráfico que lo ilustre para alguna de las variables estudiadas. 4.¿Hay relación entre la opinión sobre la sanidad y la edad? ¿Y entre la tensión arterial diastólica y la edad? ¿Cómo son esas relaciones? 03-cap3.indd 38 11/2/10 13:24:22 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 39 Análisis de la base de datos DARIO - 3 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. Hay relación entre deporte y sexo pues la mayoría de las mujeres (60%) no hacen deporte y la mayoría de varones (80%) lo hacen moderado o intenso. Hay relación entre dieta y sexo pues hacen dieta todos los varones y solamente la mitad de las mujeres. Hay relación muy débil pues la distribución de la resistencia es muy parecida en los dos sexos. La mayoría de los sedentarios (83.3%) tiene baja o moderada resistencia mientras que la mayoría de los activos (68.8%) tienen media o alta resistencia. 03-cap3.indd 39 10/2/10 22:12:16 40 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES Edad y tad tienen media similar en ambos sexos. La opinión sobre la sanidad es moderadamente mayor en varones y la tadpost es mucho menor en varones. Ministro es menor en mujeres. La tad y la edad disminuyen al aumentar la intensidad del deporte, es decir, cuanto más intenso es el deporte menores son, por término medio, la ta y la edad. 03-cap3.indd 40 10/2/10 22:12:20 3. ESTADÍSTICA DESCRIPTIVA. RELACIÓN ENTRE DOS VARIABLES 41 La opinión sobre la sanidad disminuye muy ligeramente con la edad y la tad aumenta con la edad, es decir, a medida que aumenta la edad aumenta la tad. 03-cap3.indd 41 10/2/10 22:12:21 03-cap3.indd 42 10/2/10 22:12:21 Capítulo 4 RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN En el primer y segundo capítulos estudiábamos el comportamiento de una variable aislada, resumiéndolo con Distribuciones de Frecuencia (DF) y, para las cuantitativas, además con medias y desviaciones. En el tercer capítulo estudiábamos la relación entre dos variables, calculando las DF o las medias de una variable en los distintos niveles de la otra. En este capítulo estudiaremos la relación entre tres variables. La relación entre tres variables se aborda analizando la relación entre dos de ellas, como en el Capítulo 3, en los distintos niveles o estratos de la tercera. Este proceso se llama Análisis Estratificado y al explicarlo encontraremos situaciones curiosas y conceptos nuevos que son la base del Análisis Multivariante que conforma algunas de las técnicas estadísticas más sofisticadas y potentes. Como introducción analizaremos unos supuestos que sorprenderán al lector no experto e incluso a algunos expertos. 4.1. Presuntas paradojas **Ejercicio 4.1: En un Ensayo Clínico se estudia el porcentaje de curaciones, “%+”, obtenidas con cada uno de dos tratamientos, ‘A’ y ‘B’, para la misma enfermedad. Mujeres Varones Todos Total 100 500 A + 80 110 %+ Total 500 100 B + 400 22 %+ Calcule el porcentaje,%, de varones y de mujeres curados y rellene las casillas. a. ¿Qué tratamiento funcionó mejor en mujeres? 43 04-cap4.indd 43 10/2/10 22:12:35 44 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN b. ¿Qué tratamiento funcionó mejor en varones? Sume mujeres y varones (última fila). Calcule % de personas curadas. Vemos que de 100 mujeres tratadas con A curaron 80, el 80%, y de 500 tratadas con B curaron 400, el 80% también. Por tanto, ambos tratamientos son igual de eficaces en mujeres. En los varones vemos que de 500 tratados con A curaron 110, el 22%, y de 100 tratados con B curaron 22, también el 22%. Ambos tratamientos son igual de eficaces en varones. Pero si no se tiene en cuenta el sexo, A curó a 190 de las 600 personas, el 32% y B curó a 422 de 600, el 70%. Por tanto, parece mucho más efectivo B. c.Teniendo en cuenta toda la información de esta tabla: ¿qué tratamiento es realmente más efectivo? d. ¿Por qué parecía que era mejor el otro? (dos circunstancias). d.1) ..…………..…………………………………………………………… d.2) ……....………………………………………………………………… **Ejercicio 4.2: Comparamos el porcentaje de curaciones, “%+”, en enfermos tratados con el fármaco, H, frente al %+ en enfermos no tratados. Viejos Jóvenes Total FÁrmaco H Tot + %+ 50 5 450 360 no fÁrmaco Tot + %+ 350 35 150 120 Efecto de H a. Calcule el % de curados en jóvenes y en viejos y rellene las casillas. b. ¿Es efectivo H en jóvenes? c. ¿Es efectivo H en viejos? En los viejos que recibieron H curaron el 10%. Y en viejos no tratados, curaron también el 10%. En los jóvenes curaron el 80%, tanto en los que habían recibido H como en los que no. Por tanto, H no es efectivo en viejos ni en jóvenes. Sin embargo, cuando no se tiene en cuenta la edad, H parece efectivo pues curan 73% de los que lo recibieron y 31% de los que no lo recibieron. d. ¿Es efectivo H en las personas? e. Por tanto, ¿debe usarse H? f. ¿Por qué parecía lo contrario? (dos circunstancias) f.1) ………….……………………………………………………………… f.2) ……………………………………………….....……………………… Los supuestos anteriores no son curiosidades numéricas, sino ejemplos de una realidad que puede ocurrir en cualquier investigación y que debe tenerse en cuenta para evitar llegar a conclusiones falsas, no avaladas por los datos o incluso contrarias a lo que los datos realmente dicen. No se trata de una sutileza matemática, sino de características de las muestras que pueden hacernos atribuir cierto efecto a una causa, cuando en realidad la causa es otra. 04-cap4.indd 44 10/2/10 22:12:36 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 45 4.2. Confusión Usaremos el ejemplo anterior para estudiar con detalle el concepto de Confusión. FÁrmaco H (90% de jóvenes) Total Viejos Jóvenes Tot 500 50 450 + 365 no fÁrmaco (30% de jóvenes) %+ Tot 0.73 + 500 5 0.10 350 360 0.80 150 Efecto de F %+ 0.31 155 sube 42 puntos 35 0.10 no efecto 120 0.80 no efecto Si no se estratifica por edad el grupo con H tiene más FR de curados (0.73) que el grupo sin H (0.31), lo que lleva a pensar que H es beneficioso, siendo su efecto subir la FR de curaciones en 42 puntos porcentuales ( 0.73 – 0.31 = 0.42) Pero viendo cada estrato de edad encontramos que H no es efectivo ni en jóvenes (10% con y sin H) ni en viejos (80% con y sin H) ¿Por qué cuando se juntan ambas edades la FR de curaciones es 42 puntos más alto con H que sin H? Porque se dan estas dos circunstancias: a.La FR de curaciones es mucho mayor en jóvenes (80%) que en viejos (10%), tanto en el grupo con H como en el no tratado. b.Hay mayor FR de jóvenes en el grupo tratado (450 / 500 = 90%) que en el grupo no tratado (150 / 500 = 30%). Aun siendo el fármaco inútil en cada edad, en el total de tratados con H hay mayor FR de curaciones porque ese grupo tiene muchos más jóvenes que el otro. Decimos que la edad confunde la relación entre H y curaciones. Para detectar la confusión se estratifica por edad y se observa el efecto del fármaco en cada estrato de edad. En general, llamamos confusión al hecho de que un factor enmascare el efecto del factor principal. Se evita haciendo análisis estratificado, es decir, estudiando el efecto del factor principal a cada nivel del factor confusor. En el ejemplo que sigue la FR de jóvenes es la misma en ambos grupos —con y sin fármaco— y no hay Confusión: al ignorar la edad se obtiene la misma FR de curaciones con y sin fármaco. Por haber 90% de jóvenes en cada grupo (450 de 500 y 90 de 100), en el total se curan 73%, más próximo al 80% de curaciones entre los jóvenes que al 10% de curaciones entre los viejos. FÁRMACO + %+ Total 500 365 0.73 5 0.10 Jóvenes 450 360 0.80 Viejos 04-cap4.indd 45 Tot 50 no fÁrmaco Tot + Efecto de F %+ 100 0.73 10 73 1 0.10 no efecto 90 72 0.80 no efecto no efecto 10/2/10 22:12:36 46 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN En el ejemplo siguiente tampoco hay confusión. De nuevo la FR de jóvenes es igual en ambos grupos, 20% (100 de 500 y 20 de 100). Pero ahora los jóvenes son minoría y en el total se curan 17%, más próximo al 10% de curaciones de los viejos. FÁRMACO Total Viejos Jóvenes Tot 500 450 50 + 85 no fÁrmaco %+ Tot 0.17 100 45 0.10 90 40 0.80 10 + 17 Efecto de F %+ 0.17 no efecto 9 0.10 no efecto 8 0.80 no efecto ** Ejercicio 4.3: ¿Hay confusión en el siguiente ejemplo? ¿A qué se debe? FÁRMACO Tot + Viejos 200 20 Jóvenes 300 240 no fÁrmaco %+ Efecto de F Tot + %+ 50 5 450 360 ** Ejercicio 4.4: ¿Hay confusión en el siguiente ejemplo ? ¿A qué se debe? FÁrmaco B Tot + Viejos 50 5 Jóvenes 450 360 no fÁrmac0 %+ Tot + %+ Efecto de F 580 116 20 18 ** Ejercicio 4.5: ¿Hay confusión en el siguiente ejemplo ? ¿A qué se debe? FÁrmaco G Tot + Viejos 50 20 Jóvenes 450 360 no fÁrmaco Efecto de F Tot + 400 40 100 50 %+ %+ En el Ejercicio 4.1 de la primera página de este tema la confusión se explica por el mismo proceso lógico. La FR de curaciones es mucho mayor en mujeres (80%) que en varones (22%), tanto en el grupo con A como en el con B. Ello no era evidente inicialmente, pero los datos lo muestran así. En el grupo con B las mujeres son el 500 / 600 = 83.3% y en el grupo con A son solo el 100 / 600 = 16.7%. Aunque el % de curaciones es igual con ambos productos, en el grupo con B hay mayor % de curaciones, debido no al efecto de B, sino a la mayor FR de mujeres que contiene. 04-cap4.indd 46 10/2/10 22:12:36 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 47 4.3. Interacción En el estudio de la relación entre tres variables es fundamental el concepto de Interacción. Se dice que hay Interacción cuando el efecto del factor principal es distinto en los distintos niveles del tercer factor. En todos los ejemplos anteriores el efecto o la carencia de él, era el mismo en los dos estratos del factor confusor, jóvenes y viejos. En otros casos ese efecto puede variar entre estratos. En la tabla siguiente se ve que el fármaco K baja la FR de curación 30 puntos en viejos y 10 puntos en jóvenes y en el total lo sube en 23 puntos FÁrmaco K Total Viejos Jóvenes Tot 500 50 450 no fÁrmaco + %+ Tot + %+ 365 73% 500 250 50% 5 10% 400 360 80% 100 Efecto de K sube 23 puntos 160 40% 90 90% baja 30 puntos baja 10 puntos Decimos que hay Confusión, puesto que en cada edad K baja la FR de curaciones y cuando se ignora la edad parece que la sube sustancialmente. Y también decimos que hay Interacción, porque el efecto del fármaco no es igual en las dos edades. En ambas baja el porcentaje de curaciones, pero en distinta cantidad (10 puntos en jóvenes y 30 en viejos). Recordemos que Efecto de un factor, en este caso el fármaco, NO es la FR de curaciones en el grupo que lo tiene, sino la diferencia entre esa FR y la del grupo sin fármaco. La interacción se cuantifica como la diferencia de los efectos en los dos estratos, 30 – 10 = 20. Es decir, la bajada de la FR de curaciones producida por K es 20 puntos mayor en viejos que en jóvenes. En la siguiente tabla vemos otro ejemplo con Interacción = 30: el efecto del fármaco es subir 40 puntos en jóvenes y 10 puntos en viejos. El efecto del fármaco es 30 puntos mayor en jóvenes que en viejos. También hay confusión: cuando se ignora la edad el efecto aparente de F es subir 65 puntos el porcentaje de curaciones, cantidad muy superior a la ocurrida en cada estrato de edad. Total Viejos Jóvenes Tot 500 50 450 FÁrmaco + 415 10 405 no fÁrmaco %+ Tot 83% 20% 90% 500 400 100 + 90 40 50 Efecto de F %+ 18% 10% 50% sube 65 puntos sube 10 puntos sube 40 puntos En la siguiente tabla vemos otro ejemplo donde la interacción consiste, no ya en que el efecto del fármaco tenga distinta magnitud en las dos edades, sino en que es en sentido opuesto. En viejos el fármaco es perjudicial, puesto que baja en 20 puntos la respuesta, mientras que en jóvenes es beneficioso, puesto que la sube en 40 puntos. En estos casos no cabe plantearse si hay o no confusión. 04-cap4.indd 47 10/2/10 22:12:36 48 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN Tot FÁrmaco + %+ Total 500 415 83% Jóvenes 450 405 90% Viejos 50 10 no fÁrmaco Efecto de F sube 41 puntos Tot 20% + %+ 500 210 42% 100 50 50% 400 160 40% baja 20 puntos sube 40 puntos •Cuando no hay interacción (el efecto del factor principal es el mismo en todos los estratos del tercer factor), se dice que hay confusión si el efecto bruto es distinto del efecto en cada nivel. •Si hay interacción pero el efecto en ambos grupos es en el mismo sentido, se dice que hay confusión si el efecto bruto está fuera del intervalo determinado por el menor y mayor efecto en los estratos. •Si hay interacción y el efecto en ambos grupos es en sentido opuesto, no ha lugar hablar de confusión, puesto que en ningún caso el valor del efecto bruto puede parecerse a dos valores opuestos. No Interacción (igual efecto en los estratos) No Confusión Confusión Efecto bruto igual al de los estratos Efecto bruto diferente del de los estratos Interacción cuantitativa (Efectos distintos en los estratos, pero en el mismo sentido) Efecto bruto dentro del intervalo Efecto bruto fuera del intervalo Interacción cualitativa (Efectos opuestos en los estratos) No ha lugar **Ejercicio 4.6: Cada fila de la siguiente tabla resume un ejemplo. En todos ellos se da el efecto del factor F (respuestas en los F+ menos respuesta en los F-) en el estrato B+ (bebedores) y en el estrato B- (no-bebedores), así como el efecto bruto de F cuando no se estratifica por B. Por ejemplo, la fila 4 indica que F incrementa en 25 puntos el porcentaje de curaciones en los bebedores y hace lo mismo en los no bebedores (no hay interacción), pero si no se estratifica por B, parece que F disminuye la respuesta en 10 puntos (sí hay confusión). Ponga “Sí” o “No” en cada celda de las dos columnas situadas a la derecha. 1 2 3 4 5 6 7 8 9 10 04-cap4.indd 48 Efecto de F en los B+ 0 +25 0 +25 +25 50 50 50 50 -20 Efecto de F en los B0 +25 0 +25 +25 20 20 20 20 +15 Efecto bruto de F sin separar B+ y B0 +25 +38 -10 +10 +34 -15 +10 +65 ¿Interacción? ¿Confusión? No Sí 10/2/10 22:12:36 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 49 4.4.Modos de medir el efecto y la Interacción: Aditivo y Multiplicativo Hasta aquí hemos cuantificado el efecto del fármaco F como la diferencia entre la proporción de curaciones con F y sin él. Y cuantificamos la Interacción como la diferencia entre dos efectos. Otro modo de cuantificar el efecto es mediante el cociente entre la proporción de curaciones con F y sin él. En todos los campos de la actividad humana cabe expresar la no igualdad como diferencias o como cocientes. Si el pan costaba antes 20 monedas y ahora cuesta 60, decimos que su precio aumentó en 40 monedas o que se multiplicó por 3. Son dos modos de decir lo mismo. En el siguiente ejemplo vemos que en viejos hay más curaciones con F que sin él (40% frente a 10%) y esa ventaja puede expresarse diciendo que F incrementa el porcentaje de curaciones en 30 puntos o que lo multiplica por cuatro. No hay un modo que sea más correcto que otro. En jóvenes F hace subir el porcentaje de curaciones de 50% a 80%, y ello puede expresarse diciendo que F incrementa dicho porcentaje en 30 puntos o que lo multiplica por 1.6. Decimos que no hay interacción aditiva, puesto que en ambas edades F hace el mismo efecto: sube en 30 puntos el % de curaciones Y decimos que sí hay interacción multiplicativa, puesto que F multiplica el % de curaciones por 4 en viejos y solamente por 1.6 en jóvenes. El efecto en viejos es 4 / 1.6 = 2.5 veces mayor que en jóvenes, la Interacción es 2.5. FÁrmaco F Total Viejo Joven Tot 500 50 450 no fÁrmaco + %+ Tot 380 76% 500 20 40% 400 360 80% 100 + 90 40 50 %+ 18% 10% 50% Efecto del fármaco multiplicativo Aditivo sube 58 puntos 76 / 18 = 4.2 sube 30 puntos 40 / 10 = 4 sube 30 puntos 80 / 50 = 1.6 No Interacción La Interacción muladitiva tiplicativa es 4 / 1.6 = 2.5 En el siguiente ejemplo no hay interacción multiplicativa, puesto que en ambas edades F multiplica por 4 el % de curaciones, pero sí la hay aditiva, puesto que F incrementa el % de curaciones en 45 puntos en jóvenes y solo en 30 en viejos. FÁrmaco Tot + %+ Total 500 290 58% Joven 450 270 60% Viejo 50 20 40% no fÁrmaco Tot + %+ 500 55 11% 100 15 15% 400 40 Efecto del fármaco 10% Aditivo multiplicativo sube 30 puntos 40 / 10 = 4 sube 47 puntos sube 45 puntos Interacción 45 – 30 = 15 58 / 11 = 5.3 80 / 20 = 4 No Interacción multiplicativa En adelante nos referiremos siempre, salvo que explícitamente se diga lo contrario, a efectos e interacciones aditivos, es decir, expresados como diferencias de las respuestas. 04-cap4.indd 49 10/2/10 22:12:36 50 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN Algunos investigadores tienen dificultades para entender el concepto de interacción, que también lo usamos en la vida común, aunque no le demos ese nombre. Suponga que en un país conviven dos razas, celtas y judíos. El sueldo base en las mujeres y en los hombres es: Celtas: en mujeres 140 y en varones 100, es decir, 40 menos en varones Judíos: en mujeres 120, en varones 110, es decir, 10 menos en varones. Por tanto, el efecto del género NO es igual en ambas razas, sino que en celtas es 30 unidades mayor que en judíos. Decimos que la raza interacciona con el efecto del género sobre el sueldo. **Ejercicio 4.7: En la tabla siguiente calcule el efecto del fumar en los bebedores, B+, en los no bebedores, B-, y en el colectivo total, (juntando los B+ y los B-). Diga si hay Interacción y cuanto vale. Resuma los resultados en palabras sencillas. 2 variables Enfermo = E Total F+ F- B+ F+ 9 10 3 variables B- F- F+ F- 400 300 50 120 36 1 % de E Efecto de F **Ejercicio 4.8: En la tabla del ejercicio 4.3 calcule el efecto de beber sobre la enfermedad, primero en los fumadores, luego en los no fumadores y finalmente ignorando el tabaco (es decir, juntando los F+ y los F-). ¿Hay Interacción? ¿Cuánto vale? Resuma los resultados en palabras sencillas. 4. 5.Ejemplos de Confusión y de Interacción con variable respuesta continua Confusión e Interacción son dos conceptos que aparecen de modo natural al considerar la relación entre tres variables. Veamos ejemplos donde la variable respuesta no es dicotómica, como estar o no estar enfermo, sino continua. Se sospecha que el fármaco “A” aumenta el rendimiento físico, que se evaluará midiendo la distancia que cada individuo puede recorrer en un minuto. Se administra “A” a un grupo de 100 personas y se les pide correr al máximo durante un minuto. Se encuentra que las 100 personas que recibieron “A” corrieron, por término medio, 470m, MCON “A” = 470 m. Se somete a la misma prueba a otro grupo de 100 personas sin “A” y se encuentra MSIN “A” = 230 m. Los individuos con “A” tuvieron rendimiento medio muy superior a los no tratados (470 frente a 230) y parece que “A” aumenta notablemente el rendimiento físico. 04-cap4.indd 50 10/2/10 22:12:36 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 51 Pero si nos dicen que en el grupo con “A” la mayoría son jóvenes, y en el grupo sin “A” la mayoría son viejos, pensaremos que el mayor rendimiento en el grupo con “A” puede deberse, total o parcialmente, a la menor edad de los sujetos. Podría ser, por ejemplo, que entre los 100 sin “A” haya 10 jóvenes y entre los 100 con “A” haya 90 jóvenes y los rendimientos medios fueran los de esta tabla: N SIN A Total Total 100 23 000 Viejos 90 18 000 Jóvenes 10 5 000 Media 230 500 200 N CON A Total Media 45 000 500 100 47 000 10 2 000 90 470 200 En estos datos la edad es factor de Confusión y si no se estratifica por ella parece que el fármaco hace un efecto que no es real. **Ejercicio 4.9: Con los datos anteriores a. ¿Qué efecto hace “A” en jóvenes? ¿Qué efecto hace “A” en viejos? b. ¿Hay Interacción (evaluándola como diferencia de efectos)? c.¿Qué efecto hace “A” cuando no se estratifica por edad? d. ¿Hay confusión? Como ejemplos complementarios veamos la eficacia de los fármacos “B”, “C”, “D” y “E”, que quizá aumenten el rendimiento físico. Téngase en cuenta que si el grupo con fármaco tiene mayor FR de jóvenes que el otro, su mejor rendimiento podría deberse a la juventud. ** Ejercicio 4.10: Con el fármaco “B” N SIN B Total Total 100 23 000 Viejos 90 18 000 Jóvenes 10 5 000 Media 230 500 200 N CON B Total Media 36 000 400 100 23 500 10 1 000 90 235 100 a. ¿Qué efecto hace “B” en jóvenes? ¿Qué efecto hace “B” en viejos? b. ¿Hay Interacción? c.¿Qué efecto hace “B” cuando no se estratifica por edad? d. ¿Hay confusión? ** Ejercicio 4.11: Con el fármaco “C” Total Jóvenes Viejos 04-cap4.indd 51 N 100 10 90 SIN c Total 23 000 5 000 18 000 Media 230 500 200 N CON C Total Media 22 500 250 100 23 500 10 1 000 90 235 100 10/2/10 22:12:36 52 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN a. ¿Qué efecto hace “C” en jóvenes? ¿Qué efecto hace “C” en viejos? b. ¿Hay Interacción? c.¿Qué efecto hace “C” cuando no se estratifica por edad? d. ¿Hay confusión? ** Ejercicio 4.12: Con el fármaco “D” Total Jóvenes Viejos N 100 10 90 SIN D Total 23 000 5 000 18 000 Media 230 500 200 N 100 90 10 CON D Total 64 000 63 000 1 000 Media 640 700 100 a. ¿Qué efecto hace “D” en jóvenes? ¿Qué efecto hace “D” en viejos? b. ¿Hay Interacción? c. ¿Qué efecto hace “D” cuando no se estratifica por edad? d. ¿Hay confusión? ** Ejercicio 4.13: Con el fármaco “E” Total Jóvenes Viejos N 100 10 90 SIN E Total 23 000 5 000 18 000 Media 230 500 200 N 100 90 10 CON E Total 67 000 63 000 4 000 Media 670 700 400 a. ¿Qué efecto hace “E” en jóvenes? ¿Qué efecto hace “E” en viejos? b. ¿Hay Interacción? c. ¿Qué efecto hace “E” cuando no se estratifica por edad? d. ¿Hay confusión? **Ejercicio 4.14: A un grupo de 1 300 embarazadas se les administra el fármaco “c” confiando en que acortará la duración del parto. Las mujeres fueron clasificadas según la dosis de “C” tomada. La tabla que sigue da el número de partos en cada clase y la suma de la duración de todos los de esa clase. Calcule las medias. DOSIS DE “C” NADA POCA MEDIA MUCHA Nº DE MUJERES 400 200 200 500 TODAS SUMA DE LAS HORAS 2 760 1 540 2 060 5 550 MEDIA POR PARTO 6.9 a. ¿Qué hace “C”? Pero las mujeres estudiadas pertenecían a dos grupos étnicos: canarias e inglesas. La tabla que sigue da los datos para las canarias a la izquierda. Calcule las medias. Restando celdas homólogas calcule los datos para las inglesas y luego sus medias. 04-cap4.indd 52 10/2/10 22:12:37 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN DOSIS DE “C” NADA POCA MEDIA MUCHA Nº DE MUJERES SOLO CANARIAS 360 140 SUMA DE LAS HORAS 2 170 700 60 MEDIA POR PARTO 6 Nº DE MUJERES 50 ONLY INGLESAS 40 240 150 53 SUMA DE LAS HORAS 590 840 MEDIA POR PARTO 14.75 450 b. ¿Qué efecto hace el fármaco “C” en las canarias? c. ¿Qué efecto hace el fármaco “C” en las inglesas? d. ¿Qué efecto hace el “C” en las mujeres? e. ¿“C” acorta o alarga los partos? f. ¿Por qué parecía lo contrario? (2 razones). 4.6. +++ L os fundamentos lógicos del Análisis Multivariado. Dos confusores simultáneamente Muchas de las técnicas más sofisticadas y potentes de Estadística implican Análisis Multivariado, cuyo objetivo es detectar confusiones e interacciones entre varias variables, cada una con muchos valores posibles. No es posible entender la esencia ni la aplicación práctica del análisis multivariado sin entender claramente lo que es la Confusión, la Interacción y el Análisis Estratificado que hemos visto en este capítulo para el caso más sencillo que implica a tres variables dicotómicas. Pero cuando hay varios factores potencialmente confusores puede ocurrir que unos enmascaren la acción confusora de otros, de modo que pase inadvertida. Veremos un ejemplo de ese enmascaramiento, que por implicar variables dicotómicas aún puede abordarse con Análisis Estratificado. El lector que encuentre este apartado demasiado complejo, puede prescindir de él. Pero si posteriormente emprende el estudio de alguna técnica multivariada, necesitará inexcusablemente repasar este capítulo y entender este apartado. Hemos visto muchos ejemplos en los que el factor “C”, confunde el efecto del factor “B” sobre la respuesta “A”. Hay casos en los que al estratificar por “C” no se aprecia confusión sobre el efecto de “B”, pero si simultáneamente se estratifica por otro factor, “D”, se encuentra que en cada nivel de D el factor C es un fuerte confusor. Al no estratificar por D se enmascara la confusión creada por C. Veamos un ejemplo concreto. Para ver si el producto “F” aumenta la FR de curados, %+, de cierta enfermedad se le da a 1 000 enfermos y curan 600. De otros 1 000 pacientes sin F curan 300. Parece que el porcentaje de curaciones es 30 puntos mayor en los individuos que recibieron el producto F. Total 04-cap4.indd 53 Tot 1 000 FÁrmaco + 600 %+ 60% no fÁrmaco Tot 1 000 + 300 %+ 30% Efecto de F + 30 puntos 10/2/10 22:12:37 54 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN Para ver si la edad es factor de confusión se estratifica por ella Tot Total 1 000 Jóvenes 500 Viejos 500 FÁrmaco + 600 300 300 no fÁrmaco %+ Tot 60% 60% 60% + 1 000 300 30% 500 150 30% 500 150 Efecto de F %+ 30% + 30 puntos +30 puntos +30 puntos Vemos que la edad no es factor de confusión y que en ambas edades hay igual proporción de curaciones: el porcentaje de curaciones es 30 puntos mayor en los individuos que recibieron el fármaco F, tanto en viejos como en jóvenes. Por otra parte, se estratifica por sexo para ver si es factor de confusión: Total Mujeres Varones Tot 1 000 510 490 FÁRMACO + 600 302 298 NO FÁRMACO %+ Tot 60% 59% 61% 1 000 500 500 + 300 150 150 Efecto de F %+ 30% 30% 30% + 30 puntos +29 puntos +31 puntos Vemos que el sexo no es factor de confusión y que en ambos sexos es casi igual la FR de curaciones y es, aproximadamente, 30 puntos mayor en los individuos que recibieron el fármaco F, tanto en mujeres como en varones. Por tanto, estratificando por cada uno de los factores por separado, la conclusión sería: F aumenta en 30 puntos el porcentaje de curaciones, mientras que sexo y edad no confunden el efecto de F ni modifican la FR de curaciones. Pero cabe la posibilidad de que ambos factores, sexo y edad, confundan los resultados de modo tal que no se manifieste al estratificar por cada uno de ellos separadamente. Hagamos la estratificación simultánea por los dos factores, formando los grupos de mujer-joven, mujer-vieja, varón-joven y varón-viejos. Total Muj-Jov Muj-Vie Var-Jov Var-Vie Tot 1 000 410 100 90 400 + F 600 282 20 18 280 %+ Tot 60% 69% 1 000 20% 70% 20% 100 400 400 100 NO F + 300 70 80 80 70 Efecto de F %+ 30% 70% 20% 20% 70% + 30 puntos -1 puntos 0 puntos 0 puntos 0 puntos Vemos que en realidad F no modifica la FR de curaciones y que las mujeres jóvenes se curan más que las viejas (70% de jóvenes curadas frente a 20% de viejas curadas), mientras que los varones jóvenes se curan menos que los viejos (20% de jóvenes curados frente a 70% de viejos curados). Los datos pueden también tabularse como en las tablas que siguen, lo que facilita ver por qué cada variable es confusora cuando se estudia en cada nivel de la otra. 04-cap4.indd 54 10/2/10 22:12:37 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN VIE F- F+ F- HOMBRES F+ F- Tot 1 000 1 000 510 500 490 500 Prop. 60% 30% 0.59 0.30 0.61 0.30 F+ F- F+ F- F+ F- 70 18 “+” J0VE F+ MUJERES 55 600 300 Efecto +30 302 150 Efecto +29 Tot 500 500 410 100 Prop. 0.60 0.30 0.69 F+ F- F+ “+” 300 150 Efecto +30 282 298 150 Efecto +31 90 400 0.70 0.20 0.20 F- F+ F- Efecto -1 80 Efecto 0 Tot 500 500 100 400 400 100 Prop. 0.60 0.30 0.20 0.20 0.70 0.70 “+” 300 150 Efecto +30 20 80 Efecto 0 280 70 Efecto 0 Por ejemplo, en el estrato de hombres (las tres tablas de la derecha) vemos que la edad es fuerte factor de confusión, pues F no modifica la respuesta (FR de curados) ni en jóvenes ni en viejos (tablas inferior y media: efecto 0 en varones jóvenes y en varones viejos), y cuando se juntan ambas edades la respuesta es 31 puntos mayor en los varones F+ que en los F- (tabla superior). La confusión se produce porque los viejos se curan más que los jóvenes (0.70 frente a 0.20) y en el grupo con F hay mayor FR de viejos (400 / 490 = 0.81 de viejos en los F+ y 100 / 500 = 0.20 de viejos en los F-) Conclusiones erróneas, estratificando sucesivamente por edad y por sexo Conclusiones correctas, estratificando simultáneamente por edad y por sexo F incrementa en 30 puntos el porcentaje de curados. Sexo y edad no confunden el efecto de F y no modifican el porcentaje de curados F no incrementa el porcentaje de curados. Sexo y edad sí modifican el porcentaje de curados y confunden el efecto de F Con más de dos posibles confusores este desglose de la información en tablas puede ser engorroso e ineficiente. Pero en todos los casos, cuando con métodos más sofisticados se identifica o descarta alguna confusión o interacción relevantes suele ser muy útil confirmarlo con análisis estratificado como el aquí mostrado. 04-cap4.indd 55 10/2/10 22:12:37 56 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN No olvide recordar - 4 1.Las relaciones entre tres variables se abordan analizando la relación entre dos de ellas, en los distintos niveles o estratos de la tercera, es decir, haciendo análisis estratificado. 2.En este contexto puede surgir el llamado efecto de Confusión, que se produce cuando un factor enmascara el efecto del factor principal o incluso invierte aparentemente dicho efecto, es decir, cuando el efecto “bruto” de un factor (sin estratificar por otro) arroja resultados distintos a los encontrados cuando se estudia en cada estrato del otro factor. 3.La confusión se evita haciendo análisis estratificado, es decir, estudiando el efecto del factor principal a cada nivel del factor confusor. 4.Si el efecto del factor principal es distinto en los distintos niveles del otro factor, decimos que hay Interacción. 5.Decimos que hay interacción cuantitativa si el efecto del factor principal es en el mismo sentido, aunque de distinta magnitud, en los distintos niveles del tercer factor. 6.Decimos que hay interacción cualitativa si el factor principal incrementa la respuesta en un estrato del tercer factor y la disminuye en el otro nivel. 7.Cuando no hay interacción (el efecto del factor principal es el mismo en todos los niveles del tercer factor) se dice que hay confusión si el efecto bruto es distinto del efecto en cada nivel. 8.Si hay interacción cuantitativa se dice que hay confusión si el efecto bruto está fuera del intervalo determinado por el menor y mayor efecto en los estratos. 9.Si hay interacción cualitativa, no ha lugar hablar de confusión, puesto que en ningún caso el valor del efecto bruto puede parecerse a dos valores opuestos. 10.La interacción puede cuantificarse como diferencia de efectos o como cociente de efectos. Diremos que hay Interacción aditiva si la diferencia de efectos es distinta de cero y que hay Interacción multiplicativa si el cociente es distinto de uno. 11.Dos variables pueden ser confusoras y actuar de modo que cada una enmascara el efecto confusor de la otra, con lo que solo se esclarecerá la situación cuando se estratifica por las dos simultáneamente. 04-cap4.indd 56 10/2/10 22:12:37 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 57 EJERCICIO DE AUTOEVALUACIÓN - 4 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). Se hace un estudio prospectivo para ver la posible influencia del canto en la incidencia de cáncer de laringe y se obtienen los siguientes resultados: HOMBRES MUJERES HOMBRES+MUJERES CANTAN N0 CANTAN CANTAN N0 CANTAN CANTAN N0 CANTAN 160 4 1 40 161 44 Enfermos 200 TOTAL 20 10 400 210 420 % ENFERMOS 1. En hombres, el cantar multiplica por 4 el riesgo de cáncer. 2. El canto reduce el riesgo de enfermedad a la tercera parte en mujeres. 3. Es igual de probable que tenga cáncer una mujer que no canta que una que canta. 4. Si se ignora el sexo, parece que el canto reduce el riesgo de enfermedad. 5. Si se ignora el sexo, el canto es factor de riesgo para el cáncer. 6. El sexo interacciona en la relación entre canto y la enfermedad. 7.Decimos que el sexo es factor de interacción porque observamos que, si se ignora el sexo, el canto es factor preventivo para la enfermedad. 8.Decimos que no hay confusión puesto que el efecto del canto es el mismo en hombres que en mujeres. 9.El sexo no es factor de confusión en la relación del canto con el cáncer. La parte media de la tabla que sigue da la relación entre enfermar, “E”, y fumar, “F”. Entre 310 fumadores hay 21 enfermos, 6.8%, y entre 450 no fumadores hay 61 enfermos, 13.6%. En la parte derecha se forman dos estratos, de bebedores y no bebedores. Teniendo en cuenta solo la parte media de la tabla, es decir, ignorando los estratos de bebedores y no bebedores: 2 variables (B+ + B-) Enfermo = E Total F+ 21 310 B+ F- F+ 450 10 61 9 3 variables F- 60 F+ BF- 400 % de E Efecto de F 04-cap4.indd 57 10/2/10 22:12:37 58 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 10. En este colectivo la enfermedad es menos frecuente en los fumadores. 11.El efecto del tabaco es reducir a la mitad la frecuencia de E (0.068 / 0.136 = 0.5) o bajar el porcentaje en 6.8 puntos. 12. El efecto de F es la proporción de enfermos en los fumadores. 13.El efecto de F no es la proporción de enfermos en los fumadores, sino la diferencia o el cociente entre esa cantidad y la proporción de enfermos en los no fumadores. En la parte derecha de la tabla se estudia la relación entre tres variables, incorporando la variable “B” = Beber. Se hace partiendo el colectivo en dos estratos: bebedores, B+, y no-bebedores, B-. Encontramos que de los 310 fumadores bebían 10 y 9 de ellos enfermaron. Y de los 450 no fumadores no bebían 300 y 12 de ellos enfermaron. Calcule por diferencia las cantidades en el estrato de no-bebedores. 14.En el estrato de bebedores la enfermedad afecta al 0.90 de los fumadores y al 0.15 de los no fumadores. 15. El tabaco multiplica por 6 la frecuencia de la enfermedad en bebedores. 16.El tabaco incrementa en 75 puntos la frecuencia de la enfermedad en bebedores 17. En el estrato de no bebedores la E afecta al 0.04 de los fumadores y al 0.02 de los no fumadores. 18.Cuando no se tiene en cuenta B, la proporción de enfermos es la mitad entre los fumadores que entre los no fumadores. 19.Cuando se estratifica por B, se encuentra que el tabaco multiplica por 6 la frecuencia de la enfermedad en los individuos que beben y lo multiplica por 2 en los que no beben. 20. El factor beber no confunde la relación entre la enfermedad y el tabaco 21.El factor beber confunde la relación entre la enfermedad y el tabaco, pues cuando no se tiene en cuenta el beber parece que el fumar reduce la frecuencia de la enfermedad, cuando en realidad la aumenta en los B- y en los B+. Análisis de la Base de Datos DARIO: enunciados - 4 1.Estudiar la relación entre la variación de ta producida por el ayuno (efecto del ayuno) y el deporte3 en toda la muestra. Estudiar esa relación en los varones. Estudiar esa relación en las mujeres. 2.¿Hay relación en la muestra entre la variación de ta producida por el ayuno (efecto del ayuno) y la edad ¿Y en los varones? ¿Y en las mujeres? 04-cap4.indd 58 10/2/10 22:12:37 4. RELACIÓN ENTRE TRES VARIABLES. ANÁLISIS ESTRATIFICADO. CONFUSIÓN E INTERACCIÓN 59 Análisis de la Base de Datos DARIO - 4 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. diftad sexo Varon diftad deporte3 No Moderado Intenso Total N 72 80 48 200 Media 3,39 -5,75 -1,00 -1,32 Desv. típ. 13,881 8,193 5,820 10,924 Mujer deporte3 No Moderado Intenso Total No Moderado Intenso Total N 24 64 32 120 48 16 16 80 Media -15,17 -9,50 -4,75 -9,37 12,67 9,25 6,50 10,75 Desv. típ. 5,761 2,981 2,527 5,031 3,335 4,025 1,713 4,074 Hay relación entre el efecto del ayuno y el deport. Al estudiar todo el grupo se ve un aumento, por término medio, de la ta en los no deportistas y una disminución diferente cuando es moderado que cuando es intenso. El efecto del ayuno varía con la intensidad del deporte. A medida que aumenta la intensidad del deporte, en los varones el efecto del ayuno aumenta y en las mujeres disminuye: el sexo es factor de interacción en la relación del efecto del ayuno con el ejercicio. El efecto del ayuno disminuye muy ligeramente con la edad cuando se estudian todos los individuos juntos, pero realmente aumenta con la edad en la mujeres y disminuye en los varones. 04-cap4.indd 59 10/2/10 22:12:39 04-cap4.indd 60 10/2/10 22:12:39 Capítulo 5 PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES Los cuatro primeros capítulos desarrollaban la Estadística Descriptiva, que enseña a analizar la muestra obtenida en la investigación, describiendo en ella el comportamiento de cada variable y la relación entre distintas variables. A partir de aquí comenzamos a estudiar la Inferencia Estadística, IE, que es el intento de conocer acerca de las poblaciones a partir de lo encontrado en las muestras. Comenzamos subrayando la diferencia entre poblaciones y muestras, y continuamos exponiendo el concepto de probabilidad como frecuencia relativa con que se presentaría un suceso si un fenómeno aleatorio se repite indefinidamente. En la vida común y en el contexto del análisis de datos se emplea continuamente el término probabilidad y muchas veces se le da un número. En este capítulo veremos que ese número es siempre una proporción y que los cálculos y las ideas implicadas pueden ser entendidos y usados correctamente sin tener conocimientos matemáticos. 5.1. Frecuencias Relativas y Probabilidades Sabemos que la FR de individuos con cierta característica se puede expresar como proporción o porcentaje o tanto por mil o por diez mil u otra cantidad pertinente. Si de un colectivo donde son “E” (“E” como inicial de “enfermo” o de cualquier otra característica) el 90% de los individuos, nos disponemos a tomar un individuo al azar (es decir, que todos individuos tienen las mismas opciones de salir) no podemos saber si va a ser E o sano. Esa incertidumbre es inevitable. En esta situación hay consenso en decir que al extraer un individuo “La probabilidad de que sea E es 0.90” o resumidamente “P(E) = 0.90”. Pero ¿qué quiere decir esa frase? Aclaremos en primer lugar que ella no evita la incertidumbre respecto a cómo va a ser el individuo que vamos a extraer. Tras enunciarla seguimos sin saber si el individuo que vamos a extraer va a ser o no E. Entonces, ¿qué indica esa expresión? 61 05-cap5.indd 61 10/2/10 22:12:48 62 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES La respuesta es que no hace referencia a lo que ocurre cuando se toma un individuo de la población, sino a lo que ocurre si la extracción se repite millones de veces con reposición (el individuo obtenido en cada extracción es repuesto a la población antes de extraer el siguiente). “P(E) = 0.90” quiere decir que si se hacen millones de extracciones, serán E muy aproximadamente 90 de cada 100 extraídos. Si en otra población la proporción de E es 0.80, diremos que al extraer un individuo al azar la probabilidad de que sea E es P(E) = 0.80, lo que indica que si se hacen millones de extracciones, serán E muy aproximadamente 80 de cada 100 extraídos. Si en esta última población repetimos millones de veces la extracción de un individuo es claro que en la primera de ellas podrá ser E (de hecho, es más fácil que sea E a que no lo sea). También puede salir E en la segunda extracción. Y en la tercera y la cuarta…. Es decir, puede salir E en cada una de las extracciones y por ello pueden serlo en todas las de esa larga serie. Por la misma razón también podrían salir no-E en todas las extracciones. Sin embargo, la experiencia muestra que en la práctica “nunca” ocurre que sean E todos los individuos extraídos, ni que todos sean no-E, ni ningún otro resultado muy extremo. “Siempre” ocurre que si en una población hay 80% de E y se hacen millones de extracciones, son E muy aproximadamente el 80% de los extraídos. Este hecho se expresa diciendo que al tomar un individuo al azar de ese colectivo la probabilidad de que sea E es 0.80, es decir, P(E) = 0.80. Esto es un hecho empírico, observado por el ser humano durante milenios de evolución. Se le llama Ley de la regularidad de las grandes series estadísticas o Ley empírica del azar y es de importancia capital en la vida común y en la investigación científica. Repitamos una vez más esta idea fundamental: decir que la probabilidad de que un individuo extraído de una población sea E es 0.90 no evita la incertidumbre sobre si el individuo extraído será o no E. Estamos diciendo a qué valor se aproxima mucho la FR de individuos E si la extracción se repite millones de veces. Note la diferencia entre la proporción de E que hay en un grupo y la probabilidad de que sea E un individuo sacado de ese grupo. a)La proporción de E en un colectivo es un hecho físicamente evaluable contando el número total de individuos y el de los que son E. Su cociente nos da la proporción. Esta se mantiene fija mientras no se añadan o sustraigan individuos. b)El término probabilidad se refiere a la FR de veces en que sale E cuando la extracción al azar de un individuo se repite millones de veces. La probabilidad es el valor al que se aproximará la FR a largo plazo. Ayudará a tener clara esa diferencia considerar una urna donde hay 60% de bolas blancas y 40% de negras. Si todas las bolas son del mismo tamaño, peso y textura, decimos que la prob de que una bola extraída al azar sea blanca es 0.60. Con ello queremos decir que si la extracción se repite millones de veces, en 60 de cada 100 extracciones la bola es blanca. Pero si las blancas son de doble tamaño que las negras, al tomar una bola al azar la prob de que sea blanca es mayor. Si nos dicen, por ejemplo, que es P(Blanca) = 0.74, quiere decir, que al hacer millones de extracciones 74 de cada 100 bolas son blancas. Por tanto, en la urna son blancas 60 de cada 100, y al hacer extracciones lo son 74 cada 100. 05-cap5.indd 62 10/2/10 22:12:48 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 63 **Ejercicio 5.1: Al coronel Gerineldo Márquez, con 3 000 soldados a su cargo, se le notifica que la epidemia de cólico miserere llega a su campamento y para cada individuo la prob de morir es de 0.4. a.Gerineldo pregunta al capitán médico si el soldado Prudencio Aguilar va a morir. ¿Qué le contesta? b.Gerineldo pregunta al capitán médico si el soldado R. Feynman va a morir. ¿Qué le contesta? c.Gerineldo pregunta al capitán médico si el soldado R. Fisher va a morir. ¿Qué le contesta? d.Irritado por las respuestas del médico, Gerineldo pregunta para qué diablos vale saber que la prob de morir de cada soldado es 0.4? ¿Qué le contestaría usted? e.Una vez pasada la epidemia y enterrados los muertos, hay que librar heroica batalla contra un ejercito enemigo que tiene 2 000 soldados (y ninguna epidemia). ¿Para qué valen los conocimientos del médico en este aspecto? f.¿A qué tipos de situaciones son aplicables los conocimientos sobre prob de un evento? 5.2. Multiplicación de Probabilidades Si decimos que la prob de que un individuo tomado al azar de un colectivo tenga la característica “C” es, por ejemplo, P(C) = 0.6, la ley de la Multiplicación de Probabilidades dice que si tomamos, por ejemplo, tres individuos, la prob de que los tres tengan C es P (C, C, C) = 0.6 x 0.6 x 0.6 = 0.63 = 0.216 1. ¿Qué quiere decir esa cifra “0.216”? P = 0.216 es “216 de cada 1 000” y quiere decir que si se repite millones de veces ese proceso, es decir, si se obtienen millones de tríos, en 216 de cada mil tríos los tres individuos tendrán C. 2. ¿Por qué es la respuesta correcta? Si sacamos millones de tríos, el primer individuo de cada trío será C, por definición, en el 60% de los tríos. El segundo individuo será C en el 60% de los tríos cuyo primer individuo es C. Es decir, el primer y el segundo son C en el 60% del 60%, que es 0.6 x 0.6 = 0.36 ó 36%. En el 60% de los tríos en que son C el primero y el segundo lo es también el tercero. Respecto al total representa el 60% del 36%, es decir, 0.36 x 0.6 = 0.216. Si en vez de tres el grupo es, por ejemplo, de 8, la probabilidad de que los 8 individuos sean C es el 60% del 60% del... 60%, ocho veces, es decir, 0.6 x 0.6 x ….0.6 = 0.68 = 0.0168. Es decir, en 168 de cada 10 000 muestras de N = 8, los ocho son C. En general, si la probabilidad de que un individuo sea C es π, la probabilidad de que sean C todos los individuos de una muestra de N es π N. 05-cap5.indd 63 10/2/10 22:12:49 64 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES **Ejercicio 5.2: a.Se tira 3 veces un dado, ¿cuál es la probabilidad de que las 3 veces salga “6”? b.Si se lanza una moneda bien equilibrada 20 veces, ¿cuál es la probabilidad de que las 20 veces salga cara? Interprete ese número como frecuencia relativa. c.Sobre un tapete cuadrado con cuatro cuadrantes de igual superficie se lanza un dado homogéneo. ¿Cuál es la prob de que caiga en el cuadrante superior derecho? d.Sobre ese tapete cuadrado se lanza un dado homogéneo. ¿Cuál es la probabilidad de que caiga en el cuadrante superior derecho y salga la cara 6? e.Si se lanza una moneda bien equilibrada 100 veces, ¿cuál es la probabilidad de que las 100 veces salga cara? Interprete ese número como frecuencia relativa. 5.3. El azar y la necesidad La “multiplicación de probabilidades” que acabamos de ver permite, entre otras muchas cosas, calcular la cantidad de sujetos que esperamos tengan éxito en una serie de pruebas sucesivas cuando un elevado número de ellos lo intentan. Muchos de los hechos y/o personas que consideramos extraordinarios no son más que ejemplos de lo que ocurre necesariamente cuando se repite un fenómeno aleatorio un número elevado de veces. Considere una enfermedad seria y frecuente y un tratamiento que aplicado correctamente tiene éxito solamente en el 40% de los casos. Se hace un estudio europeo que incluye a 10 000 médicos y cada uno trata un paciente cada semana. Veamos la FR de médicos que obtienen éxito reiteradamente a lo largo de varias semanas si todos aplican correctamente el tratamiento. En la primera semana obtienen éxito unos 4 000 (el 40% de 10 000). Entre esos 4 000 tiene éxito también en la segunda el 40%, de modo que con éxito en la primera y segunda hay el 40% del 40%, es decir, 0.4 · 0.4 = 0.16 del grupo inicial. Tienen éxito en las tres primeras semanas el 40% de los anteriores, 0.16 · 0.4, o lo que es lo mismo 0.43 = 0.064 del grupo inicial. Y así sucesivamente. La tabla siguiente da la FR y el número aproximado de médicos que han obtenido todo éxito en las primeras semanas. Proporción de médicos con éxito en todos los pacientes tratados hasta ese momento Número aproximado de médicos con éxito en todos los pacientes tratados hasta ese momento 2ª 0.40 = 0.1600 1 600 -- ---------- ---------- 7ª 0.407 = 0.0016384 16 Semana 1ª 3ª 0.4000 2 0.403 = 0.0640 4 000 640 Por tanto, tras tratar a 7 pacientes habrá en torno a 16 médicos que han tenido éxito en todos ellos, aunque apliquen el mismo tratamiento y de la misma manera que los demás. En la oficina de seguimiento de los resultados se sabe desde el prin- 05-cap5.indd 64 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 65 cipio que si todos los médicos aplican el mismo tratamiento, va a haber en torno a 16 con éxito en los primeros 7 pacientes. No se sabe quiénes van a ser y no depende de ninguna característica de los médicos en cuestión (otra cosa sería que algunos médicos aplicaran un tratamiento mejorado y por ello obtuvieran más éxitos que otros, pero ahora no estamos contemplando esa opción). Aquí se trata de que por puro azar en torno a 16 médicos obtienen éxito en los 7 primeros pacientes. Para subrayar que es una cuestión de azar consideremos un urna con 40% de bolas blancas y 60% negras, todas de igual tamaño, peso y textura. Si extraen 7 bolas al azar 10 000 personas, 0.40 de ellas tiene blanca la 1ª bola, 0.4 · 0.4 = 0.16 del total tienen blanca las 1ª y 2ª bolas, 0.43 = 0.064 tienen blanca las 1ª, 2ª y 3ª bolas… y en torno a 16 les salen blancas las 7 bolas. Y ello no depende de ninguna característica de esas personas. Si el mismo grupo de 10 000 vuelve hacer la misma operación de extraer 7 bolas al azar, de nuevo en torno a 16 de ellas les salen blancas las 7 bolas, pero estas 16 personas no serán las mismas que las de antes y no es posible saber a quien le va a ocurrir eso antes de que ocurra. Lo que sí sabemos es que será una cantidad próxima a 16, como en el caso de los médicos que van a tener éxito en los 7 primeros pacientes. En el entorno de cada médico que obtuvo 7 éxitos seguidos se le verá como algo excepcional, puesto que lo esperado es que obtuvieran éxito en el 40% de sus pacientes, que es 7 · 0.4 = 2.8, es decir, 2 ó 3 pacientes de los 7 tratados. Y se tenderá a atribuir esos buenos resultados a las más variopintas y exóticas causas. Pero en la oficina se seguimiento de los 10000 médicos se sabía que eso era lo previsto si ninguna causa externa interviene. Por otra parte, la FR de médicos que fracasan en los 7 primeros pacientes es 0.6 7 = 0.0280 y por ello entre los 10 000 habrá en torno a 280 médicos con tan mal resultado. También en sus respectivos entornos tenderá a atribuirse esos fracasos a causas externas más o menos pintorescas. Pero nosotros sabemos que habrá aproximadamente esa cantidad de médicos con 7 fracasos, por el hecho de que el tratamiento fracasa en el 60% de los casos y hay 10 000 médicos implicados. El ciudadano de a pie observa admirado la vertiginosa ascensión en la feria de las vanidades de algunos personajes del mundo de las finanzas. Algunos de esos triunfadores tienen especial habilidad en el oficio y/o en delinquir, pero cierto número de ellos no son genios ni delincuentes. Son solamente la consecuencia necesaria de las leyes del azar. Supongamos un millar de jóvenes ejecutivos que teniendo un capital inicial de 100 000 € y mucha ambición deciden arriesgarlo todo en operaciones donde hay prob 0.50 de duplicar su dinero en un año y prob 0.5 de perderlo todo. En el primer intento aproximadamente 500 de ellos perderán su capital inicial y los otros 500 lo duplican. Si estos últimos lo invierten todo en otra operación similar, 250 perderán todo y otros 250 tendrán 400 000 €. Si estos 250 repiten el proceso, aproximadamente 125 tendrán ahora 800 000 €. Hasta ahora los “supervivientes” se han arriesgado tres veces. Si continúan haciéndolo hasta 8, la prob de salir airoso en las 8 es 0.58 ≈ 0.004. Es decir, de los 1 000 iniciales dispuestos a perder todo o duplicar en cada intento, aproximadamente 4 habrán tenido éxito en los 8 intentos, y su capital inicial se habrá multiplicado por 28 = 256, de modo que será 05-cap5.indd 65 10/2/10 22:12:49 66 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 25 600 000 €. Son los triunfadores del momento. Los otros 996 estarán arruinados. Cayeron en acto de servicio y yacen en el anonimato definitivo. Hay que insistir en que esos casos no dependen de habilidades personales, protecciones divinas ni influencias astrológicas. Si la disyuntiva entre perder todo en cada operación o duplicarlo se dilucidara tirando una moneda bien balanceada, el resultado habría sido el mismo. Tras repetir 8 veces el juego, unos 4 jugadores entre los mil participantes habrían obtenido “cara” en todas las tiradas. Todos los demás habrían obtenido cruz en alguna y lo perdieron todo. La tabla resume estos ejemplos: Médicos Financieros π Prob de éxito en cada intento N Núm. de intentos Prob de éxito en los N intentos P=ΠN 0.4 7 0.47 = 0.0016 0.5 8 0.58 = 0.0039 K Cantidad inicial de sujetos Núm. esperado de sujetos con éxito en los N intentos E = P·K 1 000 4 10 000 16 5.4. Probabilidades conjuntas, marginales y condicionadas Una aplicación del cálculo de probabilidades muy útil en prácticamente todas las ciencias se conoce con el nombre de Teorema de Bayes (TB). Los libros suelen explicarlo con una expresión matemática que el investigador tiene dificultad para entender. Aquí lo expondremos sin recurrir a más conocimientos previos que el concepto y cálculo de “proporción de una proporción”. Comencemos repasando los conceptos de probabilidades conjuntas, marginales y condicionadas en esta tabla que relaciona las frecuencias de las enfermedades A y B en un grupo de 2 000 personas. A P(A) = 0.30 B BTotal A- P(A-) = 0.70 n = 500 P(A y B) = 500/2 000= 0.25 P(A|B) = 500/800 = 0.625 P(B|A) = 500/600 = 0 .833 n = 300 P(A- y B) = 300/2 000= 0.15 P(A-|B) = 300/800 = 0.375 P(B|A-) = 300/1 400 = 0.214 n = 600 P(A) = 600/2 000 = 0.30 n = 1 400 P(A-) = 1 400/2 000 = 0.70 n = 100 P(A y B-) = 100/2 000= 0.05 P(A|B-) = 100/1 200 = 0.083 P(B-|A) = 100/600 = 0.167 n = 1100 P(A-yB-)= 1 100/2 000 = 0.55 P(A-|B-)=1 100/1 200 = 0.917 P(B-|A-)=1 100/1 400 = 0.786 Total n = 800 P(B) = 800/2 000 = 0.40 n = 1 200 P(B-) = 1 200/2 000 = 0.60 n = 2 000 Con n denotamos el número de individuos en cada una de las casillas. Así, hay 500 individuos con las dos enfermedades (A y B), 300 tienen solo B (A- y B), 100 tienen solo A (A y B-) y 1 100 no tienen ninguna (A- y B-). Por lo tanto, hay 800 personas que tienen la enfermedad B (unos con A y otros sin A) y 600 tienen la A (unos con B y otros sin B). Los valores de la celda superior izquierda, por ejemplo, nos dicen que: 05-cap5.indd 66 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 67 •Hay 500 personas con ambas enfermedades y ello es el 25% del total. Si tomamos al azar una persona, la probabilidad de que tenga ambas enfermedades, A y B, es P(A y B) = 0.25 • Las 500 personas con A y B son el 62.5% de las personas que tienen B. Si tomamos al azar una persona con B, la probabilidad de que tenga también A es P(A|B) = 0.625 • Las 500 personas con A y B son el 83.3% de las que tienen A. Si tomamos al azar una persona con A, la probabilidad de que tenga también B es P(B|A) = 0.833. 5.5. Teorema de Bayes El Teorema de Bayes, TB, se aplica cuando: a)Conocemos la DF marginal de la variable ‘A’ y la DF de la variable ‘B’ condicionada a cada valor de ‘A’. b)Queremos saber la DF marginal de ‘B’ y la DF de ‘A’ condicionada a cada valor de ‘B’. Como ejemplo, supongamos que respecto a las enfermedades A y B sabemos esto: B B- P(A) = 0.30 P(B|A) = 0.833 P(B-|A) = 0.167 P(A-) = 0.70 Total P(B|A-) = 0.214 P(B-|A-) = 0.786 1 1 Es decir, el 30% de una población tienen la enfermedad A (el 70% no la tiene). Es la DF marginal de A. Además, tienen B el 83.3% de los que tienen A (no tiene B el 16.7% de los que tienen A, 1-.833 =.167). Tienen B el 21.4% de los que no tienen A (no tienen B el 78.6% de los que no tienen A). Es la DF de B condicionada a A. Y queremos saber la FR de individuos que tienen la enfermedad B, y la FR que tienen A entre los que tienen B y entre los que no tienen B. P(A) = 0.30 B B- P(B|A) =0.833 P(B-|A) = 0.167 P(A-) = 0.70 P(A|B) = ? P(A|B-) = ? P(B|A-) = 0.214 P(B-|A-) = 0.786 P(A-|B) = ? P(A-|B-) = ? Total P(B) = ? P(B-) = ? Para encontrar la solución empezamos calculando la FR de individuos con A y B (proporción de una proporción): si tienen A el 30% de los individuos y el 83.3% de los que tienen A también tienen B, la FR de individuos con A y B es 0.30 x 0.833 = 0.25, es decir, el 25% del total tienen A y B. Del mismo modo se calculan las demás frecuencias conjuntas. 05-cap5.indd 67 10/2/10 22:12:49 68 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES P(A) = 0.30 B B- P(A-) = 0.70 TOTAL P(B|A-) = 0.214 P(B|A) =0.833 P(A-yB)=P(A-)x P(B|A-) = P(A y B) =P(A) x P(B|A) = = 0.70 x 0.214 = 0.15 = 0.30 x 0.833 = 0.25 P(B) = P(B-|A) = 0.167 P(A y B-)=P(A)xP(B-|A) = P(B-) = = 0.30 x 0.167 = 0.05 P(B-|A-) = 0.786 P(A- y B-)=P(A-) x P(B-|A-) = = 0.70 x 0.786 = 0.55 Sumando las conjuntas se obtiene las marginales de B. Así, si 25% tienen A y B, y otro 15% tienen B sin A, en total hay 40% que tienen B (con o sin A). P(A) = 0.30 B B- P(A-) = 0.70 TOTAL P(B|A) =0.833 P(B|A-) = 0.214 P(B) = P(A y B) + P(A y B) =P(A) x P(B|A) = P(A-yB)=P(A-)x P(B|A-) = P(A- y B) = 0.25 + = 0.30 x 0.833 = 0.25 = 0.70 x 0.214 = 0.15 0.15 = 0.40 P(B-|A) = 0.167 P(B-|A-) = 0.786 P(A y B-) =P(A)xP(B-|A) = P(A- y B-)=P(A-) x P(B-|A-) = = 0.30 x 0.167 = 0.05 = 0.70 x 0.786 = 0.55 P(B-) = P(A y B-) + P(A- y B-) = 0.05 + 0.55 = 0.60 Una vez conocidas las marginales de B, se calculan las FR de A condicionadas a B, dividiendo las conjuntas por las marginales de B. Así, si de cada cien individuos, 40 tienen B, y de ellos 25 tienen también A, la FR de casos con A entre los que tienen B es 25 / 40 = 0.625. Todas las FR de A condicionadas a B se recogen en esta tabla: P(A) = 0.30 B P(A-) = 0.70 P(B|A) =0.833 P(B|A-) = 0.214 P(A y B) =P(A) x P(B|A) = P(A-yB)=P(A-)x P(B|A-) = = 0.30 x 0.833 = 0.25 = 0.70 x 0.214 = 0.15 P(A|B)= .25/ .40 = 0.625 P(A-|B) = .15/ .40 = 0.375 P(B-|A) = 0.167 P(B-|A-) = 0.786 P(A y B-) =P(A)xP(B-|A) = P(A- y B-)=P(A-) x P(B-|A-) = B= 0.30 x 0.167 = 0.05 = 0.70 x 0.786 = 0.55 P(A|B-) = .05/ .60 = 0.083 P(A-|B-) = .55/ .60 = 0.917 TOTAL P(B) = P(A y B)+ P(A- y B) = 0.25 + 0.15 = 0.40 P(B-) = P(A y B-) + P(A- y B-) = 0.05 + 0.55 = 0.60 La información inicial dice que tienen A el 30% del total del colectivo, y hemos encontrado que tienen A el 62.5% de los que tienen B y solo el 8.3% de los que no tienen B. Si se toma un individuo al azar de la población general, la prob de que tenga A es 30% (es lo que se llama prob a priori), pero si el individuo tiene la enfermedad B, su prob de tener A es 62.5%, mientras que si no tiene B, la prob de que tenga A es 8.3% (son las llamadas probabilidades a posteriori). **Ejercicio 5.3: El 10% de una población tiene la enfermedad E. Tienen aumentada la velocidad de sedimentación (V) el 80% de los enfermos de E y el 30% de los no enfermos. Calcular la probabilidad de estar enfermos según se tenga o no se tenga aumento de V. 05-cap5.indd 68 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES P(E) = 0.10 V+ V- P(V|E) = 0.80 P(E y V) = P(E)· P(V|E) = P(E|V) = P(V-|E) = 0.20 P(E y V-) = P(E)·P(V-|E) = P(E|V-) = 69 TOTAL P(E-) = 0.90 P(V|E-) = 0.30 P(E-y V) = P(E-)·P(V|E-)= P(E-|V) = P(V) = P(E y V) + P(E- y V) = P(V-|E-) = 0.70 P(E-yV-) = P(E-)·P(V-|E)= P(E-|V-) = P(V-) = P(E y V-) + P(E- y V-)= **Ejercicio 5.4: En los enfermos de BRONQUITIS se estudian estas dos variables, con tres posibles valores cada una: CAUSA: Bacteriana, Vírica y Química PRIMER SÍNTOMA: Tos, Dolor y Fiebre atos: Nos dan la probabilidad marginal de la “causa” (distribución a priori) y D la probabilidad de cada “síntoma” condicionada a cada causa. TOS DOLOR FIEBRE P(B)= 0.10 P(V)= 0.50 P(T|B)=.50 P(Q)= 0.40 P(T|V)=.40 P(D|B)=.00 P(T|Q)=.00 P(D|V)=.30 P(F|B)=.50 P(D|Q)=.25 P(F|V)=.30 P(F|Q)=.75 Y nos piden la probabilidad marginal del “síntoma” (“probabilidades totales”) y la de cada “causa” condicionada a cada síntoma (distribuciones “a posteriori”): P(BACT) = .10 TOS P(B|T)=. DOLOR P(B|D)=. FIEBRE P(B|F)=. P( VIR) = .50 P(QUI) = .40 P(V|T)=. P(Q|T)=. P(V|F)=. P(Q|F)=. P(V|D)=. P(Q|D)=. P(Tos)=. P(Dol)=. P(Fieb)=. Cálculos: T D F P(BACT) = .10 P(T|B)= .50 P(ByT)= P(B|T) = P(D|B)= .00 P(ByD)= P(B|D) = P(F|B)=.50 P(ByT)= P(B|F) = P( VIR) = .50 P(T|V)= .40 P(VyT)= P(V|T) = P(D|V)= .30 P(VyD)= P(V|D) = P(F|V)= .30 P(FyV)= P(V|F) = P(QUI) = .40 P(T|Q)= .00 P(QyT)= P(Q|T)= P(D|Q)= .25 P(QyD)= P(Q|D)= P(F|Q)= .75 P(FyQ)= P(Q|F)= P(Tos)= P(Dol)= P(Fie)=. **Ejercicio 5.5: Si el carcinoma de pulmón tiene 3 tipos histológicos: “A”, “B” y “C” con estas frecuencias de presentación, y la frecuencia con que aparece el signo hemoptisis precozmente en cada variedad es: Tipo histológico: Hemoptisis SÍ Hemoptisis NO 05-cap5.indd 69 A :75% 4% 96 % B: 2% 98 % 2% C: 23% 25 % 75 % 10/2/10 22:12:49 70 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES a. ¿Cuál es la distribución a priori de tipo histológico? b. ¿Cuál es la probabilidad total de hemoptisis y de no hemoptisis? c. ¿Cuáles son las distribuciones a posteriori de tipo histológico? 5.6. Tests Diagnósticos Se llama Test Diagnóstico, TD, para una enfermedad “E”, a una prueba diagnóstica de aplicación fácil y barata que da “positivo” en la mayoría de las personas enfermas, “E+”, y “negativa” en la mayoría de los no enfermos, “E-”. Lo ideal es que diera positiva en todos los “E+” y negativa en todos los “E-”, pues de ese modo nos diría con toda seguridad si el individuo tiene o no la enfermedad. Se denomina Sensibilidad del test al porcentaje de resultados positivos entre los que realmente tienen la enfermedad, y Especificidad del test al porcentaje de resultados negativos entre los que no tienen la enfermedad. Un test diagnóstico es tanto mejor cuanto mayores son su Sensibilidad y su Especificidad. Los cálculos implicados en los TD son una aplicación directa del Teorema de Bayes donde las dos características a estudiar son la enfermedad y el resultado del test: conocemos la distribución a priori de la prevalencia de la enfermedad y la distribución del resultado del test condicionada a la enfermedad (Sensibilidad y Especificidad), y el TB nos permitirá calcular el porcentaje de tests con resultado positivo o negativo (que serán las probabilidades totales) y la distribución de frecuencias de la enfermedad condicionada al resultado del test (distribución a posteriori de la enfermedad). Esta última nos da la prob que tienen un individuo de estar enfermo o no enfermo dependiendo de si el test le dio positivo o negativo. **Ejercicio 5.6: En Galicia hay 4 millones de habitantes y la enfermedad “D” afecta en cada momento a 4 000 de ellos (prevalencia = 4 000/ 4 000 000 = 0.001). La enfermedad tiene pronóstico muy malo si no se consigue un diagnóstico precoz. Se pone en marcha un TD que: • Da “positivo” en el 99% de los enfermos: Sensibilidad = 0.99 • Da “negativo” en el 80% de los no enfermos: Especificidad = 0.80 1º. Un inconsciente que no se percata de su alto riesgo de enfermedad. 2º. Un desesperado de la vida al que no le importa morir. 3º. Un bioestadístico que calculó correctamente su riesgo de enfermedad. Se somete a ese TD a todos los gallegos y en los que da positivo son convocados a un estudio más completo para averiguar si realmente tienen la enfermedad. Entre los convocados reina gran nerviosismo, pues temen que la prueba definitiva confirme la presencia de la mortal enfermedad. Pero uno de ellos se muestra tranquilo y confiado en no tener la enfermedad. Queremos averiguar si este sujeto es: a)¿Qué prob tiene de estar enfermo, habiendo dado positivo el test diagnóstico? 05-cap5.indd 70 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 71 Haremos estos cálculos: Test Positivo (T+) Enf (E­+) No Enf (E­-) P(T+|E+) = 0.99 P(T+ y E+) = P(E+|T+)= P(T+|E-) = P(T+ y E-)= P(E-|T+) = P(T+) = Test Negativo (T-) P(T-|E+)= P(T- y E+) = P(E+|T-) P(T-|E-)= 0.80 P(T- y E-) = P(E-|T-)= P(T-) = 4 000 Prevalencia P(E+)= .001 P(E-) = 4 000 000 Algunos de los porcentajes o probabilidades utilizados suelen denominarse con los términos que a continuación aparecen: •Probabilidad de Falsos Positivos: FR de tests Positivos entre los sanos. Es 1- Especificidad. •Probabilidad de Falsos Negativos: FR de tests Negativos entre los enfermos. Es 1- Sensibilidad. •Valor Predictivo Positivo: FR de Enfermos entre los que dieron test Positivo. •Valor Predictivo Negativo: FR de Sanos entre los que dieron test Negativo. Un test diagnóstico con un alta especificidad (pocos falsos positivos) es muy útil para confirmar una enfermedad, mientras que un test con alta sensibilidad (pocos falsos negativos) es útil para descartar la enfermedad. **Ejercicio 5.7: Calcule los valores pedidos en este supuesto. La Sensibilidad y la Especificidad son las mismas que en el ejercicio 5.6, pero la prevalencia de la enfermedad es mayor. ¿Cómo afecta esto a los resultados obtenidos? Test Positivo (T+) P(T |E ) = 0.99 Sensibilidad P(T+ y E+) = P(E+|T+)= Valor Predictivo Positivo + Enf (E+) No Enf (E-) + P(T+|E-) = Prob. Falsos Positivos P(T+ y E-)= P(E-|T+) = P(T+) = Test Negativo (T-) P(T |E )= Prob. Falsos Negativos P(T- y E+) = P(E+|T-) - + P(T-|E-)= 0.80 Especificidad P(T- y E-) = P(E-|T-)= Valor Predictivo Negativo P(T-) = 400 000 Prevalencia P(E+) = 0.1 P(E-)= 4 000 000 **Ejercicio 5.8: Calcule los valores pedidos en este otro supuesto. La Sensibilidad y Especificidad son las mismas que en los ejercicios 5.6 y 5.7, pero la prevalencia de la enfermedad es mucho mayor ¿Cómo afecta esto a los resultados obtenidos? 05-cap5.indd 71 10/2/10 22:12:49 72 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES Test Positivo (T+) Enf (E+) No Enf (E-) P(T+|E+) = 0.99 P(T+ y E+) = P(E+|T+)= P(T+|E-) = P(T+ y E-)= P(E-|T+) = P(T+) = Test Negativo (T-) P(T-|E+)= P(T- y E+) = P(E+|T-) P(T-|E-)= 0.80 P(T- y E-) = P(E-|T-)= P(T-) = 3 200 000 Prevalencia P(E+)= .80 P(E-) = 4 000 000 **Ejercicio 5.9: En una población tiene la enfermedad E el 80% de las personas. Un test diagnóstico da positivo en el 70% de los enfermos y en el 20% de los sanos. Califique cada afirmación a continuación con una “V” si es verdadera y con una “F”. a. La FR de enfermos entre los que tuvieron Test positivo es 0.067. b. La FR de sanos entre los que tuvieron Test negativo es 0.85. c.Si tomamos un individuo al azar, la probabilidad de que el test de positivo es 0.60. d. En el 60% de las personas el test da positivo. e.Tomando un individuo al azar, la prob. de que sea E y con test positivo es 0.56. f. En el 56% de las personas son E y el test les da positivo. 05-cap5.indd 72 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 73 No olvide recordar - 5 1.Fenómeno Aleatorio, FA, es aquel en que no se puede saber si ocurrirá o no cierto resultado cada vez que se repite, pero se sabe la proporción de veces que ocurrirá ese resultado si el FA se repite muchas veces. Llamamos Probabilidad a esa FR de veces que ocurre el resultado al repetir muchas veces el FA. 2.La probabilidad de que ese resultado ocurra N veces seguidas es la probabilidad de que ocurra una vez elevada a N. 3.Los valores de la probabilidad informan sobre lo que ocurre al repetir un fenómeno aleatorio muchas veces o tratar con grandes conjuntos de individuos, no al hacer una sola repetición del FA o tratar con un solo individuo. 4.El Teorema de Bayes, TB, surge cuando se estudia la relación entre dos variables, digamos A y B. Conocidas la DF marginal de la variable A (llamada distribución a priori) y la DF de B condicionada a A, el TB nos permite obtener la DF marginal de B (probabilidades totales) y la DF de A condicionada a B (llamada distribución a posteriori). 5.En los cálculos del TB hay que obtener la DF conjunta, calculando la proporción de una proporción. 6.El TB se aplica en los Tests Diagnósticos donde se relaciona la presencia o ausencia de enfermedad y el resultado del test, positivo o negativo. 7.Sensibilidad del test es la FR de individuos realmente enfermos en los que el test da positivo, y Especificidad del test es la FR de individuos realmente sanos en los que el test da negativo. 8.Conocida la prevalencia de cierta enfermedad y la Sensibilidad y Especificidad (resultado del test condicionado a la enfermedad), se obtiene el porcentaje de tests con resultado positivo y negativo y la DF de la enfermedad condicionada al resultado del test (distribución a posteriori de la enfermedad). 9.La distribución a posteriori de enfermedad nos da la probabilidad que tiene un individuo de estar enfermo, dependiendo de si el test le dio positivo o negativo. 10.En el contexto de los tests diagnósticos, se utilizan los términos: Probabilidad de falsos positivos = FR de test positivo entre los sanos. Probabilidad de falsos negativos = FR de test negativo entre los enfermos. Valor predictivo positivo = FR de enfermos entre los que dieron test positivo. Valor predictivo negativo = FR de sanos entre los que dieron test negativo. 05-cap5.indd 73 10/2/10 22:12:49 74 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES EJERCICIO DE AUTOEVALUACIÓN - 5 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1. Según los cardiólogos, la probabilidad de tener infarto de miocardio en los próximos 12 meses en un varón de 40 años, vida sedentaria, que come, fuma y bebe mucho es 0.090. Esa cifra se obtiene a partir de sofisticados conocimientos sobre la fisiología, la bioquímica y la genética molecular de esos pacientes. 2. Los cardiólogos dicen que esa probabilidad en un varón de 40 años, deportista, que come, fuma y bebe moderadamente es 0.003. Esa cifra es la FR de personas con esas circunstancias que tuvieron ese infarto. 3.Si en una población con 20% de alérgicos repetimos millones de veces la extracción de un individuo al azar, puede ser alérgico el primer individuo extraído y puede serlo el segundo y el tercero… Por tanto, conceptualmente es posible que sean alérgicos todos los individuos de esa larga serie de extracciones. 4.Si en una población con 20% de alérgicos repetimos millones de veces la extracción de un individuo al azar, conceptualmente es posible que sean alérgicos todos las personas de esa larga serie de extracciones, pero en la práctica eso no ocurre “nunca” y por ello lo razonable es no contar con esa posibilidad teórica. 5. La “ley de la regularidad de las grandes series estadísticas” o “Ley del azar” nos dice que si en una población con 20% de alérgicos repetimos millones de veces la extracción de un individuo al azar, hay que contar con la posibilidad de que la proporción de extracciones en que el individuo es alérgico sea 72% ó 7%. 6. La “Ley del azar” nos dice que si en una población con 20% de alérgicos repetimos muchas veces la extracción de un individuo al azar, la proporción de extracciones en que el individuo es alérgico no va a ser 72% ni 50% ni 7%. 7. La “Ley del azar” nos dice que si de una población con 20% de alérgicos repetimos muchas veces la extracción de un individuo al azar, en muy aproximadamente 20 de cada 100 extracciones el individuo será alérgico. 8.Si un paciente debe someterse a una operación quirúrgica y le dicen que el riesgo de que salga mal es 15%, él sabe que su operación saldrá mal. 9.Si un paciente debe someterse a una operación quirúrgica y le dicen que el riesgo de que salga mal es 15%, él sabe que su operación saldrá bien. 10. Si un paciente debe someterse a una operación quirúrgica y le dicen que el riesgo de que salga mal es 15%, él sabe que en la larga lista de operados hasta ahora, la operación ha salido mal en 15 cada 100. Una enfermedad afecta al 30% de los individuos de una población. Un Test Diagnóstico para detectar la enfermedad da positivo en el 90% de los casos que realmente tienen la enfermedad (Sensibilidad) y da negativo en el 95% de los casos que realmente no tienen la enfermedad (Especificidad). 05-cap5.indd 74 10/2/10 22:12:49 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES 75 11.En esta población, el 70% de los individuos no tiene la enfermedad. 12. El test da positivo en el 90% del total de individuos. 13.El test “acierta” (da resultado acorde con la realidad) en el 93.5% de los casos. 14. El test “falla” en el 17.5% de los casos. 15. Al 11.5% de los individuos que no están enfermos, el test les da positivo. 16.De cada 1000 individuos a los que el test les da positivo, aproximadamente 115 no tienen la enfermedad. 17.De cada 100 individuos a los que el test les da negativo, aproximadamente 10 tienen la enfermedad. 18.Si a un individuo el test le dio negativo tiene una probabilidad de 10% de que realmente no tenga la enfermedad. 19. El valor predictivo negativo de este test diagnóstico es 95.7%. De los individuos que tienen cierta enfermedad el 80% sobrevive 2 años, el 15% sobrevive 3 años y un 5% sobrevive 4 años. Existen dos fármacos para tratar esta enfermedad. Se sabe que habían recibido el fármaco A el 10% de los pacientes que sobrevivieron 2 años, el 20% de los que sobrevivieron 3 años y el 80% de los que sobrevivieron 4 años. El resto recibieron B. 20. El tiempo medio de supervivencia de todos los enfermos es 2.25. 21. La varianza del tiempo de supervivencia de todos los enfermos es -8.7. 22.La “distribución a priori” es el porcentaje de individuos que sobreviven 2, 3 o 4 años, es decir, 80%, 15%, 5%, respectivamente. 23.La “distribución a posterior” es la distribución de frecuencia marginal del fármaco recibido, es decir, el 15% fueron tratados con A y el 85% con B. 24. La “distribución a posterior” es la distribución de frecuencias del fármaco recibido condicionado a cada tiempo de supervivencia. 25.La “distribución a posterior” es la distribución de frecuencias del tiempo de supervivencia condicionado al fármaco recibido. 26.“Tiempo de supervivencia” y “fármaco recibido” son características independientes en este grupo de individuos. 27. Sobrevivió 3 años y fue tratado con B el 10% de los individuos. 28. El 15% de los individuos fueron tratados con A. 29.En los individuos tratados con A la probabilidad de sobrevivir 4 años es 80%. 30.La probabilidad de sobrevivir menos de 4 años en los tratados con B es 14.1%. 31. Los pacientes tratados con A sobreviven por término medio 3 años. 32.La prob de sobrevivir más de 3 años es 5% cuando se ignora el fármaco recibido, 27% si se recibió el fármaco A y 1% si se recibió el B. 05-cap5.indd 75 10/2/10 22:12:49 76 5. PROPORCIONES Y PROBABILIDAD. TEOREMA DE BAYES El 90% de los implantes dentarios consolidan. Son fumadores el 20% de los pacientes en los que el implante consolida y el 70% de aquellos en los que el implante no consolida. 33. En total, fuman el 40% de los implantados. 34. Los implantes consolidan bien en el 90% de los fumadores. 35. Los implantes consolidan bien en el 96% de los no-fumadores. 36. En ese colectivo son fumadores y con implante consolidado el 18%. 37. La consolidación del implante y el fumar son características independientes. 38. Fumar baja en 54 puntos el porcentaje de implantes que consolidan. 39.El efecto del tabaco sobre el éxito de los implantes es 18%. 40.El porcentaje de implantes consolidados es 24 puntos menor en fumadores. 05-cap5.indd 76 10/2/10 22:12:49 Capítulo 6 DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON Los investigadores conviven constantemente con el problema de la IE. Puesto que observan muestras que son solo una pequeña parte de la población que intentan conocer, una pregunta es constante en su actividad científica, cualquiera que sea su campo de investigación: ¿Es el hallazgo encontrado en la muestra analizada una verdad general, válida para toda la población? ¿Qué resultados son mera anécdota particular de la muestra y cuáles son válidos más allá de ella? 6.1. Poblaciones y Muestras En la investigación científica se estudian muestras y a partir de lo observado en ellas se intenta adquirir conocimiento sobre las poblaciones a las que pertenecen. Población: Es el total de individuos con ciertas características. Ejemplos: • La población de varones adultos sanos españoles: 16 millones. •La población de enfermos de úlcera de estómago: 4 millones en todo el mundo. •La población de ratas a las que se hubiera extirpado el páncreas y dado tres miligramos de insulina por kilo de peso cada día: el tamaño sería el número de ratas de todo el mundo sometidas a ese tratamiento. Muestra: Es el conjunto de individuos extraídos de la población que observamos y/o manipulamos en un estudio, evaluando en ellos ciertas variables que son de nuestro interés. Ejemplos: •Para intentar conocer cómo son los hábitos de higiene bucal en la población de varones adultos sanos españoles, estudiamos una muestra de 1234 varones adultos. •Para intentar conocer cómo es la mucosa gástrica en los enfermos de úlcera de estómago, estudiamos las biopsias extraídas en una muestra de 327 pacientes. 77 06-cap6.indd 77 10/2/10 22:12:58 78 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON •Para intentar conocer si con tres miligramos por kilo de peso diarios de insulina se puede compensar la ausencia de páncreas en ratas, a una muestra de 20 se les extirpa el páncreas y se les administra esa dosis diaria de insulina. El investigador intenta conocer acerca de las poblaciones, pero solamente puede estudiar el comportamiento de las muestras. Si prueba, por ejemplo, un nuevo método docente en un grupo de niños con la esperanza de que mejore su aprendizaje, los resultados del método se observan en ese grupo concreto de chicos, pero el interés del investigador se centra en saber si ese método es efectivo en general, en la población de niños de esa edad y circunstancias. Y si prueba una nueva medicina en una muestra de 200 enfermos de pulmonía, los resultados observados en esos pacientes tienen interés para la comunidad científica en la medida en que sean extrapolables a la generalidad de los pacientes con esa enfermedad. En general se llaman: Parámetros: la media, varianza, porcentaje... de una variable en la población. Estadísticos: la media, cuasivarianza, porcentaje... de esa variable en una muestra. Los parámetros y estadísticos más habitualmente analizados son: Variable Cuantitativa Variable Cualitativa Población Muestra π p µ , σ2 M , S2 El investigador intenta conocer los valores de los parámetros, pero solamente conoce los valores de los estadísticos. Se llama Inferencia Estadística, IE, a la disciplina que ayuda a conocer acerca de los parámetros (µ, σ2, π,...) a partir de los estadísticos (M, S2, p, ...) observados en la muestra. 6.2.La variabilidad e incertidumbre inherente a la extracción de una muestra ¿Hasta qué punto es la muestra parecida a la población? La respuesta a esta pregunta es clave en la IE. Consideremos la situación más sencilla en que en cada individuo se evalúa si tiene o no una característica dicotómica, digamos “E”. Si en la población son E, por ejemplo, el 30% de los individuos, ¿cuántos de ellos lo serán en una muestra de, por ejemplo, N = 10? La experiencia muestra que el valor del estadístico de la muestra no es, en general, exactamente igual al del parámetro que queremos conocer. Puede que en la muestra haya justamente 3 E, dando FR muestral = 3/10 = 0.3, igual a la poblacional. Pero el número de E en la muestra puede ser cualquier otro valor de 0 a 10. En el capítulo anterior decíamos que al tomar al azar un individuo de esa población, podía ser E o no serlo y es imposible predecir si será o no será E. Esta 06-cap6.indd 78 10/2/10 22:12:58 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 79 incertidumbre es inherente al hecho de tomar un individuo y no hay modo de evitarla. Pero sabemos que si repetimos millones de veces la extracción de un individuo, en 30 de cada 100 extracciones este será E. Ese conocimiento lo resumimos diciendo que la prob de que el individuo extraído sea E es 0.30: P (E) = 0.30. Ahora se trata de tomar una muestra de 10 individuos. El número de E en la muestra puede ser cualquier valor 0, 1,... 9, 10 y es imposible predecir cual será esa cantidad al sacar una muestra. También esta incertidumbre es inherente al hecho de tomar una muestra y no hay modo de evitarla. 6.3.La Regularidad propia del Muestreo Aleatorio, MA. La Distribución Binomial Pero aquí también opera la Ley de la regularidad de las grandes series estadísticas o Ley empírica del azar y conduce a que si la extracción de una muestra de 10 individuos la repetimos millones de veces, resulta que En 28 de cada 1 000 muestras habrá 0 individuos con E (p muestral = 0.00) En 121 de cada 1 000 muestras habrá 1 individuos con E (p muestral = 0.10) En 233 de cada 1 000 muestras habrá 2 individuos con E (p muestral = 0.20) En la siguiente tabla se da la FR de muestras con cada cantidad posible de E π = 0.3 X p FR(X) 0 0 .028 1 .1 .121 2 .2 .233 3 .3 .267 Millones de muestras de N = 10 4 .4 .200 5 .5 .103 6 .6 .039 7 .7 .009 8 .8 .001 9 .9 .0001 10 1 .000006 Al hecho de extraer de una población muchos millones de muestras del mismo tamaño, se llama hacer Muestreo Aleatorio, MA. Si en cada muestra calculamos un determinado estadístico, tendremos tantos valores de él como muestras hayamos tomado. Para hacer IE es imprescindible conocer cómo se distribuyen estos valores del estadístico al hacer MA. La Variabilidad y Regularidad propias del MA (millones de muestras) implica: a)No podemos saber el número de E que va a tener cada muestra. Puede ser cualquier cantidad entre 0 y 10 (en general, entre 0 y N ). b)Sabemos, por ejemplo, que 200 cada mil muestras van a tener 4 individuos E y 103 cada mil muestras van a tener 5 individuos E…, con el ejemplo anterior. La última fila de la tabla anterior es un ejemplo de lo que se llama Distribución Binomial. En general, la Distribución Binomial nos da la prob de que haya X individuos “positivos” (es decir, con cierta característica) en una muestra de tamaño N, siendo π la FR de individuos positivos en la población. X puede ser 0, 1 , 2… hasta N. La prob de cada valor de X se calcula con esta fórmula: 06-cap6.indd 79 10/2/10 22:12:58 80 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON Por ejemplo, es P(4) = (10! / 4! 6!) · 0.3 4 · 0.7 6 = 0.20, es decir, el 20% de las muestras de 10 individuos tomadas de una población donde el 30% son E, tendrán 4 individuos con E (serán muestras con p = 4 / 10 = 40% de E). Si se extraen millones de muestras de N = 10, en la primera de ellas puede haber 4 individuos E, y en la segunda muestra también puede haber 4 E y puede haber 4 E en cada una de las restantes muestras, por lo que podría ocurrir que saliera 4 en todas las muestras de esa larga serie de repeticiones. Con más motivo podría ocurrir que ninguna muestra tuviera 4 E. Pero la experiencia muestra que, en la práctica, la FR de muestras con 4 E “siempre” toma valores muy próximos a 0.20 y la FR de muestras con cualquier otro número de E toma valores muy próximos a los dados por esa fórmula. Como un segundo ejemplo de Distribución Binomial consideremos una población con 40% de diabéticos (π = 0.40). Si tomamos una muestra aleatoria, con reposición, de N = 5 individuos, teóricamente esperamos encontrar 2 diabéticos, porque 2 es el 40% de 5. A esa cantidad se la llama Valor Esperado, E, y en general se calcula como E = π · N (nótese que el símbolo “E” aquí es la inicial de “Esperado”, no de “Enfermo”). Pero la cantidad de diabéticos en la muestra puede ser cualquiera entre 0 y 5. A continuación se representan los 6 tipos de muestras que pueden darse. La primera columna de la izquierda simboliza las muestras con 0 diabéticos, es decir, los 5 sanos, S. La siguiente columna indica las muestras con 1 diabético, etc. La antepenúltima fila recoge la cantidad de diabéticos en la muestra, X, la penúltima indica la FR de diabéticos en la muestra, p = X / N, y la última indica la FR de cada tipo de muestra en el MA, P(X), y es lo que se llama Distribución Binomial (0.4, 5). Tipos de muestras de N = 5 si es π = 0.40 X: p=X/N P(X) S S S S S 0 0 .078 D S S S S 1 .20 .259 D D S S S 2 .40 .346 D D D S S 3 .60 .230 D D D D S 4 .80 .077 D D D D D 5 1 .010 S = SANO D = DIABÉTICO Por ejemplo, P(4) ≡ P (X = 4) ≡ P (p = 0.8) = ( 5! / 4! 1!) · 0.25 4 · 0.75 1 = 0.077 **Ejercicio 6.1: a. ¿Qué es más probable: obtener dos o cuatro diabéticos? b. ¿Qué es más probable: obtener cuatro diabéticos o cinco diabéticos? c. Es P (2) = ( 5! / 2! 3!) · 0.4 2 · 0.6 3 = 0.346 Interprete esa cantidad. d. Es P (4) = 0.077 Interprete esa cantidad. 06-cap6.indd 80 10/2/10 22:12:58 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 81 Las Tablas de Binomial, al final del libro, dan los cálculos para varios valores de π y tamaños de muestra de 2 a 10. Para tamaños de muestra mayores de 10 y π distintos de los que allí aparecen, hay que calcular las prob con la fórmula. Para valores de π mayores de 50% tenga en cuenta que si, por ejemplo, en una población el 60% de los individuos son miopes, el 40% serán no miopes, y que una muestra de N = 8 con 3 miopes tiene 5 no miopes. Por ello, la prob de que una muestra de N = 8 tenga 3 miopes es la de que tenga 5 no-miopes, es decir, P(X= 5) en una Binomial con N = 8 y π = 0.4. En la tabla se encuentra P = 0.1239. **Ejercicio 6.2: En una población son alérgicos, A, el 25%, π = 0.25. Si tomamos una muestra aleatoria de 4 personas, el número de A en ella puede ser 0, 1, 2, 3 ó 4, es decir, la FR muestral de alérgicos en la muestra, p, puede ser, 0, 0.25, 0.50, 0.75 y 1. Las FR con que aparece cada uno de los valores en el MA son: X = nº alérgicos p muestral = X/4 F. R. de cada valor p en el MA 0 0 0.316 1 0.25 0.422 2 0.50 0.211 3 0.75 0.047 4 1 0.004 Diga si es Verdadera o Falsa cada una de las siguientes afirmaciones: a. En esta población la FR de alérgicos, A, toma varios valores posibles. b. En esta población la FR de A es 0.25. c.Si tomamos UNA sola muestra de N = 4 es seguro que tendrá justamente un A, puesto que 1 es el 25% de 4. d.Si hacemos MA de N = 4, todas las muestras tendrán justamente un A. e.Si hacemos MA de N = 4, unas muestras tendrán cero A, otras tendrán un A, otras tendrán 2 A, otras 3 A y otras 4. De cada mil muestras 422 tendrán justamente un A. f.Si tomamos UNA muestra de N = 4, la prob de que tenga un A es P(X=1) = 0.422. g.Si tomamos UNA muestra de N = 4, la prob de que los 4 sean A es P(X) = 0.004. h. La Ley del azar dice que si saco UNA sola muestra va a contener un A. i. La ley del azar dice que si saco UNA sola muestra va a contener 4 A. j.La ley del azar dice que si saco millones de muestras, la FR de ellas que van a tener cero A es muy aproximadamente 0.316. k.Si no conocemos la FR poblacional de A y en una muestra de N = 4 hay 2 alérgicos, la FR muestral es 0.5 y concluimos que la FR poblacional de A es 0.5. l.Si no conocemos la FR poblacional de A y en una muestra de N = 4 hay 2 A, concluimos que la FR poblacional de alérgicos puede ser 0.5 u otra cantidad. **Ejercicio 6.3: El 40% de una población son enfermos. Se toma una muestra al azar y con reposición de tamaño N = 6. 06-cap6.indd 81 10/2/10 22:12:58 82 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON a. Calcular P (ningún enfermo): P(X=0). b. Calcular P (un enfermo): P(X=1). c. Calcular P (menos de dos enfermos). ¿Qué quiere decir este valor? d. Calcular P (más de un enfermo). ¿Qué quiere decir este valor? e. ¿Puede ser la FR de enfermos en la muestra p = 0.40? ¿Por qué? 6.4. ¿Para qué vale la Regularidad propia del MA? El lector se preguntará para qué vale conocer esas FR que aparecen al hacer muestreo repetido, si en la práctica el investigador toma y analiza una muestra, no millones de ellas. En esa única muestra calcula un estadístico y a partir de él intenta conocer acerca del correspondiente parámetro poblacional. ¿Por qué necesita conocer la distribución de los valores que toma ese estadístico si se extraen millones de muestras? Parecería que el razonamiento estadístico tiene peculiaridades extrañas muy distintas del razonamiento lógico general. Pero pronto veremos que en la vida común se procede del mismo modo y que el hecho de que la incertidumbre presente cuando sacamos una muestra se torne en regularidades cuando sacamos millones de muestras es fundamental al hacer IE. **Ejercicio 6.4: En un examen Lucía ha respondido bien 20 preguntas. Si nos dice que el examen tenía 100 preguntas, el resultado parece malo. Si nos dice que tenía 22 preguntas, el resultado parece bueno. ¿Y si el examen tenía 40 preguntas? **Ejercicio 6.5: Nos dicen que en una evaluación internacional de universidades la nuestra ha obtenido 230 puntos. ¿Es ese resultado bueno o malo? ¿Qué información complementaria necesitamos para valorar esa puntuación? En muchas situaciones de la vida necesitamos conocer la puntuación de todos los individuos de un colectivo para valorar la puntuación de uno de ellos. El conjunto de esas puntuaciones es lo que se llama la distribución de esa medida en ese colectivo. De la misma forma, en la IE para interpretar el valor que un estadístico tomó en una muestra necesitamos conocer la distribución de ese estadístico al hacer MA, es decir, los valores que toma si se extraen millones de muestras. 6.5.Distribución Binomial en general. Número de veces “+” en una serie de repeticiones de un FA Hemos visto que la Distribución Binomial se aplica cuando se toman al azar N individuos de un colectivo y se cuenta el número de ellos, “X”, que tienen cierta característica, por ejemplo, ser enfermo. Ello es un caso particular de la situación general en la que se repite N veces un Fenómeno Aleatorio y se cuenta el número de ellas en que ocurrió cierto suceso. 06-cap6.indd 82 10/2/10 22:12:58 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 83 En la situación anterior el Fenómeno Aleatorio era la extracción de cada individuo y el suceso era tener o no la característica. Ejemplo 1: Se tira una moneda bien balanceada 6 veces. Cada vez que se tira, la prob de que salga cara es π = 0.5. En la serie de 6 tiradas esperamos que salgan 3 caras, E = 3, pero puede salir más o menos. Veamos la prob de que salgan 0, 1... 6. Bin (N, π) = B(6,0.5): X=0 P (0) = {6! / [ 0! · 6!] } 0.50 0.56 X=1 P (1) = {6! / [ 1! · 5!] } 0.5 0.5 X=3 P (3) = {6! / [ 3! · 3!] } 0.5 0.5 X=2 X=4 X=5 X=6 1 0.016 0.094 5 P (2) = {6! / [ 2! · 4!] } 0.52 0.54 3 0.234 0.313 3 P (4) = {6! / [ 4! · 2!] } 0.54 0.52 0.234 P (5) = {6! / [ 5! · 1!] } 0.5 0.5 5 0.094 1 P (6) = {6! / [ 6! · 0!] } 0.56 0.50 0.016 **Ejercicio 6.6: En cierto tipo de operación quirúrgica mueren el 50% de los pacientes. Si un cirujano opera este mes a 6 pacientes, espera 3 muertos, E = 3. Calcular la probabilidad de que entre los 6 operados haya: a. 0 muertos b. 1 muerto c. 2 muertos Interprete inequívocamente esta probabilidad. Ejemplo 2: Se tira un dado homogéneo 12 veces. Cada vez que se tira, la prob de que salga la cara 5 es π = 1/6 = 0.167. En una serie de 12 tiradas esperamos que salgan N · π = 12 · (1/6) = 2 cincos. Pero pueden salir más o menos de 2. Calculemos la prob de que salgan 0, 1, 2 , ……12 cincos: Bin (N, π) = B(12,1/6): X=0 P(0) = {12! / [ 0! · 12!] } (1/6)0 (5/6)12 X=2 P(2) = {12! / [ 2! · 10!] } (1/6) (5/6) X=1 ---- X=9 X = 12 P(1) = {12! / [ 1! · 11!] } (1/6)1 (5/6)11 2 --------------------------------- 10 0.112 0.269 0.296 --------- 0.000012 0.0000000007 **Ejercicio 6.7: Una exploración radiológica que da lugar a reacción adversa (RA) en 1/6 = 0.167 de los paciente, se aplica a N = 12 pacientes: a. ¿Cuantos esperamos con RA? b. Calcular P (entre los 12 pacientes haya 2 RA). c. Calcular P (X=0). d. Calcular P (X=1). e. Calcular P (X=9). Interprete inequívocamente esta probabilidad. 06-cap6.indd 83 10/2/10 22:12:58 84 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON **Ejercicio 6.8: Si el carcinoma de páncreas se cura en el 30% de los casos (valor poblacional) y tratamos una muestra aleatoria de N = 10 enfermos: a. ¿Cuántas curaciones esperamos obtener? b. ¿Cuál es la prob de obtener solamente una curación? c. ¿Cuál es la prob de obtener 8 curaciones? d. ¿Qué quiere decir el último valor de prob encontrado? **Ejercicio 6.9: En cierta intervención quirúrgica, los pacientes tienen prob 0.25 de morir. La Dra. Largaespada operará a 9 pacientes, que consideraremos son una muestra aleatoria del total de ellos. Calcular: a. P (se mueran todos). b. P (ningún muerto). c. P (más de 4 muertos). 6. 6. Media y Desviación de la Distribución Binomial Al hacer IE con frecuencia se alude a la “Media y a la Desviación Estándar de la Distribución Binomial”. Explicaremos qué son y cómo se calculan esas cantidades usando un ejemplo sencillo. En una población tiene Herpes, H, el 25% de las personas, π = 0.25. Si hacemos MA de N = 8, y en cada muestra llamamos: • “X” al número de individuos con H en cada muestra. • “p” a la FR de individuos con H en cada muestra: p = X / 8. La tabla siguiente recoge los resultados obtenidos en las primeras muestras. Así, en la primera muestra de 8 individuos, 3 tuvieron H y la FR muestral es 3/8 = 37.5%; en la segunda muestra, solo 1 tuvo H y la FR muestral es 1 / 8 = 12.5%... Muestra 1ª Muestra 2ª Muestra 3ª Muestra 4ª Muestra 5ª - - -- - - - - - - -- - - - - - 1º Nº de H en cada muestra 2º 3º 4º 5º 6º 7º 8º + ----- + + ----- + + + ----- + + ----- + + ----- + ----- ----- + + + ----- X p = X/8 3 1 3 2 5 ----↓ µX = 2 σ2X =1.5 σX =1.22 .375 .125 .375 .250 .625 ----↓ µp = 0.25 σ2p =0.023 σp =0.15 En este contexto se definen estas cuatro cantidades: Media y σ de las “X”, µX y σX, y Media y σ de las “p”: µp y σp 06-cap6.indd 84 10/2/10 22:12:58 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 85 1. Media y varianza de X, número de H en cada muestra. •El valor esperado de X es 2, ya que es el 25% de 8. En muchas muestras X será justamente 2, en otras será mayor y en otras menor de 2. Se puede demostrar que la media de X en el MA es 2. En general, µX = N · π. Por tanto, en el MA la cantidad µX = E = N π es tres cosas: a)El valor esperado de X, que da FR muestral de H igual a la poblacional. b)El valor que aparece con más frecuencia en el MA. En esta Distribución Binomial es P(1) = 0.2670, P(2) = 0.3115, P(3) = 0.2076. c) La media de X calculada sobre todas las muestras, µX . •La varianza de X en el MA es σ2X = π (1- π) N = 0.25 · 0.75 · 8 = 1.5 2. Media y varianza de p = X / N, FR de H en cada muestra. •El valor esperado de p = X / N es 0.25, ya que es el de la población. En muchas muestras p será justamente 0.25, en otras será mayor y en otras menor de 0.25. Se puede demostrar que la media de p en el MA es 0.25. En general µp = π. Por tanto, en el MA la cantidad π es tres cosas: a) El valor esperado de p. b) El valor de p que aparece con más frecuencia en el MA. c) La media de p calculada sobre todas las muestras, µp. •La varianza de las p es σ2p = π (1- π.) / N = 0.25 x 0.75 / 8 = 0.023 **Ejercicio 6.10: En una población son alérgicos el 40%. Si tomamos muchas muestras de N = 10: a. ¿Cuál es la Media y la σ del número de alérgicos por muestra (µX y σX)? b. ¿Cuál es la Media y la σ de la FR de alérgicos por muestra (µp y σp)? Si tomamos muchas muestras de N = 100: c- ¿Cuál es la Media y la σ del número de alérgicos por muestra (µX y σX)? d- ¿Cuál es la Media y la σ de la FR de alérgicos por muestra (µp y σp)? Si tomamos muchas muestras de N= 400: e. ¿Cuál es la Media y la σ del número de alérgicos por muestra? f. ¿Cuál es la Media y la σ de la FR de alérgicos por muestra? 6. 7. Distribución de Poisson. Binomial con N grande y π pequeña Distintas Binomiales con N grande y π pequeña e igual valor esperado (E = π N) dan valores de prob muy parecidos, y a esa misma prob se llega usando la fórmula de Poisson, que solo usa el valor de E, no N ni π. (e = limn∞ (1+1/n)n ≅ 2.71) P( X ) = e − E ·E X X! Ejemplo 1: Veamos, por ejemplo, P(2), P(5) y P(10) en varias Binomiales de diferente N y π, pero con el mismo E = N · π, en este caso E = 5: 06-cap6.indd 85 10/2/10 22:12:58 86 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON N 100 500 1 000 2 000 5 000 π 0.05 0.01 0.005 0.0025 0.001 E 5 5 5 5 5 Poisson P(X) = e-E EX / x! = e-5 5X / X! P(2) 0.0812 0.0836 0.0839 0.0841 0.0842 0.0842 e-5 52 / 2! P(5) 0.1810 0.1764 0.1759 0.1757 0.1756 0.1755 e-5 55 / 5! P(10) 0.0177 0.0179 0.0180 0.0181 0.0181 0.0181 e-5 510 / 10! Por ejemplo, en la Binomial de N = 100 y π = 0.05 es P(2) = {100! / [2! x 98!]} 0.052 0.9598 = 0.0812. Del mismo modo se calculan las demas prob. Observamos que P(2) toma valores cada vez más próximos entre sí en las Binomiales con mayor N y menor π y ese valor se aproxima cada vez más al de la última fila, calculado con la fórmula de Poisson. Lo mismo ocurre con P(5) y P(10). Incluso en la Binomial con N = 100 y π = 0.05, la aproximación de las tres prob a las de la última fila son bastante buenas para la mayoría de las aplicaciones prácticas. Ejemplo 2: Veamos P(1) y P(6) en varias Binomiales de diferente N y π, pero con la misma E = 2: N 50 400 1 000 π E 0.005 2 0.04 0.002 Poisson P(X) = e-E EX / x! = e-2 2X / X! 2 2 P(1) P(6) 0.2706 0.0108 0.2707 0.0120 0.2707 0.2707 e-2. 21/1! 0.0119 0.0120 e-2 26 / 6! Ante una Binomial con N grande y π pequeña, las prob de cada valor posible: 0, 1, 2,…, es decir, la FR de muestras en el MA con 0, 1, 2 ... individuos “positivos”, se pueden calcular con la fórmula de Poisson, que da resultados próximos a los de la Binomial y es más sencilla. Esta aproximación de la Distribución Binomial a la Poisson es bastante buena si N > 100 y π < 0.10. Las Tablas de Poisson al final del libro dan prob de X = 0, 1, 2... para algunos valores de E. . **Ejercicio 6.11: En el país “A” la gripe invernal, GI, afecta al 2% de los habitantes. Si en la capital hay 300 habitantes, ¿cuál es la prob de que en ella haya 5 con GI? **Ejercicio 6.12: En el país “B” la gripe invernal, GI, afecta al 0.4% de los habitantes. Si en la capital hay 1 000 habitantes a. ¿Cuál es la probabilidad de que entre ellos haya 3 con GI? b. ¿Qué quiere decir ese valor P(3) obtenido arriba? 06-cap6.indd 86 10/2/10 22:12:59 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 87 6.8. Distribución de Poisson sin haber una Binomial explícita La fórmula de Poisson da resultados muy próximos a los de la Binomial cuando N es grande y π es pequeña, y para aplicarla no necesitamos saber N ni π, basta con conocer E = N · π. Veamos cómo usar Poisson sin conocer N ni π. Ejemplo: En el país “C” no se sabe el porcentaje de personas que son afectados por la gripe invernal, GI, ni cuántos habitantes hay en su capital, pero se sabe que la cantidad esperada de personas con GI es E = 4. ¿Cuál es prob de que haya 7 personas con GI? Respuesta: No conocemos N ni π, pero sabemos que N·π = 4. Podría ser, por ejemplo N = 400 y π = 0.01, o quizá N = 200 y π = 0.02, o quizá N = 10 000 y π = 0.0004, u otra combinación de N y π que dé N·π = 4. Pero P(7) dará un valor muy parecido en esas tres Binomiales y en cualquier otra con E = 4, si es N mayor de 100 y π menor de 0.10. Y a un valor muy parecido se llega con la fórmula de Poisson. P(de que en la capital de “C” haya 7 personas con GI) = e-4 · 47 / 7! = 0.0595 E es la media de casos ocurridos por muestra si se repite la situación muchas veces. **Ejercicio 6.13: En la ciudad ‘A’ hay 500 motoristas y cada uno tiene prob π = 0.004 de tener un accidente grave, AG, en Noche Vieja, NV. Calcule la prob de que la próxima NV haya 3 AG. (Si los datos permanecen iguales, N = 500 y π = 0.004, durante muchas NV y anotamos los AG que hay en cada una, podemos calcular la FR de NV con 3 AG. Esa FR empírica tendrá un valor próximo a esa P(3) calculada). Hay Fenómenos Aleatorios que se ajustan bien a la Distribución de Poisson aunque no aparece explícitamente una Distribución Binomial, pero todo hace pensar que subyace dicha situación Binomial con N grande y π pequeña. Por ejemplo, en la ciudad “B” no sabemos cuántos motoristas hay ni la prob que cada uno tiene de AG en NV. Pero sabemos que en los últimos 80 años ha habido 160 AG. La media de AG por NV es 2. Si se mira en qué FR de esas 80 NV hubo 0 AG, y la FR en que hubo 1 AG, y la FR en que hubo 2 AG… se encuentra que esas FR se aproximan bastante a las que da la Distribución de Poisson con E = 2, es decir, P(0) ≈ 0.14, P(1) ≈ 0.27, P(2) = 0.27, P(3) ≈ 0.18. Otro ejemplo: Se cuenta el número de suicidios por desengaño amoroso, SDA, que hay cada año en una ciudad. En los últimos 120 años hubo 180. La media de suicidios por año fue 1.5. No conocemos el número de habitantes de esta ciudad, N, ni la FR de suicidas por año en esta zona, π, pero asumimos que E = N·π es un valor cercano a 1.5. Y si se mira en qué FR de esos 120 años hubo 0 SDA, y la FR en que hubo 1 SDA, y la FR en que hubo 2 SDA…, se encuentra que esas FR se aproximan bastante a las que da la Distribución de Poisson con E = 1.5, es decir, P(0) = 0.22, P(1) = 0.33, P(2) = 0.25, P(3) = 0.13…. 06-cap6.indd 87 10/2/10 22:12:59 88 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON **Ejercicio 6.14: Se cuenta el número de carcinomas de cierto tipo diagnosticados en nuestro centro de salud cada mes. En los últimos 120 meses hubo 96 casos. a. ¿Cuál es la media de carcinomas por mes? b.Asumiendo que la FR de casos por mes se ajusta a una Poisson con E próximo a la media empírica que acabamos de encontrar, calcular P(2). c. ¿Qué significa el valor de P encontrado en el apartado anterior? **Ejercicio 6.15: En el Fenómeno Aleatorio parto de una rata de la cepa “Primus”, usada en investigación biológica, la variable X = Número de hijos vivos por parto, tiene media poblacional = 3.8. En los últimos 1 000 partos registrados el número de ellos con 0, con 1, con 2 y con 3 crías fue: ¿Se aproximan las FR’s empíricas a las prob de una Distribución de Poisson con E = 3.8? X 0 1 2 3 N 25 89 153 200 FR .025 .089 .153 .200 P(X) en Poisson con E=3.8 **Ejercicio 6.16: No sabemos qué volumen tiene un depósito de agua ni el número de bacterias disueltas en él. Pero después de tomar 120 muestras de un cc, se encuentra que la media de bacterias por cc es 4. a.Si asumimos que el número de bacterias en cada cc se ajusta bien a una Poisson con E = 4, y tomamos un nuevo cc, ¿cuál es la prob de que en él haya 3 bacterias? b. ¿Y la prob de que haya más de 9 bacterias? **Ejercicio 6.17: En una población el número de casos de cierta malformación congénita está estabilizado en 2.2 anuales, de promedio. a. ¿Cuál es la prob de que este año haya 10 casos? b.Si este año se encuentran 10 casos, ¿sospecharemos que la media poblacional ha aumentado? c. ¿Cuál es la prob de que este año no haya ningún caso? d.Si este año hay 0 casos, ¿pensaremos que la media poblacional ha disminuido? **Ejercicio 6.18: En una ciudad se producen, por término medio, 2.4 traumatismos cráneo-encefálicos diarios, que necesitan un tipo de neurocirugía especial. Para ello la ciudad dispone de un único servicio que puede atender como máximo a 5 enfermos por día. ¿Qué porcentaje de días se verá desbordado el servicio? **Ejercicio 6.19: En cierta intervención quirúrgica, los pacientes tienen la prob de morir π = 0.05. La Dra. Largaespada va a Boston para aprender esta moderna técnica y a su regreso la pone en marcha en el hospital de Cartagena. Para el primer año le tienen programadas 200 intervenciones. a. ¿Cuál es la prob de que mueran 0 pacientes? b. ¿Cuál es la prob de que mueran 5 pacientes? c. ¿Cuál es la prob de que mueran menos de 3 pacientes? d. ¿Cuál es la prob de que mueran más de 20 pacientes? 06-cap6.indd 88 10/2/10 22:12:59 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 89 +++ 6.9. Partículas disueltas en líquidos En algunos casos conocemos la media por unidad de volumen del número de ciertas partículas inmersas en un líquido y queremos conocer la prob de que al tomar una unidad de volumen concreta contenga cierto número de partículas. Generalmente estas situaciones son típicas Binomiales, en muchos casos aproximables por Poisson. Lo veremos sobre ejemplos concretos: 1.Un náufrago sabe que en una botella de un litro de agua hay disueltas 10 bacterias, “bact”, malignas. Acosado por la sed decide beber un vaso de 200 cc ¿cuál es la prob de que en ese vaso haya cero, una, dos, tres......bact ? En un litro hay 5 vasos de 200 cc. Como hay 10 bact, la media es de 2 por vaso. Pero en un vaso concreto, en un momento determinado, puede haber más o menos de 2 bact. Numeremos a las bact del 1 al 10. La prob de que la 1ª bacteria esté en ese vaso es 1/5 = 0.2 La prob de que la 2ª bacteria esté en ese vaso es 1/5 = 0.2 La prob de que la 3ª bacteria esté en ese vaso es 1/5 = 0.2 ………………….. ………………….. La prob de que cada bact esté en ese vaso es 1/5 = 0.2. Hay 10 bact e interesa la prob de que ese suceso (estar en ese vaso) le haya ocurrido a ninguna, a una, a dos.... Fenómeno Aleatorio que se repite 10 veces y en cada repetición el suceso tiene prob 0.2 de ocurrir. Es una Binomial, B(10, 0.2). P(0) = 0.1074, P(1) = 0.2684… 2.En un recipiente de un litro de agua hay disueltas 4 000 bact que se distribuyen al azar por todo el volumen. Tomamos una muestra para análisis bacteriológico de un cc de agua. ¿Cuál es la prob de que en ese cc haya 4 bact? ¿Y de que haya 7? Si hay 4 000 bact en un litro (= 1 000 cc), la media es de 4 bact por cc. Pero en un cc concreto, en un momento determinado, puede haber más o menos de 4 bact. Consideremos un cc en particular. Numeremos a las bact del 1 al 4 000. La prob de que la 1ª bacteria esté en ese cc es 1 / 1 000 = 0.001 La prob de que la 2ª bacteria esté en ese cc es 1 / 1 000 = 0.001 ………………….. ………………….. Tenemos 4 000 bact y cada una de ellas tiene una prob π = 0.001 de estar en ese cc de agua. Es un Fenómeno Aleatorio que se repite 4 000 veces y en cada repetición el suceso “estar en ese cc” tiene prob = 0.001 de ocurrir Binomial con N= 4 000 y π = 0.001 que se aproxima muy bien con Poisson de E = 4 en la que P(0) = 0.0183, P(1) = 0.0733 ... P(4) = 0.0733 ... P(7) = 0.0595. 4.En un recipiente de agua no sabemos qué volumen tiene ni el número de bact disueltas en él. Pero después de tomar 120 muestras de un cc, se observa que la media de bact por cc es 6. ¿Cuál es la prob de que en un cc haya 4 bact? ¿Y la prob de que haya 7? 06-cap6.indd 89 10/2/10 22:12:59 90 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON El reparto de las bacterias por el conjunto de cc’s que hay en ese volumen total es, como en los ejemplos anteriores, una Binomial, pero no conocemos N ni π, y por ello no podemos calcular E = π · N. Recuerde que E es el valor esperado en un cc y es la Media de bact por cc, si se tomaran millones de cc’s. No conociendo esa media poblacional (población formada por los millones de volúmenes de un cc), la estimamos por la media muestral = 6 (muestra de 120 volúmenes de un cc’s). Por tanto, pensamos en una Binomial con π pequeña y N grande y E = 6. Quizá haya 10 000 cc y 60 000 bacterias, o quizá 1 500 cc y 8 000 bacterias u otros valores de N y de π que den E = 6. Podemos aproximar por una Poisson con E = 6 en la que P(4) = 0.1339 y P(7) = 0.1377. **+++Ejercicio 6.20: El agua de un manantial tiene una concentración media de 10 bacterias por litro. a.En una muestra de un litro, ¿cuál es la prob de que haya 8 bacterias? b.En muestra de un cuarto de litro, ¿cuál la prob de que haya 6 bacterias? **+++Ejercicio 6.21: El número medio de ciertas partículas en plasma es de 5 por mm3 en sanos. Un individuo es calificado como sospechoso de padecer exceso de partículas si al contar las que tiene en un mm3 de su plasma se encuentran 12 o más ¿Qué FR de individuos sanos, es decir, que tiene media de 5 por mm3, serán clasificados como sospechosos? **+++Ejercicio 6.22: Asumamos que el agua de todos los océanos, ríos y nubes de la Tierra ocupa 10 000 billones de m3 y que en un cc de aguas hay 6 x 1022 moléculas de agua. Contemplando el ocaso sobre el Nilo una tarde de otoño Cleopatra lloró melancólicamente. Sus lágrimas sumaron un volumen de un cc. El Nilo las llevó al mar y actualmente esas moléculas de H2O están diluidas por toda el agua de la Tierra. a.Cada vez que Vd. bebe un cc de agua, calcular la prob de que en él haya alguna molécula de agua llorada por Cleopatra. 06-cap6.indd 90 10/2/10 22:12:59 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 91 No olvide recordar - 6 1.Población es el conjunto —generalmente indefinidamente grande— de todos los individuos con ciertas características. Muestra es el conjunto de individuos extraídos de la población para ser observados por el investigador. 2.La IE intenta saber acerca de las poblaciones a partir del conocimiento de las muestras, es decir, intenta conocer acerca de los parámetros a partir del conocimiento de los estadísticos. 3.Si tomamos una muestra no podemos asumir que el parámetro tenga exactamente el mismo valor que el estadístico encontrado en la muestra. 4.Para hacer IE hay que conocer cómo se distribuyen, es decir, qué valores toman, los estadísticos muestrales en el Muestreo Aleatorio. 5.La Distribución Binomial nos da la FR de muestras de N individuos que en el MA tendrán X individuos “positivos”, siendo X = 0, 1, 2,…. N y π la FR de individuos positivos en la población. 6.En general, se aplica Distribución Binomial cuando se repite N veces un Fenómeno Aleatorio y se cuenta el número en que ocurrió cierto Suceso. 7.Si de una población con FR de enfermos π se hace MA de tamaño N: La media del número de enfermos por muestra, X, es µX = E = N π. La varianza de las X es σ2X = π (1-π) N. La media de la FR de enfermos por muestra, p, es µp = π. La varianza de las p es σ2p = π (1-π ) / N. Ejemplo: si de una población con 40% de E se hace MA de N = 6 es: P(X = 0 ó p = 0) = 0.0467 ; P(X = 1 ó p = 0.17) = 0.1866 ; P(X = 2 ó p = 0.33) = 0.3110 µp = 0.40 , σ2p = 0.04 , µX = E = 2.40 , σ2X = 1.44 8.La Distribución de Poisson es una distribución Binomial con N grande (>100) y π pequeña (< 0.10). 9.Hay Fenómenos Aleatorios que se ajustan muy bien a una distribución de Poisson aunque no aparece explícitamente una distribución Binomial, por ejemplo, cuando hablamos de número de partículas dispersas en un fluido o de número de sucesos ocurridos por unidad de tiempo. 10.Cada distribución tiene una fórmula específica para obtener las probabilidades. Existen tablas que, en ciertos casos, evitan los cálculos con las fórmulas. 06-cap6.indd 91 10/2/10 22:12:59 92 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON EJERCICIO DE AUTOEVALUACIÓN - 6 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.Si en una muestra de N = 10 hay 3 enfermos, E, pensamos que la FR de E en la población correspondiente es 30%. 2.Si en una muestra de N = 10 hay 3 enfermos, E, pensamos la FR de E en la población correspondiente puede ser 30% u otro valor. 3. Si de una población con 20% de E sacamos una muestra al azar de N = 10, en ella habrá exactamente 2 E. 4. Si de una población con 20% de E sacamos una muestra al azar de N = 10, el número de E en ella puede ser 0, 1 , 2…. 10, pero no sabemos cuanto será E. 5. Si de una población con 20% de E hacemos MA de N = 10, el número de E en cada muestra puede ser 0, 1 , 2…. 10. Tendrán 2 E 302 cada 1 000 muestras. 6.Si en una población son asmáticos el 75% de los individuos y tomamos una muestra aleatoria de N = 8, es seguro que en ella habrá 6 asmáticos. En las 4 siguientes afirmaciones No calcule ninguna probabilidad. 7.Si en una población con 75% de asmáticos tomamos una muestra aleatoria de N = 8, es más fácil que en ella haya 6 asmáticos a que haya 3. 8. Si en una población con 75% de asmáticos tomamos una muestra aleatoria de N = 8, es más fácil que en ella haya 3 asmáticos a que haya 1. 9.Si en una población con 75% de asmáticos tomamos una muestra aleatoria de N = 8, es más fácil que en ella haya 8 asmáticos a que haya 0. 10.Si en una población con 75% de asmáticos tomamos una muestra aleatoria de N = 8, es más fácil que en ella haya 6 asmáticos a que haya 6 no asmáticos. 11.Si en una población son alérgicos el 20% de los individuos y tomamos una muestra aleatoria de N = 6, la prob de que haya 3 alérgicos es 0.0819. 12. Si en una población son alérgicos el 20% de los individuos y hacemos MA de N = 6, aproximadamente en el 8% de las muestras habrá 3 alérgicos. 13.Si en una población son alérgicos el 20% de los individuos y hacemos MA de N = 6, en el 90% de las muestras habrá menos de 2 alérgicos. 14.Si en una población son alérgicos el 20% de los individuos y hacemos MA de N = 6, en el 90% de las muestras habrá algún alérgico. 15.Si en una población son alérgicos el 20% de los individuos y hacemos MA de N = 6, en 16 de cada 10 000 muestras habrá más de 4 alérgicos. 16. Si en una población son asmáticos el 75% de los individuos y tomamos una muestra aleatoria de N = 8, la prob de que en ella haya 6 asmáticos es P(6) = 0.12 y la de que haya 3 asmáticos es P(3) = 0.001. 06-cap6.indd 92 10/2/10 22:12:59 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 93 17.Si en una población son asmáticos el 75% de los individuos y tomamos una muestra aleatoria de N = 8, la prob de que en ella haya 6 asmáticos es P(6) = 0.31 y la de que haya 3 asmáticos es P(3) = 0.023. 18.La afirmación anterior quiere decir que si de esa población se hace MA de ese tamaño, 31 de cada 100 muestras tendrán 6 asmáticos y 23 de cada 1 000 muestras tendrán 3 asmáticos. En una población el 40% son Enfermos, E, y el 50% de los E son diabéticos. 19.El 20% de los individuos de la población son diabéticos. 20.La prob de que una muestra de 6 individuos de la población tenga 1 E es 0.40. 21.La prob de que una muestra de 5 E tenga 1 diabético es 0.1562 . 22.La prob de que una muestra de 10 individuos de la población tenga 1 diabético es 0.4. 23.23.33% de las muestras de N = 6 individuos de la población tienen menos de 2 E. 24.El 23.33% de las muestras de N = 5 E tendrán menos de 2 diabéticos. 25.El 37.58% de las muestras de N = 10 individuos de la población tendrán menos de 2 diabéticos. 26.El 95.33% de las muestras de N = 6 individuos de la población tendrán algún E. 27. El 89.26% de las muestras de N = 5 E tendrán algún diabético. 28.El 89.26% de las muestras de N = 10 individuos de la población tendrán algún diabético. En otra población, el 1% de los individuos son diabéticos. 29.La prob de que en una cuidad en la que viven 500 individuos de esta población haya 3 diabéticos es 0.3578 . 30. La prob de que en la ciudad anterior haya algún diabético es de 0.9933. En otra población el 0.2% (2 por mil) de los RN (Recién Nacidos) presentan una determinada malformación congénita. 31. En una muestra de 3 000 RN, la prob de que haya 8 malformados es 20.32%. 32.La prob de que en una muestra de 1 000 RN de la población anterior haya cero malformados es 0.1353. Una persona tiene 12 000 bacterias diluidas en 6 litros de sangre. 33.La prob de que en una muestra de 5 cc de su sangre haya más de 6 bacterias es 0.0045. 34. El 13.96% de las muestras de 4 cc de su sangre tendrán 8 bacterias. 35.Aproximadamente, 3 de cada 10 000 muestras de 4 cc de su sangre están libres de bacterias. Un depósito de agua tiene, por término medio, 3 bacterias/cc. 06-cap6.indd 93 10/2/10 22:12:59 94 6. DISTRIBUCIONES DE PROBABILIDAD: BINOMIAL Y POISSON 36. La prob de que un cc esté libre de bacterias es de 0.2563. 37.La prob de que en una muestra de 1/2 cc del depósito anterior haya alguna bacteria es 0.2231. 38. El 1.74% de las muestras de 2 cc del depósito anterior tendrán menos de 2. Tomamos muchas muestras de N = 15 de una población con 70% de alérgicos. 39. La Media del número de alérgicos por muestra es Media X = 10.5. 40. La σ del número de alérgicos por muestra es σx = 1.77. Tomamos muchas muestras de N = 40 de una población con 80% de alérgicos. 41. La Media del número de alérgicos por muestra es MediaX = 10. 42. La σ del número de alérgicos por muestra es σx = 2.53. De una población con 40% de alérgicos tomamos millones de muestras de N individuos y anotamos el porcentaje de alérgicos en cada muestra, %: 43. Si las muestras son de N = 20 individuos, es Media% = 40% y σ% = 2.9%. 44. Si las muestras son de N = 20 individuos, es Media% = 40% y σ% = 10.9%. 45. Si las muestras son de N = 200 individuos, es Media% = 40% y σ%= 3.5%. 46. Si las muestras son de N = 1 000 individuos, es Media% = 40% y σ%= 1.5%. 47. Si las muestras son de N = 5 000 individuos, es Media% = 40% y σ%= 0.7%. 48.Cuanto mayor es el tamaño de las muestras, menor es la σ de las p muestrales, es decir, más se aproximan en general a la π poblacional. 06-cap6.indd 94 10/2/10 22:12:59 Capítulo 7 DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE En el capítulo anterior veíamos que distintas Distribuciones Binomiales con el mismo valor esperado, E, dan la misma distribución si el tamaño de la muestra, N, es grande y la proporción de individuos con la característica dicotómica en la población π, es pequeño; y que esas probabilidades se aproximan muy bien con la fórmula de Poisson. Esto es porque cuando N crece y π disminuye, de modo que E = N · π se mantiene constante, la fórmula Binomial tiende a la de Poisson. Calcular probabilidades con la fórmula de Poisson es más sencillo y además permite hacerlo cuando no se conoce N ni π, pero se conoce, o se puede estimar, E = N · π. En este capítulo veremos que en distintas Binomiales con el mismo valor π, cuanto mayor es N más se aproxima la proporción de muestras con p (proporción de individuos con la característica en la muestra) comprendida en cualquier intervalo a unos valores que conforman la llamada Distribución Normal, DN. Además la Distribución Normal aparece en otras muchas circunstancias y resulta especialmente útil en muy distintas aplicaciones de Inferencia Estadística. La Ley de la Distribución Normal, DN, constituye una de las más sorprendentes y útiles de la Naturaleza. Es de aplicación tan general como la Ley de la Gravitación Universal y en belleza podría competir con la Ley de autoinducción de Faraday y de Lenz. 7.1. Distribución de variables continuas En la gráfica siguiente se representan los puntos correspondientes a 5 muestras donde a cada uno de los 12 individuos de cada muestra se le mide una variable cuantitativa con valores entre 5 y 35. 95 07-cap7.indd 95 10/2/10 22:13:08 96 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE La primera muestra a la izquierda tiene, como puede verse en la escala vertical, todos sus valores entre 29 y 35, con media 31 y desviación estándar 1.4, como se indica en las dos últimas filas. La segunda muestra tiene todos los valores entre 17 y 23, la tercera tiene tres valores en el tramo superior, 6 en el intermedio y otros 3 en el inferior, etc. Compare las medias y desviaciones de estas cinco muestras. Las tres últimas tienen igual media y desviación. ¿Quiere eso decir que los valores se distribuyen de idéntico modo? Ciertamente no. En la tercera muestra hay 6 valores próximos a la media, mientras que en la cuarta no hay ninguno en ese intervalo de 17 a 23. Y en la quinta los valores se reparten uniformemente en todo el rango entre 5 y 35. En colectivos con muchos valores ocurre lo mismo. Dos colectivos pueden tener igual Media y Desviación y sin embargo los valores puede que se agrupen de diferente modo. En las gráficas siguientes la altura de cada barra indica el número de veces que se presenta cada uno de los posibles 20 valores. Vemos que las dos distribuciones tienen igual media y dispersión, pero los valores se distribuyen de modo muy distinto. La primera tiene muchos individuos con valor en torno a 10 y el número de ellos va disminuyendo a medida que nos alejamos de 10 en ambos sentidos. La segunda tiene pocos individuos con valor en torno a 10 y muchos en torno a 6 y a 15. 07-cap7.indd 96 10/2/10 22:13:09 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 97 7.2. La Distribución Normal Para exponerla consideremos estas tres variables que miden magnitudes diferentes en poblaciones diferentes y con muy diferentes valores de medias y desviaciones: 1 “G”, Peso de la población de tigres de Malasia: µ = 500 y σ = 100 2 “X”, Inteligencia de la población de españoles: µ = 160 y σ = 10 3 “D”, Dureza de la población de miles de rocas lunares: µ = 20 y σ = 2 En cada una de las poblaciones se calcula la proporción de individuos que tienen el valor de su variable en los intervalos que se especifican, y se obtiene este resultado: Tigres Españoles Rocas µ = 500 σ = 100 µ = 20 σ=2 µ = 160 σ = 10 P (G > 600) = 0.1587 P (G > 700) = 0.0228 P (D > 22) = 0.1587 P (D > 24) = 0.0228 P (X > 170) = 0.1587 P (X > 180) = 0.0228 Siendo individuos, variables y cantidades numéricas diferentes, ¿qué cosa es igual en las tres poblaciones? En las tres ocurre que el 15.87% de los individuos tiene valor superior a la media más una desviación y el 2.28% de los individuos tiene valor superior a la media más dos desviaciones, es decir: P ( X > µ +1σ) = P(Z > 1) = 0.1587 P ( X > µ +2σ) = P(Z > 2) = 0.0228 (Los valores estandarizados, Z, se explicaron en 2.4) Se cumple, además, que en las tres poblaciones la distribución es simétrica respecto a la media, de modo que, por ejemplo, en la población de tigres si el 15.87% pesa más de 600, otro 15.87% pesa menos de 400, ya que 600 es 100 unidades mayor que la media y 400 es 100 unidades menor que la media. Además, como el 50% pesa más que la media, los que tienen peso entre 500 y 600 son 0.50 – 0.1587 = 0.3413. Y por la mencionada simetría, también el 0.3413 de los individuos pesan entre 400 y 500, de modo que los que pesan entre 400 y 600 son 0.3413 x 2 = 0.6826 Pero la coincidencia se da no solamente para esos intervalos, (Z > 1) y (Z > 2), sino para cualesquiera otros intervalos definidos en función de Z. La siguiente tabla da, en la segunda fila, la FR de individuos con Z mayor que ciertas cantidades (las que aparecen en la cabecera de cada columna), en las tres poblaciones. La tercera fila da la proporción de individuos con Z entre cero y el valor de la cabecera de la columna. La FR en esta fila es 0.50 menos el valor de la fila anterior. Las FR de la cuarta son el doble de las de la fila anterior (por la simetría antes citada). Z P más allá de Z P entre µ y Z P entre -Z y Z 07-cap7.indd 97 0.10 0.20 0.25 0.50 0.75 1.00 1.50 2.00 2.50 3.00 .4602 .4207 .4013 .3085 .2266 .1587 .0668 .0228 .0062 .0013 .0398 .0793 .0957 .1915 .2734 .3413 .4332 .4772 .4938 .4987 .0796 .1596 .1914 .3830 .5468 .6826 .8664 .9544 .9876 .9974 10/2/10 22:13:10 98 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE Por ejemplo, para Z = 0.5 la “P más allá de Z” es 0.3085. Es decir, 30.85% de los tigres pesan más de 550 30.85% de los españoles tienen inteligencia superior a 165 30.85% de las rocas tienen dureza superior a 21 Otro ejemplo, para Z = 3 la “P más allá de Z” es 0.0013, es decir, 13 por 10 000: 13 cada 10 000 tigres pesan más de 800 13 cada 10 000 españoles tienen inteligencia superior a 190 13 cada 10 000 rocas tienen dureza superior a 26 De cada 10 000 rocas, 13 tienen dureza superior a 26. Por la simetría respecto a la media, otras 13 tienen dureza menor de 14. Y 0.5000 – 0.0013 = 0.4987, es decir 4987 de cada 10 000, tienen dureza entre 20 y 26 (fila “P entre µ y Z” en la tabla). Y otras tantas están entre 14 y 20, de modo que con dureza entre 14 y 26 (-3 < Z < 3) hay 2 x 0.4987 = 0.9974 (fila “P entre -Z y Z” en la tabla). Además, para cualquier otro valor de Z, en las tres poblaciones ocurre que la misma proporción de individuos se alejan de la media más de esa cantidad de desviaciones. La llamada tabla de la Distribución Normal, al final del libro, da las proporciones para “más allá de Z”, desde Z = 0.02 hasta Z = 4. Se dice que una variable se distribuye de modo Normal cuando se cumplen los porcentajes recogidos en esta tabla. Y se suele indicar como N(500,100) para el peso de los tigres, N(160,10) para la inteligencia de los españoles y N(20,2) para la dureza de las rocas. Por ejemplo, allí se ve que P (Z > 1.96) = 0.025 ó 2.5%, lo que quiere decir que: a)2.5% de los tigres pesan más de la media más 1.96 desviaciones, es decir, 500 + 100 · 1.96 = 500 + 196 = 696 (y otro 2.5% menos de 500 – 196 = 304). b)2.5% de españoles tienen inteligencia mayor de media más 1.96 desviaciones, esto es, 160 + 10 · 1.96 = 160 + 19.6 = 179.6 (y otro 2.5% menos de 160 – 19.6 = 140.4). c)2.5% de las rocas tienen dureza superior a la media más 1.96 desviaciones, es decir, 20 + 2·1.96 = 20 + 3.92 = 23.92 (y otro 2.5% menos de 20 – 3.92 = 16.08). Muchas variables de la naturaleza tienen distribución muy próxima a la Normal, lo que permite, si se conoce la media y la desviación, calcular la proporción de individuos con valor dentro de cualquier intervalo que sea de interés. En el próximo capítulo veremos la gran utilidad de ello en la investigación. Esta distribución se representa mediante una curva en forma de campana que se conoce con el nombre de Campana de Gauss. En ella, la superficie encerrada entre la curva y cualquier intervalo del eje horizontal (de los valores de la variable) representa la proporción de individuos con valor de la variable en dicho intervalo (es la superficie sombreada en las figuras). Por ejemplo, puesto que es P(Z >1) = 0.1587 y por encima de la media están la mitad de los valores, es P (0 < Z < 1) = 0.5 – 0.1587 = 0.3413, es decir, en el 34.13% de los individuos el valor de la variable está entre la media y la media más una desviación, y en otros tantos el valor de la variable está entre la media y la media menos una desviación: 07-cap7.indd 98 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 99 Prop (µ -σ < X < µ) = P ( µ < X < µ + σ) = 0.50 - 0.1587 = 0.3413 ó P (-1 < Z < 0) = P (0 < Z < +1) = 34.13% De la misma forma, con 2 y 3 desviaciones estándar por encima y por debajo de la media hay 47.72% y 49.87% de individuos respectivamente. • • Prop (µ - 2σ < X < µ) = P ( µ < X < µ + 2σ) = 0.5 – 0.0228 = 0.4772 ó P (-2 < Z < 0) = P (0 < Z < +2) = 0.4772. Prop (µ - 3σ < X < µ) = P ( µ < X < µ + 3σ) = 0.5 – 0.0013 = 0.4987 ó P (-3 < Z < 0) = P (0 < Z < +3) = 0.4987. Otros ejemplos: P (0 < Z < 2) = 0.5 – P (Z > 2) = 0.5 – 0.0228 y P (1 < Z < 2) = P (Z > 1) – P (Z > 2) = 0.1587 – 0.0228 Ejemplo: Si la duración de la vida “T”, en la población de palomas de Macondo tiene µ = 100 y σ = 5 y es DN a. ¿Qué proporción de palomas viven entre 90 y 100? P (90 < X < 100) = P (-2 < Z < 0) = P (0 < Z < 2) = 0.5 – P (Z > 2) = = 0.5 – 0.0228 = 0.4772 (Ver figura página anterior) 07-cap7.indd 99 10/2/10 22:13:10 100 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE b. ¿Qué proporción de palomas viven más de 105? P (X > 105) = P (Z > 1) = 0.1587. c. ¿Qué proporción viven entre 105 y 110? P (105 < X < 110) = P (1 < Z < 2) = = P (Z > 1) - P (Z > 2) = = 0.1587 – 0.0228 = 0.1359. d. ¿Qué proporción viven entre 95 y 110? P (95 < X < 110) = P (-1 < Z < 2) = = P (-1 < Z < 0) + P (0 < Z < 2) = = P (0 < Z < 1) + P (0 < Z < 2) = = [ 0.5 - P(Z > 1)] + [ 0.5 - P(Z > 2)] = = 0.3413 + 0.4772 = 0.8185. e. ¿Qué proporción viven entre 87.5 y 97.5? P (87.5 < X < 97.5) = P (-2.5 < Z < -0.5) = = P (0.5 < Z < 2.5) = P(Z > 0.5)– P(Z > 2.5) = = 0.3085 - 0.0062 = 0.3023. **Ejercicio 7.1: Si la variable H, con µ = 200 y σ = 16, es Normal, calcular: a. Prop (184 < H < 200) = Prop (200 < H < 216); P (184 < H < 216) = b. Prop (176 < H < 200) = Prop (200 < H < 224); P (176 < H < 224) = c. Prop (160 < H < 200) = Prop (200 < H < 240); P (160 < H < 240) = **Ejercicio 7.2: Si la variable “T”, duración de la vida en la población de gaviotas de Macondo tiene distribución Normal con µ = 100 y σ = 5, es decir, N (100, 5) a. ¿Qué proporción de gaviotas viven entre 90 y 102.5? b. ¿Qué proporción de gaviotas viven más de 82.5? c. ¿Qué proporción de gaviotas viven menos de 102.5? d. ¿Qué proporción de gaviotas viven entre 97.5 y 102.5? e. ¿Qué proporción gaviotas viven entre 90 y 110? f. ¿Qué proporción de gaviotas viven entre 90 y 92.5? g. ¿Qué proporción de gaviotas viven entre 102.5 y 107.5? **Ejercicio 7.3: Si hay 20 millones de españoles adultos y su peso tiene Distribución N (70, 10). Diga qué porcentaje y qué cantidad de españoles pesa: 07-cap7.indd 100 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 101 a. Menos de 60. b. Menos de 75. c. Menos de 92. d. Más de 80. e. Más de 50. f. Más de 71. g. Más de 92. h. Entre 50 y 60. En este libro se anotará como “Zα” el valor de Z que deja a su derecha probabilidad = α y la izquierda de su negativo otro tanto, de modo que entre ambas colas suman 2α de la probabilidad y por tanto, entre –Z y +Z queda el 1-2α de la probabilidad de la Distribución Normal. Por ejemplo: Z 0.01 = 2.33 porque Z 0.05 = 1.65 porque Z 0.09 = 1.34 porque P (Z > 2.33) = 0.01 P (-2.33 < Z < 2.33) = 0.98 P (Z > 1.65) = 0.05 P (-1.65< Z < 1.65) = 0.90 P (Z > 1.39) = 0.09 P (-1.34 < Z < 1.34) = 0.82 En otros libros se anota como Zα el valor de Z que deja a su derecha probabilidad = 2α. Ambos convenios son válidos si se recuerda lo que dicen. 7.3. Distribución de las Medias Muestrales en el MA Vamos a estudiar cómo se distribuyen las medias muestrales, M, en el Muestreo Aleatorio, MA. La variable X en una población tiene Media y Desviación µx y σx. Hagamos MA y consideremos la población formada por las medias muestrales de muestras de N individuos: M1, M2, M3 , . . . . . . , M1 000 , . . . . . . . , M1 000 000 . . . . . . . . . M1 000 000 000 . . . Tendremos tantas medias como muestras saquemos en el MA. Se trata de calcular, en esta larga lista de números, cuánto vale su media y su desviación. Cualquiera que sea la forma de la distribución de X y con cualquier N se cumple que la media y la desviación de las M son: µM= µX Ejemplo: Si X tiene en una población µX = 60 y σX = 6 y se hace MA de N = 4, µ M = 60 y σM= 6/2 =3 Es decir, la media de todas las M´s es 60 (como la media de los individuos) y la σ entre las M´s es 3 (menor que la σ entre los individuos). Pero conocer la µM y σM no permite saber la distribución, es decir, la proporción de muestras con media en cualquier intervalo que sea de interés. Esas proporciones se conocen si es Distribución Normal. Y la distribución de las medias muestrales es Normal si se da una de estas dos condiciones: 07-cap7.indd 101 10/2/10 22:13:10 102 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE A- si X tiene DN en la población de individuos B- si el tamaño de las muestras es N ≥ 30 A- Si X tiene DN en la población de individuos, las M’s también tienen DN. Fíjese que estamos hablando de dos distribuciones diferentes: •La distribución de la variable X, con media µX y desviación σX, nos dice el porcentaje de individuos con X en cada intervalo. •La distribución de las medias de las muestras de N individuos, con media µM y desviación σM, nos dice el porcentaje de muestras con M en cada intervalo. Ejemplo: Si el peso de los individuos de una población tiene distribución N (100, 24), la proporción de individuos con peso entre 100 y 112 es P(100< Peso <112) = P(0 < Z < 0.5) = 0.5 – P(Z > 0.5) = 0.5 – 0.3085 = 0.1915. –Si hacemos MA con N = 4, las medias muestrales, M, tienen µM = 100 y σM = 24/2 = 12. La proporción de muestras de 4 individuos con media entre 100 y 112 es P (100 < M < 112) = P (0 < Z < 1) = 0.5 – P(Z > 1) = 0.5 – 0.1587 = 0.3413. –Si hacemos MA con N = 9, las medias muestrales, M, tienen µM = 100 y σM = 24/3 = 8. La proporción de muestras de 9 individuos con media entre 100 y 112 es P (100 < M < 112) = P (0< Z < 1.5) = 0.5 – P(Z > 1.5) = 0.5 – 0.0668 = 0.4332. –Si hacemos MA con N = 16, las medias muestrales, M, tienen µM = 100 y σM = 24/4 = 6. La proporción de muestras de 16 individuos con media entre 100 y 112 es P (100 < M < 112) = P (0< Z < 2) = 0.5 – P(Z > 2) = 0.5 – 0.0228 = 0.4772. B-Teorema Central del Límite, TCL: Si N ≥ 30, las medias muestrales, M, tienen, muy aproximadamente, DN, cualquiera que sea (Normal o no) la distribución de X en los individuos. Ejemplo: Si en otra población X no tiene DN y es µX = 100 y σX = 24 y hacemos MA de N = 64, las medias muestrales siguen DN (pues N ≥ 30) con µM = 100 y σM = 24/8 = 3 y la proporción de muestras con media entre 97 y 100 es: P (97 < M < 100) = P (-1< Z < 0) = 0.3413 Y la proporción de muestras con media entre 103 y 106 es P (103 < M < 106) = P (1< Z < 2) = 0.1359. 07-cap7.indd 102 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 103 El TCL constituye una herramienta fundamental en la Inferencia Estadística. Como acabamos de ver, dice que si N ≥ 30, en el MA las medias muestrales se distribuyen muy aproximadamente de modo Normal, cualquiera que sea la forma de la distribución en la población. Esto nos permite calcular el porcentaje de muestras con media comprendida en cierto intervalo. Distribución de las medias muestrales en el Muestreo Aleatorio Siempre µ M = µ X N < 30 N ≥ 30 Distribución Normal en la población Las M tienen distribución Normal Las M tienen distribución Normal y σM = σX / √N Distribución NO Normal en población Las M tienen distribución NO Normal Las M tienen distribución Normal Teorema Central del Límite C-Si X no tiene DN en la población de individuos y es N < 30, las medias muestrales no tienen DN (pero se cumple que µ M = µ y σ M = σ / √ N). Ejemplo: Si H tiene distribución no Normal (100, 24), la proporción de individuos con H entre 100 y 112 es P (100< H <112) = P (0 < Z < 0.5) es NO CONOCIDA. –Si hacemos MA con N = 4, es µM = 100 y σM = 24 / 2 = 12. La proporción de muestras con M entre 100 y 112: P (100 < M < 112) = P (0< Z <1) es NO CONOCIDA. –Si hacemos MA con N = 9, es µM = 100 y σM = 24 / 3 = 8. La proporción de muestras con M entre 100 y 112 es P (100 < M < 112) = P (0< Z < 1.5) es NO CONOCIDA. –Si hacemos MA con N = 36, es µM = 100 y σM = 24 / 6 = 4 y tienen DN. La proporción de muestras con M entre 100 y 112 es P (100 < M < 112) = P (0 < Z < 3) = 0.4987, pues puede aplicarse el TCL al ser N > 30. –Si hacemos MA con N = 64, es µM = 100 y σM = 24 / 8 = 3 y tienen DN. La proporción de muestras con M entre 100 y 112 es P (0< Z < 4) = 0.49997, por el TCL. **Ejercicio 7.4: La variable X se distribuye en la población de modo No Normal con µ X = 2 000 y σ X = 100. a. Se hace MA de N = 10, ¿qué proporción de muestras tendrán M > 1 950? b.Si se hace MA de N = 64, ¿qué proporción de muestras tendrán M < 1 975? **Ejercicio 7.5: El peso de los Recién Nacidos en España tiene µ = 3 000 y σ = 200 y distribución No Normal. a. Se hace MA de N = 400, ¿qué proporción de muestras tendrán M > 3 015? b.Si se hace MA de N = 9, ¿qué proporción de muestras tendrán M < 1 066.7? **Ejercicio 7.6: La estatura de los españoles adultos se distribuye de modo Normal con µ = 160 y σ = 10, que se suele indicar como N (160, 10) a. Si se hace MA de N = 4, ¿qué proporción de muestras tendrán M < 166? b. Si se hace MA de N = 25, ¿qué proporción de muestras tendrán M < 166? 07-cap7.indd 103 11/2/10 13:25:22 104 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE **Ejercicio 7.7: El peso de la población de españoles tiene distribución N (80, 8) a. ¿Qué proporción de individuos pesan más de 64: P(X > 64)? b. ¿Qué porcentaje de individuos pesa menos de 96: P(X < 96)? c.Si tomo un individuo, ¿cuál es la prob de que pese más de 64 y menos de 96? Si hacemos muestreo aleatorio de N = 16: d. ¿Cuál será la media y la σ de la distribución de las medias muestrales? e. ¿En qué proporción de muestras esperamos que sea M > 78? f. ¿Cuál es la probabilidad de que sea 77 < M < 79? g.¿Cuál es la prob de que la M se aleje de la poblacional en más de 4 unidades? h.Si tomamos una muestra aleatoria de N = 100, ¿cuál es la prob de que sea media muestral > 82.4? i.Si tomo dos muestras de N = 100, ¿cuál es la prob de que ambas tengan M > 79? **Ejercicio 7.8: Se sabe que la supervivencia de una raza de animales se distribuye No Normal con µ = 50 y σ = 3 en meses. a. ¿Qué proporción de animales viven entre 50 y 56 meses? b.Si se toma un individuo al azar, ¿cuál es la prob de que su supervivencia sea inferior a 47 meses? ¿Y de que sea superior a 59 meses? c. Si se toma una muestra de N = 9, ¿cuánto vale P (M > 49)? d. Si se toma una muestra de N = 36, ¿cuánto vale P (M < 49.5)? e. Si se toma una muestra de N = 100, ¿cuánto vale P(49.7 < M < 50.45)? 7.4. La DN es el límite de la Binomial con N grande y π fijo Veíamos que se dice que una variable se distribuye de modo Normal si la proporción de valores en cada intervalo expresado en función de Z es el que indica la tabla de dicha distribución. Concretamente, en esta tabla podemos ver que: Por encima de la media más 0.02 desviaciones hay un 49.20% de los valores. Por encima de la media más 0.04 desviaciones hay un 48.40% de los valores. Por encima de la media más 0.06 desviaciones hay un 47.61% de los valores. …………………………………… …………………………………… Por encima de la media más 3.9 desviaciones hay 5 por 100 000 de los valores. Por encima de la media más 4 desviaciones hay 3 por 100 000 de los valores. ¿De dónde salen esos porcentajes? Aparece como el límite al que tiende la Distribución Binomial cuando se mantiene π y N toma valores muy grandes. La distribución Binomial da la prob de X individuos con la característica “C” en una muestra de tamaño N, siendo π la FR de individuos con C en la población. Por ejemplo, si en una población tienen C el 50% de los sujetos (π = 0.50), en una muestra de N = 100 la prob de que haya 55 con C es 07-cap7.indd 104 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 105 Pero hay muchas situaciones en las que interesa conocer la prob de todos los valores comprendidos en un intervalo, por ejemplo, la prob de que en la muestra de N = 100 haya 55 o más con C. Para ello hay que sumar P(55) + P(56) + (57) +….+ P(100), calculadas con la fórmula anterior, lo que implica aplicarla 46 veces y sumar. La media y la desviación de X y de p = X / N (FR con C en la muestra) son: µX = E = N π = 50 µp = π = 0.50 σX = [π (1- π) N] ½ = [0.5 · 0.5 · 100 ] ½ = 5 σp = [π (1- π) / N] ½ = [0.5 · 0.5 / 100 ] ½ = 0.05 ó 5% Podemos, por ejemplo, calcular la FR de muestras con p ≥ µp+ 1σp, es decir, p ≥ 55%, es decir, X ≥ 55: P(X ≥ 55) = P(55) + P(56) + P(57) + ... + P(100) = 0.1841. De la misma forma podríamos calcular la FR de muestras con p ≥ µp+ 2σp, es decir, p ≥ 60%, es decir, X ≥ 60: P(X ≥ 60) = P(60) + P(61) + P(62) + ... + P(100) = 0.0284. La siguiente tabla da las FR de muestras en los intervalos, Z > 1 y Z > 2, para el MA de N = 100, 400, 10 000 y 40 000. N 100 σp 5% P(p ≥ µp + 1σp) = P(Z ≥ 1) P(p ≥ µp + 2σp) = P(Z ≥ 2) P(p ≥ 55%) = 0.1841 P(p ≥ 60%) = 0.0284 400 2.5% P(p ≥ 52.5%) = 0.1711 P(p ≥ 55%) = 0.0255 40 000 0.25% P(p ≥ 50.25%) = 0.1599 P(p ≥ 50.5%) = 0.0231 10 000 0.5% P(p ≥ 50.5%) = 0.1611 En la DN: P (Z ≥ 1) = 0.1587 P(p ≥ 51%) = 0.0233 En la DN: P (Z ≥ 2) = 0.0228 Cuanto mayor es N menor es σp, es decir, p toma valores más próximos a π, en este caso a 50%. Además observamos que a medida que crece N la FR de muestras con p ≥ µp+ 1σp y de muestras con p ≥ µp+ 2σp se aproxima más a las FR de la DN correspondientes a “Z >1” y “Z > 2”. Esas mismas tendencias se cumplen en toda Binomial, cualquiera que sea su valor π y para cualquier intervalo expresado en función de los valores Z. Veamos las FR de muestras con p ≥ µp+ 1.5 σp para binomiales con π = 20% y N creciente: N = 2 500 µp = 20% y σp = [0.2 · 0.8 / 2 500] 1/2 = 0.008 = 0.80% µX = 0.20 · 2 500 = 500 y σX = [0.2 · 0.8 · 2 500] 1/2 = 20 P(p ≥ µp+ 1.5 σp) = P(p ≥ 21.20%) = P(X ≥ µX+ 1.5 σX) = P(X ≥ 530) = 0.0709 N = 10 000 µp = 20% y σp = [0.2 · 0.8 / 10 000] 1/2 = 0.004 = 0.40% µX = 0.20 · 10 000 = 2 000 y σX = [0.2 · 0.8 · 10 000] 1/2 = 40 P(p ≥ µp+ 1.5 σp) = P(p ≥ 20.60%) = P(X ≥ µX+ 1.5 σX) = P(X ≥ 2060) = 0.0688 N = 62 500 µp = 20% y σp = [0.2 · 0.8 / 62 500] 1/2 = 0.0016 = 0.16% µX = 0.20 · 62 500 = 12 500 y σX = [0.2 · 0.8 · 62 500] 1/2 = 100 P(p ≥ µp+ 1.5 σp) = P(p ≥ 20.24%) = P(X ≥ µX+1.5 σX) = P(X ≥ 12650) = 0.0676 En la DN es P (Z ≥ 1.5) = 0.0668. 07-cap7.indd 105 10/2/10 22:13:10 106 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE La FR de muestras con p en otros intervalos expresados en Z (número de desviaciones estándar que cada valor se aleja de la media) también tiende, al crecer N, a la FR de valores en ese intervalo en la tabla de la DN. Esto permite usar la DN para calcular, con buena aproximación y notable ahorro de cálculo, las FR de muestras que aparecen en un intervalo de las distribuciones Binomiales. En el último ejemplo con N = 62 500 para calcular P(X ≥ 12 650) = P(X=12 650) + P(X=12 651) +…+ P(X = 62 500) hay que aplicar la fórmula binomial 49 850 veces para obtener la FR buscada, que es 0.0676. Mirando P (Z ≥ 1.5) en la DN se obtiene 0.0668, que se aproxima suficientemente al anterior. Con tamaños de muestra menores la aproximación es peor, pero con ciertas modificaciones llamadas “correcciones por continuidad” se consigue mejorar notablemente, como se muestra en el apartado 8.7. Por ello es muy frecuente en el Análisis de Datos utilizar esta “Aproximación de la Binomial por la Normal” **Ejercicio 7.9: En una Binomial B(400, 0.2) es µx = 80 y σX = 8. En el MA a. ¿Qué proporción de muestras tienen (80 < X ≤ 88)? b. ¿Qué proporción de muestras tienen (80 < X ≤ 96)? **Ejercicio 7.10: Se hace MA de N = 4 800 de una población con 25% de albinos a. ¿Qué proporción de muestras tendrán entre 1 200 y 1 230 albinos? b. ¿Qué proporción de muestras tendrán entre 1 170 y 1 230 albinos? c. ¿Qué proporción de muestras tendrán entre 1 170 y 1 260 albinos? ** Ejercicio 7.11: En una Binomial B(9 600, 0.4) es µp = 40% y σp = 0.5%. En el MA a. ¿Qué proporción de muestras tienen 40% < p ≤ 40.50%? b. ¿Qué proporción de muestras tienen 40% < p ≤ 40.25%? 07-cap7.indd 106 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 107 No olvide recordar - 7 1.Los valores estandarizados, Z, dicen cuantas desviaciones se aleja un cierto valor de la variable de la media del grupo. Se calcula Z = (X - µ) / σ 2.Se dice que una variable tiene Distribución Normal, DN, cuando: Por encima de la media más 0.02 desviaciones hay un 49.20% de los valores. Por encima de la media más 0.04 desviaciones hay un 48.40% de los valores. Por encima de la media más 0.06 desviaciones hay un 47.61% de los valores. …………………………………… …………………………………… Por encima de la media más 4 desviaciones hay 3 por 100 000 de los valores, y el resto de las proporciones que especifica la tabla correspondiente. 3.Muchas variables cuantitativas de la naturaleza, tanto viva como inerte, se ajustan a esa Distribución Normal, es decir, los porcentajes de individuos con valor de la variable comprendido en cualquier intervalo son muy próximos a los que postula esa distribución. 4.En el MA de tamaño N, las medias muestrales de variables numéricas, M, tienen media y desviación dadas por µM = µX y σM = σX /√N, siendo µX y σX la media y desviación de la variable original. 5.En el MA, las medias muestrales de variables numéricas, X, tienen distribución próxima a la DN - se puede calcular el porcentaje de muestras con medias en cualquier intervalo - si la variable es Normal (cualquiera que sea N) o si N ≥ 30 (cualquiera que sea la distribución de X). 6.En el Muestreo Aleatorio, MA, la proporción de individuos con cierta característica dicotómica tiene distribución próxima a la Normal si es N ≥ 30. El número de individuos por muestra con la característica también tiene distribución próxima a la Normal. 07-cap7.indd 107 10/2/10 22:13:10 108 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE EJERCICIO DE AUTOEVALUACIÓN - 7 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). En una población de españoles adultos sanos el PESO (medido en kg) se distribuye de modo Normal con Media = 70 y σ = 5. 1. El 47.72% de los individuos de esa población tiene peso menor de 80 kg. 2. El 81.85% de los individuos pesan más de 60 y menos de 75 kg. 3. El 2.28% de los individuos de esa población pesan más de 60 kg. 4.Si se hiciera muestreo aleatorio, MA, de N = 25, las medias muestrales no se distribuirían de modo normal pues N < 30. 5. El 93.32% de las muestras del MA de N = 25 tienen media menor de 71.5 kg. 6. El 13.59% de las muestras del MA de N = 25 tienen media entre 71 y 72 kg. 7.El 15.87% de las muestras del MA de N = 100 tienen media mayor de 71 kg. En otra población de individuos con cierta enfermedad, el PESO se distribuye de modo No Normal con Media = 75 y σ = 9. 8. Podemos afirmar que el 84.13% de los individuos pesa más de 66 kg. 9.El Teorema Central del Límite nos garantiza que en el MA de N = 81 de esta población, la desviación de las medias muestrales es 1. 10. Podemos afirmar que en el MA de N = 9, el 2.28% de las muestras tienen peso medio mayor de 81. 11.Podemos afirmar que el 13.59% de las muestras del MA de N = 9 tienen peso medio entre 78 y 81 kg. 12. El 53.85% de las muestras del MA de N = 81 tienen media entre 74 y 77 kg. 13. El 84.13% de las muestras del MA de N = 81 tienen media mayor de 66 kg. 14.En una población de un millón de personas la estatura tiene Media = 160 cm. y Desviación Estándar = 7. Si 66 800 de ellas miden más de 170.5 cm, diremos que ese dato concuerda con que la distribución de esa variable es Normal. 15.En una población de un millón de personas la estatura tiene media = 160 cm. y Desviación Estándar = 7. Si 841 300 de ellas miden menos de 167 cm, diremos que ese dato concuerda con que la distribución de esa variable es Normal. 16.En una población de un millón de personas la estatura tiene Media = 160 cm. y Desviación Estándar = 7. Si 630 300 de ellas miden más de 162 cm, diremos que ese dato concuerda con que la distribución de esa variable es Normal. En cierta población el 30% de los individuos son miopes. 17. En el muestreo aleatorio (MA) de N = 100, la variable “número de miopes en cada muestra” tiene media = 30 y desviación estándar = 4.58. 07-cap7.indd 108 10/2/10 22:13:10 7. DISTRIBUCIÓN NORMAL Y TEOREMA CENTRAL DEL LÍMITE 109 18.En torno al 19% de las muestras de N = 100 individuos tendrán 34 o más miopes. 19. La probabilidad de obtener una muestra de N = 100 con menos de 38 miopes es aproximadamente 0.025. 20.En el MA de N = 25, aproximadamente el 55% de las muestras tendrán entre 8 y 10 miopes, ambos incluidos. 21.En el MA de N = 25, el 66% de las muestras tendrán menos de 10 miopes. La Tensión Arterial (TA) de una población de individuos se distribuye Normal con Media = 150 y Desviación = 20 (en unidades especiales). 22. El 42.87 % de los individuos tienen T.A. menor de 160. 23. De cada 100 individuos, aproximadamente 29 tienen T.A. entre 140 y 170. 24.La probabilidad de hallar una muestra de N = 10 individuos con T.A. media mayor de 137.36 es 0.9772. 25.Aproximadamente el 68% de las muestras de N = 100 individuos tienen T.A. media entre 148 y 152. 26.De cada 1 000 muestras de N = 100 individuos, aproximadamente 135 tienen T.A. media entre 151 y 153. 27.Si tomo dos muestras de N = 100, la probabilidad de que las dos tengan TA media mayor de 151 es 0.0952. En otra población hay 40% de hipertensos y la estatura se distribuye de modo NO NORMAL con Media =160 cm y Desviación = 30 cm. 28.Si se toma una muestra de N = 200, la probabilidad de que contenga menos de 70 hipertensos es 10% aproximadamente. 29. El 17% de las muestras de N = 100 personas tendrán menos de 70 hipertensos. 30. El 97.72% de los individuos de esta población mide más de 154 cm. 31.Si se toma una muestra de N = 9 individuos, la probabilidad de que la estatura media sea mayor de 154 cm es 97.72%. 32. Si se toma una muestra de N = 100 individuos, la probabilidad de que la estatura media sea mayor de 154 cm es 97.72%. 07-cap7.indd 109 10/2/10 22:13:11 07-cap7.indd 110 10/2/10 22:13:11 Capítulo 8 INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN Los investigadores conviven constantemente con el problema de la Inferencia Estadística, IE ¿Es el hallazgo encontrado en la muestra analizada una verdad general válida para toda la población? ¿Qué resultados son mera anécdota particular de la muestra y cuáles válidos más allá de ella? Puesto que observa muestras que son solo una pequeña parte de la población que intenta conocer, esa pregunta es constante en su actividad científica, cualquiera que sea su campo de investigación. Desde comienzos del siglo xx la Estadística pone al servicio de los investigadores dos herramientas para ayudarle en ese intento de extrapolar de la muestra a la población: los Tests Estadísticos y los Intervalos de Confianza. Pero el beneficio que podían proporcionar esos nuevos recursos se vio mermado por: a) El escaso uso de los Intervalos de Confianza. b) El uso excesivo y muchas veces incorrecto de los Tests. En los Tests Estadísticos se usa el llamado valor P del test y la mayoría de los investigadores tienen notables dificultades para entender lo que indica ese valor y para usarlo correctamente. Pero aunque el cálculo de ese valor P y de los intervalos de confianza es una cuestión matemática, el tema puede ser entendido y aplicado correctamente usando únicamente la lógica común del hombre de la calle. Aquí lo presentamos sin utilizar ninguna herramienta matemática. El Apéndice B insiste en la explicación de lo que mide el valor P con nuevos ejemplos y ejercicios. Una exposición más detallada y amplia, también sin herramienta matemática, se realiza en el libro: ¿Qué significa estadísticamente significativo? La falacia del criterio del 5% en la investigación científica Luis Prieto e Inmaculada Herranz. Editorial Díaz de Santos. 2005. 111 08-cap8.indd 111 10/2/10 22:13:19 112 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 8.1. Inferencia Estadística con una proporción El PIOS —Partido Independentista de Orejuela del Sordete— obtuvo en las últimas elecciones generales el 30% de votos. En su intento de incrementar el número de seguidores deciden cambiar el nombre a PIROS —Partido Independentista Revolucionario de Orejuela del Sordete— y tras ese cambio encargan una encuesta sobre la intención de voto. En una muestra aleatoria de N = 100 personas resultó que 34 manifestaron intención de votarle si hubiera nuevas elecciones. Cuando el líder se dispone a celebrar que sus seguidores subieron del 30% al 34% una persona le hace notar que es una muestra pequeña y ese 34% de seguidores en ella puede no corresponderse con la FR de seguidores en la población general. Recaban la asistencia de un estadístico y les dice, que en efecto, ese dato no permite concluir que ha aumentado la FR de seguidores, pues a) El Intervalo de Confianza al 95% es aproximadamente de 26% a 42% b) El test estadístico correspondiente da P = 0.15 El líder sigue haciendo cambios en el nombre y en la siguiente encuesta con N = 100 personas se encuentra que 46 se declaran dispuestos a votarles. De nuevo piden asistencia de un estadístico y este les dice que este resultado apoya fuertemente la creencia en que ha aumentado realmente la FR de seguidores, pues a) El Intervalo de Confianza al 95% es aproximadamente de 38% a 54% b) El test estadístico correspondiente da P = 0.00003 Está muy comprobado y documentado que más del 98% de los profesionales con estudios superiores no entiende la información que el estadístico ha dado. En este capítulo se explican estos conceptos y se enseña a calcular esos valores. Si en una muestra de tamaño N se encuentra que hay X individuos con cierta característica (como votar a un partido) la FR en la muestra es p = X / N. Conocer el valor de p en una muestra no permite conocer el valor de π en la población, pero a partir de p podremos calcular a)El llamado Intervalo de Confianza, IC, para π, de modo que tendremos gran confianza en que π esté dentro de él. El investigador puede elegir el nivel de confianza, pero cuanto mayor sea la confianza más ancho es el intervalo. b)El valor P del Test de Significación, TS, que puede ayudar a concluir que π no tiene cierto valor en que estamos interesados. En principio queremos saber cuánto vale π, pero a partir de una muestra eso no es posible. Pero sí es posible saber que π no vale cierta cantidad, lo cual puede ser muy útil. Los test estadísticos ayudan a saber cuánto NO vale el valor poblacional en que estamos interesados. 08-cap8.indd 112 10/2/10 22:13:19 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 113 8.2. Intervalo de Confianza para proporción poblacional π Un modo de hacer Inferencia Estadística es calcular un Intervalo de Confianza, IC, para el valor del parámetro en que estamos interesados. No hay razones estadísticas ni biológicas para elegir uno u otro nivel de confianza para el intervalo. Lo más habitual es calcularlos con una confianza del 95% o del 99%, pero el investigador decide la confianza que quiere tener y cuanto más confianza quiere, más ancho sale el intervalo. La fórmula utilizada es: IC (Π ) ≡ p ± Z · p (1 − p ) N donde Z es el valor estandarizado que en la Distribución Normal deja entre él y su negativo una FR de individuos igual a la confianza que queremos para nuestro intervalo. Así, para IC al 95%, es Z = 1.96, porque por encima de Z = 1.96 está el 2.5% de los valores de la Distribución Normal, por debajo de Z = -1.96 hay otro 2.5% (la DN es simétrica) y entre Z = -1.96 y Z = 1.6 están el 95% de ellos. Y para una confianza de 99% es Z = 2.58 (ver tabla al final del libro). Ejemplo: En una muestra de N = 100 personas hay 60 alérgicas a la aspirina, AA. La FR de AA en la muestra es p = 0.60. Calculamos el IC para π: IC95% = 0.60 ± 1.96 · (0.6 · 0.4 / 100) ½ = 0.60 ± 0.096 = 0.504 y 0.696 IC99% = 0.60 ± 2.58 · (0.6 · 0.4 / 100) ½ = 0.60 ± 0.126 = 0.474 y 0.726 Tenemos confianza 95% en que la proporción poblacional de AA esté entre 0.504 y 0.696 y tenemos 99% de confianza en que esté entre 0.474 y 0.726. Confianza 95% quiere decir que de cada 100 intervalos calculados con esa fórmula, 95 contienen realmente el valor de π, y en los otros 5 el valor del parámetro está fuera del intervalo. En la vida cotidiana manejamos continuamente los intervalos de confianza y hacemos intervalos más anchos si queremos tener más confianza. Uno de los miles de ejemplos es decir, cuando no conocemos la edad de una persona, que “probablemente tiene entre 40 y 50 años”. Y si queremos un intervalo dentro del cual tengamos mayor confianza en que se encuentre su edad decimos, por ejemplo, que “está comprendida entre 35 y 55 años”. Esta fórmula, basada en la aproximación de la Distribución Binomial a la Normal, da valores próximos a los exactos cuando el número de casos “positivos” (con la característica C), y el número de casos “negativos” (sin C) son mayores de 5. Cuando no se cumple esta condición hay que recurrir a cálculos mucho más pesados, pero la interpretación es la misma. 08-cap8.indd 113 10/2/10 22:13:19 114 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 8.3. Tests de Significación con una proporción Para mostrar el mecanismo lógico que se usa en los Tests de Significación, (tanto en IE como en la vida común) supongamos que en Alemania se estudió a cada individuo de la población para averiguar si era o no alérgico a la aspirina, AA, y se encontró que lo son el 20% de la población: π A = 20%. Se sospecha que la FR poblacional de AA es mayor de 20% en Bélgica, Córcega y Dinamarca. No pudiendo estudiar a todos los individuos de estas poblaciones, en cada país contaremos el número de AA en una muestra aleatoria de N = 1 000, y calculamos la FR de AA en cada muestra, pB, pC y pD, respectivamente. (pondremos la inicial del país como subíndice en la FR poblacional, π, y en la muestral, p). Para cada país consideremos la hipótesis: “El porcentaje de AA es en la población 20%”, es decir, la diferencia respecto a Alemania es nula. Se la llama Hipótesis Nula y se simboliza como H0. Se escribe H0: π = 20%. ¿Qué postura razonable se debe tomar, a partir de lo observado en cada muestra, acerca de la FR de AA en cada país πB, πC, πD? 1. Si entre los 1 000 belgas se encuentran 970 AA pB = 97%, concluimos que a) La πB no es 20% (rechazamos H0) b) La πB puede ser 20% (aceptamos H0 como posible) c) La πB es 20% (afirmamos que H0 es cierta) 2. Si entre los 1000 corsos se encuentran 210 AA pC = 21%, concluimos que a) La πC no es 20% (rechazamos H0) b) La πC puede ser 20% (aceptamos H0 como posible) c) La πC es 20% (afirmamos que H0 es cierta) 3- Si entre los 1000 daneses se encuentran 200 AA pD = 20%, concluimos que a) La πD no es 20% (rechazamos H0) b) La πD puede ser 20% (aceptamos H0 como posible) c) La πD es 20% (afirmamos que H0 es cierta) 4. ¿Qué p debe salir en la muestra para que sea razonable elegir la opción “c”? Resumamos el razonamiento que hemos hecho en los supuestos anteriores para elegir, correctamente, 1-a, 2-b, 3-b y “ningún valor de p lleva a la opción c”: 1.Para cada país conocemos la FR de AA en la muestra, p, (92% en Bélgica, 21% en Córcega y 20% en Dinamarca) y queremos saber si la FR poblacional π puede ser 20% en cada uno de ellos, como lo es en Alemania. 2.A la idea que motiva la investigación se la llama Hipótesis de Trabajo. Aquí dice, para cada país, que en población la π de AA es mayor de 0.20, π > 20%. 3.Se plantea la llamada Hipótesis Nula, H0, que dice que no es cierta la hipótesis de trabajo. Aquí H0 dice que π es 20%, como en Alemania (es decir, la diferencia respecto a Alemania es nula). 4.Si H0 es cierta esperamos que en la muestra sea p = 20% o un valor próximo a ese. Decimos que el Valor Esperado de la p es 20% o, lo que lo mismo, que el Valor Esperado de X, número de AA en la muestra, es 200 (puesto que 200/1 000 = 0.20 ó 20%). 08-cap8.indd 114 10/2/10 22:13:19 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 115 5.Si X se aleja mucho del 200 (es decir, p se aleja de mucho de 0.20), la muestra constituye fuerte evidencia contra la H0 y nos inclinamos por rechazarla. Si X es próximo a 200, la muestra no constituye evidencia contra la H0, no la rechazamos y la aceptamos como posible. • Hipótesis de trabajo: π > 20% • Hipótesis Nula, H0: π = 20% • Valor esperado de p si es cierta H0: 20% Si encontramos p mucho mayor que 20%, rechazamos H0, será π > 20%. Si encontramos p próxima a 20%, no rechazamos H0, puede ser π = 20%. En todos los casos de IE se sigue un razonamiento idéntico a este. Con valores p muy alejados o muy próximos al π de la H0 no hay que hacer ningún cálculo complementario. Pero si la p toma valores moderadamente alejados de la π de la H0, no es claro si se debe rechazar H0 o debe aceptarse como posible. En estos casos puede ayudar conocer el llamado valor P del test. 8.4. Valor P del test con Binomial con resultado extremo Sigamos con el ejemplo en que la π de AA en Alemania es π = 20%. 1.Sospechamos que también en España la π es mayor que en Alemania, es decir, πE > 20%. Se estudia una muestra de N = 10 españoles y se encuentra que todos ellos son AA, es decir, X = 10, p = 100%. Este resultado sugiere que es πE > 20%. Pero al ser una muestra pequeña, el investigador piensa que podría ser πE = 20% y que pE = 100% puede haber aparecido en la muestra p. Puede ayudar a salir de la duda calcular el valor P del test, que en este caso es la prob de que salga una muestra con pE = 100% de AA si en la población es πE = 20%. La Distribución Binomial nos da estas prob (capítulo 6). Hipótesis de Trabajo: En la población española son AA más del 20%, πE > 20% Hipótesis Nula, H0: En la población española son AA el 20%, πE = 20% Valor Esperado de pE bajo la H0: 20% (valor esperado de X, número de AA, es 2) Valor Observado: pE = 100% (10 AA). Valor P del Test = Probabilidad de sacar una muestra con 10 AA si es πE = 20% π = 20% X p FR(X) 0 0% .107 1 10% .268 2 20% .302 3 30% .201 MA de N = 10 4 40% .088 5 50% .026 6 60% .006 7 70% .001 8 80% 9 90% .0001 .000004 10 100% .0000001 P(pE = 100% l πE = 20%) ó P(X = 10 l πE = 20%) = 0.0000001 08-cap8.indd 115 10/2/10 22:13:19 116 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN Este valor de P quiere decir que si en España son AA el 20% de la población y se hace MA de tamaño N = 10, solamente en una muestra de cada 10 millones son AA los 10 individuos. Es decir, es muy infrecuente que en el MA de N = 10 aparezca una muestra con todos AA si en la población son AA el 20%. Este resultado (los 10 españoles AA) es muy fuerte evidencia contra la H0 y a favor de que es πE > 20%. 2.Sospechamos que en Francia la π es menor que en Alemania, es decir, πF < 20%. Se estudia una muestra de 10 franceses y se encuentra que ninguno es AA, X = 0, p = 0%. Este dato sugiere que es πF < 20%. Pero también puede podría ser πF = 20% y el p = 0% haber aparecido en la muestra por azar. En el esquema de la Distribución Binomial vemos que: Valor P del Test = P(pF = 0% l πF = 20%) = P(X = 0 l πF = 20%) = 0.107 Si en Francia son AA el 20% de la población y se hace MA de N = 10, más de 10 muestras de cada 100 tienen ningún AA. Es frecuente que aparezca una muestra de N = 10 con ningún AA si en la población son AA el 20%. EL resultado (pF = 0%) no es evidencia contra la H0. No queda demostrado que sea πF < 0.20. El dato es compatible con que sea πF = 0.20. En estos ejemplos, el valor P del test es la prob de obtener una muestra como la obtenida en nuestro estudio si en la población son AA el 20%. 8.5. El valor P del test con resultado no extremo. P de la cola Sigamos con el ejemplo en que la π de AA en Alemania es π = 20%. 1.Sospechamos que en Georgia la π es mayor que en Alemania, es decir, πG > 20%. Se estudia una muestra de N = 10 georgianos y se encuentra que hay 5 AA, es decir, X = 5, pG = 50%. ¿Es este resultado compatible con que en la población haya 20% de AA, es decir, πG = 20%? En la Distribución Binomial vemos que: P(pG = 50% l πG = 20%) = P(X = 5 l πG = 20%) = 0.026 Es decir, que si en Georgia son AA el 20% de la población y se hace MA de tamaño N = 10, en 26 muestras de cada 1 000 muestras será pG = 50%. Pero cuando el resultado no es el dato más extremo, como lo era en los dos ejemplos anteriores (0 ó 10 AA en la muestra de N =10), se toma como valor P del test no la FR de muestras con ese porcentaje de AA, sino la FR de ellas con ese % o cualquier otro más alejado del esperado bajo la H0. En este ejemplo en que el % esperado en la muestra es 20%, porcentajes más alejados del esperado que el obtenido en la muestra son pG ≥ 50%, es decir, 5 o más AA en la muestra de N = 10. Veamos de nuevo la Distribución Binomial obtenida en el MA con π = 20%, añadiendo una última fila que da la FR de muestras con X o más AA, si es X mayor que 2 y da la FR de muestras con X o menos AA si es X menor que 2. Estos valores, llamados “Prob de la cola” son los que se usan en los Tests Estadísticos. 08-cap8.indd 116 10/2/10 22:13:19 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN π = 20% X p FR(X) PCOLA 0 0% .107 .107 1 10% .268 .375 2 20% .302 3 30% .201 .322 117 MA de N = 10 4 5 6 7 8 9 10 40% 50% 60% 70% 80% 90% 100% .088 .026 .006 .001 .0001 .000004 .0000001 .121 .033 .0071 .0011 .0001 .000004 .0000001 Valor P del Test = P(pG ≥ 50% l πG = 20%) = P(X ≥ 5) = P(X=5) + P(X=6) + P(X=7) = 0.026 + 0.006 + 0.001 = 0.033. Se desprecian P(X= 8), P(X= 9) y P(X=10) por su pequeño valor. El motivo por el que se toma como valor P del test la prob de encontrar una muestra como la de nuestro experimento o con estadístico aún más alejado del valor esperado bajo H0 se ve en el próximo apartado. 2.Sospechamos que en Hungría la π es menor que en Alemania, es decir, πH < 20%. Se estudia una muestra de N = 10 húngaros y se encuentra que uno es AA, es decir, X = 1, pH = 10%. La P del test es P(pH ≤ 10%), pues 10% es menor que 20%. Valor P del Test = P(pH ≤ 10% l πH = 20%) = P(X ≤ 1 l πH = 20%) = = P(X=0) + P(X=1) = 0.107 + 0.268 = 0.375. Con este valor P no se rechaza H0, el 10% de AA obtenido en la muestra de húngaros es compatible con que en la población sean AA el 20%. **Ejercicio 8.1: Sin tratamiento cierta enfermedad se cura en el 15% de los casos. Para ver si el tratamiento A es efectivo, es decir, si incrementa la FR de curaciones, se administra A a una muestra de 10 pacientes y se curan 3. ¿Qué pensamos acerca de la efectividad de A? Diga si es Verdadera o Falsa cada una de estas afirmaciones: a. La Hipótesis de Trabajo es: A es inútil, es decir, con A se curan el 15%. b. La Hipótesis de Trabajo es: A es útil, es decir, con A se curan más 15%. c. La Hipótesis Nula, H0, es: πA > 0.15, es decir, A es útil. d. La Hipótesis Nula, H0, es: πA = 0.15, es decir, A es inútil. e.El valor Esperado bajo la H0 correcta es E = 1.5 curados, es decir 1 ó 2 curados. f. El valor Observado en la muestra es 3 curados. g.El valor P del test es la prob de tener muestra con 3 o más curados si es πA =0.15 h.Para calcular ese valor P usamos la Distribución Binomial con N = 10 y π = 0.30. i. El valor P del test para la H0 correcta es 0.18. j.Si A es útil y repitiéramos muchas veces este estudio con N = 10 tratados con A, en 18 de cada 100 estudios, aparecerían por azar 3 o más curados. k. El resultado puede aparecer espontáneamente, aunque A sea inútil. l.El resultado no constituye evidencia fuerte en contra de la inutilidad de A. No es una evidencia fuerte a favor de que A es efectivo. 08-cap8.indd 117 10/2/10 22:13:19 118 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN **Ejercicio 8.2: Cierta enfermedad se cura espontáneamente en el 25% de los casos. Para averiguar si la medicina “B” aumenta la FR de curaciones se prueba en una muestra de 8 enfermos y se obtienen 6 curados, pB = 6 / 8 = 0.75. a. La Hipótesis de Trabajo es: b. La H0 es: c. Si es cierta la H0 esperamos encontrar pB = d. El valor observado de pB es: e. P(pB = 75% l πA = 25%) = P(X = 6 l πA = 25%) = f. P(pB ≥ 75% l πA = 25%) = P(X ≥ 6 l πA = 25%) = g. El Valor P del test es: h.Interprete el valor P como frecuencia relativa de cierto tipo de muestras en el MA. i. ¿El resultado invita a rechazar H0 o es fácilmente compatible con ella? También pueden hacerse tests para otras hipótesis. Por ejemplo, para el caso de la enfermedad del ejercicio anterior, un médico piensa que “B” es muy efectiva, de modo que con ella realmente se curan el 50% de los enfermos. Veamos si el resultado (6 curaciones de 8 tratados) es compatible con esa hipótesis: 1. La H0 es: πB = 50%. 2. Si H0 es cierta esperamos encontrar pB = 0.50, es decir, 4 curaciones. 3. El valor observado de pB fue: 0.75, es decir, 6 curaciones. 4. Valor P del test = P(pB ≥ 75% l πB = 50%) = P(X ≥ 6 l πB = 50%) = = 0.1094 + 0.0312 + 0.0039 = 0.1445. Si es πB = 50% no resulta difícil que entre 8 tratados con “B” haya 6 curaciones. En 14 ó 15 de cada 100 estudios como este se obtendrían 6 o más curaciones en vez de las 4 teóricamente esperadas. El resultado es compatible con la hipótesis y no es evidencia contra ella. Otro médico puede pensar que con “B” realmente se curan el 30% de los enfermos. Veamos si el resultado (6 curaciones de 8 tratados con “B”) es compatible con esa hipótesis o más bien invita a rechazarla. 1. La H0 es: πB = 30%. 2. Si H0 es cierta esperamos encontrar pB = 0.30. El número esperado de curaciones es 8 · 0.3 = 2.4, es decir, 2 ó 3. 3. El valor observado fue 6 curaciones, pB= 0.75, 4. Valor P del test = P(pB ≥ 75% l πA = 30%) = P(X ≥ 6 l πA = 30%) = = 0.0100 + 0.0012 + 0.0001 = 0.0113. Si es πB = 30% no resulta muy fácil que entre 8 tratados haya 6 curaciones. En poco más de 1 de cada 100 estudios como este se obtendrían 6 o más curaciones en vez de las 2 ó 3 teóricamente esperadas. El resultado es difícilmente compatible con esa hipótesis y es evidencia contra ella, aunque no definitiva. Otro médico cree que “B” es perjudicial, de modo que con él curan solamente el 5% de los enfermos. Veamos si el resultado (6 curaciones de 8 tratados) es compatible con esa hipótesis: 08-cap8.indd 118 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 119 1. La H0 es: πB = 5%. 2. Si H0 es cierta esperamos encontrar pB = 0.05. El número esperado de curaciones es 8 · 0.05 = 0.4, es decir, 0 ó 1. 3. El valor observado de pB fue 0.75. 4. P del test = P(pB ≥ 75% l πB = 5%) = P(X ≥ 6 l πB = 5%) < 0.0000 Si es πB = 5% resulta muy difícil que entre 8 tratados haya 6 curaciones. En menos de 1 de cada 10 000 estudios como este se obtendrían 6 o más curaciones. El dato es muy difícilmente compatible con esa H0 y por ello muy fuerte evidencia contra ella. **Ejercicio 8.3: Cierta enfermedad cura espontáneamente en el 5% de los casos. Para averiguar si la medicina “C” aumenta la FR de curaciones se prueba en una muestra de 9 enfermos y se obtienen curación en 3 de ellos, pC = 3 / 9 = 0.33. a. La Hipótesis de trabajo es: b. La H0 es: c. Si es cierta la H0 correctamente planteada, esperamos encontrar pC = d. El valor observado de pC fue: e. Valor P del test = f.Interprete el valor P como frecuencia relativa de cierto tipo de muestra en el MA. g. ¿Invita el resultado a rechazar H0 o más bien a no rechazarla? ** Ejercicio 8.4: Un médico cree que “C” es muy efectivo para la enfermedad del ejercicio anterior, de modo que realmente con “C” se curan el 50% de esos enfermos. Veamos si el resultado (3 curaciones de 9 tratados con “C”) es compatible con la H0. a. La H0 es: b. Si H0 es cierta esperamos encontrar pC = c. El valor observado de pC fue: d. Valor P del test = e.Interprete el valor P como frecuencia relativa de cierto tipo de muestra en el MA. f. ¿Invita el resultado a rechazar H0 o más bien a no rechazarla? 8.6.Probabilidad del valor encontrado en la muestra y probabilidad de la cola También se sospecha que en Italia, en Japón, en Kenia y en Lituania la π de individuos con AA es mayor que 20%. Para cada país se toma una muestra de N = 1 000. El sentido común nos llevaba en el apartado 8.3 a estas conclusiones: Bélgica: p = 97%, concluimos que πB no es 20% Córcega: p = 21%, concluimos que πC puede ser 20% Dinamarca: p = 20%, concluimos que πD puede ser 20% Pero con p no muy lejano ni muy cercano a 20% los investigadores no tienen claro qué postura deben tomar y para ello puede ayudar conocer el valor P del test. 08-cap8.indd 119 10/2/10 22:13:20 120 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 1.En Italia se encontró que entre las 1 000 personas eran AA 400, es decir, pI = 40%. Podría parece que el dato es compatible con H0, es decir, que no es muy difícil que salga pI = 40% si es πI = 20%. Pero calculemos valor P del test. La siguiente tabla da algunos valores de la distribución Binomial. La última fila da las prob de las colas. Por ejemplo, la PCOLA de p = 21% o X = 210 es la suma de P(210) + P(211) + P(212) + …+ P(999) + P(1 000) = 0.2253, ya que valores más alejados de 200 que 210 son 211, 212, 213, ..., hasta 1 000. Y la P cola de p = 19% o X = 190 es P(190) + P(189) + P(188) + ... + P(0) = 0.2274. π = 20% X 50 p 5% PCOLA 10-41 P(X) 10-42 180 190 18% 19% .0602 .2274 .0091 .023 MA de N = 1000 200 20% .032 210 21% .0227 .2253 220 22% .0090 .0628 250 300 400 25% 30% 40% .00007 10-13 10-47 .00002 10-14 10-48 Vemos que si es πI = 20%, la prob de que en una muestra de 1 000 haya 400 AA es 10-48 y la prob de que haya 400 o más AA es 10-47. P(pI = 40% | πI = 20%) = P(X = 400 | πI = 20%) = 10-48 Valor P del Test = P(pI ≥ 40% | πI = 20%) = P(X ≥ 400 | πI = 20%) = 10-47 Son prob tan extremadamente pequeñas que se desprecian a todos los efectos. Es prácticamente imposible que salga pI = 0.40 si es πI = 20%. Si la muestra tiene 40% de AA, en la población no pueden ser AA el 20%. En este caso la prob del valor y la prob de la cola son muy parecidas y dicen lo mismo, pero en otros casos esas dos prob son diferentes y es la de la cola la que indica la compatibilidad o incompatibilidad del dato con la H0. 2.En Japón se encontraron 250 personas con AA entre las 1 000 de la muestra, pJ = 25%. Podría parecer que el dato es compatible con H0, es decir, que no es difícil que salga pJ = 25% si es πJ = 20%, puesto que la diferencia es solamente de 5 puntos. Pero la muestra es muy grande y la Ley del azar nos dice que en muestras tan grandes la p toma valores muy próximos a la π. En la tabla anterior vemos que P(pJ = 25% | πJ = 20%) = P(X = 250 | πJ = 20%) = 0.00002 Valor P del Test = P(pJ ≥ 25% | πJ = 20%) = P(X ≥ 250 | πJ = 20%) = 0.00007 Si en la población nipona son AA el 20%, solo 7 de cada cien mil muestras de N = 1 000 tendrán 25% o más AA. Este pequeño valor de P invita a rechazar H0 y concluir que es πJ > 20%. También en este caso la prob del valor y la prob de la cola son muy parecidas, pero en el siguiente ejemplo hay clara diferencia entre ellas. 3.En Kenia se encontró que entre las 1 000 personas eran AA 210, pK = 21%. Todos los investigadores consideran este dato compatible con H0, es decir, que no es difícil que salga, pK = 21% si es πK = 20%, puesto que la diferencia entre lo 08-cap8.indd 120 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 121 esperado bajo la H0 y lo encontrado es solamente de 1 punto porcentual. Pero en la tabla anterior vemos que P(pK = 21% | πK = 20%) = P(X = 210 | πK = 20%) = 0.0227, un valor bastante bajo que podría considerarse al menos moderada evidencia contra la H0. Pero la prob de la cola es Valor P del Test = P(pK ≥ 21% | πK = 20%) = P(X ≥ 210 | πK = 20%) = 0.2253 Si es πK = 20%, de cada cien muestras de N = 1 000, más de 22 muestras tendrán 21% o más AA. Este valor no invita a rechazar H0, pues valores muestrales próximos a él aparecen con frecuencia en las muestras si en la población son AA el 20%. 4.En Lituania se encontró que entre las 1 000 personas eran AA 200, pL = 20%, justamente lo que teóricamente se espera tener si es cierta H0. En estos casos no tiene sentido calcular el valor del test, puesto que este indica la prob de obtener un resultado que se aleje de lo propuesto por H0 tanto como se aleja el de nuestra muestra o más. Pero el valor de la muestra NO se aleja del propuesto por H0, sino que coincide exactamente con él. Ese resultado es el más compatible con H0, el que menos invita a rechazarla. Pero, por supuesto, no permite afirmar que es cierta. En la tabla vemos que P(pL = 20% | πL =20%) = P(X = 200 | πL = 20%) = 0.032. Pero ese valor no constituye evidencia en contra de que sea πL = 20%. Con Binomiales de N muy grande o con variables continuas la prob de que en la muestras el estadístico tenga un valor determinado se aproxima a cero, tanto si este valor es muy lejano al esperado bajo la H0 como si es muy cercano a él, o incluso coincide con él, por lo que no informa sobre la compatibilidad de ese resultado con la H0. Por ello se usa la P de la cola para cuantificar la compatibilidad o incompatibilidad de los datos con la H0. Esto se ve aun más claramente en el siguiente ejemplo. 5.En Macondo se tomó una muestra de N = 10 000 personas y eran AA 2010, pL = 0.201 o 20.1%. En la siguiente tabla se dan las prob de algunos valores de X para una población con π = 20% y MA de N = 10 000. Vemos que P (X = 2 010) = 0.0096. Pero ello no quiere decir que una muestra con 2010 es difícilmente compatible con que en la población sea π = 0.20. El sentido común sugiere que es fácil obtener muestras con X próxima a 2 010 si es π = 0.20. La PCOLA de p = 0.201 o X = 2 010 es P(2 010) + P(2 011) + P(2 012)+… + P(9 999) + P(10 000) = 0.4641. Nos dice que en el MA aparecen muchas muestras con p = 20.1% o mayor, es decir, que ese valor de p muestral es totalmente compatible con π = 20%. Vemos también que la muestra con 2 000 individuos positivos (el resultado más compatible con la H0) tiene prob de 0.0099, es decir, menor de 1%. π = 20% X p P(x) PCOLA 08-cap8.indd 121 0 1 900 2·10-8 .0006 5% 10-194 MA de N = 10 000 1 950 2 000 .0046 .0099 19% 19.5% .0007 .1077 20% 2 010 2 050 2 100 .0046 .0004 20.1% 20.5% .4641 .1082 .0096 21% .0067 2 150 2 200 .00001 10-35 21.5% .00009 25% 10-36 10/2/10 22:13:20 122 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN Por otra parte, comparando esta tabla con la anterior correspondiente a N = 1 000, se constata que, por ejemplo, en el MA con N = 1 000 tienen p mayor de 21% más de 225 cada mil muestras, mientras que en el MA con N = 10 000, tienen p mayor de 21% menos de 7 cada mil muestras. Es decir, si es π = 20%: Con N = 1 000 P(p ≥ 21%) = P(X ≥ 210) = 0.2253 Con N = 10 000 P(p ≥ 21%) = P(X ≥ 2 100) = 0.0067 Es un ejemplo claro de cómo un mismo “efecto” en la muestra (21% de casos positivos) no nos lleva a rechazar la H0 con un tamaño de muestra y nos lleva a rechazarla con otro tamaño de muestra mayor. 8.7.Cálculo del valor P del test en Binomial con N grande. Aproximación Normal. En la muestra de Kenia se encontró X = 210 AA, pK = 21% de AA. El valor P del test es P(pK ≥ 21% | πK = 20%) = P(X ≥ 210) = P(X = 210) + P(X = 211) + P(X = 212) + … + P(X = 1 000) = 0.2253. Para llegar a ese valor P hay que calcular y sumar 791 probabilidades con la fórmula Binomial. Pero se alcanza una buena aproximación recordando del capítulo 6 que en la Binomial la media y la desviación estándar de p en el MA son µp = π y σp = {π · (1- π) / N}1/2, y recordando del Capítulo 7 que la FR de muestras con p superior a un valor depende solamente de Z, número de desviaciones que ese valor de p se aleja de la π poblacional (esa aproximación es buena con número de casos esperados positivos y negativos mayor de 5). En este ejemplo es σp = (0.2 · 0.8 / 1 000)½ = 0.0126. Z = (0.21 - 0.20) / 0.0126 = 0.79. El valor p = 0.21 encontrado en la muestra se aleja 0.79 desviaciones de 0.20, que es la media de p en el MA si en la población es π = 0.20. La tabla de la DN nos dicen que la FR de valores con Z mayor de 0.79 es 0.214, cantidad suficientemente parecida al valor exacto 0.225 como para usar esta aproximación. En general, el cálculo es π π π π que multiplicando numerador y denominador por N se puede escribir también como π π donde E es la cantidad esperada de casos bajo la H0, E = π · N y el valor P del test se obtiene mirando en las tablas de la DN la FR para Z mayor que el obtenido. Nota 1: El valor P encontrado con la aproximación de la DN se aproxima más al verdadero de la distribución Binomial si se aplica la llamada “corrección por continuidad”, cpc, que consiste en ampliar el intervalo de interés en 0.5 unidades, de modo que las fórmulas quedarían de esta forma, que el lector verá en los textos: 08-cap8.indd 122 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN π π π π 123 π En nuestro ejemplo el intervalo de interés es p ≥ 21% y la fórmula es Z = (0.01– 0.5 /1 000) / 0.0126 = 0.754 y P(Z > 0.754) = 0.2254, muy próximo al verdadero valor P calculado con la Binomial. En general la aproximación es mejor aplicando cpc, pero en nuestros ejercicios no la aplicaremos para simplificar el cálculo. Nota 2: Con valores de π muy pequeños, digamos menores de 0.01, (1-π) se aproxima mucho a 1 y la expresión Z = l E - X l / [ π · (1-π) · N ] ½ se aproxima mucho a Z = l E - X l / (π · N) ½ = l E - X l / E ½, que también puede escribirse como (E − O ) 2 Z2 = E donde X, núm. de individuos “positivos” en la muestra, aquí se indica por “O”. Ejemplo: En la población general son hipertensos el 0.8% (π=0.008) de los jóvenes y en una muestra de 250 jóvenes sedentarios son hipertensos 7. ¿Es razonable concluir que el sedentarismo produce incremento de la FR de hipertensos? Hipótesis de trabajo: πSED> 0.008, H0: πSED = 0.008, E bajo H0 = 0.008 x 250 = 2. Valor Observado: O = 7 Z2 = (2 –7)2 / 2 = 12.5 Z = 3.5 P = 0.0002. El resultado (7 hipertensos de 250 jóvenes) es difícilmente compatible con que πSED = 0.008. Se rechaza H0. Concluimos que entre los sedentarios hay más de 0.8% de hipertensos. **Ejercicio 8.5: En una muestra de N = 200 se encuentran X = 140 individuos con cierta característica C, p = 0.70. Haremos tests para ciertos valores de π . a. Haga test para H0: π = 67%. Diga cuánto es el p esperado, p observado, Z y P. b. Haga test para H0: π = 50%. Diga cuánto es el p esperado, p observado, Z y P. c. Haga test para H0: π = 64%. Diga cuánto es el p esperado, p observado, Z y P. d. ¿Con cuáles de esas hipótesis son compatibles los datos? e. Calcule e interprete IC95% e IC99%. **Ejercicio 8.6: En una muestra aleatoria de N = 30 personas aparecen 10 diabéticos, p = 10/30 = 0.33. a. Calcular el IC95% para la proporción poblacional, π. b. Calcular el valor P del test para la H0 que dice que π es 0.25. c. Calcular el valor P del test para la H0 que dice que π es 0.10. d.¿Qué se puede concluir acerca de la proporción de diabéticos en la población de la que se extrajo la muestra de 30 personas? **Ejercicio 8.7: En cierta enfermedad, para la que no hay tratamiento, curan el 40% de los pacientes. Se prueba el fármaco “A” en una muestra de 80 enfermos y se curan 60, p = 60/80 = 0.75. Pero no se conoce πA, la FR que se curaría si se aplicara A a todos los pacientes. Si es πA = 0.4 A es inútil y si es πA > 0.4 A es útil. a. El IC95% para πA, es 0.66 y 0.84. Compruebe que es correcto e interprételo. b.Para la H0: πA = 0.40 (A es inútil) se obtiene PUnil = 10-8. Interprete este valor. c. ¿Qué se concluye del anterior resultado respecto a la eficacia de A? 08-cap8.indd 123 10/2/10 22:13:20 124 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN d.Un científico cree que con A se curan 30% más que sin tratamiento, es decir, πA = 0.70. Planteada la H0: π = 0.70 se obtiene PUNI = 0.16. Compruebe, utilizando la DN, que el valor P del test es el indicado e interprete este valor como frecuencia relativa. 8.8.Resultados estadísticamente “significativos” y “muy significativos”. Las barreras del 5% y del 1% Es evidente que con, por ejemplo, P = 0.0000001 rechazamos la H0, porque el dato es muy difícilmente compatible con ella, y con P = 0.20 no rechazamos H0, porque el dato es compatible con ella. ¿Pero qué postura tomamos con, por ejemplo, P = 0.03, que no es ni tan pequeño como el primero ni tan grande como el segundo? No hay ningún criterio matemático, biológico ni sociológico, para establecer un valor de P frontera tal que por debajo de él se rechaza la H0 y por encima de él se acepta como posible. Cuanto menor es el valor P, más evidencia constituye contra la hipótesis nula, pero no hay una cifra que separe la zona de aceptación de la H0 de la zona de rechazo. El paso de una a otra es gradual, con una zona de transición en la que el valor P no invita claramente a tomar ninguna de las dos posturas. El valor P = 0.05 no debe ser interpretado como un límite que separa la zona de rechazo de H0 de la zona de aceptación. Los valores P = 0.06 ó P = 0.04, por ejemplo, nos dicen prácticamente lo mismo acerca de nuestra sospecha de que H0 es falsa y ninguno de los tres garantiza que lo sea. Solamente en una tesitura de toma de decisiones fácticas (infrecuente en la investigación científica) debemos convenir un valor P por debajo del cual se ejecuta una acción y por encima de él se ejecuta otra. Pero cuando el objetivo no es tomar decisiones fácticas sino adquirir conocimiento (lo habitual en investigación, análisis de encuestas y estudios de mercado), no hay valor P frontera. Es habitual decir que el resultado es “estadísticamente significativo” cuando es P ≤ 0.05. Esto puede ser un convenio útil si se sabe lo que indica. Pero si no se entiende ese convenio puede generar más confusión que ayuda. Un error muy frecuente es creer que “estadísticamente significativo” indica que queda probada la hipótesis de trabajo. Pero acabamos de ver que “estadísticamente significativo” es otro modo de decir “P ≤ 0.05”, lo cual apunta hacia que H0 no es cierta, pero no lo garantiza. Al rechazar la H0 cuando se encuentra “P ≤ 0.05” corremos un riesgo de 5% de rechazar hipótesis nulas que son ciertas. Es decir, si rechazamos las H0 cuando encontramos P ≤ 0.05, a la larga rechazaremos, equivocadamente, 5 de cada cien H0 ciertas. La evidencia contra H0 aumenta al disminuir el valor P. Cuando se obtiene P ≤ 0.01 se suele hablar de resultado “estadísticamente muy significativo”. También puede ser un convenio útil siempre que esté claro que “muy significativo” es otro modo de decir “P ≤ 0.01”. Ello implica notable sospecha en que la H0 es falsa, pero no seguridad definitiva. Al rechazar la H0 cuando se encuentra P ≤ 0.01 corremos riesgo de 1% de rechazar hipótesis nulas que son ciertas. Por ejemplo, si un dado 08-cap8.indd 124 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 125 homogéneo en el que realmente cada cara sale a la larga un sexto de las veces, se tira tres veces, la prob de que salgan tres “6” es 0.004, menor de 0.01 y todos los jugadores de parchís saben que ese suceso no es tan infrecuente. Resumiendo: 1.La disyuntiva no está entre rechazar H0 si P es pequeña y afirmar que es cierta si P es grande. Ningún valor de P permite concluir que H0 es cierta. Rechazamos H0 si P es muy pequeño, por ejemplo, P = 0.000001 y no la rechazamos si P es grande, por ejemplo, P = 0.30. 2.No hay un valor P frontera, que lleve a rechazar H0 con valores P menores que esa frontera y a no rechazarla con valores P mayores que ella. 3. “Estadísticamente significativo” es sinónimo de P ≤ 0.05, que implica cierta evidencia contra la H0, pero sin darnos seguridad de que es falsa. 4. “Estadísticamente muy significativo” es sinónimo de es P ≤ 0.01, que supone notable evidencia contra la H0, pero, sin darnos seguridad total de que es falsa. 5.Si se rechazan las H0’s cuando es P ≤ 0.05, a la larga se rechazarán erróneamente 5 de cada 100 H0’s ciertas. Y si se rechazan las H0’s cuando es P ≤ 0.01, a la larga se rechazará erróneamente 1 de cada 100 H0’s ciertas. Ejemplo: un laboratorio busca medicamentos útiles para cierta enfermedad y prueba con muchos. Para cada uno de ellos plantea como H0 que no es útil. Si la rechaza cuando aparece P < 0.05, a la larga declarará como útiles 5 de cada 100 medicamentos inútiles. Y si rechaza H0 cuando aparece P < 0.01, a la larga declarará como útiles a 1 de cada 100 medicamentos inútiles. **Ejercicio 8.8: Una enfermedad se cura sin tratamiento en el 15% de los casos, π = 0.15. Sospechamos que el nuevo tratamiento “T” cura más de 15%. Se hace un estudio tratando N = 8 enfermos con T y se plantea la H0: T es inútil. La tabla da la Distribución Binomial para N = 8 y π = 15% y las FR de las colas: X p FR(X) Valor P 0 0% .273 1 12.5% .3847 π = 15% 2 3 25% 37.5% .3428 .1052 .2376 .0839 4 MA de N = 8 5 50% 62.5% .0213 .0028 .0185 .0026 6 75% .0002 .0002 7 87.5% .00001 .00001 8 100% .0000002 .0000002 Diga si es Verdadera o Falsa cada una de estas afirmaciones: a.Si en la muestra de 8 tratados aparecen 8 curaciones, es P = 0.0000002, lo que nos lleva a rechazar H0 y concluir que T es útil (cura más de 15%) b.Si en la muestra de los 8 tratados hay 3 curaciones, es P = 0.1052, que no lleva a rechazar H0 sino a decir que el resultado es compatible con que T cure el 15%. c.Si en la muestra hay 4 curaciones, es P = 0.0213, lo que nos lleva a estar prácticamente seguros de que T es útil (cura más de 15%). 08-cap8.indd 125 10/2/10 22:13:20 126 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN d.Si en la muestra hay 4 curaciones, es P = 0.0213 y calificamos el resultado como “estadísticamente significativo”. e.Resultado “estadísticamente significativo” quiere decir que estamos prácticamente seguros de que la H0 es falsa y, por tanto, T es útil. f.Resultado “estadísticamente significativo”, quiere decir que nos inclinamos a pensar que T es útil, pero no tenemos seguridad total en ello. g.Si hiciéremos el mismo estudio con 100 productos y todos fueran inútiles, en 2 ó 3 cada 100 encontraríamos un valor de P ≤ 0.05 y declararíamos el resultado como “estadísticamente significativo”. h.Si en la muestra hay 5 curaciones, es P = 0.0028 y calificamos el resultado como “estadísticamente muy significativo”. i.Resultado “estadísticamente muy significativo”, quiere decir P ≤ 0.01 y ello implica evidencia fuerte de que T es útil, pero no tenemos seguridad total en ello. +++8.9. Riesgo de rechazar H0 equivocadamente Consideremos de nuevo el caso de una enfermedad que sin tratamiento cura en el 20% de los casos, π = 0.20. Sospechando que el nuevo tratamiento “B” cura más de 20%, se hace un estudio tratando N = 10 enfermos con B y se plantea la H0: B es inútil, πB = 0.20. Si en la muestra de 10 tratados aparecen 10 curaciones, el test da P = 0.0000001, lo que lleva a concluir que B cura más de 20%. Si en la muestra hay 3 curaciones, es P = 0.3222, el resultado es compatible con que B cure el 20%, no queda demostrado que sea útil. X 0 3 π = 20% 4 1 2 .268 .302 .2013 .0881 .0264 .0055 .0008 .0001 .000004 .0000001 50% 6 60% 7 70% 8 80% 9 90% 10 p 0% 10% 20% 30% Pcola .107 .375 .3222 .1209 .0328 .0064 .0009 .0001 .000004 .0000001 FR(X) .107 40% 5 MA de N = 10 100% Si hay 5 curaciones, es P = 0.0328, lo que sugiere que B es útil pero no permite asegurarlo. Podemos seguir el convenio establecido y decir que el resultado es “estadísticamente significativo” porque es P ≤ 0.05. Si lo hacemos así calificaremos como “estadísticamente significativo” los resultados en que hay 5 o más curaciones (ya que P(X ≥ 5) = 0.0328 que es menor que 5% y P(X ≥ 4) = 0.1209 que ya es mayor de 5%). En la tabla vemos que con un medicamento inútil (con él curan 20%) 5 o más curaciones aparecen por azar en el 3.28% de las veces que se repite el experimento, es decir, 3 ó 4 veces cada 100 repeticiones. Si hacemos este estudio (probar en una muestra de 10) con muchos medicamentos, 3 o 4 de cada 100 inútiles darán 5 o más curados por azar, será P < 0.05, el resultado será calificado como “significativo” y el medicamento calificado como “útil”, erróneamente. 08-cap8.indd 126 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 127 +++ E jercicio 8.9: Una enfermedad se cura sin tratamiento en el 10% de los casos. Sospechamos que el nuevo tratamiento “T” cura más de 10%. Se trata 8 enfermos con T y se planteará la H0: T es inútil, π = 0.10. La siguiente tabla da la Binomial para N = 8 y π = 10%. X p FR(X) Valor P 0 0% .431 1 12.5% .383 π = 10% 2 3 25% 37.5% .1869 .0381 .1488 .0331 4 50% 5 62.5% MA de N = 8 6 75% .0046 .00041 .00002268 .0050 .00043 .00002341 7 87.5% .00000072 .00000073 8 100% .00000001 .00000001 Diga si es Verdadera o Falsa cada una de estas afirmaciones: a.Si calificamos el resultado como “estadísticamente significativo” cuando es P ≤ 0.05, lo haremos así cuando en la muestra hay 3 curaciones o más. b.Si repetimos el estudio muchas veces con un producto inútil, 381 cada 10 000 veces (3.81%, es decir 3 o 4 cada cien) aparecen 3 o más curaciones. c.Si repetimos el estudio muchas veces con un producto inútil, 381 de cada 10 000 veces calificaremos el resultado como “estadísticamente significativo”. d.Si probamos con muchos productos, en 381 de cada 10 000 realmente inútiles encontraremos P ≤ 0.05 y calificaremos el resultado como “estadísticamente significativo”. e.Si asimilamos “resultado significativo” con producto útil, estaremos dando como útiles 381 de cada 10 000 productos que realmente son inútiles. Veamos un nuevo ejemplo para ayudarnos a entender que el valor P nos da la prob de equivocarnos al rechazar la H0. Un jugador de un casino sospecha que el dado usado para cierta apuesta está trucado en el sentido de que a la larga la cara “5” sale con frecuencia superior a 1/ 6. Para intentar aclarar ese punto hace una “investigación” que consiste en tirar el dado 3 veces. El resultado es que sale “5” en las tres tiradas. Hipótesis de Trabajo: A la larga, la cara “5” sale más de 1/6 de las veces: π5 > 1/6. Hipótesis Nula, H0: A la larga, la cara “5” sale 1/6 de las veces: π5 = 1/6. Valor Esperado bajo H0: En tres tiradas esperamos 3· 1/6 = 0.5, es decir 0 ó 1 veces el “5”. Valor Observado: El “5” sale 3 veces. Valor P del Test = Prob de “5” las tres veces con un dado no trucado. Es P = (1/6) 3 = 0.004. Puesto que es P < 0.01 se califica este resultado como “muy significativo” y se considera notable evidencia contra la H0 y, por tanto, a favor de que el dado está trucado. Es una conclusión razonable, siempre y cuando se tenga presente que un dado no trucado da ocasionalmente este resultado. Concretamente, el valor P del test nos indica que si hacemos esa prueba con muchos dados, en 4 de cada 1 000 no trucados saldrían los tres “5” y nos inclinaríamos —erróneamente— a considerarlos trucados. 08-cap8.indd 127 10/2/10 22:13:20 128 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN No olvide recordar - 8 1.La Inferencia Estadística, IE, intenta conocer acerca de los parámetros de la población investigada a partir del conocimiento de los estadísticos de la muestra analizada. 2.Durante decenios se han infrautilizado los Intervalos de Confianza, que en muchas aplicaciones son la herramienta más útil de la IE. Son más fáciles de interpretar que los tests estadísticos y además informan sobre la magnitud del efecto, cosa que aquellos no hacen. 3.En un estudio destinado a ver si un nuevo fármaco “A” es útil para una enfermedad que sin tratamiento se cura en el 7% de los casos, la Hipótesis de trabajo dice que A cura más del 7% y la Hipótesis Nula, H0, dice A cura el 7%. 4.En los Tests de Significación se confronta la Hipótesis Nula con los datos de la muestra que se ha analizado. La H0 se rechaza si los datos son incompatibles o difícilmente compatibles con ella. Y si son compatibles con la H0 esta no se rechaza (lo que no implica afirmar que es cierta). 5.En los Tests de Significación se confronta el valor del estadístico de interés esperado bajo la H0 con su valor observado en la muestra. La H0 se rechaza si el valor observado se aleja mucho del esperado y no se rechaza si el valor observado es cercano al esperado. La evidencia contra la H0 es mayor cuanto más se aleja el valor observado del valor esperado. 6.El valor P del test dice cuan probable es obtener una muestra con valor observado tan alejado del esperado como el de nuestro estudio o más alejado. 7.Cuanto más alejado está el valor observado del esperado menor es el valor P y mayor es la evidencia contra la H0 y a favor de la Hipótesis de Trabajo. Pero no hay un valor frontera. Los valores P = 0.06 o P = 0.04 nos dicen prácticamente lo mismo que P = 0.05 y ninguno de los tres garantiza que H0 sea falsa. 8.Si en un estudio destinado a ver si un nuevo fármaco “A” es útil para una enfermedad que sin tratamiento se cura en el 20% de los casos y en una muestra de N = 100 tratados con A se curan 32, es P = 0.0013. Ese número dice que si A es inútil y se hacen millones y millones de estudios como este, en la mayoría de ellos el número de curados será próximo a 20 y solamente en 13 de cada 10 000 estudios aparecerán por azar 32 o más curados, 9.+++ Si un laboratorio que busca medicamentos útiles para una enfermedad prueba con muchos, para cada uno de ellos plantea como H0 que no es útil y la rechaza si aparece P ≤ 0.05, a la larga declarará como útiles 5 de cada 100 medicamentos inútiles. 08-cap8.indd 128 10/2/10 22:13:20 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 129 EJERCICIO DE AUTOEVALUACIÓN - 8 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). Para cierta enfermedad que cura sin tratamiento en el 20% de los casos se estudian dos fármacos, A y B, que pretenden aumentar la FR de curaciones. De 80 pacientes a los que se les administra el fármaco A, curaron 20. De 50 pacientes tratados con el fármaco B, se curaron 18. • Planteada la H0: πA = 0.20 (A no es eficaz), se obtiene Z = 1.12 y P = 0.1314 • Planteada la H0: πB = 0.20 (B no es eficaz), se obtiene Z = 2.83 y P = 0.0023 1. El porcentaje de curaciones obtenido en la muestra con A es 25%. 2. Lo razonable es rechazar la H0 que dice que A es inútil. 3. Concluimos que el fármaco A es eficaz. 4. Concluimos que el fármaco A no es eficaz. 5. Concluimos que el fármaco A puede no ser eficaz. 6.Si realmente A no fuera eficaz, de cada 100 muestras de 80 tratados con A, en aproximadamente 13 de ellas se obtendría un 25% o más de curaciones. 7.Si realmente A fuera eficaz, de cada 100 muestras de 80 tratados con A, en aproximadamente 13 de ellas se obtendría un 25% o más de curaciones. 8. Lo razonable es rechazar la H0 que dice que B es inútil. 9. Concluimos que el fármaco B es eficaz. 10. Concluimos que el fármaco B no es eficaz. 11. Concluimos que el fármaco B puede no ser eficaz. 12.Si realmente B no fuera eficaz, es muy difícil obtener 18 o más curados en una muestra de 50 tratados con B. Cierta enfermedad cura sin tratamiento en el 30% de los casos. Se trató a 10 pacientes con el fármaco “C” y se obtuvo curación en 8 de ellos. 13.En una muestra de 10 pacientes no tratados la prob de que curen 8 es 0.0014 14.En una muestra de 10 pacientes no tratados la prob de que curen 8 o más es 0.15 %. 15. La H0 planteada en el test es: “C” incrementa la FR de curaciones en población. 16. La P del test correctamente planteado es P = 0.0007. 17.Dado que el verdadero valor de P obtenido en el test es muy pequeño, lo razonable es aceptar la H0. 18. Concluimos que el fármaco “C” es eficaz. 08-cap8.indd 129 10/2/10 22:13:21 130 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 19. Si “C” es eficaz, esperamos que se curen 15 pacientes de cada 10 000 tratados. 20.Si “C” no es eficaz, en 15 de cada 10 000 experimentos como este curarán 8 o más pacientes. 21.Si “C” es eficaz, en 15 de cada 10 000 estudios como este curarán 8 pacientes. 22.Rechazamos la Hipótesis Nula correctamente planteada porque lo encontrado en el experimento es poco probable que aparezca si esa hipótesis es cierta. En la población de no fumadores tienen la enfermedad “E” el 10%. En una muestra de N = 100 fumadores se encuentra 18 enfermos. 23.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, la media del número de enfermos en cada muestra es 40. 24. Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, la media del número de enfermos en cada muestra es 10. 25. Si de una población con 10% de enfermos se toman millones de muestras de N = 100, la desviación estándar del número de enfermos en cada muestra es 3. 26.Si de una población con 10% de enfermos se toman millones de muestras de N = 100, la desviación estándar del número de enfermos en cada muestra es 9.2. 27.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, aproximadamente el 84.13% tendrán 13 o más enfermos. 28.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, aproximadamente el 10.87% tendrán 16 o más enfermos. 29.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, aproximadamente el 15.87% tendrán 13 o más enfermos. 30.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, aproximadamente el 2.28% tendrán 16 o más enfermos. 31.Si de una población con 10% de enfermos se toman millones de muestras de N = 100, aproximadamente el 0.13% (13 cada 10 000) tendrán 19 o más enfermos. 32.Si de una población con 10% de enfermos se toman millones de muestras de N = 100 individuos, aproximadamente el 15.87% tendrán 7 o menos enfermos. 33. Para la H0: “fumar no incrementa la FR de enfermos” es Z = 1.2. 34. Para la H0: “fumar no incrementa la FR de E” es Z = 2.67. 35. Para la H0: “fumar no incrementa la FR de E” el valor P del test es P = 0.35. 36.Para la H0: “fumar no incrementa la FR de E” el valor P del test es P = 0.0038. 37. Nos inclinamos a rechazar que fumar incrementa la FR de E. 38.Si fumar incrementa en la población la FR de E y repetimos este estudio millones de veces, en 38 de cada 10 000 estudios habrá en la muestra 18 E. 08-cap8.indd 130 10/2/10 22:13:21 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN 131 39.Si fumar incrementa en la población la FR de E y repetimos este estudio millones de veces, en 38 de cada 10 000 estudios habrá en la muestra 18 o menos E. 40.Si fumar incrementa en la población el porcentaje de E y repetimos este estudio millones de veces, en 38 de cada 10 000 habrá en la muestra 18 o más E. 41.Si fumar no incrementa en la población el porcentaje de E y repetimos este estudio millones de veces, en 38 de cada 10 000 habrá en la muestra 18 E. 42.Si fumar no incrementa realmente el porcentaje de E y repetimos este estudio millones de veces, en 38 de cada 10 000 habrá en la muestra 18 o menos E. 43.Si fumar no incrementa realmente el porcentaje de E y repetimos este estudio millones de veces, en 38 de cada 10 000 habrá en la muestra 18 o mas E. 44.Para la H0: “fumar incrementa la proporción de E hasta el 40%” es Z = -5.5. 45.Para la H0: “fumar incrementa la proporción de E hasta el 40%” es Z = -3.2. 46.Para la H0: “fumar incrementa la FR de E hasta el 40%” es P del test = 0.003. 47.Para la H0: “fumar incrementa la FR de E hasta el 40%” es P del test < 0.00003. 48.Nos inclinamos a rechazar que fumar incrementa la proporción de E a 40% y a pensar que la proporción de E en los fumadores es mayor de 40%. 49. Nos inclinamos a aceptar que fumar incrementa la proporción de E a 40%. 50.Nos inclinamos a rechazar que fumar incrementa la proporción de E a 40% y a pensar que la proporción de E en los fumadores es menor de 40%. 51.Si en la población de fumadores son E el 40%, y repitiéramos este estudio millones de veces, en menos de 3 cada 100 000 veces aparecerían 18 E o más. Análisis de la Base de Datos DARIO: enunciados - 8 1.En la muestra hay 60% de varones. ¿Cuál es el porcentaje de varones en toda la población? ¿Puede ser 57%? ¿Y 40%? 2.En la muestra hay 80% de individuos que siguen dieta. ¿Qué porcentaje sigue dieta en toda la población? ¿Podría ser 70%? ¿Y 85%? 3. En la muestra de 128 activos hay 25% de individuos que practican yoga ¿Qué porcentaje practica yoga en la población de activos? ¿Podría ser 30%? ¿Y 15%? 4.En la muestra de 12 mujeres con máxima resistencia a las infecciones hay un 33% que siguen dieta. ¿Cuánto puede valer esa proporción en la población de mujeres con resistencia máxima? ¿Podría ser 40%? ¿Y 70%? 08-cap8.indd 131 10/2/10 22:13:21 132 8. INFERENCIA ESTADÍSTICA CON UNA PROPORCIÓN Análisis de la Base de Datos DARIO - 8 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. Nota: debido al redondeo de cantidades muy grandes o muy pequeñas los resultados numéricos pueden no coincidir exactamente en distintos programas o calculadoras. Ello no es relevante. A efectos prácticos dice lo mismo un valor P = 0.0087 que P = 0.0043. Y en el IC no suele ser relevante el valor del tercer decimal. También varía de unos programas a otros el número de decimales que aparecen en las salidas. En algunos puede decidirlo el usuario. Las aproximaciones con la Normal aquí se hacen SIN corrección por continuidad. Los programas suelen dar resultado con y sin. FR de ... varones Datos de la muestra N=200, X=120 p = 0.60 IC95% exacto IC95% aprox Normal 0.528 y 0.668 0.532 y 0.668 H0 para población π = 0.57 π = 0.40 Con dieta Con yoga en activos Con dieta en mujeres con resinf máxima N=200 , X= 60 p = 0.80 0.737 y 0.853 0.745 y 0.855 π = 0.70 N=128, X= 32 p = 0.25 0.182 y 0.334 0.175 y 0.325 π = 0.30 N= 12 , X = 4 p = 0.33 0.099 y 0.651 0.194 y 0.466 π = 0.85 π = 0.15 π = 0.40 π = 0.70 PEXACTO con Binomial Z de aprox. Normal y PUNI PEXACTO = 0.22 Z = 0.86 ,, PUNI = 0.20 PEXACTO = 0.000000009 Z= 5.77,, P = 0.000000004 PEXACTO = 0.0009 Z = 3.08 ,, PUNI = 0.0010 PEXACTO = 0.034 Z = 1.98 ,, PUNI = 0.024 PEXACTO = 0.127 Z = 1.23 ,, PUNI = 0.109 PEXACTO = 0.0020 Z = 3.17 ,, PUNI = 0.0008 PEXACTO = 0.438 Z = 0.45 ,, PUNI = 0.327 PEXACTO = 0.009 Z = 2.80 ,, PUNI = 0.002 • En la muestra de 200 individuos, 120 son varones (60%); Tenemos confianza 95% en que la proporción de varones en la población está entre el 53% y el 67%. Planteados tests para ver si el porcentaje de varones en la población es de 57% se concluye que sí puede ser (P≥ 0.20), y que no puede ser de 40% (P < 0.00001). •Los datos de la muestra son difícilmente compatibles con que en población haya 70% de personas con dieta (P = 0.001). •No se puede rechazar que en la población de activos haya un 30% que practican yoga (P = 0.11), pero sí se rechaza que sea un 15% (P = 0.0008). •Los datos de la muestra son difícilmente compatibles con que en la población de mujeres con máxima resistencia hagan dieta 70% (P = 0.002), pero sí puede ser 40% (P = 0.33). 08-cap8.indd 132 10/2/10 22:13:21 Capítulo 9 INFERENCIA ESTADÍSTICA CON UNA MEDIA El comportamiento de una variable cuantitativa en una muestra se resume dando su Media Aritmética, M y su Desviación Estándar, S. La Inferencia Estadística, IE, intenta conocer acerca de la media poblacional, µ, a partir del conocimiento de la Media muestral. Se hace calculando el Intervalo de Confianza, IC, y el valor P del test para las hipótesis que puedan ser de interés. El IC es más informativo y más fácil de interpretar que el valor P de los tests. Durante decenios los IC fueron infrautilizados y los tests fueron usados en demasía y muchas veces inapropiadamente. Esas distorsiones aún permanecen pero empiezan a corregirse en los últimos años. El proceso lógico es el mismo que en el capítulo anterior. El lector que necesite reforzar esos conceptos básicos aquí encontrará de nuevo su exposición detallada; para quien ya los haya captado este capítulo puede resultar algo reiterativo. 9.1. Intervalo de confianza para una media Si en una muestra de N individuos encontramos que una variable cuantitativa tiene media muestral M y desviación estándar muestral S, podemos calcular el IC para el valor de la media poblacional, μ. La fórmula utilizada N ≥ 30 es: en la que Z refleja la confianza con la que se quiere calcular el intervalo, como en el caso de los IC para la proporción poblacional. Cuando es N ≥ 30, Z es el valor estandarizado que en la Distribución Normal deja entre él y su negativo una proporción de valores igual a la confianza que queremos para el intervalo. Así, entre Z = -1.96 y Z = 1.96 hay 95% de los valores y entre -2.58 y 2.58 hay 99% de los valores. Por ejemplo, si en una muestra de N = 100 la variable X tiene M = 200 y S = 30, tenemos ES = 30 /10 = 3 133 09-cap9.indd 133 10/2/10 22:13:30 134 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA IC95% (μ) = 200 ± 1.96 · 3 = 200 ± 5.9 = 194.1 y 205.9 IC99% (μ) = 200 ± 2.58 · 3 = 200 ± 7.7 = 192.3 y 207.9 IC95% (μ) = 200 ± 3.182 · 15 = 200 ± 47.7 = 152.3 y 247.7 IC99% (μ) = 200 ± 5.841 · 15 = 200 ± 87.6 = 112.4 y 287.6 U U Es decir, en la muestra la media de X es 200. No sabemos cuánto vale la media en la población, pero tenemos confianza 95% en que esté entre 194.1 y 205.9, y confianza 99% en que la media poblacional esté entre 192.3 y 207.9. Cuando es N < 30, el valor Z se obtiene de la tabla “t de Student” (al final del libro) con N -1 grados de libertad. Por ejemplo, si en una muestra de N = 4 la variable “X” tiene M = 200 y S = 30, tenemos ES = 30 / 2 = 15 siendo 3.182 el valor que se encuentra en la tabla “t” en la fila correspondiente a N -1 = 3 grados de libertad, gl. Dentro de la fila de 3 gl se toma el valor correspondiente a la columna que tiene “1 menos la confianza” como “bil” en la cabecera. En este caso, para confianza 0.95 se toma el valor de la columna que tiene 0.05 en la cabecera. Para confianza 0.99 se toma el valor de la columna que tiene 0.01 en la cabecera, que es 5.841. Tenemos confianza 95% en que la media de la población está entre152.3 y 247.7, y tenemos confianza 99% en que está entre 112.4 y 287.6. **Ejercicio 9.1: Calcular el IC al 95% para la media poblacional de la variable “X” (número de horas dedicadas a la lectura por año) si en una muestra de 400 entrevistados se encuentra Media = 60 y S = 40. **Ejercicio 9.2: Calcular el IC al 99% para la media poblacional de la variable “E” (número de euros gastado por persona cada año en comprar libros) si en una muestra de 16 entrevistados se encuentra Media = 60 y S = 20. 9.2. El valor P con σ conocida y DN Vemos en primer lugar la situación en que se conoce la σ de la variable en la población, lo cual es muy infrecuente en la práctica, pero ayuda a entender la situación habitual en la que no se conoce ese dato y se estima a partir de la muestra. En todos los ejemplos que siguen vamos a asumir que en Alemania la variable “X” (número de horas pasadas ante el televisor por persona al año) tiene DN con media poblacional 500 y σ = 60. Sospechamos que en otros países la media poblacional es distinta de la alemana, es decir, no es 500. Para ver si es cierto, en cada país se toma una muestra aleatoria, se plantea la Hipótesis Nula, H0, que dice que la media poblacional es 500 y se calcula el valor P del test, que es la prob de obtener una muestra con media como la de nuestra muestra o aún más alejada de 500, si la media poblacional es 500. Cuanto menor sea el valor P más nos invita a rechazar la H0 propuesta. Asumiremos que en las poblaciones que estamos investigando la σ es próxima a 60 y la variable tiene DN. Más adelante vemos qué hacer si no se dan estas condiciones. 09-cap9.indd 134 10/2/10 22:13:30 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 135 a) Muestra de un solo individuo 1: Un individuo tomado al azar de la población belga tiene X = 530 Valor P del Test = P(X ≥ 530 | µB = 500) = P (Z ≥ 0.5) = 0.3085. Si la media poblacional belga es 500, µB = 500, más de 30 de cada 100 individuos de la población tendrán valor 530 o mayor. El dato (X = 530) es compatible con la H0 (media poblacional = 500) y por ello no invita a rechazarla. _|____|____|____|____|____|____|____|____|___P = 0.3085 _|____|____|____|____|____|____|____|____|___P 260 320 380 440 500 560 620 680 740 = 0.3085 260 320 380 440 H0 500 H0 560 620 680 740 2:Un individuo extraído al azar de la población corsa tiene X = 260 Valor P del Test = P(X ≤ 260 | µC = 500) = P (Z ≤ 4) = 0.00003 Es muy difícil que en una población con media 500 se encuentre un individuo con X = 260 o menor. El dato (X = 260) es muy difícilmente compatible con la H0 (media poblacional = 500) y por ello invita a rechazarla. Creemos que es µC < 500. P = 0.00003_|____|____|____|____|____|____|____|____|____|_ P = 0.00003_|____|____|____|____|____|____|____|____|____|_ 260 320 380 440 500 560 620 680 740 260 320 380 440 500 560 620 680 740 **Ejercicio 9.3: Un individuo extraído al azar de la población danesa tiene X = 800. ¿Qué concluimos respecto a la media poblacional? **Ejercicio 9.4: Un individuo extraído al azar de la población española tiene X = 420. ¿Qué concluimos respecto a la media de la población española? b) Muestra con N individuos. 3: En una muestra de N = 16 franceses se encuentra media muestral, M = 440. La hipótesis de trabajo es µF ≠ 500. La Hipótesis Nula que planteamos en el test es H0: µF = 500. Si es cierta H0, esperamos encontrar en la muestra una M próxima a 500. En el MA con N = 16 es σMEDIAS = 60 /√16 = 15 Si la variable tiene DN las medias del MA también la tienen. Z = (440 – 500) /15 = -4 PUNI = P(MF ≤ 440 | µF = 500) = P (Z ≤ -4) = 0.00003 P = 0.00003_|____|____|____|____|____|____|____|____|____|_ 440 09-cap9.indd 135 455 470 485 500 515 530 545 560 10/2/10 22:13:30 136 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA Si la media poblacional francesa fuera 500 es muy difícil que la muestral de N = 16 sea del orden de 440. Por eso rechazamos esa H0 y creemos que es µF < 500. 4:En una muestra de 36 georgianos se encuentra M = 508. En el MA con N = 36 es σMEDIA = 60 /√36 = 10 Z = (508 – 500) /10 = 0.8 P = P(MG ≥ 508 | µG = 500) = P (Z ≥ 0.8) = 0.2119 Si la media poblacional georgiana fuera 500 es fácil que la muestral de N = 36 sea del orden de 508. Por eso no rechazamos esa H0 y creemos que puede ser µG = 500. P = 0.00003_|____|____|____|____|____|____|____|____|____|_ 440 455 470 485 500 515 530 545 560 Siguen otros ejemplos del valor P y la conclusión que se obtendría con algunos otros valores de la media muestral M, si es N = 36 y σ = 60 (σMEDIAS = 10) y si se plantea como H0 que la media poblacional es µ = 500: Con M = 500 es Z = 0 Con M = 497 es Z = -0.3 Con M = 490 es Z = -1 Con M = 460 es Z = -4 Con M = 350 es Z = -15 P = 0.50 P = 0.3821 P = 0.1587 P = 0.00003 P = 10-40 Puede ser µ = 500 Puede ser µ = 500 Puede ser µ = 500 Casi seguro que es µ < 500 Seguro que es µ < 500 En estos ejemplos con N = 36 no se necesita que la variable tenga DN en población, pues el TCL nos dice que las medias del MA tienen DN, cualquiera que ____|____|____|____|____|____|____|____|_ P = 0.1587 sea la distribución de la460variable. 470 480 490 500 510 520 5430 540 9.3. Valor P a una cola y a dos colas En el ejemplo anterior vimos una muestra de N = 36 con M = 490 y encontramos Z = -1 y P = 0.1587, que es la prob de encontrar una muestra con media 490 o menor, si es µ = 500. Al valor P así obtenido se le llama Punilateral (abreviadamente PUNI), porque da la prob de muestras con media que se alejen de 500 tanto como la de nuestra muestra o más aún, en el mismo sentido, es decir, en el mismo “lado” de la distribución. A veces se utiliza la llamada Pbilateral (abreviado Pbil) que es el doble del Puni, y en este caso indica la prob de encontrar muestras con media 490 o menor o con media 510 o mayor, si es µE = 500 (510 se aleja de 500 lo mismo que 490, pero en el otro sentido, en el otro “lado” de la distribución). Es decir: PUnilateral = P(M ≤ 490 | µ = 500) = P(Z ≤ -1) = 0.1587 PBilateral = P(M ≤ 490 o M ≥ 510 | µG = 500) = P(Z ≤ -1) + P(Z ≥ 1) = 0.3174 09-cap9.indd 136 10/2/10 22:13:31 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 137 En general, se llama valor P bilateral a la prob de obtener una muestra en que el valor del estadístico se aleje de lo esperado bajo la H0 tanto como el de nuestro estudio o aún más en cualquier sentido y es Pbil = 2 · PUNI. Cuando hablamos del valor P del test podemos referirnos a la uni o a la bilateral. En este libro la mayor parte de las veces manejamos la P unilateral. Si se desea la bilateral basta con multiplicar por dos la unilateral. 9.4. Test con una media no conociendo σ En todos los casos anteriores se calculó el número de desviaciones estándar que la media muestral (M) encontrada en el experimento se aleja de la media que postula la H0 (µ) con la siguiente expresión: Z = µ−M µ−M = σ σM N donde σM es la desviación estándar entre las medias muestrales y σ es la desviación estándar entre los individuos de la población. Con el valor de Z así obtenido se calcula el valor P del test utilizando las tablas de DN. Pero lo más habitual es que no se conozca la σ de la población y en esos casos se sustituye por la desviación estándar de la muestra, S, quedando la expresión: Z = µ−M µ−M = S ES N Recordemos que a la desviación estándar de la muestra dividida por la raíz cuadrada de N la llamamos Error Estándar o Típico de la muestra, ES. Consideremos el ejemplo de una muestra de N = 81 individuos donde la variable “X” tiene M = 60 y S = 27. El ES es 27 / 9 = 3 1º- Para la Hipótesis Nula, H0, que dice que la media poblacional es μ = 62 es: Z = (62 - 60) / 3 = 0.67 PUNI = P(Z > 0.67) = 0.25 Si fuera μ = 62, y se repitieran muchos estudios como este, las M’s tomarían valores en torno a 62, y en 25 de cada 100 muestras sería M ≤ 60 (el valor de M obtenido en nuestra muestra). 2º- Para la H0 que dice que la media poblacional es μ = 51 es: Z = (60 - 51) / 3 = 3 PUNI = P(Z > 3) = 0.0013 Si fuera μ = 51, y se repitieran muchos estudios como este, las M’s tomarían valores en torno a 51 y aparecería M ≥ 60 solo en 13 de cada 10 000 estudios como este. Los valores P anteriores indican que los datos obtenidos en nuestro estudio (M = 60, S = 27 en una muestra de 81) son compatibles con que en población sea µ = 62 (lo que llevaría a aceptar esa posibilidad) y no son compatibles con que en población sea µ = 72 (por lo que rechazaríamos ese valor como posible). 09-cap9.indd 137 10/2/10 22:13:31 138 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA En el ejemplo 1º se interpretó el valor PUNI como la FR de estudios en los que la media muestral es M ≤ 60, mientras que en el ejemplo 2º es la FR de estudios con M ≥ 60. ¿Por qué unas veces se habla de media muestral mayor y otras menor que la obtenida en la muestra? Depende de la hipótesis planteada. El valor P del test se refiere a la FR de estudios con resultado como el obtenido o “más extremo”, si la H0 es cierta. En el ejemplo 1º con H0: μ = 62, resultados más extremos que el obtenido (M = 60) son aquellos en que es M ≤ 60 (son resultados tan alejados o más de lo que propone la H0, tan alejados como 60 o más de 62 y de 72, respectivamente). En el ejemplo 2º con H0: μ = 51, resultados más extremos son aquellos en que es M ≥ 60. Cuando es N < 30 (muestra con menos de 30 individuos) y variable con DN en la población, el valor de P que corresponde a Z, se mira en la tabla “t de Student” con N -1 grados de libertad, en lugar de la tabla de la Normal. Ejemplo: en una muestra de N = 4 se encuentra M = 50 y S = 10, es decir, ES = 10/√4 = 5. Si se plantea como H0 que es μ = 57, se calcula: Z = (57 - 50) / 5 = 1.4. Para buscar el valor de P en la tabla “t de Student” nos situamos en la fila de gl = 4 – 1 = 3 (la muestra es de N = 4) y en ella buscamos los valores más próximos al obtenido en nuestro estudio. Al valor 1.25 corresponde PUNI = 0.15 (en la cabecera de esa columna) y al valor 1.638 corresponde PUNI = 0.10. Como a medida que aumentan los valores del interior de la tabla, disminuyen sus valores de P asociados, a nuestro valor 1.4 (que está entre 1.25 y 1.638), le corresponde 0.15 > PUNI > 0.10. Lo relevante es que es PUNI > 0.10, por lo que se acepta H0 como posible. ** : En 1950 la media poblacional del Coeficiente Intelectual, “Y” era µ = 110. Temerosos de que actualmente sea µ < 110, se mide “Y” en una muestra de 144 adultos actuales y se encuentra M = 102 y S = 36. Se plantea como H0 que “Y” no ha disminuido, es decir, µACTUAL = 110 y el valor P del test es 0.0038. a. ¿Qué mide ese valor P? b.¿Qué nos hace pensar este resultado? Un autor cree que la telebasura y los políticos han conseguido bajar el coeficiente intelectual medio de la población en 12 unidades. Planteada la H0 que dice que la media poblacional actual es 98 (110 -12) se obtiene el valor PUNIL = 0.09. c. ¿Qué mide ese valor P? d. ¿Qué podemos decir acerca de esa hipótesis? **Ejercicio 9.6: ¿Es efectivo el fármaco B para aumentar la concentración de Ca++ en fémur? Esa variable tiene media μ = 300 y σ = 12, en las unidades pertinentes, en cierta población de animales. Se administra el fármaco B a una muestra de N = 36 y se obtiene Media muestral M = 308. ¿Qué pensamos acerca de la efectividad de B para incrementar esa variable? Diga si es V o falsa cada una de las afirmaciones. a.La Hipótesis Nula, H0, es μB = 300, es decir, B no incrementa esa variable; esto es, si se diera B a toda la población, la media poblacional sería 300. b.El valor P es la prob de encontrar una muestra con M = 300, si es μB = 300. c. El valor P es la prob de encontrar una muestra con M ≥ 300, si es μB = 300. d. La P del test es la prob de obtener en la población μB ≥ 300, si es M = 300. 09-cap9.indd 138 10/2/10 22:13:31 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 139 e. La P del test es la prob de obtener una muestra con M ≥ 308, si es μB = 300. f.Si μB = 300 y tomamos muchas muestras de N = 36 de esa población, la media de las medias muestrales es μM = 300 y la desviación entre las medias muestrales 12. g.Si μB = 300 y tomamos muchas muestras de N = 36 de esa población, la media de las medias muestrales es μM = 300 y la desviación entre las medias muestrales es 2. h.Por ser N ≥ 30 las medias en el MA se distribuyen de modo Normal (TCL). i. Con la muestra obtenida y la H0 correctamente planteada se obtiene Z = -3. j. Con la muestra obtenida y la H0 correctamente planteada se obtiene Z = 4. k. En la tabla de Distribución Normal vemos que P (Z ≥ 4) = 0.00003. l.Si B es útil y repitiéramos muchas veces este estudio, solo en 3 de cada cien mil muestras aparecería media muestral de 300. m.Si B es inútil y repitiéramos muchas veces este estudio, solo en 3 de cada cien mil muestras, aparecería media muestral de 300. n.Si B es inútil y repitiéramos muchas veces este estudio, solo en 3 de cada cien mil muestras aparecería media muestral de 308. o.Si B es inútil y repitiéramos muchas veces este estudio, solo en 3 de cada cien mil muestras aparecería media muestral de 308 o mayor. p.El valor P del test indica que es muy difícil que aparezca una media muestral próxima a 300 si la media poblacional es 300. q.El valor P del test indica que es muy difícil que aparezca una media muestral próxima a 308 si la media poblacional es 308. r.El valor P del test indica que es muy difícil que aparezca una media muestral próxima a 308 si la media poblacional es 300. s. Este resultado constituye evidencia fuerte a favor de que B no es efectivo. t.Este resultado constituye evidencia fuerte a favor de que B es efectivo. 9.5. Muestras muy pequeñas Es frecuente que se ponga en duda la validez de una conclusión alegando que el estudio contenía un número demasiado pequeño de individuos. Para rebatir esa objeción hay que darse cuenta de que el valor P del test se calcula teniendo en cuenta el tamaño de la muestra, de modo que indica la prob de encontrar ese resultado o uno más extremo en una muestra de ese tamaño, si la H0 es cierta. Los valores de P muy pequeños constituyen evidencia contra la Hipótesis aunque en la muestra haya muy pocos individuos. **Ejercicio 9.7: El peso del Recién Nacido, RN, de madres sanas se distribuye de modo Normal con media 100 y desviación 10, (en ciertas unidades). Para ver si cada una de las sustancias “A”, “B”, “C” y “D” favorece que los RN tengan menor peso, damos cada una a un grupo de embarazadas y planteamos como H0 que no modifica el peso del RN. Calcule Z y P en cada caso. Se da el 09-cap9.indd 139 10/2/10 22:13:31 140 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA IC, para el peso medio poblacional de los RN cuyas madres tomaron cada una de las sustancias. a.Una muestra de N =100 embarazadas con “A” dio media muestral, MA = 97.5 Z= (µA –MA) / σMED = P (Z < )= IC(µA)95% = 97.5 ± 1.96·1 ≈ U95.5 y 99.5 b.Una muestra de N = 25 embarazadas con “B” dio MB = 94 Z= (µB -MB) / σMED = P (Z < )= IC(µB)95% = 94 ± 1.96·2 ≈ U90 y 98 c. Una muestra de N = 4 embarazadas con “C” dio MC = 82.5 Z= (µC –MC) / σMED = P (Z < )= IC(µC)95% = 82.5 ± 1.96·5 ≈ 72.7 y 92.3 d. Una muestra de N = 1 embarazadas con “D” dio MD = 60 Z= (µD -MD) / σ = P (Z < )= IC(µD)95% = 60 ± 1.96·10 ≈ 40 y 80 e.¿Cuál de los cuatro estudios aporta mayor evidencia en contra de la H0? Es decir: ¿Cuál de ellos muestra más evidencia a favor de que µ Tratados < 100, o sea, que los RN de madres con esa sustancia pesan, de media, menos que los de sanas? f.Si un epidemiólogo dijera que el último estudio no permite concluir nada porque solo se estudió un caso, ¿qué le contestaría usted? (argumentos claros, y concisos). 9.6. El valor P del Test NO es la probabilidad de que sea cierta la H0 Ya sabemos que el Valor P del test nos dice la prob de obtener cierto tipo de muestras cuando es cierta H0. El error más frecuentemente cometido por los investigadores es creer que esa P indica la prob de que la H0 sea cierta. Pero esa creencia es totalmente equivocada. Insistamos en aclarar esa confusión en ejemplos de la vida común para hacerlo luego en ejemplos de investigación. **Ejercicio 9.8: El señor “AA” dice: “Si mañana llueve la probabilidad de que haya un accidente de trafico en la calle Mayor es P = 0.57” a. ¿Nos ha hablado sobre la probabilidad de que llueva?.................................. b. P = 0.57 es la probabilidad de ....................................................................... **Ejercicio 9.9: El señor “BB” nos dice: “He comprado Lotería y si me toca es muy probable que vaya al Caribe” a. ¿Nos ha hablado sobre la probabilidad de que le toque la lotería? ............... Observe que “BB” no nos dijo si había comprado muchos o pocos décimos y por ello no sabemos nada acerca de la probabilidad de que le toque. b. ¿Qué cosa es muy probable? ........................................................................ **Ejercicio 9.10: El niño de la señora “CC” tiene un ligero dolor abdominal. Le pregunta al doctor si cree que su niño puede tener Apendicitis Aguda (AA) y 09-cap9.indd 140 10/2/10 22:13:31 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 141 qué habría que hacer si la tuviera. El doctor responde que la gran mayoría de dolores abdominales infantiles son episodios leves, no AA. Y añade: “Si un niño tiene AA es muy probable que sea operado”. a. ¿Puede la señora “CC” decir que es muy probable que su niño tenga AA? ......... b. ¿Qué cosa es poco probable? ........................................................................ c. ¿Qué cosa es muy probable? ……………………………… En los tres ejemplos anteriores, nunca se pueden confundir estas dos cosas: 1º Probabilidad de que ocurra “A”. 2º Probabilidad de que ocurra “B”, si ocurre “A” **Ejercicio 9.11: Indique la respuesta correcta de las 4 que se ofrecen abajo. En cierta enfermedad se curan el 25% de los pacientes no tratados. Para ver si el fármaco “A” incrementa la FR de curaciones, se administra a 8 enfermos y se encuentra que se curan los 8. Planteamos la H0: “A es inútil, en población con él curan 25%”. Si eso es cierto, entre 8 enfermos esperamos encontrar 2 curados (2 es el 25% de 8). Un pequeño cálculo muestra que si con A se curan el 25% y lo probamos en muchísimos grupos de 8 enfermos, en solo 1 cada 100 000 grupos aparecerán curados, por azar, los 8. El valor P del test, P = 0.00001, es la prob de: a) que el medicamento A sea inútil (que con A se curen 25%). b) que el medicamento A sea útil (que con A se curen más de 25%). c) obtener curación en los 8 enfermos si el medicamento A es inútil. d) obtener curación en los 8 enfermos si el medicamento A es útil. 9. 7. La probabilidad de la H0 y el Valor P del Test En la mayoría de los estudios biomédicos no se puede calcular la prob de que la hipótesis planteada sea cierta. Veremos un ejemplo muy sencillo de otra área en el que sí se puede calcular esa prob. Ello ayuda a distinguir esa prob de la P del test y a entender cómo esta última se utiliza para elaborar conclusiones. Ejemplo: Sabemos que el 3% de las monedas de una ciudad son falsas y aunque su aspecto es indistinguible de las legales, en las falsas la prob de salir “cara” es 0.8. En las monedas legales la prob de salir “cara” es 0.5 1ºHemos comprado una moneda en la ciudad. No sabemos si es legal o falsa. Consideremos H0 ≡ La moneda es legal. La prob de que esta H0 sea cierta es 0.97 Es decir, si tomamos muchas monedas de esa ciudad, serán legales 97 de cada 100. 2ºPara intentar saber si nuestra moneda es falsa o legal hacemos 14 tiradas. Si el número de veces que sale “cara” es próximo a 7, consideramos el resultado compatible con la H0 y si salen muchas caras aumentará nuestro temor de que sea falsa. El resultado es que sale cara en las 14 tiradas. 09-cap9.indd 141 10/2/10 22:13:31 142 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA Un cálculo sencillo nos dice que haciendo millones de series de 14 tiradas cada una con una moneda legal, solamente en 6 cada 100 000 series aparecen todo caras. Valor P del test = 0.00006 Distingamos claramente entre: • P = 0.97 Es la probabilidad de que la moneda sea legal (que H0 sea cierta). • P = 0.00006 Es la probabilidad de obtener 14 caras si la moneda es legal. Es la probabilidad de obtener el resultado obtenido en nuestro estudio si es cierta H0. Son dos valores muy diferentes, 0.97 y 0.00006, referidos a hechos muy diferentes: La prob de que la H0 sea cierta, es decir, que la moneda sea legal es P = 0.97. De cada 100 monedas compradas en esa ciudad, 97 serán legales. Pero esa cifra no nos dice si nuestra moneda es una de las legales o una de las falsas. Intentamos saber más acerca de ella haciendo esos 14 lanzamientos y el resultado es que sale cara en todos ellos. La P del test es la prob de que salga todo caras en 14 lanzamientos con una moneda legal. Si no conociéramos la FR de monedas legales, es decir, la prob de que la moneda comprada fuera legal, el único dato sería el valor P del test. En la llamada Inferencia Clásica o frecuentista, que se explica en este libro y se aplica en la gran mayoría de los análisis, se asume que no se puede evaluar la prob de que H0 sea cierta o sea falsa, lo que en este ejemplo equivale a no conocer la FR de monedas falsas en la ciudad. El investigador toma una muestra (equivale a tirar la moneda 14 veces) y calcula la prob de que aparezca por azar el tipo de resultado encontrado en la muestra, si es cierta la H0. En la llamada Inferencia Bayesiana sí se evalúa la prob de que la H0 sea cierta antes de conocer el resultado de nuestro estudio y se ve cómo se modifica al tener en cuenta dicho resultado. En nuestro ejemplo la Inferencia Bayesiana implica averiguar la prob inicial de que la monedad sea legal y ver cómo se modifica esa prob al tener en cuenta que ha salido cara en las14 tiradas. En el Capítulo 17 se exponen los fundamentos lógicos de la Inferencia Bayesiana, cuyo uso va a ir creciendo progresivamente en el futuro. El lector encontrará en ese capítulo el primer paso de ese apasionante camino. Aunque algunos autores presentan estos dos enfoques, el clásico y el bayesiano, como alternativas contrapuestas, una reflexión serena muestra que son técnicas complementarias que pueden colaborar en un mismo análisis. 9.8. Intervalo de Confianza versus Tests Estadísticos En la mayoría de los casos el Intervalo de Confianza, IC, es más informativo y de interpretación más directa que el valor P del test, pues además de orientarnos sobre si hay motivos fuertes o no para rechazar la H0, nos informa sobre la magnitud del efecto que estamos estudiando. Para ver la relación entre el valor P y los límites del IC supongamos que la media poblacional de “X”, número de horas que cada persona dedica al año a hacer 09-cap9.indd 142 10/2/10 22:13:31 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 143 deporte, era 400 en la población. Se hizo una campaña de educación para la salud animando a los ciudadanos a hacer más deporte; esta es útil si tras ella la µ de X es mayor de 400. Para investigarlo medimos, tras la campaña, X en una muestra de 49 individuos y planteamos como H0 que la campaña no fue efectiva y sigue siendo µX = 400. En la tabla que sigue damos los valores que tomaría el valor P y los IC al 95% y al 99% para distintos valores de la media muestral, M, si en la muestra es S = 70 (ES = 10). Recuerde que es IC = M ± Z·ES, con Z = 1.96 ó 2.58 dependiendo de la confianza, obtenido de las tablas de D. Normal, pues N>30. M 410 Z IC99%= M ± 25.8 0.1010 396.8 ↔ 436.0 390.6 ↔ 442.2 0.3174 1.96 0.0250 0.0500 423.3 2.33 440 IC95% = M ± 19.6 0.1587 1.64 425.8 PBIL 1 416.5 419.6 PUNI 0.0505 0.01 2.58 0.005 4 0.00003 390.4 ↔ 429.6 400 ↔ 439.2 0.02 403.7 ↔ 442.9 0.00006 420.4 ↔ 459.6 0.01 406.2 ↔ 445.4 384.2 ↔ 435.8 393.8 ↔ 445.4 397.5 ↔ 449.1 400 ↔ 451.6 414.2 ↔ 465.8 Comentamos algunos hechos que son de validez general y que pueden observarse en los ejemplos anteriores: 1.Cuando el IC95% incluye el valor que propone la H0, es PUNI > 0.025 para esa H0. 2.Cuando un extremo del IC95% coincide con el valor que propone la H0, la P bilateral es 0.05 y la unilateral es 0.025. 3.Cuando un extremo del IC99% coincide con el valor que propone la H0, la PBIL es 0.01 y la unilateral es 0.005. 4.En general, cuando un extremo del ICα% coincide con el valor que propone la H0, la PBIL es 1-α y la P unilateral es (1-α) / 2. 5.Cuando el IC99% no incluye el valor que propone la H0, es PUNI < 0.005. Para ilustrar cómo el IC nos informa sobre la magnitud del efecto estudiado y el valor P no lo hace, veamos los datos de una muestra tomada en Oviedo (con M = 410) y otra tomada en Cartagena (con M = 460), ambas de N = 1 225, con S = 70 y por ello ES = 70 / √1 225 = 70 / 35 = 2. Para ambas se hace test para H0: µ = 400. Oviedo Cartagena N 1225 1225 M 410 460 S 70 70 ES 2 2 Z 5 30 PUNI 3·10 -7 10-100 IC99% = M ± 5.2 404.8 ↔ 415.2 454.8 ↔ 465.2 En ambas el valor P es muy pequeño y nos da la seguridad de que la media poblacional tras la campaña no es 400 sino mayor, es decir, que la campaña ha sido efectiva. Pero solamente los IC nos permiten saber que en Oviedo el efecto producido por la campaña es moderado, pues el IC indica que la media poblacional está entre 404.8 y 415.2, es decir, casi entre 5 y 15 horas más que antes de la campaña, mientras que en Cartagena el efecto fue mucho mayor: el aumento del número medio de horas está entre 54.8 y 65.2, aproximadamente. 09-cap9.indd 143 10/2/10 22:13:31 144 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA Con muestras muy grandes un pequeño efecto puede ser muy significativo y el investigador debe distinguir claramente entre la magnitud del efecto y su significación estadística (valor P del test). Y a ello ayuda decisivamente el IC. +++9.9. Ausencia de Normalidad y tests no paramétricos En teoría, con muestras pequeñas (menores de 30) estos cálculos basados en la distribución t de Student, que llamaremos “test-t”, solamente son válidos si la variable en cuestión sigue DN en la población. Si no se cumple esa condición el valor P del test-t, que llamaremos “P-t”, no es exactamente igual al “P-verdadero”, que es la prob de obtener muestras con media que se aleje de la poblacional propuesta por la H0 tanto como la de nuestro estudio o más aún. Este valor mide el grado de evidencia a favor de la hipótesis de trabajo Muchos libros dicen —o el lector interpreta— que hay tests, llamados de Normalidad, que a partir de los datos de la muestra, permiten saber si la variable tiene o no DN en la población. De ese modo, si la variable sigue DN se puede aplicar el test-t para una media y si no sigue DN hay que aplicar otros tests llamados “no paramétricos”, que no exigen DN. Pero esa frase es una simplificación equívoca si se toma como receta ciega que sustituya la comprensión del tema. En la práctica esa condición no debe tomarse como restricción muy estricta y hay que tener en cuenta los siguientes matices importantes: 1.Ninguna variable de la naturaleza se ajusta exactamente a la DN. La DN es un modelo matemático al que muchas distribuciones reales de la naturaleza se aproximan lo suficiente como para poder asumir que siguen esa distribución, aunque ninguna de ellas la seguirá con total exactitud (como ningún ángulo físico será exactamente recto, aunque muchos lo son tan aproximadamente que se les puede tratar como tales y utilizar con ellos el teorema de Pitágoras con provecho práctico). 2.El test-t es apropiado cuando la variable tiene distribución muy próxima a la Normal. Pero ningún test de normalidad puede confirmar, con los tamaños habituales en las investigaciones, que tiene en población distribución muy próxima a la Normal. Solamente pueden —si aparece valor P muy pequeño— confirmar que no hay normalidad. 3.Con muestras menores de 30, que es en las que nos preocupa la no normalidad en población (pues en ellas no se puede aplicar el TCL), esos tests tienen poca potencia estadística para detectarla y muchas veces se les escapa. Es decir, aunque una variable tenga en la población distribución muy alejada de la normal, los tests de normalidad lo detectan pocas veces. 4.Aunque la variable tenga en población distribución moderadamente alejada de la Normal, el “P-t” es muy próximo al “P-verdadero”. A esta característica se le llama “Robustez” frente a la no normalidad. 5.Recordemos que si al test de comparación de medias le correspondiera, por ejemplo, P- verdadero = 0.043 y el P-t es 0.064, la diferencia no es relevan- 09-cap9.indd 144 10/2/10 22:13:31 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 145 te. Ambas cifras dicen que la evidencia contra la H0 es moderada. Que uno esté un poco por debajo del 0.05 y otro un poco por encima de él no implica que la conclusión sea esencialmente diferente. 6.Incluso diferencias considerablemente grandes entre el P-verdadero y el P-t son irrelevantes si ambos valores llevan claramente a la misma conclusión. Por ejemplo, si fuera P-verdadero = 0.000080 y P-t = 0.000002, el primero es 40 veces mayor que el segundo, pero ambos nos llevan claramente a rechazar H0. Y si fuera, por ejemplo, “P-verdadero = 0.33 y P-t = 0.11, ambos valores nos llevan a no rechazar la H0. 7.Como consecuencia de los apartados 4, 5 y 6 lo más frecuente es que el test no paramétrico lleve a la misma conclusión que el test-t, bien porque ambos dan valor P grande (se acepta como posible la H0) o ambos lo dan pequeño (se rechaza la H0) o ambos lo dan intermedio y no cabe pronunciarse. Por todo ello en la mayoría de los casos se aplica el test-t, asumiendo que las conclusiones a que lleva no se alejarán sensiblemente de las que se habrían alcanzado con el P-verdadero. El lector interesado en captar las ideas fundamentales del análisis estadístico de datos no necesita adentrarse más en este punto. El que desee profundizar un poco más, encontrará en el siguiente apartado discusión más detallada. +++ 9.10. Test de Normalidad Los ejemplos que siguen ayudan a ver que el test de normalidad da menor valor P cuanto más se apartan los datos muestrales de la normalidad. Y también muestran que incluso con muestras que se apartan notablemente de la normalidad, el test no lo detecta, es decir, no da un valor P muy pequeño que invite claramente a rechazar la hipótesis de normalidad en la población. Los gráficos representan distribuciones de frecuencias de los 20 valores de cada muestra, de modo que serán distribuciones tanto más parecidas a la Normal cuando más se parezcan a la curva Normal, esto es, barras altas en torno a la media y menores a medida que nos alejamos de ella. Ejemplo 1: El gráfico que sigue corresponde a una muestra de 20 valores (aparecen encima del gráfico) con distribución muestral parecida a la DN (acúmulo de datos en torno a la media y escasez de ellos en las colas). La altura de cada barra es proporcional al número de veces que se repite cada valor. El test de normalidad plantea que en la población la variable es Normal y da P = 0.87, un valor P grande, como cabía esperar. Muestra-1: 7,8,8,9,9,9,10,10,10,10,11,11,11,11,12,12,12,13,13,14 09-cap9.indd 145 10/2/10 22:13:31 146 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA Ejemplo 2: El gráfico siguiente corresponde a una muestra de 20 valores con distribución muestral plana, bastante alejada de DN. A pesar de ello el test de normalidad da P = 0.55, lo que no invita a rechazar la hipótesis de normalidad. Muestra-2: 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,º17,18,19,20 Ejemplo 3: El gráfico que sigue corresponde a una muestra de 20 valores con distribución muestral que presenta más acumulación de valores en los extremos, al revés que la DN. El test de normalidad da P = 0.10, que tampoco invita a rechazar la hipótesis de normalidad. Muestra-3: 2,2,3,3,4,5,6,7,8,9,10,11,12,13,14,15,16,16.17,17 Ejemplo 4: El gráfico que sigue corresponde a una muestra de 20 valores con distribución muestral que presenta más acumulación de valores en los extremos que en la muestra anterior, es decir, más alejada de la normalidad. El test de normalidad da P = 0.02, que invita a rechazar la hipótesis de normalidad en la población, pero no con evidencia tan fuerte como podría pensarse al observar la muestra. Muestra-4: 2,2,2,2,3,3,3,4,4,5,5,6,6,7,7,7,8,8,8,8 Estos ejemplos denotan que la mayoría de las muestras pequeñas, cualquiera que sea su composición, son compatibles con que la población tenga DN y por ello no constituyen argumento fuerte en contra del uso del test de Student. +++ 9. 11. Tests no paramétricos Para el caso que nos ocupa, en que la H0 atribuye un valor a la media poblacional de una variable, un posible test no paramétrico sería el llamado Test de la Mediana que plantea como H0 que la mediana de esa variable en la población es 09-cap9.indd 146 10/2/10 22:13:32 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 147 ese valor, y calcula el valor P del test con la Distribución Binomial. Cuando se aplica este test no paramétrico es frecuente que lleve a la misma conclusión que el paramétrico, como en este ejemplo de 20 valores: 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 7, 8, 8, 8, 8 Media = 5 y ES = 0.51 Ejemplo 1: Para la H0: Media poblacional = 2.5 el test-t da Z = 4.9 con 19 gl y P = 0.00005. Podemos plantear como H0 equivalente a la anterior (aunque no exactamente igual): Mediana poblacional = 2.5 y hacer un test basado en la Binomial. Si es cierta esta H0 la mitad de los valores de la población son mayores que 2.5. Por ello esperamos que en la muestra sean mayores que 2.5 la mitad de los valores, es decir, 10. En la muestra vemos 16 valores mayores de 2.5. El valor P del test se calcula con la Binomial de N = 20 (tamaño de la muestra estudiada) y π = 0.5 (esperamos la mitad de los individuos con valor mayor de 2.5). Si en población es π = 0.5, la prob de obtener muestras con 16 o más valores mayores de 2.5, en una muestra de N = 20 es P = 0.005. Este último test infrautiliza la información, pues ignora el valor propio de cada individuo y se limita a considerar si es o no mayor de 2.5. Aunque la variable no tenga DN en población cabe pensar que el valor P = 0.00005 refleja mejor la realidad que el P = 0.005. Ejemplo 2: Consideremos ahora la H0: Media poblacional = 4.5 que con el test-t da Z = 0.98 con 19 gl y P = 0.17. Para la H0: Mediana poblacional = 4.5, esperamos en la muestra 10 valores mayores de 4.5, pero hay 11. Con Binomial de N = 20 y π = 0.5, la prob de obtener muestras con 11 o más casos mayores de 4.5 es P = 0.41. Ambos tests (Student y de la mediana) coinciden en considerar que los datos no son evidencia contra la H0. Ejemplo 3: Consideremos ahora la H0: Media poblacional = 3.5 que da Z = 2.94 con 19 gl y P = 0.004. Si la H0: Mediana poblacional = 3.5 es cierta, esperamos en la muestra 10 valores mayores que 3.5, pero hay 13. Con Binomial de N = 20 y π = 0.5 la prob de obtener muestras con 13 o más valores mayores de 3.5 es P = 0.130. También en este caso el test de la mediana infrautiliza la información, pues ignora el valor propio de cada individuo y se limita a considerar si es o no mayor de 3.5. El hecho de que el valor P no invite a rechazar la H0 no sería una referencia vinculante. Aun en el caso de que la variable no tenga DN en la población el valor P = 0.004 reflejaría mejor la realidad que el valor P = 0.130. +++ 9.12. E stimadores sesgados y estimadores insesgados. Varianza muestral = SC / (N-1) Si hacemos Muestreo Aleatorio de una población y en cada muestra se calcula un estadístico, tendremos tantos valores de él como muestras se han tomado. 09-cap9.indd 147 •Un estadístico se dice que es un estimador insesgado de cierto parámetro si la media de los valores del estadístico evaluada sobre todas las muestras del MA coincide con el valor del parámetro. 10/2/10 22:13:32 148 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA •Un estadístico se dice que es un estimador sesgado de cierto parámetro si la media de los valores del estadístico no coincide con el valor del parámetro. La media muestral es estimador insesgado de la media poblacional. Si en cada muestra del MA se calcula la media, algunas de las medias muestrales tienen valor mayor que la media poblacional, otras medias muestrales tienen menor valor que la media poblacional y se demuestra que la media de todas las medias muestrales coincide con el valor de la media poblacional. La varianza muestral es estimador sesgado de la varianza poblacional. Si en cada muestra se calcula la varianza, SC / N, algunas de esas varianzas muestrales tendrán valor mayor que la σ2, otras tendrán menor valor que la σ2 y se demuestra que la media de todas ellas no coincide con el valor de la σ2. La cuasivarianza muestral es estimador insesgado de la varianza poblacional. Si en cada muestra se calcula la cuasivarianza, S2 = SC / (N -1), algunas de esas S2 tendrán valor mayor que la σ2, otras S2 tendrán menor valor que la σ2 y se demuestra que la media de todas las S2 coincide con el valor de la σ2. Por ejemplo, si de una población con σ2 = 10 se toma millones de muestras de N = 4, la media de SC / N -1 = SC / 3 es 10, y la media de SC / N = SC / 4 es 7.5, como se muestra en la siguiente tabla. Se toman millones de muestras de N = 4 de una población con σ2 = 10 Muestra 1ª Muestra 2ª Muestra 3ª Muestra 4ª SC SC / N = SC / 4 SC / N-1 = SC / 3 29 7.25 9.67 32 27 8.00 6.75 10.67 9.00 Muestra 5ª ……………… Muestra 1 000 000ésima 09-cap9.indd 148 35 8.75 11.67 ↓ Media = 7.5 ↓ Media = 10 10/2/10 22:13:32 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 149 No olvide recordar - 9 1.A partir del valor de la media muestral hacemos Inferencia para la media poblacional calculando el IC y el valor P de los tests. 2.Los IC son más informativos y fácilmente interpretables por el investigador que los tests: cuando el valor de la media poblacional nos informa sobre el efecto que hace cierto factor, el test únicamente nos dice, si es el caso, que en la población el efecto no es cero, pero no nos informa sobre la magnitud de ese efecto. El IC informa sobre la magnitud del efecto que hace el factor. 3.El valor P es la proporción de valores que en la DN son iguales o mayores que Z = ( µ - M) / ES. 4.Con muestras con menos de 30 individuos, para encontrar el valor P de los tests y los límites del IC se utilizan las tablas t de Student. 5.El valor P del test que utiliza la distribución t de Student indica exactamente lo que esperamos, si la variable tiene en la población DN, pero nunca podemos tener la seguridad de que se cumple esa condición. 6.Aunque la variable tenga en población distribución considerablemente alejada de la Normal el “P-verdadero” no es muy lejano al “P- t”. A esta característica se le llama “Robustez” frente a la no normalidad. 7.Pueden aplicarse otros tests que no exigen Normalidad y por ello su resultado no se afecta si no se da esa condición. Se les llama “tests no paramétricos” y son menos potentes, es decir, cuando la H0 no se cumple tienen menor capacidad para detectarlo. 8.Cuando se aplica el test no paramétrico lo más frecuente es que lleve a la misma conclusión que el paramétrico. 9.Por todo lo anterior, es razonable usar el test de Student en prácticamente todos los casos. 10.El valor P del test no es la probabilidad de que la H0 sea cierta o sea falsa, es la probabilidad de obtener el tipo de resultado encontrado en nuestro estudio si fuera cierta la H0. 11.+++ Si se conoce la probabilidad inicial de que H0 sea cierta, se puede calcular la probabilidad de que lo sea teniendo en cuenta el resultado del estudio. 12.+++ La Inferencia Bayesiana puede enriquecer el análisis de la información en muchos casos. Su presencia en las publicaciones científicas es aún escasa, pero irá aumentando progresivamente en el futuro inmediato. 09-cap9.indd 149 10/2/10 22:13:32 150 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA EJERCICIO DE AUTOEVALUACIÓN - 9 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). La variable X se distribuye en la población de Sanos con media = 200 y de modo Normal. Dos muestras de Diabéticos y Tuberculosos dieron: N = 16 Diabéticos dio media de X: MDiabéticos = 212 y S = 12 N = 9 Tuberculosos dio media de X: MTuberculosos = 196 y S = 12. Hacemos tests de significación para ver si la media de cada una de estas poblaciones de enfermos es igual o distinta de la media de la población de sanos. (Puesto que es N<30 se usan las tablas de distribución t de Student) •Para H0 : media poblacional en diabéticos = media poblacional en sanos (µ DIABETICOS = µ SANOS), se obtiene PUNI = 0.0006 •Para H0 : media poblacional en tuberculosos = media poblacional en sanos (µ TuberculosOS = µ SANOS), se obtiene PUNI = 0.17 1. Concluimos que en diabéticos la media poblacional es, casi seguro, mayor que en sanos. 2.Concluimos que en diabéticos la media poblacional es igual que en sanos. 3.Concluimos que en tuberculosos la media poblacional es menor que en sanos. 4. Concluimos que en tuberc. la media poblacional puede ser igual que en sanos. 5.Concluimos que en los tuberculosos la media poblacional de X es igual que en sanos. Se sospecha que la dieta hidrocarbonada, DH, incrementa la rigidez de las paredes aórticas, RPA. En la población de individuos con dieta estándar la media es 77. Una muestra de N=17 individuos con larga historia de DH dio media = 87 unidades de RPA. El Test de Significación da Z = 4, PUNI = 0.00003 6. La Hipótesis Nula planteada en el test es: “la DH incrementa la RPA”. 7. La Hipótesis Nula planteada en el test es: “la DH no incrementa la RPA”. 8. Concluimos que es muy probable que la hipótesis nula sea cierta. 9. La probabilidad de que la H0 sea cierta es P = 0.00003. 10. La probabilidad de que la Hipótesis Nula sea falsa es P = 0.00003. 11.La prob de que la media poblacional en los individuos con DH sea 77, es 0.00003 12. Concluimos que la DH no modifica realmente (es decir, en población) la RPA. 13. Concluimos que la DH incrementa realmente la RPA, por término medio, en 10 unidades. El valor P = 0.00003 se lee como “3 de cada 100 000” y quiere decir 09-cap9.indd 150 10/2/10 22:13:32 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA 151 Sospechando que la facilidad para aprender una segunda lengua es mayor en mujeres que en varones, se hizo un estudio con 49 mujeres y 64 varones, evaluando esa facilidad mediante pruebas que dan un resultado entre 0 y 200. Mujeres Varones N 49 64 Media 125 120 S 21 32 ES 3 4 23.Tenemos gran confianza en que la media poblacional en mujeres no es 140. 24. Estamos prácticamente seguros de que la µ MUJ es 128. 25. Estamos prácticamente seguros de que la µ MUJ es 125. 26. Puede que sea µ MUJ = 125. 27. Puede que sea µ MUJ = 128. 28. Puede que sea µ MUJ = 140. 29. Tenemos gran confianza que la media poblacional en los varones no es 126. 30. Estamos prácticamente seguros de que la µ VAR es 120. 31. Estamos prácticamente seguros de que la µ VAR es 124. 32. Puede que sea µ VAR = 120. 33. Puede que sea µ VAR = 124. 34. Puede que sea µ VAR = 100. Análisis de la Base de Datos DARIO: enunciados - 9 1.En la muestra la tad media es 72.2 ¿Cuánto puede valer la tad media de toda la población? ¿Puede ser 60? ¿Y 70? 2.La diferencia de ta producida por un día de ayuno (efecto del ayuno) es, por término medio, -1.32 en la muestra, es decir, se produce una bajada de 1.32 unidades por término medio ¿Puede ser este efecto medio -3 en toda la población ¿Y +3? 3.La opinión media sobre la sanidad es 68.33 en la muestra de 120 varones. ¿Cuánto puede ser en la población de varones? ¿Puede ser 60? ¿Y 70? 4.El efecto del ayuno es en la muestra de 120 varones -9.37, por término medio. ¿Cuánto puede bajar la ta por el ayuno en la población de varones? ¿Puede no haber bajada? ¿Puede ser de 10 unidades de media? 5.En la muestra de 80 mujeres, la media de ministro es 1.9. ¿Cuánto puede ser en la población de mujeres? ¿Puede ser 5? ¿Y 1? 6.El efecto del ayuno en la muestra de 80 mujeres es 10.75, por término medio. ¿Cuánto puede subir la ta por el ayuno en la población de mujeres? ¿Puede no haber subida? ¿Puede ser de 12 unidades de media? 7.El efecto del ayuno en la muestra de 16 mujeres que hacen deporte moderado es 9.25, por término medio. ¿Cuánto puede subir la ta por el ayuno en la población de mujeres con deporte moderado? ¿Puede ser de 5 unidades? ¿Y de 10? 09-cap9.indd 151 10/2/10 22:13:32 152 9. INFERENCIA ESTADÍSTICA CON UNA MEDIA Análisis de la Base de Datos DARIO - 9 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. Nota: debido al redondeo de cantidades muy grandes o muy pequeñas los resultados numéricos pueden no coincidir exactamente en distintos programas o calculadoras. Media de ... Datos muestra IC95% para la población tad N = 200 M = 72.2 , ES= 0,66 diftad N = 200 -2.84 y 0.20 sanidad en varones N = 120 M = 68.33 , ES= 1.44 65.49 y 71.18 Media de diftad en varones N = 120 M = -9.37 , ES = 0.46 -10.28 y -8.46 ministro en mujeres N = 80 M = 1.9 , ES = 0.079 1.74 y 2.06 diftad en mujeres N = 80 M = 10.75 , ES= 0.46 9.84 y 11.66 diftad en Mujeres con deporte mode N = 16 M = 9.25, ES=1.0062 7.11 y 11.39 M = -1.32 , ES = 0.77 70.9 y 73.5 H0 para la población Z ó t y PUNI µ = 60 Z = 18.4 , P = 10 -45 µ = -3 Z = 2.18 , P = 0.016 µ = 70 µ = +3 Z = 3.32 , P = 0.0005 Z = 5.6 , P = 10 -8 µ = 60 Z = 5.80 , P = 10 -9 µ=0 Z = 20.4 , P = 10-40 µ=5 Z = 39.4 , P = 10 -53 µ = 70 µ = -10 Z = 1.16 , P = 0.12 Z = 1.38 , P = 0.08 µ=1 Z = 11.4 , P = 10 -28 µ = +12 Z = 2.7 , P = 0.003 µ = 10 t15 = 0.74 , P = 0.23 µ=0 µ=5 Z = 23.6 , P = 10 -37 t15 = 4.22 , P=0.0004 •La ta media de la muestra de 200 es 72.2; en la población, con una confianza de 95%, estará entre 70.9 y 73.5. Es prácticamente imposible que en población la ta media sea 60 y es muy difícil que sea 70. •En los 200 estudiados, la ta ha bajado por el ayuno, por término medio, 1.32 unidades. Y en la población, por término medio, puede haber bajado 2.84, puede haber subido 0.20 y puede haber variado cualquier cantidad entre éstas. Estos datos nos invitan rechazar que en población haya una bajada media de 3 y claramente nos dicen que no hay un aumento medio de 3. •En los varones, la sanidad por término medio no puede ser 60, pero sí 70 y puede haberse producido una bajada media de TA de 10, y es prácticamente seguro que hay variación. •En mujeres la media de ministro no es en población 5 ni 1, ni el aumento de ta medio puede ser de 12. 09-cap9.indd 152 10/2/10 22:13:32 Capítulo 10 La Inferencia Estadística con dos Medias Muchos profesores de idiomas sospechan que la facilidad para aprender una segunda lengua es mayor en mujeres que en varones. Para ver que la media de la población de mujeres es mayor que la media de la población de varones se hizo un estudio con 49 mujeres y 64 varones, evaluando esa facilidad mediante pruebas que daban resultado entre 0 y 200. El estudio se hizo en países con idiomas muy distintos: China, España y Rusia. En China dio resultados que no apoyaban claramente esa hipótesis: China Mujeres Varones N Media, M 64 120 49 123 S ES 32 4 21 3 MMUJ - MVAR 3 Pero en España dio resultados muy contundentes a favor de ella: España Mujeres Varones N Media, M 64 90 49 140 S ES 32 4 21 3 MMUJ - MVAR 50 Finalmente, en Rusia los resultados fueron intermedios: Rusia Mujeres Varones N Media, M 64 110 49 125 S ES 32 4 21 3 MMUJ - MVAR 15 En este capítulo vemos cómo los cálculos estadísticos nos pueden ayudar a interpretar mejor los resultados en situaciones como la de Rusia, donde los datos no permiten en principio decantarse claramente por una u otra postura. La diferencia de medias muestrales es 15 pero no conocemos el valor de la diferencia entre las medias poblacionales. Haremos la Inferencia Estadística calculando el Intervalo de Confianza para la diferencia de medias poblacionales y el valor P del test que propone un determinado 153 10-cap10.indd 153 10/2/10 22:13:42 154 10. La Inferencia Estadística con dos Medias valor para esa diferencia. Todos los paquetes de programas estadísticos dan esos resultados. El investigador necesita interpretarlos correctamente y para ello no es necesario conocer las fórmulas usadas, pero se dan aquí porque no son muy complejas y ayudarán al lector interesado en entender los fundamentos lógicos de la Inferencia. 10.1. IC para diferencia de dos medias A partir de los datos muestrales se calcula el intervalo dentro del cual tenemos confianza en que se encuentre la diferencia de las medias poblacionales. donde E se calcula de diferente forma dependiendo del tamaño de las muestras: E= (muestras grandes, N1 ≥ 30 y N2 ≥ 30) E= (muestras pequeñas, N1 < 30 y/o N2 < 30) Y “Z” indica la confianza que queramos para el intervalo, igual que en el IC para una media o una proporción, en los capítulos anteriores. Para muestras grandes se usa la tabla de la DN en la que Z = 1.96 para confianza 95% y Z = 2.58 para confianza 99%. En el ejemplo es E = (32 + 42) ½ = 5 y (M1 - M 2) = 15 IC95% (µ1 - µ2) = 15 ± 1.96 ·5 = 15 ± 9.8 = 5.2 y 24.8 IC99% (µ1 - µ2) = 15 ± 2.58 ·5 = 15 ± 12.9 = 2.1 y 27.9 N1= 16 hombres: M1= 79, SC1 = 6 615, N2 = 9 mujeres: M2= 73, SC2 = 8 192, E= Es decir, tenemos confianza 95% en que la media poblacional de esta variable sea en las mujeres entre 5.2 y 24.8 unidades mayor que en los varones. Con muestras “pequeñas” el valor de Z se toma de las tablas de la distribución “t de Student” con grados de libertad “N1+ N2 –2”. Por ejemplo, si los tamaños de las muestras del ejemplo anterior hubieran sido 16 varones y 9 mujeres, con iguales medias y desviaciones tendríamos: S1 = 21, ES1 = 5.25 S2 = 32, ES2 = 10.67 = 10.57 En la tabla “t de Student”, en el cruce de la fila de gl = 16 + 9 - 2 = 23 y la columna encabezada por “BIL” igual a “uno menos la confianza”, vemos que para el IC95% es t = 2.069 y para el IC99% es t = 2.807. IC95% (µ1 - µ2) = 6 ± 2.069 · 10.57 = 15 ± 21.1 = - 6.1 y 36.1 Para interpretar correctamente los límites con signo negativo debemos tener en cuenta el orden en el que hemos restado. Así, tenemos 95% de confianza en que (µmuj - µVar) esté entre -6.1 y 36.1, es decir, puede que la media poblacional de mujeres supere a la de varones en 36.1, o que esté 6.1 por debajo de ella, o que se diferencien cualquier cantidad entre las dos anteriores. 10-cap10.indd 154 10/2/10 22:13:42 10. La Inferencia Estadística con dos Medias 155 10.2.Test para la comparación de dos medias Si planteamos como H0 que no hay diferencias entre sexos, es decir, que las medias poblacionales de ambos sexos son iguales, H0: µ 1 = µ 2 ó µ 1 - µ 2 = 0 = 15 / 5 = 3 se calcula La cantidad “E” del denominador es la estimación de la Desviación Estándar de la diferencia de medias muestrales si se repite millones de veces el estudio. Es decir, si las medias poblacionales son iguales y se repite millones de veces el estudio y en cada repetición se calcula la diferencia M MUJ – M VAR, en la mayoría de las repeticiones la M de mujeres será próxima a la de varones, MMUJ - MVAR será próxima a cero. La media de esas diferencias será cero y la desviación estándar entre ellas estará en torno a 5. Por ello Z = 15 / 5 = 3 nos dice que la diferencia obtenida en nuestra muestra se aleja 3 desviaciones estándar de la media de las diferencias. En las tablas de DN vemos que PUNI = P (Z > 3) = 0.0013. Es decir, P (MMUJ - MVAR > 15 | µ MUJ = µ VAR) = 0.0013. Solamente en 13 de cada diez mil repeticiones la M de mujeres aventajará, por azar, a la de varones en 15 o más unidades. Distribucion de MMUJ - MVAR si es µ MUJ = µ VAR y se repite el estudio millones de veces _|____|____|____|____|____|____|____|____|____|_ P 0.0013 -15 -10 -5 0 5 10 15 H0 Y en otros trece estudio de cada diez mil la media de mujeres estará 15 o más unidades por debajo de la de varones. Por tanto, la diferencia de medias muestrales será 15 o más, a favor de alguno de los grupos, en 26 estudios cada diez mil. A esa cantidad la llamamos Probabilidad Bilateral y escribimos PBIL = 0.0026. Para calcular la PBIL se tiene en cuenta la “otra cola”, es decir, la situación simétrica a la obtenida en nuestro experimento respecto de la H0 planteada. Si en nuestro ejemplo se obtuvo diferencia MMUJ – MVAR = 15 (ventaja de 15 a favor de las mujeres), respecto de una ventaja poblacional de 0 (lo planteado en la H0), la situación simétrica es MMUJ – MVAR = -15 (ventaja de 15 a favor de los varones). Tan pequeño valor P es evidencia notable en contra de la H0 y a favor de que la media poblacional es mayor en mujeres. Los siguientes ejemplos ilustran que en general se obtiene menor valor P del test cuanto: a) Mayor es la diferencia de las medias muestrales. b) Menor es la variabilidad de la variable, menores desviaciones muestrales. c) Mayor es el tamaño de las muestras. Ejemplo1 Varones Mujeres 10-cap10.indd 155 N 49 64 M 79 73 S 10.5 5.6 ES 1.5 0.7 M 1 – M2 6 E 1.65 Z 3.64 PUNIL 0.0001 IC 95% (M1 –M2) 2.77 y 9.23 10/2/10 22:13:42 156 10. La Inferencia Estadística con dos Medias Ejemplo 2 Varones 144 73 79 10.5 5.6 0.47 1.05 M 1 – M2 6 1.13 5.28 0.000002 Z PUNIL IC 95% (M1 –M2) 49 79 10.5 1.5 M 1 – M2 2 E 1.65 Z 1.22 PUNIL IC 95% (M1 –M2) 49 79 3.5 0.5 M 1 – M2 2 E 0.58 Z 3.43 PUNIL 0.0003 IC 95% (M1 –M2) 4 M1 –M2 E Z PUNIL IC 95% (M1 –M2) 100 Mujeres E 3.8 y 8.2 Ejemplo 3 Varones Mujeres 64 77 5.6 0.7 0.11 -1.23 y 5.23 Ejemplo 4 Varones Mujeres 64 77 2.4 0.3 0.86 y 3.14 Ejemplo 5 Varones Mujeres 49 64 79 73 27 24 3 6 5 1.2 0.12 -3.8 y 15.8 •Ejemplo 1 vs. Ejemplo 2: Mayor evidencia contra la hipótesis de igualdad de medias poblacionales e IC más estrecho en “2”, pues se estudian muestras más grandes, aunque con igual diferencia de medias muestrales e igual desviación. •Ejemplo 3 vs. Ejemplo 4: Menor valor P e IC más estrecho en “4”, pues con tamaños de muestra y diferencia de medias muestrales igual que en el “3”, en el “4” la dispersión es menor en las muestras. Lo mismo ocurre en “1” y “5”. •Ejemplo 1 vs. Ejemplo 3: Menor valor P en “1” pues hay mayor diferencia de medias muestrales, siendo muestras de igual tamaño y con la misma dispersión. También se puede plantear como H0 que la diferencia de medias poblacionales tiene cierto valor distinto de cero. Entonces se calcula: La fórmula para el test de igualdad de medias poblacionales es un caso particular de esta, con (µ1- µ2) = 0. El numerador es la “distancia” entre la diferencia de medias poblacionales que propone la Hipótesis (µ1 - µ2) y la diferencia de medias muestrales obtenida en el estudio (M1 - M2). •Por ejemplo, si un especialista cree que la µ MUJ aventaja a la de varones en 10 unidades, para la H0: µ MUJ - µ VAR = 10 es Z = (15 -10) / 5 = 5 / 5 = 1 y en la DN es P (Z >1) = 0.1587. Si es µ MUJ - µ VAR = 10 y se repitiese este estudio millones de veces, en la mayoría de ellas MMUJ - MVAR tomará valores próximos a 10, pero en más de 15 cada cien repeticiones la M de mujeres aventajará a la de varones en 15 o más unidades. 10-cap10.indd 156 10/2/10 22:13:42 10. La Inferencia Estadística con dos Medias 157 P = 0.1587 _|___|____|____|____|____|____|____|____|____|_ P = 0.1587 -5 0 5 10 15 20 _|___|____|____|____|____|____|____|____|____|_ •Si se plantea como-5H0 que menor que la de varones, 0 la5 µ MUJ 10es 5 15unidades 20 H0: µMUJ - µVAR = - 5 y Z = (15 – (-5)) / 5 = 20/ 5 = 4 y en la DN es P (Z > 4) = 0.00003. Si es µ MUJ - µ VAR = -5 y se repitiese este estudio millones de veces, en la mayoría MMUJ - MVAR tomará valores próximos a -5, y solo en 3 de cada cien mil repeticiones la M de mujeres aventajará, por azar, a la de varones en 15 o más unidades. P = 0.00003 _|____|____|____|____|____|____|____|____|____|_ -15 -10 -5 0 5 10 15 P = 0.00003 _|____|____|____|____|____|____|____|____|____|_ -15 -10 -5 0 5 10 15 •Si se plantea como H0 que la media poblacional de mujeres es 25 unidades mayor que la de varones, para H0: µ MUJ - µ VAR = 25, es Z = (15 – 25) / 5 = 10 / 5 = 2 y en la DN es P (Z > 2) = 0.0228. Si es µ MUJ - µ VAR = 25 y se repitiese este estudio millones de veces, en la mayoría de ellas MMUJ - MVAR tomará valores próximos a 25, y solamente en 2 o 3 de cada cien repeticiones la M de mujeres aventajará a la de varones en 15 o menos unidades. P = 0.0288 _|____|____|____|____|____|____|____|____|____|____|______ 5 10 15 20 25 30 35 Fíjese que ahora interpretamos el valor PUNI como la FR de estudios con diferencia de medias muestrales menor que 15, y en los ejemplos anteriores hablábamos de diferencia de medias muestrales mayor de 15, siendo 15 la diferencia obtenida en nuestros datos. ¿Por qué unas veces hablamos de diferencia mayor que la obtenida y otras veces menor? Depende de la H0 planteada. El valor P se refiere a la proporción de estudios con resultado como el nuestro o más “extremo” si H0 es cierta. En los ejemplos anteriores con H0: µ1-µ2 = 0 y H0: µ1-µ2 = 10 y H0: µ1-µ2 = -5, resultados más extremos son aquellos con M1 - M2 > 15, mientras que con H0: µ1 - µ2 = 25, resultados más extremos son los que tienen M1 - M2 < 15. Si alguna muestra tiene N menor de 30, el valor P del test se busca en las tablas t de Student (con grados de libertad “N1+ N2 –2”), en vez de las de DN. 10-cap10.indd 157 10/2/10 22:13:43 158 10. La Inferencia Estadística con dos Medias **Ejercicio 10.1: Para cada uno de los tres supuestos que siguen calcule el valor de E, el valor P del test que plantea igualdad de medias poblacionales, el valor P del test que plantea que la media poblacional de B supera a la de A en 7 unidades y los IC. En cada uno de ellos se estudia una muestra de 4 individuos de la población A y otra de 5 individuos de la población B, obteniéndose en todos los supuestos medias muestrales MA = 7 y MB = 12. Para obtener el valor P y calcular el IC utilice la tabla de t de Student, pues son muestras de NA = 4 y NB = 5 individuos. 1º A 13 15 2 1 Media SC E 7 122 Z PUNIL 4.07 B 19 17 11 7 6 12 136 7 50 B 17 15 11 9 8 12 60 3º A 9 8 6 5 7 10 B 14 13 12 11 10 12 10 Para la H0: µ B - µ A = 7 Z IC95% IC99% A 11 10 4 3 Para la H0: µ B = µ A 1.23 0.13 PUNIL 2º Intervalo de confianza para µ B - µ A **Ejercicio 10.2: De 12 pacientes hipertensos y en situación clínica muy similar, 5 fueron tratados con “A” y 7 con “B” para bajar la presión arterial. La adjudicación de tratamientos fue realizada al azar. Las bajadas de presión fueron: “A” : 9 , 11 , 7 , 6 , 12 Tratados con A: Tratados con B: N 5 7 Medias 9 7 “B” : 10 , 6 , 8 , 5 , 7 , 6 , 7 SC 26 16 S2 6.5 2.5 S 2.55 1.58 ES 1.14 0.60 a. Calcule el IC95% para la bajada media poblacional con cada tratamiento. b. ¿Hay motivos para afirmar que un tratamiento es más efectivo que el otro? c.Un autor dice que el efecto medio poblacional de “A” es 6 unidades mayor que el de “B”, es decir, µA - µB = 6. ¿Usted qué opina? d. Otro autor dice que µB - µA = 2. ¿Usted qué opina? e. Otro autor dice que µA - µB = 2. ¿Usted qué opina? f. Calcule e interprete el IC95% para µA -µB. 10-cap10.indd 158 10/2/10 22:13:43 10. La Inferencia Estadística con dos Medias 159 En otros estudios similares se usó el fármaco “C” en 41 pacientes: MC= 6.5, SCC= 246 y el “D” en 35 pacientes: MD = 8, SCD = 119. ¿Qué opina usted sobre cada una de las siguientes hipótesis? E= g.µC = µD. h. µD - µC = 1. i. µD - µC = 2. j. µD - µC = 3. k. µC - µD = 2. ** Ejercicio 10.3: En nuestro ejemplo de 49 mujeres y 64 varones rusos, Rusia Mujeres Varones N 49 64 Media, M 125 110 S 21 32 ES 3 4 MMUJ - MVAR 15 Califique cada afirmación a continuación con “V” si es verdadera y con una “F” si es falsa: a. Para la H0 de igualdad de medias poblacionales es Z = 3 y PUNIL = 0.0013. b.Si es µ VAR= µ MUJ y se repitiese este estudio millones de veces, en 13 de cada diez mil la M de mujeres aventajará a la de varones en 15 o más unidades. c.Si es µ MUJ - µ VAR = 15 y se repitiese este estudio millones de veces, en 13 de cada diez mil la M de mujeres aventajará a la de varones en 15 o más unidades. d.Si es µ MUJ - µ VAR = 15 y se repitiese este estudio millones de veces, en 500 de cada mil la M de mujeres aventajará a la de varones en 15 o más unidades. e.Para la H0 que dice que la media poblacional en mujeres supera a la de varones en 20 unidades es Z = 35 / 5 = 7 y PUNIL < 10 -10. f.Para la H0 que dice que la media poblacional en mujeres supera a la de varones en 20 unidades es Z = 5 / 5 = 1 y la PUNIL es aproximadamente 0.16. g.Si es µ MUJ - µ VAR = 20 y se repitiese este estudio millones de veces, en 500 de cada mil la M de mujeres aventajará a la de varones en 20 o más unidades. h.Si es µ MUJ - µ VAR = 20 y se repitiese este estudio millones de veces, en 16 de cada 100 la M de mujeres aventajará a la de varones en 15 o más unidades. i.Si es µ MUJ - µ VAR = 20 y se repitiese este estudio millones de veces, en 16 de cada 100 la M de mujeres aventajará a la de varones en 15 o menos unidades. 10.3. IC para diferencia de dos medias con datos apareados En algunas ocasiones se trata de estudiar una misma variable en un mismo grupo de individuos en dos situaciones diferentes, por ejemplo, antes y después de hacer ejercicio, o de seguir un determinado tratamiento; y se pretende saber si el ejercicio o el tratamiento modifican la media de la población. En este caso 10-cap10.indd 159 10/2/10 22:13:43 160 10. La Inferencia Estadística con dos Medias hablamos de datos apareados. Hay clara diferencia entre las situaciones anteriores de este capítulo y la que ahora abordamos. En ambos casos comparamos dos medias muestrales, pero en las situaciones anteriores las dos medias muestrales están calculadas sobre dos grupos de individuos diferentes, y en este caso las medias muestrales están calculadas sobre un único grupo de individuos, a cada uno de los cuales se le mide la misma variable en dos ocasiones. Por ejemplo, para ver si tomar medio litro de cerveza aumenta el tiempo de respuesta, X, se mide lo que cada sujeto tarda en responder a cierto estímulo en condiciones estándar (XAntes) y tras beber cerveza (XDespués). Si para cada individuo se calcula la diferencia D = XDespués - XAntes, la media de las D es igual a MDespués – MAntes (la media de las diferencias es igual a la diferencia de las medias). En una muestra de 5 individuos se obtiene: SC Antes = 60 Antes: 13 14 11 5 7 M Antes = 10 SC Después = 67 Después: 15 19 17 9 10 M Después = 14 Diferencias D: 2 5 6 4 3 M Diferencia = 4 SC(D) = 10 ES(D) = 0.71 Tenemos una sola muestra y en cada individuo se valora el aumento de X tras ingerir cerveza, de forma que el primero aumentó su tiempo de respuesta en 2, el segundo en 5, …, y se calcula la SC y el ES de estas diferencias. Intervalo de Confianza al 95% donde Z se mira en la tabla t de Student (en la fila con N - 1 grados de libertad y en la columna que tiene como cabecera 5% bilateral) si es N < 30; y en la de la DN si es N ≥ 30. Con 4 gl es Z = 2.776 IC 95% (µ D) = 4 ± 2.776 · 0.71 = 4 ± 1.97 = 2.03 y 5.97 El aumento medio es 4 unidades en la muestra y tenemos confianza 95% en que beber medio litro de cerveza aumenta la media poblacional entre 2.03 y 5.97. 10.4.Tests para diferencia de medias con datos apareados I-Test para hipótesis de “no efecto poblacional” H0: µD = 0 ó µDespués = µAntes Hipótesis de trabajo: medio litro de cerveza incrementa el tiempo de respuesta. Hipótesis Nula H0: medio litro de cerveza No incrementa el tiempo de respuesta. En el ejemplo: MDiferencia = 4 y ES(D) = 0.71 Z = 4 / 0.71 = 5.66 En las tablas t de Student (pues N < 30) con 4 gl da PUNIL < 0.005. Si la cerveza no aumenta X y se hiciera este estudio millones de veces, la M de las diferencias tomaría valores en torno a 0, y solamente en menos de 5 cada mil estudios sería 4 (lo encontrado en las muestras) o más. 10-cap10.indd 160 10/2/10 22:13:43 10. La Inferencia Estadística con dos Medias 161 II-Test que propone cierto efecto poblacional H0: µD = µDespues - µAntes = ∆ Para H0: µD = µDespues - µAntes = ∆ se calcula: c on ∆ el aumento que propone H0, y MDiferencia y ES(D) obtenidos en la muestra. Por ejemplo, estudios previos muestran que medio litro de vino incrementa la media poblacional de X en 11 unidades y se quiere ver si los datos muestrales son compatibles con que la cerveza haga igual efecto. Plateamos la H0 que dice que medio litro de cerveza incrementa la media poblacional en 11. H0: µ Diferencia = 11 Z = (11 - 4) / 0.71 = 9.8 PUNIL < 0.0005 (tablas t con 4 gl) Se rechaza H0 Concluimos que µDespués - µAntes es < 11 Si la cerveza aumenta la media poblacional de X en 11 y se hicieran millones de estudios como este, la media muestral de las diferencias tomará valores en torno a 11 y en menos de 5 cada diez mil estudios la media muestral de las diferencias sería 4 o menor. La misma proporción de veces (menos de 5 cada 10 000 estudios) la media muestral de las diferencias será 18 o mayor yo que un aumento de 18 unidades se distancia del aumento propuesto en la H0 (11 unidades) lo mismo que 4, pero en el otro sentido. **Ejercicio 10.4: Diga si son verdaderas (V) o falsas (F) cada una de las siguientes afirmaciones relacionadas con el ejemplo anterior. a.Tenemos confianza 95% en que la cerveza produce un aumento de tiempo de respuesta de 2 unidades como mínimo, aproximadamente. b. Pensamos que la cerveza no modifica el tiempo de respuesta en población. c.Es prácticamente seguro que la cerveza no aumenta la media poblacional del tiempo de respuesta en 11 unidades. d.Es prácticamente seguro que la cerveza aumenta la media poblacional del tiempo de respuesta en 4 unidades. e.Rechazamos la igualdad de medias poblacionales porque la probabilidad de que sean iguales es muy pequeña: P = 0.005. Cuando los datos son “apareados” deben ser analizados como tal, pues hacerlo como “independientes” puede conducir a conclusiones erróneas. Como ejemplo haremos el test para la H0 que dice que µ ANTES = µ DESPUES tratándolo como si fueran dos medias de dos grupos. Sería E = (60 / 20 + 76 / 20) ½ = 2.6 y por tanto t8 = 4 / 2.6 = 1.53 P > 0.05, que no invita a rechazar H0, es decir, no es evidencia suficiente a favor de que la ingesta de cerveza alarga el tiempo de respuesta. **Ejercicio 10.5: En un grupo de 4 Jóvenes y en otro de 6 Viejos se mide la Tensión Arterial, TA, antes y después de hacer ejercicio. Se trata de ver si el ejercicio produce aumento de TA en población y si este aumento es diferente en Jóvenes y en Viejos (asuma Distribución Normal y varianzas iguales en la población). Notación: X TA antes de hacer ejercicio, Y TA después de hacer ejercicio. Y-X Efecto del ejercicio, aumento de TA producida por el ejercicio. 10-cap10.indd 161 10/2/10 22:13:43 162 10. La Inferencia Estadística con dos Medias JÓVENES N=4 ANTES X DESPUÉS Y EFECTO Y–X 10 40 1.83 12 50 2.04 10 0.91 6 8 12 14 M SC ES 7 12 12 17 1 4 0 3 VIEJOS N=6 ANTES X 11 14 15 19 16 21 16 64 1.46 DESPUES Y 20 19 24 25 22 28 23 56 1.37 EFECTO Y–X 9 5 9 6 6 7 14 .68 En las frases que siguen precedidas de flechas haga los cálculos adecuados y en las que van precedidas de una letra diga si son Verdaderas o Falsas: Diga cuál es el efecto del ejercicio en la muestra de jóvenes y en la de viejos. Para saber si el ejercicio produce aumento de TA en la población de viejos, Z = ... y PUNIL = ... a.Es casi seguro que el ejercicio aumenta la TA media poblacional de jóvenes. b.Es casi seguro que el ejercicio aumenta la TA media poblacional de los jóvenes en 2 unidades. c.Es casi seguro que el ejercicio no produce un aumento de TA media de 14 unidades en la población de jóvenes. Para saber si el efecto del ejercicio es, por término medio, igual en la población de jóvenes que en la de viejos, calcule Z y PUNIL. d.Si el efecto del ejercicio fuera igual en la población de viejos que en la de jóvenes, en menos de 25 repeticiones cada 1 000 el efecto en la muestra de viejos superará al de la muestra de jóvenes en 5 o menos unidades. e.Si el efecto del ejercicio fuera mayor en la población de viejos que en la de jóvenes, en menos de 25 repeticiones cada 1 000 el efecto en la muestra de viejos superará al de la muestra de jóvenes en 5 o más unidades. Para saber si el efecto del ejercicio puede ser, por término medio, 4 unidades menor en la población de viejos que en la de jóvenes, calcule Z y PUNIL. Interprete con una frase breve y clara el valor PUNIL anterior. +++10.5.Asunciones del test “t” para comparar dos medias Llamaremos “test-t” al procedimiento descrito en los apartados anteriores, “Pt” al valor P del test que da ese procedimiento y “P-verdadero” a la verdadera prob de obtener por azar (cuando son iguales las medias poblacionales) medias muestrales tan distintas como las de nuestro estudio o más distintas. Este valor mide el grado de evidencia a favor de la hipótesis de trabajo. En teoría, con muestras pequeñas, digamos menores de 30, el P- t es igual al P-verdadero si se dan dos circunstancias: 10-cap10.indd 162 10/2/10 22:13:43 10. La Inferencia Estadística con dos Medias 163 1ªNormalidad: La variable estudiada debe tener DN en las dos poblaciones implicadas. Aquí se aplican todas las observaciones del apartado 9.9 y siguientes. 2ªHomogeneidad de Varianzas: la variable en estudio tiene la misma varianza en las dos poblaciones muestreadas. En este sentido hay que tener en cuenta los siguientes matices: a)Existen tests —llamados de Homogeneidad de Varianzas— que plantean como H0 que las varianzas de las dos poblaciones son iguales, pero nunca pueden confirmar que esa H0 es cierta, solo pueden, si el valor P obtenido es muy pequeño, confirmar que es falsa. b)La diferencia entre el “P-t” y el “P-verdadero” no es muy grande aunque las dos varianzas poblacionales sean notablemente diferentes. A esto se le llama “Robustez” frente a la no homogeneidad de varianzas. Por ello en la mayoría de los casos puede aplicarse el test-t con la confianza de que el valor P encontrado con esta técnica se aproxima lo suficiente al P-verdadero como para hacer válidas las conclusiones alcanzadas. +++10.6.Tests No Paramétricos En las pocas ocasiones en que hay evidencia clara contra la Homogeneidad de Varianzas o contra la Normalidad, pueden aplicarse los llamados Tests No Paramétricos, que no requieren esas condiciones. Suelen ser un poco menos potentes, es decir, cuando H0 no es cierta lo detectan menos veces que el test-t. Y suelen dar valores P próximos a los que da el test-t y en cualquier caso de rango similar. El cálculo del valor P de los tests no paramétricos puede ser tedioso, pero los ordenadores lo hacen en milisegundos. Aquí no vamos a explicar esos cálculos, sino a comparar el valor P que se obtiene con ellos con el obtenido con el test-t. En la tabla que sigue se muestran tres ejemplos con 7 valores en cada una de las dos muestras. Se dan las medias y varianzas en cada una de las muestras, los valores P del test de Normalidad, del test de Homogeneidad de Varianzas, del testt y del no paramétrico. 10-cap10.indd 163 2 1 4 4 Ejemplo 1º 7 8 9 12 14 4 6 5 8 7 Med 8 5 S2 17.6 5.28 P Nor. 0.95 0.85 P Hom-var. 0.08 17 1 4 4 Ejemplo 2º 7 8 9 4 6 5 12 14 8 7 Med 10.1 5 S2 19.8 5.28 P Nor. 0.95 0.85 P Hom-var. P t-test P No-Para. 0.06 .009 .010 Ejemplo 3º 17 20 7 8 9 12 14 1 4 4 6 5 8 7 Med 12.4 5 S2 23.6 5.28 P Nor. 0.63 0.85 P Hom-var. P t-test P No-Para. 0.045 .0017 .0015 P -t .060 P No-Para. .075 10/2/10 22:13:43 164 10. La Inferencia Estadística con dos Medias Con el test de Normalidad se obtiene en todos los ejemplos valores altos indicando que no hay evidencia en contra de que la variable tenga DN en las respectivas poblaciones. Los tests que plantean varianzas iguales en las dos poblaciones dan valores P en torno a 5%, que podría hacernos dudar de que haya igualdad de varianzas poblacionales, pero no es evidencia muy fuerte contra esa hipótesis. Ante la duda de que haya homogeneidad de varianzas hacemos el test no paramétrico. Los valores P-t no son muy diferentes de los respectivos valores P del no paramétrico. Así, para el primer ejemplo el test-t da P = 0.06 y el test no-paramétrico da P = 0.075, por lo que ambos aportan solamente una modesta evidencia contra la hipótesis de igualdad de medias poblacionales. Esta proximidad entre los valores P del test-t y del no-paramétrico se da también en los otros dos ejemplos. No siempre ambos valores P son tan próximos, pero en pocas ocasiones la divergencia entre ellos es relevante. 10-cap10.indd 164 10/2/10 22:13:44 10. La Inferencia Estadística con dos Medias 165 No olvide recordar - 10 1.Hablamos de comparación de “medias independientes” cuando se mide una variable en dos muestras. A partir del valor de las dos medias muestrales haremos inferencia acerca de la medias poblacionales, calculando el Intervalo de Confianza para la diferencia de medias poblacionales y haciendo tests. 2.Si una o ambas muestras son “pequeñas”, digamos menores de 30, para el cálculo de los IC y del valor P de los tests se usa la distribución t de Student. 3.Si se plantea como H0: µ1 = µ2, es decir, µ1- µ2 = 0, el valor P dice la proporción de veces que se encontraría diferencia de medias muestrales como la de nuestro estudio o mayor, si fueran iguales las medias poblacionales y el estudio se repitiera millones de veces. 4.Si se plantea como H0 que es µ1- µ2 = K, el valor P dice la proporción de veces que se encontraría diferencia de medias muestrales tan alejada de K como la de nuestro estudio o aun más alejada, si es µ1 - µ2 = K. 5.Hablamos de comparación de “medias apareadas” cuando en cada individuo de una muestra se mide la misma variable dos veces, por ejemplo, antes y después de aplicar un tratamiento. El análisis se hace calculando la diferencia en cada individuo, la media muestral de esas diferencias, MDIF, y su error estándar, ESDIF. La media de las diferencias es igual a la diferencia de las medias de los dos grupos. 6.Típicamente se plantea como H0 que el tratamiento no modifica realmente la variable estudiada, es decir, que µDIF es cero en población (la media poblacional de esa variable es igual antes y después del tratamiento). El valor P del test dice la proporción de veces que se encontraría diferencia de medias muestrales como la de nuestro estudio o mayor, si fueran iguales las medias poblacionales y el estudio se repitiera millones de veces. 7.Si se plantea como H0 que el tratamiento aumenta la media poblacional de esa variable en K unidades, el valor P dice la proporción de veces que se encontraría MDIF como la de nuestro estudio o más aleja de K, si fuera cierta H0 y el estudio se repitiera millones de veces. 8.Aun en el caso de que la variable estudiada tenga en la población distribución moderadamente alejada de la Normal y/o de que las varianzas sean moderadamente diferentes en las poblaciones, el valor P obtenido con este test indica con buena aproximación lo que de él se espera. Se dice que este test es robusto frente a la no normalidad y la no homogeneidad de varianzas. 10-cap10.indd 165 10/2/10 22:13:44 166 10. La Inferencia Estadística con dos Medias EJERCICIO DE AUTOEVALUACIÓN - 10 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). La variable X se distribuye en la población de Sanos con media = 200, y de modo Normal. En dos muestras de Diabéticos y Tuberculosos se obtiene: • Diabéticos: • Tuberculosos: N = 16 N=9 Media de X: M Diab = 212 Media de X: M Tub = 196 y y S = 12 S = 12 Para la H0: media poblacional en Tuberculosos = media poblacional en Diabéticos (µTUB = µDIAB), se obtiene valor P del test PUNI = 0.002 (t con 23 gl = 3.1) 1.Estamos casi seguros que en los Tuberculosos la media poblacional es menor que en Diabéticos. 2.Concluimos que la media poblacional en Tuberculosos puede ser igual que en Diabéticos. 3.Si los Tuberculosos tuvieran mayor media poblacional que los Diabéticos, en 2 de cada mil estudios como este se obtendrían medias muestrales iguales. 4.Si los Tuberculosos tuvieran mayor media poblacional que los Diabéticos, en 2 de cada mil estudios como este se obtendría que la media de la muestra de Tuberculosos es 16 unidades mayor que la de Diabéticos o más aún. 5. Si Tuberculosos y Diabéticos tuvieran igual media poblacional, en 2 de cada mil estudios como este la media de la muestra de Diabéticos superará a la de Tuberculosos en 16 o más unidades. 6.Si Tuberculosos y Diabéticos tuvieran igual media poblacional de X, en 2 de cada mil estudios como este se obtendría que la media de la muestra de Tuberculosos es exactamente 16 unidades menor que la de Diabéticos. 7.Si no hubiera diferencia entre las medias de las poblaciones de Tuberculosos y Diabéticos, en 4 de cada mil estudios como este se obtendría diferencia de medias muestrales de 16 o más unidades en cualquier sentido. Para comparar la Tensión Arterial, ta, (medida en unidades especiales) en dos grupos de edad se estudia una muestra de jóvenes y otra de viejos: • JÓVENES:N = 49 M = 75S = 21 • VIEJOS:N = 36 M = 95S = 24 Haremos diferentes tests de significación para ver si la TA media puede tomar ciertos valores en las poblaciones de Viejos y Jóvenes y para ver si hay ciertas diferencias entre las medias poblacionales de ambos grupos: • Para H0: media poblacional en Jóvenes = 85, es Z = 3.33 y PUNIL = 0.0004 • Para H0: media poblacional en Viejos = 90, es Z = 1.25 y PUNI = 0.1056 10-cap10.indd 166 10/2/10 22:13:44 10. La Inferencia Estadística con dos Medias 167 •Para H0: media poblacional en Jóvenes = media poblacional en Viejos, es Z = 4 y PUNIL = 0.00003 •Para H0: media poblacional en Viejos - media poblacional en Jóvenes = 15, es Z = 1 y PUNIL = 0.1587 8.Si la media de la población de Jóvenes fuera 85, solamente en 4 de cada 10 000 muestras encontraríamos que la media muestral es 75 o mayor. 9.Estamos prácticamente seguros de que la media poblacional en Jóvenes es menor de 85. 10.Estamos prácticamente seguros de que la media poblacional en Viejos es 95. 11. Estamos prácticamente seguros de que la media poblacional en Viejos es 90. 12.La probabilidad de que la población de Jóvenes tenga TA media igual que la población de Viejos es PUNIL = 0.00003. 13.Si Jóvenes y Viejos tienen en la población la misma media, en 3 de cada 100 000 veces que repitiéramos el experimento, encontraríamos que las medias muestrales coinciden. 14.Estamos prácticamente seguros de que la TA media poblacional es igual en Jóvenes que en Viejos. 15.Si los Viejos tuvieran 15 unidades más de TA media poblacional que los Jóvenes, en aproximadamente 16 de cada 100 estudios como este encontraríamos que la media muestral de Viejos supera a la de Jóvenes en 10 unidades o menos. 16.El valor PUNIL = 0.1587 nos indica que es bastante probable que la TA media poblacional sea 15 unidades mayor en los Viejos que en los Jóvenes. Sospechando que la facilidad para aprender una segunda lengua es mayor en mujeres que en varones, se hizo un estudio con 49 mujeres y en 64 varones, evaluando esa facilidad mediante pruebas que dan un resultado entre 0 y 200. El estudio se hizo en 2 países con idiomas muy distintos: China y España. China Mujeres Varones N Media, M 64 120 49 125 S ES 32 4 21 3 MMUJ - MVAR 5 17.Es prácticamente seguro que la media poblacional en mujeres chinas no es 140. 18. Estamos prácticamente seguros de que en China la µ MUJ es 128. 19. Estamos prácticamente seguros de que en China la µ MUJ es 125. 20. Puede que en China sea µ MUJ = 125. 21. Puede que en China sea µ MUJ = 128 22. Puede que en China sea µ MUJ = 140. 23.Estamos prácticamente seguros de que en China la media poblacional de mujeres es igual a la de varones. 24. Puede que la media poblacional de mujeres sea igual a la de varones en China. 10-cap10.indd 167 10/2/10 22:13:44 168 10. La Inferencia Estadística con dos Medias 25.Estamos prácticamente seguros de que la media poblacional de mujeres supera a la de varones en 5 unidades. 26. Puede que la media poblacional de mujeres supere a la de varones en 5 unid. 27.Estamos prácticamente seguros de que la media poblacional de mujeres en China supera a la de varones en 25 unidades. 28. Puede que la media poblacional de mujeres supere a la de varones en 25 unid. 29.Estamos prácticamente seguros de que la media poblacional de mujeres en China no supera a la de varones en 25 unidades. España Mujeres Varones N Media, M 64 90 49 140 S ES 32 4 21 3 MMUJ - MVAR 50 31. Estamos prácticamente seguros de que en España la µ MUJ no es 140. 32. Estamos prácticamente seguros de que en España la µ MUJ es 140. 33. Estamos prácticamente seguros de que en España la µ MUJ es 144. 34. Puede que sea µ MUJ = 140 en España. 35. Puede que sea µ MUJ = 138 en España. 36. Puede que sea µ MUJ = 110 en España. 37.Estamos prácticamente seguros de que la media poblacional de mujeres en España es igual a la de varones. 38. Puede que la media poblacional de mujeres sea igual a la de varones. 39.Puede que la media poblacional de mujeres en España no sea igual a la de varones. Análisis de la Base de Datos DARIO: Enunciados - 10 1.La resistencia a las infecciones es, por término medio, 0.083 unidades mayor en la muestra de varones que en la de mujeres. ¿Cuánto puede ser esa diferencia en la población? ¿Pueden ser iguales? ¿Puede ser de 0.5? 2.La opinión media de la sanidad es 7.33 puntos mayor en la muestra de varones que en la de mujeres ¿Cuánto puede ser esa diferencia en la población? ¿Pueden ser iguales? ¿Puede ser de 10 puntos? 3.El efecto del ayuno es, por término medio, 10.06 unidades mayor en sedentarios que en activos en la muestra de menores de 40 años. ¿Cuánto puede ser esa diferencia en la población de menores de 40? ¿Pueden ser iguales? ¿Puede ser de 15 puntos? 4.El efecto del ayuno es, por término medio, 19 unidades mayor en mujeres que en varones en la muestra de mayores de 39 años con resistencia “media” a las infecciones. ¿Cuánto puede ser esa diferencia en la población? ¿Pueden ser iguales? ¿Puede ser de 15 puntos? 10-cap10.indd 168 10/2/10 22:13:44 10. La Inferencia Estadística con dos Medias 169 Análisis de la Base de Datos DARIO - 10 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. Nota 1: Debido al redondeo de cantidades muy grandes o muy pequeñas los resultados numéricos pueden no coincidir exactamente en distintos programas o calculadoras. Nota 2: La distribución “t de Student” con gl mayores de 50 es muy similar a la Normal, de modo que el valor P puede mirarse indistintamente en cualquiera de las dos. Datos muestrales IC95% para la población resisinf varones vs mujeres varones N = 120 M = 1.53 ES = 0.097 mujeres N = 80 M = 1.45 ES = 0.110 sanidad varones vs mujeres varones N = 120 M = 68.33 ES = 1.44 mujeres N = 80 M = 61.00 ES = 1.79 MVar – Muj = 7.33 µVar–Muj = 0 IC95% 2.82 y 11.85 µVar–Muj = 10 tadpost en menores de 40 sedentarios vs activos sedent. N = 16 M = 73 ES = 1.98 activos N = 64 M = 62.94 ES = 1.063 MSed – Act = 10.06 µSed–Act = 0 IC95% 5.39 y 14.73 µSed–Act = 15 varones N = 12 M = 62.33 ES = 1.58 mujeres N = 12 M = 81.33 ES = 2.29 MMuj – Var = 19 µMuj–Var = 0 IC95% 13.23 y 24.77 µMuj–Var = 15 tadpost en mayores de 39 y resisinf = 2 varones vs mujeres MVar – Muj = 0.083 H0 para la población µVar–Muj = 0 IC95% µVar–Muj = 0.5 -0.210 y + 0.376 Zot PUNI Z = 0.56 P = 0.29 Z = 3.35 P = 0.0004 Z = 3.2 P = 0.0007 Z = 1.17 P = 0.12 Z = 4.29 P=0.00005 Z = 2.11 P = 0.017 t22 = 6.8 P = 10 -7 Z = 1.44 P = 0.075 •En la muestra de varones la resistencia media es 0.08 unidades mayor que en las mujeres, en la población esta diferencia puede llegar a ser de 0.376, puede ser 0.21 mayor en las mujeres, y cualquier cantidad entre ellas (con confianza de 95%). Puede que no haya diferencia de las medias en la población y no puede ser que la diferencia media sea de 0.5 a favor de los hombres. •La diferencia de las medias de opinión sobre sanidad es 7.33 mayor en la muestra de varones. En la población hay diferencia (P=.0007), y ésta puede ser de 10 puntos (P=.12). •La ta tras el ayuno en menores de 40 años es, por término medio, 10.06 mayor en la muestra de sedentarios que en la de activos. Rechazamos claramente que en la población no haya diferencia, y también que sea 15, pero con menos seguridad. 10-cap10.indd 169 10/2/10 22:13:44 10-cap10.indd 170 10/2/10 22:13:44 Capítulo 11 LA Inferencia Estadística con dos Proporciones Hacia 1875 Joseph Lister publicaba en Lancet datos mostrando que cuando las amputaciones de miembros se hacían por cirujanos que se habían lavado previamente las manos esmerada y meticulosamente, aumentaba la proporción de de pacientes que sobrevivían. Y se lamentaba de no poder saber si la diferencia ocurrida en su muestra podría haber ocurrido por azar, sin que esas abluciones tuvieran realmente efecto beneficioso. Sus datos eran aproximadamente estos: Entre 40 operados sin abluciones curaron 10: p1 = 10 / 40 = 0.25 Entre 30 operados con abluciones curaron 12: p2 = 12 / 30 = 0.40 Hoy día la Estadística tiene herramientas que ayudan a formarse opinión en ese sentido, pero no siempre permiten llegar a una conclusión definitiva. Veremos cómo se calculan e interpretan los Intervalos de Confianza para la diferencia de medias poblacionales y el valor P del test que plantea como H0 para este ejemplo que los lavados en cuestión no son efectivos, es decir que la proporción poblacional de curaciones es igual con y son abluciones. 11.1. Intervalo de Confianza para π2 - π 1 Usaremos esta notación para indicar cada una de las cantidades implicadas, llamando “tratamiento 1” al hecho de no lavarse y “2” al hecho de lavarse: Curan No curan X2 =12 R2 = 18 Trat. 1 X1 = 10 Total X = 22 Trat. 2 R1 = 30 R = 48 Total N1 = 40 N2 = 30 N = 70 p1= X1/N1=0.25 q1= R1/N1= 0.75 p = X/N= .3143 q = R/N= 0.6856 p2= X2/N2= 0.40 q2= R2/N2= 0.60 171 11-cap11.indd 171 10/2/10 22:14:23 172 11. LA Inferencia Estadística con dos Proporciones El intervalo de confianza para la diferencia de proporciones poblacionales se calcula con la siguiente fórmula, donde Z depende de la confianza que queramos tener en que esa diferencia se encuentre dentro del intervalo. De la misma forma que para el IC de una proporción, Z se obtiene de las tablas de distribución Normal, siendo Z = 1.96 para confianza 95% y Z = 2.58 para confianza 99%. Intervalo de Confianza En este ejemplo es IC 95% (π2 - π1) ≡ 0.15 ± 1.96 (0.25 · 0.75/40 + 0.40 · 0.60/30 )1/2 = 0.15 ± 0.22 = - 0.07 y 0.37 En las muestras, la FR de supervivencia con “2” es 15 puntos mayor que con “1”; en la población no sabemos cuánto es esa diferencia, pero tenemos confianza 95% en que la FR poblacional de supervivencia con “2” sea desde 37 puntos mayor que con “1”, hasta 7 puntos menor (el signo negativo indica ventaja a favor del “1”). 11.2. Tests para la igualdad de proporciones poblacionales Para H0: “1” y “2” igual de eficaces, es decir, π1 = π2 ⇔ π1 - π2 = 0 se calcula, utilizando aproximación Normal, el estadístico: Las dos expresiones son equivalentes; la primera usa FR’s de supervivientes y la segunda usa frecuencias absolutas. En nuestro ejemplo: Z = 0.15 / [ 0.3143 · 0.6856 · (1/40 + 1/30) ]1/2 = 1.34 PUni = 0.09 El valor P del test se obtiene a partir de la cantidad Z calculada, utilizando la tabla de DN y lo proporcionan todos los programas informáticos de Estadística. Como en todos los tests de significación, indica la prob de obtener un resultado como el de nuestro estudio o aún más alejado de lo esperado bajo la H0, si dicha hipótesis es cierta. Si los dos tratamientos fueran igual de eficaces, es decir, si los lavados fueran inútiles, y se hicieran millones de estudios como este, la diferencia (p2 - p1) tomaría valores en torno a 0 en la mayoría de los estudios y en 9 de cada 100 estudios, saldría (p2 - p1) ≥ 0.15 (la cantidad obtenida en nuestras muestras). En otros 9 estudios cada 100 encontraríamos que p2 - p1 es -0.15 o menos. Es decir, en 18 de cada 100 estudios las diferencias de FR muestrales serían 0.15 o más a favor de uno u otro: PBilateral = 0.18. **Ejercicio 11.1: Diga si son verdaderas (V) o falsas (F) cada una de las siguientes afirmaciones, a partir de los resultados anteriores. a. Puede ser que, en población, los dos tratamientos sean igual de eficaces. b. Es prácticamente seguro que, en población, las abluciones son inútiles. c. Es prácticamente seguro que “2” cura, en población, 15% más que “1”. 11-cap11.indd 172 11/2/10 13:28:40 11. LA Inferencia Estadística con dos Proporciones 173 d.No rechazamos la igualdad de proporciones poblacionales porque la probabilidad de que sean iguales es bastante grande, es P = 0.18. e.Con confianza 95%, los tratamientos pueden curar, en población, entre 7 y 37%. En los ejemplos siguientes observe cómo el valor P y el IC varían en función de la diferencia muestral p2 – p1 y del tamaño de las dos muestras. Es necesario distinguir claramente entre magnitud del efecto encontrado en la muestra (diferencia entre las proporciones muestrales) y significación estadística de ese efecto (valor P del test; diremos que un resultado es muy significativo si el valor de P es muy pequeño y es poco significativo si el valor de P es grande). Ejemplo 1: Si los datos son (“+” son curados y “-“ no curados): Trat. 1 Trat. 2 Total + 3 6 9 9 4 13 Total 12 10 22 p1= 0.25 p2= 0.60 p =.409 p2 - p1= 0.35 H0 : π1 = π2 PBIL = 0.10 IC95% = - 0.04 y 0.74 Efecto grande en la muestra: “2” es bastante mejor que “1”, p2 - p1 = 0.35. Pequeña significación estadística, valor de P grande, no hay evidencia contra la hipótesis que propone igualdad de proporciones poblacionales, es decir, el resultado no demuestra que “2” sea realmente mejor que “1”. Ejemplo 2: Si los datos son: Trat. 1 Trat. 2 Total + 12 24 36 36 16 52 Total 48 40 88 p1= 0.25 p2= 0.60 p =.409 p2 - p1= 0.35 H0 : π1 = π2 PBIL = 0.0009 IC95% = 0.15 y 0.55 Igual efecto que en el anterior, p2 - p1 = 0.35, y tamaños de muestra mayores. Esto hace que se obtenga menor valor P (estadísticamente muy significativo), gran evidencia contra la hipótesis de igualdad de proporciones poblacionales, es decir, el resultado demuestra que “2” es realmente mejor que “1”. El IC nos dice que el tratamiento “2” cura entre 15 y 55 puntos más que el “1”. Además se observa que el IC no contiene el 0 (proporciones poblacionales iguales). Ejemplo 3: Si los datos son: Trat. 1 Trat. 2 Total + 1 000 2 900 3 900 3 000 7 100 10 100 Total 4 000 10 000 14 000 p1= 0.25 p2= 0.29 p= .2786 p2 - p1= 0.04 H0 : π1 = π2 PBIL= 0.000002 IC95% = 0.024 y 0.056 Efecto pequeño, en la muestra el tratamiento “2” es solamente un poco mejor que el “1”, p2 - p1 = 0.04. Significación estadística grande, valor P muy pequeño, clarísima evidencia contra la igualdad de proporciones poblacionales; se rechaza la H0 concluyendo que “2” cura más que “1”. Sin embargo, la ventaja del “2” sobre el “1” es modesta: como se aprecia en el IC, “2” cura entre 2.4 y 5.6 puntos más que el “1”. 11-cap11.indd 173 10/2/10 22:14:23 174 11. LA Inferencia Estadística con dos Proporciones **Ejercicio 11.2: Aunque el efecto sea pequeño, si es real puede representar un elevado número de curaciones. En el ejemplo 3 arriba, si hay un millón de enfermos, ¿cuántas curaciones más habría utilizando el tratamiento “2” en lugar del “1” (tenga en cuenta el IC)? **Ejercicio 11.3: Entre 20 varones tomados al azar se encontraron 2 melancólicos y entre 30 mujeres 27 eran melancólicas. ¿Hay realmente diferencia en el porcentaje de melancólicos entre ambos sexos? Calcule el IC al 99% y haga test. Varones + - Total p1= . p1q1=. Z= p= . pq=. IC = p2= . Mujeres Total p2q2=. P= **Ejercicio 11.4: Entre 40 jóvenes tomados al azar se encontraron 8 alcohólicos y entre 60 viejos 24 eran alcohólicos. ¿Hay realmente diferencia en el porcentaje de alcohólicos entre ambas edades? Calcule e interprete el IC al 95% y haga test. Jóvenes + - Total p1= . p1q1=. Z= p= . pq=. IC = p2= . Viejos Total p2q2=. P= El procedimiento que acabamos de ver es una aproximación que resulta razonablemente buena cuando los “valores Esperados” bajo la hipótesis de igualdad de FR poblacionales no son inferiores a 4. Los valores Esperados son los que tendría que haber en cada celda para que con los mismos tamaños de muestras las FR de curaciones fueran igual en ambos tratamientos. Se calculan multiplicando, para cada una de las 4 celdas de la tabla 2 x 2, el total de la fila por el total de la columna y dividiendo por el total de la tabla, como se muestra a continuación: Trat. 1 Trat. 2 Datos + 3 9 6 4 9 13 12 10 22 Trat. 1 Trat. 2 Valores Esperados + 9·12 /22= 4.9 13·12 /22= 7.1 9·10 /22= 4.1 13·10 /22= 5.9 9 13 12 10 22 Cuanto menores son los valores Esperados más puede alejarse el valor P obtenido por este procedimiento del verdadero. Cuando algunos Esperados son menores de 5 ese alejamiento puede ser considerable. En esos casos el valor P verdadero se calcula con el llamado método Exacto de Fisher, que es más laborioso, pero no supone problema para el ordenador. En el ejemplo de esta última tabla, el valor P obtenido arriba fue PBIL= 0.10 y el método Exacto de Fisher da PBIL = 0.19. Vemos que la concordancia no es muy buena, pero la P aproximada nos lleva, como la exacta, a no rechazar la hipótesis de igualdad. 11-cap11.indd 174 10/2/10 22:14:23 11. LA Inferencia Estadística con dos Proporciones 175 11.3. Comparando dos proporciones con datos apareados Hemos visto cómo comparar la FR de individuos con una característica en dos grupos, por ejemplo, FR de enfermos con “E” entre los jóvenes y entre los viejos. Ahora estudiaremos cómo comparar la FR de dos características en un solo grupo de individuos. Así también ocurría en el análisis de “datos apareados” con variables cuantitativas, cuando estudiábamos medias. Como ejemplo compararemos la proporción de enfermos de “H” frente a la proporción de enfermos de “K”, en una muestra de 80 jóvenes. Para ello tenemos que evaluar dos variables dicotómicas —la presencia de “H” y de “K”— en cada individuo. Los datos son: de los 80 jóvenes, 16 tenían ambas enfermedades (H+ y K+), 4 tenían solo la “K” (H- y K+), 54 solo la “H” (H+ y K-) y 6 no tenían ninguna (H- y K-). K+ K- 16 H+ 54 4 6 70 10 H- 20 60 80 pK= 20 / 80 = 0.25 pH = 70 / 80 = 0.875 pH - pK = 0.875 – 0.25 = 0.625 pH > pK ; ¿Hay diferencia en la población y de qué orden es? Por tanto, 70 tenían “H” (con o sin “K”) 87.5% del total y 20 tenían “K” (con o sin “H”), 25% del total. La “H” es 62.5% (0.875 - 0.25) más frecuente que la “K”. Ahora no se trata de evaluar la proporción de una característica en dos grupos, sino la proporción de dos características en un grupo. Los cálculos para el IC y para el test son distintos, pero la interpretación es equivalente. H+ HK+ K- a c b d A) Intervalo de confianza para (πH - πK) con datos apareados: Con la notación de la tabla, la fórmula para calcular el IC es: IC 95% (πH - πK) ≡ (0.875 - 025) ± 1.96 (58)1/2 / 80 = 0.625 ± 0.186 = 0.44 y 0.81 En la muestra estudiada, “H” es 62.5% puntos más frecuente que “K”; en la población no sabemos cuanto es esa diferencia, pero tenemos confianza del 95% en que “H” es, en población, entre 44% y 81 puntos más frecuente que “K”. B) Tests para hipótesis para πH = πK con datos apareados: Para la H0: Ambas enfermedades son igual de frecuentes en población: πH = πK PUNI < 0.00003 En la muestra la enfermedad “H” es 62.5 puntos más frecuente que “K”, pH - pK = 0.625, ¿puede ser que en la población de la que procede esta muestra no haya diferencia entre la frecuencia de ambas enfermedades? El valor P del test se obtiene mirando la cantidad Z encontrada en las tablas de la DN. Si ambas enfer- 11-cap11.indd 175 10/2/10 22:14:23 176 11. LA Inferencia Estadística con dos Proporciones medades son igual de frecuentes en población, es decir, πH - πK = 0, y repetimos este estudio millones de veces, la mayoría de ellas será pH - pK próximo a 0, y menos de 3 veces cada cien mil será, por azar, (pH - pK) ≥ 0.625 (que es la diferencia encontrada en nuestro estudio). La evidencia contra la H0 es muy fuerte. La rechazamos y concluimos que “H” es, en población, más frecuente que “K”. Si se calcula el valor P para igualdad de FR poblacionales considerando, erróneamente, las dos proporciones muestrales como datos independientes se obtiene PUNI< 10-15. En este ejemplo la conclusión sería igual a la obtenida con el cálculo correcto, pero en otros puede llevar a conclusiones erróneas. ** Ejercicio 11.5: Haga el test y calcule el IC95% con los siguientes datos: K+ K- 2 12 H+ 18 48 H- 20 60 FR (H) = 14/80 = 0.175 FR (K) = 20/80 = 0.25 FR(H) < FR(K) FR(K) - FR(H) = 0.07 a. ¿Cuál es la Hipótesis Nula planteada en el test? b. ¿Qué valor de Z se obtiene? c. ¿Cuánto es el valor P del test? d. ¿Qué se concluye de las frecuencias poblacionales de ambas enfermedades? e. Calcule e interprete el IC95% (πK - πH ). 11.4.Dos proporciones: Datos apareados vs. datos independientes En el ejemplo usado antes para comparar proporciones con datos apareados podemos también practicar la comparación de proporciones con datos independientes. El mismo conjunto de datos nos permite hacer inferencia con proporciones independientes y apareadas. 1º K+ K- 16 54 70 H+ 4 6 10 H- 20 60 80 Datos Apareados FR (H) = 70/80 = 0.875 FR (K) = 20/80 = 0.25 FR(H) – FR(K) = 0.625 Datos Independientes FR (H|K+) = 16/20 = 0.80 FR (H|K-) = 54/60 = 0.90 FR (H|K+) < FR (H|K-) FR (H|K-) - FR (H|K+) = 0.10 Una cosa es estudiar cuál de las dos enfermedades es más frecuente (datos apareados) y otra ver si las enfermedades están asociadas, es decir, si la presencia de una aumenta o disminuye la presencia de la otra (datos independientes). En esta muestra se ve: a)“H” afecta a más personas que “K” (el 87.5% tiene “H” frente al 25% que tiene “K”). Se comparan dos proporciones con datos apareados; hay un solo grupo de 80 individuos. Para valorar si en la población de la que procede la muestra una enfermedad es más frecuente que la otra, se utiliza el test visto en el apartado 11.3. b)“H” es menos frecuente cuando hay “K” que cuando no hay “K”: p(H|K+) = 16 / 20 = 80% frente a p(H|K-) = 54 / 60 = 90%, es decir, tienen “H” un 80% de los K+ y un 90% de los K-; esto es, H no es igual de frecuente en presencia que en 11-cap11.indd 176 10/2/10 22:14:23 11. LA Inferencia Estadística con dos Proporciones 177 ausencia de K. Por tanto, decimos que en la muestra estas dos enfermedades están relacionadas, no son independientes, pues la presencia de una afecta a la presencia de la otra. Los denominadores de estos dos porcentajes son diferentes, pues se comparan dos grupos de individuos distintos (los que tienen “K”, que son 20, y los que no tienen “K”, que son 60). Se comparan dos proporciones con datos independientes. Para valorar si en las poblaciones de las que proceden las muestras las enfermedades H y K son independientes, se utiliza el test visto en 11.2. Los tres ejemplos que siguen ayudan a entender la diferencia entre esos dos conceptos. En los tres supuestos “H” es 30 puntos más frecuente que “K”, pero puede verse que en el 1º “H” es igual de frecuente en los K+ que en los K-, es decir, no hay asociación entre las dos enfermedades, en el 2º “H” es más frecuente en los K+ que en los K- (“H” y “K” no son independientes; hay asociación positiva) y en el 3º “H” es menos frecuente en los K+ que en los K- (“H” y “K” no son independientes; hay asociación negativa). 1º 2º K+ K- K+ K- 3º K+ K- 20 5 25 24 H+ H+ 1 16 H- H- 9 25 16 9 25 20 5 25 24 1 25 40 10 25 H+ 40 10 50 50 H- 40 10 50 FR (K) vs. FR (H) FR (K) = 0.8 FR (H) = 0.5 FR(K) - FR(H) = 0.3 FR (H|K+) vs. FR (H|K-) FR (H|K+) = 0.5 FR (H|K-) = 0.5 FR (H|K+) = FR (H|K-) FR (K) vs. FR (H) FR (K) = 0.8 FR (H) = 0.5 FR(K) - FR(H) = 0.3 FR (H|K+) vs. FR (H|K-) FR (H|K+)= 24/40 = 0.6 FR (H|K-)=1/10 = 0.1 FR (H|K+) > FR (H|K-) FR (H|K+) - FR (H|K-) = 0.5 FR (K) vs. FR (H) FR (K) = 0.8 FR (H) = 0.5 FR(K) - FR(H) = 0.3 FR (H|K+) vs. FR (H|K-) FR (H|K+) = 0.4 FR (H|K-) = 0.9 FR (H|K+) > FR (H|K-) FR (H|K+) - FR (H|K-) = - 0.5 **Ejercicio 11.6: Para cada una de las tres tablas anteriores calcule los IC y valor P del test necesarios para contestar las siguientes preguntas: − Datos independientes a. En la población, ¿es igual de frecuente “H” en los K+ que en los K-? b. IC para FR (H|K+) - FR (H|K-) en población. − Datos apareados c. En la población, ¿es igual de frecuente “H” que “K”? d. IC para FR (K) - FR (H) en población. **Ejercicio 11.7: Comentar cómo varia el valor P del test y la anchura del IC para la diferencia de proporciones poblacionales con que se presenta cada enfermedad en función de la relación entre ellas, es decir, en función de cuán frecuente es en la muestra una enfermedad según esté o no presente la otra. 11-cap11.indd 177 10/2/10 22:14:23 178 11. LA Inferencia Estadística con dos Proporciones No olvide recordar - 11 1.Hablamos de dos proporciones con muestras independientes si se mide la proporción de una característica en dos grupos distintos de individuos. Hablamos de dos proporciones con datos apareados si se mide la proporción de individuos con cada una de dos características en un mismo grupo. 2.A partir de la diferencia de las proporciones muestrales se calcula un intervalo de confianza para la diferencia de las proporciones poblacionales. Se utilizan fórmulas diferentes dependiendo de si son muestras independientes o apareadas. 3.En un estudio destinado a comparar la eficacia de dos fármacos, la Hipótesis de trabajo dice que el nuevo es mejor que el clásico y la Hipótesis Nula, H0, dice que no hay tal ventaja. El valor P del test nos dice la proporción de estudios en los que se encontraría una diferencia de curaciones como la encontrada en nuestro estudio o aún mayor, si los dos fueran igual de eficaces en la población. Son datos independientes. 4.En un estudio para ver si una enfermedad, o un síntoma (o cualquier otra característica dicotómica) es más frecuente que otra, la Hipótesis Nula dice que son igual de frecuentes. El valor P del test nos da la proporción de muestras en las que se obtendría una ventaja en la frecuencia de un carácter sobre el otro como el de nuestro estudio o aun mayor, si los dos caracteres fueran igual de frecuentes en población. Son datos apareados. 5.En la primera tabla la enfermedad “H” es menos frecuente en los K+ (40%) que en los K- (90%). En la segunda “H” es más frecuente en los K+ (60%) que en los K- (10%). En ambas, la enfermedad “H” afecta al 80% y la “K” al 50% K+ KK+ K- 11-cap11.indd 178 16 9 25 H+ 16 1 25 H- 40 10 50 H+ H24 16 40 1 9 10 25 25 50 FR (K) vs. FR (H) FR (K) = 40 / 50 = 0.8 FR (H) = 25 / 50 = 0.5 FR (H|K+) vs. FR (H|K-) FR (H|K+) = 16 / 40 = 0.4 FR (H|K-) = 9 / 10 = 0.9 FR (K) vs. FR (H) FR (K) = 0.8 FR (H) = 0.5 FR (H|K+) vs. FR (H|K-) FR (H|K+)= 24/40 = 0.6 FR (H|K-)=1/10 = 0.1 10/2/10 22:14:24 11. LA Inferencia Estadística con dos Proporciones 179 EJERCICIO DE AUTOEVALUACIÓN - 11 Califique cada afirmación de las que aparece a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). Para diagnosticar cierta enfermedad existen dos técnicas “A” y “B”, ambas aplicadas a cada uno de los 100 enfermos estudiados. Estos son los datos (+ son diagnósticos correctos): B+ B- Total A+ A- Total 2 34 36 32 34 32 66 64 1.En la muestra, la técnica A diagnostica correctamente 34% de enfermos y B 64% 2.Para ver qué técnica es realmente mejor (en población) se plantea la Hipótesis Nula de que B es mejor que A. 3.Para ver qué técnica es realmente mejor (en población) se hace un test de comparación de dos proporciones apareadas. 4.Al hacer el test para ver si en población una técnica es mejor que la otra se obtiene Z = 1.7. 5.Al hacer el test para ver si en población una técnica es mejor que la otra se obtiene Z = 4.97. 6.Si B fuera mejor que A, sería muy difícil obtener una muestra de 100 enfermos en la que B diagnosticara 30% más de enfermos que A. 7.Si ambas técnicas diagnosticaran correctamente la misma proporción de enfermos en la población, sería muy difícil obtener una muestra de 100 enfermos en la que B diagnosticara 30% más de enfermos que A, o una cantidad aun mayor. 8. Es prácticamente seguro que B diagnostica mejor esta enfermedad que A. 9. En la muestra A, diagnostica el 90% de los casos que diagnosticó B. 10. En la muestra, A diagnostica el 50% de los casos que diagnosticó B. 11. En la muestra, A diagnostica el 5.6% de los casos que no diagnosticó B. 12. En la muestra, A es mucho más eficiente en los casos en que B diagnosticó. 13.Diremos que A y B son independientes si ambos diagnostican igual FR de casos. 14. Diremos que A y B son independientes si la FR de casos diagnosticados por A es igual entre los casos diagnosticados por B que entre los casos no diagnosticados por B. 15.Diremos que A y B son independientes si la FR de casos diagnosticados por B es igual entre los casos diagnosticados por A que entre los casos no diagnosticados por A. 11-cap11.indd 179 10/2/10 22:14:24 180 11. LA Inferencia Estadística con dos Proporciones 16.Si la FR de casos diagnosticados por A es igual entre los casos diagnosticados por B que entre los casos no diagnosticados por B también ocurre que la FR de casos diagnosticados por B es igual entre los casos diagnosticados por A que entre los casos no diagnosticados por A. En dos muestras tomadas al azar de 100 varones ancianos y 80 mujeres ancianas se evalúa si tienen hipertensión, HT, y si tienen sordera, S. VARONES Sordera Hipertensión: SÍ NO SÍ 59 12 NO 1 28 MUJERES Sordera Hipertensión: SÍ NO SÍ 2 18 Con estos datos muestrales podemos plantear diferentes tests. Algunos son: NO 18 42 Test A. Para la H0: “El porcentaje de hipertensos en la población de hombres es 75%“, se obtiene PUNIL = 0.0003 (Z = 3.46). Test B. Para la H0: “El porcentaje de sordas en la población de mujeres hipertensas es 15%“, se obtiene PUNIL = 0.26 (Z = 0.626). Test C. Para la H0: “La hipertensión es igual de frecuente en la población de hombres que en la de mujeres”, se obtiene PUNIL << 0.00001 (Z = 4.7). Test D. Para la H0: “Sordera e hipertensión son igual de frecuentes en la población de hombres” se obtiene PUNIL = 0.0028 (Z = 2.77). Test E. Para la H0: “Sordera e hipertensión son patologías independientes en la población de mujeres”, se obtiene PUNIL = 0.0367 (Z = 1.79). 17. Los tests A y B son tests para una sola proporción poblacional. 18. El test C es un test de comparación de 2 proporciones apareadas. 19. El test D es un test de comparación de 2 proporciones independientes. 20. El test E es un test de comparación de 2 proporciones independientes. 21.Si en la población de hombres hubiera un 75% de hipertensos, sería bastante fácil encontrar una muestra con 60% o menos de hipertensos. 22.Estamos prácticamente seguros de que en la población de hombres hay menos de 75% de hipertensos. 23. En la muestra estudiada de mujeres hipertensas hay 10% de sordas. 24.Si en la población de mujeres hipertensas hubiera un 15% de sordas, sería difícil encontrar una muestra con 10% de sordas, o una cantidad aún menor. 25.Estamos prácticamente seguros de que en la población de mujeres hipertensas hay 15% de sordas. 26.En las poblaciones de las que proceden estas muestras es más probable encontrar un hombre hipertenso que un mujer hipertensa. 27.La Hipertensión es, en población, más frecuente en hombres que en mujeres. 11-cap11.indd 180 10/2/10 22:14:24 11. LA Inferencia Estadística con dos Proporciones 181 28.Si la probabilidad de ser hipertenso fuera la misma para un hombre que para una mujer, sería muy difícil encontrar una muestra de 100 hombres y 80 mujeres con 35% más de hipertensos en un sexo que en otro, o una cantidad aun mayor. 29.En la población, es más probable que un varón sea sordo a que sea hipertenso. 30.Si fuera igual de frecuente la sordera y la hipertensión en la población de varones, en 6 de cada 1 000 estudios como este se encontraría que el porcentaje de sordos es mayor que el de hipertensos. 31.Si fuera igual de frecuente la sordera y la hipertensión en la población de varones, en 3 de cada 1 000 estudios como este se encontraría que el porcentaje de sordos supera al de hipertensos en 11 o más puntos. 32. En la población de hombres, sordera e hipertensión son igual de frecuentes. 33.La H0 planteada en el test E es equivalente a plantear que en la población de mujeres el porcentaje de hipertensas es el mismo entre las sordas que entre las no sordas. 34.Estamos prácticamente seguros que, en la población de mujeres, la sordera no condiciona la aparición de la hipertensión, es decir, la frecuencia con que aparece una no es mayor en presencia de la otra. 35.El porcentaje poblacional de sordas puede ser igual en mujeres hipertensas que en no-hipertensas. 36.Si la hipertensión afectara en la población de mujeres por igual a sordas que a no-sordas, sería muy difícil encontrar una muestra en la que el porcentaje de hipertensas entre las no sordas supera al de las sordas en 20 puntos o más. Análisis de la Base de Datos DARIO: Enunciados - 11 1.En la muestra, el porcentaje de activos es 40 puntos mayor en varones que en mujeres. ¿Puede ser que no haya diferencia en la población? ¿Cuánto se pueden diferenciar en la población? 2.En la muestra, el porcentaje de los que siguen dieta es 25 puntos mayor en los que practican yoga. ¿Puede ser que no haya diferencia en la población?. ¿Cuánto se pueden diferenciar en la población? 3.En la muestra de menores de 40 años, el porcentaje de activos es 29.2 puntos mayor en varones que en mujeres. ¿Puede ser que no haya diferencia en la población de menores de 40 años? ¿Cuánto se pueden diferenciar en la población? 4.En la muestra de mujeres el porcentaje de las que siguen dieta es 20 puntos menor en las que practican yoga. ¿Puede ser que no haya diferencia en la población de mujeres? ¿Cuánto se pueden diferenciar en la población? 11-cap11.indd 181 10/2/10 22:14:24 182 11. LA Inferencia Estadística con dos Proporciones Análisis de la Base de Datos DARIO - 11 Obtenga estas salidas con el programa informático que usted utilice. Cada programa da salidas con matices particulares, pero el contenido básico debe ser este. Nota: debido al redondeo de cantidades muy grandes o muy pequeñas los resultados numéricos pueden no coincidir exactamente en distintos programas o calculadoras. Las aproximaciones con la Normal aquí se hacen SIN corrección por continuidad. Los programas suelen dar resultado con y sin. Varón Mujer Total 120 80 FR Activos 0.80 Activos 96 32 0.40 Aprox. Normal PUNI = 10 Exacto PUNI = 10 FR dieta 0.15 0.40 Sí dieta 24 16 Diferencia muestral de FR = 0.25 IC95% : 0.09 y 0.41 Diferencia muestral de FR = 0.40 IC95% : 0.27 y 0.53 Varón Mujer Total 48 32 FR Activos 0.917 0.625 44 40 Exacto PUNI = 0.0010 -8 Activos Yoga 160 Aprox. Normal PUNI = 0.0002 -9 Menores de 40 años No yoga Total 20 Solo mujeres No yoga Yoga Total 40 40 FR dieta 0.60 0.40 Sí dieta 24 Aprox. Normal PUNI = 0.0007 Aprox. Normal PUNI = 0.037 Diferencia muestral de FR = 0.292 IC95% : 0.107 y 0.477 Diferencia muestral de FR = 0.20 IC95% : -0.014 y 0.414 Exacto PUNI = 0.0019 16 Exacto PUNI = 0.059 •En la muestra, el porcentaje de activos es 40 puntos mayor en varones que en mujeres; en la población también es diferente (P = 10-8), pudiendo ser desde 27 a 53 puntos mayor en varones (con confianza de 95%). •En la muestra, el porcentaje de los que siguen dieta es 25 puntos mayor en los que practican yoga; en la población también es diferente (P≤0.001), pudiendo ser desde 9 a 41 puntos mayor en los que practican yoga (con confianza de 95%). •En la muestra de menores de 40 años, el porcentaje de activos es 29.2 puntos mayor en varones que en mujeres; en la población de menores de 40 también es diferente (P ≤ 0.0019), pudiendo ser desde 10.7 a 47.8 puntos porcentuales mayor en varones. •En la muestra de mujeres el porcentaje de las que siguen dieta es 20 puntos menor en las que practican yoga; en la población de mujeres podría ser igual (P ≥ 0.037), podría haber una ventaja de hasta 1.4 puntos a favor de las que hacen yoga y hasta 41.4 a favor de las que no practican yoga. 11-cap11.indd 182 10/2/10 22:14:24 Capítulo 12 TAMAÑO DE MUESTRA PARA ESTIMACION Si estamos interesados en conocer la media de cierta variable en una población, el único modo de calcularla exactamente es medir esa variable en todos los individuos de esa población. Pero en la práctica tomamos una muestra y calculamos la media muestral, que no tiene, en general, exactamente el mismo valor que la poblacional. Esperamos que tenga un valor “parecido”, pero ¿cuán buena será la aproximación de la media muestral a la verdadera media poblacional? La respuesta es: En general, cuanto mayor sea la muestra mejor será esa aproximación. Pero el investigador intenta tomar una muestra lo suficientemente grande como para que la media muestral se aproxime mucho a la poblacional, y a la vez, lo más pequeña posible, para ahorrar tiempo y dinero. Es creencia general que hay un tamaño idóneo que es el mínimo, y por ello el más barato, dentro de los suficientemente grandes como para dar una media muestral muy aproximada a la media poblacional. Los profesionales que están diseñando una investigación se preguntan cuál es ese tamaño de muestra óptimo en el caso de su investigación. Pero la realidad es que en la mayoría de las situaciones no hay tal tamaño idóneo y la decisión sobre cuántos individuos incluir en nuestra investigación no depende de un cálculo estadístico. Cuando se le explica al investigador que, en contra de su creencia, no hay un tamaño que sea el “adecuado” para la investigación que proyecta, suele responder que en los libros de estadística aparecen fórmulas para calcular esos tamaños y él cree que aplicando una de ellas aparecería el tamaño idóneo para su proyecto actual. Es cierto que existen esas fórmulas, pero en este capítulo veremos que pueden dar muchas respuestas distintas, todas ellas válidas, para el tamaño de la muestra buscado. Por ello en la decisión final del tamaño de muestra a usar en una investigación estas fórmulas tienen un peso muy reducido. 183 12-cap12.indd 183 10/2/10 22:20:03 184 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN En este capítulo se comentarán las fórmulas para calcular el tamaño de muestra para la estimación de una media y una proporción poblacional, así como para la diferencia de dos proporciones y dos medias poblacionales. El tamaño de muestra en relación con tests estadísticos tiene mayor grado de dificultad, no matemática sino lógica. Se estudia en el último capítulo del libro. 12.1. Una anécdota para llamar la atención sobre un error La doctora Amelia Mendoza, jefa del Servicio de Neurología del Hospital de Macondo, decide hacer un estudio para estimar la FR de personas que consumen hipnóticos, CH, en la población constituida por todos los habitantes del Caribe. Para determinar el número de personas que debe encuestar visita a un bioestadístico, que tras comentar con ella el caso le sugiere entrevistar a 27 250 personas. Pero en el camino de vuelta coincide en el tren con otro bioestadístico, que tras comentar con ella el caso le sugiere entrevistar a 50 personas. Sospechando que había cometido algún error al dar los datos que le pedían los expertos o que alguno se equivocó en sus cálculos, vuelve a hablar con cada uno de ellos, pero, para su sorpresa, ambos se ratificaron en su cantidad. Para resolver el conflicto convoca un comité de los mejores expertos europeos. Los convocados acuerdan por unanimidad que ambos bioestadísticos habían actuado correctamente, y añaden que 374 sería un tamaño adecuado. Amelia no sale de su asombro, perplejidad y enojo, y decide convocar un comité de los mejores expertos mundiales. Tras escucharla, los nuevos convocados acuerdan que los tres tamaños propuestos anteriormente eran adecuados y añaden que 1 040 sería un tamaño adecuado. Finalmente Amelia renuncia al cálculo “científico” del “tamaño adecuado” de la muestra y decide actuar de acuerdo con los recursos humanos y económicos de que dispone. Encuesta a una muestra aleatoria de 1000 personas y encuentra que 200 de ellas son CH. Publica un trabajo diciendo que en la muestra estudiada fueron CH el 20% (p = 0.20) y el Intervalo de Confianza para el porcentaje poblacional, π, fue: IC95% (π) = p ± 1.96 · [ p (1-p) / N ]1/2 = 17.5% y 22.5% Pero la autoridad sanitaria reprocha a la autora que el tamaño de la muestra fue decidido sin “criterios científicos” adecuados. ¿Está justificada esa crítica? A lo largo del capítulo veremos que no. 12. 2. Tamaño de muestra para estimar una proporción Es obvio que ningún tamaño muestral permite conocer exactamente el dato poblacional. A partir de la FR muestral, p, el investigador calcula un Intervalo de Confianza, IC, dentro del cual creemos que se encuentra la FR poblacional. En 12-cap12.indd 184 10/2/10 22:20:03 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 185 general, cuanto mayor sea la muestra más precisa será la estimación, es decir el IC para el valor poblacional, IC(π), será más estrecho. Veamos estos ejemplos: Con N = 20 y 2 CH p = 10% IC95% (π) = 0.1% y 23% Ancho IC: 22.9 Con N = 400 y 40 CH p = 10% IC95% (π) = 7% y 13% Ancho IC: 6 Con N = 1 600 y 160 CH p = 10% IC95% (π) = 8.5% y 11.5% Ancho IC: 3 No hay un tamaño “adecuado” sino que el IC es más estrecho cuanto mayor es el tamaño de la muestra. Pero los libros dan esta fórmula para calcular el tamaño, N, de la muestra: p´(1 − p´) Z 2 d2 Vemos que N depende de tres cantidades, p’, Z y d, cuyo significado es: N = p´ Indica el orden de magnitud de la FR poblacional que intentamos conocer con el estudio que estamos proyectando. Esa FR no se conoce, por eso se va a hacer un estudio para averiguar cuánto vale. La cantidad p’ a poner en la fórmula debe ser una que suponemos estará cercana a la FR que intentamos averiguar. Si no hay ninguna información al respecto, ponemos p’ = 0.5. d Queremos error de estimación menor de “d”, es decir, que la FR que aparezca en la muestra no se aleje de la verdadera FR poblacional en más de “d”: | π - p| < d. Esta cantidad debe decidirla el investigador y no hay criterios “matemáticos” ni “científicos” para hacerlo. Según el valor que se ponga para “d”, la fórmula da un N. Z Una vez que el investigador ha decido el valor “d” que quiere usar, hay que decirle que no hay ningún N que garantice totalmente el cumplimiento de esa condición, es decir, que vaya a ser |π - p| < d. La confianza que el investigador tiene en que ocurra eso es mayor cuanto mayor es la muestra. El valor Z depende de cuán grande queremos que sea esa confianza. Por ejemplo, para 90% de confianza, Z es el valor que deja entre él y su negativo el 90% de los valores de la Distribución Normal, es decir, Z = 1.65. Para 95% de confianza es Z = 1.96, etc. Vemos, pues, que la fórmula no es para determinar el “tamaño adecuado”, sino para calcular las “prestaciones” que proporciona cada tamaño, y para poder utilizarla tenemos que decidir: a) una estimación de la proporción poblacional que queremos estimar, p´; b)la diferencia máxima que no querríamos sobrepasar entre la FR muestral que obtengamos con la muestra que vamos a estudiar, p, y la poblacional, π; c) la confianza que queremos en que ocurra lo anterior. Apliquemos la fórmula para tener 90% de confianza (Z = 1.65) en que la p que aparezca en la muestra no se aleje más de 7 puntos porcentuales (d = 0.07) de la verdadera proporción poblacional, π, y suponiendo que la FR poblacional sea del orden de 10% (p´= 0.10). N = (0.1 x 0.9) 1.65 2 / 0.07 2 = 50 12-cap12.indd 185 10/2/10 22:20:04 186 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN Los valores de p’, d y confianza elegidos son razonables, como también lo son otros muchos otros posibles y no hay razón objetiva que haga más válidas esas cantidades que otras parecidas. Pero con otros valores de confianza, error máximo deseable y p’, el resultado puede ser muy distinto. Otras posibles elecciones son: Confianza d 90% .07 99% .04 99% .04 99.9%.01 p´ .10 .10 .50 .50 N. 1.65 2 (0.1 x 0.9) / 0.07 2 = 50 2.58 2 (0.1 x 0.9) / 0.04 2 = 374 2.58 2 (0.5 x 0.5) / 0.04 2 = 1 040 3.3 2 (0.5 x 0.5) / 0.01 2 = 27 225 ¿Qué nos garantizan cada uno de estos tamaños? Si tomamos una muestra de N = 50 tenemos prob 0.90 de que la FR encontrada en la muestra no se aleje de la poblacional, π, en más de 0.07, si π es del orden del 0.10. ¿Qué quiere decir esa prob 0.90? Que en 90 de cada 100 veces que repitamos la toma de una muestra de ese tamaño, la p muestral no se aleja de la π poblacional más de 0.07. Y si tomamos una muestra de N = 374 individuos tenemos prob 99% de que la FR que obtendremos en esa muestra no se alejará más de 0.04 de la poblacional que queremos estimar, si ésta es del orden de 0.10. **Ejercicio 12.1: Se quiere estimar la FR de alcaldes que no han obtenido ganancia personal al recalificar terrenos de su municipio. Supuesto que sean del orden del 20%, calcular el N necesario para tener confianza 90% en que el error de estimación no sea mayor de 8 puntos porcentuales. **Ejercicio 12.2: Para el mismo supuesto del ejercicio anterior rellenar las cuatro celdas de la siguiente tabla (la superior izquierda acaba de ser calculada). Error de estimación no mayor de 0.08 Confianza 90% Confianza 99% Error de estimación no mayor de 0.02 **Ejercicio 12.3: Rellenar la tabla para el mismo supuesto del ejercicio anterior, pero considerando que son honestos aproximadamente el 50% de los alcaldes. Error de estimación no mayor de 0.08 Confianza 90% Confianza 99% Error de estimación no mayor de 0.02 Vemos que a p’ = 0.20 corresponde p’ (1-p’) = 0.16, mientras que a p’ = 0.50 corresponde p’ (1-p’) = 0.25. N es mayor cuando p‘s tiene valor próximo a 0.50 (de ahí que cuando no se tiene ninguna estimación de esa cantidad se ponga 0.50). 12.3.Tamaño de muestra para estimar diferencia de dos proporciones Muchos estudios están enfocados a valorar la diferencia de dos FR poblacionales. Un ejemplo típico es comparar la eficacia de un nuevo fármaco B con la 12-cap12.indd 186 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 187 del antiguo A, cuando no conocemos con precisión la FR de curaciones realmente obtenidas con A, πA (si conocemos πA es la situación del apartado anterior). Llamamos “efecto de B” en población al aumento de curaciones en relación con el A, es decir, efecto real = πB – πA y el efecto de B en las muestras es la diferencia de las FR de curados en ellas, pA - pB. Trataremos N enfermos con cada fármaco y a partir del efecto observado en las muestras estimamos el efecto real, πB – πA. ¿Qué tamaño deben tener las muestras? No hay un tamaño “adecuado”. Cuanto mayores sean la muestras más estrecho será el intervalo de confianza para πB – πA. La fórmula para calcular el tamaño, N, de cada muestra es: N= [ p′A (1 − p′A ) + pB′ (1 − pB′ )]·Z 2 d2 pA’ y pB’ Indican de qué orden son las FR de curaciones con cada fármaco, es decir, son los estimadores de πA y de πB. Si, como es lo habitual, se sospecha que B cura más que A pero no se sabe cuánto, se puede poner pA’ = pB’ = 0.5, con lo cual se obtiene tamaño igual o mayor que el necesario para la confianza y error máximo elegido. Al poner en la fórmula pA’ = pB’ = 0.5 no se está indicando que ambos curan la mitad de los enfermos, sino que la FR de curaciones no es muy lejano al 50%, aunque suponemos que B curará más que A, como ocurriría, por ejemplo, si A curara el 45% y B curara el 55%. d Queremos error de estimación menor de “d”, es decir, que el efecto muestral, pB – pA, no se aleje del efecto poblacional en más de “d”: |πB - πA| - |pB - pA| < d . Esta cantidad debe decidirla el investigador y no hay criterios “científicos” para hacerlo. Según el valor que se ponga para “d” en la fórmula va a salir un tamaño u otro y el tamaño que sale con cada valor de “d” que se ponga es el adecuado para ese error. Z Refleja la confianza que queremos tener en que sea |πB - πA| - |pB - pA| < d. No hay ningún tamaño que garantice totalmente el cumplimiento de esa condición. La confianza en que ocurra es mayor cuanto mayores son las muestras. Por ejemplo, para tener 90% de confianza en que la |pB – pA| que aparezca en la muestra no se aleje más de 10 puntos porcentuales (d = 0.10) de |πB – πA| y suponiendo que A cura en torno al 10% y B cura en torno al 60%, es decir, pA´= 0.10, pB´= 0.60, d = 0.10 y Z = 1.65: N = [ (0.1 · 0.9) + (0.6 · 0.4) ] 1.652 / 0.12 = 89.8 ≈ 90 Los valores de p’, d y confianza elegidos son razonables, como también lo son otros muchos posibles y no hay razón objetiva que haga más válidas esas cantidades que otras parecidas. Con otros valores de confianza, error máximo deseable y p’, el resultado puede ser muy distinto. Véalo: Conf. 0.90 0.90 0.99 0.99 12-cap12.indd 187 pA´ 0.10 0.50 0.10 0.20 pB´ 0.60 0.50 0.60 0.30 d 0.10 0.02 0.10 0.02 [ pA’ (1- pA’) + pB’ (1- pB’) ] Z2 / d2 0.33 · 2.72 / 0.01 0.50 · 2.72 / 0.0004 0.33 · 6.65 / 0.01 0.37 · 6.65 / 0.0004 N 90 3 400 219 6 144 10/2/10 22:20:04 188 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN Es decir, si A cura en torno al 10% y B cura en torno al 60%, tomando N = 90 en cada grupo, tenemos probabilidad 0.90 de que el efecto encontrado en la muestra no se aleje del poblacional en más de 0.10, (90 de cada 100 veces que repitamos el estudio con esos tamaños será |πB - πA| - |pB - pA| < 0.10). Y si A cura en torno al 20% y B cura en trono al 30%, tomando N = 6 144 en cada grupo, tenemos probabilidad 0.99 de que el efecto encontrado en la muestra no se aleje del poblacional en más de 0.02. **Ejercicio 12.4: Calcule los tamaños de muestra necesarios para la confianza y el error máximo indicados en la tabla: pA´= 0.10 d = 0.06 Conf.= 90% pB´= 0.10, Conf.= 99% pA´= 0.50 Conf.= 90% d = 0.02 pB´= 0.50, Conf.= 99% 8 321 ** Ejercicio 12.5: ¿Qué prestaciones da tomar N = 8321 en cada grupo? **Ejercicio 12.6: Se supone que la proporción de alcaldes que no han obtenido ganancia personal al recalificar terrenos de su municipio es del orden del 20% en una región “A” con leyes muy blandas al respecto, y quizá del orden de 50% en la región B, con leyes más duras. Se tomará una muestra de N alcaldes de cada región y serán investigados a fondo. Calcular el N necesario para tener confianza 95% en que el error de estimación del efecto de las leyes duras frente a las blandas no sea mayor de 4 puntos porcentuales. 12.4. Tamaño de muestra para estimar una media El tamaño “adecuado” de una muestra para estimar la media poblacional, µ, de una variable cuantitativa se calcula, presuntamente, con esta fórmula Z 2σ 2 d2 σ2 Es una estimación de la varianza poblacional, σ2. Para la estimación de una FR poblacional si no teníamos noticia alguna sobre la magnitud de la π se ponía p’ = 0.5. En este caso no hay un valor al que podamos recurrir si no tenemos información al respecto. Y hay que decidirse por alguna cantidad para que la fórmula opere. d Queremos que la media de la muestra no se aleje de la media poblacional en más de “d” unidades, es decir, queremos | µ - M | < d Z Depende de la confianza que queremos tener en que sea | µ - M | < d. Es el valor de Z que en la Distribución Normal deja entre él y su negativo una FR de valores igual a esa confianza. Para 95% de confianza es Z = 1.96, para 99% de confianza es Z = 2.58, etcétera. N = 12-cap12.indd 188 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 189 En función de los valores que el investigador decida para las tres cantidades anteriores, la fórmula dará valores diferentes de N. Veamos diferentes posibilidades: Opción 1ª: Confianza = 0.95, d = 2, σ = 8 N = 1.96 2 · 8 2 / 2 2 = 61.46 ≈ 62 Con una muestra de N = 62 tenemos prob 0.95 de que la media encontrada en la muestra no se aleje de la poblacional en más de 2, si la σ es del orden de 8. Opción 2ª: Confianza = 0.99, d = 1, σ = 12 N = 2.582 · 122 / 12 = 958.5 ≈ 959 Con una muestra de N = 959 tenemos prob 0.99 de que la media encontrada en la muestra no se aleje de la poblacional en más de 1, si la es del orden de 12. ** Ejercicio 12.7: Calcule el tamaño mínimo de la muestra para tener confianza 0.90 en que |µ - M| < d = 6 si es σ = 5. **Ejercicio 12.8: Queremos estimar la media de la inteligencia de la población asturiana. Calcule el N necesario para las confianzas y errores indicados en la tabla: d=4 d=1 Conf.= 90% σ≈7 Conf.= 99% σ ≈ 12 Conf.= 90% Conf.= 99% 959 **Ejercicio 12.9: En el supuesto anterior, ¿qué prestaciones da una muestra de N = 8.33 ≈ 9? Es decir, no existe el tamaño “adecuado” en general, sino el tamaño “adecuado” para tener cierta confianza en que la Media Muestral se alejará de la poblacional menos de “d” unidades. 12.5.Elementos de subjetividad e imprecisión al aplicar la fórmula para estimar una media 1º-Para aplicar la fórmula que permita calcular el tamaño de muestra es necesario conocer el valor de la σ de esa variable en la población. Si proyectamos ese estudio porque no conocemos la media poblacional, es poco probable que conozcamos la desviación estándar. 2º-¿Cuánta diferencia podríamos aceptar entre la media muestral y la poblacional? Si queremos, por ejemplo, estimar la media poblacional del dinero que cada persona gasta en cosméticos cada año, unos pueden pensar que es suficiente que la media muestral no se aleje de la poblacional en más de 50 €, otros prefieren que no se aleje en más de 20 € y otros aceptarían el error de estimación hasta 80 €. 3º-Ningún tamaño de muestra garantiza totalmente que la media muestral y la poblacional se diferencien entre sí menos de cierta magnitud. Cuanto mayor sea la muestra más probable es que la diferencia sea pequeña. El investigador tiene que decidir cuánto quiere que sea esa probabilidad. 12-cap12.indd 189 10/2/10 22:20:04 190 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 4º-La mayoría de los estudios implican interés en más de una variable. La fórmula dará diferente resultado según la variable a la que se refiera. 5º-Muchas comparaciones de interés afectarán a subgrupos de la muestra, cuyos tamaños no se pueden predecir de antemano. **Ejercicio 12.10: Para ver la relación entre consumo de frutas cultivadas en invernaderos y la anemia se analizarán dos grupos, uno alimentado con frutas normales y otro con los citados sucedáneos. En cada individuo se recogerán 20 variables relacionadas con los niveles de vitaminas y minerales en el organismo de los sujetos. ¿Cuántos individuos “debe” incluir en un estudio? **Ejercicio 12.11: ¿Cuántos individuos debo incluir en un estudio para estimar la media poblacional del peso de los turcos? **Ejercicio 12.12: ¿Cuántos individuos debo incluir en un estudio para estimar la media poblacional del peso de los belgas si quiero confianza 95% en que la media de la muestra no se aleje de la poblacional en más de 6 unidades? **Ejercicio 12.13: ¿Cuántos individuos debo incluir en un estudio para estimar la media poblacional del peso si quiero confianza 95% en que la media de la muestra no se aleje de la poblacional en más de 6 unidades y estimo que σ ≈ 20”? 12.6. Tamaño de muestra para estimar diferencia de dos medias Se quiere estimar el posible efecto del ejercicio físico moderado, EFM, sobre la variable “X”, concentración de glucosa en sangre en personas de 60 años. El efecto real del EFM es la diferencia entre las medias poblacionales de los sedentarios y de los que hacen EFM, µSED - µEFM. Estimaremos el efecto real por el efecto observado en las muestras, MSED - MEFM. ¿Cuántos individuos debe tener cada una de las dos muestras? La fórmula para calcular el tamaño, N, de cada muestra es: N = 2 2 (σ SED + σ EFM ) Zα2 d2 σSED y σEFM Son estimadores de las desviaciones estándar poblacionales. No tienen que ser iguales, pero en la mayoría de los casos no se conocen motivos para que sean diferentes y se estiman por la misma cantidad. Z y d Queremos tener cierta confianza en que el efecto encontrado en la muestra no se aleje del poblacional más de “d” unidades: |(MSED - MEFM) – (µSED - µEFM)| < d. Por ejemplo, para tener confianza 90% en que el efecto encontrado en la muestra, MSED - MEFM, no se aleje más de 3 unidades (d = 3) del efecto real de la población, µSED - µEFM, y si σSED y σEFM están ambas en torno a 8. Es N = [64 + 64] 1.65 2 / 32 = 38.72 ≈ 39 12-cap12.indd 190 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 191 Con otros valores de confianza, error máximo deseable y σ, el resultado puede ser muy distinto. Estas son otras posibles elecciones: N conf σ'SED σ'EFM d (σ2SED + σ2EFM) Zα2 / d2 0.90 8 8 3 128 · 2.72 / 9 39 12 1 288 · 2.72 / 1 784 0.90 12 12 0.99 12 12 0.90 12 3 1 288 · 2.72 / 9 288 · 6.66/ 1 87 1 917 Si la σ es del orden de 8 en ambas poblaciones, tomando N = 39 individuos en cada grupo tenemos prob 0.90 de que el efecto encontrado en la muestra no se aleje del poblacional en más de 3 unidades. Y si la σ es del orden de 12 en ambas poblaciones, tomando N = 1 917 en cada grupo, tenemos prob 0.99 de que el efecto encontrado en la muestra no se aleje del poblacional en más de 1 unidad. **Ejercicio 12.14: En el mismo contexto del texto anterior, calcule los tamaños de muestra necesarios para la confianza y el error máximo indicados en la tabla: σSED = 4 d=4 d=2 Conf.= 90% 6 σEFM = 4 Conf.= 99% σSED = 8 Conf.= 90% σEFM = 8 Conf.= 99% 213 **Ejercicio 12.15: A la vista de la tabla anterior, ¿qué prestaciones da tomar N = 14 individuos en cada grupo? **Ejercicio 12.16: El rendimiento de los médicos de los hospitales públicos se evalúa según una escala que va de 0 a 200. Para ver si el rendimiento en su trabajo hospitalario matinal es menor en los que tienen consulta privada por las tardes se evaluará dos muestras de N médicos. ¿Cuantos médicos debe haber en cada grupo? Calcular N si las σ’s son del orden de 10 y queremos tener confianza 95% en que el efecto encontrado en la muestra no difiera del verdadero en más de 2 unidades. **Ejercicio 12.17: En el contexto del ejercicio anterior, rellenar los tamaños de la siguiente tabla: σSIN = 4 d=4 d=2 Conf.= 90% 22 σCON = 4 Conf.= 99% σSIN = 7 Conf.= 90% σCON = 7 Conf.= 99% 41 **Ejercicio 12.18: Si finalmente se decide incluir 22 médicos en cada grupo y el rendimiento medio de la muestra sin consulta privada fue MSIN = 120 y el rendimiento medio de la muestra con consulta privada fue MCON = 108, el efecto muestral fue bajar 12 puntos. ¿Qué podemos decir acerca del efecto poblacional? 12-cap12.indd 191 10/2/10 22:20:04 192 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 12.7. Mitos y realidades en el tamaño de la muestra Los investigadores creen que la Estadística proporciona fórmulas que dan la cantidad de individuos que deben ser estudiados. Eso no es cierto, pero muchos miembros de los comités encargados de aprobar y financiar los proyectos de investigación participan de esa errónea creencia y exigen que en los proyectos el tamaño de las muestras se justifique con esas fórmulas. La mayoría de los investigadores no saben cómo usar esas fórmulas ni cómo se interpreta su resultado, pero al verse obligados a manejarlas, en los proyectos de investigación ponen frases que no entienden, copiadas de otros proyectos, cuyos autores tampoco las entendían y las habían, a su vez, copiado de otros. Esto da lugar a una cadena de simulacros que lleva a una situación esperpéntica. Los pasos de esa secuencia son: 1.En el proceso de copia “ciega” se van acumulando erratas que los copistas no detectan porque no entienden lo que están copiando. 2.La mayoría de los evaluadores arriba citados no entiende esas frases y las dan por buenas, incluyendo las erratas. 3.Los proyectos aprobados caen en manos de otros autores de nuevos proyectos, que repiten el proceso de copia añadiendo nuevas erratas. 4.Tras varios decenios este ritual nos ha llevado a que en muchos proyectos se lean frases totalmente absurdas pero siempre aprobadas por los evaluadores. 5.En algunas ocasiones este simulacro se hace también de viva voz, en la exposición de los trabajos de Master y Tesis Doctoral. En relación al tamaño de la muestra el investigador dice con aplomo una frase ininteligible y el tribunal asiente con solemnidad. Podría hablarse de un acuerdo “doble ciego”, donde ninguna de las dos partes entiende nada, pero ambas asienten. Como ejemplo de frases inadecuadas que se van deteriorando en las sucesivas copias a ciegas, tomemos la situación del ejercicio 12.16, en el que el rendimiento de los médicos de hospitales públicos se evalúa según una escala que va de 0 a 200. Para ver si el rendimiento en su trabajo hospitalario matinal es menor en los que tienen consulta privada por las tardes se evaluará dos muestras de N médicos. ¿Cuántos médicos “debe” haber en cada grupo? Ninguna fórmula dice qué tamaño “debemos” tomar, sino las prestaciones producidas por los diversos tamaños. Si estimamos que la σ está entre 4 y 7, en el proyecto en que se pide dinero para esta investigación lo correcto sería dar una tabla de este tipo σSIN = 4 d=4 d=2 σCON = 4 σSIN = 7 Conf.= 90% Conf.= 99% Conf.= 90% 22 54 66 6 14 17 σCON = 7 Conf.= 99% 41 163 Pero el investigador que no conoce este tema le pide a un estadístico que aplique la fórmula y acaba eligiendo, por ejemplo, σSIN = σCON = 4, confianza 99% y d = 2, con lo que sale N = 54. Por supuesto, podría acordarse otra confianza y otro error máximo, por lo que no hay ningún motivo para elegir N = 54 en vez de otro tamaño. 12-cap12.indd 192 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 193 Pero el investigador no entiende las explicaciones del estadístico y acaba tomando nota de una frase que intenta transcribir al pie de la letra, pero en la que es fácil que se introduzca algún error. La frase que el estadístico le dicta podría ser Si las desviaciones son del orden de 4, con 54 individuos en cada grupo, tenemos confianza 99% en que el efecto muestral no difiera del poblacional en más de 2 unidades El investigador acaba escribiendo en el proyecto: “El tamaño adecuado es N = 54, teniendo confianza 99% y orden de 4 en que el efecto muestral no difiera en más de 2 unidades de las desviaciones”. El siguiente investigador la copia con alguna pequeña variación. “El tamaño adecuado es N = 54, teniendo confianza ordenada 99% y 2 unidades de 4 desviaciones en que el efecto muestral no difiera significativamente”. Y cuando un tercer investigador copia esta frase la versión final es: “El tamaño adecuado es N = 54, teniendo 4 unidades y dos desviaciones de confianza ordenada significativamente en 99%”. Pero muy probablemente los evaluadores del proyecto la darán por buena. La situación recuerda la celebrada en todos los institutos de enseñanza media de España como una de las más jocosas. En la Roma Imperial, antes de empezar su encarnizada lucha, los gladiadores debían decir al Cesar: “Ave, Caesar, morituri te salutan”. Un alumno de último año de bachiller la tradujo del latín como “Las aves del Cesar murieron por falta de salud”. La diferencia entre ese episodio y el de las frases escritas y aceptadas sobre el tamaño de las muestras, es que todos los profesores y alumnos saben que esa traducción es un despropósito total, mientras que la mayoría de los que escriben y evalúan proyectos de investigación creen que las frases referidas al tamaño de las muestras son correctas. Cada uno de ellos no las entiende, pero da por supuesto que los otros las entienden y avalan. Salir de ese embrollo no requiere que los investigadores y los evaluadores se hagan expertos en Estadística avanzada. Solo es necesario tener claras algunas ideas básicas del análisis estadístico. 12.8. Tamaños de muestra inadecuados Aunque no hay un tamaño de muestra que sea “el adecuado”, pues muy diferentes tamaños son válidos, ciertos tamaños son claramente “inadecuados”, por ser excesivamente grandes o excesivamente pequeños. Supongamos que en una población se quiere estimar el sueldo medio con error no superior a 50 € y se sabe que la desviación es en torno a 300 €. Si nos proponen tomar una muestra de N = 10, ¿qué podemos esperar de ella? En la fórmula N = Z2 σ2 / d2 despejamos Z2 = N · d2 / σ2 = 10 · 502 / 3002 = 0.278. Por tanto, Z = 0.53, que en las tablas de la Normal, 12-cap12.indd 193 10/2/10 22:20:04 194 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN nos da P (-0.53 < Z < + 0.53) = 2 · (0.50 - 0.30) = 2 · 0.20 = 0.40. Es decir, con N = 10 tenemos confianza 40% en que la media muestral no se aleje de la poblacional en más de 50 €. Por tanto, tenemos riesgo 60% de que la media muestral se aleje de la poblacional más de 50 €. Si al investigador le parece riesgo demasiado alto y no tiene recursos para más tamaño, deberá posponer la investigación hasta conseguirlo. Calculemos el tamaño necesario para que la confianza sea mayor, por ejemplo 90% (Z = 1.96) con σ = 300 y d = 50 N = 1.652 · 3002 / 502 = 98 Si nuestros recursos no alcanzan para estudiar una muestra de 98 individuos, pero nos permiten llegar a N = 50, podemos calcular la confianza que ella proporciona: Z 2 = N · d2 / σ2 = 50 · 502 / 3002 = 1.389 Z = 1.18 P( -1.18 < Z < +1.18) = 0.76 Con N = 50 tenemos confianza 76% en que la media muestral se aleje de la poblacional menos de 50 €. El investigador podría considerarlo demasiado alto y optar por esperar a conseguir más recursos. Es una decisión que solo él puede tomar. La Estadística no toma la decisión por él, pero le puede ayudar permitiéndole calcular los niveles de confianza para distintos errores de estimación. Para el supuesto anterior otro ejemplo de tamaño no adecuado sería N = 5 000, porque si establecemos la confianza en 99%, es Z = 2.58. En N = Z2 σ2 / d2 despejamos d 2 = Z2 σ2 / N = 2.582 · 300 2 / 5 000 = 120, es decir, d = 11. Vemos que con N = 5 000 tendríamos confianza 99% en que el error de estimación no supere los 11 €, precisión innecesaria para el objetivo del estudio. 12-cap12.indd 194 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 195 No olvide recordar - 12 1.En todo estudio hay que decidir cuántos individuos se incluyen y muchos investigadores creen —erróneamente— que esa decisión se toma aplicando una fórmula. 2.Las fórmulas relativas a este tema no dicen el tamaño que debe tener la muestra de una investigación, solamente ayudan a calcular las prestaciones que tendrá la muestra según sea su tamaño. 3.Algunos investigadores no saben cómo usar esas fórmulas ni cómo interpretar su resultado, pero al verse obligados a manejarlas en los proyectos de investigación ponen frases que no entienden, copiadas de otros proyectos, cuyos autores tampoco las entendían y las habían, a su vez, copiado de otros. 4.La realidad es que no hay un tamaño “más adecuado” que optimice la relación costo / beneficio. Casi todos los tamaños de muestra, excluidos los extremadamente pequeños o grandes, son válidos. 5.Cuanto mayor es la muestra, más información nos da acerca de la población. Este incremento de la información al aumentar el tamaño de la muestra es gradual y no hay un punto de corte que separe tamaños suficientes de tamaños insuficientes. 6.Las fórmulas no nos dicen cuál es el tamaño que debe usarse, sino cómo depende del tamaño la confianza en que el error de estimación no supere cierta cantidad. Esta confianza y la magnitud de ese error máximo debe elegirlas el investigador según su buen criterio. No hay argumentos matemáticos ni biológicos para ayudarle en esa elección. 7.En el tamaño arrojado por la fórmula influye también la desviación estándar poblacional de las variables cuantitativas y la proporción poblacional de las variables dicotómicas. Como el investigador no conoce ese dato debe suponerlo, lo que introduce otro factor de imprecisión. 8.Aunque no cabe hablar de tamaños adecuados, sí cabe hablar de tamaños inadecuados, bien porque son extremadamente pequeños y dan lugar a errores de estimación con margen muy amplio, o bien porque son extremadamente grandes y dan lugar a errores de estimación innecesariamente pequeños. 12-cap12.indd 195 10/2/10 22:20:04 196 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN EJERCICIO DE AUTOEVALUACIÓN - 12 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1. El tamaño de muestra adecuado para cada investigación se averigua resolviendo unas fórmulas estadísticas bastante sencillas. 2. En realidad esas fórmulas sencillas no permiten saber con precisión cuál es ese tamaño idóneo. El tamaño adecuado solamente puede averiguase con métodos estadísticos más complejos. 3.Si usamos en nuestra investigación el número adecuado de individuos los resultados permitirán conocer con exactitud lo que ocurre realmente en la población. 4. No hay un tamaño de muestra “adecuado”. 5.Casi cualquier tamaño es válido. Pueden ser claramente inadecuados los extremadamente pequeños y los extremadamente grandes. 6.Si se trata de estimar el valor de un parámetro, cuanto mayor sea N más probable es que el error de estimación no supere cierto límite. 7.Al estimar el valor de un parámetro, cuanto mayor sea N, menor será el error máximo de estimación, para una misma confianza en no superarlo. 8.Las fórmulas para el tamaño de muestra no nos dan el tamaño adecuado para nuestra investigación, sino las prestaciones que proporciona la muestra según sea su tamaño. 9. La frase “con una muestra de N = 47 individuos el error máximo de estimación es 14 unidades” es inadecuada. 10.La frase “con una muestra de N = 47 tenemos confianza 90% en que la media poblacional sea igual a la muestral” es errónea. 11.La frase “con una muestra de N = 47 tenemos confianza 90% en que la media poblacional no se aleje de la muestral de modo significativo” es inadecuada. 12.La frase “con una muestra de N = 47 tenemos confianza 90% en que la media poblacional no se aleje de la muestral en más de 3 unidades, si la desviación estándar de esa variable en la población es del orden de 8 unidades” puede ser correcta. 13.La frase “con una muestra de N = 20 tenemos confianza 90% en que la media poblacional no se aleje de la muestral en más de 3 unidades, si la σ de esa variable en la población es del orden de 8 unidades” es correcta. 14.La frase “con una muestra de N = 16 tenemos confianza 95% en que la media poblacional no se aleje de la muestral en más de 5 unidades, si la σ de esa variable en la población es del orden de 10 unidades” es correcta. 12-cap12.indd 196 10/2/10 22:20:04 12. TAMAÑO DE MUESTRA PARA ESTIMACIÓN 197 15.La frase “con una muestra de N = 123 tenemos confianza 95% en que la proporción poblacional no se aleje de la muestral en más de 0.04, si la proporción poblacional es del orden de 0.20” es correcta. 16.La frase “con una muestra de N = 384 tenemos confianza 95% en que la proporción poblacional no se aleje de la muestral en más de 0.04, si la proporción poblacional es del orden de 0.20” es correcta. 17.Si la proporción poblacional de políticos ineptos es del orden de 0.90, con una muestra de N = 40 tenemos confianza 95% en que la proporción poblacional no se aleje de la muestral en más de 0.02. El rendimiento de los médicos de los hospitales públicos se evalúa según una escala que va de 0 a 200. Para ver si el rendimiento en su trabajo hospitalario matinal es menor en los que tienen consulta privada por las tardes, se evaluarán dos muestras de N médicos. La tabla siguiente da los tamaños correspondientes a las prestaciones indicadas: σSIN = 4 d=4 d=2 σCON = 4 σSIN = 7 Conf.= 90% Conf.= 99% Conf.= 90% 22 54 66 6 14 18 σCON = 7 Conf.= 99% 42 163 18. Si la σ es del orden de 7 en ambas poblaciones, con N = 163 en cada grupo, tenemos confianza 99% en que la diferencia de medias muestrales no se aleje de la diferencia de medias poblacionales en más de 2 unidades. 19.Si la σ es del orden de 7 en ambas poblaciones, con N = 42 en cada grupo, tenemos confianza 99% en que la diferencia de medias muestrales no se aleje de la diferencia de medias poblacionales en más de 4 unidades. 20. Si la σ es del orden de 4 en ambas poblaciones, con N = 14 en cada grupo, tenemos confianza 90% en que la diferencia de medias muestrales no se aleje de la diferencia de medias poblacionales en más de 2 unidades. 21. Si la σ es del orden de 4 en ambas poblaciones y tomamos dos muestras de N = 14 y en ellas la diferencia de medias muestrales es 20, tenemos confianza 99% en que la diferencia poblacionales esté entre 16 y 24 . 22.Si la σ es del orden de 4 en ambas poblaciones y tomamos dos muestras de N = 14 y en ellas la diferencia de medias muestrales es 30, tenemos confianza 99% en que la diferencia de medias poblacionales esté entre 26 y 34 . 23.Si la σ es del orden de 4 en ambas poblaciones y tomamos dos muestras de N = 54 y en ellas la diferencia de medias muestrales es 30, tenemos confianza 99% en que la diferencia de medias poblacionales esté entre 28 y 32. 24.Si la σ es del orden de 4 en ambas poblaciones y tomamos dos muestras de N = 54 y en ellas la diferencia de medias muestrales es 30, tenemos confianza 90% en que la diferencia de medias poblacionales esté entre 14 y 84. 12-cap12.indd 197 10/2/10 22:20:04 12-cap12.indd 198 10/2/10 22:20:04 Capítulo 13 DISEÑOS CASO-CONTROL Tradicionalmente, para ver la influencia de un factor en la aparición de una enfermedad se realizaban lo que se llaman Estudios Prospectivos, en los que se toman dos muestras aleatorias, una de individuos expuestos al factor y otra de no expuestos, y se calcula en cada una de ellas la proporción de enfermos. Posibles, y a veces decisivas, desventajas de este diseño son: a) El largo tiempo que puede requerir llevarlos a cabo b)El elevado número de individuos que debe incluir el estudio en enfermedades de baja frecuencia —que son la mayoría— para que haya cierta probabilidad de detectar asociaciones. Como ejemplo consideremos una población en la que fuma el 20% y una enfermedad que afecta al 1 por mil de la población general y es cuatro veces más frecuente en los fumadores. Un estudio prospectivo en el que se toma una muestra de 100 fumadores y otra de 100 no fumadores y se averigua cuántos enferman en cada grupo, tiene probabilidad 0.06 de detectar esa asociación, es decir, si se hacen muchos estudios como ese, solamente 6 de cada 100 permiten detectar que el tabaco es perjudicial. Por el contrario, un estudio con el diseño Caso-Control que vamos a ver en este capítulo, en el que se estudia una muestra de 100 individuos enfermos (son los “casos”) y otra de 100 no enfermos (los “controles”) y se averigua cuántos fumaban en cada grupo, tiene prob 0.99 de detectar dicha asociación, es decir, si se hacen muchos estudios como ese, en 99 de cada 100 se encuentra asociación entre el factor y la enfermedad estadísticamente significativa. Para tener prob 0.99 de detectar asociación un estudio prospectivo necesita unos 20 000 individuos. Durante decenios el diseño Caso-Control fue considerado poco fiable y eficiente, pero desde mediados del siglo xx se han desarrollado técnicas estadísticas adecuadas para analizarlo y de ese modo ha ido teniendo presencia creciente en la investigación epidemiológica y clínica. Rothman dice que ha pasado de ser la Cenicienta de la epidemiología a ser su estrella más fulgurante. 199 13-cap13.indd 199 10/2/10 22:14:45 200 13. DISEÑOS CASO-CONTROL 13.1. Riesgo Específico y Riesgo Relativo Uno de los principales objetivos de los estudios epidemiológicos es detectar asociaciones entre procesos patológicos y los llamados “Factores de Riesgo”, que son toda característica biológica o ambiental que pueda afectar a la incidencia de la patología, a su evolución o trasmisión. Puede haber también “Factores Preventivos” que afectarían beneficiosamente a la aparición o evolución de la enfermedad. A la FR de individuos que estando expuestos al factor contraen la enfermedad se le llama RIESGO ESPECIFICO de los individuos expuestos, R1. Sea, por ejemplo, el factor “consumo de tabaco por la embarazada” y sea la patología tener un hijo con la malformación “A”. El Riesgo Específico de las madres fumadoras es la FR de ellas que tienen un hijo con “A”. Supongamos que es 6 por mil (0.006). Esta cifra, por sí sola, no nos dice nada respecto a la influencia (o mera asociación empírica) del tabaco en esa malformación, pero toma sentido cuando la comparamos con el Riesgo Específico de madres no fumadoras, R0, que es la FR de ellas que tienen un hijo con A. Supongamos que éste es 2 por mil (0.002). El cociente de estas dos cantidades, 0.006 / 0.002 = 6 / 2 = 3 se denomina RIESGO RELATIVO, RR, del tabaco para la malformación A y nos dice cuántas veces es mayor el riesgo de tener un niño con esa malformación si la madre fuma que si no fuma. Un RR poblacional mayor de 1 indica que el factor aumenta el riesgo de enfermedad, es factor de riesgo; un RR poblacional menor de 1 indica que el factor disminuye el riesgo de enfermedad, es factor preventivo; y un RR poblacional igual a 1 indica no asociación del factor y la enfermedad, el riesgo de enfermar es igual para expuestos al factor que para no expuestos. ** Ejercicio 13.1: Una población de Recién Nacidos, RN, está compuesta por 5 000 hijos de madres fumadoras de los cuales 50 tuvieron Espina Bífida y 1 000 hijos de madres No fumadoras, de los cuales 2 nacieron con Espina Bífida, EB. a. El Riesgo Específico de Espina Bífida en madres fumadoras es: b. El Riesgo Específico de Espina Bífida en madres No fumadoras es: c. El Riesgo Relativo, RR, del Tabaco para Espina Bífida es: d. La probabilidad de que una madre NO fumadora tenga un hijo con EB es: e. La probabilidad de que una madre fumadora tenga un hijo con EB es: f.¿Cuál es la proporción de RN con EB en otra población de embarazadas con riesgos iguales a la anterior pero en la que fuman el 20%? g.¿Cuál es la proporción de RN con EB en otra población de embarazadas con riesgos iguales a la anterior y en la que fuman el 70%? 13.2. Concepto de “ODD” y “ODD RATIO” (OR) Si en un colectivo llamamos P a la proporción de individuos con cierta característica, digamos E, se llama ODD a la magnitud P / (1-P). Ejemplos: 13-cap13.indd 200 10/2/10 22:14:45 13. DISEÑOS CASO-CONTROL 201 –Si la FR de “E” es 0.8, la ODD es 0.8 / 0.2 = 4 y dice que hay 4 E por cada no “E”. –Si la FR de feos es 0.5, la ODD es 1, es decir, hay un feo por cada no feo. La ODD es igual al número de individuos con la característica dividido por el número de individuos sin la característica. En efecto: ODD = 1 P P N N º de enfermos = = P (1 P) N N º de no enfermos Ej: Si en un colectivo hay 20% de E, la ODD es 0.2 / 0.8 = 0.25 que es igual a 1/4 y dice que hay un E por cada 4 no-E. Si en este colectivo hay N = 200 individuos, habrá 0.20 x 200 = 40 E y 0.80 x 200 = 160 no-E. Entonces es ODD = 40 / 60 = 0.25 Ej: Si la P de anémicos es 0.05, su ODD = 0.05 / 0.95 = 0.0526. Si el tamaño de este colectivo es N = 400 habrá 0.05 x 400 = 20 anémicos, y por tanto, 380 no anémicos. La ODD puede calcularse como 0.05 / 0.95 o como 20 / 380 = 0.0526. En este último ejemplo la ODD toma un valor bastante próximo a P. En general, a proporciones pequeñas corresponde valores de ODD muy similares al de la proporción, pues, en estos casos, el denominador 1-P es próximo a 1 y, por tanto, P / (1-P) es próximo a P. Ejemplo: Si P es 0.01, es ODD = 0.01 / 0.99 = 0.0101. Concepto de OR (ODD´S RATIO): Así como el RR se define como el cociente de dos Riesgos Específicos, la ODD RATIO, OR, se define como el cociente de dos ODD´s: la ODD de enfermos en los Expuestos dividido por la ODD de enfermos en los No Expuestos. Veamos como ejemplo una población donde de un total de 30 0000 individuos fuman 100 000, están enfermos (“D+”) 50 000 y son enfermos y fumadores 40 000. •Riesgo especifico en fumadores: R1 = 40 000 / 100 000 = 0.40 •Riesgo especifico en no fumadores: R0 = 10 000 / 200 000 = 0.05 #Riesgo Relativo del fumar para esa enfermedad: RR = 0.40 / 0.05 = 8 Fuman No Fuman TOTAL D+ A = 40 000 B = 10 000 M1 = 50 000 Tot N1=100 000 N0 = 200 000 N = 300 000 D- C = 60 000 R1 = 0.40 D = 190 000 R0 = 0.05 M0 = 250 000 RR = .40 / .05 = 8 P1 = 4 / 5 = 0.80 P0 = 6 / 25 = 0.24 P1 / P0 = 0.80 / 0.24 = 3.33 A partir de los Riesgos Específicos podemos calcular las ODD’s y la OR: 13-cap13.indd 201 ODD (R1) = 0.40 / 0.60 = 40 000 / 60 000 = 0.67 ODD (R0) = 0.05 / 0.95 = 10 000 / 190 000 = 0.0526 OR = ODD (R1) / ODD (R0) = 0.67 / 0.0526 = 12.67 10/2/10 22:14:45 202 13. DISEÑOS CASO-CONTROL También serán útiles las siguientes cantidades: •Proporción de enfermos que fumaban: P1 = 40 000 / 50 000 = 0.80 •Proporción de no enfermos que fumaban: P0 = 60 000 / 250 000 = 0.24 #P1 dividido por P0 : P1 / P0 = 0.80 / 0.24 = 3.33 13.3. En población OR (P´s) = OR (R´s) En esta población, y en general, el cociente de los Riesgos Específicos, RR = R1 / R0 = 8, no tiene el mismo valor que el cociente P1 / P0 = 0.80 / 0.24 = 3.33 Pero si calculamos las ODD´s con P1 y P0: ODD (P1) = 0.80 / 0.20 = 4 ODD (P0) = 0.24 / 0.76 = 0.3158 El cociente de estas dos ODD´s es : OR( P´s ) = 4 / 0.3158 = 12.67 OR = A·D / B·C = 400 x 1900 / 100 x 600 = 12.67 Ocurre siempre que el cociente de las ODD´s toma igual valor cuando se calcula con las P´s (FR de fumadores en enfermos y en sanos) que cuando se calcula con las R´s (FR enfermos en fumadores y en no fumadores). Si se conocen las cantidades A, B, C y D, el modo más cómodo de calcular el OR es: Prueba: A / N1 A/B A /C A D C / N1 = = OR( R s) = = = = R0 B / N0 B C C /D B/D 1 R0 D / N0 R1 1 R1 A / M1 P1 B / M1 1 P1 = = OR(P s) P0 C / M0 1 P0 D / M0 **Ejercicio 13.2: Invente Vd. los datos para una población cualquiera y compruebe que el OR es el mismo en ambos sentidos, es decir, que OR calculada con las P´s toma igual valor que OR calculada con las R´s. 13.4. Proximidad entre los valores de OR y RR Ya comprobado que son iguales las dos OR´s (la calculada con las FR “verticales” y la calculada con las FR “horizontales”) veremos que este valor único de OR se aproxima mucho al valor de RR si los Riesgos Específicos toman valores próximos a cero. Sea la siguiente población, con exposición “E” y enfermedad “D”: D+ DTotal E+ 1 000 99 000 100 000 R1 = 0.010 ODD (R1) = 0.0101 13-cap13.indd 202 E200 199 800 200 000 Total 1 200 298 800 300 000 P1 = 10/12 = 0.833 P0 = 99/2 988 = 0.033 R0 = 0.001 RR = 10 ODD (R0) = 0.001001 0R = 10.09 10/2/10 22:14:45 13. DISEÑOS CASO-CONTROL 203 La OR (calculada a partir de los riesgos específicos o calculada a partir de las P1 y P0, o como cociente de productos cruzados) da 10.09, valor muy próximo al RR = 10. Esta similitud entre el RR y el OR ocurre siempre que las proporciones son próximas a cero y es más acusada cuanto más pequeñas son dichas proporciones. Prueba: R1 OR = R0 1 R1 = 1 R0 1 R0 R1 1 R0 = RR R0 1 R1 1 R1 RR si R1 y R0 0 **Ejercicio 13.3: En una población los “Expuestos” y “Enfermos” son: D+ DTotal E+ 10 990 1 000 R1= E1 190 R0= Total 1 200 298 800 300 000 P1= P0= a.Calcule los R´s y las P´s. ¿A qué cociente o cocientes se va a parecer el OR? b. Calcule R1 / R0. c. Calcule P1 / P0. d. Calcule el OR. **Ejercicio 13.4: a.¿Qué cociente nos interesa en Medicina para expresar la relación entre un Factor y una Enfermedad? b. ¿Es en general P1/P0 = R1/R0 ? c.¿En qué circunstancias es en la Población el OR calculado con las “P’s“ igual al OR calculado con las “R’s” ? d- ¿Se presentan esas circunstancias frecuentemente en Medicina? 13.5. Tipos de muestreo: Prospectivos y Retrospectivos Como en la práctica no se estudian poblaciones sino muestras de individuos tomadas de esas poblaciones, veamos qué cantidades poblacionales se pueden estimar dependiendo de cómo se haga el muestreo. Sea la población ya usada: Fuman No fuman TOTAL D+ A = 40 000 B = 10 000 M1 = Tot N1=100 000 N0 = 200 000 N = 300 000 D- C = 60 000 R1 = 0.40 D = 190 000 R0 = 0.05 50 000 M0 = 250 000 RR = .40 / .05 = 8 P1 = 4 / 5 = 0.80 P0 = 6 / 25 = 0.24 P1 / P0 = 0.80 / 0.24 = 3.33 Muestreo prospectivo: Se toma una muestra aleatoria de fumadores y se cuenta la cantidad de ellos que desarrollan la enfermedad. La correspondiente FR muestral estima el R1 po- 13-cap13.indd 203 11/2/10 13:29:43 204 13. DISEÑOS CASO-CONTROL blacional. También se toma una muestra aleatoria de individuos no fumadores y se cuenta la cantidad de ellos que desarrollan la enfermedad. Esta FR muestral estima el R0 poblacional. El cociente de estos dos estimadores estima el RR poblacional. Con este muestreo no se puede estimar P1 ni P0 ni el cociente P1 / P0 Muestreo retrospectivo o caso-control: Se toma una muestra aleatoria de individuos Enfermos y se evalúa la FR de ellos que estaban Expuestos. Esta FR muestral estima la correspondiente P1 poblacional. También se toma una muestra aleatoria de NO Enfermos y se evalúa la FR de ellos que estaban Expuestos. Esta FR muestral estima la P0 poblacional. Con este muestreo no se puede estimar R1 ni R0 ni el cociente R1 / R0 = RR. Con muestreo Caso-Control no se pueden estimar R­­­­­1 ni R0 ni RR, porque los valores muestrales que estimarían R­­­­­1 y R0 dependen de la cantidad de Casos y Controles que se haya decidido tomar. **Ejercicio 13.5: Veamos cómo varían los presuntos estimadores de R­­­­­1 y R0 de la anterior población en dos muestras Caso-Control concretas si las FR muestrales de expuestos salen igual a las poblacionales. En cada ejemplo calcular R´1, R´0 y RR´ = R´1 / R´0 y ver si estiman R­­­­­1, R0 y RR poblacionales. Ejemplo 1: Fuma D+ 160 D- Tot No Fuman 40 6 R´1= Fuman D+ 16 D- 19 R´0 = Ejemplo 2: Tot 200 D+ Y 25 D- 25 P0= . 24 RR´= 20 D+ Y 2500 DNo Fuman 4 600 R´1= 200 P1= .80 1900 R´0= 20 2500 P1= .80 P0= . 24 RR´= El interés del investigador es estimar el RR poblacional, para lo cual lo más lógico es hacer un muestreo prospectivo. Sin embargo, en muchas ocasiones son más baratos, y a veces los únicos factibles, los muestreos Caso-Control, que desafortunadamente no permiten estimar R1 ni R0 ni el cociente RR. Con muestreo Caso-Control solo se puede estimar P1 y P0 y el cociente P1 / P0, que es distinto de R1 / R0. Pero con el muestreo Caso-Control estimamos P1, P0, y por tanto la OR poblacional correspondiente y también la OR con las R´s, por ser el mismo valor que la OR con las P’s. Y con enfermedades de baja frecuencia, digamos menor del 0.10, el RR es muy próximo a la OR, por lo que el muestreo Caso-Control permite estimar el OR poblacional y también el RR poblacional. 13-cap13.indd 204 10/2/10 22:14:46 13. DISEÑOS CASO-CONTROL 205 El razonamiento clave es: la OR de la muestra Caso-Control estima la OR poblacional con las “P’s” y esta es igual a la OR poblacional con las “R’s” y si las R`s son menores de 0.10 esa OR poblacional tiene valor muy próximo al RR poblacional. Con R1 y R0 pequeños la OR de la muestra Caso-Control estima el RR poblacional. **Ejercicio 13.6: La Dra. Largaespada quiere estimar la FR de diabéticos en la población de Nicaragua y para ello toma una muestra de 200 varones entre los que encuentra 40 diabéticos. Con ello estima que la FR poblacional es en torno a 40 / 200 = 0.20. Posteriormente quiere estimar la FR de diabéticas en la misma población y disponiendo de más recursos que en su estudio con varones toma una muestra de 800 mujeres, entre las que encuentra 240 diabéticas y estima que la FR poblacional es en torno a 240 / 800 = 0.30. Por otra parte el Dr. Bagatella quiere estimar la FR de cada sexo en esa población y para ello tiene en cuenta que entre las 1000 personas estudiadas por la Dra. Largaespada 200 eran varones y 800 eran mujeres, por lo que cree que la FR de mujeres en la población se estima por 800 / 1 000 = 0.80. Varones Mujeres Total Diabet+ Diabet- 240 560 40 160 Total 200 800 1 000 P1 = 0.20 P0 = 0.30 a. ¿Es correcta esa estimación? b.A partir de los estudios de la Dra. Largaespada, ¿cuál es la estimación correcta de la proporción de mujeres en la población? c.Posteriormente la Dra. Largaespada recibe más dinero para ampliar el estudio en varones y toma una segunda muestra de 600, por lo que en total tiene 800. De ese modo ha estudiado 1 600 personas, 800 varones y 800 mujeres. Varones Mujeres Total Diabet+ Diabet- Total 240 560 800 800 1 600 P1 = P0 = 0.30 ¿Podemos estimar que en Nicaragua las mujeres son el 50% de la población? d.Para estimar la hipertensión en cada sexo en Nicaragua, la Dra. Lucía decidió estudiar 100 mujeres y 300 varones. ¿Podemos estimar la FR poblacional de mujeres como 100 / 400 = 0.25? **Ejercicio 13.7: a.En una población la FR de enfermos es 0.8 ¿Cuánto vale la ODD de enfermos? b.¿En qué casos el valor de la ODD se parece mucho al de la proporción? Los individuos de una población se clasifican según tengan o no cierta enfermedad (D+ y D-) y hubieran estado o no expuestos a cierto factor (E+ y E-) 13-cap13.indd 205 10/2/10 22:14:46 206 13. DISEÑOS CASO-CONTROL E+ A C N1 D+ DTotal EB D N0 Total M1 M0 N P1 = A/M1 P0= C/M0 . Responda usando la notación de la tabla. c. ¿A qué se llama Riesgo Específico de los expuestos, R1? d. ¿A qué se llama Riesgo Específico de los NO expuestos, R0? e. ¿A qué se llama Riesgo Relativo, RR? f. ¿A qué se llama ODD RATIO, OR? g.¿Bajo qué circunstancias el valor de la OR se parece mucho al valor del RR? En un estudio Caso-Control tomando 50 enfermos y 80 sanos obtenemos: D+ D- E+ 30 E- Total 70 80 20 10 50 h. ¿En cuánto estimamos la P1 poblacional? i. ¿En cuánto estimamos la P0 poblacional? j. ¿En cuánto estimamos R1, el riesgo de enfermedad en expuestos? k. ¿En cuánto estimamos R0, el riesgo de enfermedad en no-expuestos? l. ¿En cuánto estimamos el RR poblacional? m. ¿En cuánto estimamos la OR poblacional? n. ¿Por los datos de esta muestra podemos decir si será el OR parecido al RR? 13.6. Inferencias sobre OR Aunque en una población NO haya relación entre el factor “E” y la enfermedad “D” (ORPoblacional = RRPoblacional = 1), en las muestras tomadas de esa población siempre habrá una relación más o menos débil. Sería mucha casualidad que el OR muestral fuera exactamente 1. El hecho de que en la muestra aparezca cierta relación entre el factor y la enfermedad (es decir, que haya OR muestral diferente de 1) no implica que hay ese tipo de relación en población. A partir del valor del OR muestral se puede hacer un test en el que la H0 es que en población no hay relación, es decir, ORPoblacional = RRPoblacional = 1. También se puede calcular el IC dentro del cual creemos que se halla el valor de la OR poblacional. 1. Test de significación D+ D- Tot E+ a c n1 Eb d n0 Tot. m1 m0 n p1=a/m1 p0=c/m0 Z = (a · d − b · c) 2 ·n n1 ·n0 ·m1 ·m0 La fórmula para el test es la misma que la usada en el test para comparar dos proporciones independientes. La H0 dice que RRPoblacional = 1, es decir, R1 = R0, lo que 13-cap13.indd 206 10/2/10 22:14:46 13. DISEÑOS CASO-CONTROL 207 implica P1 = P0. El valor P del test se obtiene mirando el valor Z en las tablas de la Distribución Normal. Esta expresión usa la aproximación de la distribución Binomial por la Normal y la aproximación es buena si ningún valor esperado es menor de 5. Para cada celda el valor esperado es el total de la columna multiplicado por el total de la fila y dividido por el total de la tabla. Cuando hay valores esperados menores de 5 el valor P del test se halla con el método exacto de Fisher, que requiere más cálculos (que hacen los ordenadores) y se interpreta como en todos los test de significación. Dice la prob de encontrar por azar una muestra con OR tan alejado de 1 como el de nuestra muestra o aún más alejado en el mismo sentido, si el OR poblacional es 1, es decir, si en población no hay relación entre ese factor y esa enfermedad. 2. Intervalo de Confianza donde Z es el valor del estadístico obtenido al hacer el test y Zα = 1.96 para confianza = 95% y Zα = 2.58 para confianza = 99%. Por ejemplo, con estos datos D+ DTot. E+ 8 30 38 E2 20 22 Tot. 10 50 60 OR Z P IC95% 2.67 1.2 0.11 0.54 -13.3 es OR = 8 · 20 / 2 · 30 = 16 / 6 = 2.67 Z = [ 60 (8 ·20 – 2 · 30)2 / 10 · 50 · 22 ·38 ] ½ = 1.2 PUNIL = 0.11 IC95% = 2.67 1± 1.96 / 1.2 = 2.67 1± 1.633 = 2.67 -0.633 y 2.67 2.633 = 0.54 y 13.3 Es decir, si en población es OR = RR = 1, en 11 de cada 100 estudios como este aparecerá OR muestral igual o mayor de 2.67. No rechazamos H0 . Los datos no son evidencia fuerte a favor de la asociación entre el factor y la enfermedad. Si la incidencia de la enfermedad es baja el RR poblacional tendrá valor próximo al OR poblacional y el IC dice que tenemos confianza 95% en que la incidencia de la enfermedad en los expuestos sea desde 13.3 veces mayor hasta 0.54 que en los no expuestos, es decir, en población el factor puede ser preventivo, puede no estar asociado, o puede ser factor de riesgo para la enfermedad. **Ejercicio 13.8: ¿Hay un componente hereditario en la predisposición a las toxicomanías. Es decir, ¿tienen los toxicómanos mayor proporción de hijos toxicómanos que los no toxicómanos? No es fácil tomar muestras que nos informen directamente de estas proporciones. Un estudio Caso-Control dio esta información: En una muestra de 225 toxicómanos, 25 tenían padres toxicómanos. En una muestra de 250 controles, 10 tenían padres toxicómanos. a. ¿Podemos estimar el RE de ser toxicómano en hijos de toxicómanos? b. ¿Podemos estimar el RE de ser toxicómano en hijos de No Toxicómanos? c. ¿A qué llamamos RR del factor Toxicomanía paterna para la toxicomanía? d. A partir de las muestras, ¿en cuánto estimamos ese Riesgo Relativo? 13-cap13.indd 207 10/2/10 22:14:46 208 13. DISEÑOS CASO-CONTROL e.¿Tenemos motivos para afirmar con un alto grado de probabilidad de acertar que la Toxicomanía paterna aumenta la probabilidad de toxicomanía en los hijos? f. Calcule e interprete el Intervalo de Confianza al 95% para el OR poblacional. g.Informaciones posteriores permiten saber que entre los hijos de los toxicómanos adquieren toxicomanía el 15 por mil. Si en un pueblo hay 20 000 jóvenes y la mitad de ellos tienen padre toxicómano, ¿cuántos jóvenes esperamos que se hagan toxicómanos? 13.7. Recordando el Análisis Estratificado y la Confusión El siguiente ejercicio muestra tres ejemplos de análisis estratificado. En uno de ellos hay fuerte confusión que hace parecer al factor mejor de lo que es, y en otro colectivo la confusión hace parecer al factor peor de lo que es. **Ejercicio 13.9: En cada una de tres poblaciones: España, Francia y Alemania se consideraron dos grupos de edad: jóvenes y añosas. En cada estrato se contó el número de madres expuestas al factor “E”, E+, y el número de recién nacidos con el defecto congénito “D”, D+. Calcule los riesgos específicos y RR en cada edad y los correspondientes al Total de la población, es decir, juntando jóvenes y añosas. ¿Qué relaciones numéricas causan la confusión en cada país? ESPAÑA: D Total JÓVENES E+ 60 1 000 E- 2 000 100 000 R1= R0= FRANCIA: JÓVENES RR= D Total E+ 60 1 000 R1= RR= E+ 150 50 000 R1= RR= E80 4 000 R0= E+ 5 000 R1= RR= Total 13-cap13.indd 208 E+ 6 000 100 000 R1= RR= E- 40 2 000 R0= E+ 1 000 R1= RR= E+ 2 000 R0= E- 102 000 E+ R0= E- 50 50 000 TODAS 75 20 000 R1= R0= TODAS 101 000 R1= E- 24 000 RR= E+ E- 2 002 RR= R0= R0= TODAS R1= 20 AÑOSAS 3 E2 AÑOSAS 15 ALEMANIA: JÓVENES D AÑOSAS RR= E- 90 R0= 10/2/10 22:14:46 13. DISEÑOS CASO-CONTROL 209 13.8. Análisis estratificado en diseños Caso-Control En una muestra de 515 enfermos (D = carcinoma) y otra muestra de 770 Noenfermos se indaga si habían sido fumadores (E = fumar) o no. En cada individuo se recoge la edad porque podría ser factor de confusión. La tabla que sigue da los datos ignorando la edad. El OR muestral es 0.46, es decir, en la muestra la ODD de fumadores es en enfermos 0.46 de la que es en sanos. Estimamos que la OR poblacional debe tener un valor próximo a 0.46 y si la enfermedad es de baja incidencia también el RR poblacional estará próximo a 0.46, e indica que el factor reduce aproximadamente a la mitad el riesgo de enfermedad. E+ D+ DTotal 185 E- Tot. OR Z P I.C. 348 770 0.46 6.64 <0.001 .37-.58 330 422 607 515 678 1285 El test da valor P < 0.001 por lo que rechazamos la H0 que dice que la FR de enfermos es igual en fumadores y no fumadores. Concluimos que en el grupo de fumadores sí hay menor FR de enfermos. Pero ello no implica necesariamente que el fumar disminuya la FR de enfermos. Si, por ejemplo, los fumadores fueran más jóvenes y en ellos la enfermedad es menos frecuente, la menor FR de enfermos en los fumadores se debería total o parcialmente a su juventud, no a que el tabaco reduzca el riesgo de enfermedad. Para ver esto se hace análisis estratificando por la edad. Se deciden tres grupos: jóvenes, edad mediana y viejos, y se indaga en la muestra anterior a qué grupo pertenecía cada individuo. Estos son los datos: JOVENES D+ D- Total MEDIANOS D+ D- VIEJOS E+ E- Total OR Z P I.C. 50 4 1.69 =.09 .80-19.9 2.9 4.13 <.000 1.75-4.8 2.25 2.35 =.018 1.14-43 5 30 35 7 78 85 2 48 E+ E- Total 80 290 370 20 210 230 Total 100 D+ 100 10 110 Total 500 100 600 D- E+ 400 500 E- 90 600 Total 490 Vemos que en cada estrato fumar incrementa el riesgo de enfermedad. Ese efecto solamente es estadísticamente significativo en los medianos, pero la magnitud del efecto no es muy distinta entre las tres edades, 4, 2.9 y 2.25. 13-cap13.indd 209 10/2/10 22:14:46 210 13. DISEÑOS CASO-CONTROL Las diferencias de OR en las tres muestras pueden deberse a que realmente la relación entre el tabaco y la enfermedad es diferente según las edades. Pero también podría ser la misma a nivel poblacional en las tres edades y las diferencias muestrales deberse a la VRM. Haremos un test de Homogeneidad de OR´s que plantea como H0 que el OR poblacional es igual en las tres edades, es decir, que el tabaco es igualmente perjudicial en las tres. Test de Homogeneidad de OR´s H0: OR JOVENES = OR MEDIANOS = OR VIEJOS *Si el test de homogeneidad da valor P muy pequeño, se rechaza H0, se asume que la asociación factor-enfermedad no es igual en todos los estratos y se hace el test para ORPoblacional = 1 y se calcula el IC en cada estrato. *Si el test de homogeneidad da valor P grande se acepta H0 como posible, se asume que la asociación puede ser igual en todos los estratos y se procede a estimar el OR poblacional común, a calcular un Intervalo de Confianza para ese valor común y hacer el test para la H0 que dice que ese OR Poblacional Común es 1. Los cálculos del test de homogeneidad son pesados pero los hacen los ordenadores. Pero compete al investigador interpretar el resultado obtenido. En este ejemplo el test de homogeneidad da P > 0.20, que no invita a rechazar la H0 de igualdad de OR’s en las tres poblaciones. Podemos asumir que el OR es el mismo en las tres y que las diferencias entre los OR’s muestrales son por la VRM. ¿En cuánto estimamos el OR poblacional común a los tres grupos de edad? Hay varios modos de calcular ese estimador. Uno de los más usados se llama OR COMBINADO de Mantel-Haenszel, ORM-H. Es la media de los tres OR’s muestrales ponderando cada uno por una cantidad que depende del número de individuos en algunas celdas de las tablas. La tabla que sigue da la notación y la fórmula: D+ DT0 E+ E- Tot c1 d1 m01 a1 n11 b1 n01 m11 D+ n1 Tot. D- E+ E- Tot. cK dK m0K aK n1K bK n0K m1K ORM H = nK bic i ORi ni bic i ni Los ordenadores realizan este cálculo y en nuestro ejemplo da: OR COMBINADO (Mantel-Haenszel) = 2.69 Por tanto, promediando entre las tres edades encontramos que en las muestras la OR combinada es 2.69, es decir, la ODD (número de enfermos por cada sano) es 2,69 veces mayor en expuestos que en no expuestos. Estimamos que la OR poblacional es próxima a 2.69 y si la enfermedad es de baja prevalencia estimamos que el RR poblacional también de ese orden. Pero podría ser que el OR común a las tres poblaciones fuera 1, es decir, que el tabaco fuera inocuo en cada una de las tres edades y que en las tres muestras haya salido OR > 1 por la VRM. Haremos un test que plantea como H0: OR común poblacional = 1. Se le llama test de Mantel-Haenszel y la fórmula es: 13-cap13.indd 210 10/2/10 22:14:46 13. DISEÑOS CASO-CONTROL 2 Z M H= 2 M H = [ (a d / n ) i i i 211 (bic i / ni )] 2 n 0i n1i m 0i m1i (ni 1)ni2 Los ordenadores realizan este cálculo y al investigador le corresponde interpretar los resultados. En nuestro ejemplo este test da: χ2 M-H = 24.51 gl= 1, ZM-H = 4.95 P < 0.00001 Con tan pequeño valor P rechazamos la H0, rechazamos que si hay un valor común de OR en las tres poblaciones ese valor sea 1, es decir, rechazamos que el tabaco sea inocuo en las tres edades, y concluimos que es perjudicial. Para cuantificar ese efecto negativo del tabaco calculamos el IC para el OR común poblacional. La fórmula es igual a la usada para calcular el IC para el OR de una sola población: IC(ORPOBLACIONAL ) = ORM H 1 ± Z ZM H donde ZM-H es el valor encontrado en el test anterior y Z = 1.96 para confianza de 95%. En nuestro ejemplo es ZM-H = 4.95 IC (ORPOBLAC. ) = 2.69 1± 1.96 / 4.95 = 2.69 1± 0.396 = 2.69 0.704 y 2.69 1.396 = 1.81 y 3.96 Resumiendo: Los datos son compatibles con que el efecto del tabaco sea el mismo en las tres edades multiplicando el riesgo de enfermedad por un valor que probablemente está entre 1.81 y 3.96. **Ejercicio 13.10: Se desea estudiar la relación del Factor E con la Enfermedad D. •De 14 mujeres enfermas, 12 habían estado expuestas y de 70 sanas, 40 no estuvieron expuestas. •De 8 varones enfermos, 6 habían estado expuestos y de 35 sanos, 14 no estuvieron expuestos. a.¿En cuanto estimamos el Riesgo Relativo del factor para la enfermedad en varones?¿Cree que hay asociación en esta población? b.¿En cuanto estimamos el Riesgo Relativo del factor para la enfermedad en mujeres?¿Cree que hay asociación en esta población? c.Si hubiera considerado estos datos sin distinguir a los individuos por su sexo, ¿qué habría dicho de la relación entre D y E? ¿Es estadísticamente significativa? d.El test de homogeneidad de OR´s da Chi-cuadrado = 1.43. Un autor cree que la relación entre D y E es igual en ambos sexos en población. ¿Usted qué opina? e.El valor de P en la pregunta anterior es P = 0.23 (23%) ¿Cómo interpretamos ese número en términos de frecuencia relativa? f.Otro autor cree que en población el OR es en varones 4 veces mayor que en mujeres. ¿Qué opina usted sobre esta hipótesis? 13-cap13.indd 211 10/2/10 22:14:46 212 13. DISEÑOS CASO-CONTROL +++ 13.9. Medidas de Impacto: Riesgos Atribuibles Dado un factor que aumenta el riesgo de una enfermedad en una población, la cantidad de enfermos debidos a la presencia de dicho factor es la cantidad de casos que habríamos evitado si hubiéramos suprimido el factor. Depende de la cuantía del Riesgo Relativo, de la Incidencia de la enfermedad y de la proporción de individuos expuestos. A veces es más fácil estimar qué porcentaje representa esa cantidad respecto a uno de estos tres “denominadores”: A = cantidad de enfermos y expuestos M­­­­­­1 = cantidad de enfermos N = cantidad total de individuos Veamos el cálculo en la de la tabla que sigue. Y recuerde que para calcular el “porcentaje de un porcentaje” se multiplican las proporciones. D+ D- E+ (Fuman) E- (NO Fuman) A = 640 160+ 480 B = 200 M1 = 840 P1= A/M1= 640/840 = 0.762 C = 7 360 N1 = 8 000 D = 9 800 P0= C / M0= 73 60 / 1 7160 = 0.429 R1 = 0.08 N0 = 10 000 M0 =17 160 R0 = 0.02 R = 0.046 RR = 4 N = 18 000 P = N1/ N = 8 000 / 18 000 = 0.44 En esta población hay 200 enfermos no expuestos. Esto quiere decir que este factor, si bien aumenta el riesgo de enfermar, no es el único causante de la enfermedad. De los 640 que son enfermos y expuestos hay que ver cuántos deben su enfermedad a este factor, es decir, cuántos se evitarían si se suprimiera el factor. Exceso de enfermos por fumar = Número de enfermos evitados si suprimimos E. Como el riesgo de enfermar en los no fumadores es R0 = 0.02, si los 8 000 fumadores No hubieran fumado, habrían producido 8 000 x 0.02 = 160 enfermos en vez de los 640 encontrados. Por tanto, suprimiendo el tabaco se hubieran evitado 640 - 160 = 480 enfermos. Es decir, el exceso de enfermos por fumar es 480. Veamos qué porcentaje representa esos 480 respecto a: 1. Todos los Enfermos y Expuestos (son 640): R (DE) = 480 / 640 = 0.75 = 75% 2. Todos los Enfermos (E+ y E-) (son 840): R (D) = 480 / 840 = 0.57 = 57% 3. Total de la Población (son 18 000): R (T) = 480 / 18 000 = 0.027 = 2.7% Es decir, el exceso de enfermos debidos al tabaco (el número de enfermos que se habría evitado si nadie hubiera fumado) es el 75% de los enfermos fumadores, es el 57% de todos los enfermos y es el 2.7% del total de la población. **Ejercicio 13.11: Se sospecha que beber alcohol en gran cantidad y con continuidad favorece la aparición de arteriosclerosis, AT. Un estudio Caso-Control muestra que de 80 enfermos con AT habían sido bebedores 60 y de 100 controles sanos 30 habían sido bebedores. 13-cap13.indd 212 10/2/10 22:14:46 13. DISEÑOS CASO-CONTROL 213 a.El ciudadano normal tiene un cierto riesgo de padecer AT. Si un ciudadano bebe, ¿cuánto aumenta ese riesgo? Se pide estimar por cuánto se multiplica ese riesgo a partir de los datos muestrales, si es que se puede. b.En un pueblo de 1 000 habitantes todos beben ¿Se puede estimar cuántos de ellos enfermarán de AT? c.¿Podemos afirmar que en población beber aumenta el riesgo de padecer AT? d.El valor del OR en la población no se conoce. ¿Puede calcular un IC dentro del cual tenemos 95% de confianza que estará el valor del OR poblacional? e.Estudios posteriores muestran que de cada 1 000 personas que no beben 5 contraen AT ¿Qué proporción de bebedores contraerán AT? f.En un pueblo de 20 000 habitantes la mitad son bebedores. ¿Cuántos contraerán AT? g.Si en ese pueblo nadie hubiera bebido, ¿cuántos casos de AT se habrían evitado? h.En otro pueblo beben el 20%. ¿Qué proporción de habitantes contraerán AT? i.Entre los enfermos de la pregunta anterior, ¿qué proporción de ellos son enfermos por haber sido bebedores? +++13.10. Riesgos atribuibles: Estimadores con C-C Las proporciones anteriores se pueden calcular también a partir de otros datos poblacionales y estimar a partir de los valores muestrales que estiman esos datos. 1. El exceso de enfermos dividido por el número de enfermos que fumaban es R (DE) = (RR - 1) / RR Prueba: R ( DE ) = N 1 R1 − N 1 R0 R1 − R0 R1 / R0 − R0 / R0 RR − 1 = = = N 1 R1 R1 R1 / R0 RR En nuestro ejemplo es R(DE) = (4-1) / 4 = ¾ = 0.75 2. El exceso de enfermos dividido por el número de enfermos es R (D) = R(DE) x P1 Demostración: R(DE) es la proporción del exceso de enfermos respecto a los enfermos fumadores y P1 es la proporción de enfermos fumadores respecto al total de enfermos. Por ello R(DE) x P1 es la proporción del exceso de enfermos respecto al total de enfermos. En nuestro ejemplo es R (D) = 0.75 x 0.762 = 0.57. Es decir, el 76.2% de los enfermos son fumadores y el 75% de los enfermos fumadores se habrían evitado, por tanto, se habrían evitado el 75% del 76.2%, que es el 57%. 3.El exceso de enfermos dividido por el Total de la Población es R (T) = R(D) x R 13-cap13.indd 213 10/2/10 22:14:46 214 13. DISEÑOS CASO-CONTROL Demostración: R(D) es la proporción del exceso de enfermos respecto a los enfermos y R es la proporción de enfermos respecto al total de la población. Por ello R(D) x R es la proporción del exceso de enfermos respecto al total de la población En nuestro ejemplo es R(T) = 0.57 x 0.046 = 0.027. Es decir, el 4.6% del total son enfermos y el 57% de los enfermos se habrían evitado, por tanto, se habrían evitado el 4.6% del 57%, que es el 2.7%. Las expresiones anteriores nos permiten calcular el porcentaje de enfermos debido al factor si se tienen los datos de toda la población. Pero si los datos que tenemos corresponden a una muestra Caso-Control de dicha población, podemos estimar los correspondientes valores poblacionales teniendo en cuenta que: • La OR de la muestra estima la OR de la población. •La OR de la población es similar al RR de la población si R1 y R0 son menores de 0.10 (enfermedad de baja frecuencia). Las siguientes expresiones dicen cómo se estiman esas tres proporciones a partir de una muestra Caso-Control: 1. Se estima por 2. P1 Se estima por 3. P1 R Se estima por P1 (El P1 de la muestra) P1 R La R poblacional no se puede estimar a partir de una muestra Caso-Control; solamente se puede usar si se puede estimar a partir de otras informaciones. 13-cap13.indd 214 10/2/10 22:14:48 13. DISEÑOS CASO-CONTROL 215 No olvide recordar - 13 1.La ODD de una característica es la proporción (o la cantidad) de individuos con ella dividida por la proporción (o la cantidad) de individuos sin ella y nos dice cuántos individuos la tienen por cada uno que no la tiene. 2.La ODD ratio, OR, de enfermos es la ODD de enfermos en los fumadores dividida por la ODD de enfermos en los no fumadores. La ODD ratio, OR, de fumadores es la ODD de fumadores en los enfermos dividida por la ODD de fumadores en los no enfermos. Ambas OR’s tienen el mismo valor. 3.Si el riesgo de enfermedad en fumadores y en no fumadores es pequeño, digamos inferior al 0.10, las ODD’s toman valores próximos a las proporciones y la OR toma valores próximos al RR. 4.En los estudios prospectivos se toma una muestra de, por ejemplo, fumadores y otra de no fumadores y en cada una de ellas se calcula la proporción de enfermos. Permiten estimar la proporción de fumadores que enferman, R1, la proporción de no fumadores que enferman, R0, y su cociente, llamado Riesgo Relativo, RR. 5.En los estudios Caso-Control se toma una muestra de enfermos y otra de no enfermos y en cada una de ellas se calcula la proporción de ellos que fumaban. Permiten estimar la proporción de enfermos que fumaban, pero no la proporción de fumadores que enferman. 6.Con un estudio Caso-Control se estima la OR de fumadores y por tanto la OR de enfermos y si el riesgo de enfermedad es pequeño, el RR del tabaco para esa enfermedad. 7.Si la enfermedad es menos frecuente que el factor, el muestreo Caso-Control tendrá potencia estadística muy superior al muestreo prospectivo. 8.La no relación en la población entre el factor y la enfermedad se corresponde con RRPoblacional = 0RPoblacional = 1. 9.El test estándar plantea como H0 que en la población es OR = 1 y el valor PUNIL del test da la probabilidad de encontrar muestras con OR tan alejado de 1 como el de nuestra muestra o aún más alejado en la misma dirección, si es 0RPoblacional = 1 (es el mismo que el test para comparar dos proporciones independientes). 10.Cuando existe otro posible factor que puede confundir la relación entre el factor principal y la enfermedad, se estratifica por él y se hace test de homogeneidad de OR´s seguido de estimación, test e IC del ORCOMÚN, si procede o de estimación, test e IC del OR de cada estrato, si procede. 13-cap13.indd 215 10/2/10 22:14:48 216 13. DISEÑOS CASO-CONTROL EJERCICIO DE AUTOEVALUACIÓN - 13 Califique cada afirmación de las que aparece a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que sea verdadera tiene que serlo en su totalidad). 1.En los estudios prospectivos se toma una muestra de expuestos al factor y otra de no expuestos y en cada una de ellas se calcula la proporción de enfermos. 2.Los estudios prospectivos permiten estimar la proporción de expuestos que enferman, R1, la proporción de no expuestos que enferman, R0, y su cociente, llamado Riesgo Relativo, RR. 3. El Riesgo Relativo nos dice cuál es el riesgo de enfermar en los expuestos. 4. El Riesgo Relativo nos dice cuál es el riesgo de enfermar en los no expuestos. 5.El Riesgo Relativo nos dice cuánto mayor (o menor) es el riesgo de enfermar en los expuestos que en los no expuestos. 6.En los estudios Caso-Control se toma una muestra de enfermos y otra de no enfermos y en cada una de ellas se calcula la proporción de ellos que estaban expuestos. 7.Los estudios Caso-Control permiten estimar la proporción de enfermos que están expuestos, pero no la proporción de expuestos que enferman. 8.La ODD de una característica es la proporción (o la cantidad) de individuos con ella dividida por la proporción (o la cantidad) de individuos sin ella. 9.ODD = 4 indica que tiene la característica uno de cada cuatro individuos. 10.ODD = 4 indica que hay cuatro individuos sin la característica por cada individuo con ella. 11.ODD = 4 indica que hay cuatro individuos con la característica por cada individuo que no la tiene. 12.La ODD nos dice cuantos individuos tienen la característica por cada uno que no la tiene. 13.La ODD Ratio, OR, de enfermos es la ODD de enfermos en los expuestos dividida por la ODD de enfermos en los no expuestos. 14.La ODD Ratio, OR, de expuestos es la ODD de expuestos en los enfermos dividida por la ODD de expuestos en los no enfermos. 15.Ambas OR’s tienen el mismo valor solamente si la enfermedad es poco frecuente. 16.Ambas OR’s tienen el mismo valor solamente si el factor es poco frecuente. 17. Ambas OR’s tienen el mismo valor siempre. 18.Si el riesgo de enfermedad en expuestos y en no expuestos es pequeño, digamos inferior al 0.10, las ODD’s toman valores próximos a las proporciones. 19.Si el riesgo de enfermedad en expuestos y en no expuestos es pequeño, digamos inferior al 0.10, la OR toma valores próximos al RR. 13-cap13.indd 216 10/2/10 22:14:48 13. DISEÑOS CASO-CONTROL 217 20.Con un estudio Caso-Control se puede estimar la OR poblacional de expuestos y, por tanto, la OR poblacional de enfermos y, si el riesgo de enfermedad es pequeño, se estima el RR del factor para esa enfermedad. 21.Potencia estadística de un estudio que intenta descubrir la relación entre un factor y una enfermedad es la probabilidad de detectar que hay asociación entre el factor y la enfermedad a nivel poblacional, cuando realmente la hay. 22.Potencia estadística de un estudio que intenta descubrir la relación entre un factor y una enfermedad es la probabilidad de detectar que hay asociación entre el factor y la enfermedad a nivel poblacional si realmente no la hay. 23.Los estudios Caso-Control tienen más potencia estadística que los prospectivos. 24.Los estudios Caso-Control tienen menor potencia estadística que los prospectivos. 25.Si la enfermedad es poco frecuente y el factor afecta a una considerable proporción de la población, el muestreo Caso-Control tendrá potencia estadística muy superior al muestreo prospectivo. 26.Si la enfermedad es muy frecuente y el factor afecta a una pequeña proporción de la población, el muestreo Caso-Control tendrá potencia estadística muy inferior al muestreo prospectivo. 27. En la población puede ser RR = 1 y OR > 1. 28. En la población puede ser RR = 1 y OR < 1. 29. La “no relación” en la población entre factor y enfermedad implica RR = 0R = 1. 30.Si en la población no hay relación entre el factor y la enfermedad, en la muestra tampoco la habrá. 31. Si en la población es RR = OR = 1, la OR muestral también será 1. 32. Prácticamente en todas las muestras se encontrará OR distinto de 1. 33.El test estándar plantea como H0 que en la población es OR = 1 y el valor PUNIL del test da la probabilidad de encontrar muestras con OR tan alejado de 1 como el de nuestra muestra o aun más alejado en la misma dirección. 13-cap13.indd 217 10/2/10 22:14:48 13-cap13.indd 218 10/2/10 22:14:48 Capítulo 14 Tablas de Contingencia En una muestra de 300 personas se clasifican según el grupo de edad al que pertenecen y según la cantidad de deporte que hacen. Mucho deporte = D2 Deporte moderado = D1 No deporte = D0 Total Adolescente AD 16 Joven JO 10 12 8 52 42 80 60 Maduro MA 2 2 16 20 Viejo VI Total 2 30 34 144 4 40 26 200 Para estudiar la relación entre estas dos variables, haremos como en el Capítulo 3, la DF de Deporte condicionado a edad. AD JO MA VI Total 0.10 0.13 Mucho deporte = D2 0.20 0.17 0.10 0.05 No deporte = D0 0.65 0.70 0.80 0.85 Deporte moderado = D1 Total 0.15 0.13 1 1 0.10 1 1 0.15 0.72 1 Entre los adolescentes hacen mucho deporte el 20% (= 16 / 80), deporte moderado el 15%, y no hacen el 65%. En esta muestra la distribución de deporte no es igual en las 4 edades. Y nos preguntamos si también en la población habrá diferencias. La muestra nunca permite asegurar que en población sean iguales las distribuciones (aunque en las muestrales fueran muy parecidas o incluso iguales), pero puede permitir sospechar que en población no lo son, si en la muestra son muy diferentes. Planteamos como H0 que las poblacionales son iguales y se rechaza si es muy improbable que las muestrales sean tan diferentes como las de nuestra muestra o aún más diferentes. El valor P del test nos da esa probabilidad. 219 14-cap14.indd 219 10/2/10 22:14:56 220 14. Tablas de Contingencia En este capítulo vemos la Inferencia con estas Tablas de Contingencia que se forman al relacionar variables cualitativas o cuantitativas agrupadas en intervalos. 14.1. Tablas r x c: R muestras con C categorías En general, hablamos de tablas de contingencia “R x C” siendo “R” el número de filas (de row en inglés) y C el número de columnas. Veamos un ejemplo de tabla 3 x 3. En una muestra de N = 200 individuos se estudia la relación entre raza (“A”, “B” y “C”) y resistencia a las infecciones (baja, media, alta). La tabla a la izquierda da el número de individuos en cada raza y resistencia. A B C Total Baja 2 12 26 40 Datos Media Alta Total 30 18 60 22 48 100 16 26 60 40 100 200 FR de resistencia en cada raza Baja Media Alta .20 .50 .30 .05 A B .26 C Total .55 .48 .20 .50 .40 .26 .30 1 1 1 Vemos en los marginales que hay 40 de la raza A, 60 de B y 100 de C y que hay 40 con resistencia baja, 100 con media y 60 con alta. La tabla de la derecha da las FR de individuos de cada tipo de resistencia condicionada a cada raza. Vemos que la resistencia tiene las cifras más favorables en la raza A (40% alta y 5% baja) y las menos favorables en C (26% alta y 26% baja). Se plantea como H0 que raza y resistencia son independientes en población, es decir, la DF de la resistencia es igual en las tres razas. Si en la muestra la DF de la resistencia es parecida en las tres Razas, no rechazaremos H0, y si la DF muestral de la Resistencia es muy diferente entre las razas, rechazaremos H 0. El cálculo del valor P del test puede ser pesado pero todos los paquetes informáticos lo dan. Aquí resulta ser 0.08. Si fuera cierta la H0, diferencias muestrales como estas o mayores aparecerían por azar en 8 de cada 100 veces que repitiéramos el estudio. No hay evidencia fuerte contra H0, no queda probado que la evolución sea diferente en alguna de las razas. Cuanto mayores son las diferencias entre las distribuciones muestrales menor es el valor P. La siguiente tabla tiene datos muy parecidos a la anterior pero algunas diferencias aumentadas (en la raza C ahora hay 42 individuos con resistencia baja y 10 con alta). A B C Total Baja 2 12 42 56 Datos Media Alta Total 30 18 60 22 48 100 16 10 44 40 100 200 Resistencia para cada raza A B C Total Baja Media Alta .20 .50 .30 .05 .42 .23 .55 .500 .50 .40 .10 .22 1 1 1 Ahora es P = 0.00001 14-cap14.indd 220 10/2/10 22:14:56 14. Tablas de Contingencia 221 Y unas mismas diferencias es más fácil que aparezcan por azar cuando los tamaños son menores. En la siguiente tabla las FR de resistencia son iguales que en la anterior pero el tamaño de las muestras es la mitad: Baja A Datos Media 1 B 11 6 15 21 C Total Total 8 20 9 24 23 Alta A 30 5 50 Resistencia para cada raza B 50 22 C 100 Total Baja .05 Media Alta .55 .20 .40 .50 .42 .30 1 .10 .500 .23 1 .50 1 .22 Ahora es P = 0.00400 **Ejercicio 14.1: Calcule con un programa estadístico el valor P de las tres tablas anteriores de este apartado. Veamos ahora un ejemplo de tabla 2 x 4. En la variable “Evolución” de los pacientes con neumonía se consideran C = 4 categorías: mal, regular, bien y muybien. Se compara la evolución en una muestra de 40 casos causados por bacterias frente a la evolución de otra muestra de 60 casos causados por virus. VALORES ABSOLUTOS Bacteria MAL REG BIEN M-B Tot MAL 6 15 15 24 60 .10 Virus 16 12 8 4 40 .40 PROPORCIONES REG BIEN M-B .25 .25 .40 .30 .20 .10 En la muestra de 40 casos bacterianos el 40% (16/40) evolucionan mal, el 30% (12/40) regular, etcétera. En las muestras observamos que la evolución no es igual en las dos etiologías. Es más favorable en la vírica. Pero podría ser que las FR poblacionales fueran iguales en ambas etiologías. Planteamos esa H0 y se encuentra P = 0.0004. Nos da la prob de que por azar aparezcan diferencias entre las DF muestrales como estas o aún mayores, si no hubiera diferencias entre las DF poblacionales. Invita a pensar que la evolución no es igual en las dos poblaciones. En el último apartado se explica el cálculo del valor P, pero lo importante para el investigador no es saber hacer ese cálculo, sino interpretarlo correctamente cuando lo calcula el ordenador o lo lee en las publicaciones científicas. Es obvio que el valor P es menor cuanto más se diferencian entre sí las distribuciones muestrales y/o cuanto mayores son las muestras. En la siguiente tabla las diferencias entre las distribuciones muestrales son menores que en la anterior Bacterias Virus MAL REG BIE M-B Total MAL REG BIE M-B 12 15 15 18 .20 .25 .25 .30 16 12 8 4 40 60 .40 .30 .20 .10 Aquí es P = 0.04. Pero esas mismas diferencias entre las dos distribuciones muestrales es más difícil que aparezcan por la VRM con muestras mayores. En la tabla siguiente las FR son iguales, pero el tamaño de las muestras es el doble. 14-cap14.indd 221 10/2/10 22:14:56 222 14. Tablas de Contingencia Bacterias Virus MAL REG BIE M-B Total MAL REG BIE M-B 24 30 30 36 120 .20 .25 .25 .30 32 24 16 8 80 .40 .30 .20 .10 Ahora es P = 0.0009. Es más difícil que aparezcan estas diferencias. 14.2. Comparación de varias proporciones Retomemos la tabla de contingencia 3 x 4 de la introducción: Adolescente AD Mucho deporte = D2 Deporte moderado = D1 Total Maduro MA 8 (0.13) 2 (0.10) 4 (0.10) 26 (0.13) 34 (0.85) 40 144 (0.72) 16 (0.20) 10 (0.17) 52 (0.65) 42 (0.70) 16 (0.80) 60 20 12 (0.15) No deporte = D0 Joven JO 80 Viejo VI 2 (0.10) 2 (0.05) Total 30 (0.15) 200 Cada celda da la frecuencia absoluta y la FR respecto al total de esa edad. Aquí la H0 es que en población la DF de deporte es la misma en todas las edades. El test da P = 0.34, por lo que no la rechazamos. Los datos no son evidencia fuerte a favor de que la práctica del deporte varíe con la edad. Pero podemos continuar el análisis juntando ambos grupos de deportistas en uno solo. Así la tabla de 2 x 4 es: Deporte, D No deporte Total % D+ AD JO MA VI Total 52 42 16 34 144 28 80 0.35 18 60 0.30 4 20 0.20 6 40 0.15 56 200 0.28 De los 80 adolescentes, 28 son deportistas, un 35%, de los 60 jóvenes 18 son deportistas, un 30%), etc. Como la DF de deporte para cada edad tiene solamente dos posibles valores (deportistas y no deportistas) y como las FR de ambas suman la unidad, la situación queda descrita dando solamente una de ellas. Para destacarlas más se registran en la última fila. Ahora se trata de comparar estas cuatro proporciones y la H0 es que en población las 4 son iguales. Se quiere ver si las diferencias observadas en las muestras pueden deberse al azar o son tan grandes que llevan a rechazar H0. El test da P = 0.11. Las diferencias muestrales no son suficiente evidencia a favor de que haya diferencias en población. Si las distintas muestras se pueden ordenar a priori por algún criterio, además del test anterior puede estudiarse si la proporción de casos “positivos” crece o decrece progresivamente con la variación de dicho criterio. En este ejemplo las cuatro situaciones se han ordenado de menor a mayor edad. El test de Tendencia 14-cap14.indd 222 10/2/10 22:14:56 14. Tablas de Contingencia 223 Lineal propone como H0 que no hay crecimiento ni decrecimiento progresivo al aumentar la edad. Los cálculos para obtener el valor P son tediosos, pero los hace el ordenador. Se obtiene P = 0.01, es decir, si en población la proporción de deporte no crece ni decrece progresivamente con la edad, en 1 de cada cien veces que repitiéramos este estudio encontraríamos una tendencia decreciente como la de nuestra muestra o aún mayor. Es una notable evidencia contra la H0 y a favor de que la proporción de deporte disminuye con la edad en la población. Para ver las diferencias entre el test general, que detecta cualquier tipo de diferencias entre las FR de los 4 grupos, y el test de Tendencia Lineal, que detecta específicamente crecimiento o decrecimiento progresivo, consideremos estos datos, muy parecidos a los de la tabla anterior, pero están intercambiadas las proporciones de deporte en Jóvenes y Viejos. Aquí la proporción de deporte es 0.15 en los Jóvenes y 0.30 en los Viejos. Deporte, D+ No deporte Total % D+ AD 28 52 80 0.35 JO 6 34 40 0.15 MA 4 16 20 0.20 VI 18 42 60 0.30 Total 56 144 200 0.28 El test general da P = 0.11, como antes, puesto que son los mismos 4 grupos. Pero el de Tendencia Lineal ahora da P = 0.55, puesto los grupos están ordenados de distinta forma y ahora ya no se ve una tendencia decreciente. Aún podemos considerar otra variación de los datos. La siguiente tabla es muy parecida a la anterior pero la proporción de deporte es mayor que antes en adolescentes y en viejos. Al ser mayores las diferencias entre las 4 proporciones muestrales esperamos un valor P menor en el test general. Deporte, D+ No deporte Total % D+ AD JO MA VI Total 36 34 16 30 144 44 80 0.55 6 40 0.15 4 20 0.20 30 60 0.50 56 200 0.28 Obtenemos P = 0.0002 para el test general que plantea la hipótesis de igualdad de FR poblacionales, pero sigue sin haber tendencia al crecimiento o decrecimiento al aumentar la edad, por lo que para el test de Tendencia Lineal esperamos un valor de grande. En efecto, los cálculos dan P = 0.56. Con estos datos concluiríamos que la FR poblacional de deporte no es igual en las cuatro edades, pero no concluiríamos que esas FR aumenten o decrezcan progresivamente al aumentar la edad. **Ejercicio 14.2: Si se dispone de un paquete estadístico, calcular el valor P de Tendencia Lineal de la tabla anterior. 14-cap14.indd 223 10/2/10 22:14:56 224 14. Tablas de Contingencia 14.3. Colapsando tablas En algunos casos puede ayudar al análisis fundir dos o más categorías en una sola, si la naturaleza del problema lo permite. En el apartado anterior se colapsaron las celdas de mucho y moderado deporte en una sola, generando la tabla: Deporte, D+ No deporte Total % D+ AD JO MA VI Total 52 42 16 34 144 0.30 0.20 0.15 0.28 28 80 0.35 18 60 4 20 6 56 40 200 Para la H0: en población la FR de deporte es igual en las 4 edades, el valor P = 0.11 no es evidencia contra ella. Como en la muestra la FR de deporte es menor en las edades superiores, se analizó específicamente la Tendencia Lineal al decrecimiento con el aumento de la edad y se encontró P = 0.01, que es un notable aval a la sospecha de que hay esa tendencia en la población. Otro enfoque podría ser considerar que debido a la presión de la vida laboral y a las costumbres imperantes la bajada en la FR real (es decir, en población) de deporte se produce sobre todo al pasar de joven a maduro. Podemos plantear como H0 que la FR es en población igual en adolescentes y jóvenes, mientras que también es muy parecida en maduros y viejos, pero menor que en las edades juveniles. Para analizar esa H0 colapsamos las dos primeras columnas y las dos últimas, teniendo entonces solo dos grupos de comparación: adolescentes y jóvenes frente a maduros y viejos. Deporte, D+ No deporte Total % D+ AD + JO MA + VI Total 94 50 144 0.17 0.28 46 140 0.33 10 60 56 200 En la muestra la diferencia en la FR de deporte entre esos dos grupos etáreos es 0.33 - 0.17 = 0.16 y el test que plantea como H0 que en población esa diferencia es cero, da P = 0.0116, es decir, notable evidencia de que la FR de deportistas es en población mayor en el primer grupo. El hecho de tener solamente dos grupos permite expresar las diferencias de proporciones de deporte mediante un número, en este caso 0.16, y calcular un IC para el valor poblacional de esa diferencia. En este caso el IC al 95% sería 0.04 – 0.28. La FR de deporte en la población es entre 4 y 28 puntos mayor en el primer grupo. Como segundo ejemplo de colapso veamos de nuevo los datos de la tabla donde se comparaba la resistencia a la infecciones en tres razas: 14-cap14.indd 224 10/2/10 22:14:56 14. Tablas de Contingencia Datos originales A Baja Media 2 B 22 12 C 40 60 18 48 40 Total 16 30 26 Total Alta 100 26 100 60 200 225 FR de cada nivel de resistencia en cada raza Baja Media .05 A .2 B Total .40 .50 .26 C Alta .55 .30 .48 .20 1 1 .26 .50 1 .30 En la muestra hay diferencias moderadas entre las tres razas, pero el valor P era 0.08, solamente una modesta evidencia contra la H0. Si el investigador tuviera motivos previos a la obtención de los datos para pensar que quizá la resistencia es semejante en B y C, podría: a)Hacer test comparando B contra C para confirmar que las diferencias muestrales entre ellos son compatibles con la igualdad en población. b)Si el anterior test no da un valor P muy pequeño, se puede hacer un test comparando A contra B+C. a) Comparando B contra C: B Datos Baja C 12 Media Alta Total 48 26 100 30 26 60 18 FR de Resistencia en cada raza Baja Media Alta .26 .48 .26 .20 B C .50 1 .30 1 En el test da P = 0.66. Las divergencias muestrales bien pueden ser por azar. b) Comparando B+C contra A: A B+C Total Baja Media Alta 38 78 44 2 22 40 100 Total 16 40 60 200 160 A B+C Total Baja Media .237 .468 .050 .20 Alta .550 .400 .50 .30 1 .275 1 Ahora es P = 0.023 que constituye cierta evidencia a favor de que hay diferencias entre estos dos grupos. Podría ahora considerase, si fuera lógico hacerlo independientemente de la observación de los datos, que quizá la FR con evolución media es en población muy similar en los dos grupos étnicos ahora considerados, pero puede haber diferencia entre baja y alta. Para comparar alta contra baja se forma esta tabla excluyendo a los de la clase media Blanca Neg+Orie Total 14-cap14.indd 225 Baja Alta Total 38 44 82 2 40 16 60 18 100 A B+C Total Baja Alta .46 .54 .11 .20 .89 .30 1 1 10/2/10 22:14:56 226 14. Tablas de Contingencia y se plantea como H0 que la FR poblacional de alta es igual en ambos grupos. Ahora es P = 0.003. Al tratarse de la comparación de dos FR, lo más adecuado es dar su diferencia en las muestras y el IC para el valor de esa diferencia en la población. En este ejemplo diríamos que una vez excluidos los de clase media, la FR con resistencia alta es en A 0.35 mayor que en los B+C (0.89 – 0.54 = 0.35) y que el IC al 95% es 0.17 y 0.53. Las posibilidades de colapsar tablas son muchas, pero deben basarse en razones lógicas independientemente de la observación de los datos. 14.4.El tipo de muestreo en las Tablas de Contingencia A los datos de una Tabla de Contingencia se puede llegar a través de diferentes tipos de muestreo. Dependiendo de cómo hayan sido muestreados los individuos de la población, podremos estimar unas u otras FR poblacionales. Muestreo 1. Reconsideremos el ejemplo en que se toma una muestra de cada una de tres razas y una vez tomada se cuenta el número de personas con cada nivel de resistencia. El investigador decidió estudiar 40 de raza A (2 resultaron tener baja resistencia, 22 media y 16 alta), 60 de B y 100 de C. Estos son los datos: Datos originales A B C Total Baja Media Alta Tot 12 30 18 60 2 26 40 22 48 100 16 26 60 40 100 200 FR de cada nivel de Resistencia en cada Raza A B C Total Baja Media Alta .20 .50 .30 .05 .26 .20 .55 .48 .50 .40 .26 .30 1 1 1 La FR muestral de personas con cada nivel de resistencia en cada raza estima la correspondiente FR poblacional y a partir del valor muestral se puede calcular el IC para el valor poblacional. Por ejemplo, en los A la FR poblacional con resistencia baja se estima con 2 / 40 = 0.05 y la FR poblacional de C con resistencia media se estima con 48 / 100 = 0.48. Pero con este muestreo no se puede estimar la FR poblacional de cada nivel de resistencia ignorando la raza. Aunque en la población muestreada no hubiera otras razas aparte de A, B y C, la FR de personas con resistencia alta en la población general no se puede estimar con 60 / 200 = 0.30, porque ese valor depende de cuantos individuos se haya decidido tomar de cada raza. Y de igual forma, 40 / 200 = 0.20 no estima la FR poblacional con resistencia media, ni 60 / 200 = 0.30 estima la FR de individuos con resistencia alta en la población. Y, por ejemplo, con las muestras tomadas de esa forma la FR marginal de A en esa tabla (40 / 200 = 0.20) no refleja la FR de A en la población general, al igual que 100 / 200 = 0.5 no estima la FR de C en la población. Y de la misma forma ocurre con las distribuciones de raza condicionadas a resistencia: la FR de B con- 14-cap14.indd 226 10/2/10 22:14:56 14. Tablas de Contingencia 227 dicionada a resistencia media en esa tabla (30 / 100 = 0.30) no refleja la FR de B en la población de personas con resistencia media, y 16 / 60 = 0.27 no estima la FR de A en la población de personas con alta resistencia. Muestreo 2. Los datos de la tabla que estamos comentando podrían haberse obtenido tras tomar: una muestra de 40 sujetos con resistencia baja una muestra de 100 sujetos con resistencia media una muestra de 60 sujetos con resistencia alta y contar en cada una de ellas los que había de cada raza, Datos originales Baja Media Alta Tot B 12 30 18 60 Total 40 A C 2 26 22 48 100 16 26 60 40 100 200 FR de cada Raza en cada nivel de Resistencia A B C Total Baja Media Alta .30 .30 .30 .05 .65 1 .22 .48 1 .27 .2 .43 .5 1 .3 En ese caso la FR de A en la población de personas de resistencia baja sí se estima por 2 / 40 = 0.05 Y la FR de B condicionada a resistencia media en esa tabla (30 / 100 = 0.30) sí refleja la FR de B en la población con resistencia media. Pero no se puede estimar la FR de A en la población general, pues el número de A depende de cuántos individuos de cada resistencia se decidió estudiar en las muestras. Muestreo 3. Otro modo de muestrear habría sido tomar una muestra aleatoria de 200 individuos de la población general y contar el número de ellos de cada raza y cada resistencia. En este caso tanto las distribuciones marginales de la tabla como las condicionadas en ambos sentidos estiman las correspondiente FR poblacionales, siempre teniendo en cuenta la VRM. De la misma forma que los distintos tipos de muestreos permiten estimar unas FR y otras no, también permiten plantear unos tests y otros no. Si es de interés, puede hacerse un test que plantee, por ejemplo, como H0 cierta distribución de razas en la población (este test no tendría sentido hacerlo con el muestreo 1, en el que el investigador decidió tomar esas cantidades de individuos de cada raza). Con el tipo 3 de muestreo podemos plantear, por ejemplo, la H0 que dice que en la población hay 30% de A, 30% de B y 40% de C. En el último apartado de este capítulo vemos cómo hacer este test. El test para independencia entre las dos variables, raza y resistencia, se realiza e interpreta del mismo modo que cuando se toma una muestra de cada raza. +++14.5. Cálculo para test con Tablas de Contingencia Para hacer el test hay que calcular en primer lugar los Valores Esperados bajo la H0. El valor esperado de cada celda se calcula multiplicando el total de la fila por el total de la columna y dividiendo ese producto por el total de la tabla. En el ejemplo de las neumonías era 14-cap14.indd 227 10/2/10 22:14:57 228 14. Tablas de Contingencia VALORES ABSOLUTOS Bacterias Virus MAL REG BIE M-B Total MAL 6 15 15 24 60 .10 16 22 12 27 8 23 4 28 40 100 .40 PROPORCIONES REG BIE M-B .25 .25 .40 .30 .20 .10 Valor Esperado de la casilla MAL-Bacterias: E = 40 x 22 / 100 = 8.8 Valor Esperado de la casilla MAL-Vírico: E = 60 x 22 / 100 = 13.2 Del mismo modo se hace para el resto de las celdas. La tabla siguiente da todos los valores Esperados, los totales de cada fila y columna sumando estos valores esperados. Puede verse que esos totales son los mismos que con los observados. También se ve que las FR condicionadas a la etiología en esta tabla de valores esperados son iguales en las dos causas. Esto ocurre siempre con los valores esperados. Es decir, los valores Esperados son el número de pacientes que tendría que haber de cada etiología y cada evolución (cada casilla de la tabla) para que, con los mismos tamaños de muestra, las dos distribuciones condicionadas fueran iguales. VALORES ESPERADOS Bacterias Virus Total PROPORCIONES CON LOS VALORES ES P ERADOS MAL REG BIE M-B Total MAL REG BIE M-B 13.2 16.2 13.8 17.4 60 .21 .27 .23 .29 8.8 21 10.8 27 9.2 23 11.6 29 40 100 .21 .27 .23 .29 Cuanto mayor es la divergencia entre las dos distribuciones muestrales, la condicionada a bacterias y la condicionada a virus, mayor es la distancia entre los valores Observados y los Esperados. Esa divergencia se resume mediante un estadístico con dos sumatorios (uno para recorrer todas las filas y el otro todas la columnas), que tendrá tantos sumando como celdas haya en la tabla de contingencia: 2 χ 2 C −1 = ∑ 1 C ∑ 1 ( Ei − Oi ) 2 Ei En nuestro ejemplo el sumatorio abarca a las 8 casillas de la tabla. χ2= (16 - 8.8)2 / 8.4 + (6 – 13.2)2 / 13.2 + . . . = 18 Cuando las dos distribuciones muestrales son iguales, los Oi (observados) son iguales a los Ei (esperados) y χ2 es cero. Y cuanto más divergen las dos distribuciones muestrales más se alejan los Oi de los Ei y mayor es χ2. Pequeños valores de χ2, pueden deberse al azar y no son evidencia contra la H0. Cuanto mayor sea el valor χ2 de la muestra, más evidencia es contra la H0. Para encontrar el valor P habría que construir una población donde se cumple la H0, hacer MA, es decir, sacar millones de parejas de muestras aleatorias y ver en cuántas de ellas el valor χ2 es igual o mayor que en la de nuestro estudio. 14-cap14.indd 228 10/2/10 22:14:57 14. Tablas de Contingencia 229 Los programas informáticos de estadística calculan el valor χ2 de cada estudio y el valor P que le corresponde. También se puede encontrar el valor P que corresponde a cada χ2 en la tabla Chi-cuadrado, al final del libro. En este ejemplo se buscaría el valor P en la fila correspondiente a 3 “grados de libertad”, gl. En general, el número de gl es el número de filas menos uno multiplicado por el número de columnas menos uno. Con esas tablas no se puede calcular el valor P detalladamente, pero se puede saber si es mayor o menor que ciertas cantidades. Con 3 gl al valor χ2 = 11.24 le corresponde P = 0.01 y a χ2 = 12.84 le corresponde P = 0.005. Como a medida que aumenta χ2 disminuye P, a χ2 = 18 (el obtenido con nuestros datos) le corresponde P < 0.005. Con esta tabla no se puede ser más precisos. El valor P = 0.0004 que se dio inicialmente lo proporciona el paquete informático. **+++ Ejercicio 14.3: Se pretende saber si la distribución poblacional de grupos sanguíneos es igual en franceses y españoles. Para ello tomamos una muestra de cada país, y encontramos que quedan distribuidas de la siguiente forma: España Francia Total 15 ( 9( 0 ) ) 12 ( 12 ( A ) ) 8( B 18 ( ) ) 5( AB 21( Total ) 40 ) a.Calcule los totales de filas y de columnas y la FR de cada tipo en cada país. b. Calcule el valor P del test e interprete esa cantidad como frecuencia relativa. +++ 14.6. Una muestra con C categorías Un caso muy particular —y menos frecuente— de tablas de contingencia es el de “tablas” de dimensión 1 x C, que se generan cuando tenemos una sola muestra y sus individuos se clasifican en C categorías posibles. Consideremos una enfermedad cuya distribución estacional (por estaciones del año) poblacional en 1950 era prácticamente la misma en toda la tierra: Proporción poblacional de casos en cada estación Otoño .30 Invierno .40 Primavera .10 Verano .10 Los expertos creen que debido al cambio climático se ha modificado esa distribución. Para analizar el tema se estudian muestras de N = 40 enfermos en cuatro regiones y en cada una se mira la estación en la que ocurrió cada caso. Se han anotado las distancias de cada FR de la muestra (pi) a la frecuencia relativa de la población en 1950 (Πi): 14-cap14.indd 229 10/2/10 22:14:57 230 14. Tablas de Contingencia Otoñ. I n v i e . Prima. Verano FR poblacional de casos en cada estación en 1950 América: FR en la muestra actual de N = 40 Asia: FR en la muestra actual de N = 40 Australia: FR en la muestra actual de N = 40 Europa: FR en la muestra actual de N = 40 πi = pi = pi - πi = pi = pi - πi = pi = pi - πi = pi = pi - πi = .30 .40 .30 0.00 .35 -0.05 .20 -0.10 .25 .0.15 .20 -0.10 .05 -0.25 .35 -0.05 .15 -0.25 .20 .10 .20 0.00 .15 +0.05 .35 +0.15 .20 +0.10 .25 +0.05 .50 +0.30 .20 +0.10 .30 +0.20 •Las frecuencias observadas en América son muy próximas a las poblacionales de 1950, por lo que esa muestra no es evidencia contra la H0 que dice que las proporciones poblacionales actuales en América son como las de 1950. •Las frecuencias observadas en Europa son muy lejanas a las poblacionales de 1950, por lo que esa muestra es fuerte evidencia contra la H0 que dice que en Europa las proporciones poblacionales actuales son como las anteriores. •Las FR observadas en Asia se alejan de las poblacionales de 1950 un poco más que las americanas. ¿Son los datos de Asía compatibles con la H0 que dice que en Asia las proporciones poblacionales actuales son como las de 1950? Unos investigadores pueden pensar que esos datos son compatibles con la H0 y por ello no constituyen evidencia contra ella; otros pueden inclinarse a pensar que las FR muestrales se alejan demasiado de las poblacionales de 1950, por lo que esa muestra es evidencia contra la H0. La Inferencia Estadística puede ayudar calculando el valor P del test, que es la prob de que en una muestra de ese tamaño aparezcan FR como las de nuestro estudio o aún más alejadas de las de 1950 si las FR poblacionales de Asia son como las de 1950. Para resumir en un solo número las distancias de los pi a los πi, de las FR muestrales a las poblacionales, se suma del cuadrado de esas distancias en cada celda divididas por los respectivos valores de πi y todo ello multiplicado por N, el tamaño de la muestra: Este estadístico, χ2, que se lee “Chi-cuadrado”, es cero si los pi coinciden exactamente con los πi y es mayor cuanto mayor sea la divergencia entre los pi y los πi. Para esta muestra es: χ2 = 40 [0.12 / 0.3 + 0.052 / 0.4 + 0.052 / 0.2 + 0.12 / 0.1 ] = 40 · 0.1521 = 6.1 Pequeños valores de χ2, no constituyen evidencia contra la H0. Pero esa evidencia es mayor cuanto mayor sea el valor χ2 de la muestra. El valor P de este test indica cuan probable es que, siendo cierta la H0, salga por azar un valor χ2 como el de nuestra muestra o aún mayor, es decir, que salgan muestras con FR observadas tan discrepantes de las esperadas como las de nuestra muestra o aún 14-cap14.indd 230 10/2/10 22:14:57 14. Tablas de Contingencia 231 más discrepantes. En la tabla siguiente se da el valor de P para cada una de las muestras estudiadas: Prop. poblacional en 1950 América: N = 40 Asia: N = 40 Australia: N = 40 Europa: N = 40 Otoño I n v i e r. Primav. Verano .30 .35 .20 .15 .25 .35 .30 .20 .20 .05 .40 .35 .15 20 .25 .50 .10 .20 .20 .30 Chi-Cuadrado P 1.3 0.74 12.0 0.007 6.1 48.6 0.11 0.00000001 El valor P = 0.74 dice que en el MA de una población donde se cumple H0, es decir, se da la distribución estacional de la enfermedad en 1950 (las πi son 0.3, 0.4, 0.2 y 0.1), en 74 de cada 100 muestras de N = 40 salen FR tan diferentes de las poblacionales como las de esa muestra o aún más diferentes. Y el valor P = 0.11 dice que en el MA de una población donde se cumple H0, en 11 de cada 100 muestras de N = 40 salen FR tan diferentes de las poblacionales como las de esa muestra o aún más diferentes. El valor P lo calculan los programas estadísticos. Si no se tiene a mano uno de ellos, la tabla de Chi-Cuadrado, al final del libro, da los valores de χ2 correspondientes a algunos valores de P. Para usarla debe tenerse en cuenta la cantidad llamada “grados de libertad”, gl, que en estos casos es el número de celdas menos uno. Con esas tablas no se puede calcular el valor P detalladamente, pero se puede saber si es mayor o menor que ciertas cantidades. Fíjese en la explicación que aparece al pie de la tabla y compruebe que, por ejemplo, para la muestra de Asia con 3 gl el valor χ2 = 6.1 no aparece en la tabla, pero en ella se ve en la fila de 3 gl que el valor más próximo es χ2 = 6.25 que tiene asociado un valor P = 0.10 (en la cabecera de la columna). Como a medida que aumenta χ2 disminuye P, en nuestro ejemplo el valor P sería mayor de 0.10, suficiente como para concluir que los datos observados en la muestra de Asia son compatibles con la H0. 14-cap14.indd 231 10/2/10 22:14:57 232 14. Tablas de Contingencia No olvide recordar - 14 1.Estudiamos situaciones en las que los individuos de una muestra quedan clasificados según la distribución conjunta de dos variables (o en más de dos grupos según el valor de una variable cualitativa o cuantitativa agrupada) 2.Las Tablas R x C se generan cuando los individuos de una muestra se clasifican conjuntamente según dos variables, una con R categorías y la otra con C categorías; o cuando se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías; o cuando se toman C muestras y en cada una los individuos se clasifican según una variable con R categorías. 3.En las Tablas R x C la Hipótesis nula planteada es que las dos variables son, en población, independientes, es decir, las DF de cada variable son iguales para cada valor de la otra variable. Si en la muestra la DF de una de las variables es “parecida” en los distintos niveles de la otra no rechazaremos la H0, la aceptaremos como posible; en caso contrario rechazaremos H0. 4.En las Tablas R x C los valores Esperados son los valores que tendría que haber en la tabla para que, con los mismos tamaños de muestra, las distribuciones condicionadas fueran iguales, es decir, para que se cumpla en la muestra lo que propone la H0 para la población. Cuanto mayor es la divergencia entre las distribuciones muestrales mayor es la distancia entre los valores Observados y los Esperados. 5.+++ La divergencia en Tablas R x C se cuantifica mediante el estadístico llamado Chi-Cuadrado, donde los sumatorios recorren uno las filas y el otro las columnas de modo que habrá tantos sumando como casillas haya en la tabla (R x C casillas). R ( Ei − Oi ) 2 Ei 1 C χ 2C −1 = ∑ ∑ 1 6.+++ Las Tablas 1 x C se generan cuando en una muestra hacemos la Distribución de Frecuencias, DF, de una variable en la que consideramos C categorías. Planteamos como Hipótesis que las frecuencias relativas de individuos en cada categoría tienen en población ciertos valores: π1, π2 …, πC. y vemos si las frecuencias encontradas en la muestra: p1, p2,…pC son compatibles con dichos valores poblacionales. 14-cap14.indd 232 10/2/10 22:14:57 14. Tablas de Contingencia 233 EJERCICIO DE AUTOEVALUACIÓN - 14 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.Las Tablas R x C se generan cuando los individuos de una muestra se clasifican conjuntamente según dos variables, una con R categorías y la otra con C categorías. 2.Las Tablas R x C se generan cuando se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías. 3. Las Tablas R x C se generan cuando se toman C muestras y en cada una los individuos se clasifican según una variable con R categorías. 4. Si una Tabla R x C se genera porque los individuos de una muestra se clasifican conjuntamente según dos variables, todas las frecuencias relativas de la tabla, marginales y condicionadas, estiman sus homólogas poblacionales. 5.Si una Tabla R x C se genera porque los individuos de una muestra se clasifican conjuntamente según dos variables, solo las frecuencias relativas marginales de la tabla estiman sus homólogas poblacionales. 6.Si una Tabla R x C se genera porque los individuos de una muestra se clasifican conjuntamente según dos variables, solo las FR condicionadas de la tabla estiman sus homólogas poblacionales. 7.Si una Tabla R x C se genera porque los individuos de una muestra se clasifican conjuntamente según dos variables, ninguna de las frecuencias relativas de la tabla, marginales y condicionadas, estiman sus homólogas poblacionales. 8.Si una Tabla R x C se genera porque se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías, las C frecuencias relativas muestrales de cada categoría no estiman sus homólogas poblacionales. 9.Si una Tabla R x C se genera porque se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías, las C frecuencias relativas muestrales de cada categoría estiman sus homólogas poblacionales. 10.Si una Tabla R x C se genera porque se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías, las C FR muestrales marginales de cada categoría estiman sus homólogas poblacionales. 11. Si una Tabla R x C se genera porque se toman R muestras y en cada una los individuos se clasifican según una variable con C categorías, las C FR muestrales marginales de cada categoría no estiman sus homólogas poblacionales. 12. Con una Tabla R x C la Hipótesis nula planteada es que las 2 variables son, en población, independientes. 13.Con una Tabla R x C la H0 planteada es que la variable con C categorías tiene en población la misma distribución en todos los niveles de la otra variable. 14-cap14.indd 233 10/2/10 22:14:57 234 14. Tablas de Contingencia 14.Si en la muestra la DF de una de las variables es “parecida” en los distintos niveles de la otra, rechazaremos la H0. 15.Si en la muestra la DF de una de las variables es “parecida” en los distintos niveles de la otra no rechazaremos la H0, la aceptaremos como posible. 16.Si en la muestra la DF de una de las variables es “muy diferente” en los distintos niveles de la otra, rechazaremos la H0. 17. Si en la muestra la DF de una de las variables es “muy diferente” en los distintos niveles de la otra, no rechazaremos la H0, la aceptaremos como posible. 18.Los valores Esperados son los valores que tendría que haber en la tabla para que, con los mismos tamaños de muestra, las DF condicionadas fueran iguales. 19.Los valores Esperados son los valores que tendría que haber en la tabla para que se cumpla exactamente la igualdad de las distribuciones en las muestras. 20.Cuanto mayor es la divergencia entre las distribuciones muestrales menor es la distancia entre los valores Observados y los Esperados. 21. Cuanto mayor es la divergencia entre las distribuciones muestrales mayor es la distancia entre los valores Observados y los Esperados. 22.La divergencia entre los valores esperados y los observados se cuantifica mediante el estadístico llamado Chi-Cuadrado. 23. Para calcular el estadístico Chi-Cuadrado, en cada celda se divide el cuadrado de la diferencia entre el valor observado y el esperado, por el esperado. Ese cociente se suma para todas las celdas. 24.El valor P del test nos dice la probabilidad de obtener muestras en que las distribuciones de una variable condicionada a cada nivel de la otra se diferencian entre sí tanto como lo hacen en nuestra tabla de contingencia o más aún. 25.El valor P del test nos dice la probabilidad de obtener muestras en que las distribuciones de una variable condicionada a cada nivel de la otra se asemejan entre sí tanto como lo hacen en nuestra tabla de contingencia o más aún. 14-cap14.indd 234 10/2/10 22:14:57 Capítulo 15 ANÁLISIS DE VARIANZA En el Capítulo 9 estudiamos la Inferencia con una media y en el 10 la Inferencia con dos medias. En este se ve la Inferencia con tres o más medias. Si tenemos k grupos de individuos y en ellos medimos una variable cuantitativa, tenemos k medias muestrales. Si se plantea la hipótesis nula que dice que las medias poblacionales son iguales H0: µ1 = µ2 = ... = µK el Análisis de Varianza (ANOVA) es la técnica que nos permite calcular el valor P correspondiente, es decir, la prob de encontrar medias muestrales tan dispares entre sí como las nuestras o aún más dispares, si la medias poblacionales son iguales (en estas situaciones no es lícito hacer tests-t comparando cada pareja de medias) • Si H0 es cierta esperamos medias muestrales, M, no muy diferentes: M 1 ≅ M 2 ≅ ⋅⋅⋅⋅ ≅ M K • M ´s muy “parecidas” no son evidencia contra la H0, pues las pequeñas diferencias entre ellas pueden aparecer por azar. M´s muy “distintas” unas de otras constituyen evidencia contra H0, pues es muy improbable que ocurra eso en las muestras si las medias poblacionales son iguales. ¿Cuán grandes tienen que ser las diferencias entre las medias muestrales para que nos hagan pensar que en las poblacionales no son iguales? No hay respuesta única para esta cuestión. El test Anova calcula el valor P y, como en todos los tests, cuanto menor es el valor P, más evidencia proporciona contra la H0. 235 15-cap15.indd 235 10/2/10 22:15:06 236 15. ANÁLISIS DE VARIANZA 15. 1. La salida típica con los resultados del Anova Veremos los cálculos fundamentales del ANOVA analizando este ejemplo. Se mide el Coeficiente Intelectual, CI, (en unidades especiales) en muestras de 4 razas diferentes (3 individuos en cada una), obteniéndose medias muestrales de 11, 19, 8 y 18. El objetivo del Anova es ver si las diferencias entre estas medias muestrales son compatibles con que las poblacionales sean iguales o más bien sugieren que hay diferencias entre las medias poblacionales. Celtas Judíos Arios Gitanos 12 21 8 16 8 17 7 21 13 19 9 17 M 11 19 8 18 Varianza S2 7 4 1 7 SC ES 14 8 1.53 2 1.15 14 0.58 1.53 Estos resultados muestrales obtenidos pueden resumirse en una gráfica donde para cada raza se representa la media (M) ± el Error Estándar (ES): Los programas informáticos que hacen este test producen como salida esta tabla: ENTRE DENTRO SC gl MC F P SCD = 38 3 8 86 18.1 0.0006 SCE = 258 4.75 Veamos en detalle cada una de estas entradas. 15.2. Suma de Cuadrados y Media Cuadrada DENTRO de grupos • S uma de Cuadrados Dentro, SCD = 38 es la suma de las Suma de Cuadrados en todos los grupos implicados. SCD = 14 + 8 + 2 + 14 = 38. Es mayor cuanto mayor es la dispersión de los valores individuales respecto a la media de su grupo. 15-cap15.indd 236 10/2/10 22:15:06 15. ANÁLISIS DE VARIANZA 237 • G rados de Libertad Dentro, glD = 8 es la suma de los tamaños de todos los grupos menos el número de tratamientos: glD = 12 - 4 = 8. También se obtiene como la suma de los tamaños de cada grupo menos 1: glD = 2 + 2 + 2 + 2 = 8 • Media Cuadrada Dentro, MCD = SCD /glD = 38 / 8 = 4.75. Mide la dispersión de los valores de la variable dentro de los grupos. Cuando los grupos son del mismo tamaño se puede calcular como el promedio de las cuasivarianzas muestrales, S2, en los K grupos (K = 4 razas). MCD= (7 + 4 + 1 + 7) / 4 = 19 / 4 = 4.75 15.3. Suma de Cuadrados y Media Cuadrada ENTRE grupos • S uma de Cuadrados Entre, SCE = 258 es la Suma de Cuadrados entre las medias de los grupos multiplicada por el tamaño de ellos, si todos son de igual tamaño. Con grupos de diferentes tamaños el cálculo es similar (se verá en un apartado posterior). En este ejemplo las medias muestrales son 11, 19, 8 y 18. La media de las 4 medias es 14 y la Suma de Cuadrados entre las medias es: (11 – 14)2 + (19 – 14)2 + (8 – 14)2 + (18 – 14)2 = 86. Multiplicando por 3, que es el tamaño de los grupos, se obtiene SCE = 86 · 3 = 258. • Grados de Libertad Entre, glE = 3 es el número de grupos menos 1: 4 -1 = 3 • Media Cuadrada Entre, MCE = SCE /glE = 258 / 3 = 86. Mide las diferencias entre las medias muestrales: es cero cuando todas son iguales y es mayor cuanto más difieren entre sí dichas medias. Los datos son más difícilmente compatibles con la H0 cuanto más diferentes son las medias muestrales, es decir, cuanto mayor es la MCE. La idea básica es: –Medias muestrales parecidas, implica MCE pequeña, esto es, datos compatibles con la H0, que no constituyen evidencia contra ella. –Medias muestrales muy diferentes, implica MCE grande, esto es, datos difícilmente compatibles con la H0, que constituyen evidencia contra ella. ¿Cuán grande tiene que ser la MCE para que sea fuerte evidencia contra la H0? Depende de cuán dispersa sea la variable estudiada. Un mismo valor de MCE es más indicativo de que hay diferencias entre las medias poblacionales, si la variable es poco dispersa (MCD pequeña) que si es una variable muy dispersa (MCD grande). 15.4. La razón de medias cuadradas o Razón F y el valor P En la evidencia contra la H0, lo relevante no es el valor absoluto de la MCE, sino cuánto supera a la MCD. La relación entre MCE y MCD se cuantifica por su cociente, llamado Razón de Medias Cuadradas, Razón de Varianzas o valor F. F = MCE / MCD 15-cap15.indd 237 10/2/10 22:15:06 238 15. ANÁLISIS DE VARIANZA Los datos contienen más evidencia contra la H0 cuanto mayor sea F. ¿Y qué valores de F son suficientemente “grandes” como para hacernos pensar que H0 no es cierta? Depende del valor P que le corresponde. El valor P nos dice la prob de que con medias poblacionales iguales aparezca un valor F tan grande como el de nuestros datos o aún mayor, es decir, que aparezcan medias muestrales tan distintas entre sí como las nuestras o aún más distintas. Todos los programas estadísticos que hacen los cálculos del Anova dan el valor P correspondiente. Ocasionalmente el investigador puede tener que hallar el valor F con calculadora y el valor P correspondiente consultando las tablas estadísticas para F. Una versión resumida de ellas se da al final del libro y al final de este apartado se explica su uso. Un valor P grande dice que el valor F obtenido en nuestros datos puede aparecer fácilmente cuando las medias poblacionales son iguales, por lo que no es evidencia contra esa igualdad. Un valor P muy pequeño dice que el valor F obtenido es difícil que aparezca siendo iguales las medias poblacionales, por lo que los datos son evidencia contra la hipótesis de igualdad. La evidencia contra la H0 es mayor cuanto menor es P (es decir, cuanto mayor es F). En la tabla que sigue resumimos las 4 cantidades finales del cálculo en el Anova. Nombre Media Cuadrada Entre, MCE Media Cuadrada Dentro, MCD Razón de varianzas, F Valor P del test Cantidades del ANOVA Lo que mide Ejemplo Dispersión de esa variable 4.75 Las diferencias entre las medias muestrales MCE / MCD P (F ≥ que la obtenida si se cumple H0) 86 18.1 0.0006 Interpretación del valor P: si no hay diferencias entre las medias poblacionales y se repitiera este estudio millones de veces, F tomaría valores en torno a 1 en la mayoría de los estudios y solo 6 cada 10 000 veces sería, por la Variabilidad y Regularidad propias del Muestreo, VRM, igual o mayor que 18.1. Es decir, solo en 6 de cada 10 000 repeticiones aparecen medias muestrales tan diferentes entre sí como las de nuestro estudio o aún más diferentes, si son iguales las medias poblacionales. Este valor de P es fuerte evidencia contra la H0, nos lleva a rechazarla y pensar que no son iguales la 4 medias poblacionales. Esto no quiere decir que las cuatro sean diferentes. El Análisis Postanova que se ve más adelante nos permitirá establecer entre qué medias hay realmente diferencias. El ejemplo 1 a continuación es el utilizado antes. En el ejemplo 2, a la derecha, la dispersión de la variable es la misma (iguales varianzas muestrales e igual MCD) que en el 1, pero las medias muestrales son más parecidas entre sí. La MCE, que antes era 86 ahora es 8.75. El valor F baja de 18.1 a 1.84, y es P = 0.22. 15-cap15.indd 238 10/2/10 22:15:06 15. ANÁLISIS DE VARIANZA Ejemplo 1 Jud Ari Git Cel Jud Ari Git 8 17 7 21 8 8 7 15 21 13 19 11 19 7 S2 Ejemplo 2 Cel 12 M 239 4 MCD= 4.75 F = 18.1 8 16 9 8 12 17 13 7 7 18 1 12 10 11 MCE= 86 9 10 4 MCD= 4.75 P = 0.0006 8 F = 1.84 8 1 10 11 12 7 MCE= 8.75 P = 0.22 El valor P del Anova depende también de la dispersión de la variable, que se mide por la MCD. En el ejemplo 3 a continuación hay iguales medias muestrales que el 1º, pero con mayor dispersión dentro de cada grupo, MCD = 24.7. Por ello, el cociente F es menor que en el ejemplo 1 y el valor P es mayor. Es más fácil obtener esas diferencias entre medias muestrales con una variable que tiene mayor dispersión. Ejemplo 3 Cel Jud 6 15 14 M S2 23 13 11 19 Ari Git 3 25 8 19 13 16 25 19 16 13 8 18 MCD= 24.7 MCE = 86 39 F = 3.47 P = 0.07 **Ejercicio 15.1: a.Comentar los datos de la siguiente tabla explicando por qué se obtiene un valor P mayor que en los tres supuestos anteriores: Celtas 14 6 M S2 Judíos 14 6 Arios Gitanos 3 19 8 13 10 13 19 16 25 11 10 8 10 7 12 39 MCD= 24.7 MCE= 8.75 F = 0.35 P= 0.79 b.Explicar qué indica P = 0.79 diciendo qué evento ocurre 79 cada 100 veces. ** Ejercicio 15.2: Para comparar la eficacia de tres técnicas del tratamiento del dolor producido por una intervención quirúrgica, se aplica a un grupo de 5 individuos un analgésico “A”, a otros 5 un analgésico “B” y a un tercer grupo 15-cap15.indd 239 10/2/10 22:15:06 240 15. ANÁLISIS DE VARIANZA de 5 individuos una técnica de acupuntura: “C”. En cada paciente se anotó el tiempo, en minutos, que tardó en remitir el dolor obteniéndose: Tratamiento “A”: 10 – 5 – 8 – 6 – 11 Media con “A” = 8 SC(A) = 26 Tratamiento “B”: 10– 15– 13– 11– 16 Media con “B” = 13 SC(B) = 26 Acupuntura: 7 – 6 – 5 – 4 – 3 Media con “Ac.” = 5 SC(Acup) = 26 a.¿Qué técnica estadística emplearía para analizar estos datos?, es decir, ¿qué test utilizaría para hacer inferencia? b. ¿Cual es la Hipótesis Nula que se plantea? (Enúnciela breve y claramente y en los términos del enunciado del problema). c. Calcule: SC DENTRO, MC DENTRO, SC ENTRE y MCENTRE. d. Calcule el valor F del test. e.Si el valor P del test Anova es P = 0.0004, ¿qué concluimos respecto a la eficacia comparativa de los tres tratamientos? f. ¿Cómo interpretaría ese valor de P? Todos los programas estadísticos dan el valor P del test a partir de F y de los grados de libertad Dentro y Entre. En su defecto se usan la “tabla F de Snedecor” que aparece al final del libro. Solamente nos da los valores de F que corresponden a P = 0.05 y a P = 0.01. De ese modo podemos saber si al valor F de nuestro estudio le corresponde P mayor de 0.05 o menor de 0.01 o entre 0.05 y 0.01. En la tabla se busca la columna que tiene en su cabecera los gl E. Y se busca la fila que tiene en su cabecera los gl D. En el primer ejemplo del primer apartado era gl E = 3, gl D= 8 y F = 18.2. En el cruce de la columna “3” y la fila “8” vemos F 0.05 = 4.07 y F 0.01 = 7.59. Esto quiere decir que si hubiéramos obtenido con nuestros datos valor F = 4.07, le correspondería valor P del test de 0.05, y si hubiéramos obtenido F = 7.59 sería P = 0.01 (a mayor valor F, menor valor P). Como en nuestros datos es F = 18.2, su valor P es menor de 0.01. 15.5. Los fundamentos lógicos del Análisis de Varianza Recordemos (Capítulo 7) cómo se distribuyen las medias muestrales, M, en el Muestreo Aleatorio, MA. Sea la variable “X” que se distribuye en una población con media µx y desviación σx. Hagamos MA y consideremos la población formada por las medias muestrales: M1, M2, M3 , . . . . . . , M1 000 , . . . . . . . , M1 000 000 . . . . . . . . . M1000 000 000 . . . Tendremos tantas medias como muestras saquemos en el MA. Cualquiera que sea la forma de la distribución de X y con cualquier N (pero el mismo en todas las muestras) se cumple: µM= µX σ 2 M = σ 2 X / N Es decir, la media de todas las medias muestrales es igual a la media de los individuos y la varianza entre las medias muestrales es igual la varianza entre los individuos dividida por N. 15-cap15.indd 240 10/2/10 22:15:06 15. ANÁLISIS DE VARIANZA 241 Por ejemplo, si la variable “X” tiene µx = 400 y σ2x = 100 y se hace MA de tamaño N = 25, la media y la σ2 del conjunto de las medias muestrales del MA son: µ M = 400 y σ2M = 100 / 25 = 4 Esta relación, σ2M = σ2X / N, es la base de todos los “Análisis de Varianza”, “Análisis de Covarianza” y “Diseños Factoriales”. σ2M nos informa de la dispersión entre las medias muestrales y σ2X nos informa de la dispersión entre los individuos. Esa relación entre σ2M y σ2X también se puede escribir así: σ 2 M ·N = σ 2 X Es decir, la varianza entre las medias muestrales multiplicada por N es igual a la varianza entre los individuos. Y también se puede expresar así: σ 2 M · N / σ 2 X = 1 Es decir, si la varianza entre las medias muestrales multiplicada por N se divide por la varianza entre los individuos, el cociente es 1. En la práctica el investigador no toma “millones de muestras” de una población. Lo que hace es tomar un pequeño número de ellas, y aplicar a cada una un tratamiento. Si los tratamientos no modifican la variable en estudio las diferencias entre las k medias muestrales se deberán solamente a la VRM y la cuasivarianza entre ellas tendrá un valor próximo a la σ2M que se obtendría si se tomaran millones de muestras. Por el contrario, si algunos de los tratamientos modifican la variable en estudio, algunas de las medias serán mayores o menores que si no hubiera esos efectos y la cuasivarianza entre las k medias muestrales será considerablemente mayor de σ2M. La idea básica del ANOVA es: –Calcular la cuasivarianza entre las K medias y multiplicarla por N. Eso es precisamente la MCE. –Si los tratamientos no hacen efecto, esa MCE tendrá un valor próximo a la varianza entre los individuos, σ2X. Pero como esta varianza tampoco se conoce, se estima por la MCD. Es decir, si los tratamientos no modifican la variable, la MCE tendrá un valor próximo a la MCD y el cociente F = MCE / MCD tomará un valor próximo a la unidad. – Si algunos de los tratamientos modifican la variable, las medias de esas muestras estarán aumentadas o disminuidas, las diferencias entre las medias muestrales serán mayores, la MCE será mayor y el cociente F será mayor de 1 (recordemos que la H0 es que los tratamientos no modifican la variable ). • La MCD de nuestro estudio estima σ2X siempre. • La MCE de nuestro estudio estima σ2M·N si H0 es cierta. Si H0 es cierta, es σ2M · N = σ2X MCE ≈ MCD MCE / MCD ≈ 1 15-cap15.indd 241 10/2/10 22:15:06 242 15. ANÁLISIS DE VARIANZA **Ejercicio 15.3: Para ver si los tratamientos A, B y D modifican la variable “X” en ratas se toman 4 muestras aleatorias de N = 4 cada una. Una muestra se deja intacta como control y a cada una de las otras se le aplica uno de los tratamientos. Control SC B 17 7 12 21 15 19 18 M A 11 14 23 8 16 9 17 12 20 D 9 21 14 17 Varianza S2 a. La media de las medias es: b. La varianza de la población, σ2X, se estima por la MCD = c. Si los tratamientos no modifican “X” la varianza entre las medias muestrales debe ser próxima a σ2X / 4, es decir próxima a MCD / 4, es decir, próxima a: d. La MCE es la varianza entre las medias muestrales multiplicada por N MCE = [ (14-15)2 + ( -15)2 + ( -15)2 + ( -15)2 ] / 3 ] 4= e. El cociente F nos dice cuanto mayor es la MCE que la MCD y vale F = f.Pero ese valor de la varianza entre medias muestrales podría, quizá, haber aparecido por la variabilidad propia del muestreo. El valor P del este test nos dice cuál es la probabilidad de que la varianza entre medias muestrales sea tan grande como la de nuestro estudio si los tratamientos no modifican “X”. En este caso es P = 0.0007. Explique lo que indica esa cantidad. +++ 15.6. La Homogeneidad de Varianzas En teoría el valor P del ANOVA, que llamaremos “P-Anova” solamente coincide con el “P-verdadero” si se cumplen, las mismas condiciones que en la comparación de dos medias (Apartado 10.9 y siguientes): Normalidad y Homogeneidad de Varianzas. Respecto a esta condición deben tenerse en cuenta estos hechos: a) Robustez del ANOVA ante la no homogeneidad de varianzas El valor P-Anova es bastante próximo al P-verdadero aunque las varianzas poblacionales sean moderadamente distintas. En la jerga estadística esto se expresa diciendo que el ANOVA es bastante robusto ante la no homogeneidad de varianzas. La discrepancia entre el P-Anova y el P-verdadero aumenta progresivamente al aumentar las diferencias entre las varianzas poblacionales. Pero no está cuantificada esa relación. Simulaciones con ordenador muestran que la aproximación aún es buena cuando unas varianzas poblacionales triplican a otras. 15-cap15.indd 242 10/2/10 22:15:06 15. ANÁLISIS DE VARIANZA 243 b) Imposibilidad de afirmar la homogeneidad de varianzas Nunca se conocen las varianzas poblacionales y por ello nunca se puede tener la seguridad de que sean exactamente iguales. La única pista que tenemos sobre ellas es la observación de las varianzas muestrales, que siempre presentarán algunas diferencias entre ellas, aun en el caso de que las poblacionales sean iguales. Cuando las varianzas muestrales son “parecidas” se asume que las poblacionales son iguales o suficientemente parecidas entre sí para que el P-Anova se aproxime mucho al P-verdadero. Cuanto más diferencias hay entre las varianzas muestrales más riesgo hay de que haya diferencias grandes entre las poblacionales y de que el P-Anova se aleje sensiblemente del P-verdadero. c) Test de homogeneidad de varianzas Hay tests estadísticos que plantean como H0 la HOMOGENEIDAD DE VARIANZAS y su valor P nos dice la prob de encontrar muestras con varianzas tan distintas entre sí como las de nuestro estudio o aún más distintas, si las poblacionales son iguales. Cuanto mayor sea el valor P de este test menos evidencia tenemos contra la Homogeneidad de Varianzas, pero los valores de P grandes no son evidencia a favor de la homogeneidad de varianzas, solo son falta de evidencia para rechazarla. Y no hay un valor P frontera. Por ello no se puede simplificar la situación diciendo que si este test da P > 0.05 hay homogeneidad y el P-Anova es el P-verdadero, mientras que si P < 0.05, no hay homogeneidad y el P-Anova no es el P-verdadero. Solamente con valor P muy pequeño el test de homogeneidad nos indica claramente que no hay tal homogeneidad. Pero aun en este caso hay que tener en cuenta la mencionada robustez del Anova frente a la no homogeneidad. Debe estar clara la diferencia entre el test ANOVA, (para comparar medias), y el test de HOMOGENEIDAD DE VARIANZAS (para comparar varianzas): • Test ANOVA para comparar medias: – H0: iguales medias poblacionales. –La evidencia contra la H0 es mayor cuanto más distintas son las medias muestrales. –El valor P dice la probabilidad de encontrar medias muestrales tan distintas como las de nuestro estudio o aún más distintas, si las medias poblacionales son iguales. –El P-Anova coincide exactamente con P-verdadero solo si hay homogeneidad de varianzas. • Test de HOMOGENEIDAD DE VARIANZAS: – H0: iguales varianzas poblacionales. –La evidencia contra la H0 es mayor cuanto más distintas son las varianzas muestrales. –El valor P dice la probabilidad de encontrar varianzas muestrales tan distintas como las de nuestro estudio o aun más distintas, si las varianzas poblacionales son iguales. 15-cap15.indd 243 10/2/10 22:15:06 244 15. ANÁLISIS DE VARIANZA +++ 15.7.El test de Homogeneidad de Varianzas tiene poca potencia estadística cuando son muestras pequeñas La Potencia estadística de un test de Homogeneidad de Varianzas es la prob de detectar que las varianzas no son iguales cuando realmente no lo son. Poca potencia quiere decir que aun cuando las varianzas sean desiguales el test de homogeneidad da valores P que no invitan especialmente a rechazar la hipótesis de igualdad. En el ejemplo 4 que aparece a continuación la varianza muestral, S2, mayor es 7 veces mayor que la menor (175 / 25 = 7). Estos datos son compatibles, obviamente, con que en la población haya diferencias de varianzas de ese orden. Pero el test de Homogeneidad de Varianzas da P = 0.66, mostrando que también lo son con la homogeneidad de varianzas poblacionales. Es decir, si las varianzas poblacionales fueran iguales y repitiéramos este estudio millones de veces, en 66 de cada 100 repeticiones las varianzas muestrales diferirían entre sí tanto como estas o más. Por tanto, es bastante fácil obtener varianzas muestrales tan diferentes como las obtenidas en este ejemplo, si las varianzas poblacionales fueran iguales. Es decir, incluso con tanta diferencia entre las varianzas muestrales no hay evidencia de que las poblacionales sean diferentes. En el ejemplo 5 las varianzas muestrales son aún más diferentes. La mayor es 196 veces mayor que la menor. Y a pesar de ello el valor P del test de homogeneidad es 0.08, lo que constituye solamente modesta evidencia contra la hipótesis de homogeneidad de varianzas. M S2 Ejemplo 4 Cel Jud Ari Git 60 105 40 80 40 85 35 105 65 95 45 85 55 95 40 90 175 100 25 175 MCD = 118.6 MCE = 2150 F = 18.1 P = 0.0006 2 2 S max / S min = 175 / 25 = 7 H0: Varianzas poblacionales iguales P = 0.66 Ejemplo 5 Cel Jud Ari Git 60 105 40 80 40 85 39 106 65 95 41 84 55 95 40 90 175 100 1 196 MCE = 2150 MCD = 118 F = 18.2 P = 0.0006 2 2 S max / S min = 196 / 1 = 196 H0: Varianzas poblacionales iguales P = 0.08 +++ 15.8. Tests No Paramétricos para comparar más de dos medias Los llamados Tests no Paramétricos no asumen homogeneidad de varianzas. El más conocido para comparar más de dos medias es el de Kruskal-Wallis. En cada uno de los 6 ejemplos siguientes se estudian 4 muestras, con 3 individuos en cada muestra, obteniéndose las medias, M, y varianzas muestrales, S2, que se indican. Para cada uno de ellos se realiza el test Anova (en el que se plantea como H0 que las 4 medias poblacionales son iguales), el test de homogeneidad de varianzas (en el que se plantea como H0 que las 4 varianzas poblacionales son iguales) y el test de 15-cap15.indd 244 10/2/10 22:15:07 15. ANÁLISIS DE VARIANZA 245 Kruskal-Wallis (alternativa del Anova cuando no se pueden asumir homogeneidad de varianzas). En cada uno de estos tests se obtienen los valores de P indicados. M S2 M S2 M S2 Ejemplo 1 19 8 18 4 1 7 ANOVA: P= 0.0006 Homog. Varianzas: P = 0.66 Kruskal-Wallis: P = 0.03 Ejemplo 3 11 19 8 18 19 16 25 39 ANOVA: P= 0.07 Homog. Varianzas: P = 0.94 Kruskal-Wallis: P = 0.07 Ejemplo 5 55 95 40 90 175 100 25 175 ANOVA: P= 0.0006 Homog. Varianzas: P = 0.66 Kruskal-Wallis: P = 0.03 11 7 Ejemplo 2 10 8 12 4 1 7 ANOVA: P= 0.22 Homog. Varianzas P = 0.66 Kruskal-Wallis: P = 0.20 Ejemplo 4 11 10 8 12 19 16 25 39 ANOVA: P= 0.79 Homog. Varianzas: P = 0.94 Kruskal-Wallis: P = 0.80 Ejemplo 6 55 95 40 90 175 100 1 196 ANOVA: P= 0.0006 Homog. Varianzas: P = 0.08 Kruskal-Wallis: P = 0.03 11 7 De estos resultados podemos hacer los siguientes comentarios: Ejemplo 1 vs. Ejemplo 2: –La varianzas muestrales son iguales en los dos ejemplos, por lo que el valor P del test de homogeneidad de varianzas es el mismo: P = 0.66. Este valor no nos invita a concluir que las varianzas poblacionales sean diferentes, por lo que sería perfectamente lícito hacer Anova. –Las medias muestrales son más diferentes en el ejemplo 1 que en el 2, lo que se refleja en un valor P (tanto del test Anova como el de KruskalWallis) mayor en el ejemplo 2 que en el 1. Las conclusiones para ambos tests son similares: no hay evidencia en contra de la igualdad de medias poblacionales en el ejemplo 2 (las medias poblacionales pueden ser iguales) y sí hay tal evidencia en el ejemplo 1 (las medias de las poblacionales de las que salieron las muestras no son iguales). Ejemplo 3 vs. Ejemplo 4: –La varianzas muestrales son iguales en los dos ejemplos, por lo que el valor P del test de homogeneidad de varianzas es el mismo, P = 0.94. Es perfectamente lícito hacer Anova. –La conclusión de los dos tests que plantean que no hay diferencias entre las medias poblacionales entre los 4 grupos (Anova y Kruskal-Wallis) es la misma ya que sus valores P son similares (en los dos ejemplos): Mayores diferencias muestrales del ejemplo 3 hace que se obtengan valores de P menores (P = 0.07) que en el 4 (P en torno a 0.80). 15-cap15.indd 245 10/2/10 22:15:07 246 15. ANÁLISIS DE VARIANZA Ejemplo 5 vs. Ejemplo 6: –La varianzas muestrales (en los dos ejemplos) son bastantes diferentes entre sí, por lo que los valores P del test de homogeneidad de varianzas son muy diferentes: P = 0.66 y 0.08. Estos valores no nos permiten concluir que las varianzas poblacionales sean diferentes en el ejemplo 5, pero hay indicios de que puedan serlo en el ejemplo 6. En el primer caso es perfectamente lícito hacer Anova, pero tenemos serias dudas respecto al segundo. –Como las diferencias entre las medias muestrales son iguales en los ambos ejemplos, los valores P y las conclusiones de los dos tests que plantean que no hay diferencias entre las medias poblacionales entre los 4 grupos (Anova y Kruskal-Wallis) es la misma ya que sus valores P son los mismos en los dos ejemplos, mostrando una clara evidencia contra la H0 planteada en el test de Anova, pero no muy clara en el de Kruskal-Wallis (en la mayoría de los casos los tests No-Paramétricos son más conservadores que sus correspondientes paramétricos, es decir, con ellos se obtienen, para el mismo conjunto de datos, valores de P más grandes). **Ejercicio 15.4: Analice estos datos con Kruskal-Wallis y con Anova y comente los resultados obtenidos con cada uno de los dos métodos. Grupo A (N = 7) 1 , 1 , 2 , 3 , 4 , 7 , 10. Grupo B (N = 6) 4 , 4 , 6 , 6 , 8 , 8. Grupo C (N = 5) 8 , 11 , 12 , 13 , 16. **Ejercicio 15.5: Se mide el efecto de 4 fármacos: A , B , C y D sobre cierta variable X en 4 grupos independientes, cada uno con 5 individuos. Los datos son: Medias SC ES A 7 10 8 10 15 10 38 1.38 B 13 17 17 18 20 17 26 1.14 C 4 11 11 14 15 11 74 1.92 D 14 98 2.21 GL MC F 9 14 11 14 22 Media = Σ= a. Haga el test correspondiente para comparar las cuatro medias muestrales, suponiendo que no se asume Distribución Normal en las poblaciones, ni Homogeneidad de Varianzas. b. Haga Anova: SC TOTAL ENTRE 19 ; P DENTRO c.Compare los resultados obtenidos en los dos apartados anteriores y resuma las conclusiones obtenidas. 15-cap15.indd 246 10/2/10 22:15:07 15. ANÁLISIS DE VARIANZA 247 +++ 15.9. La condición de Normalidad Otra de las razones, además de que no se cumpla la homogeneidad de varianzas, por las que el P-Anova no es igual al P-verdadero es que la variable cuantitativa medida en los individuos (coeficiente intelectual, en nuestro ejemplo) no se distribuya de modo Normal en cada una de las poblaciones estudiadas (en las cuatro razas, en nuestro ejemplo). Pero a partir de las muestras estudiadas ¿cómo comprobar si esto se cumple? 1.Puesto que no conocemos los valores de todos los individuos de cada una de las poblaciones, no podemos saber con certeza si la variable se distribuye o no de modo Normal. A partir de las observaciones de cada muestra lo único que podemos hacer es un test de NORMALIDAD, que plantea como H0 que la variable se distribuye de modo Normal en cada una de las poblaciones implicadas. Valores de P bajos muestran clara evidencia en contra de la hipótesis y valores de P altos nos llevarían a pensar que la hipótesis puede ser cierta, pero no proporcionan certeza de que lo sea. 2.El test de Normalidad tiene poca potencia estadística cuando las muestras son pequeñas (que es la situación más común en investigación). Aunque los datos muestrales se distribuyan de forma muy diferente a la Normal, el valor P del test no será lo suficientemente pequeño como para pensar en rechazar la hipótesis de ajuste Normal (lo que nos llevaría a poder realizar el test Anova de forma lícita). 3.El Anova es robusto ante la no normalidad. Es decir, aun con distribuciones poblacionales que se alejan moderadamente de la normalidad, el valor PAnova se aproxima mucho al P-verdadero. +++ 15.10. Anova con tamaños desiguales Si los tamaños de las muestras no son todos iguales el cálculo de la SCENTRE es un poco más trabajoso, pero de ello se encargan generalmente los ordenadores. No obstante, cuando los tamaños son pequeños el cálculo del valor F se puede hacer en pocos minutos con ayuda de una calculadora elemental. Con tamaños desiguales la SCENTRE se calcula multiplicando para cada muestra el cuadrado de la diferencia entre la media de esa muestra y la media total por el número de individuos de dicha muestra, y sumando para todas las muestras. Veámoslo en este ejemplo con tamaños 10, 2, 4 y 4. Un grupo de 20 personas están clasificadas según el nivel de agresividad (Nada = 1, Poco = 2, Media = 3 y Mucha = 4). En cada una se mide su rendimiento en el trabajo en una escala con valores de 0 a 20. La media total es 200 / 20 = 10 15-cap15.indd 247 10/2/10 22:15:07 248 15. ANÁLISIS DE VARIANZA Agresividad 1 (NO) Rendimiento N 8 , 7 , 10 , 9 , 6 , 5 , 11 , 8 , 6 , 10 10 8 , 12 2 3 (MEDIA) 11 , 9 , 12 , 16 4 4 (MUCHA) 13 , 10 , 15 , 14 4 2 (POCO) Media 8 13 SC 36 S2 26 SCE = 10 · (8 - 10)2 + 2 · (10 - 10)2 + 4 · (12 - 10)2 + 4 · (13 - 10)2 = 112 ** Ejercicio 15.6: a.Complete los resultados que faltan en la tabla de datos arriba. b.¿Qué relación existe en la muestra entre las variables estudiadas? c.Complete los resultados de la siguiente tabla para hacer el Anova. SC ENTRE MC F= P= DENTRO c.¿Cuál es la hipótesis nula planteada? No diga una frase genérica, sino en los términos del enunciado. d.¿Cómo se interpreta el valor P obtenido? e. ¿Hay relación, en la población, entre el nivel de agresividad y el rendimiento? Observe las 4 varianzas muestrales. Al hacer el test de homogeneidad de Varianzas se obtiene P = 0.92. f. ¿Cuál es la Hipótesis Nula planteada en el anterior test? g.¿Cómo se interpreta el valor P obtenido. ¿Qué ocurre 92 veces de cada 100? h. ¿Qué se concluye acerca de las varianzas poblacionales? +++ 15.11. Comparaciones post-anova La hipótesis nula planteada en el Anova es que varias medias poblacionales son iguales. Un valor P “grande” indica que los datos son compatibles con la H0 de igualdad de medias poblacionales, no hay evidencia a favor de que haya diferencias entre ellas. Por el contrario, un valor P muy pequeño invita a rechazar la H0 y pensar que no son iguales las medias de todas las poblaciones muestreadas, pero no especifica entre qué poblaciones parece haber diferencias y cuáles podrían ser iguales. Si, por ejemplo, se comparan 4 medias, rechazar la H0 puede implicar que hay tres medias iguales entre sí y la otra es distinta, que hay dos semejantes y las otras dos también semejantes entre sí y muy diferentes de las dos primeras, o que cada una es diferente de las otras tres. Es pues necesario, evaluar entre qué poblaciones parece haber diferencias y cuales podrían ser iguales. Es lo que se llama análisis Post-Anova, etapa obligada tras hacer el Anova general. Lo primero a tener en cuenta es la diferencia entre las llamadas “comparaciones a priori” y “comparaciones a posteriori”: 15-cap15.indd 248 10/2/10 22:15:07 15. ANÁLISIS DE VARIANZA 249 • L as comparaciones a priori son planeadas antes de ver los resultados, basándose en la lógica del problema estudiado y en resultados previos. • Las comparaciones a posteriori surgen a la vista de los resultados y conllevan el problema de las comparaciones múltiples que veremos enseguida. Por ejemplo, si estamos comparando el comportamiento de cierta variable en distintos países europeos, podemos planificar de antemano comparar los mediterráneos contra los bálticos, o los ricos contra los pobres, etcétera. Son comparaciones a priori. Otra opción es comparar cada país contra cada uno de los otros y ver si algunas de esas diferencias son llamativamente grandes. +++ 15.12. Comparaciones a priori: dos medias o dos grupos Si nuestro interés se centra en comparar dos medias determinadas se plantea la H0 que dice que son iguales en población y el valor P del test es la prob de que las medias muestrales correspondientes sean tan distintas entre sí como las encontradas en nuestro estudio o aún más distintas, si las poblacionales son iguales. La mayoría de los programas estadísticos ofrecen esta opción bajo el epígrafe “Contrastes” y piden que se identifiquen las dos medias a comparar introduciendo una lista de ceros y unos. Por ejemplo, en un estudio que compara el nivel de conocimiento de los estudiantes de bachiller en 9 países, A, B, … I, analizando una muestra de N = 4 individuos en cada país, se obtienen estos resultados y el Anova da P = 0.006. • Medias S 2 A B 1 2 3 4 5 6 7 8 9 41 11 25 10 28 11 22 16 43 C D E F G H I 10 21 18 12 17 21 13 9 26 22 13 17 2 15 20 14 10 23 23 23 24 4 16 14 23 17 28 24 17 21 7 19 16 18 13 30 163.3 34.7 16.7 22.7 36.7 23.0 27.3 16.7 79.3 La media y error estándar de cada grupo se muestran en la gráfica que sigue: 15-cap15.indd 249 10/2/10 22:15:07 250 15. ANÁLISIS DE VARIANZA Si, por ejemplo, teníamos planeado inicialmente comparar el país A contra el D, que en nuestra tabla son el 1º y el 4º, se lo indicamos al programa introduciendo esta lista de nueve números, uno por cada grupo del experimento: 1, 0, 0, -1, 0, 0, 0, 0, 0, que suelen llamarse “coeficientes” del contraste y donde aparece 1 en los países a comparar (con distinto signo) y 0 en el resto. La H0 planteada en este test es que el nivel de conocimientos medio del país A es igual al del D. Un valor de P pequeño indica incompatibilidad de los datos muestrales con dicha hipótesis y sugiere que ambos países no presentan igual nivel medio de conocimientos. Y si queremos comparar el país H contra el I, que en nuestra tabla son el 8º y el 9º, introducimos estos coeficientes: 0, 0, 0, 0, 0, 0, 0, 1, -1. • También puede compararse la media de un grupo de países frente a la media de otro país u otro grupo de países, cuando hay razones que justifican esas agrupaciones y se había pensado hacerlo antes de ver los datos. Si, por ejemplo, en los países A e I (1º y 9º) a los chicos se les dan “deberes para casa” y en F y G (6º y 7º) toda la tarea se realiza en el colegio, se comparan esos dos grupos tecleando estos coeficientes: 1, 0, 0, 0, 0, -1, -1, 0, 1 (el mismo signo en los países del mismo grupo). El resto de los países podrían no entrar en esta comparación porque o bien no se conoce en ellos esa circunstancia u ocupan respecto a ella posiciones intermedias que no interesa contemplar en un primer análisis para evitar resultados intermedios que dificulten la detección de efectos. Los números deben tener signo distinto en los dos grupos y no importa a cuál de ellos le corresponda el negativo. El programa informático realiza los mismos cálculos si se le introduce, para el ejemplo anterior, esta lista: -1, 0, 0, 0, 0, 1, 1, 0, -1 Y si en A, B y C (1º, 2º y 3º) los alumnos asisten a clase mañana y tarde mientras que en E, F y G (5º, 6º y 7º) van solamente por la mañana, se compara la media del primer grupo contra la del segundo introduciendo esta lista: 1, 1, 1, 0, -1, -1, -1, 0, 0 También se pueden comparar grupos con distinto número de países. En ese caso los coeficientes, además de llevar signo contrario en los dos grupos, deben sumar igual cantidad en ambos. Si, por ejemplo, en el país 1º la enseñanza es bilingüe y en los 7º, 8º y 9º es monolingüe, pueden compararse esas situaciones con los coeficientes: -3, 0, 0, 0, 0, 0, 1, 1, 1 Y si en los países 7º y 9º hay actividades deportivas obligatorias, mientras que en 2º, 4º y 8º no las hay, pueden comparase esas situaciones con los coeficientes: 0, 2, 0, 2, 0, 0, -3, 2, -3. Un valor de P del test grande indicaría compatibilidad de los datos obtenidos con la hipótesis de que las actividades deportivas obligatorias no modifican el nivel medio de conocimientos, mientras que un valor de P pequeño indicaría evidencia en contra de esa hipótesis. La suma de los coeficientes de un grupo tiene que ser igual a la suma de los coeficientes del otro, pero con distinto signo. Para no caer en el problema de las comparaciones múltiples que exponemos más adelante, se suele aceptar que el número de comparaciones a priori no supere al de tratamientos menos uno. 15-cap15.indd 250 10/2/10 22:15:07 15. ANÁLISIS DE VARIANZA 251 +++ 15.13. Comparaciones a priori de Tendencia Lineal Estos tests tienen por objeto detectar el crecimiento o decrecimiento progresivo de la variable respuesta (rendimiento académico, en nuestro ejemplo) a medida que aumenta cierto aspecto de los grupos, en nuestro ejemplo países, que entran en la comparación. La H0 planteada es que no hay tal variación, es decir, que las medias poblacionales no crecen ni decrecen regularmente cuando se ordenan los grupos según ese carácter. Si en nuestros datos los países están ordenados por su tamaño, de modo que A, el 1º, es el de menor extensión e I, el 9º, el más extenso, la gráfica que representa la media y el error estándar del nivel de conocimientos es Países ordenados por tamaño La observación de las medias y de la gráfica indica que no parece haber especial relación entre el nivel de conocimientos y la superficie del país. El valor P del test de Tendencia Lineal resulta ser P = 0.56. Es decir, si realmente las medias poblacionales no crecen ni decrecen regularmente al ordenar los países de menor a mayor superficie, en 56 de cada cien veces que se repitiera este estudio, las medias muestrales presentarían por azar una ordenación de crecimiento o decrecimiento tan acusada como la de nuestro estudio o aún más acusada. El valor P = 0.56 dice que estos datos no constituyen evidencia contra la Hipótesis Nula de no tendencia lineal en la población. Podemos, a continuación, reordenar los países por su nivel económico. La gráfica siguiente presenta las medias muestrales obtenidas: Países ordenados por nivel económico Medias 15-cap15.indd 251 D 7 B C A E F G H I 17 21 24 19 16 18 13 30 10/2/10 22:15:07 252 15. ANÁLISIS DE VARIANZA Vemos que D es el más pobre e I el más rico. El ANOVA general da el mismo valor de antes, P = 0.006, porque las medias son las mismas, pero en esta reordenación las medias presentan cierta tendencia a crecer a medida que nos desplazamos a la derecha, es decir, a países con más nivel económico. El test de Tendencia Lineal ahora da P = 0.018. Si realmente las medias poblacionales no crecen ni decrecen regularmente al ordenar los países de menor a mayor nivel económico, en 18 de cada mil veces que se repitiera este estudio, las medias muestrales presentarían por azar una tendencia creciente tan acusada como la de nuestro estudio o aún más acusada. Como no es fácil que esa tendencia creciente se presente en la muestra solo por azar, consideramos el resultado como una notable evidencia contra la H0 y a favor de que el rendimiento académico tiende a ser mayor en los países con mayor nivel económico. Podemos a continuación reordenar los países por su nivel científico. La gráfica siguiente muestra las medias ordenadas de este modo. Países ordenados por nivel científico Medias D 7 H B C E F G A I 13 17 21 19 16 18 24 30 Tendencia lineal: P = 0.00008 Vemos que D, que era el más pobre, es también el de menor nivel científico. Pero el segundo país más pobre era B y en nivel científico el segundo país es H. También ahora el ANOVA da el mismo valor de antes, P = 0.006, porque las medias siguen siendo las mismas, pero en esta reordenación las medias presentan una marcada tendencia a crecer a medida que nos desplazamos a la derecha, es decir, hacia países con mayor nivel científico. El test de Tendencia Lineal ahora da P = 0.00008. Si no hay tendencia en las medias poblacionales, solamente en 8 de cada cien mil veces que se repitiera este estudio, las medias muestrales presentarían por azar una ordenación de crecimiento progresivo tan acusada como la de nuestro estudio o aún más acusada. Como es muy difícil que esa tendencia creciente se presente en la muestra solo por azar, el resultado es una fuerte evidencia contra H0 y a favor de que el rendimiento académico tiende a ser mayor en los países con mayor nivel científico. Aquí hemos considerado tres posibles criterios de ordenación para mostrar cómo el valor P del test de Tendencia Lineal es menor cuanto más acusado es el crecimiento progresivo del rendimiento académico en la muestra. En las situaciones reales se entiende que el investigador tiene en mente cierto criterio de ordenación en base a 15-cap15.indd 252 10/2/10 22:15:08 15. ANÁLISIS DE VARIANZA 253 la estructura de los datos y hará el test de Tendencia Lineal para ese criterio. Si se probara reiteradamente ese test con muchos criterios hasta encontrar uno que diera valor P pequeño, dicho valor debe ser interpretado con precaución, pues aunque no haya tendencia lineal en las medias poblacionales, la repetición de muchos tests sobre los mismos datos da un valor P ≤ 0.05 cada veinte comparaciones, un valor P ≤ 0.01 cada cien comparaciones y un valor P ≤ 0.001 cada mil comparaciones. De hecho, buscando con insistencia siempre se podrá encontrar un criterio de ordenación con el que las medias muestrales crecen o decrecen constantemente, sin excepción, y el valor P del test de Tendencia Lineal es muy pequeño. En nuestro ejemplo se encontró que si se ordenan los países de acuerdo con el número de medallas de bronce obtenidas en la última olimpiada, el nivel académico crece sin excepción. Países ordenados por número de medallas de bronce Medias D 7 H F B G E C A I 13 16 17 18 19 21 24 30 Test de Tendencia lineal: P = 0.00002 Pero esa relación no tiene credibilidad alguna por la naturaleza de las variables implicadas y por el modo “a posteriori” en que fue encontrada. Este problema de las comparaciones múltiples puede aparecer en cualquier tipo de análisis estadístico y se comenta más detenidamente a continuación. +++ 15.14. El problema de las comparaciones múltiples Como en alguna ocasión anterior, comenzamos con una caricatura llamativa para enfatizar una idea importante. Método fácil y seguro para obtener el Nobel de Medicina sin falsificar datos (solo hay que ocultar algunos) Se trata de estudiar el posible efecto beneficioso del producto “A” (es solo agua mineral, pero la comunidad científica no lo sabe) sobre una enfermedad importante. Se compararán las medias muestrales de una variable que refleje mejoría en N pacientes que han recibido “A” frente a otros N que no lo han recibido. Puesto que en realidad “A” no hace nada, al realizar este estudio una vez encontraremos que en el grupo tratado la media es ligeramente mayor o menor que en el control y un 15-cap15.indd 253 10/2/10 22:15:08 254 15. ANÁLISIS DE VARIANZA valor P grande que no invita a pensar que el tratamiento es efectivo. Pero por las oscilaciones del muestreo, si repetimos muchas veces el estudio —lo que equivale a hacer Muestreo Aleatorio— en 5 de cada 100 estudios saldrá P ≤ 0.05, en 1 de cada 100 encontramos P ≤ 0.001 Por tanto, solo hay que repetir el estudio hasta que aparezca P ≤ 0.01 y publicar ese resultado sin mencionar los demás. Dado el número de repeticiones que se hagan, es fácil calcular la prob de que aparezca P ≤ 0.01 u otro valor P. Por ejemplo, si se hacen 100 estudios esperamos que haya uno con P ≤ 0.01 y la prob de que aparezca P ≤ 0.01 en al menos uno de ellos es 0.63. La siguiente tabla indica la prob de obtener ciertos valores P del test según la cantidad de repeticiones. Lo importante es entender lo que dice ese resultado. No es esencial saber cómo se llega a él. Pero para el lector interesado se explica en el último apartado del apéndice A. Num. de repeticiones P ≤ 0.05 P ≤ 0.01 P ≤ 0.001 20 50 100 200 0.64 0.92 0.994 0.9999 0.02 0.05 0.09 0.18 0.18 0.39 0.63 0.87 Es decir, si hacemos 200 estudios, la prob de que aparezca al menos uno con P ≤ 0.05 es 0.999 y la prob de que aparezca al menos uno con P ≤ 0.01 es 0.87. Este último valor quiere decir que si millones de grupos hacen el mismo proceso (repetir el estudio 200 veces), 87 de cada 100 van a tener al menos uno con P ≤ 0.01. Por ello es muy fácil que en nuestra serie de 200 repeticiones aparezca al menos una con P ≤ 0.01. Si se publica ese estudio sin mencionar los demás, la comunidad científica lo considerará un notable indicio a favor de que el “fármaco” es efectivo para esa enfermedad. +++ 15.15. Sesgo de publicación Parte de la caricatura expuesta en el apartado anterior está ocurriendo en la realidad, no porque algunos investigadores quieran engañar a la comunidad científica, sino por circunstancias que es muy difícil de evitar. Cuando se sospecha que un producto puede hacer cierto efecto muy preciado son muchos los investigadores que llevan a cabo estudios para comprobarlo. Si se trata de un producto que no hace realmente el efecto que se le atribuyó inicialmente, la mayoría de los investigadores encuentran valor P grande y muchos de ellos, desalentados por ese resultado “negativo”, no lo publican. Es una actitud lógica que no conlleva intento de engaño. Pero si son muchos los que investigan sobre ese producto, alguno encuentra por azar un valor P pequeño y lo publica. Si la comunidad científica solo recibe noticia de ese estudio, lo considerará fuerte indicio de que el producto hace el efecto buscado. Si se supiera que ese resultado con valor P pequeño es uno entre muchos con valores P mayores, la comunidad científica lo interpretaría como fruto de las muchas repeticiones del estudio y no como indicio de que hay ese efecto en la población. 15-cap15.indd 254 10/2/10 22:15:08 15. ANÁLISIS DE VARIANZA 255 Para evitar ese “sesgo de publicación” la única solución es publicar tanto los resultados negativos como los positivos. Las políticas científicas actuales van en ese sentido. Por ejemplo, la autorización de realización de un Ensayo Clínico implica el compromiso de publicar el resultado, cualquiera que sea. La cuestión de las comparaciones múltiples está tan universalmente presente que merece la pena ilustrarla con un ejemplo más. Sospechamos que una moneda no está bien balanceada, en el sentido de que si se tira muchas veces la FR de caras es mayor de 50%, πCARA > 0.50. Hacemos una “investigación” lanzándola N = 10 veces y resulta que sale cara en todas ellas. Se plantea la H0: πCARA = 0.50. El valor P del test es P= 0.001, es decir, si la serie de 10 lanzamientos se repite millones de veces con una moneda correcta, solo una de cada mil series tendrá cara en las 10 tiradas. Pensamos que la moneda es defectuosa. Pero si hacemos muchas series de 10 tiradas con un moneda buena, acabaremos encontrando una serie con cara en las 10 tiradas y si solo publicamos ese resultado con su valor P = 0.001, la comunidad científica lo considerará un claro indicio a favor de que la moneda es desequilibrada. Con cualquier moneda buena acabamos consiguiendo que salga cara en las 10 tiradas. Suponga que empieza a correr la falsa sospecha de que las monedas de un Euro están mal equilibradas, de modo que en ellas la prob de cara es mayor de 50%. Puesto que eso es falso, si cada español hace la prueba de lanzar una moneda 10 veces, la mayoría encontrará 5 caras o un valor próximo a 5, pero uno de cada mil encontrará que sale cara en las 10 tiradas. Si los que tuvieron en torno a 5 caras no lo comentan y solamente hablan de su resultado los que tuvieron 10 caras, la conclusión general será que la sospecha era cierta. La diferencia está en que obtener 10 caras en una única serie realizada, es un claro indicio de que la moneda es sesgada, porque con una moneda buena eso ocurre muy raramente. Pero obtener 10 caras en una serie no sugiere que la moneda es mala si ello ocurre tras hacer cientos de series, porque con una moneda buena ello ocurre habitualmente. +++ 15.16. Comparaciones a posteriori tras el ANOVA Si un ANOVA implica la comparaciones de K medias, el número de parejas posibles es K (K-1) / 2. En el ejemplo con K = 9 grupos hay 9·8 / 2 = 36 parejas posibles. Si se comparan las dos medias de cada pareja con el típico test de t de Student, tenemos el problema de las comparaciones múltiples. Al no ser independientes esas comparaciones no es fácil calcular la prob de encontrar cierto valor P en alguna de ellas por azar. Pero hay métodos que tienen en cuenta esa repetición de cálculos y para la diferencia de dos medias determinadas dan el valor P adecuado, que es la prob de encontrar por azar una diferencia tan grande como esa o aún mayor, teniendo en cuenta el número de comparaciones hechas. Comentaremos los métodos más usados con nuestro ejemplo de 9 países. 15-cap15.indd 255 10/2/10 22:15:08 256 15. ANÁLISIS DE VARIANZA A 1 41 10 22 M S2 23 24 163.3 B 2 11 21 13 23 17 34.7 C 3 25 18 17 24 21 16.7 D 4 10 12 2 4 7 22.7 Anova: E 5 28 17 15 16 19 36.7 F 6 11 21 20 14 16 23.0 P = 0.006 G H 22 16 14 10 7 13 23 18 27.3 8 9 17 13 16.7 I 9 43 26 23 28 30 79.3 Nos fijaremos en la comparación “8” vs. “9”, cuya diferencia de medias muestrales es 17 (30 -13). La tabla siguiente indica los valores P obtenidos con el test t de Student típico para comparar dos grupos (ignorando que hay otros implicados), con la comparación de país H frente al I si hubiera sido pensada antes de ver los datos (contraste a priori) y con los distintos métodos que implican comparaciones múltiples (Dunnet, Tukey y Scheffé). t Student Contrastes Dunnet Tukey Scheffé P = 0.013 A priori P = 0.002 A posteriori P = 0.010 P = 0.035 P = 0.188 (MCD = 48) gl = 6 (MCD = 46.7) gl = 27 1. Si se pide esa comparación (país H frente a país I) como contraste a priori no se penaliza porque haya otros grupos, ya que se entiende que ha sido pensada inicialmente (y no por ser la mayor diferencia encontrada en las muestras). Las comparaciones a posteriori sí llevan cierta penalización. Con el test t de Student se utiliza como estimador de la varianza poblacional la media de las varianzas de las muestras implicadas en la comparación (en nuestro ejemplo, la media de las varianzas de los países H e I es 48), mientras que en las comparaciones a priori tras el Anova se utiliza como estimador la media de las varianzas de las 9 muestras del estudio. Esa estimación es MCD = 46.7, en este ejemplo semejante al 48. Pero al estar implicados todos los grupos, esa estimación de la varianza poblacional es más fiable, y da lugar a menores valores P. Es decir, el valor P = 0.002 obtenido con el test a priori es menor que P = 0.013 obtenido con t de Student porque la MCD de todas las muestras está construida sobre más valores que cuando se usan solamente los grupos “8” y “9”. 2.El método de Dunnet está pensado para cuando se comparan con un grupo de referencia todos los demás, por ejemplo, cuando un grupo es el control (sin ningún tratamiento, por ejemplo el “9”) y los restantes corresponden a los distintos tratamientos que se están investigando. Si hay K grupos el método debe tener en cuenta que se hacen K-1 comparaciones, en este ejemplo se compara cada una de las 8 primeras medias con la 9ª. El valor P al comparar “8” contra ”9” es ahora P = 0.010. Es decir, si es cierta la H0 de igualdad de las medias poblacionales “8” y “9” y se repite muchas veces este estudio y en cada repetición se calculan las 15-cap15.indd 256 10/2/10 22:15:08 15. ANÁLISIS DE VARIANZA 257 diferencias de cada media con la última, 10 de cada 1 000 de esas diferencias son iguales o mayores de 17 (la diferencia de las medias muestrales de los países H e I). Aparecen más diferencias de tamaño 17 o mayor cuando en cada experimento se miran 8 diferencias que cuando se mira una. 3.El método de Tukey está pensado para cuando se inspeccionan las diferencias entre dos medias para todas las parejas posibles, es decir, K (K-1) / 2 comparaciones, que en nuestro ejemplo con K = 9 son 9 · 8 / 2 = 36 parejas posibles. Realizando el test de Tukey para la comparación del rendimiento medio de los países H e I, se obtiene valor P = 0.035 que indica que si es cierta la H0 de igual rendimiento medio de ambos países y se repite muchas veces este estudio y en cada repetición se calculan las 36 diferencias de medias, 35 de cada 1 000 de esas diferencias son iguales o mayores de 17. Aparecen más diferencias de tamaño 17 o mayor cuando en cada experimento se miran 36 diferencias que cuando se mira una o cuando se miran 8. 4.El método de Scheffé está pensado para cuando se inspeccionan todas las diferencias entre medias de muestras y de grupos de muestras. De ese modo el número de posibles diferencias se eleva muchísimo. Por ejemplo, con K = 4 el número de parejas de medias es 4 · 3 / 2 = 6, pero hay hasta 28 diferencias entre medias de grupos. Si se hace el test de Scheffé con la H0 de que el rendimiento medio es igual en los países H e I, se obtiene valor P = 0.188 que indica que si es cierta la H0 y se repite muchas veces este estudio y en cada repetición se calculan las innumerables diferencias entre medias de grupos, 188 de cada 1 000 de esas diferencias son iguales o mayores de 17. Como es lógico, aparecen más diferencias de tamaño 17 o mayor cuando en cada experimento se miran cientos de diferencias que cuando se mira una o cuando se miran 8 o cuando se miran 36. Los cálculos del valor P correspondiente a cada método los hacen los ordenadores, pero el investigador tiene que saber seleccionar el test que en cada caso se ajusta a su procedimiento, tiene que saber interpretar esas cantidades y valorar el grado de evidencia contra la H0 planteada. Resumiendo, el test para comparar dos medias puede hacer con diferentes métodos: • t de Student, si no hay otros grupos que aporten más información sobre la varianza de esa variable en las poblaciones implicadas. • Contraste a priori tras el ANOVA, si realmente está pensada de antemano, en base a la naturaleza del experimento y no a la vista de los datos obtenidos. • Test de Dunnet, si es una de las posibles comparaciones de cada grupo frente a uno de referencia, por ejemplo, comparación de cada tratamiento frente a uno control. • Test de Tukey, si es una comparación entre todas las posibles parejas de medias. • Test de Scheffé, si es una comparación entre todas las posibles comparaciones entre medias de muestras y medias de grupos de muestras. 15-cap15.indd 257 10/2/10 22:15:08 258 15. ANÁLISIS DE VARIANZA No olvide recordar - 15 1. El Análisis de Varianza, “Anova”, plantea como H0 que cierta variable tiene la misma media en tres o más poblaciones. 2.El valor P de este test es la probabilidad de encontrar muestras con medias tan distintas entre sí como las de nuestro estudio o más distintas, si es cierta la H0. 3. Con valores muy pequeños de P rechazamos H0 y creemos que no son iguales entre sí todas las medias de las poblaciones implicadas, pero sin especificar entre cuales de ellas habría diferencias. El “Análisis Postanova” tiene por objeto intentar descubrir entre qué medias hay diferencias y entre cuáles no. 4. En teoría el Anova es válido solamente si hay Homogeneidad de Varianzas y Normalidad, pero debe estar claro que ninguna variable real se ajusta exactamente a estos modelos matemáticos. Si la variable se aproxima estrechamente a estos modelos el Anova es válido, pero el investigador no puede tener certeza de que se da esa estrecha aproximación (solamente podría tener esa certeza con muestras muy grandes, muy inusuales en la práctica). 5. Hay tests estadísticos que pueden informar de que una variable no se ajusta a esos modelos. Pero, en la mayoría de las investigaciones, tienen poca potencia estadística, es decir, aunque la variable se aleje sensiblemente de esos modelos, los tests no lo detectan. 6.En la práctica se aplica casi siempre ANOVA, pues el valor P que nos da no se ve afectado seriamente por las desviaciones de las variables reales respecto al modelo matemático para el que fue desarrollado (Normal y con varianzas iguales). 7.La Media Cuadrada Entre grupos, MCE, refleja la divergencia entre las medias muestrales. Es cero si son idénticas y es mayor cuanto más se diferencian entre sí. 8.La Media Cuadrada Dentro de grupos, MCD, refleja la divergencia entre los valores dentro de cada grupo. Es la media de las varianzas de los grupos. 9.Si las medias poblacionales son iguales entre sí, MCE y MCD son estimadores de un mismo parámetro: la varianza de esa variable en esas poblaciones, por lo que su cociente, F = MCE / MCD, toma valores en torno a 1. 10. El fundamento lógico de todos los Anova es que en el Muestreo Aleatorio la varianza entre las medias es igual a la varianza entre los individuos dividida por N, el tamaño de las muestras. 15-cap15.indd 258 10/2/10 22:15:08 15. ANÁLISIS DE VARIANZA 259 11. El “Análisis Post Anova” tiene por objeto intentar descubrir entre qué medias hay diferencia y entre cuáles no, tras haber realizado Anova. 12. Si siendo cierta la H0 se repite varias veces el mismo tipo de estudio, aumenta la prob de encontrar valores de P pequeños por azar y por ello rechazar erróneamente la H0. 13.Las comparaciones a priori son planeadas antes de ver los resultados, basándose en la lógica del problema estudiado y en resultados previos. Pueden ser entre medias de grupos, pero también puede compararse la media de un conjunto de varios grupos frente a la media de otro grupo o de otro conjunto de varios grupos. Los programas estadísticos ofrecen esta opción como “contrastes”. 14. El test de Tendencia Lineal tiene por objeto detectar el crecimiento o decrecimiento progresivo de las medias a medida que aumenta cierto aspecto de los grupos. 15.Las comparaciones a posteriori surgen a la vista de los resultados y conllevan el problema de las comparaciones múltiples. 16.Las comparaciones múltiples aumentan la prob de que aparezca un valor P pequeño aunque sea cierta H0. El sesgo de publicación ocurre cuando sobre un tema se publican solamente los resultados “significativos” y hay otros muchos “no significativos”. 17.El método de Dunnet se aplica cuando se compara un grupo de referencia con todos los demás. Si hay K grupos se hacen K-1 comparaciones. 18.El método de Tukey se aplica cuando se comparan las diferencias entre todas las parejas posibles, es decir, K (K-1) / 2 parejas. 19.El método de Scheffé se aplica cuando se comparan todas las diferencias posibles entre medias de dos muestras y entre medias de grupos de muestras. 20. Si siendo cierta la H0 se repite millones de veces el mismo tipo de estudio, encontramos, P ≤ 0.05, en 5 de cada 100 repeticiones. 21. Si siendo cierta la H0 se repite 100 veces el mismo tipo de estudio, ESPERAMOS encontrar, por definición, P ≤ 0.05, en 5 de ellas, pero en esa serie concreta de 100 puede aparecer P ≤ 0.05 más o menos de 5 veces. La prob de que aparezca P ≤ 0.05 al menos una vez es 0.994. Es decir, encontraremos P ≤ 0.05 en 994 series de cada 1 000. 15-cap15.indd 259 10/2/10 22:15:08 260 15. ANÁLISIS DE VARIANZA EJERCICIO DE AUTOEVALUACIÓN - 15 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.El Análisis de Varianza (Anova), como su nombre indica, es una técnica para comparar varianzas de tres o más colectivos. 2.El Anova plantea como H0 que la variable estudiada tiene la misma varianza en varias poblaciones. 3.El Anova plantea como H0 que la variable estudiada tiene la misma media en varias poblaciones. 4.Un valor P del test Anova muy pequeño invita a rechazar la H0 y a aceptar que cada una de las medias poblacionales implicadas es distinta de cualquier otra. 5. Un valor P del test Anova muy pequeño invita a rechazar la H0 y a aceptar que al menos una de las medias poblacionales implicadas es distinta de alguna otra. 6.El valor P de este test es la probabilidad de encontrar muestras con medias tan distintas entre sí como las de nuestro estudio o más distintas, si en la población las medias son tan distintas entre sí como en la muestra. 7.El valor P es la probabilidad de encontrar muestras con medias iguales entre sí, si en la población las medias son tan distintas como en la muestra. 8.El valor P es la probabilidad de encontrar muestras con medias iguales entre sí, si en la población las medias son iguales entre sí. 9.El valor P es la probabilidad de encontrar muestras con medias iguales entre sí, si en la población son iguales a las medias muestrales. 10.El valor P es la prob de encontrar muestras con medias tan distintas entre sí como las de nuestro estudio o más distintas, si en población las medias son iguales entre sí. 11.El valor P de este test es la probabilidad de encontrar medias muestrales con diferencias significativas, si en la población las medias son iguales entre sí. 12.El valor P de este test es la prob de encontrar medias muestrales con diferencias significativas, si en población las medias tienen también diferencias significativas. 13.En el caso particular de comparación de dos medias no se puede aplicar Anova. 14.En el caso particular de comparación de dos medias si se hace Anova se obtiene el mismo valor P que con el test “t de Student” para dos muestras. 15.En teoría, el Anova es válido solamente si hay Homogeneidad de Varianzas y Normalidad, pero en la práctica se aplica casi siempre el ANOVA, pues el valor P que nos da no se ve afectado seriamente por las desviaciones de las variables reales respecto al modelo matemático para el que fue desarrollado, Homogeneidad de Varianzas y Normalidad. 16. Ninguna variable real se ajusta exactamente a estos modelos matemáticos. 15-cap15.indd 260 10/2/10 22:15:08 15. ANÁLISIS DE VARIANZA 261 17.Si la variable se aproxima estrechamente a estos modelos el Anova es válido. 18. Hay tests que permiten comprobar que la variable analizada se aproxima estrechamente al modelo de Normalidad y de Homogeneidad de Varianzas. 19.No hay tests que permiten al investigador comprobar que la variable que está analizando se aproxima estrechamente al modelo de Normalidad y de Homogeneidad de Varianzas. 20.Hay tests estadísticos que pueden informar de que una variable no se ajusta a esos modelos y tienen gran potencia estadística, es decir, si la variable se aleja de esos modelos, los tests lo detectan claramente. 21.Los tests que pueden informar de que una variable no se ajusta a esos modelos tienen poca potencia estadística, es decir, aunque la variable se aleje sensiblemente de esos modelos, los tests no lo detectan. El fundamento lógico del Anova 22. En el Muestreo Aleatorio la varianza entre las medias muestrales es igual a la varianza entre los individuos. 23.En el Muestreo Aleatorio la varianza entre las medias muestrales es igual a la varianza entre los individuos multiplicada por N, el tamaño de las muestras. 24.El fundamento lógico de todos los Anova es que en el Muestreo Aleatorio la varianza entre las medias es igual a la varianza entre los individuos dividida por N, el tamaño de las muestras. 25.La Media Cuadrada Entre grupos, MCE, refleja la divergencia entre las medias muestrales. Es cero si son idénticas mayor cuanto más se diferencian entre sí. 26.La Media Cuadrada Entre grupos, MCE, es la cuasivarianza entre las medias muestrales multiplicada por N, el tamaño de las muestras. 27.La Media Cuadrada Dentro de grupos, MCD, refleja la divergencia entre los valores dentro de cada grupo. Es la media de las varianzas de los grupos. 28.Si las medias poblacionales son iguales entre sí, MCE estima la varianza de esa variable en esas poblaciones. 29.La MCD estima la varianza de esa variable en esas poblaciones, solamente si las medias poblacionales son iguales entre sí. 30.La MCD estima la varianza de esa variable en esas poblaciones, aunque las medias poblacionales no sean iguales entre sí. 31.Si las medias poblacionales son iguales entre sí, MCE y MCD son estimadores de un mismo parámetro: la varianza de esa variable en esas poblaciones, por lo que su cociente, F = MCE / MCD, toma valores en torno a 1. Comparaciones postanova 32.Si en el Análisis de Varianza (Anova) encontramos un valor P muy pequeño concluimos que cada una de las medias poblacionales es distinta de todas las demás. 33.Si en el Análisis de Varianza encontramos valor P muy pequeño concluimos que al menos una de las medias poblacionales es distinta de alguna otra. 15-cap15.indd 261 10/2/10 22:15:08 262 15. ANÁLISIS DE VARIANZA 34.Si en el Análisis de Varianza encontramos un valor P muy pequeño concluimos que al menos una de las medias poblacionales es distinta de alguna otra y para saber entre qué medias poblacionales hay diferencias hacemos el llamado Análisis post-Anova. 35.El análisis post-Anova puede hacerse aunque en el Análisis de Varianza encontremos un valor P no muy pequeño. 36.Las comparaciones a priori son planeadas antes de ver los resultados, basándose en la lógica del problema estudiado y en resultados previos. 37.Las comparaciones a posteriori surgen a la vista de los resultados y conllevan el problema de las comparaciones múltiples. 38.Si siendo cierta la H0 se repite muchas veces un estudio, aumenta la prob de encontrar valores P pequeños que lleven a rechazar, erróneamente, la H0. 39.Para comparar a priori la media de una o más muestras frente a la media de otra muestra o grupo de muestras se le dan al programa estadístico los coeficientes del contraste. 40. El número de coeficientes es igual al número de medias del Anova. A las medias que no entran en juego en un contraste les corresponde coeficiente cero. 41. Los coeficientes del contraste tienen signo positivo para las medias de un conjunto y negativo para las medias del otro conjunto y deben sumar cero. 42.Para ver si las medias crecen o decrecen a medida que cierta característica de los grupos toma valores mayores, se hace el test de Tendencia Lineal de medias. 43.En el test de Tendencia Lineal de medias la H0 es que a medida que cierta característica de los grupos toma valores mayores, las medias de la variable respuesta van creciendo. 44. En el test de Tendencia Lineal de medias la H0 es que a medida que cierta característica de los grupos toma valores mayores, las medias de la variable respuesta decrecen. 45.En el test de Tendencia Lineal de medias la H0 es que a medida que cierta característica de los grupos toma valores mayores, las medias de la variable respuesta no varían. 46.Si en el Anova entran en juego K grupos y procedemos a comparar cada media con una que tomemos como referencia, se hacen K -1 comparaciones y el test de Tukey tiene en cuenta ese número de comparaciones múltiples. 47.Si en el Anova entran en juego K grupos y procedemos a comparar cada media con una que tomamos como referencia, se hacen K -1 comparaciones y el test de Dunnet tiene en cuenta ese número de comparaciones múltiples. 48.Si en el Anova entran en juego K grupos y procedemos a comparar cada media con todas las demás, se hacen K · (K-1) / 2 comparaciones y el test de Sheffé tiene en cuenta ese número de comparaciones múltiples. 15-cap15.indd 262 10/2/10 22:15:09 15. ANÁLISIS DE VARIANZA 263 49.Si en el Anova entran en juego K grupos y procedemos a comparar cada media con todas las demás, se hacen K·(K-1) / 2 comparaciones y el test de Tukey tiene en cuenta ese número de comparaciones múltiples. 50.Si en el Anova entran en juego K grupos y se compara cada media de cada muestra o grupos de muestras con todas las demás, se hace un gran número de comparaciones y el test de Sheffé tiene en cuenta ese número de comparaciones múltiples. 51.Para la comparación entre dos medias determinadas el test de Dunnet tiene en cuenta que se hacen K-1 comparaciones y, por ello, da valor P menor que la comparación a priori entre esas dos medias. 52.Para la comparación entre dos medias determinadas el test de Dunnet tiene en cuenta que se hacen K-1 comparaciones y, por ello, da valor P mayor que la comparación a priori entre esas dos medias. 53.Para la comparación entre dos medias determinadas el test de Tukey tiene en cuenta que se hacen K·(K-1) / 2 comparaciones y, por ello, da valor P mayor que el test de Dunnet. 54.Para la comparación entre dos medias determinadas el test de Tukey tiene en cuenta que se hacen K·(K-1) / 2 comparaciones y, por ello, da valor P menor que el test de Dunnet. 55.Para la comparación entre dos medias determinadas el test de Scheffé tiene en cuenta que se hacen muchas más de K·(K-1) / 2 comparaciones y, por ello, da valor P menor que el test de Tukey. 56.Para la comparación entre dos medias determinadas el test de Scheffé tiene en cuenta que se hacen muchas más de K·(K-1) / 2 comparaciones y, por ello, da valor P mayor que el test de Tukey. 57.Si siendo cierta la H0 se repite millones de veces un estudio, en 5 de cada 100 repeticiones aparece P ≤ 0.05, en 1 de cada 100 repeticiones aparece P ≤ 0.01 y en 1 de cada 1 000 repeticiones aparece P ≤ 0.001. 58.Si siendo cierta la H0 se repite 20 veces un estudio, en esa serie de 20 repeticiones esperamos encontrar una con P ≤ 0.05. 59. Si siendo cierta la H0 se repite 20 veces un estudio, en esa serie de 20 repeticiones podemos encontrar P ≤ 0.05 en más o menos de una. 60.Si siendo cierta la H0 se repite 20 veces un estudio, la prob de encontrar en esa serie de 20 repeticiones al menos una con P ≤ 0.05 es 0.05 · 20 = 1. 61.Si siendo cierta la H0 se repite 20 veces un estudio, la prob de encontrar que en esa serie de 20 repeticiones las 20 dan P > 0.05 es 0.95 20 = 0.36. 15-cap15.indd 263 10/2/10 22:15:09 15-cap15.indd 264 10/2/10 22:15:09 Capítulo 16 REGRESIÓN LINEAL En el Capítulo 3 exponíamos y enfatizábamos un principio de aplicación general en el análisis de datos: Analizar la relación entre dos variables es estudiar el comportamiento de una de las variables (dando su media o proporción) en los distintos niveles de la otra. Si para cada individuo de un colectivo se miden dos variables cuantitativas puede hacerse una representación gráfica de nube de puntos que permite una apreciación visual de la relación entre ellas. Puede que valores elevados de una se acompañen de valores elevados de la otra (correlación positiva) o que valores elevados de la primera se acompañen de valores bajos de la segunda (correlación negativa) o que haya otro tipo de asociación o ausencia de ella. En cada uno de los ejemplos que siguen se han medido dos variables, X e Y, en 8 individuos. En el primer ejemplo, el primer individuo tiene X = 65, e Y = 8, el segundo tiene X = 70 e Y = 10, etc., y se ha representado cada par de valores (X, Y) correspondiente a cada individuo por un punto. X Y 65 70 64 68 73 84 80 78 8 10 5 7 11 13 14 10 X Y Correlación negativa, aproximadamente lineal 65 70 64 68 73 84 80 78 12 12 13 11 8 6 5 8 Correlación positiva, aproximadamente lineal 265 16-cap16.indd 265 10/2/10 22:15:17 266 X Y 16. REGRESIÓN LINEAL 65 70 64 68 73 84 80 78 12 8 7 10 12 12 7 9 X Y 65 70 64 68 73 84 80 78 12 6 14 8 5 14 8 6 No correlación Correlación no lineal De especial interés, por la simplicidad de cálculo y de la interpretación biológica, son las relaciones que llamamos lineales, de modo que a igual incremento de X corresponde igual incremento o decremento de Y, como en los dos primeros ejemplos. 16.1. Crecimiento y decrecimiento lineal •Imaginemos una situación en la que medidas dos variables cuantitativas en 6 individuos se obtuvieran los datos de las dos primeras filas de la tabla siguiente: X, en años Y Incremento de Y por año 5 17 6 -2 15 7 -2 13 8 -2 11 9 -2 9 10 -2 7 Cuando se pasa de 5 a 6 años, el valor de Y pasa de 17 a 15 (2 unidades menos), y cuando pasamos de 6 a 7, los valores Y pasan de 15 a 13 (2 unidades menos); y lo mismo ocurre siempre que aumentamos una unidad en los valores de X. Decimos entonces que Y decrece linealmente con la edad a razón de 2 unidades por año. La “pendiente de la recta” o “Coeficiente de Regresión” es -2 unidades/año. • Y si la variable Y varía con la edad según estos valores: X , en años Y Incremento de Y por año 5 17 6 3 20 7 5 25 8 7 32 9 9 41 10 11 53 Decimos que Y crece no linealmente con la edad, puesto que el incremento de Y por cada año no es el mismo en los distintos años. • Si Y varía con la edad según estos otros valores, también en 6 individuos: X , en años Y Incremento de Y por año 5 17 6 3 20 7 3 23 8 3 26 9 3 29 10 3 32 vemos que al aumentar un año, Y aumenta siempre 3 unidades. Decimos que Y crece linealmente con la edad a razón de 3 unidades por año. La “pendiente de la recta” o “Coeficiente de Regresión” es 3. Los valores de Y se relacionan con 16-cap16.indd 266 10/2/10 22:15:17 16. REGRESIÓN LINEAL 267 los de X por esta expresión: Y = 2 + 3 X que se llama ecuación de la recta y hace corresponder un valor de Y a cada valor de X. Así, para X = 5 es Y = 2 + 3 · 5 = 17 y para X = 6 es Y = 2 + 3 · 6 = 20, etc. En general, decimos que los valores Y dependen linealmente de los valores X si la relación es Y = a + b X, donde ‘a’ y ‘b’ son dos constantes, que pueden ser mayores o menores de la unidad y positivos o negativos. Si se calcula el valor Y que corresponde a distintos valores de X con esa expresión y cada pareja de valores X e Y se representa por un punto en un sistema de ejes perpendiculares (los valores de X en el eje horizontal y los de Y en el vertical), los puntos quedan sobre una recta. La recta es ascendente hacia la derecha si es b > 0 y descendente hacia la derecha si es b < 0. La recta tiene más pendiente (más inclinada) cuanto mayor es b. La tabla que sigue da los valores de Y correspondientes a X=0, X=1, X=2 y X=3 en dos rectas. X Y=3+1X Y = 2 + 0.5 X 0 1 2 3 2 (= a) 2.5 3 3.5 3 (= a) 4 5 6 Dibujando en los ejes un punto por cada uno de los pares (X, Y), se obtiene la representación gráfica de las dos rectas: para la primera recta (0,3), (1,4), (2,5) y (3,6) y para la segunda (0,2), (1,2.5), (2,3) y (3,3.5). La recta con coeficiente de regresión 1 tiene mayor pendiente que la recta con coeficiente de regresión 0.5. La constante “a” es el valor de Y cuando X vale 0 y se le llama ordenada en el origen. Si X = 0 es Y = a. A la constante “b” se le llama “Pendiente de la recta”’ o “Coeficiente de regresión” y dice cuánto varía Y cuando X aumenta una unidad. Yx+1 - Yx = a + b (x +1) - a + b x = b x + b - b x = b El valor de “b” depende de las unidades en que se expresen las dos magnitudes que se estén relacionando. Por ejemplo, si Y indica la distancia en kilómetros recorrida por un vehículo y X el tiempo en horas transcurrido, la relación Y = 0 + 120 X, nos dice que por cada hora que pasa, el camino andado aumenta 120 km. Si el tiempo se midiera en minutos, la misma relación vendría expresada por Y = 0 + 2 X, y si, además, la distancia se expresara en metros, la relación sería Y = 0 + 2 000 X. Es decir, 120 km / hora = 2 km / minuto = 2 000 m / minuto. 16-cap16.indd 267 10/2/10 22:15:18 268 16. REGRESIÓN LINEAL La tarea del investigador que pretende averiguar cuál es la relación lineal entre dos variables de la naturaleza a partir de las medidas hechas en una muestra, se parece mucho a la tarea que se propone en el ejercicio que sigue. **Ejercicio 16.1: En cada grupo de datos identifique la ecuación lineal, Y = a + b X, que relaciona Y con X (“a” y “b” pueden ser positivos, cero o negativos y pueden ser enteros o fraccionarios). Y 18 13.5 69 Y 20 36 0 6 A Y= D Y= X Y 6 4.5 23 20.2 12.2 18.7 X Y B X 15 7 13.5 Y 74 60 25 Y= E 14 17 80 41 12 20 2 5 C X 10 8 3 Y= X 3 4 25 12 Y F 79 78 76 71 Y= X 10 20 40 90 Y= **Ejercicio 16.2: En el ejemplo en la tabla que sigue no podrá encontrar dos valores para a y b que permitan relacionar exactamente los valores de Y con los de X por una expresión de regresión lineal. Se trata entonces de buscar una recta, es decir, unos valores de a y de b, que produzca valores de Y lo más próximos posibles a los de la tabla. ¿Cuál de las rectas del ejercicio anterior da valores de Y muy próximos a los de este ejercicio? Evidentemente, la recta del ejemplo E. Calcule con esa recta los valores de Y que corresponden a cada valor de X. Se les llama “valores calculados” y se les indica por Y’. Rellene con ellos la tercera columna de la tabla que sigue. Calcule las distancias de los valores de Y observados (segunda columna) a los calculados con su recta y rellene la cuarta columna. Rellene la quinta columna con las distancias al cuadrado y la suma de ellas. Y 14.1 16.8 79.7 41.4 16-cap16.indd 268 X 3 4 25 12 Y’ calculada Y´= 3 · 3 + 5 = 14 d = Y – Y’ 14.1 – 14 = 0.1 (Y – Y’ calculada)2 0.12 = 0.01 Σ= 10/2/10 22:15:18 16. REGRESIÓN LINEAL 269 16.2. Recta más ajustada a los datos. Criterio de mínimos cuadrados Solamente hay una ecuación de la forma Y = a + b X que relacione exactamente los valores Y con los de X si los puntos de la representación gráfica están exactamente sobre una línea recta. Cuando los puntos no quedan sobre una recta (no hay una ecuación lineal que relacione exactamente los valores Y con los de X) se busca la función lineal que a partir de los valores de X produzca valores de Y’ lo más próximos que sea posible a los valores Y observados, es decir, una recta que pase lo más cerca posible de los puntos, como se hizo en el ejercicio 16.2 arriba. Veamos como ejemplo las variables X, edad en años, e Y, fuerza en newtons en el brazo izquierdo, medida en cada uno de N = 7 niños. X Y 2 1 4 4 7 4 8 6 9 5 12 8 14 7 M=8 M=5 •La tabla de la izquierda a continuación contiene los valores X e Y observados. El primer niño tuvo X = 2 años e Y = 1 newton, el segundo X = 4 años e Y = 4 newtons, etc. Vamos a comparar tres ecuaciones lineales, es decir, tres rectas, para seleccionar entre ellas la que produzca valores calculados por dichas rectas, Y’ = a + b X, más próximos a los valores Y observados en la muestra. •La segunda tabla, a la derecha de los datos, contiene los cálculos para la recta Y’ = -2 + 1· X. La columna de la izquierda da los valores Y’ calculados. Al primer niño con X = 2, corresponde valor calculado Y’ = -2 + 1 · 2 = 0. La segunda columna da las distancias de cada Y’ al Y observado, llamadas “errores de estimación”, d = Y – Y’. Para el primer niño es d = 1 - 0 = 1. La tercera columna contiene los errores al cuadrado. Para el primer niño es d2 ≡ (Y – Y’)2 = 12 = 1. La suma de todos los d2 está en la última fila, es åd2 = 39. Datos X Y 2 1 4 4 7 4 8 6 9 5 12 8 14 7 16-cap16.indd 269 ∑ Y’ 0 2 5 6 7 10 12 Y’ = -2 + 1 · X d =y-y’ (y-y’)2 +1 1 +2 4 -1 1 0 0 -2 4 -2 4 -5 25 -7 39 Y’ 2 3 4.5 5 5.5 7 8 Y’ = 1 + 0.5 · X d =y-y’ (y-y’)2 -1 1 +1 1 -0.5 0.25 +1 1 -0.5 0.25 +1 1 -1 1 0 5.5 Y’ -1 1 4 5 6 9 11 Y’ = -3 + 1 · X d =y-y’ (y-y’)2 +2 4 +3 9 0 0 +1 1 -1 1 -1 1 -4 16 0 32 10/2/10 22:15:18 270 16. REGRESIÓN LINEAL • L a tabla central contiene los cálculos para la recta, Y’ = 1 + 0.5 X y la tabla de la derecha los cálculos para Y’ = -3 + 1 X. • En cada ecuación, para cada valor X de la tabla el valor Y’ calculado indica la altura de la recta para ese valor de X y el valor Y observado indica la altura del punto observado, por ello d = Y - Y’ es la distancia vertical del punto observado a la recta. Por ejemplo, el primer niño tiene X = 2 e Y = 1 y con la recta Y’ = 1 + 0.5 · X el estimado es 2. El error de estimación es d = 1 - 2 = -1, lo que indica que el punto observado para X = 2 está 1 unidad por debajo de la recta. El penúltimo niño tiene X = 12, por tanto Y’ = 1 + 0.5 · 12 = 7 y como el observado es Y = 8, el error de estimación es 8 -7 = 1. El punto observado queda 1 unidad por encima de la recta. ¿Cuál de las tres rectas produce valores calculados más próximos a los observados en la muestra, es decir, menores errores de estimación? Para unos niños el error de estimación es menor con una ecuación y para otros con otra. Por ejemplo, para el primero, con X = 2, la tercera recta produce mayor error de estimación (d = 4) que las otras dos (d = 1), pero en el tercero, con X = 4, el error de estimación es menor con la tercera recta (d = 0), y mayor (en valor absoluto) con la primera (d = -1). Es decir, ninguna recta produce mejor estimación que otra en todos y cada uno de los valores de X. Por ello buscaremos la recta que da menor “error promedio”. La media de los errores es la suma de ellos dividida por el número de casos. La media es menor con la recta que de menor suma. Podría elegirse la recta que diera menor suma de los errores en valor absoluto, sin signo. Pero es más útil al hacer Inferencia la recta que hace mínima la suma de los errores al cuadrado, ∑d2. Se le llama Recta de Mínimos Cuadrados. El criterio de Mínimos Cuadrados es muy utilizado en muchos campos del Análisis Estadístico. En nuestro ejemplo la ∑d2 es 39 para la primera recta, 5.5 para la segunda y 32 para la tercera. Por tanto, entre las tres estudiadas la mejor es Y’ = 1 + 0.5 X. El investigador busca la recta de mínimos cuadrados entre todas las posibles. Ello podría parecer una tarea ingente porque el número de rectas candidatas es infinito, ya que tanto “a” como “b” pueden tomar infinitos valores posibles. Por ejemplo, una recta distinta de Y’ = 1 + 0.5 X es Y’ = 0.99 + 0.5 X y distinta de las dos anteriores es Y’ = 0.99 + 0.501 X y distinta de esa es Y’ = 0.991 + 0.501 X. Variando el valor de b y el de a se van obteniendo distintas rectas y cada una de ellas podría dar menor la suma de cuadrados de error. Sin embargo, una vez más, la matemática viene al rescate y permite encontrar directamente, sin tanteos reiterados, la recta que obtiene los valores Y’ más próximos a los Y, en el sentido de que se minimiza la suma de los cuadrados de los errores de estimación. 16. 3. Recta de Mínimos Cuadrados en la muestra En nuestro ejemplo de los niños la media de edad es 8 años y la media de fuerza es 5 newtons 16-cap16.indd 270 11/2/10 13:30:39 16. REGRESIÓN LINEAL X, en años 2 4 7 x = X - MX -6 -4 -1 y = Y - MY -4 -1 -1 Y, en Newtons 1 4 4 8 0 6 1 9 1 5 0 12 4 271 14 Σ X = 56 MX = 8 7 Σ Y = 40 MY = 5 8 3 6 Σx=0 2 Σy=0 Usamos las letras “x” e “y” (minúsculas) para indicar las distancias de cada valor original de X o de Y a su media aritmética. Para el primer niño es x = 2 - 8 = - 6, es decir, 6 años por debajo de la media del grupo; y tiene una fuerza de 1, y = 1 – 5 = -4, es decir, 4 Newton de fuerza por debajo de la media. Ocurre que en toda lista de valores la suma de las distancias a la media es cero, Σ x = 0 y Σ y = 0. “x” (minúscula) = X - MX Σx ≡ Σ (X - MX) = 0 S2X = Σ x2 / ( N -1) “y” (minúscula) = Y - MY Σy ≡ Σ (Y - MY) = 0 S2Y = Σ y2 / ( N -1) Para obtener la recta de mínimos cuadrados hay que calcular en la muestra tres cantidades: ∑ (X - MX) 2 ∑ (Y – MY) 2 ∑ (X - MX) (Y- MY) ≡ ∑x2 = 106 ≡ ∑y2 = 32 ≡ ∑ xy _ = 53 A partir de esas tres cantidades se calculan las constantes “a” y “b” y otros valores de la recta de mínimos cuadrados: “b”, Coeficiente de Regresión Muestral: b = ∑ xy / ∑ x2 = 53 / 106 = 0.5 Indica cuánto varía Y, por término medio, en la muestra, por cada unidad que aumenta X. Por cada año más que tiene el niño, su fuerza aumenta en 0.5 newton. El valor de b depende de las unidades empleadas. Por ejemplo, es lo mismo 0.5 Newton / año que 1 newton / bienio o que 2.5 Newton / quinquenio “a”, Ordenada en el origen: a = MY - b MX = 5 – 0.5 · 8 = 1 Es el valor de Y que correspondería a un individuo con X = 0 en la recta de mínimos cuadrados. Indica el punto en que la recta de mínimos cuadrados corta al eje vertical. Por tanto, nuestra recta de Mínimos Cuadrados es Y’ = 1 + 0.5 X. Vemos que a partir de los estadísticos ∑x2, ∑y2 y ∑xy se encuentra directamente la recta buscada. El investigador no necesita recordar las fórmulas. Los programas informáticos las aplican y dan como salida los valores de “a”, de “b” y otros 16-cap16.indd 271 10/2/10 22:15:18 272 16. REGRESIÓN LINEAL estadísticos relacionados con la recta de mínimos cuadrados que veremos en seguida. Tampoco necesita el investigador entender por qué esas fórmulas permiten hallar la recta de mínimos cuadrados. Pero en el apéndice C se demuestra que esa solución es la correcta porque para quien no detesta las matemáticas elementales puede ser interesante ver un caso sencillo de una herramienta tan potente como es el cálculo de máximos y mínimos. Veamos algunos estadísticos importantes relacionados con esta recta: X 2 4 Y 1 4 d = Y – Y’ -1 +1 Y’ = 1+0.5 X d = (Y – Y’) 2 2 2 1 3 1 7 4 4.5 -0.5 0.25 8 6 5 9 5 5.5 12 8 7 14 7 8 Media = 8 1 0.25 1 1 ∑d2 = 5.5 +1 -.5 +1 -1 Media = 5 ∑d = 0 ∑d2 = Suma de errores al cuadrado = ∑ (Y-Y’)2 = ∑ (Y – {1 + 0.5 X } )2 = 5.5 Es la suma de los cuadrados de los errores de estimación, es decir, de los cuadrados de las distancias verticales de los puntos a la recta. La ∑d2 es mínima con esta recta. Se calcula directamente con: ∑d2 = ∑y2 - (∑xy )2 / ∑x2 = 32 – 53 2 / 106 = 5.5. S2y.x = ∑ d2 / (N-2) se llama Varianza de la estimación. La cantidad ∑d2 / N es la media de los errores de estimación al cuadrado. Podría usarse para resumir en una sola cifra la cuantía de esos errores. Pero se usa una ligera modificación de ella, que consiste en dividir la suma ∑d2 por “N - 2”, en vez de dividir por N. Sy.x = [∑ d2 / (N-2) ]1/2 = [ 5.5 / 5 ]1/2 = 1.05. Es el Error estándar de la regresión. Indica cuánto, por término medio, nos equivocamos al estimar en la muestra los valores de Y a partir de los valores de X, utilizando la expresión de la recta. Sb = Sy.x / (∑x2) 1/2 = 1.05 / 1061/2 = 0.102. Es el Error estándar de la “b”. Es la cantidad utilizada para hacer tests respecto al Coeficiente de Regresión poblacional y calcular los Intervalos de Confianza para ese parámetro. Estima la desviación estándar entre los b´s muestrales si se hiciera MA. **Ejercicio 16.3: Para los datos de este ejemplo calcule ∑d2 = ∑ (Y-Y’)2 con dos rectas cualesquiera y compruebe que es mayor de 5.5. **Ejercicio 16.4: En una muestra de 80 individuos de más de 50 años se mide la Tensión Arterial, TA, (en cm.) y la Edad (en años) se encuentra b = 2; Sy.x = 0.8 ; Sb = 0.1; ∑d2 = 49.9 ; r = 0.85. Interprete cada uno de estos números: a. b = 2 b. Sy.x = 0.8 c. ∑d2 = 49.9 d. r = 0.85 e. r2 = 0.72 16-cap16.indd 272 10/2/10 22:15:18 16. REGRESIÓN LINEAL 273 16.4.Coeficiente de Correlación Lineal y Coeficiente de Determinación El valor numérico de b, de ∑y2 y de ∑d2 depende de las unidades en que se mide la variable Y. Por ejemplo, si Y es una longitud expresada inicialmente en metros, al expresarla en centímetros el número es cien veces mayor y el valor de ∑y2 y de ∑d2 es 10 000 veces mayor, por estar elevados al cuadrado. Pero el valor del cociente ∑d2 / ∑y2 es el mismo cualquiera que sea la unidad usada. Se llama Coeficiente de Determinación, r2, a la cantidad 1 - ∑d2 / ∑y2. Puede interpretarse como la proporción de variación entre los valores de Y “explicada por” la X. En nuestro ejemplo es r2 = 1- ∑d2 / ∑y2 = 1 - 5.5 / 32 = 1 0.172 = 0.828. Con un poco de álgebra se puede ver que también es r2 = (∑xy)2 / (∑x2· ∑y2), es decir, 532 / 32 ·106 = 0.828. La fuerza no es igual en todos los niños de esta muestra. Las diferencias entre los valores de Y se cuantifican por ∑y2 (“y” minúscula, es decir, Y - MY). Las diferencias entre las fuerzas se deben en parte a que las edades difieren sensiblemente, es decir, las diferencias entre las X (las edades) “explican” buena parte de las diferencias entre las Y (las fuerzas). Pero no todas las diferencias entre las fuerzas se deben a las diferencias de edad. Niños con igual edad no tienen todos la misma fuerza, sino que hay diferencias entre ellos. La cantidad ∑d2 / ∑y2 = 0.172 puede interpretarse como la proporción de la variación entre las fuerzas que no se debe a las diferencias de edades y la cantidad r2 = 1 - ∑d2 / ∑y2= 1 - 0.172 = 0.828 es la proporción de la variación entre las fuerzas que se debe a las diferencias de edades. En el apéndice C se comenta un poco mas extensamente este punto. A la raíz cuadrada del Coeficiente de Determinación se le llama Coeficiente de Correlación, r = ∑xy / ( ∑x2· ∑y2) ½ y se usa con más frecuencia que el de Determinación. En nuestro ejemplo es r = 0.828½ = 0.91. El Coeficiente de Correlación toma valores entre -1 y +1. Vale cero cuando los puntos no se agrupan en torno a una recta ascendente ni descendente, es decir, a mayores valores de X no corresponden valores de Y mayores ni menores, sino parecidos. Cuanto más se aproximan los puntos a una recta, más se aproxima r a la unidad. Vale 1 cuando todos los puntos quedan exactamente sobre una recta ascendente y vale -1 cuando todos los puntos quedan exactamente sobre una recta descendente. Resumiendo: El Coeficiente de Regresión, b, mide la pendiente de la recta de mínimos cuadrados, dice cuanto varía Y por cada unidad que aumenta X y su valor depende de las unidades en que se expresen X e Y. El Coeficiente de Correlación, r, mide la proximidad de los puntos a esa recta, toma valores entre -1 y +1 y su valor no depende de las unidades en que se expresen X e Y. 16-cap16.indd 273 10/2/10 22:15:18 274 16. REGRESIÓN LINEAL 16. 5. Regresión Lineal: Modelo Poblacional y Muestreo En este, como en otros muchos campos del análisis de datos, el estudio de la muestra observada se hace generalmente para intentar conocer ese tipo de relaciones en la población muestreada. En la población se llama Línea de Regresión de la variable Y sobre X a la línea formada por las medias de la variable Y para cada valor de X. Es decir, hay que considerar todos los individuos con un mismo valor de X y tener en cuenta que la variable Y no tiene el mismo valor en todos ellos, sino que forman una distribución. El modelo más usado se describe por tres propiedades: a)La media de Y para todos los individuos con cada valor concreto de X, µ, crece o decrece linealmente al aumentar los valores de X, es decir, µ = α + β X. b)La desviación estándar entre los valores de Y para todos los individuos con el mismo valor X, σY·X es igual para todos los valores de X, es decir, σY·X = σY·X = σY·X … ≡ σ. 1 2 3 c)Los valores Y correspondientes a cada valor X se distribuyen de modo Normal. Muchas situaciones reales se aproximan bien a este modelo que queda especificado por los tres parámetros α, β y σ. El investigador no conoce el valor de esos parámetros y debe estimarlos a partir de la muestra. ¿Qué estadísticos muestrales estiman esos parámetros? Si se sacan millones de muestras, todas del mismo tamaño y con los mismos valores de X, y en cada una se calcula la recta de Mínimos Cuadrados, ocurre que: –b es estimador insesgado de β, es decir, la media de las b’s en el MA es β. –a es estimador insesgado de α, es decir, la media de las a’s en el MA es α. –S2Y·X es estimador insesgado de σ2Y·X, la media de las S 2Y·X en el MA es σ2Y·X Es decir, los estadísticos a, b y SY·X calculados en la muestra estiman los parámetros α, β y σ desconocidos. Con esos estadísticos se calculan los IC y se hacen test para los parámetros, usando para ello la distribución de los estadísticos en el MA. Ejemplo: Supongamos que en población la relación entre dos variables cuantitativas X e Y es µ = 4 + 0.33 X, y que es σ2Y·X ≡ σ2 = 2.25. Es decir, la recta de regresión poblacional corta al eje vertical en el valor Y = 4. Ese sería el valor medio de Y en los individuos con X = 0. Y la pendiente es 0.33, es decir, la media de Y para los individuos con cada valor de X aumenta 0.33 por cada unidad que aumenta X. Y la varianza entre las Y’s de los individuos con el mismo valor de X es 2.25. σ = 1.5 16-cap16.indd 274 10/2/10 22:15:18 16. REGRESIÓN LINEAL 275 Ejemplo de algunos valores de µ con a = 4 y b = 0.33 X µ ≡ µY|.X=X 0 1 4 4.33 2 4.66 3 4.99 Si de esa población tomamos una muestra de N = 6 individuos con valores de X: 6, 12, 18, 24, 30 y 36, para el individuo con X = 12, por ejemplo, no sabemos el valor Y que va a salir. Saldrá una cantidad al azar, dentro de las que forman la distribución de todos los Y que corresponden a X = 12 y que tienen media 4 + 0.33 · 12 = 8. Si hacemos MA tomando en cada muestra siempre 6 individuos con esos mismos valores X, la variable Y tomará en cada individuo un valor más o menos cercano, pero generalmente no exactamente igual, a 4 + 0.33 X. A cada muestra corresponde una recta muestral de Mínimos Cuadrados cuya pendiente y ordenada en el origen tendrán valores próximos a los de la recta de regresión poblacional. La tabla que sigue reproduce algunas de las muestras obtenidas en el MA y los estadísticos más relevantes de cada una. PoblAciÓN MuestRA 1 ... MuestRA 10 ... Muest 1 000 ... Muest 10 000 X µ X 12 8 12 6 18 24 30 6 10 12 14 6 18 24 30 Y X 9.8 12 7.2 8.3 10.5 13.9 36 15.1 β estimada por b: α estimada por a: σ2Y·X estim. S 2Y·X : 0.28 5.7 2.9 36 16 6 18 24 30 36 Y X 8.4 12 5.3 9.6 10.9 13.2 17.1 0.59 3.4 1.3 6 18 24 30 36 0.49 2.8 4.1 Y X 7.0 12 5.1 8.3 12.4 16.3 15.1 6 18 Y 6.6 7.6 11.0 24 12.5 36 18.0 30 11.3 0.15 0.33 4.2 4 2.1 2.25 16. 6. Inferencia en la Regresión Lineal Si de una población con, por ejemplo, β = 1.5 se toma una muestra, la b muestral puede tomar valores como +1 ó 0 ó - 0.1, como se muestra en las figuras: 16-cap16.indd 275 10/2/10 22:15:19 276 16. REGRESIÓN LINEAL Modelo poblacional El modelo dice que en la población, por cada unidad de aumento de la X, las medias de Y aumentan 1.5 unidades. Si tomamos muestras de esta población, en ellas no ocurrirá exactamente lo mismo. Pueden ser muestras como las que siguen: Pero en la práctica no sabemos lo que ocurre realmente en la población, solo tenemos los datos de una muestra, a partir de la cual intentaremos saber cómo es la relación entre las dos variables en la población. Aunque realmente no haya relación lineal entre dos variables en la población, en la muestra siempre aparecerá, por la VRM, un cierto grado de asociación positiva o negativa. Para ver hasta qué punto la asociación encontrada en la muestra podría ser por la VRM se hace test estadístico. Como ejemplo haremos test e intervalo de confianza en el ejemplo de la fuerza medida en el brazo, Y, y la edad en años, X, en cada uno de N = 7 niños: X, en años Y, en Newtons 2 1 4 4 7 4 8 6 9 5 12 8 14 7 M=8 M=5 Con estos datos se calculó la recta de mínimos cuadrados, Y’ = 1 + 0.5 X con coeficiente de regresión b = 0.5, error estándar de la regresión Sy.x = 1.05 y error estándar de la b Sb = 0.102. • Intervalo de Confianza para β: IC(β) = b ± Sb tN-2 donde Sb es el error estándar de la b calculada con los datos de la muestra. Si se quiere confianza 95% el valor “tN-2” es el valor de la distribución t de Student con N-2 grados de libertad, gl, que deja fuera de él, el 2.5% de los valores de esa distribución en cada cola (5% entre las dos colas). En nuestro ejemplo con N = 7, utilizaremos el valor que aparece donde se cruzan la fila de 5 gl y la columna 16-cap16.indd 276 10/2/10 22:15:19 16. REGRESIÓN LINEAL 277 con cabecera BIL = 0.05, que es t = 2.571. Si se quiere confianza 99% se toma el valor que deja fuera de él el 0.5% de los valores de esa distribución en cada cola (1% entre las dos colas), (para este ejemplo sería t = 4.032). sb es la estimación que se hace con esta muestra de la desviación estándar entre las b’s muestrales si se hiciera MA. IC95% = 0.5 ± 0.102 x 2.571 = 0.5 ± 0.26 = 0.24 y 0.76 En la muestra es b = 0.5, es decir, por cada año de más, la fuerza aumenta en promedio en 0.5 newtons. No sabemos cuanto es ese aumento en la población, pero tenemos 95% de confianza en que se encuentre entre 0.24 y 0.76 newtons. • Tests de significación para β: a)La Hipótesis Nula, H0, habitualmente planteada es que en población es β = 0, es decir, no hay regresión lineal, al aumentar la X la media de Y no crece ni disminuye linealmente. Esta H0 implica también que en población es r = 0. El estadístico a calcular es: tN-2 = b / Sb En nuestro ejemplo la hipótesis planteada dice que en población no hay variación lineal de la fuerza con el aumento de la edad. Encontramos t5 = 0.5 / 0.102 = 4.9 mirando en la tabla “t-Student” con grados de libertad, gl = N -2 = 5, encontramos que el valor más próximo a él es 4.032, al que le corresponde PUNIL = 0.005. Al valor t = 4.9 obtenido en la muestra le corresponderá PUNI < 0.005. Es decir, si en población no hay regresión y repitiéramos este estudio con 7 niños millones de veces, en menos de 5 estudios cada 1 000 aparecería b = 0.50 ó mayor. Los datos de la muestra no son fácilmente compatibles con la hipótesis H0, por lo que tendemos a rechazar H0 y pensar que en población sí hay relación lineal entre la edad y la fuerza. b)También puede plantearse como H0 que β tiene cierto valor, es decir, que en población al aumentar la X la media de Y crece o disminuye cierta cantidad β. El estadístico a calcular es: tN-2 = |β - b| / Sb En el ejemplo, para H0: β = 0.7 es t5 = |0.7 – 0.5| / 0.102 = 1.96. En la tabla “t de Student” se encuentra que con gl = 5 al valor t = 2.015 le corresponde PUNI = 0.05, por tanto al valor t = 1.96 (que es menor que 2.015) le corresponderá PUNI > 0.05. Cuando los cálculos del test los hace un programa informático la salida incluye el valor P, que en este caso es PUNI = 0.053. Es decir, si en población es β = 0.7 y repitiéramos este estudio millones de veces, en 53 de cada 1 000 veces aparecería por la VRM valor b igual o menor que 0.5. Es decir, no es muy raro encontrar unos datos con un coeficiente de regresión como el obtenido (b = 0.5) si en la población fuera de 0.7 (β = 0.7), por lo que decimos que nuestros datos son compatibles con la hipótesis planteada para 16-cap16.indd 277 10/2/10 22:15:19 278 16. REGRESIÓN LINEAL la población; no rechazamos H0 admitiendo el valor β = 0.7 como un valor posible para la población. El numerador del estadístico calculado en el test mide la diferencia entre la pendiente de la recta que propone la H0 para la población y la encontrada en la muestra. Si, por ejemplo, se propone como H0 que en población Y disminuye 0.3 unidades por cada unidad que aumenta X, es decir, β = - 0.3, (recuerde que en la muestra aumenta 0.5 unidades, b = 0.5) es t5 = |-0.3 – 0.5| / 0.102 = 0.8 / 0.102 = 7.84 y PUNIL < 0.0005. Rechazamos H0, β no es -0.3, será β > -0.3. **Ejercicio 16.5: Un autor cree que β = 0.4. Haga un test para esta hipótesis. **Ejercicio 16.6: ¿Podemos asegurar que β NO es 2? **Ejercicio 16.7: Interprete el valor de P obtenido en el ejercicio anterior **Ejercicio 16.8: Para ver si el coeficiente intelectual, c.i. ≡ Y, de los ancianos se modifica con la edad, se mide en una muestra de N = 12 individuos obteniéndose los siguientes resultados: Coeficiente intelectual, Y: MY = 100 Σ y2 = Σ (Y - 100)2 = 1880, Edad en años, X: MX = 70 Σ x2 =Σ (X - 70)2 = 80 Σ x·y = Σ(X - 70)(Y -100) = -80 Al calcular la recta de regresión de Mínimos Cuadrados se obtuvo: b = -1, a = 170, sy.x = 13.4, sb = 1.5, ∑ d2 = ∑ (Y – {170 – 1·X})2 = 1 800 a.¿Cuánto varía en la muestra, por término medio, el c.i. de los ancianos por cada año que pasa? b.Escriba la ecuación de la recta que permite estimar, con el mínimo error posible, el C.i. a partir de la edad. c. ¿Qué c.i. estimamos para un individuo de 64 años? d. ¿Cuánto vale la suma de cuadrados de los errores de estimación? e. ¿Cuánto vale y cómo interpretamos el error estándar de la estimación? f.¿Qué proporción de la variabilidad del c.i. en la muestra se explica por la influencia de la edad? g.¿Cuánto vale y cómo se interpreta el error estándar del coeficiente de regresión? h.Un psicólogo opina que, en población, cada año que pasa el c.i. del anciano aumenta 5 unidades. ¿Es defendible su hipótesis? i.El doctor “B” cree que ese incremento anual es 1. ¿Es defendible esta hipótesis? j.El doctor “C” cree que cada año el c.i. baja 2.5 unidades ¿Tenemos fuertes motivos para rechazar esta posibilidad? k.El doctor “D” asegura que el c.i. de los ancianos disminuye 8 unidades por año. ¿Son compatibles estos datos con su aserto? l.Calcule intervalo de confianza (95%) para variación poblacional del c.i. por año. 16-cap16.indd 278 10/2/10 22:15:19 16. REGRESIÓN LINEAL 279 **Ejercicio 16.9: En una muestra de 81 individuos se midió la concentración de calcio en LCR, “Y”, y la concentración de calcio en sangre, “X”. Al ajustar la Recta de Mínimos cuadrados se obtiene: b = 2, a = 1, Sy.x = 10, Sb = 0.20, d2 = 7 900, r = 0.80, r2 = 0.64 a.En la muestra, ¿Cuanto varía, por termino medio, “Y” al aumentar “X” 4 unidades? b.Un autor dice que en población al aumentar “X” 4 unidades, “Y” aumenta, por término medio, 6 unidades ¿Vd. Qué opina ? c.Interprete el valor de “P” del test anterior como frecuencia relativa. d.¿Estamos prácticamente seguros de que el coeficiente de regresión poblacional no es 3? e.¿Estamos prácticamente seguros de que el coeficiente de regresión poblacional es 2? f.Al estimar los valores de Y a partir de los valores de X, ¿cuánto es el error estándar de la estimación? g.¿En cuánto estimamos la σ2y.x poblacional? Explique de qué cantidad estamos hablando. h.¿En cuánto estimamos la desviación estándar entre los b´s muestrales en MA? i.Un autor cree que en población el Coeficiente de Correlación es cero. ¿Qué implica eso respecto a la relación entre las dos variables? ¿Qué podemos decir acerca de esa hipótesis? j. ¿Qué valor de Y estimamos en un individuo con X = 30? k. ¿Qué porcentaje de la variación de la Y es explicado por la X? l.Calcule e interprete el Intervalo de Confianza para β con confianza de 95%. 16-cap16.indd 279 10/2/10 22:15:19 280 16. REGRESIÓN LINEAL No olvide recordar - 16 1.El estudio de la relación entre dos variables se hace de distinta forma dependiendo del tipo de variables implicadas: • Si las dos son cualitativas, una con C categorías y otra con K cate- gorías, se forma una tabla de contingencia C x K. La situación es la misma si una de las variables es cuantitativa y sus valores se agrupan en intervalos o si las dos variables son cuantitativas y los datos se agrupan en intervalos en ambas. Se hace Inferencia utilizando el test de chi-cuadrado. • Si una es cuantitativa y la otra cualitativa, se calcula la media y desviación de la cuantitativa para cada categoría de la cualitativa y se hace ANOVA. • Si las dos son cuantitativas (con valores no agrupados en intervalos) indagamos la posible Regresión Lineal, RL: Y = a + b X a la que gráficamente corresponde una línea recta. 2.Los datos X e Y medidos en cada individuo de una muestra se represen- tan en una gráfica llamada nube de puntos que asocia un punto a cada individuo, representando su valor X en el eje horizontal y su valor Y en el vertical. 3.Se busca la recta que mejor se ajusta a la nube de puntos. Tiene por expresión Y = a + b·X donde la ordenada en el origen, “a”, indica el valor de Y que corresponde a X = 0, es el punto en que la recta corta al eje vertical. El coeficiente de regresión o pendiente de la recta, “b”, indica cuando varía Y por cada unidad que aumenta X. El valor de b depende de las unidades en que se midan las variables. 4.Calculando los coeficientes ‘b’ y ‘a’ de la recta con estas expresiones: b = ∑ x ·y / ∑ x 2 y a = MY - b·MX se hace mínima la suma de los cuadrados de los errores de estimación, ∑d2 = ∑ (Y - {a + bX } )2. 5.El Coeficiente de Correlación mide la cercanía de los puntos observados a la recta de regresión de Mínimos Cuadrados. Vale cero cuando los puntos no se agrupan en torno a una recta. Cuanto más se aproximan los puntos a una recta, más se aproxima a +1 (recta ascendente) o –1 (descendente). 6.El error estándar de la regresión, Sy.x= [ ∑d2 / (N-2) ]1/2, dice cuánto, por término medio, nos equivocamos al estimar en la muestra los valores de Y a partir de los valores de X. Estima la σ2Y·X ≡ σ2 poblacional. 7.El error estándar de la b, Sb = Sy.x / ( ∑x2) ½ estima la desviación estándar entre los b´s muestrales si se hiciera MA. Se utiliza para hacer tests e IC para β. 16-cap16.indd 280 10/2/10 22:15:19 16. REGRESIÓN LINEAL 281 EJERCICIO DE AUTOEVALUACIÓN - 16 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.Para estudiar la relación entre dos variables cualitativas se calcula la media y desviación de una para cada categoría de la otra y se hace ANOVA. 2.Para estudiar la relación entre dos variables cualitativas, una con C categorías y otra con K categorías, se forma una Tabla de Contingencia C x K. 3.También se forma una Tabla de Contingencia si hay una variable cualitativa y otra cuantitativa agrupada en intervalos. 4.También se forma una Tabla de Contingencia si las dos variables son cuantitativas y los datos se agrupan en intervalos en ambas. 5.Para estudiar la relación entre una variable cuantitativa no agrupada en intervalos y una cualitativa se analiza la posible Regresión Lineal. 6.Para estudiar la relación entre una variable cuantitativa no agrupada en intervalos y una cualitativa se calcula la media y desviación de la cuantitativa para cada categoría de la cualitativa y se hace ANOVA. 7.Para estudiar la relación entre dos variables cuantitativas (con valores no agrupados en intervalos) se forma una Tabla de Contingencia. 8.Para estudiar la relación entre dos variables cuantitativas (con valores no agrupados) se calcula la media y desviación de una de ellas y se hace ANOVA. 9.Para estudiar la relación entre dos variables cuantitativas (con valores no agrupados en intervalos) indagamos la Regresión Lineal, RL: Y = a + b X. 10.Para estudiar la relación entre dos variables cuantitativas (con valores no agrupados) se suele hacer una nube de puntos que asocia un punto a cada individuo, representando su valor X en el eje horizontal y su valor Y en el vertical. 11.La expresión Y = a + b X hace corresponde a cada valor X uno de Y. Si a cada pareja de valores X e Y se hace corresponder un punto en un sistema de ejes perpendiculares se obtiene una línea recta. 12.“a” indica cuánto varía Y por cada unidad que aumenta X. 13.“a” indica cuánto varía X por cada unidad que aumenta Y. 14.“a” indica cuánto vale X cuando Y es cero. 15.“a” indica cuánto vale Y cuando X es cero. 16.“a” es el punto del eje vertical en que la recta lo corta. 17.El coeficiente de regresión o pendiente de la recta, “b”, indica cuánto varía Y por cada unidad que disminuye X. 18.“b” indica cuánto varía X por cada unidad que aumenta Y. 19.“b” indica cuánto varía Y por cada unidad que aumenta X. 16-cap16.indd 281 10/2/10 22:15:19 282 16. REGRESIÓN LINEAL 20.Velocidad de 20 km/ hora es igual que 20 000 m/ hora. 21.Velocidad de 24 km/ hora es igual que 1km/ día. 22.El valor de “b” depende de las unidades en que se miden X e Y. 23.El valor de “b” no depende de las unidades en que se mide Y. 24.El valor de “b” no depende de las unidades en que se mide X. 25.El valor de “b” siempre toma valores entre 0 y 1 26.∑d2 = Suma de errores al cuadrado = ∑ (Y-Y’)2 = ∑ (Y – {a + bX } )2 dice cuánto, por término medio, nos equivocamos al estimar en la muestra los valores de Y a partir de los valores de X. 27.∑d2 es mayor cuanto más se alejan los valores calculados, Y’ = a + b X, de los valores observados de Y. 28.La recta de mínimos cuadrados es la que da menor valor de b. 29.La recta de mínimos cuadrados es la que da menor valor de ∑d2. 30.El Error estándar de la regresión, Sy.x= [ ∑d2 / (N-2) ]1/2, dice cuánto, por término medio, nos equivocamos al estimar en la muestra los valores de Y a partir de los valores de X. 31.Para encontrar la recta de mínimos cuadrados hay que calcular la ∑d2 en millones de rectas. 32.El Error estándar de la b, Sb = Sy.x / ( ∑(X -MX) 2) ½ estima la desviación estándar entre los b´s muestrales si se hiciera Muestreo Aleatorio. 33.El Error estándar de la b, Sb, dice cuánto, por término medio, nos equivocamos al estimar en la muestra los valores de Y a partir de los valores de X. 34.Sb es la cantidad utilizada para hacer tests y calcular IC para β. 35.El Coeficiente de Correlación relaciona la ∑d2 con la ∑(Y-MY)2 y no depende de las unidades en que se miden X e Y. 36.El Coeficiente de Correlación relaciona la ∑d2 con la ∑(Y-MY)2 y depende de las unidades en que se miden X e Y. 37.El Coeficiente de Correlación, r, vale cero cuando los puntos no se agrupan en torno a una recta ascendente ni descendente. 38.r vale 1 cuando los puntos quedan sobre una recta ascendente. 39.r vale 1 cuando los puntos quedan sobre una recta descendente. 40.r vale -1 cuando los puntos quedan sobre una recta descendente. 41.El modelo poblacional de la Regresión Lineal dice que todos los individuos con un mismo valor de X tiene igual valor de Y, el cual se relaciona con el valor X por la expresión Y = a + b X. 42.El modelo poblacional de la Regresión Lineal dice que la media de todos los valores Y de los individuos con un mismo valor de X, digamos µ ≡ µY|X=X, se relaciona con el valor X por la expresión µ = α + β X. 16-cap16.indd 282 10/2/10 22:15:19 16. REGRESIÓN LINEAL 283 43.El modelo poblacional de la Regresión Lineal dice que la desviación estándar de los valores Y ente los individuos con un mismo valor de X, digamos σ ≡ σY|X=X, se relaciona con el valor X por la expresión σ = α + β X. 44.El modelo poblacional de la Regresión Lineal dice que la σ ≡ σY|X=X, es la misma para los distintos valores de X . 45.El modelo poblacional de Regresión Lineal no dice nada respecto a la desviación estándar de los valores Y entre los individuos con un mismo valor X. 46.β = 0 implica que en la población no hay Regresión Lineal. 47.Si en la población no hay Regresión Lineal, en la muestra tampoco la habrá. 48.Si en la población no hay Regresión Lineal, en las muestras suele haber una pequeña o moderada regresión positiva o negativa. 49.Conociendo la pendiente de la recta de regresión de mínimos cuadrados, conocemos la pendiente en la población. 50.Conociendo la pendiente de la recta de regresión de mínimos cuadrados, podemos calcular un Intervalo de Confianza para la pendiente en la población. 51.Conociendo la pendiente de la recta de regresión de mínimos cuadrados, podemos hacer tests relativos a la pendiente en la población. 16-cap16.indd 283 10/2/10 22:15:19 16-cap16.indd 284 10/2/10 22:15:19 Capítulo 17 La INferencia bayesiana Al valorar la información más recientemente adquirida sobre un tema es consustancial a la mente humana incorporar la información previa que sobre él tenemos. Así lo hacemos continuamente en la vida común, porque la lógica lo exige y la experiencia muestra que de ese modo evaluamos más correctamente la realidad. Entre los innumerables ejemplos que podríamos citar consideremos el de un observador que otea el cielo en espera de que haga un día soleado para salir al campo y lo ve parcialmente nubloso. Si esto ocurre en Escocia (82% de días con lluvia) se inclinará por no iniciar la excursión, ante el temor de que llueva. Pero si ocurre en Almería (4% de días con lluvia) se pondrá en marcha, confiado en que las nubes dejarán paso a un radiante sol. Ante un mismo dato observado —cielo parcialmente nubloso— se emite un pronóstico muy distinto según sea la información previa que tenemos sobre ese tema. Y se puede demostrar que actuando de este modo la predicción del clima es, a la larga, más exitosa que si se ignorara la experiencia previa. También es inevitable —y muy útil— incorporar nuestros conocimientos previos sobre el tema cuando nos planteamos rechazar o no la H0 en una investigación. Por ejemplo, en un estudio para ver si el fármaco “A” es efectivo, la Inferencia Clásica tiene en cuenta exclusivamente el resultado del experimento actual y calcula la prob de obtener ese tipo de resultado si A no fuera efectivo. No incorpora la información previa que pueda haber sobre la eficacia de A. Pero el investigador no puede —ni debe— librarse de tener en cuenta esa información previa y tener más confianza en la efectividad de A cuanto más fiable es la entidad que lo propone. Todos lo hacemos implícitamente. La llamada Inferencia Bayesiana lo hace explícitamente y calcula dos tipos de probabilidades. a)La “Probabilidad a priori”, PPRIORI, evalúa la confianza que teníamos en que A fuera efectivo antes de conocer el resultado del estudio actual. 285 17-cap17.indd 285 10/2/10 22:15:27 286 17. La INferencia bayesiana b)La “Probabilidad a posteriori”, PPOSTERIOR, es la prob de que el fármaco sea efectivo teniendo en cuenta el resultado del estudio actual. Se calcula a partir de la PPRIORI y del resultado. La mayoría de los investigadores no tienen noticia de la existencia de la Inferencia Bayesiana. En los departamentos de Estadística de las universidades se imparten muy pocos cursos de introducción a este tema. Aquí se exponen los fundamentos lógicos del enfoque bayesiano y su uso en las situaciones más sencillas. Estos fundamentos lógicos pueden ser entendidos por los investigadores legos en matemáticas y su aplicación les permitirá, en algunas situaciones comunes, estimar la prob de que sean ciertas las hipótesis investigadas. 17.1. Probabilidad “a priori” frecuentista En el apartado 9.7 decíamos que en la mayoría de los estudios no se puede calcular la prob de que la hipótesis planteada sea cierta y veíamos un ejemplo en el que sí se puede calcular, similar al que vemos a continuación. Sabemos que algunas monedas de nuestro país son falsas y están mal balanceadas, de modo que en ellas la prob de salir cara es πF = 0.8. En las legales esa prob es πL = 0.5. Tenemos una moneda y no sabemos si es legal o falsa, es decir, no sabemos si la prob de cara en ella, que llamaremos πM , es 0.5 o es 0.8. Para intentar saberlo hacemos 5 tiradas con ella y sale cara en las 5 tiradas. Para la H0 que dice que la moneda es legal, πM = 0.5, se obtiene PUNI = 0.0312. Es decir, haciendo millones de series de 5 tiradas con una moneda legal, aparecen 5 caras en aproximadamente 3 cada 100 series. Es un moderado indicio contra la H0. Esto es todo lo que dice la Inferencia Clásica, que en ningún momento tiene en cuenta si la FR de monedas falsas en el país es alta o baja. En general, la Inferencia Clásica no evalúa la prob de que la H0 sea cierta o sea falsa, lo que en este ejemplo equivale a no tener en cuenta la FR de monedas falsas. Pero si esa FR se conoce, no podemos evitar tenerla en cuenta. En efecto, si nos dicen que la FR de monedas falsas es muy elevada, ya antes de hacer las tiradas tenemos alta prob de que nuestra moneda sea falsa y al valorar el resultado del “estudio” (sale cara en las cinco tiradas) nos inclinamos a pensar que salió ese resultado porque nuestra moneda es una falsa. Por el contrario, si nos dicen que la FR de monedas falsas es muy baja, nos inclinamos a pensar que la nuestra es buena y salió ese resultado por azar. La Inferencia Bayesiana incorpora esa información sobre la FR de monedas falsas de modo cuantitativo. La FR de monedas legales nos da la “Probabilidad a priori”, PPRIORI, de que la monedad sea legal. La “Probabilidad a posteriori”, PPOSTERIOR, de que sea legal teniendo en cuenta que al tirarla 5 veces salieron 5 caras, se calcula a partir de la PPRIORI y de las probabilidades de obtener ese resultado con una moneda legal y con una moneda falsa. Ese cálculo se hace aplicando el Teorema de Bayes, como se hizo en el Capítulo 5. Es imprescindible repasar aquel capítulo para entender este. Si, por ejemplo, son falsas el 10% de las monedas, la prob inicial de que la nuestra sea legal es PPRIORI = 0.90. Si una moneda legal, L, se tira 5 veces, la prob de que salgan 17-cap17.indd 286 10/2/10 22:15:27 17. La INferencia bayesiana 287 5 caras es 0.55 = 0.0312 (es el valor P del test). Si una moneda falsa, F, (en la que la prob de salir cara es 0.8) se tira 5 veces, la prob de que salgan 5 caras es 0.85 = 0.3277, nos referimos a ella como P(R | F), llamando “R” al resultado de nuestro experimento, es decir, obtener 5 caras en las 5 tiradas. Estos son los cálculos de Bayes. R R- P(L; π= 0.5) = 0.9 P(R | L) = 0.0312 P(L y R) = 0.0312 x 0.9 = 0.02808 P(L | R) =0.02808 / 0.06085 ≈ 0.46 P(F; π= 0.8) = 0.1 P(R | F) = 0.3277 P(F y R) = 0.3277 x 0.1 = 0.03277 P(F | R) = 0.03277 / 0.06085 ≈ 0.54 2BTOTAL P(R) = = 0.06085 Esta parte de la tabla no necesita ser calculada ahora La prob inicial de que la moneda sea legal era de 0.90 y tras realizar el experimento de lanzarla 5 veces y obtener 5 caras, la prob de que sea legal es 0.46. PPOSTERIRI = 0.46. Es decir, si se toman muchas monedas y cada una se tira 5 veces, entre las que han dado como resultado 5 caras, 46 de cada 100 son legales. Resumiendo: H0: la moneda es legal (si se lanza muchas veces sale cara el 50% de ellas, π= 0.5). El dato experimental: se lanza la moneda 5 veces y sale cara en todas. Inferencia clásica: P del test ≈ 0.03. Resultado poco concluyente. Modesta evidencia contra H0. Si fuera cierta no es muy difícil, pero tampoco muy fácil que salga cara en las 5 tiradas. No se tiene en cuenta la FR de monedas falsas en la población. Inferencia bayesiana: PPRIORI = 0.90. De cada 100 monedas que se tomen, 90 son legales. Si la tirada de 5 veces de una moneda legal (π= 0.5) se repite millones de veces, sale todo cara 312 cada 10 000 veces. Si la tirada de 5 veces de una moneda falsa (π= 0.8) se repite millones de veces, sale todo cara 3277 cada 10 000 veces. PPOSTERIORI = 0.46. De cada 100 monedas que se tomen y salga todo caras al tirarla 5 veces, 46 son legales y 54 son falsas. Es P(L | R). 17.2. La PPOSTERIORI depende de la PPRIORI La PPOSTERIORI depende tanto de la PPRIORI como del resultado del experimento actual. En la tabla siguiente se dan los valores de PPOSTERIORI obtenidos aplicando el TB como en la tabla anterior para distintos valores de PPRIORI y el mismo resultado del experimento. La primera fila del interior de la tabla, por ejemplo, dice que si son legales 999 monedas de cada mil, se toma una al azar y al tirarla 5 veces salen 5 caras, la prob de que sea legal es 0.989. Es decir, si de una población donde son legales 999 de cada 1 000 monedas se toman millones de monedas y cada una se lanza 5 veces, entre las que hayan dado cara en las 5 tiradas, 989 cada mil son legales. Es grande la prob a priori, y por tanto, también la prob a posteriori. 17-cap17.indd 287 10/2/10 22:15:27 288 17. La INferencia bayesiana Por el contrario, si es legal una moneda de cada cien, la prob de que sea legal una moneda que al tirarla 5 veces da cara en todas es 0.001. Es decir, si de una población donde son legales 999 de cada 1 000 monedas se toman millones de monedas y cada una se lanza 5 veces, entre las que hayan dado cara en las 5 tiradas, una de cada mil es legal. Es pequeña la prob a priori, y por tanto, también la prob a posteriori. Datos P del test Probabilidad H0 cierta (moneda legal) PRIORI POSTERIORI 0.03 PPRIOR I = 0.999 PPOSTERIORI = 0.989 N = 5 Todo caras 0.03 PPRIORI = 0.50 PPOSTERIORI = 0.08 N = 5 Todo caras 0.03 PPRIORI = 0.01 N = 5 Todo caras N = 5 Todo caras N = 5 Todo caras Recordemos: 0.03 0.03 PPRIORI = 0.90 PPRIORI = 0.10 PPOSTERIORI = 0.46 PPOSTERIORI = 0.01 PPOSTERIORI = 0.001 a)La Inferencia Clásica no tiene en cuenta la FR de monedas falsas en la población. Solo maneja el dato del valor P. Es la única opción cuando no se tiene noticia alguna sobre esa FR. b)Si el investigador conoce la FR de monedas falsas en la población, no puede evitar tenerla en cuenta, de modo que si sabe que esa FR es muy baja tiende a pensar que su moneda es legal y el resultado del “estudio” (cinco caras seguidas) se debe al azar. Y si sabe que esa FR es muy alta tiende a pensar que su moneda es falsa y el resultado del “estudio” (cinco caras seguidas) se debe a ello. c)La Inferencia Bayesiana incorpora la información previa (en nuestro ejemplo la FR de monedas falsas), de modo cuantitativo calculando la prob de que sea cierta la H0 antes y después de conocer el resultado del estudio actual. **Ejercicio 17.1: En la última fila pone PPOSTERIORI = 0.001. Compruebe que es correcto. ** Ejercicio 17.2: Compruebe que si la PPRIORI es 0.10 la PPOSTERIORI es 0.01. **Ejercicio 17.3: Diga claramente, sin usar la palabra “probabilidad”, lo que indica cada una de las tres probabilidades de la última fila de la tabla: 0.03, 0.01 y 0.001 17.3. La PPOSTERIORI depende del resultado del experimento actual La PPOSTERIORI depende del resultado del experimento actual tanto como de la PPRIORI. En la siguiente tabla se dan las PPOSTERIORI correspondientes a los mismos valores de PPRIORI de la tabla anterior, pero ahora en el supuesto de que la moneda se haya lanzado 14 veces y haya salido cara en todas. Ahora el test da PUNI = 0.514 = 0.00006, una fuerte evidencia contra la H0. Y la prob de este resultado con una moneda falsa es P = 0.814 = 0.04398. 17-cap17.indd 288 10/2/10 22:15:27 17. La INferencia bayesiana N = 14 N = 14 N = 14 N = 14 N = 14 Datos Todo caras Todo caras Todo caras Todo caras Todo caras 289 P del test Prob de que H0 sea cierta (moneda legal) 0.00006 PPRIOR I = 0.999 PPRIOR I = 0.90 PPRIOR I = 0.50 PPRIOR I = 0.10 PPRIOR I = 0.01 0.00006 0.00006 0.00006 0.00006 PRIORI POSTERIORI PPOSTERIORI = 0.58 PPOSTERIORI = 0.01 PPOSTERIORI = 0.002 PPOSTERIORI = 0.0002 PPOSTERIORI < 0.000014 Observando la segunda fila de esta última tabla y de la tabla anterior vemos que si en la población son buenas el 90% de las monedas, tras obtener todo caras en una serie de 5 tiradas con una moneda, la prob de que sea buena es 0.46 y tras obtener todo caras en una serie de 14 tiradas, la prob de que sea buena es 0.01. Obtener 14 caras seguidas es más sospechoso que obtener 5 caras seguidas, es decir, es más evidencia contra la H0. Por ello, con 14 caras la PPOSTERIORI baja respecto a la PPRIORI más que con 5 caras. El resultado del estudio, todo caras en las 14 tiradas, ha sido contundente, pues el valor P nos dice que con una moneda legal eso solamente ocurre 6 veces cada cien mil, por lo que en la inferencia clásica hay consenso en rechazar que sea legal. Pero si la FR de monedas legales es muy grande, es inicialmente muy probable que la nuestra sea legal y hay que contar con la posibilidad de que las 14 caras hayan aparecido por azar. La primera línea del interior de la tabla nos dice que si son legales 999 de cada mil monedas, la prob de que sea legal una que da todo caras en 14 lanzamientos es 0.58. Por el contrario, si la FR de monedas legales es muy baja, es inicialmente muy improbable que la moneda sea legal, y si a eso se añade que en 14 tiradas salieron todo caras, el investigador tiene casi certeza de que la moneda es falsa. La penúltima línea de la tabla nos dice que si son legales solamente el 10% de las monedas, la prob de que sea legal una que da todo caras en 14 lanzamientos es 0.0002. **Ejercicio 17.4: Compramos un dado en un almacén donde el 10% de los dados están trucados, de modo que en ellos la cara “5” no sale la sexta parte de las veces que se lanza el dado, sino la cuarta parte. Lo lanzamos 4 veces y sale “5” en todas. La prob inicial (a priori) de que el dado sea bueno es PPRIORI = 0.90. Queremos saber la PPOSTERIORI, es decir, la probabilidad de que el dado sea bueno una vez que ha salido “5” en las 4 tiradas. 17.4. Inferencia Bayesiana en la investigación real Veamos un ejemplo de situaciones que se presentan en prácticamente todos los ámbitos del análisis de datos. En cierta enfermedad para la que no hay tratamiento curan el 50% de los pacientes y un investigador propone un nuevo tratamiento, “A”, con el que cree curarán en torno al 70%. Se prueba el fármaco “A” en una muestra de 10 enfermos y se encuentra que entre ellos curan 8, es decir, 80%. Para la H0 que dice que “A” es inútil se obtiene PUNILATERAL = 0.055, que no constituye evidencia fuerte contra ella. El Intervalo de confianza al 95%, IC95% = 48% y 93%, 17-cap17.indd 289 10/2/10 22:15:27 290 17. La INferencia bayesiana muestra que el resultado es compatible con que “A” sea muy efectivo, sea poco o nada efectivo, e incluso con que sea un poco perjudicial. Esto es lo más razonable que se puede concluir dentro del marco de la Inferencia Clásica. Pero es inevitable tener más confianza en su efectividad cuanto más fiable sea la entidad que lo propone. Si lo propone un laboratorio con largo historial de descubrimientos farmacológicos, consideramos el resultado un claro indicio a favor de “A”. Si, por el contrario, “A” es una receta casera propuesta por un “paramédico” poco riguroso, consideramos el resultado como pobre, subrayando que es compatible con que “A” sea inútil. El enfoque bayesiano incorpora esa confianza previa como PPRIORI y después la actualiza teniendo en cuenta el resultado del estudio actual (8 curaciones en 10 tratados), generando la PPOSTERIORI. Por ejemplo, si “A” procede de un paramédico pintoresco y le damos PPRIORI = 0.02 se encuentra PPOSTERIORI = 0.13. Para calcular esa prob comenzamos por anotar las PPRIORI en una tabla Cálculo de la PPOSTERIORI cuando PPRIORI = 0.02 (paramédico exótico) Posibles situaciones PPRIORI : P (A) A inutil: “A-“ Cura 50% 0.98 A utíl: “A+“ Cura 70% 0.02 Suma 1 El siguiente paso es calcular con la Distribución Binomial la prob de que aparezca el resultado obtenido o más extremo aún (8 o más curaciones entre 10 tratados) si “A” es inútil (P del test), es decir, si cura realmente 50%, P(Resultado | A cura 50%) = 0.055 y la prob de que aparezca ese resultado si “A” cura 70%, P(Resultado | A cura 70%) = 0.38. En este contexto a estas probabilidades se les llama verosimilitudes. La tabla siguiente recoge esta información: Cálculo de la PPOSTERIORI cuando P PRIORI = 0.02 (paramédico exótico) PPRIORI : P (A) Verosimilitud: P(Resultado | A) A inútil: “A-“ Curan 50% 0.98 0.055 A útil: “A+“ Curan 70% 0.02 0.383 Suma 1 A partir de estos datos se calculan las probabilidades conjuntas y PPOSTERIORI Calculo de la PPOSTERIORI cuando PPRIORI = 0.02 (paramédico exótico) PPRIORI : P (A) P (Resultado | A) P (R y A) PPOSTERIORI : P (A | R) A inútil: “A-“ Curan 50% 0.98 0.055 0.98 x 0.055 = 0.054 P(A-|R) = = 0.054 / 0.062 = 0.87 Interpretemos estas probabilidades como FR: A útil: “A+“ Curan 70% 0.02 0.383 0.02 x 0.008 = 0.008 P(A+|R) = 0.008/0.062 = 0.13 Suma 1 .062 • P PRIORI (“A” cure 70%) = 2% y PPRIORI (“A” cure 50%) = 98% Asumimos que de cada 100 productos propuestos por el curandero 2 serán útiles y 98 inútiles. 17-cap17.indd 290 10/2/10 22:15:27 17. La INferencia bayesiana 291 • V erosimilitud: P(Resultado | A-) = 0.055 Si “A” cura realmente 50%, este resultado (8 curaciones en 10 pacientes tratados) ocurrirá, en promedio, 55 de cada 1 000 veces que se repita el estudio. • Verosimilitud: P (Resultado | A+) = 0.383 Si “A” cura realmente 70%, este resultado ocurrirá, en promedio, 383 de cada 1000 veces que se repita el estudio. • P (R y A-) = 0.054, P (R y A+) = 0.008 y P (R) = 0.062 Si el curandero propone muchos productos, 2% de ellos útiles (curan el 70%), y si se estudia cada uno en 10 pacientes, de cada 1 000 estudios 54 corresponden a producto inútil y con él se curaron 8 pacientes y 8 estudios de cada 1 000 casos corresponden a producto útil y con él se curaron 8 pacientes. Por tanto, en 62 de cada 1 000 estudios se curaron 8 pacientes entre los 10 tratados. • PPOSTERIORI: P (A- | R) = 0.87 y P (A+ | R) = 0.13 De cada 100 estudios en que hubo 8 curaciones, 87 corresponden a producto inútil y 13 a producto útil (cura el 70%). Veamos ahora cuál es la PPOSTERIORI si “A” ha sido propuesto por un laboratorio de prestigio y estimamos que son efectivos 90 de cada 100 productos propuestos: Cálculo de la PPOSTERIORI cuando PPRIORI = 0.90 (laboratorio de prestigio) PPRIORI : P (A) P (Resultado | A) P (R y A) PPOSTERIORI: P (A | R) A inútil: “A-“ Curan 50% 0.10 0.055 0.1 x 0.055 = 0.0055 P(A-|R) = 0.0055 / 0.3502 ≈ 0.02 A útil: “A+“ Curan 70% 0.90 0.383 0.1 x 0.383 = 0.3447 P(A+|R) = 0.3447/0.3502 ≈ 0.98 Suma 1 0.3502 Es decir, si la prob de que “A” sea útil (cure 70%) es inicialmente 90%, al tener en cuenta el resultado del experimento sube al 98%. Esta desigual valoración de un mismo resultado, dependiendo de la información previa que se tenga sobre el tema no es una arbitrariedad injustificada. Es un imperativo lógico del que no podemos sustraernos y se demuestra que con esa actitud a la larga nos aproximamos más a la realidad. 17.5. La probabilidad A PRIORI “subjetiva” Al aplicar el TB en los tests estadísticos uno de los puntos más conflictivos es cómo establecer el valor de la PPRIORI. En las ciencias aplicadas, la prob de que ocurra un suceso indica la FR con que se presenta a largo plazo. Por ejemplo, si decimos que la prob de que un individuo tenga la mutación M es 0.15, queremos decir que si tomamos millones de individuos de esa población, 15 de cada cien tendrán M. En la mayoría de las situaciones de la investigación biomédica no hay una FR que cuantifique el grado de confianza que tenemos en que la hipótesis estudiada sea cierta. Por ejemplo, si la hipótesis de trabajo dice que el tratamiento “A” es útil y cura en torno al 70%, no suele haber una FR que refleje la confianza que tenemos en ello y podamos usarla como PPRIORI para aplicar el TB. 17-cap17.indd 291 10/2/10 22:15:27 292 17. La INferencia bayesiana Pero los conceptos “muy probable” y “poco probable” son válidos y utilizables aunque no se puedan cuantificar mediante FR. Por ello es razonable y útil convenir como PPRIORI un número entre 0 y 1 que refleje el grado de confianza que se tiene. Se la llama “probabilidad subjetiva”, para distinguirla de la “probabilidad frecuentista” que se usa habitualmente. En nuestro ejemplo, aunque no hubiera datos exactos sobre la FR con que el laboratorio de prestigio y el paramédico exótico habían propuesto anteriormente productos realmente efectivos, seguiría siendo cierto que en el caso del primero es “alta” y en el del segundo es “baja”. Y es razonable usar el TB para calcular la PPOSTERIORI tras concretar la PPRIORI en un número próximo a 1 en el caso del laboratorio y próximo a 0 en el caso del paramédico. Contra las PPRIORI subjetivas suele argumentarse que son “aproximadas”, lo que conlleva un margen de error en sus valores que se contagia necesariamente a las PPOSTERIORI. Ello es cierto, pero debe tenerse en cuenta que también son aproximadas y conllevan cierto margen de variación la mayor parte de las prob que se cuantifican mediante FR. Y en muchas ocasiones las PPOSTERIORI, aun teniendo cierto margen de imprecisión pueden ser muy informativas. Si se calcula, por ejemplo, que tras una tormenta el riesgo de que el agua potable de nuestra cuidad esté contaminada es “en torno al 85%”, no parece importante que ese riesgo pueda, en realidad, ser 81.3% o 91.4%. Todos entienden que es un riesgo muy alto y se abstendrán de beber. 17.6.Acotando los posibles valores de probabilidad En todo caso, cabe estimar valores razonablemente “límites” para las PPRIORI de modo que para las a posteriori podamos decir que serían mayores de tal cantidad y menores de tal otra, lo que puede ser muy útil de cara al problema que se investiga. También en la vida común aplicamos espontáneamente este criterio. Veamos un ejemplo donde la información previa está cuantificada. Si un alumno obtiene 4.5 sobre 10 en el examen final y sus notas parciales previas son altas, el profesor le aprobará, pero si las notas previas son muy malas le suspenderá. Podría, por ejemplo, calcularse la nota definitiva, D, promediando la media de los exámenes parciales, P, y de la nota del examen final, F: D = (P + F) / 2. Pero consideremos el caso en el que se ha extraviado la P y por ello no se puede calcular la nota media definitiva. La Inferencia Clásica equivaldría a calificar al alumno teniendo en cuenta únicamente la nota final, mientras que la bayesiana equivale a atribuir a P valores acordes con la impresión que el profesor tiene al respecto. Si recuerda que el alumno tenía un comportamiento brillante, se usará P en torno a 9, lo que implica D = 6.75. Si recuerda que el alumno tenía un rendimiento muy pobre se usará P en torno a 2, lo que implica D = 3.25. El sentido común y el análisis riguroso dicen que estas aproximaciones son menos malas que ignorar totalmente el rendimiento durante el curso. El enfoque de “mayor que” o “menor que” se aplicaría de este modo. Para el alumno con antecedentes brillantes podríamos hacer Previa = 9.5 y D sería 7, o podría hacerse Previa = 8.5 y D sería 6.5. No hay razones objetivas para decantarse 17-cap17.indd 292 10/2/10 22:15:27 17. La INferencia bayesiana 293 por uno de estos dos valores de Previa u otros del mismo orden, pero en todo caso es razonable y necesario considerar que sería Previa > 8, y por tanto D > 6.25, lo que supone un aprobado holgado. Por otra parte, si el alumno había tenido muy bajo rendimiento durante el curso y hacemos Previa = 1, obtenemos D = 2.75 y si hacemos Previa = 1.5, la D es 3. Tampoco aquí podemos decantarnos por uno de estos valores en particular, pero podríamos argumentar que la Previa sería inferior a 2, y por tanto la D sería inferior a 3.25, lo que implicaría un suspenso claro. También aquí puede demostrarse que con este criterio el profesor hará justicia más veces que si ignorara las notas previas y hay consenso general en que en muchas situaciones de la vida común y del quehacer científico, la información previa debe ser incorporada. Vamos ahora al ejemplo de la medicina “A” que podría curar al 70% de los casos en vez el 50% que se obtenía sin tratamiento. La tabla a continuación recoge la PPOSTERIORI de que “A” cure el 70%, en relación a seis distintas PPRIORI: Sin tratamiento curan 50% Con “A” quizá 70% Ppriori Pposteriori Muestra de 10 con tratamiento “A”: curan 8 P del test = 0.055 0.02 0.06 ……. 0.10 0.80 …… 0.85 0.93 0.13 0.19 …… 0.22 0.91 ….. 0.94 0.99 Así, si el promotor de A es muy poco fiable, puede discutirse si la PPRIORI de que A sea eficaz es 0.02 ó 0.06 u otra cantidad parecida, pero habrá acuerdo general en que será menor de 0.10 y por tanto la PPOSTERIORI será inferior a 22%. Si, por el contrario, el promotor es muy fiable, habrá acuerdo general en que la PPRIORI será mayor de 0.80 y por tanto la PPOSTERIORI será superior a 91%. Estas cantidades son fácilmente calculables e interpretables por el investigador lego en Estadística y en muchos casos complementan la información que da el valor P del test. 17.7.Si el resultado del experimento actual es muy claro las PPRIORI son poco relevantes En general, la importancia de la información previa es mayor cuanto menos determinante es el resultado del experimento actual. Una vez más, esto es así tanto en la vida común como en la Inferencia Estadística. En el ejemplo del observador que veía el cielo parcialmente nuboso es claro que si observa un cielo totalmente despejado o manifiestamente lluvioso, la previsión del clima para las horas siguientes es escasamente modificada por los antecedentes meteorológicos de la región. Veamos cómo ocurre lo mismo cuando usamos el TB para estimar las PPOSTERIORI. En el ejemplo del fármaco “A”, supongamos ahora que se probó en 50 personas y curaron 40. La FR de curaciones es 0.80, como en el supuesto inicial, pero al ser la muestra mayor, el valor P del test ahora es PUNI = 0.00001, que constituye notable evidencia contra la H0. En el cuadro siguiente vemos que si PPRIORI = 0.02, es PPOSTERIORI = 0.994. 17-cap17.indd 293 10/2/10 22:15:27 294 17. La INferencia bayesiana Cálculo de la PPOSTERIORI cuando PPRIORI = 0.02 y se curan 40 de N = 50 Posibles situaciones en población PPRIORI : P (A) P (Resultado | A) P (R y A) PPOSTERIORI : P (A | R) A no efectivo: “A-“ Curan 50% A efectivo: “A+“ Curan 70% 0.00001 0.07885 0.0000098 0.0015770 0.98 P(A-|R) = 0.006 0.02 P(A+|R) = 0.994 Suma 1 0.0015868 Es decir, al tratarse de un estudio con más individuos la información que aporta es mayor, en este caso a favor de la eficacia de “A”, y por ello aun en el caso de que la PPRIORI sea baja la PPOSTERIORI es 0.994, considerablemente más alta que la proporcionada por el estudio hecho sobre 10 enfermos. Es decir, cuando el test clásico muestra evidencia contundente contra la H0, el TB indica que la prob de que sea cierta la alternativa es muy elevada, incluso en el supuesto de que su PPRIORI sea muy modesta. Así vemos que si el tratamiento goza de escasa confianza inicial, PPRIORI = 0.02, tras obtener 80% de curaciones en una muestra de 10 enfermos tratados, la prob de que “A” sea efectivo era 0.13. Pero si ese 80% de curaciones se obtuvo en una muestra de N = 50, la prob de que “A” sea efectivo es 0.994. 17.8. Varios valores para la hipótesis alternativa Hemos considerado las PPOSTERIORI para el caso en que “A” o bien es inútil (50% de curaciones) o bien cura el 70%. La realidad es que en la mayoría de las situaciones de este tipo la información previa sugiere que el nuevo tratamiento es efectivo, es decir, cura más del 50%, pero sin que haya motivos para decantarse por una FR concreta de curaciones. Puede que con “A” se obtenga 60% de curaciones o quizá 80% u otra cantidad mayor de 50%. Por ello es más adecuado “repartir” la probabilidad entre diversos valores de FR de curaciones que podría obtenerse con “A”, de acuerdo con la impresión que el investigador tiene sobre cuán probable es a priori cada uno de ellos, como en la tabla siguiente. % de curaciones con A 50% 60%, 70% 80% 90% PPRIORI 0.15 0.10 0.25 0.40 010 La tabla dice que damos P = 0.15 a la opción de que “A” sea inútil (con él curan 50%), damos P = 0.10 a la opción de que “A” cure 60%, damos P = 0.25 a la opción de que cure 70%, etcétera. Estas probabilidades constituyen la distribución a priori. En la siguiente tabla, la tercera fila da las verosimilitudes, es decir, la prob de obtener lo hallado en nuestro estudio, que indicamos con “R” (8 curados entre 10 tratados con “A”) condicionada a cada una de esas FR. Por ejemplo, si A cura realmente el 70%, se obtiene este resultado (8 curados entre 10 tratados con “A”) en el 23% de las muestras. 17-cap17.indd 294 10/2/10 22:15:27 17. La INferencia bayesiana 295 La cuarta fila da las prob conjuntas (producto de la PPRIORI por la verosimilitud) y finalmente la quinta fila contiene la Distribución a Posteriori, es decir, la prob de que el % de curaciones con “A” sea el de la cabecera de cada columna, dado que entre 10 enfermos tratados curaron 8: % de curados con A P A PRIORI Verosimilitud: P (R | %) P(% y R) P(% | R) = P POST 50% 0.15 0.04 0.006 0.03 60%, 0.10 0.12 0.012 0.06 70% 0.25 0.23 0.058 0.27 80% 0.40 0.30 0.120 0.56 90% 0.10 0.19 0.019 0.09 Suma 1 % de curaciones con A 50% 60%, 70% 80% 90% Suma P A PRIORI = 0.80 0.20 0.20 0.20 0.20 0.20 1 Verosimilitud: P (R | %) 0.04 0.12 0.23 0.30 0.19 P(% y R) 0.008 0.024 0.046 0.060 0.038 0.176 P(% | R) = P POST 0.05 0.14 0.26 0.34 0.22 1 0.215 1 Si la distribución a priori es otra, la distribución a posteriori toma otros valores. La siguiente tabla indica los cálculos y resultados para el caso en que la información a priori fuera pobre y no permitiera atribuir a cada uno de esos % de curación más probabilidad que a otros. La siguiente tabla indica los cálculos y resultados para el caso en que la información a priori permite tener mucha confianza en que “A” aumenta el % de curaciones. % de curaciones con A P A PRIORI = 0.80 Verosimilitud: P (R | %) P(% y R) P(% | R) = 50% 0.05 0.04 0.002 0.009 60%, 0.05 0.12 0.006 0.028 70% 0.10 0.23 0.023 0.106 80% 0.30 0.30 0.090 0.417 90% 0.50 0.19 0.095 0.440 Suma 1 0.216 1 La idea es que el investigador establezca como P a priori valores que reflejen razonablemente el conocimiento que se tiene sobre el tema antes de hacer este estudio y encuentre las P POSTERIORI, que reflejan la situación tras el estudio. 17.9. La Inferencia Clásica y la Inferencia Bayesiana. Ambos enfoques, el clásico y el bayesiano, tienen puntos débiles. Los partidarios de cada uno tienden a denunciar las inconsistencias del otro y a obviar las del propio. Los autores más serios —y el sentido común— consideran tan deplorable la postura excluyente de los estadísticos clásicos que no reconocen los aspectos positivos del bayesianismo, como las posturas maximalistas de los bayesianos que no reconocen sus aspectos más problemáticos. Y subrayan la necesidad de superar los enfrentamientos entre partidarios de uno u otro enfoque y asumir que no son métodos contrapuestos sino complementarios. 17-cap17.indd 295 10/2/10 22:15:28 296 17. La INferencia bayesiana No olvide recordar - 17 1.La experiencia y la lógica muestran que al interpretar los datos actualmente obtenidos sobre un tema, es muy ventajoso incorporar los conocimientos previos sobre él. Ello es así en todos los campos de la actividad humana, incluida la investigación científica. 2.El investigador no puede —ni debe— librarse de tener en cuenta esa información previa. Todos lo hacemos implícitamente y la Inferencia Bayesiana lo hace mediante el Teorema de Bayes, TB. 3.La Inferencia Clásica no incorpora los conocimientos previos sobre el tema que se investiga. La Bayesiana sí incorpora los conocimientos previos. Con ellos evalúa la probabilidad de que sea cierta una determinada hipótesis, PPRIORI, y calcula cómo se modifica esa probabilidad por el resultado del estudio actual, PPOSTERIORI. 4.En la mayoría de las situaciones no se encuentra un contexto que permita encontrar una frecuencia relativa como la probabilidad de que sea cierta una hipótesis. Pero los conceptos “muy probable” y “poco probable” son válidos y utilizables aunque no se puedan cuantificar mediante frecuencias relativas. Por ello es razonable y útil convenir como PPRIORI un número entre 0 y 1 que refleje el grado de confianza que se tiene en que sea cierta una hipótesis. Se la llama “probabilidad subjetiva”, para distinguirla de la “probabilidad frecuentista” que se usa habitualmente. 5.La influencia de la distribución a priori es menor cuanto más contundente es el resultado obtenido en el estudio actual. 6.La Inferencia Bayesiana es una especialidad muy consolidada pero poco accesible para el investigador sin formación matemática y, de hecho, totalmente ignorada por la mayoría de ellos. 7.El TB puede entenderse y aplicarse a situaciones sencillas sin tener formación matemática y sin conocer aspectos más complejos de la Inferencia Bayesiana propiamente dicha. Todos los investigadores podrían usarlo en determinadas situaciones para estimar la probabilidad de las hipótesis que analizan. 8.En el análisis estadístico de datos la Inferencia Clásica y la Inferencia Bayesiana no son alternativas contrarias sino complementarias. 17-cap17.indd 296 10/2/10 22:15:28 17. La INferencia bayesiana 297 EJERCICIO DE AUTOEVALUACIÓN - 17 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). 1.La experiencia y la lógica muestran que al interpretar los datos actualmente obtenidos sobre un tema, es improcedente incorporar los conocimientos previos sobre él. 2.La experiencia y la lógica muestran que al interpretar los datos actualmente obtenidos sobre un tema, es muy ventajoso incorporar los conocimientos previos sobre él. Ello es así en todos los campos de la actividad humana, incluida la investigación científica. 3.Solo en algunas ocasiones muy especiales tiene sentido incorporar los conocimientos previos. 4.El investigador debe librarse de esa tendencia que todos los humanos tenemos a tener en cuenta la información previa. 5.Todos incorporamos los conocimientos previos implícitamente y la Inferencia Bayesina lo hace explícitamente mediante el Teorema de Bayes, TB. 6.La Inferencia Clásica incorpora los conocimientos previos sobre el tema que se investiga. 7.La Inferencia Clásica no incorpora los conocimientos previos sobre el tema que se investiga. 8.La Inferencia Bayesiana incorpora los conocimientos previos y con ellos evalúa el valor P del test. 9.La Inferencia Bayesiana incorpora los conocimientos previos. Con ellos evalúa la probabilidad de que sea cierta una determinada hipótesis, PPRIORI, y calcula cómo se modifica esa probabilidad por el resultado del estudio actual, PPOSTERIORI. 10.Se llama PPRIORI a la probabilidad de que sea cierta una determinada hipótesis, evaluada sin tener en cuenta los resultados del estudio actual. 11.Se llama PPOSTERIORI a la probabilidad de que sea cierta una determinada hipótesis, evaluada sin tener en cuenta los resultados del estudio actual. 12.Se llama PPOSTERIORI a la probabilidad de que sea cierta una determinada hipótesis, evaluada teniendo en cuenta los resultados del estudio actual. 13.En la mayoría de las situaciones se encuentra un contexto que permita encontrar una frecuencia relativa como la probabilidad de que sea cierta una hipótesis. 14.En la mayoría de las situaciones no se encuentra un contexto que permita encontrar una frecuencia relativa como la probabilidad de que sea cierta una hipótesis. 17-cap17.indd 297 10/2/10 22:15:28 298 17. La INferencia bayesiana 15.Los conceptos “muy probable” y “poco probable” no son válidos y utilizables si no se puedan cuantificar mediante frecuencias relativas. 16.Los conceptos “muy probable” y “poco probable” son válidos y utilizables aunque no se puedan cuantificar mediante frecuencias relativas. Por ello es razonable y útil convenir como PPRIORI un número entre 0 y 1 que refleje el grado de confianza que se tiene en sea cierta una hipótesis. 17.A ese número entre 0 y 1 que refleja el grado de confianza que se tiene en que sea cierta una hipótesis se la llama “probabilidad subjetiva”, para distinguirla de la “probabilidad frecuentista” que se usa habitualmente. 18.La influencia de la distribución a priori es menor cuanto más contundente es el resultado obtenido en el estudio actual. 19.La influencia de la distribución a priori es mayor cuanto más contundente es el resultado obtenido en el estudio actual. 20.La Inferencia Bayesiana es una especialidad muy poco accesible para el investigador y de hecho totalmente ignorada por la mayoría de ellos. 21.El TB puede entenderse y aplicarse a situaciones sencillas sin tener formación matemática y sin conocer aspectos más complejos de la Inferencia Bayesiana propiamente dicha. Todos los investigadores podrían usarlo en determinadas situaciones para estimar la probabilidad de las hipótesis que analizan. 22.En el análisis estadístico de datos la Inferencia Clásica y la Inferencia Bayesiana son alternativas contrarias y el investigador debe optar por una u otra. 23.En el análisis estadístico de datos la Inferencia Clásica y la Inferencia Bayesiana no son alternativas contrarias sino complementarias. 17-cap17.indd 298 10/2/10 22:15:28 Capítulo 18 POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA PARA TESTS En el Capítulo 12 veíamos las fórmulas relativas al tamaño de la muestra en relación con la estimación de proporciones y de medias poblacionales. En este veremos las fórmulas del tamaño de la muestra en relación con tests estadísticos sobre proporciones y sobre medias. Para aplicarlas es necesario incorporar el concepto de Potencia de un test, que es, como veremos en detalle, la prob de rechazar la hipótesis nula cuando es falsa, lo que equivale a la prob de concluir que en la población hay cierto efecto cuando realmente lo hay, por ejemplo, la prob de detectar que una medicina es útil cuando realmente lo es, o la prob de concluir que cierta droga aumenta el riesgo de depresión si realmente lo aumenta. Aunque las ideas básicas son las mismas que en el Capítulo 12, este tiene alguna dificultad añadida de tipo lógico, no matemático. El lector que tenga dificultades para entenderlo puede prescindir de él o posponer su estudio para una fase posterior. El objetivo fundamental del libro queda cumplido si el lector ha captado las ideas básicas expuestas en los capítulos anteriores. Este capítulo es para quien desee adentrarse un poco más en la lógica de la Inferencia Estadística. 18.1. Error tipo I y Error tipo II. Región Crítica de Rechazo en los tests de significación que hemos visto en los capítulos anteriores se plantea una cierta hipótesis nula. A la vista del resultado obtenido en la muestra y del valor P del test, esta hipótesis se rechaza o se acepta como posible. Pero en ningún caso estamos seguros de que lo correcto sea rechazar o no rechazar. Cualquiera que sea la decisión que adoptemos lo hacemos con un cierto riesgo de equivocarnos. Definimos los siguientes conceptos: • E rror Tipo I es el hecho de rechazar H0 cuando es cierta. Se llama α a la prob de cometer error Tipo I, es decir, la prob de rechazar H0 cuando es cierta. 299 18-cap18.indd 299 10/2/10 22:15:38 300 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... • E rror Tipo II es el hecho de no rechazar H0 cuando es falsa. Se llama β a la prob de cometer ese error, es decir, la prob de no rechazar H0 cuando es falsa. • Potencia es 1 - β, es decir, la prob de rechazar la H0 cuando es falsa. • Región Crítica de Rechazo es el conjunto de resultados muestrales que llevan a rechazar la hipótesis nula (que dan lugar a valores de P < 0.05 u otro valor acordado para rechazar). Por ejemplo, si un juez plantea como hipótesis inicial que un ciudadano es inocente hasta que se demuestre su culpabilidad, Error Tipo I es el hecho de declararle culpable si realmente es inocente y Error Tipo II es el hecho de declararle inocente si realmente es culpable. Cuando se trata de ver si el nuevo tratamiento “B” produce mayor proporción de curaciones que el clásico “A” y se plantea como H0 que B no cura más que A. Error tipo I es concluir que B cura más que A, si realmente B cura igual que A. α es la prob de cometer ese error. Error tipo II es no concluir que B cura más que A, si realmente B cura más que A. β es la prob de cometer ese error. Potencia = 1-β es la prob de concluir que B cura más que A si realmente B cura más que A. Para ver cómo se calcula la prob de cometer cada uno de estos errores consideremos el caso en que sabemos que en la población de sanos la variable “X” se distribuye N (50,10). En el MA de N = 25 las medias muestrales, M, tienen µMedia = 50 y σMedia = 10/5 = 2. Se sospecha que en los pacientes con leucemia la media poblacional de “X” es mayor de 50, µLeuc > 50. Para investigarlo tomaremos una muestra de N = 25 leucémicos y plantearemos la H0: µLeuc = 50 (asumimos que σ en leucémicos es próxima a 10). Si se encuentra, por ejemplo, M = 58, es Z = 4 y P (Z > 4) = 0.00003 Rechazamos H0. Si se encuentra por ejemplo, M = 52 es Z = 1 y P (Z > 1) = 0.16 No rechazamos H0. La Potencia de este estudio es la prob que tiene el investigador de encontrar un resultado muestral que le lleve a rechazar H0, es decir, a concluir que “X” está aumentada en la leucemia. Esa prob depende, entre otras cosas, del valor de P por debajo del cual se acuerda rechazar la hipótesis nula. En lo que sigue adoptamos el convenio de rechazar H0 cuando sea P ≤ 0.05. Ello implica riesgo 0.05 de rechazarla equivocadamente, es decir, de rechazar H0’s que son ciertas. La Potencia del test depende también de: a.El valor que tome µLeuc. Como no se conoce esa cantidad se suele calcular la potencia para dos o tres posibles valores de µLeuc. Cuanto mayor sea µLeuc mayor será la prob de rechazar H0. b.El tamaño de la muestra, N. Cuanto mayor sea N, mayor será la prob de concluir que µLeuc> 50 si realmente lo es. 18-cap18.indd 300 10/2/10 22:15:38 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 301 Vamos a calcular la potencia para el caso en que se acuerde rechazar H0 si es P ≤ 0.05. ¿Qué valor de la media muestral, M, nos daría P = 0.05? En las tablas de la Distribución Normal, DN, encontramos que P (Z ≥ 1.64) = 0.05 (en realidad, es P = 0.0505 para Z = 1.64 y es P = 0.0495 para Z = 1.65. Para utilizar Z con dos decimales podemos elegir cualquiera de los dos y ello puede variar los resultados en cuantía irrelevante). Es decir, el valor P del test es 0.05 si M supera a 50 en 1.64 desviaciones. Puesto que es σMedia = 2, 1.64 desviaciones es 1.64 · 2 = 3.28 unidades y es M = 50 + 3.28 ≈ 53.3. Por tanto, recharemos H0 si M es igual o mayor de 53.3, puesto que nos dará P < 0.05. La Región Crítica es, por tanto, el intervalo formado por todos los valores mayores o iguales de 53.3. Resumiendo: Acordamos rechazar H0 cuando sea P ≤ 0.05 y por ello cuando sea M ≥ 53.3. _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 53.3 En la gráfica los segmentos oblicuos representan esquemáticamente la distribucion Normal de las medias muestrales al hacer MA de la poblacion de sanos, con µMedia = 50 y σMedia = 2. También sería la distribucion de las medias muestrales al hacer MA de la poblacion de leucémicos si en ellos la media poblacional fuera 50, como en sanos. La flecha indica la Región Crítica de Rechazo, desde M = 53.3 y extendiéndose indefinidamente a la derecha. El investigador no sabe si la media poblacional de leucémicos es 50 o es un valor mayor. Tomará una muestra de N = 25 y hará el test que plantea la H0: µLeuc = 50. Si encuentra P ≤ 0.05, es decir, M ≥ 53.3, rechazará esa hipotesis y concluirá que es µLeuc > 50. Si es µLeuc = 50 puede ocurrir que la media de la muestra salga por azar mayor de 53.3 y lleve al investigador a rechazar la H0 equivocadamente. Lo llamamos Error Tipo I. A la prob de que ocurra ese error la llamamos “α”. Si es µLeuc > 50 la media muestral tomará, en general, un valor mayor que si es µLeuc = 50, pero puede ocurrir que salga una muestra con media menor de 53.3, de modo que el investigador no rechace H0, equivocadamente. Lo llamamos Error Tipo II. A la prob de que ocurra ese error la llamamos “β”. El investigador desea que la prob de cometer cada uno de esos errores sea lo más pequeña posible. Pero ello depende en gran parte del tamaño de la muestra. 18.2. Potencia estadística de un test Para calcular cuán probable es cometer cada uno de esos errores calcularemos la prob de que la M esté o no esté en la Región Crítica de rechazo. Lo calcularemos para el caso en que es µLeuc = 50 y para algunos valores concretos mayores de 50 de µLeuc. 18-cap18.indd 301 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 10/2/10 22:15:38 302 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 1º- Potencia para µ Leuc = 56 Buscamos la prob de rechazar H0, es decir, de que salga M ≥ 53.3 si es µ Leuc = 56. En una DN con media 56, el valor 53.3 se separa Z = -1.35 desviaciones de 56, por lo que Potencia = P (M ≥ 53.3│µ Leuc = 56) = P (Z ≥ (53.3 – 56) / 2 ) = P (Z ≥ -1.35) = 0.91 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Si es µLeuc = 56, en 91 de cada 100 muestras la media será mayor o igual de 53.3, por lo que dará P ≤ 0.05 y llevará a concluir, acertadamente, que es µLeuc > 50. 2º- Potencia para µ Leuc = 54 Buscamos P (M ≥ 53.3 si µ Leuc = 54) Potencia = P (M ≥ 53.3│µ Leuc = 54) = P (Z ≥ (53.3 – 54) / 2) = P (Z ≥ -0.35) = 0.63 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ Si es µLeuc = 54, en 63 de cada 100 muestras será M ≥ 53.3, es decir, P ≤ 0.05 y 42 44 46 48 50 52 54 56 58 60 llevará a concluir, acertadamente, que es µLeuc > 50 3º- Potencia para µ Leuc = 52 Buscamos P (M ≥ 53.3 si µ Leuc = 52) Potencia = P (M ≥ 53.3│µ Leuc = 52) = P ( Z ≥ (53.3 – 52) / 2) = P (Z ≥ 0.65) = 0.26 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Si es µLeuc = 52, en 26 de cada 100 muestras será M ≥ 53.3, es decir, P ≤ 0.05 y llevará a concluir, acertadamente, que es µLeuc > 50. Es decir, con un muestra de N = 25, la prob de encontrar M ≥ 53.3 y por ello P ≤ 0.05, y entonces concluir que “X” está aumentada en la leucemia es 0.91 para µLeuc = 56, es 0.63 para µLeuc = 54 y es 0.26 para µLeuc = 52. 4º- Si es µ Leuc = 50 la Potencia es P (M ≥ 53.3│µ Leuc = 50) Z = (53.3 – 50) / 2 = 3.3/ 2 ≈ 1.64 P (Z ≥ 1.64) = 0.05. _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 18-cap18.indd 302 10/2/10 22:15:38 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 303 Si es cierta H0 la prob de rechazarla equivocadamente es precisamente el valor P del test por debajo del cual el investigador decidió rechazar, en este caso 0.05. A esta prob se le llama α. Veamos ahora cuáles son las potencias con N = 64. Ahora es σMedia = 10 / 8 = 1.25 ¿Qué valor de M nos daría P = 0.05? El valor P es 0.05 si M supera a 50 en 1.64 desviaciones. M = 50 + 1.64 ·1.25 = 50 + 2 = 52. 1º- Potencia para µ Leuc = 56 P (M ≥ 52 si µ Leuc = 56) Buscamos P (M ≥ 52│µLeuc = 56) = P (Z ≥ (52 – 56) / 2) = P ( Z ≥ - 2) = 0.977 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Con N = 64, si_|____|____|____|____|____|____|____|____|____|_ es µLeuc = 56, en 977 de cada 1 000 muestras será M M ≥ 52, es 42 44 46 48 50 52 54 56 58 60 decir, dará P ≤ 0.05 y llevará a concluir, acertadamente, que es µLeuc > 50. = 54 P (M ≥ 52 si µ Leuc = 54) 2º- Potencia para µ_|____|____|____|____|____|____|____|____|____|_ Leuc 42 44 46 48 50 52 54 56 58 60 Potencia = P (M ≥ 52│µLeuc = 54) P (Z ≥ (52 – 54) / 2) = P ( Z ≥ -1) = 0.84. _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Con N = 64, si_|____|____|____|____|____|____|____|____|____|_ es µLeuc = 54, en 84 de cada 100 muestras la M será mayor o igual de 52, por que46dará48P ≤500.05 llevará acertadamente, que 56 a58concluir, 60 42 lo44 52 y 54 es µLeuc > 50. _|____|____|____|____|____|____|____|____|____|_ 50 P52 (M ≥545256si µ58Leuc 60 = 52) 3º- Potencia para µ42Leuc44= 5246 48 _|____|____|____|____|____|____|____|____|____|_ = 52) = P ( Z ≥ 0 ) = 0.50 P (M ≥ 52│µ Leuc 42 44 46 48 50 52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Con N = 64, si es µLeuc = 52, en 50 de cada 100 muestras la M será mayor o igual de 52, por lo que dará P ≤ 0.05 y llevará a concluir, acertadamente, que es µLeuc > 50. _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 Es decir, con una muestra de N = 64, la prob de encontrar M ≥ 52 y por ello P ≤ 0.05, y concluir _|____|____|____|____|____|____|____|____|____|_ que “X” está aumentada en la leucemia es 0.999 si µLeuc = 56, es 0.84 si µLeuc = 54 y42es 44 0.5046si µ48Leuc 50 = 52.52 54 56 58 60 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 18-cap18.indd 303 11/2/10 13:31:53 _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 304 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 4º- Si es µ Leuc = 50, Potencia = P (M > 52│µ Leuc = 50). Z = (52 – 50) / 1.25 = 2 / 1.25 ≈1.64 P ( Z > 1.64) = 0.05. _|____|____|____|____|____|____|____|____|____|_ 42 44 46 48 50 52 54 56 58 60 En la siguiente tabla que recogen estos resultados y se aprecia claramente que la potencia estadística es mayor cuanto mayor es el efecto real, es decir, cuanto más aumentada está la media de X en leucémicos, y cuanto mayor es el tamaño de la muestra. Potencia = Prob. de encontrar test con P ≤ 0.05, según sea µ Leuc N = 25 N = 84 µ Leuc = 50 µ Leuc = 52 µ Leuc = 54 µ Leuc = 56 0.05 0.50 0.84 0.98 0.05 0.26 0.64 0.91 **Ejercicio 18.1: Con el mismo planteamiento de los ejemplos anteriores, si tomamos una muestra de N = 100: a. ¿Cuál es la Región Crítica de Rechazo? b. ¿Qué potencia tendría el estudio si realmente es µLeuc = 50? c. ¿Qué potencia tendría el estudio si realmente es µLeuc = 52? d. ¿Qué potencia tendría el estudio si realmente es µLeuc = 54? e. ¿Qué potencia tendría el estudio si realmente es µLeuc = 56? **Ejercicio 18.2: Se sabe que la duración de la vida de cierta cepa de ratones tiene vida media poblacional 300 días y σ = 18. Se sospecha que la sobrealimentación acorta la vida media, µSOBREALI < 300. Se sobrealimentará a una muestra de N = 36 ratones. La H0 que dice que realmente no hay ese efecto, es decir, que es µSOBREALI = 300, se rechazará si se encuentra PUNIL ≤ 0.05. a. ¿Cuál es la Región Crítica de Rechazo? b. ¿Qué potencia tendría el estudio si realmente es µSOBREALI = 300? c. ¿Qué potencia tendría el estudio si realmente es µSOBREALI = 296? d. ¿Qué potencia tendría el estudio si realmente es µSOBREALI = 292? e. ¿Qué potencia tendría el estudio si realmente es µSOBREALI = 289? 18.3. Potencia estadística de un estudio con variable cualitativa Si la variable respuesta es dicotómica las probabilidades se calculan usando la Distribución Binomial. Consideremos el caso de una enfermedad para la que hasta ahora no había tratamiento y curaba espontáneamente el 20% de los pacientes. Sospechamos que un nuevo tratamiento, “A” es efectivo, es decir, con él se curan más del 20%, πA > 20%. Damos “A” a una muestra de N = 10 enfermos. Plantea- 18-cap18.indd 304 10/2/10 22:15:39 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 305 mos como H0 que “A” es inútil, πA = 20% y acordamos rechazar H0 si es P ≤ 0.05. La tabla siguiente da las prob de la Distribución Binomial implicada. FR(X) es la proporción de muestras con 0, 1, 2, ... curaciones y PCOLA la proporción de muestras con X o más curaciones, o con X o menos curaciones. Rechazaremos H0 si P ≤ 0.05, es decir, si la PCOLA es ≤ 0.05. Vemos en la tabla que esto ocurre si en la muestra aparecen 5 o más curaciones pues PCOLA es 0.033 para X = 5 y es 0.121 para X = 4. La región critica es X ≥ 5 (la sombreada). π = 0.20 X p FR(X) PCOLA 0 1 0% 10% .107 .375 .107 .268 2 20% .302 3 MA de N = 10 4 5 6 7 60% .322 .121 .033 .0071 .0011 .0001 .000004 .0000001 .026 .006 .001 90% 10 50% .088 80% 9 40% .201 70% 8 30% 100% .0001 .000004 .0000001 Veamos ahora la prob de encontrar P ≤ 0.05, es decir, encontrar X ≥ 5 (concluyendo que A es efectivo) para distintos valores de πA. Será la Potencia del test para distintos πA. 1º- Si es πA = 30% Potencia = P (X ≥ 5│ πA= 0.30) En una nueva Binomial con π = 0.30 hay que calcular la prob de obtener una muestra con 5 curaciones o más. Vemos en la tabla siguiente que esta prob es 0.152. π = 0.30 X 0 FR(x) .028 p PCOLA 0 .149 1 .1 .121 .270 2 .2 .233 .537 3 .3 .267 MA de N = 10 4 .4 .200 .352 5 .5 .103 .152 6 .6 .039 .0491 7 .7 .009 8 .8 .001 .0101 .0011 9 .9 10 1 .0001 .000006 La prob de encontrar 5 o más curaciones si realmente con “A” se curan el 30% es P (X ≥ 5 │πA = 0.3) = 0.152. Si 100 investigadores hacen este estudio, 15 de ellos encontrarán P ≤ 0.05 y declararán que “A” es útil. Debe estar claro que antes de tomar la muestra el investigador no conoce πA y tampoco lo conoce después de tomar la muestra y hacer el test. Cuando encuentra P ≤ 0.05 concluye que es πA > 0.20, 18-cap18.indd 305 10/2/10 22:15:39 306 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 2º- Si es πA = 50% Potencia = P (X ≥ 5│ πA= 0.50) π = 0.5 X p 0 0 1 .1 2 .2 MA de N = 10 3 .3 4 5 6 .4 .5 .6 3770 .623 3770 7 .7 8 .8 9 .9 FR(x) .0010 .0098 .0439 .1172 .2051 .2461 .2051 .1172 .0439 .0098 PCOLA .0108 .0547 .1719 .1719 .0547 .0108 10 1 .0010 Si es πA = 0.5, la prob de encontrar P ≤ 0.05, es decir, de encontrar X ≥ 5, es 0.623. Si 1 000 investigadores hacen este estudio, 623 de ellos encontrarán X ≥ 5 y por ello P ≤ 0.05 y declararán que “A” es útil. 3º- Si es πA = 80% Potencia = P (X ≥ 5│ πA= 0.80) Con la Distribución Binomial con N = 10 y πA = 0.8, vemos que la prob de encontrar P ≤ 0.05, es decir, de encontrar X ≥ 5, es 0.994. Si 1 000 investigadores hacen este estudio con un producto que realmente cura 80% (pero los investigadores no lo saben), 994 de ellos declararán que “A” es útil, porque en el test aparece P ≤ 0.05. **Ejercicio 18.3: Si en el ejemplo anterior se acuerda rechazar H0 con P ≤ 0.01: a. ¿Cuál es la Región Crítica de Rechazo? b. ¿Qué potencia tendría el estudio si realmente “A” cura el 30%? c. ¿Qué potencia tendría el estudio si realmente “A” cura el 50%? d. ¿Qué potencia tendría el estudio si realmente “A” cura el 80%? **Ejercicio 18.4: En cierta enfermedad el tratamiento clásico produce 10% de curaciones, π Clásico = 0.10. Para ver si el tratamiento “B” es mejor se dará a N = 5 enfermos. Llamaremos “X” al número de curados y haremos un test con la hipótesis nula H0: “B no es efectivo, es decir, πB = 0.10”. Se rechazará H0, concluyendo que B es mejor que el clásico, si P UNI ≤ 0.05. a. ¿Cuántos curados esperamos si es cierta H0? b. ¿Cuál es la Región Crítica de Rechazo? c. Si B es inútil, es decir, si es πB = 0.10, ¿cuál es la prob de declarar que es útil? d. ¿Qué potencia tendría el estudio si realmente “A” cura el 30%? e. ¿Qué potencia tendría el estudio si realmente “A” cura el 50%? f. ¿Qué potencia tendría el estudio si realmente “A” cura el 90%? 18.4. Tamaño mínimo de muestra para tests con Una Proporción Consideremos el caso de una enfermedad que sin tratamiento se cura en el 10% de los casos, π = 0.10. Sospechamos que el nuevo tratamiento “T” cura más de 10%. 18-cap18.indd 306 10/2/10 22:15:39 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 307 Tomaremos una muestra, plantearemos como H0 que T es inútil (πT = 0.10) y la rechazaremos, a favor de que es útil, si la FR muestral de curaciones, p, es mayor de 0.10 y el valor P del test es muy pequeño. Aunque ningún valor de P nos garantiza que T sea útil, para poder cuantificar las utilidades de cada tamaño de muestra es preciso acordar un valor α, que es el valor de P por debajo del cual se calificará el resultado como “significativo”, y el producto T como “útil”. Ya sabemos que no hay un tamaño que sea el “adecuado”. Cuanto mayor sea la muestra más información proporciona. La fórmula que sigue no es para determinar el “tamaño adecuado”, sino para calcular las “prestaciones” que proporciona cada tamaño. Zα Π (1 − Π ) + Z β pT (1 − pT ) N= (Π − pT ) 2 2 π Proporción de curados realmente sin tratamiento. PT Estimador de la proporción de curados realmente con T. Si se sospecha que T cura más de 10% pero no se sabe cuanto puede ser pT, aplicaremos la fórmula varias veces, con diferentes valores de pT, como veremos en seguida. Zα es el valor de Z que en la DN deja por encima una proporción igual a α α. Así, Z 0.05 = 1.64 porque P(Z > 1.64) = 0.05 y Z 0.01 = 2.33 . β Es la prob de encontrar valor P del test > α y por ello de no declarar T como “útil” si realmente T cura más de 10%. La cantidad 1 - β se llama Potencia del Test y es la prob de declarar “útil” un producto que realmente es útil. Si, por ejemplo, queremos Potencia 85%, es β = 0.15, Zβ es el valor de Z más allá del cual hay 15% en la DN, es decir, Zβ = 1.04. Estas ideas se entienden mejor con ejemplos. Decidimos estos valores: π = 0.10 Sin tratamiento, la FR poblacional de curados es 10%. pT = 0.40 Con T, la FR poblacional de curados es próxima a 40%. α = 0.05 Zα = 1.64 Declararemos “útil” un producto cuando el test da P ≤ 0.05. De este modo 5 de cada 100 productos inútiles serán declarados “útiles”. β = 0.15, Zβ = 1.04 El 15% de los productos que realmente curan 40% no serán declarados “útiles” y el 85% sí lo serán. Con estas cantidades obtenemos: N = [ 1.64 (0.1 · 0.9 )½ + 1.04 ( 0.4 · 0.6) ½ ] 2 / (0.1 – 0.4)2 = 11.14 ≈ 12 La fórmula no dice que 12 es el tamaño “adecuado” para nuestra investigación, sino que con N = 12 tenemos las siguientes prestaciones: a) Si T es inútil tenemos riesgo 5% de declararlo “útil” (pues será en el test P ≤ 0.05) b) Si T cura realmente 40% tenemos riesgo 15% de no declararlo “útil” (porque aparece P > 0.05) y prob 85% de declararlo “útil” (porque aparece P ≤ 0.05). 18-cap18.indd 307 10/2/10 22:15:39 308 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... Dicho de otro modo, si probamos muchos productos, unos útiles y otros inútiles, cada uno en una muestra de 12, 5 de cada 100 inútiles serán declarados “útiles” (aparece P ≤ 0.05) y 15 de cada 100 que realmente curen 40% no son declarados “útiles” (aparece P > 0.05). Por otra parte, si un producto cura realmente el 30%, su efecto real es menor (30% - 10% = 20 puntos) y para que la potencia (la prob de declararlo “útil”) sea 85%, necesitaremos muestras mayores. Veamos cuánto mayor con la fórmula: N = [ 1.64 (0.1 · 0.9 )½ + 1.04 (0.3 · 0.7) ½ ] 2 / (0.1 – 0.3)2 = 24 Y si un producto cura realmente el 15%, su efecto real es menor (15% - 10% = 5 puntos) y para que la potencia sea 85% necesitaremos muestras mayores aún. N = [ 1.64 ( 0.1 · 0.9 )½ + 1.04 ( 0.15 · 0.85) ½ ] 2 / (0.10 – 0.15)2 = 299 Pero, si queremos que sean declarados “útiles” el 99% de los productos que realmente curan 40%, es β = 0.01 y Zβ = 2.33 N = [ 1.64 ( 0.1 · 0.9 )½ + 2.33 ( 0.4 · 0.6) ½ ] 2 / (0.1 – 0.4)2 = 29.6 ≈ 30 La tabla que sigue da los tamaños correspondientes a los distintos efectos y potencias, siendo en todos los casos α = 0.05 el riesgo de declarar “útil” un producto que realmente es inútil. π = 0.10 πT ↓ Potencia 0.4 (efecto = 0.3) 0.3 (efecto = 0.2) 0.15 (efecto = 0.05) 99% 30 61 530 85% 12 24 299 Cuanto mayor es N nos da más información y nos permite detectar efectos menores. Así, para tener prob 99% de dar como “útil” un producto, necesitamos N = 30 si realmente cura 40%, necesitamos N = 61 si realmente cura 30% y necesitamos N = 530 si realmente cura 15%. En todos lo ejemplos anteriores mantuvimos α = 0.05, es decir, daríamos como “útiles” a 5 de cada 100 productos inútiles. Si queremos, que solamente 1 de cada mil productos inútiles sean declarados “útiles”, es α = 0.001, Zα = 3.1. Así, para β = 0.01 (Zβ = 2.33) para πB = 0.4 es N = [ 3.1 ( 0.1 · 0.9 )½ + 2.33 ( 0.4 · 0.6) ½ ] 2 / (0.1 – 0.4)2 = 56. ** Ejercicio 18.5: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 299. **Ejercicio 18.6: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 61. **Ejercicio 18.7: El partido político IOS (Independencia para Orejuela del Sordete) obtuvo en las elecciones pasadas 20% de votos. Sospechamos que actualmente esa FR ha aumentado. Haremos una encuesta preguntando a N ciudadanos y a partir de la FR muestral intentaremos saber si la poblacional, πIOS, es mayor de 18-cap18.indd 308 10/2/10 22:15:39 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 309 20%. Los sociólogos que proyectan la encuesta plantean la pregunta: ¿A cuántos ciudadanos debemos preguntar para que esta encuesta sea “fiable”? Si usted no sabe qué se entiende por “fiable”, no se preocupe, ellos tampoco. Procedamos a calcular el N necesario para tener potencia 85% y 99% para detectar que es πIOS > 20% si realmente es 30% y si realmente es 80%. Tras tomar la muestra se planteará la H0 que dice que πIOS = 20% y se rechazará esa H0 si es FR muestral > 20% y es P ≤ 0.05. α = 0.05 Si es πIOS = 0.3 Si es πIOS = 0.8 3 Potencia 85% Potencia 99% **Ejercicio 18.8: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 127. **Ejercicio 18.9: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 7. 18.5. Tamaño de muestra para tests con Dos Proporciones En el apartado anterior veíamos el caso en que conocíamos una FR poblacional (la de curados sin ningún tratamiento, π = 0.10) y el estudio se hacía para ver si la FR poblacional de tratados con T, πT, es diferente de π. La H0 era πT = 0.10. En este apartado veremos el caso en que desconocemos las dos FR poblacionales y el estudio se hace para ver si dos productos, A y B, producen igual FR de curaciones en la población. Decimos que B es inútil si realmente cura igual que A, πB = πA. Se hará un estudio tratando N enfermos con A y otros N con B. Viendo las FR de curaciones obtenidas en las muestras, pA y pB, intentaremos saber si realmente B es mejor que A. Se planteará la H0: πB = πA ó πB - πA = 0 (los dos tratamientos curan igual). Para poder cuantificar el grado de información que distintos tamaños de muestra nos producen es preciso acordar un valor de P por debajo del cual se calificará el resultado como “significativo” y el producto B como “util” (alta sopecha de que cura más que A). Ya sabemos que no hay un tamaño que sea el “adecuado”. La fórmula correspondiente no calcula el “tamaño adecuado”, sino las “prestaciones” que producirá la muestra según el tamaño que se elija. N= pA q A + pB q B ( pB pA ) 2 (Z + Z ) 2 Si se sospecha que B cura más que A, pero no se sabe cuánto es esa ventaja, aplicaremos la fórmula varias veces, con diferentes valores de “pB – pA”, como veremos ahora. pA estimador del porcentaje real de curaciones con A, πA, qA = 1- pA pB estimador del porcentaje real de curaciones con B, πB, qB = 1- pB 18-cap18.indd 309 10/2/10 22:15:39 310 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... α es el valor P del test, por debajo del cual se acuerda calificar el resultado como “significativo”, y por ello calificar a B como “útil”. Para α = 0.05, es Z α = 1.64. β Riesgo de encontrar valor P > α y por ello no declarar el resultado como “significativo”, no declarar B como “útil”, si realmente B cura más que A, concretamente si πB - πA es la cantidad pB – pA puesta en el denominador de la fórmula. 1-β es la Potencia del Test y es la prob de declarar “útil” un producto que realmente lo es. Si, por ejemplo, queremos β = 15%, Zβ es el valor de Z más allá del cual están el 15% de los valores, es decir, Zβ = 1.04. Ejemplo: decidimos: pA = 0.60, la proporción poblacional de curados con A es próxima a 60%. pB = 0.90, la proporción poblacional de curados con B es próxima a 90%. α = 0.05, Z α = 1.64. Declararemos “util” los B que den P ≤ 0.05 (de cada 100 productos realmente inútiles, 5 serán declarados “utiles”). β = 0.15, Z β = 1.04 El 15% de los productos B que realmente curan 30 puntos más que A no serán declarados “utiles” y el 85% sí lo serán N = (0.6 · 0.4 + 0.9 · 0.1) · (1.64 + 1.04) 2 / 0.3 2 = 26.3 ≈ 27 Con una muestra de N = 27 tenemos prob = 0.05 de declarar “util” los productos inútiles y tenemos prob = 0.15 de no declarar “util” los productos que incrementan en 30 puntos la FR de curados. Es decir, si comparamos con el A miles de productos, 5 de cada 100 que son iguales a A serán declarados “útiles” erróneamente y 15 de cada 100 que curan 30 puntos más que A no serán declarados “útiles” erróneamente. Para tener la misma prob de declarar “útil” un producto que realmente cura no 30, sino 20 puntos más que A, hará falta mayor muestra. N = (0.6 · 0.4 + 0.8 · 0.2) · (1.64 + 1.04) 2 / 0.2 2 = 72 Para tener la misma prob de declarar “útil” un producto que realmente cura solamente 10 puntos más que A, hará falta aun mayor muestra. N = (0.6 · 0.4 + 0.7 · 0.3) · (1.64 + 1.04) 2 / 0.1 2 = 323 Y si un producto cura solamente 5 puntos más que A, se necesita mayor N N = (0.6 · 0.4 + 0.65 · 0.35) · (1.64 + 1.04) 2 / 0.05 2 = 1343 Es decir, con una muestra de N = 1 343 tenemos prob 0.05 de declarar “util” los productos inútiles y tenemos prob 0.85 de declarar “util” a los productos que curan 65%. La tabla que sigue da los N recién calculados y los N para potencia de 99%: πB-πA ↓ Potencia = 99% (.24 + .09) (1.64 +1.04)2 / .3 2 = 27 (.24 + .09) (1.64 +2.33)2 / .3 2 = 179 10% (.24 + .21) (1.64 +1.04) / .1 = 323 (.24 + .21) (1.64 +2.33)2 / .1 2 = 707 20% 5% 18-cap18.indd 310 Potencia = 85% 30% (.24 + .16) (1.64 +1.04)2 / .2 2 = 72 2 2 (.24 + .16) (1.64 +2.33)2 / .2 2 = 158 (.24 + .2275) (1.64 +1.04)2 / .05 2 = 1 343 (.24 + .2275) (1.64 +2.33)2 /.05 2 = 2 948 10/2/10 22:15:39 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 311 **Ejercicio 18.10: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 179. **Ejercicio 18.11: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 2948. 18.6. Tamaño de muestra para tests con Una Media Sabemos que la media poblacional de la variable “X”, dinero que gastan los franceses mayores de 40 años en medicinas alternativas en un año, fue 120 € en el 2007, con σ próxima a 20 €. Se sospecha que la crisis económica del 2008 conllevaría reduccion de este gasto, es decir, que la media poblacional de X en el 2008 será inferior a 120, µ2008 < 120. Esta es la hipótesis de trabajo. Para comprobarlo estudiaremos muestra de N franceses ¿Qué tamaño “debe” tener la muestra para que si plantemos como H0 que µ2008 = 120 tengamos confianza 90% en encontrar valor P < 0.05 cuando sea µ2008 = 100? La fórmula que relaciona el tamaño con sus prestaciones es: N= ( Zα + Z β ) 2 σ 2 (120 − µ2008 ) 2 donde σ es la mejor estimación que tengamos de la desviación poblacional y Zα y Zβ indican lo mismo que en el caso de tamaño para test con una proporción. La media poblacional en el 2008, µ2008, no la conocemos (por eso planeamos esa investigación). Aplicaremos la fórmula para dos o tres valores de µ2008, y veremos que los tamaños necesarios para detectar que la media poblacional del 2008 es menor de 120, son menores cuanto menor sea realmente µ2008. Acordamos rechazar H0 si es PUNIL ≤ 0.05. (α = 0.05, Z0.05 = 1.64). Queremos tener Potencia 90%, es decir, prob 90% de declarar que es µ2008 < 120 , es decir, de encontrar P ≤ 0.05 (β = 0.10, Zβ = 1.29). N = [1.64 +1.29] 2 202 / (120 - µ2008)2 = 3434 / (120 - µ2008)2 Vemos que fijados α y β, N depende de (120 - µ2008), es decir, de cuánto ha bajado la media poblacional en 2008. Si ponemos µ2008 = 115 es N = 3434 / (120 - 115)2 = 3 434 / 25 = 138 Si ponemos µ2008 = 110 es N = 3434 / (120 - 110)2 = 3 434 /100 = 35 Si ponemos µ2008 = 100 es N = 3434 / (120 - 100)2 = 3 434 / 400 = 9 Es decir, para tener riesgo 5% de decir que es µ2008 < 120 cuando realmente es µ2008 = 120 y tener prob 90% de decir µ2008 < 120 cuando realmente es µ2008 < 120, necesitamos: N = 138, si realmente es µ2008 = 115 N = 35, si realmente es µ2008 = 110 N = 9, si realmente es µ2008 = 100 18-cap18.indd 311 10/2/10 22:15:39 312 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... Cuanto menor sea µ2008, menos individuos necesitemos para detectar que es µ2008 < 120. ** Ejercicio 18.12: Rellene las 4 celdas que faltan en la siguiente tabla. ↓ α (Z α) ↓β 0.05 (1.64) 0.05 (1.64) 0.10 (1.29) 0.01 0.01 (2.33) µ2008 ↓ (Z α + Z β )2 (Z β) 8.59 15.76 0.01 15.84 115 110 100 138 35 9 16 348 **Ejercicio 18.13: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 16. **Ejercicio 18.14: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 138. **Ejercicio 18.15: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 348. ** Ejercicio 18.16: El nivel de conocimientos que tienen los alumnos de último año de Bachiller se evalúa en una puntuación que puede tomar valores entre 1 y 200. La media poblacional en España en el 2000 fue de 50, con σ = 10. Se sospecha que en 2009 esa media es inferior a 50. Se tomará una muestra de N escolares, la H0: µ2009 = 50 se rechazará si es P ≤ 0.05. Haga una tabla en la que se anote el tamaño necesario para encontrar P ≤ 0.05 con prob 90% y con prob 98% si es µ2009 = 40 y si es µ2009 = 30. **Ejercicio 18.17: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 9. **Ejercicio 18.18: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 14. 18.7. Tamaño de muestra para tests con Dos Medias Consideremos un estudio destinado a comparar el IR, Índice de Inmuno-resistencia, alcanzado con dos fármacos: el clásico que llamaremos “1” µ1 = Media poblacional de IR en pacientes tratados con “1” el nuevo que llamaremos “2” µ2 = Media poblacional de IR en pacientes tratados con “2” ¿Qué número de individuos deben incluirse en cada grupo? N =2 18-cap18.indd 312 2 (μ 2 μ1 ) 2 (z + z ) 2 10/2/10 22:15:39 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... Si ponemos: δ ≡ (µ2-µ1) N= 2 2 2 y 313 C ≡ [σ / (µ2-µ1) ] ≡ (σ /δ) queda (z + z ) 2 2 C 2 (z + z ) 2 σ La σ poblacional de la variable estudiada (se asume igual en ambas poblaciones). µ1 y µ2 No se conocen, por eso se va a hacer el estudio. Se calculará el N para dos o tres valores de (µ2 - µ1). α Convenimos rechazar la H0: µ2 = µ1, y calificar “2” como “útil” cuando el test dé P ≤ α. α es el riesgo de concluir que µ2 > µ1 si realmente ambas son iguales. β Riesgo de encontrar P ≥ α, es decir, de no rechazar que µ2 = µ1, cuando realmente es µ2 > µ1 en la cantidad que se pone en el denominador de la fórmula (enseguida se ven ejemplos). Los valores Z α y Z β se sacan de la tabla de la Distribución Normal. Como en la fórmula aparece [σ / (µ2 - µ1) ], podemos calcular N en función de esa relación. Por ejemplo, puede calcularse N si µ2 aventaja a µ1en un tercio de la desviación poblacional. En este caso es C ≡ [σ / (µ2 - µ1) ] = 3 y en la fórmula pondremos N = 2 · 32 · (Z α + Z β )2 = 18 (Z α + Z β )2. Y si µ2 aventaja a µ1en dos desviaciones», es C ≡ [σ / (µ2 - µ1) ] = 0.5 y en la fórmula pondremos N = 2 · 0.52 · (Z α + Z β )2 = 0.5 (Z α + Z β )2. Las cantidades α y β no es cuestión de ‘conocerlas’ sino de decidirlas, y para ello no hay criterios objetivos externos. El investigador debe ser consciente de que el tamaño de la muestra depende de cuán pequeños quiere él que sean los riesgos de equivocarse en uno y otro sentido. Veamos posibles N según sean las medias, la desviación y el riesgo de error: (δ/σ) 2 1 1/2 ¼ 1 4 16 50 200 ↓ α (Z α) ↓ β (Z β) (σ/δ) 0.25 ↓ (Z α + Z β )2 0.05 (1.65) 0.20 (0.85) 6.25 4 2 0.05 (1.65) 0.05 (1.65) 10.89 0.001 (3.1) 0.01 (2.33) 29.48 0.01 (2.33) 0.05 (1.65) 15.84 6 22 88 349 8 32 127 507 59 236 944 Si se decide rechazar H0 cuando el test da P ≤ 0.05 y realmente µ2 aventaja a µ1 en dos desviaciones, con N = 4 en cada grupo tenemos potencia 80%. Es decir, tenemos prob 0.80 de encontrar P ≤ 0.05 y por ello calificar a “2” como “útil”. O lo que es lo mismo, si comparamos muchos productos contra el “1”, 80 de cada 100 en que realmente es (µ2 - µ1) = 2 σ serán declarados “útiles”, porque se encontró P ≤ 0.05, mientras que los otros 20 no serán declarados “útiles”, porque se encontró P > 0.05 Si se decide rechazar H0 cuando el test da P ≤ 0.01 y realmente µ2 aventaja a µ1 en media desviación, con N = 127 en cada grupo tenemos potencia 95%. Es decir, si comparamos muchos productos contra el “1”, 95 de cada 100 en que realmente 18-cap18.indd 313 10/2/10 22:15:40 314 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... es (µ2 - µ1) = 0.5 σ serán declarados “útiles”, porque se encontró P ≤ 0.05, mientras que los otros 5 no serán declarados “útiles”, porque se encontró P > 0.05. **Ejercicio 18.19: Calcule el N correspondiente a la celda abajo a la izquierda en la tabla anterior. ¿Qué prestaciones nos da ese tamaño? **Ejercicio 18.20: Calcule el N correspondiente a la celda vacía de la primera fila en la tabla anterior. ¿Qué prestaciones nos da ese tamaño? **Ejercicio 18.21: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 22 (si le resulta difícil explicarlo en una sola frase larga, hágalo en dos o tres frases cortas). **Ejercicio 18.22: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 200. **Ejercicio 18.23: Observando la tabla anterior diga, en una frase concisa y clara, qué prestaciones nos da una muestra de N = 944. 18.8. Tamaños extremadamente pequeños o grandes Hemos visto que para entender las prestaciones que da cada tamaño de muestra en relación con el test estadístico que se proyecta hacer es necesario manejar el concepto de potencia del test. No obstante, aun sin manejar ese concepto puede entenderse que hay tamaños inadecuadamente pequeños o inadecuadamente grandes. A. Tamaños inadecuadamente pequeños Un tamaño es inadecuadamente pequeño si incluso con el resultado muestral más favorable a la hipótesis de trabajo no se alcanzara un valor P suficientemente pequeño para rechazar la H0. Considere el caso de un médico que tiene “la impresión” de que para cierta enfermedad el tratamiento “A” es mejor que el “B” y hace un estudio con 2 pacientes en cada tratamiento. Si con A se curan los dos y con B ninguno, parece que el resultado “confirma” la posición inicial del médico favorable a “A”. Pero el test correspondiente da PBIL = 0.32 (se llega a ese valor P con el test exacto de Fisher que se explica en este libro, pero la interpretación del valor P es la habitual). Por tanto, antes de hacer el estudio con estos tamaños ya sabemos que no podremos rechazar la H0 ni aun en el caso de que los resultados sean los más favorables a la hipótesis de trabajo. Por ello no tiene sentido usar estos tamaños. En cualquier campo de investigación no deben realizarse estudios con tamaño de muestra claramente insuficiente, porque supone gasto inútil de tiempo y recursos. Pero en investigación médica un tamaño claramente insuficiente no solo es inútil, sino que puede ser explícitamente perjudicial. En este ejemplo, si a partir del resultado obtenido (éxito con los dos tratados con A y fracaso en los dos tratados con B) se optara por usar sistemáticamente “A”, se estaría haciendo sin datos fiables que lo justificaran, y podría estar eligiéndose el tratamiento que realmente 18-cap18.indd 314 10/2/10 22:15:40 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 315 es peor. Por ejemplo, si “A” cura realmente el 40% y “B” cura el 50%, puede ocurrir por azar curen los dos con A y ninguno con B. Ello ocurre en 4 repeticiones de ese estudio cada 100. Pero al médico que previamente tenía opinión favorable a “A”, después de obtener ese resultado le es muy difícil dar en el futuro “B” a sus pacientes. Si le proponen participar en un estudio más completo, dando “A” a 100 pacientes y “B” a otros 100, se planteará si es lícito dar “B” a 100 pacientes cuando él sospecha que es mejor el “A” y el estudio con 4 casos “lo confirma”. Ese tipo de situaciones se evitan no haciendo estudios con tamaños tan pequeños. B. Tamaños inadecuadamente grandes También pueden ser inadecuados los tamaños extremadamente grandes. Siguiendo con nuestro ejemplo supongamos que el Dr. Diógenes Laercio, disponiendo de muchos recursos, decide estudiar 1 000 pacientes con cada tratamiento y se curan 700 con A (70%) y 200 con B (20%). El test da P = 10 -149. El resultado es contundente y muestra más allá de toda duda que A es mucho mejor que B. Supongamos que la enfermedad que intentamos curar es muy grave y frecuente y que antes de ese estudio había división de opiniones entre los especialistas, pensando unos que A es mejor y otros que lo es B. Encontrar el mejor tratamiento es un acontecimiento relevante científica y socialmente. Diógenes esperará recibir felicitaciones sin cuento por haber demostrado definitivamente que A es mejor que B. Pero, para su sorpresa, la comunidad médica y la civil le aplauden intensamente durante un instante, porque realmente ha demostrado definitivamente cuál es el mejor medicamento, pero inmediatamente pasan a acusarle de incompetente e incluso de homicida. En efecto, si hubiera realizado el estudio con 100 pacientes en cada grupo y las FR muestrales hubieran sido del mismo orden que en las del estudio con 1 000, el test habría dado Z = 7.1 y P= 0.000 000 000 1, con lo que habría quedado demostrado que A es mejor y se hubiera evitado que recibieran B 900 enfermos. Pero incluso N = 100 habría sido un tamaño excesivo porque con 50 en cada grupo es Z = 5.05 y P = 0.000 000 1, que ya es evidencia contundente a favor de A. En realidad un tamaño del orden de N = 30, hubiera sido suficiente pues con 70% de éxitos con A y 20% con B el test da Z = 3.89 y P = 0.0001, que es fuerte evidencia a favor de A. Por tanto al tratar a 1 000 en cada grupo Diógenes dio B a 970 que habrían recibido A de haber él usado unos 30 individuos por grupo. Por recibir B en vez de A dejaron de curarse aproximadamente el 50% de ellos (70% - 20%), es decir, unos 485. Si la no curación implica muerte, Diógenes es responsable de 485 muertes, aproximadamente. 18.9. Potencia de un estudio programado y significación estadística del resultado obtenido El investigador suele preguntar cómo afecta la potencia que tenía el estudio antes de hacerlo a la conclusión que se alcanza una vez hecho. Consideraremos 18-cap18.indd 315 10/2/10 22:15:40 316 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 4 situaciones posibles, según que sean pequeña o grande la potencia previamente calculada y el valor P del test. Para facilitar la exposición veremos un ejemplo similar al del apartado 18.1 En la población de sanos la variable “X” se distribuye N (50,10). Se sospecha que la leucemia cursa con aumento de 2 unidades, es decir, µLeuc = 52. Plantearemos la H0: µLeuc = 50, tomaremos una muestra de N leucémicos y rechazaremos H0 si es P UNI ≤ 0.05, es decir, Z ≥ 1.64. Con N = 4 en el MA las medias muestrales, M, tienen σMedia = 10 / 2 = 5. La Región Crítica empieza en 50 + 1.64 · 5 = 58.2. Si realmente es µLeuc = 52, tenemos Potencia = P (M ≥ 58.2 | µLeuc = 52) = P ( Z ≥ 6.2 / 5) = P ( Z ≥ 1.24) = 0.10. Con N = 625 en el MA las medias muestrales tienen σM = 10/25 = 0.4. La Región Crítica empieza en 50 + 1.64 · 0.4 = 50.656. Si realmente es µLeuc = 52, tenemos Potencia = P (M ≥ 50.656 | µLeuc = 52) = P ( Z ≥ - 1.344 / 0.4) = P ( Z ≥ - 3.36) = 0.9996. 1º.Valor P pequeño invita a rechazar H0, cualquiera que sea la Potencia previa Si encontramos un valor P muy pequeño, lo consideramos evidencia contra la H0 y nos inclinamos a rechazarla con tanta más convicción cuanto menor sea el valor P, cualquiera que fuera la potencia inicial. 2º.Valor P grande con Potencia previa pequeña mantiene la esperanza en que sea cierta la Hipótesis de trabajo Si hacemos el estudio con N = 4, la poca potencia nos dice que aunque sea µLeuc = 52 es poco probable que al hacer el estudio se encuentre P ≤ 0.05. Es muy probable que se encuentre P > 0.05. Si encontramos P > 0.05 pensamos que es compatible con µLeuc = 52 y que ese valor P grande puede deberse al pequeño tamaño de la muestra. 3º.Valor P grande con Potencia previa grande invita a renunciar a la sospecha de que sea cierta la Hipótesis de trabajo Si hacemos el estudio con N = 625, la elevada potencia nos dice que si es µLeuc = 52, es muy probable que al hacer el estudio se encuentre P ≤ 0.05. Por ello si se encuentra P > 0.05, sospechamos que no es µLeuc = 52 (puesto que si lo fuera era casi seguro que encontraríamos P ≤ 0.05). La tabla siguiente resume estos criterios, que no son consecuencia de sofisticados razonamientos estadísticos. Son consecuencia obligada de lo que indica el valor P y la Potencia: la prob de obtener media como la de nuestro estudio o aun más alejada de lo que propone H0, si es cierta la H0 (valor P del test) o si es cierta la Hipótesis alternativa (Potencia). Poca Potencia Valor P grande Valor P pequeño 18-cap18.indd 316 Gran Potencia No es argumento a favor de la H0 Pude ser cierta la hipótesis de trabajo y haber salido P grande por el tamaño pequeño de las muestras Es argumento a favor de la H0, porque si no fuera cierta es muy raro que aparezca P grande. Rechazamos H0 Rechazamos H0 10/2/10 22:15:40 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 317 El proceso lógico implicado es el mismo que el usado en la vida común en situaciones semejantes a esta. Suponga que recién llegado a casa Jerónimo se da cuenta de que ha dejado la guitarra en alguna parte del teatro en el que acaba de actuar. Planteamos la hipótesis nula que dice que nadie la ha robado y sigue allí. La hipótesis alternativa es que la han robado. Si va a buscarla él solo durante 10 minutos, con una pequeña linterna, en ese momento en que las luces ya están apagadas, es poco probable que la encuentre, aunque aún esté allí. Es un proyecto con poca “potencia”. Si hacer esa búsqueda tiene algún coste aconsejaríamos no hacerla, puesto que es improbable encontrar la guitarra aunque esté allí. Pero si Jerónimo decide ir y resulta que encuentra la guitarra, el feliz resultado no se ve afectado por el hecho de que inicialmente fuera improbable encontrarla. Pero si no la encuentra en esa búsqueda rápida, no concluiremos que la guitarra ha sido robada, pues aunque esté allí es improbable que la encontrara. Si la búsqueda se hace el día siguiente con todas las luces encendidas y diez personas buscando durante dos horas, es muy probable que la guitarra aparezca, si aún está allí. Es un proyecto con mucha “potencia”. Si en esa búsqueda aparece la guitarra, no importa si la potencia era o no grande. Pero si con esa búsqueda cuidadosa no aparece la guitarra, sospecharemos que ha sido robada, pues si no la hubieran robado es casi seguro que la habríamos encontrado. No aparece Aparece 18-cap18.indd 317 Busca Jerónimo solo con linterna durante 10 minutos Proyecto con baja potencia Buscan 10 personas con luces buenas durante 2 horas Proyecto con gran potencia No es argumento fuerte a favor de que la han robado. Aunque esté allí lo normal es que con esa búsqueda no se la encuentre. Es argumento fuerte a favor de que la han robado. Si estuviera allí lo normal es que con esa búsqueda se la encuentre Celebramos aparición, no importa la potencia inicial del proyecto 10/2/10 22:15:40 318 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... No olvide recordar - 18 1.Un juez puede errar declarando culpable a un inocente o declarando inocente a un culpable. Al evaluar la posible utilidad de un nuevo tratamiento podemos equivocarnos declarando útil al que es inútil (error tipo I) y no declarando útil al que es útil (error tipo II). 2.La potencia de un estudio es la prob de rechazar la H0 cuando es falsa, es decir, cuando lo correcto es rechazarla. 3.Al evaluar la posible utilidad de un nuevo tratamiento la potencia de un estudio es la prob de declararlo útil si realmente lo es. 4.Llamamos β a la prob de no rechazar la H0 cuando es falsa, es decir, cuando lo correcto es rechazarla, esto es, la prob de cometer error tipo II. 5.Al evaluar la posible utilidad de un nuevo tratamiento, β es la prob de no declararlo útil si realmente lo es. Por ello la potencia de un estudio es 1- β. 6.Si la variable X tiene en la población de controles µ = 500 y σ = 20, en el MA de N = 4 es µM = 500 y σM = 10. Si una muestra de N = 4 individuos tratados con “A” tiene MA = 516.5, para H0: µA = 500 es Z = 1.65 y PUNIL = 0.05. Si se rechaza H0, concluyendo que µA > 500, con PUNIL ≤ 0.05, se rechazará siempre que sea MA ≥ 516.5. La Potencia es P [ PUNIL ≤ 0.05] = P [ MA ≥ 516.5] 7.La Potencia depende de cuál sea el valor de µA. Por ejemplo, si es µA= 520 es P [ P ≤ 0.05│µA = 520 ] = P [ MA ≥ 516.5│µA = 520 ] = P [ Z ≥ -0.35 ] = 0.64 8.La Potencia depende de cuál sea el valor de µA. Por ejemplo, si es µA= 530 es P [ P ≤ 0.05│µA = 530 ] = P [ MA ≥ 516.5│µA = 530 ] = P [ Z ≥ -1.36 ] = 0.91 9.Si la potencia de un estudio es baja, por ejemplo 30%, quizá no procede hacerlo, ya que si el efecto es en población del orden que suponemos, tenemos prob 70% de no detectarlo. 10.Si un estudio con baja potencia no permite rechazar H0, puede ser por su baja potencia y por ello no supone evidencia fuerte contra la Hipótesis de trabajo. Pero si un estudio con alta potencia no permite rechazar H0, supone evidencia fuerte contra la Hipótesis de trabajo. 18-cap18.indd 318 10/2/10 22:15:40 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 319 EJERCICIO DE AUTOEVALUACIÓN - 18 Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible (para que una frase sea verdadera tiene que serlo en su totalidad). Consideremos el diseño de un estudio destinado a comparar el IR, Índice de Inmuno-resistencia, alcanzado con dos fármacos: el clásico que llamaremos “1” y el nuevo que llamaremos “2”. µ1 = Media poblacional de IR en pacientes tratados con “1” µ2 = Media poblacional de IR en pacientes tratados con “2” Diremos que “2” es útil si es mejor que “1”, es decir, si µ2 > µ1 Diremos que “2” es inútil si no es mejor que “1”, es decir, si µ2 = µ1 En el apartado 18.7 calculábamos los valores de N en función de α, β, σ, µ2 y µ1. ↓ α (Z α) 0.05 (1.65) 0.05 (1.65) 0.01 (2.33) 0.001 (3.1) ↓ β (Z β) 0.20 (0.85) 0.05 (1.65) 0.05 (1.65) 0.01 (2.33) (δ/σ) (σ/δ)2 ↓ (Z α + Z β )2 6.25 10.89 15.84 29.48 2 0.25 1 1 1/2 4 1/4 16 4 6 8 15 13 22 32 59 50 88 127 236 200 349 507 944 1.Si se decide rechazar H0 cuando el test da P ≤ 0.05, declararemos “útiles” 5 de cada 100 productos inútiles. 2. Si se decide rechazar H0 cuando con P ≤ 0.05, declararemos “útiles” 5 de cada 100 productos con media poblacional igual a la media poblacional con ‘1’. 3. Si se decide rechazar H0 cuando el test da P ≤ 0.05, no declararemos “útiles” 95 de cada 100 productos inútiles. 4.Si se decide rechazar H0 cuando el test da P ≤ 0.05 y si la media poblacional con ‘2’ aventaja a la media poblacional con ‘1’ en un cuarto de la desviación poblacional, con N = 200 en cada grupo tenemos potencia 80%. 5.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 200 en cada grupo, declararemos “útiles” 80 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en un cuarto de la desviación. 6. Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 200 en cada grupo, tenemos riesgo 5% de declarar “útiles” a los productos inútiles y riesgo 20% de no declarar “útiles” a los productos cuya media poblacional aventaje a la media poblacional con ‘1’ en un cuarto de la Desviación. 7.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, declararemos “útiles”, acertadamente, 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. 18-cap18.indd 319 10/2/10 22:15:40 320 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 8.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, no declararemos “útiles”, erróneamente, 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. 9.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, declararemos “útiles”, acertadamente, 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en dos desviaciones. 10.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, no declararemos “útiles”, erróneamente, 5 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. 11.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, no declararemos “útiles”, erróneamente, 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en un cuarto de desviación. 12.Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 13 en cada grupo, declararemos “útiles”, acertadamente, 80 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en dos desviaciones. Si se decide rechazar H0 cuando el test da P ≤ 0.05 , con N = 13 en cada grupo: 13.Declararemos “útiles”, erróneamente, 5 de cada 100 productos cuya media poblacional es igual a la media poblacional con ‘1’. 14.No declararemos “útiles”, acertadamente 95 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. 15.Declararemos “útiles”, acertadamente, 80 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. 16.No declararemos “útiles”, erróneamente, 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en una desviación. Si se decide rechazar H0 con P ≤ 0.01, con N = 127 en cada grupo: 17.No declararemos “útiles”, acertadamente, 99 de cada 100 productos con µ2= µ1 18.Declararemos “útiles”, erróneamente, 1 de cada 100 productos con µ2 = µ1. 19.Declararemos “útiles”, acertadamente, 95 de cada 100 productos con µ2 = µ1 + 0.5 σ. 20. No declararemos “útiles”, erróneamente, 5 de cada 100 productos con µ2 = µ1 + 0.5 σ. 21. Si se decide rechazar H0 cuando el test da P ≤ 0.05, con N = 50 en cada grupo, no declararemos “útiles” 20 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en media desviación. 22.Si se decide rechazar H0 cuando el test da P ≤ 0.001, con N = 236 en cada grupo, no declararemos “útiles” 1 de cada 100 productos cuya media poblacional aventaje a la media poblacional con ‘1’ en media desviación. Se estima que para cierta patología el fármaco clásico “D” cura en torno al 20% de los casos. Vd. elabora un buen protocolo solicitando autorización y dinero para un estudio que compara el nuevo fármaco “E” con el “D”. Decide 18-cap18.indd 320 10/2/10 22:15:40 18. POTENCIA ESTADÍSTICA DE UNA INVESTIGACIÓN Y TAMAÑO DE MUESTRA... 321 rechazar la H0 que dice que ambos productos son iguales cuando aparezca P ≤ 0.05 (lo cual implica riesgo 5% de declarar que E cura más que D si E es inútil). Y quiere tener prob 90% en declarar que E es útil si realmente lo es (lo que implica riesgo 10% de no declarar que es útil un producto que realmente es útil). Un estadístico dice que para tener potencia 90% se necesita N = 13, otro estadístico dice que necesita N = 40 y un tercero dice que necesita N = 320. 23. Es imposible que esos tres tamaños sean correctos, solo puede serlo uno. 24. Podrían ser ciertos los tres, uno para cada magnitud del efecto real. 25.Para una determinada potencia, cuanto mayor es el efecto real, mayor tamaño de muestra se necesita. 26.Para una determinada potencia, cuanto mayor es el efecto real, menor tamaño de muestra se necesita. 27.Para un determinado tamaño de muestra, la potencia no tiene relación con la magnitud del efecto real. 28.La potencia de un estudio es la prob de encontrar valor P del test igual o menor del valor P por debajo del cual se acordó rechazar. 29.La potencia de un estudio es la prob de declarar útil un producto que realmente lo es. 30.La fórmula a usar en este caso es N = (pAqA + pBqB) (Zα + Zβ )2 / (pA – pB)2. 31.En este caso la fórmula es N = (0.16 + pBqB) (1.65 +1.29 )2 / (0.2 – pB)2. 32. La fórmula a usar en este caso es N = (0.16 + pBqB) 8.64 / (0.2 – pB)2. 33.Para un fármaco que cure en torno al 70%, la fórmula a usar es N = (0.16 + 0.21) 8.64 / (0.5)2 = 13. 34. Para esa potencia, la relación entre tamaño y efecto real es: pB Efecto N 0.7 0.5 13 0.5 0.3 40 0.3 0.1 320 36. N = 13 nos da potencia de 90% si realmente E cura el 90% de los casos. 37. N = 13 nos da potencia de 90% si realmente E cura el 70% de los casos. 38. N = 40 nos da potencia de 90% si realmente E cura el 8% de los casos. 39. N = 320 nos da potencia de 90% si realmente E cura el 90% de los casos. 40. N = 40 nos da potencia de 90% si realmente E cura el 50% de los casos. 41. N = 320 nos da potencia de 90% si realmente E cura el 30% de los casos 18-cap18.indd 321 10/2/10 22:15:40 18-cap18.indd 322 10/2/10 22:15:40 Apéndice A Más sobre Probabilidad Continuamente en el análisis de datos, y por ello en este libro, se habla de “probabilidad”. La probabilidad es la FR de veces que se da cierto resultado cuando se repite un gran número de veces un fenómeno aleatorio. En este apéndice se comentan algunos puntos que ayudarán al investigador a moverse con comodidad en este tema. No contiene formalismo matemático. A.1.Ejercicio para subrayar lo que indica y lo que no indica la probabilidad ** Ejercicio A.1: Lucía y el Tahúr Feroz Lucía, hermana pequeña de Caperucita, encontró, paseando por el bosque, a un malvado y feroz tahúr que le propone el siguiente juego de azar: “Tiramos un dado perfectamente homogéneo. Si sale la cara “5” te doy un millón de euros, y si no sale “5” me das tú un millón” (jueces externos garantizan que el dado es homogéneo, es decir, si se lanza muchas veces cada cara aparece un sexto de las veces). Lucía pide consejo a los estadísticos y todos le aconsejan no jugar. A pesar de esos consejos Lucía decide correr el riesgo y juega. Ocurre que sale “5” y gana un millón. Y piensa que quienes le desaconsejaron jugar quizá estaban equivocados puesto que ella jugó y ganó. Animada por el éxito decide probar suerte otra vez, apostando de nuevo en los mismos términos. Pide consejo por segunda vez a los estadísticos y todos le aconsejan, de nuevo, no jugar. Pero Lucía decide tentar a la fortuna y juega por segunda vez. Y resulta que vuelve a salir “5”, y gana otro millón. De nuevo cuestiona la sabiduría de los estadísticos. El tahúr feroz le propone una tercera apuesta. Lucía pide consejo por tercera vez a los estadísticos y todos le aconsejan no jugar. A pesar de todo juega y, ¡Oh 323 19-ApendiceA.indd 323 10/2/10 22:15:48 324 apéndice A. Más sobre Probabilidad caprichos del azar!, sale de nuevo “5” (recuerde que jugando al parchís con cierta frecuencia sale “6” tres veces seguidas). Lucía retorna a casa de su abuelita llena de gozo porque tiene 3 millones y llena de dudas acerca del saber de los estadísticos. Por tres veces ellos le aconsejaron vivamente no jugar, augurándole inminentes pérdidas si lo hacía. Y por tres veces, desoyendo sus razones, jugó y ganó. a) Justifique su postura a favor de que Lucía no acepte el juego. No se limite a repetir lo ya dicho arriba, puesto que precisamente la objeción de Lucía es que “los hechos contradicen lo que ustedes me dijeron” y repitiéndolo no se hace más que insistir en la postura “errónea”. Por ello, no se trata de repetir lo dicho antes, sino de exponerlo adecuadamente para que se vea que era correcto y que los hechos no lo contradicen (explicación clara, concisa, sin divagaciones difusas, sin pretensiones matemáticas y sin usar la palabra “probabilidad”). b)Un mes más tarde Lucía encuentra otro tahúr que le propone tirar un dado perfectamente homogéneo 4 veces seguidas y si sale “5” las 4 veces él le da 2 millones y si no ocurre eso, ella se los da a él. Lucía le pide opinión a usted y de nuevo usted le aconseja no jugar, pero ella recuerda que la vez anterior usted se “equivocó” y por eso duda de sus conocimientos. ¿Qué cosa concreta, clara y real, y sin usar la palabra “probabilidad”, le diría usted ahora? A.2.Fenómenos Aleatorios, Probabilidad y la Ley de la Regularidad de las Series Estadísticas en general Tomar un individuo de una población es un ejemplo clásico de Fenómeno Aleatorio. Los Fenómenos Aleatorios, FA, en general son aquellos en los que: a)No se conoce de antemano el resultado que se va a obtener cada vez que se repite. b)Si el FA se repite muchas veces en condiciones macroscópicas semejantes, la FR con que aparece cada resultado posible se aproxima a una cantidad fija. c)El resultado de cada repetición es independiente del resultado de la repetición anterior, es decir, si el FA se repite muchas veces, la FR con que se presenta cada resultado posible es la misma cualquiera que sea el resultado de la repetición anterior. A ese valor al que se aproxima la frecuencia relativa al repetir muchas veces el FA se le llama Probabilidad de ese resultado. En todos los órdenes de la vida y en todos los campos de investigación se presentan Fenómenos Aleatorios. Un ejemplo típico es el lanzamiento de un dado. No sabemos qué cara va a salir en cada lanzamiento. Pero si el dado es homogéneo y lo lanzamos muchas veces, cada cara saldrá aproximadamente un sexto de las veces. Decimos que la prob de que salga “5”, por ejemplo, es 1/6, es decir, P (5) = 1/6 ≈ 0.1667. Se llama Ley de la Regularidad de las Series Estadísticas o Ley del Azar, al hecho de que en todas las series muy largas de repeticiones la FR del resultado 19-ApendiceA.indd 324 10/2/10 22:15:48 apéndice A. Más sobre Probabilidad 325 sea muy parecida. Si se hacen varias series largas de lanzamientos con el mismo dado, en todas ellas la FR de veces que aparece la cara “5” se aproxima mucho a 1/6. Como en el caso en que el FA era la extracción al azar de un individuo, aquí también podemos argumentar que en cada tirada puede salir 5 y, por tanto, puede salir en todas las tiradas de la larga serie que se realice. Y con más razón aún podría salir no-5 en todas las tiradas. Pero la experiencia muestra que esos resultados y otros extremos no ocurren “nunca” y que en una serie muy larga de repeticiones la frecuencia relativa de veces que sale 5 se aproxima mucho a 0.1667. En este ejemplo del dado la Ley del azar no exige que sea homogéneo, es decir, que todas las caras tengan la misma prob de salir. Si se construye un dado irregular con caras de tamaños diferentes y decimos, por ejemplo, que la prob de que salga la cara “3” es 0.28, queremos decir que en una larga serie de tiradas salió “3” en 28 de cada 100 tiradas. La Ley del azar dice que en toda otra larga serie de tiradas con ese dado esa cara aparecerá, muy aproximadamente, en 28 de cada 100. **Ejercicio A.2: Se construye un dado de forma irregular y nos interesamos por la probabilidad de que salga la cara “4”. Hacemos varias Series Estadísticas. 1ª Serie: N= 2 000 000 400 600 veces sale “4” FR(“4”) = 0.2003 ó 20.03 % 2ª Serie: N= 4 000 000 804 000 veces sale “4” FR(“4”) = 0.2010 ó 20.10 % 3ª Serie: N= 1 000 000 199 700 veces sale “4” FR(“4”) = 0.1997 ó 19.97 % a.A la vista de lo ocurrido en esas tres series, ¿cuál es la prob de que en ese dado salga “4”? b. Nos disponemos a hacer otra Serie de N = 500 000. Cada vez que tiremos el dado puede salir “4” y por tanto puede salir todas las veces. Pero también puede no salir “4” cada vez que tiramos y por tanto puede salir ninguna vez en toda la serie. ¿Qué podemos decir respecto a la proporción de veces que saldrá “4”? **Ejercicio A.3: Para ganar en la ruleta se propone este método: El jugador observa y espera pacientemente hasta que salga una larga serie del mismo color y entonces apuesta por el otro. Por ejemplo, si espera hasta que salgan 8 rojos seguidos, puesto que a la larga tienen que salir tantos negros como rojos, parece que tras esos 8 rojos será más probable que aparezca un negro. Este argumento tiene mucha fuerza intuitiva. Pero en cualquier ruleta bien hecha la realidad se aproxima al modelo citado, incluida la condición de independencia. ¿Qué resultados empíricos confirmarían la citada independencia? (Pista: habrá que emplear muchas horas en la ruleta para conseguir los datos en cuestión). A.3. Asignación de probabilidades a sucesos concretos Recordemos que el estudio de las probabilidades es aplicable solamente en las situaciones en las que un fenómeno aleatorio se repite muchas veces o está implicado un colectivo grande de individuos, no cuando el fenómeno aleatorio se ejecuta una vez o está implicado un solo individuo. ¿Cómo se establece la prob 19-ApendiceA.indd 325 10/2/10 22:15:48 326 apéndice A. Más sobre Probabilidad de un determinado suceso? En la práctica hay dos opciones, la vía empírica y el Postulado de Indiferencia. 1º. Asignación de probabilidades a sucesos concretos por vía empírica En muchos FA no se pueden asignar probabilidades en relación a argumentos teóricos. El único modo de estimar la proba de los sucesos es mediante la FR obtenida en largas series estadísticas. Ejemplo 1º ¿Cuál es la prob de que un Recién Nacido, RN, español tenga malformación? Respuesta: Entre los últimos 200 000 RN hubo 600 malformados. FR = 600 / 200 000 = 0.003. Esa es la mejor estima que tenemos de la prob del suceso “nacer con malformación”. Ejemplo 2º Si decimos que la prob de que un varón de 50 años con tensión arterial normal desarrolle hipertensión en los 10 años siguientes es P = 0.27, queremos decir que en un gran colectivo de varones de esa edad, al cabo de diez años tuvieron hipertensión 27 de cada 100. De nuevo, para cada sujeto en particular de ese colectivo, no podemos saber si va a tener hipertensión o no. Aunque la expresión usada es “la prob de que un varón sea hipertenso es 0.27”, en realidad esa cifra se refiere a un colectivo grande de varones y dice que en él tuvieron hipertensión 27 de cada cien. 2º.El Postulado de Indiferencia o de Equiprobabilidad En muchos casos la prob de un suceso puede establecerse en relación a ciertas consideraciones teóricas razonables. Después la experiencia muestra si los datos empíricos son o no acordes con esas suposiciones. Consideremos un FA cuyo desenlace se clasifica de modo exhaustivo y excluyente en K resultados posibles a1, a2, . . .aH, .......... aK. Si no se conoce ningún motivo para que alguno de esos resultados sea más ni menos frecuente que cualquier otro, podemos asumir el llamado Postulado de Indiferencia o de Equiprobabilidad: la probabilidad de cada uno de esos resultados es igual a la de cualquier otro e igual a 1/K. En la práctica eso debe reflejarse en que en una larga serie de repetición del FA la FR de cada resultado posible sea “bastante aproximada” a 1/K. Si el Fenómeno aleatorio es lanzar un dado homogéneo y se consideran como resultados posibles cada una de las 6 caras, el postulado de indiferencia dice que la probabilidad de cada cara es 1/6 = 0.1667. Si el suceso ‘A’ es {número mayor de 2}, hay 4 caras favorables y es P(A) = 4/6 = 0.667. Si el suceso ‘B’ es {múltiplo de 3}, hay dos caras favorables y es P(B) = 2/6 = 0.33. Empíricamente esto se refleja en que en una larga serie de tiradas cada cara aparecerá en torno al 16.67% de las veces y por tanto se obtiene {mayor de 2} en torno a 4 x 16.67% = 66.67% y {múltiplo de 3} en aproximadamente el 2 x 16.67% = 33.33%. En general, la probabilidad de que ocurra ”A” es el número de resultados “favorables” dividido por número de resultados posibles. A este modo de enunciar el postulado de indiferencia se le suele llamar Regla de Laplace. Recordemos de nuevo la diferencia conceptual entre la FR de individuos con cierta característica en un colectivo y la prob de que al extraer uno tenga esa ca- 19-ApendiceA.indd 326 10/2/10 22:15:48 apéndice A. Más sobre Probabilidad 327 racterística. Si en un colectivo de 40 personas, 8 de ellas son calvas, y el FA es tomar una persona al azar, el Postulado de Indiferencia implica que cada una tiene la misma probabilidad de salir y por tanto en una larga serie de extracciones con reposición cada una saldrá en torno al 1/40 = 0.025 de las veces. Para el suceso “C” {extraer un calvo} la regla de Laplace dice P(C) = 8 /40 = 0.20. En este tipo de situaciones —extraer al azar individuos de un colectivo— si se cumple el Postulado de Indiferencia la prob de extraer un individuo con cierta característica es igual a la Proporción de individuos que tienen esa característica en el colectivo del que extraemos. Pero hay que distinguir claramente entre esas dos proporciones: a) Proporción de calvos en el colectivo. b) Proporción de calvos en la muestra con reposición. La primera describe la composición del colectivo, no ofrece ninguna ambigüedad y no implica muestreo. La segunda es el valor al que creemos se aproximarán las FR en las muestras grandes si se hacen al azar (sin elegir intencionadamente a los individuos que se extraen). A ese valor lo llamamos probabilidad. No hay dato empírico que permita confirmar la validez de ese modelo. Se acepta el modelo cuando es conceptualmente plausible y los datos empíricos no lo contradicen más allá de lo que cabe esperar por las oscilaciones inherentes al muestreo. A.4. ¿Cuándo se asume el Postulado de Indiferencia? Cuando hay motivos teóricos a su favor y los datos empíricos (FR para cada resultado en largas series) no contradicen la hipótesis de indiferencia. Las FR empíricas en ningún caso pueden confirmar definitivamente dicha hipótesis, puesto que están basadas en series finitas. Cuando las series empíricas dan FR próximas a las probabilidades postuladas en la hipótesis de Indiferencia, constituyen apoyo pero no confirmación definitiva de ella. Pero a la disciplina llamada Cálculo de Probabilidades no le compete decidir qué situaciones reales se ajustan a un determinado modelo. Esta disciplina enseña a calcular las probabilidades de ciertos sucesos supuesto que se cumplan ciertos axiomas. Sus conclusiones son aplicables cuando se cumplen los axiomas. Esos axiomas se justifican porque en muchas situaciones reales las FR se aproximan satisfactoriamente a las probabilidades calculadas a partir de ellos. Los valores de esas probabilidades se deducen de los axiomas mediante razonamientos lógicos obligados, de modo que, como en todas las ramas de la matemática, las conclusiones están contenidas en los postulados de partida. Al obrero matemático, que es otro modo de decir el obrero lógico, solo le corresponde quitar el liviano velo que ocultaba momentáneamente esas relaciones (como Miguel Ángel solo tuvo que quitar con el escoplo la parte de mármol que ocultaba La Piedad). Se puede ilustrar esto con ejemplos sencillos, como es el cálculo de la probabilidad de que un resultado se repita varias veces seguidas, que se explica en el Capítulo 5. Allí deducimos la expresión P (X casos seguidos con el resultado) = π X como consecuencia necesaria y directa de los axiomas iniciales. Podríamos decir que estaba contenida en ellos. 19-ApendiceA.indd 327 10/2/10 22:15:48 328 apéndice A. Más sobre Probabilidad +++ A.5.La fórmula de la distribución Binomial El investigador de cualquier disciplina y el profesional que analiza información no necesita deducir la fórmula de la Binomial. Le basta con usarla adecuadamente. Solamente para el lector con curiosidad matemática damos una demostración usando ejemplos concretos. Si de un colectivo con 60% de varones, V, y 40% de mujeres, M, tomamos una muestra de N = 4, la probabilidad de que en ella haya 0, 1, … 4 varones es una B(4, 0.6). -La probabilidad de que en la muestra haya 0 varones es P(0) = [4! / (0! 4!)] 0.6 0 0.44 = 1·1· 0.44 = 0.44. En efecto, la prob de que haya 0 varones es la prob de que haya 4 mujeres y siendo 0.4 la prob de que cada persona sea mujer, la de que lo sean las 4 es 0.44, como ya vimos en el apartado 5. 2. -La probabilidad de que en la muestra haya 1 varón es P(1) = [4! / (1! 3!)] 0.61 0.43 = 4 x 0.61 x 0.43. Si se toman millones de muestras: la FR de ellas que son V M M M es 0.6 x 0.4 x 0.4 x 0.4 = 0.6 x 0.43 la FR de ellas que son M V M M es 0.4 x 0.6 x 0.4 x 0.4 = 0.6 x 0.43 la FR de ellas que son M M V M es 0.4 x 0.4 x 0.6 x 0.4 = 0.6 x 0.43 la FR de ellas que son M M M V es 0.4 x 0.4 x 0.4 x 0.6 = 0.6 x 0.43 s decir, hay 4 resultados posibles con un V y tres M. La FR de muestras con E un V (en cualquiera de las posiciones) es la suma de esas 4 FR, es decir, 4 x 0.6 x 0.43. -La probabilidad de que en la muestra haya 2 varones es P(2) = [4! / (2! 2!)] 0.6 2 0.4 2 = 6 x 0.62 x 0.42. Si se toman millones de muestras, la FR de ellas con V V M M es 0.6 x 0.6 x 0.4 x 0.4 = 0.62 x 0.42. Y hay 6 tipos de muestras con dos varones: V V M M , V M V M , V M M V , M V V M , M V M V , M M V V La FR de cada uno de estos tipos es 0.62 x 0.42 y la FR de una muestra con dos V ( en cualquier posición) es la suma de esas 6 FR, es decir, 6 x 0.62 x 0.42. En general, para calcular la FR de muestras de N personas en que hay X varones, empezamos por calcular la FR de muestras en que son V las X primeras personas y M las restantes N – X. P (V , V , V …. V, M , M , M , M....M) = 0.6X x 0.4N-X La FR de otras muestras que también tienen X varones pero han salido en distintos lugares es también 0.6X x 0.4N-X y la FR de muestras con X varones en cualesquiera posiciones es 0.6X x 0.4N-X multiplicado por el número de muestras distintas que hay con X varones y N - X mujeres. Ese número es N! / (X! (N-X)! ), que es el que aparece en la fórmula de la Binomial multiplicando a πX (1-π)N-X. Por ejemplo, si de la población con 40% de varones, π = 0.4, tomamos una muestra de N = 8 personas, la prob de que sean V las 3 primeras y M las 5 restantes 19-ApendiceA.indd 328 10/2/10 22:15:48 apéndice A. Más sobre Probabilidad 329 es P (V , V , V , M , M , M , M, M) = 0.43 x 0.65 = 0.004977. Es decir, 4 977 de cada millón de muestras de N = 8 serán V, V, V, M , M , M , M, M. Pero otras muchas muestras tienen también 3 V, aunque en otras posiciones. Muestras diferentes con 3 V hay 8! / (3! 5! ) = 56 y por eso la prob de que una muestra tenga 3 V, en cualquier posición, es 56 x 0.004977 = 0.2787, es decir al hacer MA de N = 8, tienen 3 V 2 787 de cada 10 000 muestras. **Ejercicio A.4: Un multimillonario caprichoso nos propone este juego de azar: Tiramos una moneda bien balanceada (igual proporción de caras que de cruces a la larga) 100 veces. Si salen 100 caras seremos condenados a muerte. Si sale cualquier otra cantidad de caras nos regalan 1 000 millones de dólares (y amor y salud en magnitud semejante). a.¿Qué es lo razonable: aceptar la apuesta o rehusar? ¿Depende la decisión de lo intrépidos que seamos o de un adecuado razonamiento? b.Si en la Tierra hay 5 000 millones de personas. ¿Cuántos planetas habría que reunir como el nuestro para que jugando todos a ese juego, a uno le tocaran las 100 caras? +++ A.6.El valor P con comparaciones múltiples Si la H0 es cierta, en cualquier estudio la prob de que el valor P del test sea P > 0.05 es, por definición, 0.95, es decir que si se repite millones de veces ese estudio, en 95 de cada 100 repeticiones es P > 0.05 y en las otras 5 es P ≤ 0.05. Si para el obtener el Nóbel de Medicina repetimos el estudio con un producto realmente inútil N = 100 veces, como se explica en el apartado 15.14, esperamos que en 5 de ellas sea P ≤ 0.05 por puro azar. Pero en esa serie concreta de 100 repeticiones el número de ellas con P ≤ 0.05 puede ser mayor o menor de 5. Para calcular la prob de que aparezca P < 0.05 en al menos una de esas repeticiones comenzamos calculando la prob de que eso no ocurra en ninguna, es decir, de que en todas ellas sea P > 0,05, que es 0.95 100 = 0.006. Por tanto, la prob de que sea P < 0.05 en una o más de las 100 repeticiones es 1 - 0.006 = 0.994. Es decir, si millones de investigadores hacen el mismo proceso (repetir el estudio 100 veces) solo 6 de cada mil investigadores obtendrán P > 0.05 en las 100 repeticiones y los restantes 994 obtienen P ≤ 0.05 en una o más de las 100 repeticiones. Por tanto, si hacemos una serie de de 100 repeticiones es casi seguro que al menos una de ellas dé P ≤ 0.05. Del mismo modo, la tabla da la prob de tener una o más muestras con P menor que el indicado en la cabecera de cada fila si se hacen tantas repeticiones como dice la cabecera de cada columna. Num. de repeticiones P ≤ 0.05 P ≤ 0.01 P ≤ 0.001 19-ApendiceA.indd 329 20 50 100 200 0.64 0.92 0.994 0.9999 0.02 0.05 0.09 0.18 0.18 0.39 0.63 0.87 10/2/10 22:15:48 330 apéndice A. Más sobre Probabilidad **Ejercicio A.5: Califique cada afirmación de las que aparecen a continuación con una “V” si es verdadera y con una “F” si es falsa, absurda o ininteligible. a.Para la parte “a” del ejercicio A.1 la respuesta adecuada es: “la prob de que Lucía pierda cada una de las veces es 5 / 6”. b.Para la parte “a” del ejercicio A.1 la respuesta adecuada es: “la prob de que Lucía pierda las tres veces es (5 / 6)3 ≈ 0.58”. c.Para la parte “a” del ejercicio A.1 la respuesta adecuada es: “la prob de que Lucía gane las 3 veces es (1 / 6)3 ≈ 0.004”. d.Para la parte “a” del ejercicio A.1 una respuesta adecuada es: “La FR de veces en que sale “5” en las tres tiradas si se repite esa apuesta millones de veces es (1 / 6)3 ≈ 0.004, es decir, si millones niñas jugaran, solo a 4 de cada mil les ocurriría sacar “5” las tres tiradas. Lo cual no permite saber si en este caso particular va a ocurrir o no ese hecho”. e.Para la parte “b” del ejercicio A.1 la respuesta adecuada es: “Es muy improbable que Lucía gane en ese juego”. f.Para la parte “b” del ejercicio A.1 la respuesta adecuada es: “la prob de que Lucía gane en ese juego (1 / 6)4 ≈ 0.0008”. g.Para la parte “b” del ejercicio A.1 una respuesta adecuada es: “La FR de veces que sale “5” en las cuatro tiradas es (1/6)4 ≈ 0.0008, es decir, si millones de niñas juegan, solo 8 de cada 10 000 tendrán “5” las cuatro veces. Lo cual no permite saber si en este caso particular va a ocurrir o no ese hecho”. Lo que sabemos es que si 10 000 niñas jugaran, aproximadamente 8 ganarían y las otras 9 992 perderían. 19-ApendiceA.indd 330 10/2/10 22:15:49 Apéndice B MÁS SOBRE EL VALOR P DEL TEST En los Capítulos 8 y 9 se expone el concepto de test de significación y se explica detalladamente lo que indica y cómo se interpreta el valor P del los tests. Siendo este tema el que más dificultad implica para la mayoría de los investigadores, se explica nuevamente aquí con más ejemplos. El lector que ya lo ha entendido claramente no necesita leer este apéndice, que sin embargo, puede ser muy útil para el que necesite pensar más detenidamente sobre esta cuestión crucial de la Inferencia Estadística. La mayoría de los investigadores no entienden lo que indica ese valor y depositan toda su confianza en una simplificación tan extendida como absurda: la “regla del 5%”: • P ≤ 0.05 implica que lo encontrado en la muestra es extrapolable a la población. • P > 0.05 implica que lo encontrado en la muestra no es extrapolable a población. Si toda regla rígida es inapropiada en el quehacer científico, quizá esta es la más extendida y nefasta de todas. Muchos investigadores la asumen con inquebrantable fe y al analizar los resultados de sus investigaciones sus expectativas se centran obsesivamente en que “la P sea menor de 0.05”. Se aferran a esta pintoresca superstición, desoyendo el sentido común y las muchas voces que continuamente les advierten contra de ella. Por ejemplo, Feinstein (1985) dice: “Adiós “P-menor-del-0.05”, equívoco y traicionero compañero de viaje. Tus efectos colaterales y toxicidad intracerebral son demasiado grandes para compensar cualquier beneficio que pudieras aportar”. (Feinstein A.R. Clinical epidemiology: the architecture of clinical researche. Philadelphia, WB Saunders 1985. Citado por F.L. Redondo. El error en las pruebas de diagnóstico clínico. Díaz de Santos 2002. 52). Moyé (2000) es igualmente claro: “Debemos reconocer que P<0.05 se ha convertido en el estándar, pero ha llegado el momento de decir que eso es malo. Decidir mecánicamente en base al valor de P es una miope renuncia a razonar. Francamente, si usted desea que los valores P sustituyan a su capacidad pensante 331 20-ApendiceB.indd 331 10/2/10 22:16:00 332 apéndice B. MÁS SOBRE EL VALOR P DEL TEST probablemente ha llegado el momento de que usted deje esta actividad. Ya hemos superado el “P<0.05”. Hemos estado rindiéndole pleitesía demasiado tiempo. Ha llegado el momento de revelarse contra la tiranía”. (Moyé. L.A. Statistical Reasoning in Medicine. The intuitive P-Value Pimer. Springer. 2000). A continuación presentamos este tema sin utilizar herramienta matemática, puesto que el tema puede ser explicado, entendido y usado recurriendo únicamente a la lógica común del hombre de la calle. Una exposición más detallada y amplia, también sin herramienta matemática, se realiza en el libro: ¿Qué significa estadísticamente significativo? La falacia del criterio del 5% en la investigación científica Luis Prieto e Inmaculada Herranz Editorial Díaz de Santos. 2005. B.1. Test de Significación en la vida común El tipo de razonamiento propio de los Tests de Significación es muy sencillo. Lo usan en la vida cotidiana constantemente los adultos de cualquier nivel cultural y los niños a partir de los 7 años aproximadamente. Empezaremos poniendo ejemplos de la vida común en los que usamos ese mismo proceso mental y continuaremos mostrando que al elaborar las conclusiones de los trabajos científicos se usa el mismo proceso lógico. Suele decirse que la ciencia avanza planteando hipótesis y haciendo observaciones o experimentos que nos permitan ver si son ciertas o falsas. Pero Popper, entre otros, hizo notar que muy raramente los experimentos permiten confirmar que una hipótesis es cierta. Los resultados experimentales solo permiten una de estas dos cosas: Si son incompatibles con la hipótesis nos llevan a concluir que es falsa, la rechazamos. Si son compatibles con la hipótesis nos llevan a concluir que puede ser cierta, pero no nos aseguran que lo sea, porque esos resultados son también compatibles con otras hipótesis. Ejemplo: Coartadas para un crimen En una señorial mansión se comete un crimen a las 12:00. Bautista, el mayordomo, es uno de los sospechosos, naturalmente. Consideremos la siguiente hipótesis: Bautista es el asesino. Por motivos que luego veremos la llamamos Hipótesis Nula y escribimos “H0”. Ocurre que nadie ha visto cometerse el asesinato pero algunos testigos muy fiables pueden dar información inequívoca sobre la ubicación de Bautista en algún momento preciso. ¿Qué decisión razonable tomaría usted en cada uno de estos casos y por qué? 1.Si Bautista fue visto a las 12:15 en una ciudad a 900 km de la casa concluimos: a) Bautista no es el asesino (Rechazo H0) 20-ApendiceB.indd 332 10/2/10 22:16:00 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 333 b)Bautista puede ser el asesino (sigue siendo sospechoso). Acepto H0 como posible. c) Bautista es el asesino (Afirmo que H0 es cierta) 2. Si Bautista fue visto a las 12:15 en el portal de la mansión concluimos: a) Bautista no es el asesino (Rechazo H0) b)Bautista puede ser el asesino (sigue siendo sospechoso). Acepto H0 como posible. c) Bautista es el asesino (Afirmo que H0 es cierta) 3. Si Bautista fue visto a las 12:01 en la sala contigua a la del crimen concluimos: a) Bautista no es el asesino (Rechazo H0) b)Bautista puede ser el asesino (sigue siendo sospechoso). Acepto H0 como posible. c) Bautista es el asesino (Afirmo que H0 es cierta) Resumamos los razonamientos que llevan a elegir las respuestas 1-a, 2-b y 3-b: 1º.Rechazamos la H0 cuando la información de que disponemos es incompatible con ella, es decir, si fuera cierta la hipótesis sería muy difícil que se diera el hecho que se ha dado. 2º.Cuando el hecho observado es compatible con la hipótesis, decimos que puede ser cierta, pero no afirmamos que lo sea (no afirmamos que Bautista es culpable). Decimos que el dato no lleva a rechazar la hipótesis, no constituye evidencia contra ella. Es decir, hacemos Inferencia en la vida común y en la ciencia formulando una Hipótesis y observando unos Hechos. •Si los hechos son incompatibles o difícilmente compatibles con la hipótesis, rechazamos la hipótesis. •Si los hechos son compatibles con la hipótesis decimos que esta puede ser cierta, pero no lo aseguramos. B.2. Tests de Significación La Inferencia Estadística es el intento de conocer acerca de los parámetros (media, varianza, proporción... de cada variable en la población) a partir de los estadísticos (media, varianza, proporción… de cada variable en una muestra). Como en la vida común, se trata de enfrentar una Hipótesis, que llamaremos Hipótesis Nula y simbolizamos por “H0”, con unos hechos observados. Si los hechos son incompatibles con H0, esta se rechaza y si son compatibles con ella, se acepta como posible. La “H0” consiste en postular que en población un parámetro tiene cierto valor. Los “hechos” son el valor del estadístico encontrado en la muestra que hemos observado. A la idea que motiva la investigación se la llama Hipótesis de Trabajo. Generalmente la Hipótesis de Trabajo no establece un valor para el parámetro que se está investigando. Dice que dicho parámetro es mayor 20-ApendiceB.indd 333 10/2/10 22:16:01 334 apéndice B. MÁS SOBRE EL VALOR P DEL TEST o menor que cierto valor. La H0 sí dice que el parámetro investigado tiene cierto valor. Generalmente dice que no ocurre lo que postula la Hipótesis de Trabajo, que el parámetro investigado no es mayor (o menor) que cierto valor, sino igual a él. Cuando los datos observados son claramente compatibles o claramente incompatibles con la H0 no es necesario calcular el llamado valor P del test. Cuando no está claro si el dato empírico es compatible con la hipótesis, porque no es muy fácil, pero tampoco muy difícil, que se dé ese dato si la hipótesis es cierta, el cálculo del valor P puede ayudar. Ejemplo: En cada uno de estos países, España, Francia, e Inglaterra, en 1980 la FR poblacional de personas consumidores de antidepresivos, CA, era π1980 = 0.50. Para ver si actualmente ha aumentado esa FR tomaremos una muestra en cada país y veremos qué FR de personas son CA. En todos ellos planteamos como hipótesis Nula: πACTUAL= 0.50 Para cada país veamos si es fácil o difícil que aparezca el resultado obtenido siendo cierta la H0, es decir, si en la población son CA el 50%. 1º España: Se toma una muestra de N = 3 y se encuentra que son CA todos los individuos. Es evidente que en muestra tan pequeña pueden salir todos los individuos CA aunque en la población solamente lo sean el 50%. Por ello, este resultado no constituye evidencia contra esa hipótesis. 2º Francia: Se toma una muestra de N = 100 y se encuentra que son CA todos los individuos. Es evidente que en una muestra de ese tamaño es muy difícil que salgan todos los individuos CA si en la población solamente lo son el 50%. Por ello este resultado constituye evidencia muy fuerte contra esa hipótesis. 3º Inglaterra: Se toma una muestra de N = 20 y se encuentra que son CA todos los individuos. Aquí ya no es evidente cuán difícil es que salgan CA los 20 individuos si en la población lo son el 50%. ¿Cómo podemos cuantificar lo difícil que es que salga una muestra como esta si en la población son CA el 50%? Lo más sensato es: ¡¡¡ recurrir a la práctica !!! Crearemos una población donde realmente el 50% de las personas tienen la característica “C”. Sacaremos millones de muestras de N = 20 y contaremos el número de ellas que tienen los 20 individuos con C. Podemos, por ejemplo, poner en una urna 50% de bolas blancas y 50% negras. Extraeremos muchas muestras aleatorias de 20 bolas con reposición y contaremos el número de muestras en que han salido blancas las 20 bolas. Los estadísticos lo han hecho por nosotros y han encontrado que ese hecho (20 bolas blancas) ocurre en una muestra de cada millón. Frecuencia Relativa = 0.000001, es decir, 1 por 1 000 000 20-ApendiceB.indd 334 10/2/10 22:16:01 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 335 Vemos, pues, que el resultado es difícilmente compatible con la hipótesis. Si en una población son blancas el 50% de las bolas es extremadamente difícil que en una muestra de 20 sean blancas las 20. Igualmente, si en una población son CA el 50%, es muy difícil encontrar una muestra con las 20 personas CA. El hecho de que en la muestra de 20 ingleses sean CA todos ellos es muy fuerte evidencia contra la Hipótesis que dice que en la población inglesa actual son CA el 50% de ellos. B.3. Valor P del Test de Significación La Frecuencia Relativa de veces con que aparece el resultado de nuestro estudio cuando es cierta la H0 es lo que se llama Valor P del test. Si esa FR es muy pequeña consideramos el dato difícilmente compatible con la hipótesis y tendemos a rechazarla. Si esa FR es grande decimos que el dato es compatible con la hipótesis y no la rechazamos, pensamos que puede ser cierta, pero no lo aseguramos. En el caso de España, donde en la muestra de 3 personas todas resultaron ser CA, se encuentra que es P = 0.12. Es decir, si en España es πACTUAL= 0.50 y tomamos millones de muestras aleatorias de N = 3 españoles, en 12 de cada 100 muestras ocurre que los 3 españoles son CA. Vemos que no es difícil obtener ese resultado si es cierta la H0, por ello no lo consideramos fuerte evidencia contra ella. En el caso de Francia, donde en la muestra de 100 personas todas resultaron ser CA, se encuentra P = 10-30. Es decir, si en Francia es πACTUAL= 0.50 y tomamos muchas muestras de 100, solo una muestra cada 10-30 tiene los cien individuos CA. Esa FR es despreciable a todos los efectos. (Es millones y millones de veces menor que la prob de que un asteroide grande se estrelle contra la Tierra hoy). Ese resultado es evidencia contundente y prácticamente definitiva contra la H0. La rechazamos y estamos convencidos de que en la población de Francia los CA son más del 50%. Resumiendo: España: Todos CA en muestra de 3 P = 0.12 No fuerte evidencia contra πACT= 0.50 UK: Todos CA en muestra de 20 P = 0.000001 Fortísima evidencia contra πACT= 0.50 Francia: Todos CA en muestra de 100 P = 10-30 Evidencia definitiva contra πACT= 0.50 Nota: Ciertamente, los estadísticos no han tenido que construir esa población de bolas y extraer de ella millones de muestras. Un razonamiento lógico sencillo nos dice con qué frecuencia aparece ese tipo de muestra bajo esa condición. B.4. Valor P de la cola. Valores Esperados bajo la H0 En los ejemplos anteriores analizamos los casos en que todos los individuos de la muestra resultaban ser CA. El resultado muestral era el más extremo posible. Veremos ahora cómo evaluar la compatibilidad de la muestra con la H0 cuando los resultados muestrales no son tan extremos. 20-ApendiceB.indd 335 10/2/10 22:16:01 336 apéndice B. MÁS SOBRE EL VALOR P DEL TEST En Alemania también se quiere hacer un test para ver si la proporción actual de CA es o no mayor de 0.5. Se toma una muestra de N = 100 y en ella aparecen 70 CA. La H0 es: en Alemania πACTUAL= 0.50. Si es cierta, en una muestra de 100 ESPERAMOS, teóricamente, encontrar 50 CA. A esta cantidad se la llama valor ESPERADO bajo la H0 y se suele simbolizar por “E” (E = π·N). En este ejemplo es E = 50. El valor OBSERVADO en la muestra es 70. Cuanto más lejos esté el valor observado del esperado bajo una hipótesis, más evidencia constituye contra ella. Esa evidencia contra la hipótesis se mide por la probabilidad de obtener un valor como el observado o aún más alejado del Esperado, si se hace MA (Muestro Aleatorio) de una población en que se cumple la Hipótesis. En este ejemplo el valor P del test es la prob de encontrar muestras con 70 o más CA si en la población es πACTUAL= 0.50. Se encuentra que es P = 0.00003. Es decir, si lanzar 100 monedas equilibradas se hace millones y millones de veces, solamente en 3 de cada cien mil veces ocurre que sale cara en 70 o más monedas. O lo que es lo mismo, si en Alemania es πACTUAL= 0.50 y tomar 100 alemanes al azar se hace millones de veces, solamente en 3 cada cien mil muestras habrá 70 o más CA. Este resultado es evidencia muy fuerte contra la H0, la rechazamos y estamos convencidos de que en la población los CA son más del 50%. Si en Polonia se plantea la misma H0 y en una muestra de N = 80 polacos aparecen 46 CA, tenemos: ipótesis de Trabajo: En Polonia la FR poblacional actual es mayor de 0.5: H πACTUAL > 0.50 Hipótesis Nula, H0: En Polonia es πACTUAL= 0.50 Valor Esperado bajo la H0: E = 40 Valor Observado: 46 Valor P del Test = P (muestra con 46 o más CA si es πACTUAL= 0.5) = 0.09 Es decir, si en Polonia es πACTUAL= 0.50 y tomar 80 polacos al azar se hace millones de veces, en 9 de cada cien muestras habrá 46 o más CA. No consideramos ese resultado evidencia contra la H0. No la rechazamos y pensamos que en la población de Polonia los CA pueden ser 50%. Para una discusión más detallada de por qué la compatibilidad entre hipótesis y muestra se evalúa mediante la probabilidad de la cola, consultar la bibliografía citada. B.5. Valor P del Test de Significación. Segundo ejemplo Sabemos que en 1970 tenía la boca libre de caries (LC) el 20% de los escolares, π1970 = 0.2. Tras una campaña educativa esperamos que aumente el porcentaje de niños LC. En un primer estudio piloto se explora a N = 5 niños actuales y se encuentra que los 5 son LC. Plantemos la H0: En la población actual, tras la campaña educativa, son LC el 20%, es decir, la campaña educativa no fue efectiva 20-ApendiceB.indd 336 Hipótesis Nula, H0: πACTUAL = 0.2. El hecho: En la muestra de N = 5 se encuentra que son LC el 100% 10/2/10 22:16:01 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 337 Si el “hecho” es “difícilmente compatible” con la hipótesis, la rechazaremos y pensaremos que actualmente el porcentaje poblacional de niños LC es mayor de 20%, es decir, que la campaña educativa ha sido efectiva. Si el hecho es compatible con la H0 diremos que el porcentaje actual de niños LC puede ser 20%, es decir, los datos no “demuestran” que la campaña educativa haya sido efectiva. ¿Cuán difícil es que en la muestra sean los 5 niños LC si en población son el 20%? ¡¡Recurramos a la práctica!! Creemos una población donde el 20% de los individuos tienen la característica, C, sacamos muchas muestras de N = 5 y contamos cuántas de ellas tienen los 5 individuos con C. Para ello se metieron en un bombo de lotería 20% de bolas blancas y 80% negras y se sacaron 10 millones de muestras, de 5 bolas cada una. Estas son las primeras 142 muestras: 1 1 N N N N N 2 N B N N N 3 N N N N N 4 N N B N N 2 N N B N B N N B N N N N B N B N N B N B 3 N N N B B B N N N B N N N B B N N N B B 4 N N N N N N N N N N N N N N N N N N N N 5 N N B N B N N N B N B N N B N B N N B N 6 N N N N B N N N N B N N N N B N N N N B 7 N N N B N N N N N N N N N N N N N B N N 8 N N N N N N N N N N N N B N N N N N N N 9 B B N N N B B N N N B B N N N B B N N N 0 N B N B N N B N B N N B N B N N B N B N 1 N N N B N N N N B N N N N B N N N N B N 2 N B N B B N B N B B N B N B B N B N B B 3 N N B N N N N N N N N N N N N N N N N N 4 N N N N B N N N N B N N N N B N N N N B 5 B B N B N B B N B N B B N B N B B N B N 6 N N N N N N N N N N N N N N N N N N N N 7 N N B N N N N B N N N N B N N N N B N N 8 N B N N N N B B N N N B N N N N B N N N 9 B N N N N B N N N N B N N N N B N N N N 0 N B N N N N B N N N N B N N N N B N N N 1 N N N N N N N N N N N N N N N N N N N N 2 N N B N B N N B N B N N B N B N N B N B 3 N N N B B N N N B B N N N B B N N N B B 4 N N N N N N N N N N N N N N N N N N N N 5 B B N B N B N N B N B N N B N B N N B N 6 N N N N B N B N N B N N N N B N N N N B 7 N N N N N N N N N N N N B N N N N N B N 8 N N N N N N N N N N N N N N N N N N N N 9 B B N N N B B N N N B B N N N B B N N N 0 N B N B N N B N B N N B N B N N B N B N 1 N N N B N N N N B N N N N B N N N N B N 2 N B N B B N B N B B N B N B B N B N B B 3 N N B N N N B N N N N N N N N N N N N N Una breve inspección indica que no hay ninguna muestra con 5 blancas ni tampoco con 4. Ello sugiere que este tipo de muestra ocurre con escasa frecuencia. Sacando 10 millones de muestras se encuentra muy aproximadamente estas proporciones: 0 Blancas 0.328 , 1 Blanca 0.410 , 2 Blancas 0.205 3 Blancas 0.051 , 4 Blancas 0.006 , 5 Blancas 0.0003 Vemos que sólo 3 de cada 10 000 muestras tienen las 5 bolas blancas: P = 0.0003 Es decir, si la campaña educativa no consiguió aumentar la FR de niños LC en población y actualmente sigue siendo 20%, si sacamos muchas muestras de N = 5 niños, solo en 3 de cada 10 000 muestras aparecen los 5 niños LC. Realmente no sabemos si la FR actual de niños LC es 20% o es mayor, pero vemos que si fuera 20% sería muy difícil que en una muestra de 5 todos fueran LC y como en nuestra muestra ha sido así, lo razonable es pensar que el porcentaje actual poblacional es mayor de 20%. Veamos como razonamos si en la muestra piloto de N = 5 aparecen 4 niños LC. Veíamos que al hacer MA de una población en la que hay 20% de niños LC, 60 de cada 10 000 tienen 4 niños LC. Es P(4 o más) = P(4) + P(5) = 0.0060 + 0.0003 = 20-ApendiceB.indd 337 10/2/10 22:16:01 338 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 0.0063. Es decir, si la campaña educativa no consiguió aumentar la FR poblacional de niños LC y actualmente sigue siendo 20%, si sacamos muchas muestras de N = 5 niños, solo en 63 de cada 10 000 muestras aparecen 4 o más niños LC. B.6. El valor “D” del test La siguiente narración ayudará a entender que al interpretar el valor P del test no hay una cifra frontera y es grave error tomar el valor P = 0.05 como frontera sin saber lo que indica. El centinela Abel tenía encomendada la vigilancia del Fuerte a las 5 en punto de la tarde. Ciertos indicios sugieren que quizá abandonó la guardia, incurriendo en grave delito. Al iniciarse el juicio el juez asume que Abel es inocente mientras no se demuestre lo contrario y por ello parte de la hipótesis de no culpabilidad (“hipótesis de culpabilidad nula” = “hipótesis nula” simbolizada por “H0”), que solo rechazará - para dar veredicto de culpabilidad - si se aportan datos que son incompatibles o muy difícilmente compatibles con ella. No hay información sobre dónde estaba Abel a las 5.00, pero los hay muy fiables sobre donde fue visto a las 6.00. Designamos por “D” la distancia, en kilómetros, entre el punto en el que debería estar a las 5.00 y el punto en que fue visto a las 6.00 y en relación a esa distancia intentamos formarnos opinión sobre si podía estar a las 5.00 en su puesto. a)Si es D = 3 000, rechazamos H0, porque, el dato es incompatible con ella. Si estaba en su puesto a las 5.00, no podía estar a las 6.00 a 3 000 km. Por tanto, si fue visto a 3 000 km, es que a las 5.00 no estaba en su puesto. b)Si es D = 30, no rechazamos H0, porque, el dato es compatible con ella. Es obvio que por ese dato no afirmamos que Abel estuviera a las 5.00 en su puesto, solo decimos que el dato observado es compatible con ello, que pudo estar en su puesto. c)Pero si es D = 270, no está claro si ese dato nos lleva a rechazar H0 o más bien pensamos que puede ser cierta. Quizá cogiendo un helicóptero... o quizá un avión.... pero cerca del fuerte no hay pista de aterrizaje.... Y las misma dudas surgen con D = 240 o D = 285. No llevan a rechazar tajantemente H0, por que el dato no es definitivamente incompatible con ella, pero nos hacen dudar de ella tanto más cuanto mayores son. D= 0 50 100 150 No rechazamos H0 200 250 300 350 ... zona de transición gradual 3000 .......5000 Km Rechazamos H 0 Durante muchos siglos este sencillo modo de razonar se aplicaba en todos los juicios por posible abandono del puesto de trabajo. Pero en los años 30 del XX se acumularon en un juzgado de Cambridge gran número de casos en los que D tomaba algún valor intermedio que hacía dudar de H0, pero sin permitir rechazarla definitivamente. Cansado de debatirse en la duda, el Juez Perkins pensaba cuán bueno sería que hubiera una cantidad límite, por ejemplo 250, de 20-ApendiceB.indd 338 10/2/10 22:16:01 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 339 modo que con D > 250 se declarara el dato incompatible con la inocencia y, por tanto, se condenara al acusado, y con D < 250 se concluyera que no se podía rechazar la H0 y por tanto había que seguir investigando. Escribió un artículo comentando ese deseo. Aunque resulte difícil de creer, el 90% de la siguiente generación de jueces se acogieron incondicionalmente a esa cifra, de modo que siempre que era D ≥ 250 condenaban y con D < 250 no condenaban y seguían estudiando el caso. La siguiente generación de jueces mantuvo esa dicotomía, pero para simplificar la situación decidió que con D < 250, al no quedar demostrada la culpabilidad, se declara inocencia, en vez de seguir estudiando el caso. Y las siguientes generaciones hasta el presente siguieron aplicando la dicotomía, pero sin saber que “D” es la distancia entre el lugar que debía custodiar el acusado a cierta hora y el lugar en que fue visto una hora más tarde. Solo saben que se encarga a unos técnicos medir una magnitud llamada “D” y con D ≥ 250 se condena al acusado, mientras que D < 250 se le absuelve. D= 0 50 100 150 200 No abandonó 250 300 350 ... 3000 .......5000 Km Abandonó Cuando se pregunta a los jueces actuales qué indica el valor D responden que no lo saben muy bien, quizás la distancia entre el palacio de justicia y el lugar del crimen, medida en millas marinas o en decibelios. Cuando se les pregunta por qué el valor 250 es decisivo, responden que no lo saben, sus predecesores así se lo enseñaron, parece ser que aprendido, a su vez, de sus predecesores. Y, finalmente, cuando se les invita a asistir a un breve curso para liberarles de esa dicotomía absurda, responden que no tienen conocimientos agrimensores suficientes para entrar en profundidades. B.7. Diálogo socrático sobre la interpretación del valor P El Dr. Milton Perkins está seriamente contrariado porque acaba de recibir un email del editor de una prestigiosa revista rechazando un artículo que había enviado para publicación. Este es el resumen del ulterior diálogo entre el editor y Perkins. Editor: Aunque el tema de su artículo es de máxima actualidad, y los resultados muy interesantes, la publicación no es posible por los graves errores que hay en las conclusiones. Perkins: Pero las conclusiones son claras y nítidas, y no hay en ellas aspectos polémicos. Se estudian 4 nuevos productos posiblemente anticancerígenos (AC) y en las muestras analizadas se encontraron resultados muy sugestivos. De acuerdo con el criterio más aceptado, decidimos considerar significativos los resultados —y considerar que lo encontrado en la muestras ocurre también en la población general— si es P < 0.05. En base a ello se concluye que dos de los productos estudiados son AC (P < 0.05) y otros dos no lo son (P > 0.05). 20-ApendiceB.indd 339 10/2/10 22:16:01 340 apéndice B. MÁS SOBRE EL VALOR P DEL TEST E: Al resumir así las conclusiones de un estudio se cometen al menos dos tipos de errores: 1ºNuestra convicción en que el tipo de efecto encontrado en nuestro estudio ocurre también en la población general crece progresivamente cuanto menor es el valor P del test. No puede reducirse a un “sí o no” en base a un valor arbitrario de P. En particular, el valor de P = 0.05 no tiene ninguna propiedad especial que le erija como frontera natural. Un valor P = 0.06 y un valor P = 0.04 nos dicen prácticamente lo mismo. 2ºEn ningún caso el investigador decide que el tipo de efecto encontrado en su muestra ocurre o no en la población general. Eso lo “decide” la naturaleza. Lo que compete al investigador es tener o no la convicción más o menos fuerte de que ese efecto ocurre también en población. Y la creencia en esa proposición no es un asunto de todo o nada. P: Pero nosotros y la mayoría de los autores hemos estado durante décadas “decidiendo” en base a si el valor P era mayor o menor del 5% y nunca nos han reprochado ese criterio. E: Durante décadas se han hecho mal las cosas y los editores de las revistas científicas tenemos mucha culpa de ello. Sin embargo los buenos especialistas en análisis de datos coinciden en que no se debe usar la simplificación del 5% si no se entiende lo que indica. P: Resulta cuando menos sorprendente que de un día para otro se considere erróneo lo que se había considerado válido durante muchos años. E: En realidad no ha habido cambio. Los expertos nunca dijeron que hay algo especial en el valor 5%. Los investigadores se aferran a ese valor como frontera especial porque eso les proporciona una regla fácil de aplicar mecánicamente sin tener que pensar. P: ¿Entonces no hay un valor P frontera que nos permita decidir si el tipo de efecto encontrado en nuestro estudio ocurre o no ocurre también en la población? E: Recuerde que el investigador no “decide” nada. Lo que hace es “pensar” que hay o no cierto efecto en la población general. Y no hay ningún valor P por debajo del cual pensemos que ocurre una cosa y por encima de él pensemos lo contrario, ni 5%, ni el 1%, ni ningún otro. P: ¿Por qué no se nos dijo antes que estábamos cometiendo estas incorrecciones? E: Continuamente se publican libros, artículos y editoriales recordándolo, pero la mayoría de los investigadores siguen situados en esa receta tan cómoda como perjudicial. No se gana nada con decir que un resultado es o no “estadísticamente significativo” en base a que el valor P del test esté por debajo o por encima del 5%. La barrera del 5%, u otro valor de P, es adecuada cuando se trata de tomar decisiones fácticas. Pero en la mayoría de las situaciones abordadas en la investigación biomédica no hay que tomar una decisión inmediata. Se trata de ajustar el grado de confianza que tenemos en que el tipo de efecto encontrado en nuestro estudio ocurra también en la población general. 20-ApendiceB.indd 340 10/2/10 22:16:01 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 341 P: ¿Y dice usted que ello no es una cuestión de “todo o nada”? E: Ciertamente no. En palabras de Silva y Rozeboon: “....el propósito central de un experimento no es precipitar la toma de decisiones sino propiciar un reajuste en el grado de confianza que uno tiene en la veracidad de cierta hipótesis. La creencia en una proposición no es un asunto de todo o nada; la tarea del científico no es prescribir acciones sino establecer convicciones razonables...” P: Entonces, si un investigador hace un experimento y encuentra cierto efecto en su muestra, ¿No tiene que decidir si ese tipo de efecto ocurre o no en la población general? E: Por supuesto que no. Una cosa es “decidir” que se ejecuta una u otra acción y otra es “tener el convencimiento de” que la naturaleza funciona de cierto modo. En el primer caso se trata de hacer o no hacer algo y eso si que lo decide el interesado. En el segundo caso no se trata de hacer una cosa u otra, sino de pensar cómo funciona la Naturaleza. P: ¿Y cómo influye el valor de P en ese grado de convicción? E: La convicción que tenemos en que el tipo de efecto encontrado en nuestro estudio ocurra también en la población general aumenta gradualmente a medida que disminuye el valor P del test, pero no hay un valor de P que marque un punto de inflexión. P: ¿Podría ilustrar esa diferencia con un ejemplo? E: En el trabajo que usted quiere publicar administraron el producto ”B” a una muestra de 20 ratas de una cepa que hace cáncer espontáneamente en el 90% de los casos. Entre los 20 animales tratados con “B” hicieron cáncer 15, es decir, el 75%. El test da P = 0.04. Entonces usted “decide” que “B” es AC por ser P<0.05. Pero que “B” sea o no sea AC no depende de su decisión, sino de cómo es la naturaleza. Lo que usted puede hacer es “pensar” que “B” es o no AC y ese valor de P = 0.04 no permite decantarse por ninguna de las dos opciones. P: ¿Qué tipo de resultados permiten decantarse a favor de que el producto es AC? E: Cuando el valor P encontrado es extremadamente pequeño. Por ejemplo, en su artículo se reporta que de otras 20 ratas tratadas con “A” solo 8 hicieron cáncer, es decir el 40%. El test da P = 0.0000003. Con un valor tan extremadamente pequeño hay consenso en concluir que “A” es AC. Pero que “A” sea AC no lo decidimos nosotros. Nosotros pensamos que eso es así. P: Bien, con P = 0.04 no podíamos decantarnos ni a favor ni en contra de que el producto sea AC y con P = 0.0000003 sí que nos decantamos a favor de que es AC. ¿Dónde está el límite? ¿A partir de qué valor de P nos decantamos a favor de que el producto es AC? E: NO hay un valor que marque un límite. Es un proceso que varía gradualmente. P: A los investigadores biológicos les resulta muy cómodo que haya un valor que marque la diferencia. E: Sin embargo no lo hay, como ocurre en muchas situaciones de la vida común. P: ¿Puede ponerme ejemplos de ello? 20-ApendiceB.indd 341 10/2/10 22:16:01 342 apéndice B. MÁS SOBRE EL VALOR P DEL TEST E: Hay miles. Todos coincidimos en calificar como “millonario” a personas con mucho dinero, pero no hay una cantidad de dinero que separe al millonario del que no lo es. Todos coincidimos en que una temperatura ambiental de 40º es “muy calurosa”, y que 20º no es “muy caluroso”, pero no hay una temperatura que separe el día “muy caluroso” del que no lo es. **Ejercicio B.1: Téngase en cuenta que si algo es casi seguro, decir que es “posible” es conceptualmente correcto, pero en la vida real ese adjetivo puede ser totalmente engañoso y por tanto inadecuado. Si un niño piensa tirarse de un quinto piso con un paraguas como paracaídas, decirle que es “posible” que se lesione es totalmente inadecuado, pues es casi seguro. Y si un paciente proyecta consumir heroína diariamente durante meses, es totalmente incorrecto decirle que es “posible” que se haga adicto, pues es casi seguro. Por ello, al elaborar las conclusiones de una investigación damos como “falso” el calificativo “posible” cuando el correcto sea “casi seguro”. Para estudiar el posible efecto anticancerígeno (AC) de 4 productos, ‘A’, ‘B’, ‘C’ y ‘D, trabajaremos con una cepa de ratas genéticamente modificada, en la que el 90% desarrolla cáncer espontáneamente el segundo año. Se prueba cada producto en 20 ratas. He aquí los resultados y el valor P del Test para cada uno de los fármacos, así como los Intervalos de Confianza (IC) para el % de cánceres que se obtendría al dar el fármaco a toda la población de ratas: “A” Hacen cáncer 8 ratas 40%, P = 0.000003, IC95%= 19% y 64% “B” Hacen cáncer 15 ratas 75%, P = 0.043, IC95%= 51% y 91% “C” Hacen cáncer 16 ratas 80%, P = 0.133, IC95%= 56% y 94% “D” Hacen cáncer 18 ratas 90%, P = 0.608, IC95%= 69% y 99% A partir de estos resultados, diga si es Verdadera o Falsa cada una de estas afirmaciones AFIRMACIONES ACERCA DEL PRODUCTO “A”: a.Es casi seguro que “A” es AC. b. Es posible que “A” sea AC. c. Es casi seguro que con “A” el % poblacional de cánceres es 40%. d. Es casi seguro que “A” es inútil. e. Los datos son compatibles con que “A” sea inútil. f. Lo razonable es concluir que “A” es inútil. g.Si “A” fuera inútil, solo 3 de cada millón de estudios como este darían 8 o menos cánceres. AFIRMACIONES ACERCA DEL PRODUCTO “B”: a. Es casi seguro que “B” es AC. b. Es posible que “B” sea AC. c. Es casi seguro que con “B” el % poblacional de cánceres es 75%. d. Es casi seguro que “B” es inútil. e. Los datos son compatibles con que “B” sea inútil. 20-ApendiceB.indd 342 10/2/10 22:16:01 apéndice B. MÁS SOBRE EL VALOR P DEL TEST 343 f. Lo razonable es concluir que “B” es inútil. g.Si “B” fuera inútil, 43 de cada mil estudios como este tendrían 15 o menos cánceres. AFIRMACIONES ACERCA DEL PRODUCTO “C”: a. Es casi seguro que “C” es AC. b. Es posible que “C” sea AC. c. Es casi seguro que con “C” el % poblacional de cánceres es 80%. d. Es casi seguro que “C” es inútil. e. Los datos son compatibles con que “C” sea inútil. f. Lo razonable es concluir que “C” es inútil. g.Si “C” fuera inútil, 133 de cada mil estudios como este darían 16 o menos cánceres. AFIRMACIONES ACERCA DEL PRODUCTO “D”: a. Es casi seguro que “D es AC. b. Es posible que “D” sea AC. c. Es casi seguro que con “D” el % poblacional de cánceres es 90%. d. Es casi seguro que “D” es inútil. e. Los datos son compatibles con que “D” sea inútil. f. Lo razonable es concluir que “D” es inútil. g.Si “D” fuera inútil, 608 de cada mil estudios como este darían 18 o menos cánceres. 20-ApendiceB.indd 343 10/2/10 22:16:02 20-ApendiceB.indd 344 10/2/10 22:16:02 Apéndice C CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE MÍNIMOS CUADRADOS En muy distintas situaciones del hacer común y del científico es necesario minimizar o maximizar una cantidad que depende de otras. El reto es encontrar los valores de las otras que proporcionan ese valor mínimo o máximo. Un ejemplo típico es cómo regular los semáforos de una ciudad para minimizar el tiempo que tarda en cruzarse por todas las rutas posibles. Otro ejemplo es la organización de las cadenas de montaje en las fábricas para minimizar el tiempo de producción de cada unidad. Al estudiar la relación entre dos variables cuantitativas construimos la nube de puntos y buscamos la recta que pasa más cerca de ellos en promedio, de modo que sea mínima la suma de los cuadrados de las distancias verticales de cada punto a la recta. Hay que encontrar los valores de “a” y de “b” que hacen mínimo el valor de ∑di2 ≡ ∑(Yi - Yi’) 2 = ∑( Yi - [a + b Xi]) 2. Ello es, en principio, una tarea ingente porque el número de rectas candidatas es infinito, ya que tanto “a” como “b” pueden tomar infinitos valores posibles. Buscar la recta con ∑di2 mínima a base de ir probando con diversos valores de “a” y de “b”, sería interminable. Pero desde el siglo xvii contamos con un recurso genial que permite encontrar esa recta en pocos minutos, como permite el cálculo de máximos o mínimos en muchas otras situaciones: el cálculo de la función derivada. Los padres de este recurso son Newton y Leibniz, independientemente. Ellos forman parte destacada de esa minoría muy reducida que sacó a esta especie de las cavernas y es difícil exagerar la deuda que la humanidad actual tiene con esos gigantes del pensamiento. Veamos con detalle un ejemplo muy sencillo de cálculo de un máximo. Tenemos 80 metros de cuerda para cerrar una parcela de terreno con forma de rectángulo y queremos que tenga la mayor superficie posible. El rectángulo con lado pequeño 10 y lado largo 30, (perímetro = 10 + 30 + 10 + 30 = 80) tiene superficie 10 x 30 = 300. El rectángulo con lado pequeño 15 y lado largo 25, (perímetro = 80) tiene superficie 15 x 25 = 375, mayor que el anterior. El rectángulo con lado pequeño 20 y lado largo 20 tiene superficie 20 x 20 = 400, que es mayor que el 345 21-ApendiceC.indd 345 10/2/10 22:16:15 346 Apéndice C. CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE... anterior y que cualquier otro rectángulo de perímetro 80. Probando con otros valores enseguida vemos que el cuadrado de lado 20, cierra mayor superficie que cualquier otro rectángulo del mismo perímetro. En este ejemplo un breve tanteo nos permitió encontrar la forma del rectángulo que maximiza la superficie. También se puede llegar a esa solución por razonamientos matemáticos sencillos que vemos a continuación porque en la mayoría de las situaciones de interés es imposible encontrar la solución por tanteo y necesitamos el razonamiento. Llamemos A la longitud del lado corto del rectángulo y B a la del largo. Perímetro 80 quiere decir 2(A + B) = 80, es decir, A + B = 40 y por tanto B = 40 - A Buscamos el valor de A que dé máxima superficie: S = A·B = A (40 - A) = 40· A – A 2. 1º. Sin usar derivadas (Nivel de enseñanza media recibida hacia los 14 años) S = 40 A - A2 = - ( A2 - 40 A ) = - ( A2 - 2 · 20 · A ) = - ( A2 - 2 · 20 · A + 202 - 202) = = - ([A2 - 2 · 20 · A + 202] - 202) = - ([A - 20]2 - 202 ) = 202 - [A - 20]2 = 400 - [A - 20]2 La expresión [A - 20] 2 tiene valor positivo cualquiera que sea el valor (positivo) de A, porque es un cuadrado. S toma el máximo valor cunado es [A - 20] = 0, es decir, A = 20. 2º. Usando derivadas (Nivel de último año de enseñanza media) S = 40 A - A2. Calculamos la derivada se S respecto a A: dS / dA = 40 – 2A. Igualamos la derivada a 0: 40 – 2A = 0 40 = 2A A = 20. Con A = 20 la superficie podría ser mínima o máxima. Pero como la segunda derivada es negativa [ d2 S / dA 2 = d (40 – 2A) / dA = -2 ], se trata de un máximo. Vemos que la búsqueda es mucho más breve usando derivadas, pero hacerlo requiere conocimientos básicos que los planes de estudio de enseñanza media se encargan de que el estudiante no adquiera nunca o los deteste y olvide vertiginosamente si alguna vez los tuvo. Unos razonamientos similares, pero un poco más largos, nos permiten encontrar la pendiente - b - y la altura - a - de la recta que hace mínima ∑di2. Al ojear la demostración correspondiente el lector se sentirá atemorizado porque parece contener mucha formulación, pero cada paso es sencillo. Gran parte de los profesionales de las Ciencias de la Salud, Sociales y Económicas sienten rechazo y temor por las matemáticas, generados en los años escolares. Felizmente todos los conceptos fundamentales del AED se pueden entender y usar correctamente sin conocer las demostraciones que los avalan. Por eso este libro prescinde de ellas y se centra en las ideas intuitivas. Solamente en este apéndice se usa un poco de formalismo matemático, ya que es él el que permite calcular la recta de mínimos cuadrados y vale como ejemplo del cálculo de máximos y mínimos en general. 21-ApendiceC.indd 346 11/2/10 13:36:56 Apéndice C. CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE... 347 C.1. Acerca de la naturaleza de las demostraciones matemáticas. El razonamiento matemático no es más que el razonamiento lógico común apoyado por notaciones que ayudan cuando la cadena de relaciones lógicas es larga. Nos ayudará a entender esto el siguiente ejercicio **Ejercicio C.1: Juan y su esposa Ana (que es hija única) tienen una hija que no ha tenido descendencia y un hijo que tiene, a su vez, un único hijo. a.Juan le dice a su hijo “Dale este regalo a la abuela paterna de tu hijo”. ¿Quién es la destinataria? b.Juan le dice a su hijo “Dale este regalo a la hija de la hija de la esposa de mi suegro”. ¿Quién es la destinataria? c.Juan le dice a su hijo “Dale este regalo a la abuela paterna de la hija de la hija del esposo de la abuela materna del hermano de la tía paterna de mi nieto” ¿Quién es la destinataria? En este tercer supuesto no se sabe de inmediato quién es la persona en cuestión. El lector se siente perdido en esa larga cadena de relaciones. Pero cada eslabón de la cadena es una relación muy simple que se entiende perfectamente. Todos sabemos lo que es hijo, tío, abuelo… Para identificar la destinataria del regalo hay que hacer una cuidadosa reflexión que no es “matemática”, sino lógica. Para hacerlo ayuda mucho escribir un esquema con los familiares implicados. Ese esquema es imprescindible si la cadena de familiares es larga. Y hay que ir de atrás hacia delante en la frase que describe el problema. Ese árbol genealógico y la regla de ir de atrás hacia delante son lo equivalente al algebra en la matemática. Madre-Juan Padre-Ana y Madre-Ana Juan Ana Anita Juanito Niño La frase termina refiriéndose al niño. Su tía paterna es Anita. El hermano de ella es Juanito. Su abuela materna es Madre-Ana. Su esposo es Padre-Ana. Su hija es Ana. Su hija es Anita. Su abuela paterna es la Madre de Juan, que es la destinataria del regalo. C.2. Cálculo inmediato de la recta de Mínimos Cuadrados (El sumatorio ∑ abarca a los N valores de la muestra) Se trata se encontrar la recta Y’ = a + b X, es decir los valores de “a” y de “b” con los que los valores calculados Y’ se aproximan lo más posible a los observados Y, de modo que la suma de errores de estimación positivos sea igual a la suma de los errores negativos, es decir, ∑di = 0 y la suma de los errores al cuadrado sea menor que con cualquier otra recta, es decir, hay que minimizar ∑di2 ≡ ∑(Yi - Yi’) 2 = ∑( Yi - [a + bXi] ) 2 Se puede demostrar que en la recta con ∑d 2 mínima es ∑d = 0, es decir, suman igual las distancias Yi - Yi’ positivas que las negativas, la recta deja tan alejados los puntos por encima como por debajo de ella. 21-ApendiceC.indd 347 11/2/10 13:36:56 348 Apéndice C. CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE... A- Sin usar cálculo de derivadas (“Pr” indica prueba, demostración) 1º.Toda recta que dé ∑d = 0 contiene el punto correspondiente a la media de las X’s y la media de las Y’s, es decir, el punto (MY, MX) está en esa recta, es decir, M Y = a + b MX, Pr: 0 = ∑d = ∑(Y - [a + bX] ) = ∑Y - N a - b∑X ∑Y = N a + b∑Xi dividiendo por N: MY = a + b MX. Por tanto, a = MY - b MX Si una recta da ∑d = 0, pasa por el punto (MY, MX) y conociendo b, inmediatamente calculamos la a. 2º.La media de las Y’ calculadas es igual a la media de las Y observadas: MY’ = MY Pr: MY’ = (∑Yi’) / N = ∑[a + bXi] / N = (Na + b∑Xi) / N = a + b MX = MY 3º.Habíamos definido di ≡ (Yi - Yi’). Ahora demostramos que es di = (yi - b xi) Pr: di ≡ Yi-Yi’ = Yi - [a + bXi] = Yi - a - bXi = Yi - (MY - b MX) - bXi] = (Yi-MY) + b (Xi -MX] ≡ yi - bxi 4º. { Recordemos que (A – B) 2 = A2 - 2· A ·B + B2 } ∑d2 = ∑[ y - b x] 2 = ∑[ y2 - 2b xy + b 2 x2] = ∑y2 - 2b ∑xy + b 2 ∑x2 . Sumando y restando (∑xy)2/ ∑x2 : ∑d2 = ∑ y2 - 2b ∑xy + b 2 ∑x2 + (∑xy)2/ ∑x2 - (∑xy)2/ ∑x2 = = ∑ y2 + { b 2 ∑x2 - 2b ∑xy + (∑xy)2/ ∑x2 } - (∑xy)2/ ∑x2 Sacando ∑x2 factor común de la expresión entre corchetes: = ∑ y2 + ∑x2 { b 2 - 2b ∑xy / ∑x2 + (∑xy)2/ (∑x2 )2 } - (∑xy)2/ ∑x2 La expresión entre corchetes es el cuadrado de una diferencia: [b - c]2 = b2 2bc + c2 ∑d2 = ∑ y2 + ∑x2 { b - ∑xy / ∑x2 } 2 - (∑xy)2/ ∑x2 ∑d2 es mínimo cuando la resta entre corchetes es 0, es decir si b = ∑xy / ∑x2, y en ese caso ∑d2 = ∑ y2 - (∑xy)2/ ∑x2. B- Con cálculo elemental de derivadas 1. Para que ∑d2 sea mínimo tiene que ser a = MY - b MX Expresamos ∑d2 en función de los valores de X, de Y, de “a” y “b” ∑d2 ≡ ∑(Yi - Yi’)2 = ∑(Yi2 - 2 YiYi’ + Yi’2) = ∑(Yi2 - 2 Yi[a + bXi] + [a + bXi] 2) = = ∑Yi2 - 2 a ∑Yi - 2 b ∑Yi Xi + N a 2 + 2a b ∑Xi + b2 ∑Xi 2 = = ∑Yi2 - 2 a ∑Yi + N a 2 + 2a b ∑Xi - 2 b ∑Yi Xi + b2 ∑Xi 2 Derivada parcial respecto a “a”: d∑d2 / d a = -2 ∑ Yi + N 2 a + 2 b∑Xi Igualamos la derivada a cero : - 2 ∑ Yi + N 2 a + 2 b ∑Xi = 0 Dividimos por 2 N: - MY + a + b MX = 0 a = MY - b MX 2.MY = a + b MX. Es decir, la recta pasa por MX y MY, el punto correspondiente a la media de los valores X y la media de los valores Y. 21-ApendiceC.indd 348 11/2/10 13:36:56 Apéndice C. CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE... 349 3.Entonces es di = yi - b xi di ≡ Yi-Yi’ = Yi - [a + bXi] = Yi - a - bXi = Yi - (MY - b MX) - bXi = (Yi - MY) - b (Xi - MX) ≡ yi - b xi 4. Entonces es ∑d = 0. ∑d =∑ (yi - b xi) = ∑ yi - b ∑xi) = 0 – b 0 = 0 5. Buscamos “b” para que sea mínimo ∑d2 ∑d2= ∑[ y - b x] 2 = ∑[ y2 - 2b xy + b 2 x2] = ∑ y2 - 2b ∑xy + b 2 ∑x2] Derivada parcial respecto a “b”: d∑d2 / d b = - 2 ∑xy + 2 b ∑x2 Igualamos la derivada a cero: - 2 ∑xy + 2 b ∑x2 = 0 b = ∑xy / ∑x2 C.3.El coeficiente de determinación como porcentaje de la variación de Y “explicada” por la variabilidad de X Supongamos que esta tabla recoge la información al haber medido dos variables cuantitativas en 7 familias: X mide la inteligencia de los padres e Y la de sus hijos: Familia X Y Y’ = 1+ 0.5 X d = Y – Y’ 1ª 2 1 2 -1 2ª 4 4 3 +1 3ª 7 4 4.5 -0.5 4ª 8 6 5 +1 5ª 9 5 5.5 -.5 6ª 12 8 7 +1 7ª 14 7 8 -1 Media = 8 Media = 5 ∑d = 0 Se representa la nube de puntos (cada punto es un par formado por la inteligencia de un padre y la de su hijo) y se busca la recta que mejor se ajusta a esa nube de puntos, la recta de mínimos cuadrados, Y = 1 + 0.5 · X. En la tercera fila de la tabla, después de los datos, aparece el valor de la inteligencia que se estimaría con esa recta para cada uno de los niños a partir de la inteligencia de sus padres. Y en la fila siguiente el error que se comete en cada una de las estimaciones. ∑ x 2 = 106, ∑ y 2 = 32, ∑ x y = 53 a=1 Y = 1 + 0.5b ∑ d2 = 32 – 53 2 / 106 = 5.5 b = Σy2 53 /106 = 0.5 2 2 ∑d / ∑y = 5.5 / 32 = 0.172 Coef. de Determinación: r2 = 1- 0.172 = 0.828 No todos los hijos tienen la misma inteligencia, sino que hay diferencias entre ellos. Esas diferencias se resumen mediante la suma de cuadrados de la Y, Σ(Yi MY)2 ≡ = 32. Parte de esas diferencias, pero no todas, se deben a que unos son hijos 21-ApendiceC.indd 349 11/2/10 13:36:56 350 Apéndice C. CÁLCULO DE mÁXIMOS Y MÍNIMOS RECTA DE REGRESIÓN DE... de padres más inteligentes que otros. Queremos ver en qué medida la inteligencia de los hijos depende de la de los padres. Si la inteligencia de los hijos dependiera solamente de la que tienen sus padres, conociendo la inteligencia del padre sabríamos cuál es la del hijo. Es decir, los valores Y de la muestra dependerían exactamente de los X a través de la recta de regresión. En ese caso cada d = Y – Y’ sería cero y por tanto sería cero la ∑d2. Pero los valores observados de Y no coinciden exactamente con los calculados por la recta. El valor de las d = Y – Y’ expresa esa diferencia en cada caso y la ∑d2 es un modo de expresar la parte de Σy2 no asociada a las diferencias entre los padres. Las diferencias entre los valores observados y los predichos por la recta, resumidas por la ∑d2, representan la parte de inteligencia de los hijos no predecible a partir de la de los padres. Y, por tanto, el Coeficiente de Determinación representa la parte de la variabilidad explicada por la inteligencia de los padres. 21-ApendiceC.indd 350 11/2/10 13:36:56 Tablas estadísticas 22-Tablas.indd 351 10/2/10 22:16:25 22-Tablas.indd 352 10/2/10 22:16:25 tablas Estadísticas 353 X 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 π 0.01 .9801 .0198 .0001 .9703 .0294 .0003 .0000 .9606 .0388 .0006 .0000 .0000 .9510 .0480 .0010 .0000 .0000 .0000 .9415 .0571 .0014 .0000 .0000 .0000 .0000 .9321 .0659 .0020 .0000 .0000 .0000 .0000 .0000 .9227 .0746 .0026 .0001 .0000 .0000 .0000 .0000 .0000 .9135 .0830 .0034 .0001 .0000 .0000 .0000 .0000 .0000 .0000 .9044 .0914 .0042 .0001 .0000 .0000 .0000 .0000 .0000 .0000 .0000 0.05 .9025 .0950 .0025 .8574 .1354 .0071 .0001 .8145 .1715 .0135 .0005 .0000 .7738 .2036 .0214 .0011 .0000 .0000 .7351 .2321 .0305 .0021 .0001 .0000 .0000 .6983 .2573 .0406 .0036 .0002 .0000 .0000 .0000 .6634 .2793 .0515 .0054 .0004 .0000 .0000 .0000 .0000 .6302 .2985 .0629 .0077 .0006 .0000 .0000 .0000 .0000 .0000 .5987 .3151 .0746 .0105 .0010 .0001 .0000 .0000 .0000 .0000 .0000 0.10 .8100 .1800 .0100 .7290 .2430 .0270 .0010 .6561 .2916 .0486 .0036 .0001 .5905 .3280 .0729 .0081 .0004 .0000 .5314 .3543 .0984 .0146 .0012 .0001 .0000 .4783 .3720 .1240 .0230 .0026 .0002 .0000 .0000 .4305 .3826 .1488 .0331 .0046 .0004 .0000 .0000 .0000 .3874 .3874 .1722 .0446 .0074 .0008 .0001 .0000 .0000 .0000 .3487 .3874 .1937 .0574 .0112 .0015 .0001 .0000 .0000 .0000 .0000 ) N 2 ) Distribución Binomial 0.15 .7225 .2550 .0225 .6141 .3251 .0574 .0034 .5220 .3685 .0975 .0115 .0005 .4437 .3915 .1382 .0244 .0022 .0001 .3771 .3993 .1762 .0415 .0055 .0004 .0000 .3206 .3960 .2097 .0617 .0109 .0012 .0001 .0000 .2725 .3847 .2376 .0839 .0185 .0026 .0002 .0000 .0000 .2316 .3679 .2597 .1069 .0283 .0050 .0006 .0000 .0000 .0000 .1969 .3474 .2759 .1298 .0401 .0085 .0012 .0001 .0000 .0000 .0000 0.20 .6400 .3200 .0400 .5120 .3840 .0960 .0080 .4096 .4096 .1636 .0256 .0016 .3277 .4096 .2048 .0512 .0064 .0003 .2621 .3932 .2458 .0819 .0154 .0015 .0001 .2097 .3670 .2753 .1147 .0287 .0043 .0004 .0000 .1678 .3355 .2936 .1468 .0459 .0092 .0011 .0001 .0000 .1342 .3020 .3020 .1762 .0661 .0165 .0028 .0003 .0000 .0000 .1074 .2684 .3020 .2013 .0881 .0264 .0055 .0008 .0001 .0000 .0000 0.25 .5625 .3750 .0625 .4219 .4219 .1406 .0156 .3164 .4219 .2109 .0469 .0039 .2373 .3855 .2637 .0879 .0146 .0010 .1780 .3560 .2966 .1318 .0330 .0044 .0002 .1335 .3115 .3115 .1730 .0577 .0115 .0013 .0001 .1001 .2670 .3115 .2076 .0865 .0231 .0038 .0004 .0000 .0751 .2253 .3003 .2336 .1168 .0389 .0087 .0012 .0001 .0000 .0563 .1877 .2816 .2503 .1460 .0584 .0162 .0031 .0004 .0000 .0000 0.30 .4900 .4200 .0900 .3430 .4410 .1890 .0270 .2401 .4116 .2646 .0756 .0081 .1681 .3602 .3087 .1323 .0284 .0024 .1176 .3025 .3241 .1852 .0595 .0102 .0007 .0824 .2471 .3177 .2269 .0972 .0250 .0036 .0002 .0576 .1977 .2965 .2541 .1361 .0467 .0100 .0012 .0001 .0404 .1556 .2688 .2668 .1715 .0735 .0210 .0039 .0004 .0000 .0282 .1211 .2335 .2668 .2001 .1029 .0368 .0090 .0014 .0001 .0000 0.35 .4225 .4550 .1225 .2746 .4436 .2389 .0429 .1785 .3845 .3105 .1115 .0150 .1160 .3124 .3364 .1811 .0488 .0053 .0754 .2437 .3280 .2355 .0951 .0205 .0018 .0490 .1848 .2985 .2679 .1442 .0466 .0084 .0006 .0319 .1373 .2587 .2786 .1875 .0808 .0217 .0033 .0002 .0207 .1004 .2162 .2716 .2194 .1181 .0424 .0098 .0013 .0001 .0135 .0725 .1757 .2522 .2377 .1536 .0689 .0212 .0043 .0005 .0000 π π 0.40 .3600 .4800 .1600 .2160 .4320 .2880 .0640 .1296 .3456 .3456 .1536 .0256 .0778 .2592 .3456 .2304 .0768 .0102 .0467 .1866 .3110 .2765 .1382 .0369 .0041 .0280 .1306 .2613 .2903 .1935 .0774 .0172 .0016 .0168 .0896 .2090 .2787 .2322 .1239 .0413 .0079 .0007 .0101 .0605 .1612 .2508 .2508 .1672 .0743 .0212 .0035 .0003 .0060 .0403 .1209 .2150 .2508 .2007 .1115 .0425 .0106 .0016 .0001 0.45 .3025 .4950 .2025 .1664 .4084 .3341 .0911 .0915 .2995 .3675 .2005 .0410 .0503 .2059 .3369 .2757 .1128 .0185 .0277 .1359 .2780 .3032 .1861 .0609 .0083 .0152 .0872 .2140 .2918 .2388 .1172 .0320 .0037 .0084 .0548 .1569 .2568 .2627 .1719 .0703 .0164 .0017 .0046 .0339 .1110 .2119 .2600 .2128 .1160 .0407 .0083 .0008 .0025 .0207 .0763 .1665 .2384 .2340 .1596 .0746 .0229 .0042 .0003 0.50 .2500 .5000 .2500 .1250 .3750 .3750 .1250 .0625 .2500 .3750 .2500 .0625 .0312 .1562 .3125 .3125 .1562 .0312 .0156 .0938 .2344 .3125 .2344 .0938 .0156 .0078 .0574 .1641 .2734 .2734 .1641 .0547 .0078 .0039 .0312 .1094 .2188 .2734 .2188 .1094 .0312 .0039 .0020 .0176 .0703 .1641 .2461 .2461 .1641 .0703 .0176 .0020 .0010 .0098 .0439 .1172 .2051 .2461 .2051 .1172 .0439 .0098 .0010 Para cada valor de n (primera columna) y de π (primera fila), el interior de la tabla da la probabilidad de que haya X individuos “positivos” en una muestra de tamaño n tomada de una población con proporción de positivos igual a π. Ejemplo: si de una población con 20% de enfermos (π = 0.2) se toma una muestra de n = 8, la probabilidad de que en ella haya 3 enfermos es 0.1468 y P (7 enfermos) = 0.0001 22-Tablas.indd 353 10/2/10 22:16:26 354 tablas Estadísticas Distribución de Poisson λ↓ x→ 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 0 1 2 3 4 5 6 .9048 .8187 .7408 .6703 .6065 .0905 .1637 .2222 .2681 .3033 .0045 .0164 .0333 .0536 .0758 .0002 .0011 .0033 .0072 .0126 .0000 .0001 .0002 .0007 .0016 .0000 .0000 .0001 .0002 .0000 .0000 .5488 .4966 .4493 .4066 .3679 .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353 .1108 .0907 .0743 .0608 .0498 .0408 .0334 .0273 .0224 .0183 5.0 6.0 7.0 8.0 9.0 10.0 .0067 .0025 .0009 .0003 .0001 .0000 3.2 3.4 3.6 3.8 4.0 λ↓ x→ 5.0 6.0 7.0 8.0 9.0 10.0 P( X = x) = e − λ .3293 .3476 .3595 .3659 .3679 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707 .2438 .2177 .1931 .1703 .1494 .1304 .1135 .0984 .0850 .0733 .0988 .1217 .1438 .1647 .1839 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707 .2681 .2613 .2510 .2384 .2240 .2087 .1929 .1771 .1615 .1465 .0198 .0284 .0383 .0494 .0613 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804 .1966 .2090 .2176 .2225 .2240 .2226 .2186 .2125 .2046 .1954 .0030 .0050 .0077 .0111 .0153 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902 .1082 .1254 .1414 .1557 .1680 .1781 .1858 .1912 .1944 .1954 .0004 .0007 .0012 .0020 .0031 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361 .0476 .0602 .0735 .0872 .1008 .1140 .1264 .1377 .1477 .1563 .0000 .0001 .0002 .0003 .0005 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120 .0174 .0241 .0319 .0407 .0504 .0608 .0716 .0826 .0936 .1042 7 .0000 .0000 .0000 .0001 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034 .0055 .0083 .0118 .0163 .0216 .0278 .0348 .0425 .0508 .0595 8 9 λx x! 10 11 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009 .0015 .0025 .0038 .0057 .0081 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0004 .0007 .0011 .0018 .0027 .0000 .0000 .0000 .0000 .0001 .0002 .0003 .0005 .0008 .0000 .0000 .0001 .0001 .0002 .0111 .0148 .0191 .0241 .0298 .0040 .0056 .0076 .0102 .0132 .0013 .0019 .0028 .0039 .0053 .0004 .0006 .0009 .0013 .0019 .0363 .0688 .1014 .1241 .1318 .1251 .0181 .0413 .0710 .0993 .1186 .1251 .0082 .0225 .0452 .0722 .0970 .1137 .0337 .0149 .0064 .0027 .0011 .0005 .0842 .0446 .0223 .0107 .0050 .0023 .1404 .0892 .0521 .0286 .0150 .0076 .1755 .1339 .0912 .0573 .0337 .0189 .1755 .1606 .1277 .0916 .0607 .0378 .1462 .1606 .1490 .1221 .0911 .0631 .1044 .1377 .1490 .1396 .1171 .0901 .0653 .1033 .1304 .1396 .1318 .1126 12 13 14 15 16 17 18 19 20 21 22 23 .0001 .0002 .0003 .0004 .0006 .0000 .0000 .0000 .0001 .0002 .0005 .0022 .0071 .0169 .0324 .0521 .0002 .0009 .0033 .0090 .0194 .0347 .0003 .0014 .0045 .0109 .0217 .0001 .0006 .0021 .0058 .0128 .0002 .0009 .0029 .0071 .0001 .0004 .0014 .0037 .0002 .0006 .0019 .0001 .0003 .0009 .0001 .0004 .0002 .0034 .0113 .0264 .0481 .0728 .0948 .0013 .0052 .0142 .0296 .0504 .0729 Para cada valor λ (primera columna), el interior de la tabla da la probabilidad del valor “x” (primera fila) en una Distribución de Poisson de parámetro λ, P(X=x). Ejemplo, si de una población con 0.3% (π = 0.003) de enfermos se toma una muestra de n = 2 000 el valor esperado es λ = 0.003 · 2 000 = 0.1606, es decir, en aproximadamente 16 de cada 100 muestras habrá 6 enfermos. Y la probabilidad de que en ella haya justamente 2 enfermos es P (X = 2 | λ = 6) = 0.0446. Y la probabilidad de que haya más de 13 enfermos es P (X ≥ 14 | λ = 6) = 0.0035. (Los valores en blanco indican que la probabilidad es menor de 0.0001) . 22-Tablas.indd 354 10/2/10 22:16:26 tablas Estadísticas 355 Distribución Normal Z Área más allá de Z .5000 .4920 .4840 .4761 .4681 Z 0.80 0.82 0.84 0.86 0.88 Área más allá de Z .2119 .2061 .2005 .1949 .1894 Z 1.60 1.62 1.64 1.66 1.68 Área más allá de Z .0548 .0526 .0505 .0485 .0465 Z 2.40 2.42 2.44 2.46 2.48 Área más allá de Z 0.10 0.12 0.14 0.16 0.18 .4602 .4522 .4443 .4364 .4286 0.90 0.92 0.94 0.96 0.98 .1841 .1788 .1736 .1685 .1635 1.70 1.72 1.74 1.76 1.78 .0446 .0427 .0409 .0392 .0375 2.50 2.52 2.54 2.56 2.58 .0062 .0059 .0055 .0052 .0049 0.20 0.22 0.24 0.26 0.28 .4207 .4129 .4052 .3974 .3897 1.00 1.02 1.04 1.06 1.08 .1587 .1539 .1492 .1446 .1401 1.80 1.82 1.84 1.86 1.88 .0359 .0344 .0329 .0314 .0301 2.60 2.62 2.64 2.66 2.68 .0047 .0044 .0041 .0039 .0037 0.30 0.32 0.34 0.36 0.38 .3821 .3745 .3669 .3594 .3520 1.10 1.12 1.14 1.16 1.18 .1357 .1314 .1271 .1230 .1190 1.90 1.92 1.94 1.96 1.98 .0287 .0274 .0262 .0250 .0239 2.70 2.72 2.74 2.76 2.78 .0035 .0033 .0031 .0029 .0027 0.40 0.42 0.44 0.46 0.48 .3446 .3372 .3300 .3228 .3156 1.20 1.22 1.24 1.26 1.28 .1151 .1112 .1075 .1038 .1003 2.00 2.02 2.04 2.06 2.08 .0228 .0217 .0207 .0197 .0188 2.80 2.82 2.84 2.86 2.88 .0026 .0024 .0023 .0021 .0020 0.50 0.52 0.54 0.56 0.58 .3085 .3015 .2946 .2877 .2810 1.30 1.32 1.34 1.36 1.38 .0968 .0934 .0901 .0869 .0838 2.10 2.12 2.14 2.16 2.18 .0179 .0170 .0162 .0154 .0146 2.90 2.92 2.94 2.96 2.98 .0019 .0018 .0016 .0015 .0014 0.60 0.62 0.64 0.66 0.68 .2743 .2676 .2611 .2546 .2483 1.40 1.42 1.44 1.46 1.48 .0808 .0778 .0749 .0721 .0694 2.20 2.22 2.24 2.26 2.28 .0139 .0132 .0125 .0119 .0113 3.00 3.10 3.20 3.30 3.40 .0013 .0010 .0007 .0005 .0003 0.70 0.72 0.74 0.76 0.78 .2420 .2358 .2296 .2236 .2177 1.50 1.52 1.54 1.56 1.58 .0668 .0643 .0618 .0594 .0571 2.30 2.32 2.34 2.36 2.38 .0107 .0102 .0096 .0091 .0087 3.50 3.70 3.90 4.00 5.00 6.00 .0002 .0001 .00005 .00003 3·10-7 1·10-11 0.00 0.02 0.04 0.06 0.08 .0082 .0078 .0073 .0069 .0066 Para cada uno de los valores Z (1ª columna), la 2ª columna da la probabilidad de un valor igual o superior a él en una Distribución Normal Estandarizada, N(0,1). Es el área sombreada en el gráfico. Ejemplo: en una Normal con Media μ = 200 y Desviación estándar σ = 10, la proporción de casos con valor mayor de 215 es P (X > 215) = P (Z >1.5) = 0.0668 y la proporción de casos con X mayor de 190 es P (X > 190) = P (Z > -1) = 0.5 + 0.1587 = 0.6587. En una Normal con Media μ = 80 y Desviación estándar σ = 5, la proporción de casos con valor menor de 65 es P (X < 65) = P (Z < -3) = P (Z > 3) = 0.0013. Y la proporción de casos con valor entre 70 y 85 es P (70 < X < 85) = P (-2 < Z < 1) = (0.4772 + 0.3413) = 0.8185 22-Tablas.indd 355 10/2/10 22:16:26 356 tablas Estadísticas Distribución t de Student BIL UNI 0.30 0.15 0.20 0.10 0.10 0.05 0.05 0.025 0.02 0.010 0.01 0.005 0.001 0.0005 gl 1 ↓ 2 3 4 5 1.963 1.386 1.250 1.190 1.156 3.078 1.886 1.638 1.533 1.476 6.314 2.920 2.353 2.132 2.015 12.706 4.303 3.182 2.776 2.571 31.821 6.965 4.541 3.747 3.365 63.657 9.925 5.841 4.604 4.032 636.619 31.598 12.941 8.610 6.859 6 7 8 9 10 1.134 1.119 1.108 1.100 1.093 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 5.959 5.405 5.041 4.781 4.587 11 12 13 14 15 1.088 1.083 1.079 1.076 1.074 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.618 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 4.437 4.318 4.221 4.140 4.073 16 17 18 19 20 1.071 1.069 1.067 1.066 1.064 1.337 1.333 1.330 1.328 1.325 1.746 1.740 1.734 1.729 1.725 2.120 2.110 2.101 2.093 2.086 2.583 2.567 2.552 2.539 2.528 2.921 2.898 2.878 2.861 2.845 4.015 3.965 3.922 3.883 3.850 21 22 23 24 25 1.063 1.061 1.060 1.059 1.058 1.323 1.321 1.319 1.318 1.316 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.518 2.508 2.500 2.492 2.485 2.831 2.819 2.807 2.797 2.787 3.819 3.792 3.767 3.745 3.725 26 27 28 29 30 1.058 1.057 1.056 1.055 1.055 1.315 1.314 1.313 1.311 1.310 1.706 1.703 1.701 1.699 1.697 2.056 2.052 2.048 2.045 2.042 2.479 2.473 2.467 2.462 2.457 2.779 2.771 2.763 2.756 2.750 3.707 3.690 3.674 3.659 3.646 40 50 60 80 100 ∞ 1.050 1.047 1.046 1.043 1.042 1.036 1.303 1.299 1.296 1.292 1.290 1.282 1.684 1.676 1.671 1.664 1.660 1.645 2.021 2.009 2.000 1.990 1.984 1.960 2.423 2.403 2.390 2.374 2.364 2.326 2.704 2.678 2.660 2.639 2.626 2.576 3.551 3.497 3.460 3.417 3.391 3.291 Cada fila da los datos para la Distribución t-Student con los grados de libertad, gl, indicados en la primera columna. Todas las distribuciones t-Student tienen media cero y son simétricas. –La distribución con, por ejemplo, gl = 2, tiene el 0.15 de los valores por encima de 1.386 y otro 0.15 por debajo de -1.386, de modo que deja 30% en la dos colas. –La distribución con, por ejemplo, gl = 15, tiene el 0.005 de los valores por encima de 2.947 y otro 0.005% por debajo de -2.947, de modo que deja 0.01 en la dos colas. –La distribución con, por ejemplo, gl = 40, tiene el 0.01 de los valores por encima de 2.423 y otro 0.01 por debajo de -2.423, de modo que deja 0.02 en la dos colas. –Si en un test se obtiene, por ejemplo, t-Student = 3.3 con 16 gl, vemos que 3,3 está entre 2.921 y 3.819, por lo que es PUNIL < 0.005 –Si en un test se obtiene, por ejemplo, t-Student = 1.2 con 29 gl, vemos que 1.2 está entre 1.055 y 1.311, por lo que es PUNIL > 0.10 22-Tablas.indd 356 10/2/10 22:16:26 tablas Estadísticas 357 Distribución F de Snedecor alfa = 0.05 alfa = 0.01 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22-Tablas.indd 357 1 2 3 4 Grados de libertad del numerador 5 6 7 8 9 10 20 60 100 10000 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 248,02 252,20 253,04 254,30 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6208,7 6313,0 6333,9 6365,6 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,45 19,48 19,49 19,50 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,45 99,48 99,49 99,50 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 26,69 26,32 26,24 26,13 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,02 13,65 13,58 13,46 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,55 9,20 9,13 9,02 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 12,25 9,55 10,13 7,71 6,61 5,99 5,59 5,32 11,26 5,12 10,56 4,96 10,04 4,84 9,65 4,75 9,33 4,67 9,07 4,60 8,86 4,54 8,68 4,49 8,53 4,45 8,40 4,41 8,29 4,38 8,18 4,35 8,10 9,55 6,94 5,79 5,14 4,74 4,46 8,65 4,26 8,02 4,10 7,56 3,98 7,21 3,89 6,93 3,81 6,70 3,74 6,51 3,68 6,36 3,63 6,23 3,59 6,11 3,55 6,01 3,52 5,93 3,49 5,85 9,28 6,59 5,41 4,76 4,35 8,45 4,07 7,59 3,86 6,99 3,71 6,55 3,59 6,22 3,49 5,95 3,41 5,74 3,34 5,56 3,29 5,42 3,24 5,29 3,20 5,19 3,16 5,09 3,13 5,01 3,10 4,94 9,12 6,39 5,19 4,53 4,12 7,85 3,84 7,01 3,63 6,42 3,48 5,99 3,36 9,01 6,26 5,05 4,39 3,97 7,46 3,69 6,63 3,48 6,06 3,33 5,64 3,20 5,67 5,32 5,41 5,06 3,26 3,18 5,21 3,11 5,04 3,06 4,89 3,01 4,77 2,96 4,67 2,93 4,58 2,90 4,50 2,87 4,43 3,11 3,03 4,86 2,96 4,69 2,90 4,56 2,85 4,44 2,81 4,34 2,77 4,25 2,74 4,17 2,71 4,10 8,94 6,16 4,95 4,28 3,87 7,19 3,58 6,37 3,37 5,80 3,22 5,39 3,09 5,07 3,00 4,82 2,92 4,62 2,85 4,46 2,79 4,32 2,74 4,20 2,70 4,10 2,66 4,01 2,63 3,94 2,60 3,87 8,89 6,09 4,88 4,21 3,79 6,99 3,50 6,18 3,29 5,61 3,14 5,20 3,01 4,89 2,91 4,64 2,83 4,44 2,76 4,28 2,71 4,14 2,66 4,03 2,61 3,93 2,58 3,84 2,54 3,77 2,51 3,70 8,85 6,04 4,82 4,15 3,73 6,84 3,44 6,03 3,23 5,47 3,07 5,06 2,95 4,74 2,85 4,50 2,77 4,30 2,70 4,14 2,64 4,00 2,59 3,89 2,55 3,79 2,51 3,71 2,48 3,63 2,45 3,56 8,81 6,00 4,77 4,10 3,68 6,72 3,39 5,91 3,18 5,35 3,02 4,94 2,90 4,63 2,80 4,39 2,71 4,19 2,65 4,03 2,59 3,89 2,54 3,78 2,49 3,68 2,46 3,60 2,42 3,52 2,39 3,46 8,79 5,96 4,74 4,06 3,64 6,62 3,35 5,81 3,14 5,26 2,98 4,85 2,85 4,54 2,75 4,30 2,67 4,10 2,60 3,94 2,54 3,80 2,49 3,69 2,45 3,59 2,41 3,51 2,38 3,43 2,35 3,37 8,66 5,80 4,56 3,87 7,40 3,44 6,16 3,15 5,36 2,94 4,81 2,77 4,41 2,65 4,10 2,54 3,86 2,46 3,66 2,39 3,51 2,33 8,57 5,69 4,43 3,74 7,06 3,30 5,82 3,01 5,03 2,79 4,48 2,62 4,08 2,49 3,78 2,38 2,19 2,16 3,00 2,12 2,94 3,27 5,75 2,97 4,96 2,76 4,41 2,59 4,01 2,46 3,71 2,35 3,67 6,88 3,23 5,65 2,93 4,86 2,71 4,31 2,54 3,91 2,41 3,60 2,30 3,34 3,27 3,17 2,30 2,22 3,18 2,16 2,93 3,08 3,71 6,99 4,37 3,36 3,26 2,23 4,41 5,63 3,47 3,05 3,16 5,66 8,53 3,54 3,37 2,28 8,55 2,11 2,06 2,83 2,02 2,75 1,98 2,67 1,95 2,61 2,26 2,19 3,11 2,12 2,98 2,07 2,86 2,02 2,76 1,98 2,68 1,94 2,60 1,91 2,54 2,21 2,13 3,01 2,07 2,87 2,01 2,75 1,96 2,65 1,92 2,57 1,88 2,49 1,84 2,42 10/2/10 22:16:26 358 tablas Estadísticas Distribución F de Snedecor (continuación) alfa = 0.05 alfa = 0.01 1 2 3 4 5 6 7 8 9 10 20 60 100 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,10 1,92 1,88 8,02 22 4,30 7,95 23 4,28 7,88 24 4,26 7,82 25 4,24 7,77 26 4,23 7,72 27 4,21 7,68 28 4,20 7,64 29 4,18 7,60 30 4,17 7,56 40 4,08 7,31 50 100 4,03 3,40 5,61 3,39 5,57 3,37 5,53 3,35 5,49 3,34 5,45 3,33 5,42 3,32 5,39 3,23 5,18 3,18 3,03 4,76 3,01 4,72 2,99 4,68 2,98 2,82 4,31 2,80 4,26 2,78 4,22 2,76 4,18 2,74 4,64 4,14 2,96 2,73 4,60 2,95 4,57 2,93 4,54 2,92 4,51 2,84 4,31 2,79 4,11 2,71 4,07 2,70 4,04 2,69 4,02 2,61 3,83 2,56 4,04 2,66 3,99 2,64 3,94 2,62 3,90 2,60 3,85 2,59 3,82 2,57 3,78 2,56 3,75 2,55 3,73 2,53 3,70 2,45 3,51 2,40 3,81 2,55 3,76 2,53 3,71 2,51 3,67 2,49 3,63 2,47 3,59 2,46 3,56 2,45 3,53 2,43 3,50 2,42 3,47 2,34 3,29 2,29 3,64 2,46 3,59 2,44 3,54 2,42 3,50 2,40 3,46 2,39 3,42 2,37 3,39 2,36 3,36 2,35 3,33 2,33 3,30 2,25 3,12 2,20 3,51 2,40 3,45 2,37 3,41 2,36 3,36 2,34 3,32 2,32 3,29 2,31 3,26 2,29 3,23 2,28 3,20 2,27 3,17 2,18 2,99 2,13 3,40 2,34 3,35 2,32 3,30 2,30 3,26 2,28 3,22 2,27 3,18 2,25 3,15 2,24 3,12 2,22 3,09 2,21 3,07 2,12 2,89 2,07 3,31 2,30 3,26 2,27 3,21 2,25 3,17 2,24 3,13 2,22 3,09 2,20 3,06 2,19 3,03 2,18 3,00 2,16 2,98 2,08 2,80 2,03 2,88 2,07 2,83 2,05 2,78 2,03 2,74 2,01 2,70 1,99 2,66 1,97 2,63 1,96 2,60 1,94 2,57 1,93 2,55 1,84 2,37 1,78 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,27 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,68 3,86 3,85 3,85 6,65 10000 3,42 5,66 3,05 4,82 4,37 4,20 6,66 2000 3,44 5,72 4,87 5,06 6,69 1000 5,78 7,17 6,90 500 Grados de libertad del numerador 3,84 6,64 4,82 3,01 4,65 3,00 4,63 3,00 4,62 3,00 4,61 3,98 2,62 3,82 2,61 3,80 2,61 3,79 2,61 3,78 3,51 2,39 3,36 2,38 3,34 2,38 3,33 2,37 3,32 3,21 2,23 3,05 2,22 3,04 2,22 3,03 2,21 3,02 2,99 2,12 2,84 2,11 2,82 2,10 2,81 2,82 2,03 2,68 2,02 2,66 2,01 2,65 2,69 1,96 2,55 1,95 2,53 1,94 2,52 2,59 1,90 2,44 1,89 2,43 1,88 2,42 2,50 1,85 2,36 1,84 2,34 1,84 2,33 2,07 1,59 1,92 1,58 1,90 1,58 1,89 2,55 1,89 2,50 1,86 2,45 1,84 2,40 1,82 2,36 1,80 2,33 1,79 2,29 1,77 2,26 1,75 2,23 1,74 2,21 1,64 2,02 1,58 1,91 1,45 1,69 1,35 1,52 1,33 1,50 1,32 1,48 2,48 1,85 2,42 1,82 2,37 1,80 2,33 1,78 2,29 1,76 2,25 1,74 2,22 1,73 2,19 1,71 2,16 1,70 2,13 1,59 1,94 1,52 1,82 1,39 1,60 1,28 1,41 1,26 1,38 1,25 1,37 10000 1,81 2,36 1,78 2,31 1,76 2,26 1,73 2,21 1,71 2,17 1,69 2,13 1,67 2,10 1,65 2,07 1,64 2,04 1,62 2,01 1,51 1,81 1,44 1,68 1,28 1,43 1,12 1,17 1,08 1,12 1,06 1,09 2,10 2,01 1,94 1,88 1,83 1,57 1,32 1,25 1,03 2,80 2,64 2,51 2,41 2,32 1,88 1,48 1,36 1,05 La cabecera de las columnas indica los Grados de Libertad (gl) del numerador de la Razón de Varianzas F y en las filas los gl del denominador. En cada casilla aparece los valores de F para α = 0.05 y α = 0.01 (este último en negrita). Supongamos un ANOVA en que se comparan 5 grupos con 3 individuos en cada uno. Tenemos glEntre = 4 y glDentro = 10. En el cruce de la columna con cabecera “4” y la fila con cabecera “10” vemos las cantidades 3,33 y 5,64. Al valor F = 3.33 le corresponde P 0.05 y al valor F = 5.64 le corresponde P 0.01. Si F es menor de 3.33, P es mayor de 0.05, y si F es mayor de 5.64, P es menor de 0.01. Si F está entre 3.33 y 5.64, P está entre 0.05 y 0.01. Por ejemplo, si es F = 2.5, es P>0.05 y si es F = 9.3, es P<0.01. Los programas informáticos dan el valor exacto de P. 22-Tablas.indd 358 10/2/10 22:16:27 tablas Estadísticas 359 Distribución Chi - cuadrado Grados libertad 1 2 3 4 5 0,1 2,71 4,61 6,25 7,78 9,24 6 7 8 9 10 Nivel de significación 0,05 3,84 5,99 7,81 9,49 11,07 0,025 5,02 7,38 9,35 11,14 12,83 0,01 6,63 9,21 11,34 13,28 15,09 0,005 7,88 10,60 12,84 14,86 16,75 10,64 12,02 13,36 14,68 15,99 12,59 14,07 15,51 16,92 18,31 14,45 16,01 17,53 19,02 20,48 16,81 18,48 20,09 21,67 23,21 18,55 20,28 21,95 23,59 25,19 11 12 13 14 15 17,28 18,55 19,81 21,06 22,31 19,68 21,03 22,36 23,68 25,00 21,92 23,34 24,74 26,12 27,49 24,73 26,22 27,69 29,14 30,58 26,76 28,30 29,82 31,32 32,80 16 17 18 19 20 23,54 24,77 25,99 27,20 28,41 26,30 27,59 28,87 30,14 31,41 28,85 30,19 31,53 32,85 34,17 32,00 33,41 34,81 36,19 37,57 34,27 35,72 37,16 38,58 40,00 21 22 23 24 25 29,62 30,81 32,01 33,20 34,38 32,67 33,92 35,17 36,42 37,65 35,48 36,78 38,08 39,36 40,65 38,93 40,29 41,64 42,98 44,31 41,40 42,80 44,18 45,56 46,93 26 27 28 29 30 35,56 36,74 37,92 39,09 40,26 38,89 40,11 41,34 42,56 43,77 41,92 43,19 44,46 45,72 46,98 45,64 46,96 48,28 49,59 50,89 48,29 49,65 50,99 52,34 53,67 40 50 60 70 80 90 100 51,81 63,17 74,40 85,53 96,58 107,57 118,50 55,76 67,50 79,08 90,53 101,88 113,15 124,34 59,34 71,42 83,30 95,02 106,63 118,14 129,56 63,69 76,15 88,38 100,43 112,33 124,12 135,81 66,77 79,49 91,95 104,21 116,32 128,30 140,17 Cada fila da los datos para la Distribución Chi-Cuadrado con los grados de libertad, gl, indicados en la primera columna. Solamente se consideran las proporciones a la derecha de cada valor, como indica la figura. Por ejemplo, la distribución con, gl = 2, tiene el 0.10 de los valores por encima de 4.61, la distribución con gl = 15, tiene el 0.005 de los valores por encima de 32.80 y la distribución con gl = 40, tiene el 0.01 de los valores por encima de 63.39. Si un test da, por ejemplo, Chi-Cuadrado = 33.4 con 21 gl, vemos que 33.4 está entre 32.67 y 35.48, por lo que es 0.05 > PUNIL > 0.025. 22-Tablas.indd 359 10/2/10 22:16:27 22-Tablas.indd 360 10/2/10 22:16:27 Bioestadística sin dificultades matemáticas Solución de los ejercicios Luis Prieto Valiente Inmaculada Herranz Tejedor ERRNVPHGLFRVRUJ 23-EjerciciosE.indd 361 10/2/10 22:16:39 23-EjerciciosE.indd 362 10/2/10 22:16:39 23-EjerciciosE.indd 363 10/2/10 22:16:39 Capítulo 1 Ejercicio 1.1: 0.20·300 = 60 fumadores. Ejercicio 1.2: 0.3083·120 = 36 996 bebedores ≈ 37 bebedores. Ejercicio 1.3: a. 0.80·0.70 = 0.56, 56% de la población ha parido. b. 0.40·0.56 = 0.224, 22.4% de la población parió con cesárea. c. 0.20·0.224 = 0.0448, 4.48% de la población parió con cesárea transversal. Ejercicio 1.4: a. 0.374·0.138 = 0.0516, 5.16% están hospitalizados. b. 0.043·0.0516 = 0.0022, 0.22% está en UVI. c. 0.0072·0.0022 = 0.000016, 16 por millón tienen hecha traqueotomía. Ejercicio 1.5: 0.60 · 1 000 000 = 600 000 fumadores y, por tanto, 400 000 no fumadores. 0.20 · 400 000 = 80 000 enfermos entre los no fumadores. 0.80 · 600 000 = 480 000 enfermos entre los fumadores. 80 000 + 480 000 = 560 000 enfermos en total. Si nadie hubiera fumado: 0.20 · 1 000 000 = 200 000 enfermos. Exceso de enfermos: 560 000 – 200 000 = 360 000 deben su enfermedad al tabaco. Porcentaje de enfermos debido al tabaco: (360 000 / 560 000) · 100 = 64.3%. Ejercicio 1.6: No beben 80% de 2 millones = 1600000 individuos con riesgo de A de 0.03; entonces 0.03 · 1 600 000 = 48000 enfermos entre los no bebedores. Beben 20% de 2 millones = 400 000 individuos con riesgo de A de 3 · 0.03 = 0.09; entonces 0.09 · 400 000 = 36 000 enfermos entre los bebedores. Total 48 000 + 36 000 = 84 000 enfermos. Si nadie hubiera bebido 0.03 · 2 000 000 = 60 000 habrían enfermado. Se habrían evitado 84 000 – 60 000 = 24 000 enfermos. Capítulo 2 Ejercicio 2.1: a. M = 8 ; DM = 2/4 = 0.5 ; SC = 2 ; S2=2/3 = 0.67 ; S = 0.671/2 = 0.82. b. M = 8 ; DM = 8/4 = 2 ; SC = 16 ; S2=16/3 = 5.33 ; S = 5.331/2 = 2.31. c. M = 8 ; DM = 8/4 = 2 ; SC = 32 ; S2=32/3 = 10.67 ; S = 10.671/2 = 3.27. d.Las 3 listas tienen igual media (en las 3, todos los valores están en torno a 8), pero la dispersión es menor en la primera y mayor en la última (aunque las dos últimas tienen igual dispersión media). Ejercicio 2.2: Xi : 0 1 2 3 4 Frecuencias absolutas ni : 5 8 3 3 1 20 Frecuencias relativas fi : .25 .40 .15 .15 .05 1 Media = (5·0 + 8·1 + 3·2 + 3·3 + 1·4) / 20 = .25·0 + .40·1 + .15·2 + .15·3 + .05·4 = 1.35 hijos. Ejercicio 2.3: a. No tiene sentido porque no se repiten los valores. b. M = 2.2 ; SC = 8.8 ; S2 = 8.8/4 = 2.2 ; S = 1.48 y ES = 1.48 / 51/2 = 0.66. Capítulo 3 Ejercicio 3.1: a. P(F-) = 1400 / 2000 = 0.7, el 70% fueron F-, forma parte de la D.F. marginal de fiebre. b. P(F+) = 600 / 2000 = 1- 0.7 = 0.3, el 30% son F+. c. P(F- y M+) = 980 / 2000 = 0.49, forma parte de la D.F. conjunta. d. P(F-|M+) = 980 /1100 = 0.89, forma parte de la D.F. de fiebre condicionada a metástasis. e. P(M-|F+) = 480 / 600 = 0.80, forma parte de la D.F. de metástasis condicionada a fiebre. f y g. 980 / 1400 = 0.70, el 70% tuvieron metástasis entre los F-. h e i. Depende de la fiebre: es 0.20 en los F+ y 0.70 en los F-. Entonces, tener fiebre modifica el pronóstico. Solución de los ejercicios 363 23-EjerciciosE.indd 364 10/2/10 22:16:39 Ejercicio 3.2: 1 2 3 4 P(B | A) = 500/600 = .83 P(B | A) = 100/600 = .17 P(B | A) = 240/600 = .40 P(B | A) = 0/600 = 0 P(B | A-) = 300/1 400=.21 P(B | A-) = 700/1 400=.50 P(B | A-) = 560/1 400=.40 P(B | A-) = 800/1 400=.57 P(B) = 800/2 000=.40 P(B) = 800/2 000=.40 P(B) = 800/2 000=.40 P(B) = 800/2 000=.40 Ejercicio 3.3: a.No se sabe cuántos individuos tienen ambas enfermedades. No pueden tener ambas el 40% ya que el 20% tiene la enfermedad H y ambas serán, como máximo, ese 20%. b.Entre 0 y el menor valor de las frecuencias de cada una de las enfermedades, esto es, 0% y 20%. c.Cuando son independientes, cuando la presencia de una no condiciona la presencia de la otra. Ejercicio 3.4: a.Dieta y deporte son dependientes pues la frecuencia con que aparece cada dieta no es igual en deportistas que en no deportistas: hay un 15% de los deportistas que siguen una dieta rica en proteínas, mientras que este tipo de dieta la siguen un 47.8% de los no deportistas; y similar con las otras dietas. b.Se llegaría al mismo resultado si se comparara la otra DF condicionada, es decir, la DF de deporte condicionada a dieta. En este caso diríamos que el hecho de hacer deporte está o no relacionado con el tipo de dieta. Cualquiera de las dos comparaciones nos sirve para decir si las variables están o no relacionadas, sin especificar en qué sentido se da la dependencia. Ejercicio 3.5: a y b. Hay 1 V-M, 2 V-S, 9 V-C, 4 H-M, 2 H-S y 2 H-C. Total: 12 V y 8 H. Son las frecuencias absolutas V H M 0.05 0.20 0.25 S 0.10 0.10 0.20 C 0.45 0.10 0.55 Total 0.60 0.40 1 V H M 1/12=.08 4/8=.50 S 2/12=.17 2/8=.25 C 9/12=.75 2/8=.25 1 1 c.En varones hay mejor evolución pues curan un 75% mientras que en mujeres solo cura un 25%. Además en las mujeres muere un 50% y solo el 8% de los varones. d.Sexo y evolución son características dependientes pues la DF de evolución es distinta en los dos sexos. Ejercicio 3.6: Puesto que se estudian 350 individuos, hay 10 que son de la raza C y les faltan 2 piezas. a. A B C 0 20 120 10 150 1 40 60 30 130 2 40 20 10 70 Total 100 200 50 350 0 A 0.06 B 0.34 C 0.03 0.43 1 0.11 0.17 0.09 0.37 2 0.11 0.06 0.03 0.20 Total 0.29 0.57 0.14 1 A B C 0 .20 .60 .20 1 .40 .30 .60 2 .40 .10 .20 Total 1 1 1 b. P(C) = 50 / 350 = 0.14. c. P(2|C) = 10 / 50 = 0.20. d.Utilizando las DF de piezas faltantes en cada una de las razas: M(A)= 0·0.2 + 1·0.4 + 2·0.4 = 1.2 , M(B)= 0·0.6 + 1·0.3 + 2·0.1 = 0.5 , M(C)= 0·0.2 + 1·0.6 + 2·0.2 = 1.0 e. Se caen más en la raza A y menos en la B. f.P(0|A) = 0.20 es la prob de que a cada uno de ellos no les falte ninguna pieza ,, 0.2 · 0.2 = 0.04 pues las piezas dentarias que le faltan a uno es independiente de las que le faltan al otro. 364 Solución de los ejercicios 10/2/10 22:16:40 Ejercicio 4.1: MUJERES VARONES TOT tratados 100 500 600 A curados 80 110 190 23-EjerciciosE.indd 365 Capítulo 4 % curados 0.80 0.22 0.317 tratados 500 100 600 B curados 400 22 422 % Curados 0.80 0.22 0.923 a.En mujeres ningún tratamiento funcionó mejor que el otro. Con A curaron 80/100 = 0.80, 80% y con B curaron 400/500 = 0.80, también 80%. b.En varones igual que en mujeres, pero curando 22% con cada tratamiento. c. No hay uno más efectivo que el otro. Los dos funcionan igual tanto en hombres como en mujeres. d.El % de curaciones con B al estudiarlo en las personas parece mayor de lo que realmente es (92.3%) porque en los tratados con B la mayoría son mujeres (500 de 600) y las mujeres curan mejor que los hombres (80% frente a 22% con A y lo mismo con B). Estas dos razones dándose de forma conjunta hace que el factor sexo sea factor de confusión en la relación tratamiento - enfermedad. Ejercicio 4.2: Jóvenes Viejos Total Tot 50 450 500 FÁRMACO + %+ 5 0.1 360 0.8 365 0.73 NO FÁRMACO Tot + %+ 350 35 0.1 150 120 0.8 500 155 0.31 Efecto de F %+ / %+ 1 1 2.35 b.El fármaco no es efectivo en los jóvenes pues se cura el mismo % entre los tratados que entre los no tratados (10%), efecto = 1. c.El fármaco no es efectivo en los viejos pues se cura el mismo % entre los tratados que entre los no tratados (80%), efecto =1. d.El fármaco sí parece efectivo en las personas pues se curan 2.35 veces más de tratados (73%) que de no tratados (31%), efecto del fármaco = 2.35. e.No es necesario el fármaco, pues tanto en jóvenes como en viejos no es efectivo y cualquier persona estará incluida en uno de estos dos grupos. f.1) El % de curaciones es mayor en viejos que en jóvenes, tanto con fármaco como sin él (80% de curados entre los viejos frente a 10% de curados entre los jóvenes). 2) La mayoría de los tratados con fármaco son viejos (450 de 500) mientras que la mayoría de los no tratados son jóvenes (150 de 500). Estas dos razones, de forma conjunta, hace que el % de curaciones en los tratados con fármaco (73%) sea mucho mayor que en los no tratados (31%) ya que la mayoría de los tratados son viejos y los viejos se curan “más” que los jóvenes. Ejercicio 4.3: Decimos que hay confusión, puesto que el fármaco no modifica la respuesta ni en jóvenes ni en viejos y cuando no se estratifica por edad parece que la disminuye en 21 puntos (73% - 52%). Se debe a que: Los jóvenes se curan más que los viejos, haya fármaco o no lo haya. En el grupo sin fármaco, hay mayor FR de jóvenes que en el grupo con fármaco. Total Viejos Jóvenes Tot 500 200 300 FÁRMACO + %+ 260 0.52 20 0.10 240 0.80 NO FÁRMACO Tot + %+ 500 365 0.73 50 5 0.10 450 360 0.80 Efecto de F baja 21 puntos no efecto no efecto Solución de los ejercicios 365 23-EjerciciosE.indd 366 10/2/10 22:16:40 Ejercicio 4.4: En la tabla que sigue el efecto de confusión es muy acusando, pues en cada edad el fármaco B es perjudicial, baja la FR de curaciones en 10 puntos y cuando se ignora la edad parece que B sube en 46 la FR de curaciones. Ello se debe a que en el grupo tratado hay 90% de jóvenes y en grupo sin B hay solamente 4% de jóvenes. Total Viejos Jóvenes FÁrmaco B (90% de jóvenes) Tot + %+ 500 365 0.73 50 5 0.10 450 360 0.80 no fÁrmaco (4% de jóvenes) Tot + %+ 500 134 0.27 580 116 0.20 20 18 0.90 sube 46 puntos Baja 10 puntos Baja 10 puntos Ejercicio 4.5: En la siguiente tabla también hay Confusión. El fármaco G sube en 30 puntos el porcentaje de curación tanto en jóvenes como en viejos y en el total la sube en 58 puntos, que es más de lo que hace en cada estrato. Total Viejos Jóvenes Tot 500 50 450 FÁRMACO G + %+ 380 76% 20 40% 360 80% NO FÁRMACO Tot + %+ 500 90 18% 400 40 10% 100 50 50% Efecto de F Ejercicio 4.6: 1 2 3 4 5 6 7 8 9 10 Efecto de F en los B+ 0 +25 0 +25 +25 50 50 50 50 -20 Ejercicio 4.7: Efecto de F en los B0 +25 0 +25 +25 20 20 20 20 +15 1 var. Enfer = E Tot % de E Efecto del fumar Todos Efecto bruto de F sin separar B+ y B0 +25 +38 -10 +10 +34 -15 +10 +65 .54 F121 450 .269 sube 58 puntos sube 30 puntos sube 30 puntos no no sí sí si no sí sí sí no ha lugar no no no no no 30 30 30 30 cualitativa ¿Confusión? ¿Interacción? 2 variables F+ 45 310 .145 F+ 9 10 0.90 B+ 3 3 variables F120 400 0.30 F+ 36 300 0.12 B- 6 F1 50 0.02 Fumar multiplica por 3 (0.90 / 0.30) el riesgo de enfermar en bebedores y por 6 (0.12 / 0.02) en no bebedores. La interacción es 6 / 3 = 2; el efecto perjudicial del tabaco es 2 veces mayor en los no bebedores que en los bebedores. También decimos que beber es factor de confusión porque al juntar los B+ con los B-, el % de enfermos es 0.145 en F+ y 0.269 en F-. Parece que el tabaco reduce la FR de enfermedad a 0.54. Ejercicio 4.8: Redistribuimos la tabla anterior, formando dos estratos Fumadores y no Fumadores, en cada uno de los cuales se estudia el efecto del Beber: 366 Solución de los ejercicios 10/2/10 22:16:40 1 var. Enfer = E Tot % de E Efecto del beber Todos 2 variables B+ 129 410 .315 2.97 B37 350 .106 B+ 9 10 0.90 F+ 7.5 3 variables B36 300 0.12 B+ 120 400 0.30 F- 15 23-EjerciciosE.indd 367 B1 50 0.02 En los fumadores, hay 9 enfermos de 10 bebedores (0.90) y 36 enfermos de 300 (36/300 = 0.12) no bebedores. El efecto del beber es 0.90 / 0.12 = 7.5, el beber multiplica por 7.5 la frecuencia de la enfermedad en fumadores. El efecto del beber es 15 (0.30 / 0.02) en no fumadores, es decir, el beber multiplica por 15 la frecuencia de la enfermedad en no fumadores. La interacción es 2 (15 / 7.5) pues el efecto del beber es el doble en no fumadores que en fumadores. También fumar confunde la relación entre beber y la enfermedad pues al juntar los F+ y los F- parece que beber aumenta el riesgo de enfermedad, pero mucho menos de lo que aumentaba en cada uno de los estratos: efecto de beber = 2.97 = .315 / .106. Ejercicio 4.9: a.A no hace nada en jóvenes pues la media sin A es igual que la media con A (500). A no hace nada en viejos pues la media sin A es igual que la media con A (200). b.El efecto de A es el mismo en jóvenes que en viejos, por tanto, no hay interacción (interacción = 0). c.Parece que A tiene efecto (aumenta el rendimiento) en jóvenes+viejos pues la media es mayor con A (470) que sin A (230). d.Sí hay confusión pues el efecto en jóvenes+viejos (aumenta el rendimiento) no es el mismo que en cada uno de los estratos de jóvenes y viejos (no tiene efecto). Ejercicio 4.10: a.En jóvenes, B disminuye el rendimiento en 100 m, pues la media sin B fue 500 y con B fue 400. En viejos, B también disminuye el rendimiento en 100 m, pues la media sin B fue 200 y con B 100. b.No hay interacción pues el efecto de B es igual en jóvenes que en viejos: disminuye 100 m la media. c.B sí parece un poco efectivo, pues corren más los que recibieron B (235) que los que no lo recibieron (230). d.Sí hay confusión pues en los estratos el efecto de B es que disminuye el rendimiento en 100m. y en jóvenes+viejos lo aumentaba (235 – 230 = 5). Ejercicio 4.11: a.En jóvenes, C disminuye el rendimiento en 250 m.: 250 m con C frente a 500 sin C. En viejos, C disminuye el rendimiento en 100 m: 100 m con C frente a 200 sin C. b.La interacción es 250–100 = 150 m, el rendimiento es 150m. mayor en los viejos que en los jóvenes. c. Cuando no se estratifica, parece que aumenta el rendimiento en 5 m (235-230). e.Sí hay confusión pues en cada estrato C disminuye el rendimiento y en jóvenes+viejos lo aumenta. Ejercicio 4.12: a.En jóvenes, D aumenta el rendimiento en 200 m: 500 m sin D frente a 700 con D. En viejos, D disminuye el rendimiento en 100 m: 100 m con D frente a 200 sin D. b.La interacción es 200+100 = 300 m, C produce un efecto de 300 m mayor en jóvenes que en viejos. c. Cuando no se estratifica D parece tiene efecto: aumenta el rendimiento en 640 – 230 = 410 m. d.No tiene mucho sentido hablar de confusión ya que el efecto de D es muy diferente en jóvenes y viejos, y no tiene sentido promediarlos para hablar de efecto promedio en los estratos (que habría que compararlo con el efecto en jóvenes+viejos). Ejercicio 4.13: a.En jóvenes, E aumenta el rendimiento en 200 m: 500 m sin E frente a 700 con E. En viejos, E aumenta el rendimiento en 200 m: 200 m sin E frente a 400 con E. Solución de los ejercicios 367 23-EjerciciosE.indd 368 10/2/10 22:16:40 b. No hay interacción pues el efecto de E es el mismo en jóvenes que en viejos. c. En jóvenes+viejos, E aumenta el rendimiento en 670 – 230 = 440 m. d.Aunque E aumenta el rendimiento tanto en los estratos como en jóvenes+viejos, sí hay confusión porque lo aumenta distinta cantidad, parece más efectivo en jóvenes+viejos de lo que realmente es (en cada estrato). Ejercicio 4.14: Medias por parto en TODAS: 6.9 – 7.7 – 10.3 – 11.1 Medias por parto en CANARIAS: 6– 5 – 4 – 3 Medias por parto en INGLESAS: 14.75 – 14 – 13 - 12 a. En las canarias, a mayor cantidad de fármaco, partos más cortos. b. En las inglesas, a mayor cantidad de fármaco, partos más cortos. c. En las mujeres, a mayor cantidad de fármaco, partos más largos. d.C acorta los partos, pues eso es lo que ocurre en cada uno de los estratos, y todas las mujeres pertenecen a uno de esos dos grupos (inglesas o canarias). e.Se produce efecto de confusión, pareciendo que C alarga los partos porque, en general, las inglesas tienen partos más largos y la mayoría de las mujeres con mucha cantidad de fármaco son inglesas (450 inglesas frente a 50 canarias). Esto hace que aumente de forma ficticia el nº medio de horas de parto en las mujeres con mucha cantidad de C. Capítulo 5 Ejercicio 5.1: a, b y c. No hace referencia a cada individuo concreto, sino al conjunto de soldados. No se sabe lo que va a ocurrir a cada uno de ellos. d y e. 3000 · 0.4 = 12 000, aproximadamente van a morir 1 200 soldados en ese campamento, por lo que quedarán 3 000 – 1 200 = 1 800 soldados para luchar. f. Eventos que se repiten millones de veces. Ejercicio 5.2: a. P(salga un 6) = 1/6; P(3 veces el 6) = 1/6 3 = 0.0046. b.P(20 caras) = 0.5 20 = 0.00000095. Cada 10 millones de veces que lancemos 20 monedas, en aproximadamente 95 veces saldrán las 20 caras. c. P(cuadrante superior derecho) = ¼ = 0.25. d.P(cara)=1/6; P(cuadrante superior derecho)= ¼=0.25. P(cara y cuadrante superior derecho)=1/6 · ¼= 0.042. e. P(100 caras) = 0.5 100 = 8·10 -31. Ejercicio 5.3: Si el 10% tienen E y de éstos el 80% tienen V, el 80% del 10% serán enfermos con V: 0.8·0.1 = 0.08 = P(E y V). Si el 90% no tiene E y de éstos el 30% tienen V, el 30% del 90% serán no enfermos con V: 0.3·0.9 = 0.27 = P(E- y V). P(V) = P(E y V) + P(E- y V) = .08 + .27 = .35, el 35% tiene aumento de V y, por tanto, 1-.35 = .65, el 65% no tiene aumento de V. El porcentaje que representan los que son E y V (un 8%) sobre los que son V ( un 35%) es .08/.35 = .2285, el 22.85% de los V son además E. Si el 80% de los E tiene V, 1-.8 = .2, e. 20% de los E no tiene V. Y si el 30% de los E- tienen V, el 70% de los E- no tiene V. Siguiendo el mismo razonamiento que para los V se obtienen las probabilidades conjuntas P(E y V-) = 0.02 y P(E- y V-) = 0.63, y las condicionadas a V-: P(E|V-) = 0.02 / 0.65 = 0.0308. Por tanto, la prob de estar enfermo es de 22.85% si se tiene V y de 3.08% si no se tiene V. V+ V- P(E) = 0.10 P(V|E) = 0.80 P(E y V) = 0.8 · 0.1 = 0.08 P(E|V) = 0.08/0.35 = .0.2285 P(V-|E) = 0.20 P(E y V-)= 0.2 · 0.1 = 0.02 P(E|V-) = 0.02/0.65 = 0.0308 P(E-) = 0.90 P(V|E-) = 0.30 P(E-y V) = 0.3 · 0.9 = 0.27 P(E-|V) = 0.27/0.35 = 0.7714 P(V-|E-) = 0.70 P(E-y V-) = 0.7 · 0.9 = 0.63 P(E-|V-) = 0.63/0.65 = 0.9692 TOTAL P(V) = P(E y V) +P(E- y V) = 0.35 P(V-) = P(E y V-)+ P(E- y V-) = 0.65 368 Solución de los ejercicios 23-EjerciciosE.indd 369 10/2/10 22:16:40 Ejercicio 5.4: P(BACT) = .10 T D F P(T|B)= .50 P(ByT)= .5 · .1 = 0.05 P(B|T) = .05/.25 = 0.20 P(D|B)= .00 P(ByD)= .0 · .1 = 0 P(B|D) = 0 P(F|B)=.50 P(ByT)= .5 · .1 = 0.05 P(B|F) = .05/.50 = 0.10 P( VIR) = .50 P(T|V)= .40 P(VyT)= .4 · .5 = 0.20 P(V|T) = .2/.25 = 0.80 P(D|V)= .30 P(VyD)= .3 · .5 = 0.15 P(V|D) = .15/.25 = 0.60 P(F|V)= .30 P(FyV)= .3 · .5 = 0.15 P(V|F) = .15/.50 = 0.30 P(QUI) = .40 P(T|Q)= .00 P(QyT)= .0 · .4 = 0 P(Q|T)= 0 P(D|Q)= .25 P(QyD)= .25 ·.40 = 0.10 P(Q|D)= .1/.25 = 0.40 P(F|Q)= .75 P(FyQ)= .75 ·.40 = 0.30 P(Q|F)= .3/.5 = 0.60 P(Tos)=0.25 P(Dol)= 0.25 P(Fie)= 0.50 Ejercicio 5.5: a. Distribución a priori: 75% son A, 2% son B y 23% son C. b.P(H+) = P(H+ y A) + P(H+ y B) + P(H+y C) = 0.04·0.75 + 0.98·0.02 + 0.25·0.23 = 0.1071 y P(H-) = 1 – P(H+) = 1 – 0.1071 = 0.8929 c.Las distribuciones a posteriori de tipo histológico son las probabilidades de cada uno de los tipos histológicos entre los que tuvieron hemoptisis y entre los que no lo tuvieron: En los H+: P(A|H+) = 0.04 · 0.75 / 0.1071 = 0.2801 ,, P(B|H+) = 0.98 ·0.02 / 0.1071 = 0.1830 P(C|H+) = 0.25 · 0.23 / 0.1071 = 0.5369 En los H-: P(A|H-) = 0.96 · 0.75 / 0.8929 = 0.8064 ,, P(B|H-) = 0.02 · 0.02 / 0.8929 = 0.0004 P(C|H-) = 0.75 · 0.23 / 0.8929 = 0.1932 Ejercicio 5.6: Enf No Enf Test Positivo (T+) P(T+|E+) = 0.99 P(T+ y E+) = 0.00099 P(E+|T+)= 0.00493 P(T+|E-) = 0.20 P(T+ y E-) = 0.19980 P(E-|T+) = 0.99507 P(T+) = 0.20079 Ejercicio 5.7: Enf No Enf Test Positivo (T+) P(T+|E+) = 0.99 P(T+ y E+) = 0.099 P(E+|T+) = 0.355 P(T+|E-) = 0.20 P(T+ y E-) = 0.180 P(E-|T+) = 0.645 P(T+) = 0.279 Test Negativo (T-) P(T-|E+) = 0.01 P(T- y E+) = 0.00001 P(E+|T-) = 0.00001 P(T-|E-)= 0.80 P(T- y E-) = 0.79920 P(E-|T-) = 0.99999 P(T-) = 0.79921 Test Negativo (T-) P(T-|E+) = 0.01 P(T- y E+) = 0.001 P(E+|T-) = 0.001 P(T-|E-) = 0.80 P(T- y E-) = 0.720 P(E-|T-) = 0.999 P(T-) = 0.721 4000 Prevalencia P(E+) = 0.001 P(E-) = 0.999 4 000 000 400 000 Prevalencia P(E+)= 0.10 P(E-) = 0.90 4 000 000 Al compararlo con el ejercicio anterior podemos ver que al haber mayor prevalencia de la enfermedad, es más probable tener la enfermedad cuando el test dio positivo (0.00493 en ejercicio 5.6 frente a 0.355) y también cuando el test dio negativo (0.00001 del ejercicio 5.6 frente a 0.001). Ejercicio 5.8: Enf No Enf Test Positivo (T+) P(T+|E+) = 0.99 P(T+ y E+) = 0.792 P(E+|T+) = 0.952 P(T+|E-) = 0.20 P(T+ y E-) = 0.040 P(E-|T+) = 0.048 P(T+) = 0.832 Test Negativo (T-) P(T-|E+) = 0.01 P(T- y E+) = 0.080 P(E+|T-) = 0.048 P(T-|E-) = 0.80 P(T- y E-) = 0.160 P(E-|T-) = 0.952 P(T-) = 0.168 3 200 000 Prevalencia P(E+)= .80 P(E-) = 4 000 000 Solución de los ejercicios 369 23-EjerciciosE.indd 370 10/2/10 22:16:40 Al compararlo con los ejercicios anteriores podemos ver que al haber mayor prevalencia de la enfermedad, es más probable tener la enfermedad cuando el test dio positivo (0.00493 del ejercicio 5.6 y 0.355 del ejercicio 5.7 frente a 0.952) y también cuando el test dio negativo (0.00001 del ejercicio 5.6 y 0.001 del 5.7 frente a 0.048). Capítulo 6 Ejercicio 6.1: Es una Binomial con π = 0.40 y N = 5. a. Es más probable obtener 2 diabéticos que 4. b. Es más probable obtener 4 diabéticos que 5 porque 4 está más cerca del valor esperado. c.Si de una población donde hay 40% de diabéticos se toman muchas muestras aleatorias de N = 5 individuos, en 346 de cada 1 000 muestras hay 2 diabéticos y solo 2. d.Si de una población donde hay 40% de diabéticos se toman muchas muestras aleatorias de N = 5 individuos, en 77 de cada 1 000 muestras hay 4 diabéticos y solo 4. Ejercicio 6.2: a y b. a es F porque b es V. c y d. Son F porque e y f son V. f. Es V pues en una Bin(4,0.25), P(1) = 0.422. g. Es V pues en una Bin(4,0.25), P(4) = 0.004. h e i. Son F porque la ley se refiere al Muestreo Aleatorio, no a cada muestra en particular. j. Es V. k. Es F porque l es V. Ejercicio 6.3: Es una Binomial con π = 0.40 y N = 6. a y b. P(0) = 0.0467 y P(1) = 0.1866. c.P(menos de 2) = P(1) + P(0) = 0.2333. Si de una población donde hay 40% de personas enfermos se toman muchas muestras aleatorias de N = 6, en 2333 de cada 10 000 muestras habrá 0 ó 1 enfermos. d.P(más de 1 enfermo) = 1 – P(1 o menos enfermos) = 1 - 0.2333 = 0.7667. Si de una población con 40% de E se toman muchas muestras aleatorias de 6, en 7667 de cada 10 000 muestras habrá 2 o más E. e.No, porque el 40% de 6 es 0.40·6 = 2.4, y no puede haber 2.4 enfermos. Habrá 2 o 3 enfermos, con lo que sería un 33% o un 50%: 2/6 = 0.33 y 3/6 = 0.50. Ejercicio 6.4: Si el examen tenía 40 preguntas, Lucía contestó la mitad. Ejercicio 6.5: Necesitaríamos saber la puntuación máxima e información sobre el resto de las universidades. Ejercicio 6.6: Es una Binomial con π = 0.50 y N = 6. Valor esperado = 0.50·6=3 a y b. P(0) = 0.0156 y P(1) = 0.0938. c.P(2) = 0.2344. Si el 50% de los pacientes muere al ser operado, la prob de que a este cirujano se le mueran 2 pacientes durante este mes es 23.44%. De cada 100 meses en los que se opera a 6 pacientes por mes, en aproximadamente 23 meses se morirán 2 pacientes. Ejercicio 6.7: Es una Binomial con π = 0.167 y N = 12. a. Valor esperado = 0.167·12 = 2 RA. b, c y d. P(2) = 0.296, P(0) = 0.112 y P(1) = 0.269. e.P(9) = 0.000012. La prob de que en un grupo de 12 pacientes hagan RA 9 es de 12 por millón; cada millón de veces que se haga la exploración a 12 pacientes, se producirá RA en 9 pacientes Ejercicio 6.8: Es una Binomial con π = 0.30 y N = 10. a. Esperamos = 0.30·10 = 3 curaciones. b y c. P(1) = 0.1210 y P(8) = 0.0014. d. De cada 10 mil muestras de 10 pacientes cada una, en aproximadamente 14 de ellas se curarán 8 pacientes. Ejercicio 6.9: Es una Binomial con π = 0.25 y N = 9. a y b. P(9) = 0.0000 < 0.00001 y P(0) = 0.0751 c. P(más de 4) = P(5)+P(6)+...+P(9) = 0.0389 + 0.0087 + 0.0012 + 0.0001 +0.0000 = 0.0489 Ejercicio 6.10: Es una Binomial con π = 0.40 y N =10. a. µ X = π·N = 4 y σ X = [π·(1- π)·N]1/2 = 1.55 b. µ p = π = 0.4 y σ p = [π·(1- π) / N]1/2 = 0.15 En una Binomial con π = 0.40 y N =100. 370 Solución de los ejercicios 23-EjerciciosE.indd 371 10/2/10 22:16:40 c. µ X = π·N = 40 y σ X = [π·(1- π)·N]1/2 = 4.9 d. µ p = π = 0.4 y σ p = [π·(1- π) / N]1/2 = 0.05 En una Binomial con π = 0.40 y N =400. e. µ X = π·N = 160 y σ X = [π·(1- π)·N]1/2 = 9.8 f. µ p = π = 0.4 y σ p = [π·(1- π) / N]1/2 = 0.025 Ejercicio 6.11: Con Binomial con N = 300 y π = 0.02 P(5)= [300! / ( 5! · 295!) ] 0.025· 0.98295 = 0.1617 que puede aproximarse a una Poisson con E = 6 P(5)= 0.1606. Ejercicio 6.12: a.Con Binomial de N =1 000 y π = 0.004 P(3)= [1 000! / ( 3!·997!) ] 0.0043·0.996997 = 0.1955 y con Poisson de E = 4 P(3)= 0.1954. b.De cada 10 000 regiones de 1 000 habitantes en las que la GI afecte al 0.4%, en 1954 habrá 3 casos de GI. Ejercicio 6.13: Poisson con E = 500 · 0.004 = 2 P(3)= 0.1084. Ejercicio 6.14: a. E = 96 / 120 = 0.8 carcinomas por mes b. Es una Poisson con E = 0.8. P(2 al mes) = 0.1438. c. Aproximadamente el 14% de los meses se diagnostican 2 carcinomas de ese tipo. Ejercicio 6.15: Las prob calculadas con Poisson son X 0 N 25 200 3 89 1 2 153 FR .025 .089 .153 .200 P(x) en Poisson con E=3.8 0.0224 0.0850 0.1615 Las FR´s empíricas se aproximan bastante a una distribución de Poisson con E = 3.8 0.2046 Ejercicio 6.16: a. Es una Poisson con E = 4 P(3) = 0.1954. b. P(más de 9) = P(10) + P(11) + P(12) + ... = .0053 + .0019 + .0006 = .0078. Ejercicio 6.17: a. Es una Poisson con E = 2.2 P(10) = 0.0001. b. Sí, pues es muy poco probable (0.0001 de a) que aparezcan 10 casos. c y d. P(0) = 0.1108. No, pues es razonablemente probable (0.1108 de c) que no haya ningún caso. Ejercicio 6.18: Es una Poisson con E = 2.4 P(más de 5) = P(6) + P(7) + ... = 0.0358. Aprox. 3 o 4 de cada 100 días el servicio se verá desbordado. Ejercicio 6.19: Es una Poisson con E = 0.05 · 200 = 10. a y b. P(0) < 0.0001 y P(5) = 0.0378. c y d. P(menos de 3) = P(0) + P(1) + P(2) = 0.0028. P(más de 20) = P(21) + P(22) + ... = 0.0015. Ejercicio 6.20: a. Es una Poisson con E = 10 bacterias/litro P(8) = 0.1126. b. Es una Poisson con E = 10 / 4 = 2.5 bacterias/cuarto litro P(6) = 0.0278. Ejercicio 6.21: Es una Poisson con E = 5. P(12 o más) = P(12) + P(13) + P (14) + ... = .0034 + .0013 + .0005 + .0002 = 0.0054. De cada 10 000 individuos normales, aprox. 54 serán clasificados como sospechosos. Ejercicio 6.22: Es una Poisson con E = 6 moléculas/cc. P(alguna) = 1 – P(0) = 1 – 0.0025 = 0.9975. Capítulo 7 Ejercicio 7.1: a. P(-1 < Z < 0) = P(0 < Z < 1) = 0.5 – P(Z > 1) = 0.5 - 0.1587 = 0.3413 ; P(-1 < Z < 1) = 2 · P(0 < Z < 1) = 2 · 0.3413 = 0.6826. b. P(-1.5 < Z < 0) = P(0 < Z < 1.5) = 0.5 – P(Z > 1.5) = 0.5 – 0.0668 = 0. 4332 ; P(-1.5 < Z < 1.5) = 2 · P(0 < Z < 1.5) = 2 · 0.4332 = 0.8664. c. P(-2.5 < Z < 0) = P(0 < Z < 2.5) = 0.5 – P(Z > 2.5) = 0.5 – 0.0062 = 0.4938 ; P(-2.5 < Z < 2.5) = 2 · P(0 < Z < 2.5) = 2 · 0.4938 = 0.9876; Ejercicio 7.2: a. P(90 < T < 102.5) = P(-2 < Z < 0.5) = P(-2 < Z < 0) + P(0 < Z < 0.5) = = 0.4772 + (0.5 – P(Z > 0.5)) = 0.4772 + 0.1915 = 0.6687. Solución de los ejercicios 371 23-EjerciciosE.indd 372 10/2/10 22:16:40 b. P(T > 82.5 ) = P(Z > -3.5 ) = 1 - P(Z < -3.5) = 1 – P(Z > 3.5) = 1 - 0.0002 = 0.9998. c. P(T < 102.5) = P(Z < 0.5) = 0.5 + P(0 < Z < 0.5) = 0.5 + 0.1915 = 0.6915. d. P(97.5 < T < 102.5) = P(-0.5 < Z < 0.5) = 2 · P(0 < Z < 0.5) = 2 · 0.1915 = 0.3830. e. P(90 < T < 110) = P(-2 < Z < 2) = 2 3 p(0 <Z < 2) = 0.4772 · 2 = 0.9544. f. P(90 < T < 92.5) = P(-2 < Z < -1.5) = P(-2 < Z < 0) - P(-1.5 < Z < 0) = = P(Z > 1.5) - P(Z > 2) = 0.0668 – 0.0228 = 0.0440. g. P(102.5 < T < 107.5) = P(0.5 < Z < 1.5) = P(Z > 0.5) - P(Z > 1.5) = 0.3085 – 0.0668 = 0.2417. Ejercicio 7.3: a. Z = -1 ; P(Z < -1) = P(Z > 1) = 0.1587 15.87% 0.1587 · 2 000 000 = 3 174 000 b. Z = 0.5 ; P(Z < 0.5) = 1 – P(Z > 0.5) = 1 – 0.3085 = 0.6915 69.15% 13 830 000 c. Z = 2.2 ; P(Z < 2.2) = 1 - P(Z > 2.2) = 1 – 0.0139 = 0.9861 98.61% 19 722 000 d. Igual que “menos de 60”. e. Z = -2 ; P(Z > -2) = 1 – P(Z > 2) = 1 – 0.0228 = 0.9772 97.72% 19 544 000 f. Z = 0.1 ; P(Z > 0.1) = 0.4602 46.02% 9 204 000 g. Z = 2.2 ; P (Z > 2.2) = 0.0139 1.39% 278 000 h.Z1 = -2 ; Z2 = -1 ; P(-2 < Z < -1) = P(Z > 1) – P(Z > 2) = 0.1587 – 0.0228 = 0.1359 13.59% 2 718 000 Ejercicio 7.4: a.µM = 2000 y σ M = 100 / 3.16 = 31.62 ; z = -50 /31.62 = -1.58. Pero como la distribución no es Normal no se sabe la proporción de medias en ese intervalo. b.µ M= 2000 y σ M = 100 / 8 = 12.5 ; z = -25 / 12.5 = -2. Por el Teorema Central del Límite (TCL), las medias muestrales de N=64 se distribuyen muy aproximadamente Normal P(M < 1975) = P(Z < -2) = P(Z > 2) = 0.0228. Ejercicio 7.5: a.µM = 3 000 y σ M = 200 / 20 = 10 ; z = 15 /10 = 1.5 Por el Teorema Central del Límite (TCL), las medias muestrales de N = 400 se distribuyen muy aproximadamente Normal. P(M > 3015) = P(Z > 1.5) = 0.0668. b.µ M= 3 000 y σ M = 200 / 3 = 66.7 ; z = 66.7 / 66.7 = 1. Pero como la distribución no es Normal no se sabe la proporción de medias en ese intervalo. Ejercicio 7.6: a.µ M= 160 y σ M = 10 / 2 = 5 ; z = 6 / 5 = 1.2. Puesto que la variable se distribuye de modo Normal, las medias muestrales también: P(M < 166) = P (Z < 1.2) = 1 – P(Z > 1.2) = 1 - 0.1151 = 0.8849. El 88.49% de las muestras de 4 individuos tendrán estatura media menor de 166. b.µ M= 160 y σ M = 10 / 5 = 2 ; z = 6 / 2 = 3. Puesto que la variable se distribuye de modo Normal, las medias muestrales también: P(M < 166) = P(Z < 3) = 1 – P(Z > 3) = 1 - 0.0013 = 0.9987. El 99.87% de las muestras de 25 individuos tendrán estatura media menor de 166. Ejercicio 7.7: a.Z = -2 P(X > 64) = P(Z > -2) = 1 – P(Z > 2) = 1 – 0.0228 = 0.9772, el 97.72% pesan más de 64 kg. b.Z = 2 P(X < 96) = P(Z < 2) = 1 – P(Z > 2) = 0.9772, el 97.72% de los individuos pesan menos de 96 kg. c.P ( 64 < X < 96) = P(-2 < Z < 2) = P(-2 < Z < 0) + P(0 < Z < 2) = 2 · P(0 < Z < 2) = 2· 0.4772 = 0.9544. d.En el muestreo aleatorio de N = 16, las medias muestrales tienen µ = 80 y σ = 8 / 4 = 2. e.Además como el peso es Normal, las medias muestrales también. Z = (78-80) / 2 = -1 ,, P (Z > -1) = 1- P(Z < -1) = 1 - P(Z > 1) = 1 - .1587 = 0.8413. f.P (77< Media <79) = P(-1.5<Z<-0.5) = P(0.5<Z<1.5) = P(Z >0.5) – P(Z >1.5) = .3085 - .0668 = .2417. g. P(Z < -2) + P( Z > 2) = 2 · 0.0228 = .0456. 372 Solución de los ejercicios 23-EjerciciosE.indd 373 10/2/10 22:16:40 h.En el muestreo aleatorio de N = 100, las medias muestrales tienen µ = 80 y σ = 8 / 10 = 0.8. Además como el peso es Normal, las medias muestrales también. Z = 2.4 / 0.8 = 3 , P(M > 82.4) = P(Z > 3) =.0013. i.Z = -1 / 0.8 = -1.25 ,, P(M > 79) = P ( Z > -1.25 ) = 1- P(Z < -1.25) = 0.8944 es la prob de que UNA muestra tenga media > 79. La prob de que las DOS medias sean > 79 = 0.8944 · 0.8944 = 0.80 Ejercicio 7.8: a. No se sabe, pues se desconoce la distribución de la supervivencia en la población. b. No se sabe, pues se desconoce la distribución de la supervivencia en la población. c.Con tamaño tan pequeño no está garantizada la distribución aproximadamente Normal de las medias muestrales, aunque las medias muestrales de N = 9 tienen µ = 50 y σ = 3 / 3 = 1. d.Las medias muestrales de N = 36 tienen µ = 50 y σ = 3 / 6 = 0.5. Además el TCL garantiza que las medias muestrales de N = 36 se distribuyen muy aprox. Normal P(Media < 49.5 ) = P(Z < -1) = P(Z > 1) = 0.1587. e.Las medias muestrales de N = 100 tienen µ = 50 ; σ = 3 / 10 = 0.3. El TCL dice que las medias muestrales de N = 100 se distribuyen muy aprox. Normal P(49.7<Media < 50.45 ) = P(-1 < Z < 1.5) = 0.7745. Ejercicio 7.9: a.Aproximadamente P(0 < Z < 1) = .3413, el 34.13% de las muestras. b. Aprox. P(0 < Z < 2) = 0.4772. Ejercicio 7.10: La variable “número de albinos en muestras de N = 4800 individuos de una población con 25% de albinos” tendrá en el MA µ = 4 800·0.25 = 1200 y σ = (4 800·0.25·0.75)1/2 = 30. a. Aproximadamente P(0 < Z < 1) = .3413, el 34.13% de las muestras. b y c. Aproximadamente P(-1 < Z < 1) = 2·0.3 413 = 0.6826 y P(-1 < Z < 2) = 0.3413 + .4772 = 0.8185. Ejercicio 7.11: a y b. Aproximadamente P(0 < Z < 1) = .3413, el 34.13% de las muestras y P(0 < Z < 0.5) = 0.3085. Capítulo 8 Ejercicio 8.1: a.Es Falsa (F) porque b es Verdadera (V). c. Es Falsa (F) porque d es Verdadera (V). e a h. Son todas V. i. Es V pues es P(3 o más | πA = 0.15) = P(3) + P(4) + … + P(10) = 0.1798. j. La interpretación correcta es: “si A es inútil …” y no “si A es útil”. k y l. Son V. Ejercicio 8.2: a y b. La Hipótesis de trabajo es B cura más de 25%. La Hipótesis Nula es que B es inútil, es decir, cura 25%. c. El valor esperado es 25%, que de 8 tratados es 0.25·8 = 2 curaciones. d. Es valor observado es 6 curados de 8 tratados, es decir, 6/8 = 0.75, 75% de curados. e. En una Bin (8, 0.25) es P(6) = 0.0038. f. En una Bin (8, 0.25) es P(6) + P(7) + P(8) = 0.0038 + 0.0004 +0.0000 = 0.0042. g. El valor P del test es el calculado en el apartado anterior: 0.0042. h.Si la medicina B no hiciera nada, curara 25% de los tratados, de cada 10000 muestras de 8 tratados en solo 42 muestras se curarán 6 o más tratados. i.El resultado obtenido (6 curaciones de 8 tratados) no es compatible con que en la población se cure un 25%; se rechaza H0 a favor de que B cura más del 25%. Ejercicio 8.3: a y b. La Hipótesis de trabajo es C cura más de 5%. La Hipótesis Nula es que C es inútil, es decir, cura 5%. c. El valor esperado es 5%, que de 9 tratados es 0.05·9 = 0.45, esto es 0 o 1 curaciones. d. Es valor observado es 3 curados de 9 tratados, es decir, 3/9 = 0.33, 33% de curados. Solución de los ejercicios 373 23-EjerciciosE.indd 374 10/2/10 22:16:40 e. En una Bin (9,0.05) es P(3) + P(4) + … + P(9) = 0.0077 + 0.0006 = 0.0083. f.Si la medicina C no hiciera nada, curara 5% de los tratados, de cada 10 000 muestras de 9 tratados en solo 83 muestras se curarán 3 o más tratados. g.El resultado obtenido (3 curaciones de 9 tratados) no es compatible con que en la población se cure un 5%; se rechaza H0 a favor de que C cura más del 5%. Ejercicio 8.4: a. La Hipótesis Nula es que con C se curan el 50% de los tratados. b. El valor esperado es 50%, que de 9 tratados es 0.50·9 = 4.5, esto es 4 o 5 curaciones. c. Es valor observado es 3 curados de 9 tratados, es decir, 3/9 = 0.33, 33% de curados. d.En una Bin (9,0.50) es P(3) + P(2) + P(1) + P(0) = 0.1641 + 0.0703 + 0.0176 + 0.0020 = 0.2540. pues valores como el obtenido (3 curaciones) o más alejados del esperado es 3 curaciones o menos. e.Si la medicina C curara 50% de los tratados, de cada 100 muestras de 9 tratados en 25 muestras se curarán 3 o menos tratados. f.El resultado obtenido (3 curaciones de 9 tratados) sí es compatible con que en la población se cure un 50%; no se rechaza H0, esto es, C puede curar 50%. Ejercicio 8.5: a.P esperado = 0.67, p observado = 140 / 200 = 0.70, Z = (0.70 – 0.67) / (0.67 · 0.33 / 200) ½ = 0.03 / 0.033 = 0.99 PUNIL = 0.18. No rechazamos H0, es decir, el dato es compatible con que sea π = 0.67 b.P esperado = 0.50, p observado = 140 / 200 = 0.70, Z = (0.70–0.50) / (0.50·0.50/200) ½ = 0.20/0.035 = 5.7PUNIL=10-8 = 0.00000001. Rechazamos H0, no creemos que sea π = 0.50, será π > 0.50 c.P esperado = 0.64, p observado = 140 / 200 = 0.70, Z = (0.70 – 0.64) / (0.64 · 0.36 / 200) ½ = 0.06 / 0.034 = 1.76 PUNIL = 0.04. d. Son compatibles con las hipótesis: π = 0.67 y quizás π = 0.64. e.IC95% = 0.70 ± 1.96 (0.7 · 0.3 / 200) ½ = 0.70 ± 0.06 = 0.64 y 0.76. Tenemos una confianza de 95% en que la verdadera proporción poblacional de individuos con C está entre 0.64 y 0.76. IC99% = 0.70 ± 2.58 (0.7 · 0.3 / 200) ½ = 0.70 ± 0.08 = 0.62 y 0.78 Tenemos una confianza de 99% en que la verdadera proporción poblacional de individuos con C está entre 0.62 y 0.78. Ejercicio 8.6: a.Con una confianza del 95%, el porcentaje de diabéticos en la población estará entre 16% y 50%. b.Z = (.25 - .33) / (.25·.75/30)1/2 = 1. P = 0.1587. Si realmente hubiera un 25% de diabéticos en la población (es lo planteado en la H0), de cada 100 estudios con muestras de 30 personas de esta población, en aproximadamente 16 de esos estudios se encontraría una proporción muestral de diabéticos de 33% o aún mayor (que es el resultado obtenido en nuestra muestra). c.Z = (.1 - .33) / (.1·.9/30)1/2 = 4.2. P < 0.00003. Si realmente hubiera un 10% de diabéticos en la población, de cada 100 000 estudios con muestras de 30 personas de esta población, en menos de 3 de esos estudios se encontraría una proporción muestral de diabéticos de 33% o aún mayor (que es el resultado obtenido en nuestra muestra). d.Por b. se concluye que los datos son compatibles con la hipótesis de que haya un 25% de diabéticos en la población, por lo que esta puede ser cierta; y por c. se concluye que los datos no son compatibles con la hipótesis de que en población haya un 10% de diabéticos, lo que nos hace pensar que esta % tiene que ser mayor de 10%. Ejercicio 8.7: a.No se conoce cuánto es el porcentaje real de curados con A, pero con una confianza del 95%, el porcentaje de curados con A en la población estará entre 66% y 84%. b.Si A fuera inútil sería muy difícil obtener una muestra de 80 pacientes tratados con A en la que se curaran 60 o más (un 75% o más de curaciones). c.Como los resultados obtenidos en la muestra (60 curaciones de 80 tratados) no son compatibles con la hipótesis de que A sea inútil, se rechaza la H0 a favor de que A cura más de 40% (es útil). 374 Solución de los ejercicios 23-EjerciciosE.indd 375 10/2/10 22:16:41 d.Z = (.75 - .70) / (.7·.3/80)1/2 = 0.98. P = 0.1635. Si realmente A curara al 70% de los tratados, y se realizara el experimento 100 veces (se tratara con A 80 pacientes), en 16 experimentos se obtendría un 75% o más de curaciones. Como los resultados obtenidos en la muestra son compatibles con la hipótesis de que A cure 70% de tratados, no se rechaza, puede ser que en población A cure un 70%. Ejercicio 8.8: a y b. Son Verdaderas (V). c a f. Es cierto que el valor P es 0.0213, es cierto que convenimos en calificar el resultado como “estadísticamente significativo”, pero esto solo quiere decir que P ≤ 0.05. No es un valor lo suficientemente pequeño como para asegurar que T es útil (e es F y f es V). g, h e i. Son V. Ejercicio 8.9: Todas son Verdaderas. Capítulo 9 Ejercicio 9.1: IC95% (µ) = 60 ± 1.96 · 40 /(400)1/2 = 56.16 y 63.84 Ejercicio 9.2: IC99% (µ) = 60 ± 2.947 · 20 /(16)1/2 = 45.265 y 74.735 pues al ser N<30, en tablas t de Student Z se mira con 15 gl. Ejercicio 9.3: Valor P del Test = P(X ≤ 320│µP = 500) = P (Z ≤ 3) = 0.0013. Rechazamos H0 porque el dato es difícilmente compatible con µP = 500. Pensamos que no es µP = 500, sino que será µP < 500. Ejercicio 9.4: Valor P del Test = P(X ≤ 420│µI = 500) = P (Z ≤ 1.33) = 0.0918. No rechazamos H0 porque el dato es compatible con µI = 500. Pensamos que puede ser µI = 500. Ejercicio 9.5: a.Si el coeficiente intelectual actual fuera por término medio de 110 en la población, de cada 10 000 estudios con muestras de 144 adultos, en aproximadamente 38 se encontraría una media muestral de 102 o aún menor (que es el resultado obtenido en nuestra muestra). b.Los resultados no parecen compatibles con la hipótesis de que se mantenga el coeficiente intelectual de 1950, por lo que rechazamos esa hipótesis a favor de que ha disminuido. c.Si realmente el CI fuera por término medio 98 en la población, de cada 100 estudios con muestras de 144 adultos actuales de esta población, en 9 de esos estudios se encontraría una media muestral de 102 o aún mayor (que es el resultado obtenido en nuestra muestra o más alejado de la hipótesis planteada). d. Los resultados son compatibles con la hipótesis, por lo que no la rechazamos. Ejercicio 9.6: a. Es Verdadera (V). b, c y d. Son F porque e es V. f . Es F porque g es V. h. Es V i. Es F porque j es V. k. Es V. l, m y n. Son F porque o es V. p y q. Son F porque r es V. s. Es F porque t es V. Ejercicio 9.7: a y b. Z = 2.5. P = 0.0062 y Z = 3. P = 0.0016 c y d. Z = 3.5. P = 0.0002 y Z = 4. P = 0.00003 e y f. El estudio al que se administra D es el que muestra mayor evidencia contra H0 ya que tiene valor de P más pequeño, aunque sea con un solo individuo pues el valor de P también tiene en cuenta el número de individuos estudiados y es perfectamente válido. Ejercicio 9.8: a.No se ha hablado de la prob de que llueva. b. P = 0.57 es la prob de que haya un accidente SI llueve. Ejercicio 9.9: a. No se ha hablado de la prob de que toque la lotería. b. Es muy probable que me vaya al Caribe SI me toca la lotería. Ejercicio 9.10: a. No puede decirlo. b. Es poco probable que el niño tenga AA. c. Es muy probable que el niño sea operado SI tiene AA. Ejercicio 9.11: La respuesta correcta es la c. Revise todas las opciones, solo la c es la correcta. Solución de los ejercicios 375 10/2/10 22:16:41 Ejercicio 10.1: A 7 122 1º B 12 136 Capítulo 10 A 7 50 2º 1.88 > 0.05 Para la H0: µ B - µ A = 7 1.23 > 0.10 UNIL 2.66 4.07 Media SC E Z P Z P UNIL IC95% t0.05, 7= 2.365 IC99% t0.01, 7= 3.499 Para la H0: µ B = µ A B 12 60 A 7 10 3º 1.13 B 12 10 4.42 < 0.005 0.49 0.75 >> 0.15 > 0.15 Intervalo de confianza para µ B - µ A -4.6 y 14.6 -9.2 y 19.2 23-EjerciciosE.indd 376 1.77 > 0.05 -1.3 y 11.3 -4.3 y 14.3 2.3 y 7.7 1.1 y 8.9 Ejercicio 10.2: a. IC(µA) = 9 ± 1.14 * 2.77 = 5.84 Y 12.16; I.C. (µB) = 7 ± 0.60 * 2.44 = 5.54 y 8.46 b. H0: µA = µB ; 26 + 16 1 1 = 1.2; t = 10 ⋅ + 10 5 7 = 1.67 ; PB > 0.10 : “NO”. H0: µA - µB = 6; t10 = (6-2)/1.2 = 3.33; PB < 0.01 Rechazo H0 . será µA - µB < 6 H0 : µB - µA = 2; t10 = 4 / 1.2 = 3.33; PB < 0.01 Rechazo H0 . será µA - µB < 2. Por supuesto que no rechazo. Puede ser cierto, no afirmo que lo sea. I.C.( µA - µB ) = 2 ± 1.812 * 1.2 = 2 ± 2.17 = -0.17 Y 4.17 c. d. e. f. E= SC1 SC2 + = N 1 ( N 1 − 1) N 1 ( N 2 − 1) 246 119 + = 0.5 40 ⋅ 41 34 ⋅ 35 g. Z = 1.5 / 0.5 = 3; PUNIL = 0.0013. Rechazo. h. Z = 0.5/0.5 = 1 PUNIL = 0.1587. Puede ser µd = µc i y j. Igual que h y g, respectivamente. k. Z = 3.5 / 0.5 = 7 PUNIL = .00000. Rechazo. Ejercicio 10.3: a. Es V. b.Es V y c es F porque la hipótesis planteada es que las medias poblacionales son iguales y no que una supera a la otra en 15 unidades (esto es lo que ocurre en las muestras obtenidas). d.No es la interpretación del valor P antes obtenido por lo dicho en el apartado anterior, pero es Verdadera, pues si planteáramos la hipótesis de que las medias poblacionales se diferencian en 15 unidades, por la simetría de la DN, en la mitad de los estudios del MR las medias muestrales se diferenciarían en 15 o más y en la otra mitad se diferenciarían en 15 o menos. e. Es F porque f es V. g, h e i. Para la hipótesis de que la media de mujeres supera a la de varones en 20 unidades, la diferencia de las medias muestrales se distribuye Normal con media 20 y desviación 5. Entonces, en la mitad de las muestras en el MR las mujeres aventajarán a los hombres en 20 unidades o más y en la otra mitad la ventaja será de 20 o menos. Y en esa misma distribución, aproximadamente 16 de cada 100 estudios la media de mujeres superará a la varones en 15 unidades o menos (porque valores más alejados de los planteados en la hipótesis son 15 o menores). G e i son V y h es F. Ejercicio 10.4: a. V pues IC es de 2 a 6, aproximadamente. b.F pues la PBILAT = 0.005 muestra evidencia en contra de H0 que plantea que la cerveza no modifica el tiempo de respuesta en población. 376 Solución de los ejercicios 23-EjerciciosE.indd 377 10/2/10 22:16:41 c.V pues la PUNILAT<.00001 muestra gran evidencia contra la H0 que plantea que la cerveza aumenta la media poblacional del tiempo de respuesta en 9 unidades. d. F; eso ocurrió en la muestra y no tiene por qué ocurrir exactamente eso en la población. e.F pues el valor P del test no habla de la prob de la H0, y eso es lo que dice este apartado. Ejerció 10.5: El efecto del ejercicio en la muestra de jóvenes es 12-10 = 2 y en la de viejos 23-16 = 7 Para saber si el ejercicio produce aumento de TA en la población de Viejos: Z = 7/.68 = 10.3, PUNIL con 5 gl, P<.0005 a. Es F pues Z3 gl= 2/0.91 = 2.2 , PUNIL > .05 b.Es posible que se produzca ese aumento en la población pues es lo encontrado en la muestra, pero no lo podemos asegurar. Z3 gl = 0 ,, PUNIL = 0.5 c.Es V pues Z3gl = (14-2)/.91 = 13.2 , P< .0005, con lo que se rechaza la hipótesis de que en población se produce una aumento medio de 14 unidades. Para saber si el efecto del ejercicio es, por término medio, igual en la población de Jóvenes que en la de Viejos: Z = (7-2) / 2.06 = 2.43 con 8 gl , PUNIL entre .01 y.025. d. Es F porque e. es V. Para saber si el efecto del ejercicio puede ser, por término medio, 4 unidades menor en la población de viejos que en la de jóvenes: Z 8gl = (5+4)/2.06 = 4.37 , PUNIL < 0.005. Si el efecto del ejercicio fuera 4 unidades menor en la población de viejos que en la de jóvenes, en menos de 5 de cada 1 000 estudios que se hicieran como este, encontraríamos que el efecto en viejos supera al efecto en jóvenes en 5 unidades o más. Como es muy difícil que ocurra lo que no ha ocurrido en nuestro ejemplo si los efectos se diferenciaran en 4 unidades, rechazamos esa hipótesis, pensando que se diferenciarán en una cantidad mayor de -4. Capítulo 11 Ejercicio 11.1: a. Es V porque el valor grande de P no es evidencia fuerte contra esa hipótesis. b. Es F: no queda demostrado que sean diferentes, pero tampoco que son iguales. c. Es F porque eso ocurre en la muestra. No podemos saber si en la población ocurre lo mismo. d.Es F porque P = 0.18 es la prob de que aparezca ese tipo de resultado si es cierta la H0, no la prob de que ella sea cierta. e. F porque el IC se refiere a la diferencia entre las proporciones, no al valor de cada una de ellas. Ejercicio 11.2: Puesto que IC = 0.024 y 0.056: Si “2” cura 0.024 (24 cada 1 000) mas que “1”, en un millón curará 24 000 más que “1”. Si “2” cura 0.056 (56 cada 1 000) mas que “1”, en un millón curará 56 000 más que “1”. Por tanto, con “2” se curarán entre 24 000 y 56 000 personas más que con “1”. Ejercicio 11.3: Varones Mujeres Total + 2 27 29 18 3 21 Total 20 30 50 p1= .10 p2= .90 p = .58 Z = .8 / .14 = 5.61 ,, P << 0.00001 IC =.80 ± .15 = .65 y .95 Planteada la H0: el porcentaje de melancólicos es igual en la población de hombres que en la de mujeres, se rechaza. En la de mujeres habrá entre 65 y 95 puntos más que en la de hombres (con una confianza del 99%). Ejercicio 11.4: Jóvenes Viejos Total + 8 24 32 32 36 68 Total 40 60 100 p1= .20 p2= .40 p = .32 Z = .20 / .0952 = 2.1 ,, PBil = 0.04 IC = .20± .17 = 0.03 y 0.37 Solución de los ejercicios 377 23-EjerciciosE.indd 378 10/2/10 22:16:41 Planteada la H0: el porcentaje de alcohólicos es igual en la población de jóvenes que en la de viejos, no es obtiene un valor P muy pequeño que permita claramente rechazarla. Los datos no permiten definirse a favor o en contra de H0. Con una confianza de 95%, el porcentaje de alcohólicos será mayor en la población de viejos que en la de jóvenes, entre 3 y 37 ptos más en viejos, aproximadamente. Ejercicio 11.5: a. La H0 planteada es: en población es FR(K) = FR(H), ambas enfermedades son igual de frecuentes. b y c. Z = [(18-12)-1] / 301/2 = 0.9. y PUNIL= 0.18. d. La conclusión es que ambas enfermedades pueden ser igual de frecuentes en la población. e.I. de C. (πK - πH ) ≡ 0.075 ± 0.130 = - 0.055 y 0.205. En la población puede llegar a haber hasta 20% más de enfermos de K que de H, pero también puede ser que haya 5.5% más de H que de K. Ejercicio 11.6: 1º K+ K- 20 5 25 H+ 20 5 25 H- 40 10 50 Datos Independientes FR(H|K+)=0.5 , FR(H|K-)=0.5 H0: πH|K+ = πH|KZ = 0 , PUNIL = 0.5 IC(πH|K+–πH|K-) = -.35 y .35 Datos Apareados FR (H) = 0.8 , FR (K) = 0.5 H0: πH = πK Z =14 / 251/2= 2.8 ,PUNIL= 0.0026 IC95% (πH – πK) = .1 y .5 a.H0: en población es igual de frecuente H en los K+ que en los K- test de independencia con P1 = 0.5, valor muy grande como para no rechazarla, lo que permite concluir que puede ser igual de frecuente la enfermedad H en los que tiene K que en los que no la tienen. c.H0: en población es igual de frecuente H que K, es un test de datos apareados en el que se obtiene P = 0.0026, valor suficientemente pequeño como para rechazarla, lo que permite concluir que es más frecuente H que K. 2º K+ K- 24 1 25 H+ 16 9 25 H- 40 10 50 Datos Independientes FR(H|K+)=0.6 , FR(H|K-)=0.1 H0: πH|K+=πH|KZ = 2.83 , PUnil= 0.0024 IC95% = .5 ± .24 = .26 y .74 Datos Apareados FR (H) = 0.8 FR (K) = 0.5 H0: πH = πK Z =14 /171/2 =3.39, PUni = 0.0003 IC95%(πH – πK)=.3 ±.16=.14 y .46 a.Planteada la hipótesis de que es igual de frecuente H en los K+ que en los K-, es un test de independencia en el que se obtiene P = 0.0024, valor suficientemente pequeño como para rechazarla, lo que permite concluir que H es más frecuente en los K+ que en los K-, es decir, hay relación directa entre ambas enfermedades: es más frecuente una cuando está presente la otra que cuando no lo está. c.Planteada la hipótesis de que en población es igual de frecuente H que K, es un test de datos apareados en el que se obtiene P = 0.0003, valor suficientemente pequeño como para rechazarla, lo que permite concluir que es más frecuente H que K. 3º K+ K- 16 9 25 H+ 24 1 25 H- 40 10 50 Datos Independientes FR(H|K+)=0.4 , FR(H|K-)=0.9 H0:πH|K+= πH|KZ = 2.83 , PUnil= 0.0024 IC95% = -.5 ± .24 = -.74 y .26 Datos Apareados FR (H) = 0.8 FR (K) = 0.5 H0: πH = πK Z = 14 /321/2 = 2.47 , PUni = 0.0067 IC95%(πH – πK) =.3 ± .23=.07 y. 53 a.Planteada la hipótesis de que es igual de frecuente H en los K+ que en los K-, es un test de independencia en el que se obtiene P = 0.0024, valor suficientemente pequeño como para rechazarla, lo que permite concluir que H es más frecuente en los K- que en los K+, es decir, hay relación inversa entre ambas enfermedades: es menos frecuente una cuando está presente la otra que cuando no lo está. c.Planteada la hipótesis de que en población es igual de frecuente H que K, es un test de datos apareados en el que se obtiene P = 0.0067, valor suficientemente pequeño como para rechazarla, lo que permite concluir que es más frecuente H que K. Ejercicio 11.7: Cuando hay relación directa entre la presencia de las dos enfermedades (es más frecuente una cuando está presente la otra que cuando no lo está) la diferencia entre la frecuencia de presentación ambas es estadísticamente “más significativa”, es decir, el valor P del test es menor. Cuando hay relación inversa entre la presencia de las dos enfermedades (es menos frecuente una cuando está presente la otra que cuando no lo está) la diferencia entre la frecuencia de presentación ambas es estadísticamente “menos significativa”, es decir, el valor P del test es mayor. Si en la población hay 15%, esto es, puede ser 15%, pero no lo aseguramos (falsas). 378 Solución de los ejercicios 23-EjerciciosE.indd 379 10/2/10 22:16:41 26, 27 y 28. Se refieren al test C. 26 y 27 son equivalentes y verdaderas pues se rechaza la hipótesis de igualdad planteada. La 28 es la interpretación correcta del valor P del test. 29 a 32. Se refieren al test D. 30 es F porque 31 es V y se está interpretando el valor de P. El test permite concluir que es más frecuente la sordera. 33 a 36. Se refieren al test E. 34 es F porque afirma que sordera e hipertensión son independientes y el test solo nos permite hablar de la posibilidad de que así ocurra, aunque el valor de P hace que la 35 sea discutible por estar en la zona de no clara evidencia en contra de la hipótesis ni tampoco a favor de que sea posible (no es muy difícil, pero tampoco muy fácil, encontrar una muestra en que el porcentaje de hipertensas entre las no sordas supera en 10 puntos o más al de sordas). Capítulo 12 Ejercicio 12.1: N = (0.2 ·0.80·1.652) / 0.082 = 68.0625. Hay que estudiar a 69 alcaldes para garantizar dichas prestaciones. Ejercicio 12.2: Utilizando la fórmula con Z = 1.65, para 90% y 2.58 para 99% se obtiene: Error de estimación no mayor de 0.08 Error de estimación no mayor de 0.02 Confianza 90% 69 1 089 Confianza 99% 167 2 663 es el número de alcaldes que se necesitan estudiar para cada una de las prestaciones indicadas. Ejercicio 12.3: Considerando honestos al 50% de los alcaldes, habrá que estudiar: Error de estimación no mayor de 0.08 Error de estimación no mayor de 0.02 Confianza 90% 107 1 702 Confianza 99% 261 4 161 Ejercicio 12.4: El número de enfermos que hay que estudiar con cada fármaco es d = 0.06 d = 0.02 pA´= 0.10 Conf.= 90% 137 1 226 pB´= 0.10, Conf.= 99% 333 2 996 pA´= 0.50 Conf.= 90% 379 3 404 pB´= 0.50, Conf.= 99% 925 8 321 Ejercicio 12.5: Si A y B curan en torno a 50% de los tratados, tratando 8 321 con A y otros tantos con B, tenemos prob de 99% de que el efecto encontrado en la muestra no se aleje del poblacional en más de 0.02. Ejercicio 12.6: Utilizando la fórmula con Z = 1.96, d = 0.04 y pÁ´= 0.2 y pB´= 0.8, habría que estudiar 985 alcaldes en cada región. Ejercicio 12.7: N = 1.652 · 52 / 62 = 1.89. La muestra sería de 2 individuos. Ejercicio 12.8: El número de asturianos a estudiar en cada caso es: d=4 d=1 Conf.= 90% 9 135 σ≈7 Conf.= 99% 21 327 Conf.= 90% 25 393 σ ≈ 12 Conf.= 99% 60 959 Ejercicio 12.9: Si se estudian 9 asturianos tenemos prob 90% de que la inteligencia media de esa muestra no se separará de la poblacional en más de 4 unidades, si la desviación poblacional es del orden de 7. Ejercicio 12.10: La pregunta tal y como está hecha no tiene respuesta, se necesita precisar más. Ejercicio 12.11: La pregunta tal y como está hecha no tiene respuesta, se necesita precisar más. Ejercicio 12.12: La pregunta tal y como está hecha no tiene respuesta; faltaría por saber cuál es la desviación del peso en la población belga. Ejercicio 12.13: Se necesitarían estudiar el peso de 31 individuos. Solución de los ejercicios 379 23-EjerciciosE.indd 380 10/2/10 22:16:41 Ejercicio 12.14: Se necesitarán estudiar en cada grupo: σSED = 4 d=4 d=2 σEFM = 4 54 22 Conf.= 99% Conf.= 90% 6 14 σSED = 8 Conf.= 90% 24 94 σEFM = 8 Conf.= 99% 58 213 Ejercicio 12.15: Si la σ es del orden de 4 en ambas poblaciones, tomando N = 14 en cada grupo, tenemos prob = 0.99 de que el efecto encontrado en la muestra no se aleje del poblacional en más de 4 unidades. Ejercicio 12.16: N = 200·1.962 / 22 = 192.08. Hay que estudiar 193 médicos en cada grupo. Ejercicio 12.17: El número de médicos a estudiar en cada grupo es: σSIN = 4 d=4 d=2 σCON = 4 54 22 Conf.= 99% Conf.= 90% 6 14 σSIN = 7 Conf.= 90% 17 67 σCON = 7 Conf.= 99% 41 164 Ejercicio 12.18: Si el efecto muestral fue bajar 12 puntos, tenemos confianza 90% en que el efecto poblacional no se diferenciará más de 2 puntos del muestral, es decir, el poblacional será una bajada entre 10 y 14. Capítulo 13 Ejercicio 13.1: a y e. 50 / 5 000 = 0.01 = 1%, 1 por 100. b y d. 2 /1 000 = 0.002, 2 por mil. c. 0.01 / 0.002 = 5. f.El 20% fuma y tienen un riesgo de EB de 0.01. El 1% del 20% = 0.01 · 0.20 = 0.002, 2 de cada 1 000 fumadoras tendrán RN con EB. El 80% no fuman y tiene riesgo de EB de 0.002. El 2 por mil del 80% es 0.002 · 0.8 = 0.0016, 16 de cada 10 000 no fumadoras tendrán RN con EB. 0.002 + 0.0016 = 0.0036, 36 de cada 10 000 embarazadas de esa población tendrán RN con EB. g.El 1% del 70% más el 2 por mil del 30% = 0.01·0.7 + 0.002·0.3 = 0.007 + 0.0006 = 0.0076, 76 de cada 10 000 embarazadas. Ejercicio 13.3: a.R1 = 10 / 1 000 = 0.01; R0 = 1 190 / 299 000 = 0.004 ; P1 = 10 / 1 200 = 0.0083 ; P0 = 990 / 298 800 = 0.0033. OR se parecerá a R1 / R0 pues los Riesgos Específicos son pequeños. Y también a P1 / P0 pues cada una de las proporciones es pequeña. b y c. R1 / R0 = 0.01 / 0.004 = 2.5 y P1 / P0 = 0.0083 / 0.0033 = 2.515 d. OR = (10 · 297 810) / (1 190 · 990) = 2.5279 Ejercicio 13.4: a. El Riesgo Relativo R1 / R0. b. No. c. Siempre. Ejercicio 13.5: Ejemplo 1: R´1 = 160 / 166 = 0.964; R´0 = 40 / 59 = 0.678 ; R´1 / R´0 = 1.422 Ejemplo 2: R´1 = 16 / 616 = 0.026; R´0 = 4 / 1904 = 0.0021 ; R´1 / R´0 = 12.376. No estiman los valores poblacionales. Ejercicio 13.6: a.No, pues las cantidades 200 varones y 800 mujeres fueron decididos por la Dra. La estimación sería correcta si hubiera decidido estudiar 1 000 personas y de ellas hubieran resultado ser 200 varones y mujeres 800. b. No se puede saber. c. No, por la misma razón que en a; la Dra. decidió cuantos varones y mujeres estudiaría. d. Igual que los anteriores; no se puede estimar. Ejercicio 13.7: a. ODD = 0.8 / 0.2 = 4 b. Cuando la proporción es pequeña. c. R1 = A / N1 d. R0 = B / N0 380 Solución de los ejercicios 23-EjerciciosE.indd 381 10/2/10 22:16:41 e. RR= (A / N1 ) / (B / N0 ) f. OR = A·D / B · C g. Cuando R1 y R0 son menores de 0.10. h. 30 / 50 = 0.6 i. 10 / 80 = 0.125 j. k y l. No se puede a partir de una muestra Caso-control. m. (30·70) / (20·10) = 10.5. n. No, por lo dicho en j y k. Ejercicio 13.8: a y b. No se puede pues los datos que tenemos son de una muestra Caso-control. c.Cuanto mayor es el riesgo de ser toxicómano en los que tuvieron padres que lo fueron frente a los que tuvieron padres no toxicómanos. d.Solo se puede a partir de OR de la muestra asumiendo que la toxicomanía es enfermedad poco frecuente. e y f. Haciendo el test para la hipótesis de no asociación se obtiene Z = 2.962, P = 0.0015 y el IC = 1.45 y 6.19. Por tanto, la toxicomanía paterna aumenta la prob de toxicomanía en los hijos, siendo este aumento entre 1.45 y 6.19 en la población. g.0.015 · 10 000 + 0.045 · 10 000 = 150 + 450 = 600 jóvenes. Ejercicio 13.9: ESPAÑA: JÓVENES E+ E- R0= 0.02 R1= 0.06 RR = 3 FRANCIA: JÓVENES R0= 0.02 R1= 0.06 RR = 3 ALEMANIA: JÓVENES R0=0.02 R1= 0.06 RR = 3 E+ AÑOSAS E- R1= 0.003 R0=0.001 RR = 3 AÑOSAS R1= 0.003 R0= 0.001 RR = 3 AÑOSAS R1= 0.003 R0= 0.001 RR = 3 TODAS E+ ER1=.0041 R0=.0196 RR = 0.2092 TODAS R1= .0125 R0=.0042 RR = 2.9762 TODAS R1=.0594 R0=.0017 RR = 34.9412 Ejercicio 13.10: a.Asumiendo enfermedad poco frecuente, el RR se estima con el OR muestral = 2. Para la hipótesis de no asociación Z = 0.79, P > 0.10. Puede que no haya asociación en la población de varones. b.Asumiendo enfermedad poco frecuente, el RR se estima con el OR muestral = 8. Para la hipótesis de no asociación Z = 2.93, P = 0.0017. Hay asociación en la población de mujeres. c.Considerando varones y mujeres juntos, OR muestral = 4.77, Z = 2.85 y P = 0.002. Hubiéramos dicho que hay asociación estadísticamente significativa. d.El valor P para ese Chi-cuadrado es PUnilateral = 0.12, test de homogeneidad no significativo. Puede que la relación entre D y E sea la misma en las dos poblaciones. e.Interpretamos el P unilateral anterior como el porcentaje de estudios (12 de cada 100) como el que tenemos en el que obtendríamos asociaciones tan diferentes entre varones y mujeres como la encontrada o aún mayores si realmente fuera la relación igual en las dos poblaciones. f.Eso es lo que ocurre en las muestras; en la población no sabemos lo que ocurre, pero es posible. Ejercicio 13.11: a.Se puede estimar con el OR muestral = (60·70) / (30·20) =7. Por beber, el riesgo se multiplica por 7. b.El Riesgo específico de los bebedores no lo podemos estimar a partir de esta muestra Caso-control. c.Para la hipótesis de no asociación entre beber y AT se obtiene Z = 6, P muy pequeña, se rechaza la hipótesis. Creemos que en población beber aumenta el riesgo, pues es lo que ocurre en la muestra. d. IC = 3.71–13.22. Con confianza 95% el OR poblacional es mayor de 3.71 y menor de 13.22. e.5 / 1 000 = 0.005 estima R0. Como RR se estima con el OR muestral que es 7, R1 se estima con 0.005 · 7 = 0.035, 35 de cada 1 000 bebedores contraerán AT. 0.005 · 10 000 + 0.035 · 10 000 = 50 + 350 = 400, 35 entre no bebedores y 350 entre bebedores. f. Solución de los ejercicios 381 23-EjerciciosE.indd 382 10/2/10 22:16:42 g. 0.005 · 20 000 = 100 enfermos si nadie hubiera bebido. 400 – 100 = 300 se hubieran evitado. h.0.005 · 0.80 + 0.035 · 0.20 = 0.004 + .007 = 0.011, 11 de cada 1 000 contraerán AT, 4 entre los no bebedores y 7 entre los bebedores. i.Se estima por [(OR-1) / OR ] · P1, estimando P1 por 60/ 80 = 0.75. Entonces (6/7) · 0.75 = 0.6429. aproximadamente, 64 de cada 100 enfermos tendrán AT por haber sido bebedores. Ejercicio 14.3: 0 España 15 ( 0.375 ) Francia 9 ( 0.15 ) Total 24 Capítulo 14 A 12 ( 0.30 ) 12 ( 0.20 ) 24 B 8 ( 0.20 ) 18 ( 0.30 ) 26 AB 5 ( 0.125) 21 ( 0.35 ) 26 Total 100 40 60 b.Se calculan los valores esperados para cada una de las casillas, 24·40/100 = 9.6 españoles del grupo 0 y 26·60/100 = 15.6 franceses del AB, por ejemplo. Y el valor de χ2 = 3.0375 + 0.6 + 0.5538 + 2.8038 + 2.025 + 0.4 + 0.3692 + 1.8692 = 11.6 que con 3 gl da P < 0.1, es decir, si la distribución poblacional fuera la misma en las dos poblaciones, encontrar unas diferencias como las aquí obtenidas o mayores, se obtendrían en menos de 1 de cada 100 estudios similares a este. Capítulo 15 Ejercicio 15.1: Frente al ejemplo 2 A pesar de haber igual diferencia entre las medias muestrales (igual MCE), la dispersión de los datos es mayor en este ejemplo (mayor MCD), y, por tanto, menor valor F y mayor P. Esto hace que sea más difícil obtener evidencia contra la H0. Frente al ejemplo 3 Con igual dispersión de los datos (igual MCD), el ejemplo actual presenta menor diferencia entre las medias muestrales, es decir, menor varianza entre medias muestrales, y menor valor F, y mayor valor P. Frente al ejemplo 1 Se dan las dos razones anteriores. En el ejemplo actual hay menor diferencia entre las medias muestrales, es decir, menor varianza entre las medias muestrales; y, además, hay mayor dispersión de los datos, esto es, mayor MCD. Esto hace que F sea menor y P mayor. Ejercicio 15.2: a y b.No es lícito hacer comparaciones por parejas; hay que hacer ANOVA. La hipótesis nula planteada es H0: Las tres técnicas remiten el dolor en el mismo tiempo, por término medio, en la población. c y d.SC DENTRO= Σ SC i = 26 + 26 + 10 = 62 ; gl DENTRO = 12 ; MC DENTRO = 62 / 1 =5 ( .72 + 4.32 + 3.72 ) = 163.5 ; gl ENTRE = 2 ; MC ENTRE= 163.5 / 2 = 81.75 SC ENTRE F 2, 12 = 81.75 / 5.17 = 15.8 ; P = .0004 e. Los tres tratamientos no son igual de eficaces. Al menos uno es diferente de los demás. f.Si realmente los 3 tratamientos fueran igual de eficaces, es decir, tardaran el mismo tiempo en remitir el dolor, de cada 10 000 veces que se repitiera este experimento (tratando a 5 individuos con cada uno de los 4 tratamientos), solo en 4 de ellos se obtendrían unas medias muestrales tan diferentes como las encontradas en el nuestro o aún más diferentes. Ejercicio 15.3: a. Media = (14 + 20 + 9 + 17) / 4 = 15. b. SCControl = 22 + 42 + 12 + 32 = 30 ; SCA= 12 + 32 + 12 + 32 = 20 ; SCB = 12 + 22 + 02 + 32 = 14 SCD= 12 + 42 + 02 + 32 = 26 ; MCD = (30 + 20 + 14 + 26) / 12 = 11.67. c. Próxima a 11.67 / 4 = 2.92. d. MCE= [ (14-15)2 + (20-15)2 + (9-15)2 + (17-15)2 ] / 3 ] 4 = 88. e. F = MCE / MCD = 88 / 11.67 = 7.54. f.Si los cuatro tratamientos tuvieran el mismo efecto en la población, medias muestrales tan diferentes entre sí como las de nuestro estudio o aún más diferentes solo ocurriría en 7 de cada 10 000 estudios. 382 Solución de los ejercicios 23-EjerciciosE.indd 383 10/2/10 22:16:42 Ejercicio 15.4: Se ordenan los valores de los tres grupos juntos de menor a mayor y a cada uno se le asocia el orden que ocupa en esa lista (rango). Si dos o más valores son iguales: – Si pertenecen al mismo grupo se les asigna el rango que tienen – Si pertenecen a grupos distintos se les asigna el rango promedio. Orden Valor Rango Orden Valor Rango Orden Valor Rango 1º 1A 1 7º 4B 6 13º 8C 12 2º 1A 2 8º 6B 8 14º 10 A 14 3º 2A 3 9º 6B 9 15º 11 C 15 4º 3A 4 10º 7 A 10 16º 12 C 16 5º 4A 6 11º 8 B 12 17º 13 C 17 6º 4B 6 12º 8 B 12 18º 16 C 18 Se suman los rangos de cada uno de los grupos: N = Σ ni = 7 + 6 + 5 = 18 R1= 1 + 2 + 3 + 4 + 6 + 10 + 14 = 40 , R2= 6 + 6 + 8 + 9 + 12 + 12 = 53 , R3= 12 + 15 + 16 + 17 + 18 = 78 Estadístico de contraste, que se distribuye aproximadamente como χ2 con K-1 grados de libertad. H = 12 N ( N +1) K 1 Ri2 ni 3(N +1) En nuestro ejemplo: H = 12 / 18·19 ( 402 / 7 + 532 / 6 + 782 / 5 ) – 3·19 = 10.14 ⇒ P < 0.01 χ2 0.01 = 9.21 χ2 0.05 = 10.60 Si K = 3 y los ni < 5 tablas especiales Si hay empates H = 1 H N3 T siendo T = t3 – t , N con t = número de valores iguales en cada serie. Se suma sobre toda la serie de empates: T0=23-2 , T1=33-3 , T2=23-2 , T3=33-3 , ΣT = 24+ 6 + 24 + 6 = 60 H´=H / 0.99 = 10.25 ____________________________________________________ ANOVA (Paramétrico): SC MC gl F Tablas F con gl 2 y 15 F0.01 = 6.36 ENTRE 193.8 96.9 2 12.3 F0.05 = 3.68 DENTRO 118 7.9 15 P<<0.01 Ejercicio 15.5: a.Para hacer el test de Kruskal-Wallis hay que empezar sumando los rangos en cada grupo. RA = 30.5, RB = 80, RC = 43.5 y RD = 56. Y el estadístico H = 7.62 que al mirar en las tablas de Chicuadrado con 3 gl da P > 0.05. No se rechazaría la hipótesis. b. TOTAL SC ENTRE GL 19 3 150 236 DENTRO MC 50 16 14.75 F ; P 50/14.75 = 3.39 ; > 0.01 y < 0.05 c. Normalmente se obtienen valores de P más pequeños con el test paramétrico. Ejercicio 15.6: n Medias SC S2 10 8 36 4 2 10 8 8 4 12 26 8.667 4 13 14 4.667 a.Al comparar las 4 medias muestrales se ve que el rendimiento medio va aumentando con la agresividad. b. ENTRE SC DENTRO MC 37.33 112 84 F 7.11 , P = 0.0012 5.25 c.La hipótesis nula planteada es que el rendimiento no depende de la agresividad, es decir, que en la población el rendimiento medio es igual en las 4 categorías de agresividad. Solución de los ejercicios 383 23-EjerciciosE.indd 384 10/2/10 22:16:42 d.Si realmente la hipótesis anterior fuera cierta y se repitiera el estudio anterior 10 000 veces, sólo en 12 de ellos se obtendrían medias muestrales tan diferentes como las del nuestro o aún más diferentes. e.Como es muy difícil obtener una diferencia entre las medias muestrales como la de nuestro ejemplo si no hubiera diferencia entre las medias poblacionales, y en nuestro estudio se obtuvo esa diferencia, esto es una clara evidencia en contra de la H0. Lo razonable es pensar la hipótesis no es cierta, que en población sí hay relación entre el nivel de agresividad y el rendimiento en el trabajo. f.Las varianzas de las cuatro poblaciones son iguales. g y h. Si realmente las varianzas poblacionales fueran iguales y se realizara este experimento 100 veces, en 92 de ellos encontraríamos unas varianzas muestrales como las obtenidas en nuestro ejemplo o aún más diferentes. Es decir, es bastante fácil obtener esas varianzas muéstrales si las poblacionales fueran iguales. Por tanto, lo obtenido en nuestro estudio no muestra evidencia contra la hipótesis planteada. Las varianzas poblaciones pueden ser iguales. Capítulo 16 Ejercicio 16.1: YA = 3·X ; YB = 5.5 + X ; YC = 4 + 7·X ; YD = - 4 + 2·X ; YE = 5 + 3·X ; YF = 80 – 0.1·X Ejercicio 16.2: Y 14.1 16.8 79.7 41.4 X 3 4 25 12 Y’ calculada Y´= 3·3 + 5 = 14 Y´= 3·4 + 5 = 17 Y´= 3·25 + 5 = 80 Y´= 3·12 + 5 = 41 d = Y – Y’ 14.1 – 14 = 0.1 16.8 – 17 = - 0.2 79.7 – 80 = - 0.3 41.4 – 41 = 0.4 (Y – Y’ calculada)2 0.12 = 0.01 (-0.2)2 = 0.04 (-0.3)2 = 0.09 0.42 = 0.16 Σ = 0.39 Ejercicio 16.4: a. Por término medio, por cada año que pasa la TA aumenta dos unidades. b. Al estimar los valores de Y por la recta, nos equivocamos en 0.8 unidades por término medio. c. La suma de los cuadrados de los errores cometidos al estimar cada valor de Y por la recta en los 80 individuos es 49.9. d y e. Se ven después. Indica que los puntos están bastante cerca de la recta ascendente (0.85 próximo a 1) y el 72% de toda la variabilidad que presenta la Y se debe a su relación con X. Ejercicio 16.5: t5 = |0.4 – 0.5| / 0.102 = 0.9804, PUNIL > 0.15. Puede se que β = 0.4. Ejercicio 16.6: t5 = |2 – 0.5| / 0.102 = 14.7 , PUNIL << 0.0005. Es prácticamente seguro que β NO es 2. Ejercicio 16.7: Si en la población el coeficiente de regresión fuera 2, en menos de 5 de cada 10 000 estudios similares al realizado se obtendría un coeficiente muestral de 0.5 o menor. Ejercicio 16.8: Σx2 =Σ (Xi - 70)2 = 80 ; Σ yi2 = Σ (Yi - 100)2 = 1 880 ; Σ x y =Σ (Xi - 70)(Yi -100) = -80 a. b = -80 / 80 = -1. El CI disminuye una unidad por año. b. a= 100 - (-1) 70 = 170 ; CI = 170 – EDAD. c. X = 64 ; Y = 170 - 64 = 106. d. Σ di2 = Σ yi2 - (Σ x y)2 / Σx2 = 1 880 - 802 /80 = 1 800. e. s Y.X = (Σ di2 /(n-2) )1/2 = (1 800/10)1/2=13.4. Es aproximadamente la media de los errores al cuadrado. f. r2 = (Σ yi2 - Σ di2) / Σ yi2 = (1 880-1 800)/1 880 = 0.043. g.sb = s Y.X / (Σx2 )1/2 = 13.4 / 801/2 = 1.5 Estima la desviación entre los coeficientes de regresión de las rectas si s e hiciera MA. h.H0 : β = 5 ,, t10 = {5-(-1) } /1.5 = 6/1.6 = 4 ,, P<0.01. No es defendible esa hipótesis, β es mayor de 5. H0 : β = 1 ,, t10 = 2/1.5 = 1.33 ,, P > 0.10. Hipótesis defendible. Puede que β sea 1. H0 : β = -2.5 ,, t10 = 1.5/1.5 = 1 ,, P>0.10. No tenemos fuertes motivos. Puede ser que β = -2.5. H0 : β = -8 ,, t10 = 7/1.5 = 4.66 ,, P<0.001. No son compatibles. Será β > -8. lim = b ± t0.05 Sb = -1 ± 2.23 . 1.5 = 2.35 y -4.35. i. j. k. l. 384 Solución de los ejercicios 23-EjerciciosE.indd 385 11/2/10 13:38:28 Ejercicio 16.9: a. b = 2 unidades. b.Es equivalente a decir que Y aumenta 1.5 unidades por cada unidad de aumento de X. t79 = |2 – 1.5| / 0.20 = 2.5 , P = 0.0062. Se rechaza la hipótesis de este autor. c.Si Y aumentara 2 unidades por cada unidad de aumento de X, en 6 de cada 1 000 experimentos en los que se estudiara a 81 individuos encontraríamos un valor de b como 2 o mayor. d.t79 = |3 – 1.5| / 0.20 = 7.5 , P <<. Estamos prácticamente seguro de que no es 3. e.Puesto que coincide el valor planteado para la población con el encontrado en la muestra, P = 1, no se rechaza la hipótesis. El coeficiente en la población puede ser 2, pero no estamos seguros de ello, también podría ser cualquier otro valor próximo a 2. f y g. Es 10 y estima σ2y.x poblacional, es decir, la varianza entre los valores de Y para cada valor fijo de X (que es la misma para todos los X). h.Se estima en 0.20. i.Que no hay relación lineal entre ambas variables. La hipótesis de coeficiente de Correlación igual a 0 en la población es equivalente a la de coeficiente de regresión en la población igual a 0. t79 = 19.6, P<<, se rechazan ambas. Si hay relación lineal entre las variables, el coeficiente de Correlación en la población es mayor de 0. j. Y = 1 + 2·X = 1 + 2·30 = 61. k. El 64% de la variación de Y es explicado por X. l.IC = 2 ± 1.96 · 0.20 = 1.6 y 2.4. Tenemos seguridad de 95% en que por cada unidad de concentración de calcio en sangre que se aumenta la concentración en LCR varía entre 1.6 y 2.4 unidades en la población. Capítulo 17 Ejercicio 17.1: PPRIORI = 0.01 quiere decir que el 1% de las monedas son legales y el 99% son falsas. La prob del resultado, R, (5 caras de 5 tiradas) se calcula con Binomial con N = 5, X = 5 y π = 0.50 si la moneda es legal ( P(R|L) = 0.0312) y con π = .80 si fuera falsa (P(R|F) = 0.3277). Si PPRIORI = 0.01, P(R y L) = 0.0312 · 0.01 = 0.00031 y P(R y F) = 0.3277 · 0.99 = 0.32442, con lo que P(R) = P(R y L) + P(R y F) = 0.00031 + 0.32442 = 0.32473. Entonces P(L|R) = 0.00031 / 0.32473 = 0.00095 que aproximando a 3 decimales queda 0.001. Ejercicio 17.2: Se sigue el mismo razonamiento anterior pero con PPRIORI = 0.10, lo que quiere decir que el 10% de las monedas son legales y el 90% son falsas. La prob del resultado, R, (5 caras de 5 tiradas) se calcula con Binomial con N = 5, X = 5 y π = 0.50 si la moneda es legal ( P(R|L) = 0.0312) y con π =.80 si fuera falsa (P(R|F) = 0.3277). Si PPRIORI = 0.10, P(R y L) = 0.0312 · 0.10 = 0.00312 y P(R y F) = 0.3277 · 0.90 = 0.29493, con lo que P(R) = P(R y L) + P(R y F) = 0.00312 + 0.29493 = 0.29805 que aproximamos a 0.298. Entonces P(L|R) = 0.00312 / 0.298 = 0.01. Ejercicio 17.3: Si la moneda fuera legal (π cara= 0.50), de cada 100 experimentos consistentes en tirar 5 veces una moneda, 3 de ellos darán 5 caras. De cada 1 000 monedas tiradas 5 veces y que hayan salido las 5 caras, 1 de las monedas será legal si en la población hay 1% de monedas legales y 10 de las monedas serán legales si en la población hubiera 10% de monedas legales. Ejercicio 17.4: R P(B; π= 0.1/6) = 0.90 P(R|B) = 0.00077 P(ByR) =.00077·.9 = 0.00069 P(L|R) = .000069 / 0.00109 = 0.64 P(T; π= 0.25) = 0.10 P(R|T) = 0.00391 P(TyR) =.00391 · 0.1 = 0.00039 P(F|R) = .0.36 TOTAL P(R) = 0.00109 La PPOSTERIORI es 0.64, es decir, de cada 100 dados lanzados 4 veces y que haya salido “5” en las 4 tiradas, 64 de los dados serán buenos si en el almacén hay 90% de los dados buenos. Solución de los ejercicios 385 23-EjerciciosE.indd 386 10/2/10 22:16:42 Capítulo 18 Ejercicio 18.1: a.N = 100, σMedia = 10 / 10 = 1 , P = 0.05 si M supera a 50 en 1.64 desviaciones: 50 + 1.64 · 1 = 51.64. Región de rechazo es M ≥ 51.64. b.Si es µ LEUC = 50 es P (M ≥ 51.64 | µ LEUC = 50) = P ( Z ≥ (51.64 - 50) ) = P (Z ≥ 1.64) = 0.05. c.Si es µ LEUC = 52 la Potencia es P (M ≥ 51.64 | µ LEUC = 52) = P ( Z ≥ (51.64 - 52) ) = P (Z ≥ -0.36) = 1 – 0.3594 = 0.64. d.Si es µ LEUC = 54 la Potencia es P (M ≥ 51.64 | µ LEUC = 54) = P ( Z ≥ (51.64 - 54) ) = P (Z ≥ -2.36) = 1 – 0.0091 = 0.99. e.Si es µ LEUC = 56 la Potencia es P (M ≥ 51.64 | µ LEUC = 56) = P ( Z ≥ (51.64 - 56) ) = P (Z ≥ -4.36) = 1 – 0.000007 = 0.999993, prácticamente 100%. Ejercicio 18.2: a.N = 36, σMedia = 18 / 6 = 3 , P = 0.05 si M está 1.64 desviaciones por debajo (pues la sospecha es que acorta la vida) de 300: 300 - 1.64 · 3 = 295.08. Región de rechazo es M ≤ 295.08. b.Si es µ SOBREAL= 300 la Potencia es P (M ≤ 295.08 | µSOBREA = 300) = P (M ≤ (295.08 - 300) / 3) = P (Z ≤ -1.64) = 0.05. c.Si es µ SOBREALI = 296 la Potencia es P (M ≤ 295.08 | µSOBREALI = 296) = P (M ≤ (295.08 - 296) / 3) = P (Z ≤ -0.31) = 0.38. d.Si es µ SOBREALI = 292 la Potencia es P (M ≤ 295.08 | µSOBREALI = 292) = P (M ≤ (295.08- 292) / 3) = P (Z ≤ 1.03) = 1 - 0.0.15 = 0.85. e.Si es µ SOBREALI = 289 la Potencia es P (M ≤ 295.08 | µSOBREALI = 289) = P (M ≤ (295.08- 289) / 3) = P (Z ≤ 2.03) = 1 - 0.02 = 0.98. Ejercicio 18.3: a.Si se rechaza cuando sea P del test ≤ 0.01, se hará cuando sea X ≥ 6 (esta es la Región Crítica de Rechazo). b.Si es πA = 30% la Potencia es P (X ≥ 6│ πA= 0.30) = 0.0368 + 0.0090 + 0.0014 + 0.0001 = 0.0473. c.Si es πA = 50% la Potencia es P (X ≥ 6│ πA= 0.50) = 0.2051 + 0.1172 + 0.0439 + 0.0098 + 0.0010 = 0.377, es decir, 37%. d.Si es πA = 80% la Potencia es P (X ≥ 6│ πA= 0.80) = P (X ≤ 4│ πA= 0.20) = 0.0881 + 0.2013 + 0.3020 + 0.2684 + 0.1074 =0.9672, casi 97% de Potencia. Ejercicio 18.4: a.El número esperado de curaciones si es cierta H0, es decir si A cura igual que el clásico, es E = 5 · 0.1 = 0.5, de modo que esperamos obtener 0 o 1 curaciones. b.Rechazaremos H­­­0, pensando que πA > 0.10, si es X = 3, porque en la tabla de la Binomial se ve que P( X ≥ 3 | πA= 0.10) = 0.0081 + 0.0004 + 0.0000 = 0.0085 = 0.85%. (no es 85%). Pero no rechazaremos H­­­0 si es X = 2, porque en la tabla de la Binomial se ve que P (X ≥ 2 | πA=0.10) = 0.0729 + 0.0081 + 0.0004 + 0.0000 = 0.0814 = 8.14%. Por tanto, rechazaremos si es X= 3 o X= 4 o X= 5. Es decir, la Región Crítica de Rechazo es 3, 4 y 5. c.α es la Prob. de que X sea 3 o 4 o 5 si es πA = 0.10. Esa Prob. es 0.0085 = 85 por 10 000. Si realmente es πA= 0.10 y 10 000 investigadores hicieran ese estudio, 85 de ellos encontrarían P < 0.05 y rechazarían, equivocadamente, la H0 . d.La Potencia del test si realmente fuera πA = 0.30, es P ( X ≥ 3 | πA=0.30 ). En la tabla vemos que es 0.1323 + 0.0284 + 0.0024 = 0.1631. Es decir si realmente es πA=0.30 y 10 000 investigadores hicieran ese estudio, 1631 de ellos encontrarían P < 0.05 y rechazarían, acertadamente, la H0. e.La Potencia del test si realmente fuera πA = 0.50, es P(X ≥ 3 | πA=0.50). En la tabla vemos que es 0.3125 + 0.1582 + 0.0312 = 0.5019. Es decir si realmente es πA=0.50 y 10 000 investigadores hicieran ese estudio, 5019 de ellos encontrarían P < 0.05 y rechazarían, acertadamente, la H0. f.La Potencia del test si realmente fuera πA = 0.90, es P(X ≥ 3 | πA=0.50). En la tabla vemos que es 0.5901 + 0.3280 + 0.0729 = 0.991. Es decir si realmente es πA= 0.90 y 1 000 investigadores hicieran ese estudio, 991 de ellos encontrarían P < 0.05 y rechazarían, acertadamente, la H0. 386 Solución de los ejercicios 23-EjerciciosE.indd 387 10/2/10 22:16:42 Ejercicio 18.5: Si queremos declarar como útiles (que cure más del 10%) a 5 de cada 100 productos inútiles (que cure 10%), estudiando 299 tratados tendremos una prob de 85% de declarar el producto útil si realmente cura 15%. Ejercicio 18.6: Si queremos declarar como útiles (que cure más del 10%) a 5 de cada 100 productos inútiles (que cure 10%), estudiando 61 tratados tendremos una prob de 99% de declarar el producto útil si realmente cura 30%. Ejercicio 18.7: α = 0.05, Potencia 85% Potencia 99% Si es πIOS = 0.3 [.656+1.03 · 0.21½ ]2 / 0.01 = 127 [.656+2.33 · 0.21½ ]2 / 0.01= 297 Si es πIOS = 0.8 [.656+1.03 · 0.16½ ]2 / 0.36 = 3 [.656+2.33 · 0.16½ ]2 / 0.36 = 7 Ejercicio 18.8: Si se decide concluir que el porcentaje de votos es mayor de 20% cuando en realidad sea 20% (es decir, cuando P del test sea ≤ 0.05), encuestando a 127 ciudadanos tendremos prob de 85% de detectar que πIOS es mayor que 20% si realmente es 30%. Ejercicio 18.9: Si se decide concluir que el porcentaje de votos es mayor de 20% cuando en realidad sea 20% (es decir, cuando P del test sea ≤ 0.05), encuestando a 7 ciudadanos tendremos prob de 99% de detectar que πIOS es mayor que 20% si realmente es 80%. Ejercicio 18.10: Si acordamos declarar como útiles (que cure más que B) a 5 de cada 100 productos inútiles (que cure igual que B), estudiando 179 tratados con B tendremos una prob de 99% de declarar el producto B útil si realmente cura 30% más que A. Ejercicio 18.11: Si acordamos declarar como útiles (que cure más que B) a 5 de cada 100 productos inútiles (que cure igual que B), estudiando 2948 tratados con B tendremos una prob de 99% de declarar el producto B útil si realmente cura 5% más que A. Ejercicio 18.12: 0.10 (1.29) 0.05 (1.64) ↓β ↓α (Z α) 0.05 (1.64) 0.01 (2.33) (Z β) 0.01 (2.33) 0.01 (2.33) 253 15.76 115 µ2008 ↓ (Z α + Z β )2 8.59 21.72 138 348 110 35 64 87 100 9 16 23 Ejercicio 18.13: Si queremos tener riesgo 5% de declarar que µ2008 < 120 cuando realmente es µ2008 = 120 (es decir, concluir que hay reducción de gastos si realmente no lo hay; esto es rechazar H0), estudiando 16 franceses tendremos prob 99% de decir que µ2008 < 120 si realmente es µ2008 = 100 (es decir, declarar que hay reducción de gastos si realmente es µ2008 = 100). Ejercicio 18.14: Si queremos tener riesgo 5% de concluir que hay reducción de gastos si realmente no lo hay (rechazar H0), estudiando 138 franceses tendremos prob 90% de decir que µ2008 < 120 (es decir, declarar que hay reducción de gastos) si realmente es µ2008 = 115. Ejercicio 18.15: Si queremos tener riesgo 5% de concluir que hay reducción de gastos si realmente no lo hay (rechazar H0), estudiando 348 franceses tendremos prob 99% de decir que µ2008 < 120 (es decir, declarar que hay reducción de gastos) si realmente es µ2008 = 115. Ejercicio 18.16: σ = 10 , µ2000 = 50 , P ≤ 0.05 ⇒ Zα = 1.64 Potencia = 90% , β = 0.10 , Z β = 1.29 N = (1.64 + 1.29)2 · 102 / 102 = 9 N = (1.64 + 1.29)2 · 102 / 202 = 3 µ2009 = 40 µ2009 = 30 Potencia = 98% , β = 0.02 , Z β = 2.05 N = (1.64 + 2.05)2 · 102 / 102 = 14 N = (1.64 + 2.05)2 · 102 / 202 = 4 Ejercicio 18.17: Si aceptamos tener riesgo 5% de concluir que la media poblacional actual es menos de 50 cuando realmente es igual a 50, con N = 9 tenemos prob 98% de no detectar que la media poblacional es inferior a 50 si realmente es 40. Ejercicio 18.18: Si aceptamos tener riesgo 5% de concluir que la media poblacional actual es menos de 50 cuando realmente es igual a 50, con N = 14 tenemos prob 90% de detectar que la media poblacional es inferior a 50 si realmente es 40. Solución de los ejercicios 387 23-EjerciciosE.indd 388 10/2/10 22:16:42 Ejercicio 18.19: N = 2 · C2 · (Z α + Z β )2 = 2 · 0.25 · 29.48 = 15. Si decidimos rechazar H0 que dice que el fármaco “2” es inútil cuando el test da P ≤ 0.05, estudiando 15 tratados con cada fármaco tendremos potencia de 99% (esto es, prob de admitir que “2” es útil) si la media poblacional con “2” aventaja a la de “1” en 2 desviaciones estándar. Ejercicio 18.20: N = 2 · C2 · (Z α + Z β )2 = 2 · 1 · 6.25 = 13. Si decidimos rechazar H0 que dice que el fármaco “2” es inútil cuando el test da P ≤ 0.05, estudiando 13 tratados con cada fármaco tendremos potencia 80% (esto es, prob de admitir que “2” es útil) si la media poblacional con “2” aventaja a la de “1” en 1 desviación estándar. Ejercicio 18.21: Si decidimos rechazar H0 que dice que el fármaco “2” es inútil cuando el test da P ≤ 0.05, estudiando 22 tratados con cada fármaco tendremos potencia de 95% (esto es, prob de admitir que “2” es útil) si la media poblacional con “2” aventaja a la de “1” en 1 desviación estándar. Ejercicio 18.22: Si decidimos rechazar H0 que dice que el fármaco “2” es inútil cuando el test da P ≤ 0.05, estudiando 200 tratados con cada fármaco tendremos potencia de 80% (esto es, prob de admitir que “2” es útil) si la media poblacional con “2” aventaja a la de “1” en ¼ de desviación estándar. Ejercicio 18.23: Si decidimos rechazar H0 que dice que el fármaco “2” es inútil cuando el test da P ≤ 0.05, estudiando 944 tratados con cada fármaco tendremos potencia de 99% (esto es, prob de admitir que “2” es útil) si la media poblacional con “2” aventaja a la de “1” en ¼ de desviación estándar. APÉNDICE A Ejercicio A.1: a.Cada vez que se tira el dado la prob de que salga “5” es 1/6 = 0.17. Y si se tiran 3 dados, las prob de ganar en las tres tiradas es (1/6)3 = 0.0046, aproximadamente 5 por 1 000. Es decir, si millones de niñas lanzan 3 veces el dado, sólo 5 de cada mil obtendrán “5” las tres veces. b.Ganar con 4 tiradas ocurriría (1/6)4 = 0.00077, aproximadamente 8 cada 10 000. Cada 10 000 personas que jugaran a lanzar 4 dados, solo 8 ganarían y lo más fácil es que Lucía no sea una de esas 8, sino de las 9 992 restantes que perderían. Ejercicio A.2: Puede salir siempre cuatro y puede salir nunca 4, pero ocurrirá lo que en las series anteriores: saldrá 4 aproximadamente el 20% de las tiradas, el 20% de 500 000 que es 100 000. Ejercicio A.3: Si la paciencia del observador se extiende hasta observar no una, sino muchas series de 8 rojos seguidos, encontrará que fueron seguidas por negro aproximadamente la mitad de las series. La otra mitad fueron seguidas por otro rojo. Ejercicio A.4: a. P(100 caras) = 0.5 100 = 10 -30 = 1 entre 1 000000 000000 000000 000000 000000 b.En la tierra hay unos 5 000 millones de personas. 10 30 / 5 ·10 9 = 10 20. Habría que reunir los habitantes de 100 millones de millones de millones de planetas como el nuestro para que jugando todos, a uno le tocaran las 100 caras. Otro ejemplo: si una inmensa playa de 5 km de largo, 100 m de ancho y 4 metros de profundidad tiene granos de arena de medio milímetro de diámetro, harían falta mil millones de millones de playas. Y si todo el planeta estuviera cubierto por esa capa de arena de 4 m de profundidad, hacen falta 50000 planetas. Ejercicio A.5: Aunque las cantidades que aparecen en a, b y c son correctas, la respuesta adecuada para el apartado a de A.1 es la d. Y aunque la prob de f es correcta, la respuesta adecuada para B.1 es la g. APÉNDICE B Ejercicio B.1: Son verdaderas a y g para el producto A; b, e y g para los fármacos B, C y D 388 Solución de los ejercicios 00-Indice.indd 1 10/2/10 22:13:53 00-Indice.indd 1 10/2/10 22:13:53 En busca de tesoros escondidos Del rincón en el ángulo oscuro, de su dueño tal vez olvidada, silenciosa y cubierta de polvo, veíase el arpa. ¡Cuánta nota dormía en sus cuerdas, como el pájaro duerme en la rama, esperando la mano de nieve que sabe arrancarla! ¡Ay –pensé- cuántas veces el genio así duerme en el fondo del alma y una voz como Lázaro espera que le diga “levántate y anda”! Esta rima de Bécquer es un canto a los que buscan y sacan a la luz tesoros escondidos, como hacen los bioestadísticos. Los submarinistas bucean en los mares y encuentran galeones hundidos hace siglos con cofres que esconden tesoros; los escultores desechan los trozos periféricos del bloque de mármol y encuentran La Piedad, El David, El Pensador, El Beso…; los bioestadísticos bucean en las bases de datos, desechan los no necesarios y encuentran relaciones no conocidas antes, como: • los masajes oculares retrasan la aparición de “vista cansada” • los bailarines de salsa, tango, vals… consumen mucho menos alcohol en las fiestas • la práctica regular de ejercicio reduce la hipertensión arterial y la diabetes. Cada día se generan nuevas Bases de Datos que encierran información muy útil, pero solamente usando las herramientas adecuadas se pueden desenterrar esos tesoros escondidos en ellas. En la investigación médica y sociológica, en los estudios de mercado y en el control de calidad de las empresas, la Bioestadística saca a la luz esas relaciones Conocer los fundamentos lógicos, que no matemáticos, de esta disciplina permitirá al científico y el profesional de este siglo entender una información inasequible al que ignore esos conceptos básicos. Este LIBRO explica los fundamentos lógicos sin usar herramienta matemática y aplicándolos siempre a situaciones prácticas. Incluye cientos de ejercicios y encuestas de autoevaluación. Los AUTORES son profesores de metodología de la investigación en la Universidad Complutense de Madrid. Acumulan más de 60 años explicando estos temas a estudiantes y a profesionales en universidades y empresas. Han publicado más de 200 trabajos de investigación. Sus alumnos destacan en ellos su capacidad para poner al alcance del profano en matemáticas los conceptos fundamentales del análisis estadístico.