Introducción al análisis multivariable con SPSS Dr. Javier Cebrián Domènech Dr. Vicent Modesto i Alapont El poder de las Matemáticas Desde Pitágoras de Samos (VI a.C.), Copérnico, Kepler y Galileo, el científico se caracteriza por la creencia de que la verdadera naturaleza del mundo se expresa con las matemáticas Para entender la naturaleza debemos hablar el lenguaje de los números “Filosofía es lo que contiene este libro. Me refiero al Universo que constantemente permanece abierto ante nuestra mirada. Pero no se puede entender a menos que se aprenda antes a comprender su lenguaje y se interpreten los caracteres en los que está escrito. Está escrito en el lenguaje de las matemáticas, y sus caracteres son triángulos, círculos y otras figuras geométricas sin las cuales es humanamente imposible entender una sóla palabra de él; sin esto uno se encuentra perdido en un oscuro laberinto”. Galileo Galilei; Il Saggiatore (El ensayista) (1623). El papel de la Epidemiología Establecer RELACIONES CAUSALES en medicina Causa Efecto Tratamiento Curación Factor de Riesgo Enfermedad Factor Pronóstico Mortalidad “Asociación NO ES Causación” ASOCIACIÓN: Concepto de FUNCIÓN y = f(x) Peso = f (altura) Cáncer Mama = f (THS) Cáncer Pulmón = f (hábito tabáquico) Cáncer Páncreas = f (consumo café) Leucomalacia PV = f (hiperventilación) “Asociación NO ES Causación” CAUSALIDAD: Concepto FILOSÓFICO que tiene que ver con nuestra concepción del mundo causa efecto Peso Altura Correlación THS Cáncer Mama Tabaco Cáncer Pulmón Café Cáncer Páncreas Confusión Hiperventilación Leucomalacia PV Chiste: Jim Borgman (Copyright: Hearst Corporation) Asociación: Posibilidades Debida al azar de muestreo: p < 0’05 Muestral pero no poblacional 2. Espúrea: SESGO DE CONFUSIÓN: Poblacional Producida por la presencia de causas comunes a las variables asociadas 3. Causal: Cumple criterios de causalidad 1. Austin Bradford Hill; The environment and disease: Association or Causation?. Proceedings of the Royal Society of Medicine 1965; 58: 295-300 Criterios de Causalidad (Sir Austin Bradford Hill, 1965) Estudio: Diseño adecuado + Validez interna Criterios Mayores: I. II. A. B. C. D. III. a. b. Precedencia temporal correcta (E. Prospectivo) Plausibilidad biológica Consistencia en estudios repetidos diferentes Exclusión de explicaciones alternativas (Confusores y Azar) Criterios Menores: c. Versión de Gradiente dosis-respuesta Magnitud de la fuerza de asociación (RR, OR, DR, NNT) y Precisión de la estimación (IC estrecho) Efecto del cese de exposición U.S. Surgeon General 1965: Smoking and Health U.S Surgeon General 1990: Criteria for evaluating evidence regarding the effectiveness of perinatal interventions Sesgo de confusión ¿? Dedos Amarillos Estudio de cohortes Dedos amarillos Cáncer Pulmón Cáncer Pulmón Sí No Sí 38 12 50 No 10 37 47 48 49 97 Sesión iniciada el 17/12/2006 a las 17:15:05 Procedimiento Ji Cuadrado Tabla de contingencia 38 10 12 37 Grados de libertad= 1 Ji Cuadrado de Pearson: 29.023 ; Valor de P: 0.000 Con corrección de Yates: 26.876 ; Valor de P: 0.000 Fin del procedimiento a las: 17:24:29 ---------------------------------------------------------------------------- Los DEDOS AMARILLOS son causa de CÁNCER DE PULMÓN Sesgo de Confusión La aleatorización de muestras grandes es la mejor manera de evitar la confusión... Aleatorización (muestra grande) Evitar el sesgo de confusión En base al teorema de la LGN, la aleatorización de muestras grandes tiende a producir grupos uniformes en todas las variables (incluidas las desconocidas), salvo la intervención a estudio Cuando n es ∞, consigue que todos los factores extraños se distribuyan por igual en los grupos del estudio: la única diferencia entre los grupos que se comparan será el tratamiento recibido Ello es imprescindible para atribuir la causalidad de las diferencias en el resultado final a la única variable distinta: la intervención (que se aplica luego de la aleatorización) Experimento Conclusión: La causa de las diferencias es la intervención Intervención Experimento Conclusión: ¿? Intervención Aleatorización (muestra grande) Evitar el sesgo de confusión Para evitar el sesgo de confusión mediante la aleatorización, se utiliza el teorema denominado “Ley de los Grandes Números” Que como su nombre indica, se cumple sólo cuando n es un “número grande” Ley Grandes Números (LGN) lim [(x/n)]=p(x) n ∞ Es decir que, asintóticamente (cuando n es ∞), la probabilidad con la que una característica está presente en una población, coincide con la frecuencia de aparición de esa característica en una muestra aleatoria de tamaño n a = …… b = ____ Simulación de frecuencia de obtención de “cero” en la ruleta americana: a = Probabilidad teórica: 1/19; b = frecuencia asintótica No solo es un hecho empírico, del que sabemos que es muy poco probable que sea falso… … sino que hay demostración matemática de que es cierta ¿Cómo conseguir dos muestras iguales? Probabilidad = p frecA ≠ p frecA ≠ frecB frecB ≠ p Muestreo no aleatorio Tamaño muestral pequeño “Muestras no representativas” ¿Cómo conseguir dos muestras iguales? Probabilidad = p frecA = p LGN frecA = frecB frecB = p Muestreo aleatorio Tamaño muestral cercano a ∞ Experimento Conclusión: La causa de las diferencias es la intervención Intervención …¿y cuando no es posible aleatorizar la variable independiente? El manejo de la confusión sólo es posible mediante análisis multivariable: Estandarización: S.M.R. Estratificación: Ji-cuadrado Mantel-Haenszel Modelos multivariables VDep contínua: Regresión Lineal Múltiple VDep binaria: Regresión Logística Supervivencia: Regresión de Cox Sólo evitan la confusión producida por las variables que se introducen en el análisis Ojo: Siempre puede existir confusión residual Dimensiones Vista Lateral Vista Frontal Vista Posterior Vista Superior Sesgo de confusión Dedos Amarillos ¿? Tabaco Cáncer Pulmón Regresión multivariable Dedos Amarillos + Dedos + Amarillos Dedos Amarillos + Tabaco + …… + Tabaco + …… + Tabaco + …… + Otras (medidas) = Otras (medidas) = Otras (medidas) = Cáncer de Pulmón Cáncer de Pulmón Cáncer de Pulmón Regresión multivariable Utiliza el álgebra de matrices y = a + b1*X1+ b2*X2 + b3*X3 + …. + bm*Xm [Y]n = [datos]n*m x [X]m Matriz de datos: completa Sólo variables: Para variables categóricas: Binarias: 0 y 1 Contínuas Uso de Variables Dummy x1 y1 368...6 y 2 x 2 246...7 x3 ... 354...8 ... yn bm .........nxm Las variables independientes no pueden ser combinaciones lineales entre ellas: el álgebra no se puede calcular Variables Dummy Variable cuatro categorías Nada (Ref) Tres variables Dummy Dummy1 Dummy2 Dummy3 - - - Poco 1 0 0 Bastante 0 1 0 Mucho 0 0 1 Regresión lineal Dr. Javier Cebrián Domènech Dr. Vicent Modesto i Alapont Regresión Lineal y = a + bx a = corte eje y b = pendiente Regresión Lineal 1. La información de la nube de puntos ¿Puede resumirse en una recta?: r Pearson ; R2 determinación Regresión Lineal 1. La información de la nube de puntos ¿Puede resumirse en una recta?: r Pearson ; R2 determinación 2. ¿Cuál es la recta que mejor ajusta? Método de mínimos cuadrados: valor b y a a = media(y) – bmedia(x) n( XY ) ( X )( Y ) b n( X 2 ) ( X ) 2 ( Y )( X 2 ) ( X )( XY ) a n( X 2 ) ( X ) 2 MÉTODO DE MINIMOS CUADRADOS: La mejor candidata es la recta que tiene la MÍNIMA DISTANCIA a todos los puntos = La suma de las diferencias al cuadrado (entre lo que predice la recta y el valor observado para cada valor de la var. independiente) es mínima. Las diferencias se elevan al cuadrado para que las desviaciones positivas y negativas contribuyan igualmente. Regresión Lineal 1. La información de la nube de puntos ¿Puede resumirse en una recta?: r Pearson ; R2 determinación 2. ¿Cuál es la recta que mejor ajusta? Método de mínimos cuadrados: valor b y a 3. El efecto muestral ¿ocurre en la población? Significación estadística e IC95% de b Interacción o Modificación del efecto Relación entre fuerza articular y grosor muscular Interacción Se introduce en el modelo como una variable nueva independiente Es el producto entre las dos vars. indeps. = [Enf*Grosor] Regresión Lineal Múltiple Extensión multivariable de la regresión lineal La función que modeliza la relación entre las variables es el plano multidimensional y = a + b1*X1+ b2*X2 + b3*X3 + …. + bm*Xm En cada dimensión, la relación entre la variable resultado y cada variable independiente es lineal Regresión Lineal Múltiple El modelo se ajusta eligiendo los coeficientes que minimizan los errores cuadrados multivariables (Gauss) Se usa el álgebra matricial y se buscan máx/mín de funciones Se iguala la segunda derivada a cero y se soluciona un sistema de ecuaciones. Es equivalente a la Estim MaxVeros asumiendo normalidad mediante el método de Newton-Raphson Se puede demostrar que la matriz de coeficientes: B= t (X -1 X) t X Y Regresión Lineal Múltiple Las variables que quedan en el modelo se eligen Modelos predictivos: Variables con Signif Estad Modelos para estimar un efecto causal: Confusores + Interacciones con sig estad y regla jerarquíca Contrafactuales y Modelos Estructurales Marginales Se usa Fordward, Backward y Stepwise Precisión: Usar el modelo más parsimonioso Tiene más capacidad post-dictiva FRC = -7’81 + 0’01*edad + 0’06*talla R2 = 0’51 Diagnóstico de Regresión ¡¡ Heil Gauss!! He = Homocedasticidad: I = Independencia en las mediciones: Ausencia de autocorrelación y multicolinealidad L = Linealidad: Las varianzas de las variables son semejantes Ajuste a un modelo lineal: R2 grande Gauss = Normalidad Variables contínuas son normales Diagnóstico de Regresión: Independencia Exclusión de Auto-correlación en var. resultado: Auto-correlación: Perturbación consistente en que cada valor de la var. resultado está correlacionado con el valor previo de la var. resultado = yn con yn-1 Muy frecuente en series temporales o diseños de medidas repetidas Hay una fuente de variación no controlada Prueba de Durbin-Watson: Normal = Alrededor de 1 (Tabulado) Valores > 1: Autocorrelación negativa Valores < 1: Autocorrelación positiva Diagnóstico de Regresión: Independencia (2) Exclusión de Co-linealidad: Multicolinealidad: Una (o más) de las var.indep. pueden ser predichas con las demás Hay información redundante en las var.indeps Disminuye precisión en la estimación los coeficientes 1) Tolerancia = 1/VIF. Tolerancia < 0’1 = gran colinealidad 2) VIF: Factor de inflación de la varianza Mide cuanto se ha “hinchado” la varianza del parámetro b de ese factor porque las otras var.indep contienen información redundante VIF óptimo = 1. VIF > 10 indica gran multicolienalidad 3) Análisis de Componentes Principales de la varianza Diagnóstico de Regresión: Estudio de los Residuales La distribución de los Residuales: Es Normal Está centrada en cero La varianza es uniforme: homocedasticidad La normalidad de los residuales es la principal condición de aplicación 4,00000 270 170 85 96 2,00000 0,00000 -2,00000 81 -4,00000 Studentized Deleted Residual Histograma Variable dependiente Frecuencia 50 40 30 20 10 0 -4 -2 0 2 4 Regression Standardized Residual Mean = -5,01E-15 Std. Dev. = 0,993 N = 287 Tests of Normal ity a Kolmogorov -Smirnov Stat is tic df Sig. Studentized Delet ed Residual ,052 a. Lillief ors Signif ic ance Correct ion 287 ,058 Stat is tic ,980 Shapiro-Wilk df 287 Sig. ,000 Normal P-P Plot of Regression Standardized Residual Dependent Variable: frc 1,0 Expected Cum Prob 0,8 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 Observed Cum Prob 0,8 1,0 Scatterplot Dependent Variable: frc Regression Studentized Deleted (Press) Residual 4 2 0 -2 -4 -3 -2 -1 0 1 2 3 Regression Standardized Predicted Value 4 Regresión logística Dr. Javier Cebrián Domènech Dr. Vicent Modesto i Alapont Hepatitis tras transfusión R0=68’97%; Rexp=98’36%; RR=1’43 Estudio de cohortes Transfusión Sí No Hepatitis Sí No 300 5 100 45 400 50 R0 = 100/145 = 0’6897 Rexp = 300/305 = 0’9836 RR = Rexp / R0 = 1’426 305 145 450 Hepatitis tras transfusión R0=68’97%; Rexp=98’36%; RR=1’43 Estudio de caso-control Transfusión Sí No Hepatitis Sí No 30 5 10 45 40 50 R0 = 10/55 = 0’1818 Rexp = 30/35 = 0’8571 RR = Rexp / R0 = 4’7143 35 55 90 ¿? Incertidumbre: Probabilidad y Odds El grado de incertidumbre/certeza puede expresarse de dos formas Como Probabilidad: 0 – 1 [prob = favor/n] Como Odds: 0 - [odds = favor/contra] Menos intuitivo Ventajas para el cálculo Incertidumbre: Probabilidad y Odds Prob = odds / 1+odds Odds = prob / 1-prob Incertidumbre: Probabilidad y Odds Prob. 0.75 0.6 0.98 0.02 0.8 Odds 3 1.5 49 0.02 4 Magnitud de un efecto: RR Causa Sí No Rexp=a/(a+b) R0=c/(c+d) Efecto Sí No a b c d a+c b+d a+b c+d n = RRenf=a/(a+b) / c/(c+d) Magnitud de un efecto: Odds y OR de Enfermar Causa Sí No Oexp=a/b O0=c/d Efecto Sí No a b c d a+c b+d a+b c+d n = ORenf = a*d/c*b Magnitud de un efecto: Odds y OR de Exposición Causa Sí No Oenf=a/c Onenf=b/d Efecto Sí No a b c d a+c b+d a+b c+d n = ORexp = a*d/c*b Magnitud de un efecto: OR = ORenfermar = ORexposición Causa Sí No Efecto Sí No a b c d a+c b+d a+b c+d n ORenf = ORexp = OR = a*d/b*c Sirve para cohortes y para caso-control Se modeliza con Regresión Logística Hepatitis tras transfusión R0=68’97%; Rexp=98’36%; RR=1’43 Estudio de caso-control Transfusión Sí No Hepatitis Sí No 30 5 10 45 40 50 R0 = 10/55 = 0’1818 Rexp = 30/35 = 0’8571 RR = Rexp / R0 = 4’7143 35 55 90 ¿? Hepatitis tras transfusión R0=68’97%; Rexp=98’36%; RR=1’43; OR=27 Estudio de caso-control Transfusión Sí No Hepatitis Sí No 30 5 10 45 40 50 OR = 30*45 / 5*10 = 27 35 55 90 Hepatitis tras transfusión R0=68’97%; Rexp=98’36%; RR=1’43; OR=27 Estudio de cohortes Transfusión Sí No Hepatitis Sí No 300 5 100 45 400 50 OR = 45*300 / 5*100 = 27 305 145 450 OR y RR No tienen por qué coincidir Si la frecuencia de enfermedad es muy baja (< 5%): a+b=b y c+d=d RR = a/(a+b) / c/(c+d) OR = a*d / b*c RR = a/(a+b) / c/(c+d) a/b / c/d = a*d/b*c Bajo el supuesto de enf rara: RR = OR El supuesto de enf rara se suele cumplir Regresión logística Múltiple Extensión multivariable del concepto de Odds La función que modeliza la relación entre las variables independientes y el riesgo de que se produzca el evento binario es la función logística multidimensional Regresión logística múltiple Evento binario: 0 No se produce 1 Se produce Se adapta muy bien a la idea filosófica de causa en medicina Acúmulo aditivo de riesgo P( yi 1) 1 m 1 exp( a b j xij ) j 1 Para cada individuo, el modelo de RL asume que: m P( yi 1) 1 m 1 exp( a b j xij ) j 1 exp( a b j xij ) j 1 m 1 exp( a b j xij ) j 1 y, por tanto, que: P( yi 0) 1 P( yi 1) 1 m 1 exp( a b j xij ) j 1 Modelo RL: Selección coeficientes El modelo se ajusta mediante EMV: estimación del máximo de la función de verosimilitud multivariable Se usa el álgebra matricial y se buscan máx/mín de funciones Se obtiene la función de verosimilitud Se iguala su matriz de segundas derivadas a cero (Euler) Se soluciona un sistema de ecuaciones no lineales mediante el método de Newton-Raphson Con ello se obtiene la matriz de coeficientes: B Método de Newton(1660)-Raphson(1690)-Simpson(1740) Para resolver f(x)=0 1. Inventamos una solución x1: x1c 2. Vemos el punto A = (x1, f(x1)) 3. La pendiente de la recta tangente en A es la derivada f ’(x1) 4. Pendiente=CatOp/CatCont= y2–y1 / x2-x1 5. x2 es el punto de corte con X de la recta tangente en A: - Tangente pasa por A = (x1, f(x1)) - Tangente pasa por (x2, 0) 6. Luego: pendiente=0-f(x1)/x2-x1; f ’(x1)= - f(x1)/x2-x1 …. Método de Newton(1660)-Raphson(1690)-Simpson(1740) Para resolver f(x)=0 ….. 6. Luego: pendiente=0-f(x1)/x2-x1; f ’(x1)= - f(x1)/x2-x1 7. f ’(x1)= - f(x1)/x2-x1 luego x2-x1 = - f(x1)/f ’(x1) 8. x2 = x1 - f(x1)/f ’(x1) 9. x2 es mejor aproximación a c que x1 10. Si x2 no es aún suficientemente exacto para lo que buscamos, podemos volver a empezar Conforme el número n de pasos aumenta, la solución aproximada xn y la verdadera solución c convergen En general si xn es la solución aproximada en el paso n, la siguiente aproximación es: xn – [f(xn)/f ’(xn)] Método de Newton(1660)-Raphson(1690)-Simpson(1740) Modelo RL: Selección variables 1. La información de la matriz de datos ¿Puede resumirse en una func. logística?: R2 determinación: Entre 0 y 1 R2 = 1 vaticinio perfecto Modelo RL: Selección variables 1. La información de la matriz de datos ¿Puede resumirse en una func. logística? 2. ¿Cuál es la RL que mejor ajusta? Análisis de las RVs de cada uno de los modelos: Razón de Verosimilitudes RV: Razón de verosimilitud Un buen modelo: Da alta Prob a los que tienen el evento (yi = 1) Da baja Prob a los que se libran del evento (yi = 0) Medida de si el modelo se comporta bien: Producto de las probabilidades predichas por el modelo de que los individuos se comporten como lo hacen VEROSIMILITUD DEL MODELO RV: Razón de verosimilitud Verosimilitud del Modelo: Sea Pi prob estimada de evento de cada individuo d sujetos con evento n-d sujetos sin evento V = [P1*P2*…*Pd] * [(1-Pd+1)*(1-Pd+2)*…*(1-Pn)] Verosimilitud del Modelo perfecto = 1 La proximidad a 1 de la verosimilitud del modelo indica su acierto Normalmente V < 1 (su lnV es un número negativo) Se llama Lejanía (deviance) del modelo: mejor L=0 L = -2 ln V (que es un número positivo) RV: Razón de verosimilitud Para seleccionar las variables del modelo final: Se computa L del modelo que se ha ajustado Se computa L0 del “modelo nulo” sólo con la cte: esa es la lejanía máxima posible La diferencia L - L0 mide el aporte que hacen las variables incorporadas al modelo ajustado L - L0 = -2 lnV + 2 lnV0 = -2 (lnV - lnV0) = = -2 ln(V/V0) = -2 ln(RV) Se distribuye 2 con gl = k (número de variables del modelo ajus) Modelo RL: Selección variables Las variables del modelo final se eligen Modelos predictivos: Variables con Signif Estad Modelos para estimar un efecto causal: Confusores + Interacciones con sig estad y regla jerarquíca Contrafactuales y Modelos Estructurales Marginales Se usa Fordward, Backward y Stepwise Precisión: Usar el modelo más parsimonioso Tiene más capacidad post-dictiva Modelo RL: Selección variables 1. La información de la matriz de datos ¿Puede resumirse en una func. logística? 2. ¿Cuál es la RL que mejor ajusta? 3. ¿El efecto muestral, se dá en la población? Significación estadística e IC95% de exp(b) Modelo RL: Coeficientes: Odds y OR La interpretación de los coeficientes es: La exp(constante a): Odds basal de evento La exp(b): OR debida a la presencia de la variable El IC 95% de la OR: No efecto: Se incluye al 1 Análisis de Tiempo de Supervivencia Dr. Javier Cebrián Domènech Dr. Vicent Modesto i Alapont Función de Supervivencia S(t) = Probabilidad de que un individuo de la población sobreviva después de tiempo t S(t) = Nº supervivientes tras t Nº individuos susceptibles de morir población Sólo se calcula para tiempos no censurados Tiempo censurado: la muerte se produce en algún momento (desconocido) después de la censura Antes de la censura el individuo computa en el denominador: se incluye en el análisis Cálculo de S(t): Método de Kaplan-Meier 1. Cálculo de la probabilidad de vivir más allá de cada momento en que acaba cada periodo de tiempo delimitado por las muertes: 1) dt=2 = Pr(morir en t=2) = 1/10 Pr(vivir > t=2) = (nt=2 – dt=2)/ nt=2 Pr(vivir > t=2) = (10-1)/10 = 0’9 2) dt=6 = Pr(morir en t=6) = 1/9 Pr(vivir > t=6) = (nt=6 – dt=6)/ nt=6 Pr(vivir > t=6) = (9-1)/9 = 0’889 3) dt=7 = Pr(morir en t=7) = 2/8 Pr(vivir > t=7) = (nt=7 – dt=7)/ nt=7 Pr(vivir > t=7) = (8-2)/8 = 0’75 4) dt=8 = Pr(morir en t=8) = 1/5 Pr(vivir > t=8) = (nt=8 – dt=8)/ nt=8 Pr(vivir > t=8) = (5-1)/5 = 0’8 Etc... Cálculo de S(t): Método de Kaplan-Meier 2. Cálculo de la Supervivencia acumulada en cada periodo de tiempo delimitado por las muertes: 1) S(t=0) = Pr (vivir t=0 a t=2) = 1 (100%) 2) S(t=2) = Pr(vivir > t=2 / vivir t=0 a t=2) = Pr(vivir > t=2)*S(t=0) = = 0’9 * 1 = 0’9 3) S(t=6) = Pr(vivir > t=6 / vivir t=2 a t=6) = Pr(vivir > t=6)*S(t=2) = = 0’889 * 0’9 * 1 = 0’8 4) S(t=7) = Pr(vivir > t=7 / vivir t=6 a t=7) = Pr(vivir > t=7)*S(t=6) = = 0’75 * 0’889 * 0’9 * 1 = 0’6 5) S(t=8) = Pr(vivir > t=8 / vivir t=7 a t=8) = Pr(vivir > t=8)*S(t=7) = = 0’8 * 0’75 * 0’889 * 0’9 * 1 = 0’48 Etc... Cálculo de S(t): Método de Kaplan-Meier La fórmula general S(t) = Producto-límite de Kaplan-Meier: nt=i - dt=i ) S(t=j) = ∏ ( nt=i Siendo: nt=i : individuos vivos justo antes del instante t=i dt=i : muertes que ocurren en el instante t=i ∏ : Producto sobre todos los periodos t=i entre los instantes en los que ocurren muertes, desde t=0 hasta el instante t=j Comparar Supervivencias Función de Peligro: h(t): Probabilidad de que un individuo que sobrevive hasta el instante t, muera ese instante t h(t) = limΔt0 Pr (alguien vivo en el instante t, muera en t+Δt) Δt h(t) = f(t) / S(t) , siendo f(t) la función de densidad que corresponde a F(t) = 1 – S(t) F(t) empieza en 0 y llega a 1 cuando todos mueren h(t) se puede calcular sabiendo S(t) Peligros proporcionales: Log-Rank y Modelo de Cox Hazard Ratio (HR): Razón de Peligros: HR = h(t,X’)/h(t,X) Representa la Velocidad relativa de morir en el instante t Obtenemos al azar un individuo de cada cohorte de riesgo (riesgo base y riesgo alto) Los seguimos un tiempo determinado hasta el instante t Respecto al individuo que representa el riesgo base HR = 1: Ambos individuos se mueren a la misma velocidad. En instante t ambos tienen la misma probabilidad de morir HR < 1: Es más probable que en el instante t se muera el individuo de riesgo basal HR > 1: Es más probable que en el instante t se muera el individuo de riesgo alto Mismas propiedades matemáticas que Odds Ratio Para su cálculo no se necesita conocer el riesgo base Peligros proporcionales: Test de Log-Rank Bi-Variable: Test de Log-Rank Asume que las curvas de supervivencia presentan PELIGROS PORPORCIONALES S1(t) = [S2(t)]HR HR = Razón de PELIGROS: una constante Se testa representado h1(t) y h2(t) Son curvas paralelas: no se cortan Peligros proporcionales: Modelo de Cox Fórmula del Modelo de Cox h(t,X) = h0(t)*exp[Ʃbixi] h0(t) = Es la función de peligro basal No paramétrico: h0(t) no se especifica No se necesita conocer h0(t) Podemos calcular h0(t), h(t,X), S0(t) y S(t,X) Peligros proporcionales: Modelo de Cox Es “muy robusto” Estimación del Modelo de Cox Mediante estimación MV (= Reg Log) Se maximiza función de verosimilitud Vp Es una verosimilitud parcial: usa tiempo de supervivencia no censurado y sólo de eventos Vp usa el riesgo de que un sujeto seguido hasta el instante t, tenga el evento en ese instante Peligros proporcionales: Modelo de Cox Para calcular el HR: Se compara dos individuos: X’=(x’1, x’2, x’3,...) y X=(x1, x2, x3,...) [expuesto y no expuesto] HR = h(t,X’)/h(t,X) = exp[Ʃbixi] Podemos obtener curva ajustada de S(t): exp[Ʃbixi] S(t,X) = [S0(t)] Modelo de Cox: Condiciones de aplicación Condición: Asumir Peligros Proporcionales: El HR es independiente del tiempo de seguimiento HR = h(t,X’)/h(t,X) = k El riesgo base no está implicado en la fórmula El peligro para dos individuos X y X’ es proporcional h(t,X) =k * h(t,X’) Un ejemplo de que no se cumple la asunción es que las funciones de peligro se cruzan Modelo de Cox: Coeficientes y HR La interpretación de los coeficientes es: El modelo NO tiene CONSTANTE: Es una estimación relativa al peligro basal La exp(b): HR debida a la presencia de la variable El IC 95% de la HR: No efecto: Se incluye al 1