Anda di halaman 1dari 4

Artculo de Educacin

Modelos de Regresin VI. Anlisis de Supervivencia


REGRESSION MODEL VI. SURVIVAL ANALYSIS
MD Mauricio Salinas F.
MD, MPH(c), Director Unidad de Epidemiologa y Estadstica, Fundacin Cientfica y Tecnolgica ACHS.

RESUMEN
Para cerrar el ciclo sobre Modelos de Regresin y Correlacin se introduce el tema del anlisis de supervivencia y se ensea el fundamento del mtodo de Kaplan Meier y el Modelo de Riesgos Proporcionales de Cox. Se explica cmo hacer estos anlisis en EpiInfo y cmo interpretar los resultados, utilizando un ejemplo sencillo. Se mencionan los supuestos del modelo y algunas otras consideraciones, respecto a variaciones del modelo de Cox. (Salinas M. 2008. Modelos de Regresin VI. Anlisis de Supervivencia. Cienc Trab. Abr-Jun; 10 (28): 75-78). Descriptores: ANLISIS DE SUPERVIVENCIA; ESTIMACIN DE KAPLAN-MEIER; MODELOS DE RIESGOS PROPORCIONALES.

ABSTRACT
To close the cycle on Regression and Correlation Models the survival analysis subject is introduced and the Kaplan Meier method and Coxs Proportional Hazards Model fundamentals are presented. An explanation is given on how to conduct these analyses using Epilinfo and how to interpret the results, using a simple example. Model assumptions and some other considerations are mentioned with regard to the Cox model variations. Descriptors: SURVIVAL ANALYSIS; KAPLAN-MEIERS ESTIMATE; PROPORTIONAL HAZARDS MODEL

INTRODUCCIN
Para terminar con la serie sobre modelos de regresin y correlacin, explicaremos un caso especial de la regresin, que es el anlisis de supervivencia por el mtodo de Cox. Cuando hablamos de anlisis de supervivencia nos referimos al anlisis del tiempo de seguimiento (T) de cada unidad de observacin hasta que ocurre un fenmeno predefinido (muerte, por ejemplo). En realidad, existen varios mtodos para realizar anlisis de supervivencia, algunos bastante simples, como el mtodo de las tablas de vida. Sin embargo, cuando se habla en general de anlisis de supervivencia, se piensa en mtodos complejos, ya que son los ms poderosos y utilizados, particularmente dos: Kaplan Meier (Kaplan y Meier 1958) y anlisis de riesgos proporcionales de Cox (Cox 1972; Taucher 1999). Las aplicaciones de estos mtodos van ms all de solamente evaluar si los individuos viven o no. Existen otros casos donde el fenmeno de inters puede ser analizado con estos mtodos, por ejemplo: el tiempo que demora un trabajador expuesto en desarrollar una enfermedad profesional; el tiempo que demora un tratamiento en ser efectivo; el tiempo que demora culminar un trabajo modificando ciertas variables que influyen la productividad; la duracin de la lactancia materna, etc. Como se puede observar, estos mtodos se centran en analizar el tiempo que demora en ocurrir el fenmeno, no si ste ocurre o no. Por ello es que las frmulas utilizadas se encargan de modelar el tiempo y pueden parecer algo ms complejas que lo habitual.

Por supuesto, cualquier estudio que implique seguimiento tiene una duracin prefijada ms o menos extensa, pero finita que se define en la etapa de planificacin. Puede ocurrir que alguna(s) unidad(es) de observacin siga(n) viva(s) al momento de cerrar el estudio. Claramente no sabremos el tiempo real que vivir cada una de tales unidades de observacin y podramos tentarnos a eliminar esos casos tan resistentes. No es adecuado hacer eso porque perderamos informacin muy valiosa: el tiempo vivido por cada una de esas unidades de observacin de nuestro estudio es un dato muy til que puede y debe ser incorporado en nuestro anlisis. Se habla de censuras o casos censurados. En la Figura 1, los casos A y C corresponden a muertes (el desenlace es el mismo aunque los tiempos vividos bajo nuestra observacin sean muy distintos); en cambio B y D no mueren dentro de ese lapso y corresponden a censuras. Uno de los mayores problemas con el anlisis de tiempos es que, habitualmente, no todos los individuos que estn siendo observados son ingresados al seguimiento en forma simultnea y, con frecuencia, se pierden individuos del seguimiento por otras razones, distintas de la condicin en estudio. Es importante mantener en Figura 1 Ntese que A, B, C y D ingresaron al estudio en fechas diferentes respecto a los tiempos planificados del seguimiento. (x: indica muerte, c: indica censura o prdida del seguimiento).

Correspondencia / Correspondence Mauricio Salinas F. Fundacin Cientfica y Tecnolgica ACHS Vicua Mackenna 210 piso 6, Providencia, Santiago Tel.: (56-2) 685 38 84 e-mail: msalinasf@achs.cl Recibido: 10 de mayo de 2008 / Aceptado: 1 de junio de 2008

Ciencia & Trabajo | AO 10 | NMERO 28 | ABRIL / JUNIO 2008 | www.cienciaytrabajo.cl | 75/78

75

Artculo Original | Salinas Mauricio Figura 2. Para los efectos del anlisis resulta ms til representar los tiempos efectivamente vividos dentro del perodo de observacin como si todos los individuos hubieran comenzado al mismo tiempo. (x: indica muerte, c: indica censura o prdida del seguimiento). Tabla 2. Tiempo, probabilidad de supervivencia y accidentabilidad.
Tiempo seguido (semanas) 6 9 15 20 24 27 32 40 Probabilidad libre de accidentes (supervivencia) 0,900 0,787 0,675 0,562 0,450 0,337 0,225 0,000 Probabilidad de tener un accidente 0,100 0,213 0,325 0,438 0,550 0,663 0,775 1,000

mente que los seguimientos no son perfectos y que se trata de un fenmeno dinmico. Esto es fundamental para entender los planteamientos que se explican a continuacin (Figura 2).

Si se grafica la probabilidad de estar libre de accidentes versus el tiempo al que se obtiene cada valor y se unen los puntos, se obtiene la Figura 3, que es la imagen tpica de una curva de sobrevida o Kaplan Meier. El tiempo al cual la supervivencia es del 50% o 0,5, corresponde a la sobrevida mediana (lnea azul discontinua). Figura 3. Curva de Kaplan Meier.

MTODO DE KAPLAN MEIER


Suponga que se tienen 10 trabajadores y se desea evaluar cul es el tiempo que permanecen libres de accidentes laborales. De tal forma que se define como el evento censurado, la ocurrencia de un accidente laboral y se anota el tiempo en el cual ello ocurre. Se obtiene la informacin mostrada en la Tabla 1. Tabla 1. Tiempo de seguimiento para 10 trabajadores.
Trabajador 1 2 3 4 5 6 7 8 9 10 Tiempo seguido (semanas) 6 9 15 20 8 40 32 27 39 24 Condicin al trmino del seguimiento Accidente Accidente Accidente Accidente Despedido Accidente Accidente Accidente Renunci Accidente

Se puede observar que en el seguimiento hay dos trabajadores que salieron de la cohorte por causales distintas de la condicin observada: renuncia y despido. Las probabilidades en el modelo de Kaplan Meier, se obtienen para cada tiempo en que ocurre un evento (Tabla 2). El primer accidente se produce a las 6 semanas, afecta a un trabajador y por lo tanto la probabilidad de estar libre de accidentes a 6 semanas es 9/10. Luego ocurre otro accidente a las 9 semanas, pero como el trabajador 1 y 5 ya no estn, la probabilidad de estar libre de accidentes es de 7/8, que se debe multiplicar por la probabilidad previa, es decir 9/10. A las 40 semanas ocurre el ltimo accidente, y queda slo 1 individuo en el seguimiento; por lo tanto, a 40 semanas la probabilidad de no tener accidentes es cero. La probabilidad de estar libre de accidentes es la supervivencia. Si a 1 se le resta esa probabilidad, se obtiene la probabilidad de tener un accidente, que en ingls habitualmente se denomina failure.

El mtodo de Kaplan Meier permite realizar pruebas de significacin estadstica para comparar una variable categrica, como el sexo por ejemplo, y verificar si la sobrevida es distinta entre hombres y mujeres. Sin embargo, no permite modelar la variable respuesta (que es el tiempo) mediante predictores, como se hace en regresin. La comparacin de dos curvas de supervivencia entre categoras se realiza mediante la prueba de log rank y se fundamenta en comparar los eventos observados versus los esperados. El detalle de este clculo escapa al mbito de este artculo, pero puede encontrarse en la bibliografa (Taucher 1999). La mayor parte de los softwares estadsticos, realizan esta prueba tambin.

MODELO DE RIESGOS PROPORCIONALES DE COX


Cuando se realiza anlisis de supervivencia, generalmente lo que se desea saber es cmo influye una serie de caractersticas en la variable en estudio. En el ejemplo mostrado en los prrafos previos, probablemente interese mucho ms determinar qu variables estn influyendo en que los accidentes ocurran precozmente, ms que saber a qu tiempo exacto ocurre cada uno de ellos. Para aproximarse a este problema se debe modelar la variable respuesta, que en este caso es el tiempo al que ocurren los eventos.

76

75/78 | www.cienciaytrabajo.cl | AO 10 | NMERO 28 | ABRIL / JUNIO 2008 |

Ciencia & Trabajo

Artculo Original | Modelos de Regresin VI. Anlisis de Supervivencia Los mtodos ms simples (Tabla de vida o Kaplan Meier) slo permiten comparar grupos, pero no cuantificar la influencia de predictores. Como se discuti en artculos anteriores (Silva y Salinas 2007), los modelos de regresin se basan en asumir un comportamiento conocido de la variable respuesta (lineal, exponencial, etc.), generar un modelo aproximado y cuantificar la influencia de la(s) variable(s) predictora(s). Esto mismo se puede aplicar al modelamiento de supervivencia, ya que existen funciones matemticas que se aproximan a las curvas de sobrevida y se pueden utilizar para ver la influencia de predictores. Algunos ejemplos de modelos matemticos utilizados para estos anlisis se muestran en la Figura 4. Sin embargo, esto es complejo de hacer y en la prctica no siempre los datos se aproximan a una curva conocida. El mtodo ms comnmente utilizado para resolver este problema, es mediante regresin de Cox, ya que tiene la gran ventaja de que no se basa en modelar una curva de sobrevida predeterminada. De hecho, este modelo no tiene curva de supervivencia predefinida, pero s permite ver la influencia de predictores en la respuesta (Taucher 1999). El modelo de regresin de Cox est definido por la siguiente funcin (Harrel FE 2001): H (t) = H(t)0 * e (X1* B1 + X2 * 2 + Xk * k) Donde: H(t): funcin de riesgo (en ingls hazard ratio) de que el evento ocurra al tiempo t. H(t)0: funcin de riesgo mnima a tiempo t Xk: variable predictora k k: constante asociada a la variable k En el modelo de Cox se define, para cada tiempo en que hay un evento, una funcin de riesgo mnima. ste es el riesgo de supervivencia independiente de los predictores denominado H0 y define un perfil de riesgo segn cada predictor involucrado, que es dado por el valor *X. El riesgo de cada predictor es proporcin del riesgo base H0, muy similar al riesgo relativo. De ah viene el nombre modelo de riesgos proporcionales. El detalle del clculo de esta funcin es bastante complejo y no se explicar en este artculo. El modelo de Cox tiene supuestos que deben chequearse, para que la interpretacin de los datos sea vlida. El supuesto es que el riesgo de un evento es constante a lo largo del tiempo, es decir, que la probabilidad de que ocurra el evento definido es igual en cualquier momento del tiempo. Existen ciertas circunstancias en que ello no se cumple; por ejemplo: el riesgo de presentar algunas enfermedades profesionales depende del tiempo expuesto, por lo cual, generalmente la probabilidad de presentar la enfermedad va aumentando en la medida que pasan los aos expuestos (esto es cierto en teora, pero generalmente se ve atenuado por lo que se denomina efecto trabajador sano). Existen varios mtodos estadsticos para corroborar los supuestos del modelo de Cox, que se pueden encontrar en la bibliografa (Harrel FE 2001).

APLICANDO LOS CONCEPTOS


Utilizando el mismo ejemplo previo, ahora se siguen 20 trabajadores para ver accidentabilidad y se registra adems la seccin donde trabaja y la edad. La informacin obtenida se presenta en la Tabla 3. Si se utiliza Kaplan Meier, la mediana de sobrevida es 27 semanas y a las 42 semanas la sobrevida (ausencia de accidentes) es cero. En este caso se han registrado dos variables adicionales. Utilizando el programa EpiInfo se proceder con anlisis de Cox. El programa es bastante simple, pero se debe definir la variable censura con nmeros y cul es el valor que indica censura. Para aquellos que quieren hacerlo, se sugiere reemplazar Accidente por 0 en la columna censura y las otras alternativas por 1. Al hacerlo en EpiInfo, colocar como valor de no censurado (Uncensored) el cero. Los predictores edad y seccin, deben ingresarse donde dice Other Variables.

Figura 4. A

Algunos modelos matemticos utilizados para anlisis de supervivencia. Figura A. Curvas de distribucin de Weibull. La forma de la curva puede variar, segn el valor de dos parmetros que definen la funcin de la distribucin. Figura B. Distribucin Gamma. Figura C. Distribucin Exponencial.

Tabla 3. Tiempo de seguimiento, edad y seccin de trabajo, para 20 trabajadores..


Trabajador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tiempo (semanas) 6 9 15 20 8 40 32 27 39 24 16 21 36 42 19 25 10 33 38 28 Condicin al trmino del seguimiento (Censura) Accidente Accidente Accidente Accidente Despedido Accidente Accidente Accidente Renunci Accidente Accidente Accidente Accidente Accidente Accidente Accidente Licencia mdica Accidente Accidente Accidente Seccin 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 0 0 Edad 25 33 34 28 20 30 40 37 28 43 45 23 31 29 36 21 42 38 25 29

Ciencia & Trabajo | AO 10 | NMERO 28 | ABRIL / JUNIO 2008 | www.cienciaytrabajo.cl | 75/78

77

Artculo Original | Salinas Mauricio Tabla 4 Resultado del Modelo de Cox, EpiInfo.
Term Hazard Ratio 95% 0,9321 1,0752 C.I. 1,0964 12,3096 Coefficient 0,0109 1,2915 S.E. 0,0414 0,6219 Z P Value -Statistics 0,2625 2,0766 0,7929 0,0378

Edad 1,0109 Seccin 3,3681

Al ingresar los datos y hacerlo en EpiInfo se obtiene el resultado que aparece en la Tabla 4. Aparecen las dos variables ingresadas como predictores y una serie de columnas que de derecha a izquierda son: El Hazard Ratio es equivalente al riesgo relativo y habla de cuntas veces ms (o menos) riesgo implica el predictor; el 95 % C.I. es el intervalo de confianza al 95 % para el Hazard Ratio; el Coefficient es el valor de la ecuacin; el S.E. es el error estndar; el Z-Statistic es el valor de la estadstica Z (curva normal) y por ltimo el P-Value o valor-p. La edad tiene un Hazard Ratio de 1,01, pero el P-Value y el intervalo de confianza muestran que no es un predictor significativo de la accidentabilidad. La seccin de trabajo muestra un Hazard Ratio de 3,6 con un P-Value de 0,0378. Esto quiere decir que la seccin es un predictor significativo de la accidentabilidad; el valor 3,6, se refiere a la seccin 1 y quiere decir que los trabajadores de dicha seccin tienen un riesgo 3,6 veces mayor de tener accidentes que la seccin 0. Si se realiza una prueba de Log-Rank y se compara con la variable seccin (fcil de hacer en EpiInfo), tambin se encuentra una diferencia significativa. Sin embargo, no dice nada de la relacin de riesgo entre las secciones, y tampoco permite ver la influencia de la edad, que es una variable cuantitativa.

puede ser por ejemplo al estudiar la ocurrencia de accidentes o los embarazos, por citar algunos ejemplos. El otro es cuando no se cumple el supuesto de independencia del tiempo y el riesgo va cambiando, porque los predictores van modificando su situacin en el tiempo. Por ejemplo, es posible que los trabajadores de una empresa ocupen equipos de proteccin personal por perodos de tiempo a intervalos; lo mismo puede aplicarse a actividades de capacitacin. En estos casos, el predictor est presente en algunos perodos y en otros no, y eso se considera en el anlisis.

CONCLUSIONES
En el anlisis de supervivencia existen dos mtodos poderosos y ampliamente usados: Kaplan Meier y Modelo de Riesgos Proporcionales de Cox. El mtodo de Kaplan Meier permite comparar sobrevida entre grupos o categoras, pero no permite modelar la influencia de predictores. El mtodo de Cox se basa en modelos de regresin y permite modelar la influencia de predictores con todas las ventajas de la regresin, ya discutidas en nmeros previos. Documentacin complementaria se puede encontrar en Bioestadstica de Taucher (Tacuher 1999) y en los siguientes textos: Survival Models and Data Analysis, John Wiley and Sons (ElandtJonson y Jonson 1980) y The Statistical Analysis of Failure Data, John Wiley and Sons (Kalfbfleisch y Prentice 1980). Con este artculo se cierra el ciclo sobre modelos de regresin y correlacin. En estos nmeros se ha buscado acercar el tema a los investigadores y explicarlos de un modo simple y didctico, no pretendiendo reemplazar libros especializados en el tema.

OTRAS CONSIDERACIONES A LA REGRESIN DE COX


Existen variaciones del mtodo de Cox para enfrentar dos situaciones que pueden darse en el anlisis de supervivencia. Una es el anlisis de eventos repetidos, es decir, cuando el evento a estudiar puede ocurrir ms de una vez en el tiempo durante el estudio. Esto

AGRADECIMIENTOS
Al profesor Claudio Silva por sus sugerencias en este artculo y por su apoyo en la serie de artculos sobre modelos de regresin y correlacin.

REFERENCIAS
Cox DR. 1972. Regression models and life tables [with discussion]. J R Stat Soc Ser B. 34:187-220. Elandt-Johson R; Johnson N. 1980. Survival models and data analysis. New York: John Wiley and Sons. Harrel FE. 2001. Cox proportional hazard regresin model. En: Model in regression modeling strategies. New York: Springer. p: 465 507. Kalfbfleisch JD, Prentice RL. 1980. The statistical analysis of failure data. New York: John Wiley and Sons. Kaplan EL, Meier P. 1958. Nonparametric estimation from incomplete observations. J Am Stat Assoc. 53:457-481. Silva C, Salinas M. 2007. Modelos de regresin y correlacin. Cienc Trab. 8 (22):185 9. Taucher E. 1999. Anlisis de supervivencia. En: Bioestadstica. Santiago: Editorial Universitaria. p. 257 266.

78

75/78 | www.cienciaytrabajo.cl | AO 10 | NMERO 28 | ABRIL / JUNIO 2008 |

Ciencia & Trabajo

Anda mungkin juga menyukai