Anda di halaman 1dari 6

Investigacin: Tcnicas de regresin: regresin lineal mltiple

1/6

Tcnicas de regresin: Regresin Lineal Mltiple


Prtega Daz S., Pita Fernndez S. Unidad de Epidemiologa Clnica y Bioestadstica. Complexo Hospitalario Juan Canalejo. A Corua. Cad Aten Primaria 2000; 7: 173-176. Actualizacin 20/08/2001. ______________________________________ La mayora de los estudios clnicos conllevan la obtencin de datos en un nmero ms o menos extenso de variables. En algunos casos el anlisis de dicha informacin se lleva a cabo centrando la atencin en pequeos subconjuntos de las variables recogidas utilizando para ello anlisis sencillos que involucran nicamente tcnicas bivariadas. Un anlisis apropiado, sin embargo, debe tener en consideracin toda la informacin recogida o de inters para el clnico y requiere de tcnicas estadsticas multivariantes ms complejas. En particular, hemos visto como el modelo de regresin lineal simple es un mtodo sencillo para analizar la relacin lineal entre dos variables cuantitativas. Sin embargo, en la mayora de los casos lo que se pretende es predecir una respuesta en funcin de un conjunto ms amplio de variables, siendo necesario considerar el modelo de regresin lineal mltiple como una extensin de la recta de regresin que permite la inclusin de un nmero mayor de variables. Estimacin de parmetros y bondad de ajuste. Generalizando la notacin usada para el modelo de regresin lineal simple, disponemos en n individuos de una variable respuesta Y y de p variables explicativas de los datos X1,X2,...,Xp. La situacin ms sencilla que extiende el caso de una nica variable regresora es aquella en la que se dispone de informacin en dos variables adicionales. Como ejemplo, tomemos la medida de la tensin arterial diastlica en setenta individuos de los que se conoce adems su edad, colesterol e ndice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensin arterial diastlica vara en funcin del colesterol e ndice de masa corporal de cada sujeto. Al igual que ocurra en el caso bidimensional, se puede visualizar la relacin entre las tres variables en un grfico de dispersin, de modo que la tcnica de regresin lineal mltiple proporcionara el plano que mejor ajusta a la nube de puntos resultante (Fig. 1).
Figura 1. Plano de regresin para la Tensin Arterial Diastlica ajuntando por Colesterol e ndice de Masa Corporal

www.fisterra.com

Atencin Primaria en la Red

Investigacin: Tcnicas de regresin: regresin lineal mltiple

2/6

Del grfico se deduce fcilmente que los pacientes con tensin arterial diastlica ms alta son aquellos con valores mayores de colesterol e ndice de masa corporal. Si el nmero de variables explicativas aumenta (p>2) la representacin grfica ya no es factible, pero el resultado de la regresin se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)-dimensional correspondiente.
Tabla 1. Edad, Colesterol, ndice de Masa Corporal y Tensin Arterial Diastlica de 70 pacientes. EDAD COLESTEROL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 42 64 47 56 54 48 57 52 67 46 58 62 49 56 63 64 67 49 53 59 65 67 49 53 57 47 58 48 51 49 68 58 54 59 45 292 235 200 200 300 215 216 254 310 237 220 233 240 295 310 268 243 239 198 218 215 254 218 221 237 244 223 198 234 175 230 248 218 285 253 IMC TAD 31,64 30,80 25,61 26,17 23,18 21,19 26,95 21,87 25,61 27,92 27,73 22,49 , 30,04 23,88 21,99 26,93 , 24,09 25,71 25,33 25,42 23,99 25,20 25,81 26,93 27,77 30,85 21,61 26,30 25,00 97 90 80 75 67 , 70 70 70 75 90 95 95 90 85 75 75 85 70 85 80 90 85 70 85 80 80 70 75 95 75 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 EDAD COLESTEROL IMC TAD 53 43 57 64 43 47 58 58 48 62 54 67 68 55 50 53 63 60 46 45 53 59 62 60 62 58 57 49 61 52 59 50 46 44 60 187 208 246 275 218 231 200 214 230 280 198 285 201 206 223 290 315 220 230 175 213 220 287 290 209 290 260 202 214 231 280 220 233 215 202 23,31 80 27,15 65 21,09 80 22,53 95 19,83 75 26,17 75 25,95 90 26,30 75 24,89 70 26,89 100 21,09 65 31,11 95 21,60 80 19,78 65 22,99 75 32,32 95 31,14 100 28,89 80 20,55 75 22,49 70 22,53 70 20,82 65 32,32 95 33,91 90 20,76 75 31,35 80 31,14 95 20,76 80 19,59 90 20,08 75 31,60 100 25,34 70 22,86 75 19,53 70 19,10 65

31,96 100

24,26 105

28,65 105

31,44 100

En el caso general, el modelo de regresin lineal mltiple con p variables responde a la ecuacin:

(1)
de modo que los coeficientes
www.fisterra.com

se estiman siguiendo el criterio de mnimos cuadrados:


Atencin Primaria en la Red

Investigacin: Tcnicas de regresin: regresin lineal mltiple

3/6

La obtencin aqu de las expresiones de los estimadores mnimo cuadrticos de dichos coeficientes exigen reescribir la expresin (1) utilizando notacin matricial. As, (1) quedara:

donde:

De donde los estimadores mnimo cuadrticos se obtienen a partir de la ecuacin:

y mantienen una interpretacin anloga al caso de la regresin lineal simple (i.e.

representa el

). incremento por trmino medio en la variable respuesta por cada unidad adicional en la variable Como se puede observar, la obtencin de estimadores, intervalos de confianza y contrastes de hiptesis para los coeficientes de regresin involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la prctica dichos clculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadsticos. Son muchos los textos en los que se pueden encontrar desarrollos tericos de dichas expresiones(1),(2). Sin detenerse en ello, basta decir que manteniendo las hiptesis habituales de independencia, homocedasticidad, normalidad y linealidad se calculan expresiones para el error estndar de cada coeficiente estimado e intervalos de confianza de modo anlogo al caso de la regresin simple. La significacin estadstica de cada variable se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error tpico, y comparndolo con el cuantil correspondiente de una distribucin t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede valorar mediante la varianza residual y el estadstico R2 (coeficiente de determinacin), definidos de la forma habitual. Tambin aqu puede utilizarse el contraste F global de la regresin, calculado a partir de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como ejemplo, tras ajustar un modelo de regresin mltiple a los datos que se muestran en la Tabla 1 usando como variables predictoras de la tensin diastlica el colesterol e ndice de masa corporal de un individuo, los coeficientes de regresin para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30) respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por trmino medio la tensin arterial diastlica de un paciente se incrementa en 1.8 y 7.3 respectivamente por cada 10 unidades a mayores en su colesterol o ndice de masa corporal. El valor del coeficiente de determinacin R2=52% y la significacin del contraste F global de la regresin (p<0.001) sugieren que gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.

www.fisterra.com

Atencin Primaria en la Red

Investigacin: Tcnicas de regresin: regresin lineal mltiple Tabla 2. Modelo de regresin lineal mltiple para la tensin arterial diastlica ajustando por colesterol e ndice de masa corporal. Variable Constante Colesterol IMC Regresin Residual Total Coeficiente (B) 19.42 0.18 0.73 Suma de Cuadrados 4,449.72 4,076.40 8,526.12 E.T.(B) 7.54 0.03 0.30 g.l. 2 64 66 IC 95% (B) (4.37;34.48) (0.11;0.25) (0.14;1.33) Media cuadrtica 2,224.86 63.69 t 2.58 2.45 F p 0.012 0.017 p

4/6

5.26 <0.001

34.93 <0.001

El hecho de contar con un nmero ms extenso de variables exige que adems del contraste F global se puedan realizar pruebas parciales para constatar si un grupo de variables aadidas a un modelo lo . La proporcin de mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo:

Para valorar si la introduccin de la nueva variable queda compensada por una mejora significativa en la prediccin de la respuesta se utiliza el estadstico:

que se compara con el cuantil correspondiente de una distribucin F de Snedecor con 1 y n-p-2 grados de libertad. Dicho contraste se denomina contraste F parcial. Para comprobar el uso de dicho estadstico consideremos en el ejemplo anterior el modelo de regresin simple que resulta de tomar como nica variable regresora el colesterol de un individuo (Tabla 3). El valor del estadstico R2 en este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el ndice de masa corporal como nueva variable explicativa. El cambio en el estadstico R2 es de 0.045 que coincide con el cuadrado del coeficiente de correlacin parcial entre la tensin arterial y el ndice de masa corporal ajustando por el colesterol. La significacin del contraste F parcial para la introduccin del ndice de masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo ms simple.
Tabla 3. Modelo de regresin lineal simple para la tensin arterial diastlica ajustando por colesterol. Variable Constante Colesterol Regresin Residual Total Coeficiente (B) 26.91 0.23 Suma de Cuadrados 4,067.11 4,459.01 8,526.12 E.T.(B) 7.15 0.03 g.l. 1 65 66 IC 95% (B) (12.63;41.19) (0.17;0.29) Media cuadrtica 4,067.11 68.60 t p 3.76 <0.001 7.70 <0.001 F p 59.29 <0.001

Es importante recalcar la necesidad de uso de mtodos estadsticos multivariantes para estudiar correctamente la relacin entre ms de dos variables. La aplicacin de las tcnicas de regresin ha sido tratada en diversos textos(3),(4),(5),(6) desde un punto de vista eminentemente prctico. Aunque el modelo de regresin se ha planteado inicialmente para analizar la relacin entre variables cuantitativas, su generalizacin al caso de variables regresoras cualitativas es inmediata. Este tipo de anlisis recibe el nombre de anlisis de covarianza o anlisis de varianza segn contenga o no adems variables numricas. La limitacin de este modelo por considerar que la relacin de cada variable con la respuesta es de tipo
www.fisterra.com Atencin Primaria en la Red

Investigacin: Tcnicas de regresin: regresin lineal mltiple

5/6

lineal queda solventada mediante la transformacin (logartmica, cuadrtica,...) de cada variable regresora. Seleccin de variables. Una de las principales dificultades a la hora de ajustar un modelo de regresin mltiple surge cuando es necesario identificar entre el conjunto de variables disponibles aquellas que estn relacionadas con la respuesta y que la predicen de la mejor forma posible. Cuando el nmero de variables es reducido, como en el ejemplo manejado, la seleccin no resulta complicada. Una primera alternativa es construir un modelo por inclusin o hacia delante ("forward"), considerando en primer lugar la relacin de cada variable con la respuesta e ignorando todas las dems variables, valorndola por medio del coeficiente de correlacin lineal de Pearson (Figura 2). Aquella que muestra una correlacin ms alta con la variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3). El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el modelo permite explicar una mayor parte de la variabilidad residual. La comparacin entre distintos modelos debe hacerse en trminos del valor relativo de los coeficientes de determinacin y el contraste F parcial. Ya vimos como la inclusin del ndice de masa corporal reportaba una mejora en el modelo de regresin simple. La introduccin de la variable edad, en cambio, proporciona un cambio en el coeficiente de determinacin de 0.028 que no resulta en una mejora significativa (p=0.059). Este esquema se repetira hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo el ltimo paso sera comprobar si la introduccin de la variable edad produce una mejora del ajuste del modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El coeficiente correspondiente a esta ltima variable no es significativo (ntese que esta significacin ha de coincidir con la del contraste F parcial correspondiente).
Tabla 4. Modelo de regresin lineal mltiple para la tensin arterial diastlica ajustando por colesterol, ndice de masa corporal y edad. Variable Constante Colesterol IMC Edad Regresin Residual Total Coeficiente (B) 10.55 0.17 0.68 0.24 Suma de Cuadrados 4,622.52 3,903.60 8,526.12 E.T.(B) 9.13 0.03 0.30 0.14 g.l. 3 63 66 IC 95% (B) (-7.70;28.81) (0.1;0.24) (0.09;1.28) (-0.05;0.53) Media cuadrtica 1,540.84 61.96 t 1.15 2.31 1.67 F p 0.252 0.024 0.100 p

4.84 <0.001

24.87 <0.001

En la mayora de los casos se dispone de informacin en un conjunto mucho ms amplio de variables de las que se desconoce cules estn relacionadas o pueden utilizarse para predecir la respuesta de inters. La identificacin del conjunto de variables que proporcionan el mejor modelo de regresin depender en gran medida del objetivo del estudio y de experiencias previas. As, aunque la prctica habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relacin con la variable dependiente. La mayora de paquetes estadsticos proporcionan una variedad de tcnicas para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente variables atendiendo a su significacin en el modelo (hacia delante, hacia atrs, pasos sucesivos). Existen otras alternativas basadas en la comparacin de todos los modelos posibles que se pueden formar con un conjunto inicial de variables. Todas estas tcnicas deben considerarse meramente orientativas. As, identificado el mejor conjunto de variables y ajustado el modelo es conveniente realizar un anlisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a pesar de que tenga un valor menor de R2. Interaccin, confusin y colinealidad. Cuando se introduce ms de una variable en el modelo de regresin es necesario contrastar adems la independencia de los efectos de todas ellas. Es decir, se supone que la asociacin de cada variable con la respuesta no depende del valor que tomen el resto en la ecuacin de regresin. En otro caso se dir que
www.fisterra.com Atencin Primaria en la Red

Investigacin: Tcnicas de regresin: regresin lineal mltiple

6/6

existe interaccin. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la necesidad de incluir trminos de interaccin calculados a partir del producto de pares de variables, comprobando si mejora la prediccin, siendo aconsejable investigar solamente aquellas interacciones que puedan tener una explicacin clnica. En ocasiones el fenmeno de la interaccin se hace coincidir errneamente con los de confusin y correlacin. Existe confusin cuando el efecto de una variable difiere significativamente segn se considere o no en el modelo alguna otra. sta se asociar tanto con la variable inicial como con la respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirn que estn controladas o ajustadas por variables de confusin. Por otro lado, el fenmeno que se produce cuando dos variables explicativas muestran una correlacin alta recibe el nombre de cuasi-colinealidad y puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de sus errores tpicos y resultados poco crebles. La mayora de paquetes estadsticos muestran en sus salidas diagnsticos de colinealidad (tolerancia, factor de inflaccin de la varianza, ndice de condicin) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado especial en la etapa de construccin del modelo: un cambio significativo en las estimaciones tras la inclusin de una nueva variable puede evidenciar cualquiera de estos fenmenos. Nos corresponde a nosotros evaluar la conveniencia de incluirla o no en el modelo.
Figura 2. Correlacin lineal de la edad, colesterol e ndice de masa corporal con la tensin arterial diastlica.

Bibliografa 1. 2. 3. 4. 5. 6. Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press; 1989. Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977. Etxebarra Murgiondo, J. Regresin Mltiple. Madrid: La Muralla; 1999. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997. Carrasco J.L., Hernn M.A. Estadstica Multivariante en las Ciencias de la Salud. Madrid: Ed. Ciencia 3; 1993. Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.

www.fisterra.com

Atencin Primaria en la Red

Anda mungkin juga menyukai