Lectia Nr. 5 - Regresia Liniara Multipla Si Logistica

Metodologia cercetarii stiintifice-BIOSTATISTICA
1

5.1. Regresia liniar multipl

Spre deosebire de cazul anterior n care am ncercat s
exprimm o variabil (dependent) n funcie de o alt variabil
(independent, explicativ, predictor), acum ne punem problema
situaiei n care avem de-a face cu cel puin trei variabile, dintre
care una este dependent iar celelalte sunt independente. Astfel,
vom prezenta un model de regresie liniar multipl n care
variabila dependent este exprimat ca o combinaie liniar de
variabile independente sau variabile predictor/covariate.
Matematic vorbind, acest fapt se exprim prin ecuaia de regresie
multipl:

Y = a + b
1
X
1
+ b
2
X
2
++ b
k
X
k

unde Y reprezint variabila dependent, iar variabilele X
1
,, X
k

sunt variabilele explicative. Constantele b
1
,, b
k
sunt coeficienii
de regresie, iar a este constanta de regresie sau interceptorul. In
cele ce urmeaz nu vom mai prezenta formulele de calcul
corespunzatoare regresiei liniare multiple deoarece, pe de-o parte,
sunt destul de complicate, iar pe de alta parte, se gsesc n orice
program profesional de computer.

Exemplu. (Altman, 1991) Considerm analiza regresiv multipl
utilizat n exprimarea (predicia) indexului de rezisten al
muchiului respirator PEmax (exprimat n cm H
2
O) n funcie de
variabilele predictoare reprezentate de nlime (cm), greutate
(kg), vrst (ani), sex, procentul masei corporale (%, BMP),
volumul respirator forat per secund (FEV
1
), volumul rezidual
(RV), capacitatea funcional rezidual (FRC) i capacitatea total
a plmnului (TLC) pentru un lot de 25 bolnavii cu fibroz cistic.
Variabila dependent reprezint din punct de vedere medical un
indice al malnutriiei unui pacient. Tabelul de mai jos sintetizeaz
toate aceste caracteristici.


2

Vrst Sex H G BMP FEV
1
RV FRC TLC PEmax
7 0 109 13.1 68 32 258 183 137 95
7 1 112 12.9 65 19 449 245 134 85
8 0 124 14.1 64 22 441 268 147 100
8 1 125 16.2 67 41 234 146 124 85
8 0 127 21.5 93 52 202 131 104 95
9 0 130 17.5 68 44 308 155 118 80
11 1 139 30.7 89 28 305 179 119 65
12 1 150 28.4 69 18 369 198 103 110
12 0 146 25.1 67 24 312 194 128 70
13 1 155 31.5 68 23 413 225 136 95
13 0 156 39.9 89 39 206 142 95 110
14 1 153 42.1 90 26 253 191 121 90
14 0 160 45.6 93 45 174 139 108 100
15 1 158 51.2 93 45 158 124 90 80
16 1 160 35.9 66 31 302 133 101 134
17 1 153 34.8 70 39 204 118 120 134
17 0 174 44.7 70 49 187 104 103 165
17 1 176 60.1 92 29 188 129 130 120
17 0 171 42.6 69 38 172 130 103 130
19 1 156 37.2 72 21 216 119 81 85
19 0 174 54.6 86 37 184 118 101 85
20 0 178 64.0 86 34 225 148 135 160
23 0 180 73.8 97 57 171 108 98 165
23 0 175 51.5 71 33 224 131 113 95
23 0 179 71.5 95 52 225 127 101 195

In tabelul urmtor prezentm matricea corelaiilor tuturor
variabilelor modelului regresiv (i.e. matricea coeficienilor de
corelaie), analiza corelaiei multiple fiind necesar pentru a stabili
existena legturii ntre mrimile analizate. Menionm c n cazul
de fa variabila sex fiind o variabil aleatoare calitativ
(categorial) va fi codat binar: 1 = brbai i 0 = femei.

Vrst Sex H G BMP FEV
1
RV FRC TLC PEmax
Vrst 1 -0.17 0.93 0.91 0.38 0.29 -0.55 -0.64 -0.47 0.61
Sex -0.17 1 -0.17 -0.19 -0.14 -0.53 0.27 0.18 0.02 -0.29
H 0.93 -0.17 1 0.92 0.44 0.32 -0.57 -0.62 -0.46 0.6
G 0.91 -0.19 0.92 1 0.67 0.45 -0.62 -0.62 -0.42 0.64

3

BMP 0.38 -0.14 0.44 0.67 1 0.55 -0.58 -0.43 -0.36 0.23
FEV
1
0.29 -0.53 0.32 0.45 0.55 1 -0.67 -0.67 -0.44 0.45
RV -0.55 0.27 -0.57 -0.62 -0.58 -0.67 1 0.91 0.59 -0.32
FRC -0.64 0.18 -0.62 -0.62 -0.43 -0.67 0.91 1 0.7 -0.42
TLC -0.47 0.02 -0.46 -0.42 -0.36 -0.44 0.59 0.7 1 -0.18
PEmax 0.61 -0.29 0.6 0.64 0.23 0.45 -0.32 -0.42 -0.18 1

Trecnd acum la construirea modelului regresiv liniar multiplu,
vom indica pe scurt algoritmii ce guverneaz cele dou abordri
standard: (1) regresia pas cu pas anterioar i (2) regresia pas cu
pas posterioar.

Algoritm pentru regresia pas cu pas anterioar.
a) se gsete variabila cu cel mai mare impact asupra variabilei
dependente, i.e. variabila cea mai corelat cu variabila
dependent i se introduce n model;
b) se gsete variabila din cele rmase care are cea mai mare
corelaie (ignornd semnul) cu reziduurile modelului de mai
sus (ea va explica cel mai bine variabilitatea modelului) i se
introduce n model;
c) se repet pasul (b) pn cnd se ajunge la nivelul de
semnificaie P = 0.05, corespunztor variabilei curente
introduse n model.
d) cnd nivelul de semnificaie P depete valoarea de 0.05 se
oprete procesul de introducere a predictorilor n model.

In cazul de fa, primele locuri eligibile (n aceast ordine) sunt
date n tabelul de mai jos; se observ ca ultima variabila, RV, nu
poate face parte din model avnd nivelul de semnificaie P
superior lui 0,05.

b Eroarea standard (b) t test (20) P
Interceptor 63.94669 53.27673 1.20027 .244057
G 1.74891 .38063 4.59475 .000175
BMP -1.37724 .56534 -2.43612 .024322
FEV
1
1.54770 .57761 2.67948 .014410

4

RV .12572 .08315 1.51199 .146178

In ceea ce privete algoritmul pentru cealalt metod, vom aborda
problema din direcia opus, adic lum n consideraie iniial
toate variabilele i le excludem pas cu pas pe cele care au
semnificaia cea mai mic. Aici modelul iniial include toate
variabilele, considernd c, cel puin teoretic, toate variabilele pot
fi importante. Se exclude apoi variabila cu cea mai mic influen
asupra modelului, adic cu cel mai mare nivel de semnificaie P
privind corelaia. Nivelul P de Stop este tot 0,05. Prezentm mai
jos tabelul respectiv.

b Eroarea standard (b) t test (23) P
Interceptor 63.54564 12.70163 5.002952 .000046
G 1.18671 .30086 3.944453 .000646

Remarc In principiu, nici unul dintre cele dou modele de mai
sus nu este cel ideal. Dac vrem cel mai larg model, l alegem pe
cel anterior, iar dac-l dorim pe cel mai strict, l alegem pe cel
posterior. Oricum, se observ de aici c folosirea doar a
criteriului nivelului P nu rezolv problema complet.

Ecuaiile de regresie n cele dou cazuri sunt:

(1) PEmax = 63,95 +1,75 G 1,38 BMP +1,55 FEV
1

(2) PEmax = 63,55 + 1,19 G

In finalul acestei prezentri, vom da cteva considerente
standard privind analiza regresiv liniar multipl:

1) Dac avem de ales ntre mai multe variabile predictive, trebuie
s tim c nu exist o certitudine clar n alegerea lor. In
principiu, se folosete ca prag valoarea P = 0.05, dar sunt
cazuri cnd, datorit rolului ctigat din punct de vedere al
practicii, nu excludem variabile cu P = 0.2 sau mai mare.

5

2) Se va evita un model provenind dintr-un eantion mic dar
avnd multe variabile predictive. Ca regula, numrul de
predictori nu trebuie s depeasc n/10 unde n este volumul
eantionului.
3) Alegerea automat a modelului pe baza unui program statistic
adecvat este normal, dar nu trebuie ignorat bunul sim al
practicianului n evaluarea i validarea final a modelului.
4) Variabilele explicative puternic corelate vor fi de aa natur
alese nct s rmn doar un reprezentant al lor n model i
nu toate (e.g. G sau H).
5) Se va verifica a priori dac exist ntr-adevr o legtur liniar
ntre variabila dependent i fiecare predictor.
6) Se presupune din start c efectul fiecrui predictor este
independent de ceilali. Dac se bnuiete vreo legtur ntre
doi predictori (aceasta nu se stabilete pe baza corelaiei ci pe
baze intrinseci, ce in de natura fenomenului) trebuie adugat
eventual un termen de interaciune a lor (i.e. o nou variabil
rezultat ca funcie a lor, e.g. produsul lor) n model.
7) Pentru mai mult siguran, se verific capacitatea modelului
pe alt eantion, dac este posibil.

5.2. Regresia liniar logistic

In paragraful anterior am prezentat cteva noiuni privind
regresia liniar multipl, obinnd ecuaia ce statueaz legtura
liniar ntre mai multe variabile aleatoare, variabila dependent
fiind n acest caz o variabil continu i extinznd astfel regresia
liniar simpl. Sunt totui domenii de cercetare, multe din
medicin, n care variabila dependent nu mai este continu ci
binar, categorial. Putem cita ca exemple rspunsul pacientului la
un anumit tratament, sau categoriile generate de pacienii care
prezint sau nu un anumit simptom. In acest caz, cnd variabila
dependent se refer la dou categorii, nu mai este de folos

6

regresia multipl, ci vom folosi regresia logistic. Acum, n loc s
prognozm valoarea variabilei dependente n raport cu valorile
variabilelor explicative, vom prognoza o transformare a acesteia,
care de fapt cuantific variabila binar dependent. Aceast
transformare se va numi logit (p), unde p este proporia de indivizi
cu o anumit caracteristic (e.g. p reprezint probabilitate ca un
subiect s aib infarct miocardic, iar 1 - p este probabilitate s nu
aib infarct). Pentru a nelege raiunea acestei proceduri, s
observm c, dac am cuantifica variabila dependent categorial
cu 1 i 0, corespunztoare celor dou rspunsuri "DA" sau "NU",
atunci media acestor valori corespunztoare unui eantion dat
reprezint tocmai proporia subiecilor cu una din cele dou
caracteristici corespunztoare celor dou situaii. Revenind la
transformarea definit de logit (p), s menionm formula dup
care se calculeaz:

logit (p) = ln
1
p
p
| |
|
\ .
.

Atunci cnd procedm la o regresie logistic, la sfritul
calculelor vom obine valoarea logit (p) = o ca o combinaie
liniar a variabilelor explicative. In aceste condiii, putem calcula
valoarea efectiv a probabilitii p, dup formula:

p = e
o
/ (1 + e
o
).

Exemplu.
(Altman, 1991). Se dorete stabilirea influenei fumatului, a
obezitii i a sforitului asupra hipertensiunii, n sensul prognozei
apariiei acesteia pe baza variabilelor explicative mai sus amintite
privite ca factori de risc. Trecnd peste elementele de calcul, care
sunt incluse n programele de calculator dedicate statisticii,
obinem ecuaia de regresie logistic:

logit (p) = -2,378 0,068 x fumat + 0,695 x obezitate + 0,872 x sforit,


7

care ne d probabilitatea ca un subiect s aib hipertensiune n
raport de valorile celor trei variabile explicative (codate 0 =
nefumtor, 1 = fumtor; 0 = neobez, 1 = obez; 0 = fr sforit, 1 =
cu sforit). Dac vrem s efectum o comparaie ntre fumtori i
nefumtori, n raport cu riscul de a avea hipertensiune, vom
compara:

logit (p
fum
) = -2,378 0,068 + 0,695 x obezitate + 0,872 x sforit,

cu:

logit (p
nefum
) = -2,378 + 0,695 x obezitate + 0,872 x sforit,

(dup cum se observ, am fcut variabila fumat' egal mai nti
cu 1, apoi cu 0). Rezult c:

logit (p
nefum
) - logit (p
fum
) = 0,068,

de unde:

(1 )
ln
(1 )
nefum fum
fum nefum
p p
p p
(
(
(

= 0.068,

sau:

(1 )
(1 )
nefum fum
fum nefum
p p
p p
(
(
(

= 1.07036,

care ar putea fi interpretat ca o msur a riscului de hipertensiune
printre nefumtori n raport cu fumtorii. Pentru interpretarea mai
riguroas a unui asemenea rezultat ct i pentru alte amnunte
privind regresia logistic a se vedea Altman, 1991.

Lectia Nr. 5 - Regresia Liniara Multipla Si Logistica

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Lectia Nr. 5 - Regresia Liniara Multipla Si Logistica

Diunggah oleh

Hak Cipta:

Format Tersedia

Metodologia cercetarii stiintifice-BIOSTATISTICA

Anda mungkin juga menyukai