VARIABILELOR EXPLICATIVE
• Multicoliniaritatea
• Consecinţele multicoliniarităţii
• Detectarea multicoliniarităţii
• Remedierea multicoliniarităţii
• Selecţia variabilelor explicative
Multicoliniaritatea
• O ipoteză a modelului liniar clasic de regresie: nu există multicoliniaritate printre
variabilele explicative incluse în model.
• Seriile x1 şi x2 sunt ortogonale sau independente când cov(x1,x2)=0.
Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar
termenul de coliniaritate se referă la existenţa unei singure relaţii liniare.
Această distincţie nu se face în practică, folosindu-se în ambele situaţii termenul
de multicoliniaritate.
• În cazul a două variabile explicative, intercorelaţia lor se măsoară cu coeficientul
de corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabile
explicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau prin
coeficientul de corelaţie multiplă R între variabila y şi variabilele xi.
• Multicoliniaritatea este un fenomen de eşantionare: chiar dacă în populaţie,
variabilele xi sunt necorelate liniar, se poate ca într-un eşantion dat, ele să fie
corelate. Astfel încât, deşi teoretic se poate considera că variabilele xi au o
influenţă separată sau independentă asupra variabilei dependente y, se poate
întâmpla ca în eşantionul dat pentru a testa funcţia de regresie a populaţiei,
unele variabile xi, să fie atât de puternic corelate, încât să nu se poată izola
influenţa lor individuală asupra lui y.
Consecinţele multicoliniarităţii
• varianţe şi covarianţe mari ale estimatorilor coeficienţilor de regresie;
• intervale mari de încredere ale estimatorilor, din cauza abaterilor standard
mari;
• raţiile t Student nesemnificative, din cauza abaterilor standard mari;
• un coeficient mare de determinaţie R2, dar raţiile t nesemnificative;
• instabilitatea estimatorilor şi a abaterilor lor standard la mici schimbări ale
datelor;
• în caz de multicoliniaritate perfectă matricea este singulară (determinatul
este 0), estimarea coeficienţilor este imposibilă şi varianţa lor, infinită.
Regresia y = f(x1, x2, x3, x4) din exerciţiul prezentat indică un coeficient de
determinaţie mare, de 0.995, iar testul Fisher arată că regresia este global
semnificativă cu o probabilitate de 100% (Significance F).
Cu excepţia coeficientului variabilei x1, care este semnificativ, restul
coeficienţilor au raţiile Student mai mici decât valoarea critică pentru un prag de
semnificaţie de 5%.
Intervalele de încredere ale estimatorilor, cu excepţia intervalului pentru 1 ,
â
schimbă semnul de la minus la plus, conţinând valoarea 0 şi indicând faptul că
sunt nesemnificativi.
Exerciţiu – multicoliniaritatea
y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
Se compară Fi* cu valoarea critică din tabela Fisher, pentru un prag de semnificaţie α şi (k-1),
(n-k-1) grade de libertate. Dacă Fi* > F αk-1,n-k-1 acesta înseamnă că acea variabilă xi este
coliniară cu celelalte variabile x. Dacă Fi* < Fα k-1,n-k-1 se spune că variabila xi nu este coliniară cu
celelalte variabile x, caz în care respectiva variabilă xi se reţine în model. Această metodă are
neajunsurile ei, în sensul că atunci când multicoliniaritatea presupune implicarea a mai multor
variabile, este dificil să se identifice interrelaţiile separate.
Remedierea multicoliniarităţii (1)
Există mai multe reguli de remediere a multicoliniarităţii, dar care nu reprezintă
metode sigure de înlăturare a ei.
• creşterea volumului eşantionului – este eficientă numai dacă se adaugă
observări semnificativ diferite de cele care sunt deja considerate în model, în
caz contrar, multicoliniaritatea se menţine;
• înlăturarea variabilei puternic corelate poate conduce la o specificare
incorectă a modelului. Eroarea de specificare duce la obţinerea de estimatori
eronaţi, fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici;
• transformarea variabilelor în serii ale diferenţelor de ordinul 1. Modelul de
regresie pe diferenţele de ordinul 1, reduce severitatea multicoliniarităţii.
Dezavantajele sunt:
– termenul eroare din forma transformată a diferenţelor de ordinul 1, s-ar
putea să nu respecte una din ipotezele modelului liniar clasic, şi anume
erorile nu sunt serial corelate (corelaţie de ordinul 1). Dacă în seriile
iniţiale erorile sunt independente sau necorelate, în seria transformată,
acestea vor fi serial corelate în majoritatea cazurilor.
– se pierde o observare prin diferenţiere, ceea ce este important când
volumul eşantionului este mic, şi numărul gradelor de libertate se
micşorează cu 1. Mai mult, în seriile de date instantanee, procedura de
diferenţiere nu este corespunzătoare, deoarece nu există o ordine logică a
datelor observate.
• utilizarea altor metode: analiza factorială, analiza în componente principale,
sunt deseori folosite pentru a ″ rezolva″ problema multicoliniarităţii.
Remedierea multicoliniarităţii (2)
• Se observă că nu în orice situaţie, când se obţin valori t
nesemnificative pentru estimatorii coeficienţilor de regresie, există
multicoliniaritate. Lipsa de semnificaţie se poate datora şi altor
cauze, cum ar fi:
– metoda folosită pentru culegerea datelor, de exemplu eşantionarea
variabilelor regresori peste valorile lor limită, pe care acestea le iau în
populaţie;
– restricţii asupra modelului sau asupra populaţiei şi a metodei de
eşantionare folosită;
– specificarea modelului;
– supradimensionarea modelului, prin introducerea unui număr de
variabile explicative, mai mare decât numărul de observări (în domeniul
medical, când numărul de pacienţi este mai mic decât informaţiile
despre ei, cuprinse într-un număr mare de variabile).
Aplicarea în practică a uneia din modalităţile de remediere, depinde de
natura datelor şi de severitatea multicoliniarităţii. Nu se recomandă
utilizarea regresiei afectată de multicoliniaritate, pentru previziune.
Selecţia variabilelor explicative (1)
Procedurile statistice de selecţie a variabilelor explicative permit
determinarea acelor variabile, care se adaugă sau se retrag dintr-un
model. Aceste demersuri exclud raţionamentul economic, permiţând
găsirea unor modele, care deseori sunt bune din punct de vedere statistic,
dar a căror interpretare economică poate fi nulă sau aberantă. De aceea
tehnicile automate de selecţie a variabilelor explicative se utilizează cu
prudenţă, completându-se rezultatele cu raţionamentul economic.
Există cinci proceduri pentru selecţia variabilelor explicative
- cele mai corelate cu variabile explicată şi
- cel mai puţin corelate între ele.
Aceste proceduri sunt:
• toate regresiile posibile;
• eliminarea progresivă;
• selecţia progresivă;
• regresia pas cu pas;
• regresia pe faze.
Selecţia variabilelor explicative (2)
• Toate regresiile posibile - constă în efectuarea tuturor regresiilor posibile
(2k – 1), unde k este numărul variabilelor explicative, candidate la intrarea
în model. Se reţine acel model care are R2 cel mai mare şi toate variabilele
explicative semnificative. Dezavantajul este legat de numărul k, de
variabile explicative, care cu cât este mai mare, cu atât duce la realizarea
unui număr considerabil de regresii (de exemplu: k=10, număr regresii
posibile = 1023).
• Eliminarea progresivă (Backward Elimination) - constă în efectuarea
regresiei cu toate variabilele explicative şi apoi eliminarea pe rând, a
acelora a căror raţie Student este mai mică decât valoarea critică.
Procedura se utilizează, numai dacă se poate estima efectiv, modelul
iniţial, ceea ce nu este mereu posibil. Modelul poate avea un număr mare
de variabile explicative, şi atunci, riscul multicoliniarităţii este mare, iar
matricea poate fi singulară.
• Selecţia progresivă (Forward Regression) - se parcurge un sens invers
celui descris în eliminarea progresivă.
– în prima etapă, se selectează în model o variabilă xi, care are
coeficientul de corelaţie simplă cu variabila y, cel mai mare.
– în a doua etapă se calculează coeficienţii de determinaţie parţială r2yxj.xi
pentru j ≠ i şi se reţine acea variabilă xj, care are cel mai mare
coeficient de corelaţie parţială.
Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât
valoarea critică citită din tabela Student.
Selecţia variabilelor explicative (3)
• Regresia pas cu pas (Stepwise regression) - este identică cu cea
precedentă, a selecţiei progresive, doar că înainte de a incorpora o
nouă variabilă explicativă se examinează raţia t* a fiecăreia din
variabilele explicative selecţionate în prealabil şi se elimină din model
cele care au raţiile t* mai mici decât valoarea critică.
• Regresia pe faze sau pe stadii (Stagewise Regression) - permite
minimizarea intercorelaţiilor dintre variabilele explicative, prin studiul
reziduurilor. Etapele care se parcurg sunt următoarele:
– etapa 1: se selecţionează acea variabilă explicativă, xi, care are
coeficientul de corelaţie simplă cu y, cel mai mare;
– etapa a 2-a: se calculează reziduurile e1t = yt − ŷt = yt − (â0 + â1xit )
şi coeficienţii de corelaţie simplă între e1t şi restul variabilelor
explicative; se reţine aceea dintre ele, xj, care are acest coeficient
cel mai mare, considerând că va explica în continuare, cel mai
bine, varianţa reziduurilor;
– etapa a 3-a: se calculează reziduurile: e2t = yt − ŷt = yt − (â0 + â1xit + â2 xjt )
şi coeficienţii de corelaţie simplă între e2t şi restul variabilelor
explicative; se reţine aceea dintre ele, xk, care are acest coeficient
cel mai mare, ceea ce duce la obţinerea altor reziduuri; procedura
se termină când de coeficienţii de corelaţie simplă dintre reziduuri
şi variabilele explicative rămase, devin nesemnificativ diferiţi de 0.