Anda di halaman 1dari 6

Cursul 4.

Introducere în inferenţa statistică

Estimaţiile pentru parametrii α , β au fost obţinute pe baza unui eşantion, dar ele nu
interesează ca valori particulare, ci doar în măsura în care avem confirmarea că sunt
valorile „adevărate”. Să presupunem că avem următorul rezultat:
yˆi = 20.3 + 0.5091xi
(14.38) (0.2561)

în care βˆ = 0.5091 este o estimaţie (punctuală) a parametrului β obţinută pe baza


unui eşantion. Gradul de încredere asociat coeficientului 0.5091 este dat de eroarea
standard, aici 0.2561. Pentru a face inferenţe asupra parametrilor α , β putem folosi şi
informaţii despre coeficienţii şi erorile standard care sunt obţinute din alte eşantioane.
Astfel, pentru β , în locul valorii 0.5091 , folosind un alt eşantion vom obţine o altă
valoare. Este important să putem răspunde la întrebarea: este plauzibil ca, dată această
estimaţie 0.5091 , valoarea adevărată a parametrului β (pentru întreaga populaţie) să
fie 0.5091, sau poate 0.5, sau poate 1? Pentru a răspunde la astfel de întrebări, în
econometrie (şi nu numai) se recurge la teste statistice.

1. Testarea ipotezelor: câteva concepte


O ipoteză statistică este o afirmaţie despre un parametru care descrie o populaţie (sau
despre distribuţia valorilor unei variabile asociate). Adevărul acestei afirmaţii poate fi
testat cu ajutorul unui eşantion extras din populaţie.
De regulă, se emite o aşa-numită ipoteză nulă, adică o afirmaţie despre valoarea
parametrului, notată tradiţional H 0 , care se referă la valoarea cea mai nefavorabilă
(faţă de valoarea reală). Ipotezei nule i se asociază aşa-numita ipoteză alternativă,
notată cu H1 prin care se afirmă faptul că parametrul ia alte valori decât cea din
ipoteza nulă.
Se urmăreşte respingerea ipotezei nule, pentru ca prin aceasta să se accepte automat
ipoteza alternativă (ca adevărată).
Prin testarea ipotezei (sau testul statistic) se înţelege o evaluare statistică a deciziei
de respingere a ipotezei nule H 0 .
Etapele testării unei ipoteze statistice sunt următoarele:
• Formularea ipotezei nule şi a celei alternative;
• Alegerea nivelului de semnificaţie al testului;
• Alegerea statisticii adecvate şi determinarea distribuţiei valorilor ei, în
condiţiile în care ipoteza nulă este adevărată;
• Definirea regiunii critice (de respingere) şi stabilirea regulii de decizie;
• Efectuarea calculelor pe baza datelor dintr-un eşantion şi luarea deciziei.
Pentru testarea ipotezelor statistice în cazul parametrilor modelului liniar de regresie
(simplă) există două abordări:
1. abordarea „punctuală” prin testul de semnificaţie;
2. abordarea prin construirea intervalelor de încredere.

1
2. Testul de semnificaţie

Să revenim la modelul de regresie


yi = α + β xi + ei i = 1, 2,...., n
pentru care dorim să evaluăm statistic valoarea parametrului β .
A) Despre ipoteze
Ipoteza nulă poate fi formulată astfel:
H0 : β = β *
în care β * este o valoare particulară pe care o poate lua parametrul modelului (de
regulă valoarea cea mai nefavorabilă).

Ipoteza alternativă poate să aibă una dintre formele:


a) H1 : β ≠ β * (ipoteza bilaterală);

b) H1 : β < β * sau H1 : β > β * (ipoteze unilaterale).

B) Despre nivelul de semnificaţie


Să considerăm cele două decizii posibile:

Decizia
Situaţia reală H 0 nu este respinsă H 0 este respinsă
(este acceptată?)
H 0 este adevărată Decizia corectă Decizia incorectă
(Riscul de genul I, α )
H1 este adevărată Decizia incorectă Decizia corectă
(Riscul de genul II)

Nivelul de semnificaţie este riscul acceptat de genul I. Acesta este de regulă mic, de
ordinul 5%, 1% sau chiar mai mic. Dacă alegem nivelul de semnificaţie 5% , putem
afirma că încrederea acordată rezultatului statistic obţinut este de 95% .

C) Determinarea distribuţiei folosite (alegerea statisticii test)

Dacă testăm o ipoteză statistică (aplicăm un test de semnificaţie) asupra parametrului


β din modelul de regresie, ne bazăm pe cele cinci ipoteze cerute modelului şi pe
următorul rezultat statistic asociat estimatorului OLS βˆ :
βˆ − β
1) variabila aleatoare are o distribuţie normală standard N (0,1) ;
Var ( βˆ )

1
2) eroarea standard a estimatorului este SE ( βˆ ) = s .
∑ ( xi − x )2

2
Din afirmaţiile 1) şi 2) se obţine un rezultat statistic important şi anume:
βˆ − β
Statistica test pe care putem s-o folosim este . Ea are o repartiţie t cu
SE ( βˆ )
βˆ − β
n-2 grade de libertate, adică ∼ t (n − 2) (rezultat statistic important pe care nu îl
SE ( βˆ )
demonstrăm!)
D) Determinarea regiunii critice
Dacă nivelul de semnificaţie este fixat la 5%, pe baza statisticii test folosite, regiunile
de respingere pentru cele trei situaţii
a) H1 : β ≠ β *
b) H1 : β < β * ;
c) H1 : β > β *
sunt prezentate în figurile 1a-c).

a) b)

c)
Fi 1
Am notat cu tcrt valoarea critică a statisticii test, mai precis acea valoare (obţinută din
tabele) care marchează regiunea de respingere. (Această regiune de respingere este
formată din două intervale, (−∞, −tcrt ) şi (tcrt , +∞) , în prima situaţie.)
Etapele testului de semnificaţie pentru
Ipoteza nulă H0 : β = β *
Ipoteza alternativă H1 : β > β *
sunt prezentate în caseta următoare:

3
Caseta 3
1. Obţinem estimaţii OLS pentru βˆ şi eroarea sa standard SE ( βˆ ) ;

βˆ − β *
2. Calculăm valoarea statisticii test tˆ = unde β * este valoarea
SE ( βˆ )
parametrului din ipoteza nulă;
3. Fixăm nivelul de semnificaţie, de exemplu la 5% şi găsim din tabelele
repartiţiei t (n − 2) valoarea critică tcrt ;
4. Regula de decizie:
• dacă valoarea statisticii test tˆ > tcrt , atunci suntem în regiunea de
respingere a ipotezei nule şi, prin urmare, acceptăm ipoteza
alternativă;
• dacă valoarea statisticii test tˆ < tcrt , atunci nu putem respinge
ipoteza nulă şi nu putem accepta ipoteza alternativă!

Exemplu. Să revenim la următorul rezultat (obţinut prin OLS pe un eşantion de


volum n = 22 observaţii)
yˆi = 20.3 + 0.5091xi
(14.38) (0.2561)
Dorim să aplicăm testul de semnificaţie pentru perechea de ipoteze:
H0 : β = 1
H1 : β ≠ 1 (ipoteza bilaterală)

1) folosim estimaţiile OLS βˆ = 0.5091 şi SE ( βˆ ) = 0.2561 ;

βˆ − β 0.5091 − 1
2) valoarea statisticii test va fi tˆ = = = −1.917 ;
SE ( βˆ ) 0.2561
3) pentru nivelul de semnificaţie 5% (testul bilateral) găsim în tabele
tcrt = t20,2.5% = ±2.086 ;

4) cum regiunea de respingere a ipotezei nule este (−∞, −2.086) ∪ (2.086, ∞ ) iar
valoarea statisticii este tˆ = −1.917 nu aparţine acestei regiuni, nu avem motive
să respingem ipoteza nulă.

Concluzie: deşi valoarea testată pentru parametru este mult mai mare decât valoarea
obţinută pe eşantion, (aproape dublă), pe baza testului de semnificaţie, nu avem
motive să o respingem. Observăm că acest lucru este justificat printr-o eroare standard
mare a coeficientului β .

4
3. Testul de semnificaţie şi abordarea prin intervalele de încredere
Am văzut în testul de semnificaţie pentru un parametru (la noi β ) că ipoteza nulă
H 0 : β = β * nu poate fi respinsă dacă valoarea statisticii test se află în intervalul de
nerespingere de forma (pentru cazul bilateral)
βˆ − β *
−tcrt ≤ ≤ tcrt
SE ( βˆ )
Rearanjând termenii, obţinem:
−tcrt ⋅ SE ( βˆ ) ≤ βˆ − β * ≤ tcrt ⋅ SE ( βˆ ) sau βˆ − tcrt ⋅ SE ( βˆ ) ≤ β * ≤ βˆ + tcrt ⋅ SE ( βˆ ) .
Vom spune că
( βˆ − tcrt ⋅ SE ( βˆ ), βˆ + tcrt ⋅ SE ( βˆ )) (1)

este un interval de încredere pentru βˆ . Dacă nivelul de semnificaţie este 5%, atunci
vom spune că (1) este un interval de încredere 95%.
Concluzie. Pentru un acelaşi nivel de semnificaţie testul de semnificaţie şi abordarea
prin intervale de încredere va da acelaşi rezultat.
Să reluăm exemplul anterior în care H 0 : β = 1 era ipoteza nulă. Intervalul de
încredere (95%) construit pe baza formulei (1) şi a estimaţiilor pentru βˆ şi SE ( βˆ )
este
βˆ ± tcrt ⋅ SE ( βˆ ) = 0.5091 ± 2.086*0.2561 = (−0.0251,1.0433) .
Cum valoarea β = 1 este în acest interval, nu avem motive să respingem ipoteza nulă.

În testarea „bonităţii” unui model de regresie suntem puşi în situaţia de a verifica


statistic următoarea pereche de ipoteze:
H0 : β = 0
H1 : β ≠ 0 (ipoteza bilaterală)
sau
H0 :α = 0
H1 : α ≠ 0 (ipoteza bilaterală).
βˆ
Este evident că, în aceste cazuri, statistica test este tˆ = pentru parametrul β şi
SE ( βˆ )
αˆ
tˆ = pentru parametrul α .
SE (αˆ )
Observaţie. Dacă valoarea 0 aparţine intervalului de încredere atunci este posibil nu
putem respinge ipoteza nulă privind căreia parametrul are valoarea 0.
În orice mediu de statistică folosit, se afişează, prin urmare informaţii de forma
(exemplul din Excel):
Upper
Coefficients Standard Error t Stat P-value Lower 95% 95%
Intercept 36.428571 5.038119993 7.230588 0.000789 23.47767169 49.37947
X Variable 1 0.0589286 0.011265579 5.230852 0.003379 0.029969479 0.087888

5
6

Anda mungkin juga menyukai