Anda di halaman 1dari 12

1

1
Regresia liniar
2
Definiie, specificare, identificare
Legturile care exist ntre dou variabile
statistice pot fi studiate folosind dou tehnici:
regresia i corelaia.
Corelaia va arta ct de puternic este
legtura, dependena dintre variabile
Regresia reflecta forma legaturii si ajuta n
explicarea i previzionarea unui factor pe baza
valorii altuia (altora)
2
3
Norul de puncte
Procesul de regresie presupune doi pasi. Primul se refera la determinarea
ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii
n predictie.
Determinarea ecuatiei de regresie are loc n baza irului de date din trecut.
Plasate n sistemul de coordonate XOY, ele reprezint norul de puncte
0
0.5
1
1.5
2
2.5
3
3.5
4
0.5 1 1.5 2 2.5 3 3.5 4
Factorul independent X
F
a
c
t
o
r
u
l

d
e
p
e
n
d
e
n
t
Y
4
Ecuaia de regresie
n funcie de forma amplasrii punctelor n cadrul norului de
puncte, regresia poate fi liniar (aproape de linie dreapt) sau
neliniar (curbilinie).
Forma general prin care se exprima o ecuatie de regresie
liniar este: y= a +bx
n calitate de exemple de ecuaii neliniare pot servi
y=a+be
x
exponential
y= a+x
b
putere (parabolic .a.)
y=a+b/x - hiperbolic
y=a+bln(x) logaritmic
3
-400
-200
0
200
400
600
800
1000
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
Y
|
.
|

\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
Exermple de grafice: liniar i neliniare
Ecuaia liniar: semnificaia
parametrilor a i b
Parametrul a exprim valoarea lui y cnd x=0, deci este intersecia
dreptei cu axa OY i poart denumirea de intercepie.
Parametrul b este numit coeficient de regresie sau pant i arat
cu ct se modific y cnd variabila x se modific cu o unitate.

O
0 b
bx a y
=
+ =


x
y
Panta egala cu zero

O
0 b
bx a y
>
+ =

x
y
Pantapozitiva

O
0 b
bx a y
<
+ =


x
y
Panta negativa
a
a
a
4
Determinarea parametrilor a i b
1-a metod (nlocuirea direct n formul):
2-a metod (nlocuirea i rezolvarea sistemului
de ecuaii):
Ca rezultat se elaboreaz modelul de regresie:
, astfel c
2
2
x n x
y x n xy
b

X b Y a =



= = +
= +
XY X b X a
Y X b na
2
i b a i x y + =


= =
=
n
i
i
n
i
i
y y
1 1

8
Analiza regresional: exemplu
Sasemodelezelegaturadintrevolumulcheltuielilor
cupublicitateaivolumulvanzarilor,utilizand
informatiileextrasedepeunesantionde15
intreprinderi asemntoaredupprofilulde
activitateidimensiuni.
ntreprinderea 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cheltuieli
promovare
(mii lei) xi
20.0 14.8 20.5 12.5 18.0 14.3 24.9 16.5 24.3 20.2 22.0 19.0 12.3 14.0 16.7
Volumul
vnzrilor
(mii lei) yi
2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740
5
9
Norul de puncte
0
500
1000
1500
2000
2500
3000
3500
4000
0,0 5,0 10,0 15,0 20,0 25,0 30,0
Amplasarea punctelor poate fi examinat ca liniar
Vnzri
Cheltuieli publicitare
Exemplu: Tabelul 1(calcule)
Nr. x y x
2
y
2
xy
1 12,3 1860 151,29 3459600 -5,7 32,49 22878 1449
2 12,5 1210 156,25 1464100 -5,5 30,25 15125 1474
3 14 1730 196 2992900 -4 16 24220 1664
4 14,3 1980 204,49 3920400 -3,7 13,69 28314 1702
5 14,8 1900 219,04 3610000 -3,2 10,24 28120 1765
6 16,5 1880 272,25 3534400 -1,5 2,25 31020 1980
7 16,7 1740 278,89 3027600 -1,3 1,69 29058 2005
8 18 1500 324 2250000 0 0 27000 2170
9 19 3120 361 9734400 1 1 59280 2296
10 20 2190 400 4796100 2 4 43800 2423
11 20,2 2130 408,04 4536900 2,2 4,84 43026 2448
12 20,5 1990 420,25 3960100 2,5 6,25 40795 2486
13 22 2880 484 8294400 4 16 63360 2676
14 24,3 3100 590,49 9610000 6,3 39,69 75330 2967
15 24,9 3340 620,01 11155600 6,9 47,61 83166 3043
Total 270 32550 5086 76346500 0 226 614492 32549
( ) x x
i
( )
2
i
x x
y

6
Exemplu: Tabelul 2(calcule)
Nr. x y
1 12,3 1860 -310 96100 -721,2 520086,2 411,17 169058,3
2 12,5 1210 -960 921600 -695,9 484221,1 -264,14 69767,3
3 14 1730 -440 193600 -506,1 256137,2 66,1 4369,21
4 14,3 1980 -190 36100 -468,2 219164,4 278,15 77365,75
5 14,8 1900 -270 72900 -404,9 163935,9 134,89 18195,85
6 16,5 1880 -290 84100 -189,8 36031,6 -100,18 10035,03
7 16,7 1740 -430 184900 -164,5 27066,8 -265,48 70478,04
8 18 1500 -670 448900 -0,1 0,0 -669,94 448819,6
9 19 3120 950 902500 126,5 15989,6 823,55 678234,6
10 20 2190 20 400 253,0 63988,8 -232,96 54270,36
11 20,2 2130 -40 1600 278,3 77428,6 -318,26 101290,7
12 20,5 1990 -180 32400 316,2 99995,1 -496,22 246229,33
13 22 2880 710 504100 506,0 256015,8 204,02 41624,16
14 24,3 3100 930 864900 797,0 635129,3 133,05 17701,5
15 24,9 3340 1170 1368900 872,9 761884,6 297,14 88292,77
Total 270 32550 0 5713000 -0,9 3617075,0 0,9 2095733
.
( ) y y
i
( )
2
y y
i
( )
2
y y
i

( ) y y
i

( )
2
i
y y

Determinarea parametrilor a i b
1-a metod (nlocuirea direct n formul):
5 , 126 226 / 28592
18 15 5086
2170 18 15 614492
2
= =
-
- -
= b
107 5 , 126 18 2170 X b Y a = - = =

Modelul de regresie este urmtorul:


i 5 , 126 107 i x y + =

7
Testarea parametrului |
Panta | msoar schimbarea variabilei rezultative
care rezult n urma modificrii cu o unitate a
variabilei cauzale. Dac | = 0, nseamn c linia
de regresie este orizontal, adic Y Y =


Vom testa dac panta (|) este diferit de zero.
Ipotezele sunt:
H
0
: | = 0 (
b
= | = 0),
H
1
: | = 0.
Dac volumul eantionului este mare, vom utiliza
testul z:
b b
calc
s
b
s
b
z
0
=

=
|
, unde

=


=
n
i
i
b
x x
k n y y
s
1
2
2
) (
) 1 /( ) (
este
abaterea standard a estimatorului b.

Testarea parametrului (continuare)

Numaratorul reprezinta estimatorul dispersiei reziduurilor S
e
.
Cea mai mic valoare a lui S
e
este zero, care apare atunci
cnd

=
=
n
i
y y
1
2
0 ) (

, adic punctele observate se situeaz
exact pe linia de regresie. Dac e
s
este mic, ajustarea
este foarte bun, iar modelul de regresie poate fi utilizat ca
un instrument efectiv de analiz i previzionare.
7 , 26
226
) 1 1 15 /( 2095733
=

= b S

=
calc
t
126,5/26,7= 4,736

8
Testarea parametrului b-continuare

Pentru un prag de semnificaie de 5%, valoarea
teoretic a testului este t
o/2;13
= 2,16 . Deoarece
calc
t
>t
o/2;13
vom concluziona c este foarte
improbabil ca estimatorul b s provin dintr-o
populaie cu |=0 ( adic | este semnificativ diferit
de zero).
Intervalul de ncredere pentru parametrul
|
,
coeficientul de regresie din colectivitatea general,
este:
b n , / b n , /
s t b s t b + s s
2 2 2 2 o o
|
,
7 , 26 16 , 2 5 , 126 7 , 26 16 , 2 5 , 126 + s s |
,
adic
21 184 81 68 , , s s |


Testarea parametrului a
Pe baza datelor din eantion se obine, de asemenea, o
estimaie a parametrului
o
.
Eroarea standard a coeficientului de intercepie este:

=
=

=
n
i
i
n
i
i
e a
x x n
x
s s
1
2
1
2
) (

Ipotezele sunt:
H
0
: o = 0,
H
1
: o = 0
Statistica t este:
a
calc
s
a
t
0
=

9
Testarea parametrului a





Statistica t este:
218 , 0
8 , 491
0 107
s
a
t
a
a
calc
=

=

=
.

Pentru un prag de semnificaie de 5%, valoarea teoretic a testului
este t
o/2;13
= 2,16 . Deoarece calc
t
<t
o/2;13
vom concluziona c este
foarte probabil ca estimatorul a s provin dintr-o populaie cu o=0
( adic o nu este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul
o
este dat de:
a n , / a n , /
s t a s t a + s s
2 2 2 2 o o
o
, -1169,69
s so
955,22.
8 , 491
226 15
5086
5 , 401
) (
1
2
1
2
=

=
=
n
i
i
n
i
i
x x n
x
e a
s s
Testarea validitii modelului de regresie
folosind metoda analizei varianei (ANOVA)
n aplicarea metodei regresiei, variabilei
dependente Y i sunt asociate dou medii: media
total (
y
) i media condiionat sau teoretic:
( i i
bx a y + =

). Pe baza acestor dou medii diferite,


variaia (abaterea) total (
y y
i

) poate fi mprit
n abaterea neexplicat de model ( i i
y y

) i
abaterea explicat (
y y
i

), astfel:
) ( ) ( y y y y y y
i i i i
+ =

.
10
Prin ridicarea la ptrat a fiecrei abateri i nsumarea
pentru toate observaiile, obinem:

= = =
+ =
n
i
n
i
i i i
n
i
i
y y y y y y
1 1
2 2
1
2
) ( ) ( ) (


Vom nota:

=
A =
n
1 i
2
y
2
i
) y y (
= variana total, suma ptratelor
abaterilor totale;

=
A =
n
i
e i
y y
1
2 2
) (

= variana neexplicat (rezidual),
suma ptratelor erorilor;

=
A =
n
i
x y i
y y
1
2
/
2
) (

= variana explicat, suma ptratelor


abaterilor datorate regresiei.
Variana total este, aadar egal cu variana explicat
de model plus variana neexplicat (rezidual):
2 2 2
e x / y y
A + A = A
.
Pentru calculul statisticii F (testul F) utilizat pentru
testarea calitii ajustrii folosim tabelul ANOVA:
Tabelul 4.3
Surs
variaiei
Suma ptratelor
(SS-Sum of
Squares)
Grade de
libertate
(df- degree of
freedom)
Media
ptratelor
(MS- Mean of
Squares)
Testul
Fisher
(testul F)
Datorat
regresiei

( )

=
= A
n
i
i x y
y y
1
2
2
/


k
k
s
x / y
x / y
2
2
A
=

2
e
2
x / y
calc
s
s
F =

Rezidual
( )

=
= A
n
i
i i e
y y
1
2
2


n k 1
1
2
2

A
=
k n
s
e
e
Total
( ) = A
=
n
1 i
2
i
2
y
y y

n 1
1
2
2

A
=
n
s
y
y


unde k reprezint numrul variabilelor independente
luate n consideraie (pentru regresia liniar simpl,
k=1).
11
Pentru testarea validitii modelului se formuleaz cele
dou ipoteze:
H
0
: model nevalid statistic, cu alternativa
H
1
: model valid statistic
Statistica utilizat pentru a decide care dintre ipoteze se
accept este:

2
2
/
e
x y
calc
s
s
F =

Se compar valoarea calculat a testului F cu
valoarea teoretic pentru un prag de semnificaie o i k,
respectiv (n-k-1) grade de libertate, preluat din tabelul
repatiiei Fisher:
1 k n ; k ;
F
o
.
Dac F
calc
>
1 k n ; k ;
F
o
se respinge H
0
, adic se
concluzioneaz c modelul este valid.
Estimatorul dispersiei variabilei Y este:
1
2
2

A
=
n
s
y
y .
Estimatorul dispersiei reziduurilor se determin ca:

1
) (
1
1
2
2
2

=

A
=

=
k n
y y
k n
s
n
i e
e

,
unde k reprezint numrul variabilelor
independente considerate, iar (n-k-1) reprezint
numrul gradelor de libertate. n cazul regresiei
simple liniare, k=1 i (n-k-1)=2.
12
Exemplu: Vom valida modelul de regresie determinat n
exemplul de regresie liniar:
Surs
variaiei
Suma
ptratelor
Grade de
libertate
Media
ptratelor
Testul Fisher
(testul F)
Datorat
regresiei

2
x / y
A
=3617075
k=1
2
x / y
s
=3617268
161210
3617075
calc F =
=

= 22,44
Rezidual
2
e
A
=2095732
n k 1=15-
2=13
2
e
s
=161210,2
Total 2
y
A
=5713000
n 1=15-1=
14

Pentru testarea validitii modelului se formuleaz cele dou
ipoteze:
H
0
: model nevalid statistic, cu alternativa
H
1
: model valid statistic
Valoarea teoretic pentru un prag de semnificaie o = 0,05 i 1,
respectiv 13 grade de libertate, preluat din tabelul repartiiei
Fisher este
1 k n ; k ;
F
o
=4,67. ntruct F
calc
>
1 k n ; k ;
F
o

se respinge H
0
, adic se concluzioneaz c modelul este valid.

Anda mungkin juga menyukai