y1 1 x11 . . . x1 p z1 w 1 . . .
y2 1 x21 . . . x2 p z2 w 2 . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
y 1 x . . . xnp zn wn . . .
n n1
con:
• Y è la variabile che si vuole spiegare (variabile dipendente o variabile risposta)
• la costante 1 e X1, X2, …, Xp sono i predittori quantitativi (variabili indipendenti
o variabili esplicative)
• Z, W, … altre variabili presenti nalla base dati che non interessano per
la regressione
12/4/2013 Regressione 1
Modello rappresentazione di un fenomeno casuale o di un esperimento
Modello:
derivato da osservazioni o risultati sperimentali
Il modello
! semplifica la realtà
! emula gli aspetti principali della realtà (ma non è la realtà! La approssima)
! è di importanza fondamentale perché semplificando la realtà permette di
analizzare, prevedere il comportamento di fenomeni molto anche complessi
12/4/2013 Regressione 2
Regressione (2)
12/4/2013 Regressione 3
Teoria Dati
• Formulazione di ipotesi • Individuazione della tipologia
• Relazione causa-effetto tra più variabili • Trasformazioni preliminari
• Individuazione delle variabili esplicative
" Modelli semplici: una sola variabile Y è spiegabile mediante una sola
variabile X; modelli multipli: le variabili Xi che spiegano Y sono più di una;
modelli multivariati se le variabili da spiegare sono più di una così come
quelle utilizzate per la piegazione di ciascuna di esse è più di una
12/4/2013 Regressione 5
Pulse 1 Pulse 2 Run Smokes Sex Height Weight Activity
64 88 1 2 1 66.00 140 2
58 70 1 2 1 72.00 145 2
62 76 1 1 1 73.50 160 3
66 78 1 1 1 73.00 190 1
64 80 1 2 1 69.00 155 2
74 84 1 2 1 73.00 165 1
84 84 1 2 1 72.00 150 3
68 72 1 2 1 74.00 190 2
62 75 1 2 1 72.00 195 2
76 118 1 2 1 71.00 138 2
90 94 1 1 1 74.00 160 1
80 96 1 2 1 72.00 155 2
92 84 1 1 1 70.00 153 3
68 76 1 2 1 67.00 145 2
60 76 1 2 1 71.00 170 3
62 58 1 2 1 72.00 175 3
66 82 1 1 1 69.00 175 2
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
PULSE.MTW
© All Rights Reserved. 2000 Minitab, Inc.
12/4/2013 Regressione 6
Dal File Pulse.mtw ….
140
130
120
110
100
Pulsse2
90
80
70
60
50
50 60 70 80 90 100
Pulse1
12/4/2013 Regressione 7
Dal File Pulse.mtw ….
200
eight
We
150
100
60 65 70 75
Height
12/4/2013 Regressione 8
Caso p = 1:
Modello: Y = β0 +β1x + ε
12/4/2013 Regressione 9
∑( ) = ∑ (Y − β
n n 2 n
S2(β0,β1) = ∑
i =1
εi2 =
i =1
Yi − ˆYi
i =1
i 0 − β1 xi )2
Paraboloide convesso
n
∂S2
∂β
0
∑
= −2 (Yi − β0 − β1 xi )
i =1
2 n
∂S = −2 x (Y − β − β x )
∂β
1
∑
i =1
i i 0 1 i
B0 = Y − B1 x
n n
Stimatori ai
∑ (xi − x )(Yi − Y) con: Y =
1
∑Y i
minimi quadratiB1 = i =1 n n i =1
∑
i =1
(xi − x )2
12/4/2013 Regressione 10
b0 = y − b1 x n
1
∑
n
(xi − x )(yi − y ) con y =
n ∑y
i =1
i
b1 =
i =1
n
∑
i =1
(xi − x )2
b0 = y − b1 x
n
∑ xi yi − n x y
b1 = n
i =1
∑i =1
xi 2 − n x
2
12/4/2013 Regressione 11
ˆY = B + B x
i 0 1 i
y = Y + B1 (xi − x )
arctan b1
y
b0
x x
12/4/2013 Regressione 12
Row x y
1 10 8.04
2 8 6.95
3 13 7.58
4 9 8.81
5 11 8.33
6 14 9.96
7 6 7.24
8 4 4.26
9 12 10.84
10 7 4.82
11 5 5.68
12/4/2013 Regressione 13
Estimated Line of Regression: ŷ = 3 + 0.5 x
11
10
8
y
7
4 9 14
x
12/4/2013 Regressione 14
ŷ = b0 + b1x
(xi,yi)
yi yi
I
III
ŷi ŷi II
y y
x x
i
12/4/2013 Regressione 15
Residui: yi − ŷi
∑ (y
i =1
i − ŷi ) = 0
n n
n n n
12/4/2013 Regressione 16
n n n
2 (* )
∑ (yi −y) ∑ (ŷi −y) ∑ (yi − ŷi )
2 2
= +
i =1 i =1 i =1
n n
n n
(* )
∑ (ŷi −y) ≡
2
(
∑ i
ŷ − ŷ )2
i =1 i =1
12/4/2013 Regressione 17
R2, detto indice di determinazione multipla, con 0 ≤ R2 ≤ 1, misura quanta parte
della variabilità complessiva osservata per la variabile risposta Y, che si vuole
spiegare mediante la variabile indipendente x, può essere ascrivibile al legame
lineare stimato mediante la retta di regressione
12/4/2013 Regressione 18
Proprietà degli stimatori B0 , B1 e ˆY di β0, β1 e E[Yi ]
Yi = β0 +β1xi + εi per x = xi
! E[εi ] = 0 e var[εi ] = σ2
! cov[εi, εj ] = 0 per ogni i ≠ j
12/4/2013 Regressione 19
Relazione lineare tra x e Y
12/4/2013 Regressione 20
Relazione funzionale lineare tra x e y, quando gli errori su ambedue
le variabili x e y sono di natura casuale e di entità non trascurabile
12/4/2013 Regressione 21
Schema di distribuzione di probabilità bivariata
12/4/2013 Regressione 22
∑ (Yi − Y) =∑ ( ) ∑ (Y − ˆY )
n n 2 n 2
2 ˆY − Y +
i i i
i =1 i =1 i =1
F1,n − 2
Accetto Rifiuto
f1,n −2,1−α
12/4/2013 Regressione 24
Origine della Gradi di Somme dei Quadrati medi
variazione libertà quadrati
2
Regressione 1 SS(b0) = n y MS(b0)=
(b0) SS(b0)/1
SS(b1⏐b0) =
Regressione 1 MSRegr. =
n
(b1⏐b0) ∑
b1 xi yi − n x y
i =1
SSRegr./1
12/4/2013 Regressione 25
β0
ŷ = b0 + b1x
b0 Y = β0 + β1x
ŷ = b0 + b1x
Y = β0 + β1x
β0
b0
12/4/2013 Regressione 27
∑( ) = ∑ (β
n n 2 n
ˆS2 =
∑
i =1
εi2 =
i =1
Yi − ˆYi
i =1
0 + β1 xi + εi − (B0 + B1 xi ))2 =
n
= ∑ (ε
i =1
i − (B0 − β0 ) − (B1 − β1 ) xi )2 =
E[ˆS2 ] = (n − 2)σ2
∑( )
n
2 1 2
ˆσ = Y − Ŷ
n − 2 i =1 i i
12/4/2013 Regressione 28
Gli stimatori di β0 e di β1 ai minimi quadrati, oltre ad essere
corretti e consistenti
consistenti, sono, nella “classe degli stimatori lineari
corretti”, quelli a varianza uniformemente minima
(vedi teorema di Gauss-Markov).
12/4/2013 Regressione 29
2
21 x
E[B0 ] = β0 var [B0 ] = σ + n
n
∑
i =1
(xi − x )2
σ2
E[B1] = β1 var [B1 ] = n
∑ (x
i =1
i −x)
2
σ2 x
cov [B0 , B1 ] = − n
∑ (x
i =1
i −x)
2
12/4/2013 Regressione 26
Intervallo
B0 − β0 B0 − β0 di fiducia
= ∼ N (0,1)
var [B0 ] 1 x
2
σ +
n n Test di
∑ (xi
i =1
−x)
2
ipotesi
Intervallo
B1 − β1 B1 − β1 di fiducia
= ∼ N (0,1)
var [B1 ] 1
σ n
Test di
∑ (xi
i =1
−x)
2
ipotesi
n
1
2
σ ???
2
ˆσ = s = 2
(yi − ŷi )2
∑
n − 2 i =1
12/4/2013 Regressione 30
$ Intervallo di fiducia per β0 al livello 1 − α
2 2
1 x 1 x
(li, ls) = b0 − tn −2,1−α 2s + n , b0 + tn −2,1−α 2s + n
n n
∑
i =1
(xi − x )2
i =1
∑
(xi − x )
2
1 1
(li, ls) = b1 − tn −2,1−α 2s n , b1 + tn −2,1−α 2s n
∑ (x
i =1
i −x)
2
∑
i =1
(xi − x )
2
12/4/2013 Regressione 31
$ Test di ipotesi per β0 al livello di fiducia 1 − α
b0 − β∗0
tcalc = 2
1 x
s + n
0.4
n
∑ (x
i =1
i −x)
2
0.3
tn−2
0.2
-4− tn−2,1−α/2
-3 -2 -1 0 1 2t 3 4
n−2,1−α/2
12/4/2013 Regressione 32
$ Test di ipotesi per β1 al livello di fiducia 1 − α
b1 − β∗
tχαλχ = 1
1
0.4
s n
∑ (x
i =1
i −x)
2
0.3
tn−2
0.2
-4− tn−2,1−α/2
-3 -2 -1 0 1 2t 3 4
n−2,1−α/2
12/4/2013 Regressione 33
Regione di fiducia congiunta a livello 1 − α sul piano (β0,β1)
n n
∑x
i =1
2
i (β1 − b1 )
2
∑ x (β
+2
i =1
i 1 − b1 )(β0 − b0 ) + n (β0 − b0 )2 = 2s 2F1−α , 2, n −2
12/4/2013 Regressione 34
Inferenza sulla risposta media β0+β1xk
ˆ =B +B x
Yk 0 1 k Stimatore puntuale della risposta media per un xk fissato
E[ˆYk ] = β0 + β1xk
1
var [ˆYk ] = σ2 +
(xk − x )2
n n
∑
i =1
(xi − x )
2
+ Normalità
12/4/2013 Regressione 35
Intervallo
ˆY − (β + β x ) ˆY − (βo + β x ) di fiducia
k 0 1 k k 1 k
= ∼ N ( 0,1)
var [ˆY ] (x − x ) 2
k 1 k
σ + n Test di
n ∑ (xi −x)
2
ipotesi
i =1
12/4/2013 Regressione 36
$ Intervallo di fiducia per β0 + β1 xk al livello 1 − α
li = (b0 + b1xk ) − t
1 (xk −x)
2
αs + n
n −2,1− n
2
∑ (x
i =1
i −x)
2
ls = (b0 + b1xk ) + t
1 (xk −x)
2
αs + n
n −2,1− n
2
∑ (x
i =1
i −x)
2
12/4/2013 Regressione 37
Intervallo di predizione di una risposta futura β0+β1xk
1
var [ˆYk ] = σ2 1 + +
(xk − x )2
n per i valori singoli
n
∑
i =1
(xi − x )
2
li = (b0 + b1xk ) − t
1 (xk −x)
2
αs 1+ + n
n −2,1− n
2
∑ (x
i =1
i −x)
2
ls = (b0 + b1xk ) + t
1 (xk −x)
2
αs 1+ + n
n −2,1− n
2
∑ (x
i =1
i −x)
2
12/4/2013 Regressione 38
Retta di regressione Pulse2 vs Pulse1
Pulse2 = 10.2784 + 0.956799 Pulse1
S = 13.5375 R-Sq = 38.0 % R-Sq(adj) = 37.3 %
140
90
e2
Pulse
Regression
40 95% CI
95% PI
50 60 70 80 90 100
Pulse1
12/4/2013 Regressione 39
ROW X Y1 Y2 Y3 X4 Y4
Anscombe (1973)
ŷ = 3.0 + 0.50x
12/4/2013 Regressione 40
11
9
10
8
9
7
8
Y1
Y2
6
7
6 5
5 4
4 3
4 9 14 4 9 14
X X
13 13
12 12
11 11
10 10
Y3
Y4
9 9
8 8
7 7
6 6
5 5
4 9 14 10 15 20
X X4
12/4/2013 Regressione 41
Analisi dei residui
12/4/2013 Regressione 42
Regression Analysis: Pulse2 versus Pulse1
12/4/2013 Regressione 43
Residuals Versus the Order of the Data (response is Pulse2)
40
30
20
Residual
10
-10
-20
10 20 30 40 50 60 70 80 90
Observation Order
12/4/2013 Regressione 44
Residuals Versus the Fitted Values (response is Pulse2)
40
30
20
Residual
10
-10
-20
55 65 75 85 95 105
Fitted Value
12/4/2013 Regressione 45
Normal Probability Plot of the Residuals (response is Pulse2)
1
Normal Score
0
N
-1
-2
-3
-20 -10 0 10 20 30 40
Residual
12/4/2013 Regressione 46
Analisi dei residui
Normal Plot of Residuals I Chart of Residuals
50
40 1 1
1
40 1 1
30 30 11 1 1
Residual
UCL=23.45
Residual
20 20 55 2
2
66
10 10
0 0 Mean=2.09E-14
22 2
2
-10 22222 22222 22
22
-10 222 2 2 66
-20 2
6 LCL=-23.45
-20
-30
-3 -2 -1 0 1 2 3 0 10 20 30 40 50 60 70 80 90 100
Normal Score Observation Number
20 Residual 20
10
10 0
-10
0 -20
-20 -10 0 10 20 30 40 55 65 75 85 95 105
Residual Fit
12/4/2013 Regressione 47
Forma soddisfacente dei plot dei residui
12/4/2013 Regressione 48
Forme insoddisfacenti dei plot dei residui
12/4/2013 Regressione 49
Analisi del modello
Ri di=errore
sistematico
12/4/2013 Regressione 50
n1
y 11 y 12 . . . y 1n (n 1 osservazioni in x 1) ⇒
1
∑ (y
j =1
1j −y1 )
2
n 1− 1 gradi di
libertà
con
n1
1
y1 =
n1 ∑y
j =1
1j
n2
y 21 y 22 . . . y 2n (n 2 osservazioni in x 2 ) ⇒
2
∑ (y
j =1
2j −y2 )
2
n 2 −1 gradi di
libertà
con
n2
1
y2 =
n2 ∑y
j =1
2j
. . . . . . .
. . . . . . .
nk
yk1 yk2 . . . y kn (n k osservazioni in x k) ⇒
k
∑ (y
j =1
kj −yk )
2
n k − 1 gradi di
libertà
con
nk
1
yk =
nk ∑yj =1
kj
k ni k
Totale ∑ ∑ (y
i =1 j =1
ij − yi )
2
∑ (n
i=1
i − 1) = n − k
12/4/2013 Regressione 51
n k ni
SSlack of fit = ∑ (y i− ŷi )
2
− ∑∑ (y
i =1 j =1
ij − yi )
2
i =14
1 4244 3 1 44 42444 3
SSresidui SSp.e.
G.d.L.lack of fit = (n − 2) − (n − k) = k − 2
12/4/2013 Regressione 52
Dati:
xi 1 2 3 4 5
yi 10 10 7 14 12 10 65 64 69 72 74 70 90 90 96
con y 1 = 9
3
∑ (y ) 2
14 12 10 (3 osserv. in x = 2) ⇒ 2j −y2 =8 2 g.d.l.
j =1
con y 2 = 12
. . . . . .
. . .
3
90 90 96 (3 osserv. in x = 5) ⇒ ∑ (y
j =1
5, j −y5 )
2
= 24 2 g.d.l.
con y 5 = 92
Totale 60 10
12/4/2013 Regressione 53
Analisi della varianza, cioè analisi statistica …..
Origine della Gradi di libertà Somme dei quadrati Quadrati medi Fcalc
variazione
Regress.(b0) 1 SS(b0) = 37800 MS(b0) = 37800 303
Regress.(b1⏐b0) 1 SS(b1⏐b0) = 15323 MSRegr. = 15323 123
10 per l' errore puro SSRes. = MSRes. =124.9
13 SSp.e. = 60
Residui 3 per il L.O.F. MSp.e. = 6 86.89
1624 =
SSL.O.F. = 1564 MSL.O.F. = 521.3
Totale 15 SST = 54747
12/4/2013 Regressione 54
Strategia per la scelta del piano sperimentale
12/4/2013 Regressione 55
& Che tipo di relazione (del I ordine, del II ordine o altro) utilizzare
nel range prescelto?
12/4/2013 Regressione 56
G.d.L. σb1
l.o.f. p.e. σe k
12 0 0.43 14
-1 1
5 7 0.40 7
-1 0 1
5 7 0.33 5
-1 0 1
2 10 0.31 4
-1 1
12/4/2013 Regressione 57
G.d.L. σb
1
l.o.f. p.e. σe k
1 11 0.32 3
-1 0 1
1 11 0.29 3
-1 0 1
0 12 0.27 2
-1 1
12/4/2013 Regressione 58