Anda di halaman 1dari 6

 Modello di regressione

Obiettivo: Esplicitare una relazione funzionale tra ci che si


intende spiegare (variabile dipendente) e quello
che si ritiene possa esserne la causa (variabile
indipendente o esplicativa)
Esempi

Consumi in funzione del Reddito

Vendite di un prodotto in funzione delle Spese in


pubblicit

Altezza della figlia in funzione dellAltezza della madre

Resa agricola in funzione delle Dosi di fertilizzante

Voto a Statistica in funzione del Voto a Matematica


Prof.ssa Emma Sarno
Statistica

TEORIA

DATI

Ipotesi
Relazioni
Variabili esplicative

Prof.ssa Emma Sarno


Statistica

 Modello statistico

Disponibilit
Tipologia
Trasformazioni

parametro/i

Y = f (X 1 , X 2 ,..., X p , ) +

Specificazione del modello


Stima dei parametri

NO

La costruzione di un modello statistico serve a


descrivere, comprendere prevedere, simulare,
controllare un fenomeno reale, del quale
costituisce una rappresentazione analogica e
semplificata

Variabile
dipendente

Variabili indipendenti o
esplicative

Variabile
errore

Verifica del modello


Componente
deterministica

SI
Uso del Modello

Prof.ssa Emma Sarno


Statistica

Componente
aleatoria
4

Modello di regressione lineare semplice


Variabile
dipendente

Variabile
indipendente

 Supponiamo di avere un insieme di n dati (xi.yi) e di


rappresentarli sul piano cartesiano

Variabile
errore

 Vogliamo trovare quella retta che passa attraverso la


nuvola di punti nel modo migliore

Y30

Y = 0 + 1X +

28
26

Intercetta

24

Coefficiente
angolare

22

Sotto lipotesi che il contributo della variabile errore sia in


media nullo, questo modello esprime una relazione in media
tra Y e X, ossia il valore che in media assume Y quando X=x
Prof.ssa Emma Sarno
Statistica

20
18
18

24

26

28

30

Prof.ssa Emma Sarno


Statistica

 La retta che passa attraverso la nuvola di punti nel


modo migliore quella che minimizza le distanze
verticali tra i valori osservati yi e quelli teorici i, ossia
gli scarti ei al quadrato

Y30
y28i
ei=yi-i

26

22

Valore osservato (xi,yi)

i=0+1xi

20

 Dobbiamo determinare quei valori 0 e 1 che


minimizzano la seguente espressione:

24
22

Valore teorico (xi,i)

20
18
18

20

yi=0+1xi+ei,

22

x24i

26

28

e = [y (
2
i

30

i =1

+ 1 xi )] = minimo

i =1

ora, calcolando le derivate di tale funzione rispetto a 0


e 1 ed eguagliandole a zero, si ottengono due
equazioni dette normali le cui soluzioni sono:

i=1,2,,n

scarti
Prof.ssa Emma Sarno
Statistica

Prof.ssa Emma Sarno


Statistica

Coefficiente
angolare

1 =

(x

x )( y i y )

i =1
n

(x

x )

 Si ottiene cos la retta di regressione:

= XY2 =
X

Y = 0 + 1 X

i =1
n

i =1

i =1

n x i y i x i y i
=

n x i2
i =1

0 = y 1 x

Intercetta

Media delle yi

i =1

x i

i =1
n

Media delle xi

Prof.ssa Emma Sarno


Statistica

Propriet della retta di regressione:


1. La retta unica

2. Passa per il punto ( x , y )


n

3.

yi =

i =1

i =1

(yi y ) = ei = 0
i =1

Y=Voto a
Statistica

X=Voto a
Matematica

19

20

19

22

20

22

20

22

21

24

21

19

22

24

22

21

22

21

23

23

23

21

24

27

24

25

25

26

25

24

26

25

27

28

27

28

28

30

30

28

10

Esempio
n=20
30
28
26
24
22
y = 0,85x + 3

y i

poich

Prof.ssa Emma Sarno


Statistica

i =1

(ma solo se l' intercetta diversa da zero)

Prof.ssa Emma Sarno


Statistica

11

20

R = 0,7114

18
18

20

Prof.ssa Emma Sarno


Statistica

22

24

26

28

30

12

19

22

418

484

20

22

440

484

20

22

440

484

21

24

504

576

21

19

399

361

22

24

528

576

22

21

462

441

22

21

462

441

23

23

529

529

23

21

483

441

24

27

648

729

24

25

600

625

25

26

650

676

25

24

600

576

26

25

650

625

27

28

756

784

27

28

756

784

28

30

840

900

30

28

840

784

468

480

11385

11700

1 =

x y x y

i =1

i =1

Esempio

i =1

n 2
xi2
xi

i =1
i
=
1

20 *11385480* 468
=
= 0.85
20 *11700(480) 2
468
480
0 =
0.85
=3
20
20
n

Dataset: Prezzo e Potenza in HP di 111


modelli di Automobili

40000

400

30000

380

Prezzo

XY

20

cos si ottiene la retta di regressione:

20000

19

= 3 + 0.85X
Y
10000

Pertanto, il voto atteso a Statistica di uno


studente che ha preso 25 a Matematica :

= 3 + 0.85 * 25 = 24.25
Y

10000

20000

30000

40000

Fitted : Potenza

13

14

Tipico output di un software per il calcolo della retta di regressione




Coefficients:
Value Std. Error
Pr(>|t|)
(Intercept) -4956.9321 1702.5394
0.0044
Potenza
160.1194
12.5397
0.0000

t value

0 = 0 Y = 1 X +

-2.9115
|t|>2

In tal caso, c una diretta proporzionalit tra X e Y e la


retta di regressione passa per lorigine

12.7690

Residual standard error: 5173 on 103 degrees of


freedom
Multiple R-Squared: 0.6128
F-statistic: 163 on 1 and 103 degrees of
freedom, the p-value is 0
6 observations deleted due to missing values

Quando il test sul coefficiente angolare non d un


valore significativamente diverso da zero, il modello
diventa:

1 = 0 Y = 0 +

E molto importante valutare la significativit dei test sui coefficienti: si


ritengono validi quelli che hanno una statistica t (t value) maggiore di 2 in
valore assoluto. Ci implica che il coefficiente statisticamente diverso
da zero
Prof.ssa Emma Sarno
Statistica

Quando il test sullintercetta non d un valore


significativamente diverso da zero, il modello diventa:

15

In tal caso, la X non spiega la Y, e la retta di regressione


risulta parallela allasse delle X
Prof.ssa Emma Sarno
Statistica

16

Misura della bont di accostamento




Variabilit
totale

Valutazione della capacit esplicativa del modello,


tramite lindice di determinazione R

Variabilit
di regressione

Dev (Y ) = Dev (Y ) + Dev ( e )

30

30

Caso A

28

Caso B

28

26

26

24

24

22

Dev (Y )
R =
=
Dev (Y )
2

20

22

24

26

28

30

i =1
n

18

20

22

24

26

28

30

Dev ( e )
= 1
= 1
Dev (Y )

Quale delle due situazione sembra migliore? E in che senso?


Prof.ssa Emma Sarno
Statistica

2
(y i y )
n

18

18

y)

y = 0,4715x + 11,862
R2 = 0,2397

20

18

(y
i =1

22

y = 0,9343x + 1,6037
R2 = 0,8745

20

Variabilit
residua

ei

(y

i =1
n

(y

y)

i =1
17

y i )

(y

y)

= 1 i =n1

i =1

Prof.ssa Emma Sarno


Statistica

18

0 R 1

Si dimostra che lindice di determinazione


coincide con il quadrato del coefficiente di
correlazione lineare di Bravais-Pearson

Minima capacit
esplicativa del
modello: la X non
spiega la Y

Massima capacit
esplicativa del modello:
la X spiega
perfettamente la Y

La retta di regressione
parallela allasse
delle X

Tra X e Y c una
perfetta relazione
lineare
0

30

18

20

22

24

26

28

30

-5

28

-10

26

-15

24

-20

y=x

22

R =1

-25

20
y = -x

-30

R2 = 1

18
18

Prof.ssa Emma Sarno


Statistica

19

20

22

Prof.ssa Emma Sarno


Statistica

24

26

28

30

-35

20

Condizioni necessarie affinch il modello di regressione sia adeguato


alla rappresentazione di una relazione di tipo lineare tra variabili
statistiche

30

30

Caso A

28

Caso B

28

26

26

1. Esistenza di una teoria che giustifichi la scelta di tale modello

24

24

2. Il contributo della componente errore deve essere in media nullo

22

3. La variabilit degli errori deve essere costante al variare di X

22

y = 0,9343x + 1,6037
R2 = 0,8745

20

y = 0,4715x + 11,862
R2 = 0,2397

20

18

18
18

20

22

24

26

28

30

18

20

22

24

26

28

30

si

30

30

28

28

26

26

24

24

no

22

22

20

20

18

18
18

20

22

24

26

28

18

30

20

22

24

26

28

30

4. Gli errori non devono essere correlati

La X spiega l87.45% della


variabilit totale della Y

La X spiega il 23.97%
della variabilit totale
della Y

3
2

0
1

11

13

15

17

19

no

-1
-2

-3

5. La variabile X deve essere deterministica


Prof.ssa Emma Sarno
Statistica

21

The end
Grazie per lattenzione
e in bocca al lupo per lesame !!!

Prof.ssa Emma Sarno


Statistica

23

Prof.ssa Emma Sarno


Statistica

22

Anda mungkin juga menyukai