Anda di halaman 1dari 6

Formules utiles pour la rgression linaire simple et la

corrlation de Pearson
Daniel Borcard
Dpartement de sciences biologiques
Universit de Montral
Juin 2004 - rvision novembre 2008
Ce document regroupe quelques variantes des formules de calcul de la corrlation linaire de Pearson
et de la rgression linaire simple et de leurs test de signification. Ces variantes, qui illustrent les
quivalences entre plusieurs quantits impliques dans les calculs, peuvent s'avrer d'utiles raccourcis
suivant les donnes dont on dispose pour raliser les calculs.
Le symbolisme utilis est celui de Scherrer (2007). Dans ce document:
x moyenne de la variable x
y moyenne de la variable y
s
x
cart type de la variable x
s
y
cart type de la variable y
s
x
2
variance de la variable x
s
y
2
variance de la variable y
s
xy
covariance des variables x et y
r coefficient de corrlation linaire de Pearson
b
1
coefficient de rgression (= pente) d'une rgression linaire simple
b
0
ordonne l'origine d'une rgression linaire simple
y valeur estime de y dans une rgression linaire simple
SCT somme des carrs d'carts totaux de y par rapport y , soit SCT y
i
y ( )
2

SCR somme des carrs d'carts expliqus par la rgression, soit SCR y
i
y ( )
2

SCE somme des carrs d'carts non expliqus par la rgression, soit SCE y
i
y
i
( )
2

var(b
1
) variance de la pente b
1
var b
1
erreur type de la pente b
1
var b
0
erreur type de l'ordonne l'origine b
0
CME variance de l'erreur d'une rgression = SCE/(n2)
n nombre d'observations dans l'chantillon
Daniel Borcard Rgression et corrlation 2
Dpartement de sciences biologiques Universit de Montral
Coefficient de corrlation linaire de Pearson r:
r
s
xy
s
x
s
y
mais aussi r b
1
s
x
s
y
Rgression linaire simple de modle I, rgression de y (dpendante) en x
(indpendante ou explicative):
y b
0
+ b
1
x
b
1

s
xy
s
x
2
mais aussi b
1
r
s
y
s
x
b
0
y b
1
x Remarque: si x et y sont centrs-rduits alors b
1
= r et b
0
= 0
Rgression linaire simple de modle I, rgression de x (dpendante) en y
(indpendante ou explicative):
x cy + d
c
s
xy
s
y
2
mais aussi c r
s
x
s
y
Attention, c 1/b
1
, mais c r
s
x
s
y
b
1
s
x
s
y
s
x
s
y
b
1
s
x
2
s
y
2
d x cy
Cette manire de faire (intervertir x et y) n'est pas usuelle et en principe pas admise en rgression de
modle I!
Les deux droites y b
0
+ b
1
x et x cy + d forment un angle qui est en relation avec r de la manire
suivante:
90 tan
1
r
s
x
s
y



_
,

+ tan
1
r
s
y
s
x



_
,




1
]
1
(Legendre et Legendre 1998, qu. 10.5 p.503)
Comme les parenthses sont des expressions des pentes a et c, on peut crire:
90 tan
1
c ( ) + tan
1
b
1
( )
[ ]
Remarque: les formules de Scherrer (1984) p.631, et la figure 18.7 (Scherrer 2007), bases sur le
cosinus, sont fausses.
Daniel Borcard Rgression et corrlation 3
Dpartement de sciences biologiques Universit de Montral
Test de signification du coefficient de corrlation linaire de Pearson
Lorsque les conditions d'application sont runies et si H
0
est vraie, alors la variable auxiliaire
t
r n 2
1 r
2
suit une loi de Student = n2 degrs de libert
Remarque: on peut aussi utiliser la variable auxiliaire F
r
2
(n 2)
1 r
2
, qui obit sous les mmes
conditions une loi de F
1
= 1 et = n2 degrs de libert. Emploi dconseill pour les tests
unilatraux, pour lesquels il faut chercher les valeurs critiques de F pour 2 aprs avoir vrifi le
signe de la corrlation r de l'chantillon (qui doit tre celui allgu dans l'hypothse H
1
).
Test de signification de la pente b
1
d'une rgression linaire simple
Lorsque les conditions d'application sont runies et si H
0
est vraie, alors la variable auxiliaire
t
calc

b
1
var(b
1
)
suit une loi de Student = n2 degrs de libert.
t
calc
peut aussi tre dfini comme t
calc

r n 2
1 r
2
(dmonstration en annexe), ce qui montre que le test
de la pente b
1
est quivalent au test du coefficient de corrlation r.
Coefficient de dtermination d'un modle de rgression linaire simple
R
2

s
xy
2
s
x
2
s
y
2
r
2
Intervalle de confiance de la pente d'une droite de rgression de y en x
Cet intervalle est dfini comme:
Pr b
1
t
/ 2
var(b
1
) <
1
< b
1
+ t
/ 2
var(b
1
)
[ ]
1 o
1
est la pente dans la population
statistique.
Le calcul de var b
1
, l'erreur type de la pente b
1
, est laborieux si on le fait avec les formules courantes
qui font appel des sommes de carrs. Mais grce au dveloppement prsent en annexe, on peut
calculer var b
1
l'aide des carts types de x et y et de la corrlation entre les deux variables, ce qui
simplifie grandement les calculs.
Daniel Borcard Rgression et corrlation 4
Dpartement de sciences biologiques Universit de Montral
En effet, on voit dans l'annexe que
var(b
1
)
s
y
1 r
2
s
x
n 2
et donc qu'on peut exprimer l'intervalle de confiance de la pente de la population statistique comme:
Pr b
1
t
/ 2
s
y
1 r
2
s
x
n 2
<
1
< b
1
+ t
/ 2
s
y
1 r
2
s
x
n 2



1
]
1
1
Test sur l'ordonne l'origine b
0
d'une droite de rgression de y en x
Ce test sert par exemple vrifier si la pente
0
de la population statistique diffre d'une valeur
fournie par la thorie, comme par exemple 0. Dans ce cas (test pour savoir si b
0
diffre de 0), on
calcule la variable auxiliaire
t
b
0
calc

b
0

0
var(b
0
)

b
0
0
var(b
0
)
qui, lorsque les conditions d'application sont runies et si H
0
est vraie, suit une loi de Student = n
2 degrs de libert.
Scherrer donne pour var(b
0
) la formule suivante:
var(b
0
)
CME x
i
2

n (x
i
x )
2


Cette formule prsente l'inconvnient d'impliquer le calcul de CME et de tous les carrs d'cart la
moyenne. Un peu d'algbre permet de se dbarrasser de ces quantits difficiles obtenir. En effet:
CME
SCE
n 2

(n 1)s
y
2
(1 r
2
)
n 2
(l'quivalence algbrique de SCE est prsente dans l'annexe)
et (x
i
x )
2
(n 1)s
x
2

Donc:
var(b
0
)
CME x
i
2

n (x
i
x )
2

(n 1)s
y
2
(1 r
2
) x
i
2

n(n 1)(n 2)s


x
2

s
y
2
(1 r
2
) x
i
2

s
x
2
n(n 2)
Daniel Borcard Rgression et corrlation 5
Dpartement de sciences biologiques Universit de Montral
et
var(b
0
)
s
y
(1 r
2
) x
i
2

s
x
n(n 2)
Je suis ouvert toute suggestion pour se dbarrasser aussi de la somme des x
i
2
!
Rfrences
Legendre, P. & L. Legendre. 1998. Numerical ecology. 3rd English Edition. Elsevier, Amsterdam,
xv + 853 p.
Scherrer, B. 1984. Biostatistique. Gatan Morin Ed., Boucherville. xix + 850 p.
Daniel Borcard Rgression et corrlation 6
Dpartement de sciences biologiques Universit de Montral
Annexe
quivalence des formules du test t du coefficient de rgression (pente) a et du test t du coefficient de
corrlation de Pearson r entre deux variables x et y
t
calc

b
1
var(b
1
)
o var(b
1
)
CME
(n 1)s
x
2

SCE
(n 2)(n 1)s
x
2

Par ailleurs, SCE = SCT SCR et SCR = r
2
SCT
Donc:
SCE = SCT r
2
SCT = SCT (1 r
2
)
SCT s
y
2
(n 1) puisque s
y
2

SCT
n 1
Par consquent:
SCE (n 1)s
y
2
(1 r
2
)
Donc:
var(b
1
)
s
y
2
(1 r
2
)
s
x
2
(n 2)
et var(b
1
)
s
y
2
(1 r
2
)
s
x
2
(n 2)

s
y
1 r
2
s
x
n 2
Reprenons la formule du t
calc
en y remplaant l'erreur type de b
1
par la formule ci-dessus:
t
calc

b
1
var(b
1
)

b
1
s
x
n 2
s
y
1 r
2
Comme
b
1
s
x
s
y
r , il s'ensuit que t
calc

r n 2
1 r
2
CQFD.