Anda di halaman 1dari 86

Corrélation et

Régression linéaire

http://www.ea3888.univ-rennes1.fr
Positionnement

variations respectives de plusieurs grandeurs dans une même


population
ex: relation entre poids et taille

courbe associée à la fonction y=f(x)

si la loi est définie, la connaissance de x suffit à déterminer y


relation fonctionnelle (sciences exactes)

si fluctuations statistiques
à une valeur d'une des variables correspond une distribution des
valeurs de l'autre variable

http://www.ea3888.univ-rennes1.fr
Représentation graphique

Représenter les couples de valeurs (x,y)


Obtention d’un nuage de point

1 individu : Mr Dupont 1,85 m et 74 kg

http://www.ea3888.univ-rennes1.fr
Correlation et régression

La régression permet d’étudier l’association entre deux


variables quantitatives, en étudiant les variations de l’une
en fonction des valeurs de l’autre.

Le coefficient de corrélation est une mesure d’association


entre deux variables quantitatives faisant jouer des rôles
symétriques aux valeurs.
Les deux variables peuvent être placées indifferement en
abscisse ou en ordonnées)
On cherche à savoir simplement s’il existe une liaison entre
ces deux variables et à quantitfier l’intensité de la liaison

http://www.ea3888.univ-rennes1.fr
Correlation

X et Y sont des variables quantitatives


Dire que X et Y sont corrélées, c’est affirmer qu’il existe
une liaison entre ces deux variables.
Plus X varie dans un sens, plus Y varie.
Si Y varie dans le même sens, Î la corrélation est positive
Si Y varie dans le sens opposé Î la corrélation est négative
Si X et Y varie indépendamment de l’un de l’autre Î les
variables ne sont pas corrélées.

http://www.ea3888.univ-rennes1.fr
Représentation graphique

Nuage de points diffus


Ù
Absence de liaison
entre les caractères étudiés

http://www.ea3888.univ-rennes1.fr
Notion de covariance

Indicateur qui mesure la liaison entre deux variables X et Y


C’est la moyenne des produits des écarts entre X et Y divisé
par leurs moyennes respectives μx et μy

http://www.ea3888.univ-rennes1.fr
4 couples de valeurs x et y

μy

X
μx

http://www.ea3888.univ-rennes1.fr
4 couples de valeurs x et y

I II

μy

III IV

X
μx

http://www.ea3888.univ-rennes1.fr
Les distances de chaque point à l’axe des moyennes μy et μx
Y représentent les écarts aux moyennes

(x – μx)

(y – μy)
μy

X
μx
I

http://www.ea3888.univ-rennes1.fr
Les aires des rectangles représentante les produits des écarts de chaque couple

(y – μy)(x – μx) < 0


Y

μy

IV

X
μx

Les rectangles verts dans les zones I et IV représentent les produits négatifs

http://www.ea3888.univ-rennes1.fr
Y

(y – μy)(x – μx) > 0

II

+
μy

III

X
μx

Les rectangles Mauves dans les zones II et III représentent les produits Positifs

http://www.ea3888.univ-rennes1.fr
La covariance peut être illustrée par la somme des aires des rectangles

I II

- +
μy

+ -

III IV

X
μx

http://www.ea3888.univ-rennes1.fr
On définit la covariance :

σ XY =
∑ (x − μ i X )( yi − μY )
N
3 cas de figure
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformement dans les quandrants
Les aires se compensent :

∑(x − μ i X )( yi − μY ) = 0

http://www.ea3888.univ-rennes1.fr
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformément dans les quadrants
Les aires se compensent : (y – μy)(x – μx) = 0

Y
σ XY =
∑ (x − μ i X )( yi − μY )
=0
N

I II

- +

+ -

III IV

http://www.ea3888.univ-rennes1.fr
Ici, la somme des aires est positive, la covariance est positive.
Î Il semble exister une liaison positive entre X et Y,
Î plus X est élevé,
- plus Y est élevé

(y – μy)(x – μx) > 0

Y
σ XY =
∑ (x − μi X )( yi − μY )
>0
N

I II
+
-
-
+

III IV

http://www.ea3888.univ-rennes1.fr
Ici, la somme des aires est négative, la covariance est négative.
Î Il semble exister une liaison négative entre X et Y,
Î plus X est élevé, plus Y est bas
(y – μy)(x – μx) < 0
Y
σ XY =
∑ (x − μ i X )( yi − μY ) <0
N

I II

-
+
+
-

III IV

http://www.ea3888.univ-rennes1.fr
Coefficient de correlation

La covariance est le produit de deux termes exprimés en


unités qui peuvent être différentes

σ XY =
∑ (x − μ i X )( yi − μY )
N
Elle ne se prête donc pas à l’analyse statistique
Pour calculer ρ le coefficient de corrélation, on divise
par le produit des écarts types de chaque distribution. On
obtient un coefficient sans unité.

Soit : σ XY
ρ=
σ XσY
http://www.ea3888.univ-rennes1.fr
La covariance entre X et Y pour une population de N sujets
dont les valeurs pour les variables X et Y sont (xi,yi) vaut :

σ XY =
∑ (x − μ i X ) ( yi − μ Y )
N
Comme on a
σX 2
=
∑ (x − μi X )
N

σY 2 = ∑ ( yi − μY )
N
Après simplification on a :

ρ= ∑(x − μ i X )( yi − μY )
∑(x − μ i X ) 2
( y i − μY ) 2

http://www.ea3888.univ-rennes1.fr
Interprétation de ρ

ρ>0 ρ<0

ρ=0

http://www.ea3888.univ-rennes1.fr
Propriété de ρ

Le coefficient de corrélation fait jouer un rôle symétrique à


X et Y
Il ne change pas si on permute X et Y
ρ a le même signe que β, la pente de la droite de régression
de Y en fonction de X
ρ reste inchangé si on change d’unité ou d’origine pour les
X et Y

http://www.ea3888.univ-rennes1.fr
Propriété de ρ

ρ est toujours compris entre -1 et 1 et ces bornes ne


peuvent être atteintes que si Y = β X + α
ρ permet de mesurer la FORCE DE L’ASSOCIATION entre X et
Y. Plus ρ est proche de +1 ou de -1, plus l’association est forte
Ce n’est pas le cas β qui n’indique rien en elle-même sur la
force de l’association, puisqu’elle dépend totalement du choix
des unités de ces variables

http://www.ea3888.univ-rennes1.fr
Si X et Y sont indépendantes alors ρ=0
L’inverse n’est pas vrai :
Si ρ~0, les variables peuvent soient être indépendantes mais
aussi être liées (mais non linéairement)
On peut seulement affirmer que les variables X et Y ne sont pas
liées linéairement

http://www.ea3888.univ-rennes1.fr
Estimation ρ Î r

Le coefficient de corrélation d’un échantillon est noté r.


On l’obtient en remplaçant la covariance et les variances
par leurs estimations.
Estimation de la covariance à partir d’un échantillon de n
individus

cov XY =
∑ (x − m i X )( yi − mY )
n −1

Rappelons l’estimation des variances pour un échantillon


de n individus
s 2
=
∑ (x − m )
2
i x

n −1
x

s 2y =
∑ i y
( y − m ) 2

n −1

http://www.ea3888.univ-rennes1.fr
Après simplification par (n-1) on obtient pour un échantillon
de n sujet où les couples de valeurs de X et Y observés sont
(xi,yi)

∑ ( x − m )( y
i x i − my )
r= i =1
n n

∑ i x ∑ i y
( x
i =1
− m ) 2
( y − m ) 2

i =1

http://www.ea3888.univ-rennes1.fr
Autres formules

1
∑ xi yi − n (∑ xi )(∑ yi )
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣∑ xi − n ( ∑ xi ) ⎥⎦ ⎢⎣∑ yi − n ( ∑ yi ) ⎥⎦
2 2

r=
∑ xy i i − n.mx .m y
( n − 1) s s 2 2
x y

http://www.ea3888.univ-rennes1.fr
Exemple

http://www.ea3888.univ-rennes1.fr
Pour 63 nouveau nés, on a relevé le poids maternel avant
grossesse (X), et paternel (Y) en kilogramme.

On cherche a trouver voir s’il existe une corrélation entre


les poids maternels et paternels

On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480

Calculer r

http://www.ea3888.univ-rennes1.fr
On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480

1
∑ i i n (∑ xi )(∑ yi )
x y −
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣ ∑ xi
2

n
( ∑ xi ) ⎥⎦ ⎢⎣ ∑ y i
2

n
( ∑ y i ) ⎥⎦

1
275480 − 4729 × 3644
63 1948,63
r= = = 0,26
1 1 7585,49
( 217502 − 36442 )(363527 − 47292 )
63 63

http://www.ea3888.univ-rennes1.fr
Interpretation
r = 0,20 à 0,40 : faible ou quasi absence de correlation
r = 0,40 à 0,60 : moyenne correlation
r = 0,60 à 0,80 : bonne corrélation;
r = 0,80 : corrélation élevée.

Ici r=0,26 Î faible ou quasi absence de corrélation


Pas de raison, a priori d’avoir des poids de père et de mère
corrélées.

http://www.ea3888.univ-rennes1.fr
Pour comprendre une valeur de r lorsque il n’est ni proche
de 1 ni de 0 ?
r2 matérialise la force de la corrélation
Représente le % de variance que perd une des deux
variables quand l’autre est fixée.
Diagramme de Venn :
Cercle = variables
Pourcentage de surface commune = r2
Plus le recouvrement est important, plus les variables sont
liées :

X Y X Y
X Y

r=0,9 r=0,6 r=0,3


http://www.ea3888.univ-rennes1.fr
Test du r

Rappel : r concerne les variables d’un échantillon


Le calcul de r peut être sujet à fluctuation.
Tester r, c’est tenter d’affirmer ou pas que sa valeur est
statistiquement significative et ce avec un risque maîtrisé
(p<0,05)
Même mécanisme que pour les autres test : hypothèses sur
la population

Ho = Hypothèse nulle : ρ=0


H1 = Hypothèse alternative :
ρ=0 (test bilateral)
ρ<0 ou ρ>0 (test unilateral)

http://www.ea3888.univ-rennes1.fr
Test du coefficient de correlation
Attention: rectification
2 types de constructions de tables dans les ouvrages
Î changement dans les hypothèses Ho et H1
Au concours : 1 seule type de table
r n−2
Le test consiste à calculer
to =
1− r 2

Et à le comparer à la valeur seuil lue dans la table du test t


de student à (n-2) ddl.
La règle de décision du test est :

Test bilatéral :Ho : ρ=0 et H1 : ρ=0


on rejette Ho si
to ≥ tn −2;α
Test unilatéral Ho : ρ=0
H1: ρ>0 on rejette Ho si to ≥ tn −2;2α
H1: ρ<0 on rejette Ho si
to ≥ tn −2; −2α ( = −tn −2;2α )

http://www.ea3888.univ-rennes1.fr
Conditions d’applications :
La régression entre X et Y est linéaire
Une des deux distribution conditionnelles normales et de
variance constante.
Les distributions de Y liées à chaque valeur de X doivent être
normales et de variance constante.
Symétriquement, Les distributions de X liées à chaque valeur
de Y doivent être normales et de variance constante.

http://www.ea3888.univ-rennes1.fr
Les observation pour chaque variable doivent être
indépendantes les unes des autres.
Ex : comparaison des données Y en fonction du temps X
Les données de la veille ne sont pas indépendantes des
données du lendemain.
Il ya auto-correlation Î nécessite d’autres techniques
d’analyse.

http://www.ea3888.univ-rennes1.fr
Exemple

Pour 63 nouveau nés, on a relevé le poids maternel avant grossesse


(X), et paternel (Y) en kilogramme.

On cherche a trouver voir s’il existe une corrélation entre les poids
maternels et paternels
r=0,26 pour un échantillon de 63 sujets
r n−2 0,26 61
to = to = = 2,10
1− r 2
1 − 0,26 2

Rappel en hypothèse bilatérale, on rejette Ho si


or to=2,1 et o t ≥tn − 2 ;α
t61;5%= ? Î on prend le ddl immédiatement au dessous
t40;5%=2,021
Î On rejette Ho
Le coefficient de corrélation entre le poids de la mère et le poids
paternel est significativement différent de 0.
Les conditions d’application sont que
la régression du poids maternel sur le poids de la mère est linéaire.
La distribution conditionnelle de l’une des 2 variables et normale et de
variance constante

http://www.ea3888.univ-rennes1.fr
Régression

http://www.ea3888.univ-rennes1.fr
La régression permet d’étudier l’association entre deux
variables quantitatives

Définition
Pour décrire le lien entre deux variables X et Y, la régression
consiste à décrire au mieux la façon dont Y varie en fonction de
X.

http://www.ea3888.univ-rennes1.fr
Ù à décrire la distribution de Y pour chaque valeur de X.
Il existe un lien entre X et Y si la distribution varie selon les
valeurs de X
Et au contraire. Il n’existe pas de lien entre X et Y si la
distribution d’Y reste la même quelque soit la valeur de X.

La distribution de Y lorsque X est fixé s’appelle la Distribution


conditionnelle de Y par rapport à X.
Il y a autant de distribution conditionnelle que de valeur de X.
Par simplification, on caractérises ces distribution par leurs
moyennes et leurs variances appelées Moyenne et Variances
conditionnelles

E (Y / x ) = μY / x
V (Y / x ) = σ 2
Y /x
http://www.ea3888.univ-rennes1.fr
Si il existe une association entre X et Y,
la distribution conditionnelle de Y varie selon les valeurs de X

μY / x
Dépendent de x

σ 2
Y /x

Par définition, la fonction de régression de Y en X est la


fonction f décrivant la variation de la moyenne conditionnelle
de Y en fonction de x (μY / x ) .
ce qui s’écrit :

f ( x) = E(Y / x)

http://www.ea3888.univ-rennes1.fr
Exemple

Terme
(semaine)
Poids moyen de naissance
(grammes) Termes de naissances (X) et les
27 1146,92 poids de naissance (Y) d’une
28 1292,73 POPULATION de nouveau né
29 1694,52 Seule 17 valeurs sont indiquées
30 1892,00
Chaque valeur est la moyenne du
31 1986,11
poids conditionnelle au terme
32 2000,34
E(Y|x)
33 2119,46

34 2290,85

35 2569,11

36 2800,77

37 3019,50

38 3210,61

39 3364,59

40 3475,05

41 3553,32

42 3582,63

43 3604,81

http://www.ea3888.univ-rennes1.fr
Exemple

Le poids moyen varie en


fonction du terme
Ù il y a une liaison entre
le terme et le poids de
naissance
La courbe de régression
est celle qui joint les
points successifs
La FONCTION de
REGRESSION est la
fonction qui permet de
décrire
mathématiquement cette
courbe

http://www.ea3888.univ-rennes1.fr
Cas de la régression linéaire

En pratique, on ne recherche pas la forme exacte de la


courbe.
On se contente le plus souvent d’une droite.
La fonction f est alors linéaire et d’équation :

f ( x ) = E (Y / x ) = α + βx
yˆ = α + βx
On note plus simplement ŷ la valeur moyenne de Y
pour la sous population des sujets tels que X=x.

http://www.ea3888.univ-rennes1.fr
La droite de régression
permettant de mieux
représenter les points est :
ŷ= - 3115,6 + 162,30 x

Sans être strictement


linéaire, la liaison entre le
terme et le poids peut être
représentée par une droite.

http://www.ea3888.univ-rennes1.fr
Dans le cadre d’une régression linéaire Î 2 tâches à
réaliser :
Estimer α et β à partir des données

Savoir si β =0 car si c’est le cas


E(Y/x)= α Î Y ne dépend pas alors de X (il n’y a pas de lien en
moyenne entre Y et X).
Cela n’est vrai que si la relation entre X et Y est effectivement
linéaire.

La régression linaire permet de tester l’existence d’une liaison


entre 2 variables quantitatives X et Y sous l’hypothèse d’une
relation linéaire.

http://www.ea3888.univ-rennes1.fr
Comment interpréter β et α

ŷ= - 3115,6 + 162,30 x

β= 162,30 Î augmentation moyenne du


poids de naissance quand le terme
augmente d’une semaine
Augmentation MOYENNE
Les poids de 2 bébés nés à 1 semaine
d’intervalle diffèrent EN MOYENNE de
162,30 g
Cette augmentation correspond au
choix de la régression LINEAIRE
Elle n’est à considérer que sur la
période considérée
α n’a pas d’interprétation concrète.
Ù au poids moyens des nouveau nés
ayant un terme = 0 semaine

http://www.ea3888.univ-rennes1.fr
Droite de régression

Estimation des coefficients par la méthode des moindres


carrés
Chacun des sujets de la population peut être caractérisé par
un couple de valeurs (x,y) et être représenté par un point.
On obtient un nuage de point

(xi,yi)

X
http://www.ea3888.univ-rennes1.fr
La droite de regression
(xi,yi) Y= α+βX est parmi
toutes les droites
possible celle qui
(yi-ŷi) résume le mieux ce
nuage de point
C’est-à-dire celle dont
les points du nuage sont
en moyenne les plus
Y= α+βX proches.
Cette proximité des
(xi, ŷi) points à la droite se
mesure par la distance
verticale (yi-ŷi) entre le
point observé (xi,yi) et le
point cerrespondant sur
la droite (xi, ŷi)

http://www.ea3888.univ-rennes1.fr
(xi,yi)

Y= α+βX

(yi-ŷi)

(xi, ŷi)

http://www.ea3888.univ-rennes1.fr
La distance de la droite à l’ENSEMBLE des points est par
définition la somme des carrés des distances de chaque
point à la droite : SCE
La droite de régression est celle qui correspond à la
distance minimum à l’ensemble des points
C’est à dire à la valeur minimum de SCE
C’est la droite des moindre carrés.

Pour calculer SCE


SCE = ∑i =1 ( yi − yˆ i ) 2
n

Or comme on a yˆ i = α + βxi

SCE = ∑i =1 ( yi − α − β xi )
Il vient n 2

http://www.ea3888.univ-rennes1.fr
L’estimation des coefficients de la droites de régression à
partir d’un ECHANTILLON de n sujets pour lesquels on a n
paires d’observations (x1,y1),…,(xn,yn) est obtenu en prenant
les valeurs a et b qui correspondant au minimum de SCE

1
∑ xi yi − n (∑ xi )(∑ yi ) ∑ ( x − m )( y − m )
b= = i x i y

∑i n∑i
x 2

1
( x ) 2 ∑(x − m )
i x
2

a=
∑ y i
−b
∑ x i
= m y − bmx
n n
http://www.ea3888.univ-rennes1.fr
Pour les calculs:

b=
∑ xy i i − nmx m y
( n − 1) s 2
x

http://www.ea3888.univ-rennes1.fr
EXEMPLE

Pour 63 nouveau nés, on a relevé le poids de naissance et


le poids maternel avant la grossesse en kilogramme

On s’intéresse à la régression du poids de naissance sur le


poids maternel
Dans ce cas X est le poids maternel, et Y le poids de
naissance.

http://www.ea3888.univ-rennes1.fr
A partir du tableau on donne les valeurs pré-calculées
63 suivantes :
∑y
i =1
i = 213.000
63

∑x i = 3.644
1
∑ xi yi − n (∑ xi )(∑ yi )
i =1
63

∑ i = 743.130.000
y 2
b=
1
i =1
63 ∑i n∑i
x 2
− ( x ) 2

∑ i = 217.502
x 2

i =1
63

∑x y i i = 12.486.100
i =1 1
12.486.100 − 3.644 × 213.000
63 160.125,40
b= = = 23,80
1 6.728,41
217.502 − (3.644) 2
63
http://www.ea3888.univ-rennes1.fr
a=
∑ y i
−b
∑ x i

n n
213.100 3.644
a= − 23,80 × = 2.006
63 63

http://www.ea3888.univ-rennes1.fr
La droite de régression du poids de naissance sur le poids
maternel est donc :
yˆ = 2.006 + 23,80 x

http://www.ea3888.univ-rennes1.fr
TEST DE LA PENTE DE LA DROITE DE
REGRESSION

On rappelle que si β =0
Alors E(Y/x)= α
Y ne dépend pas alors de X
Il n’y a pas de lien en moyenne entre Y et X

Pour tester la pente de la droite de régression, on pose


Hypothèse nulle : Ho: β =0
Hypothèse alternative (bilatérale) H1: β =/=0

Condition d’application du test :


La régression doit être linéaire
X étant fixé, les valeurs Y doivent être indépendantes et leur
distribution normale et de variance constante.
Ex de Pb d’indépendance : supposons que les bébés ont été
pesés 2 fois. Pour X fixé, on a 2 valeurs de Y concernant un
même bébé

http://www.ea3888.univ-rennes1.fr
Si les conditions précédentes sont remplies

On calcule la quantité

b
to =
sb2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
avec sb =
2 ⎝ x ⎠

n−2

http://www.ea3888.univ-rennes1.fr
On compare to à la valeur seuil au risque α de la loi de
student à n-2 ddl

On rejette Ho si |to|>=tn-2;α

http://www.ea3888.univ-rennes1.fr
Exemple

63

∑y i = 213000 ∑ i
( x 2
) − ∑ ( xi ) 2
217 . 502 −
1
3644 2

i =1 sx =
2 n = 63 = 108,52
63 n −1 62
∑x i = 3644
1
i =1
743.130.000 − 2131002
63
sy =
2 63 = 359.851,51
∑y
i =1
2
i = 743.130.000 62
63

∑x
i =1
2
i = 217.502
2
⎛ sy ⎞
⎜ ⎟ − b2 ( 359.851,51) − 23,802
⎜s ⎟
sb =
2 ⎝ x ⎠
=
108,52
= 45,07
n−2 61

http://www.ea3888.univ-rennes1.fr
On calcule to

b 23,80
to = = = 3,54
sb2 45,07

http://www.ea3888.univ-rennes1.fr
L’échantillon fait 63 sujets. On consulte la table de student
avec n-2 cad 61 ddl

En pratique on prend le plus proche dll immédiatement


inférieur (40) si 61 n’existe pas dans la table
La valeur seuil à 5% est de 2,021

to>2 Î on rejette Ho et on conclut que la pente β de la


droite de régression est différente de 0

http://www.ea3888.univ-rennes1.fr
Le degré de signification est p=(P|t61|>3,54)
La table indique que p=0,01
Comment interpréter le test de la pente

Hypothèse nulle : Ho: β =0


Hypothèse alternative (bilatérale) H1: β =/=0

Si Ho n’est pas rejetée : (β =0)


Si la régression de Y en X est LINEAIRE, alors X ne permet
pas ou peu de prédire Y.
Si la régression de Y en X N’EST PAS LINEAIRE, la droite de
régression ne montre pas de tendance dans la variation de Y
en fonction de X.

Y Y

X X

Ne pas rejeter Ho, implique qu’une relation linéaire ne permet


pas de prédire correctement Y en fonction de X mais
n’implique pas l’absence d’association entre X et Y
http://www.ea3888.univ-rennes1.fr
Si Ho est rejetée : (β =0)
X aide à la prédiction de Y

Mais il existe peut être un meilleur modèle que la droite, bien


qu’il y ait une composante linéaire. Dans ce cas on parle de
tendance à l’augmentation de Y lorsque X augmente.

Y Y

X X

http://www.ea3888.univ-rennes1.fr
Précision de la droite de régression

Le coefficient β de la droite de régression est estimé par b à


partir des couples de valeurs (x,y) observés sur un
échantillon

b=
∑ xy i i − nmx m y
( n − 1) sx2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
sb = ⎝ ⎠
2 x
On connaît par ailleurs la variance de b
n−2
On peut alors calculer l’intervalle de confiance de la pente
de la droite de régression :

b ± tn −2,α s 2
b

http://www.ea3888.univ-rennes1.fr
exemple

Exemple précédent :
La pente de la régression du poids de naissance sur le
poids maternel est b=23,80.
Sa variance est s2b=45,07
La limite à 5% de t à 61dll est ~ 2 L’intervalle de confiance
vaut :

• ICβ 95% = 23,80 ± 2 45,01 = [10,37;37,23]

http://www.ea3888.univ-rennes1.fr
Relation entre r et b

sx
r=b
sy

http://www.ea3888.univ-rennes1.fr
Spearman

http://www.ea3888.univ-rennes1.fr
Test du coefficient de correlation des
rangs de spearman

S’il existe un doute sur la normalité des distributions de X


et Y, ou sur la linéarité de la relation entre X et Y, on ne peut
pas utiliser le coefficient de corrélation de Pearson
On utilise alors un test non paramétrique :
le coefficient de corrélation des rangs de Spearman
Il étudie l’existence d’une liaison entre 2 variables
quantitatives.

http://www.ea3888.univ-rennes1.fr
On ne s’intéresse plus aux valeurs mais à leur rang.
On appelle rang le numéro d’ordre d’une valeur après
classement de la variable par ordre croissant.
Sur la série 1,4,5,8 la valeur 5 a pour rang 3, et la valeur 8 a
pour rang 4. En cas d’ex aequo on attribut le rang moyen à
chacun d’eux
On définit x’i et y’i les rangs des valeurs observées
On définit rs le coefficient de corrélation des rangs de Spearman

6∑ ( x ' − y ' )
2

r = 1− i i

n( n − 1)
s 2

On définit l’écart type du coefficient de Spearman :

1− r 2
sr = s

http://www.ea3888.univ-rennes1.fr
n−2
Le test de Spearman consiste à calculer to

rs
to =
sr
Et à la comparer à une valeur théorique :
Test bilatéral :Ho : ρ=0 et H1 : ρ=/=0
on rejette Ho si
o t ≥t
n − 2 ;α

Test unilatéral Ho : ρ=0


H1: ρ>0 on rejette Ho si to ≥ tn −2;2α
H1: ρ<0 on rejette Ho si to ≥ tn −2; −2α ( = −tn −2;2α )

http://www.ea3888.univ-rennes1.fr
Exemple

On désire vérifier la corrélation entre la taille (en cm) et le


poids (en kg) des enfants de 2 ans sur un échantillon de 15
individus.

Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9

Poids
8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
(y)

Il existe un doute sur la linéarité de la relation entre x et y.


On préconise le calcul du coefficient de Spearman
Les observations pour chaque variables sont
indépendantes les unes des autres

http://www.ea3888.univ-rennes1.fr
Conditions d’application vérifiées :
Le nombre de couples de valeurs >10
Indépendances
Pas d’exigence sur la normalité ni sur la linéarité

On pose
Ho : il n’existe aucune corrélation entre la taille et le poids
H1 : il existe une relation entre taille et poids

http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9

valeurs

Ordonner les valeurs de façon croissante

82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89

http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9

valeurs

Ordonner les valeurs de façon croissante

82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89

1 2 3 4 5 6 7 8

Affecter les
rangs
http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9

valeurs

Ordonner les valeurs de façon croissante

82,1 82,4 82,9 83,4 84 84,8 85


85,4 86,4 86,4 86,7 86,9 87,7 87,7 89

1 2 3 4 5 6 7 8 9,5 9,5 11 12 13,5 13,5 15

(8+11)/2=9,5 (12+15)/2=13,5
Affecter les
rangs
http://www.ea3888.univ-rennes1.fr
valeurs
rangs

x 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
Taille
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12

y 8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
Poids
y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

valeurs

rangs

http://www.ea3888.univ-rennes1.fr
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12

y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Calcul des carrés des différences des rangs (rang(x)-rang(y))2

Rang (y) 4 4 1 9 1 25 4 49 4 4 6,25 2,25 12,25 20,25 9

∑ ( x ' − y ' ) 2
= 155
6 ∑ ( x 'i − y 'i )
2 (6 × 155)
rs = 1 − rs = 1 − = 0,72
n( n 2 − 1) 15 × (15 − 1)
2

1− r 2
(1 − 0,722 )
sr = s sr = = 0,19
n−2 (15 − 2)
http://www.ea3888.univ-rennes1.fr
0 ,72
to = = 3,79
0 ,19
ddl = 15 − 2 = 13
Or t13;5%=2,160
to>t13;5%
On rejette Ho.
La valeur t est encore supérieure à t13;1%
On conclut donc qu’il existe une liaison
positive significative entre la taille et le
poids des enfants de 2 ans (p<0,01)