Anda di halaman 1dari 26

Statistique applique la gestion et au marketing

http://foucart.thierry.free.fr/StatPC

Chapitre 3

RGRESSION ET CORRLATION
La corrlation est une notion couramment utilise dans toutes les applications statistiques. Elle permet dtudier la liaison que lon rencontre frquemment entre deux variables dans toutes les sciences humaines ou appliques. Toutefois, la dfinition statistique de la corrlation est plus prcise que le sens courant du terme : elle ne concerne que des variables statistiques quantitatives, cest--dire dont on peut calculer les moyennes. Considrons par exemple une tude mene par lhypermarch EUROMARKET. Le directeur commercial de cet hypermarch se propose dtudier lge et le revenu annuel de sa clientle, afin de positionner lhypermarch parmi la concurrence. Il commence bien entendu par analyser chaque critre sparment : calcul de lge moyen, du revenu moyen, etc. Sa dmarche consiste ensuite dtecter le lien entre les deux critres : comment ces deux critres sont-ils rpartis dans la population observe lun par rapport lautre ? Quelle est la nature de la liaison observe ? Lexplication de cette liaison est-elle une information utile la politique commerciale de lentreprise ? Dans le texte qui suit, les deux variables considres jouent exactement le mme rle. La rgression, fonde sur la notion de corrlation mais qui donne aux variables des rles diffrents, est explique dans le chapitre 7.

Chapitre 3

page 2

Rgression et corrlation

1. REPRSENTATIONS GRAPHIQUES.
Les donnes se prsentent sous la forme dune suite de n couples (xi, yi), numrots de i = 1 i = n. On note mx, my, sx, sy, minx, miny et maxx, maxy, les moyennes, les variances et les valeurs minimales et maximales des sries (xi) et (yi). La dmarche initiale et indispensable pour tudier la liaison entre deux variables quantitatives consiste reprsenter graphiquement les couples (xi, yi) observs.

1.1 Conventions lmentaires.


On utilise toujours un repre constitu de deux axes orthogonaux. Chaque axe correspond une variable statistique (lge ou le revenu) et chaque point caractrise une unit statistique (un client). Le calcul des valeurs extrmes est indispensable pour choisir les chelles sur les axes. Si lon veut construire le graphique lintrieur dun espace dfini par un rectangle de longueur L en abscisse et de largeur l en ordonne, lunit est gale (maxx minx)/L sur laxe des abscisses et (maxy miny)/l sur laxe des ordonnes.

Exemple : lge et le revenu des clients de lhypermarch EUROMARKET ont les caractristiques suivantes sur les donnes observes : ge revenu Minimum 24 72999 Maximum 68 196484 Moyenne 40.06 107639.48 Variance 87.2564 877095300.21 cart-type 9.34111 29615.79

Pour reprsenter les donnes (lge en abscisse, le revenu en ordonne) dans un graphique lintrieur dun rectangle de longueur L = 10 cm et de largeur l = 6 cm, on dtermine les units de longueur sur chaque axe : ux = (68 24)/10 = 4.4 : un centimtre reprsente 4.4 ans uy = (196484 72999)/6 = 20 580.83 : un centimtre reprsente 20 580.83 F On peut naturellement simplifier les chelles, condition toutefois de les diminuer pour que le graphique reste lintrieur du rectangle fix. Par exemple : ux : 1 cm reprsente 5 ans uy : 1 cm reprsente 25 000F

Chapitre 3

page 3

Rgression et corrlation

On dfinit frquemment comme origine des axes le point moyen (mx, my) des observations. Le point i caractrisant lunit statistique ni a alors pour abscisse xi mx et pour ordonne yi my. On peut ainsi dterminer directement si lunit statistique ni dfinie par le couple (xi, yi) correspond des valeurs suprieures ou infrieures aux moyennes mx et my (cf. figure 1 ci-dessous). Dans dautres cas, on choisit une origine diffrente, dfinie par exemple par les valeurs observes les plus petites des sries (xi) et (yi), ou encore une origine qui a un sens prcis dans le contexte des donnes. Le choix comme origine du point (0,0) na pas de signification particulire ; il peut simplifier la construction du schma ou au contraire la compliquer en imposant des chelles aberrantes sur les axes (par exemple, lorigine (0,0) sur les donnes prcdentes na aucun sens, lge minimum tant 24 ans et le revenu minimum 72999F). Lorigine du repre tant fixe au point moyen, les axes dfinissent quatre quadrants (on remarquera lorthographe du mot quadrant) de la faon suivante :

Figure 1.3 : reprsentation graphique des couples (xi, yi) En abscisse : xi, en ordonnes : yi Origine des axes : moyennes mx et my La prcision de la reprsentation ntant pas primordiale, on peut se contenter souvent de papier ordinaire pour construire le schma. En outre, il est prfrable, suivant la place disponible et le nombre dobservations, de reprsenter les units statistiques par leurs rangs, non par des points. Cela facilite leur identification.

Chapitre 3

page 4

Rgression et corrlation

Exemple : en figure 2, nous donnons la reprsentation graphique des couples (ge, revenu). Lorigine des axes est le point moyen, et caractrise le couple (40.06, 107639.48) : tout point du ct positif de laxe des abscisses caractrise un client plus g que la moyenne, tout point du ct ngatif de laxe des ordonnes caractrise un client dont le revenu est infrieur au revenu moyen, et inversement sur les deux axes.

Figure 2.3 : reprsentation graphique des couples (ge, revenu) Origine des axes : moyennes de lge (40.06 ans) et du revenu (107639.48 F). Le choix du client moyen comme origine des axes permet dinterprter directement la position dun client sur le graphique et la reprsentation des clients par leur rang permet leur identification immdiate. On constate un dsquilibre dans lge et le revenu des clients : beaucoup dentre eux sont jeunes et disposent dun revenu infrieur la moyenne

(quadrant III : n37, 11, 6, 9, 18, 49, ...) les clients relativement gs ont un revenu nettement suprieur aux autres

(quadrant I : n1, 10, 8) ; les personnes de soixante ans et plus (quadrant IV : n25, 43, 31) disposent dun

revenu nettement infrieur la moyenne. On peut penser quil sagit de retraits.

Chapitre 3

page 5

Rgression et corrlation

Parmi les 50 personnes interroges, celles qui sont relativement ges reoivent un revenu plus lev que celles qui sont relativement jeunes. Les retraits sont nettement dfavoriss.

Dans le cas de donnes nombreuses, la caractrisation des units statistiques par leurs rangs est difficile. Un grand nombre dentre elles risquent dtre absentes du schma par manque de place, et il est alors prfrable de caractriser les u.s. par des points. Le choix de lorigine des axes est soumis aux mmes critres que prcdemment.

1.2 Tableau de corrlation.


Une autre possibilit dans le cas de donnes nombreuses est de dfinir des intervalles sur chaque variable et de rpartir les observations suivant ces intervalles. On obtient alors ce que lon appelle le tableau de corrlation, dont le terme gnrique nk,l est le nombre dunits statistiques de la forme (x, y) telles que x appartienne lintervalle k dfini sur la srie (xi) et y lintervalle l dfini sur la srie (yi). Cette procdure ne prsente videmment un intrt que si les observations sont trs nombreuses ou si on ne dispose pas des donnes individuelles.

Dfinition : on appelle tableau de corrlation des couples (xi, yi) i = 1, , n le tableau deffectifs obtenu par rpartition des units statistiques dans des intervalles fixs pour chaque srie (xi) i = 1, , n et (yi) i = 1, , n.

Le calcul dun tableau de corrlation est effectu laide dun algorithme analogue ceux que nous avons donns pour rpartir des donnes dans des intervalles. Lalgorithme le plus rapide consiste chercher, pour chaque couple (xi, yi), dans quels intervalles Ik et Jl les valeurs xi et yi se trouvent et augmenter de 1 le nombre dobservations appartenant ces intervalles, puis considrer le couple suivant. On obtient ainsi un tableau deffectifs nk,l. On construit ensuite la reprsentation graphique des couples (ck, dl) dfinis par les centres des intervalles laide de disques dont laire est gale aux effectifs nk,l. Le calcul des aires est effectu de la faon suivante : on fixe laire du disque reprsentant leffectif total l2, l tant la largeur du rectangle dans lequel on veut construire

Chapitre 3

page 6

Rgression et corrlation

la reprsentation graphique. Laire du disque reprsentant nk,l observations et dont on cherche le rayon r, est gale r2 = l2 nk,l / n. On en dduit : r = l [nk,l / n]1/2

Exemple : nous avons rparti les observations dans les intervalles dge et de revenu suivants : 1 2 3 4 Eff. 14 27 5 4 borne infrieure 24 35 46 57 suprieure 35 46 57 68 ge Eff. 26 14 5 2 3 borne infrieure 72999 97696 122393 147090 171787 suprieure 97696 122393 147090 171787 196484 Moyenne 87933.84 108575.5 135091.8 158670.5 194279 Centre 85347.5 110044.5 134741.5 159438.5 184135.5 Moyenne 30.35714 39.85185 49.6 63.5 Centre 29.5 40.5 51.5 62.5

1 2 3 4 5

revenu annuel On rpartit ensuite les couples dobservations pour obtenir le tableau de corrlation : Le client de rang 1 est g de 51 ans (intervalle 3) et gagne 195 888F (intervalle 5) : on le compte dans la cellule 3,5 ; Le client de rang 2 est g de 39 ans (intervalle 2) et gagne 128 456F (intervalle 3) : on le compte dans la cellule 2,3 ; Etc.

On obtient le tableau de corrlation suivant : l=1 l=2 l=3 l=4 l=5 13 1 0 0 0 9 12 4 1 1 1 1 1 1 1 3 0 0 0 1

k=1 k=2 k=3 k=4

Tableau 1.3 : tableau de corrlation ge x revenu (50 observations)

Chapitre 3

page 7

Rgression et corrlation

Linterprtation de la figure 3 ci-dessous, construite par ordinateur aboutit aux mmes conclusions que prcdemment. On ne peut toutefois caractriser les clients par leurs rangs pour obtenir dautres informations.

Figure 3.3 : reprsentation graphique du tableau de corrlation. On notera que le nombre de couples (50) est insuffisant pour que le calcul de ce tableau prsente un intrt autre que pdagogique.

1.3 Autres procdures.


Prcisons pour finir dautres procdures de reprsentations graphiques : Les axes orthonorms sont caractriss par une mme unit de longueur. Cela ne

prsente dintrt que si les variables sont exprimes dans la mme unit ou si elles sont centres rduites. Un axe peut tre gradu suivant une chelle logarithmique : 1 cm reprsente par

exemple un facteur 10 : Le premier centimtre reprsente 1 10, le second de 10 100, etc. En gnral, cest laxe des ordonnes qui est gradu de cette faon : il sagit alors dune chelle semi-logarithmique. Elle permet de reprsenter des valeurs dont la variation est trs importante. Une proprit particulire classique de cette chelle semi-logarithmique est que la fonction exponentielle est reprsente sous la forme dune droite.

Chapitre 3

page 8

Rgression et corrlation

2. COEFFICIENT DE CORRLATION LINAIRE.


Le coefficient de corrlation linaire de Bravais-Pearson, appel souvent simplement coefficient de corrlation, est une mesure de la liaison entre les variables. Avant den prciser les proprits et les limites, nous introduisons la notion de covariance en utilisant les proprits illustres dans la figure 1.

2.1 Covariance.
Comme nous lavons expliqu prcdemment, les deux variables sont lies quand une information sur lune donne une information sur lautre, plus prcisment ici quand la position dune des variables par rapport la moyenne donne une indication sur la position de lautre. Les quatre quadrants dfinis par les axes contiennent des units statistiques telles que : dans le quadrant I : dans le quadrant III : x > mx, y > my x < mx, y < my dans le quadrant II : dans le quadrant IV : x < mx, y > my x > mx, y < my

On en dduit le signe des produits (x mx) (y my) dans chacun des quadrants : quadrant I : (x mx) (y my) > 0 quadrant II : (x mx) (y my) < 0

quadrant III : (x mx) (y my) > 0 quadrant IV : (x mx) (y my) < 0 Supposons que la plupart des units statistiques se trouvent dans les quadrants I et III. Les produits de la forme (x mx) (y my) sont gnralement positifs. Leur moyenne est positive et sera dautant plus grande que les units statistiques reprsentes dans les quadrants I et III seront nombreuses et loignes de lorigine des axes. Supposons que la plupart des units statistiques se trouvent dans les quadrants II et IV. Les produits (x mx) (y my) sont gnralement ngatifs, et par suite leur moyenne est ngative. Cette moyenne sera dautant plus petite (grande en valeur absolue) que les units statistiques reprsentes dans les quadrants II et IV seront nombreuses et loignes de lorigine des axes. Lorsque la plupart des units statistiques se trouvent rgulirement rparties dans les quatre quadrants, on ne constate pas de liaison entre les variables : les produits positifs et les

Chapitre 3

page 9

Rgression et corrlation

produits ngatifs se compensent plus ou moins les uns les autres. Leur moyenne est relativement proche de 0. Exemple : les 50 clients de lhypermarch se rpartissent de la faon suivante dans les quatre quadrants : quadrant I (x > mx, y > my) : 12 25 quadrant II quadrant IV (x < mx, y > my) : (x > mx, y < my) : 6 7

quadrant III (x < mx, y < my) :

Les quadrants I et III contiennent 37 units statistiques sur 50. Lge et le revenu sont en gnral placs de faon identique par rapport leurs moyennes : un client plus g que la moyenne (ou moins g) bnficie en gnral dun revenu suprieur la moyenne (ou infrieur) et inversement. Les produits de la forme (x mx) (y my) sont gnralement positifs, et par suite leur moyenne.

Dfinition : on appelle covariance cov(x,y) de la srie (xi, yi) la moyenne des produits de la forme (xi mx) (yi my) : 1 n cov(x,y) = ( xi mx)( yi my ) n i=1 Le calcul de la covariance par la formule ci-dessus nest gure commode : il faut dabord calculer les moyennes, puis les diffrences, puis leur produit et enfin la moyenne des produits. On prfre utiliser une autre formule pour le calcul.

Proprit : la covariance est gale la moyenne des produits moins le produit des moyennes. 1 n cov(x,y) = xi yi mx my n i=1 Remarque : la covariance dune variable avec elle-mme est gale la variance de cette variable : cov(x,x) = sx2.

2.2 Coefficient de corrlation linaire.

Chapitre 3

page 10

Rgression et corrlation

La covariance est un paramtre statistique difficile interprter : comment valuer la taille de ce paramtre ? A partir de quelle valeur peut-il tre considr comme grand , ou petit ? Comment comparer deux covariances calcules sur des donnes totalement diffrentes ? La difficult de rpondre ces questions est due en particulier au fait que la covariance dpend des units de mesure choisies pour observer les sries (xi) et (yi). Si lge est en annes et le revenu en francs, la covariance entre lge et le revenu est en annes francs ; si lge est en mois (1 anne = 12 mois) et le revenu en dollars (1 F = 1/6 $), la valeur numrique de la mme covariance sera gale la prcdente multiplie par 12 x 1/6 = 2. Cest pourquoi lon prfre en gnral calculer la covariance des sries centres rduites (xi) et (yi), qui sont indpendantes des units de mesure, et dont les formules ont t donnes dans le chapitre 2 : x i = x i mx sx yi = yi my sy

Dfinition : on appelle coefficient de corrlation linaire de la srie (xi, yi) la covariance des variable centres rduites (xi, yi).

Formule : le coefficient de corrlation linaire est gal : r(x,y) = cov(x,y)/sx sy Le coefficient de corrlation est du mme signe que la covariance et indpendant des units de mesures. Nous verrons quil est compris entre 1 et 1. On peut donc comparer deux coefficients de corrlation calculs sur des donnes statistiques diffrentes.

Exemple de calcul : nous considrons ci-dessous une srie de 10 couples dobservations. Nous en construisons la reprsentation graphique, puis calculons en dtail le coefficient de corrlation. i 1 2 3 4 5 xi -1.1281 1.0119 -0.7513 -0.3582 -2.4488 yi -0.8054 -0.4356 0.4391 0.6185 0.7595 i 6 7 8 9 10 xi 0.8253 0.9883 0.4276 -0.4186 0.1263 yi 0.1334 -0.9250 0.0813 -0.9395 -1.0540

Chapitre 3

page 11

Rgression et corrlation

Figure 4.3 : reprsentation graphique des dix couples (xi, yi) Pour calculer le coefficient de corrlation linaire entre les deux variables, on peut construire le tableau de calcul suivant : i 1 2 3 4 5 6 7 8 9 10 xi -1.1281 1.0119 -0.7513 -0.3582 -2.4488 0.8253 0.9883 0.4276 -0.4186 0.1263 yi -0.8054 -0.4356 0.4391 0.6185 0.7595 0.1334 -0.9250 0.0813 -0.9395 -1.0540 xi 1.2727 1.0238 0.5644 0.1283 5.9966 0.6811 0.9767 0.1828 0.1752 0.0160 yi 0.6487 0.1898 0.1928 0.3826 0.5768 0.0178 0.8557 0.0066 0.8826 1.1108 xiyi 0.9086 -0.4408 -0.3299 -0.2215 -1.8599 0.1101 -0.9142 0.0347 0.3933 -0.1331 (xi-mx) 0.9131 1.4029 0.3349 0.0345 5.1813 0.9957 1.3476 0.3602 0.0605 0.0893 (yi-my) (xi mx)x (yi my) 0.3512 0.5663 0.0497 -0.2639 0.4249 -0.3773 0.6910 -0.1543 0.9453 -2.2131 0.1198 0.3454 0.5073 -0.8268 0.0865 0.1765 0.5281 0.1788 0.7077 -0.2514

Ce tableau permet de calculer les moyennes, les variances, la covariance et le coefficient de corrlation linaire. Les trois dernires colonnes, quon ne peut remplir quaprs le calcul de la moyenne, ne sont pas indispensables si on utilise les formules de calcul des variances et de la covariance. Elles permettent de dtecter les units statistiques particulires dans la liaison, ici lunit statistique 5 dont on examinera la position sur la figure 4.

Chapitre 3

page 12

Rgression et corrlation

Cette unit statistique particulire donne un produit de la forme (x mx)

(y-my )

relativement lev en valeur absolue par rapport aux autres. La covariance et par suite le coefficient de corrlation en dpendent beaucoup. On trouve : Sommes -1.7256 -2.1277 11.0178 4.8642 -2.4527 -2.8198 variances 1.0720 0.4411 Moyennes -0.1726 -0.2128 1.1018 0.4864 -0.2453 -0.2820 carts-types 1.0354 0.6642

des observations x des observations y des carrs x des carrs y des produits xy des produits (x mx)(y my) des observations x des observations y On en dduit le coefficient de corrlation :

r(x,y) =-0.2820 / (1.0354 x 0.6642) Soit : r(x,y) = -0.4101 Le coefficient de corrlation calcul sans tenir compte de lu.s. 5 est gal -0.0883 : son influence est donc trs forte, comme on peut le supposer en examinant la figure 4.

Dfinitions : On appelle point aberrant dans la liaison entre deux variables statistiques un point

qui est en contradiction flagrante avec la liaison constate sur les autres observations. On appelle point influent dans la liaison entre deux variables statistiques un point

qui accentue considrablement la liaison constate sur les autres observations.

La recherche des points aberrants et influents est fonde sur la premire rgle de classification que nous avons donne dans le chapitre 2.

Exemple : la reprsentation graphique donne en figure 4 permet de dtecter deux points particuliers :

Chapitre 3

page 13

Rgression et corrlation

Lu.s. i = 1 est en contradiction avec la liaison observe sur les autres points,

mais nest pas suffisamment carte du point moyen pour que lon puisse la considrer comme aberrante. Lu.s. i = 5 lextrmit du nuage de points est une observation influente : la

valeur x5 est trs petite par rapport la moyenne et la valeur y5 grande (cf. tableau de calcul). Elle accentue considrablement la liaison entre les variables.

Lorsque les donnes sont prsentes sous la forme de donnes groupes (nk, xk, yk), il suffit dintroduire les effectifs nk dans les calculs des moyennes, variances et covariances. Dans le cas dun tableau de corrlation, chaque couple (ck, dl) dfini par les centres des intervalles k et l est associ leffectif nk,l. Le nombre dobservations xi dans lintervalle de centre ck est not nk., le nombre dobservations yi dans lintervalle de centre dl est not n.l. Les moyennes et variances des centres sont pondres par les effectifs nk. pour les centres ck, n.l pour les centres dl. De mme chaque terme dans le calcul de la covariance est pondr par nk,l. En notant p et q les nombres des intervalles dfinis sur les xi et yi, la covariance est donne par la formule ci-dessous : 1 cov (c,d) = n p q nk,l (ck mc) (dl md )

k=1 l=1

On la calcule comme la moyenne pondre des produits moins le produit des moyennes pondres : 1 cov (c,d) = n p q nk,l ck dl md mc

k=1 l=1

Dans la formule prcdente, la somme ne concerne que les produits de la forme nk,l ck dl et le facteur 1/n ne divise que cette somme. Comme prcdemment, le coefficient de corrlation est le rapport de la covariance aux produits des carts-types : r(c,d) = cov(c,d) / (sc sd )

Chapitre 3

page 14

Rgression et corrlation

Exemple : Considrons la rpartition des 50 clients suivant lge et le revenu des clients dEuromarket donne prcdemment. On calcule tout dabord les paramtres de chaque srie dobservations en tenant compte des effectifs de chaque classe. : l 1 2 3 4 5 Somme dl 85.35 110.04 134.74 159.44 184.14 n.l 26 14 5 2 3 50 n.l dl 2219.1 1540.56 673.7 318.4 552.42 5304.18 n.l dl 2 189400.18 169523.22 90774.34 50765.70 101722.61 602186.05

revenu annuel k 1 2 3 4 Somme ck 29.5 40.5 51.5 62.5 nk. 14 27 5 4 50 nk. ck 413.0 1093.5 257.5 250.0 2014.0 nk. ck2 12183.50 44286.75 13261.25 15625.00 85356.50

ge Pour simplifier les rsultats, nous avons exprim les revenus en milliers de francs et ne conservons que deux dcimales. On dduit de ces deux tableaux de calcul les variances et les carts-types laide des formules correspondantes : ge revenu Moyenne 40.28 106.08 Variance 84.65 790.75 cart-type 9.20 28.12 Il reste calculer le coefficient de corrlation, donc dabord la covariance, gale la moyenne des produits moins le produit des moyennes. Pour chaque classe de centre ck dfinie sur lge et chaque classe de centre dl dfinie sur le revenu, on calcule le produit nk,l ck dl . On remplit ainsi le tableau ci-dessous :

Chapitre 3

page 15

Rgression et corrlation

c1 = 29.5 c2 = 40.5 c3 = 51.5 c4 = 62.5 Sommes

d1 = 85.35 13x29.5x85.35 9x40.5x85.35 1x51.5x85.35 3x62.5 85.35 84240.45

d2 = 110.04 d3 = 134.74 d4 = 159.44 d5 = 184.14 1x29.5x110.04 0 0 0 12x40.5x110.04 4x40.5x134.74 1x40.5x159.44 1x40.5x184.14 1x51.5x110.04 1x51.5x134.74 1x51.5x159.44 1x51.5x184.14 0 0 0 1x62.5x184.14 62392.68 28766.99 14668.48 28449.63

La somme totale est gale 218 518.23, et la moyenne des produits 4 370.36. On en dduit la covariance : cov(ge, revenu) = 4370.36 40.28 x 106.08 = 97.46 Do enfin le coefficient de corrlation : r(ge, revenu)= 97.46 / [9.20 x 28.12] r(ge, revenu)= 0.377 La rpartition des donnes dans un tableau de corrlation na pas modifi sensiblement les moyennes ni les variances. Par contre le coefficient de corrlation est gal 0.377. Il est ici suprieur au coefficient de corrlation calcul sur les donnes individuelles (0.298), mais ce nest pas toujours le cas. Avec toutes les dcimales, on obtient r = 0.375. On pourra vrifier cette stabilit du coefficient de corrlation en changeant de classes, en les caractrisant par leurs moyennes. Les calculs peuvent tre effectus par StatPC.

3. PROPRITS DU COEFFICIENT DE CORRLATION.

3.1 Proprits mathmatiques du coefficient de corrlation linaire.


Proprit fondamentale : le coefficient de corrlation linaire dune srie de couples dobservations (xi, yi) i = 1, , n est compris entre -1 et 1. Sil est gal 1, les couples (xi, yi) i = 1, , n vrifient exactement une relation linaire de la forme : quel que soit i = 1, , n a xi + b yi + c = 0 o a et b sont deux nombres rels constants et les points qui les reprsentent sont strictement aligns. En fait, le coefficient de corrlation linaire possde des proprits mathmatiques fondamentales analogues celles du cosinus dun angle.

Chapitre 3

page 16

Rgression et corrlation

La proprit fondamentale prcdente est connue sous le nom dingalit de Schwarz.

3.2 Interprtation du coefficient de corrlation. Liaison linaire.


Linterprtation du coefficient de corrlation linaire nest pas aussi facile quon le croit gnralement : Plus il est proche de 1 ou de -1, plus les points sont proches dune droite. Sil est gal 1, les points sont strictement aligns. pour prciser une valeur partir de laquelle on peut considrer le coefficient comme proche de 1 ou de 1, on utilise une table statistique (paragraphe 3.3). on peut obtenir des coefficients de corrlation trs proches de 1 (0.95) sur des donnes non linaires (par exemple, des donnes de la forme y = ex). on peut obtenir des coefficients de corrlation nuls sur des donnes lies par une relation non linaire exacte (cf. lexemple donn plus loin). une relation statistique, dtecte par le coefficient de corrlation ou par un graphique, ne montre jamais de relation causale entre deux variables. La causalit ne peut tre dduite que dune analyse non statistique des donnes.

Nous donnons ci-dessous trois schmas caractristiques des valeurs du coefficient de corrlation dans le cas dune liaison linaire. Lorsque le coefficient de corrlation est proche de 1 (il est gal 0.9 en figure 5.1), les observations dans les quadrants I et III sont beaucoup plus nombreuses dans les quadrants II et IV et presque alignes le long dune droite appele axe principal.

Figure 5.1.3 : Coefficient de corrlation proche de 1

Chapitre 3

page 17

Rgression et corrlation

En figure 5.2, le coefficient de corrlation est gal 0.7: les observations sont plus nombreuses dans les quadrants II et IV et sont moins bien alignes. Laxe principal apparat encore assez nettement.

Figure 5.2.3 : Coefficient de corrlation proche de 1 En figure 5.3, les observations sont rparties de faon uniforme dans les quatre quadrants : le coefficient de corrlation est trs proche de 0 et laxe principal napparat plus.

Figure 5.3.3 : Coefficient de corrlation proche de 0 Laxe principal reprsent sur les graphiques nest pas la droite de rgression que nous dfinirons au chapitre 7. Il est dtermin de la faon suivante : cest la droite telle que la somme des carrs des distances des points cette droite soit la plus petite possible. Nous retrouverons cette notion dans le chapitre 9.

Chapitre 3

page 18

Rgression et corrlation

Exemple : le coefficient de corrlation entre lge et le revenu des 50 clients de lhypermarch est gal 0.298 sur les donnes individuelles. La figure 2 montre que les points sont relativement loigns dune droite du fait surtout des clients de rangs 25, 31 et 43. Le coefficient de corrlation nest pas ici un paramtre statistique trs fiable. Une liaison dangereuse : nous donnons ci-dessous une srie de 10 couples (xi, yi) tels que yi soit gal f(xi) . Le lecteur pourra calculer le coefficient de corrlation r(x,y) et vrifier quil est gal 0. La reprsentation graphique des couples montre une liaison fonctionnelle vidente qui nest pas linaire : i 1 2 3 4 5 xi -0.5979 1.5204 1.1423 -0.0256 2.4093 yi 0.8868 -0.1957 0.3179 1.0451 -1.8863 i 6 7 8 9 10 xi -2.1125 0.1706 -1.9535 0.6340 -1.1871 yi -1.3455 1.0187 -0.9815 0.7997 0.3409

10 couples lis fonctionnellement dont le coefficient de corrlation est nul Ce genre de liaison peut exister en particulier dans les analyses de sries chronologiques (chapitre 8) et multidimensionnelles (chapitre 9).

figure 6.3 : reprsentation dun ensemble de couples (x,y) tels que y= f(x), r(x,y) = 0

3.3 Rpartitions normales.

Chapitre 3

page 19

Rgression et corrlation

Une autre condition pour que le coefficient de corrlation linaire soit fiable est que les distributions des sries suivent peu prs la loi normale, cest--dire que les histogrammes ne soient pas trs diffrents de la courbe en cloche (cf. chapitre 1). Lorsque cette proprit est vrifie, on connat la rpartition du coefficient de corrlation calcul sur une srie de n couples dont le coefficient de corrlation thorique est gal 0. Nous anticipons ici sur le chapitre 6 pour donner une rgle de classement de ce paramtre : un coefficient de corrlation suprieur en valeur absolue la valeur donne dans le tableau 2.3 pour le nombre dobservations correspondant montre lexistence dune liaison relle entre les variables. n 10 20 30 40 50 valeur limite 0.6319 0.4438 0.3610 0.3120 0.2787 n 60 70 80 90 100 valeur limite 0.2542 0.2352 0.2199 0.2072 0.1966 n 150 160 170 180 200 valeur limite 0.1603 0.1552 0.1506 0.1463 0.1388

Tableau 2.3 : valeurs limites du coefficients de corrlation Exemple : On donne ci-dessous lhistogramme des revenus des 50 clients observs dEuromarket (figure ).

Figure 7.3 : Histogramme des revenus et courbe en cloche (50 clients,5 intervalles de mme amplitude)

Chapitre 3

page 20

Rgression et corrlation

Il est trs diffrent de la courbe en cloche : les revenus ne sont pas rpartis parmi les 50 clients dEuromarket suivant la loi normale, et linterprtation du coefficient de corrlation doit tre prudente.

3.4. Matrices de corrlation.


Lanalyse de la corrlation est beaucoup plus complique dans le cas de plus de deux variables. Dans lexemple donn, on a observ simultanment lge, le revenu, le nombre denfants et les dpenses des 50 clients. Il y a donc 4 variables. Les coefficients de corrlation calculer concernent : lge et successivement le revenu, le nombre denfants, les dpenses (3 coefficients) ; le revenu et successivement le nombre denfants, les dpenses (2 coefficients) ; le nombre denfants et les dpenses (1 coefficient).

Donc en tout 6 coefficients de corrlation. Le mme raisonnement nous montrerait que pour 10 variables, on a 45 coefficients de corrlation calculer et que dans le cas gnral, pour p variables, le nombre de coefficients de corrlation est gal p(p 1) /2. Pour p = 20, cela donne 190 coefficients de corrlation. Le problme nest pas dans le calcul, vite rsolu par le recours linformatique ; il est dans le trac des graphiques, qui sont aussi nombreux que les coefficients de corrlation, et dans linterprtation globale des relations entre les variables. Il existe une mthode spcifique pour analyser ce genre de donnes : lanalyse en composantes principales, que nous expliquons rapidement dans le chapitre 9. On prsente en gnral les coefficients de corrlation sous la forme dun tableau double entre, chaque ligne et chaque colonne du tableau correspondant une variable. Un tel tableau est appel matrice de corrlation et possde plusieurs proprits, entre autres : La diagonale constitue des termes figurant la ie ligne et la ie colonne est constitue de 1 ; Il est symtrique par rapport cette diagonale.

Exemple : nous donnons ci-dessous la matrice des corrlations entre lge, le revenu, les achats et le nombre denfants.

Chapitre 3

page 21

Rgression et corrlation

Le coefficient de corrlation entre lge et le nombre denfants est gal 0.192. Il serait utile de reprsenter graphiquement les couples (ge, nombre denfants) pour expliquer pourquoi il est ngatif. Cest l un des intrts du coefficient de corrlation : il suscite des interrogations, auxquelles les rponses sont souvent intressantes. ge revenu achats nb. enfants 1.000 0.298 1.000 -0.132 0.137 1.000 -0.192 0.384 0.626 1.000

ge revenu achat nb. enfants

4. DROITE DE RGRESSION.
Nous donnons une premire approche de la rgression linaire, limite la statistique descriptive, que nous compltons dans le chapitre 7 dans le cadre gnral du modle linaire.

4.1 Critre des moindres carrs.

Figure 8.3 : Critre des moindres carrs origine des axes en (mx, my) Nous avons reprsent en figure 8.3 un ensemble de couples (xi, yi) i = 1, , n en fixant lorigine du repre au point moyen (mx, my). La droite que nous cherchons est la doite

Chapitre 3

page 22

Rgression et corrlation

la plus proche possible des points, de faon que, pour chaque couple (xi, yi), lordonne yi soit la plus prs possible de lordonne b xi +a du point de la droite dabscisse xi.

remarque : en mathmatiques, lquation dune droite est note y = a x + b. En statistique, lusage est la notation choisie ici y = b x + a.

Critre des moindres carrs : Pour que chaque valeur yi soit la plus proche possible de lordonne b xi + a du point dabscisse xi de la droite, on minimise la somme des carrs des diffrences : S= n 2 [ yi (b xi + a) ] i=1

Les diffrences yi (b xi + a) sont reprsentes sur la figure 8.3 par les longueurs des segments de couleur rouge (elles ne sont pas toutes reprsentes).

4.2 Estimation des coefficients de rgression. Rsidus.


Le calcul mathmatique permet de dterminer les valeurs des coefficients b et a de faon que cette somme soit la plus petite possible.

Dfinition : on appelle droite de rgression de Y en X calcule sur les couples (xi, yi) i = 1, , n la droite dquation la plus proche des points de coordonnes (xi, yi) au sens des moindres carrs.

Remarque : on peut videmment dfinir la droite de rgression de X en Y. Cette procdure nest pas compatible avec le modle linaire gnralise et il est prfrable de ne pas en parler.

Thorme et dfinition : les coefficients b et a de la droite de rgression sont appels coefficients de rgression. Ils sont donns par les formules ci-dessous : b = cov(x, y) / sx2 = r sy / sx a = my b mx

Chapitre 3

page 23

Rgression et corrlation

Consquence importante : la droite de rgression toujours passe par le point moyen : pour x = mx, on obtient y = my. Dfinition : on appelle rsidu ei le terme dfini par la diffrence entre la valeur observe yi et lordonne du point de la droite de rgression dabscisse xi, pour i = 1, , n. ei = yi (b xi + a) , i = 1, n

Thorme : la srie des rsidus possde les proprits suivantes : sa moyenne est nulle ; sa variance est gale s2 = (1 r2) sy2, o r est le coefficient de corrlation des

couples (xi, yi) i = 1, , n, et sy2 la variance des yi, i = 1, , n ; le coefficient de corrlation entre les xi et les ei est gal 0.

Les rsidus ei tant de moyenne nulle, leur variance est la moyenne de leurs carrs. Ils mesurent la proximit entre la droite et les points, et ce sont les plus petites erreurs possibles suivant ce critre. Plus la moyenne de leurs carrs est faible, plus la droite est proche des points. Les proprits des rsidus sexpriment sous la forme ci-dessous : 1 n 1 n 1 n 2 2 2 ei = 0 ei = (1 r ) sy xi ei = n i=1 n i=1 n i=1 0 On suppose gnralement que les rsidus sont rpartis peu prs suivant la courbe en cloche. La classification des rsidus est alors donne par la rgle habituelle moyenne deux fois lcart-type (cf.chapitre 2). La moyenne tant nulle, on comparera les rsidus lcarttype et deux fois lcart-type.

4.3 Exemple : rgression des revenus par lge des clients.


Nous avons analys prcdemment la relation existant entre le revenu et lge parmi les clients dEuromarket. Nous abordons maintenant un problme diffrent : nous cherchons

Chapitre 3

page 24

Rgression et corrlation

reconstituer approximativement le revenu de quelquun en fonction de son ge. Il sagit dun problme de rgression. Les rsultats numriques ci-dessous sont obtenus par le logiciel : quation de la droite de rgression coefficient de corrlation linaire variance des rsidus y = 946.174 x ge + 69735.75 r = 0.298 s2 = 798 979 500

Figure 9.3 : reprsentation graphique des couples (ge, revenu) Droite de rgression et prvision du revenu pour 55 ans. Les valeurs du revenu estim pour 55 ans et 65 ans sont donnes par lquation de la droite : y = 946.174 x 55 + 69 735.75 = 121 775.3 y = 946.174 x 65 + 69 735.75 = 131 237.1 Ces estimations ne sont pas satisfaisantes : tous les clients gs de 55 ans environ (n 1, 8 et 10) ont un revenu largement suprieur 121 775.32. tous les clients gs de 65 ans environ (n 25, 31 et 43) ont un revenu largement infrieur la valeur estime par la droite (131 237.1). On peut le vrifier en effectuant le calcul des rsidus : e1
=

195 888 (946.174 x 51 + 69 735.75) = 195 888 117 990

= 77 897.38

Chapitre 3

page 25

Rgression et corrlation

e8 = 155 989 (946.174 x 53 + 69 735.75) = 155 989 119 883

= 36 106.03

e1 = 196 484 (946.174 x 57 + 69 735.75) = 196 484 123 667.7 = 72 816.34


0

Le calcul des rsidus e25, e31 et e43 donne les rsultats ci-dessous : e25 = -51533.54 e31 = -47607.58 e43 = -60130.41 Suivant la rgle, les rsidus e1, e8 et e10 peuvent tre considrs comme grands (suprieurs lcart-type 28 266.23) ou trs grands (suprieurs deux fois lcart-type 56 532.45), tandis que les rsidus e25, e31 et e43 sont petits ou trs petits. Le problme nest pas lexistence de tels rsidus, mais le fait que tous les rsidus correspondant lge de 55 ans soient grands et tous les rsidus correspondant lge de 60 ans petits. Lanalyse plus approfondie des rsultats de la rgression ncessite lutilisation des probabilits et des tests statistiques. Nous en prsentons les grandes lignes dans les chapitres suivants et revenons sur la rgression linaire dans le chapitre 7.

CONCLUSION.
Par son champ dapplications et les mthodes qui en dcoulent, lanalyse de la corrlation est une dmarche fondamentale de la statistique applique. La linarit de la liaison et la forme en cloche des rpartitions donnent au coefficient de corrlation des proprits statistiques intressantes, que nous dveloppons dans les trois chapitres suivant. On se gardera bien dexpliquer la liaison entre deux variables par une relation de cause effet, sans donner dargument fort compltant lapproche statistique. Inversement, lorsque la taille du coefficient de corrlation est apporte comme argument dmontrant la relation de causalit, il faut tre conscient que ce raisonnement est trs insuffisant (cf. exercice 4).

Chapitre 3

page 26

Rgression et corrlation

TABLE DES MATIRES 1. REPRSENTATIONS GRAPHIQUES....................................................................2 1.1 Conventions lmentaires..................................................................................... 2 1.2 Tableau de corrlation. ......................................................................................... 5 1.3 Autres procdures. ................................................................................................ 7 2. COEFFICIENT DE CORRLATION LINAIRE. ..................................................8 2.1 Covariance. ........................................................................................................... 8 2.2 Coefficient de corrlation linaire. ....................................................................... 9 3. PROPRITS DU COEFFICIENT DE CORRLATION. ....................................15 3.1 Proprits mathmatiques du coefficient de corrlation linaire........................ 15 3.2 Interprtation du coefficient de corrlation. Liaison linaire. ............................ 16 3.3 Rpartitions normales......................................................................................... 18 3.4. Matrices de corrlation. ..................................................................................... 20 4. DROITE DE RGRESSION...................................................................................21 4.1 Critre des moindres carrs. ............................................................................... 21 4.2 Estimation des coefficients de rgression. Rsidus. ........................................... 22 4.3 Exemple : rgression des revenus par lge des clients...................................... 23 CONCLUSION. ..........................................................................................................25