http://foucart.thierry.free.fr/StatPC
Chapitre 9
ANALYSE MULTIDIMENSIONNELLE
Lanalyse des donnes multidimensionnelles regroupe un ensemble de mthodes statistiques rcentes et est utilise couramment depuis les annes 1970 environ pour analyser des clientles, effectuer des tudes de march, etc. Elles analysent des donnes appeles multidimensionnelles, caractrises par le fait qu chaque unit statistique sont associes plusieurs valeurs observes. Ces mthodes sont fondes soit sur les mathmatiques cest lanalyse factorielle , soit sur linformatique cest la classification qualifie parfois dautomatique. La complexit des calculs rend indispensable lutilisation dun ordinateur et de logiciels appropris.
1.1 Objectifs.
Lobjectif de lanalyse en composantes principales (ou ACP) est purement descriptif : il sagit dexplorer un ensemble dobservations rassembles sous la forme dun tableau de
Chapitre 9
page 2
Analse multidimensionnelle
donnes indiquant pour chaque unit statistique les valeurs observes dun certain nombre de variables quantitatives, comme le tableau des donnes Euromarket (50 lignes, 5 colonnes). Ce tableau peut tre de dimensions importantes : le nombre de lignes (dunits statistiques) peut atteindre plusieurs centaines, et le nombre de colonnes (de variables) plusieurs dizaines. Le nombre dobservations, suivant son importance, pourra donner un caractre de gnralit aux proprits structurelles ; il est en effet rare que lon fasse appel, dans le cadre de lanalyse de donnes multidimensionnelles, la statistique infrentielle. Lanalyse en composantes principales est fonde sur le calcul des moyennes, variances et coefficients de corrlation. Les donnes doivent donc tre quantitatives : elles peuvent tre discrtes ou ordinales (par ordre de prfrence).
Exemple : On tudie les donnes sur 50 clients de lhypermarch EUROMARKET constitues de lge, du revenu, du montant des achats, du nombre denfants, de la catgorie socioprofessionnelle (CSP) et du sexe. Les variables quantitatives sont les suivantes : lge, le revenu, le montant des achats, le nombre denfants. Nous verrons ultrieurement comment tenir compte du sexe et de la catgorie socioprofessionnelle dans les analyses. Nous avons tudi dans le chapitre 3 les couples dobservations (ge, revenu) en les reprsentant graphiquement et en calculant le coefficient de corrlation. Cette reprsentation graphique nous a montr que le revenu saccrot en fonction de lge, jusqu 60 ans environ, ce que nous avons expliqu par le fait quau-del de 60 ans, les clients sont en retraite et voient leurs ressources financires diminuer. Lanalyse en composantes principales gnralise cette dmarche en prenant en compte la totalit des variables quantitatives : ainsi, nous verrons que les personnes de 60 ans et plus nont en gnral pas denfant charge, et par suite le montant de leurs achats est moins lev : il y a donc une tendance gnrale dans les donnes, lie lge, qui permet dexpliquer la diminution de la consommation de plusieurs faons. La taille de ce tableau est insuffisante pour que les interprtations soient intressantes. Mais elle permet de donner la totalit des rsultats concernant les variables et deffectuer des calculs sur quelques units statistiques laide dune simple calculatrice.
Chapitre 9
page 3
Analse multidimensionnelle
Exemple : voici deux clients dEuromarket : n 1 2 ge 51 39 revenu 195888 128456 achats enfants 150.15 3 173.12 2 CSP sexe Agri. M Ouv. F
Nous cherchons mesurer quantitativement la distance entre ces deux clients : limpossibilit de tenir compte dans le calcul numrique de la CSP et du sexe est vidente, et nous nous limitons aux variables quantitatives. La distance habituelle est dfinie par son carr : elle consiste effectuer la somme des carrs des diffrences entre les valeurs observes. d2(1,2) = (51 39)2 +(195888- 128456)2 + (150.15 173.12)2 + (3 2)2 = 4.547 109 Le deuxime terme du second membre est trs lev par rapport aux autres, que lon peut considrer comme ngligeables. Une diffrence dge de 10 ans a le mme effet sur le carr de la distance quune diffrence de revenu annuel de 10F : cela ne correspond pas la notion intuitive de la distance entre deux clients. Chaque terme du second membre est en fait dpendant de lunit de mesure de lobservation, ce qui rend la distance sans intrt puisque lon naura pas la mme valeur si les revenus sont mesurs en francs, en KF ou en euros par exemple.
Chapitre 9
page 4
Analse multidimensionnelle
La distance entre deux units statistiques doit donc tre indpendante des units de mesure. Pour cela on la calcule sur les donnes centres rduites.
Exemple : les moyennes et les carts-types des variables sont les suivantes : Variable ge Revenu achats enfant Moyenne 40.06 107639.48 316.945 1.82 cart-type 9.34111 29615.79478 207.12912 1.03325
Les donnes centres rduites sont les suivantes : n 1 = 2 = ge revenu achats enfants
51 - 40.06 195888 - 107639.48 150.15 - 316.945 3 - 1.82 9.34111 29615.79478 207.12912 1.03325 1.1712 2.9798 -0.8053 1.1420
39 - 40.06 128456 - 107639.48 173.12 - 316.945 2 - 1.82 9.34111 29615.79478 207.12912 1.03325 -0.1135 0.7029 -0.6944 0.1742
Le carr de la distance est ici aussi gal la somme des carrs des diffrences. Il ne dpend plus des units de mesure puisque si les revenus sont exprims en euros et non en francs, la valeur numrique est divise par 6.56, mais la moyenne et lcart type aussi. Cette transformation est donc sans effet sur la valeur centre rduite. On trouve finalement la valeur suivante : d2(1,2) =7.784 On notera que le calcul peut tre effectu de la faon suivante : (51 39) 2 (19588 128456)2 + 9.341112 29615.794782 Cas gnral : Les units statistiques sont dfinies par les observations de p variables quantitatives ; on dit quelles appartiennent un espace de dimension p ; On calcule les moyennes et les variances des p variables initiales ; (150.15-173.12) 2 207.129122 (3 2)2 1.033252
+ +
Chapitre 9
page 5
Analse multidimensionnelle
On en dduit les valeurs centres rduites notes xj(i) (1 i n, 1 j p) ; La distance entre deux units statistiques i et i est donne par son carr : p d (i,i) =
2
[ xj(i) xj(i)]2
j=1 Le regroupement des units statistiques dont les distances sont faibles devient impossible effectuer de faon empirique ds quelles deviennent nombreuses. Il faut donc procder autrement : Soit par un algorithme de classification, sans intervention de lutilisateur (cest la classification automatique, par exemple la classification ascendante hirarchique, que nous prsentons rapidement dans le paragraphe 3.3) ; Soit par une suite de reprsentations graphiques conservant au mieux linformation contenue dans les donnes et directement interprtables : il sagit danalyse factorielle.
Chapitre 9
page 6
Analse multidimensionnelle
laxe principal est en gnral diffrent de la droite de rgression : on pourra visualiser ces deux droites laide du programme de test du F.
Figure 1.9: Critre des moindres carr en analyse en composantes principales reprsentation graphique des couples (X1(i), X2(i)) Ce qui se passe dans le cas gnral nest pas reprsentable ds que le nombre de variables dpasse 3 : lespace physique est en effet limit trois dimensions. Mais la procdure est exactement la mme, et consiste chercher un repre dont les axes sont les plus proches possibles de lensemble des points caractriss par leurs p observations x1(i), x2(i), , xp(i) (centres rduites). On suppose que les points sont rpartis la surface dun ballon de rugby (figue 2.9). Ce ballon possde trois axes dallongement maximum :
Chapitre 9
page 7
Analse multidimensionnelle
Une fois le premier axe dtermin, on cherche le second : le critre des moindres carrs est le mme, mais on impose au second axe dtre orthogonal au prcdent et de passer par lorigine des axes ; dans le cas de la figure 1.9, il nexiste quun axe orthogonal 2 au premier, mais en dimension trois (figure 2.9), le second axe est dans le plan orthogonal au premier axe. Le troisime, orthogonal aux deux premiers, est alors compltement dtermin par les deux prcdents. Et ainsi de suite suivant le nombre de variables.
Dfinition : Les axes principaux sont les droites dtermines au fur et mesure de faon que : les units statistiques soient aussi proches que possible des axes suivant le critre des moindres carrs ; chaque droite soit orthogonale aux prcdentes. Les axes sont ordonns suivant la part d'information que chacun reprsente, mesure par la somme des carrs des distances entre les units statistiques quil permet de conserver. Cette part d'information reprsente par un axe est value par un paramtre appel valeur propre et note en gnral : laxe 1 correspond la plus grande valeur propre 1, laxe 2 la suivante 2, etc. On notera que les axes sont orients de faon quelconque : deux logiciels diffrents peuvent donner deux axes de mme rang orients inversement lun de lautre sur les mmes donnes, la coordonne de chaque individu tant alors de signe oppos.
Dfinition : Les composantes principales sont les variables statistiques dont les valeurs sont les coordonnes des points sur les axes. premire composante principale : c1(1), c1(2), , c1(i), c1(n) deuxime composante principale : c2(1), c2(2), , c2(i), c2(n) etc.
Les composantes principales sont obtenues comme des combinaisons linaires des variables centres rduites, cest--dire quelles sont de la forme : Cl = ul1 X1 + ul2 X2 + + ulp Xp
Chapitre 9
page 8
Analse multidimensionnelle
expression dans laquelle X1, X2, , Xp dsignent les variables centres rduites et ul1, ul2, , ulp une suite de valeurs numriques possdant les proprits suivantes : chaque suite ul1, ul2, , ulp est note ul et est appele vecteur propre de rang l. la somme des carrs ul1 2 + +ulp 2 est gale 1. la somme des produits des termes de mme rang pour deux composantes principaul1 x uk1 + ul2 x uk2 + + ulp x ukp = 0 les valeurs propres sont les variances des composantes principales, ou les varian-
ces des coordonnes sur les axes. Le premier axe est donc celui de la dispersion maximale des units statistiques, le second aussi en tant orthogonal au premier etc.
Proprit : les axes principaux constituent un systme daxes orthonorms dont chacun est le plus proche des units statistiques observes compte tenu des axes prcdents. Un plan principal est un plan dfini par deux axes principaux.
Exemple : la premire composante principale est calcule partir des variables centres rduites par la formule suivante : C1 = 0.1200 ge - 0.3825 revenu - 0.6115 achats - 0.6822 enfants En donnant lge, au revenu, aux achats et au nombre denfants les valeurs centres rduites du client de rang 1, on obtient sa coordonne sur laxe 1 du plan principal 1x2. De mme pour les autres clients. Concrtement, la composante principale de rang 1 est la suite des coordonnes des clients sur laxe 1. Nous donnons ci-dessous la reprsentation graphique des 50 clients sur le plan principal 1x2. Au groupe (25, 31, 43) dtect par la reprsentation graphique des couples (ge, revenu) sajoute le client de rang 28. On peut dfinir un groupe oppos au prcdent : (9, 11, 37, 7, 6, 45). Le client de rang 10 est assez particulier. Le coefficient de corrlation des deux composantes principales est nul, par dfinition des composantes principales : il est donc impossible de distinguer une liaison linaire sur ce plan. Par contre, dans certains cas (mais pas ici), on pourra constater une liaison non linaire.
Chapitre 9
page 9
Analse multidimensionnelle
Figure 3.9 : plan dfini par les axes principaux de rang 1 et 2 (1 = 1.810,2 = 1.290) (certains clients sont confondus avec dautres) Constituer des groupes dunits statistiques sans expliquer ce quelles ont en commun ne prsente quun intrt limit. Ces proprits communes sont donnes par linterprtation des composantes principales.
Exemple : les coefficients de corrlation des variables initiales et des composantes principales dEuromarket sont donns dans le tableau ci-dessous. La corrlation entre la premire composante principale dune part, le montant des achats et le nombre denfant dautre part est proche de 1 (-0.823 et 0.918) : ces valeurs numriques montrent quune forte valeur de cette composante principale (ce qui correspond une coordonne leve sur laxe 1, par exemple les clients 28, 25, 43 et 31) correspond une
Chapitre 9
page 10
Analse multidimensionnelle
faible valeur du montant des achats, du nombre denfants et du revenu dans une moindre mesure (coefficient de corrlation gal 0.515). C1 0.161 -0.515 -0.823 -0.918 C2 0.863 0.707 -0.200 -0.065 C3 -0.458 0.436 -0.461 0.088 C4 0.140 -0.211 -0.266 0.381
Les proprits mises en vidence par les composantes principales sont globales, vraies en gnral. Elles peuvent tre inexactes dans des cas particuliers. Par exemple, on notera que le montant des achats du client 25 nest pas particulirement faible, de mme que le revenu du 28. n ge 25 62 28 48 31 68 43 67 revenu 76865 96885 86468 72999 achats 293.12 63.22 104.57 241.78 enfants 0 0 0 0 CSP C.sup. PIC PIC Emp. sexe M F M M
Pour interprter les coefficients de corrlation, il est plus commode de les reprsenter graphiquement que de lire le tableau, surtout dans le cas dun grand nombre de variables. Ces reprsentations graphiques sappellent les cercles de corrlation. Un abus frquent consiste superposer les cercles de corrlation et les plans principaux, mais au plan mathmatique, cette dmarche est inexacte : la dmarche exacte consiste reprsenter les axes dfinissant les variables initiales sur les plans principaux, de la mme faon quen figure 3.9, nous avons reprsent les axes principaux dans le plan reprsentant les variables X1 et X2. Exemple : cercle de corrlation C1xC2 des donnes Euromarket. Ce cercle de corrlation montre que la seconde composante principale est fortement corrle au revenu et surtout lge : un client dEuromarket dont la coordonne est leve sur laxe 2 aura trs vraisemblablement un ge suprieur la moyenne et inversement. Cest le cas des n1 et 10. On retrouve les clients n 25, 31 et 43 dont la coordonne leve sur laxe 1 montrent que le nombre denfants et le montant des achats sont faibles. Rciproquement, les client 9 et 37 dont les coordonnes sur laxe 2 sont fortement ngatives sont jeunes et ont un revenu faible. Rappelons que ces proprits peuvent tre inexactes sur des cas particuliers, et que lorientation des axes peut tre inverse si lon utilise un autre logiciel.
Chapitre 9
page 11
Analse multidimensionnelle
Les lignes du tableau donnent les paramtres calculs sur chaque client. Les colonnes intitules Axe 1, Axe 2, donnent les coordonnes des clients sur les axes principaux, cest--dire les valeurs numriques des composantes principales.
Chapitre 9
page 12
Analse multidimensionnelle
Les colonnes intitules Cos2 contiennent un paramtre appel cosinus carr qui indique la proximit dun client avec le point qui le reprsente.
Figure 5.9 : projection dunits statistiques sur le plan principal 1 x 2. Le cosinus carr du client de rang 1 avec le plan 1 x 2 est gal 0.135+0.653 = 0.788. Le cosinus de langle est donc de lordre de 0.9, ce qui signifie que langle est presque nul. On peut considrer que le client de rang est proche de sa projection sur le plan 1 x 2 reprsente par le chiffre 1. Cest le cas du point i (figure 5.9), pour lequel nous avons : cos2 = cos21 + cos22 Il nen est pas de mme du client 2 : 0.001+0.211 = 0.212. Cette valeur est faible, et le client 2 est mal reprsent par sa projection sur le plan 1 x 2 : cest le cas du point i (figure 5.9). Les units statistiques i et i sont donc diffrentes tout en tant projetes proximit lune de lautre . On notera quil est bien reprsent sur le plan 2 x 3. Une autre proprit gnrale peut tre vrifie laide dune simple calculatrice : la somme des cosinus carrs des angles entre une unit statistique et chaque axe est gale 1. De faon analogue, la somme des carrs des coefficients de corrlation dune variable avec chaque composante principale est gale 1.
Chapitre 9
page 13
Analse multidimensionnelle
Exemple : nous donnons ci-dessous un tableau obtenu par tri crois. Le nombre de personnes interroges est gal la somme des termes du tableau (527) et les questions Q1 et Q2, comportant p = 3 et q = 4 modalits, sont les suivantes : Q1 : fume des cigarettes brunes, blondes, ne fume pas ; Q2 : mineur masculin (mm), mineur fminin (mf), majeur fminin (MF), majeur masculin (MM). Q2 mm brunes 63 Q1 blondes 36 ne fume pas 34 mf 37 55 27 MF 41 39 72 MM 47 38 38
Le test dindpendance du 2 aboutit au rejet de lindpendance de Q1 et Q2 : X = 35.726 degr de libert = 6 Probabilit critique P(2>35.726) = 0
Chapitre 9
page 14
Analse multidimensionnelle
ts x1, x2, (en proportions) PJ = (p.j) j = 1, , q : rpartition des rponses la question Q2 suivant les modali-
ts y1, y2, (en proportions) Exemple : nous donnons ci-dessous les rpartitions Rpartition des personnes interroges suivant quelles fument des brunes, des blondes ou quelles ne fument pas : PI brunes 0.357 blondes 0.319 non fumeurs 0.324
Rpartition des gens interrogs suivant quils sont mineurs masculins, mineurs fminins, majeurs masculins, majeurs fminins : PJ mm 0.252 mf 0.226 MF 0.288 MM 0.233
Les units statistiques sont des rpartitions conditionnelles, que lon prfre souvent appeler profils : elles sont dfinies par les rpartitions des rponses la question Q2 des gens qui ont donn une rponse fixe Q1, et inversement. On dfinit ainsi deux types de profils : les profils lignes et les profils colonnes. Les profils lignes sont nots PJi et les profils colonnes PIj. En gnral, on les exprime en pourcentages, mais les calculs sont toujours effectus sur les proportions.
Chapitre 9
page 15
Analse multidimensionnelle
Ils sont affects de poids, dfinis par les rpartitions marginales : le poids affect une modalit de rponse est gal la proportion de gens ayant choisi cette modalit dans la totalit des personnes interroges. Les rpartitions marginales possdent une proprit fondamentale pour linterprtation des rsultats : ce sont les centres de gravit des profils.
Exemple : Dans le tableau prcdent, les profils lignes sont : la rpartition des fumeurs de blondes suivant lge et le sexe ; la rpartition des fumeurs de brunes suivant lge et le sexe ; la rpartition des non-fumeurs suivant lge et le sexe mm profil brunes 0.335 profil blondes 0.214 profil non fumeur 0.199 centre de gravit PJ 0.252 mf 0.197 0.327 0.158 0.226 MF 0.218 0.232 0.421 0.288 MM total poids 0.250 1 0.357 0.226 1 0.319 0.222 1 0.324 0.233 1
profils lignes PJi Le centre de gravit est obtenu de la faon suivante : mm mf MF MM 0.357 x 0.335 0.357 x 0.197 0.357 x 0.218 0.357 x 0.250 + 0.319 x 0.214 + 0.319 x 0.327 + 0.319 x 0.232 + 0.319 x 0.226 + 0.324 x 0.199 + 0.324 x 0.158 + 0.324 x 0.421 + 0.324 x 0.222 = O.252 = O.226 = O.288 = 0.233. Les profils colonnes PIj sont : la rpartition des mineurs masculins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des mineurs fminins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des majeurs masculins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des majeurs fminins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs.
Chapitre 9
page 16
Analse multidimensionnelle
profil mm profil mf profil MF profil MM brunes blondes non fumeur total poids 0.474 0.271 0.256 1 0.252 0.311 0.462 0.227 1 0.226 0.270 0.257 0.474 1 0.288 0.382 0.309 0.309 1 0.233
Dfinitions : La distance du 2 entre deux profils lignes PJi et PJi est dfinie par son carr de la
j=1
La distance du 2 entre deux profils colonnes PIj et PIj est dfinie par son carr de
j=1
Exemple : nous avons calcul les distances du 2 entre les profils lignes et entre les profils colonnes du tableau de contingence prcdent. Nous donnons ci-dessous le dtail du calcul entre deux profils lignes : y1 y2 y3 y4 profil brunes 0.335 0.197 0.218 0.250 profil blondes 0.214 0.327 0.232 0.226 centre de gravit PJ 0.252 0.226 0.288 0.233
Chapitre 9
page 17
Analse multidimensionnelle
d2(x1, x2) = (0.335 0.214)2/0.252 + (0.197-0.327)2/0.226 + (0.218-0.232)2/0.288 + (0.250-0.226)2/0.233 La totalit des carrs des distances entre les profils lignes et les profils colonnes sont donns dans les tableaux ci-dessous : x1 x2 x3 x1 0.000 x2 0.136 0.000 x3 0.226 0.252 0.000 Distances entre les profils lignes y1 y2 y3 y4 y1 y2 y3 y4 0.000 0.192 0.000 0.264 0.325 0.000 0.037 0.109 0.128 0.000
Distances entre les profils colonnes Lusage de la distance du 2 pour comparer les profils est justifi par ses proprits mathmatiques, en particulier par les proprits suivantes : Proprits de la distance du 2 : Soit X2 la statistique utilise dans le test dindpendance du 2 de Pearson et N la somme du tableau (cf. chapitre 6, paragraphe 3.2). On admettra les proprits suivantes : La moyenne des carrs des distances au centre de gravit pondrs par les poids des profils est gale X2/N ; La moyenne des carrs des distances entre les profils pondrs par le produit de leurs poids est gale X2/N.
Exemple : le dtail des calculs pour vrifier numriquement la seconde proprit dans le cas des profils lignes est donn ci-dessous : p1. p2. d2(1,2) 0.357 x 0.319 x 0.136 + p1. p3. d2(1,3) + 0.357 x 0.324 x0.226 + p2. p3. d2(2, 3) + 0.319 x 0.324 x 0.252 = X2/N = 35.726 / 527
Chapitre 9
page 18
Analse multidimensionnelle
bles appeles ici souvent facteurs au lieu de composantes principales, et les variances de ces variables sont appeles valeurs propres, ou encore inerties expliques.
Dfinitions et proprits : Les facteurs principaux sont les composantes principales ; ils sont centrs et non corrls deux deux ; la variance dun facteur, appele inertie explique par laxe, est gale la valeur
propre associe. le nombre de valeurs propres non nulles est infrieur ou gal au nombre de lignes
moins un et au nombre de colonnes moins un. La somme des inerties est gale X2/N : lanalyse factorielle des correspondances apparat ici comme une dcomposition de la statistique X2 utilise dans le test dindpendance : chaque axe principal caractrise une certaine liaison, indpendante des autres, dans lordre des valeurs propres croissantes. Une diffrence importante avec lanalyse en composantes principales est la pondration des profils. Il est frquent de complter les rsultats numriques associs chaque profil par un critre tenant compte de cette pondration, appel contribution relative linertie , qui mesure limportance du profil dans linertie explique par laxe (la variance). Considrons par exemple les profils lignes. Leurs coordonnes sur laxe l tant notes cl(i) i = 1, , p , on a daprs les proprits prcdentes : p l =
i=1
pi. cl(i)2
La contribution relative du profil PJi linertie explique par laxe est par dfinition le rapport pi. cl(i)2 / l exprim en gnral en pourcentage. La somme de ces pourcentages doit tre gale 100% pour chaque facteur.
Exemple : nous donnons ci-dessous les rsultats numriques de lanalyse factorielle des correspondances du tableau de contingence:
Chapitre 9
page 19
Analse multidimensionnelle
axe 1 axe 2 poids C(i) Cos(i) Contrib(i) C(i) Cos(i) Contrib(i) brunes 0.357 -0.128 0.331 12.9 -0.181 0.669 51.4 blondes 0.319 -0.168 0.449 20.0 0.186 0.551 48.2 ne fume pas 0.324 0.305 0.997 67.1 0.017 0.003 0.4 Coordonnes des profils lignes poids 0.252 0.226 0.288 0.233 C(j) -0.131 -0.226 0.316 -0.030 axe 1 Cos(j) 0.286 0.513 0.980 0.312 Contrib(j) 9.7 25.7 64.1 0.5 C(j) -0.207 0.220 0.045 -0.044 axe 2 Cos(j) 0.714 0.487 0.020 0.688 Contrib(j) 47.5 48.0 2.5 2.0
mm mf MF MM
Coordonnes des profils colonnes On pourra vrifier toutes les proprits des facteurs donnes ci-dessus laide dune simple calculatrice.
Exemple : nous avons reprsent les profils lignes et colonnes dans un systme daxes orthonorms caractrisant les facteurs principaux. Lorigine des axes caractrise les points moyens, cest--dire les rpartitions marginales du tableau. Nous avons caractris les profils par des abrviations pour interprter le graphique : etc. mm et mf dsignent respectivement les mineurs masculins et fminins MM et MF dsignent respectivement les majeurs masculins et fminins brunes dsigne les fumeurs de brunes
Chapitre 9
page 20
Analse multidimensionnelle
Figure 6.9 : Plan principal 1x 2 (1 = 0.045) axe vertical 2 (2 = 0.023) On ne doit pas oublier que les comparaisons utilisent les rpartitions marginales comme rfrences. En particulier, lorsquune rpartition marginale est dsquilibre, il est indispensable den avoir bien mmoris les proprits avant deffectuer les interprtations. On peut interprter les distances entre les profils lignes de la mme faon quen analyse en composantes principales. De mme pour les distances entre les profils colonnes. La dualit entre les deux ensembles donne linterprtation de la proximit entre un profil ligne et un profil colonne. Ainsi : dans le profil blondes, la modalit mineur fminin est plus frquente quen
moyenne, les modalits mineur masculin et majeur fminin moins frquentes ; dans le profil majeur masculin, la rpartition entre fumeurs de brunes, fumeurs de
blondes et non fumeurs est proche de la rpartition dans la population, avec une proportion lgrement suprieure pour les brunes ; il y a un nombre relativement important de femmes majeures parmi les non-
fumeurs, et inversement relativement peu de fumeurs de blondes ou de brunes. On peut vrifier ces interprtations sur les tableaux des profils, en comparant aux centres de gravit correspondants.
Chapitre 9
page 21
Analse multidimensionnelle
3. AUTRES MTHODES.
Il existe beaucoup dautres mthodes danalyse de donnes multidimensionnelles : analyse canonique, analyse factorielle des correspondances multiples, Nous en prsentons rapidement deux autres frquemment utilises en techniques de commercialisation : lanalyse factorielle discriminante et la classification.
Exemple : nous avons constitu trois groupes de clients dEuromarket : les clients sans enfants (groupe 1), les familles classiques ayant 1 ou deux enfants (groupe 2) et les familles nombreuses (3 ou 4 enfants). La question laquelle lanalyse factorielle discriminante permet de rpondre concerne la liaison entre les groupes de famille (sans enfants, classiques, nombreuses), et les variables quantitatives observes (revenu, montant des achat, ge). Lobjectif final est daffecter un client supplmentaire un groupe de familles suivant ses caractristiques.
La mthodologie est fonde sur la dcomposition de la variance lorsque les units statistiques sont rparties en plusieurs groupes. Cest une proprit que nous avons dj vue prcdemment (chapitre 7, paragraphe 2.2), que nous rappelons rapidement : Soit X une variable statistique observe sur n units statistiques rparties en k groupes I1, I2, , Il, Ik., deffectifs n1, n2, , nl, nk. Le nombre total dobservations est gal n : n = n1 + n2 + + nl + nk On note m et s2 la moyenne et la variance de la variable X dans la totalit de la population et m1, m2, , ml, , mk et s12, s22, , sl2, , sk2 dans chaque groupe. On a alors les relations ci-dessous : 1 k m = nl ml n l=1 1 k 1 k s2 = nl (ml m)2 + nl sl2 n l=1 n l=1
Chapitre 9
page 22
Analse multidimensionnelle
La seconde formule exprime la variance totale (s2) comme la somme de la variance inter (premier terme : variance des moyennes pondres) et de la moyenne des variances intra (second terme). Lorsque les groupes sont trs diffrents les uns des autres, la variance inter est leve relativement la variance totale, et les variances intra sont faibles, ce qui signifie quau sein dun groupe donn, les units statistiques sont proches de la moyenne de ce groupe. Inversement, si les groupes sont mlangs, cela signifie que les moyennes sont relativement proches les unes des autres, et que les observations dun mme groupe sont fortement disperses. On mesure cette discrimination par le rapport de corrlation :
Ce rapport est toujours compris entre 0 et 1. Ses proprits sont les suivantes : plus il est proche de 1, plus la variance inter est leve, plus les variances intra
sont faibles (par rapport la variance totale) et plus forte est la discrimination.
Figure 7.9 : rapport de corrlation proche de 1, bonne discrimination plus il est proche de 0, plus la variance inter est faible, plus les variances intra sont
Figure 8.9 : rapport de corrlation proche de 0, mauvaise discrimination Pour en apprcier la taille, on peut linterprter approximativement comme le carr dun coefficient de corrlation linaire (il existe un test dgalit 0 fond sur la loi de Fisher Snedecor).
Chapitre 9
page 23
Analse multidimensionnelle
Cette proprit est vraie quelle que soit la variable quantitative considre X. Lorsque lon dispose de plusieurs variables X1, X2, , Xj, , Xp que lon suppose centres rduites, on peut donc considrer lensemble des variables Y de la forme : Y =u1 X1 + u2 X2 + + uj Xj + + up Xp les coefficients u1, u2, , uj, , up tant des nombres rels quelconques. Lanalyse factorielle discriminante consiste chercher ces coefficients de faon que le rapport de corrlation de Y soit le plus lev possible. Les valeurs moyenne de cette variable Y calcules dans chaque groupe sont les plus disperses possible au sens de la variance (inter) et inversement les valeurs de Y prises par les units statistiques de chaque groupe sont concentres autour de la moyenne de ce groupe (variance intra). La discrimination est maximale. On dtermine ainsi la premire composante discriminante, dont le rapport de corrlation est appel pouvoir discriminant. On cherche ensuite une autre suite de coefficients maximisant le rapport de corrlation, de faon que la seconde composante discriminante soit non corrle la prcdente et ainsi de suite. On trouve un nombre de composantes discriminantes infrieur ou gal au nombre de groupes diminu de 1. Parmi ces composantes discriminantes, on ne considre en gnral que les premires (2 ou 3). Et cest laide de ces composantes discriminantes que lon classe les units statistiques.
Chapitre 9
page 24
Analse multidimensionnelle
Figure 9.9 : plan discriminant 1 x 2 On note que le groupe 1 est nettement plus g en moyenne que les deux autres, que son revenu est lgrement plus faible et que cest le montant des achats qui diffrencie le plus le groupe 2 (un ou deux enfants) du groupe 3 (trois ou quatre enfants). On notera que les composantes discriminantes, toujours non corrles, ne sont pas ici indpendantes : on distingue une liaison non linaire sur la figure 9. Groupe 1 Groupe 2 Groupe 3 effectif ge revenu achats 6 50.67 87 383.8 209.2233 31 38.90 107 314.4 238.4945 13 37.92 117 763.5 553.7369
Moyennes des variables par groupes (centres de gravit) La rgle daffectation dun client un groupe est la suivante : on calcule la distance du client aux centres de gravit des groupes G1, G2, G3. on affecte le client au groupe dont le centre de gravit est le plus proche.
On note alors quelques cas particuliers, indiqus par leur rang en italique dans la figure 7.9 : le client 32 appartient au groupe 1, le 8 appartient au groupe 2, le 26 appartient au groupe 3.
Chapitre 9
page 25
Analse multidimensionnelle
Dune faon plus gnrale, on calcule le tableau donnant la rpartition des clients suivant le groupe auquel ils appartiennent (en ligne) et le groupe auquel ils sont affects (en colonne) : 1 1 4 2 1 3 0 ici 84%. Considrons maintenant un client X g de 38 ans, dont le revenu est de 80000F et qui a dpens 357F. Lanalyse discriminante propose de laffecter dans lun des trois groupes en fonction de sa distance aux centres de gravit de chaque groupe : Groupe 1 : 2.601287 Groupe 2 : 0.9520697 Groupe 3 : 3.235366 2 1 28 3 3 1 2 10
Tableau de classement appartenance x affectation Sur les six clients du groupe 1, quatre sont bien classs, un est class dans le
groupe 2 et un dans le groupe 3. Sur les trente-et-un clients du groupe 2, lun est class dans le groupe 1, deux
dans le groupe 3. Sur les treize clients du groupe 3, trois sont classs dans le groupe 2.
Ce client est beaucoup plus proche du centre de gravit du groupe 2 que des autres : il a vraisemblablement, daprs lanalyse, un ou deux enfants. Cette analyse demande toutefois une grande prudence : le nombre dunits statistiques doit tre lev (50 est la plupart du temps trs insuffisant), le nombre de variables faible, et la rgle daffectation un groupe est discutable. Lanalyse discriminante, comme la rgression linaire, donne des rsultats dont la validation est indispensable. Il existe plusieurs faons de contrler les rsultats. La plus simple est dappliquer la rgle choisie sur un chantillon test permettant de comparer le groupe daffectation au groupe auquel lu.s. appartient effectivement : il faut disposer pour cela dun effectif suffisant. Une autre faon est de calculer le pourcentage de bien classs en cas daffectation alatoire : on trouve ici 33% en affectant chaque u.s. un groupe avec la probabilit 1/3. Notons quen affectant systmatiquement les u.s. au groupe 2 et si les proportions de lchantillon sont respectes dans la population, le pourcentage de bien classs est gal
Chapitre 9
page 26
Analse multidimensionnelle
28/50 x 100% = 56%. Ce pourcentage ne mesure donc pas la validit de la rgle de faon satisfaisante. Cest pourquoi on peut procder enfin une chaotisation de lchantillon de calcul : on tire au hasard les groupes auxquels sont censs appartenir les observations, et, aprs avoir effectu lanalyse, on dtermine le pourcentage de bien classs. Si ce pourcentage reste du mme ordre quavec les groupes rels, cest que la discrimination nest pas satisfaisante. Nous avons effectu dix fois cette chaotisation et trouv les pourcentages suivants : 38%, 6%, 24%, 8%, 42%, 24%, 50%, 44%, 24%, 32%. Le pourcentage de 80% est donc satisfaisant (on pourrait augmenter le nombre de chaotisations). La rgle de dcision utilise prcdemment est lmentaire : elle nest justifie que sous des hypothses contraignantes (matrice de covariances des groupes constantes). On prfre souvent utiliser comme rgle daffectation lune de celles que nous donnons dans le paragraphe suivant. On consultera aussi lapplication vers dautres rgles de dcision. Les tests statistiques ne peuvent tre utiliss que si les variables considres suivent la loi normale (ce qui nest pas le cas dans le fichier EUROMARKET).
groupes homognes. La notion de distance est frquemment appele dissimilarit, parce quelle ne vrifie pas ncessairement les hypothses dune distance mathmatique. Les hypothses quelle doit vrifier sont les suivantes : la dissimilarit dun objet un autre est positive ou nulle ; la dissimilarit dun objet lui-mme est nulle.
Chapitre 9
page 27
Analse multidimensionnelle
Pour rassembler les objets qui se ressemblent, il faut dfinir la distance entre un objet et un groupe et plus gnralement entre deux groupes dobjets. Plusieurs choix pour dfinir la dissimilarit entre deux groupes sont possibles, parmi lesquels (figure 10.9) : la distance la plus petite entre deux objets pris dans chaque groupe ; la distance la plus grande entre deux objets pris dans chaque groupe ; la distance moyenne entre les objets pris dans chaque groupe ; la distance entre les centres de gravit.
Figure 10.9 : disance entre un objet o et des groupes distance entre deux groupes On observe la diversit des proximits suivant le critre choisi ) : lobjet o est affect au groupe 1 (distance au centre de gravit) ou au groupe 2 (groupe de lobjet le plus proche). La procdure consiste alors calculer les distances entre tous les objets, grouper les deux objets les plus proches pour en constituer un autre qui les remplace, et recommencer jusqu lobtention dun seul groupe constitu de tous les objets. En figure 10.9, suivant la rgle choisie, les groupes G2 et G3 sont runis (distance entre les centres de gravit), ou G1 et G2 (suivant le plus proche voisin). La libert qui est laisse dans le choix de la distance se paie, et la reprsentation graphique des objets conformment leurs distances rciproques peut tre difficile. En particulier, il nest pas toujours possible de les reprsenter gomtriquement dans un systme daxes. On utilise souvent pour effectuer cette reprsentation une arborescence, que lon appelle aussi dendogramme, analogue larbre de classification des espces bien connu en biologie.
Chapitre 9
page 28
Analse multidimensionnelle
3.4 Exemple.
Nous avons effectu la classification des clients dEuromarket en considrant comme distance entre deux clients celle qui est dfinie par la somme des carrs des diffrences des variables centres rduites, comme en analyse en composantes principales, et en choisissant comme critre dagrgation le critre de minimisation de la variance. Le dendogramme que lon obtient est donn en figure 11.9. Il peut tre utilis pour classer les clients en un nombre de groupes fix, par une procdure appele troncature. Par exemple, pour un nombre de groupes gal 4, on obtient la partition suivante : Classe n 1 Classe n 2 Classe n 3 Classe n 4 1 8 10 12 25 27 31 39 43 2 3 14 16 17 19 21 23 24 26 33 34 35 36 38 41 42 44 47 4 5 13 18 2 22 28 29 3 32 4 48 49 5 6 7 9 11 15 37 45 46 Partition en 4 classes Les groupes obtenus napparaissent gure sur le plan principal que nous avons donn en figure 3.9. La distance considre est la mme, mais sur ce plan napparaissent que les distances reconstruites par les deux premiers axes : cela explique la diffrence. Cela explique aussi que souvent, on prfre effectuer cette classification sur les composantes principales ou les facteurs pralablement slectionns. On retrouve des groupes cohrents avec lanalyse factorielle.
Chapitre 9
page 29
Analse multidimensionnelle
Figure 11.9 : dendogramme des clients dEuromarket (distance euclidienne sur les donnes centres rduites, agrgation suivant la variance minimale)
Chapitre 9
page 30
Analse multidimensionnelle
CONCLUSION
Nous avons prsent dans ce chapitre les mthodes danalyse multidimensionnelle les plus frquemment utilises en France. Il en existe beaucoup dautres, comme lanalyse des correspondances multiples, lanalyse canonique, que nous appliquons dans des tudes de cas figurant dans les applications pdagogiques. Ces deux dernires mthodes sont assez particulires : lanalyse des correspondances multiples, trs utilise dans les dpouillements denqute, donne des rsultats souvent bien difficiles interprter de mme que lanalyse canonique pourtant frquemment utilise aux tats-Unis et au Royaume-Uni. Le dveloppement de ces mthodes, au plan mthodologique comme au plan numrique, suit celui de linformatique. Les donnes que lon pouvait analyser sur des systmes informatiques puissants des annes 1970 peuvent maintenant tre traites sans difficult sur un micro-ordinateur, et de nombreuses mthodes, ncessitant une puissance de calcul de plus en plus importante, apparaissent rgulirement. On peut citer deux tendances au plan mthodologique : lanalyse de tableaux multiples, par exemple un mme tableau chelonn dans le temps (J. Pags, B. Escofier) et lanalyse de donnes textuelles (F. Lebart). La facilit avec laquelle on peut effectuer une analyse multidimensionnelle prsente des inconvnients : elle cache la complexit de la mthode statistique et rduit lanalyse scientifique des donnes pralable lanalyse statistique. On pourra lire le texte Lillusion du savoir sur les problmes poss par linfluence de la dmarche scientifique sur les sciences humaines dans la rubrique Articles du site SMASH.
Chapitre 9
page 31
Analse multidimensionnelle