Anda di halaman 1dari 46

L’Analyse en Composantes

Principales: A.C.P. ou carte


perceptuelle ou mapping.

1
Réaliser une analyse en composantes
principales c’est représenter dans un espace de
dimension faible par exemple 2 une information
dont on dispose dans un espace de dimension
élevée n ou p avec l’objectif de restituer dans
cette opération une quantité d’information
maximale par rapport à l’information disponible
dans le fichier de base.

2
Par exemple, du fichier disponible ( tableau 1), on déduira les
coordonnées des individus dans un espace de dimension deux (tableau 2)

Individus Poids Taille Age Note Individus Axe 1? Axe 2?

1 45 150 13 14 1 -1,62 -0,20

2 50 160 13 15 2 -1,09 -0,52

3 50 165 13 16 3 -0,98 -0,72

4 60 175 15 9 4 1,27 0,09


5 60 170 14 10 5 0,67 -0,46
6 60 170 14 7 6 0,90 -0,90
7 70 160 14 8 7 0,81 0,35
8 65 160 13 13 8 -0,26 -0,16
9 60 155 15 17 9 -0,34 2,63
10 65 170 14 11 10 0,71 -0,10

Tableau1 Tableau2

Quantité d’information?
3
Quantité d’information
Individus Axe 1 Axe 2
restituée?
1 -1,62 -0,20
2 -1,09 -0,52 9

3 -0,98 -0,72
4 1,27 0,09
5 0,67 -0,46
6 0,90 -0,90 7
4
7 0,81 0,35
10
1 8
2
8 -0,26 -0,16 5
3
9 -0,34 2,63 6

10 0,71 -0,10

Tableau2 Graphe 1

4
9
Axe 2
Axe 2
Axe 2
Individus Axe 1 Axe 2 Axe 3
1 -1,62 -0,20 -0,17
2 -1,09 -0,52 0,30
3 -0,98 -0,72 0,86 7
4

4 1,27 0,09 1,48 1 8


10
2
5
5 0,67 -0,46 0,37 3 Axe 1
6
6 0,90 -0,90 0,07
7 0,81 0,35 -1,81
8 -0,26 -0,16 -1,51
9 -0,34 2,63 0,46 Axe 3
4
10 0,71 -0,10 -0,06
3

9
5
2
6
11
10
Peut-on améliorer
Axe 1
l’image?

8
7
5
9
Axe 2
Axe 2

7
4
Axe 3
10
1 8
2 4
5
3 Axe 1
6 3

5 9
6 2
10
1

Axe 3
4 Axe 2

3 8

9 7
5
2
6 6
1
10
Axe 1

8
7
6
Axe 3

.3
.2
.4
.1

.9

.5

. 10 Axe 2
.6

.8

.7
Axe 1

7
1. Le schéma de travail:
11. Du tableau de base

X1  Xj  Xp Mi
1 x11  x1 j  x1 p M1
    
i xi1  xij  xip Mi
    
n xn1  xnj  xnp Mn
Nj N1  Nj  Np

on déduit l’un des deux nuages possibles, individus ou variables.

 M i , mi où i var ie de 1 à n N ,f j j où j var ie de 1à p 
12. On détermine ensuite l’inertie I, c’est-à-dire la
dispersion du nuage par rapport à son centre de gravité.

8
13. Réaliser une A.C.P. c’est déterminer un espace de
dimension faible dans lequel le nuage choisi sera projeté
orthogonalement.

Axe Axe
Individus
1 2
. M’1
M’1
. M’i

M’i


. M’n
M’n

Ceci constitue un nouveau nuage de points M '


i , mi où i var ie de 1 à m 
pour lequel on détermine l’inertie I’. On compare I’ avec I. Si le ratio
est bon, on peut conserver l’image.

9
Espace de dimension
élevée dans lequel les
Fichier de base: individus sont
représentés par des Analyse et retour sur
individus i de poids
points Mi. axe étude.
respectifs mi
factoriel 1

Inertie I Inertie I'

A. C.P réalisée de
telle sorte que le ratio
I'/I soit le plus élevé
possible.

10
2. L’inertie
La forme mathématique de l’inertie est la suivante:

i n
I   mi GM i
2

i 1

Lorsque les variables sont centrées, c’est-à-dire lorsqu’à chaque valeur


on a enlevé la valeur moyenne, l’inertie est égale à la somme des
variances des variables que l’on soumet à l’analyse. A ce titre l’inertie
est une généralisation de la notion de variance.
j p
I  V  X j 
j 1

Lorsque les points représentant les individus sont proches du centre de


gravité, l’inertie est faible. Lorsque l’inertie est faible, les points sont
proches du centre de gravité et il n’y a pas lieu de stratifier.
11
Lorsque les variables sont centrées et réduites, c’est-à-dire lorsque on a
divisé chacune des valeurs centrées par l’écart type, l’inertie est égale
au nombre de variables que l’on soumet à l’étude soit p.

12
3. Matrice d’inertie
La réalisation d’une ACP est construite sur les qualités d’une
matrice qui porte le nom de matrice d’inertie. Celle-ci est définie de la
manière suivante:

i n
M   mi GM i  GM i'
i 1

Chaque produit GM i  GM i s’exprime par la relation:


'

 xi21 xi1 xi 2  xi1 xip 


 2

x x xi 2  xi 2 xip 
GM i  GM i'   i 2 i1
    
x x   xip2 
 ip i1

et la matrice d’inertie par la relation:


13
i n

 i i i
m GM
i 1
 GM '

 i n i n i n

  mi xi21  mi xi1 xi 2   m i i1 ip 
x x
 xi21 xi1 xi 2  xi1 xip   i 1 i 1 i 1 
 
 i n in i n

 xi 2 xi1 xi22  xi 2 xip 
 m x   mi xi 2 xip  
i n 2
mi xi 2 xi1
 mi  
   i 1 i 1
i i2
i 1

i 1    
   
x x 2   
 ip i1   xip   i  n i n

  mi xip xi1    mi xip2 


 i 1 i 1 
 i n i n

 V  X1  m x x
i i1 i 2   mi xi1 xip 
 i 1 i 1 
 i n i n

  mi xi 2 xi1 V X2   mi xi 2 xip 
 i 1 i 1

 i n     
 mx x
  i ip i1   V  X p  
 i 1 

14
31. Nous constatons que la trace de cette matrice, c’est-à-dire la
somme de ses éléments diagonaux est égale à l’inertie de système.
Ainsi, avons-nous la possibilité de caractériser la dispersion du nuage par les
valeurs propres d’une matrice. En effet la trace est un invariant égal à la
somme des valeurs propres.

j  p i n
Tr  M    m x   V  X j   I    j
p p
2
i ij
j 1 i 1 j 1 j 1

Parce que l’inertie est identifiée aux valeurs propres d’une matrice, il est
normal de sélectionner les plus importantes pour conserver au mieux
l’information. Rangeons celles-ci par ordre décroissant et sélectionnons les
plus fortes.

1  2     p
Le taux de restitution de l’information dans un plan est donné par:

1  2
 100
j 15
32. Lorsque l’analyste juge que ce taux est correct, il peut
représenter son nuage en dimension 2. Le plan de projection est engendré
par deux vecteurs propres associés aux deux plus grandes valeurs propres.
Soit à résoudre les équations:

u j  0

Mu j   j u j j variant de 1 à 2

On se posera la question du type de repère:


• orthonormé;
• orthogonal;
• normé;
• quelconque

16
33. Les diverses projections
Lorsque le plan est défini, il reste à donner les divers coordonnées. Pour
cela, on utilise les relations:
• abscisse
 i  GM i'  u1
• ordonnée
 i  GM i'  u2

et chaque individu sera représenté dans le plan par le point M i'


de coordonnées:
 
M i'  1 
 2 

17
Quelques éléments supplémentaires.
1. Que faire des valeurs manquantes ou des non
réponses?
Il est fréquent de constater que certains
fichiers sont incomplets: information non
disponibles, non réponses, fichier non
actualisé…Pour compenser le manque
d’information, on peut choisir entre plusieurs
options: insérer une valeur neutre,
recomposer l’information, supprimer toute la
ligne ou la colonne correspondante.

18
2. Donner un sens aux axes
Il est possible d’étudier la corrélation
entre les axes et les diverses variables qui
participent à l’analyse. Une corrélation forte
donne à la variable considérée un pouvoir
explicatif fort.

3. Utilisation d’un marqueur


Il s’agit d’individus qui ne participent pas
à l’analyse; mais qui seront représentés. Ils sont
connus pour leurs qualités.

19
4. Projections des variables
Le nuage des individus et le nuage des
variables sont deux représentations différentes d’un
même tableau. Ainsi, des relations très fortes lient
ces deux nuages.
Les relations de transition, c’est-à-dire les relations
de passage d’un nuage projeté à l’autre sont
données ci-après:
j p  xij  x j 
Pru  i  
1
   pru  X j 
1   
u 2 j 1  j 
 xij  x j
in 
Pru  X j   1  
1  pru  i 
 
u 2 i 1   j 

20
4. Exemple

On interroge des chefs de service sur les qualités:


• X1: technicité;
• X2: polyvalence;
• X3: créativité
que possèdent ou non leurs collaborateurs. Les réponses sont
données sur une échelle de valeurs comprises entre 0 et 4. Les
résultats sont présentés dans le tableau suivant:

21
Individus Technicité Polyvalence Créativité
1 3 4 4
2 1 0 0
3 2 0 0
4 3 2 4
5 2 0 4
6 1 2 0
7 2 2 0
8 1 2 4
9 2 4 4
10 1 0 4
11 2 2 4
12 2 4 0
13 3 4 0
14 3 2 0

Réaliser une A.C.P d’ordre 2 du nuage des individus.

22
Points
représentant
les individus Vecteurs Technicité Polyvalence Créativité
M1 GM1 1 2 2
M2 GM2 -1 -2 -2
M3 GM3 0 -2 -2
M4 GM4 1 0 2
M5 GM5 0 -2 2
M6 GM6 -1 0 -2
M7 GM7 0 0 -2
M8 GM8 -1 0 2
M9 GM9 0 2 2
M10 GM10 -1 -2 2
M11 GM11 0 0 2
M12 GM12 0 2 -2
M13 GM13 1 2 -2
M14 GM14 1 0 -2

G 0 0 0

23
Si à chaque individu on accorde le même poids égal à 1/14,
l’inertie est égale à:

i 14
1 i 14 96
I   mi GM GM i   GM i'GM i V  X 1   V  X 2   V  X 3  
i
'

i 1 14 i 1 14

Par exemple dans ce calcul, la variance de la première variable est


égale à 8 / 14, alors que la variable numéro deux a une variance
égale à 32 / 14 et que la variable numéro trois à une variance égale
à 4.

C’est ce nombre qu’il faut essayer de restituer.

24
Lorsque l’on sélectionne ACP dans un logiciel, on demande de sélectionner le
meilleur plan de projection.

Celui-ci est dirigé par 2 vecteurs appelés vecteurs propres de la matrice d’inertie
associés aux deux plus grandes valeurs propres de la même matrice. ( Il faut noter
que dans l’opération, on a réussi à identifier la quantité d’information aux valeurs
propres d’une matrice).

La matrice d’inertie est donc la matrice de référence de l’Analyse en Composantes


Principales.
Lorsque les valeurs sont centrées, la matrice d’inertie est la matrice des
variances/covariances;
Lorsque les valeurs sont centrées et réduites, la matrice est la matrice des
corrélations.
La somme des éléments diagonaux de cette matrice est égale à l’inertie.

25
Dans notre exemple, cette matrice est égale à:

8 8 0 
1  
 8 32 0 
14 
0 0 56 

Les valeurs propres s’obtiennent par différentes méthodes. Ici, elles sont
égales à:

1  4 2  2,46 3  0,4

On note que

I  V  X 1   V  X 2   V  X 3   1  2  3  6,86

26
Le taux de restitution de l’information est égal à:

1  2
 100  94,17 %
1  2  3

Cela signifie que l’image de dimension deux que l’on va voir représente
bien le nuage de points.

Si le taux de restitution est insuffisant, on ajoute un axe ou on réduit le


nombre de variables que l’on soumet à l ’analyse. Nous comprenons
mieux la nécessité d’étudier les diverses corrélations entre les variables.

27
Axe 1 Axe 2

2 2,11
Polyvalence et
-2 -2,11

-2 -1,92
technicité
2 0,19
Axe 2: 35,9 %
2 -1,92

-2 -0,19

-2 0

2 -0,19
13 1
2 1,92

2 -2,11 12 9
2 0

-2 1,92

-2 2,11
14 4 Axe 1: 58,3 %
-2 0,19
7 11
6 8

Créativité
3 5

2 10

  94,17 %

28
Excellent collaborateur:
référence

Axe 2

15
13 1

12 9

14 4 Axe 1
7 11
6 8

3 5

2 10

29
Vecteurs Technicité Polyvalence Créativité Facteur 1 Facteur 2

GM1 1 2 2 2 2,11

GM2 -1 -2 -2 -2 -2,11

GM3 0 -2 -2 -2 -1,92

GM4 1 0 2 2 0,19

GM5 0 -2 2 2 -1,92

GM6 -1 0 -2 -2 -0,19

GM7 0 0 -2 -2 0

GM8 -1 0 2 2 -0,19

GM9 0 2 2 2 1,92

GM10 -1 -2 2 2 -2,11

GM11 0 0 2 2 0

GM12 0 2 -2 -2 1,92

GM13 1 2 -2 -2 2,11

GM14 1 0 -2 -2 0,19

Pour donner un sens aux deux axes, on peut utiliser la corrélation:

30
Corrélations Technicité Polyvalence Créativité

Variables / axe 1 0 0 1

Variables / axe 2 0,57 0,996 0

31
E 1. On donne le tableau suivant représentant les
notations réalisées ( sur des échelles de valeurs de 0 à 7) par
des acheteurs de 15 voitures de toutes marques et de tous
types à propos de 3 variables : confort, ligne, puissance.

Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Confort 3 2 3 2 4 4 2 3 4 2 3 3 1 4 5
Ligne 1 0 0 4 1 5 6 7 0 2 5 3 3 6 3
Puissance 3 3 3 5 5 5 7 7 3 5 7 5 5 7 5

Sachant que chaque individu interrogé a un poids égal à


1/15 réaliser l’analyse en composantes principales d’ordre 2
du nuage des individus.

32
Code
Confort Ligne Puissance Axe 1 Axe 2
individus
1 0 -2,07 -2 -2,81 0
2 -1 -3,07 -2 -3,66 -1
3 0 -3,07 -2 -3,66 0
4 -1 0,93 0 0,80 -1
5 1 -2,07 0 -1,76 1
6 1 1,93 0 1,65 1
7 -1 2,93 2 3,55 -1
8 0 3,93 2 4,40 0
9 1 -3,07 -2 -3,66 1
10 -1 -1,07 0 -0,91 -1
11 0 1,93 2 2,69 0
12 0 -0,07 0 -0,06 0
13 -2 -0,07 0 -0,06 -2
14 1 2,93 2 3,55 1
15 2 -0,07 0 -0,06 2

33
La matrice des variances / covariances est
données ci-après

1,067 0 0
0 5,262 3,067
0 3,067 2,133

La matrice des corrélations des variables et


des axes factoriels est donnée ci-après

Corrélations variables /
axe 1 0 0,99 0,96
Corrélations variables /
axe 2 1 -0 0

34
E2. Étude de la comparaison de pays d’un point de vue
économique (statistiques anciennes; mais intéressantes).
Les 18 variables prises en compte sont:

X1: La population totale en milliers d’habitants;


X2: La densité au km²;
X3: Le taux d’accroissement total de la population;
X4: % d’actifs dans l’agriculture, la sylviculture et la pêche;
X5: % d’actifs dans l’industrie;
X6: Produit National Brut en dollars par habitant;
X7: % du P.I.B. en agriculture;
X8: Formation brute du capital fixe en % du P.N.B.;
X9: Recettes courantes en % du P.N.B.

35
X10: Réserves officielles (en millions de dollars);
X11: Le taux d’escompte officiel;
X12: Importations marchandises totales (en millions de dollars);
X13: Exportations marchandises totales ( en millions de dollars);
X14: Calories par habitant et par jour;
X15: Nombre de logements achevés pour 1000 habitants;
X16: consommation d’électricité en kwh par habitant et par an;
X17: Dépenses publiques d’éducation en % du P.N.B.;
X18: Nombre de T.V. pour 1000 habitants.

36
pays X1 X2 X3*100 X4*100 X5*100 X6 X7*100 X8*100 X9*100
D 60848 245 105 960 4910 2520 360 2440 3790
A 7373 88 50 1910 3990 1690 700 2320 3750
B 9984 332 60 540 4480 2353 540 2310 3510
CDN 21089 2 185 820 3230 3460 590 2170 3520
DK 4893 114 75 1190 3850 2860 890 2200 3710
E 32949 65 95 3470 3710 870 1500 2200 2240
USA 203213 22 135 460 3370 4660 290 1670 3150
SF 4706 14 70 2450 3460 1940 1470 2300 3590
F 50325 91 105 1510 4060 2770 600 2540 3010
GR 8866 67 70 4820 2250 950 2030 2970 2690
SE 2921 42 25 2840 2970 1040 1970 1990 3070
I 54123 180 85 2150 4370 1520 1130 2050 3330
JAP 102380 277 105 1880 3500 1630 870 3520 2120
NL 12873 352 125 750 4130 2190 700 2550 4190
pays 9583 105 90 3150 3550 600 1770 1840 2400
RUN 55643 228 65 290 4680 1970 300 1730 3900
S 7969 18 70 880 4040 3230 590 2360 4810

37
X10 X11*100 X12 X13 X14 X15*100 X16 X17*100 X18
10940 650 24926 29052 2990 860 3322 340 231
1563 500 2825 2412 2990 660 2647 440 134
2406 700 9984 10069 3150 500 2814 530 184
3846 600 13137 13754 3160 820 8199 570 279
384 900 3800 2958 3180 900 2413 600 244
1512 650 4233 199 2750 640 1245 210 84
12305 575 36052 37988 3210 770 7013 510 392
379 600 2023 1985 2900 790 3836 630 193
4617 750 17392 15020 3160 820 2407 480 185
290 650 1594 554 2910 1010 823 240 9
694 731 1413 891 3450 400 1577 420 111
4642 550 12450 11729 2940 510 1810 580 146
3072 600 15024 15990 2460 1190 2734 450 190
2621 600 10991 9965 3240 970 2565 670 197
1442 350 1231 823 2930 430 607 140 29
2469 700 19956 17515 3190 770 3680 420 253
506 700 5899 5698 2750 1340 6803 740 288

38
Réaliser une ACP du nuage des individus en utilisant
deux axes.
Définir, à partir de l’A.C.P., une typologie pour laquelle
on étudiera l’homogénéité des groupes.

39
Paramétrage de l’ACP avec SPSS

40
41
Sélectionner les variables dans la
fenêtre de gauche et valider votre
choix par la flèche centrale

Sélectionner maintenant chaque fonction


pour définir les paramètres de l’ACP

42
Espérance et variance de chaque variable

Matrice des corrélations

Tests de validité de l’ACP

43
Méthode d’extraction
Graphique des valeurs propres

ACP normée ou non normée

Sélection des facteurs : valeur propre supérieure à 1 ou nombre de facteurs

44
Sélectionner

45
Enregistrement des coordonnées des individus sur les axes factoriels.
On utilisera ces coordonnées pour représenter graphiquement les individus

46