Anda di halaman 1dari 27

Introduction a l`analyse des

donnes
Oliier Godechot
Introduction.
Les donnes statistiques : de tres nombreuses
ariables.
Aucune n`est paraite
La perception d`un phnomene apprhende
comme la combinaison d`un grand nombre de
ariables
Comment aire pour tenir compte de l`ensemble
de l`inormation
Introduction. Suite
laire des tableaux croiss ,ariable xy, ou calculer des
coeicients de corrlation.
Probleme : si 10 ariables -45 tableaux croiss. Si 100
ariables, 4950 tableaux croiss
Autre mthode : les indices
Lxemple : indice d`inlation. Indice de deloppement
humain, BIP40
I~a1.X1-a2.X2-a3.X3
Probleme : arbitraire de la ormule et des pondrations
Introduction. lin
1rouer des mthodes pour synthtiser les
ariables sans trop les dormer.
1rouer des axes ,qui sont alors des indices, qui
respectent la orme du nuage multidimensionnel,
c`est-a-dire la orme de la relation entre les
ariables.
Les direntes mthodes
Les mthodes actorielles de reprsentation
- Analyse en composantes principales ,ACP,. Variables
quantitaties.
- Analyse actorielle de correspondances ,AlC,. Analyse d`un
tableau crois de deux ariables qualitaties.
- Analyse des correspondances multiples ,ACM,. Plusieurs
ariables qualitaties.
Les mthodes de classiication ,des indiidus,
- Classiication ascendante hirarchique ,CAl,
- Classiication autour des centres mobiles
La discrimination
L`analyse en composantes principales
listoriquement, la plus ancienne ,1901,
Pearson,.
Utilisation importante par les psychologues du
QI.
Relatiement peu utilise en sociologie
Plus acile a expliquer
AlC et ACM sont des ACP particulieres
Un exemple de mise en oeure
Carole-Anne Riiere, 2001, Le tlphone un acteur d`intgration sociale , Lconomie et
Statistiques, n345.
ACP. L`ide
Reprsenter des donnes multidimensionnelles sur un
nombre limit de dimensions en dormant au
minimum les donnes
La mthode : un changement de reperes.
Les axes du noueau repere sont calculs a partir des
axes originaux de l`ancien repere.
Ces noueaux axes sont hirarchiss en onction du
degr de idlit aux distances entre les points dans le
nuage.
CQ : les premiers axes donnent une assez bonne
reprsentation des donnes.
Lx: emploi 2000. salaire,log,, Age et age de in d`tude
Lxemple tres simple en deux dimensions
69
68
67
65
64
63
62
56
55
54
53
52
48
47 46
45
44
43
42
38
37
35
34
33
31
-0,9
-0,4
0,1
0,6
1,1
1,6
-1,5 -1 -0,5 0 0,5 1
Logarithme du salaire

g
e

d
e

I
i
n

d
'
e
t
u
d
e
s
Le plan actoriel issu de l`ACP
69
68
67
65
64
63
62
56
55
54
53
52
48
47
46
45
44
43
42
38
37
35
34
33
31
-1
-0,5
0
0,5
1
1,5
2
-2,4 -1,9 -1,4 -0,9 -0,4 0,1 0,6 1,1 1,6 2,1 Axe 1
C`est le mme graphe, mais l`axe horizontal du graphe de droite rsume mieux l`ino ici.
69
68
67
65
64
63
62
56
55
54
53
52
48
47 46
45
44
43
42
38
37
35
34
33
31
-0,9
-0,4
0,1
0,6
1,1
1,6
-1,5 -1 -0,5 0 0,5 1
Logarithme du salaire

g
e

d
e

I
i
n

d
'
e
t
u
d
e
s
Lntrons un peu dans la mthode
Inertie : moyenne des carrs des carts entre les points
du nuage et le centre du nuage ,point moyen,.
Comment dinir une distance Distance euclidienne
transorme.
d,a,b,~,x
b
-x
a
,-,y
b
-y
a
,-.,z
b
-z
a
,
Arbitraire. D`ou le choix pralable de prendre comme
mtrique la ariance. On centre et on rduit toutes les
ariables. la moyenne
Pour toutes les ariables x, on calcule ,x-m,,s ,la ariable moins
la moyenne diise par l`cart-type,.
Ou a deient sioux
Un probleme d`optimisation sophistique : On cherche a
projeter orthogonalement le nuage dans un sous espace de
dimension k tel que la distance entre les projections des points
du nuage sera maximale.
Une solution complexe mathmatiquement :
- Cet espace est engendr par les ecteurs propres associs aux k plus
grandes aleurs propres de la matrice des coeicients de corrlation des
ariables.
- Le premier axe est engendr par le ecteur propre associ a la plus grande
aleur propre.
- Le deuxieme axe, etc.
- Ces axes sont orthogonaux entre eux.
Soyons ous et regardons dans le dtail
Donnes originales
cs2 lsalred aden agen
3 9.63 22.51 42.9
X~ 4 9.1 20.01 40.0
5 8.66 18.02 39.41
6 8.9 16.6 38.33
Donnes centres rduites
cs2 lsalred aden agen
3 1.31 1.26 1.39
\~ 4 0.24 0.28 -0.04
5 -0.92 -0.51 -0.39
6 -0.62 -1.04 -0.96
Matrice de corrlation
lsalred aden agen
lsalred 1.0000 0.9420 0.9199
\`\~ aden 0.9420 1.0000 0.96
agen 0.9199 0.96 1.0000
Valeurs propres de la matrice de corrlation
Valeur
propre Dirence Proportion Cumule
1 2.89259588 2.80585359 0.9642 0.9642
2 0.0864229 0.06608046 0.0289 0.9931
3 0.02066183 0.0069 1.0000
Vecteurs propres
Prin1 Prin2 Prin3
lsalred 0.5102 0.804163 0.164918
aden 0.58266 -.255561 -.1484
agen 0.58253 -.536666 0.614503
Lspace des ariables
Lspace des indiidus
agen
adIen
lsalred
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
Axe 1
A
x
e

2
6
5
4 3
-0,5
0
0,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Axe 1
A
x
e

2
Prin2
Quelques regles
On n`a pas le droit dans une ACP de superposer
les indiidus et les ariables. Deux sous-espaces
de dimensions et de signiications direntes.
Variables supplmentaires, classes de ariables
qualitaties, indiidus supplmentaires.
Caractere tautologique de la relation entre ariables acties et
axes.
Variables supplmentaires quantitaties : on peut projeter des
ariables qui n`ont pas particip a la construction des axes dans
l`espace des ariables. La coordonne de l`axe est gale au
coeicient de corrlation entre l`axe et la ariable.
Variables supplmentaires qualitaties : on reprsente le point
moyen par modalit dans l`espace des indiidus.
Indiidus supplmentaires. On utilise pour les positionner la
combinaison linaire des ariables acties dinies par l`axe.
Lanalyse factorielle de
correspondance
Technique de reprsentation de tableaux
croiss : 2 variables qualitatives croises entre
elles.
Connat bonus: Bien Vague Non Total
Cadre Front 9 6 4 19
Cadre Support 6 6 5 17
Technicien 11 14 19 44
Total 26 26 28 80
Une ACP particulire.
On se dote dune distance la distance dite du chi-
deux :
2
'.
'
1
. .
' ,
) (

=
AFC (suite)
Ici on ne centre pas les donnes, on ne les
rduit pas.
Mais on va chercher les valeurs propres dune
matrice particulire : M=D
2
-1
ND
1
-1
N
O N matrice des effectifs du tableau crois, N sa
transpos, D
1
et D
2
les matrices diagonales contenant sur
la diagonale respectivement les totaux en ligne et en
colonne.
Le terme gnral de matrice diagonaliser est le suivant :

=
=

1
. .
AFC (suite)
LACP des profils lignes ou des profils
colonnes produit des rsultats similaires.
On peut alors superposer lespace des
variables et des individus.
LACM
LACM est une AFC particulire
Pour lAFC, on part dun tableau crois dj
constitu pour lACM on part du tableau
disjonctif complet.
R= Z=
B=ZZ=
2 2 4
2 1 3
3 1 2
1 2 4
1 2 1
0 1 0 0 1 0 0 0 1
0 1 0 1 0 0 0 1 0
0 0 1 1 0 0 1 0 0
1 0 0 0 1 0 0 0 1
1 0 0 0 1 1 0 0 0
2 0 0 0 2 0 0 1 1
0 1 0 0 0 1 0 1 0
0 0 1 0 0 1 1 0 0
0 0 0 1 1 0 0 0 1
2 0 0 1 3 0 0 1 2
0 1 1 0 0 2 1 1 0
0 0 1 0 0 1 1 0 0
1 1 0 0 1 1 0 2 0
1 0 0 1 2 0 0 0 2
Linterprtation
Le choix du nombre daxe
En ACP (>1)
En AFC et ACM (critre du coude)
La signification des valeurs propres
% dinertie
Mais pb passage AFC et ACM
La contribution
La qualit
Le cos2
La valeur test

Anda mungkin juga menyukai