Analyse de Données

Cours dAnalyse de Donnes
But
Synthtiser, structurer l'information contenue dans des
donnes multidimensionnelles
(n individus, p variables).
Mthodes
Algbre linaire:
les donnes sont vues de manire abstraites comme un nuage
de points dans un espace vectoriel. On utilise
Des matrices qui permettent de manipuler un ensemble de
variables comme un objet mathmatique unique ;
Des valeurs et vecteurs propres qui permettent de dcrire la
structure d'une matrice.
Des mtriques : permettent de dfinir la distance entre deux points
de l'espace vectoriel ; on utilise aussi des produits scalaires.
Thorie des probabilits
ncessaire en statistique inferentielle (estimation, tests,
modlisation et prvision,...).
Individus et variables
Population
groupe ou ensemble d'individus que l'on analyse.

Recensement
tude de tous les individus d'une population donne.

Sondage
tude d'une partie seulement d'une population appele chantillon.

Variables
ensemble de caractristiques d'une population.
quantitatives: nombres sur lesquels les oprations usuelles (somme,
moyenne,...) ont un sens ; elles peuvent ^tre discrtes (ex : nombre
d'lments dans un ensemble) ou continues (ex: prix, taille) ;
qualitatives: appartenance a une catgorie donne ; elles peuvent tre
nominales (ex : sexe, CSP) ou ordinales quand les catgories sont
ordonnes (ex : trs rsistant, assez rsistant, peu rsistant).
Description de donnes quantitatives
Dfinition
On appelle variable un vecteur x de taille n.
Chaque coordonne x
i
correspond a un individu.
On s'intresse ici a des valeurs numriques.

Poids
Chaque individu a ventuellement un poids p
i
, tel que p
1
+ + p
n
=1.
On a souvent p = 1 / n.

Reprsentation
histogramme en dcoupant les valeurs de la variable en classes.

Rsumes
on dispose d'une srie d'indicateurs qui ne donne qu'une vue partielle des
donnes : effectif, moyenne, mdiane, variance, cart type, minimum,
maximum, tendue, 1er quartile, 3eme quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la
dispersion. On utilisera principalement la moyenne, la variance et l'cart
type.
Moyenne arithmtique
Dfinition
On note

ou pour des donnes pondres

Proprits
la moyenne arithmtique est une mesure de tendance centrale
qui dpend de toutes les observations et est sensible aux
valeurs extrmes. Elle est trs utilise a cause de ses bonnes
proprits mathmatiques.
=
=
=
=
n
i
i i
n
i
i
x p x
x
n
x
1
1
1
Variance et ecart-type
Dfinition
la variance de x est dfinie par

L'cart type s
x
est la racine carre de la variance.
Proprits
La variance satisfait la formule suivante

La variance est la moyenne des carres moins le carre de la
moyenne . L'ecart-type, qui a la mme unit que x, est une
mesure de dispersion.

=
= =
=
= =
n
i
i x
n
i
i i x
n
i
i x
x x p
n
s
x x p s ou x x
n
s
i
1
2 2 2
1
2 2
1
2 2
) (
1
) ( ) (
1
Mesure de liaison entre deux variables
Dfinitions la covariance observe entre deux variables x et y est

et le cfficient de r de Bravais-Pearson ou coefficient de
corrlation est donne par

2
1
2
1
1
1 1
) ( ) (
) ( ) (
) ( ) (
y y p x x p
y y x x p
s s
s
r
xy y x p y y x x p s
i
n
i
i
n
i
i i
i
n
i
i i
y x
xy
xy
i i
n
i
i i
n
i
i i xy

= =
= =

= =
=
= =
Proprits du coefficient de corrlation
Borne
On a toujours (ingalit de Cauchy Schwarz)

Variables lies

|r
xy
| = 1 si et seulement si x et y sont linairement lies
En particulier, r
xx
= 1.

Variables dcorrles
si r
xy
= 0, on dit que les variables sont decorrelees.
Cela ne veut pas dire qu'elles sont indpendantes !
n i c by ax r
r
i i xy
xy
s s = + =
s s
1 ) 1
1 1
Corrlation et liaison significative
Problme
A partir de quelle valeur de r
xy
peut-on considrer que les variables x et y
sont lies?

Domaine d'application
on se place dans le cas ou le nombre d'individus est n > 30.

Mthode
si x et y sont deux variables gaussiennes indpendantes, alors on peut
montrer que

suit une loi de Fischer-Snedecor F(1; n-2). Le rsultat est valable dans le
cas non gaussien pour n > 30.
2
2
1
) 2 (
xy
xy
r
r n
Le test
on se fixe un risque d'erreur (0,01 ou 0,05 en gnral) et on
calcule la probabilit

Si < on considre que l'vnement est trop improbable et
que donc que l'hypothse originale d'indpendance doit tre
rejete au seuil . On trouvera en gnral ces valeurs dans une
table pr-calcule de la loi F.
t =
> )
1
) 2 (
) 2 , 1 ( (
2
2
xy
xy
r
r n
n F P
Interlude : notation matricielle
Matrice
tableau de donnes carre ou rectangulaire.

Vecteur
matrice a une seule colonne.

Cas particuliers

Transposition de matrice
change des lignes et des colonnes d'une matrice ; on note M la
transpose de M.
(
(
(
=
(
(
(
=
1
1
1
1 ... 0
0 ... 1
I
Tableau de donnes
Pour n individus et p variables, on a le tableau
X est une matrice rectangulaire a n lignes et p colonnes
(
(
(
(
(
(
(
(
= =
p
n n
j
i
p
p
x x
x
x x
x x x
x x X
...
...
) ,..., (
1
2
2
1
2
1
2
1
1
1
1
Vecteurs variable et individu

Variable
Une colonne du tableau

Individu
Une ligne du tableau
) ( '
2 1
2
1
p
i i i i
j
n
j
j
j
x x x e
x
x
x
x
=
(
(
(
(
(
=
La matrice des poids
Pourquoi
utile quand les individus n'ont pas la mme importance

Comment
on associe aux individus un poids pi tel que

et on reprsente ces poids dans la matrice diagonale de taille n

Cas uniforme
tous les individus ont le mme poids p
i
= 1 / n et D = I / n
(
(
(
(
=
= + + +
n
n
p
p
p
D
p p p
... 0
0 ...
1 ...
2
1
2 1

Point moyen et tableau centre
Point moyen
c'est le vecteur g des moyennes arithmtiques de chaque variable :

ou

On peut aussi crire

Tableau centr
il est obtenu en centrant les variables autour de leur moyenne

ou, en notation matricielle,
X D I g X Y
x x y
D X g
x p x
x x g
j
j
i
j
i
n
i
j
i i
j
p
) ' 11 ( ' 1
1 '
) ... ( '
1
1
= =
=
=
=
=
=
Matrice de variance covariance
Dfinition
c'est une matrice carre de dimension p

ou s
kl
est la covariance des variables x
k
et x
l
et s
2
j
est la
variance de la variable x
j

Formule matricielle
DY Y gg DX X V
s s
s s
s s s
V
p
p p
p
' ' '
...
...
1
2
2
1
2
1
2
1
1
1
= =
(
(
(
(
(
=

Matrice de corrlation
Dfinition
Si l'on note

Formule matricielle
(
(
(
(
(
(
(
(
= =
(
(
(
(
(
= =
p
s s s
p
p
l k
kl
kl
s
s
s
D VD D R
s
r
r r
R
s s
s
r
1
0
1
0
1
1
1
1
2
1
1 1 1
1
1
2
1
2
1
L'analyse de composantes principales

Contexte
chaque individu est considr comme un point d'un espace
vectoriel F de dimension p . L'ensemble des individus est un
nuage de points dans F et g est son centre de gravite.

Principe
on cherche a rduire le nombre p de variables tout en
prservant au maximum la structure du problme. Pour cela on
projette le nuage de points sur un sous-espace de dimension
infrieure
Exemple en dimension 2
On veut passer de 2 variables a 1 seule.
Exemple en dimension 2
On cherche la direction qui diffrencie le plus les points entre eux.
Distance entre individus
Motivation
afin de pouvoir considrer la structure du nuage des individus, il
faut dfinir une distance, qui induira une gomtrie.

Distance euclidienne classique
la distance la plus simple entre deux points de Rp est dfinie par

Gnralisation simple
on multiplie la variable j par
=
=
=
= =
p
j
j j j
j
p
j
j j
v u a v u d
a
v u v u v u d
0
2 2
0
2 2
) ( ) , (
) ( ) , (
Mtrique
Matrice dfinie positive
c'est une matrice symtrique telle que, pour tout u non nul, uMu > 0.

Dfinition
soit M = (m
jk
) dfinie positive de dimension p. On pose

Espace mtrique
il est dfini par le produit scalaire

On dit que u et v sont orthogonaux si
0 ,
' ,
) , ( '
0 1
2
2
0 1
2
=
= =
= = =
= =
= =
M
p
j
k j jk
p
k
M
M
M
p
j
k j jk
p
k
M
v u
u u m Mu u v u
v u v u d et u u m Mu u u
Comparaison avec le cas usuel
Norme

Produit scalaire
= =
=
= =
=
= =
= = =
= =
= = =
p
j
k j jk
p
k
M
p
j
k j
p
j
k j jk
p
k
M
p
j
j
u u m Mu u v u
Iu u v u u u v u
u u m Mu u u
Iu u u u u u
0 1
0
0 1
2
0
2
2
' ,
' ' ,
'
' '
Inertie
Dfinition
l'inertie en un point a du nuage de points est

Autres relations
l'inertie totale Ig est la moitie de la moyenne des carres des
distances entre les individus

L'inertie totale est aussi donne par la trace de la matrice MV
(la trace d'une matrice tant la somme de ses lments
diagonaux).
) (
2
) ( )' (
1
2
1
1 1
2
MV Tr I
e e p p I
a e M a e p a e p I
g
n
i
M
j i j i
n
j
g
n
i
i i i
n
i
M
i i a
=
=
= =

= =
= =
Mtriques particulires
Mtrique usuelle
M = I correspond au produit scalaire usuel et

Problmes
la distance entre individus dpend de l'unit de mesure.
la distance privilgie les variables les plus disperses.
Mtrique rduite
c'est la plus courante ;
on prend la matrice
diagonale des inverses
des variances
p R Tr VD D Tr V D Tr I
s
s
D M
s V Tr I
s
s s
g
p
s
p
j
i g
= = = =
(
(
(
(
(
= =
= =

=
) ( ) ( ) (
1
0
0
1
) (
1 1 1
2
2
1
1
1
2
2
2

Mtriques et tableaux transformes
Utiliser la mtrique M = TT sur le tableau X est quivalent a travailler avec
la mtrique classique I sur le tableau transforme XT.

Tableau transform
Si on travaille sur le tableau transforme XT (changement de variables) au
lieu de X, alors les nouveaux individus seront de la forme Te
i
et

Rciproque
pour toute matrice symtrique positive M, il existe une matrice T (racine
carre de M) telle que

et donc on peut ramener l'utilisation de la mtrique a un changement de
variables.
T T M
e e Me e Te T e Te Te Te Te
M
i i i i i i i i i i
'
, ' ' ' ) ( )' ( ,
2 1 2 1 2 1 2 1 2 1
=
= = = =
Mtriques et tableaux transformes (suite)
Utiliser une mtrique est donc quivalent tordre les donnes
pour les rendre comparables

Exemple utiliser la mtrique rduite est quivalent a travailler
sur les donnes centres rduites Z = YD
1/s
.
L'analyse de composantes principales (2)
Principe
on cherche a projeter le nuage de points sur un espace F
k
de
dimension k < p.

Critre
on veut que la moyenne des carres des distances entre les
points projets soit maximale (elle est toujours plus petite que
pour le nuage original).

Pour cela on cherche F
k
, sous espace de dimension k de R
k
, tel
que l'inertie du nuage projet sur F
k
soit maximale.
Interlude : valeurs et vecteurs propres
Dfinition
un vecteur v de taille p est un vecteur propre d'une matrice A de taille
p x p s'il existe C telle que

est une valeur propre de A associe v.

Domaine
En gnral, les vecteurs propres et valeurs propres sont complexes; dans
tous les cas qui nous intressent, ils seront rels.

Interprtation des vecteurs propres
ce sont les directions dans lesquelles la matrice agit.

Interprtation des valeurs propres
c'est le facteur multiplicatif associe a une direction donne.
v Av =
Exemple: valeurs et vecteurs propres
La matrice

a pour vecteurs propres

On vrifie facilement que les valeurs propres associes sont
6 4 2
0
1
1
1
0
1
1
1
0
3 1 1
2 4 2
1 1 5
3 2 1
3 2 1
= = =
|
|
|
.
|
\
|
=
|
|
|
.
|
\
|
=
|
|
|
.
|
\
|
=
|
|
|
.
|
\
|

v v v
Cas particuliers: Valeurs et vecteurs propres
Matrice nulle
sa seule valeur propre est 0, et tout vecteur est vecteur propre.

Matrice identit
tout vecteur est vecteur propre de I avec valeur propre 1, puisque Iv = v.

Matrice diagonale
si D
est une matrice diagonale avec les coefficients

1,
2,
p
, alors le i-eme
vecteur coordonne est vecteur propre de D
associe a la valeur propre

i
.
L'action d'une matrice diagonale est de multiplier chacune des coordonnes
d'un vecteur par la valeur propre correspondante.

Matrice diagonalisable
c'est une matrice dont les vecteurs propres forment une base de l'espace
vectoriel : tout vecteur peut tre reprsent de manire unique comme
combinaison linaire des vecteurs propres. Une matrice de taille p x p qui a
p valeurs propres relles distinctes est diagonalisable dans R.
Quelques matrices diagonalisables
Matrice symtrique
une matrice symtrique relle (A = A) possde une base de vecteurs
propres orthogonaux et ses valeurs propres sont relles

Matrice M-symetrique
une matrice M-symetrique relle (AM = MA) possde une base de vecteurs
propres M-orthogonaux et ses valeurs propres sont positives ou nulles

Matrice dfinie positive
c'est une matrice symtrique dont les valeurs propres sont strictement
positives et donc
0 0 ,
0 ,
0 ,
> = =
9 e = =
9 e = =
i j i
i
M
j i
i j i
et j i si v v
et j i si v v
et j i si v v
Analyse de VM
Valeurs propres
la matrice VM est M-symetrique: elle est donc diagonalisable et ses valeurs propres
1
,
2
,
p
sont
relles.

Vecteurs propres
il existe donc p vecteurs a
1, ,
a
p
tels que

Les a
i
sont les axes principaux d'inertie de VM. Ils sont M-orthonormaux.

Signe des valeurs propres
les valeurs propres de VM sont positives et on peut les classer par ordre dcroissant

Ide du lien avec l'inertie
on sait que .

Si on ne garde que les donnes relatives a a
1, ,
a
p
on gardera l'inertie
1
+
2
++
p
, et c'est le
mieux qu'on puisse faire.
p
p
M
j i i i
VM Tr
j i
a a avec a VMa

+ + + =
> > > >
=
= =
... ) (
0 ...
sinon 0
si 1
,
2 1
2 1
Rsultat principal
Thorme principal (Admis)

1. Si F
k
est le sous-espace de dimension k portant l'inertie principale, alors

ou f
k+
1 est le sous espace de dimension 1 M-orthogonal a F
k
portant l'inertie
maximale : les solutions sont embotes;

2. F
k
est engendre par les k vecteurs propres de VM associes aux k plus
grandes valeurs propres.

Interprtation du thorme
l'ACP sur k + 1 variables est obtenue par ajout d'une variable d'inertie
maximale a l'ACP sur k variables. Il n'est pas ncessaire de refaire tout le
calcul.
1 1 + +
=
k k k
f F F
Les composantes principales
Coordonnes des individus
supposons que

alors

La coordonne de l'individu centre e
i
- g sur l'axe principal a
j
est donc donn
par la projection M-orthogonale

Composantes principales
ce sont les variables c
j
de taille n dfinies par

Chaque c
j
contient les coordonnes des projections M-orthogonales des
individus centres sur l'axe dfini par les a
j
.
j j
j i
M
j i ij
ij
M
p
k
j k ij
M
j i
p
k
k ij i
YMa c
Ma g e a g e c
c a a c a g e
a c g e
=
= =
= =
=
=
=
)' ( ,
, ,
1
1
Reprsentation des individus dans un
plan principal
Qu'est-ce que c'est?
Cest une reprsentation ou, pour deux composantes principales c
1
et c
2
,
on reprsente chaque individu i par un point d'abscisse c
i1
et d'ordonne
c
i2
.

Quand?
Elle est utile quand les individus sont discernables.
Proprits des composantes principales
Moyenne arithmtique
les composantes principales sont centres :

Variance
la variance de c
j
est j car

Covariance
de mme, pour

Les composantes principales ne sont pas corrles entre elles.
0 ' ... ' ) , cov(
' '
' ' ' ) (
0 1 ' 0 1 ' ' 1 '
= = = =
=
= = =
= =
= = = =
j j j j i j i
j j j j j j
j j j j j
j j
j
Ma a Dc c c c
j i
Ma a MVMa a
DYMa MY a Dc c c V
D Y car D MY a D c c

Facteurs principaux
Dfinition
on associe a un axe principal a
j
le facteur principal

de taille p.
C'est un vecteur propre de MV car

Calcul en pratique,
on calcule les u
j
par diagonalisation de MV, puis on obtient les

Les a
j
ne sont pas intressants. La valeur d'une variable c
j
pour
l'individu e
i
est donc
) ,..., , ( ' )' (
2 1
1
ip i i j
p
k
jk
k
i j j ij
j j
j j j j j j
j j
u u u u o u y u g e c
Yu c
u Ma MVMa MVu
Ma u
= = =
=
= = =
=
=

Formules de reconstruction
Il est possible de reconstruire le tableau centre Y a partir des
composantes principales et des facteurs principaux

Preuve
il suffit de calculer

et, comme M est inversible et que ai est une base, on obtient Y.

Approximation
si on prend les k premiers termes seulement, on obtient la meilleure
approximation de Y par une matrice de rang k au sens des moindres
carres (thorme de Eckart-Young).
i i
p
j
j j j j
p
j
j j
p
j
j j
p
j
j j
YMa c Ma a c Ma a c
M u c a c Y
= = =
|
|
.
|
\
|
= =

= =
=
=
1 1
1
1
1
' '
' '
Le cas de la mtrique
Pourquoi cette mtrique ?
pour que les distances soient indpendantes des units de mesure et qu'elles ne privilgient pas
les variables disperses.

quivalence avec les donnes rduites
on a

et donc

Travailler avec la mtrique est quivalent a diviser chaque variable par son ecart-type et
a utiliser la mtrique I.

Donnes centres rduites
c'est le tableau Z contenant les donnes

qui se calcule matriciellement comme
2
1
s
D
s
j
j
j
i
j
i
j
s
i
s
D
j i
s s s
YD Z
s
x x
z
e D e D e e
D D D
s
1
1 1
1 1 1
, ,
2
1
2
=
=
=
=
2
1
s
D
L'ACP sur les donnes centres rduites
Matrice de variance covariance
c'est la matrice de corrlation car

Mtrique
on prend la mtrique M = I.

Facteurs principaux
ce sont les p vecteurs propres orthonorms de R,

dont les valeurs propres sont classes par valeur propre croissante

Composantes principales
elles sont donnes par
j j
p
j i i i i
s s s s
Zu c
j i
u u avec u Ru
R VD D DYD Y D DZ Z
=
> > > > >
=
= =
= = =
0 ...
sinon 0
si 1
,
' '
3 2 1
1 1 1 1

Nombre d'axes a retenir

Dimension de l'espace des individus L'ACP visant a rduire la
dimension de l'espace des individus, on veut conserver aussi peu
d'axes que possible. Il faut pour cela que les variables d'origine soient
raisonnablement corrles entre elles. Les seuls critres utilisables
sont empiriques.

Interprtation des axes
on s'efforce de ne retenir que des axes a propos desquels une forme
d'interprtation est possible (soit directement, soit en terme des
variables avec lesquels ils sont trs correles). On donnera des outils a
cet et plus loin dans le cours.

Critre de Kaiser (variables centres rduites)
on ne retient que les axes associes a des valeurs propres suprieures
a 1, c'est--dire dont la variance est suprieure a celle des variables
d'origine.
Une autre interprtation est que la moyenne des valeurs propres tant
1, on ne garde que celles qui sont suprieures a cette moyenne.
Nombre d'axes a retenir (2)
boulis des valeurs propres
on cherche un coude dans le graphe des valeurs propres
L'espace des variables
Mtrique D
il faut munir l'espace des variables d'une mtrique raisonnable. On choisit
toujours la mtrique D des poids :

Interprtation
pour deux variables centres x et y, on a:

Exemple
les vecteurs forment une base D-orthonormale
=
= =
= = =
= =
sinon 0
si 1
) , ( ,
,
) , ( ) ( , ) , cov(
' ' ,
2
2
l k
c c cor
c c
c
y x
y x
y x cor x x V y x y x
Dx x x Dy x y x
l k
D
l
l
k
k
k
k
D D
D
D D
D D

Corrlation entre composantes et

variables initiales
Quand on travaille sur les variables centres-rduites, la corrlation
entre une composante principale c
k
et une variable z
j
est

et donc le vecteur des corrlations de c
k
avec Z est

Comme
on a finalement
k k k
k k k k k
k
k
k
p
k k k
k
k
j
k
k
j
k
j
u c Z r
u Ru DZu Z Dc Z
Dc Z
c z r c z r c z r c Z r
Dc z
c V
c z
c z r
=
= = =
= =
= =
) , (
' '
'
))' , ( ),..., , ( ), , ( ( ) , (
)' (
) (
) , cov(
) , (
2 1
Le cercle des corrlations
Qu'est-ce que c'est?
c'est une reprsentation ou, pour deux composantes principales, par
exemple c
1
et c
2
, on reprsente chaque variable z
j
par un point d'abscisse
r(z
j
; c
1
) et d'ordonne r(z
j
;c
2
).

Effet taille
cela arrive quand toutes les variables sont corrles positivement avec la
premire composante principale. Cette composante est alors appele
facteur de taille, la seconde facteur de forme.
Le cercle des corrlations (2)
Pourquoi un cercle?
comme les ck=pk forment une base D-orthonormale,

Les points sont bien a l'intrieur d'un cercle de rayon 1.

Interprtation
les points sont la projection orthogonale dans D des variables dans le
plan dfini par les composantes principales c
1
et c
2
.
Il ne faut interprter la proximit des points que s'ils sont proches de la
circonfrence.

=
= =
= =
= =
p
k
j
k
D
j
k
k
j
k
p
i
k
k
D
p
k
j
k
k
j
z c r z
c
z c r
c
z
c
z
1
2
2
1 1
) , ( 1
) , ( ,

Contribution d'un individu a une
composante
Dfinition
On sait que

La contribution de l'individu i a la composante k est donc

Interprtation
la contribution d'un individu est importante si elle excde le poids pi de l'individu
concerne, c'est--dire

Individus sur-represents
ce sont les individus qui jouent un rle trop fort dans la dfinition d'un axe (par
exemple > 0;25). Il tire a lui l'axe k et risque de perturber les reprsentations
des autres points sur les axes de rang k. Un tel individu peut ^tre le signe de
donnes errones.
k ik i
k
ik i
k
ik i
n
i
ik i k k
c p
c p
c p
c p c V
> >
= =

=
2
2
1
2
) (
Qualit globale de la reprsentation
Calcul de l'inertie
on se souvient que

comme la trace d'une matrice est la somme de ses valeurs propres, on a

Dfinition
la qualit de la reprsentation obtenue par k valeurs propres est la
proportion de l'inertie explique

Utilisation
si par exemple est gal 90% de Ig, on en dduit que le nuage de
points est aplati autour du premier plan principal.
2 1
2 1
2 1
2 1
...
...
...
) (

+
+ + +
+ + +
+ + + =
=
p
k
p g
g
I
VM Tr I
Qualit locale de la reprsentation
But
on cherche a dterminer si le nuage de points est trs aplati par
la projection sur les sous-espaces principaux. Dans ce cas,
deux individus loignes pourraient artificiellement sembler
proches les uns des autres.
Angle entre un individu et un axe
principal
Il est dfini par son cosinus carre. Le cosinus de l'angle entre l'individu
centre i et l'axe principal j est

car les a
j
forment une base orthonormale.
Comme

Cette grandeur mesure la qualit de la reprsentation de l'individu i sur
l'axe principal a
j
.
=
=
=
=
p
k
ik
ij
j i
ij
M
j i
M
i
M
j i
j i
c
c
a e
c a g e
g e
a g e
a e
1
2
2
2
) , ( cos
,
,
) , ( cos
Angle entre un individu et un sous-
espace principal
C'est l'angle entre l'individu et sa projection orthogonale sur le sous-espace.
La projection de sur le sous-espace est

et donc

La qualit de la reprsentation de l'individu i sur le plan F
q
est donc la
somme des qualits de reprsentation sur les axes formant F
q
. Il est
significatif quand le point e
i
n'est pas trop prs de g.
=
=
=
=
s
p
k
ik
q
k
ik
q i
q
k
k ik
q i
c
c
F e
a c
p q F g e
1
2
1
2
2
1
) , ( cos
,
lments supplmentaires
Motivation les composantes principales
tant dfinies pour maximiser les contributions, le fait que les corrlations
obtenues soient proches de 1 peut ne pas tre significatif. Par contre, une
corrlation forte entre une composante principale et un individu ou une variable
n'ayant pas participe a l'analyse est trs significative.

Cas des individus sur-reprsents
on peut dcider d'utiliser ces points en individus supplmentaires, en particulier
quand les points constituent un chantillon et ne prsentent pas d'inter^et en
eux-mmes.

Mthode
on met de cote certaines variables pour qu'elles ne soient pas utilises dans
l'analyse (on diminue donc la dimension de R), ou alors certains individus (ils
ne sont pas pris en compte dans le calcul des covariances). On cherche
ensuite a savoir s'ils sont lies a un axe donne.
Variables supplmentaires
quantitatives

Corrlation
on calcule la corrlation de la variable avec les composantes
principales et on la place dans le cercle des corrlations.
Si est le vecteur centre-reduit correspondant a cette variable,
on calcule

On peut utiliser un test statistique pour dterminer si une
corrlation est significative.
ik i
n
i
i
k k
D
k
k
k
k
c z p
c z
c V
c z cor
c z cor
z
1
,
) (
) , (
) , (
=
= = =

Variables qualitatives supplmentaires
Reprsentation
on peut reprsenter par des symboles diffrents les individus de chaque catgorie sur les axes
principaux.

Valeur-test

Cette valeur est significative si elle est suprieure a 2 ou 3 . On ne doit pas l'utiliser sur les
variables actives.

Ide du calcul
Si les individus taient pris au hasard, leur coordonne serait une variable alatoire centre (les z
sont de moyenne nulle) et de variance

car le tirage est sans remise.
1
. principale composante ieme - k la sur barycentre leur de coordonnee la

femme...) (homme, tique caracteris certaine une ayant individus
n
n n
n
n n
n n
c
c
n
k
k
k
k
Individus supplmentaires
Reprsentation
on les ajoute a la reprsentation sur les plans principaux. Pour
calculer leur coordonne sur un axe fix, on crit

ou les sont les coordonnes centres-rduites d'un individu
supplmentaire.

Ces individus serviront d'chantillon test pour vrifier les
hypothses tires de l'ACP sur les individus actifs.
j
kj
p
j
j
k k
z
u z u z c
,
1
=
= =
L'ACP en trois transparents (1)
Donnes
les donnes reprsentent les valeurs de p variables mesures sur n individus ; les
individus peuvent avoir un poids. En gnral on travaille sur des donnes centres
rduites Z (on retranche la moyenne et on divise par l'cart type).

Matrice de corrlation
c'est la matrice R de variance covariance des variables centres rduites. Elle
possde p valeurs propres:

Facteurs principaux u
k

ce sont les vecteurs propres orthonorms de R (de dimension p) associes aux valeurs
propres k. Leur j-ieme composante u
kj
est le poids de la variable j dans la composante
k.

Composantes principales c
k

ce sont les vecteurs Zu
k
de dimension n. Leur i-ieme coordonne c
ki
est la valeur de la
composante k pour l'individu i. Les ck sont decorrelees et leur variance est :
j c V
k
p
=
> > > > >
) (
0 ...
3 2 1

Nombre d'axes
on se contente souvent de garder les axes interprtables de valeur propre
suprieure a 1. La qualit de la reprsentation retenue est mesure par la
part d'inertie explique par ces composantes.

Cercle des corrlations
il permet de visualiser comment les variables sont corrles (positivement
ou ngativement) avec les composantes principales. A partir de la, on peut
soit trouver une signification physique a chaque composante, soit montrer
que les composantes sparent les variables en paquets. Seules les
variables bien reprsentes (situes prs du bord du cercle) doivent tre
interprtes.

Variables supplmentaires
certaines variables peuvent tre mises de cote lors de l'ACP et reportes
sparment sur le cercle des corrlation (ou la reprsentation des
individus pour les variables qualitatives).
Reprsentation des individus pour un plan principal donn,
la reprsentation des projections des individus permet de conformer
l'interprtation des variables. On peut aussi visualiser les individus aberrants
(erreur de donne ou individu atypique).

Contribution d'un individu a une composante
c'est la part de la variance d'une composante principale qui provient d'un
individu donne. Si cette contribution est trs suprieure aux autres, on peut
avoir intrt a mettre l'individu en donne supplmentaire.

Qualit globale de la reprsentation
c'est la part de l'inertie totale Ig qui est explique par les axes principaux qui
ont t retenus. Elle permet de mesurer la prcision et la pertinence de
l'ACP.

Qualit de la reprsentation d'un individu
elle permet de vrifier que tous les individus sont bien reprsentes par le
sous-espace principal choisi; elle s'exprime comme le carre du cosinus de
l'angle entre l'individu et sa projection orthogonale.

Analyse de Données

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analyse de Données

Diunggah oleh

Hak Cipta:

Format Tersedia

Cours dAnalyse de Donnes

Vecteurs variable et individu

L'analyse de composantes principales

est une matrice diagonale avec les coefficients

associe a la valeur propre

Nombre d'axes a retenir

Corrlation entre composantes et

. principale composante ieme - k la sur barycentre leur de coordonnee la

Anda mungkin juga menyukai