Tutoriels
L'ACP est la plus simple et la plus connue des techniques d'Analyse de Données multivariées.
Nombre
Bien que l'objectif soit en général de n'utiliser qu'un petit nombre de Composantes Principales,
l'ACP en construit initialement p, autant que de variables originales. Ce n'est que par la suite que
l'analyste décidera du nombre de Composantes à retenir. "Retenir k Composantes Principales" veut
dire "Remplacer les observations originales par leur projections orthogonales dans le sous-espace à k
dimensions défini par les k premières Composantes Principales.".
Orthogonalité
Les Composantes Principales définissent des directions de l'espace des observations qui sont deux à
deux orthogonales. Autrement dit, l'ACP procède à un changement de repère orthogonal, les
directions originales étant remplacées par les Composantes Principales.
Décorrélation
Les Composantes Principales sont des variables qui s'avèrent être deux à deux décorrélées.
Si l'analyste décide de décrire ses données avec seulement k (k < p) combinaisons linéaires de
ses variables originales tout en perdant le moins possible d'information, alors ces k combinaisons
linéaires sont justement les k premières Composantes Principales.
Ainsi, le meilleur sous-espace à k dimensions dans lequel projeter les observations est justement celui
engendré par les k premières Composantes Principales. Autrement dit, les sous-espaces de projection
optimale sont emboîtés, ce qui est une propriété forte, utile, et pas du tout évidente a priori.
aiaccess.net/…/f_gm_analyse_composa… 1/6
06/07/2010 Analyse en Composantes Principales
L'interprétation des Composantes Principales. Alors que les variables originales ont une
interprétation "native", les Composantes Principales n'ont a priori qu'une définition
mathématique. Une des marques du succès d'une ACP est de pouvoir donner des CP
des interprétations en termes de propriétés réelles mais non mesurées des observations. Lorsque
cela est possible, on dit alors que l'ACP a révélé l'existence de variables "latentes".
L'Analyse Factorielle Discriminante, qui peut être utilement considérée comme une ACP
généralisée portant sur des barycentres de classes.
La Régression Ridge, qui reçoit une interprétation très éclairante dans le cadre de l'ACP.
L'Analyse en Composantes Indépendantes (ACI), qui recherche des nouvelles variables qui ne
soient pas seulement décorrélées, mais qui soient authentiquement indépendantes.
L'Analyse en Composantes Curvilignes (ACC), qui cherche une représentation des données
dans un espace de faible dimension qui respecte au mieux les distances entre observations.
L'ACP sur variables latentes, qui cherche à décrire les observations par combinaisons d'un petit
nombre de variables latentes non observées.
L'ACP à noyaux, qui effectue une projection non linéaire des données dans un espace de grande
dimension, puis procède à une ACP ordinaire dans cet espace.
Par ailleurs, notons que les Cartes de Kohonen peuvent être interprétées comme une technique de
réduction de dimensionalité.
________________________________________________
Tutoriel 1
Ce premier Tutoriel est un panorama de l'ACP sans aucun recours aux mathématiques. Si celles-ci sont
indispensables pour rendre opérationelles les idées directrices de l'ACP, il est par contre tout à fait
possible de décrire cette technique majeure et d'en justifier l'intérêt sans mathématiques.
Nous passerons donc en revue les trois grandes phases de l'ACP :
* La recherche des axes factoriels dans l'espace des individus, et la justification de leur intérêt.
* La recherche des composantes principales dans l'espace des variables, et la justification de leur
intérêt.
* L'interprétation des résultats. Cette phase est la moins formalisable, et celle qui fait le plus appel au
aiaccess.net/…/f_gm_analyse_composa… 2/6
06/07/2010 Analyse en Composantes Principales
savoir-faire et à l'expérience de l'analyste.
____________________________________________________________
Tutoriel 2
Dans ce Tutoriel, nous détaillons le mécanisme par lequel sont identifiés les "meilleurs" sous-espaces de
projection du nuage des individus. Nous montrerons en particulier que ces sous-espaces sont
emboîtés : le meilleur sous-espace de dimension k est inclus dans le meilleur sous-espace de dimension
k' (k < k'). Nous calculerons également les inerties des projections du nuage sur ces divers sous-
espaces.
Inertie
Inertie d'un point
Par rapport à l'origine
Inertie de la projection sur une droite
Décomposition de l'inertie
Inertie d'un nuage de points
aiaccess.net/…/f_gm_analyse_composa… 3/6
06/07/2010 Analyse en Composantes Principales
Coordonnées des points projetés
Inertie du premier axe factoriel
______________________________________________________________________
Tutoriel 3
L'analyste est au moins autant intéressé par les variables que par les individus. En particulier, il cherche
à mettre en évidence des groupes de variables deux-à-deux fortement corrélées.
De telles découvertes peuvent être faites par un examen minutieux mais laborieux de la matrice de
corrélation des données.
Cependant, l'ACP offre la possibilité de faire ces mêmes découvertes par un examen visuel de
diagrammes représentant graphiquement ces corrélations. Ces diagrammes seront des projections des
vecteurs-variables sur des plans factoriels identifiés par une mécanique semblable à celle décrite pour
les individus dans le Tutoriel précédent, mais utilisée cette fois-ci dans un espace dual de l'espace des
individus : l'espace des variables.
De même que les sous-espaces de projection des individus étaient sous-tendus par des axes factoriels,
les sous-espaces de projection des variables seront sous-tendus par des composantes principales,
combinaisons linéaires des variables originales assurant une représentation réduite mais optimale de ces
variables.
-----
Les espaces des individus et des variables représentant la même information mais sous deux formes
différentes, on s'attend à ce qu'il soit possible de déduire les propriétés d'un espace à partir des
résultats obtenus dans l'autre espace. Cette dualité donne en effet lieu à des formules de transition,
qui formalisent en particulier le lien entre axes factoriels et composantes principales.
TUTORIEL
________________________________________________________
Tutoriel 4
aiaccess.net/…/f_gm_analyse_composa… 4/6
06/07/2010 Analyse en Composantes Principales
L'objectif de toute Analyse Exploratoire est de permettre à l'analyste de comprendre la structure des
données comme s'il était capable de "voir" directement dans un espace de dimension élevée (p pour
l'espace des individus, ou n pour l'espace des variables).
A défaut, l'ACP va lui permettre de projeter ces espaces et leurs contenus sur des plans, dits plans
factoriels. Chaque plan factoriel est défini par deux axes:
* Deux axes factoriels pour les individus.
* Deux composantes principales pour les variables.
Les meilleurs axes de projection ont été trouvés par l'ACP : ce sont les facteurs d'ordre faible. L'ACP
garantit que la projection sur les premiers plans factoriels produisent des données la représentation la
plus fidèle possible aus sens des Moindres Carrés.
-----
L'analyste n'a plus qu'à utiliser son savoir-faire (lequel doit être grand) pour extraire des valeurs
numériques et des diagrammes de projection les informations qui lui apporteront une meilleure
compréhension des données.
Individus supplémentaires
Variables supplémentaires
Variable numérique
Variable nominale
Valeur seuil
Compression de données
Prétraitement
Principe
Mise en garde
TUTORIEL
___________________________________________________
aiaccess.net/…/f_gm_analyse_composa… 5/6
06/07/2010 Analyse en Composantes Principales
Tutoriel 5
Dans ce Tutoriel, nous abordons succinctement quelques compléments sur l'Analyse en Composantes
Principales.
* L'ACP peut être utilisée pour faire de la compression d'information avec pertes. L'idée simple est
de ne retenir que les k < p premiers axes factoriels pour décrire les individus. La difficulté est alors de
définir la transformation inverse de façon à reconstruire les individus dans le repère initial (ceci est
essentiel, par exemple en compression d'images). La solution optimale sera apportée par le Théorème
d'Eckart-Young, que nous énonçons mais dont la démonstration dépasse le cadre de ce Glossaire.
* L'ACP de base suppose que l'on utilise la distance euclidienne, et que tous les individus sont munis
du même "poids" unité. Ces deux hypothèses peuvent (et doivent dans certains cas) être remplacées
par des hypothèses plus générales. Nous montrons que la notion d'inertie doit alors être redéfinie, mais
que les grandes lignes de la théorie que nous avons développée restent valables.
* Comme toutes les techniques reposant sur des Moindres Carrés, l'ACP est sensible aux point
aberrants. Nous montrons comment le codage des individus par rang peut rendre l'ACP plus robuste.
ACP généralisée
Hypothèses restrictives et leur généralisation
Métrique générale
Pondération
Le problème généralisé
Résolution
_________________________________________________
Voir aussi:
Inertie
Matrice de covariance
Analyse Factorielle Discriminante
Réduction de dimensionalité
Téléchargez ce Glossaire
aiaccess.net/…/f_gm_analyse_composa… 6/6
06/07/2010 Analyse en Composantes Principales
aiaccess.net/…/f_gm_analyse_composa… 7/6