Anda di halaman 1dari 27

Analyse en Composantes Principales (PCA-principal component analysis)

Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2006

Introduction la PCA La PCA est une technique qui est utile pour la compression et la classification des donnes. Le problme consiste rduire la dimensionnalit d'un ensemble des donnes (chantillon) en trouvant un nouvel ensemble de variables plus petit que l'ensemble original des variables, qui nanmoins contient la plupart de l'information de l'chantillon. Par information on veut parler de la variation prsente dans l'chantillon et donne par les corrlations entre les variables originelles. Les nouvelles variables, appeles composantes principales (PC), sont non corrles, et sont ordonnes par fraction de l'information totale que chacune contient.

Introduction la PCA

Le principal usage de la PCA: rduire la dimensionnalit tout en conservant le plus d'information possible. 1ire PC: contient la plus grande quantit de variation. 2nde PC: contient en deuxime lieu la plus grande quantit de variation.

Introduction la PCA

Donnes d'origine

Introduction la PCA

Aprs rduction de la dimensionnalit

Introduction la PCA

Donnes trs corrles. Si on enlve 50% des dimensions, le taux de perte d'information peut tre moins que 10%

Donnes non corrles. Leur variance est mme distribue dans toutes les directions. Si on enlve 50% des dimensions, le taux de perte d'information peut tre de 50%

sommaire Interprtation gomtrique des PCs Dfinition algbrique et drivation des PCs Utilisation de la PCA Application la finance

Interprtation gomtrique des composantes principales (PCs)

Un chantillon de n observations dans un espace 2-D But : estimer la variation d'un chantillon avec aussi peu de variables que possible, et avec une bonne prcision

Interprtation gomtrique des composantes principales (PCs)

est un ajustement de distance minimum dans l'espace La 1re PC est un ajustement de distance minimum dans le plan La 2ime PC perpendiculaire la 1re PC Les PC sont une suite de moindres carrs linaires ajusts un chantillon, chacun tant orthogonal tous les autres.

Dfinition algbrique des PC Etant donn un chantillon de n observations sur un vecteur de p variables

On dfinit la premire composante principale de l'chantillon par la transformation linaire

o le vecteur est choisi tel que Soit maximum

Dfinition algbrique des PC De mme, on dfinit la kime PC de l'chantillon par la transformation linaire

o le vecteur est choisi tel que est sujet et

soit maximum

Drivation algbrique des coefficients vectoriels Pour trouver en premier on note que

est la matrice de covariance pour les variables

Drivation algbrique des coefficients vectoriels Pour trouver maximiser sujet

Let be a Lagrange multiplier alors maximiser en diffrentiant

therefore

est un vecteur propre de Correspondant la valeur propre

Drivation algbrique des coefficients vectoriels

Nous avons maximis

Ainsi

est la plus grande valeur propre de contient la plus grande quantit de variation

La premire PC dans l'chantillon.

Drivation algbrique des coefficients vectoriels Pour trouver les coefficients vectoriels suivants sujet et Premirement on note que on maximise

On traduit le problme en problme d'optmisation standard Soit et les multiplicateurs de Lagrange, et on maximise

Drivation algbrique des coefficients vectoriels On trouve que est aussi un vecteur propre de est la seconde plus grande.

dont la valeur propre In general

La kime valeur propre la plus grande de

est la variance de la kime PC.

contient la kime fraction la plus grande de la variation La kime PC dans l'chantillon.

Formulation Algbrique de la PCA Etant donn un chantillon de n observations Selon un vecteur de p variables On dfinit un vecteur de of p PC D'aprs O est un matrice orthogonale p x p Dont la kime colonne est le kime vecteur propre Then de diagonale les lments

de

est la matrice de covariance des PC,

Utilisation de la PCA: Distribution de Probabilit pour des PC d'un chantillon Si (i) les n observations de (i) dans l'chantillon sont indpendants &

provient d'une sous-population qui suit une distribution normale (gaussienne) p-varie avec (ii)une matrice covariance connue alors where sinon is the Wishart distribution

on utilise une approximation de type bootstrap (simulation par des pseudo-donnes)

Utilisation de la PCA: Distribution de Probabilit pour des PC d'un chantillon si (i) suit une distribution de Wishart & sont toutes distinctes

(i) (ii) les valeurs propres de la population alors

les rsultats suivants sont valables quand Toutes les sont indpendantes de tous les

et sont conjointement distribues normalement


(un tilde dnotes une quantit de population)

Utilisation de la PCA: Distribution de Probabilit pour des PC d'un chantillon et

(un tilde dnotes une quantit de population)

Utilisation de la PCA: Infrence sur les PC d'une population If alors suit une distribution normale p-varie les expressions analytiques existent pour MLE (maximum likelihood estimates) de Intervalle de confiance pour Test d'hypothse pour sinon et et , , et

des approximations de type bootstrap et jackknife existent

* voir [Jolliffe, Ian T., 2002, Principal Component Analysis (Springer-Verlag New York, Secaucus, NJ)]

Utilisation de la PCA: Calcul Pratique des PC En gnral il est utile de dfinir des variables standardises par

Si alors

les

sont chacun mesurs autour de la moyenne de l'chantillon de

la matrice de covariance

sera gale la matrice de corrlation de et les PC seront sans dimensions

Utilisation de la PCA: Calcul Pratique des PC Etant donn un chantillon de n observations de vecteur (each measured about its sample mean) Calculer la matrice de covariance o est la matrice n x p de p variables

Pour laquelle la iime ligne est la iime obsv. Alors calculer la matrice n x p pour laquelle la iime ligne est le score de la PC pour la iime observation.

Utilisation de la PCA: Calcul Pratique des PC

Write

to dcompose chaque observation en PC

Utilisation de la PCA: Compression de Donnes Car la kime PC contient la kime plus grande fraction de variation On peut approximer chaque observation en tronquant la somme par les premiers m < p PC

Utilisation de la PCA: Compression de Donnes Rduire la dimensionnalit des donnes de p m < p en approximant where and is the n x m portion of is the p x m portion of

Cas pratique en finances : volution des prix du march


(produits alimentaires en Asie, donnes de consommation)

La PCA est applique sur chaque donnes de prix, donnant lieu 3 harmoniques principales. La figure montre la premire harmonique de chaque donnes. La figure montre la priode de changement dans le prix.

Valeurs de changement retenues aprs rduction : (a) pour le poulet (bleu) 11 mois (b) pour le concombre (vert) 13 mois (c) pour les oeufs (rouge) 18 mois, (d) pour le boeuf (bleu clair) 36 mois
(courbe borde du au manque de donnes de consommation), et

(e) pour le porc (jaune) 6 mois

Anda mungkin juga menyukai