Introduction la PCA La PCA est une technique qui est utile pour la compression et la classification des donnes. Le problme consiste rduire la dimensionnalit d'un ensemble des donnes (chantillon) en trouvant un nouvel ensemble de variables plus petit que l'ensemble original des variables, qui nanmoins contient la plupart de l'information de l'chantillon. Par information on veut parler de la variation prsente dans l'chantillon et donne par les corrlations entre les variables originelles. Les nouvelles variables, appeles composantes principales (PC), sont non corrles, et sont ordonnes par fraction de l'information totale que chacune contient.
Introduction la PCA
Le principal usage de la PCA: rduire la dimensionnalit tout en conservant le plus d'information possible. 1ire PC: contient la plus grande quantit de variation. 2nde PC: contient en deuxime lieu la plus grande quantit de variation.
Introduction la PCA
Donnes d'origine
Introduction la PCA
Introduction la PCA
Donnes trs corrles. Si on enlve 50% des dimensions, le taux de perte d'information peut tre moins que 10%
Donnes non corrles. Leur variance est mme distribue dans toutes les directions. Si on enlve 50% des dimensions, le taux de perte d'information peut tre de 50%
sommaire Interprtation gomtrique des PCs Dfinition algbrique et drivation des PCs Utilisation de la PCA Application la finance
Un chantillon de n observations dans un espace 2-D But : estimer la variation d'un chantillon avec aussi peu de variables que possible, et avec une bonne prcision
est un ajustement de distance minimum dans l'espace La 1re PC est un ajustement de distance minimum dans le plan La 2ime PC perpendiculaire la 1re PC Les PC sont une suite de moindres carrs linaires ajusts un chantillon, chacun tant orthogonal tous les autres.
Dfinition algbrique des PC Etant donn un chantillon de n observations sur un vecteur de p variables
Dfinition algbrique des PC De mme, on dfinit la kime PC de l'chantillon par la transformation linaire
soit maximum
Drivation algbrique des coefficients vectoriels Pour trouver en premier on note que
therefore
Ainsi
est la plus grande valeur propre de contient la plus grande quantit de variation
Drivation algbrique des coefficients vectoriels Pour trouver les coefficients vectoriels suivants sujet et Premirement on note que on maximise
On traduit le problme en problme d'optmisation standard Soit et les multiplicateurs de Lagrange, et on maximise
Drivation algbrique des coefficients vectoriels On trouve que est aussi un vecteur propre de est la seconde plus grande.
Formulation Algbrique de la PCA Etant donn un chantillon de n observations Selon un vecteur de p variables On dfinit un vecteur de of p PC D'aprs O est un matrice orthogonale p x p Dont la kime colonne est le kime vecteur propre Then de diagonale les lments
de
Utilisation de la PCA: Distribution de Probabilit pour des PC d'un chantillon Si (i) les n observations de (i) dans l'chantillon sont indpendants &
provient d'une sous-population qui suit une distribution normale (gaussienne) p-varie avec (ii)une matrice covariance connue alors where sinon is the Wishart distribution
Utilisation de la PCA: Distribution de Probabilit pour des PC d'un chantillon si (i) suit une distribution de Wishart & sont toutes distinctes
les rsultats suivants sont valables quand Toutes les sont indpendantes de tous les
(un tilde dnotes une quantit de population)
Utilisation de la PCA: Infrence sur les PC d'une population If alors suit une distribution normale p-varie les expressions analytiques existent pour MLE (maximum likelihood estimates) de Intervalle de confiance pour Test d'hypothse pour sinon et et , , et
* voir [Jolliffe, Ian T., 2002, Principal Component Analysis (Springer-Verlag New York, Secaucus, NJ)]
Utilisation de la PCA: Calcul Pratique des PC En gnral il est utile de dfinir des variables standardises par
Si alors
les
la matrice de covariance
Utilisation de la PCA: Calcul Pratique des PC Etant donn un chantillon de n observations de vecteur (each measured about its sample mean) Calculer la matrice de covariance o est la matrice n x p de p variables
Pour laquelle la iime ligne est la iime obsv. Alors calculer la matrice n x p pour laquelle la iime ligne est le score de la PC pour la iime observation.
Write
Utilisation de la PCA: Compression de Donnes Car la kime PC contient la kime plus grande fraction de variation On peut approximer chaque observation en tronquant la somme par les premiers m < p PC
Utilisation de la PCA: Compression de Donnes Rduire la dimensionnalit des donnes de p m < p en approximant where and is the n x m portion of is the p x m portion of
La PCA est applique sur chaque donnes de prix, donnant lieu 3 harmoniques principales. La figure montre la premire harmonique de chaque donnes. La figure montre la priode de changement dans le prix.
Valeurs de changement retenues aprs rduction : (a) pour le poulet (bleu) 11 mois (b) pour le concombre (vert) 13 mois (c) pour les oeufs (rouge) 18 mois, (d) pour le boeuf (bleu clair) 36 mois
(courbe borde du au manque de donnes de consommation), et