Anda di halaman 1dari 17

Lalgorithme NIPALS

prparer par Nabil Azouagh


plan

introduction
L algorithme NIPALS
Recherche des composantes
principales.
Choix de nombre de composante.
Application sous R.
introduction
Le NIPALS non linaires itratifs des
moindres carrs partiels est un algorithme
qui cherche trouver les vecteurs propres . Il a
t conu initialement par H.wold pour
lAnalyse en Composantes Principales.
caractris par le fait qui est applicable mme
lorsqu'il y a des donnes manquantes.
Le principe de NIPALS

Comment projeter un point avec donnes manquantes ?
Rponse :
soit ti la projection orthogonale de xi alors:
ti=<xi/u>/||u||
si il y a des donnes manquantes ti est calcule sur les
donnes disponibles
L algorithme NIPALS
Recherche des composantes principales.

On va adopter les notations suivantes:
X = {x
ij
} tableau nk ,
x
j
= variable j
x
i
= observation i
Le Modle de l ACP :
X = t
1
p
1
+ + t
k
p
k

Avec
p
1
, , p
k
orthonorms
t
1
, , t
k
orthogonaux

Recherche de la premire composante principale.
Modle : X = t
1
p
1
+ rsidu, avec p
1
norm
Procdure:
1. Si t
1
connu, calcul de p
1
c--d les p
1j
par rgression
simple :
x
j
= p
1j
t
1
+ rsidu pour j =1,..,k
2. Normalisation de p
1
= (p
11
,,p
1k
)
3. p
1
connu, calcul de t
1i
par rgression simple :
x
i
= t
1i
p
1
+ rsidu pour i =1,..,k
Algorithme :
- Prendre t
1
= x
1
, puis itrer sur (1), (2), (3).
- Si donnes manquantes, faire les calculs sur
toutes les donnes disponibles.

Recherche des autres composantes
principales
La premire tape donn :
X = t
1
p
1

+ X
1

On rpte les oprations prcdentes sur la
matrice des rsidus X
1
de la rgression de X sur
t
1
.
On obtient : X
1
= t
2
p
2

+ X
2

et X = t
1
p
1

+ t
2
p
2

+ X
2

On obtient de mme les autres composantes
On fixe t
1
on calcul les p
1j
par rgression
simple :
x
j
= p
1j
t
1
+ e
j
pour j =1,..,k






Ce qui donne:


Si NA dans x
j
on les passe dans la
somme.
On normalise p
1
= (p
11
,,p
1k
)
Une fois p
1
connu je calcule t
1
= (t
11
,,t
1k
)
Par rgression simple sur
x
i
= t
1i
p
1
+ e
i


Pour i=1:n




Si NA dans x
i
on les passe dans la somme.



Ainsi de suite

Ce qui donne la fin un modle de la
forme:

Choix du nombre de composantes
Avant de parler de nombre de composante retenir
dfinissons quelque critres quon aura besoin par la
suite.
Le RESS
A chaque tape h on tudie la reconstitution du
tableau X :
X = t
1
p
1
+ + t
h
p
h

Et on calcule le :



Residual Sum of Squares :
2
ij
j , i
ij h
) x

x ( RESS


Le PRESS
La somme des carrs rsiduelles souffre du mme
problme que le coefficient de dtermination.
Cest pourquoi on introduit le critre PRESS Le
PRESS est une forme de validation croise
(mthode destimation de fiabilit dun modle
fond sur une technique dchantillonnage)
il permet de slectionner les modles ayant
un bon pouvoir prdictif (on veut le PRESS
le plus petit).


La composante t
h
est retenue si


limite
RESS
PRESS
1 Q
1 h
h
2

Predicted Residual Sum of Squares :


2
) ij (
j , i
ij h
) x

x ( PRESS

o est calcul dans lanalyse ralise


sans le groupe contenant la case (i,j). Ou X est
Partager en G groupe.
) ij (
x

Q
2
(cum) et R
2
(validation croise)






h
a a
a
h cum
RESS
PRESS
Q
1 1
2
1 ] [
2
h
validation croise
p
n
2
ji j
j 1 i 1
PRESS
R 1
(x x )





C--d si [Q
2
cum
]
h
une augmentation
significative.
Il est conseiller quun Modle h
composantes est acceptable si
[Q
2
cum
]
h
> 0.5
La composante h est retenue si :
1
2 2
] [ suprieur nettement est ] [
h cum h cum
Q Q

MERCI POUR
VOTRE
ATTENTION

Anda mungkin juga menyukai