Anda di halaman 1dari 58

1

A V A N T P R O P O S




Cet ouvrage fournit des lments de la thorie de la rgression linaire
et de la thorie des axes factorielles avec quelques applications.
Il faut souligner quil sagit dun ouvrage complter cest pourquoi
les suggestions de la part des lecteurs intresss seront bienvenues.
La composition prsente de louvrage est rpartie comme suit :
C. Costinescu les chapitres 1 et 2, V. Petrehu le chapitre 3.
Les deux auteurs ont bnfici du soutien de lAgence Universitaire de
la Francophonie par lintermde du Projet de Coopration Scientifique
interuniversitaire 2005.


Cristian Costinescu et Viorel Petrehu




2

TABLE DES MATIERES

LA REGRESSION SIMPLE

1. Le modle thorique. La rgression linaire . . . . . . . . . . . . . . . . . . . . . 3
2. Estimation des paramtres par la mthode des moindres carrs . . . . . . 8
3. Applications et cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

LA REGRESSION MULTIPLE

1. Rgression multiple entre variables alatoires . . . . . . . . . . . . . . . . . .21
2. Le modle linaire gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
3. Conditions de Gauss Markov. Estimations des paramtres du modle
( y ; X ;
2
Id ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .28
4. Tests dans le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

ANALYSE FACTORIELLE

1. Vecteurs et valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
2. Matrices symmetriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3. Axes factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

ANNEXE : Inverse gnralise dune matrice . . . . . . . . . . . . 56

BIBLIOGRAPHIE

3



LA REGRESSION SIMPLE


Etant donn deux variables alatoires X et Y qui ne sont pas indpendantes, on
peut admettre que le phnomne reprsent par X puisse servir prdire celui reprsent
par Y. On est conduit la recherche dune function f telle que f (X) soit aussi proche que
possible de Y dans un sens qui sera prcis.

Dans le cas thorique on va chercher une formule de prevision idale au sens des
moindres carrs, puis on va aborder le cas usual o les variables X et Y ne sont connues
que par les valeurs dun chantillon.

Dans ce qui suit X sera dit variable explicative ou prdicteur et Y sera dit variable
explique ou critre.


1. Le modle thorique. La rgression linaire

Soit L
2
(X) le sous-espace de L
2
form par les variables alatoires functions de X
du type f (X) et qui contient la droite D des variables alatoires constantes. Alors
lesprance conditionnelle de Y sachant X, E (Y/ X), est considre la projection
orthogonale de Y sur L
2
(X) ; on sait que le minimum de lexpression

E [ (Y f (X))
2
]

est atteint pour f (X) = E (Y/ X). On peut dire que E (Y/ X) est la meilleure
approximation de Y par une function de X et il est alors immdiat, cause de
lorthogonalit, que la diffrence Y - E (Y/ X) est non corrle avec X .
4

En plus on peut interprter le thorme de la variance totale comme le thorme de
Pythagore appliqu au triangle rectangle de sommets Y, E (Y) et E (Y/X) voir figure 1:

Y E (Y)
2
= V (Y),

E (Y/X) E (Y)
2
= V ( E (Y/X)) et

Y E (Y/X)
2
= E [(Y E (Y/X))
2
] = E (V (Y/X )); on a donc:

V (Y) = V ( E (Y/X)) + E ( V (Y/X )) (1)


On sait que le coefficient de corrlation linaire =
) ( ) (
) , ( cov
Y V X V
Y X
est une mesure
symtrique de dpendence, tant maximal dans le cas de la liaison linaire.
En utilisant le thorme de la variance totale on peut introduire un autre rapport de
corrlation (Y/ X ) tel que:

Fig. 1
5

2
(Y/ X ) =
) (
)) / ( (
Y V
X Y E V


c. a. d. le quotient de la variance explique par la variance totale.

(Y/ X ) est non symtrique et il permet de mesurer lapproximation de Y par
E (Y/ X).

2
(Y/ X ) est gal avec le cosinus carr de langle form par Y E (Y) et
lespace L
2
(X); on a donc: 0
2
(Y/ X ) 1.

Si
2
(Y/ X ) = 1, tenant compte de la relation (1), on obtient E (V (Y/X )) = 0;
alors on en dduit que V (Y/X ) = 0 presque srement, cest dire qu X fix la
variance de Y est nulle, donc Y ne prend quune seule valeur.
En conclusion, le rapport de corrlation est maximal si Y est li fonctionnellement
X, c. a. d.
2
(Y/ X ) = 1 implique Y = f (X).

Si
2
(Y/ X ) = 0 on a V (E (Y/ X)) = 0; alors E (Y/ X) est presque srement une
constante et on dit que Y est non corrl avec X. Cest en particulier le cas si X et Y
sont indpendantes mais la rciproque est fausse !
En fait,
2
(Y/ X ) = 0 signifie seulement que Y E (Y) est orthogonal
lespace L
2
(X).

Dautre part,
2

2
(Y/ X ) puisque
2
est le cosinus carr de langle form par
Y E (Y) avec le sous-espace de dimension 2 de L
2
(X) engendr par X et la droite des
constantes D.
Le cas
2
=
2
(Y/ X ) signifie que E (Y/ X) appartient ce sous-espace de
dimension 2 , donc que:

E (Y/ X) = + X

qui est le cas de la rgression linaire quon va tudier en dtail ci-dessous.
6

Enfin, on rappelle que la fonction qui, pour une valeur x de la variable alatoire X,
associe E (Y/ X = x ) est dite fonction de rgression de Y en X.
Alors on peut considrer
Y = E (Y/ X) +

o est un rsidu alatoire - pas toujours ngligeable
Le rsidu a lesprance nulle: E ( ) = 0 puisque E (Y) = E (E (Y/ X)); de plus,
tenant compte que est orthogonal lespace L
2
(X), il est non corrl avec X et avec
E (Y/ X).
La variance de , dite rsiduelle, est de la forme:

V ( ) = [ 1 -
2
(Y/ X ) ] V (Y) (2)
( voir les relations prcdentes ).

Dans la pratique, le cas de la rgression linaire :

E (Y/ X) = + X

est le plus important ( il se produit en particulier si les variables alatoires X et Y suivent
une loi normale deux dimensions ).
En prenant lesprance des deux membres de la relation

Y = + X +
on obtient:
E (Y ) = + E (X)

car E ( ) = 0. Donc la droite de rgression passe par le point de coordonnes (E(X), E(Y))
et alors on a :

Y E (Y) = ( X - E (X) ) +
7

Maintenant on multiplie par X - E (X) les deux membres de la relation prcdente
et en prenant lesprance il vient :

E [( X - E (X)) (Y E (Y))] = E [( X - E (X))
2
] + E [ (X - E (X))]
soit
cov ( X, Y ) = V (X) + cov (, X )
puisque lesprance de est nulle.
Tenant compte prsent que le rsidu est non corrl avec la variable alatoire
X, il nous reste :
=
) (
) , ( cov
X V
Y X

et alors lquation de la droite de rgression est de la forme:
E (Y/ X) E (Y) =
) (
) , ( cov
X V
Y X
( X - E (X))
do on a :
Y = E (Y) +
) (
) , ( cov
X V
Y X
( X - E (X)) +
En prenant la variance des deux membres de la dernire relation et tenant compte
que le rsidu est non corrl avec X, il vient :

V (Y) =
2
V (Y) + V ( )

Vu la relation (2) on retrouve donc lgalit
2
=
2
(Y/ X ) si la rgression est
linaire.


8

2. Estimation des paramtres par la mthode des moindres carrs


On va considrer n couples ( x
i
, y
i
) dobservations indpendantes des variables
alatoires X et Y ( cest dire un n chantillon ) et on suppose vraie lhypothse :

E (Y/ X) = + X

La mthode utilise sapplique encore si X nest pas variable alatoire, mais elle
est connue travers les valeurs dun chantillon ; par exemple si Y est une grandeur
mesure diffrents moments x
1
, x
2
, , x
n
c. a. d. X est le temps. Il suffit alors de
supposer que y
i
= + x
i
+
i
o
i
( i = 1, , n ) sont des ralisations indpendantes
dune variable desprance nulle et de variance constante
2
, quel que soit
lobservation x
i
. Dans ce cas on parle de modle linaire.

Pour ce qui suit on va estimer , et la variance du rsidu par la mthode des
moindres carrs, due Gauss.
Puisque la mthode des moindres carrs ne dpende pas que des lois conditionnelles
X fix, on peut aborder par les mmes techniques la rgression linaire et le modle
linaire.
En utilisant la mthode des moindres carrs sur le n chantillon concern, on va
ajuster au nuage de points ( x
i
, y
i
) une droite dquation y* = a x + b tel que la somme
des carrs

=

n
i
i i
y y
1
2 *
) (
soit minimale (voir figure 2).




9

Pour dterminer a et b on considre la fonction

F ( a, b ) =

=

n
i
i i
x b a y
1
2
) (

dont le minimum est atteint pour
b
F
a
F

= =

0 ; alors on obtient les quations :


=
=
n
i
i i
x b a y
1
0 ) (
(3)

=
=
n
i
i i i
x b a y x
1
0 ) (

En divisant la premire relation par n et en utilisant les notations clasiques pour les
moyennes empiriques ( dites arithmtiques ) :

Fig. 2
10
n
x
1
=

=
n
i
i
x
1
, respectivement
n
y
1
=

=
n
i
i
y
1


il vient: x b a y + = .
En portant cette valeur de a dans la deuxime quation du systme (3) on obtient :

b =

=
=

n
i
i
i
n
i
i
x n x
x y n x y
1
2 2
1
.

Par des calculs assez simples :


= = = =
= + =
n
i
n
i
n
i
i i i
n
i
i
x n x x n x x x x x
1 1 1
2 2 2 2 2
1
2 ) (


= = = =
= =
n
i
n
i
n
i
i i i i i
n
i
i i
y x n x y x y x y x x y y
1 1 1 1
) )( ( ( puisque 0 ) (
1
=

=
x y y
n
i
i
)
il vient finalement que
b =
2
1
2
1
) , ( cov
) (
) ( ) (
x
n
i
i
i
n
i
i
s
y x
x x
x x y y
=

=
=

o cov (x, y) dsigne la covariance empirique ( dite observe ) :

cov (x, y) =
n
x x y y
i
n
i
i
) ( ) (
1

=


et s
x
est lcart type empirique de x, tel que

11
2
x
s =
n
x x
i
n
i
2
1
) (

=


Tenant compte de la dfinition du coefficient empirique de corrlation linaire :

y x
s s
y x
r
) , ( cov
=
on obtient encore pour b :
b =
x
y
s
s
r
do lquation de la droite en question :
y* = ) ( x x
s
s
r y
x
y
+ .

En conclusion : la droite des moindres carrs passe par le centre de gravit du
nuage des points et sa pente est lanalogue empirique de la pente de la droite de rgression :

) (
) (
X V
Y V
x
y

= .

Il faut aussi souligner que le coefficient empirique de corrlation linaire mesure
exclusivement le caractre plus ou moins linaire du nuage de points considrs.

Proposition 1. a, b et y* sont des estimateurs sans biais de , et
respectivement de + x = E ( Y/ X = x ).
Dmonstration. On note par
B =

=
=


n
i
i
i
n
i
i
x x
x x Y Y
1
2
1
) (
) ( ) (

12

la variable alatoire dont la ralisation est le paramtre b .
Puisque lesprance de lesprance conditionnelle est gale avec lesprance de B,
pour prouver que E ( B) = il suffit de montrer que = ) ( B E
i
x
, o ) ( B E
i
x
dsigne
lesprance conditionnelle de B par rapport aux valeurs x
i
des variables alatoires X
i
.
Il vient :
) ( B E
i
x
=

=
=


n
i
i
n
i
i x i
x x
Y Y E x x
i
1
2
1
) (
) ( ) (

Vu lhypothse de rgression linaire on a : ) (
i x
Y E
i
= + x
i
et aussi
) (Y E
i
x
= + x , do on obtient : ) ( Y Y E
i x
i
= ( x
i
- x ).
Finalement il vient :
) ( B E
i
x
=

=
=

n
i
i
n
i
i
x x
x x
1
2
1
2
) (
) (
=
do E( B) = .
Puisque a = y - b x est une ralisation de la variable alatoire A = X B Y , on
obtient de la mme manire :
) ( A E
i
x
= ) (Y E
i
x
- x ) ( B E
i
x
= + x - x =
et alors on a: E ( A ) = .
Car E ( Y/ X = x ) = + x il rsulte que y* = a x + b est un estimateur sans
biais de + x .
Remarques 1. On peut prover de plus que la variable alatoire B nest pas corrle
avec Y : tout dabord on va simplifier lexpression de b
b =

=
=

n
i
i
n
i
i i
x x
y x x
1
2
1
) (
) (

13

tenant compte que :

=
=
n
i
i i
y y x x
1
) ( ) (

= =

n
i
n
i
i i i
x x y y x x
1 1
) ( ) ( et

=
=
n
i
i
x x
1
0 ) (
Donc il vient
B =

=
=

n
i
i
i
n
i
i
x x
x x Y
1
2
1
) (
) (

et alors la covariance conditionnelle des variables alatoires B et Y aux valeurs x
i

fixes, est de la forme :
cov ( B, Y ) =

=
=

n
i
i
i i
n
i
x x
Y Y x x
1
2
1
) (
) , ( cov ) (
.

Or cov ( Y
i
, Y ) = cov ( Y
i
,
n
1

=
n
j
j
Y
1
) =
n
2

puisque les variables alatoires


Y
i
et Y
j
sont indpendantes pour tout i j ; finalement on obtient :

cov ( B, Y ) =

=
=

n
i
i
i
n
i
x x n
x x
1
2
1
2
) (
) (
= 0
ce qui implique: B et Y sont non corrles conditionnellement par rapport aux valeurs x
i
.

2. Pourtant, le fait dtre sans biais nest quune proprit mineure pour les
estimateurs. Le rsultat suivant (connu comme le thorme Gauss Markov ) donne la
qualit des estimateurs obtenus : a et b, parmi les estimateurs sans biais de et , sont
de variance minimale.

14
Proposition 2. Pour les variances conditionnelles des variables alatoires A et B
par rapport aux valeurs x
i
on a les formulas suivantes:

) ( B V
i
x
=

=

n
i
i
x x
1
2
2
) (

; ) ( A V
i
x
= )
) (
1
(
1
2
2
2

=

+
n
i
i
x x
x
n


Dmonstration. Pour x
i
fixs il vient Y
i
= + x
i
+ et donc on a:

V (Y
i
/ X
i
= x
i
) = V ( ) =
2
.
Alors on obtient:

) ( B V
i
x
=

=
=

n
i
i
i x i
n
i
x x
Y V x x
i
1
2 2
2
1
] ) ( [
) ( ) (
=
2
1
2
2
1
2
] ) ( [
) (

=
=

n
i
i
i
n
i
x x
x x
=

=

n
i
i
x x
1
2
2
) (

.

Dautre part A = X B Y do on a : ) ( A V
i
x
= ) (Y V
i
x
+ x
2
) ( B V
i
x
et alors il
rsulte la formule de ci-dessus pour la variance conditionnelle de A par rapport aux
valeurs x
i

.

Proposition 3. La moyenne de lcart rsiduel est nulle et sa variance empirique
( dite rsiduelle ) est gale ( 1 r
2
)
2
y
s .

Dmonstration. On va noter
*
i i i
y y e = ; car ) (
*
x x b y y
i i
+ = il vient :


= = =
= =
n
i
i i
n
i
i
n
i
x x b y y e
1 1 1
0 ) ( ) (

et donc la moyenne de lcart rsiduel est nulle. Il rsulte que les e
i
ne sont pas des
ralisations indpendantes dune variable alatoire.
15
La variance rsiduelle est gale
n
1

2
1
i
n
i
e

=
et elle sera note par
2
/ x y
s ; il vient :

2
/ x y
s =
n
1

2
1
i
n
i
e

=
=
n
1
2
1
) ( y y
i
n
i

=
+
n
b
2
2
1
) ( x x
i
n
i

=
-
n
b 2

=
=
n
i
i i
y y x x
1
) ( ) (

=
2
y
s + b
2

2
x
s - 2 b cov (x, y) =
2
y
s + r
2

2
y
s - 2 r
2

x
y
s
s
x
s
y
s = ( 1 r
2
)
2
y
s
puisque
y x
s s
y x
r
) , ( cov
= et b =
x
y
s
s
r .
Remarques 3. Pour valuer V ( ) =
2
il faut utiliser la variance des e
i
; on peut
montrer que
2
) (
2
1
*

=
n
y y
n
i
i i

est un estimateur sans biais de
2
( voir plus loin ).

Il faut prciser que des nombreux modles non linaires se ramnent aux modles
linaires par des transformations simples. Par exemple: le modle y = x

, trs utile en
conomtrie (lasticit constante de y par rapport x, o est le coefficient d lasticit),
devient un modle linaire en passant au logarithme: ln y = ln + ln x, do on a
y = ln + x, avec y = ln y et x = ln x
De mme pour le modle logistique souvent utilis pour rendre compte des
variations dun taux de rponse y (compris entre 0 et 1) en fonction dune excitation x :

y =
) ( exp 1
) ( exp
x
x


+ +
+
;

il suffit de poser
y = ln
y
y
1
avec y = + x .
16

3. Applications et cas particuliers



a. Si on suppose que le rsidu suit une loi normale N ( 0; ) il rsulte :

1) la variable alatoire conditionne Y / X = x suit une loi normale N ( + x ; )
puisque on travaille sous lhypothse E ( Y/ X) = + X .
2) tenant compte que A, B et Y* sont des combinaisons linaires des lois
normales, elles suivent aussi ( pour x
i
fixs ) des lois normales savoir

A N ( ;

=

+
n
i
i
x x
x
n
1
2
2
) (
1
)

B N ( ;

=

n
i
i
x x
1
2
2
) (

)

Y* N ( + x ;

+
n
i
i
x x
x x
n
1
2
2
) (
) ( 1
)

3) A et B sont des estimateurs de variance minimale de et , mais ils ne sont
pas indpendants.
4)
2
2
/
2
1
2 *
) (

x y
n
i
i i
s n
y y
=

=
est une ralisation dune variable qui suit une loi
2
2 n
et

qui est indpendante de A et B.
17

5) Puisque


=

n
i
i
x x B
1
2
) ( ) (
N ( 0 ; 1 ) et
2
2
/

x y
s n

2
2 n
sont

indpendantes il rsulte que
x y
x
s
n s B
/
2 ) (


suit une loi T
n-2
, ce qui donne la possibilit dobtenir des intervalles de confiance pour .

Remarques.
- lusage des lois normales de A et B suppose, thoriquement, connu ce qui en
pratique nest pas vrai.
- si le coefficient de corrlation linaire est nul on obtient = 0, hypothse dite
de non rgression.


b. Pour effectuer des tests dans le modle linaire on utilise tout dabord la
dcomposition :
y y y y y y
i i i i
+ =
* *

et on suppose que le rsidu suit une loi normale N ( 0; ).
On a immdiatement que

=
=
n
i
i i i
y y y y
1
* *
0 ) )( (
et alors il rsulte :

=

n
i
i
y y
1
2
) ( =

=

n
i
i i
y y
1
2 *
) ( +

=

n
i
i
y y
1
2 *
) (

cest--dire la somme des carrs totale est gale avec la somme des sommes des carrs
rsiduelle et explique.
18
Puisquon sait que :
2
1
2 *
) (

=

n
i
i i
Y Y

suit une loi
2
2 n
( khi carr dordre n-2 ), si l hypothse de non rgression linaire

H
0
: = 0
est vraie il rsulte que :
2
1
2
) (

=

n
i
i
Y Y

suit une loi khi carr dordre n-1 et on a :

2
1
2 *
) (

=

n
i
i
Y Y
=
2
1
2
) (

=

n
i
i
X X B
.

Car = 0, on en dduit que
2
1
2 *
) (

=

n
i
i
Y Y
suit suit une loi khi carr dordre 1
puisque
2
1
2 2
) ( ) (

=

n
i
i
X X B
suit suit une loi khi carr dordre 1, tant le carr dune

variable normale standard N ( 0; 1 ).
Les variables alatoires

=

n
i
i i
Y Y
1
2 *
) ( et

=

n
i
i
Y Y
1
2 *
) (

sont indpendantes et tenant compte du fait que le carr dune loi T
n-2
est une loi Fisher
Snedecor F ( 1 ; n-2 ) il rsulte que le quotient
19
) 2 (
) (
) (
1
2 *
1
2 *

=
=
n
Y Y
Y Y
n
i
i i
n
i
i


suit une loi Fisher Snedecor F ( 1 ; n-2 ) pour = 0.

Alors on obtient immdiatement le test du caractre significatif de la rgression, ce
test tant dailleurs identique celui du coefficient de corrlation linaire :

=
0 :
0 :
1
0

H
H


c. Cas dhtroscdasticit : dans la pratique on a souvent V ( / X = x ) =
2
x
2
-
c. a. d. lcart type du rsidu crot linairement avec le prdicteur.
Les estimateurs obtenus par la mthode des moindres carrs sont sans biais mais ils
ne sont pas de variance minimale. La vraisemblance des y
i
est de la forme:

L (y
1
, , y
n
) = ) ) (
2
1
( exp
) 2 (
1
2
1
2
1
2 /

=
=

n
i i
i i
n
i
i
n n
x
x y
x n

.

Alors les estimateurs de maximum de vraisemblance sont des estimateurs de
variance minimale et il est vident que le problme en question est quivalent une
rgression usuelle sur des dates transformes : si on note

i
i
i
i
i
i
i
i
x x
x
x
y
y

= = =
' ' '
1

il vient :
' ' ' '
i i
i
i
i i
x
x
x y

+ + = + + =
20
avec V
2 '
) ( =
i
. Donc cest suffisant dajuster une droite au nuage des points de
coordonnes . ) ,
1
(
' '
i
i
i
i
i
x
y
y
x
x = =

On observe que la constante du modle transform est exactement la pente de la
droite de rgression du modle initial et rciproquement.




21



LA REGRESSION MULTIPLE


Pour gnraliser les notions du chapitre prcdent la difficult du sujet ne consiste
pas tant de la complexit des calculs, mais plutt de la distinction qui existe entre la
rgression multiple et le modle linaire les hypothses et les objectifs sont diffrentes.


1. Rgression multiple entre variables alatoires

On considre sur n individus k + 1 mesures reprsentes par des vecteurs de R
n
:
y, x
1
, x
2
, , x
k
; comme prcdemment y est la variable explique ou critre et x
i
sont
les variables explicatives ou prdicteurs.
On suppose que les variables explicatives sont linairement indpendantes, mais
elles peuvent tre corrles, par exemple c. a. d. elles ne sont pas supposes
statistiquement indpendantes.
Pour exprimer y au moyen des x
i
par une formule linaire ( la recherche dun
ajustement linaire ) on introduit la rgression multiple :

+ + + + =
+ + + + =
n nk k n n
k k i
x x y
x x y


. . .
. . . . . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . .
. . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .
. . . .
1 1 0
1 1 11 1 0
(1)

On va noter par X la matrice n lignes, dont la premire colonne est constitue par des
units et les autres k colonnes par les valeurs des variables explicatives x
1
, , x
k
:
22

X =
|
|
|
|
|

\
|
nk n
k
x x
x x
. . . . 1
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . 1
1
1 11

Elle sera dite matrice modle.
Si on pose :
y =
|
|
|
|
|

\
|
n
y
y
y
. . .
2
1
; =
|
|
|
|
|

\
|
k

. . .
2
0
; =
|
|
|
|
|

\
|
n

. . .
2
1


alors le systme (1) scrit sous la forme matricielle suivante :

y = X + (2)

Remarque 1. La relation (2) caractrise aussi la rgression simple.

Pour obtenir lestimation du vecteur on va utiliser la mthode des moindres
carrs en minimisant lexpression :

S = =

=
2
1
1 1 0
) . . . (
n
i
ik k i i
x x y ( y - X )
t
(y - X ) =

= y y
t
-
t
X
t
y - y
t
X +
t
X
t
X = y y
t
- 2
t
( X
t
y ) +
t
( X
t
X)

puisque y
t
X =
t
( X
t
y ) est un scalaire.

Le minimum de S, not par b et appel vecteur des coefficients de rgression,
sobtient de lquation :
23
=

S
- 2 X
t
y + 2 X
t
X = 0 ;
alors il vient :
( X
t
X) b = X
t
y (3)

relation qui donne lestimation du vecteur par la mthode des moindres carrs.

Remarques 2. Si la matrice X
t
X est inversible, alors lquation (3) a la
solution unique :
b = ( X
t
X)
-1
X
t
y (4)

Si la matrice X
t
X est singulire on va rsoudre lquation (3) en utilisant
linverse gnralise dune matrice ( voir lannexe 1 ) ; bien que lestimation b nest pas
unique, on obtient que X b est unique ( voir galement lannexe 1 ).

3. Pour justifier thoriquement lajustement linaire de y au moyen des x
i
on va
utiliser le modle probabiliste suivant : on suppose que y, x
1
, x
2
, , x
k
forment un n
chantillon dobservations indpendantes de k +1 variables alatoires Y, X
1
, X
2
, , X
k
.
On sait que la meilleure approximation de Y par une fonction des X
i
est donne
par lesprance conditionnelle E [ Y / X
1
, X
2
, , X
k
] et en utilisant lhypothse de
rgression linaire multiple :

E [ Y / X
1
, X
2
, , X
k
] =
0
+
1
X
1
+ . . . +
k
X
k
(5)

on obtient le modle suivant :

Y =
0
+
1
X
1
+ . . . +
k
X
k
+

o est une variable alatoire desprance nulle, non corrle avec les X
i
, dont la
variance sera note par
2
.
24
Entre les ralisations des variables alatoires Y, X
1
, X
2
, , X
k
et il existe une
relation de type (2) dduite de lhypothse de rgression linaire multiple (5).
Il faut mentionner quen pratique les coefficients
0
,
1
, ,
k
et
2
ne sont pas
connus ; alors il est ncessaire de les estimer le mieux possible.

La dfinition du rsidu est tout fait similaire que pour la rgression simple
e = y y
*

o e et y
*
= X b sont les vecteurs:

e =
|
|
|
|
|

\
|
n
e
e
e
. . .
2
1
, y
*
=
|
|
|
|
|

\
|
*
*
2
*
1
. . .
n
y
y
y


Tenant compte de (4) il vient que y
*
= X ( X
t
X)
-1
X
t
y. Avec les notations
A = X ( X
t
X)
-1
X
t
et M = I
n
A on obtient :

M X = X - X ( X
t
X)
-1
X
t
X = X X = 0.

En utilisant maintenant la relation (2) il vient que :

e = y A y = M y = M X + M = M ( 6 )

et alors on a le rsultat suivant

Proposition 1. Le rsidu e est orthogonal y
*
et la matrice modle X - voir la
relation (2).

Dmonstration. Tenant compte des relations prcdentes on a :

X
t
e = X
t
M = 0 = 0
25
o par 0 nous avons dsign le vecteur nul ; il vient aussi :

( y
*
)
t
e = b
t
X
t
e = b
t
0 = 0

Corollaire 2. On a :
0
1
=

=
n
i
i
e

Dmonstration. Si on note par 1 = ( 1, . . . , 1 )
t
la premire colonne de la matrice
modle X ( on dit que
0
est prsent dans le modle ) et en utilisant la proposition
prcdente, il vient :

=
n
i
i
e
1
= 1
t
e = 0
Remarques 4. A laide de la proposition 1 on peut montrer que le minimum de
lexpression S est atteint vraiment pour b

= ; dabord on a :

( b

)
t
X
t
(y X b ) = (y X b )
t
X ( b

) = e
t
X ( b

) = 0

( puisque ( b

)
t
X
t
(y X b ) est un scalaire ). Alors il vient :

S = (y X b + X b - X )
t
(y X b + X b - X ) =

= (y X b )
t
(y X b ) + ( b

)
t
( X
t
X ) ( b

).

On observe que les expressions situes dans la dernire ligne sont des formes
quadratiques normales donc positives et que la premire forme quadratique ne dpend
pas de . Donc il rsulte que le minimum de lexpression S est atteint pour b

= .

5. Un simple calcul nous montre que A est idempotente :

X ( X
t
X)
-1
X
t
X ( X
t
X)
-1
X
t
= X ( X
t
X)
-1
X
t

26

et donc M est aussi idempotente:

M
2
= ( I
n
A ) ( I
n
A ) = I
n
2 A + A
2
= I
n
2 A + A
2
= I
n
A = M

6. Si lespace R
n
est muni de la mtrique s , la mthode des moindres carrs exige
que || y - y
*
||
2
soit minimale ; gomtriquement, y
*
est alors la projection s orthogonale
de y sur le sous espace V engendr par 1, x
1
, x
2
, , x
k
.
On sait que loprateur de projection s orthogonale sur V est donn par
lexpression X ( X
t
s X)
-1
X
t
s ; alors on a :

y
*
= X ( X
t
s X)
-1
X
t
s y et b = ( X
t
s X)
-1
X
t
s y

En particulier, pour la mtrique s =
n
1
Id on obtient la formule suivante pour le
vecteur des coefficients de rgression :

b = ( X
t
X)
-1
X
t
y

formule qui concide avec la relation (4) obtenue prcdemment.



2. Le modle linaire gnral


En pratique on fixe dhabitude certaines valeurs des conditions exprimentales et on
mesure plusieurs fois de suite un phnomne pour les mmes valeurs des conditions
exprimentales. On obtient donc un nuage de p vecteurs y
1
, y
2
, , y
p
dans R
n
si on
rpte p fois lexprience, les k variables explicatives x
1
, x
2
, , x
k
restant les mmes.
27
Pour le modle linaire gnral il faut supposer que le centre de gravit du nuage
des y
1
, y
2
, , y
p
soit situ dans le sous espace V engendr par 1, x
1
, x
2
, , x
k
( voir
la remarque 5 du paragraphe prcdent ) : h = X .
Puisquen ralit on ne connat pas (la plupart du temps ) quun seul point du nuage,
le but est dapproximer le mieux possible h laide dune seule observation y .
Gomtriquement, lapproximation h
*
de h - obtenue laide de y , est exactement
la projection orthogonale de y sur le sous espace V, selon une certaine mtrique s ;
alors le problme est de trouver une mtrique de telle sorte que h
*
soit le plus proche
possible de h - c. a. d. si on rptait la projection avec y
1
, y
2
, , y
p
les p approximations
h
1
*, . . . , h
p
* devraient tre le plus concentres possible autour de h .

Remarques 1. On peut dmontrer le rsultat suivant (appel thorme de Gauss
Markov gnralis ):
Si C est la matrice de variance covariance du nuage des y
i
, alors la metrique
rendant linertie des h
i
* minimale est exactement C
-1
.

Pour une seule observation y on obtient donc :

h* = X ( X
t
C
-1
X)
-1
X
t
C
-1
y

2. Le modle probabiliste est la gnralisation du cas prcdent pour un grand
nombre de rptitions. Si on considre que y est une ralisation dun vecteur alatoire
desprance X et de matrice variance covariance C, alors dans ce qui suit on va noter
un tel modle par le triplet ( y ; X ; C ).

Dans les deux cas : la rgression multiple linaire et le modle linaire gnral, on a
la mme formule : y = X + e, o e le vecteur alatoire des rsidus.
Cependant, les hypothses sont diffrentes : dans le cas du modle linaire gnral
X est un tableau de donnes et le vecteur des rsidus a une matrice variance covariance
quelconque, alors quen rgression multiple X est alatoire et le vecteur e a pour matrice
28
variance covariance
2
I
n
puisque lhypothse dchantillonage suppose des observations
indpendantes.
Les objectifs sont galement diffrents : en rgression multiple on cherche
approximer y le mieux possible ; dans le modle linaire gnral on estime leffet moyen
des variables explicatives.

Remarque 3. Il faut souligner que le terme linaire sapplique en fait au
vecteur et non aux variables explicatives ; par exemple : la rgression polynomiale

0
+
1
X +
2
X
2
+ . . . +
k
X
k


est un cas particulier du modle linaire gnral o on considre les k variables
explicatives X, X
2
, . . . , X
k
.


3. Conditions de Gauss Markov. Estimations des paramtres
du modle ( y ; X ;
2
Id )


Pour que les estimateurs des paramtres possdent des certaines proprits
statistiques ( utiles dans les applications ) nous allons utiliser les hypothses suivantes, dites
conditions de Gauss Markov :

E (
i
) = 0 ( 1 )
E (
2
i
) =
2
( 2 )
E (
i

j
) = 0 si i j ( 3 )

pour toutes i, j = 1, , n.
Matriciellement on crit :

E ( ) = 0 , E (
t
) =
2
I
n

29

Remarques 1. Tenant compte de conditions Gauss Markov on a :

E ( y ) = X
et
cov ( y ) = E ( ( y - X ) ( y - X )
t
) = E (
t
) =
2
I
n
.

2. En utilisant la relation (6 ) du premier paragraphe on obtient aussi :

E (e e
t
) = M E (
t
) M =
2
I
n

puisque M est idempotente ( voir la remarque 5. 1. ). Alors il vient :

V (e
i
) =
2
m
ii
=
2
( 1 a
ii
)

o par m
ij
, respectivement a
ij
on dsigne le ij lment de M, respectivement de A.

Remarque 3. Tenant compte que la variance est positive, de la relation prcdente
il rsulte que a
ii
1.

Soit b = ( X
t
X)
-1
X
t
y lestimation du vecteur par la mthode des moindres
carrs.

Thorme 1. Sous les conditions de Gauss Markov, b est un estimateur sans
biais de ; en plus, la matrice variance covariance de b est de la forme :

cov ( b ) =
2
( X
t
X)
-1
.

Dmonstration. Puisque X est un oprateur linaire et elle est constante, il vient :

E ( b ) = ( X
t
X)
-1
X
t
E ( y ).

30
Dautre part on a E ( y ) = X par lhypothse du modle linaire gnral et tenant
compte de la condition ( 1 ) ; alors on obtient :

E ( b ) = ( X
t
X)
-1
X
t
X =

c'est--dire la premire affirmation du thorme.
Si on note D = ( X
t
X)
-1
X
t
, pour la matrice variance covariance de b on a :

cov ( b ) = D cov ( y ) D
t
= ( X
t
X)
-1
X
t
cov ( y ) X ( X
t
X)
-1


et en utilisant maintenant la remarque 1 : cov ( y ) =
2
I
n
on obtient la formule dsire

cov ( b ) =
2
( X
t
X)
-1
.

Remarque 4. Pour prouver la premire affirmation du thorme on a utilis
seulement la condition de Gauss Markov ( 1 ) .

A prsent nous allons chercher parmi les estimateurs sans biais de celui de
variance minimale. Soit By un autre estimateur sans biais de et on considre la
diffrence de ces deux estimateurs ( X
t
X)
-1
X
t
y B y ; puisquils sont sans biais on a

( X
t
X)
-1
X
t
X = B X , pour tout .

Alors on obtient B X = I
n+1
et si on note B = ( X
t
X)
-1
X
t
+ C, on en dduit

C X = 0 ( 4 )
Pour la matrice variance covariance de By on a :

cov ( By ) = B cov ( y ) B
t
= [( X
t
X)
-1
X
t
+ C]
2
I
n
[( X
t
X)
-1
X
t
+ C]
t
=

=
2
[( X
t
X)
-1
X
t
X ( X
t
X)
-1
+ C X ( X
t
X)
-1
+ ( X
t
X)
-1
X
t
C
t
+ C C
t
] =
31

=
2
[( X
t
X)
-1
+ C C
t
]
puisque C X = 0 ( voir la relation 4 ). Alors il vient :

cov ( By ) = cov ( b ) +
2
C C
t


et donc il rsulte que chaque composante de b est un estimateur meilleur que (By )
i
.
Dautre part, cov ( By ) - cov ( b ) est semi positive dfinie car les termes diagonaux de
la matrice C C
t
sont positifs ou nuls.

Nous avons obtenu le rsultat suivant appel thorme de Gauss Markov :

Thorme 2. b est de tous estimateurs sans biais de , de la forme By, celui de
variance minimale dans le sens prcis ci dessus.

Corollaire. Si pour n on a tr [( X
t
X)
-1
] 0 , alors b est un estimateur
consistant de .

Dmonstration. Vu la formule :

cov ( b ) =
2
( X
t
X)
-1


et tenant compte de lhypothse il vient que cov ( b ) 0 pour n , c'est--dire que
b est un estimateur consistant de .

Pour estimer
2
il existe le rsultat :

Thorme 3. s
2
= || y y
*
||
2
/ (n k 1) = || y X b ||
2
/ (n k 1) est un
estimateur sans biais et consistant de
2
.

Dmonstration. Puisque e = y y
*
= y - X b , en utilisant la relation 6.1. on a :
32

|| y X b ||
2
= e
t
e =
t
M
t
M =
t
M

car M est une matrice symtrique et idempotente (voir la remarque 5.1.). Alors on
obtient :
|| y X b ||
2
=

=
+
n
j i
j i j i
n
i
i i i
m m
1
2
. ( 5 )
o par m
ij
on dsigne les lments de la matrice M = I
n
A , avec A = X ( X
t
X)
-1
X
t
.
En prenant lesprance dans les deux membres de la relation ( 5 ) on a:

E ( || y X b ||
2
) = ) ( ) (
1
2

=
+
n
j i
j i j i
n
i
i i i
E m E m .

En utilisant prsent les conditions de Gauss - Markov (2 ) et (3 ) il vient :

E ( || y X b ||
2
) =

=
n
i
i i
m
1
2
=
2
tr M .

Dautre part, vu les proprits de la trace dune matrice on a :

tr A = tr [X ( X
t
X)
-1
X
t
] = tr [X
t
X ( X
t
X)
-1
] = tr I
k+1
= k + 1

tr M = tr I
n
tr A = n k 1

do la premire affirmation du thorme:

E ( || y X b ||
2
) =
2
( n k 1 )

Pour la consistance on crit s
2
=
t
M / (n k 1) =
t
( I
n
A) / (n k 1) ; on
va utiliser lingalit de Markov :

33
Prob ( | X |
r
r
a
X E
a
) (
)

et premirement il faut valuer E (
t
A ). Tenant compte que
t
A est un scalaire il
vient que sa trace concide avec
t
A et alors on a :

E (
t
A ) = E ( tr (
t
A )) = E ( tr (A
t
)) = tr ( A E (
t
)) =
2
tr A =
2
( k + 1).

Vu lingalit de Markov pour r = 1 on obtient :

Prob [(
t
A )( n k 1)
-1
) 1 (
) 1 (
]
2

+

k n
k

0 pour n (6)

Maintenant on crit
t
/ (n k 1) = (
t
/ n )
1 k n
n
et en utilisant la loi de
grands nombres on a :

(
t
/ n )
2

prob
; (7)

puisque
1 k n
n
1 pour n il rsulte finalement de relations (6) et (7) que s
2

est aussi un estimateur consistant de
2
.

Remarques 4. Si
2
nest pas connu, alors un estimateur sans biais et consistant
de cov ( b ) est donn par la formule
s
2
( X
t
X)
-1
.

5. Gomtriquement, y
*
= X b est la projection orthogonale de y sur le sous
espace V engendr par 1, x
1
, x
2
, , x
k
( voir la remarque 6.1. ).
On sait que loprateur de projection orthogonale sur V est A = X ( X
t
X)
-1
X
t
et
alors le projecteur sur le complment orthogonal de V est exactement I
n
A = M; puisque
34
y X b est orthogonal V, on observe immdiatement que y X b est gal M e. Ainsi
on obtient une autre dmonstration de la premire affirmation du thorme 3.

Cas particulier. Si e
i
suit une loi normale N ( 0; ) pour tout i = 1, ,n , alors
le vecteur alatoire y est gaussien n dimensionnel : y N
n
( X , I
n
) et sa densit est
de la forme :
D ( y, , ) =
n
) 2 (
1

exp[ - 1/ 2
2
(y - X )
t
(y - X ) ].

On peut prouver le rsultat suivant :

Proposition 1. Les estimateurs de maximum de vraisemblance de et
2
sont
b = ( X
t
X)
-1
X
t
y, respectivement || y X b ||
2
/ n , le dernier tant biais.

Puisque la proprit du maximum de vraisemblance ne donne pas des informations
sur loptimalit des estimateurs, on va dterminer des statistiques pour les paramtres
inconnus et
2
afin dtudier lefficacit de leurs estimateurs.
La densit de y scrit :

D ( y, , ) =
n
) 2 (
1

exp[ - (1/ 2
2
) (y y
t
- 2
t
X
t
y +
t
X
t
X ) ] ;

en utilisant les notations suivantes :

a ( , ) =
|
|

\
|

2 2
1
2
0
2
., . . , , ,
2
1

k
,

T ( y ) =
|
|

\
|
y X
y y
t
t
et C ( , ) = - (
t
X
t
X ) / 2
2


il vient
35

D ( y, , ) =
n
) 2 (
1

exp[a ( , ) T ( y ) + C ( , ) ].

Puisque le vecteur y ( c. a. d. le domaine de dfinition de T ) ne dpend pas de
ni de
2
, et le rang de X est gal k+1, il rsulte que loprateur T est bijectif ; alors on
sait que T ( y ) est une statistique et donc les estimateurs concerns tant des fonctions
de T sont des estimateurs sans biais de variance minimale de et
2
.

Remarques 6. Le vecteur b = ( X
t
X)
-1
X
t
y est gaussien :

b N
k+1
( , ( X
t
X)
-1

2
)

puisquil est le transform linaire dun vecteur gaussien.

7. Car le vecteur e est gaussien - les e
i
suivent indpendamment des lois normales
N ( 0; ) - il rsulte que || e ||
2
/
2
suit une loi khi carr dordre n. En utilisant
maintenant le thorme de Pythagore dans le triangle rectangle de cts y, y
*
= X b, X :

|| e ||
2
= || y X b ||
2
+ || X X b ||
2


on obtient que || X X b ||
2
/
2
suit une loi khi carr dordre k +1 et || y X b ||
2
/
2

suit une loi khi carr dordre n k -1.
Ainsi on peut dterminer des intervalles de confiance pour .


36

4. Tests dans le modle linaire


Tout dabord on prsente la liaison qui existe entre la somme des carrs rsiduelle,
la somme des carrs des observations et la somme des carrs des valeurs ajustes -
c.a.d. issues dun ajustement .

Proposition 1. On a :

=

=
n
i
i
e
1
2

=
n
i
i
y
1
2
+

=
n
i
i
y
1
2 *
) ( = (

=
n
i
i
y
1
2
- n y ) (

=
n
i
i
y
1
2 *
) ( - n y )

Dmonstration. Il vient successivement :

=
n
i
i
y
1
2
=

=
+
n
i
i i i
y y y
1
2 * *
) ( =

=
n
i
i
e
1
2
+

=
n
i
i
y
1
2 *
) ( + 2
*
1
i
n
i
i
y e

=
;

tenant compte prsent de la proposition 1.1. on obtient la premire galit de lnonc.
La deuxime affirmation est immdiate.

Corollaire 2. ( voir aussi 1.3.b.) Si
0
0 on a:

=

=
n
i
i
e
1
2

=

n
i
i
y y
1
2
) ( -

=

n
i
i
y y
1
2 *
) (

Dmonstration. Vu le corollaire 1.2. il vient que 0
1
=

=
n
i
i
e et alors on a :

=
n
i
i
y
1
=

=
n
i
i
y
1
*


37
c.a.d. : la moyenne des observations concide avec la moyenne des valeurs ajustes. En
utilisant maintenant la deuxime affirmation de la proposition prcdente on obtient
successivement :

=

=
n
i
i
e
1
2
(

=
n
i
i
y
1
2
- n y ) (

=
n
i
i
y
1
2 *
) ( - n y ) =

=

n
i
i
y y
1
2
) ( -

=

n
i
i
y y
1
2 *
) (

Car la somme des carrs rsiduelle dpends de lunit utilise pour mesurer les
observations y
i
, on introduit le coefficient de dtermination, savoir :

R
2
= 1 -

=
=

n
i
i
n
i
i
y y
e
1
2
1
2
) (
pour
0
0 (1)
et
R
2
= 1 -

=
=
n
i
i
n
i
i
y
e
1
2
1
2
pour
0
= 0 (2)

Remarques 1. Il est vident quon ne peut pas comparer, en termes de R
2
, les
modles terme initial
0
avec les modles sans
0
.

2. En utilisant le corollaire 2 il rsulte de la formule (1) que R
2
[ 0, 1] ; si
R
2
= 1 il vient que y
i
= y
i
*
pour tout i = 1, , n et donc lajustement est optimal.
En conclusion, le coefficient de dtermination est loutil parfait pour lajustement de
y par y
*
.

La racine carr du coefficient de dtermination est exactement le coefficient de
corrlation R entre les observations y
1
, , y
n
et les valeurs y
1
*
, , y
n
*
- c.a.d. la valeur
maximale du coefficient de corrlation linaire simple entre les composantes du vecteur y
et les composantes de tout vecteur de la forme X b .
38
Dans le cas du modle qui possde un terme initial
0
on dfinit :

R =

= =
=


n
i
n
i
i i
n
i
i i
y y y y
y y y y
1 1
2 * 2
1
*
) ( ) (
) ( ) (
(3)

On va prouver que son carr est le coefficient de dtermination donn par la formule
(1), exprim en termes de variance explique ; en effet on a successivement :

=
=
n
i
i i
y y y y
1
*
) ( ) (

=
= +
n
i
i i i i
y y y y y y
1
* * *
) ( ) (

=

=
+
n
i
i i i
y y y y
1
* *
) ( ) (

=
=
n
i
i
y y
1
2 *
) (
*
1
i
n
i
i
y e

=
- +

=
n
i
i
e y
1

=
=
n
i
i
y y
1
2 *
) (

=

=

n
i
i
y y
1
2 *
) (
tenant compte de la proposition 1.1. et du corollaire 1.2.

Alors, pour
0
0, il vient que
R
2
=

=
=

n
i
i
n
i
i
y y
y y
1
2
1
2 *
) (
) (
;

en utilisant maintenant le corollaire 2 de ci-dessus, on obtient la formule (1).

Remarques 3. Car R est positif il rsulte aussi que R[ 0, 1] .

4. Le coefficient de dtermination R
2
est utile dans lanalyse de variance de la
rgression ( pour tester la qualit de lajustement ).
39

5. Dans le cas du modle qui possde un terme initial
0
, on utilise parfois le
coefficient de dtermination ajust, savoir :

R
2
a
= 1 -
) 1 ( / ) ) ( (
) 1 ( / ) (
1
2
1
2

=
=
n y y
k n e
n
i
i
n
i
i
.

On observe que le coefficient de dtermination ajust peut prendre des valeurs
ngatives dans un voisinage de 0.

6. Un calcul simple montre que lestimateur de
2
( voir la proposition 1.3.) est
gal
2 2
) 1 (
1
y a
s R
n
n

- on laisse la dmonstration au soin du lecteur appliqu !



Dans le cas dun modle sans le terme initial
0
on dfinit :

R =

= =
=
n
i
n
i
i i
n
i
i i
y y
y y
1 1
2 * 2
1
*
) (


On va montrer que son carr est le coefficient de dtermination donn par la
formule (2) ; on a successivement :

=
=
n
i
i i
y y
1
*
y
t
y
*
= y
t
X b = y
t
X ( X
t
X)
-1
X
t
y =
= y
t
X ( X
t
X)
-1
( X
t
X) ( X
t
X)
-1
X
t
y = b
t
X
t
X b = ( y
*
)
t
y
*
=

=
n
i
i
y
1
2 *
) ( .

40
A prsent on utilise la proposition 1 de ci-dessus, en obtenant pour le coefficient
de dtermination :

R
2
=

=
=
n
i
i
n
i
i
y
y
1
2
1
2 *
) (
=


=
= =

n
i
i
n
i
n
i
i i
y
e y
1
2
1 1
2 2
= 1 -

=
=
n
i
i
n
i
i
y
e
1
2
1
2


c'est--dire la formule (2) valable pour
0
= 0.

Remarque 6. On observe que dans le cas dun modle avec
0
= 0 on a aussi
R
2
[ 0, 1] .

On peut dmontrer que
2
1
2 *
) (

=

n
i
i
y y

suit une loi khi carr dordre k pour
0
0,
1
=
2
= . . . =
k
= 0 car on sait que
2
1
2

=
n
i
i
e
suit une loi khi carr dordre n-k-1
pour tout vecteur .
Sous lhypothse de non-rgression ( c.a.d.
1
=
2
= . . . =
k
= 0 ) il vient alors
que

2
1
2
) (

=

n
i
i
y y
suit une loi khi carr dordre n-1
comme variance dun chantillon de variables normales de mmes lois.
En plus on a que

41
=

k
k n
R
R 1
1
2
2
k
k n
e
y y
n
i
i
n
i
i
1
) (
1
2
1
2

=
=
suit une loi F (k; n-k-1 )

pour
1
=
2
= . . . =
k
= 0 et
0
quelconque.

Remarques 7. On retrouve alors, comme un cas particulier, la loi du coefficient de
corrlation usuel si k = 1.

8. Lhypothse de non-rgression :
1
=
2
= . . . =
k
= 0 correspond lannulation
du coefficient de corrlation multiple thorique quand on considre la rgression entre
variables alatoires.











42


ANALYSE FACTORIELLE

1. Vecteurs et valeurs propres

Pour chaque matrice ( ) R , n , n M A on peut associer une application
n n
A
R R : f qui sur une baisse { }
n 2 1
e ,.. e , e agit de la manire suivante
( )
j i , j
n
1 j
i A
e a e f

=
=
Dans les considrations suivantes { }
n 2 1
e ,.. e , e cest la base canonique de
n
R . Si
n
i i i
R e x x =

alors ( ) x f y
A

= scrit
i i i
e y y

= avec les coordonnes
|
|
|
|
|
|

\
|
|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
n
3
2
1
n , n 2 , n 1 , n
n , 3 3 , 2 1 , 3
n , 2 3 , 2 2 , 2 1 , 2
n , 1 3 , 1 2 , 1 1 , 1
n
2
2
1
x
..
x
x
x
a .. .. a a
.. .. .. .. ..
a .. .. a a
a . a a a
a .. a a a
y
.
y
y
y
(1)

Un vecteur
n
R v

, 0 v

, sappelle vecteur propre pour lapplication linaire


A
f
(ou pour la matrice A) sil existe R ainsi que
( ) v v f
A

= (2)
Lapplication
A
f peut tre considre dfinie sur lespace vectoriel complexe
n
C
avec des valeurs dans
n
C par la mme formule (1) dans la base canonique de
n
C qui est
dans le mme temps la base canonique de
n
R comme espace vectoriel rel. Pour
n
C x

les
coordonnes
x
1
,x
2
,..x
n et aussi les coordonnes
n 2 1
y ,.. y , y du vecteur ( ) x f y
A

= sont
des nombres complexes. Les valeurs et les vecteurs propres sont dfinis dans le cas
complexe par la mme quation (2) avec la mention que 0 v

et les coordonnes de v

et
la valeur propre sont gnralement des nombres complexes.
43
Dans la suite lapplication
A
f sera considre dfinie sur
n
C a valeurs dans
n
C . Si
la matrice A est relle alors le sous espace
n n
C R est transforme dans le sous espace
n
R .
Si
n
n n 1 1
C e x ... e x v + =

alors lquation (2) scrit laide de (1)

|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
|
|
|
|
|
|

\
|
n
3
2
1
n
3
2
1
n , n 2 , n 1 , n
n , 3 3 , 2 1 , 3
n , 2 3 , 2 2 , 2 1 , 2
n , 1 3 , 1 2 , 1 1 , 1
x
..
x
x
x
x
..
x
x
x
a .. .. a a
.. .. .. .. ..
a .. .. a a
a . a a a
a .. a a a

or
i
1
1 j
j j , i
x x a =

=

or

|
|
|
|
|
|

\
|
=
|
|
|
|
|
|

\
|
|
|
|
|
|
|

\
|



0
..
0
0
0
v
..
v
v
v
a .. .. a a
.. .. .. .. ..
a .. .. a a
a . a a a
a .. a a a
n
3
2
1
n , n 2 , n 1 , n
n , 3 3 , 2 1 , 3
n , 2 3 , 2 2 , 2 1 , 2
n , 1 3 , 1 2 , 1 1 , 1
(3)

Cet system admet une solution non identiquement nulle si et seulement si

0
a .. .. a a
.. .. .. .. ..
a .. .. a a
a . a a a
a .. a a a
det
n , n 2 , n 1 , n
n , 3 3 , 2 1 , 3
n , 2 3 , 2 2 , 2 1 , 2
n , 1 3 , 1 2 , 1 1 , 1
=
|
|
|
|
|
|

\
|



(4)

Lquation (4) sappelle lquation caractristique de la matrice A et possde n
racines rels ou complexes qui sont les valeurs propres de la matrice A. Les vecteurs
propres se trouvent par la rsolution du systme (3). Un ensemble de vecteurs propres qui
44
correspondent des valeurs propres distinctes est un ensemble indpendant. Tous les
vecteurs propres qui correspondent une valeur propre donne, inclusivement le vecteur
zro forment un espace vectoriel appel lespace propre de la valeur propre donne. La
dimension de lespace propre peut tre plus grand que un. Dans ce cas la valeur propre cest
une racine dordre plus grand que un du polynme caractristique de la matrice.
Gnralement si une valeur propre est racine dordre k du polynme caractristique alors il
existe aux plus k vecteurs propres linairement indpendants pour cette valeur propre. La
dimension de lespace correspondant propre ne dpasse pas k.


2. Matrices symtriques


Une matrice ( ) R , n , n M A sappelle matrice symtrique si a a
i , j j , i
= pour
chaque paire dindices n j , i 1
Soit dans
n
R ou dans
n
C la forme bilinaire
( )
i i
n
1 i
y x y , x

=
=

(5)
La condition de symtrie pour une matrice A cest quivalente a
( ) ( ) ( ) ( ) y f , x y , x f
A A

= (6)
pour chaque
n
R y , x

. La condition scrit en coordonnes
i j j , i
n
1 j
n
1 i
i j j , i
n
1 j
n
1 i
x y a y x a

= = = =
= (7)
Pour une matrice ( ) R , n , n M A on peut associer une fonction bilinaire
C C C : F
n n
A
or R R R : F
n n
A
par la formule
( ) ( ) ( )

=
= =
n
1 j , i
A j i j , i A
y f , x y x a y , x F

(8)
Si la matrice A est symtrique alors la forme F est symtrique, cest a
dire ( ) ( ) x , y F y , x F
A A

= , conformment a (7) et (8).
45
Remarquons que la formule (5) nous donne un produit scalaire sur
n
R . Pour les
matrices symtriques relles nous avons le rsultat suivant

Thorme 1. Si ( ) R , n , n M A est une matrice symtrique alors
a) toutes les valeurs propres de A sont relles
b) les vecteurs propres qui correspondent a des valeurs propres distinctes sont
orthogonaux par rapport aux produit scalaire de
n
R ( )
i i
n
1 i
y x y , x

=
=

.
c) il existe une base de
n
R forme de n vecteurs propres orthogonaux.
d) si
n 2 1
.. sont les valeurs propres alors
( ) ( )
( )
|
|
|
|

\
|
= =

=
=

=
n
1 i
2
i
n
1 j , i
j i j , i
V x
k V dim , R V
A
V x
k V dim , R V
k
x
x x a
min max
x , x
x , x f
min max
n n


(9)

Demonstration. a) Soit C une valeur propre et
n
C x 0

le vecteur propre
correspondant. Alors
( )

= = = = =
= =
|
|

\
|
=
n
1 i
i i
n
1 i
i i
n
1 i
n
1 j
j i,j i
n
1 j , i
j i j , i
x x x x x a x x x a
La mme somme peut scrire

= = = = =
= = |

\
|
=
n
1 j
j j
n
1 j
j j
n
1 j
n
1 i
i i , j j
n
1 j , i
j i j , i
x x x x x a x x x a

Lgalit de ces deux expressions nous donne

, cest dire R . Comme


consquence les vecteurs propres qui correspondent a , solutions du systme (3) peut tre
choisis avec les coordonnes relles.
La dmonstration peut tre prsente indpendamment dune base.
b) Si
2 1
sont des valeurs propres relles de A et ( )
n 2 1 1
x ,.. x , x v =

, ( )
n 2 1 2
y ,.. y , y v =


sont des vecteurs propres correspondants alors
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
2 1 1 2 1 1 2 1 A 2 A 1 2 2 1 2 1 2
v , v v , v v , v f v f , v v , v v , v

= = = = =
46
Parce que

1

2 il rsulte ( ) 0 v , v
2 1
=

.
c) Soit

1 la plus grande valeur propre et


1
v

le vecteur propre correspondant. Le sous


espace
n
R V des vecteurs de
n
R orthogonaux a
1
v

cest un espace invariant a


lapplication
A
f parce que ( ) 0 v , v
1
=

implique
( ) ( ) ( ) ( ) ( ) ( ) 0 v , v v , v v , v f v f , v
1 1 1 1 1 A A 1
= = = =


Supposant par induction sur la dimension de lespace que la restriction de
A
f sur V (qui est
aussi symtrique dans le sens de la formule (6)) a sur V (dim V=n-1), une base de n-1
vecteurs propres orthogonaux
n 3 2
v ,.. v , v

alors sur
n
R
A
f aura la base de n vecteurs
propres orthogonaux
n 2 1
v ,.. v , v

.
d) Soit
n 2 1
v ,.. v , v

une base de
n
R forme de n vecteurs propres normalises (cest a dire
( ) 1 v , v
i i
=

, ( ) 0 v , v
j i
=

pour j i ) de la matrice A et soit les valeurs propres en ordre
dcroissante
n 2 1
.. . Dans cette base ( )
n n n 1 1 1 A
v x .. v x x f

+ = pour
n n 1 1
v .. v x x

+ = . Pour le produit scalaire nous avons
( ) ( )
i i j i j i
y x v , v y x y , x

= =


Pour un sous espace
n
R V , k V dim = et pour
1 k n
R
+
le sous espace engendre par
n 1 k k
v ,.. v , v

+
nous avons } 0 { R V
1 k n


+
parce que la somme des dimensions dpasse n.
Soit
1 k n
R V x 0
+

. Alors
n n 1 k 1 k k k
v b .. v b v b x

+ + =
+ +
et nous avons
( ) ( )
( )
( )
k 2
n
2
k
2
n
2
k k
2
n
2
k
2
n n
2
k k A
b .. b
b .. b
b .. b
b .. b
x , x
x , x f
=
+
+

+
+
=



Il rsulte
( ) ( )
( ) k x , x
x , x f
V x
A
min



(10)
Mais si nous prenons
k 2 1
v R .. v R v R ' V

= alors
( ) ( )
( )
( )
( )
k 2
k
2
2
2
1
2
k
2
2
2
1 k
2
k
2
2
2
1
2
k k
2
2 2
2
1 1 A
x .. x x
x .. x x
x .. x x
x .. x x
x , x
x , x f
=
+ + +
+ + +

+ + +
+ + +
=



et pour ce sous espace nous avons
( ) ( )
( ) k x , x
x , x f
' V x
A
min =



(11)
47
le minimum tant atteint pour
k
v x

= . Les formules (10) et (11) nous donnent
( ) ( )
( ) k x , x
x , x f
V x
k V dim , R V
a
n
min max =

=


.
CQFD.
Nous appellerons
n 2 1
,.., , les valeurs propres de la matrice A, ou de
lapplication linaire
A
f ou de la forme bilinaire
A
F .

Remarque 1. Dune manire analogue on peut dmontrer
( ) ( )
( ) x , x
x , x f
max min
A
V x 1 k n V dim , R V
k
n


+ =
= (12)
Corollaire 1. a) Si
n
R X est un sous espace avec m ) X dim( = alors la
restriction de
A
F sur X X note R X X : F
X
A
est symtrique et elle est donne par la
formule ( ) ( ) ( ) ( ) ( ) y f Pr , x y f , x y , x F
A X A
X
A


= = ou
X
Pr est la projection orthogonale sur X.
b) Lapplication linaire X X : f
X
A
, ( ) ( ) ( ) v f Pr v f
A X
X
A

= est une application symtrique
par rapport aux produit scalaire, cest a dire ( ) ( ) ( ) ( ) y f , x y , x f
X
A
X
A

= pour chaque
X y , X x

.
c) Si


m 2 1
.. sont les valeurs propres de lapplication
X
A
f (ou de la forme
bilinaire
X
A
F ) alors


m m 2 2 1 1
.., , ,
Demonstration. a) et b) sont videntes et c) rsulte de (9) parce que dans la formule
pour
k
sont pris plusieurs sous espaces V de
n
R que dans la formule correspondante pour
k
' ou les sous espaces sont pris seulement de X.

Remarque 2. Dune manire analogue de la formule (12) il rsulte


1 1 m n 1 m 1 n m n
.., , ,

Corollaire 2. La somme ( ) ( ) ( )

= =
=
k
1 i
k
i i
i A i i i A
v f , v v , v F

est maximum parmi toutes
les k-uples des vecteurs
k 2 1
v ,.. v , v

orthonorms de
n
R si
k 2 1
v ,.. v , v

sont les vecteurs
48
propres des k plus grandes valeurs propres de
A
f et cest minimum si
k 2 1
v ,.. v , v

sont les
vecteurs propres correspondant aux k plus petites valeurs propres de
A
f . La valeur
maximum est
i
k
1 i

=
et la valeur minimum est
i
p
1 k p i

+ =
.
Demonstration. Pour prouver laffirmation sur le maximum remarquons que pour
( )
k 2 1
v ,.. v , v Sp X

= nous avons ( ) ( ) ( ) ( )
i
X
A i
k
1 i i A i
k
1 i
v f , v v f , v

=
= =
et cette somme cest la
trace de lapplication
X
A
f et la trace ne dpend pas de la base choisie. Choisissant une base
orthonorme des vecteurs propres de
X
A
f nous obtenons de lobservation prcdente
( ) ( ) ( ) ( ) ( )
i
k
1 i
i
k
1 i
i i i
k
1 i
i
X
A i
k
1 i
i A i
k
1 i
' v , v ' v f , v v f , v = = =

= = = = =


dou le rsultat.
Pour le minimum laffirmation peut tre prouve dune manire analogue.

Remarque 3. Si A est une matrice symtrique alors lquation x x A

= nous donne
par transposition
t t
x A x

= cest a dire si x

est un vecteur propre colonne (ou a gauche)


de A alors
t
x

est un vecteur propre ligne (ou a droite) de A.




3. Axes factorielles

Soit un ensemble de points de
p
R dont les coordonnes forment une matrice Mde
( ) R , p , n M
|
|
|
|
|
|

\
|
=
p , n 2 , n 1 , n
p , 3 3 , 2 1 , 3
p , 2 3 , 2 2 , 2 1 , 2
p , 1 3 , 1 2 , 1 1 , 1
x .. .. x x
.. .. .. .. ..
x .. .. x x
x . x x x
x .. x x x
M (13)
Chaque ligne est un vecteur de
p
R . Soit
) m ,... m , m ( m
p 2 1
=


49
le centre des mass des lignes cest dire
n
x
m
n
1 i
j , i
j

=
= (14)
Soit { }
p 2 1
v ,... v , v

une base orthonorme de
p
R . Alors les coordonnes des points
) x ,... x , x ( x
p , i 2 , i 1 , i i
=

peuvent tre crites


k k , i
p
1 k
p , i 2 , i 1 , i i
v t m ) x ,... x , x ( x

=
+ = = (15)
pour i=1,2,..n. Soit ( )
p , 1 k ; n , 1 i
k , i
t T
= =
= la matrice des coordonnes des points m x
i

par
rapport la base { }
p 2 1
v ,... v , v

.
La projection orthogonale de
i
x

sur le plan
r
P de dimension r passant par m

et
parallle aux vecteurs
r 2 1
v ,.. v , v

, p r est

k k , i
r
1 k
'
i
v t m x

=
+ = (16)
Nous cherchons les vecteurs orthonorms
r 2 1
v ,.. v , v

ainsi que lexpression

=
=
n
1 i
2 '
i i
2
|| x x || d

soit minimum. Cette expression cest la somme des carres des distances
des points donnes au plan
r
P . Nous avons le rsultat suivant

Thorme 2. Soit M une matrice de donnes (comme (13)) et
) m ,... m , m ( m
p 2 1
=

un point de
p
R (pas ncessairement le centre des mass). Soit
1
M la
matrice obtenue de M par le retranchement de m

de chaque ligne. Alors une famille


orthonorme { }
r 2 1
v ,... v , v

de vecteurs ligne ainsi que
2 '
i i
n
1 i
2
|| x x || d

=

=
est minimum, ou
'
i
x

sont les projection de


i
x

sur le r plan qui passe par m

et est parallle aux vecteurs


{ }
r 2 1
v ,... v , v

, cest la famille des vecteurs propres ligne orthonorms de la matrice
1
t
1
M M A = correspondant aux premires valeurs propres de A en ordre dcroissante. En
plus nous avons
k
p
1 r k
2
d =

+ =
.
50
Demonstration. Soit ( )
p , k 2 , k 1 , k k
v ,... v , v v =

pour k=1, 2,..p une compltion de la


famille orthonorme a une base orthonorme et soit
|
|
|
|
|
|

\
|
=
p , p 2 , p 1 , p
p , 3 3 , 2 1 , 3
p , 2 3 , 2 2 , 2 1 , 2
p , 1 3 , 1 2 , 1 1 , 1
v .. .. v v
.. .. .. .. ..
v .. .. v v
v . v v v
v .. v v v
V
Alors { }
t
p
t
2
t
1
v ,... v , v

est une base orthonorme des vecteurs colonne de
n
R . Nous avons
Id V V V V
t t
= = . Soit les coordonnes de
i
x

et
'
i
x

exprimes par (15) et (16) a laide de


la matrice ( )
p .. 1 k ; n .. 1 i
k , i
t T
= =
= . Soit ( ) ( )
k , n k , 2 k , 1
t
k
t ,... t , t t =

. Lquation (15) scrit V T M


1
=
or
t
1
V M T = or
t
k 1 k
v M t

= pour k=1,2,...p.
Nous avons
( ) ( )
( ) ( ) ( )
t
k
t
k
p
1 r k
t
k k
p
1 r k
t
k 1
t
1 k
p
1 r k
k
t
k
p
1 r k
2
k , i
n
1 i
p
1 r k
2
k , i
p
1 r k
n
1 i
2
k k , i
p
1 r k
n
1 i
2
i i
n
1 i
2
v A , v v A v v M M v t t
t t v t || x x || d



= = = =
= = = =


+ = + = + = + =
= + = + = = + = =

=

Conformment au corollaire 2 si les vecteurs
t
p
t
,... 2 r
t
1 r
v v , v

+ +
sont les vecteurs propres colonne
de A correspondant aux p-r les plus petites valeurs propres
1 r+
,..
p
alors
2
d est
minimum. Comme lespace engendre par { }
t
r
t
2
t
1
v ,... v , v

est orthogonal a lespace engendre
par } v v , v {
t
p
t
,... 2 r
t
1 r

+ +
nous pouvons prendre pour { }
t
r
t
2
t
1
v ,... v , v

les vecteurs propres colonne de
A correspondant aux valeurs propres
r 2 1
..., , . Le corollaire 2 nous donne
k
p
1 r k
2
d =

+ =
.
CQFD.
Dans la suite nous prenons pour m

le centre des mass des points donns par (13).


Les axes passant par m

et parallles aux vecteurs


p 2 1
v ,... v , v

sappelles les axes
factorielles de lensemble donne des points. Les coordonnes dans la base canonique des
points projets
'
i
x

forment une matrice ' M . Par dfinition


1
M et
'
1
M sobtient de M
respectivement ' M par retranchement de m

dans chaque ligne. Nous avons


51
( )
2 '
1 1 k
p
1 r k
2
i i
n
1 i
n
1 i
p
1 k
2
'
k , i k , i
2
|| M M || || x x || x x || M M || = = = =

+ =

= = =


( )

= = =
= = =
p
1 i
i 1
t
1
p
1 k
n
1 i
2
k , i
2
1
M M Trace x M
Si le rapport
2
1
2 '
1 1
k
p
1 k
k
p
1 r k
k
p
1 k
k
r
1 k
|| M ||
|| M M ||
1 1

=


=


=
+ =
=
=

est assez proche de 1 alors
2
1
2 '
1 1
|| M ||
|| M M ||
est assez petite et nous pouvons considrer
'
1
M une
approximation bonne pour la matrice
1
M ou la mme chose ' M une bonne approximation
de la matrice M. Lavantage cest que les vecteurs ligne de la matrice ' M peut tre
reprsents par leurs coordonnes dans la basse des vecteurs propres
p 2 1
v ,... v , v

, cest a
dire par la matrice ( )
r , 1 k ; n , 1 i
k , i
t
= =
. A la place de np coefficients des donnes (13) nous avons
besoin pour construire ' M de
2
p coefficients pour la basse } v ,... v , v {
p 2 1

, nr coefficients
( )
r , 1 k ; n , 1 i
k , i
t
= =
et p coefficients ( )
n .. 1 i i
m
=
. Si le nombre n des donnes est assez grand par
rapport au nombre p des caractristiques de chaque point, et le rapport
k
p
1 k
k
r
1 k


=
=
est assez
proche de 1 pour r petit par rapport a p alors ' M est une bonne approximation de M et le
rapport entre les nombres des coefficients ncessaires pour reprsenter ' M et le nombre des
coefficients de M est aussi petit
p
r
n
1 p
np
p nr p
2
+
+
=
+ +

ce que signifie une conomie de mmoire.
Exemple 1. Une image bitmap blanc et noire cest une matrice avec des valeurs
entre 0 et 255. Nous pouvons appliquer la thorie des axes factorielle pour rduire le
nombre des coefficients ncessaires pour retenir linformation contenue dans limage. Les
calculs suivants ont t effectues a laide de MATH CAD. Nous commenons par lire une
image :
52
M READBMP "e:\scoala\an6-2004-2005\dani.bmp" ( ) :=
M


Les indices des vecteurs et des matrices commencent a zro dans mathcad. Ici nous avons
n rows M ( ) := p cols M ( ) :=
n 686 = p 500 =

Lindice des lignes varie de 0 n-1 et lindice des colonnes varie de 0 p-1. Dans les
calculs suivants nous nous retenons seulement
r 50 :=

axes factorielles de p=500.
La matrice
1
M et la matrice A sont obtenus par les instructions suivants
j 0 cols M ( ) 1 .. :=
m
j
mean M
j

( )
:=
i 0 rows M ( ) 1 .. :=
M1
i j ,
M
i j ,
m
j
:=
A M1
T
M1 :=

Les premires et les dernires, par lordre de grandeur, des valeurs propres sont les
suivantes
53
vp eigenvals A ( ) := .


On voit la grande diffrence entre les plus petites valeurs propres qui sont de lordre 300 et
les plus grandes qui sont de lordre
9
10 . Les valeurs propres doivent tre toutes positives et
vp en ordre croissante mais par la cause des erreurs numriques les plus petites valeurs
propres ne sont toutes correctement ranges. Utilisant seulement r valeurs propres nous
trouvons
S vp

:= S 1.457 10
9
=
poz p r :=
poz 450 =
S1
poz
p 1
i
vp
i
=
:=
rap
S1
S
:= rap 0.99 =

Les vecteurs propres, ici vecteurs colonne, ranges dans lordre des valeurs propres sont
obtenus par linstruction
vects eigenvecs A ( ) := .

Ici vects cest la transpose de la matrice V de la thorie mais avec les vecteurs dans lordre
54
dcroissante des valeurs propres. Parce que les valeurs propres sont ranges dans lordre
dcroissante nous extrayons les derniers r vecteurs propres de la matrice vects.
vects1 submatrix vects 0 , p 1 , poz , p 1 , ( ) :=
.

Les coordonnes des points
'
i
x dans la base des vecteurs propres vects1 dans le plan
r
P sont
donnes par
coord M1 vects1 :=

Ici coord cest la matrice ( )
r , 1 k ; n , 1 i
k , i
t T
= =
= mais les vecteurs de la base de
r
P sont ranges
dans lordre croissant des valeurs propres. Cette matrice a un nombre dlments plus petits
que M, prcisment la fraction r/n du nombre de coefficients de M.
Maintenant nous construisons une approximation MA de M a laide des coefficients de T
(coord dans le programme)

M1A vects1 coord
T

( )
T
:=
i 0 rows M1 ( ) 1 .. :=
j 0 cols M1 ( ) 1 .. :=
MA
i j ,
M1A
i j ,
m
j
+ :=


La diffrence entre la matrice initiale M et la matrice MA construite laide de T est
(partiellement)

55
M MA
0 1 2 3 4 5 6
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
-0.97 -2.262 0.746 -2.533 -0.815 -0.395 -0.861
0.735 2.757 1.085 -1.832 -0.031 1.18510 -2.387
2.597 2.461 3.811 2.01 0.103 -1.957 -2.399
4.196 3.146 2.578 0.15 -0.752 -0.508 -0.842
3.897 2.712 4.066 3.109 0.82 -2.246 -1.741
4.199 4.742 4.82 2.652 1.365 1.838 1.05
4.146 3.593 4.864 2.09 2.092 2.387 0.657
2.75 3.983 4.978 2.824 3.788 1.038 0.09
3.231 4.429 4.399 4.577 3.714 -0.406 -1.124
4.386 3.681 3.811 4.074 3.131 -0.091 -1.602
2.782 4.033 4.265 2.693 1.945 1.465 0.939
2.865 3.058 2.385 1.266 1.588 0.74 0.059
2.022 2.244 1.539 3.32 1.648 0.912 0.138
3.572 2.103 0.712 5.101 -2.1 1.431
4.619 0.756 0.066 3.946 0.423 1.962 2.277
1.956 0.964 1.582 2.108 1.91 1.884 -0.339
=


Pour voir mieux la diffrence reprsentons les images correspondantes a ces matrices
M
MA

On voit la diffrence entre limage originale et limage construite a laide de r=50 vecteurs
propres de 500.


56


ANNEXE

Inverse gnralise dune matrice

Pour les matrices singulires on va introduire la notion suivante

Dfinition. Une matrice B est dite inverse gnralise de A si elle remplit la
relation ABA = A ; on va noter linverse gnralise de A par A
-
.

Exemples 1. Soit X une matrice avec m lignes et n colonnes, dont le rang = n
m ; alors une inverse gnralise de X est donne par la formule

X
-
= ( X
t
X)
-1
X
t


puisquon a : X X
-
X = X ( X
t
X)
-1
X
t
X = X .

2. Pour une matrice idempotente A il vient A
-
= A, car on a AAA = AA = A.

Remarques 1. Toutes les matrices possdent des inverses gnralises ; pour les
matrices non-singulires les inverses gnralises concident avec leures inverses car on a
AA
-1
A = A.

2. Si la matrice A est singulire, alors son inverse gnralise A
-
nest pas
unique.

3. Si A
-
est linverse gnralise de A : A A
-
A = A , alors il vient

A
-
A = A
-
A A
-
A
57

do il rsulte que la matrice A
-
A est idempotente. Dune manire analogue on montre que
A A
-
est idempotente.

4. Puisquon a : rang (A) = rang (A A
-
A) rang (A
-
A) rang (A), il rsulte que
rang (A) = rang (A A
-
).

En gnral, on peut prouver le rsultat suivant :

Proposition. Soit A une matrice avec m lignes et n colonnes ; alors B est une
inverse gnralise de A si et seulement si :
BA est idempotente et rang (BA) = rang (A)
ou
AB est idempotente et rang (AB) = rang (A) .

Alors on dmontre aisment les affirmations :

Corollaire. 1. On a : A (A
t
A)
-
A
t
A = A et A
t
A (A
t
A)
-
A
t
= A
t
( c'est--dire
(A
t
A)
-
A
t
est linverse gnralise de A, respectivement A (A
t
A)
-
est linverse
gnralise de A
t
).
2. La matrice A (A
t
A)
-
A
t
est symtrique, idempotente, de rang (A) et unique.

Dmonstration. Pour la premire partie on utilise la dfinition de linverse
gnralise ( savoir A
t
A A
t
A A
t
A = A
t
A ). Alors des simples calculs nous donnent les
affirmations du point 2 ; par exemple :

rang (A) = rang [A (A
t
A)
-
A
t
A] rang [A (A
t
A)
-
A
t
] rang (A) .


58


B I B L I O G R A P H I E


1. Armeanu I., Petrehus V., Probabilitati si statistic aplicate in biologie, Editions
MATRIX ROM, Bucarest, 2006.
2. Costinescu C., Probabilits et statistique mathmatique (recueil de problmes ),
Editions CONSPRESS, Bucarest, 2003.
3. Costinescu C., Popescu S.A., Mierlus-Mazilu I., Probabilitati si statistica tehnica
( teorie si probleme), Editions CONSPRESS, Bucarest, 2005
4. Gheorghe Mihoc, Virgil Craiu, Tratat de Statistic Matematic, vol I, II, Editura
Academiei R.S.R., 1976-1977
5. Iosifescu, M., Mihoc, Gh., Theodorescu, R., Teoria probabilitatilor i statistic
matematic, Ed. Tehnic, Bucureti, 1966.
6. Monfort A., Cours de statistique mathmatique, Editions ECONOMICA, Paris,
1982.
7. Petrehus V., Popescu S.A., Probabilitati si statistica ( teorie, exemple, probleme),
Editions de lUTCB, Bucarest, 1997.
8. Saporta G., Probabilits, analyse des donnes et statistique, Editions Technip,
Paris, 1990.
9. Sen A., Srivastava M., Regression Analysis Theory, Methods, and Applications,
Editions Springer- Verlag New- York Inc., 1990.
10. Spiegel M.R., Probabilits et statistique. Cours et problmes, Srie Schaum,
McGraw Hill Inc. New York, 1981.
11. Ventsel H., Thorie de probabilits, Editions de Moscou, 1973.

Anda mungkin juga menyukai