Anda di halaman 1dari 10

1 Analyse canonique des corrlations (ACC)

deux groupes de variables quantitatives et quelles permettent de retrouver


Analyse canonique des corrlations lanalyse des correspondances multiples (en remplaant chaque groupe par
les indicatrices dune variable qualitative), ainsi que lA.C.P. (en ne mettant
(ACC) quune seule variable quantitative dans chaque groupe). Nous ne nous intres-
serons ici qu lA.C. classique, entre deux groupes de variables quantitatives.
Rsum En dpit de sa place centrale au sein des mthodes de statistique multidi-
mensionnelle, pendant longtemps, lA.C. ntait pas (ou trs peu) enseigne
Mthode factorielle de rduction de dimension pour lexploration dans ces cursus, compte tenu du petit nombre dapplications auxquelles elle
statistique de deux ensembles de donnes quantitatives observes sur donnait lieu. Les choses ont chang, dabord vers le milieu des annes 1990,
les mmes individus. Reprsentations graphiques des individus, des avec le dveloppement de la rgression P.L.S. (partial least squares), mthode
variables et simultane. Lien avec la rgression multivarie et les assez voisine de lA.C., ensuite, plus rcemment, avec lapparition des don-
tests associs. nes de biopuces, dont certaines relvent typiquement de lA.C. quant leur
Rerour au plan du cours. traitement.
Le logiciel statistique SAS dispose dune procdure assez complte ddie
1 Introduction lA.C. : CANCORR. Divers dveloppements de ce chapitre ont pour objectif de
mieux saisir la signification de certaines sorties de cette procdure. Les com-
Lanalyse canonique (A.C.) est une mthode de statistique descriptive mul- mandes R permettant de mettre en uvre lA.C., telles quelles seront prsen-
tidimensionnelle qui prsente des analogies la fois avec lanalyse en com- tes dans les T.P., ont t quelque peu calques sur le principe de la procdure
posantes principales (A.C.P.), pour la construction et linterprtation de gra- CANCORR.
phiques, et avec la rgression linaire, pour la nature des donnes. Lobjec-
tif gnral de lA.C. est dexplorer les relations pouvant exister entre deux 2 Approche lmentaire
groupes de variables quantitatives observes sur le mme ensemble dindivi-
dus. Ltude des relations entre deux groupes de variables constitue la princi- 2.1 Exemple : nutrition chez la souris
pale particularit de lA.C. par rapport lA.C.P. De ce point de vue, lA.C.
est davantage proche de la rgression linaire multiple (explication dune va- Cest encore lexemple de la nutrition chez la souris qui sera utilis pour
riable quantitative par un ensemble dautres variables quantitatives), mthode illustrer lA.C. Nous disposons donc des 40 souris sur lesquelles on sintresse
dont elle constitue, dailleurs, une gnralisation (on retrouve la rgression maintenant deux catgories de mesures (de variables) : les expressions des
lorsque lun des deux groupes de lA.C. ne comporte quune seule variable). 120 gnes considrs et les proportions de 21 acides gras hpatiques. La ques-
En fait, lanalyse canonique est, sur le plan thorique, la mthode centrale tion qui va tre aborde ici est celle des relations entre ces deux ensembles
de la statistique descriptive multidimensionnelle, dans la mesure o elle g- de variables : certains acides gras sont-ils plus prsents lorsque certains gnes
nralise diverses autres mthodes. Outre la rgression linaire, lA.C. redonne sont surexprims, ou le contraire... La rponse sera essentiellement fournie par
en effet lanalyse factorielle discriminante lorsque lun des deux groupes de les graphiques produits par lA.C. et dans lesquels seront simultanment repr-
variables est remplac par les indicatrices dune variable qualitative. Elle re- sents gnes et acides gras : il sagira donc de graphiques relatifs aux variables.
donne galement lanalyse factorielle des correspondances lorsque chacun des Notons tout de suite quil nest pas trs courant de reprsenter les individus
deux groupes est remplac par les indicatrices dune variable qualitative. Si- en A.C. Toutefois, compte tenu des particularits de lexemple considr ici
gnalons galement quil existe certaines gnralisations de lA.C. plus de (petit nombre dobservations et structuration de ces observations selon les fac-
2 Analyse canonique des corrlations (ACC)

teurs gnotype et rgime), nous raliserons ces graphiques et nous verrons 2.3 Principe gnral de la mthode
quel est leur intrt.
Chaque variable de chacun des deux groupes (les 10 gnes et les 11 acides
2.2 Notations gras) sont mesures sur les n individus (n = 40). On peut donc associer
chacune un ensemble de 40 valeurs, autrement dit un vecteur de R40 (espace
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consi- vectoriel que lon a pralablement muni dune base adquate et dune mtrique
drs (autrement dit, la taille de lchantillon observ, ici 40), p le nombre de approprie). Cest dans cet espace (R40 ) que lon peut dfinir la mthode :
variables (quantitatives) du premier groupe (les gnes) et q le nombre de va- elle consiste rechercher le couple de vecteurs, lun li aux gnes, lautres
riables (galement quantitatives) du second groupe (les acides gras). On dsi- aux acides, les plus corrls possible. Ensuite, on recommence en cherchant
gnera par X la matrice, de dimension np, contenant les observations relatives un second couple de vecteurs non corrls aux vecteurs du premier et le plus
au premier groupe de variables et par Y la matrice, de dimension n q, conte- corrls entre eux, et ainsi de suite. La dmarche est donc similaire celle
nant celles relatives au second groupe. La j-ime colonne de X (j = 1, . . . , p) utilise en A.C.P. ou en analyse factorielle discriminante. La reprsentation
contient donc les observations xji de la j-ime variable du premier groupe (no- graphique des variables se fait soit par rapport aux vecteurs lis aux gnes,
te X j , il sagit de lexpression du j-ime gne retenu) sur les n individus soit par rapport ceux lis aux acides (en gnral, les deux sont quivalentes,
considrs (i = 1, . . . , n). De mme, la k-ime colonne de Y (k = 1, . . . , q) au moins pour ce qui est de leur interprtation). Ces vecteurs, obtenus dans
contient les observations yik de la k-ime variable du second groupe (note Y k , chaque espace associ chacun des deux groupes de variables, sont analogues
il sagit du pourcentage relatif au k-ime acide gras retenu). aux facteurs de lA.C.P. et sont ici appels variables canoniques. Comme en
En A.C., il est ncessaire davoir p n, q n, X de rang p et Y de rang A.C.P., on peut tracer le cercle des corrlations sur le graphique des variables,
q. Par consquent, dans lexemple considr, il a t ncessaire de faire une ce qui en facilite linterprtation (dont le principe est le mme que pour le
slection des gnes et de ne retenir que les plus importants (ceux dont le rle graphique des variables en A.C.P.). Des considrations techniques permettent
prpondrant a pralablement t mis en vidence au moyen des techniques de faire galement un graphique pour les individus.
exploratoires). Bien que ce ne soit pas impos par la thorie, nous avons gale- Appelons d le nombre de couples de variables canoniques jugs intressants,
ment fait, pour tre cohrents, une slection des acides gras. Finalement, nous autrement dit la dimension retenue pour les reprsentations graphiques. On a
avons slectionn 10 gnes et 11 acides gras hpatiques. ncessairement 1 d p, et on choisit en gnral d entre 2 et 4. Nous note-
Les gnes sont les suivants : rons (V s , W s ) (s = 1, . . . , d) les couples de variables canoniques retenus ; on
PMDCI THIOL CYP3A11 CYP4A10 CYP4A14 Lpin Lpin1 GSTmu GSTpi2 posera
S14.s = Cor(V s , W s ) et on appellera corrlations canoniques les coeffi-
cients s qui sont, par construction, dcroissants.
Les acides gras sont les suivants :
C16_0 C18_0 C18_1n_7 C18_1n_9 C18_2n_6 C18_3n_3
3 Approche mathmatique
C20_4n_6 C20_5n_3 C22_5n_3 C22_5n_6 C22_6n_3.
Remarque. On notera que la notation habituelle des acides gras est un peu Dans ce paragraphe, nous reprenons, plus en dtail et avec plus de rigueur
diffrente de celle ci-dessus ; ainsi C18_1n_7 correspond C18:1n-7 ; la mathmatique, les lments prsents dans le paragraphe prcdent. Le lecteur
notation adopte est ncessaire pour la lecture par le logiciel SAS. biologiste peu familiaris avec ces notions de mathmatiques pourra donc le
parcourir trs rapidement et se contenter daller y chercher quelques rsultats,
Enfin, sans perte de gnralit, on suppose galement p q (on dsigne lorsque ncessaire.
donc par premier groupe celui qui comporte le moins de variables). Finale-
ment, nous avons ici : n = 40 ; p = 10 ; q = 11.
3 Analyse canonique des corrlations (ACC)

3.1 Reprsentations vectorielles des donnes Ensuite, on cherche le couple norm (V 2 , W 2 ), V 2 combinaison linaire
des X j non corrle V 1 et W 2 combinaison linaire des Y k non corrle
Comme en A.C.P., on peut considrer plusieurs espaces vectoriels rels as- W 1 , telles que V 2 et W 2 soient le plus corrles possible. Et ainsi de suite...
socis aux observations.
Remarque. Dans la mesure o lA.C. consiste maximiser des corrla-
Tout dabord, lespace des variables ; cest F = Rn , muni de la base cano- tions, quantits invariantes par translation et par homothtie de rapport positif
nique et dune certaine mtrique, en gnral lidentit. chaque variable X j sur les variables, on peut centrer et rduire les variables initiales X j et Y k
est associ un vecteur unique xj de F dont les coordonnes sur la base cano- sans modifier les rsultats de lanalyse. Pour des raisons de commodit, on le
nique sont les xji (i = 1, . . . , n). De mme, chaque variable Y k est associ fera systmatiquement. Par consquent, les matrices X et Y seront dsormais
un vecteur unique y k de F , de coordonnes les yik . On peut ainsi dfinir dans F supposes centres et rduites (en colonnes).
deux sous-espaces vectoriels : FX , engendr par les vecteurs xj (j = 1, . . . , p),
en gnral de dimension p, et FY , engendr par les vecteurs y k (k = 1, . . . , q), LA.C. produit ainsi une suite de p couples de variables (V s , W s ), s =
en gnral de dimension q. 1, . . . , p. Les variables V s constituent une base orthonorme de FX (les V s ,
combinaisons linaires de variables centres, sont centres ; comme elles sont
Remarque. Il est courant de munir lespace vectoriel F de la mtrique non corrles, elles sont donc orthogonales pour la mtrique identit). Les
dite des poids, dfinie, relativement la base canonique, par la matrice diag variables W s constituent, de mme, un systme orthonorm de F (ils nen
Y
(p1 , . . . , pn ), o les pi (i = 1, . . . , n) sont des poids (positifs et de somme constituent une base que si q = p). Les couples (V s , W s ), et plus particulire-
gale 1) associs aux individus observs. Lorsque tous ces poids sont gaux, ment les premiers dentre eux, rendent compte des liaisons linaires entre les
ils valent ncessairement n1 et la matrice dfinissant la mtrique des poids vaut deux groupes de variables initiales. Les variables V s et W s sont appeles les
1
n In , o In est la matrice identit dordre n. Dans ce cas, il est quivalent variables canoniques. Leurs corrlations successives (dcroissantes) sont ap-
dutiliser la mtrique identit, ce que nous ferons par la suite, dans la mesure peles les coefficients de corrlation canonique (ou corrlations canoniques)
o les individus seront systmatiquement quipondrs. et notes s (1 1 2 p 0).
On peut ensuite considrer deux espaces vectoriels pour les individus, Remarque. Toute variable canonique V s0 est, par construction, non corrle
EX = Rp et EY = Rq , eux aussi munis de leur base canonique et dune (donc orthogonale) avec les autres variables canoniques V s , s 6= s . On peut
0
certaine mtrique. Dans EX , chaque individu i est reprsent par le vecteur galement montrer que V s0 est non corrle avec W s , si s 6= s (la mme
j 0
xi , de coordonnes xi (j = 1, . . . , p) sur la base canonique. De mme, dans proprit est bien sr vraie pour toute variable W s0 avec les variables V s ,
EY , lindividu i est reprsent par le vecteur yi , de coordonnes les yik . s 6= s ).
0
En fait, cest surtout lespace F que nous considrerons par la suite, la dfi- Remarque. Si ncessaire, on peut complter le systme des variables W s
nition de lA.C. y tant plus naturelle. (s = 1, . . . , p) pour obtenir une base orthonorme de FY dans laquelle les
3.2 Retour sur le principe de la mthode dernires variables W s (s = p + 1, . . . , q) sont associes des coefficients de
corrlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
Le principe gnral de lA.C. est dcrit ci-dessous, dans lespace des va-
riables F . 3.3 Proprit
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1 La proprit donne ici permet, dans la pratique, de dterminer les variables
tant une combinaison linaire des variables X j (donc un lment de FX ), canoniques V s et W s en utilisant un algorithme standard de recherche des
norme, et W 1 une combinaison linaire des variables Y k (donc un lment vecteurs propres dune matrice.
de FY ), norme, telles que V 1 et W 1 soient le plus corrles possible.
4 Analyse canonique des corrlations (ACC)

Dans lespace vectoriel F muni de la mtrique identit, notons PX et PY Dans le mme espace, on peut galement reprsenter les variables de lautre
les matrices des projecteurs orthogonaux sur les sous-espaces FX et FY d- groupe, les Y k , en projetant tout dabord les vecteurs y k dans FX , au moyen
finis plus haut. Les formules usuelles de dfinition des projecteurs permettent de PX , puis en prenant le produit scalaire de ces projections avec les vecteurs
dcrire (X0 dsignant la matrice transpose de X) : v s . On doit donc calculer pour cela les produits scalaires
PX = X(X0 X)1 X0 ; PY = Y(Y0 Y)1 Y0 . < PX (y k ), v s >=< y k , PX (v s ) >=< y k , v s >,

On peut alors montrer la proprit ci-dessous. encore gaux aux corrlations entre les variables initiales Y k et les variables
canoniques V s .
P ROPOSITION 1. Les vecteurs V s sont les vecteurs propres norms de la Dans la mesure o le graphique ainsi obtenu est bon (sur ce point, voir
matrice PX PY respectivement associs aux valeurs propres s ranges par plus loin), on peut lutiliser pour interprter les relations (proximits, opposi-
ordre dcroissant (on peut vrifier que ces valeurs propres sont comprises entre tions, loignements) entre les deux ensembles de variables. Par construction,
1 et 0). De mme, les vecteurs W s sont les vecteurs propres norms de la ma- ce graphique reprsente les corrlations entre les variables canoniques V s et
trice PY PX respectivement associs aux mmes valeurs propres s . De plus, les variables initiales X j et Y k , corrlations la base de son interprtation. On
les coefficients de corrlation canonique
s sont les racines carres positives peut aussi conforter cette interprtation en utilisant les coefficients de corr-
de ces valeurs propres : s = s , s = 1, . . . , p (le logiciel SAS fournit les lation linaire entre variables X j , entre variables Y k , et entre variables X j et
corrlations canoniques s ainsi que leurs carrs s ). Y k . Tous ces coefficients sont en gnral fournis par les logiciels.

3.4 Retour sur les reprsentations graphiques Reprsentation des variables dans le sous-espace FY

Comme en A.C.P., les reprsentations graphiques des rsultats dune A.C. se De faon symtrique, on restreint le systme (w1 , . . . , wp ) de FY aux pre-
1 d
font en dimension rduite (souvent 2 ou 3). Nous noterons d cette dimension, mires variables (w , . . .j , w ), par rapportk
auxquelles on reprsente aussi bien
avec : 1 d p. Plusieurs reprsentations sont envisageables, la fois pour les variables initiales X que les Y , selon le mme principe que celui dcrit
les variables et pour les individus. ci-dessus (les coordonnes sont les corrlations).
L encore, dans la mesure o ce graphique est bon, il permet dinterprter
Reprsentation des variables dans le sous-espace FX les relations entre les deux ensembles de variables.
Dsignons par v s et ws les vecteurs de FX et FY respectivement associs Les deux graphiques (dans FX et dans FY ) ayant la mme qualit et condui-
aux variables canoniques V s et W s . sant aux mmes interprtations, un seul suffit pour interprter les rsultats
Dans FX , on considre la base orthonorme (v 1 , . . . , v p ) que lon restreint dune analyse.
(v 1 , . . . , v d ) pour les reprsentations graphiques. Reprsentation des individus
On peut tout dabord reprsenter chacune des variables initiales X j au
moyen de ses coordonnes sur les v s . Ces coordonnes sobtiennent en cal- Dans chacun des espaces relatifs aux individus (EX et EY ), il est encore
culant les produits scalaires < xj , v s >, j = 1, . . . , p, s = 1, . . . , d. Les possible de faire une reprsentation graphique de ces individus en dimension
variables X j tant centres et rduites, les vecteurs xj sont centrs et norms d, ces deux reprsentations graphiques tant comparables (dautant plus com-
(et il en va de mme pour les vecteurs v s ), de sorte que ces produits scalaires parables que les corrlations canoniques sont leves).
sont gaux aux corrlations entre variables initiales X j et variables canonique En fait, on peut vrifier que les coordonnes des individus sur les axes ca-
V s (au coefficient n prs, puisquon a considr la mtrique identit). noniques pour ces deux reprsentations sont respectivement donnes par les
5 Analyse canonique des corrlations (ACC)

lignes des matrices Vd (dans EX ) et Wd (dans EY ), Vd et Wd dsignant les sauter ce paragraphe.


matrices n d dont les colonnes contiennent les coordonnes des d premires
variables canoniques sur la base canonique de F . 4.1 Introduction
Choix de la dimension Ouvrages et logiciels anglo-saxons de statistique prsentent souvent lana-
lyse canonique paralllement la rgression linaire multivarie (rgression
Comme dans toute mthode factorielle, diffrents lments doivent tre pris dun ensemble de variables Y k , expliquer, sur un autre ensemble de variables
en compte pour le choix de la dimension d dans laquelle on ralise les gra- X j , explicatives). Cette approche est, en fait, assez naturelle, dans la mesure
phiques (et dans laquelle on interprte les rsultats). o les donnes sont de mme nature dans les deux mthodes et o lon cherche,
Tout dabord, il est clair que d doit tre choisi petit, lobjectif gnral de dans lune comme dans lautre, des relations linaires entre variables.
la mthode tant dobtenir des rsultats pertinents dans une dimension Il convient toutefois de noter les deux diffrences fondamentales entre les
rduite ; ainsi, le plus souvent, on choisit d gal 2, 3 ou 4. deux mthodes : contrairement ce quil se passe en A.C., les deux ensembles
Plus lindice de dimension s augmente, plus la corrlation canonique s de variables X j et Y k ne sont pas symtriques en rgression, puisquil sagit
diminue ; or, on ne sintresse pas aux corrlations canoniques faibles, dexpliquer les variables Y k au moyen des variables X j ; dautre part, toujours
puisquon cherche expliciter les relations entre les deux groupes de va- en rgression, on suppose la normalit des variables rponses Y k , alors quau-
riables ; par consquent, les dimensions correspondant des s faibles cune hypothse de cette nature nest ncessaire en A.C. Lavantage de cette
peuvent tre ngliges. hypothse (lorsquelle est raisonnable) est de permettre de raliser des tests
Le pourcentage que chaque valeur propre s reprsente par rapport la dans le modle de rgression.
somme de toutes les valeurs propres, cest--dire par rapport la trace
de la matrice diagonalise, facilitent galement le choix de d (voir la re- 4.2 Le modle de rgression multivarie
marque 5).
Le modle de rgression multivarie des variables Y k sur les variables X j
scrit :
4 Complments : analyse canonique et r- Y = XB + U ;
gression multivarie les matrices Y, n q, et X, n p, sont celles introduites en A.C. ; B est la
matrice p q des paramtres inconnus, estimer (les coefficients de rgres-
Lobjectif principal de ce paragraphe est de donner une ide, lutilisateur sion) ; U est la matrice n q des erreurs du modle. Chaque ligne Ui de U est
du logiciel SAS, du principe des tests figurant dans la procdure CANCORR, un vecteur alatoire de Rq suppos Nq (0, ), les Ui tant indpendants ( est
celle qui permet de raliser lanalyse canonique. Accessoirement, ce para- une matrice inconnue, estimer, suppose constante en i).
graphe introduit la rgression multivarie et fait le lien entre cette technique
Lestimation maximum de vraisemblance de B conduit la solution :
et lanalyse canonique.
= (X0 X)1 X0 Y.
B
On notera que les tests prsents ici sont des tests statistiques classiques
dans le contexte de lanalyse multivarie, que ce soit lanalyse canonique, la On appelle alors valeurs prdites (de Y par le modle) les quantits :
rgression multivarie, lanalyse de variance multivarie (la MANOVA), ou = XB = PX Y ;
Y
mme lanalyse discriminante. Ils apparaissent ainsi dans toutes les procdures
du logiciel SAS permettant de mettre en uvre ces mthodes. dautre part, on appelle rsidus les quantits :
Le lecteur peu familiaris avec les mthodes multivaries pourra nanmoins U =YY = P Y
X
6 Analyse canonique des corrlations (ACC)

(dans lcriture ci-dessus, P n


X dsigne, dans R , le projecteur orthogonal sur En interprtant ces pourcentages comme la part dinertie globale du nuage
le sous-espace supplmentaire orthogonal FX dans Rn ; on sait que ce pro- des individus restitue par les diffrents axes canoniques (ce quelles sont, par
jecteur scrit : P
X = In PX ). exemple, en analyse factorielle discriminante), ces quantits facilitent le choix
de la dimension d retenue pour les graphiques et les interprtations.
4.3 Matrices intervenant dans les tests
4.4 Tests
Dans le cadre du modle gaussien, on peut tester la significativit du modle
en gnralisant le test de Fisher, bien connu dans le cas unidimensionnel. Au Il existe plusieurs tests de significativit du modle de rgression multi-
numrateur de la statistique de Fisher figure la norme carre du vecteur y y, varie, en gnral quivalents (au moins au niveau des dcisions quils en-
ici remplace par Y 0Y
(cette matrice est centre). Au dnominateur figure la tranent). Ces tests sont les gnralisations classiques du test de Fisher au cas
norme carre des rsidus, ici remplace par U 0U (on nglige, pour linstant, multivari (on les retrouve, par exemple, en analyse de variance multivarie)
les degrs de libert de ces quantits). La statistique de Fisher est donc rem- et sont des tests asymptotiques. Le logiciel SAS fournit les trois premiers ci-
place par le produit matriciel Y 0 Y(
U 0 U)
1 . Comme on a Y = PX Y, il dessous, mais pas le quatrime. Il fournit galement le test de Roy, bas sur la
vient : Y Y
0 = Y PX Y = H (la notation H est standard, car cette quan-
0 1
plus grande valeurs propre de la matrice HE1 , soit , mais ce test est
tit est lie lhypothse nulle teste). Dautre part, U = P Y entrane : 1 1
X
0U
= Y0 P Y = E (il sagit encore dune notation standard, cette matrice dconseiller.
U X
reprsentant les erreurs du modle). Les tests multidimensionnels de significa- Le test de Wilks, adaptation du test du rapport des vraisemblances, est
tivit du modle sont ainsi bass sur ltude des valeurs propres soit du produit bas sur la statistique
matriciel p p
HE1 = (Y0 PX Y)(Y0 P X Y)
1
, Y Y
= (1 s ) = (1 2s ).
1
soit encore du produit H(H + E) , les valeurs propres de ces deux matrices s=1 s=1
se dduisant les unes des autres. Dveloppons le second produit matriciel :
Le test de la trace de Pillai est bas sur la statistique
H + E = Y0 PX Y + Y0 (In PX )Y = Y0 Y; p
X
1
do : Z = trace H(H + E) = s .
1 0 0 1 s=1
H(H + E) = Y PX Y(Y Y) ,
matrice ayant les mmes valeurs propres que Le test de la trace de Lawley-Hotelling est bas sur la statistique

p
PX Y(Y0 Y)1 Y0 = PX PY , X s
T 2 = trace HE1 = .
s=1
1 s
cest--dire les s (s = 1, . . . , p), carrs des corrlations canoniques.
Remarque. On peut vrifier (le rsultat est classique) que les valeurs propres Le test du khi-deux est bas sur la statistique
s
de la matrice HE1 valent . Ces valeurs propres sont fournies par le p
1 s 1 Y
logiciel SAS, ainsi que les pourcentages (et les pourcentages cumuls) quelles K = [(n 1) (p + q + 1)] ln (1 s ).
2
reprsentent par rapport leur somme, trace de la matrice HE1 . s=1
7 Analyse canonique des corrlations (ACC)

Le test du khi-deux prsente lavantage dtre directement utilisable, puis- 5 Exemple : nutrition chez la souris
quon compare la statistique K une loi de khi-deux pq degrs de liberts (il
sagit dun test approch). 5.1 Traitements prliminaires
Dans les trois autres tests ci-dessus, on doit transformer la statistique (, Z Nous donnons ci-dessous les statistiques lmentaires relatives aux deux
ou T 2 ) pour obtenir un test de Fisher approch, les transformations tant assez groupes de variables. Les corrlations entre gnes se trouvent en Annexe A,
compliques expliciter (toutefois, SAS les ralise automatiquement). celles entre acides en Annexe B.
Remarque. Dans un article de 1951, Rao a montr que, dans la plupart des
Variable N Mean Std Dev Minimum Maximum
cas, lapproximation de Fisher du test de Wilks est la meilleure. Cest donc le --------------------------------------------------------------
test que nous conseillerons. PMDCI 40 -0.7673 0.1861 -1.07 -0.44
THIOL 40 -0.4110 0.2125 -0.90 -0.03
Si le modle de rgression est significatif (il en va alors de mme pour CYP3A11 40 -0.5083 0.2556 -1.02 0.06
CYP4A10 40 -0.9798 0.2237 -1.33 -0.48
lanalyse canonique), on peut tester la significativit dune dimension et de CYP4A14 40 -0.9930 0.2460 -1.29 -0.15
lensemble des suivantes, en particulier pour guider le choix de la dimension Lpin 40 -0.7533 0.1735 -1.13 -0.48
Lpin1 40 -0.7648 0.1638 -1.10 -0.49
en A.C. Ainsi, supposons que les corrlations canoniques soient significatives GSTmu 40 -0.1190 0.1504 -0.44 0.23
depuis la premire jusqu la k-ime (1 k p). On peut alors tester lhypo- GSTpi2 40 0.2298 0.1422 0 0.55
S14 40 -0.8068 0.2008 -1.05 -0.25
thse nulle

{H0 : k+1 = = p = 0} ( {H0 : d = k})


Variable N Mean Std Dev Minimum Maximum
contre lalternative ------------------------------------------------------
C16_0 40 23.03 3.57 14.65 29.72
{H1 : k+1 > 0} ( {H1 : d > k}). C18_0 40 6.75 2.64 1.68 10.97
C18_1n_7 40 4.43 3.38 1.53 15.03
C18_1n_9 40 25.27 7.34 14.69 41.23
Pour cela, il faut adapter soit le test de Wilks, soit le test du khi-deux. C18_2n_6 40 15.28 8.76 2.31 40.02
C18_3n_3 40 2.89 5.83 0 21.62
Pour le test de Wilks, il suffit de faire le produit des quantits (1 s ) C20_4n_6 40 5.28 4.46 0.75 15.76
C20_5n_3 40 1.79 2.59 0 9.48
de lindice k + 1 lindice p et dadapter la transformation en fonction des C22_5n_3 40 0.87 0.86 0 2.58
nouvelles dimensions. SAS le fait automatiquement. Pour le test du khi-deux, C22_5n_6 40 0.44 0.66 0 2.52
C22_6n_3 40 5.91 5.33 0.28 17.35
il faut considrer la statistique
k p Remarque. Les valeurs ci-dessus sont relatives aux variables brutes (aux
1 X 1 Y
Kk = [(n 1 k) (p + q + 1) + ] ln (1 s ) donnes initiales). Comme indiqu dans la remarque 3, ces variables ont en-
2
s=1 s suite t centres et rduites avant la ralisation de lA.C.
s=k+1

et la comparer une loi de khi-deux (p k)(q k) degrs de libert. 5.2 Analyse canonique
Remarque. Dans lutilisation de ces tests, il convient de ne pas perdre de Gnralits
vue dune part quil sagit de tests asymptotiques (dautant meilleurs que la
taille de lchantillon, n, est grande), dautre part quils ne sont valables que Les premiers rsultats fournis par une A.C. sont les corrlations croises
sous lhypothse de normalit des variables Y k . entre les deux groupes de variables. Nous donnons ces corrlations dans lan-
8 Analyse canonique des corrlations (ACC)

nexe C. current row and all that follow are zero


Likelihood Approximate
Ensuite sont donnes les corrlations canoniques reproduites ci-dessous. Ratio F Value Num DF Den DF Pr > F
1 0.00003857 4.08 110 155.53 <.0001
Canonical Correlation 2 0.00053068 3.31 90 145.91 <.0001
1 0.96 3 0.00403909 2.77 72 135.32 <.0001
2 0.93 4 0.02387531 2.21 56 123.78 0.0001
3 0.91 5 0.08995724 1.78 42 111.33 0.0090
4 0.86 6 0.23902627 1.41 30 98 0.1087
5 0.79 7 0.49427788 0.99 20 83.865 0.4795
6 0.72 8 0.78104952 0.56 12 69.081 0.8636
7 0.61 9 0.93806320 0.29 6 54 0.9380
8 0.41 10 0.99819295 0.03 2 28 0.9750
9 0.25
10 0.04
On voit que le choix optimal de la dimension serait probablement d = 4 (ne
On notera que le plus petit groupe ne comportant que 10 variables, on ne pas oublier que ces tests sont asymptotiques et que nous avons n = 40). Pour
peut dterminer que 10 corrlations canoniques. Lobjectif principal de lA.C. simplifier, nous ne prsentons, par la suite, que les graphiques selon les deux
tant dtudier les relations entre variables des deux groupes, on peut noter ici premires dimensions.
quil existe effectivement des relations fortes entre ces deux groupes, puisque
les premiers coefficients canoniques sont trs levs. Compte tenu des valeurs Graphique des individus
importantes des premiers coefficients, on peut raisonnablement se contenter Dans un premier temps, nous avons ralis le graphique des individus (les
de deux ou trois dimensions pour tudier les rsultats fournis par la mthode 40 souris) relativement aux deux premiers axes canoniques de lespace des
et nous avons choisi ici seulement deux dimensions, compte tenu quil sagit gnes EX (Fig. 1). En gnral, dans une A.C., ce graphique sert seulement
essentiellement dune illustration. contrler lhomognit de lensemble des individus (absence dindividus
Remarque. Les valeurs propres de la matrice HE1 et les pourcentages atypiques par exemple). Ici, dans la mesure o les individus proviennent dun
dinertie restitus par les diffrentes dimensions sont les suivants : plan dexpriences deux facteurs croiss (le gnotype et le rgime), il est
intressant de regarder si lon retrouve la structure de ce plan. On notera que
Eigenvalues of Inv(E)*H cela est trs net en ce qui concerne le gnotype et encore assez net pour ce
= CanRsq/(1-CanRsq)
Eigenvalue Difference Proportion Cumulative qui est du rgime (en fait, la slection des gnes a t ralise de telle sorte
1 12.7583 6.1471 0.4167 0.4167 que ceux retenus soient le plus structurant possible pour ces deux facteurs ; le
2 6.6111 1.7001 0.2159 0.6326
3 4.9111 2.1433 0.1604 0.7930 rsultat, sil est rassurant, na donc rien dextraordinaire).
4 2.7678 1.1107 0.0904 0.8833
5 1.6571 0.5892 0.0541 0.9375 Signalons pour terminer quon a galement ralis le graphique des indivi-
6 1.0679 0.4877 0.0349 0.9723 dus relativement aux deux premiers axes de lautre espace (espace des acides
7 0.5802 0.3792 0.0189 0.9913
8 0.2010 0.1369 0.0066 0.9978 gras, EY ) et quil est trs semblable celui-ci.
9 0.0641 0.0623 0.0021 0.9999
10 0.0018 0.0001 1.0000 Graphique des variables

Par ailleurs, les tests de Wilks, de significativit de chaque dimension, sont Pour la reprsentation des variables, nous avons considr le sous-espace
les suivants : F X , engendr par les 10 gnes, et nous avons reprsent la fois les gnes
et les acides gras relativement aux deux premires variables canoniques, V 1
Test of H0: The canonical correlations in the et V 2 (Fig. 2). Comme indiqu en 3.4, les coordonnes des variables initiales
9 Analyse canonique des corrlations (ACC)

sont fournies par leur corrlations avec les variables canoniques.


Certaines associations entre gnes et acides gras, en particulier celles cor-
respondant des points loigns de lorigine, sont intressantes noter. Ainsi
peut-on observer que la sparation des gnotypes est principalement lie dune
part laccumulation prfrentielle de lacide gras C18_2n_6 chez les souris
PPAR, au dtriment de C16_0, de C18_0 et des acides gras longs polyinsa-
turs C20_5n_3 et C22_6n_3 (les omga 3), dautre part la plus forte ex-
5
pression des gnes THIOL, PMDCI, CYP3A11 et GSTpi2 chez les souris WT
0.8

5 par rapport aux souris PPAR. On peut galement noter les proximits entre le
5
5 C16_0 et le gne THIOL, ainsi que les proximits entre CYP3A11 et GSTpi2
et les acides gras C18_0 et C22_6n_3. Par ailleurs, lopposition entre le r-
0.7

2
gime 2-efad et les rgimes 1-dha et 3-lin est lie, sous rgime efad,
laccumulation dacides gras monoinsaturs (C18_1n_9 et C18_1n_7) chez
0.6

2 2 2 1
4 4 3 les souris des deux gnotypes (mais plus marque chez les souris PPAR), ac-
2
Dimension 2

5
1 compagne de la sur-expression du gne S14 presque exclusivement chez les
4
souris WT. Sous rgime riche en Omga 3 (1-dha et 3-lin), on observe une
0.5

1 1
2
3
5 4
3
accumulation prfrentielle des acides gras C20_5n_3 (surtout pour le r-
2
gime lin), C22_6n_3 (surtout pour le rgime dha) et C18_0 accompagne
0.4

5
3 1 de rgulations positives des gnes GSTpi2, CYP3A11 et des CYP4A qui, ce-
2 5 3 13 pendant, se rvlent moins marques, voire absentes, chez les souris PPAR.
1
Enfin, remarquons que la position particulire du rgime 5-tsol chez les
0.3

4 3 1
4 3 souris PPAR est lie laccumulation extrmement marque de C18_2n_6
4 dans le foie de ces souris sous le rgime tsol (sous ce rgime, la proportion
0.2

4 de C18_2n_6 est presque deux fois plus importante chez les souris PPAR que
chez les souris WT), soulignant ainsi le rle primordial de PPAR dans la prise
0.1 0.0 0.1 0.2 0.3 0.4 0.5
en charge de cet acide gras, que ce soit pour sa dgradation ou pour son uti-
Dimension 1
lisation pour la biosynthse des acides gras longs polyinsaturs de la famille
Omga 6.
F IGURE 1 Souris : reprsentation des individus (souris) dans lespace des
gnes. Les WT sont en rouge-gras et les PPAR en bleu-italique ; les numros
correspondent aux rgimes.
10 Analyse canonique des corrlations (ACC)

1.0
0.5

C18.2n.6
C18.1n.9
C18.1n.7
C22.5n.6
Dimension 2

S14
0.0

GSTmu C18.3n.3
C20.4n.6
Lpin
Lpin1 C22.5n.3
C20.5n.3
CYP4A14
0.5

CYP4A10 C22.6n.3
C16.0 GSTpi2
THIOL C18.0
CYP3A11
PMDCI
1.0

1.0 0.5 0.0 0.5 1.0

Dimension 1

F IGURE 2 Souris : reprsentation des gnes (en rouge-gras) et des acides


(en bleu-italique) dans le sous-espace des gnes.