Anda di halaman 1dari 183

THSE de DOCTORAT de lUNIVERSIT PIERRE ET MARIE CURIE

Spcialit :
ROBOTIQUE
prsente

par Yacine OUSSAR


pour obtenir le titre de DOCTEUR de lUNIVERSIT PARIS VI
Sujet de la thse :

Rseaux dondelettes et rseaux de neurones


pour la modlisation statique et dynamique
de processus.

Soutenue le 06 Juillet 1998


devant le jury suivant :

Mme
M.
M.
M.
M.
M.

S. THIRIA
S. CANU
G. DREYFUS
P. GALLINARI
S. KNERR
L. PERSONNAZ

Rapporteur
Rapporteur
Examinateur
Examinateur
Examinateur
Examinateur

A mon Pre, ma Mre et Zina.

Me tenant comme je suis,


un pied dans un pays et lautre en un autre,
je trouve ma condition trs heureuse,
en ce quelle est libre.
Ren Descartes
(Lettre la princesse Elisabeth de Bohme,
Paris 1648).

Avant dintgrer le laboratoire dlectronique de lESPCI, je connaissais


Monsieur le Professeur Grard DREYFUS de rputation. Je ne savais pas alors
que jaurais un jour la chance de mener mon travail de thse au sein de son
quipe.
Mes plus vifs remerciements sont donc adresss au Professeur Grard
DREYFUS qui ma tmoign de sa confiance en maccueillant dans son
laboratoire. Au cours de ces annes de thse, sa disponibilit sans faille, son
suivi, son souci de la valorisation des travaux accomplis, son calme inbranlable
devant les difficults, ont beaucoup contribu laboutissement de ce travail de
thse. Quil trouve ici toute ma reconnaissance.
Monsieur Lon PERSONNAZ, Matre de Confrences, a guid mes premiers
pas dans la recherche en encadrant mes deux premires annes de thse. Je
resterai toujours impressionn par sa rigueur et son sens de la critique. Je tiens
lui exprimer mes remerciements pour ses relectures de mon mmoire et ses
remarques.
Pendant ces annes de thse, Mademoiselle Isabelle RIVALS, Matre de
Confrences, et moi avons partag le mme bureau, ce qui ma permis
plusieurs reprises de bnficier de ses connaissances. Je dois la remercier pour
sa grande disponibilit.
Jadresse de vifs remerciements Madame le Professeur Sylvie THIRIA, qui
a accept dexaminer mon mmoire de thse, et qui a manifest son intrt pour
mon travail.
Je tiens exprimer ma reconnaissance Monsieur le Professeur Stphane
CANU pour avoir examin mon manuscrit avec beaucoup dattention. Ses
remarques constructives mont permis damliorer la version finale de mon
mmoire.
Je suis trs honor que Monsieur le Professeur Patrick GALLINARI ait
accept de consacrer un peu de son temps, en cette priode charge de l'anne,
pour faire partie de mon jury.
Je tiens remercier galement Monsieur Stefan KNERR davoir galement
accept dtre membre de mon jury, effectuant ainsi un "retour aux sources" en
dpit de ses nombreuses activits.
Au cours de ces annes de thse au laboratoire dlectronique, jai eu la
chance de ctoyer Brigitte QUENET, Matre de Confrences, dont lamiti et le

soutien mont beaucoup apport. Mon travail a bnfici de ses conseils et de


ses encouragements.
Comment aurais-je pu minitier aux systmes informatiques en rseau sans la
prcieuse aide de Pierre ROUSSEL, Matre de Confrences, qui grce son
administration rigoureuse des ressources informatiques du laboratoire, nous
assure une bonne disponibilit des stations de travail ? Jai beaucoup apprci
son sens de lhumour et sa convivialit.
Au travers de nombreuses discussions avec Herv STOPPIGLIA, jai
beaucoup appris sur les techniques de slection utilises dans ce mmoire. Je
len remercie vivement.
Je voudrais adresser ici ma profonde reconnaissance un ancien membre du
laboratoire dlectronique qui par sa sympathie, son aide et ses encouragements
a suscit en moi un vritable sentiment fraternel. Cest de Dominique URBANI
que je veux parler .... Merci Doum !
Jadresse enfin ma plus vive reconnaissance Monique et Franois Zwobada
qui sont devenus ma famille franaise.

TABLE DES MATIRES

Introduction
CHAPITRE I.

1
Modlisation de processus
et estimation des paramtres dun modle

CHAPITRE II. Rseaux de fonctions dorsales

27

CHAPITRE III. Rseaux dondelettes


(approche fonde sur la transforme continue)

46

CHAPITRE IV. Rseaux dondelettes


(approche fonde sur la transforme discrte)

88

CHAPITRE V. tude de quelques exemples

115

Conclusion

137

Bibliographie

141

Annexe A

151

Annexe B

166

TABLE DES MATIRES DTAILLE

Introduction

CHAPITRE I.

Modlisation de processus
et estimation des paramtres dun modle

I. INTRODUCTION.

II. DFINITION DUN PROCESSUS ET DUN MODLE.

II.1 Processus.

II.2 Modles.

II.2.1 Quest ce quun modle ?

II.2.2 Buts dune modlisation.

II.2.3 Classification des modles.

II.2.3.1 Classification selon le mode de conception.

II.2.3.2 Classification selon lutilisation.

III. LES TAPES DE LA CONCEPTION DUN MODLE.

III.1 Choix dun modle-hypothse.

III.2 Du modle-hypothse au prdicteur ou au simulateur.

11

III.3 Prsentation de quelques modles-hypothses et de leurs prdicteurs associs.

11

III.3.1 Modle-hypothse dterministe.

12

III.3.2 Modles-hypothses non dterministes.

12

III.3.2.1 Lhypothse Bruit de sortie.

13

III.3.2.2 Lhypothse Bruit dtat.

13

IV. FONCTIONS PARAMTRES POUR LA MODLISATION "BOTE


NOIRE".

14

IV.1 Les fonctions paramtres linaires par rapport aux paramtres.

14

IV.2 Les fonctions paramtres non linaires par rapport aux paramtres.

15

IV.2.1 Les rseaux de neurones.

15

IV.2.2 Les rseaux de fonctions radiales (RBF pour Radial Basis Functions).

16

IV.2.3 Les rseaux dondelettes.

17

V. ESTIMATION DES PARAMTRES DUN MODLE.

17

V.1 Position du problme et notations.

17

V.2 Les algorithmes de minimisation de la fonction de cot.

18

V.2.1 Mthode des moindres carrs ordinaires.

18

V.2.2 Principe des algorithmes de gradient.

19

V.2.3 La mthode du gradient simple.

21

V.2.3.1 Prsentation de la mthode.

21

V.2.3.2 Techniques de rglage du pas.

21

V.2.4 Les mthodes de gradient du second ordre.

21

V.2.4.1 Lalgorithme de BFGS.

22

V.2.4.2 Lalgorithme de LevenbergMarquardt.

23

V.3 Commentaire.

26

VI. CONCLUSION

26

CHAPITRE II. Rseaux de fonctions dorsales

27

I. INTRODUCTION.

28

II. NEURONES FORMELS FONCTIONS DORSALES ET RSEAUX.

28

II.1 Quest ce quun neurone formel ?

28

II.2 Qu'est-ce qu'un neurone formel fonction dorsale ?

28

II.3 Quest ce quun rseau de neurones ?

29

II.4 Rseaux non boucls et rseaux boucls.

30

II.4.1 Les rseaux non boucls.

30

II.4.2 Les rseaux boucls.

30

II.5 Rseaux non boucls compltement connects et rseaux couches.

31

II.5.1 Les rseaux non boucls compltement connects.

31

II.5.2 Les rseaux non boucls couches.

31

II.5.3 Les rseaux mis en uvre dans ce travail.

35

III. CHOIX DE LA FONCTION DACTIVATION ET PROPRIT


DAPPROXIMATION UNIVERSELLE.

33

III.1 La fonction sigmode.

34

III.2 La fonction gaussienne.

34

IV. APPRENTISSAGE DES RSEAUX DE FONCTIONS DORSALES.

35

IV.1 Apprentissage de rseaux non boucls.

35

IV.2 Apprentissage de rseaux boucls.

36

IV.3 Initialisation du rseau et minima locaux.

36

IV.4 Autres schmas dapprentissage pour les rseaux de fonctions dorsales.

37

V. ANALYSE DUN RSEAU DE FONCTIONS DORSALES.

37

V.1 Principe.

37

V.2 lagage de poids synaptiques.

37

V.3 Une procdure pour la dtection de neurones fonctions gaussiennes mal


utiliss.

38

V.4 tude dun exemple.

41

VI. MODLISATION DYNAMIQUE DE PROCESSUS LAIDE DE RSEAUX


DE FONCTIONS DORSALES.

43

VI.1 Modlisation entresortie.

43

VI.1.1 Prdicteurs non boucl.

43

VI.1.2 Prdicteur boucl.

44

VI.2 Modlisation dtat.

44

VII. CONCLUSION.

45

CHAPITRE III. Rseaux dondelettes


(approche fonde sur la transforme continue)

46

I. INTRODUCTION.

47

II. RSEAUX ISSUS DE LA TRANSFORME EN ONDELETTES CONTINUE.

48

II.1 La transforme en ondelettes continue.

48

II.2 De la transforme inverse aux rseaux dondelettes.

50

III. DFINITION DES ONDELETTES MULTIDIMENSIONNELLES ET DES


RSEAUX D'ONDELETTES.

51

III.1 Ondelettes multidimensionnelles.

51

III.2 Rseaux d'ondelettes.

51

III.3 Rseaux d'ondelettes et rseaux de neurones.

54

IV. APPRENTISSAGE DES RSEAUX DONDELETTES NON BOUCLS.

55

IV.1 Calcul du gradient de la fonction de cot.

55

IV.2 Initialisation des paramtres du rseau.

57

IV.3 Exemple de modlisation statique.

59

IV.3.1 Prsentation du processus simul.

59

IV.3.2 Modlisation avec 100 exemples.

59

IV.3.3 Modlisation avec 300 exemples.

61

IV.3.4 Influence des termes directs

62

IV.3.5 Quelques figures.

63

V. MODLISATION DYNAMIQUE ENTRESORTIE ET RSEAUX


DONDELETTES.

64

V.1 Apprentissage de rseaux de type entre-sortie.

65

V.1.1 Apprentissage de prdicteurs non boucls.

65

V.1.2 Apprentissage de prdicteurs boucls.

65

V.1.3 Calcul du gradient par rtropropagation.

67

V.1.4 Calcul du gradient dans le sens direct.

68

V.2 Exemple.

70

V.2.1 Prsentation du processus.

70

V.2.2 tude du gain statique.

70

V.2.3 Modlisation du processus.

71

VI. MODLISATION DTAT ET RSEAUX DONDELETTES.

72

VI.1 Modles d'tat sans bruit, avec tats non mesurables.

73

VI.2 Apprentissage de rseaux dtat boucls.

73

VI.2.1 Structure du rseau dtat.

73

VI.2.2 Calcul du gradient par rtropropagation.

76

VI.2.2.1 Calcul du gradient de J par rapport la sortie et aux variables dtat.

76

VI.2.2.2 Calcul du gradient de J par rapport aux paramtres du rseau.

77

VI.2.2.3 Commentaire sur le choix des variables dtat.

79

VI.2.3 Calcul du gradient dans le sens direct.

79

VI.2.4 Initialisation des paramtres du rseau.

81

VII. LE PROBLME MATRELVE ET LES RSEAUX D'ONDELETTES.

82

VII.1 Minima locaux de la fonction de cot.

83

VII.2 Choix de la squence dapprentissage.

84

VII.3 Choix du domaine des entres et des paramtres du rseau matre.

84

VII.4 Choix de lalgorithme et de linitialisation du rseau.

85

VII.5 Approche adopte pour ltude du problme.

85

VII.6 Rsultats et commentaires.

85

VIII. CONCLUSION.

86

CHAPITRE IV. Rseaux dondelettes


(approche fonde sur la transforme discrte)

88

I. INTRODUCTION.

89

II. RSEAUX ISSUS SUR LA TRANSFORME EN ONDELETTES DISCRTE.

89

II.1 Structures obliques et bases dondelettes orthonormales.

90

II.1.1 Ondelettes variables continues.

90

II.1.2 Ondelettes variables discrtes.

92

II.1.3 Choix de l'ondelette mre.

93

II.2 Rseaux fonds sur la transforme discrte.

94

III. TECHNIQUES DE CONSTRUCTION DE RSEAUX DONDELETTES.

95

III.1 Impossibilit dutiliser les techniques de gradient.

95

III.2 Diffrentes approches pour construire un rseau dondelettes fond sur la


transforme discrte.
III.2.1 Approches nutilisant pas de procdure de slection.

95
95

III.2.1.1 Technique fonde sur lanalyse frquentielle.

95

III.2.1.2 Technique fonde sur la thorie des ondelettes orthogonales.

96

III.2.1.3 Rseaux dondelettes pour un systme adaptatif.

96

III.2.2 Approches utilisant une procdure de slection.

97

III.2.2.1 Technique fonde sur la construction de structures obliques troites.

97

IV. PROPOSITION DUNE PROCDURE DE CONSTRUCTION DE


RSEAUX ET D'INITIALISATION DE L'APPRENTISSAGE.

97

IV.1 Description de la procdure de construction de la bibliothque.

98

IV.1.1 Famille engendrant la bibliothque pour un modle une entre.

98

IV.1.2 Cas des bibliothques pour modles plusieurs entres.

IV.2 La mthode de slection.

100

100

IV.2.1 Principe de la mthode de slection par orthogonalisation.

100

IV.2.2 Cas des termes directs.

102

IV.3 La procdure de construction du rseau.

102

IV.3.1 Prsentation de la procdure de construction.

102

IV.3.2 Avantages et inconvnients de cette approche.

103

IV.4 Autre application de la procdure : initialisation des translations et dilatations


pour lapprentissage de rseaux d'ondelettes paramtres continus.

104

IV.4.1 Principe de la procdure dinitialisation.

104

IV.4.2 Avantages et inconvnients de cette mthode dinitialisation.

105

V. TUDE DEXEMPLES.

105

V.1 Exemple de construction de rseaux l'aide de la procdure de slection.

105

V.1.1 Prsentation du processus.

105

V.1.2 Construction dun modle dynamique laide de la procdure.

106

V.1.2.1 Modlisation dynamique sans bruit du processus simul.

107

V.1.2.2 Modlisation dynamique avec bruit du processus simul.

107

V.1.2.3 Conclusion.

108

V.2 Exemple d'initialisation des translations et des dilatations de rseaux l'aide de


la procdure de slection.
V.2.1 Processus 1.

108
108

V.2.1.1 Prsentation du processus.

108

V.2.1.2 Initialisation de rseaux laide de la procdure de slection.

109

V.2.2 Processus 2.

112

VI. CONCLUSION.

113

CHAPITRE V. tude de quelques exemples

115

I. INTRODUCTION.

116

II. MODLISATION DE PROCESSUS SIMULS.

117

II.1 Prsentation du processus simul sans bruit.

117

II.2 Modlisation du processus simul non bruit.

118

II.2.1 Rseau prdicteur fonctions ondelettes.

119

II.2.1.1 Apprentissage avec lalgorithme de BFGS.

119

II.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt.

120

II.2.2 Rseau prdicteur fonctions dorsales.

120

II.2.2.1 Apprentissage avec lalgorithme de BFGS.

121

II.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt.

121

II.3 Modlisation du processus simul avec bruit.

122

II.3.1 Modlisation du processus simul avec bruit additif de sortie.

123

II.3.2 Modlisation du processus simul avec bruit dtat additif.

124

II.4 Conclusion.

124

III. MODLISATION DUN PROCESSUS REL.

124

III.1 Prsentation du processus.

125

III.2 Modlisation entresortie.

126

III.2.1 Rseau prdicteur fonctions ondelettes.

126

III.2.1.1 Apprentissage avec lalgorithme de BFGS.

126

III.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt.

127

III.2.1.3 Frquence d'occurrence du meilleur rsultat.

128

III.2.2 Rseau prdicteur fonctions dorsales.

129

III.2.2.1 Apprentissage avec lalgorithme de BFGS.

129

III.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt.

130

III.2.2.3 Frquence d'occurrence du meilleur rsultat.

130

III.2.3 Conclusion de la modlisation entresortie.

131

III.3 Modlisation dtat.

132

III.3.1 Rseau prdicteur d'tat fonctions dondelettes.

133

III.3.2 Rseau prdicteur d'tat fonctions dorsales.

134

III.3.3 Rseau prdicteur dtat fonctions dorsales dont la sortie est lun des tats.

134

III.3.4 Conclusion de la modlisation dtat.

135

IV. CONCLUSION.

136

Conclusion

137

Bibliographie

141

Annexe A

151

Annexe B

166

Introduction

Introduction
Grce aux rsultats thoriques et pratiques obtenus au cours des dernires annes,
les rseaux de neurones sont devenus un outil de plus en plus utilis dans divers
domaines (industrie, banque, services). Ils demeurent toutefois un sujet dun
grand intrt pour les chercheurs qui dsirent amliorer les performances de ces
rseaux et tendre leur champ dapplications.
La proprit fondamentale des rseaux de neurones, lapproximation universelle
parcimonieuse, fait de ceux-ci une reprsentation mathmatique trs avantageuse
pour la modlisation statique et dynamique non linaire de processus. L'utilisation de neurones sigmodaux tait initialement justifie par une analogie biologique ; mais celle-ci est devenue caduque pour la conception de systmes de traitement de signaux ou de modlisation de processus. Il est donc lgitime d'explorer
les possibilits d'utilisation d'autres types de neurones [Sontag93].
Cet effort de recherche dune alternative aux rseaux de neurones "classiques"
sest tout dabord dirig vers les rseaux de fonctions radiales, en particulier gaussiennes. Ils ont notamment t mis en uvre en Automatique non linaire :
modlisation de processus et commande. Les techniques de construction de ces
rseaux aboutissent gnralement des modles peu parcimonieux. En revanche,
ils possdent des proprits plus intressantes que les rseaux de neurones pour la
synthse de lois de commandes stables [Sanner92].
Rcemment, des familles de fonctions, issues du traitement du signal et de
limage, appeles ondelettes ont t utilises pour rsoudre des problmes
dapproximation de fonctions [Pati93, Zhang92]. Ces ondelettes sont plus compliques que les fonctions utilises pour les rseaux de neurones classiques. En revanche, elles possdent quelques proprits prometteuses pour la modlisation
de processus.
Lobjectif principal de ce travail tait donc ltude de la mise en uvre des fonctions ondelettes pour la modlisation statique (qui avait dj t aborde par d'autres auteurs), et pour la modlisation dynamique de processus (qui, notre connaissance, n'avait jamais t tudie). Nous avons considr deux approches issues de la transforme en ondelettes :
Lapproche fonde sur la transforme continue, trs proche de celle
des rseaux de neurones classiques, dont nous nous inspirons pour
mettre au point une mthodologie de construction de rseaux

Introduction
dondelettes. Elle permet denvisager des rseaux boucls (que nous
proposons dans ce mmoire) et non boucls.
Lapproche fonde sur la transforme discrte, propre aux fonctions
ondelettes, qui permet de tirer parti des proprits et des spcificits de
ces fonctions pour la mise au point de procdures originales pour
lapprentissage de rseaux dondelettes.
Parmi les rsultats thoriques concernant les bases de fonctions ondelettes, il a t
prouv que cette famille de fonctions possde la proprit dapproximation universelle. En revanche, il nexiste pas de rsultat quivalent celui des rseaux de
neurones concernant la proprit de parcimonie. De ce fait, et sur la base des
exemples que nous tudions conjointement avec des rseaux dondelettes et de
neurones sigmodaux, nous nous proposons de faire une valuation de la parcimonie des rseaux dondelettes.
De plus, nous avons systmatiquement utilis, pour l'estimation des paramtres
des rseaux que nous avons mis en uvre, deux algorithmes doptimisation du
second ordre : lalgorithme de BFGS et celui de LevenbergMarquardt. Le premier
a t largement utilis pour lapprentissage de rseaux boucls et non boucls. En
revanche, des rsultats sur lutilisation du second pour lapprentissage de rseaux
boucls sont, notre connaissance, totalement absents de la littrature consacre
aux rseaux de neurones. Nous avons donc systmatiquement cherch comparer les rsultats obtenus l'aide de ces algorithmes, sous divers points de vue.
Le chapitre I du prsent mmoire est consacr des dfinitions et rappels concernant la modlisation, statique et dynamique de processus ; nous prsentons notamment des considrations mthodologiques pour la construction de modles
"bote noire", que nous avons mises en uvre tout au long de ce travail. Cette
approche s'inscrit dans la continuit de travaux antrieurs effectus au sein du
laboratoire [Nerrand92, Rivals95a, Urbani95]. Nous dcrivons ensuite les algorithmes doptimisation employs pour lestimation des paramtres des rseaux de
fonctions, qu'il s'agisse de neurones fonctions dorsales ou dondelettes fondes
sur la transforme continue.
Le chapitre II prsente les rseaux de neurones classiques que nous avons mis e n
uvre pour la modlisation statique et dynamique de processus. Nous considrons deux types de fonctions dorsales : la fonction tangente hyperbolique, exemple
de sigmode (qui est la brique des rseaux classiques), et la fonction gaussienne.
3

Introduction
Pour cette dernire, nous proposons une procdure agissant en cours
dapprentissage, qui permet damliorer lutilisation de chacun des neurones. Ces
considrations sont illustres par un exemple.
Le chapitre III est consacr aux rseaux dondelettes fonds sur la transforme continue. Aprs une brve prsentation des fonctions ondelettes, nous proposons des
algorithmes dapprentissage de rseaux dondelettes boucls pour une modlisation entresortie et dtat. Les rsultats prsents dans ce chapitre ont t publis
partiellement dans un article accept pour publication dans la revue Neurocomputing [Oussar98], reproduit en annexe de ce mmoire.
Le chapitre IV aborde la modlisation de processus par des rseaux dondelettes
fonds sur la transforme discrte. La particularit des bases dondelettes utilises
dans ce contexte ne permet pas dapprentissage fond sur une technique de gradient. De ce fait, la construction de ces rseaux est effectue laide de mthodes
de slection dans une bibliothque dondelettes. Nous proposons dans ce chapitre
une procdure qui met en uvre ces bases dondelettes pour initialiser les coefficients de rseaux fonds sur la transforme continue, avant l'apprentissage de
ceux-ci.
Les considrations dveloppes dans les chapitres prcdents sont appliques,
dans le chapitre V, la modlisation dun processus simul, et dun processus
rel. Nous prsentons dabord les rsultats obtenus avec des rseaux boucls de
fonctions dorsales et dondelettes. Ensuite, nous confrontons les performances
ralises par deux algorithmes du second ordre sur les deux types de rseaux.

CHAPITRE I
Modlisation de processus
et estimation des paramtres dun modle

Modlisation de processus et estimation des paramtres dun modle

I. INTRODUCTION.
Dans la premire partie de ce chapitre, nous rappelons les notions de
processus et de modle, ainsi que divers termes utiliss frquemment dans le
cadre de la modlisation. Dans la seconde partie, nous aborderons le problme de
lestimation des paramtres dun modle et nous prsenterons les algorithmes
qui ont t utiliss dans notre travail.
II. DFINITION DUN PROCESSUS ET DUN MODLE.
II.1 Processus.
Un processus est caractris par :
une ou plusieurs grandeurs de sortie, mesurables, qui constituent le rsultat du
processus,
une ou plusieurs grandeurs d'entre (ou facteurs), qui peuvent tre de deux
types :
- des entres sur lesquelles il est possible d'agir (entres de commande),
- des entres sur lesquelles il n'est pas possible d'agir (perturbations) ; ces
dernires peuvent tre alatoires ou dterministes, mesurables ou n o n
mesurables.
Les processus peuvent tre de toutes natures : physique, chimique,
biologique, cologique, financier, sociologique, etc.
II.2 Modles.
II.2.1 Quest ce quun modle ?
Nous nous intressons ici aux modles mathmatiques, qui reprsentent
les relations entre les entres et les sorties du processus par des quations.
Si ces quations sont algbriques, le modle est dit statique. Si ces quations sont
des quations diffrentielles ou des quations aux diffrences rcurrentes, le
modle est dit dynamique, respectivement temps continu ou temps discret.
Un modle est caractris par son domaine de validit, c'est--dire par le domaine
de l'espace des entres dans lequel l'accord entre les valeurs des sorties du
processus calcules par le modle, et leurs valeurs mesures, est considr comme
satisfaisant compte tenu de l'utilisation que l'on fait du modle.
II.2.2 Buts dune modlisation.
Un modle peut tre utilis soit

Modlisation de processus et estimation des paramtres dun modle


pour simuler un processus : des fins pdagogiques, de dtection d'anomalies
de fonctionnement, de diagnostic de pannes, de conception assiste par
ordinateur, etc.,
pour effectuer la synthse d'une loi de commande, ou pour tre incorpor dans
un dispositif de commande.
II.2.3 Classification des modles.
II.2.3.1 Classification selon le mode de conception.
On distingue trois sortes de modles en fonction des informations mises e n
jeu pour leur conception :
Les modles de connaissance : les modles de connaissance sont
construits partir dune analyse physique, chimique, biologique (ou autre suivant
le type du processus), en appliquant soit les lois gnrales, fondes sur des
principes (lois de la mcanique, de l'lectromagntisme, de la thermodynamique,
de la physique quantique, etc.), soit les lois empiriques (finance, conomie), qui
rgissent les phnomnes intervenant au sein des processus tudis. Ces modles
ne comportent gnralement pas de paramtres ajustables, ou des paramtres
ajustables en trs petit nombre.
Dans la pratique, il est toujours souhaitable d'tablir un modle de
connaissance des processus que l'on tudie. Nanmoins, il arrive frquemment
que le processus soit trop complexe, ou que les phnomnes qui le rgissent
soient trop mal connus, pour qu'il soit possible d'tablir un modle de
connaissance suffisamment prcis pour l'application considre. On est alors
amen concevoir des modles purement empiriques, fonds exclusivement sur
les rsultats de mesures effectues sur le processus.
Les modles bote noire : les modles bote noire sont construits
essentiellement sur la base de mesures effectues sur les entres et les sorties du
processus modliser. La modlisation consiste alors utiliser, pour reprsenter
les relations entre les entres et les sorties, des quations (algbriques,
diffrentielles, ou rcurrentes) paramtres, et estimer les paramtres, partir
des mesures disponibles, de manire obtenir la meilleure prcision possible
avec le plus petit nombre possible de paramtres ajustables. Dans ce mmoire,
nous dsignerons frquemment l'estimation des paramtres sous le terme
d'apprentissage.

Modlisation de processus et estimation des paramtres dun modle


Le domaine de validit d'un tel modle ne peut pas s'tendre au-del du
domaine des entres qui est reprsent dans les mesures utilises pour
l'apprentissage.
Les modles bote grise : lorsque des connaissances, exprimables sous
forme d'quations, sont disponibles, mais insuffisantes pour concevoir u n
modle de connaissance satisfaisant, on peut avoir recours une modlisation
"bote grise" (ou modlisation semi-physique) qui prend en considration la fois
les connaissances et les mesures. Une telle dmarche peut concilier les avantages
de l'intelligibilit d'un modle de connaissance avec la souplesse d'un modle
comportant des paramtres ajustables.
II.2.3.2 Classification selon lutilisation.
Indpendamment de la classification prcdente, on peut distinguer deux
types de modles en fonction de l'utilisation qui en est faite.
Les modles de simulation (ou simulateurs) : un modle de simulation
est utilis de manire indpendante du processus quil reprsente. Il doit donc
possder un comportement aussi semblable que possible celui du processus. De
tels modles sont utiliss pour valider la conception d'un systme avant sa
fabrication (conception assiste par ordinateur en mcanique, en microlectronique, ...), pour la formation de personnels (simulateurs de vols), pour la
prvision long terme, etc.
Du point de vue de la structure du modle, les sorties passes, mesures sur l e
processus modliser, ne peuvent constituer des entres du modle. L'estimation
des paramtres et l'utilisation du modle constituent deux phases successives et
distinctes (apprentissage non adaptatif).
Les modles de prdiction (ou prdicteurs) : un modle de prdiction est
utilis en parallle avec le processus dont il est le modle. Il prdit la sortie du
processus une chelle de temps courte devant les constantes de temps du
processus. Les prdicteurs sont utiliss pour la synthse de lois de commande, o u
dans le systme de commande lui-mme (commande avec modle interne).
Du point de vue de la structure du modle, les sorties passes, mesures sur le
processus, peuvent constituer des entres du modle. L'estimation des
paramtres et l'utilisation du modle peuvent tre effectues simultanment si
ncessaire (apprentissage adaptatif, utile notamment si les caractristiques du
processus drivent dans le temps).

Modlisation de processus et estimation des paramtres dun modle


Ce mmoire prsente la mise en oeuvre de plusieurs types de rseaux de
fonctions paramtres pour la modlisation dynamique de processus, et la
comparaison de leurs performances respectives. Il s'agira donc exclusivement de
modles de type bote noire qui peuvent tre utiliss indiffremment comme
simulateurs ou comme prdicteurs.
III. LES TAPES DE LA CONCEPTION DUN MODLE.
Lors de la conception dun modle de connaissance, la relation entre les
entres et la (ou les) sortie(s) du modle dcoulent directement de la mise e n
quation des phnomnes physiques (chimiques, ou autres) qui rgissent le
fonctionnement du processus. Une fois le modle obtenu sous forme analytique,
des approximations peuvent tre faites pour simplifier son expression (par
exemple "linariser" le modle pour passer d'un modle non linaire u n
modle linaire) si une telle approximation est justifie.
Dans le cas dune modlisation de type bote noire, la construction du
modle ncessite les trois lements suivants :
Une hypothse sur lexistence dune relation dterministe liant les entres la
(ou aux) sortie(s). Cette relation est caractrise par une fonction appele
fonction de rgression (ou plus simplement rgression). L'expression formelle
suppose adquate pour reprsenter cette relation est appele m o d l e hypothse.
Une squence de mesures des entres et de la sortie du processus.
Un algorithme dapprentissage.
Dans la suite de ce paragraphe, nous prsentons les diffrents aspects qui doivent
tre pris en considration lors du choix dun modle-hypothse.
III.1 Choix dun modle-hypothse.
Les connaissances dont on dispose a priori sur le processus doivent guider
le concepteur dans le choix de la modlisation la plus approprie (statique o u
dynamique, linaire ou non linaire, ...). Llaboration du modle-hypothse
ncessite d'effectuer les choix suivants :
Modle statique ou dynamique : lorsque l'on cherche modliser u n
processus physico-chimique ou biologique, il est gnralement facile de savoir si
l'application envisage ncessite de modliser la dynamique du processus (c'est-dire si l'on doit considrer une chelle de temps petite devant les constantes de
temps du processus) ou si une modlisation statique suffit.

Modlisation de processus et estimation des paramtres dun modle


Modle linaire ou non linaire : il n'est pas douteux que la plupart des
processus que l'on peut rencontrer ncessiteraient des modles non linaires s'il
fallait les dcrire de manire prcise dans la totalit de leur domaine de
fonctionnement : la plupart des modles linaires constituent des approximations
valables dans un domaine plus ou moins restreint. Il est donc important de
pouvoir laborer un modle non linaire pour rendre compte du comportement
d'un processus, non seulement autour de ses points de fonctionnement
"habituels", mais galement lors des passages d'un point de fonctionnement u n
autre.
Modle entre-sortie ou modle d'tat : dans le cas o l'on opte pour une
modlisation dynamique, deux reprsentations sont possibles pour le modle : il
sagit de la reprsentation dtat ou de la reprsentation entresortie. Ltat dun
processus est dfinit comme la quantit dinformation minimale ncessaire pour
prdire son comportement, tant donnes les entres prsentes et venir. Il sagit
gnralement dun vecteur de grandeur gale lordre du modle. La
reprsentation entresortie est un cas particulier de la reprsentation dtat o le
vecteur des tats est constitu par la sortie et ses valeurs retardes dans le temps.
Si le but de la modlisation est de prdire le comportement entresortie du
processus, il existe gnralement une infinit de reprsentations dtat (au sens
dtats ayant des trajectoires diffrentes) solutions du problmes. En revanche, la
reprsentation entresortie est unique.
Prsence de perturbations dterministes : lorsque l'on cherche raliser
un modle dynamique, les perturbations dterministes peuvent tre modlises
par une entre supplmentaire (chelon, signal carr, sinusode). En particulier, si
le modle est construit pour la synthse dune loi de commande, la prise e n
considration de lexistence dune perturbation pendant la phase de modlisation
peut amliorer les performances de la commande pour le rejet de cette
perturbation. Par exemple, il est propos dans [Mukhopa93] une approche qui
consiste considrer la perturbation comme la sortie dun processus. La
modlisation de ce processus a pour effet d'introduire de nouvelles variables
d'tat, donc d'augmenter l'ordre du modle.
Prsence dun bruit : lorsque l'on cherche raliser un modle
dynamique, une perturbation de type bruit est modlise par une squence de
variables alatoires. Un bruit peut agir de diffrentes manires sur un processus.
On distingue notamment le bruit de sortie (bruit additif qui affecte la mesure de la
sortie du processus), et le bruit dtat (bruit additif qui affecte l'tat du processus).
Comme, en gnral, on ne connat pas avec prcision la nature du bruit qui
10

Modlisation de processus et estimation des paramtres dun modle


affecte le processus, on doit effectuer des hypothses sur celle-ci ; on dduit de
celles-ci la structure du modle-hypothse, et l'algorithme utilis pour
l'ajustement des paramtres. Une hypothse errone peut dgrader
considrablement les performances du modle. Ces problmes ont t trs
largement tudis dans le cas de la modlisation linaire [Ljung87]. Dans le cadre
de la modlisation non linaire par rseaux de neurones, ces considrations sont
dveloppes dans [Nerrand94].
III.2 Du modle-hypothse au prdicteur ou au simulateur.
Un modle-hypothse ayant t choisi, ltape suivante consiste tablir
l'expression du prdicteur thorique, c'est--dire l'expression de la prdiction de
la sortie du processus l'instant n+d en fonction des donnes disponibles
l'instant n (entres et sorties du processus et/ou du prdicteur l'instant n et aux
instants antrieurs). Enfin, la dernire tape consiste tablir l'expression du
prdicteur (ou du simulateur) proprement dit : dans le cas d'une modlisation
"bote noire", ce prdicteur utilise une fonction paramtre, dont on estime les
paramtres, partir de mesures effectues pralablement sur le processus, de telle
manire qu'il constitue la meilleure approximation possible du prdicteur
thorique. A l'issue de la procdure destimation des paramtres (apprentissage),
il faut valuer la performance du prdicteur (ou du simulateur).
Dans le cadre de ce mmoire nous nous intressons plus particulirement
ltape dapprentissage et donc aux caractristiques du prdicteur (complexit,
contraintes de mise en oeuvre) et aussi lalgorithme dapprentissage (efficacit,
robustesse). La plupart des exemples tudies tant des processus simuls, le
problme du choix du modle-hypothse ne se pose pas. En revanche, la
modlisation dun processus rel (dans le dernier chapitre) sera loccasion
d'examiner ce problme.
III.3 Prsentation de quelques modles-hypothses et de leurs prdicteurs
associs.
Nous prsentons dans ce paragraphe quelques exemples de modleshypothses ainsi que les prdicteurs qui leurs sont associs, pour l'laboration
d'un modle dynamique entre-sortie. Lun des principaux paramtres qui
interviennent dans le choix dun modle-hypothse est la prsence dun bruit et
la manire dont il agit sur le processus. Pour ceci, nous allons considrer deux
classes de modles-hypothses : le modle-hypothse dterministe et des
modles-hypothses non dterministe (faisant intervenir un bruit dans la
modlisation du processus).

11

Modlisation de processus et estimation des paramtres dun modle


III.3.1 Modle-hypothse dterministe.
On considre quaucun bruit n'agit sur le processus. On propose u n
modle-hypothse dterministe ayant lexpression suivante :
(1)
yp n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe
o yp(n) est la sortie mesure du processus linstant n, N s est lordre du modle
et N e la mmoire sur lentre externe u. f est une fonction non linaire dont o n
suppose qu'elle existe, et qu'elle constitue une reprsentation mathmatique du
comportement du processus.
La forme prdicteur thorique associe ce modle-hypothse est la
suivante :
(2)
y n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe
o y(t) est la prdiction de la sortie du processus calcule par la forme prdicteur
thorique. tant donn que nous considrons que le processus nest soumis
aucun bruit, la forme prdicteur thorique doit calculer tout instant y(t) = yp(t).
Le prdicteur dont on effectuera lapprentissage aura pour expression :
y t = yp t1 , ... , yp tNs , u t1 , ... , u tNe

(3)

o est une fonction paramtre, dont les paramtres doivent tre estims pour
qu'elle approche au mieux la fonction f dans le domaine de fonctionnement
considr. Cette optimisation sentend au sens de la minimisation de la fonction
de cot empirique, que lon appellera dornavant fonction de cot et que lon
notera par J. Cette minimisation est ralise l'aide d'un algorithme
dapprentissage.
Si lon est intress par la construction dun modle de simulation, u n
autre prdicteur peut tre considr :
(4)
y n = y n1 , ... , y nNs , u n1 , ... , u nNe
La seule diffrence avec la forme prdicteur de la relation (3) rside dans le fait
que les entres dtat du modle sont les sorties retardes du modle, non celles
du processus.
III.3.2 Modles-hypothses non dterministes.
On dsigne par modles-hypothses non dterministes des modleshypothses qui supposent lexistence dun bruit agissant sur le processus
modliser. On peut envisager plusieurs hypothses concernant la manire dont le
bruit agit sur le processus. Nous en prsentons deux, que nous considrerons lors
de ltude dexemples dans ce mmoire.

12

Modlisation de processus et estimation des paramtres dun modle


III.3.2.1 Lhypothse Bruit de sortie.
Lhypothse Bruit de sortie (Output Error en anglais) consiste
considrer quun bruit agit sur la sortie du processus. Lexpression du modlehypothse est :
x(n) = f(x(n1), ... , x(nNs), u(n1), ... , u(nNe))
(5)
yp(n) = x(n) + w(n)
o {w(n)} est une squence de variables alatoires indpendantes de moyenne
2
nulle et de variance . La forme prdicteur thorique associe ce modlehypothse est donne par lexpression suivante :
(6)
y(n) = f y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe
Le prdicteur rel associ a pour expression :
y(n) = y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe

(7)

o est une fonction ralise l'aide d'une fonction paramtre, par exemple u n
rseau de neurones. Cest donc un modle dont les entres dtat sont ses propres
sorties retardes, et non pas les sorties du processus. Si, aprs apprentissage, la
fonction tait identique la fonction f, l'erreur de prdiction commise par ce
prdicteur serait une squence alatoire de mmes caractristiques que w. Lorsque
la fonction parmtre est ralise par un rseau de neurones, celui-ci est u n
rseau boucl, que nous dcrirons au paragraphe II.4.2 du chapitre suivant.
III.3.2.2 Lhypothse Bruit dtat.
Lhypothse Bruit dtat (Equation Error en anglais) consiste considrer
quun bruit agit sur l'tat du processus. Ce modle-hypothse a la forme suivante
:
(8)
yp(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe + w(n)
o {w(n)} est une squence de variables alatoires indpendantes de moyenne
2
nulle et de variance . La forme prdicteur thorique associe ce modlehypothse est donne par lexpression suivante :
(9)
y(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe
Le prdicteur rel associ est de la forme :
y(n) = yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe

(10)

o est une fonction paramtre. Si tait identique f, l'erreur de prdiction


effectue par ce prdicteur serait une squence de variables alatoires de mmes
caractristiques que le bruit w. Lorsque la fonction parmtre est ralise par u n
rseau de neurones, celui-ci est un rseau non boucl, que nous dcrirons au
paragraphe II.4.1 du chapitre suivant.

13

Modlisation de processus et estimation des paramtres dun modle


IV . FONCTIONS PARAMTRES POUR LA MODLISATION "BOTE NOIRE".
Comme indiqu cidessus, une modlisation de type bote noire est mise
en uvre dans le cas o l'on dispose de peu de connaissance sur le processus
tudi, ou si le modle de connaissance tabli est trop compliqu pour tre
exploit. Dans les deux cas (et particulirement dans le second) on a besoin dun
outil fournissant un modle prcis, aussi simple que possible en termes de
nombre de paramtres ajustables et de nombre de calculs effectuer, pour prdire
la sortie du processus.
En gnral, un modle bote noire statique est une combinaison
paramtre de fonctions, qui peuvent tre elles-mmes paramtres. Un modle
"bote noire" dynamique est, comme nous l'avons vu ci-dessus, un ensemble
d'quations diffrentielles (ou d'quations aux diffrences pour un modle
temps discret) non linaires, o la non-linarit est ralise, comme dans le cas
d'un modle statique, par une combinaison paramtres de fonctions
ventuellement paramtres.
Des fonctions paramtres constituent une famille d'approximateurs
universels s'il est possible (sous certaines conditions de rgularit) dapprocher
toute fonction continue, avec la prcision voulue, dans un domaine de l'espace
des entres, par une somme pondre d'un nombre fini de ces fonctions.
Cette condition n'est nanmoins pas suffisante pour qu'une famille de
fonctions soit utilisable de manire efficace pour la modlisation "bote noire"
efficace. En effet, parmi tous les modles possibles, on recherche toujours celui
qui possde le plus petit nombre de coefficients ajustables : c'est la proprit de
parcimonie, dont nous verrons qu'elle n'est pas partage par tous les types de
fonctions paramtres. A cet gard, il est important de distinguer les modles
linaires par rapport aux paramtres des modles non linaires par rapport aux
paramtres.
IV.1 Les fonctions paramtres linaires par rapport aux paramtres.
Une fonction paramtre est linaire par rapport aux paramtres si elle est
de la forme :
N

X=

X
i

(11)

i=1

o les i(X) sont des fonctions non paramtres d'une ou plusieurs variables
groupes dans le vecteur X, et o les i sont des paramtres.
Les fonctions i(X) peuvent tre quelconques ; traditionnellement on utilise des
monmes ; mais on peut galement utiliser dautres types de fonctions : fonctions
splines, fonctions gaussiennes dont les centres et les cartstypes sont fixs,
14

Modlisation de processus et estimation des paramtres dun modle


fonctions ondelettes dont les translations et dilatations sont fixes (ces dernires
seront prsentes au chapitre IV de ce mmoire).
IV.2 Les fonctions paramtres non linaires par rapport aux paramtres.
Dans le prsent travail, nous utiliserons essentiellement des fonctions n o n
linaires par rapport aux paramtres, qui sont de la forme
N

X=

X,
i

(12)

i=1

o i est un vecteur de paramtres de la fonction i. Ainsi, la fonction ralise est


linaire par rapport aux i, mais non linaire par rapport aux paramtres
constituant le vecteur i : c'est une combinaison linaire de fonctions
paramtres.
Les rseaux de neurones une couche cache (prsents au chapitre II), les
rseaux de fonctions gaussiennes radiales dont les centres et les carts-types sont
ajustables, les rseaux d'ondelettes (qui sont l'objet essentiel de ce travail) entrent
dans cette catgorie de fonctions. Toutes ces fonctions sont des approximateurs
universels [Hornik89] mais leur intrt, par rapport aux fonctions linaires par
rapport aux paramtres, rside dans le caractre parcimonieux des modles quils
permettent de raliser [Hornik94]. Comme nous le verrons au paragraphe V.2, le
prix payer pour cela rside dans le fait que les mthodes habituelles d'estimation
de paramtres (mthodes de moindres carrs) sont inutilisables, et que l'on doit
avoir recours des mthodes itratives (mthodes de gradient) dont la mise e n
uvre est plus lourde.
Nous prsentons brivement ci-dessous ces trois types de rseaux, dont
deux seront repris en dtail dans les chapitres suivants.
IV .2.1 Les rseaux de neurones.
Dans ce travail, nous rserverons le terme de rseau de neurones aux
rseaux de la forme (12) , o au moins une des fonctions i(X) est une fonction
croissante borne, notamment sigmode (tangente hyperbolique), d'une
combinaison linaire des entres ; certaines de ces fonctions peuvent tre
l'identit. Lexpression de ces rseaux est :
N

(X) = i i iTX

(13)

i=1

Issus de travaux connotation biologique dans les annes 1940, ces rseaux sont
maintenant considrs comme des outils mathmatiques, indpendamment de
toute rfrence la biologie. Ils sont utiliss pour la modlisation et la commande

15

Modlisation de processus et estimation des paramtres dun modle


de processus non linaires, ainsi que comme outils de classification, notamment
pour la reconnaissance de formes.
Les principales tapes dans lvolution de la thorie et de la pratique des
rseaux de neurones ont t la mise au point dun algorithme, conomique e n
temps de calcul, pour l'valuation du gradient de la fonction de cot (dfinie au
paragraphe V), appel algorithme de rtropropagation [Rumelhart86], et la preuve
de ses proprits dapproximateur universel [Hornik89] et de parcimonie
[Barron93, Hornik94]. Lune des premires applications dans le domaine de la
modlisation non linaire de processus est prsente dans [Narendra90].
IV .2.2 Les rseaux de fonctions radiales (RBF pour Radial Basis Functions).
Les fonctions radiales ont t introduites par [Powell85] dans le cadre de
l'interpolation, c'est--dire de la recherche de fonctions passant exactement par
un nombre fini de points (dits points de collocation). Dans ce contexte, la fonction
recherche est une combinaison linaire de fonctions de base, en nombre gal au
nombre de points de collocation ; une fonction de base n(x), relative au point de
collocation xn, est dite radiale si elle ne dpend que de la distance du point courant
x au point de collocation xn. On peut utiliser diverses fonctions radiales,
notamment des fonctions localises (qui tendent vers zro dans toutes les
directions de l'espace des variables) telles que des gaussiennes centres aux points
de collocation. Bien entendu, la recherche d'une fonction passant exactement par
les points n'a de sens que si ces points ne sont pas entachs de bruit.
La rfrence [Broom88] semble tre parmi les premires proposer lide
d'utiliser des rseaux de RBF pour l'approximation de fonctions non linaires. La
fonction recherche est toujours une combinaison linaire de fonctions radiales,
mais leur nombre est beaucoup plus petit que le nombre de points, et elles ne sont
donc pas forcment centres en ces points. Son expression est de la forme :
N

(X) = i i X Mi , i2

(14)

i=1

o M est le vecteur des centres et i2 un scalaire (appel variance dans le cas


dune RBF gaussienne).
La proprit dapproximateurs universels pour ces rseaux na t que rcemment
prouve pour des gaussiennes radiales [Hartman90] et plus gnralement pour
des RBF [Park91].
Ces rseaux ont t utiliss comme outil de modlisation bote noire
dans le domaine de lautomatique. On les trouve la base de modles entre
sortie [Chen90] et aussi de modles dtat [Elanayar94]. Certaines spcificits de ces
rseaux permettent de les utiliser pour la synthse de lois de commande
adaptatives stables [Behera95, Sanner92, Sanner95]. Le fait que ces rseaux
16

Modlisation de processus et estimation des paramtres dun modle


permettent de garantir la stabilit des correcteurs quils ralisent les rend plus
intressants que les rseaux de neurones pour la rsolution des problmes de
commande non linaire. En revanche, cette proprit se fait au dtriment de la
parcimonie du rseau.
IV .2.3 Les rseaux dondelettes.
Les fonctions ondelettes trouvent leur origine dans des travaux de
mathmaticiens ds les annes 1930. Lide de dpart tait de construire une
transformation, pour ltude des signaux, plus commode que la transformation
de Fourier, notamment pour des signaux de dure finie.
Les fonctions ondelettes ont subi une volution au cours des annes : celles
dont nous disposons aujourdhui sont plus complexes que leurs anes, et
possdent des proprits intressantes pour lapproximation de fonctions. En
particulier, elles possdent la proprit dapproximateurs universels, ce qui
suggre leur utilisation pour la construction de modles bote noire.
La notion de rseaux dondelettes existe depuis peu [Pati 93] et ltude de la
proprit de parcimonie na pas t aborde. Lun des objectifs de ce mmoire est
ltude de la mise en oeuvre de cette classe de rseaux pour la modlisation
entresortie et dtat de processus, ainsi que la comparaison, sur des exemples, de
la parcimonie et des performances de cette classe de rseaux par rapport celle des
rseaux de neurones (voir les chapitres III, IV et V).
V . ESTIMATION DES PARAMTRES DUN MODLE.
V.1 Position du problme et notations.
tant donnes les informations dont on dispose sur le processus (cest dire
la squence dapprentissage) on dtermine, dans une famille donne de fonctions
paramtres (x, ) (o x est le vecteur regroupant toutes les entres du modle et

le vecteur des paramtres inconnus de ) celle qui minimise une fonction de


cot qui, le plus souvent, est la fonction de cot des moindres carrs.
Soit ypn la sortie du processus linstant n (dans le cas dune modlisation
me
dynamique), ou la valeur mesure pour le n
exemple de l'ensemble
n
dapprentissage (dans le cas dune modlisation statique). De mme, y est la sortie
me
calcule par le modle l'instant n, ou pour le n
exemple de l'ensemble
d'apprentissage. On dfinit la fonction de cot des moindres carrs J() par :
1
J =
2

n 2
n
p y

(15)

n=1

17

Modlisation de processus et estimation des paramtres dun modle


o N est le nombre de mesures (taille de la squence). J()dpend du vecteur des
paramtres, ainsi que de la squence dapprentissage. Pour allger les notations,
nous n'indiquerons pas explicitement cette dernire dpendance dans la suite.
On dfinit lerreur quadratique moyenne dapprentissage (EQMA) comme une la
moyenne de la fonction de cot calcule sur la squence dapprentissage. Elle est
2J
.
donne par :
N
Lors de son exploitation, le modle reoit des entres diffrentes de celles de
la squence dapprentissage. On peut estimer ses performances en calculant
diverses fonctions ; celle que l'on utilise le plus frquemment est l'erreur
quadratique moyenne de performance EQMP dont la valeur est calcule sur une
squence diffrente de celle utilise pour l'apprentissage.
V.2 Les algorithmes de minimisation de la fonction de cot.
Dans le cas o le modle est linaire par rapport aux paramtres ajuster, la
minimisation de la fonction de cot, et donc lestimation du vecteur des
paramtres , peut se faire laide la mthode des moindes carrs, qui ramne le
problme la rsolution dun systme dquations linaires. Nous prsentons
cette technique dans ce qui suit.
V .2.1 Mthode des moindres carrs ordinaires.
Cette mthode est applicable pour lapprentissage de modles statiques o u
de prdicteurs non boucls dont la sortie est linaire par rapport aux paramtres
inconnus. Si cette sortie est linaire par rapport aux entres, le prdicteur associ a
pour expression :
Ni

yn =

x n

(16)

i i

i= 1

Ce modle prdictif peut se tre mis sous forme dune quation matricielle. En
effet, on peut lcrire Y = X avec :

Y=

y1
y2
yN

x1 1

x2 1

xN 1
i

,X=

,=
x1 N

xN N

(17)

Lestimation des paramtres est fonde sur la minimisation de la fonction de cot


des moindres carrs (relation (15)). En utilisant la notation matricielle prsente
cidessus, lexpression de la fonctionde cot J devient :

18

Modlisation de processus et estimation des paramtres dun modle

J =

1 T
Y Y 2 TXTYp + TXTX
2 P P

(18)

La fonction de cot tant quadratique (par rapport au vecteur des paramtres


estimer), il atteint son minimum pour la valeur du vecteur des paramtres
annulant sa drive. Soit mc cette valeur du vecteur des paramtres. Elle vrifie :

=0

(19)

mc

Cette dernire quation fournit lquation normale :


XTX mc = XTYp

(20)

dont la solution mc donne par :

mc = XTX

XTYp

(21)

est lestimation des moindres carrs du vecteur des paramtres p . Cette solution
existe condition que la matrice XTX soit inversible. Cette condition est
gnralement vrifie lorsque N (le nombres dexemples) est trs grand devant N i
(le nombre dentres du modle).
La mthode des moindres carrs peut tre utilise plus gnralement pour
lestimation des paramtres de tout modle dont la sortie est linaire par rapport
aux paramtres estimer ; c'est le cas, par exemple, pour lestimation des
paramtres du modle suivant :
Ni

yn =

ii X

(22)

i= 1

o les i sont des fonctions non paramtres du vecteur des entres X. Plusieurs
choix sont possibles pour les fonctions i (voir paragraphe IV.1).
Les sorties des modles bote noire que nous utilisons dans ce mmoire
ne sont pas linaires par rapport aux paramtres ajuster. Une rsolution directe
du problme comme dans le cas de la solution des moindres carrs nest donc pas
possible : on a donc recours des algorithmes dapprentissage qui recherchent une
solution suivant une procdure itrative. Ces algorithmes sont gnralement
applicables sauf dans le cas o des restrictions sur les valeurs possibles pour les
paramtres du modle sont imposes par la nature des fonctions paramtres
utilises (voir le paragraphe III.1 du chapitre IV).
Dans ce qui suit, nous allons prsenter les algorithmes que nous utilisons
dans ce mmoire pour la minimisation de la fonction de cot.
V .2.2 Principe des algorithmes de gradient.
Les algorithmes dapprentissage fonds sur l'valuation du gradient de la
fonction de cot J() par rapport aux paramtres procdent la minimisation de
19

Modlisation de processus et estimation des paramtres dun modle


manire itrative. J() est une fonction scalaire variable vectorielle (le vecteur
des paramtres ajuster). Son gradient est donc un vecteur dfini par :
J
1
J =

(23)
J
M

o M est le nombre de paramtres inconnus.


Le principe des algorithmes de gradient repose sur le fait quun minimum de la
fonction de cot est atteint si sa drive (son gradient) est nul. Il existe plusieurs
types dalgorithmes ; nous prsenterons ceux que nous utiliserons dans la suite.
Leur droulement suit le schma suivant :
A litration 0 :

Initialiser le vecteur des paramtres . Cette initialisation


de peut avoir une grande influence sur lissue de
lapprentissage. Nous porterons une attention particulire
cette tape. Nous proposons une technique dinitialisation
pour rseaux dondelettes au chapitre IV.

A la kme itration : Calculer la fonction de cot et la norme du gradient avec le


vecteur des paramtres courant (obtenu litration
prcdente).
Si
J k-1 Jmax ou J ou k = k max (o Jmax est une
valeur maximale recherche pour lEQMA, ou pour
lEQMP si les performances sont values pendant
l'apprentissage),
Alors arrter lalgorithme ; le vecteur k1 est une solution,
Sinon calculer k partir de k1 par la formule de mise
jour des paramtres suivante :
(24)
k = k-1 + k dk
o k est un scalaire positif appel pas du gradient et dk u n
vecteur calcul partir du gradient, appel direction de
descente. Les diffrences entre les mthodes de gradient
rsident dans le choix de la direction de descente et dans le
choix du pas.

20

Modlisation de processus et estimation des paramtres dun modle


V .2.3 La mthode du gradient simple.
V .2.3.1 Prsentation de la mthode.
La mthode du gradient simple consiste la mise en uvre de la formule
de mise jour des paramtres suivante :
(25)
k = k-1 k J k-1
La direction de descente est donc simplement loppose de celle du gradient ; c'est
en effet la direction suivant laquelle la fonction de cot diminue le plus
rapidement.
En pratique, la mthode du gradient simple peut tre efficace lorsque lon
est loin du minimum de J . Quand on sen approche, la norme du gradient
diminue et donc lalgorithme progresse plus lentement. A ce moment, on peut
utiliser une mthode de gradient plus efficace.
Un "rglage" du pas de gradient k est ncessaire : en effet, une petite valeur
de ce paramtre ralentit la progression de lalgorithme ; en revanche une grande
valeur aboutit gnralement un phnomne doscillation autour de la solution.
Diverses heuristiques, plus ou moins efficaces, ont t proposes.
V .2.3.2 Techniques de rglage du pas.
Technique du pas constant : elle consiste adopter un pas constant k =
tout au long de lalgorithme. Elle est trs simple mais peu efficace puisqu'elle n e
prend pas en considration la dcroissance de la norme du gradient.
Technique du pas asservi : on peut asservir le pas laide de la norme du
gradient de sorte que le pas volue en sens inverse de celleci. A chaque tape, le
pas peut tre calcul par :

k =
(26)
1 + J
o est un paramtre constant. Lors de lutilisation de cette technique, nous
-3
avons adopt la valeur = 10 qui sest rvle trs souvent satisfaisante. Le
numrateur est augment du nombre 1 afin dviter une instabilit numrique
au moment de la division dans le cas o la norme du gradient devient trs
proche du zro. Cette technique offre un bon compromis du point de vue de la
simplicit et de lefficacit. Cest celle que nous avons utilise chaque fois que
nous avons mis en uvre la mthode du gradient simple.
V .2.4 Les mthodes de gradient du second ordre.
Les mthodes que nous venons de dcrire sont simples mais en gnral trs
inefficaces. On a donc systmatiquement recours lutilisation de mthodes plus
21

Modlisation de processus et estimation des paramtres dun modle


performantes (pour une comparaison numrique entre ces mthodes, voir
[Battiti92]). Elles sont dites du second ordre parce quelles prennent e n
considration la drive seconde de la fonction de cot. Nous prsentons cidessous celles que nous avons mises en uvre dans notre travail, et dont nous
comparons les performances lors de ltude de nos exemples.
V .2.4.1 Lalgorithme de BFGS.
Lalgorithme de BFGS (du nom de ses inventeurs : Broyden, Fletcher,
Goldfarb et Shanno) [Minoux83] fait partie des mthodes doptimisation dites
quasinewtoniennes. Ces mthodes sont une gnralisation de la mthode de
Newton.
La mthode de Newton consiste lapplication de la rgle suivante :

k = k-1 H k-1

J k-1

(27)

o H est le Hessien de la fonction J calcul avec le vecteur des paramtres


disponible ltape courante. La direction de descente est dans ce cas :
dk = H k-1

J k-1

(28)

Le pas k est constant et gal 1.


Pour que le dplacement soit en sens contraire du gradient, il est
indispensable que la matrice du Hessien soit dfinie positive. Sous cette
condition, et si la fonction de cot est quadratique par rapport aux paramtres, la
mthode de Newton converge vers lunique solution en une seule itration.
En gnral, et pour les problmes doptimisation auxquels nous sommes
confronts dans ce mmoire, la fonction de cot nest gnralement pas
quadratique. Elle peut nanmoins ltre localement, proximit d'un minimum
de ses minima. Donc, la mthode de Newton ne peut converger en une seule
itration. De plus, cette mthode ncessite linversion de la matrice du Hessien
chaque itration (puisquil apparat que plusieurs sont ncessaires), ce qui conduit
des calculs lourds.
Lalgorithme de BFGS, ainsi que l'algorithme de Levenberg-Marquardt
prsent dans le paragraphe suivant, sont des mthodes "quasi-newtoniennes"
qui permettent de pallier ces inconvnients.
Lalgorithme de BFGS est une rgle dajustement des paramtres qui a
lexpression suivante :
(29)
k = k-1 k Mk J k-1
o M k est une approximation, calcule itrativement, de l'inverse de la matrice
Hessienne. Lapproximation de linverse du Hessien est modifie chaque
itration suivant la rgle suivante :

22

Modlisation de processus et estimation des paramtres dun modle

Mk = Mk1 + 1 +

T
T
k-1
k-1
Mk-1k-1 k-1
T
k-1
k-1

T
k-1
k-1

T
T
k-1k-1
Mk-1 + Mk-1k-1k-1
T
k-1
k-1

(30)

avec k-1 = J k J k-1 et k-1 = k k-. Nous prenons pour valeur initiale de
M la matrice identit. Si, une itration, la matrice calcule nest pas dfinie
positive, elle est rinitialise la matrice identit.
Reste la question du choix du pas k. A cet effet, nous avons opt pour une
mthode conomique en calculs, la technique de Nash [Nash80]. Cette technique
recherche un pas qui vrifie la condition de descente :
(31)
J k-1+k dk J k-1 + m1 k dkT J k-1
3
o m 1 est un facteur choisi trs infrieur 1 (par exemple m 1 = 10 ).
En pratique, la recherche du pas se fait de manire itrative. On initialise k
une valeur positive arbitraire. On teste la condition (31). Si elle est vrifie, o n
accepte lajustement des paramtres. Sinon, on multiplie le pas par un facteur
infrieur 1 (par exemple 0.2) et on teste nouveau la condition de descente. On
rpte cette procdure jusqu ce quune valeur satisfaisante du pas soit trouve.
Au bout de 22 essais, le pas atteint une valeur de lordre de 10-16. On peut
considrer alors quil nest pas possible de trouver un pas satisfaisant.
Une mthode quasinewtonienne, nest efficace que si elle est applique
au voisinage dun minimum. D'autre part, la rgle du gradient simple est efficace
lorsquon est loin du minimum et sa convergence ralentit considrablement
lorsque la norme du gradient diminue (cest dire lorsquon sapproche du
minimum). Ces deux techniques sont donc complmentaires. De ce fait,
loptimisation seffectue en deux tapes : utilisation de la rgle du gradient simple
pour approcher un minimum, et de l'algorithme de BFGS pour l'atteindre. Le
critre darrt est alors un des critres dcrits au paragraphe V.2.2.
V .2.4.2 Lalgorithme de LevenbergMarquardt.
Lalgorithme de LevenbergMarquardt [Levenberg44, Marquardt63] repose
sur lapplication de la formule de mise jour des paramtres suivante :

k = k-1 H k-1 + k I

J k-1

(32)

k- 1

est le Hessien de la fonction de cot et k est le pas. Pour de petites


o H
valeurs du pas, la mthode de LevenbergMarquardt sapproche de celle de
Newton. Inversement, pour de grandes valeurs de k, lalgorithme Levenberg
Marquardt est quivalent lapplication de la rgle du gradient simple avec u n
1
pas de .
k

23

Modlisation de processus et estimation des paramtres dun modle


La premire question relative cet algorithme est celle de l'inversion de la
matrice H k - 1 + k I . Lexpression exacte du Hessien de la fonction J est :
N
k

H =

n=1

n T

2 n

n=1

kT

(33)

n
ypn y .

avec e =
Le second terme de lexpression tant proportionnel lerreur, il est permis de le
ngliger en premire approximation, ce qui fournit une expression approche :
N
k

H =

n=1

e n

e n

n=1

yn

y n

(34)

Dans le cas dun modle linaire par rapport aux paramtres, cest dire si y est
une fonction linaire de , le second terme de lexpression de H est nul est
lapproximation devient exacte.
Plusieurs techniques sont envisageables pour linversion de la matrice H + kI .
Inversion indirecte.
Un lemme dinversion permet de calculer la matrice inverse suivant une loi
rcurrente. En effet, soient A, B, C et D quatre matrices. On a la relation suivante :
A+BCD

-1

-1

-1

-1

-1

=A A B C +DA B

Dautre part, en posant X n =

-1

-1
DA .

, lapproximation de la matrice H peut

tre calcule partir de la loi de rcurrence suivante :


n

n-1

H = H + X n X n avec n = 1, ... , N
N
De ce fait, on a H = H .
Si l'on applique le lemme dinversion la relation

choisissant A = H , B = X n , C = I et D = X
H

n -1

= H

n-1 -1

nT

n-1 -1

en

, on obtient la relation suivante :

Xn Xn

1+ X

prcdente

nT

n-1 -1

n-1 -1

(35)
n

En prenant, la premire tape (n = 1), H = k I, on obtient, ltape N :


H

N -1

= H + k I

-1

Inversion directe.
Plusieurs mthodes dinversion directes existent. tant donn que
lalgorithme est itratif et que la procdure de recherche du pas ncessite souvent
plusieurs inversions de matrice, on a intrt utiliser une mthode conomique
en nombre de calculs.
24

Modlisation de processus et estimation des paramtres dun modle


Le fait que lapproximation du Hessien augmente de k reste une matrice
symtrique dfinie positive nous permet dutiliser la mthode de Cholesky.
De la mme faon que dans le cas de lalgorithme de BFGS, une recherche
unidimensionnelle doit tre applique pour la recherche dun pas de descente et
ceci chaque itration de lalgorithme. Une stratgie communment utilise
[Bishop95, Walter94] consiste appliquer la procdure suivante : soit r > 1
(gnralement gal 10) un facteur d'chelle pour k. Au dbut de lalgorithme,
on initialise 0 une grande valeur ([Bishop95] propose 0.1). A ltape k de
lalgorithme :
Calculer J k avec k dtermin ltape prcdente.
Si J k < J k-1 , alors accepter le changement de paramtres et
diviser k par r.
Sinon, rcuprer k-1 et multiplier k par r. Rpter cette dernire
tape jusqu ce quune valeur de k correspondant une
dcroissance de J soit trouve.
Cet exemple de procdure prsente lavantage de ncessiter peu dinversions de
matrice chaque itration de lalgorithme. En revanche, le choix du pas initial
possde une influence sur la vitesse de convergence de lalgorithme.
Ces observations nous mnent proposer la procdure suivante :
Au dbut de lalgorithme, initialiser 0 une valeur positive quelconque.
En effet ce choix na pas dinfluence sur le droulement de lalgorithme. A ltape
k de lalgorithme :
1. Calculer J k avec le k disponible (le dernier calcul).
2. Si J k < J k-1 , alors rcuprer k-1, diviser k par r et aller
ltape 1.
3. Sinon rcuprer k-1 et multiplier k par r. Rpter cette dernire
tape jusqu ce quune valeur de k correspondant une
dcroissance de J soit trouve.
Cette procdure permet de sapprocher de la mthode de Newton plus
rapidement que la mthode prcdente. En revanche, tant donn que plusieurs
ajustements de paramtres sont tests, elle ncessite unn plus grand nombre
dinversions de matrice.

25

Modlisation de processus et estimation des paramtres dun modle


V.3 Commentaire.
Nous avons prsent dans cette partie les algorithmes du second ordre que
nous utilisons dans ce mmoire (cest dire lalgorithme de BFGS et celui de
LevenbergMarquardt). La difficult essentielle lors de lapplication de
lalgorithme de BFGS rside dans le choix de la condition de passage du gradient
simple la mthode de BFGS. Ce problme ne se pose pas pour l'algorithme de
LevenbergMarquardt, mais le volume de calculs ncessaires chaque itration
de cet algorithme crot rapidement avec le nombre de paramtres.
V I. CONCLUSION
Dans ce chapitre, nous avons prsent les principes de la modlisation
"bote noire", les tapes de la conception d'un tel modles, ainsi que les fonctions
paramtres utilisables, et les algorithmes qu'il convient de mettre en uvre
pour l'ajustement des paramtres. Les deux chapitres suivants seront consacrs
la prsentation et la mise en uvre des deux catgories de fonctions
paramtres que nous avons utilises : les rseaux de neurones et les rseaux
d'ondelettes.

26

CHAPITRE II
Rseaux de fonctions dorsales

Rseaux de fonctions dorsales

I. INTRODUCTION.
Le prsent chapitre est consacr une catgorie de rseaux utiliss pour la
modlisation non linaire "bote noire", temps discret : les rseaux de fonctions
dorsales (ridge function networks). Cette appellation provient de la forme
gomtrique des fonctions constituant ces rseaux. Dans ce mmoire, nous
utilisons indiffremment les deux appellations rseaux de neurones o u
rseaux de fonctions dorsales que nous considrons comme synonymes, par
opposition aux rseaux d'ondelettes ou de fonctions radiales.
Nous prsentons ici les neurones constituant ces rseaux, leurs proprits
ainsi que lapprentissage des rseaux.
II. NEURONES FORMELS FONCTIONS DORSALES ET RSEAUX.
II.1 Quest ce quun neurone formel ?
Un neurone formel est une fonction paramtre, non linaire, de plusieurs
variables appeles entres du neurone ; la valeur de la fonction est disponible e n
sortie du neurone. Par abus de langage, nous utiliserons parfois, le terme de
"neurone linaire" pour dsigner une fonction linaire ou affine.
II.2 Qu'est-ce qu'un neurone formel fonction dorsale ?
Pour un neurone formel fonction dorsale, le calcul de la fonction est
effectu en deux tapes :
1. Calcul d'une somme pondre des entres. Le rsultat obtenu est
appel potentiel du neurone. Il est donn par la relation suivante :

vi =

cij xj

(1)

j Pi

o Pi est lensemble des indices {j} des entres xj du neurone i. Les


coefficients c ij sont des coefficients de pondration des entres du
neurones appels (pour des raisons historiques) poids synaptiques o u
plus simplement poids.
2. Calcul d'une fonction non linaire du potentiel, souvent appele
fonction dactivation. La sortie du neurone est alors la valeur de cette
fonction, appele parfois activit du neurone :
(2)
xi = f vi
Ainsi, en tout point d'un hyperplan de l'espace des entres dfini par
vi = constante, la sortie du neurone est constante. Si le neurone est une fonction
28

Rseaux de fonctions dorsales


de deux variables, les lignes de niveau de la sortie sont des droites parallles, d'o
le terme de fonction dorsale.
La sortie dun neurone fonction dorsale est non linaire par rapport aux entres
et par rapport aux coefficients cij. Cette caractristique est importante puisque,
comme nous l'avons vu dans le chapitre prcdent, elle est l'origine de la
proprit de parcimonie.
Il est commode de reprsenter graphiquement un neurone fonction dorsale
comme indiqu sur la Figure 1, o apparaissent les deux phases du calcul de la
sortie.
xi

Sortie

vi

ci 1

ci 2

x1

x2

Poids synaptiques

ci N

xN

Entres
i

Figure 1. Reprsentation graphique d'un neurone.


Diffrentes fonctions dactivation sont envisageables. Cette question est discute
plus amplement, et des exemples sont prsents, dans le paragraphe III de ce
chapitre.
II.3 Quest ce quun rseau de neurones ?
Un neurone tant une fonction non linaire paramtre, un rseau de
neurones ralise une combinaison, elle-mme paramtre, de telles fonctions. On
a coutume de reprsenter cette combinaison sous la forme de neurones, comme
reprsents sur la Figure 1, relis entre eux par des connexions qui reprsentent
les poids. On distingue conventionnellement deux types de neurones dans u n
rseau :
les neurones cachs, caractriss en ce que leurs sorties ne constituent pas les
sorties du rseau, mais sont combines par le (ou les) neurone(s) de sortie pour
constituer celle(s)-ci : ils sont dits cachs parce que leur sortie nest pas une
sortie du rseau.
29

Rseaux de fonctions dorsales

les neurones de sortie combinent les sorties des neurones cachs pour
constituer les sorties du rseau. Pour des rseaux destins la modlisation, les
neurones de sortie sont gnralement des "neurones linaires" (leur fonction
d'activation est l'identit) : ainsi, la sortie dun rseau de neurones destin la
modlisation statique de processus est une combinaison linaire paramtre d e
fonctions non linaires paramtres des variables.

II.4 Rseaux non boucls et rseaux boucls.


II.4.1 Les rseaux non boucls.
Un rseau de neurones non boucl, appel aussi rseau statique, est u n
rseau dont le graphe des connexions est acyclique; il ralise une fonction
algbrique non linaire de ses entres.
Comme nous l'avons indiqu au paragraphe prcdent, on utilise gnralement,
pour la modlisation de processus, un rseau comprenant un neurone de sortie
linaire ; un tel rseau ralise donc une combinaison linaire paramtre d e
fonctions non linaires paramtres des variables.
Si ces dernires sont les valeurs, dcales d'une priode d'chantillonnage, d'un
mme signal, un tel rseau constitue un filtre non linaire transverse temps
discret.
II.4.2 Les rseaux boucls.
Un rseau de neurones boucl, appel aussi rseau dynamique, est u n
rseau dont le graphe des connexions peut contenir des cycles. Dans un rseau
temps discret, un retard (entier positif ou nul) est associ chaque connexion;
pour que le rseau soit causal, tout cycle du graphe des connexions doit tre tel
que la somme des retards associs chacune des connexions du cycle soit non nul.
Un rseau boucl temps discret est rgi par une quation aux diffrences
rcursive. Il constitue un filtre transverse non linaire.
Il a t montr dans [Nerrand92, Dreyfus98] que tout rseau (statique o u
dynamique) peut tre mis sous une forme particulire, appele forme canonique,
qui est une reprsentation d'tat minimale. Elle est constitue d'un rseau n o n
boucl, et de connexions de retard unit ramenant les sorties de ce rseau n o n
boucl vers les entres de celui-ci. La forme canonique permet de mettre
clairement en vidence un ensemble minimum de variables d'tat, et, de plus,
son utilisation facilite la mise en oeuvre de lapprentissage du rseau.
tant donn que, dans le cadre de ce mmoire, nous nous intressons la
modlisation dynamique de processus, nous utiliserons, le plus souvent des
rseaux boucls.
30

Rseaux de fonctions dorsales


II.5 Rseaux non boucls compltement connects et rseaux couches.
On distingues deux familles de rseaux non boucls en fonction de la
topologie des connexions entre les neurones.
II.5.1 Les rseaux non boucls compltement connects.
Dans un rseau compltement connect, chaque neurone reoit les entres
du rseau et les sorties des neurones de numro infrieur. La figure 2 illustre u n
rseau compltement connect ayant Ni entres, Nc neurones cachs et une sortie.
Neurones cachs
Ni +1

Ni +2

2
Entres externes

Sortie

Ni +Nc+1

Ni

Figure 2. Rseau de neurones compltement connect.


II.5.2 Les rseaux non boucls couches.
Cest sans doute larchitecture de rseau de neurones la plus rpandue. De
tels rseaux sont appels perceptrons multicouches (ou MLP pour Multi-Layer
Perceptrons). Les neurones cachs sont organiss en une (ou parfois plusieurs)
couches. Ils reoivent leurs entres des neurones de la couche prcdente (ou des
entres du rseau sil sagit de la premire couche de neurones cachs) et
transmettent leur sortie ceux de la couche suivante. La figure 3 illustre u n
rseau ayant N i entres, constitu dune couche de N c neurones cachs et dune
sortie.

31

Rseaux de fonctions dorsales


Sortie
Ni + Nc + 1

Ni +1

Couche avec un neurone de sortie


linaire

N i+ N c f

Couche de neurones cachs

Entres externes
(vecteur X des variables)
1

Ni

Figure 3. Rseau de neurones avec une couche de neurones cachs


et un neurone de sortie linaire.
Dans le cadre de ce mmoire, nous nous intresserons uniquement aux
rseaux de neurones possdant une seule couche cache et un neurone de sortie
linaire. En effet, cette classe de rseaux possde la proprit dapproximation
universelle que nous prsenterons dans le paragraphe III de ce chapitre. La
fonction ralise par un tel rseau est bien du type dfini par la relation (11) du
chapitre prcdent :
NC

X=

X,
i

(3)

i=1

o chaque fonction i est ralise par un neurone, o les i sont les poids de la
couche de connexions entre les sorties des neurones cachs et le neurone de
sortie, et o les i sont les vecteurs des poids des connexions entre les entres et le
neurone cach i.
II.5.3 Les rseaux mis en uvre dans ce travail.
Dans ce mmoire, et comme prcis plus haut dans ce mme chapitre, nous
utiliserons uniquement
pour la modlisation statique, des rseaux possdant une seule couche de
neurones cachs. Ce choix est motiv par le fait quune telle architecture
possde la proprit dapproximation universelle.
pour la modlisation dynamique, des rseaux tels que la partie statique de leur
forme canonique est constitue d'un rseau une couche cache.

32

Rseaux de fonctions dorsales


Le neurone de sortie est choisi avec une fonction dactivation identit. Ce
choix permet de ne pas limiter les valeurs de la sortie celle des bornes de la
fonction dactivation.
Les rseaux que nous utiliserons possdent une entre constante (appele
aussi biais), relie tous les neurones (y compris le neurone de sortie).
D'autre part, nous utiliserons des connexions directes entre les entres du
rseau et le neurone de sortie (ces rseaux ne sont donc pas de purs rseaux
couches). Lexpression analytique dun tel rseau est donne par la relation
suivante :
Nc

Ni

(x) = cj f
j=1

Ni

(4)

cjk xk + ak xk

k=0

k=0

Cette relation est un cas particulier de la relation (11) du chapitre prcdent, o N c


fonctions i sont des fonctions dorsales, et N i fonctions i sont les fonctions
identit.
Lentre d'indice k=0 correspond lentre constante (x0=0). La figure 4 illustre ce
rseau.
Sortie
Ni + Nc + 1

cNi

c1
Ni +1

a0

aNi

Ni +Nc

a1

x0 =1

x1

xNi

Figure 4. Rseau de fonctions dorsales non boucl que nous utilisons comme
modle statique de processus.
III. CHOIX
DE
LA
FONCTION
DAPPROXIMATION UNIVERSELLE.

DACTIVATION

ET

PROPRIT

Comme indiqu dans le chapitre prcdent, la proprit dapproximation


universelle est une caractristique trs dsirable pour une fonction paramtre
destine raliser des modles "bote noire". Dans le cas des rseaux de fonctions
dorsales, cette proprit dpend de la fonction dactivation choisie. Dans le cadre

33

Rseaux de fonctions dorsales


de ce mmoire, nous nous intressons deux fonctions : la fonction tangente
hyperbolique (sigmode) et la fonction gaussienne.
III.1 La fonction sigmode.
Il a t montr dans [Cybenko89] quun rseau de fonctions dorsales
constitu dune seule couche de neurones cachs et dont la fonction dactivation
tend vers 0 en et vers 1 en + possde la proprit dapproximateur
1
universel. Par exemple, la fonction ( valeurs dans {0, 1}) dfinie par (v)=
1+e v
remplit ces deux conditions. Dans [Funahashi89], la proprit est prouve pour
des fonctions strictement croissantes et bornes. A cet effet, la fonction la plus
utilise est la fonction tangente hyperbolique : (v) =

e v e v
e v + e v

( valeurs dans

{1,1}).
Ces deux fonctions sont drivables, ce qui, comme nous l'avons vu au chapitre
prcdent, est important pour l'apprentissage. Notons que cette fonction peut tre
vue comme une forme drivable de la fonction signe(x) qui a t utilise comme
fonction dactivation des premiers neurones formels.
Dautre part, nous avons signal plus haut que les rseaux de fonctions
dorsales sont non linaires par rapport leurs paramtres ; ceci confre ces
rseaux la proprit de parcimonie [Barron93, Hornik94] : lerreur
dapproximation dcrot comme linverse du nombre de fonctions sigmodes que
contient le rseau et ceci quelque soit le nombre dentres. De ce fait, pour une
prcision dsire, le nombre de paramtres du rseau est proportionnel au
nombre dentres. Par opposition, le nombre de paramtres est une fonction
exponentielle du nombre d'entres pour des rseaux linaires par rapport aux
paramtres (polynmes par exemple).
III.2 La fonction gaussienne.
La fonction dactivation gaussienne a t propose dans [Girosi95] dans u n
contexte de gnralisation des rseaux pralablement proposs par ces auteurs.
2

Elle est dfinie par (v)=e v .


Du point de vue de la proprit dapproximation universelle, les rseaux de
fonctions dorsales gaussiennes possdent des proprits quivalentes celles des
rseaux de fonctions sigmodes [Girosi95].

34

Rseaux de fonctions dorsales


IV . APPRENTISSAGE DES RSEAUX DE FONCTIONS DORSALES.
IV.1 Apprentissage de rseaux non boucls.
tant donne une fonction de rgression approcher ou un processus
statique modliser laide dun rseau non boucl de fonctions dorsales, la
premire tape consiste choisir une architecture pour ce rseau. Puisque nous
nous intressons uniquement aux rseaux constitus dune seule couche de
neurones cachs, ce choix darchitecture revient au choix (ou la dtermination)
du nombre de neurones cachs considrer.
Une fois que le nombre de neurones cachs a t fix, le rseau constitue
une famille de fonctions paramtres. La phase dapprentissage du rseau consiste
trouver, parmi toutes ces fonctions, celle qui minimise la fonction de cot

1
J =
2

ypn yn

; comme nous l'avons indiqu au chapitre I, cette

n=1

fonction permet de mesurer lcart entre les sorties du processus et celles du


rseau aux points de la squence dapprentissage.
Comme nous l'avons indiqu plus haut, la sortie d'un rseau de fonctions
dorsales est non linaire par rapport aux poids synaptiques ; lapprentissage doit
donc tre effectu en utilisant un algorithme de gradient comme ceux prsents
au chapitre I.
Le vecteur gradient de la fonction de cot est calcul en utilisant
lalgorithme de rtropropagation [Rumelhart86]. Cette implmentation judicieuse
du calcul du gradient est intressante dans la mesure o le nombre doprations
effectuer est moins important que dans le cas du calcul du gradient dans le sens
direct. En effet, le calcul du gradient par rtropropagation consiste dcomposer la
(i,j)

me

Jn
composante du gradient partiel
en :
cij

i = ci0 ci1 .... ciN

n
Jn J vi
=
= qi xj
cij vi cij

avec

. Pour calculer le vecteur gradient de la fonction de cot, il

suffit de connatre les N C drives qi . En revanche, le calcul du gradient de la


fonction de cot dans le sens direct est bas sur la dcomposition suivante :

y
y
Jn Jn e
. Le calcul de
se fait partir des drives des sorties de
=
= ypy
cij
cij
cij e cij
tous les neurones qui influent sur le neurone de sortie, en partant de celles des
xj
entres :
avec j = 1 , ... , Ni. Dans cette dernire phrase apparat un avantage de
cij
cette technique par rapport la rtropropagation. En effet, la rtropropagation
considre implicitement que les drives partielles par rapport aux entres sont
nulles. Si ce nest pas le cas (en particulier pour les rseaux boucls), il est
35

Rseaux de fonctions dorsales


ncessaire davoir recours au calcul dans le sens direct. Nous discutons dans le
chapitre III, une autre situation o le calcul dans le sens direct est plus appropri
que celui par rtropropagation.
IV.2 Apprentissage de rseaux boucls.
Nous avons indiqu plus haut que tout rseau de neurones boucl temps
discret peut tre mis sous une forme canonique constitue d'un rseau n o n
boucl dont les entres sont les entres externes et les variables d'tat l'instant n,
et dont les sorties sont les sorties du rseau et les variables d'tat l'instant n+1.
Cette mise en forme dun rseau boucl facilite le calcul du gradient de la fonction
de cot, et ramne l'apprentissage d'un rseau boucl celui d'un rseau n o n
boucl, comme nous le verrons dans le chapitre III. Ainsi, quil sagisse deffectuer
l'apprentissage de rseaux non boucls ou celui de rseaux boucls, on est
toujours amen minimiser une fonction de cot par lune des mthodes de
gradient dcrites dans le chapitre I.
IV.3 Initialisation du rseau et minima locaux.
Pour que lalgorithme de rtropropagation dmarre, les paramtres du
rseau doivent tre initialiss des valeurs non nulles. Cette tape dinitialisation
est trs importante car elle est susceptible de dterminer en partie le rsultat
obtenu en fin dapprentissage, donc les performances du modle ainsi conu. En
effet, des initialisations diffrentes peuvent conduire trouver, dans l'espace de
paramtres, des minima diffrents, donc des valeurs de paramtres diffrentes.
Dans les exemples tudis dans ce mmoire, nous avons adopt une
technique dinitialisation classique, qui consiste initialiser les paramtres de
telle sorte que, en dbut dapprentissage, les valeurs des sorties des neurones
cachs se situent dans les parties linaires des sigmodes pour lensemble des
squences dapprentissage. Pour chaque architecture de rseau, on effectue
plusieurs apprentissages avec des initialisations diffrentes, et l'on retient le
rseau qui correspond la plus petite valeur de la fonction de cot.
Au demeurant, pour les rseaux de fonctions dorsales, des expriences
numriques antrieures menes au laboratoire [Stoppi97] ont montr que le
problme des minima locaux n'est pas dramatique : lorsque la fonction
gnratrice des donnes d'apprentissage est un rseau de neurones (le rseau
"matre") ayant plus de cinq entres, et que l'on effectue l'apprentissage d'un
rseau de neurones de mme architecture (le rseau "lve"), celui-ci, en fin
d'apprentissage, est identique au rseau matre dans la majorit des cas. Nous
verrons dans le chapitre III que la situation est trs diffrente pour les rseaux
d'ondelettes.
36

Rseaux de fonctions dorsales


IV.4 Autres schmas dapprentissage pour les rseaux de fonctions dorsales.
Le schma dapprentissage classique des rseaux de fonctions dorsales que
nous utilisons dans ce mmoire consiste choisir un nombre de neurones cachs
et effectuer ensuite lajustement de tous les poids synaptiques de tous les
neurones simultanment.
Dans des tentatives dapporter des rponses au problme des minima
locaux, on trouve dans la littrature des propositions d'autres procdures
dapprentissage. Citons la procdure de lapprentissage incrmental [Hirose91,
Jutten95, Mohraz96] qui consiste dmarrer lapprentissage avec un seul neurone
et en introduire dautres au fur et mesure que lapprentissage progresse.
L'inconvnient gnral de ces procdures rside dans le fait qu'elles aboutissent
gnralement des rseaux largement sur-dimensionns, donc n o n
parcimonieux, car les erreurs, forcment importantes, commises au dbut avec
un petit nombre de neurones, ncessitent, pour tre corriges, l'introduction d'un
grand nombre de neurones.
Dans le mme esprit, d'autres auteurs [Chentouf96] proposent une
procdure dapprentissage incrmental de rseaux o fonctions dorsales et
fonctions radiales cohabitent.
La projection pursuit regression [Friedman81, Huber85, Hwang94] peut
tre considre comme une procdure dapprentissage particulire de rseaux de
fonctions dorsales, dont loriginalit rside dans le fait que les fonctions
dactivation des neurones ne sont pas prdtermines (sigmode ou gaussienne)
mais reconstruites chaque itration de lalgorithme comme une somme de
polynmes ou de fonctions splines.
V . ANALYSE DUN RSEAU DE FONCTIONS DORSALES.
V.1 Principe.
A la fin de lapprentissage dun rseau, on peut se poser la question
suivante : tous les poids synaptiques ou tous les neurones participent-ils
effectivement la fonction ralise par le rseau ? Autrement dit, sont-ils tous
utiles ? Suivant que lon sintresse aux poids synaptiques ou aux neurones, la
faon dtudier la question est sensiblement diffrente. Les techniques permettant
de rpondre cette question sont dites des techniques dlagage.
V.2 lagage de poids synaptiques.
On trouve dans la littrature consacre aux rseaux de fonctions dorsales
plusieurs procdures dlagages. Des techniques telles que OBD (Optimal Brain
Damage) [LeCun90] ou OBS (Optimal Brain Surgeon) [Hassibi93] commencent par
37

Rseaux de fonctions dorsales


effectuer lapprentissage dun grand rseau. Llagage des poids synaptiques est
alors fond sur la sensibilit de la fonction de cot la variation des poids
synaptiques : si la fonction de cot est peu sensible vis vis dun poids
synaptique, celui-ci est supprim et un nouvel apprentissage du rseau est
effectu. En particulier, si un poids correspondant la pondration de la sortie
dun neurone est supprim, ce neurone est alors supprim.
Lun des principaux inconvnients de ces mthodes et quun apprentissage
est ncessaire chaque suppression dun poids. Ces techniques peuvent tre
considres comme un moyen de dterminer larchitecture minimale pour
obtenir une performance dsire.
Dautres procdures dlagage de poids synaptiques existent et sont rsumes dans
[Reed93].
Une mthode de suppression de neurones cachs a t propose dans [Stoppi97],
pour des rseaux couches avec un neurone linaire de sortie. La mthode
consiste ajouter un neurone cach dont la sortie est alatoire. On classe les
entres de ce modle (sorties des neurones cachs) par ordre de pertinence
dcroissant par la technique classique d'orthogonalisation de Gram-Schmidt, et
l'on supprime tout neurone cach dont la sortie est classe aprs le neurone
alatoire.
V.3 Une procdure pour la dtection de neurones fonctions gaussiennes mal
utiliss.
Lors de l'apprentissage de rseaux de fonctions dorsales gaussiennes, il
arrive que les coefficients synaptiques d'un neurone deviennent trs grands. Le
potentiel v tant trs grand, cela a pour effet de rendre la sortie du neurone nulle
presque partout ; ce neurone est alors mal utilis, car il ne participe pas (ou trs
peu) la fonction ralise par le rseau.
Dans [Girosi95], les rseaux de fonctions dorsales gaussiennes sont utiliss
avec un algorithme dapprentissage non dterministe [Caprile90]. Cet algorithme
dapprentissage (appel random step algorithm) effectue un ajustement
alatoire des coefficients suivant la procdure suivante : on effectue un tirage
alatoire des adaptations apporter chacun des coefficients dans un intervalle
[, ] de longueur pralablement choisie. Si cet ajustement aboutit une
dcroissance du cot, on le retient et on double la longueur de lintervalle. Sinon,
il est rejet et on diminue de moiti la longueur de [, ]. Le fait que lon contrle
la longueur de lintervalle permet de contrler lajustement quon apporte aux
coefficients.
En ce qui nous concerne, nous sommes confronts ce problme de neurones
mal utiliss parce que nous utilisons des algorithmes doptimisation non linaire
38

Rseaux de fonctions dorsales


qui nimposent aucune contrainte sur les valeurs que peuvent prendre les
coefficients du rseau.
Ce phnomne se manifeste trs souvent par une erreur quadratique
moyenne calcule sur lensemble de performance trs suprieure celle calcule
sur lensemble dapprentissage sans quil y ait un rel surajustement. Ceci est d
au fait que, si un exemple de la squence de test appartient la partie non nulle de
la gaussienne mal utilise, il introduit un terme important dans l'EQMP. La
figure 5 illustre un exemple une dimension.
1.2

1.2
Point de l'ensemble d'apprentissage
Erreur de modlisation

1
0.8
0.6

0.6

0.4

0.4
0.2

Sortie du modle

-0.2

-0.2

-0.4
-10

-8

-6

-4

-2

Contribution du neurone
"mal utilis" la sortie du rseau

0.8

Sortie du processus

0.2

Point de l'ensemble de performance


Erreur de modlisation

10

-0.4
-10

Point introduisant un terme


important dans l'EQMP
-8

-6

-4

-2

10

Figure 5. Illustration dun exemple de neurone mal utilis par le rseau : une des
gaussiennes est trs "pointue", et un exemple de l'ensemble destimation de la
performance se trouve prcisment dans le pic de cette gaussienne.
Nous nous sommes donc intresss plus particulirement au traitement de
ces neurones plutt qu' celui de poids synaptiques considrs individuellement.
Cet intrt ne sinscrit pas dans la perspective de dterminer le nombre optimal
de neurones pour obtenir une performance dsire mais plutt dans lobjectif de
rentabiliser tous les neurones prsents dans un rseau afin d'obtenir la
meilleure performance possible avec une architecture donne.
Une premire approche consisterait mettre au point une procdure qui,
comme les techniques dlagage de poids synaptiques, interviendrait en fin
dapprentissage et permettrait de dtecter ces neurones et de les supprimer. Une
telle approche nest pas une rponse notre problme tant donn quelle n e
permet pas de mettre profit ces neurones.
Nous proposons de dtecter automatiquement ces neurones pendant la
phase dapprentissage, et les "rinitialiser" afin de les rintgrer dans le
processus dapprentissage.
Voici la procdure propose :

39

Rseaux de fonctions dorsales


Tester les valeurs des poids synaptiques de chacun des
neurones.
Si aucun neurone mal utilis nest dtect : ne rien faire et
aller litration suivante de lalgorithme dapprentissage.
Sinon, rinitialiser ces neurones de manire adquate et
aller litration suivante.
Les tapes de dtection et de rinitialisation des neurones se droulent de la
manire suivante :
1re tape : Dtection automatique des neurones mal utiliss.
tant donn que lon considre quun neurone est mal utilis si la
fonction quil ralise a un cart-type trop petit, on propose de fonder la dtection
de ces neurones sur lanalyse de leurs poids synaptiques qui sont quivalents
linverse dun cart-type. En effet, lexpression de la sortie dun neurone j tant
2

Ni

cj exp

cjixi

peut

tre

crite

de

la

manire

suivante

i=1

Ni

cj exp

i=1

xi
1

cji

o les

1
sont les largeurs de la gaussienne dans chacune des
cji

directions i dfinies par les entres.


Le potentiel du neurone cach j est donn par :
Ni

vj = cjkxk

(6)

k=1

Nous dsignons par Sj la somme des valeurs absolues de tous les poids du
neurone j :
Ni

Sj = cjk

(7)

k=1

On compare cette quantit un seuil S pralablement choisi :


Si S j < S on considre que le neurone est bien utilis par le
rseau et on intervient donc pas. Lapprentissage continue.
Sinon on considre que le neurone est mal utilis et on le
rinitialise.
A chaque itration de lalgorithme dapprentissage, ce test est appliqu tous les
neurones cachs du rseau.
l'heure actuelle, le choix de la valeur du seuil S est effectu de manire
empirique. Une grande valeur du seuil rend la procdure peu efficace puisque des
40

Rseaux de fonctions dorsales


neurones mal utiliss peuvent chapper au test de rinitialisation. Inversement,
une petite valeur de S aboutit une rinitialisation de plusieurs neurones
chaque test, de sorte que lapprentissage ne sarrte pas.
me

tape : Rinitialisation dun neurone mal utilis.


Les neurones mal utiliss ayant t dtects sont comme en dbut
dapprentissage : leurs poids synaptiques sont initialiss de petites valeurs
alatoires, suivant une distribution uniforme (voir paragraphe IV.3).
Une attention particulire doit tre porte au cas des coefficients de
pondration des sorties de ces neurones. En effet, tant donn que ces neurones
participaient peu au rseau, leur rinitialisation peut introduire une
augmentation du cot en cours dapprentissage. Pour viter cette situation, o n
initialise ces pondrations de petites valeurs de telle sorte qu la reprise de
lapprentissage leur contribution soit trs faible.
V.4 tude dun exemple.
Afin de mettre en uvre la procdure dcrite plus haut sur un exemple, on
se propose dapprocher la fonction sinus cardinal sur lintervalle [7, 7] laide
dun rseau de quatre fonctions dorsales gaussiennes comme celui de la figure 4.
Lensemble dapprentissage est constitue de 50 exemples tirs suivant une
distribution uniforme sur lintervalle considr. Afin destimer correctement la
performance, on choisit 500 exemples rgulirement espacs sur lintervalle
considr.
Lapprentissage dbute par une phase de gradient simple sur 500 itrations
puis une phase de gradient de second ordre (algorithme de BFGS). Lapprentissage
sarrte lorsque au moins un des critres darrt est satisfait (ces critres sont
noncs dans le paragraphe V.2.2 du chapitre I).
Afin de mettre en vidence lapport de la procdure propose, on effectue
dans une premire tape dix apprentissages du rseau avec autant
d'initialisations diffrentes. Dans une seconde tape, on fait autant
dapprentissages en dtectant cette fois les neurones mal utiliss et en les
rinitialisant.
Le tableau 1 illustre les rsultats des apprentissages sans utilisation de la
procdure.

41

Rseaux de fonctions dorsales


Apprentissage
1

EQMA

er

1.6 10

me

1.8 10

me

3.0 10

me

4.0 10

me

1.1 10

me

1.8 10

me

3.5 10

me

1.9 10

me

5.0 10

me

10

4.1 10

EQMP

2.3 10

1.6 10

7.2 10

2.1 10

5.7 10

1.7 10

9.7 10

9.7 10

5.8 10

4.7 10

5
5
3
6
6
5
6
6
3
5

Tableau 1. Rsultats des apprentissages sans application de la procdure.


5

Hormis deux apprentissages, la performance est de lordre de 10 ou de 10 .


Dautre part, on constate souvent un rapport de lordre de 10 ou plus entre le
critre de l'apprentissage et celui d'valuation de la performance.
Le tableau 2 prsente les rsultats des apprentissages (utilisant les mme
initialisations des coefficients du rseau) au cours desquels la procdure a t
utilise avec un seuil S = 1.
La quatrime colonne du tableau indique le nombre de fois o la procdure
a dtect un ou plusieurs neurones mal utiliss. Aprs chaque intervention de
la procdure, lalgorithme dapprentissage repart avec une phase de gradient
simple avant celle de gradient de second ordre.
Apprentissage
1

er

me

me

3
4

me
me

me

me

me

me

me

10

EQMA
1.6 10
1.6 10
1.1 10
1.6 10
2.4 10
3.6 10
6.1 10
1.2 10
5.8 10
1.3 10

7
7
7
9
9
9
9
7
3
7

EQMP
3.2 10
3.0 10
6.8 10
1.8 10
9.3 10
1.2 10
2.3 10
2.3 10
9.1 10
2.6 10

7
7
7
8
9
8
8
7
3
7

Procdure (s)
5
4
7
3
4
2
5
7
1
3

Tableau 2. Rsultats des apprentissages avec application de la procdure.

42

Rseaux de fonctions dorsales


Lors de la mise en oeuvre de cette procdure, on constate quen dbut
dapprentissage il arrive trs souvent quun ou plusieurs neurones soient
rinitialiss. Au fur et mesure que lalgorithme progresse, le nombre de
rinitialisations diminue et en fin dapprentissage la procdure nintervient plus.
Une comparaison des deux tableaux montre que les performances obtenues
avec des apprentissages utilisant la procdure sont trs souvent meilleures que
celle obtenues avec un apprentissage classique. Dautre part, la diffrence entre
lEQMA et lEQMP est souvent plus petite. Cela montre que la procdure apporte
effectivement une meilleure utilisation des neurones et vite lapparition de
surapprentissage. On voit nanmoins sur lexemple du 9me apprentissage que,
lutilisation de la procdure namliore pas toujours la performance du rseau.
V I. MODLISATION DYNAMIQUE DE PROCESSUS LAIDE DE RSEAUX DE
FONCTIONS DORSALES.
Les rseaux de fonctions dorsales et particulirement de fonctions
sigmodes ont t trs tudis comme outils de modlisation dynamique bote
noire. On trouve dans la littrature les deux approches classique de la
modlisation de processus abordes : modlisation entresortie [Narendra90,
Nerrand92] et modlisation dtat [Levin92, Rivals96].
VI.1 Modlisation entresortie.
Dans un contexte de modlisation non linaire dynamique de processus
laide de rseaux de fonctions dorsales, on peut tre amen effectuer
lapprentissage dun rseau boucl ou non boucl. Le choix de larchitecture
dpend de lhypothse faite sur lexistence ou non dun bruit qui agit sur le
processus, et s'il existe, de la manire avec laquelle il agit.
V I.1.1 Prdicteurs non boucl.
Un prdicteur entre-sortie non boucl aura pour expression :
y n = yp n1 , ... , yp nNs , u n1 , ... , u nNe

(8)

o est une fonction ralise laide dun rseau de fonctions dorsales comme
celui de la figure 4. Le vecteur des entres est constitu par les N s valeurs de la
sortie et les N e de lentre externe. Nous avons donc N i=N e+N s. Ce rseau est
reprsent sur la figure 6.
Lapprentissage dun prdicteur non boucl sappuie sur une approche identique
celle adopte pour des rseaux pour modlisation statique.

43

Rseaux de fonctions dorsales


y(n)

. .. ...

. . ... .. . .

u(n1) u(nNe) yp(n1)

yp(nNs)

Figure 6. Rseau entre-sortie non boucl.

V I.1.2 Prdicteur boucl.


Un prdicteur entre-sortie boucl aura pour expression :
y(n) = y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe

(9)

o est une fonction ralise laide dun rseau de fonctions dorsales comme
celui de la figure 4. Ce rseau est illustr par la figure suivante :
yn

. . ..
q 1

. .. . ..
u n1

u n N e

.. .. . .. ..

. . ..

y(n N s)

y(n 1)

Figure 7. Rseau entre-sortie boucl.


Lapprentissage dun prdicteur boucl diffre du cas prcdent par le fait que le
calcul du gradient de la fonction de cot est rendu plus compliqu tant donn
que les entres dtat dpendent des poids synaptiques du rseau. Ce calcul est
prsent dans [Nerrand93].
VI.2 Modlisation dtat.
Un prdicteur dtat neuronal a pour expression :
x n = 1 x n1 ,u n1

y n = 2 x n1 ,u n1

(10)

44

Rseaux de fonctions dorsales


o x(n) et le vecteur dtat du modle linstant n. 1 et 2 sont deux fonctions, la
premire vectorielle et la seconde scalaire ralise laide dun rseau de
fonctions dorsales. Celui-ci est illustr par la figure suivante :
Sortie

Sorties d'tat

y(n)

x1(n)

xN (n)
s

... . .

. . . . . . . . . . f
q 1

.. .. . .

. ... .
xN (n1)

u(n1) u(nNe)

x1(n1)
Entre externe

Entres d'tat

Figure 8. Rseau dtat boucl.


Le calcul du gradient de la fonction de cot pour lapprentissage des rseaux dtat
fonds sur des fonctions dorsales est prsent dans [Rivals95a].
Nous considrons galement des rseaux dtat pour lesquels la sortie est
lun des tats du modle. Un exemple est prsent dans le paragraphe III.4 du
chapitre V.
V II. CONCLUSION.
En raison de leurs proprits dapproximation universelle et de
parcimonie, les rseaux de fonctions dorsales sont bien adapts la modlisation
non linaire de processus, aussi bien entresortie que dtat. Ils peuvent
constituer des outils de modlisation non linaire, statique ou dynamique, trs
efficaces.
Le prix payer rside dans le fait que, la sortie n'tant pas linaire par
rapport aux paramtres, l'estimation de ceux-ci exige la minimisation itrative de
fonctions de cot qui possdent des minima locaux. Cependant, cet inconvnient
peut tre aisment surmont en effectuant plusieurs apprentissages, ce qui est
rendu possible par l'existence d'algorithmes de minimisation trs efficaces.

45

CHAPITRE III
Rseaux dondelettes
(approche fonde sur la transforme continue)

Rseaux d'ondelettes fonds sur la transforme continue

I. INTRODUCTION.
Le terme ondelette dsigne une fonction qui oscille pendant un temps
donn (si la variable est le temps) ou sur un intervalle de longueur finie (si la
variable est de type spatial). Au del, la fonction dcrot trs vite vers zro.
Historiquement, les premires ondelettes (introduites par Haar dans les
annes 1930) constituaient une base de fonctions orthogonales. Les ondelettes de
Haar prsentent la particularit de ne pas tre drivables.
Plus rcemment, de nouvelles fonctions ondelettes ont t introduites
[Meyer85, Meyer90], qui constituent galement une base de fonctions
orthogonales, et qui, de plus, sont drivables. Elles ont t notamment mises e n
uvre dans le cadre de l'analyse multirsolution de signaux [Mallat89]. Ces
ondelettes ne peuvent sexprimer sous une forme analytique simple. Pour cette
raison, elles sont peu adaptes pour lapproximation de fonctions. Nous
nutiliserons donc pas les ondelettes orthogonales dans ce mmoire.
Les structures obliques (frames en anglais) ont t introduites par J. Morlet dans
le but de trouver des bases de fonctions (non ncessairement orthogonales) pour
reprsenter des signaux. Ces structures obliques ont t ensuite lobjet des
travaux de I. Daubechies [Daubechies90] qui a dvelopp un support thorique
aux rsultats de J. Morlet. Les structures obliques ont des expressions analytiques
simples, et toute fonction de carr sommable peut tre approche, avec la
prcision voulue, par une somme finie dondelettes issues dune structure
oblique. Cette proprit est quivalente celle de lapproximation universelle
pour les rseaux de fonctions dorsales. Pour toutes ces raisons, nous nous
sommes intresss uniquement, dans notre travail, des structures obliques
d'ondelettes.
Dans ce chapitre, nous prsentons tout dabord les fonctions ondelettes et
la transforme en ondelettes. Deux approches sont considrer : la transforme
en ondelettes continue et la transforme en ondelettes discrte, comme illustr
par la Figure 1.

47

Rseaux d'ondelettes fonds sur la transforme continue


Les ondelettes

Les structures
obliques (frames)

Thorie de l'analyse
mutirsolution

Thorie des ondelettes


orthogonales

Transforme
en ondelettes

Transforme
continue

Transforme
discrte

Figure 1.
Le prsent chapitre est consacr aux ondelettes utilises pour la
transforme continue et aux rseaux de telles ondelettes. Nous dcrivons e n
dtail la technique de modlisation statique par rseaux d'ondelettes, et nous
introduisons la modlisation dynamique par ces rseaux ; nous montrons qu'il
est possible de considrer soit des rseaux entre-sortie, soit des rseaux d'tat.
II. RSEAUX ISSUS DE LA TRANSFORME EN ONDELETTES CONTINUE.
De manire analogue la thorie des sries de Fourier, les ondelettes sont
principalement utilises pour la dcomposition de fonctions. La dcomposition
dune fonction en ondelettes consiste lcrire comme une somme pondre de
fonctions obtenues partir doprations simples effectues sur une fonction
principale appele ondelettemre. Ces oprations consistent en des translations
et dilatations de la variable. Selon que ces translations et dilatations sont
choisies de manire continue ou discrte, on parlera dune transforme e n
ondelettes continue ou discrte.
II.1 La transforme en ondelettes continue.
Une transforme en ondelettes est dite continue lorsque les paramtres
structurels des fonctions utilises (c'est--dire les translations et les dilatations)
peuvent prendre nimporte quelle valeur de lensemble des rels R (les
dilatations doivent nanmoins tre positives).
Soit une ondelettemre, x la variable, m j le paramtre de translation et
d j le paramtre de dilatation. Londelette j de la famille de ayant pour
paramtres m j et dj a pour expression :
x mj
1
(1)
j(x) =

dj
dj
48

Rseaux d'ondelettes fonds sur la transforme continue


avec m j R et dj R*+.
On constitue ainsi une famille dondelettes engendre partir de londelettemre. On la note . On a alors la dfinition suivante :
x mj
1
=

, mj R et dj R+*
(2)
d
dj
j
Comme les rseaux dondelettes auxquels nous allons nous intresser sont issus
de la transforme en ondelettes continue, nous allons prsenter brivement
celleci.
Soient f et g deux fonctions ; on dfinit leur produit scalaire par lintgrale
suivante :
(3)
<f, g>= f(x) g(x) dx
R

Pour que la transforme en ondelettes dune fonction existe, il faut que cette
fonction appartienne lensemble des fonctions de carr sommable que lon
note par L2(R). Autrement dit, il faut que son carr soit fini. Cette condition se
traduit par :

f 2(x) dx <

(4)

Dans ces conditions, la transforme en ondelette continue de la fonction f est


dfinie comme le produit scalaire de f et de [Cohen96] :
1
xm
(5)
W(m, d) =
f(x)
dx
d
d R
La famille doit constituer une structure oblique de lensemble L2(R) et y tre
dense. Cette proprit est assure par lexistence de deux constantes c > 0 et C <
telles que, pour toute fonction f pour laquelle il existe une transforme e n
ondelettes, on ait lingalit suivante :
2
c f 2 < j, f > C f 2
(6)
j

De ce fait, toute combinaison linaire dun nombre fini dlments de la famille


2
est dense dans L (R). Ceci garantit galement que cette famille de fonctions
possde la proprit dapproximation universelle dfinie dans le chapitre I du
prsent mmoire [Zhang92].
La reconstruction de la fonction f partir de sa transforme est possible dans le
cas o lintgrale suivante est convergente :

C =

()
d

(7)

49

Rseaux d'ondelettes fonds sur la transforme continue


o est la transforme de Fourier de . Cette dernire condition est galement
appele critre dadmissibilit pour une ondelette. Dans ce cas, f peut tre
reconstruite partir de la relation suivante :
f(x) =

1
C

W(m, d)
R

R+

1
d

xm
dd dm
d

(8)

La condition (7) est trs intressante dans la mesure o elle donne des
informations sur les proprits que doit vrifier une ondelette mre (si l'on
souhaite que la reconstruction de la fonction transforme soit possible). En
particulier, on doit avoir (0)= 0. En remplaant par 0 dans la dfinition de la
transforme de Fourier de , on voit que cette condition est quivalente :

x dx = 0
R

(9)

Donc, une ondelette est une fonction support de longueur finie et dintgrale
nulle. Ainsi, les gaussiennes radiales ne peuvent pas tre considres comme
des ondelettes.
II.2 De la transforme inverse aux rseaux dondelettes.
La relation (8) donne l'expression d'une fonction f de carr sommable
sous la forme d'une intgrale sur toutes les dilatations et toutes les translations
possibles de l'ondelette mre. Supposons que l'on ne dispose que d'un nombre
fini N w d'ondelettes j obtenues partie de l'ondelette mre . On peut alors
considrer la relation
Nw

f(x) cj j x

(10)

j=1

comme une approximation de la relation (8). La somme finie de la relation (10)


est donc une approximation dune transforme inverse. Elle peut tre vue aussi
comme la dcomposition dune fonction en une somme pondre dondelettes,
o chaque poids cj est proportionnel W ( m j, dj). Si l'on cherche raliser une
approximation d'une fonction dfinie sur un domaine fini (donc de carr
sommable), la transforme en ondelette de cette fonction existe, et sa
reconstruction est possible.
Dans le cadre de la modlisation bote noire, la fonction que l'on veut approcher
(la fonction de rgression de la grandeur modliser) n'est pas connue : on n e
dispose que des points de mesure, en nombre fini. On peut alors chercher
obtenir une approximation de la fonction de rgression sous la forme (10), o les
coefficients cj, ainsi que les paramtres m j et d j des ondelettes, doivent tre
estims partir des donnes disponibles.
50

Rseaux d'ondelettes fonds sur la transforme continue


Cest dans cette perspective qua t propose lide de rseaux
dondelettes. Ces rseaux ont t introduits pour la premire fois la mme
poque dans [Zhang92, Pati93].
III. DFINITION DES ONDELETTES MULTIDIMENSIONNELLES ET DES
RSEAUX D'ONDELETTES.
III.1 Ondelettes multidimensionnelles.
Dans le paragraphe prcdent, nous avons prsent les ondelettes une
dimension. Dans le cadre de la modlisation, il est frquent d'avoir affaire des
processus multivariables ; il est donc utile d'introduire la notion dondelette
multidimensionnelle.
On peut dfinir une ondelette multidimensionnelle comme le produit
d'ondelettes monodimensionnelles : on dit alors que les ondelettes sont
sparables. Dans ce cas, l'expression d'une ondelette multidimensionnelle est :
Ni

j(x) = (zjk) avec zjk =


k=1

xk mjk
djk

(11)

o xk est la k-ime composante du vecteur d'entre x, et zjk la composante


centre par m jk et dilate dun facteur d jk. Il a t montr dans [Kuga95] que ces
ondelettes multidimensionnelles sont des structures obliques de L2(R Ni).
III.2 Rseaux d'ondelettes.
Dans le prsent travail, nous considrons des rseaux dondelettes de la forme
suivante :
Nw

Ni

y = (x) = cjj(x) + akxk avec x0=1


j=1

k=0

o y est la sortie du rseau et x = x1,x2, ..., xN

(12)

le vecteur des entres ; il est

souvent utile de considrer, outre la dcomposition en ondelettes proprement


dite, que la sortie peut avoir une composante affine par rapport aux variables, de
coefficients a k (k = 0, 1, ... , N i). Pour la simplicit de l'expos, nous n e
considrerons que des rseaux une sortie ; la gnralisation des rseaux
plusieurs sorties ne prsente pas de difficult.
Par analogie avec les rseaux de fonctions dorsales discuts dans le chapitre II, o n
peut reprsenter une ondelette de manire analogue un neurone, comme
indiqu sur la figure 2.

51

Rseaux d'ondelettes fonds sur la transforme continue


j(x)

zjN

zj1

1
dj1

1
d jN

mj1

m jN

xN

x1

Figure 2. Reprsentation graphique dune ondelette multidimensionnelle


sparable.
Le rseau peut tre considr comme constitu de trois couches. Une premire
couche avec N i entre(s), une couche cache constitue par N w ondelettes et u n
sommateur (ou neurone linaire) de sortie recevant les sorties pondres des
ondelettes multidimensionnelles et la partie affine. Ce rseau est illustr par la
figure 3.

c1
c2
1

Neurone linaire de sortie


cNw

. . . .

a1

a0

Nw

Couche
d'ondelettes

aNi

. . . . . .
1

x1

x2

x Ni

Figure 3. Reprsentation graphique dun rseau dondelettes.

52

Rseaux d'ondelettes fonds sur la transforme continue


Ainsi, en se rfrant la classification faite dans le paragraphe IV du
chapitre I, les rseaux dondelettes sont des rseaux de fonctions non linaires
paramtres, o le vecteur i est constitu par les translations et les dilatations
de londelette multidimensionnelle.
Plusieurs choix dondelettes sont possibles. En effet, plusieurs familles
dondelettes existent. Les ondelettes les plus connues (et aussi les plus
anciennes) sont certainement celles qui constituent le systme de Haar que lon
prsentera dans le chapitre suivant, dans le contexte dondelettes orthogonales.
Les fonctions du systme de Haar ntant pas drivables, il n'est pas possible
d'appliquer aux rseaux de telles ondelettes les algorithmes d'estimation des
paramtres prsents dans le chapitre I.
Les ondelettes que nous allons utiliser pour la construction de rseaux sont
celles issues des travaux de I. Daubechies. On parle dans ce cas dondelettes de la
famille de Daubechies. Ces fonctions sont drivables et possdent la proprit
dapproximation universelle en vertu de la relation (6).
Une ondelette-mre que nous utilisons dans ce mmoire et que lon retrouve
dans [Zhang92] est la drive premire de la fonction gaussienne. Cest lune des
ondelettes les plus utilises [Torr95]. Elle est dfinie par :
2
1
1 x mj
1 x mj
- x2
(13)
(x) = x e 2
et j(x) =
exp
dj
2 dj
dj
Le graphe de cette fonction est reprsent sur la figure suivante :
0.8

0.4

-0.4

-0.8
-4

-2

Figure 4. Graphe dune ondelette.


Cette ondelette peut tre considre comme une forme drivable des ondelettes
du systme de Haar, comme la tangente hyperbolique utilise comme fonction
dactivation des rseaux de neurones (prsents au chapitre II de ce mmoire) est
une forme drivable de la fonction signe.

53

Rseaux d'ondelettes fonds sur la transforme continue


Une autre ondelette-mre que lon rencontre souvent dans la bibliographie (par
exemple dans [Cannon95, Baron97]) est la drive seconde de la fonction
gaussienne. Son expression est :
1

(x) = x 21 e - 2 x

(14)

Elle est appele ondelette chapeau mexicain. Son graphe est le suivant :
1

0.5

-0.5
-4

-2

Figure 5. Graphe de londelette chapeau mexicain.


III.3 Rseaux d'ondelettes et rseaux de neurones.
La principale ressemblance entre les rseaux de neurones fonctions
dorsales, tudis au chapitre II du prsent mmoire, et les rseaux d'ondelettes,
rside dans le fait que les deux rseaux calculent une combinaison linaire,
paramtres ajustables, de fonctions non linaires dont la forme dpend de
paramtres ajustables (translations et dilatations).
Les diffrences essentielles entre ces deux types de rseaux sont les suivantes :
contrairement aux fonctions dorsales, les ondelettes sont des fonctions qui
dcroissent rapidement , et tendent vers zro dans toutes les directions de
l'espace. Elles sont donc locales si dj est petit ;
contrairement aux fonctions dorsales, la forme de chaque ondelette
monodimensionnelle est dtermine par deux paramtres ajustables
(translation et dilatation) qui sont des paramtres structurels de l'ondelette ;
chaque ondelette monodimensionnelle possde deux paramtres structurels,
donc, pour chaque ondelette multidimensionnelle, le nombre de paramtres
ajustables est le double du nombre de variables.
Pour comparer la complexit des rseaux, deux lments sont importants :
le nombre de paramtres ajustables et le nombre d'oprations lmentaires
effectuer (tableau 1).
Nous utiliserons les notations suivantes :
54

Rseaux d'ondelettes fonds sur la transforme continue


Nombre dentres :
Nombre de fonctions :
Nombre de sorties :

Nombre de
fonctions.

N i (entre constante non comprise).


N w (pour les ondelettes), Nc (pour les fonctions
dorsales).
Une.

Rseaux de fonctions
dorsales

Rseaux de fonctions
ondelettes

Nc

Nw

Nombre de
paramtres.

Ni + 2 Nc + 1 1

2 Ni Nw + Nw + Ni + 1

Nombre
doprations pour le
calcul de la sortie.

Nc 2 Ni + 3 + Ni + 1

3 Nw Ni + 2 + Ni + 1

Tableau 1. Une comparaison entre rseaux dondelettes et de fonctions dorsales.


On entend par opration les oprations mathmatiques lmentaires, cest-dire une addition, une multiplication ou une division. tant donnes les
proprits de la fonction exponentielle, et pour chacun des deux types de
rseaux, il y a autant de fonctions exponentielle calculer que de neurones
cachs ou dondelettes multidimensionnelles dans le rseau.
Lequel des deux types de rseaux est plus conomique en termes de nombre
doprations ncessaires pour le calcul de la sortie ? La rponse peut tre obtenue
en faisant la diffrence entre les deux rsultats de la dernire ligne du tableau cidessus. En effet, nombre de fonctions gales (cest--dire Nw = Nc ), la diffrence
entre les nombre doprations pour les deux types de rseaux est gale
N w (N i + 3).
Le nombre doprations effectues lors du calcul de la sortie avec un rseau
dondelettes est donc toujours suprieur celui effectu par un rseau de
fonctions dorsales ayant le mme nombre dentres et de fonctions.
IV . APPRENTISSAGE DES RSEAUX DONDELETTES NON BOUCLS.
IV.1 Calcul du gradient de la fonction de cot.
Les coefficients du rseau peuvent tre diviss en deux classes :
les paramtres structurels des fonctions, cest--dire les
translations et les dilatations ;
les coefficients de pondrations cj et les coefficients ak de la
partie affine.
55

Rseaux d'ondelettes fonds sur la transforme continue


Deux possibilits soffrent nous pour la construction du rseau :
choisir les paramtres structurels dans un ensemble de
valeurs discrtes ;
considrer ces paramtres comme ceux dun rseau de
neurones classique et utiliser une technique doptimisation
pour en faire une estimation.
Discrtiser le domaine des translations et des dilatations signifie quon effectue
la construction de rseaux dondelettes suivant une approche fonde sur la
transforme en ondelettes discrte. Cette question sera tudie en dtail dans le
chapitre suivant.
Dans ce qui suit, nous allons adopter la seconde possibilit, et faire appel aux
techniques doptimisation non linaire dcrite dans le chapitre I de ce
document.
Rappelons que lapprentissage consiste en la minimisation de la fonction de
cot suivante :
N
N
1
1
n 2
n2
n
(15)
J() = yp y = e
2
2
n=1

n=1

avec
Nw
n

Ni
n

y = x , = cjj x , mj, dj + akxkn avec


o

ypn

j=1

x0n=1

(16)

k=0

est la sortie dsire correspondant lexemple n, yn est la sortie du rseau

dondelettes pour lexemple n, et


n
x n = x1n, ... , xN

(17)

est le vecteur des entres.


est le vecteur regroupant l'ensemble des paramtres ajustables :
= mjk, djk, cj, ak, a0 j = 1 , ... , Nw et k = 1 , ... , Ni

(18)

Les techniques doptimisation utilises ncessitent le calcul du vecteur gradient


de la fonction de cot par rapport au vecteur des paramtres ajustables. Son
expression est :
N
n
J
n y
(19)
= e

n=1

y
est la valeur du gradient de la sortie du rseau par rapport aux

paramtres au point x=xn :


y n y
=

x = xn

(20)

56

Rseaux d'ondelettes fonds sur la transforme continue


Calculons prsent la drive de la sortie par rapport chacun des paramtres
du rseau.
Pour les coefficients directs {ak} :
y n
(21)
= xkn k = 1 , ... , Ni
ak
Pour les pondrations des ondelettes {cj} :
n
y
= j(x n) k = 1 , ... , Ni et j = 1 , ... , Nw
cj

(22)

Pour les translations {m jk} :


n
cj j
y
=
mjk
djk zjk

x=x

Pour les dilatations {djk} :


n
cj n j
y
=
z
djk
djk jk zjk
j
zjk

k = 1 , ... , Ni et j = 1 , ... , Nw

x=x

k = 1 , ... , Ni et j = 1 , ... , Nw

(23)

(24)

est la valeur de la drive partielle de londelette multidimensionnelle


x = xn

n
par rapport la variable zjk au point x=x . tant donn la relation (11), cette
drive partielle vaut :
j
n
n
n
n
zj2
(25)
= zj1
... ' zjk
... zjN
i
zjk
n

x=x

avec

'

n
zjk

la drive au point x=xn de londelette scalaire, c'est--dire :


d z
z' n =
jk
dz z = zn
jk

(26)

IV.2 Initialisation des paramtres du rseau.


Une fonction ondelette monodimensionnelle est dfinie sur tout
lensemble R, mais lessentiel de sa contribution stend sur un intervalle centr
autour de la valeur de la translation et dont la longueur dpend du paramtre
de dilatation.
Dans le cas de rseaux de neurones fonctions dorsales, linitialisation des
paramtres du rseau est gnralement effectue de manire alatoire, de telle
manire que le potentiel de chaque neurone cach soit suffisamment petit pour
que les sorties des neurones se trouvent dans la partie linaire de la sigmode.
Les ondelettes tant des fonctions dcroissance rapide, une initialisation
alatoire des paramtres de translation et de dilatation serait trs inefficace : e n
effet, si les translations sont initialises lextrieur du domaine contenant les
exemples, ou si les dilatations choisies sont trop petites, la sortie de londelette
57

Rseaux d'ondelettes fonds sur la transforme continue


est pratiquement nulle, de mme que sa drive. Lalgorithme dadaptation des
paramtres tant fond sur une technique de gradient, il est inoprant. Une
attention particulire doit donc tre porte cette phase dinitialisation des
paramtres.
Nous proposons ici une procdure dinitialisation simple, qui prend e n
considration le domaine o sont rpartis les exemples de lensemble
dapprentissage.
me
composantes des vecteurs
Soit k, k lintervalle contenant les k
dentre des exemples. On initialise les translations m jk (j = 1 , ... , N w ) au centre
de lintervalle k, k :
k + k
(27)
mjk =
avec j = 1 , ... , Nw
2
Les paramtres de dilatation sont choisis de telle manire que les variations de
londelette stendent sur tout lintervalle k, k . Cette condition est remplie
avec le choix suivant :
(28)
djk = 0,2 k k avec j = 1 , ... , Nw
Cette procdure est valable notamment pour londelette mre illustre par la
figure 4 que nous allons utiliser dans nos exemples.
Reste la question de linitialisation des coefficients de pondration des
ondelettes (cj avec j = 1 , ... , N w ) et ceux de la partie affine a k avec k = 1 , ... , N i.
Linitialisation de ces coefficients est moins importante, pour le droulement de
lapprentissage, que celle des paramtres structurels ; ils sont initialiss de
manire alatoire, uniformment rpartis dans lintervalle[102 ; +10-2].
Cette procdure ne ncessite pratiquement pas de calcul ; elle est trs
simple mettre en uvre. Le fait que, pour j = 1 , ... , N w toutes les translations
soient initialises la mme valeur (ainsi que les dilatations) peut laisser penser
quelles vont voluer de manire identique si l'on effectue plusieurs
apprentissages successifs. Une telle situation est vite par le fait que les
pondrations de chacune des ondelettes du rseau sont initialises
diffremment.
Nanmoins, cette procdure dinitialisation prsente un inconvnient : elle
utilise peu les proprits des ondelettes. En effet, on peut imaginer que lon
puisse mettre au point une technique dinitialisation qui utilise plus
linformation apporte par les paramtres structurels, afin que la fonction de
cot soit au voisinage dun minimum avant deffectuer lapprentissage
proprement dit. Une telle procdure est propose dans le chapitre suivant ; elle
est utilisable pour des rseaux dondelettes issus de la transforme en ondelettes
discrte.

58

Rseaux d'ondelettes fonds sur la transforme continue


IV.3 Exemple de modlisation statique.
IV .3.1 Prsentation du processus simul.
Pour mettre en pratique les rseaux dondelettes non boucls que nous venons
de prsenter, nous nous proposons dtudier la modlisation statique dun
processus une entre.
Le processus est simul partir de la fonction dfinie sur lintervalle [10, +10]
par :
2,186 x 12,864 si x [10, 2[
fx =

(29)

4,246 x si x [2, 0[
10 exp 0,05 x 0,5 sin x 0,03 x + 0,7

si x [0, 10]

Le graphe de cette fonction est reprsent sur la figure 6 :


10

-2

-6

-10
-10

-5

10

Figure 6. Sortie du processus pour lintervalle de lentre considr.


IV .3.2 Modlisation avec 100 exemples.
La squence dapprentissage est constitue de 100 exemples choisis de
manire alatoire, uniformment rpartis, dans lintervalle considr. La
squence destimation de la performance du modle est forme de 1000
exemples rgulirement rpartis. On utilise les deux algorithmes de BFGS et de
LevenbergMarquardt (prsents dans le chapitre I de ce document). Dans le cas
de lutilisation de la procdure BFGS, une phase de gradient simple avec pas
asservi est pralablement applique. Pour chaque rseau, on effectue cent
apprentissages en modifiant chaque fois le germe de linitialisation alatoire
des pondrations {cj} des ondelettes et des coefficients {a k } de la partie affine du
rseau. Rappelons que linitialisation des translations et des dilatations est
dterministe (suivant la procdure expose au paragraphe prcdent) : elle est
donc identique pour tous les apprentissages. Nous avons test quatre
architectures, 4, 6, 8 et 10 ondelettes.
59

Rseaux d'ondelettes fonds sur la transforme continue


Le tableau 2 prsente, pour chacune de ces quatre architectures :
le meilleur EQMP obtenu l'issue de cent apprentissages avec l'algorithme de
BFGS,
l'EQMA correspondant.
Nombre dondelettes.
4
6
8
10

EQMA
7,9 103
1,3 103
5,7 104
1,0 104

EQMP
8,3 103
1,4 103
9,1 104
2,4 104

Tableau 2. Rsultats obtenus avec lalgorithme de BFGS.


La Figure 7 prsente les histogrammes des EQMA et des EQMP, pour les 100
apprentissages d'un rseau de 10 ondelettes effectus avec l'algorithme de BFGS.
On observe une dispersion des EQMA et des EQMP, due l'existence de minima
locaux de la fonction de cot. Nous montrerons dans le paragraphe suivant que
ce problme est trs attnu si l'on utilise un plus grand nombre d'exemples
pour l'apprentissage.
Histogramme EQMA

35
30

30

25

25

20

20

15

15

10

10

0.005

0.01

0.015

0.02

Histogramme EQMP

35

0.025

0.03

0.005

0.01

0.015

0.02

0.025

0.03

Figure 7. Histogrammes des EQMA et EQMP pour 100 apprentissages.


Les rsultats obtenus dans les mmes conditions en utilisant lalgorithme de
LevenbergMarquardt sont ports sur le tableau 3.
Nombre dondelettes.
4
6
8
10

EQMA
8,1 103
2,0 103
1,4 104
3,9 105

EQMP
7,8 103
2,3 103
3,2 104
1,9 104

Tableau 3. Rsultats obtenus avec lalgorithme de LevenbergMarquardt.

60

Rseaux d'ondelettes fonds sur la transforme continue


Les meilleurs rsultats fournis par les deux algorithmes sont quivalents.
IV .3.3 Modlisation avec 300 exemples.
Nous utilisons cette fois un ensemble d'apprentissage comprenant 300
exemples uniformment rpartis dans lintervalle [10, +10] et nous effectuons
de nouveau 100 apprentissages comme prcdemment.
Le tableau 4 prsente, pour chacune des quatre architectures considres :
le meilleur EQMP obtenu l'issue de cent apprentissages avec l'algorithme de
BFGS,
l'EQMA correspondant.
Nombre dondelettes.
4
6
8
10

EQMA
6,8 103
9,3 104
5,1 104
7,5 105

EQMP
6,6 103
1,2 103
6,4 104
1,1 104

Tableau 4. Rsultats obtenus avec lalgorithme de BFGS.


La Figure 8 prsente les histogrammes des EQMA et des EQMP, pour les 100
apprentissages d'un rseau de 10 ondelettes effectus avec l'algorithme de BFGS.
Histogramme EQMA

80
70

70

60

60

50

50

40

40

30

30

20

20

10

10

Histogramme EQMP

80

0.005

0.01

0.015

0.02

0.025

0.03

0.005

0.01

0.015

0.02

0.025

0.03

Figure 8. Histogrammes des EQMA et EQMP pour 100 apprentissages.


On constate que les rsultats sont beaucoup moins disperss que ceux qui sont
prsents sur la Figure 7. Le fait que la distribution des minima locaux est
d'autant plus large que le nombre d'exemples est petit n'est pas spcifique des
ondelettes ; il a fait l'objet d'une tude dans [Stoppi97].

61

Rseaux d'ondelettes fonds sur la transforme continue


Les rsultats obtenus dans les mmes conditions en utilisant lalgorithme de
LevenbergMarquardt sont ports sur le tableau 5.
Nombre dondelettes.
4
6
8
10

EQMA
7,0 103
1,2 103
1,5 104
3,4 105

EQMP
6,5 103
1,3 103
2,6 104
5,0 105

Tableau 5. Rsultats obtenus avec lalgorithme de LevenbergMarquardt.


L encore, les meilleurs rsultats sont analogues ceux qui ont t obtenus avec
l'algorithme de BFGS. Les frquences d'obtention des meilleurs minima sont
voisines.
Cet exemple sera repris dans le chapitre IV, o nous illustrerons la mise e n
uvre d'une procdure de slection pour l'initialisation des translations et
dilatations des ondelettes.
IV .3.4 Influence des termes directs
Les rsultats prsents dans les deux paragraphes prcdents taient relatifs des
rseaux dcrits par la relation (12), dans laquelle apparaissent des "termes
directs" (coefficients {ak, k0}) qui ralisent une fonction linaire des entres du
rseau. Pour valuer l'influence de ces termes, nous prsentons ici les rsultats
obtenus par apprentissage de rseaux sans termes directs (a k = 0, k = 1, ... N i).
Nous considrerons uniquement l'apprentissage avec 300 exemples.
Le tableau 6 prsente les rsultats obtenus aprs apprentissage par l'algorithme
de BFGS, et le tableau 7 ceux obtenus par l'algorithme de Levenberg-Marquardt.
Nombre dondelettes.
4
6
8
10

EQMA
4,0 102
5,3 103
8,5 104
3,9 104

EQMP
3,6 102
5,4 103
1,2 103
4,7 104

Tableau 6. Rsultats obtenus avec lalgorithme de BFGS.


Nombre dondelettes.
4
6
8
10

EQMA
2,6 102
1,4 103
3,7 104
3,3 104

EQMP
2,4 102
1,9 103
4,8 104
4,0 104

Tableau 7. Rsultats obtenus avec lalgorithme de LevenbergMarquardt.


62

Rseaux d'ondelettes fonds sur la transforme continue


On observe que les EQM sont systmatiquement suprieures celles que l'on
obtient avec des rseaux comportant des termes directs.
IV .3.5 Quelques figures.
La figure suivante illustre la disposition des ondelettes en fin
dapprentissage pour le rseau de 10 ondelettes optimis avec lalgorithme de
LevenbergMarquardt.
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-10

-5

10

Figure 9. Ondelettes en fin dapprentissage.


On peut observer que tous les centres ne sont pas lintrieur du domaine
o est dfinie la fonction f, mais lintersection du support de chacune des
ondelettes avec le domaine est non nulle. Afin dutiliser une seule chelle, les
ondelettes sont reprsentes avec leurs sorties non pondres par les coefficients
cj.
0.12

-8

0.08

-8.1

-8.2

0.04

Modle

-8.3

0
-8.4

-0.04

Processus

-8.5

-0.08
-10

-5

10

-2.2

-2.1

-2

-1.9

-1.8

(a)
(b)
Figure 10. Erreur de modlisation (a) et dtail de la sortie du modle et du
processus autour du point anguleux (b).

63

Rseaux d'ondelettes fonds sur la transforme continue


La figure 10 illustre lerreur de modlisation (a) commise par le rseau de 10
ondelettes. Lerreur est principalement commise au niveau du point anguleux
(b) qui est certainement la seule difficult pour lapproximation de cette
fonction.
V . MODLISATION
DONDELETTES.

DYNAMIQUE

ENTRESORTIE

ET

RSEAUX

Comme nous venons de le voir, la construction de rseaux dondelettes


non boucls pour la modlisation statique de processus tire son origine de la
transforme en ondelettes inverse. On se propose dtendre lutilisation des
rseaux dondelettes la modlisation dynamique de processus.
Considrons un modle-hypothse de la forme :
yp(n) = f yp(n-1) , , yp(n-Ns), u(n-1) , , u(n-Ne), w(n) , , w(n-Nn)
(30)
o u est une entre externe applique au processus et yp sa sortie. N s est lordre
du modle. {w(n)} est une squence de variables alatoires de moyenne nulle et
de variance 2. f est une fonction paramtre inconnue dont il sagit destimer
les paramtres laide dune squence dapprentissage. Chaque exemple
correspond un instant de mesure. Pour une squence dapprentissage de N
exemples, nous avons n = 1, ... , N.
Des hypothses supplmentaires sont gnralement faites sur la faon
dont le bruit agit. Un choix adquat du prdicteur associ peut alors tre effectu.
Diffrents exemples de modles-hypothses ainsi que les prdicteurs optimaux
qui leur sont associs sont prsents dans le paragraphe III.3 du chapitre I.
Rappelons que :
si l'hypothse de l'existence d'un bruit additif de sortie a t retenue, ou si, e n
l'absence de bruit, on dsire obtenir un modle de simulation du processus,
les entres d'tat du prdicteur, durant son apprentissage, sont les sorties
passes du prdicteur ; si le prdicteur est ralis par un rseau, celui-ci est
boucl pendant l'apprentissage ;
si l'hypothse de l'existence d'un bruit d'tat additif a t retenue, ou si, e n
l'absence de bruit, on envisage d'utiliser le prdicteur pour prdire la sortie
une seule priode d'chantillonnage plus tard, les entres d'tat du
prdicteur, durant son apprentissage, sont les sorties du processus ; si le
prdicteur est une rseau de fonctions, celui-ci est non boucl pendant
l'apprentissage.
A notre connaissance, les rseaux dondelettes boucls nont jamais t
tudis auparavant. On trouve dans la conclusion de la rfrence [Zhang92] (qui
traite des rseaux dondelettes fonds sur la transforme en ondelette continue)

64

Rseaux d'ondelettes fonds sur la transforme continue


un commentaire ce propos. Les auteurs soulignent quune investigation des
performances de tels rseaux est une voie explorer.
V.1 Apprentissage de rseaux de type entre-sortie.
Le schma dapprentissage que nous adoptons est semblable celui qui est
utilis dans le cas de rseaux de neurones fonctions sigmodes. Nous utilisons
la notion de copie du rseau. On dsigne par "copie numro n" la partie statique
du rseau canonique qui calcule y(n).
V .1.1 Apprentissage de prdicteurs non boucls.
Pour paramtrer un rseau constituant un prdicteur non boucl pendant
lapprentissage, on se ramne la notation utilise pour les rseaux statiques.
Soit x n R Ni le vecteur dentre de la copie n. Ses diffrentes composantes
sont les suivantes :
Pour k = 1 , ... , N e : xkn = u n k sont les entres externes. N e est le nombre de ces
entres.
Pour k = N e+1, ... , N e+ N s : xkn = yp n k + Ne sont les entres dtat, qui sont les
sorties mesures sur le processus (entres dtat).
Comme nous l'avons rappel dans le paragraphe prcdent, les valeurs des
entres dtat pour chaque copie sont forces aux sorties correspondantes du
processus. Le prdicteur est dirig par le processus, do le nom dapprentissage
dirig [Nerrand92, Nerrand93] ou teacherforced [Jordan85].
Nous avons ainsi N e + N s = Ni , le nombre dentres dun rseau dondelettes
pour la modlisation statique.
Lapprentissage par la mthode du gradient seffectue de la mme manire que
dans le cas de la modlisation statique.
V .1.2 Apprentissage de prdicteurs boucls.
Pour un prdicteur boucl pour lapprentissage, le calcul du gradient de la
fonction de cot doit tenir compte du fait que le rseau est boucl.
Pour k = 1, ... , N e : xkn = u n k sont les entres externes.
Pour k = N e+1, ... , N e+ N s : xkn = y n k + Ne

sont les N s valeurs passes des

sorties de la copie n1.


Pour k = N e+N s+1 , ... , N e+2N s : xkn = y(n k + Ne + Ns + 1) sont les sorties de la
copie n.
La figure 11 illustre la configuration du rseau pour lexemple de linstant n
(cest--dire la copie numro n).

65

Rseaux d'ondelettes fonds sur la transforme continue

Ns valeurs de la sortie de la copie n


n

y n = x Ne +N s+1

x Ne +2Ns

....

cN

c1
1

. . . . .

Nw

aN +N

a0

....
n

x1

....
n

x Ne

Ne entres externes

x Ne +Ns

x Ne +1

Ns valeurs de la sortie de la copie n1

Figure 11. La copie numro n du rseau prdicteur entre-sortie boucl.


Ici, seules les valeurs des entres dtat de la premire copie sont prises gales
aux valeurs correspondantes de la sortie du processus. Pour les copies suivantes,
ces entres prennent les valeurs des variables dtat en sortie de la copie
prcdente. Le prdicteur est semi-dirig par le processus. Pour cette raison,
lalgorithme est dit semi-dirig [Nerrand92] (backpropagation through time
[Rumelhart86]).
Rappelons que la fonction de cot minimiser au cours de lapprentissage est la
mme que dans le cas de la modlisation statique, c'est--dire

1
J() =
2

ypnyn

, o est le vecteur des paramtres ajustables.

n=1

n
On dsigne par le vecteur des paramtres de la copie n du rseau :

n n n n n
n = mjk
, djk, cj , ak , a0 avec j = 1 , ... , Nw et k = 1 , ... , Ne+Ns
n

(31)

n'

Il est ncessaire de distinguer les paramtres i et i de deux copies diffrentes


n et n' bien qu'ils aient les mmes valeurs : en effet, les composantes du
gradient

J
ni

et

J
n'
i

sont diffrentes. Rappelons que

n=1

J
n

Ces notations tant dfinies, nous abordons le calcul du gradient

J
pour les

rseaux dondelettes boucls. Deux approches sont possibles :

66

Rseaux d'ondelettes fonds sur la transforme continue


calcul par rtropropagation,
calcul dans le sens direct.
V .1.3 Calcul du gradient par rtropropagation.
Le vecteur gradient est dcompos de la manire suivante :
N
N
J
J y n
J
=
=
n y n n
n=1

La quantit

(32)

n=1

y n

est la drive de la sortie de la copie n par rapport aux


n

coefficients de la mme copie. Les expressions de cette drive pour chacune des
composantes du vecteur sont donnes par les relations (20) (24).
J
pour n = 1, ... , N.
Reste donc calculer
y n
Afin de prsenter les expressions de faon plus claire, on introduit des variables
intermdiaires que lon note par qkn et que lon dfinit par :
J
(33)
qkn =
avec k = Ne+1 , ... , Ne+2Ns
xkn
Ce sont les drives partielles de la fonction J par rapport aux variables dtat
en entre et en sortie de la copie numro n.
Pour la prsentation du calcul du gradient par rtropropagation, on considre
sparment la dernire copie, de numro N, celles dont le numro est compris
entre N1 et 2, et enfin la premire copie.
Pour la copie N , nous avons :
Pour la sortie :

J
y

N
N
N
= qsortie
= qN
+N +1 = e
e

Pour les autres variables dtat (en sortie du rseau) :


qkN = 0 avec k = Ne+Ns+2 , ... , Ne+2Ns

(34)

(35)

Pour les variables dtat (en entre du rseau) :

= qkN
N
xk

Nw

akN

cjN jN

N
j = 1 djk

N
zjk

N
qsortie
avec k = Ne+1 , ... , Ne+Ns

(36)

Pour les copies de n =N 1 2, nous avons :


Pour la sortie :
67

Rseaux d'ondelettes fonds sur la transforme continue

J
y

n
n+1
= qsortie
= e n + qN
+1

(37)

Pour les autres variables dtat (en sortie du rseau) :


n+1
qkn = qkN
avec k = Ne+Ns+2 , ... , Ne+2Ns
s

(38)

Pour les variables dtat en entre du rseau :

= qkn
n
xk

Nw
n
= qk+N
+
s+1

akn

cjn jn

n
j = 1 djk

n
qsortie
avec k = Ne+1 , ... , Ne+Ns

n
zjk

(39)

Pour la copie n =1, nous avons :


Pour la sortie :

J
y

1
2
= qsortie
= e 1 + qN
+1

(40)

V .1.4 Calcul du gradient dans le sens direct.


Lutilisation
de
lalgorithme
de
LevenbergMarquardt
pour
lapprentissage de rseaux boucls ncessite la mise en oeuvre du calcul du
gradient dans le sens direct. En effet, cet algorithme demande le calcul du
Hessien de la fonction de cot J (ou dune approximation de celui-ci). Rappelons
que cette approximation sexprime de la faon suivante :
N

H=

n=1

e n e n

n=1

y n yn

(41)

Les drives partielles sont calcules partir de :

yn

m=1

y n
m

(42)

Afin dobtenir les quantits de la relation (42) avec un calcul du gradient par
rtropropagation, il est ncessaire deffectuer N rtropropagations. De ce fait, le
calcul dans le sens direct est plus conomique.
La relation prcdente exprime que le calcul du gradient de la sortie de la
copie numro n du rseau par rapport au vecteur des paramtres doit prendre
en considration les drives de cette sortie par rapport chacune des copies du
vecteur des paramtres dindices infrieurs ou gaux. Dcomposons lexpression
(42) :

68

Rseaux d'ondelettes fonds sur la transforme continue


n

n1

y n

m
m=1

y n

m
m=1

y n
n

(43)

Le deuxime terme est donn par les relations (21) (24) ; il suffit donc de
calculer le premier.
La quantit

yn

peut scrire de la manire suivante, o ynl est la variable dtat

numro l en entre de la n me copie :

y n
m

Ns

l=1

y n y nl

avec m = 1 , ... , n1 et n l m

y nl m

(44)

On obtient ainsi :
n1

y n

m
m=1

Ns

=
l=1

n1

y n

y nl

m=1

y nl
m

avec n l m

Remarquons que le second facteur peut scrire :


n1
nl
y nl
y nl y nl
=
m m =
m=1
m=1

(45)

(46)

En introduisant ce dernier rsultat dans la relation (45), on obtient :


n1

Ns

m
m=1

l=1

nl

nl

(47)

En reprenant la relation (43), on aboutit :


Ns

y n
y n y nl y n
= nl
+ n

y
l=1

La quantit

y n
y nl

(48)

est la drive de la sortie de la copie n par rapport la sortie

calcule de la copie nl, qui est donc la l


Elle est donne par :

y n
y

n
= aN
nl
e+l

Nw

j=1

cjn

me

variable dtat en entre de la copie n .

jn

n
n
dj,N
+l zj,N +l
e

avec l=1 , ... , Ns

(49)

n
La relation (48) permet de calculer la drive de la sortie y de la copie n par
rapport en fonction de celles calcules aux Ns copies prcdentes.

69

Rseaux d'ondelettes fonds sur la transforme continue


V.2 Exemple.
V .2.1 Prsentation du processus.
On se propose dtudier un exemple de modlisation dynamique laide
dun rseau dondelettes boucl afin de mettre en uvre les algorithmes et
procdures prsents au paragraphe prcdent.
Le processus est simul partir dune quation aux diffrences ayant pour
expression :

yp(k) =

yp(k1) yp(k2) yp(k3) u(k2) yp(k3) 1 + u(k1)


1 + yp2(k 2) + yp2(k 3)

(50)

o u(.) est lentre externe et yp(.) la sortie du processus. Afin de simuler le


processus, il est indispensable de choisir une squence pour lentre externe u.
La squence des entres externes est une squence pseudo-alatoire de
distribution uniforme entre 1 et 1. Les squences dapprentissage et
destimation de la performance sont constitues chacune de 1000 points. tant
donn que le processus nest pas bruit, on peut effectuer indiffremment une
modlisation avec un rseau boucl ou non. On choisit la premire possibilit.
Dans le domaine des entres choisi, c'est--dire [1, +1], les sorties sont
comprises dans le mme intervalle.
V .2.2 tude du gain statique.
Un rgime statique est atteint si pour u(k1)=u(k2)= constante, on a
yp(k)=yp(k1)=yp(k2)=yp(k2)=yp(k3)= constante. Le gain statique est le rapport
de la sortie lentre :

(51)
Gstatique =

En utilisant les galits prcdentes et le modle du processus donn par la


relation (50), on obtient pour expression du gain statique en fonction de la
sortie :
Gstatique =

3 1 + 1
2

(52)

1+2

Dans le domaine des entres que nous avons choisi pour la construction de nos
deux squences, le graphe du gain statique est le suivant :

70

Rseaux d'ondelettes fonds sur la transforme continue


1
0.9

Gain statique

0.8
0.7
0.6
0.5
0.4
0.3
-1

-0.5

0.5

Sortie y p

Figure 12. Gain statique dans le domaine de sortie [-1 ; +1]


On constate que pour de faibles amplitudes de la sortie (proches de zro) le gain
statique est proche de lunit. Prcisons que cette tude ne nous donne pas
dinformation sur la stabilit du modle. En fait, des essais de simulation
montrent que le modle est instable si des entres damplitudes suprieures 1
sont appliques.
V .2.3 Modlisation du processus.
On se propose dutiliser quatre architectures de rseaux forms
respectivement de 5, 10 et 15 ondelettes. Une modlisation linaire est
galement effectue (rseau ne contenant aucune ondelette). Pour chaque
architecture, on effectue 50 apprentissages en modifiant chaque fois le germe
de linitialisation alatoire des paramtres. Le rseau retenu est celui dont
performance estime est la meilleure. Les rsultats obtenus en utilisant
lalgorithme de BFGS sont reprsents dans le tableau suivant :
Nb. dondelettes.

EQMA
8,1 10-3

EQMP
9,3 10-3

10

8,7 10-6
1,5 10-6

1,3 10-5
2,3 10-6

15

1,3 10-7

2,9 10-7

0
5

Tableau 8. Rsultats obtenus avec lalgorithme de BFGS.


On effectue galement des apprentissages dans les mmes conditions e n
utilisant cette fois lalgorithme de LevenbergMarquardt avec le calcul du
gradient dans le sens direct (comme prsent plus haut dans ce chapitre). Les
rsultats obtenus sont reports sur le tableau 9.

71

Rseaux d'ondelettes fonds sur la transforme continue


Nb. dondelettes.

EQMA
8,1 10-3

EQMP
9,3 10-3

10

6,6 10-6
1,1 10-7

9,4 10-6
3,1 10-7

15

1,2 10-8

4,8 10-8

0
5

Tableau 9. Rsultats obtenus avec lalgorithme de LevenbergMarquardt.


Les EQM obtenues ici avec les grands rseaux (10 et 15 ondelettes) sont
plus faibles que celles obtenues par lalgorithme de BFGS. Sur cet exemple, nous
avons donc un meilleur comportement de lalgorithme de Levenberg
Marquardt au prix dun temps de calcul beaucoup plus important.
V I. MODLISATION DTAT ET RSEAUX DONDELETTES.
Ltat dun modle est lensemble minimal des N s valeurs ncessaires
linstant k pour calculer sa sortie linstant k+1, les valeurs des entres tant
donnes jusqu k. N s est lordre du modle. La reprsentation dtat est la
reprsentation la plus gnrale du comportement dynamique dun processus. La
reprsentation entre-sortie en est un cas particulier.
Un modle dtat temps discret est constitu
er
dun systme de N s quations rcurrentes du 1 ordre exprimant ltat
linstant k+1 en fonction de ltat et des entres linstant k,
dune quation dobservation, qui exprime la sortie en fonction de ltat, o u
plus gnralement, de ltat et des entres.
Un modle-hypothse prend la forme suivante :
xp k+1 = f xp k ,u k
(53)
yp k = g xp k
o xp(k) R Ns est le vecteur dtat linstant k, u(k) R Ne est le vecteur des
entres et y p(k) la sortie du processus linstant k. f et g sont des fonctions
variable vectorielle.
Dans le cadre de cette tude, on sintressera aux cas o u(k) est une entre
scalaire et o le modle ne possde quune sortie (modles mono-entre monosortie ou SISO pour Single Input, Single Output).
Dans le cas dun modle entre-sortie, les variables d'tat sont les sorties,
donc elles sont ncessairement mesures, ce qui n'est pas le cas pour un modle
d'tat.
Dans la suite de la prsente tude de modlisation par rseaux dtat, nous
ne considrons que des modles sans bruit ou des modles avec un bruit additif
de sortie.

72

Rseaux d'ondelettes fonds sur la transforme continue


VI.1 Modles d'tat sans bruit, avec tats non mesurables.
Si les tats dun modle bote noire ne sont pas mesurables, seul le
comportement entresortie peut tre modlis. Dans ce cas, les tats obtenus
nont pas forcment une signification physique, contrairement au cas o ils sont
mesurables. En changeant le nombre de fonctions dans le rseau, ou son
initialisation, les modles obtenus peuvent possder une performance
quivalente du point de vue du comportement entresortie, bien que les
squences des variables dtat soient diffrentes. Le prdicteur associ est
obligatoirement boucl et son expression est la suivante :
x k+1 = 1 x k , u k
(54)
y k+1 = 2 x k , u k
Ce prdicteur est illustr par la figure suivante :
x(k+1)
y(k+1)

q 1

1 , 2

u(k)

x(k)

Figure 13. Prdicteur dtat boucl.


Dans le cas o la sortie y(k) nest pas fonction de u(k), un rseau associ comme
celui de la figure 13 est envisageable en supprimant la connexion
correspondante.
Dans les exemples que nous tudierons dans la suite de ce mmoire, les
tats sont gnralement non mesurables et les squences dapprentissage et
destimation de la performance dont on dispose sont formes uniquement des
mesures de lentre externe et de la sortie du processus : seul lapprentissage
dun prdicteur dtat boucl est possible. Dans la suite de ce mmoire, on n e
considrera donc que des prdicteurs dtat boucls comme celui illustr par la
figure 13.
VI.2 Apprentissage de rseaux dtat boucls.
V I.2.1 Structure du rseau dtat.
Le rseau non boucl de la forme canonique d'un rseau d'ondelettes
boucl comprend :
73

Rseaux d'ondelettes fonds sur la transforme continue


Une couche dentre possdant N e entres externes et N s variables
dtat. Le nombre total des entres est alors N i = Ne + N s.

Une
couche
cache
constitue
par
Nw
ondelettes
multidimensionnelles.
Une couche de sortie comportant un neurone linaire donnant la
sortie du rseau y(n) = yn et N s neurones linaires dtat donnant
chacun la valeur de ltat correspondant pour linstant considr.
La notion de copie de rseau utilise dans le cadre de la modlisation
entresortie est gnralise. Ici, comme expliqu plus haut, seuls les rseaux
dtat boucls seront utiliss et lapprentissage met en jeu un grand rseau
constitu par N copies en cascade (N est toujours la taille de la squence
dapprentissage). Le vecteur dtat en entre de la copie numro n est le vecteur
de sortie de la copie prcdente. Pour la premire copie :
si les tats sont mesurables le vecteur est identique au vecteur des entres du
processus ;
si les tats ne sont pas mesurables, et en l'absence de toute information sur
l'tat initial du processus, on force les entres d'tat de la premire copie
zro.
Dans les exemples que nous avons traits, nous nous trouvons dans cette
dernire situation.
Suivant la description donne plus haut sur la structure du rseau, le
vecteur des paramtres est compos des lments suivants :
= mjk, djk, ckj, c0
(55)
Les translations m jk et les dilatations djk avec k=1 , ... , N e + N s et j=1 ,
... , N w.
Les pondrations et les coefficients directs que lon note par ckj. Ce
choix dindices signifie quil sagit du coefficient de la liaison entre la
fonction (ou le neurone dentre) numro j et le neurone de sortie (ou
le neurone dtat) numro k. Pour les pondrations nous avons :
j= Ne+N s+1 , ... , Ne+N s+N w et k=N e+N s+N w +1, ... , N e+2N s+N w +1.
Pour les coefficients directs, nous avons :
j=1, ... , Ne+N s et k=N e+N s+N w +1, ... , N e+2N s+N w +1.
Un terme constant sur le neurone linaire de la sortie que lon note
par c0.
Le nombre de composantes du vecteur est alors :
2N w (N e+N s)+(N s+1)(N e+N s+N w )+1.
n
On note par xk la variable dtat numro k en entre de la copie numro n du
rseau si k=N e+1, ... , N e+N s et en sortie de cette copie si k=N e+N s+N w +2, ... ,
74

Rseaux d'ondelettes fonds sur la transforme continue


N e+2N s+N w +1. La figure 14 montre larchitecture de la copie n. Notons que les
noeuds sont numrots dans lordre de 1 N e+2N s+N w +1 alors que les
ondelettes le sont de 1 N w.
Sortie
n

y =

Ns variables
n
xN +N +N +2
e
s
w

n
xN
e+Ns +Nw+1

. . . . .

....

..

w+1

....
xnN

xn1

xnN +2N +N

......

d'tat en sortie

xnN +1

Ne entres externes

xnN +N
e

Ns variables d'tat en entre

Figure 14. Illustration de la copie numro n du rseau dtat.


La sortie de la copie n du rseau a pour expression :
Ne+Ns

Nw
n

y = c, j+N +N j x +
avec x n =

j=1
x1n,x2n,

?
..., xN
+N
e

c,k xkn avec =Ne+Ns+Nw+1 et x0n=1

(56)

k=0

La variable dtat numro k en sortie du rseau est calcule partir de la relation


suivante :
Ne+Ns+Nw

xkn

Ne+Ns
n

ck, j j x +

j=Ne+Ns+1

ck, j xjn avec k = Ne+Ns+Nw+2 , ... , Ne+2Ns+Nw+1 (57)

j=1

Notons que nous avons omis les termes directs sur les neurones linaires dtat.
En effet, ces termes ont ici moins dimportance que pour le neurone linaire de
la sortie du rseau.
La variable dtat en entre est prise gale celle de la variable d'tat
correspondante en sortie de la copie prcdente. On peut crire pour la copie n :

xkn =

xkn1
+N +N
s

w+1

si n 2

0 si n = 1

avec k =Ne+1 , ... , Ne+Ns

(58)

75

Rseaux d'ondelettes fonds sur la transforme continue


V I.2.2 Calcul du gradient par rtropropagation.
De la mme faon que pour les rseaux de type entresortie boucls et
non boucls, nous devons calculer le gradient de la fonction de cot par rapport
au vecteur des paramtres. Lapprentissage est galement fond sur des
mthodes de gradient telles que celles prsentes au chapitre I de ce mmoire.
Les deux approches dj mentionnes (calcul du gradient par
rtropropagation travers les copies ou dans le sens direct) sont envisageables.
Nous les prsenterons toutes les deux. Seule la premire sera mise en uvre.
En effet, dans le cas des rseaux dtat, le calcul du gradient dans le sens direct
implique un volume de calculs plus important que le calcul par
rtropropagation. Ce dernier se divise en deux tapes :
calcul du gradient de la fonction de cot J par rapport la sortie et aux
variables dtat en entre et en sortie de chacune des N copies,
calcul du gradient de J par rapport au vecteur des paramtres.
V I.2.2.1 Calcul du gradient de J par rapport la sortie et aux variables dtat.
La

fonction

J() =

1
2

de

cot

ypn y n

utilise

pour

lapprentissage

est

toujours

n=1

On distingue trois calculs diffrents suivant quil sagit de la premire


copie, de la dernire ou des autres.
Pour la copie N , nous avons :
Pour la sortie :
J
y

= e

(59)

Pour les variables dtat en sortie, k=N e+N s+N w+2 , ... , N e+2N s+N w+1 :
J
(60)
=0
xkN
Pour les variables dtat en entre, k=N e+1 , ... , N e+N s :
Nw
c, N +N +j j(xN)
J yN
J
e
s
N
= N N = e c, k +
N
djk
zjk
y x
x
k

(61)

j=1

avec = Ne+N s+N w +1.


Pour les copies de n =N 1 2, nous avons :
Pour la sortie :
76

Rseaux d'ondelettes fonds sur la transforme continue


J
y

= en

(62)

Pour les variables dtat en sortie, k=Ne+N s+N w+2 , ... , N e+2N s+N w+1 :
J
J
(63)
=
n+1
xkn xkN
N 1
s

Pour les variables dtat en entre, k=N e+1 , ... , N e+N s :


Nw
c , N +N +j j(x n) Ne+2Ns+Nw+1
J y n
J
J
e
s
n
= n n = e c,k+
+
cj,k n

n
zjk
djk
xk y xk
xj
j=1
j=Ne+Ns+Nw+2

(64)

Pour la copie n=1, nous avons :


Pour la sortie :
J
y

= e1

(65)

Pour les variables dtat en sortie, k=N e+N s+N w+2 , ... , N e+2N s+N w+1 :
J
J
(66)
= 2
1
xk xkN N 1
s

Pour les variables dtat en entre, k=N e+1 , ... , N e+N s :


J
le calcul des
nest pas utile.
xk1
V I.2.2.2 Calcul du gradient de J par rapport aux paramtres du rseau.
Disposant des drives calcules prcdemment, il est prsent possible
de dterminer le gradient de la fonction de cot par rapport chacune des
composantes du vecteur des paramtres ajustables.
Pour les coefficients directs sur la sortie :
N
N
n
J
J y
n
=
= e xjn avec j = 1 , ... , Ne+Ns et = Ne+Ns+Nw+1 (67)
c j n=1 y n c n
n=1
j

Pour les coefficients directs sur les tats :


n
N
N
J
J xk
J
= n n = n xjn
ck ,j
n=1 xk ck ,j
n=1 xk

(68)

avec j = 1 , ... , Ne+Ns et k = Ne+Ns+Nw+2 , ... , Ne+2Ns+Nw+1


Pour les pondrations sur la sortie :

77

Rseaux d'ondelettes fonds sur la transforme continue


N

J
c ,j+N +N
e

yn cn

n=1

y n

,j+Ne+Ns

= e n j(xn)

(69)

n=1

avec j = 1 , ... , Nw et = Ne+Ns+Nw+1


Pour les pondrations sur les tats :
N

J
ck ,N +N +j
e

xn cn

n=1

xkn

xn j(xn)

n=1

k ,Ne+Ns+j

(70)

avec j = 1 , ... , Nw et k = Ne+Ns+Nw+2 , ... , Ne+2Ns+Nw+1


Pour le terme constant sur le neurone de sortie :
N
N
n
J
J y
n
=
= e
c0 n=1 y n c n
n=1

(71)

Pour les translations, j= 1, ... Nw et k=1 , ... , Ne+N s :

J
=
mjk

mn =

n=1

jk

n=1

J y n
n
yn mjk

l=Ne+2Ns+Nw+1

n
J xl

(72)

n
xln mjk

l=Ne+Ns+Nw+2

En remplaant les drives par leurs expressions (dj calcules), on obtient :


Ne+2Ns+Nw+1
n
N
N
c
j(x n)
J
J cl ,Ne+Ns+j j(x )
J
n ,Ne+Ns+j
(73)
=
=
e

xn d
zjk
zjk
m jk m n
djk
jk
n=1
n=1
l=Ne+Ns+Nw+2
jk
l
Enfin, une factorisation permet dallger cette expression :

J
=
mjk

mn =

n=1

jk

n=1

n
1 j(x )
c ,N +N +j e n
e
s
djk zjk

Ne+2Ns+Nw+1

cl ,N +N +j
e

l=Ne+Ns+Nw+2

J
xln

(74)

Pour les dilatations, j=1 , ... Nw et k=1 , ... , Ne+N s :

J
=
djk

dn =

n=1

jk

n=1

J yn
n
yn djk

Ne+2Ns+Nw+1

l=Ne+Ns+Nw+2

n
J xl

(75)

n
xln djk

En remplaant les drives par leurs expressions (dj calcules), on obtient :

J
=
djk

n
j(x n)
zjk

dn = d

n=1

jk

n=1

jk

zjk

Ne+2Ns+Nw+1
n

c ,N +N +j e
e

l=Ne+Ns+Nw+2

cl ,N +N +j
e

J
xln

(76)

78

Rseaux d'ondelettes fonds sur la transforme continue


V I.2.2.3 Commentaire sur le choix des variables dtat.
Lors de la conception dun modle dtat dun processus, il arrive que le
cahier de charges exige quune des composantes du vecteur dtat soit la sortie
du processus. Dans un tel cas, le calcul du gradient de J prsent ci-dessus se
trouve lgrement modifi. La principale modification apporter se situe au
niveau du calcul du gradient de J par rapport la sortie du rseau. Suivant la
notation adopte pour la prsentation des relations cidessus, si la sortie est
considre comme une variable dtat du modle, on la notera de la manire
suivante :
n
(77)
y n = xN
+N +N +1
e

La relation (64) devient dans ce cas :


J
J
= n
n
xN +N +N
y
e

= e n +

w+1

J
n+1
xN
+1

(78)

Remarquons que cette relation est trs semblable la relation (37) qui concerne
le calcul du gradient dans le cas dun rseau entresortie.
Nous prsentons en annexe de ce mmoire les modifications apporter
aux quations prcdentes (de 59 76). Le calcul du gradient expos dans cette
annexe permet aisment le passage dun modle o la sortie est une variable
dtat au cas o tous les tats sont indpendants de la sortie.
V I.2.3 Calcul du gradient dans le sens direct.
La motivation pour le calcul du gradient de la fonction cot dans le sens
direct est la mme que dans le cas de la modlisation entre-sortie : le calcul du
Hessien approch ncessite la connaissance de grandeurs qui ne sont pas
fournies par le calcul par rtropropagation.
y n
en prenant en considration toutes les copies est
Le principe du calcul de

donn par la relation (42). On considre le problme de l'valuation du second


membre de la relation (43) mais cette fois dans le cadre dun rseau dtat. On a :

y n
m

Ne+Ns

k=Ne+1

n
yn xk

xkn m

avec m < n

(79)

En faisant la sommation de toutes les quations de la forme de (79) pour m


allant de 1 n1, on obtient :
n-1

m=1

tant donn que nous avons

yn
m
xkn

Ne+Ns

yn
xkn

k=Ne+1
n1
= xk+N
s+Nw+1

n-1

m=1

xkn
m

(80)

, nous pouvons crire les galits

suivantes :
79

Rseaux d'ondelettes fonds sur la transforme continue


n1

m=1

xkn

n1
xk+N
+N

n1

w+1

m=1

n1
xk+N
+N

w+1

(81)

En injectant ce rsultat dans la relation (80), on aboutit :


n1

m=1

y n
m

Ne+Ns

k=Ne+1

n1
yn xk+Ns+Nw+1

xkn

(82)

Ce dernier rsultat aboutit lcriture de la relation qui nous permet de calculer


la drive de la sortie par rapport au vecteur :

y n

Ne+Ns

k=Ne+1

n1
yn xk+Ns+Nw+1

xkn

yn
n

(83)

Nous allons analyser sommairement la complexit de ce calcul.


y n
est la drive de la sortie par rapport au vecteur des paramtres de la mme
n
copie. Les diffrentes composantes de ce vecteur sont donnes par les relations
(20) (24).

y n
xkn

est la drive de la sortie par rapport une variable dtat en entre de la

mme copie. Le calcul est immdiat et est donn par la relation suivante :
Nw
c ,N +N +j j xn
y n
e
s
=
+ c ,k

djk
zjk
xkn j=1

(84)

o = Ne+N s+N w+1 est lindice du neurone de sortie.


n1
xk+N
+N
s

w+1

est plus dlicat valuer puisquil sagit dune quantit qui implique

le calcul des drives par rapport chacune des copies dindice infrieur ou gal.
tant donn que les variables dtats sont indpendantes de la sortie, il faut
trouver une relation rcurrente du type de (48) pour calculer chaque copie les
drives des tats par rapport aux paramtres de manire conomique. Par
analogie avec la relation (48), nous proposons la relation suivante :

xln1

Ne+Ns

k=Ne+1

n2
xln1 xk+Ns+Ne+1

xkn1

xln1
n1

(85)

avec n 2 et l = Ne+Ns+Nw+2 , ... , Ne+2Ns+Nw+1


En rsum, lalgorithme de calcul du Hessien approch laide des relations
prsentes ci-dessus est le suivant :
Pour n allant de 1 N faire :
Pour m allant de 1 N s faire :
80

Rseaux d'ondelettes fonds sur la transforme continue


Excution de la relation (85) en utilisant les rsultats de cette
mme relation ltape prcdente.
Fin de la boucle sur m.
Excution de la relation (83).
Fin de la boucle sur n.
Construction du Hessien approch partir de la relation (41).
Commentaire.
Les relations que nous venons d'tablir pour l'apprentissage de rseaux
d'ondelettes ncessitent un volume de calcul plus important que les relations
quivalentes relatives aux rseaux de neurones sigmodes.
Pour ltude des exemples prsents dans le chapitre V, nous avons mis
en uvre le calcul du gradient par rtropropagation. De ce fait, lapprentissage
de nos rseaux dtat ne peut se faire qu laide de lalgorithme de BFGS.
V I.2.4 Initialisation des paramtres du rseau.
Un problme intressant qui se pose est celui de linitialisation des
paramtres du rseau dondelettes dans le cas dune modlisation dtat.
Deux cas peuvent se prsenter : les tats sont mesurables,
les tats ne sont pas mesurables.
Dans le cas o les tats sont mesurables, la question peut tre rsolue de la
mme faon que dans le cas des rseaux pour la modlisation statique. En effet,
les domaines de toutes les entres tant connus (entres externes et tats), le
calcul des translations et des dilatations initiales est immdiat (suivant la
procdure propose).
Dans le cas o les tats ne sont pas mesurables, situation que nous avons
choisi dtudier dans nos exemples, le domaine des entres du rseau (plus
particulirement les tats) ne sont pas connus avant lapprentissage. Le calcul
des translations et des dilatations initiales est donc rendu dlicat.
Nous avons initialis ces paramtres en faisant lhypothse que les tats sont
dans un domaine de longueur comparable celui de la sortie et centr en zro.
En fait, le but de cette procdure et dviter une initialisation alatoire et de
placer les ondelettes initialement dans le domaine de la variable dentre. tant
donn que les coefficients des neurones dtat sont initialiss de petites
valeurs, cette condition est vrifie : en dbut dapprentissage, les valeurs des
tats sont lintrieur du support des ondelettes.

81

Rseaux d'ondelettes fonds sur la transforme continue


V II. LE PROBLME MATRELVE ET LES RSEAUX D'ONDELETTES.
Le problme dit matrelve consiste engendrer des donnes l'aide
d'un rseau de fonctions "matre" dont les poids sont fixs, puis retrouver ce
rseau par apprentissage d'un rseau "lve" qui possde la mme architecture.
Ainsi, on est assur que la fonction de rgression recherche (le rseau "matre")
fait partie de la famille de fonctions du modle (le rseau "lve"). L'intrt de
ce problme est qu'il permet de tester l'efficacit des algorithmes
d'apprentissage, et notamment d'valuer l'influence des minima locaux : e n
effet, si l'algorithme d'apprentissage converge en un temps raisonnable, et s'il
ne trouve pas un minimum local, le rseau obtenu aprs apprentissage doit tre
le rseau matre, aux erreurs d'arrondi prs.
Le systme dapprentissage pour un tel problme peut tre illustr de la
manire suivante :

Rseaux d'ondelettes
paramtres fixes

yp

Vecteur
des entres

e = y py
Rseaux d'ondelettes
paramtres ajustables

Figure 15. Systme dapprentissage pour le problme du matrelve.


Contrairement aux rseaux statiques prsents dans ce chapitre, on a
supprim la partie affine du rseau (sauf le terme constant sur le neurone
linaire de sortie que lon conserve). La relation (12) donnant lexpression de la
sortie du rseau est dans ce cas donne par :
Nw

y = cjj(x) + a0

(86)

j=1

Nous allons tout d'abord tablir le rsultat suivant : l'existence des m i n i m a


locaux de la fonction de cot ne dpend que de l'architecture du rseau matre,
et ne dpend pas de la valeur des paramtres de celui-ci. Nous prciserons
ensuite les conditions des expriences numriques que nous avons menes,
puis nous en dcrirons et commenterons les rsultats.

82

Rseaux d'ondelettes fonds sur la transforme continue


VII.1 Minima locaux de la fonction de cot.
Considrons un rseau matre ralisant la fonction f(x, 0), o x et 0 sont
les vecteurs des variables et des paramtres respectivement, et un rseau lve
f(x, ). La fonction de cot minimise pendant l'apprentissage est :
1
J=
2

f xn, 0 f xn,

(87)

n=1

o xn dsigne le vecteur des variables pour l'exemple n, et o N est le nombre


d'lments de l'ensemble d'apprentissage.
Le gradient de la fonction de cot a pour expression :
N
f xn,
J
=
(88)
f xn, 0 f xn,

n=1

Pour un minimum (local ou global), obtenu pour un vecteur de paramtres m,


on a donc :
N
f xn,
J
=
=0 .
(89)
f xn, 0 f xn, m
=

n=1

Supposons que l'on fasse varier le vecteur des paramtres du rseau matre, et
cherchons quelle variation il faut faire subir au vecteur m pour qu'il
corresponde toujours un minimum. Il suffit pour cela d'crire la diffrentielle
totale du gradient :

=
= m

f xn,

n=1

f xn, 0 f xn, m

On peut donc crire :


d m
d 0

f xn,

2 f xn,

n=1

f xn,

f xn,

d 0 +
= m

n=1

= 0

f xn, 0 f xn, m

(90)

d m = 0 .

f xn,
= 0

2 f xn,

= m

= m

f xn,

(91)

= m

sous rserve que le dnominateur ne soit pas nul (il est nul si la fonction f est
constante).

83

Rseaux d'ondelettes fonds sur la transforme continue


l

Pour les paramtres dont f dpend linairement, on a d m / d 0 = 1. Si le


modle est linaire par rapport tous les paramtres, il y a videmment un seul
minimum m = 0 .
Ainsi, si l'on connat les minima de la fonction de cot pour une valeur donne
0 des paramtres du rseau matre et pour un ensemble d'apprentissage donn,
on peut, en principe, en dduire, par intgration de l'quation (91), les valeurs
des minima pour toute autre valeur des paramtres du rseau matre. Changer
les valeurs des paramtres du rseau matre ne change donc pas le nombre de
minima locaux, mais seulement leur position dans l'espace des paramtres.
En consquence, pour tudier l'influence des minima locaux sur
l'apprentissage, nous choisirons, pour une architecture donne, une seule
valeur des paramtres.
VII.2 Choix de la squence dapprentissage.
Pour quun apprentissage soit efficace, il est ncessaire que la squence
dapprentissage soit suffisamment riche pour reprsenter le comportement du
processus. Dautre part, le nombre dexemples constituant la squence doit tre
trs suprieur celui des paramtres ajustables. Le rseau le plus volumineux
que nous ayons considr est constitu de 5 entres et de 5 ondelettes, soit 56
paramtres.
Pour tous les exemples tudis, nous avons considr une squence
dapprentissage forme par 2000 exemples. Nous faisons lhypothse que cette
squence reprsente suffisamment le processus (rseau matre) apprendre dans
le domaine des entres choisi.
VII.3 Choix du domaine des entres et des paramtres du rseau matre.
La question du choix du domaine des entres est trs importante
puisquelle dtermine le domaine dans lequel on veut modliser le processus.
Dans le cas de rseaux dondelettes, ce choix est trs li celui des
paramtres du rseau matre. En effet, si l'on fait un choix pour le domaine des
entres, il faut choisir les paramtres du rseau matre de telle manire que les
supports des ondelettes aient une intersection non nulle avec ces domaines.
Sinon, la sortie yp sera partout nulle.
Nous avons choisi pour les entres des valeurs alatoires suivant une
distribution gaussienne centre rduite (de moyenne nulle et de variance 1).
Une analyse simple des entres obtenues montre quelles sont toutes comprises
dans un intervalle que lon peut encadrer par [4, 4]. Cette information est utile
pour le choix des paramtres du rseau matre, comme nous le verrons dans le
paragraphe suivant.
84

Rseaux d'ondelettes fonds sur la transforme continue


On choisit les translations des ondelettes du rseau matre de manire alatoire
(suivant une distribution uniforme) dans le domaine des entres. Les
dilatations sont galement choisies de manire uniformment distribue mais
cette fois-ci dans le domaine [0.6, 2.6]. Cet intervalle est centr autour de la
0.6 + 2.6
valeur
= 1.6 . Or, en reprenant la procdure dinitialisation utilise pour
2
lapprentissage des rseaux dondelettes, on peut remarquer que cette valeur est
celle des dilatations initiales (tant donn lintervalle [4, 4]). Ce choix est
motiv par le fait quil correspond des ondelettes dont les supports sont de
lordre de la longueur de lintervalle comprenant les entres (c'est--dire [4, 4]).
VII.4 Choix de lalgorithme et de linitialisation du rseau.
Comme nous l'avons indiqu plus haut, nous avons le choix entre
lalgorithme de BFGS et celui de LevenbergMarquardt, afin d'viter
d'introduire, comme paramtre supplmentaire de notre tude, le nombre
d'itrations de gradient simple effectuer avant le dmarrage de l'algorithme
du second ordre.
Linitialisation du rseau seffectue sur la base de la procdure prsente
au paragraphe IV.2 de ce chapitre. tant donn que les termes directs ont t
retirs (voir relation 86), seules les pondrations des ondelettes et le terme
constant sur le neurone linaire de sortie sont initialiss de manire alatoire.
VII.5 Approche adopte pour ltude du problme.
On se propose dtudier les performances des rseaux dondelettes sur le
problme matrelve en prenant en considration linfluence du nombre des
entres et du nombre dondelettes dans la couche cache.
Pour chaque architecture, nous choisissons un vecteur de paramtres
pour le rseau matre, et nous effectuons vingt apprentissages avec vingt
initialisations diffrentes pour les pondrations. Nous estimons quun
apprentissage est un succs lorsque le vecteur des paramtres trouv correspond
exactement celui du rseau matre (aux erreurs d'arrondi prs).
VII.6 Rsultats et commentaires.
Le tableau 10 prsente, pour chaque architecture utilise (caractrise par
le nombre d'entres et le nombre d'ondelettes), le nombre d'apprentissages
effectus avec succs avec un ensemble d'apprentissage constitu d'exemples
pour lesquels les entres suivent une loi gaussienne centre rduite.

85

Rseaux d'ondelettes fonds sur la transforme continue

Nombre d'entres

Nombre d'ondelettes
1

20

20

20

20

20

20

20

16

20

20

Tableau 10. Rsultats du problme matrelve sur les rseaux dondelettes.


On observe que, au-del de 3 entres et 3 ondelettes, il devient pratiquement
impossible de retrouver le rseau matre : l'apprentissage aboutit des minima
locaux de la fonction de cot. Les rsultats obtenus avec d'autres distributions
des entres sont tout--fait analogues. Pour les rseaux sigmodes, des
expriences similaires ont montr que, au contraire, la probabilit de succs est
d'autant plus grande que le rseau est plus grand [Stoppi97]. Les minima locaux
semblent donc tre plus gnants pour l'apprentissage des rseaux d'ondelettes
que pour celui des rseaux de neurones. Il faut noter nanmoins que, dans u n
problme pratique, les donnes sont toujours entaches de bruit : on ne cherche
donc pas annuler l'erreur comme dans le cas du problme matre-lve, mais
trouver un minimum tel que la variance de l'erreur de modlisation soit
gale celle du bruit.
V III. CONCLUSION.
Dans ce chapitre, nous avons prsent la modlisation statique et
dynamique de processus laide de rseaux dondelettes fonds sur la
transforme en ondelette continue. Nous avons montr que les ondelettes
peuvent tre considres comme des fonctions paramtres ( paramtres
continus), et qu'une combinaison linaire d'ondelettes dont les centres et les
dilatations sont ajustables peut, au mme titre qu'un rseau de neurones,
86

Rseaux d'ondelettes fonds sur la transforme continue


constituer un modle non linaire de processus. Les paramtres de ce modle
peuvent tre estims partir d'observations, de telle manire que la sortie du
modle approche la fonction de rgression de la grandeur modliser.
La sortie du modle n'tant pas linaire par rapport aux dilatations et aux
translations, l'estimation des paramtres doit tre effectue l'aide
d'algorithmes itratifs. Les ondelettes tant locales, le problme de
l'initialisation des dilatations et translations est trs important. Nous avons
propos une procdure dinitialisation simple qui prend en considration cette
proprit.
Nous avons galement montr que les rseaux d'ondelettes peuvent tre
utiliss pour la modlisation dynamique de processus, et peuvent constituer soit
des modles entre-sortie, soit des modles d'tat. Pour ces deux types de
modles, nous avons tabli les procdures de calcul du gradient, par
rtropropagation et dans le sens direct. Les expressions obtenues nous ont
montr que la complexit des calculs est plus importante que dans le cas de
rseaux fonctions dorsales.
Enfin, nous avons prsent une tude du problme "matre-lve" pour
des rseaux d'ondelettes. Nous avons prouv que, dans un tel cas, le nombre de
minima ne dpend pas de la valeur des paramtres du rseau matre, mais
seulement de son architecture et de l'ensemble d'apprentissage. Les rsultats
obtenus montrent que le nombre de minima locaux de la fonction de cot crot
rapidement avec le nombre d'ondelettes et avec le nombre de variables du
modle. Nous prsenterons dans le chapitre V des exemples de modlisation
dynamique l'aide de rseaux d'ondelettes.

87

CHAPITRE IV
Rseaux dondelettes
(approche fonde sur la transforme discrte)

Rseaux d'ondelettes fonds sur la transforme discrte

I. INTRODUCTION.
Dans le chapitre prcdent, nous avons prsent des procdures
dapprentissage pour des rseaux dondelettes fonds sur la transforme e n
ondelettes continue. Lapplication de ces procdures est possible, car les
paramtres des fonctions (et en particulier ceux des fonctions ondelettes) sont
choisis de manire continue dans lensemble des rels.
Dans le prsent chapitre, nous proposons des procdures de construction
de rseaux dondelettes dont les paramtres sont valeurs discrtes. On utilise
donc ici la transforme en ondelettes discrte.
Nous prsenterons tout d'abord le principe de la transforme en ondelettes
discrte. Nous examinerons ensuite les mthodes que lon peut mettre en uvre
pour la construction de rseaux dondelettes paramtres discrets pour la
modlisation de processus. Nous verrons que, comme on peut le prvoir, cette
restriction donne moins de souplesse dans le choix dun modle que lapproche
fonde sur la transforme continue ; de plus, pour des raisons inhrentes aux
techniques utilises, certains modles-hypothses possibles avec la transforme
en ondelettes continue ne sont pas envisageables dans un contexte de
transforme discrte.
Comme pour les ondelettes paramtres continus, nous proposerons dans
ce chapitre une procdure dinitialisation utilisant la transforme discrte.
Lapprentissage sera ensuite effectu suivant les algorithmes prsents dans le
chapitre prcdent. Ainsi, les deux approches jouent un rle complmentaire
pour la construction dun rseau dondelettes.
II. RSEAUX ISSUS SUR LA TRANSFORME EN ONDELETTES DISCRTE.
Une transforme en ondelettes est dite discrte lorsque les valeurs des
(translations et des dilatations) sont valeurs discrtes (pas ncessairement
entires).
Soit une ondelette mre (qui peut tre la mme que celle utilise pour la
transforme continue). Une famille de fonctions obtenue partir de peut tre
exprime de la manire suivante :
(1)
, , x = m/2 m x n , m, n Z2
o Z est lensemble des entiers relatifs. Notons que et sont des paramtres
rels fixes qui dfinissent, avec , la famille : dtermine lchelle des
dilatations et dtermine le pas des translations.
Une famille d'ondelettes est donc entirement connue par la donne du triplet
(, , ). Un membre de cette famille (cest--dire une fonction) est dsigne par le

89

Rseaux d'ondelettes fonds sur la transforme discrte


couple (m, n). Pour cette raison, on dsignera dornavant une ondelette de la
famille de ayant comme paramtres (m, n) par: m,n x .
Suivant la relation (1), nous avons :
(2)
m, n x = m / 2 m x n
qui peut tre rcrite de la manire suivante :

m, n x = m / 2

x n m

(3)

Cette relation est la mme que la relation (1) du chapitre prcdent, qui donne
lexpression dune ondelette dans un contexte de transforme continue, avec :
Translation : mj = n m
Dilatation :

dj = m

Ces relations montrent que la translation dpend de la dilatation, alors que ces
quantits sont indpendantes dans le cas de la transforme continue.
II.1 Structures obliques et bases dondelettes orthonormales.
II.1.1 Ondelettes variables continues.
Il a t dmontr dans [Daubechies92] quune famille dondelettes m,n(x)
comme celles dcrites plus haut possde la proprit de structure oblique de
2
lensemble L (R).
Rappelons cette proprit (dj cite pour la transforme continue) : tant donn
une fonction f de carr sommable, il existe deux constantes c et C positives et de
valeurs finies telles que lingalit suivante soit vrifie :
c f

<m,n, f>

C f

(4)

m, n

Les valeurs de ces deux constantes (dites "limites de la structure oblique")


donnent une indication sur la qualit de lapproximation de la fonction f par la
famille dondelettes [Zhang92] : en particulier, pour une somme finie
dlments de , plus ces constantes sont proches de 1, meilleure est la qualit de
lapproximation.
A partir des structures obliques, on dfinit les structures obliques troites
(tight frames en anglais) de la manire suivante [Pati93] :
(a) Une structure oblique ayant des limites gales (cest--dire c = C) est
dite une structure oblique troite.
(b) Une structure oblique troite dont les lments sont norms et ayant
c = C = 1 est une base orthonormale.

90

Rseaux d'ondelettes fonds sur la transforme discrte


Nous allons maintenant prsenter un exemple d'une famille d'ondelettes qui
constitue une base de fonctions orthogonales.
Avec = 2, = 1 et un choix adquat de londelette mre (cest--dire de ) il est
possible de construire une base dondelettes orthonormales. Elle peut sexprimer
de la faon suivante :

2, 1 = 2 m / 2 2 m x n , m, n Z 2

(5)

Les translations et les dilatations peuvent tre obtenues en utilisant la rcriture


de la relation (3).
La famille dondelettes orthonormales la plus connue est une base appele
Systme de Haar.
Londelette mre est une fonction dfinie par morceaux :

(x) =

1
1 si x [0, [
2
1
1 si x [ , 1]
2

(6)

0 ailleurs

La figure 1 illustre trois ondelettes de cette famille :


(figure 1.a)

0,0(x) = (x)
2

1,0(x) =

2
2

1,1(x) =

x
2

(figure 1.b)

x2
2

(figure 1.c)

Notons que le centre de la fonction (cest--dire le paramtre de translation) nest


pas le centre de symtrie du graphe de la fonction mais la limite gauche de la
partie non nulle de la fonction. Par exemple pour londelette mre, le paramtre
1
de translation est gal 0 et non pas .
2
1.5

1.5

0.5

0.5

-0.5

-0.5

-1

-1

-1.5
-1

(a)

-1.5
-1

(b)
91

Rseaux d'ondelettes fonds sur la transforme discrte


1.5
1
0.5
0
-0.5
-1
-1.5
-1

(c)
Figure 1. Trois ondelettes du Systme de Haar.
On peut facilement vrifier que ces fonctions possdent bien la proprit
dorthogonalit.
La norme dune fonction tant son carr scalaire, elle est gale ici
m, n, m, n = m m = 1 . Le systme de Haar est donc une famille dondelettes
orthonormales.
Le systme de Haar est lune des rares familles orthonormales (dont
londelette mre possde une expression simple) que lon peut trouver dans la
littrature. Ceci est principalement d la difficult du choix de londelette mre.
II.1.2 Ondelettes variables discrtes.
Dans tout ce qui prcde, nous avons considr l'orthogonalit de
fonctions de variables continues, avec le produit scalaire dfini par la relation (7).
Dans le cas l'une des fonctions du produit scalaire est connue en un nombre fini
de points (typiquement pour un problme dapproximation de fonction) la
relation (7) devient une sommation discrte :
N

m, n, m' ,n' =

m, n

x i m', n' x i

(8)

i=1
xi A

o A dsigne lensemble des points et N leur nombre. Le produit scalaire de deux


fonctions, donc leur ventuelle orthogonalit, dpend ainsi du choix des points
de A. Il est facile de vrifier (par exemple sur le systme de Haar) quun choix
quelconque du nombre de points et de leur distribution ne conduit pas la
conservation de lorthogonalit.
Par exemple, dans [Yang96], des familles de fonctions orthogonales sont utilises
pour lapproximation de fonctions. Les squences de donnes caractrisant les
fonctions sont constitues dun nombre impair de points rgulirement espacs.
Ces deux prcautions ont t prises afin de prserver lorthogonalit des
fonctions utilises.
92

Rseaux d'ondelettes fonds sur la transforme discrte


Dautre part, dans [Zhang95], une famille dondelettes orthogonales (dont
londelette mre nest pas prcise) est utilise. Londelette mre appartient la
famille de Daubechies. Les points de lensemble dapprentissage sont
uniformment rpartis. Cette dmarche se justifie par la quasi-orthogonalit des
ondelettes.
Lorsque l'on cherche approcher une fonction connue, dont on peut
calculer numriquement la valeur en n'importe quel point, la restriction
concernant le choix des points de l'ensemble A n'est pas gnante. En revanche,
lorsque l'on veut modliser un processus (c'est--dire approcher une fonction de
rgression hypothtique et inconnue), le choix des points d'chantillonnage est
rarement libre : le concepteur du modle ne dispose souvent que dune base de
donnes existante (par exemple des donnes conomiques relatives des annes
coules), ou bien le choix des mesures peut tre contraint par les conditions
normales de fonctionnement du processus, que le modlisateur n'a pas le droit
de modifier librement (par exemple pour la modlisation d'un processus
industriel oprationnel).
II.1.3 Choix de l'ondelette mre.
Comme nous l'avons soulign plus haut dans ce paragraphe, la proprit
dorthogonalit est obtenue par un bon choix des paramtres et mais aussi de
londelette mre . En effet, toute ondelette mre ne permet pas la construction
de bases orthonormales.
Le systme de Haar constitue une base de fonctions orthogonales, mais ces
fonctions ne sont pas rgulires1 , ce qui rend leur utilisation malaise en tant
qu'approximateurs. En effet, que ce soit en approximation de fonction ou e n
modlisation de processus, on utilise des familles de fonctions rgulires.
Comme il est soulign dans [Cohen96], un des objectifs de la thorie des
bases dondelettes est la construction de systmes ayant les mmes proprits que
le systme de Haar, mais dont londelette mre serait rgulire. Ceci permettrait
ainsi lutilisation de ces bases pour rsoudre des problmes dapproximation de
fonctions. Pour construire de manire systmatique des ondelettes orthogonales,
il convient de gnraliser le principe de lapproximation multirsolution celui
de lanalyse multirsolution [Meyer90]. Plusieurs mathmaticiens se sont
penchs sur la construction dondelettes orthogonales sappuyant sur la thorie
de la multirsolution. Les premires ont t proposes par [Meyer85].

La notion de rgularit dune ondelette ou plus gnralement dune fonction est lie ses proprits

de drivabilit. Une ondelette est dite rgulire si elle est drivable et sa drive continue.

93

Rseaux d'ondelettes fonds sur la transforme discrte


Malheureusement, ces ondelettes mres orthogonales ne possdent pas
dexpression analytique simple, ce qui rend difficile lutilisation de ces fonctions
pour des problmes dapproximation de fonctions. On se contentera donc, dans la
suite de cette tude, de faire appel uniquement des familles dondelettes
constituant des structures obliques et particulirement des structures obliques
troites, plutt qu des bases orthonormales.
Les structures obliques peuvent tre considres comme des bases
dondelettes redondantes. Leur principal inconvnient, par rapport des bases
orthonormales proprement dites, rside dans la perte de lunicit de la
reprsentation dune fonction et la signification que peut avoir la pondration
dans le cas dondelettes orthogonales.
Dans la suite de ce chapitre, nous allons nous intresser aux familles
dondelettes issues de la transforme discrte en tant quoutil pour la
modlisation de processus, en dfinissant des rseaux dondelettes fonds sur la
transforme discrte.
II.2 Rseaux fonds sur la transforme discrte.
La transformation en ondelettes discrte, lorsquelle est effectue de
manire approprie (choix adquat de la discrtisation des paramtres de
translation et de dilatation comme dcrit ci-dessus), alors la transformation
inverse existe.
2
De ce fait, toute fonction f de L (R) peut tre reprsente comme une
somme des lments dune base orthonormale ou dune structure oblique
dondelettes (comme celles dcrites plus haut dans ce chapitre) suivant la
relation:
(10)
f(x) = cmn m, n(x)
m,n Z2

Nous dfinissons un rseau dondelettes fond sur la transforme e n


ondelettes discrte comme une somme finie de la forme de la relation (10),
laquelle on ajoute des termes directs.
La sortie dun tel rseau est donc donne par la relation suivante :
Nw

y = (x) =

Ni

cj j(x) + ak xk

j=1

(11)

k=0

o N w est le nombre dondelettes et N i le nombre dentres. j(x) est une


ondelette multidimensionnelle obtenue par produit de toutes les ondelettes
suivant chacune des entres..
Ces rseaux sont, du point de vue de leur structure, identiques ceux
dfinis avec la transforme continue. La principale diffrence rside dans les
mthodes de dtermination des translations et des dilatations.
94

Rseaux d'ondelettes fonds sur la transforme discrte


III. TECHNIQUES DE CONSTRUCTION DE RSEAUX DONDELETTES.
III.1 Impossibilit dutiliser les techniques de gradient.
Larchitecture des rseaux dondelettes fonds sur la transforme discrte
ayant t dfinie, nous nous posons la question de la construction dun modle,
constitu d'un rseau d'ondelettes, d'un processus donn. Comme
prcdemment, nous considrons que les seules connaissances sur le processus
modliser sont constitues dune (ou plusieurs) squence(s) dentres et de sorties
mesures (si le processus est rel). Les paramtres dterminer pour la
construction du rseau sont
le nombre dondelettes ncessaires pour atteindre une performance voulue,
les valeurs donner aux diffrents paramtres du rseau : paramtres
structurels, pondrations des ondelettes et termes directs.
Comme dans toute mthode de modlisation par des fonctions paramtres, la
difficult essentielle rside dans la dtermination des paramtres du rseau.
Ceux-ci prenant des valeurs discrtes, la minimisation dun cot utilisant le
gradient nest pas envisageable. En revanche, on peut tirer profit du fait que les
paramtres prennent des valeurs discrtes pour concevoir des mthodes de
slection des ondelettes dans un ensemble (bibliothque) d'ondelettes discrtes.
La performance du modle ainsi conu dpend du choix initial des ondelettes de
la bibliothque, et d'une slection judicieuse dans cette bibliothque.
III.2 Diffrentes approches pour construire un rseau dondelettes fond sur la
transforme discrte.
Contrairement aux techniques de gradient qui ne tirent pas parti des
proprits des ondelettes, des techniques qui utilisent les proprits de ces
fonctions et particulirement le rle de leurs paramtres structurels sont ici
envisageables. Dans ce paragraphe, nous allons passer en revue les diffrentes
techniques qui ont t proposes pour construire des rseaux dondelettes partir
de lensemble dapprentissage. Pour chacune de ces techniques, nous prciserons
les avantages et les inconvnients de chacune d'elles, dans la perspective de la
mise au point d'une mthode simple appliquer et peu coteuse en temps de
calcul. On distingue deux classes de techniques, selon quelles utilisent ou n o n
une procdure de slection.
III.2.1 Approches nutilisant pas de procdure de slection.
III.2.1.1 Technique fonde sur lanalyse frquentielle.
Cette technique a t propose dans [Pati93]. Elle repose sur lestimation du
spectre dnergie de la fonction approcher. Le domaine de frquence contenant
95

Rseaux d'ondelettes fonds sur la transforme discrte


le spectre dnergie tant connu (il est obtenu en calculant la transforme de
Fourier de la fonction approcher), ainsi que le domaine des amplitudes des
variables d'entres couvert par la squence dexemples, on peut alors dterminer
les ondelettes correspondant ce domaine amplitudefrquence.
Cette technique prsente lavantage de tirer parti des proprits de localit
des ondelettes dans les domaines spatial et frquentiel. En revanche, elles
prsentent un inconvnient majeur, notamment pour les modles multivariables : le volume de calcul ncessaire lestimation du spectre de frquence.
III.2.1.2 Technique fonde sur la thorie des ondelettes orthogonales.
Cette approche utilisant des bases dondelettes orthogonales a t propose
dans [Zhang95]. tant donn le domaine des amplitudes des entres de
lensemble dapprentissage, on choisit les ondelettes ayant leur centre
lintrieur de ce domaine. Le nombre de dilatations diffrentes considrer
dpend de la performance dsire.
Cette technique prsente lavantage de mettre profit la proprit
dorthogonalit des ondelettes. En revanche, sa mise en uvre est malaise, car,
si l'on excepte le systme de Haar (prsent plus haut dans ce chapitre), on n e
connat pas, ce jour, dexpression analytique simple pour les ondelettes mres
qui engendrent des familles de fonctions orthogonales. Dans un contexte de
modlisation de processus, o la simplicit des fonctions utilises et la
parcimonie du rseau sont recherches, cet inconvnient rend cette technique
peu efficace.
III.2.1.3 Rseaux dondelettes pour un systme adaptatif.
Cette technique a t propose dans [Cannon95] pour la construction de
rseaux dondelettes en vue de leur utilisation dans un systme adaptatif de
commande.
Une bibliothque dondelettes est construite en considrant le domaine des
valeurs des variables dtat du modle. Le paramtre du triplet (, , ), qui
dtermine lchelle des dilatations, est estim en utilisant le spectre dnergie de
la fonction approcher. Le rseau est constitu dondelettes de la bibliothque
slectionnes et pondres priodiquement. Les pondrations des ondelettes sont
compares un seuil. Une fonction est garde ou exclue du rseau suivant que sa
pondration est suprieure ou infrieure ce seuil.
Cette technique de construction de rseaux dondelettes peut tre utilise
indiffremment pour la construction de modles statiques ou dynamiques. Elle
prsente linconvnient de ncessiter lestimation du spectre dnergie de la
fonction approcher.

96

Rseaux d'ondelettes fonds sur la transforme discrte


III.2.2 Approches utilisant une procdure de slection.
III.2.2.1 Technique fonde sur la construction de structures obliques troites.
tant donn les limites thoriques auxquelles on se heurte pour la
construction de rseaux dondelettes orthogonales (il nexiste pas dexpression
analytique simple pour des ondelettes mres engendrant des bases
orthonormales), on se propose ici dutiliser des structures obliques. La question
qui se pose alors est le choix des paramtres et . Pour viter le calcul du spectre
dnergie de la fonction approcher, on construit la bibliothque laide dune
structure oblique troite. Les paramtres et sont alors respectivement gaux
2 et 1 [Juditsky94, Zhang97].
La bibliothque est construite avec quatre ou cinq dilatations diffrentes.
Londelette la plus large est celle dont le support a la taille du domaine des
exemples. Les ondelettes retenues sont celles dont les centres sont lintrieur de
ce domaine. Une mthode de slection constructive ou destructive est ensuite
applique aux ondelettes retenues dans la bibliothque pour dterminer celles
qui sont les plus significatives pour modliser le processus tudi.
Dans [Zhang93, Zhang97], on propose dappliquer une premire rduction
de la bibliothque en liminant les ondelettes comportant peu ou pas dexemples
sur leurs supports. Ces situations sont particulirement frquentes pour des
modles plusieurs entres o les exemples ne sont pas rpartis de manire
uniforme.
Cette technique prsente lavantage de procder une construction de la
bibliothque de manire simple, qui ncessite peu de calculs.
IV . PROPOSITION DUNE PROCDURE DE CONSTRUCTION DE RSEAUX ET
D'INITIALISATION DE L'APPRENTISSAGE.
Dans ce paragraphe, nous proposons une mthode de slection
d'ondelettes que nous mettons en uvre
pour la construction de rseaux d'ondelettes fonds sur la transforme
discrte,
pour l'initialisation, avant apprentissage, des translations et des dilatations de
rseaux d'ondelettes fonds sur la transforme continue.
Dans les deux cas, la premire tape consiste en la construction de la
bibliothque des ondelettes qui sont soumises la procdure de slection.
Ltape de la construction de la bibliothque est fonde sur la thorie des
structures obliques troites dondelettes. Elle est donc semblable celle prsente
dans [Zhang97] except par le fait que, contrairement aux rseaux prsents dans

97

Rseaux d'ondelettes fonds sur la transforme discrte


cette rfrence, chaque ondelette a des dilatations diffrentes suivant diffrentes
entres.
Ce choix prsente lavantage denrichir la bibliothque, et dobtenir une
meilleure performance pour un nombre de fonctions donn. Linconvnient
introduit par ce choix concerne la taille de la bibliothque. Une bibliothque
dondelettes ayant des dilatations diffrentes pour chaque entre est plus
volumineuse que celle dont les ondelettes possdent la mme dilatation suivant
toutes les entres. Ceci implique un cot de calcul plus lev pendant ltape de
slection. Nanmoins, la slection d'ondelettes est souvent plus courte que
l'apprentissage des dilatations et translations par les techniques de gradient
utilises pour les ondelettes paramtres continus ; le cot supplmentaire
introduit par des dilatations diffrentes peut donc tre acceptable.
Dans ce qui suit, nous exposerons successivement la construction de la
bibliothque, la slection des ondelettes dans cette bibliothque, puis les
procdures de construction et d'initialisation. On insistera particulirement sur
ltape de construction de la bibliothque. En effet, dans la littrature, la
description des dtails pratiques de cette tape est trs rarement aborde en dtail.
IV.1 Description de la procdure de construction de la bibliothque.
Rappelons que l'on se propose de construire une bibliothque dondelettes
candidates pour la modlisation dun processus. On dispose dune squence
dexemples rpartis dans lintervalle [a, b]. On considrera d'abord un modle
une seule entre. La gnralisation pour un modle N i entres sera dcrite au
paragraphe IV.1.2.
IV .1.1 Famille engendrant la bibliothque pour un modle une entre.
Rappelons que la bibliothque est engendre partir de la famille
suivante :

, = m/2 mx n , m, n Z 2

(12)
tant donn que la construction est fonde sur une structure oblique troite,
nous avons = 2 et = 1.
Une ondelette de cette famille avec les paramtres m et n sexprime e n
fonction de londelette mre de la faon suivante :

m, n(x) = 2

m/2

x2
2
-m

-m

(13)

-m
-m

Cest donc une ondelette ayant pour centre 2 n et pour dilatation 2 .


Choix des dilatations.
Plus m est grand, plus le nombre dondelettes ncessaires est grand. Pour
des raisons de taille de la bibliothque, on se limite trois dilatations successives
98

Rseaux d'ondelettes fonds sur la transforme discrte


(cest--dire trois valeurs entires successives du paramtre m ). Il suffit donc de
choisir la plus grande dilatation, ou la plus petite, pour que les deux autres soient
dtermines.
Pour londelette mre que nous utilisons dans nos exemples x =xe

x2
2

, la

valeur de la dilatation assurant que londelette, centre au milieu de lintervalle


a+b
(en
), ait sa partie utile aussi large que le domaine [a, b] est : 0,2(b a). Cette
2
valeur de la dilatation est obtenue en estimant que la partie utile de londelette
concide avec le domaine o la sortie de londelette est suprieure 0.1 o u
infrieure 0.1. Elle est solution dune quation non algbrique donne par :
1 ba
exp
2 2d
2d

ba

= 0.1 .

Notons que cette proprit a t utilise dans le chapitre prcdent pour


linitialisation des rseaux fonds sur la transforme continue. On considre que
cette valeur est celle de la plus grande dilatation. Les dilatations suivantes sont
donc plus petites. Ceci peut se traduire par la relation suivante :
m
(14)
2 0.2 b a ,
ce qui est quivalent :
m

Log 0.2 b a

(15)

Log 2

m est entier, alors que le second membre de cette ingalit ne lest probablement
pas. En pratique, la plus petite valeur de m considrer (elle correspond la plus
grande dilatation) sera :
Log 0.2 b a
(16)

+1
Log 2
o loprateur [ ] dsigne la fonction partie entire.
Les trois valeurs du paramtre m que lon utilise pour la construction de la
bibliothque sont donc :

Log 0.2 b a
Log 2

+ 1,

Log 0.2 b a
Log 2

+ 2,

Log 0.2 b a
Log 2

+3

(17)

Choix des translations.


Pour une dilatation donne, on retient dans la bibliothque toutes les
ondelettes dont les centres sont lintrieur du domaine [a, b]. Pour une valeur
de m donne, cette condition peut sexprimer de la manire suivante :
a 2 m n b
(18)
tant donn que lon cherche ici dterminer les valeurs possibles pour n, la
condition prcdente est quivalente :
99

Rseaux d'ondelettes fonds sur la transforme discrte


(19)
2ma n 2mb
L aussi, tant donn que n est un nombre entier, les valeurs possibles sont (avec
[ ] loprateur partie entire) :
(20)
2 ma +1, 2ma +2 , ... , 2mb
En pratique, chaque fois que m est augment dune unit, le nombre dondelettes
ajoutes par m +1 la bibliothque est double de celui apport par m . La
bibliothque est donc construite suivant un schma pyramidal.
IV .1.2 Cas des bibliothques pour modles plusieurs entres.
Dans le cas dun problme multidimensionnel, ce calcul est effectu pour
chacune des entres. tant donn quune ondelette multidimensionnelle est le
produit des ondelettes scalaires, le cardinal de la bibliothque est gal au produit
du nombre dondelettes suivant chacune des entres.
IV.2 La mthode de slection.
La bibliothque tant construite, une mthode de slection est ensuite
applique afin de dterminer les ondelettes les plus significatives pour modliser
le processus considr.
Soit M w le nombre dlments dans la bibliothque et N w le nombre
dondelettes dans le rseau. Pour slectionner les N w ondelettes qui permettent
de constituer le modle dont l'EQMA est la plus faible possible, lidal serait de
calculer les EQMA obtenues avec tous les sousensembles de cardinal N w quon
peut former partir dun ensemble de cardinal M w. Ce nombre de sous
ensembles est gnralement trs grand. De ce fait, on a recours une mthode de
slection qui prsente un moindre cot du point de vue du volume de calculs
ncessaires.
La technique de slection quon utilise effectue un classement des
ondelettes de la bibliothque sur la base de la procdure dorthogonalisation de
GramSchmidt. Cette procdure est propose dans plusieurs rfrences. Citons
parmi elles [Chen89, Zhang93] dans le cadre de la construction de rseaux
dondelettes, et aussi [Urbani95] dans un contexte de slection darchitectures
neuronales.
IV .2.1 Principe de la mthode de slection par orthogonalisation.
Soit une squence dapprentissage forme de N exemples. On considre
une bibliothque contenant M W ondelettes candidates. A chaque ondelette j o n
associe un vecteur dont les composantes sont les valeurs de cette fonction
suivant les exemples de la squence dapprentissage. On constitue ainsi une
matrice P dont lexpression est :

100

Rseaux d'ondelettes fonds sur la transforme discrte

P=

1 x1

2 x1

1 x2

2 x2

Mw x1

1 x3

1 xN

2 xN

Mw xN

On peut lcrire de la faon suivante :


P = p 1 p2

pM w

(21)
(22)

Avec

pi = i x1 i x2

i xN

avec i = 1 , ... , Mw

(23)

Les vecteurs p i sont gnralement linairement indpendants, (car N >> M W ) et


non orthogonaux.
Les vecteurs p i engendrent donc un sous-espace vectoriel de dimension
M W . On estime que ces M W vecteurs sont suffisants pour expliquer la sortie du
processus modliser avec une prcision satisfaisante. En dautres termes, la
projection du vecteur des sorties du processus Yp dans cette espace correspond
une modlisation satisfaisante. La procdure de slection consiste, en premier
lieu, classer les entres par ordre de "pertinence" dcroissante. Pour cela, o n
dtermine, chaque tape, londelette qui a la plus grande projection sur la partie
du vecteur des sorties qui n'est pas explique par les entres prcdemment
classes. La figure suivante propose une interprtation gomtrique de cette
procdure pour un exemple de dimension 2 (les ondelettes sont reprsentes par
des vecteurs).
Yp

Yp

2
2

1
1

Figure 2. Interprtation gomtrique de la slection par orthogonalisation.


101

Rseaux d'ondelettes fonds sur la transforme discrte


Sur cette figure, londelette 2 est celle qui explique le mieux le vecteur des
sorties Yp puisque langle quelle fait avec ce vecteur est plus petit que celui entre
1 et Yp. Elle est donc classe en premier rang par la procdure. Pour supprimer la
partie de Yp explique par 2 , on projette Yp et les vecteurs correspondants aux
ondelettes non encore classes (ici 1) dans lespace orthogonal au vecteur que

lon vient de classer (ici 2). On a reprsent ces projections par Yp et 1 .

IV .2.2 Cas des termes directs.


tant donn que lon sintresse la dtermination des ondelettes les plus
significatives pour la modlisation dun processus, la matrice P regroupe toutes
les ondelettes de la bibliothque, mais pas tous les rgresseurs contenus dans le
rseau donn par la relation (11). En effet, il manque les entres qui sont
pondres par les termes directs. Ces rgresseurs peuvent tre ajouts la matrice
P pour tre slectionns. Mais, puisque lon souhaite avoir des coefficients directs
dans le rseau, ces rgresseurs ne sont pas soumis la procdure de slection et
sont systmatiquement admis dans le rseau. Ce choix est motiv par le fait que
la procdure de construction des rseaux (prsente dans le paragraphe suivant)
sera galement utilise pour linitialisation de rseaux fonds sur la transforme
continue, qui, comme nous l'avons vu au chapitre prcdent, possdent des
termes directs.
IV.3 La procdure de construction du rseau.
IV .3.1 Prsentation de la procdure de construction.
tant donn que lon dispose des mthodes de construction de la
bibliothque dondelettes et de leur slection, il reste dcrire les tapes de
construction du rseau. Nous proposons le schma suivant :
1. Effectuer lapprentissage du rseau contenant uniquement les termes
directs (la solution est celle des moindres carrs)..
2. Dduire une nouvelle squence dapprentissage dont les sorties sont
dfinies comme les erreurs du rseau affine. Cette squence dcrit
donc la partie non modlise par le rseau constitu par les termes
directs.
3. Slectionner un nombre N W dondelettes de la bibliothque
pralablement construite, sur la base de la nouvelle squence
dapprentissage.
4. Effectuer lapprentissage du rseau complet, avec la squence initiale, e n
ajustant les pondrations des ondelettes et les termes directs.
102

Rseaux d'ondelettes fonds sur la transforme discrte


Lors du second apprentissage, on rajuste les termes directs pour ne pas
aboutir une solution sousoptimale. Une comparaison de leurs valeurs avant
et aprs le second apprentissage montre quils ne sont gnralement pas
modifis.
Dans le cas o la taille du rseau nest pas une contrainte, le nombre
dondelettes N w peut tre augment tant quon nobserve pas de surajustement.
En revanche, si l'on cherche atteindre une performance donne, on augmente
N w jusqu ce que cette performance soit atteinte.
Dans les deux cas, la recherche de N w se fait selon un processus itratif. La figure
suivante illustre le schma dapplication de la procdure :
Apprentissage des termes
directs
Dduire la nouvelle
squence d'apprentissage
Appliquer la procdure
de slection
Initialiser Nw
Apprentissage des pondrations
et des termes directs avec
la squence initiale

Non

Surajustement
ou
Performance satisfaisante

Nw = Nw + 1

Oui

Fin

Figure 3. Schma dapplication de la procdure.


IV .3.2 Avantages et inconvnients de cette approche.
Nous avons prsent cette procdure comme une technique de
construction de rseaux dondelettes fonds sur la transforme discrte.
Les rseaux obtenus sont plus volumineux, pour une mme EQMP, que
ceux, fonds sur la transforme continue, qui utilisent les techniques
doptimisation non linaire (voir l'exemple prsent au paragraphe V.1). De
plus, pour des modles de trois entres ou plus, le nombre des rgresseurs dans la
bibliothque devient trs grand.
103

Rseaux d'ondelettes fonds sur la transforme discrte


En revanche, cette approche prsente lavantage dutiliser les spcificits de
cette famille de fonctions pour une construction de rseaux moindre cot
(temps de calcul trs infrieur celui dun apprentissage utilisant une technique
d'optimisation non linaire).
Cette approche est donc conseille dans le cas o l'on dsire construire u n
modle rapidement sans avoir recours plusieurs apprentissages. En revanche,
si la recherche dun modle parcimonieux est une priorit, ce type de rseaux
n'est donc pas intressant. Nanmoins, la procdure propose peut tre mise
profit dune autre faon. Cest lobjet du paragraphe suivant.
IV.4 Autre application de la procdure : initialisation des translations et
dilatations pour lapprentissage de rseaux d'ondelettes paramtres continus.
Une autre application de cette procdure est envisageable : linitialisation
des translations et des dilatations pour lapprentissage de rseaux fonds sur la
transforme continue2 .
IV .4.1 Principe de la procdure dinitialisation.
Nous avons vu dans le chapitre prcdent, lors de ltude de rseaux
fonds sur la transforme continue, que l'tape d'initialisation des paramtres du
rseau fait intervenir la proprit de localit des ondelettes. Une procdure
dinitialisation simple fonde sur une heuristique a t propose. Cette
heuristique utilise peu les proprits de ces fonctions et la thorie des structures
obliques dondelettes.
Nous proposons ici dutiliser la procdure qui vient dtre propose pour
linitialisation des translations et des dilatations. Le schma dapprentissage
utilisant cette approche pour linitialisation du rseau se prsente de la manire
suivante :
1. Choisir le nombre N W dondelettes constituant le rseau.
2. Utiliser la procdure de construction dune bibliothque et de
slection des ondelettes prsente ci-dessus pour slectionner les N W
meilleures ondelettes expliquant la sortie du processus modliser.

Dans [Lehtokangas95],

une technique dinitialisation

semblable

propose pour

lapprentissage de rseaux de neurones fonctions sigmodes. tant donn quil nexiste pas de
thorie de construction de bibliothque de neurones fonctions sigmodes, cette bibliothque est
forme de neurones choisis alatoirement. En ce qui concerne les rseaux dondelettes, cette approche
de linitialisation a t cite dans [Zhang93] sans tre mise en uvre.

104

Rseaux d'ondelettes fonds sur la transforme discrte


3. Initialiser le rseau utilisant pour translations et dilatations celles des
ondelettes
slectionnes.
Les pondrations
sont
initialises
alatoirement.
4. Effectuer lapprentissage du rseau suivant les algorithmes dcrits
dans le cadre de rseaux fonds sur la transforme continue.
IV .4.2 Avantages et inconvnients de cette mthode dinitialisation.
Cette nouvelle mthode dinitialisation prsente lavantage dutiliser la
squence dapprentissage pour initialiser les translations et dilatations des
ondelettes. La slection tant fonde sur la minimisation du critre des moindres
carrs (le mme que celui utilis lors de lapprentissage), cette procdure est de
nature rapprocher le rseau dun minimum de la fonction de cot en dbut
dapprentissage.
La mthode de slection ncessite que les valeurs des entres soient
disponibles : elle nest donc pas applicable pour linitialisation de rseaux boucls.
Nanmoins, si les tats sont mesurables, ou dans le cas dune modlisation
entresortie, lapplication de cette technique pour des rseaux non boucls est
envisageable.
V . TUDE DEXEMPLES.
On se propose de mettre en uvre les procdures dcrites ci-dessus pour la
modlisation de processus laide de rseaux dondelettes fonds sur, o u
initialiss laide de, la transforme discrte. Nous prsentons tout d'abord une
application de la procdure de construction, pour un modle dynamique. Nous
prsentons ensuite deux exemples d'application de la procdure d'initialisation
des dilatations et translations d'ondelettes paramtres continus.
V.1 Exemple de construction de rseaux l'aide de la procdure de slection.
V .1.1 Prsentation du processus.
Le systme modliser est un processus simul avec une quation
dordre 1 :

yp(k+1) = f yp k , u k = 1

0.1
1 + 5yp2(k)

yp(k) +

e yp(k)/32
1 + 5 yp2(k)

u(k) e 50

yp(k) - 0.5 2 + u(k) + 0.5 2

(35)
Les squences dapprentissage et dvaluation de la performance ont une
taille N=1000. Les squences dentre sont alatoires, de distribution uniforme
dans lintervalle 1, 1 . Lquation ayant t pralablement normalise, la sortie
est comprise dans le mme intervalle. La figure suivante illustre la distribution
des exemples de la squence dapprentissage dans le plan (u(k), yp(k)).
105

Rseaux d'ondelettes fonds sur la transforme discrte


1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
-1

-0.5

0.5

Figure 4. Rpartition des exemples dans le plan (u(k), yp(k)).


On effectuera galement une modlisation du processus perturb avec u n
bruit dtat de distribution uniforme et de variance 10-3. Lquation de simulation
est :
yp (k+1) = f(y p (k), u(k)) + w(k)
(36)
{w(k)} est un bruit pseudo-blanc de moyenne nulle.
Le choix dune perturbation bruit dtat concide avec le fait que, le prdicteur
optimal pour lapprentissage tant non boucl, notre mthode dinitialisation qui
utilise une procdure de slection est applicable.
V .1.2 Construction dun modle dynamique laide de la procdure.
On se propose donc de modliser ce processus en utilisant un prdicteur
pour lapprentissage ayant lexpression :
(37)
y(k+1) = yp(k), u(k)
o la fonction est ralise par un rseau dondelettes comme dans la relation
(11). Dans ce cas, nous avons une entre externe (N e = 1) et une entre dtat
(N s = 1). Le nombre dentres du rseau est donc N i = N e + N S = 2.
Les deux entres tant dans lintervalle [-1, +1], la construction de la
bibliothque est relativement simple puisque le calcul des dilatations et des
translations est le mme pour chacune des entres. On leffectue donc une seule
fois (en gnral, les entres sont rparties dans des intervalles diffrents ; pour se
ramener un seul intervalle et simplifier la construction de la bibliothque, une
normalisation des entres peut tre effectue).
On construit la bibliothque avec trois niveaux diffrents de dilatation
dont le plus petit est donn par la relation (16) : m = 2. Les autres sont donns par
la relation (17), et sont donc 3 et 4. On aboutit 31 ondelettes ayant leurs centres
dans lintervalle [-1, +1]. tant donn que nous avons deux entres, le nombre
dondelettes multidimensionnelles est donc de 31 31 = 961.
106

Rseaux d'ondelettes fonds sur la transforme discrte


On sintresse la construction de tous les rseaux forms de 1 40
ondelettes. Au del de cette valeur de N W la contribution des ondelettes
slectionnes amliore peu les fonctions de cot. On excute la procdure de
slection une seule fois et, pour chaque rseau, on calcule uniquement les
pondrations des ondelettes et les coefficients de la partie affine.
V .1.2.1 Modlisation dynamique sans bruit du processus simul.
La figure suivante illustre lvolution de lEQMA et de lEQMP en fonction
du nombre dondelettes dans le rseau.
0.012
EQMA

0.01
_._.

EQMP

0.008

0.006

0.004

0.002

10

15

20

25

30

35

40

Figure 5. EQMA et EQMP en fonction du nombre dondelettes (sans bruit).


Une performance de 103 est atteinte avec un rseau de 19 ondelettes. Un tel
rseau possde 98 paramtres, dont 76 (translations et dilatations) sont
dtermins par la procdure de slection et 22 (pondrations des ondelettes et
termes directs) sont solution de la mthode des moindres carrs. La valeur
correspondante de lEQMA est 510-4.
Nous avons mentionn, parmi les inconvnients de cette mthode de
construction de rseaux, son manque de parcimonie par comparaison avec les
rseaux non linaires par rapport aux coefficients ajustables. A titre dexemple,
un rseau fond sur la transforme continue atteint cette performance avec 7
ondelettes. En revanche, le temps dapprentissage reste plus important.
V .1.2.2 Modlisation dynamique avec bruit du processus simul.
On simule le processus avec un bruit dtat comme dcrit dans le
paragraphe V.1.1. La figure suivante illustre lvolution des EQM en fonction du
nombre de fonctions dans le rseau.

107

Rseaux d'ondelettes fonds sur la transforme discrte


0.014
0.012

EQMA
_ . _ . EQMP

0.01
0.008
0.006
0.004
0.002
0
0

10

15

20

25

30

35

40

Figure 6. EQMA et EQMP en fonction du nombre dondelettes (avec bruit).


Pour un rseau de 19 ondelettes, les EQM dapprentissage et dvaluation de la
performance sont gales 1.410-3 et 1.910-3. Avec 40 ondelettes, nous avons les
chiffres suivants : 9.810-4 et 1.310-3. Comme le nombre dexemples est trs
grand par rapport aux nombres de paramtres, nous ne sommes pas confronts
au problme du surajustement.
V .1.2.3 Conclusion.
Ltude de cet exemple nous a montr que la mise en uvre de la
procdure est simple et ncessite peu de calculs (particulirement la construction
de la bibliothque). De plus, si une normalisation des entres est effectue o n
peut construire une bibliothque standard. Le prix payer reste la taille du rseau
(plus importante que celle des rseaux prsents au chapitre III o tous les
paramtres sont ajustables) et aussi la croissance trs rapide du nombre
d'lments de la bibliothque ds que le modle possde plus de trois entres.
V.2 Exemple d'initialisation des translations et des dilatations de rseaux l'aide
de la procdure de slection.
La mthode d'initialisation par slection prsente dans le paragraphe IV.4 de ce
chapitre est illustre ici par la modlisation statique de deux processus. Le
"processus 1" est un processus deux entres, tandis que le "processus 2" est le
processus une entre prsent dans le chapitre III, paragraphe IV.3.
V .2.1 Processus 1.
V .2.1.1 Prsentation du processus.
Le processus simul dont nous tudions la modlisation statique a t
utilis dans [Hwang94] pour lapplication dun schma dapprentissage utilisant
108

Rseaux d'ondelettes fonds sur la transforme discrte


la technique de la Projection Pursuit Regression (voir le chapitre II de ce
mmoire pour un commentaire sur cette technique).
Le processus possde deux entres et une sortie. Le comportement statique
est simul par la fonction suivante :

f x1, x2 = 1.335

1.5 1 x1 + exp 2 x1 1 sin 3 x1 0.6 2


+ exp 3 x2 0.5 sin 4 x2 0.9 2

(34)

On choisit pour les deux entres le domaine [0,1].


La squence dapprentissage est constitue de 1000 points rpartis suivant
une distribution uniforme pour les deux entres. La squence dvaluation de la
performance est forme de 1600 points rpartis suivant une grille rgulire.
V .2.1.2 Initialisation de rseaux laide de la procdure de slection.
On se propose dappliquer la procdure de slection pour linitialisation de
rseaux dondelettes. Les pondrations initiales sont choisies suivant une
distribution uniforme dans lintervalle [10-2,102].
Pour chaque rseau, on effectue cent apprentissages, correspondant chacun
un tirage diffrent des pondrations initiales, l'aide de l'algorithme de BFGS.
On prsentera l'histogramme des EQMA et des EQMP.
Lanalyse de ces rsultats nous permettra de comparer la performance de
chacune de ces deux techniques dinitialisation et aussi dvaluer leur robustesse
relative vis--vis de linitialisation alatoire des pondrations.
On considre des rseaux constitus de 5, 10 et 15 ondelettes.
V .2.1.2.1 Modlisation du processus non bruit.
La figure 7 prsente les histogrammes des EQMA et des EQMP aprs
apprentissage du processus non bruit, avec intialisation des translations et
dilatations par la procdure heuristique prsente dans le chapitre III. La Figure 8
prsente les rsultats obtenus, toutes choses gales par ailleurs, en utilisant la
procdure d'initialisation par slection prsente dans ce chapitre. La
comparaison entre ces deux figures montre clairement que l'initialisation par
slection permet d'obtenir des rsultats moins disperss que l'initialisation
heuristique. Les translations et dilatations tant, dans les deux cas, les mmes
pour tous les apprentissages, nous pouvons en conclure que l'initialisation par
slection confre l'apprentissage une meilleure indpendance par rapport
l'initialisation alatoire des pondrations des ondelettes.

109

Rseaux d'ondelettes fonds sur la transforme discrte


Histogramme EQMA

25

Histogramme EQMP

25

20

20

15

15

10

10

5 ondelettes

0.01

0.02

35

10 ondelettes

0.06

0.07

30

25

25

20

20

15

15

10

10

0.005

0.01

0.015

0.02

Histogramme EQMA

80

70

60

60

50

50

40

40

30

30

20

20

10

10

0.02

0.005

80

70

0.01

35

30

15 ondelettes

0.03
0.04
0.05
Histogramme EQMA

5
x 10-3

0.03
0.04
Histogramme EQMP

0.01
Histogramme EQMP

0.05

0.06

0.015

0.07

0.02

5
x 10-3

Figure 7. Histogrammes des EQMA et EQMP pour 100 apprentissages initialiss


avec la procdure heuristique.

110

Rseaux d'ondelettes fonds sur la transforme discrte


Histogramme EQMA

80

5 ondelettes

70

70

60

60

50

50

40

40

30

30

20

20

10

10

0.01

0.02

0.03
0.04
0.05
Histogramme EQMA

80

10 ondelettes

0.07

60

60

50

50

40

40

30

30

20

20

10

10

0.005

0.01
0.015
Histogramme EQMA

0.02

90

80

80

70

70

60

60

50

50

40

40

30

30

20

20

10

10

-1

0.02

0.03
0.04
0.05
Histogramme EQMP

0.005

5
x 10-3

-1

0.06

0.01
0.015
Histogramme EQMP

100

90

0.01

80
70

100

15 ondelettes

0.06

70

Histogramme EQMP

80

0.07

0.02

5
x 10-3

Figure 8. Histogrammes des EQMA et EQMP pour 100 apprentissages initialiss


avec la procdure de slection.
V .2.1.2.2 Modlisation avec bruit du processus.
Nous avons effectu les mmes expriences numriques pour l'apprentissage du
processus simul avec un bruit additif de sortie, uniformment distribu de
moyenne nulle et de variance 102. Pour allger la prsentation, nous n e
prsenterons (Figure 9) que les rsultats obtenus avec un rseau de 10 ondelettes,
qui permet d'obtenir une EQMA et une EQMP gales la variance du bruit (qui,
ici, est connue puisqu'il s'agit d'un processus simul).

111

Rseaux d'ondelettes fonds sur la transforme discrte


Histogramme EQMA

80

Sans
slection

70

70

60

60

50

50

40

40

30

30

20

20

10

10

0.01

0.02

0.03

100

Avec
slection

Histogramme EQMP

80

0.04 0.05 0.06 0.07


Histogramme EQMA

0.08

0.09

0.1

90

90

80

80

70

70

60

60

50

50

40

40

30

30

20

20

10

10

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.01

0.02

0.03

0.04 0.05 0.06 0.07


Histogramme EQMP

0.08

0.09

0.1

0.01

0.02

0.03

0.04

0.08

0.09

0.1

100

0.08

0.09

0.1

0.05

0.06

0.07

Figure 9. Histogrammes des EQMA et EQMP pour 100 apprentissages pour la


modlisation avec bruit.
On observe, comme pour l'apprentissage du processus non bruit, que
l'initialisation par slection permet d'obtenir des rsultats beaucoup moins
disperss, donc une meilleure indpendance vis--vis des initialisations
alatoires des pondrations. La valeur de l'EQMA correspondant la variance du
bruit est obtenue dans 97 % des cas.
V .2.2 Processus 2.
Ce processus a dj t tudi au chapitre III. Nous rappelons ici pour
mmoire (Figure 10) l'histogramme des EQMA et EQMP obtenues aprs
apprentissage d'un rseau de 10 ondelettes par l'algorithme de BFGS, avec u n
ensemble de 300 points et initialisation l'aide de la procdure heuristique. La
Figure 11 reprsente les rsultats obtenus dans les mmes conditions, avec la
procdure d'initialisation prsente dans ce chapitre.
Comme pour le processus prcdent, l'utilisation de l'initialisation par slection
permet d'obtenir, avec une plus grande frquence, les meilleures performances.

112

Rseaux d'ondelettes fonds sur la transforme discrte


Histogramme EQMA

80
70

70

60

60

50

50

40

40

30

30

20

20

10

10

Histogramme EQMP

80

0.005

0.01

0.015

0.02

0.025

0.03

0.005

0.01

0.015

0.02

0.025

0.03

Figure 10. Histogrammes de lEQMA et lEQMP pour 100 apprentissages


initialiss avec la procdure heuristique.
Histogramme EQMA

90
80

80

70

70

60

60

50

50

40

40

30

30

20

20

10

10

0
0

0.005

0.01

0.015

0.02

Histogramme EQMP

90

0.025

0.03

0
0

0.005

0.01

0.015

0.02

0.025

0.03

Figure 11. Histogrammes de lEQMA et lEQMP pour 100 apprentissages


initialiss avec la procdure de slection.
V I. CONCLUSION.
Dans ce chapitre, nous avons prsent les rseaux dondelettes fonds sur
la transforme en ondelettes discrte. Il existe principalement les structures
obliques et les bases dondelettes orthogonales. Le fait que les ondelettes mres
orthogonales ne possdent pas dexpression analytique simple les rend peu
pratiquent pour des problmes dapproximation de fonctions.
Nous avons propos une procdure de modlisation de processus fonde
sur la construction dune structure oblique troite et de la slection des ondelettes
les plus significatives. Cette procdure est galement applicable comme mthode
dinitialisation des rseaux fonds sur la transforme continue, tudis dans le
chapitre prcdent.
Les rsultats obtenus sur ltude dun exemple montrent que la
construction de rseaux laide de la procdure propose peut tre une solution
113

Rseaux d'ondelettes fonds sur la transforme discrte


intressante si lon dsire modliser un processus sans contrainte de parcimonie,
car sa mise en uvre ncessite peu de calculs.
Dautre part, lapplication de cette procdure pour linitialisation des
translations et dilatations d'ondelettes de rseaux fonds sur la tranforme
continue a montr que les EQMA et EQMP prsentent une dispersion plus faible
que lors de l'utilisation d'une initialisation heuristique ; en d'autres termes, cette
procdure permet une plus grande indpendance vis--vis de linitialisation des
pondrations des ondelettes.

114

CHAPITRE V
tude de quelques exemples

tude de quelques exemples

I. INTRODUCTION.
Dans ce chapitre, nous prsentons deux exemples de mise en uvre des
rseaux et algorithmes prsents dans ce mmoire pour la modlisation de
processus. Le premier est simul partir dune quation aux diffrences. Le
second est un processus rel connu partir dune squence de mesures.
Les prdicteurs que nous considrerons seront des rseaux de fonctions
dorsales sigmodes et des rseaux dondelettes fonds sur la transforme
continue ; nous avons vu que les premiers permettent de raliser des
approximateurs plus parcimonieux que les modles linaires par rapport aux
paramtres ajustables. Dautre part, il sagit de modlisation dynamique de
processus : on souhaite donc obtenir des modles de simulation. Les prdicteurs
construits laide de rseaux dondelettes fonds sur la transforme discrte n e
peuvent tre candidats dans ce cas, comme nous l'avons vu dans le chapitre IV.
Nous prsenterons, en premier lieu, un processus simul. Il est en effet
intressant, d'un point de vue acadmique, de tester de cette manire des
mthodes d'apprentissage ou des architectures de rseaux :
le nombre d'exemples peut tre arbitrairement grand,
l'amplitude et la nature du bruit sont parfaitement connues,
l'ordre du processus simul est connu.
On s'affranchit ainsi des incertitudes, invitables lorsque l'on modlise u n
processus rel, relatives au nombre et au choix des exemples, ainsi qu'au choix du
modle-hypothse.
Nous prsenterons ensuite la modlisation d'un processus rel, qui a t tudi
en dtail par d'autres auteurs.
Nous nous intresserons essentiellement lapprentissage de rseaux
boucls. Lalgorithme utilis sera donc semi-dirig (paragraphe V.1.2 du chapitre
III).
Pour tous les rseaux, on effectue 50 apprentissages correspondant chacun
une initialisation diffrente
des pondrations et des termes directs dans le cas des rseaux dondelettes (les
translations et les dilatations tant initialises suivant la technique propose
dans le paragraphe IV.2 du chapitre III)
de tous les coefficients dans le cas dun rseau de fonctions dorsales.
Le rsultat retenu est celui prsentant l'erreur la plus petite sur lensemble
destimation de la performance (EQMP).

116

tude de quelques exemples


Chaque fois que nous serons amens comparer lefficacit de deux algorithmes
dapprentissage, nous initialiserons les rseaux de manire identique avant
application de chaque algorithme.
II. MODLISATION DE PROCESSUS SIMULS.
II.1 Prsentation du processus simul sans bruit.
Le processus dont nous effectuons la modlisation a t propos dans
[Urbani95] pour la validation dune procdure de slection de modles neuronaux
(rseaux de neurones fonctions dorsales). Il est simul partir de lquation aux
diffrences entre-sortie suivante :
24 + yp n-1
u(n-1) 2
yp(n) = f yp(n-1), yp(n-2), u(n-1) =
yp n-1 0.8
y n-2 + 0.5u n-1
2 p
30
1 + u(n-1)
(1)
o y p(n) et u(n) sont respectivement la sortie mesure du processus et lentre de
commande linstant n. Pour de faibles amplitudes de lentre de commande,
comprises dans lintervalle [0.1, 0.1], lquation aux diffrences ci-dessus est
proche de lquation linaire du premier ordre suivante :
(2)
yp n = 0.8 yp n 1 + 0.5 u n 1
er

Le comportement est alors celui dun filtre passe-bas du 1

ordre de gain
statique gal 2.5. Lorsque lentre de commande est de plus grande amplitude, le
comportement est non linaire. Pour une entre variant dans lintervalle [10, 10]
le processus reste stable.
On choisit de modliser ce processus simul laide de rseaux de fonctions
dorsales et dondelettes. Pour cela, on calcule une squence dapprentissage et une
squence destimation de la performance, comprenant chacune 1000 exemples.
Lentre est une squence de crneaux damplitude alatoire comprise dans
lintervalle [-5, +5] et de dures alatoires variant de 1 20 priodes
dchantillonnage. La figure 1(a) montre les squences de lentre de commande
pour lapprentissage ( gauche) et pour lestimation de la performance ( droite),
et la figure 1(b) les squences correspondantes de la sortie, utilises pour
lapprentissage ( gauche) et lvaluation de la performance ( droite).

117

tude de quelques exemples


5

-1

-1

-2

-2

-3

-3

-4

-4

-5

200

400

600

800

-5

1000

200

400

600

800

1000

200

400

600

800

1000

(a)
8

2
2
0
0
-2
-2

-4

-4

-6
-8

200

400

600

800

1000

-6

(b)
Figure 1. Squence de lentre de commande (a) et squence de la sortie
calcule (b) du processus pour lapprentissage.
II.2 Modlisation du processus simul non bruit.
Nous allons chercher tout d'abord modliser le processus simul partir
de l'quation (1) sans introduire de bruit. En l'absence de bruit, les performances
sont limites par le nombre d'exemples (ainsi que leur distribution) et par
l'efficacit de l'algorithme d'apprentissage.
Dans ce cas, comme nous l'avons indiqu dans le chapitre I, on peut
indiffremment effectuer l'apprentissage d'un rseau non boucl ou celui d'un
rseau boucl. Dans la mesure o nous sommes intresss par la conception de
modles de simulation, nous avons choisi de raliser l'apprentissage de rseaux
boucls. En effet, un modle de simulation est destin prdire des squences de
valeurs des sorties, donc c'est ncessairement un rseau boucl.
Dautre part, il nous est possible de choisir un modle entresortie ou u n
modle dtat. Pour ce processus, nous considrerons uniquement sa
modlisation par des prdicteurs de type entre-sortie. Ce choix est motiv par le
fait que le processus est simul partir dune quation aux diffrences de type

118

tude de quelques exemples


entresortie ; un exemple de modlisation dtat est prsent dans le paragraphe
III.3 loccasion de la modlisation dun processus rel.
L'ordre du processus simul tant connu, ainsi que la mmoire sur l'entre
de commande, nous considrons pour ce processus lapprentissage dun
prdicteur ayant lexpression suivante :
y n = y(n1), y(n2), u(n1),
(3)
La fonction est approcher par un rseau de fonctions dorsales o u
dondelettes fond sur la transforme continue (puisque le rseau est boucl) et
est le vecteur des paramtres ajuster.
II.2.1 Rseau prdicteur fonctions ondelettes.
Nous considrons des rseaux dondelettes boucls fonds sur la
transforme continue, prsents dans le chapitre III de ce mmoire. Nous
effectuons lapprentissage de plusieurs architectures ayant un nombre
dondelettes croissant afin de rechercher celle qui permet d'obtenir la meilleure
performance (EQMP). Les apprentissages de ces rseaux sont effectus avec
lalgorithme de BFGS et celui de LevenbergMarquardt.
II.2.1.1 Apprentissage avec lalgorithme de BFGS.
Le tableau 1 prsente les rsultats obtenus lors de lapprentissage de rseaux
dondelettes boucls laide de lalgorithme de BFGS. Rappelons que, pour chaque
architecture, 50 apprentissages ont t effectus, avec, chaque fois, une
initialisation alatoire diffrente des pondrations et des termes directs
(coefficients de la partie affine). Les paramtres de translation et de dilatation sont
initialiss suivant la procdure prsente au chapitre III. Le rsultat indiqu (pour
chacune des architectures) est le meilleur obtenu sur les 50 apprentissages.
Nombre
dondelettes

Nombre de
paramtres

EQMA

11

7,6 10

18

2,0 10

25

2,2 10

32

2,8 10

39

5,2 10

46

3,8 10

-2
-2
-3

4
5
6

Meilleure EQMP sur 50


apprentissages
1,5 10
3,6 10
6,7 10
1,3 10
2,9 10
2,9 10

1
2
3
3
4
5

Tableau 1. Rsultats de la modlisation du processus simul sans bruit avec


rseaux dondelettes ; apprentissage l'aide de l'algorithme de BFGS.

119

tude de quelques exemples


Au del de 6 ondelettes, les rseaux contenant plus de fonctions n e
permettent pas d'obtenir de meilleures performances.
II.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt.
Comme prcdemment, nous nous intressons lapprentissage de
plusieurs architectures de rseaux dondelettes mais cette fois en utilisant
lalgorithme de LevenbergMarquardt pour lajustement des paramtres. Ainsi
que nous l'avons indiqu au chapitre III, le calcul du gradient se fait dans le sens
direct. Linitialisation des paramtres est la mme que pour lalgorithme de BFGS.
Nombre
dondelettes

Nombre de
paramtres

EQMA

11

7,6 10

18

2,1 10

25

2,5 10

32

9,7 10

39

5,0 10

46

3,4 10

53

2,2 10

2
2
3

Meilleure EQMP sur 50


apprentissages
1,5 10
4,3 10
5,8 10

1
2
3

2,4 10-

2,5 10-

5
6

1,3 10
2,1 10

4
5

Tableau 2. Rsultats de la modlisation du processus simul sans bruit avec


rseaux dondelettes ; apprentissage l'aide de l'algorithme de Levenberg
Marquardt.
Ces rsultats sont quivalents ceux obtenus avec lalgorithme de BFGS et
reprsents sur le tableau 1. Notons que dans le cas de lutilisation de lalgorithme
de LevenbergMarquardt, il est ncessaire dutiliser un rseau de 7 ondelettes
pour atteindre une performance de 105.
II.2.2 Rseau prdicteur fonctions dorsales.
Afin dvaluer les performances des rseaux dondelettes fonds sur la
transforme continue par rapport celles que lon peut obtenir avec une classe de
rseaux possdant de bonnes proprits de parcimonie, on se propose deffectuer
la modlisation de ce processus laide de prdicteurs fonds sur des rseaux de
fonctions dorsales. On choisit pour fonction dactivation la fonction sigmode (qui
est la brique lmentaire des rseaux de neurones conventionnels) et lon effectue
lapprentissage de rseaux boucls dont la partie statique est constitue d'une
couche de fonctions dorsales et d'un neurone de sortie linaire (figures 4 et 7 du
chapitre II).

120

tude de quelques exemples


II.2.2.1 Apprentissage avec lalgorithme de BFGS.
Comme prcdemment, nous effectuons lapprentissage de plusieurs
architectures en augmentant chaque fois le nombre de neurones. Le tableau 3
illustre les meilleurs rsultats obtenus pour chacune des architectures.
Nombre de
sigmodes

Nombre de
paramtres.

EQMA

1,1 10

14

7,1 10

19

1,1 10

24

3,9 10

29

4,5 10

34

4,2 10

Meilleure EQMP sur 50


apprentissages

1,8 10

1,0 10

8,4 10

2,3 10

1,8 10

1,6 10

1
1
3
3
5
5

Tableau 3. Rsultats de la modlisation du processus simul sans bruit avec


rseaux de sigmodes et algorithme de BFGS.
L encore, une augmentation du nombre de fonctions n'amliore pas la
performance, au-del de 6 neurones cachs.
Les rsultats, concernant l'EQMP, ports dans les tableaux 1 et 3, sont
reprsents graphiquement sur la figure 2 qui illustre lvolution de lEQMP e n
fonction du nombre de fonctions pour les deux types de rseaux. On ne constate
pas de diffrence significative entre les deux types de rseaux.
0
Ondelettes
Sigmodes

log(EQMP)

-1
-2
-3
-4
-5

2
3
4
5
Nombre de fonctions dans le rseau

Figure 2. volution de la performance en fonction de larchitecture du


rseau (BFGS).
II.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt.
On effectue galement lapprentissage de ces rseaux boucls de sigmodes
laide de lalgorithme de LevenbergMarquardt. Les remarques faites dans le

121

tude de quelques exemples


chapitre III concernant la ncessit de faire le calcul du gradient de la fonction de
cot dans le sens direct sappliquent galement aux rseaux de fonctions dorsales.
Le tableau 4 illustre les meilleurs rsultats obtenus pour chacune des
architectures.
Nombre de
sigmodes.

Nombre de
paramtres.

EQMA

1,1 10

14

7,2 10

19

1,8 10

24

5,7 10

29

6,4 10

34

3,5 10

39

1,8 10

Meilleure EQMP sur 50


apprentissages

1,8 10

1,0 10

6,0 10

1
1
3

2,0 10-

1,7 10-

1,5 10

8,5 10

5
6

Tableau 4. Rsultats de la modlisation du processus simul sans bruit avec


rseaux de sigmodes ; apprentissage avec l'algorithme de LevenbergMarquardt.
Les rsultats, concernant l'EQMP, ports dans les tableaux 2 et 4, sont
reprsents graphiquement sur la figure 3 qui illustre lvolution de lEQMP e n
fonction du nombre de fonctions pour les deux types de rseaux. Comme
prcdemment, on ne constate pas de diffrence significative entre les deux types
de rseaux.

log(EQMP)

0
Ondelettes
Sigmodes

-2

-4

-6

2
3
4
5
6
Nombre de fonctions dans le rseau

Figure 3. volution de la performance en fonction de larchitecture du


rseau (Levenberg-Marquardt).
II.3 Modlisation du processus simul avec bruit.
Nous nous proposons prsent de modliser un processus bruit. tant
donn que lon simule le processus, on a la possibilit de choisir la manire avec
laquelle agit le bruit. Nous simulerons l'existence d'un bruit additif de sortie, puis
celle d'un bruit additif d'tat ; dans chacun des cas, nous ferons le choix du
122

tude de quelques exemples


modle-hypothse qui correspond au type de bruit qui est effectivement mis e n
uvre dans les simulations, car nous nous intressons, dans ce travail,
l'influence du choix des fonctions utilises pour construire le modle ;
l'influence du choix du modle-hypothse (et notamment l'effet d'un choix
erron) a t tudie dans [Nerrand94].
II.3.1 Modlisation du processus simul avec bruit additif de sortie.
Lorsque lon fait lhypothse dun bruit additif en sortie (Output Error), le
prdicteur optimal associ est boucl. On considre un prdicteur d'ordre 2, dont
la mmoire sur l'entre de commande est de 1 priode d'chantillonnage .Ce
prdicteur peut tre approch par un rseau de fonctions ralisant le modle
suivant:
(4)
y n = y(n1), y(n2), u(n1),
Si la squence dapprentissage est suffisamment riche et reprsentative du
comportement processus, si lalgorithme dapprentissage est efficace, et si la taille
du rseau est suffisante pour approcher la partie dterministe du processus avec
une bonne prcision, alors les EQMA et EQMP obtenues doivent tre gales la
variance du bruit (cest dire la partie non prdictible du comportement du
processus).
Nous simulons le processus avec un bruit pseudo-blanc additif en sortie de
-2
distribution uniforme et de variance 10 . Les rsultats de la modlisation sans
bruit montrent quun rseau constitu de cinq fonctions permet deffectuer une
bonne approximation de la partie dterministe du processus (performance
infrieure la variance du bruit).
Nous avons donc effectu lapprentissage de rseaux constitus de cinq
fonctions (sigmodes ou ondelettes). Le tableau 5 illustre les meilleurs rsultats
obtenus sur 20 apprentissages.
EQMA
Rseaux dondelettes

1,02 10

Rseaux de sigmodes

1,03 10

2
2

EQMP
1,05 10
1,07 10

2
2

Tableau 5. Rsultats de la modlisation avec bruit de sortie.


Les deux types de rseaux permettent dobtenir de faon quasiment
identique une fonction de cot en fin dapprentissage, et une performance, trs
proches de la variance du bruit.

123

tude de quelques exemples


II.3.2 Modlisation du processus simul avec bruit dtat additif.
Nous considrons prsent la modlisation du processus simul avec u n
-2
bruit d'tat additif (Equation Error) de variance 10 . Le prdicteur optimal associ
est non boucl. On effectue donc lapprentissage de rseaux ralisant le modle
suivant :
(5)
y n = yp(n1), yp(n2), u(n1),
On utilise des architectures de rseaux constitus de 5 fonctions (sigmodes
ou ondelettes) et pour chaque architecture on retient la meilleure performance
obtenue sur 20 apprentissages. Les rsultats sont illustrs sur le tableau 6.
EQMA
Rseaux dondelettes

9,68 10

Rseaux de sigmodes

9,67 10

3
3

EQMP
1,00 10
1,05 10

2
2

Tableau 6. Rsultats de la modlisation avec bruit dtat.


Comme dans le cas dun bruit de sortie additif, rseaux dondelettes et de
fonctions dorsales aboutissent des prdicteurs optimaux avec des prcisions
quasiment identiques.
II.4 Conclusion.
Dans la premire partie de ce chapitre, nous avons effectu une
modlisation de type entresortie dun processus simul mono-entre-monosortie d'ordre 2. Nous avons utilis, dans des conditions identiques, des rseaux
dondelettes fonds sur la transforme continue et des rseaux de fonctions
dorsales sigmodes. Lors de la modlisation sans bruit puis avec brut, les deux
types de rseaux montrent des performances quivalentes, que les apprentissages
soient effectus laide de lalgorithme de BFGS ou l'aide de l'algorithme de
LevenbergMarquardt.
III. MODLISATION DUN PROCESSUS REL.
Les simulations prcdentes ont permis dtudier les performances de
rseaux de neurones et de rseaux d'ondelettes en fonction du nombre de
fonctions prsentes dans ces rseaux, toutes choses gales et connues par ailleurs
(ordre du modle, mmoire sur lentre de commande, variance du bruit). Dans
la plupart des applications relles, on ignore :
l'ordre ncessaire pour le modle (c'est--dire la valeur du paramtre N S
dfini au chapitre I),
la mmoire sur lentre de commande (c'est--dire la valeur du paramtre
N e dfini au chapitre I)
124

tude de quelques exemples


la nature et la variance du bruit.
Lorsque l'on cherche modliser un processus rel, il est donc ncessaire, d'une
part, d'essayer plusieurs modles-hypothses et de retenir celui qui semble le
mieux adapt, et, d'autre part, de recourir des techniques de slection de
modles [Urbani95] pour trouver des valeurs satisfaisantes de N s et N w.
III.1 Prsentation du processus.
Le processus dont nous nous proposons de faire la modlisation dans ce qui
suit est lactionneur hydraulique d'un bras de robot articul. La sortie dintrt
y p(n) est la pression dhuile de lactionneur qui dtermine la position du bras.
Lentre de commande qui agit sur la pression est louverture dune vanne u(n).
Les donnes relatives ce processus ont t fournies par l'Universit de
Linkping ; ce processus a fait l'objet de modlisations "botes noires" de la part
de plusieurs quipes [Sjberg95].
Le processus est connu par une squence de 1024 couples dentres et de
sorties {u(k), y p(k)} mesures. La premire moiti de ces donnes (cest dire 512
points) est utilise comme squence dapprentissage et la seconde moiti comme
squence pour lestimation de la performance.
La figure 4 illustre la squence de lentre de commande (a) et celle de la
sortie mesure (b) dont nous disposons.
1.5
1
0.5
0
-0.5
-1
-1.5

200

400

600

800

1000

(a)
Squence d'apprentissage

Squence de performance

4
2
0
-2
-4
0

200

400

600

800

1000

(b)

Figure 4. Squences de lentre de commande (a) et de la sortie (b).

125

tude de quelques exemples


On se propose dans la suite deffectuer une modlisation de ce processus
avec des prdicteurs entresortie et dtat fonds sur des rseaux dondelettes et
de neurones fonctions sigmodes.
III.2 Modlisation entresortie.
Tout dabord, nous nous proposons deffectuer une modlisation entre
sortie du processus. Comme toute modlisation, la premire tape consiste
choisir un modle-hypothse. Le prdicteur optimal pour lapprentissage associ
une hypothse bruit dtat est non boucl. Une tude antrieure de ce mme
processus[Rivals95b] a montr que les modles construits partir de l'hypothse
bruit d'tat ont de mauvaises performances. Nous avons donc opt pour
lapprentissage de prdicteurs boucls.
La deuxime question rsoudre concerne le choix de lordre du modle et
de la mmoire sur lentre de commande. Nous avons adopt une dmarche qui
consiste considrer d'abord le modle le plus simple, puis le rendre plus
complexe et retenir celui qui prsente la meilleure performance. Dans ce cas,
nous partons dun prdicteur avec N S = 2 (le caractre oscillatoire de la rponse
suggre que le modle est au moins du second ordre) et Ne = 1.
III.2.1 Rseau prdicteur fonctions ondelettes.
Nous commenons par prsenter les rsultats obtenus pour des prdicteurs
fonds sur des rseaux dondelettes boucls, comme ceux prsents dans le
chapitre III. Comme pour les processus simuls, nous effectuons lapprentissage
de plusieurs rseaux en augmentant le nombre dondelettes.
III.2.1.1 Apprentissage avec lalgorithme de BFGS.
Le tableau 7 prsente les rsultats obtenus pour des apprentissages utilisant
lalgorithme de BFGS. Comme pour le processus simul, on effectue 50
apprentissages pour chacune des architectures avec chaque fois une
initialisation diffrente ; les rsultats prsents correspondent aux apprentissages
prsentant les meilleures EQMP.
Nombre
dondelettes.

Nombre de
paramtres.

EQMA

Meilleure EQMP sur 50


apprentissages

11

0,25

0,30

18

0,11

0,13

25

0,13

0,15

Tableau 7. Rsultats de la modlisation du processus rel avec rseaux


dondelettes ; apprentissage l'aide de l'algorithme de BFGS.
126

tude de quelques exemples


Pour plus de 3 ondelettes, la performance du modle se dgrade. Le rseau
prsentant la meilleure performance est donc celui qui est constitu de deux
ondelettes. C'est d'ailleurs, notre connaissance, le meilleur rsultat publi,
relatif un prdicteur entre-sortie de ce processus [Rivals95b, Pucar95, Sjberg95].
III.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt.
Dans les mmes conditions que prcdemment (mmes squences, mmes
architectures de rseaux, mmes initialisations), on effectue des apprentissages de
ces rseaux dondelettes en utilisant lalgorithme de LevenbergMarquardt. Pour
chaque rseau lapprentissage prsentant la meilleure EQMP sur les 50 est
prsent sur le tableau 8.
Nombre
dondelettes

Nombre de
paramtres

EQMA

Meilleure EQMP sur 50


apprentissages

11

0,22

0,39

18

0,094

0,19

25

0,084

0,20

32

0,046

0,24

Tableau 8. Rsultats de la modlisation du processus rel avec rseaux


dondelettes ; apprentissage l'aide de l'algorithme de LevenbergMarquardt.
Comme avec lalgorithme de BFGS, le rseau de 2 ondelettes prsente la
meilleure performance.
La figure suivante, qui montre lvolution de lEQMA et de lEQMP e n
fonction du nombre dondelettes, met en vidence que pour une architecture
comprenant 3 ondelettes ou plus, on observe un phnomne de surajustement.
0.4
EQMA
EQMP

0.3
0.2
0.1
0

2
3
Nombre d'ondelettes

Figure 5. volution de la meilleure EQMP sur 50 apprentissages et de lEQMA


correspondante (apprentissages avec l'algorithme de LevenbergMarquardt).

127

tude de quelques exemples


III.2.1.3 Frquence d'occurrence du meilleur rsultat.
Les rsultats prsents dans les tableaux ci-dessus sont, pour chaque rseau,
le meilleur apprentissage obtenu sur 50. La frquence doccurrence du meilleur
rsultat, parmi tous les essais effectus, peut constituer un lment de choix entre
plusieurs algorithmes. Pour le rseau de 2 ondelettes, nous avons reprsent, sur
la figure 6, les histogrammes dapparition des diffrentes valeurs de la fonction de
cot en fin dapprentissage (a) et de lestimation de la performance (b) obtenues
parmi les 50 apprentissages en utilisant lalgorithme de BFGS. La figure 7 illustre
ces deux histogrammes dans le cas de lutilisation de lalgorithme de Levenberg
Marquardt.
6

15

Frquence d'occurrence

Frquence d'occurrence

10

0.2

0.4

0.6

0.8

0.2

0.4

EQMA

0.6

0.8

EQMP

20

20

18

18

16

16

Frquence d'occurrence

Frquence d'occurrence

(a)
(b)
Figure 6. Histogrammes des EQMA (a) et des EQMP (b) de rseaux dondelettes
avec apprentissage l'aide de l'algorithme de BFGS.

14
12
10
8
6
4
2
0

14
12
10
8
6
4
2

0.2

0.4

0.6

EQMA

0.8

0.2

0.4

0.6

0.8

EQMP

(a)
(b)
Figure 7. Histogrammes des EQMA (a) et des EQMP (b) de rseaux dondelettes
avec apprentissage l'aide de l'algorithme de LevenbergMarquardt.
128

tude de quelques exemples


On observe que, du point de vue considr ici, lalgorithme de Levenberg
Marquardt possde, pour cet exemple qui met en jeu un petit nombre
d'ondelettes, une efficacit suprieure celle de la mthode de BFGS : une des
valeurs de l'EQMP (= 0.19) ainsi que lEQMA (= 0.094) qui lui correspond sont
obtenues avec une plus grande frquence que les autres, et il s'agit prcisment du
meilleur apprentissage retenu dans le tableau 8 pour le rseau 2 ondelettes.
Dautre part, les coefficients de tous les rseaux prsentant cette performance sont
identiques, ce qui prouve quil sagit bien du mme minimum de la fonction de
cot. Cette comparaison est galement effectue, pour des rseaux fonctions
dorsales sigmodes, dans le paragraphe III.2.2.3.
III.2.2 Rseau prdicteur fonctions dorsales.
Nous nous intressons galement la modlisation de ce processus laide
de rseaux de fonctions sigmodes. Dautres travaux [Rivals95b] ont abord cette
modlisation. Nous la reprenons ici laide de nos outils (notamment avec
lalgorithme de LevenbergMarquardt ncessitant le calcul du gradient dans le
sens direct).
III.2.2.1 Apprentissage avec lalgorithme de BFGS.
Dans les mmes conditions que les rseaux dondelettes (mmes squences
d'apprentissage et dvaluation de la performance, 50 apprentissages par
architecture, et utilisation de lalgorithme de BFGS), nous obtenons les rsultats
prsents dans le tableau 9.
Nombre de
sigmodes

Nombre de
paramtres

EQMA

EQMP

0,20

0,3

14

0,13

0,17

19

0,15

0,14

24

0,085

0,16

Tableau 9. Rsultats de la modlisation du processus rel avec rseaux de


sigmodes ; apprentissage l'aide de l'algorithme de BFGS.
La meilleure performance est donc obtenue avec un rseau de 3 neurones
fonctions sigmodes. Augmenter le nombre de neurones amliore l'EQMA mais
pas la performance.

129

tude de quelques exemples


III.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt.
Le tableau suivant illustre les meilleures performances obtenues avec des
rseaux de fonctions sigmodes et des apprentissages utilisant lalgorithme de
LevenbergMarquardt.
Nombre de
sigmodes

Nombre de
paramtres

EQMA

EQMP

0,23

0,38

14

0,11

0,20

19

0,092

0,15

24

0,086

0,15

Tableau 10. Rsultats de la modlisation du processus rel avec rseaux de


sigmodes ; apprentissage l'aide de l'algorithme de LevenbergMarquardt.
Les architectures 3 et 4 neurones cachs ralisent une performance gale.
En retenant la plus parcimonieuse (rseau trois neurones), on retrouve donc la
mme que dans le cas dun apprentissage avec lalgorithme de BFGS. Les deux
algorithmes permettent donc daboutir des modles de prcision quivalente.
III.2.2.3 Frquence d'occurrence du meilleur rsultat.
Dans le paragraphe III.2.2.3 de ce chapitre, nous avons compar lefficacit
des deux algorithmes du point de vue de la frquence doccurrence de la
meilleure solution (que lon retient) et ceci dans le cas de modles fonds sur des
rseaux dondelettes. Nous effectuons nouveau cette comparaison, avec cette
fois les rsultats obtenus sur les modles fonds sur des rseaux de fonctions
sigmodes.
La figure 8 illustre les histogrammes du nombre dapparitions des
diffrents critres dapprentissages (a) et des performances (b) obtenus dans le cas
de lalgorithme de BFGS. La figure 9 illustre ces deux histogrammes dans le cas de
lutilisation de lalgorithme de LevenbergMarquardt.

130

tude de quelques exemples


3

Frquence d'occurrence

Frquence d'occurrence

0.2

0.4

0.6

0.8

0.2

EQMA

0.4

0.6

0.8

EQMP

(a)
(b)
Figure 8. Histogrammes des EQMA (a) et des EQMP (b) de rseaux de fonctions
dorsales avec apprentissage l'aide de l'algorithme de BFGS.
25

20

Frquence d'occurrence

Frquence d'occurrence

18
20

15

10

16
14
12
10
8
6
4
2

0.2

0.4

0.6

0.8

EQMA

0.2

0.4

0.6

0.8

EQMP

(a)
(b)
Figure 9. Histogrammes des EQMA (a) et des EQMP (b) de rseaux de fonctions
dorsales avec apprentissage l'aide de l'algorithme de LevenbergMarquardt.
On fait ici une constatation semblable celle que nous avons faite pour les
rseaux d'ondelettes : une des valeurs de l'EQMP ( = 0.24) ainsi que lEQMA
correspondante ( = 0.11) sont obtenues beaucoup plus frquemment que les autres
lorsque l'on utilise l'algorithme de Levenberg-Marquardt. Nanmoins, ce n'est
pas, cette fois, la valeur minimale de l'EQMP. Dautre part, une comparaison des
coefficients des rseaux possdant cette performance montre quils sont dans la
plupart des cas identiques.
III.2.3 Conclusion de la modlisation entresortie.
Nous avons effectu une modlisation entre-sortie dun processus rel
laide de rseaux de neurones sigmodes et dondelettes. Nous avons opt pour
131

tude de quelques exemples


lapprentissage de prdicteurs boucls afin dobtenir des modles de simulation
du processus. Cela revient considrer un modle hypothse de type bruit de
sortie (Output Error).
Du point de vue des performances obtenues, les deux types de rseaux
utiliss dans les mmes conditions aboutissent gnralement des modles de
prcision trs proche.
Une comparaison des deux algorithmes que nous utilisons sur lexemple
de la modlisation du processus rel, sur la base de la frquence doccurrence de la
meilleure solution trouve a montr que lalgorithme de LevenbergMarquardt
possde un avantage sur la mthode de BFGS. Cette tendance a t observe de
faon similaire sur les rseaux dondelettes et sur les rseaux de fonctions
sigmodes. Il n'est videmment pas possible de gnraliser ce rsultat partir de
ce seul exemple, qui a pour caractristique de porter sur un rseau comprenant un
trs petit nombre d'ondelettes, mais il pourrait tre intressant de mener une
comparaison plus systmatique des deux algorithmes sous cet angle.
III.3 Modlisation dtat.
Nous nous proposons prsent de modliser ce processus avec une
reprsentation dtat variables dtat libres (non mesures). Nous conservons
un ordre 2 (N s = 2) et une mmoire de 1 sur lentre de commande (N e = 1).
L'tat n'tant pas mesur, le prdicteur ne peut tre que boucl. Ce
prdicteur est optimal dans le cas ou le processus est non bruit, ou si l'on est e n
prsence dun bruit additif en sortie. Le prdicteur ainsi construit n'est pas u n
estimateur de l'tat : son seul rle est de modliser le comportement entre
sortie du processus.
Nous effectuons lapprentissage de rseaux ralisant les fonctions
suivantes :

x1(k+1) = 11 x1(k), x2(k),u(k)


x2(k+1) = 12 x1(k), x2(k),u(k)

(6)

y(k+1) = 2 x1(k), x2(k),u(k)


Les fonctions 11, 12 et 2 sont des fonctions ralises laide dun rseau
dondelettes (figure 13 du chapitre III) ou dun rseau de fonctions dorsales (figure
8 du chapitre II).
Les apprentissages ont t effectus laide de lalgorithme de BFGS. En
effet, nous avons vu dans le chapitre III que le calcul du gradient dans le sens
direct, ncessaire pour la mise en uvre de l'algorithme de LevenbergMarquardt, est coteux, dun point de vue numrique, pour des rseaux dtat.

132

tude de quelques exemples


III.3.1 Rseau prdicteur d'tat fonctions dondelettes.
Nous effectuons lapprentissage de plusieurs architectures de rseaux
dondelettes, dans les mme conditions que prcdemment.
Linitialisation des rseaux dondelettes dans le cas de lapprentissage dun
prdicteur dtat boucl prsente une difficult particulire : en effet, les tats
n'tant pas connus a priori, le domaine des entres dtat nest pas connu. Or
lapplication de la procdure dinitialisation propose pour les rseaux
dondelettes fonds sur la transforme continue (chapitre III) ncessite la
connaissance de ces domaines.
On peut nanmoins remarquer que, en dbut dapprentissage, les valeurs
des variables dtat en sortie du rseau sont au maximum gales aux
2
pondrations, lesquelles sont uniformment distribues dans lintervalle [10 ,
2

10 ]. Sous rserve que la sortie soit centre en zro, la procdure dinitialisation


valable pour les rseaux de type entresortie reste donc applicable pour des
rseaux dtat.
Le tableau 11 illustre les rsultats obtenus pour des rseaux constitus de 1
et 2 ondelettes.
Nombre
dondelettes.

Nombre de
paramtres.

EQMA

Meilleure EQMP sur 50


apprentissages

19

0,38

0,42

28

0,091

0,15

Tableau 11. Rsultats de la modlisation du processus rel avec rseaux dtat de


fonctions ondelettes.
La meilleure performance est donc obtenue avec un rseau de 2 ondelettes
(comme pour le modle de type entresortie). Cette performance est trs proche
de celle obtenue avec un modle entre-sortie (voir tableau 7) mais nous n e
sommes pas arrivs amliorer cette dernire bien que les rseaux dtat
constituent une reprsentation plus gnrale que les rseaux entre-sortie. Ce
phnomne peut sexpliquer par une taille insuffisante de la squence
dapprentissage. En effet, dans les rsultats obtenus en modlisation entre-sortie,
on remarque que les performances se dgradent souvent pour des rseaux de plus
de 25 coefficients ; d'autre part, il faut au moins deux fonctions non linaires pour
modliser correctement ce processus. tant donn les rseaux dtat dondelettes
que nous utilisons, ces deux conditions (un rseau de moins de 25 coefficients et
constitu dau moins deux fonctions) ne peuvent tre remplies simultanment.

133

tude de quelques exemples


III.3.2 Rseau prdicteur d'tat fonctions dorsales.
Nous considrons prsent des modles dtat constitus de rseaux de
neurones une couche de fonctions sigmodes et un neurone de sortie linaire.
On peut faire la mme remarque concernant le nombre de paramtres. Un rseau
dtat deux fonctions sigmodes contient 26 coefficients ajustables. Dans le cas
dun rseau entresortie, ce nombre de paramtres aboutit gnralement u n
surajustement comme le montrent les rsultats prsents plus haut.
Le tableau 12 donne le meilleur rsultat obtenu pour des architectures
constitus de 1 3 fonctions sigmodes.
Nombre de
sigmodes

Nombre de
paramtres.

EQMA

Meilleure EQMP sur 50


apprentissages

19

0,24

0,34

26

0,091

0,18

33

0,058

0,18

Tableau 12. Rsultats de la modlisation du processus rel avec rseaux dtat de


fonctions sigmodes.
A partir dun rseau de 2 neurones, on obtient un critre dapprentissage
meilleur que celui ralis par un rseau dentresortie constitu par le mme
nombre de fonctions. En revanche, la performance nest pas amliore. Ceci tend
confirmer lhypothse concernant lexistence dun phnomne
de
surajustement pour des rseaux de plus de 24 coefficients.

III.3.3 Rseau prdicteur dtat fonctions dorsales dont la sortie est lun des tats.
On se propose dutiliser pour la modlisation du processus rel des
modles dtat particuliers dont la sortie est considre comme un tat. Ce type de
rseau a t introduit la fin du chapitre III et le calcul du gradient de la fonction
de cot dans le cas de rseaux dondelettes est prsent en annexe de ce mmoire.
Dans la suite, nous prsentons les rsultats obtenus en utilisant de tels
rseaux fonds sur des neurones fonctions dorsales sigmodes. Ils ralisent des
modles de la forme :
y(k+1)=x1(k+1) = 1 x1(k), x2(k),u(k)
(7)
x2(k+1) = 2 x1(k), x2(k),u(k)
Le tableau 13 illustre les meilleurs rsultats sur 50 apprentissages effectus
pour chaque rseau de 1 3 neurones cachs. L'utilisation des rseaux contenant
plus de neurones namliore pas la performance.
134

tude de quelques exemples

Nombre de
sigmodes

Nombre de
paramtres.

EQMA

Meilleure EQMP sur 50


apprentissages

14

0,2

0,28

20

0,12

0,15

26

0,071

0,117

Tableau 13. Rsultats de la modlisation du processus rel avec rseaux dtat de


fonctions sigmodes dont la sortie est un tat.
Le rseau 3 neurones prsente la meilleure performance que nous ayons
obtenue pour la modlisation de ce processus rel, pour tous types de rseaux et
de modles. Dautre part, ce rseau dtat 3 fonctions sigmodes contient 26
paramtres ajustables soit moins quun rseau deux tats libres ayant le mme
nombre de neurones cachs. La figure suivante montre larchitecture de ce
rseau :
y(k+1)=x1(k+1)

x2(k+1)

q 1

u(k)

x2(k)
y(k)=x1(k)

Figure 10. Rseau dtat 3 fonctions sigmodes dont la sortie est un tat.
III.3.4 Conclusion de la modlisation dtat.
Du point de vue de la reprsentation mathmatique, les rseaux dtat
constituent des modles plus gnraux que ceux de type entresortie.
Nous avons modlis un processus rel laide de prdicteurs dtat fonds
sur des rseaux dondelettes et de fonctions dorsales sigmodes. Les rsultats
obtenus montrent que, pour un mme nombre de fonctions, un apprentissage
avec un rseau dtat prsente une meilleure prcision que celui avec un rseau
entresortie. En revanche, les performances ne sont pas meilleures.
135

tude de quelques exemples


Sur la base des observations effectues sur les rsultats de la modlisation
entresortie, il est trs probable que ceci est d un phnomne de
surajustement. En effet, pour un mme nombre de fonctions, les rseaux dtat
prsentent plus de paramtres ajustables que les rseaux entresortie. Les
rsultats obtenus dans le paragraphe prcdent avec un rseau dtat ayant moins
de paramtres nombre de neurones gal (ceci est possible en choisissant la sortie
comme un tat) sont cohrents avec cette hypothse.
IV . CONCLUSION.
Nous avons tudi la modlisation de deux processus laide de rseaux
dondelettes (fonds sur la transforme continue) et de rseaux de neurones
boucls. Les rsultats obtenus montrent que les deux types de rseaux, pour u n
mme nombre de fonctions, permettent dobtenir des modles de performances
trs souvent quivalentes.
Dautre part, nous avons effectu une comparaison des deux algorithmes
dapprentissage utiliss dans ce mmoire. Cette comparaison est fonde sur la
frquence doccurrence dune solution parmi plusieurs apprentissages effectus
pour une mme architecture de rseau. Il apparat que, pour les exemples tudis
dans ce mmoire, lalgorithme de Levenberg-Marquardt possde une meilleure
robustesse vis--vis de linitialisation alatoire des paramtres des rseaux.
La modlisation laide dun rseau dtat dont la sortie est un tat a
permis damliorer les performances obtenues pour le processus rel avec des
rseaux entresortie et dtat. Le rsultat obtenu avec un rseau de trois
sigmodes et gal celui ralis dans [Rivals95b] avec un rseau de neurones
dtat compltement connect deux sigmodes.

136

Conclusion

Conclusion
Le travail dont nous avons rendu compte dans le prsent mmoire porte sur
l'tude des rseaux d'ondelettes pour la modlisation de processus. Compte tenu
des succs rencontrs au cours des dernires annes par les rseaux de neurones,
il tait intressant, dans la perspective des travaux antrieurs du Laboratoire,
d'tudier les possibilits de mise en uvre des rseaux d'ondelettes, tant pour la
modlisation statique que pour la modlisation dynamique, et de comparer leurs
performances avec celles des rseaux de neurones classiques utilisant des fonctions dorsales comme les sigmodes ou les gaussiennes. Nous avons propos une
procdure simple, pour lapprentissage des rseaux de fonctions dorsales gaussiennes. Cette procdure, qui agit en cours dapprentissage, permet une mise e n
uvre efficace des ressources dont dispose un rseau, c'est--dire de ses neurones
cachs.
Nous avons ensuite propos une mthodologie de mise en uvre des fonctions
ondelettes pour la modlisation statique et dynamique de processus. Nous avons
spar le problme en deux parties, correspondant chacune un type de transforme en ondelettes. En effet, les paramtres des ondelettes peuvent
soit prendre nimporte quelle valeur relle (approche fonde sur la transforme en ondelettes continue),
soit tre choisis sur une grille rgulire (approche fonde sur la transforme e n
ondelettes discrte).
Lapproche fonde sur la transforme continue.
Nous avons propos une mthodologie de mise en uvre de rseaux
dondelettes boucls et non boucls, dans laquelle on peut considrer tous les
paramtres des ondelettes comme des paramtres ajustables : lapprentissage
de ces rseaux peut donc tre effectu par minimisation d'une fonction de
cot l'aide de techniques de gradient. Une procdure dinitialisation simple, ncessitant trs peu de calculs, permet de prendre en considration la
proprit de localit des fonctions.
Les rsultats obtenus lors de lutilisation de ces rseaux, pour la modlisation
de quelques processus (simuls et rels) possdant un petit nombre d'entres, ont montr quils possdent des proprits de parcimonie quivalentes
celles des rseaux de neurones, si l'on considre le nombre de fonctions
utilises par le rseau pour atteindre la prcision recherche. En revanche,
pour le mme nombre de fonctions, un rseau dondelettes comporte plus
de paramtres quun rseau de fonction dorsales. De plus, les expriences que
nous avons effectues concernant le problme matre-lve ont montr que
la capacit des rseaux d'ondelettes retrouver le rseau matre est trs inf138

Conclusion
rieure celle des rseaux de neurones ds que la dimension du problme est
suprieure 3 ou 4.
Lapproche fonde sur la transforme discrte.
Cette approche permet la construction de rseaux tirant partie des proprits
spcifiques de ces bases de fonctions. Les paramtres de ces fonctions tant
valeurs discrtes, il n'est pas possible d'utiliser des techniques de gradient
pour l'apprentissage. La dmarche que nous avons adopte consiste construire des rseaux par slection d'ondelettes parmi celles dune bibliothque
tablie cet effet. Une telle dmarche a t utilise par d'autres auteurs pour
des applications de modlisation et de commande, mais elle conduit des
rseaux peu parcimonieux. Nous avons propos dutiliser cette dmarche
pour linitialisation des apprentissages des rseaux dondelettes fonds sur la
transforme continue. La modlisation de processus simuls nous a permis
de mettre en vidence lapport de cette procdure dinitialisation.
Loptimisation non linaire est l'outil fondamental pour lapprentissage de
rseaux de fonctions paramtres. Afin de permettre l'utilisation dune famille d'algorithmes plus tendue pour l'apprentissage de rseaux boucls,
entre-sortie et dtat, nous avons prsent le calcul du gradient dans le sens
direct. La mise en uvre de rseaux d'ondelettes boucls constitue un des
apports originaux de notre travail, qui a fait l'objet d'une publication dans
une revue internationale. Nous avons galement pu comparer les performances de deux algorithmes du second ordre couramment utiliss pour
l'optimisation de la fonction de cot lors de l'apprentissage de rseaux, boucls ou non : l'algorithme de Levenberg-Marquardt et l'algorithme BFGS.
En rsum, deux conclusions ressortent de cette tude.
Les rseaux d'ondelettes, boucls ou non, fonds sur la transforme continue,
peuvent constituer une alternative intressante aux rseaux de neurones conventionnels, fonction dorsale sigmodale, pour constituer des modles, statiques ou dynamiques, de processus comportant un petit nombre d'entres. Notre travail sur l'initialisation des coefficients et sur les algorithmes d'apprentissage du second ordre nous a permis de proposer des procdures de mise e n
uvre de complexit analogue celle des rseaux de neurones. En revanche,
l'accroissement du nombre de paramtres en fonction du nombre d'entres est
plus rapide que pour des rseaux de sigmodes.
Les rseaux d'ondelettes fonds sur la transforme discrte sont moins parcimonieux que les prcdents ; en revanche, la mthode de slection d'ondelettes
139

Conclusion
paramtres discrets peut tre mise profit pour l'initialisation des translations et dilatations de rseaux d'ondelettes fonds sur la transforme continue.

140

Bibliographie

Bibliographie
[Battiti92]
R. Battiti
"First and Second Order Methods for Learning : Between
Methods and Newton's Method.
Neural Computation, Vol. 4, No.2, pp. 141-166, 1992

Steepest Descent

[Behera95]
L. Behara, M. Gopal & S. Chaudhury
"Inversion of RBF Networks and Applications to Adaptive Controlof N o n l i n e a r
Systems."
IEE Proceedings, Control Theory Appl., Vol. 142, No. 6, pp. 617-624, 1995
[Bishop95]
C. Bishop
Neural Networks for Pattern Recognition.
Clarendon Press Oxford, New York, 1995
[Baron97]
R. Baron
Contribution ltude des Rseaux dOndelettes.
Thse de Doctorat de lcole Normale Suprieure de Lyon, 1997
[Barron93]
A. R. Barron
Universal Approximation Bounds for Superpositions of a Sigmoidal Function.
IEEE Transactions on Information Theory IT-39, pp. 930-945, 1993
[Broom88]
D. S. Broomhead & D. Lowe
"Multivariable Functional Interpolation and Adaptive Networks."
Complex Systems, Vol. 2, pp. 321-355, 1988
[Cannon95]
M. Cannon & J. J. E. Slotine
"Space-Frequency Localized Basis Function Networks
Estimation and Control."
Neurocomputing Vol. 9, No. 3, pp. 293-342, 1995

for Nonlinear

System

[Caprile90]
B. Caprile & F. Girosi
A non deterministic minimization algorithm.
A.I. Memo 1254, Artificial Intelligence Laboratory, Massachusetts Institute of
Technology, Cambridge, MA, 1990

142

Bibliographie
[Chen89]
S. Chen, S.A. Billings, W. Luo
Orthogonal Least Squares Methods and Their Application to Nonlinear System
Identification.
Int. Journal of Control, Vol. 50, No. 5, pp. 1873-1896, 1989
[Chen90]
S. Chen, A. Billings, C. F. N. Cowan & P. M. Grant
"Practical Identification of NARMAX models using Radial Basis Functions."
Int. Journal of Control, Vol. 52, No. 6, pp. 1327-1350, 1990
[Chentouf96]
R. Chentouf & C. Jutten
"Combining Sigmoids and Radial Basis Functions in Evolutive Neural
Architectures."
In Proceedings of the European Symposium on Artificial Neural Networks
(ESANN 96), Bruges, Belgium, Avril 1996
[Cohen96]
A. Cohen & J. Kovacheckevic
"Wavelets: The Mathematical Background."
Proceedings of the IEEE, Vol. 84, No. 4, pp. 514-522, 1996
[Cybenko89]
G. Cybenko
"Approximation by Superposition of a Sigmoidal Function."
Mathematics of control, signals and systems, Vol. 2, pp. 303-314, 1989
[Daubechies90]
I. Daubechies
"The Wavelet Transform, Time-Frequency Localization and Signal Analysis.
IEEE Transactions on information theory, Vol. 36, pp. 961-1005, 1990
[Daubechies92]
I. Daubechies
Ten Lectures on Wavelets.
CBMS-NSF regional series in applied mathematics, SIAM, Philadelphia, 1992
[Dreyfus98]
G. Dreyfus & Y. Idan
The canonical form of discrete-time non-linear models.
Neural Computation, Vol.10, No. 1, pp. 133-164, 1998

143

Bibliographie
[Elanayar94]
S. Elanayar & Y. C. Shin
"Radial Basis Function Neural Network for Approximation and Estimation o f
Nonlinear Stochastic Dynamic Systems."
IEEE Transactions On Neural Networks, Vol. 5, No. 4, pp. 594-603, 1994
[Friedman81]
J. H. Friedman & W. Stuetzle
"Projection Pursuit Regression."
Journal of the American Statistical Association. Theory and Methods Section,
Vol. 76, No. 376, pp. 817-823, Decembre 1981
[Funahashi89]
K. Funahashi
"On the Approximate Realization of
Networks."
Neural Networks, Vol. 2, pp. 183-192, 1989

Continuous

Mappings

by

Neural

[Girosi95]
F. Girosi, M. Jones & T. Poggio
"Regularization Theory and Neural Networks Architectures."
Neural Computation, Vol. 7, No. 2, pp.219-269, 1995
[Hartman90]
E. J. Hartman & J. M. Kowalski
"Layered Neural Networks with Gaussian
Approximations."
Neural Computation, Vol. 2, pp.210-215, 1990

Hidden

Units

as

Universal

[Hassibi93]
B. Hassibi & D. G. Stork
"Second Order Derivatives for Network Pruning: Optimal Brain Surgeon."
In Advances in Neural Information Processing Systems, Vol 5, S.J. Hanson, J.D.
Cowan and C.L. Giles, Eds., pp.164-172, Morgan-Kaufmann, Avril 1993
[Hirose91]
Y. Hirose, K. Yamashita & S. Hijiya
"Back-Propagation Algorithm Wich Varies the Number of Hidden Units."
Neural Networks, Vol. 4, No. 1, pp.61-66, 1991
[Hornik89]
K. Hornik, M. Stinchcombe & H. White
"Multilayer feedforward networks are universal approximators."
Neural Networks 2, pp. 359-366, 1989
144

Bibliographie
[Hornik94]
K. Hornik, M. Stinchcombe, H. White & P. Auer
"Degree of Approximation Results for Feedforward Networks
Unknown Mappings and Their Derivatives."
Neural Computation, Vol. 6, No. 6, pp.1262-1275, 1994

Approximating

[Huber85]
P. J. Huber
"Projection Pursuit."
The Annals of Statistics, Vol. 13, No. 2, pp.435-475, 1985
[Hwang94]
J-N. Hwang, S-R. Lay, M. Maechler, R. douglas Martin & J. Schimert
"Regression Modeling in Back-Propgation and Projection Pursuit Learning."
IEEE Transactions on Neural Networks, Vol. 5, No. 3, pp.342-353, 1994
[Jordan85]
M. I. Jordan,
The Learning of Representations for Sequential Performance.
Thse de Doctorat, University of California, San Diego, 1985
[Juditsky94]
A. Juditsky, Q. Zhang, B. Delyon, P. Y. Glorennec & A. Benveniste
"Wavelets in Identification: wavelets, splines, neurons, fuzzies: how good f o r
identification?"
Rapport INRIA No. 2315, Septembre 1994
[Jutten95]
C. Jutten & R. Chentouf
"A New Scheme For Incremental Learning."
Neural Processing Letters, Vol. 2, No. 1, 1995
[Kuga95]
T. Kugarajah & Q. Zhang
Mutidimensional Wavelet Frames.
IEEE Trans. on Neural Networks, Vol. 6, No. 6, pp. 1552-1556, November 1995
[LeCun90]
Y. Le Cun, J. S. Denker & S. A. Solla
Optimal Brain Damage."
In Proceedings of the Neural Information Processing Systems-2, D. S. Touretzky
(ed.), pp. 598-605, Morgan-Kaufmann 1990

145

Bibliographie
[Lehtokangas95]
M. Lehtokangas, J. Saarinen, K. Kaski, P. Huuhtanen
"Initializing Weights of a Multilayer Perceptron
Orthogonal Least Squares Algorithm."
Neural Computation, Vol. 7, No. 5, pp. 982-999, 1995

Network

by Using

the

[Levenberg44]
K. Levenberg
A Method for the Solution of Certain Nonlinear Problems in Least Squares.
Quarterly Journal of Applied Mathematics II (2), pp. 164168, 1944
[Levin92]
A.U. Levin
Neural Networks in Dynamical Systems.
Thse de Doctorat, Yale University, New Haven (CT), 1992
[Ljung87]
L. Ljung
System Identification ; Theory for the User.
Prentice Hall, Englewood Cliffs, New Jersey 1987
[Mallat89]
S. Mallat
"A Theory for Multiresolution Signal Decomposition: The Wavelet Transform."
IEEE Trans. Pattern Anal. Machine Intell. Vol. 11, pp. 674-693, 1989
[Marquardt63]
D. W. Marquardt
"An Algorithm For Least-Squares Estimation of Nonlinear Parameters."
Journal of Soc. Indust. Appl. Math, Vol. 11, No. 2, pp. 431-441, June 1963
[Meyer85]
Y. Meyer
Principe dincertitude, bases hilbertiennes et algbres doprateurs.
Sminaire Bourbaki, Numro 662, 19851986
[Meyer90]
Y. Meyer
Ondelettes et Oprateurs I : Ondelettes.
Editions Hermann, 1990

146

Bibliographie
[Minoux83]
M. Minoux
Programmation Mathmatique : Thorie et Algorrithmes.
Editions Dunod, 1983
[Mohraz96]
K. Mohraz & Peter Protzel
"FlexNet: A Flexible Neural Network Construction Algorithm."
In Proceedings of the European Symposium on Artificial Neural Networks
(ESANN 96), Bruges, Belgium 1996
[Mukhopa93]
S. Mukhopadhyay & K. S. Narendra
Disturbance Rejection in Nonlinear Systems Using Neural Networks.
IEEE Trans. On Neural Networks Vol. 1, pp. 63-72, 1993
[Narendra90]
K. S. Narendra & K. Parthasarathy
"Identification and Control Of Dynamical Systems Using Neural Networks."
IEEE Trans. on Neural Networks Vol.1, pp. 4-27, 1990
[Nash80]
J. C. Nash
Compact Numerical Methods for Computers : Linear Algebra and Function
Minimization.
AdamHilger Ltd, Bristol, 1980
[Nerrand92]
O. Nerrand
"Rseaux de Neurones pour le Filtrage Adaptatif, l'Identification et la Commande
de Processus."
Thse de Doctorat de l'Universit Paris VI, 1992
[Nerrand93a]
O. Nerrand, P. Roussel-Ragot, L. Personnaz & G. Dreyfus
"Neural Networks and Non-linear Adaptive Filtering: Unifying Concepts a n d
New Algorithms."
Neural Computation, Vol. 5, pp 165-199, 1993
[Nerrand94]
O. Nerrand, P. Roussel-Ragot, D. Urbani, L. Personnaz & G. Dreyfus
"Training Recurrent Neural Networks : Why and How? An Illustration i n
Process Modeling."
IEEE Trans. on Neural Networks, Vol. 5, No. 2, pp. 178-184, 1994
147

Bibliographie
[Oussar98]
Y. Oussar, I. Rivals, L. Personnaz & G. Dreyfus
Training Wavelet Networks for Nonlinear Dynamic Input-Output Modeling.
Neurocomputing, in press.
[Park91]
J. Park & I. W. Sandberg
"Universal Approximation Using Radial-Basis-Function Networks."
Neural Computation Vol. 3, No. 2, pp. 246-257, 1991
[Pati93]
Y. C. Pati & P. S. Krishnaprasad
"Analysis and Synthesis of Feedforward Neural Networks Using Discrete Affine
Wavelet Transformations."
IEEE Trans. on Neural Networks Vol. 4, No. 1, pp. 73-85, 1993
[Powell85]
M. J. D. Powell
Radial Basis Functions for Multivariable Interpolation : A Review.
IMA Conference on Algorithms for the Approximation of Functions and Data,
RMCS Shrivenham, UK, 1985
[Pucar95]
P. Pucar & M. Millnert
"Smooth Hinging Hyperplanes - An Alternative to Neural Nets."
Proceedings of 3rd European Control Conference, Vol. 2, pp. 1173-1178, Italy,
September 1995
[Reed93]
R. Reed
"Pruning Algorithms - A Survey."
IEEE Transactions on Neural Networks, Vol. 4, No. 5, pp. 740-747, 1993
[Rivals95a]
I. Rivals
"Modlisation et Commande de Processus par Rseaux de Neurones; Application
au Pilotage d'un Vhicule Autonome."
Thse de Doctorat de l'Universit Paris 6 ,1995

148

Bibliographie
[Rivals95b]
I. Rivals, L. Personnaz, G. Dreyfus & J.L. Ploix
Modlisation, classification et commande par rseaux de neurones : principes
fondamentaux, mthodologie de conception et illustrations industrielles.
Dans : Les rseaux de neurones pour la modlisation et la commande de procds,
J.P. Corriou, coordonnateur (Lavoisier Tec et Doc), 1995
[Rivals96]
I. Rivals & L. Personnaz
"Black Box Modeling With State Neural Networks."
In Neural Adaptive Control Technology I, R. Zbikowski and K. J. Hunt eds.,
World Scientific, 1995
[Rumelhart86]
D. E. Rumelhart, and J. L. McClelland
Parallel Distributed Processing,.
MIT Press, Cambridge, MA, 1986
[Sanner92]
R. Sanner & J. J. E Slotine
"Gaussian Networks for Direct Adaptive Control."
IEEE Transactions on Neural Networks, Vol. 3, No. 6, pp. 837-863, 1992
[Sanner95]
R. Sanner & J. J. E Slotine
"Stable Adaptive Control of Robot Manipulators Using Neural Networks."
Neural Computation, Vol. 7, No. 4, pp. 753-790, 1995
[Sberg95]
J. Sjberg, Q. Zhang, L. Ljung, A. Benveniste, B. Delyon, Et Al
Nonlinear BlackBox Modeling in System Identification: a Unified Overview.
Automatica, Vol. 31, No. 12, pp. 1691-1724, 1995
[Sontag93]
Neural Networks for Control.
In Essays on Control: perspectives in the theory and its applications.
H. L. Trentelman & J. C. Willems Editions, Birkhuser, Boston 1993
[Stoppi97]
H. Stoppiglia
Mthodes statistiques de slection de modles
financires et bancaires.
Thse de Doctorat de l'Universit Paris 6, 1997

neuronaux;

applications

149

Bibliographie
[Torr95]
B. Torrsani
Analyse Continue par Ondelettes.
InterEditions / CNRS Editions, Paris 1995
[Urbani95]
D. Urbani
"Mthodes Statistiques de Slection d'Architectures Neuronales: Application l a
Conception de Modles de Processus Dynamiques."
Thse de Doctorat de l'Universit Paris 6, 1995
[Walter94]
E. Walter & L. Pronzato
Identification de modles paramtriques partir de donnes exprimentales.
Editions Masson, Paris 1994
[Yang96]
S. Yang & C. Tseng
An Orthogonal Neural Network for Function Approximation.
IEEE Transactions on Systems, Man and Cybernetics Part B: Cybernetics. Vol. 26,
No. 5, pp. 779-785, 1996
[Zhang92]
Q. Zhang & A. Benveniste
"Wavelet Networks."
IEEE Trans. on Neural Networks Vol. 3, No. 6, pp. 889-898, 1992
[Zhang93]
Q. Zhang
Regression Selection and Wavelet Network Construction.
Rapport interne de lINRIA N. 709, Projet AS, Avril 1993
[Zhang95]
J. Zhang, G. G. Walter, Y. Miao & W. N. Wayne Lee
"Wavelet Neural Networks For Function Learning."
IEEE Trans. on Signal Processing, Vol. 43, no. 6, pp. 1485-1497, 1995
[Zhang97]
Q. Zhang
Using Wavelet Network in Nonparametric Estimation.
IEEE Trans. on Neural Networks, Vol. 8, No. 2, pp. 227-236, 1997

150

Annexe A
Training Wavelet Networks for Nonlinear Dynamic InputOutput Modeling
Article accept pour publication dans Neurocomputing

Neurocomputing, in press.

Training Wavelet Networks for Nonlinear Dynamic


Input-Output Modeling.
Y. Oussar, I. Rivals, L. Personnaz, G. Dreyfus
Laboratoire dlectronique
cole Suprieure de Physique et Chimie Industrielles
10, rue Vauquelin
F - 75231 PARIS Cedex 05, FRANCE.
Phone: 33 1 40 79 45 41 Fax: 33 1 40 79 44 25
E-mail: Yacine.Oussar@espci.fr

Abstract
In the framework of nonlinear process modeling, we propose training algorithms for
feedback wavelet networks used as nonlinear dynamic models. An original
initialization procedure is presented, that takes the locality of the wavelet functions
into account. Results obtained for the modeling of several processes are presented; a
comparison with networks of neurons with sigmoidal functions is performed.

Keywords: Training, Wavelet networks, Nonlinear dynamic modeling, Neural


networks, Feedback networks, Recurrent networks.

1. INTRODUCTION.
During the past few years, the nonlinear dynamic modeling of processes by neural networks
has been extensively studied. Both input-output [7] [8] and state-space [5] [14] models were
investigated. In standard neural networks, the non-linearities are approximated by superposition
of sigmoidal functions. These networks are universal approximators [2] and have been shown
to be parsimonious [3].
Wavelets are alternative universal approximators; wavelet networks have been investigated in
[17] in the framework of static modeling; in the present paper, we propose a training algorithm
for feedback wavelet networks used as nonlinear dynamic models of processes. We first
present the wavelets that we use and their properties. In section 3, feedforward wavelet
networks for static modeling are presented. In section 4, the training systems and algorithms for
dynamic input-output modeling with wavelet networks, making use of the results of section 3,
are described. For illustration purposes, the modeling of several processes by wavelet networks
and by neural networks with sigmoidal functions is presented in section 5.

2. FROM ORTHOGONAL WAVELET DECOMPOSITION TO WAVELET


NETWORKS.
The theory of wavelets was first proposed in the field of multiresolution analysis; among
others, it has been applied to image and signal processing [6]. A family of wavelets is
constructed by translations and dilations performed on a single fixed function called the mother
wavelet. A wavelet j is derived from its mother wavelet by
x mj
j (z) =
(1)
dj
where its translation factor m j and its dilation factor dj are real numbers (dj > 0). We are
concerned with modeling problems, i.e. with the fitting of a data set by a finite sum of
wavelets. There are several ways to determine the wavelets for this purpose:
From orthogonal wavelet decomposition theory, it is known that, with a suitable choice of ,
and if mj and dj are integers satisfying some conditions, the family j forms an orthogonal
wavelet basis. A weighted sum of such functions with appropriately chosen m j and dj can
thus be used; in this way, only the weights have to be computed [18].
Another way to design a wavelet network is to determine the mj and dj according to a spacefrequency analysis of the data; this leads to a set of wavelets which are not necessarily
orthogonal [10] [1].
Alternatively, one can consider a weighted sum of wavelets functions whose parameters m j
and dj are adjustable real numbers, which are to be trained together with the weights.
In the latter approach, wavelets are considered as a family of parameterized nonlinear functions
which can be used for nonlinear regression; their parameters are estimated through "training".
The present paper introduces training algorithms for feedback wavelet networks used for
dynamic modeling, which are similar in spirit to training algorithms used for feedback neural
networks.
Choice of a mother wavelet
In the present paper, we choose the first derivative of a gaussian function,
1
(x) = x exp x 2 as a mother wavelet. It may be regarded as a differentiable version of
2
the Haar mother wavelet, just as the sigmoid is a differentiable version of a step function, and it
has the universal approximation property [17]. This mother wavelet has also been used in
reference [17]. More complex wavelet functions, such as the second derivative of the gaussian
(as in [1]) may be used, but they will not be considered here.
The wavelet network.
In the case of a problem with N i inputs, multidimensional wavelets must be considered. The
simplest, most frequent choice ([1], [6], [17], [18]) is that of separable wavelets, i.e. the
product of Ni monodimensional wavelets of each input:
Ni
x mjk
j(x) = z j k with zjk = k
(2)
d
jk
k= 1
2

where mj and dj are the translation and dilation vectors. We consider wavelet networks of the
form:
Nw

Ni

y = (x) = cjj(x) + a0 + akxk .


j=1

(3)

k=1

(3) can be viewed as a network with Ni inputs, a layer of N w wavelets of dimension N i , a bias
term, and a linear output neuron. When linear terms are expected to play an important role in the
model, it is customary to have additional direct connections from inputs to outputs, since there
is no point in using wavelets for reconstructing linear terms. Such a network is shown in Figure
1.
y

c1

c2

a0

Linear output neuron


cNw

. . . .

a1

Nw

Layer of
wavelets

aNi

. . . . . .
1

x1

x2

x Ni

Figure 1. A feedforward wavelet network.

3. STATIC MODELING USING FEEDFORWARD WAVELET NETWORKS.


Static modeling with wavelet networks has been investigated by other authors in [17]. In order
to make the paper self-contained, we devote the present section to introducing notations and to
recalling basic equations which will be used in Section 4 for dynamic modeling.
We consider a process with Ni inputs and a scalar output y p . Steady-state measurements of the
inputs and outputs of the process build up a training set of N examples x n ,y pn ,
x n = x 1n , , xNn i T being the input vector for example n and y pn the corresponding measured
process output. In the domain defined by the training set, the static behavior of the process is
assumed to be described by:
y pn = f x n + w n
n = 1 to N
(4)
where f is an unknown nonlinear function, and w n denotes a set of independent identically
distributed random variables with zero mean and variance w2 .
We associate the following wavelet network to the assumed model (4):
y n = x n ,
n = 1 to N
(5)
where yn is the model output value related to example n, the nonlinear function is given by
3

relation (3), and is the set of adjustable parameters:


= m jk, djk, cj, ak, a0 with j = 1 , ... , Nw and k = 1 , ... , Ni

(6)

is to be estimated by training so that approximates the unknown function f on the domain


defined by the training set.
3.1. Training feedforward wavelet networks.
As usual, the training is based on the minimization of the following quadratic cost function:
J ( ) = 1
2

y pny n 2

n=1

=1
2

en 2

(7)

n=1

The minimization is performed by iterative gradient-based methods.


The partial derivative of the cost function with respect to is:
N
J
y n
= en

n=1
y
y n
is a short notation for
. The components of the latter vector are:
where
x = xn

(8)

- parameter a0:
y n

=1

(9)

a 0
- direct connection parameters:
y n
a k

= xkn

k = 1 , ... , Ni

(10)

- weights:
y n
= j(x n) j = 1 , ... , Nw
cj

(11)

- translations:
cj j
y n
=
mjk
djk zjk

k = 1 , ... , Ni and j = 1 , ... , Nw

(12)

x=x

with
j

where ' z jnk

n z n ... ' z n ... z n


= z j1
j2
jk
jN i

(13)
z jk x = x n
is the value of the derivative of the scalar mother wavelet at point z jnk:
d(z)
' z jnk =
(14)
dz z=zjkn

- dilations:
cj n j
y n
=
z
djk
djk jk zjk

x=xn

k = 1 , ... , Ni and j = 1 , ... , Nw

At each iteration, the parameters are modified using the gradient (8), according to:

(15)

= M

(16)

where M is some definite positive matrix (M = Id, >0 in the case of a simple gradient
descent, or M = H -1, >0 where H -1 is an approximation, updated iteratively, of the inverse
Hessian, for quasi-Newton methods).
3.2. Initialization of the network parameters.
Initializing the wavelet network parameters is an important issue. Similarly to Radial Basis
Function networks (and in contrast to neural networks using sigmoidal functions), a random
initialization of all the parameters to small values (as usually done with neural networks) is not
desirable since this may make some wavelets too local (small dilations) and make the
components of the gradient of the cost function very small in areas of interest. In general, one
wants to take advantage of the input space domains where the wavelets are not zero.
1
Therefore, we propose an initialization for the mother wavelet (x) = x exp x 2 based on
2
the input domains defined by the examples of the training sequence. We denote by [ k, k] the
domain containing the values of the k-th component of the input vectors of the examples. We
initialize the vector m of wavelet j at the center of the parallelepiped defined by the N i intervals
{[ k, k]}: m jk = 1 k + k . The dilation parameters are initialized to the value 0.2 k k
2
in order to guarantee that the wavelets extend initially over the whole input domain. The choice
of the a k (k = 1 , ... , Ni ) and cj ( j = 1 , ... , Nw ) is less critical: these parameters are
initialized to small random values.
3.3. Stopping conditions for training.
The algorithm is stopped when one of several conditions is satisfied: the Euclidean norm of the
gradient, or of the variation of the gradient, or of the variation of the parameters, reaches a
lower bound, or the number of iterations reaches a fixed maximum, whichever is satisfied first.
The final performance of the wavelet network model depends on whether: (i) the assumptions
made about the model (relation 4) are appropriate, (ii) the training set is large enough, (iii) the
family contains a function which is an approximation of f with the desired accuracy in the
domain defined by the training set, (iv) an efficient (i.e. second-order) training algorithm is
used.
4. DYNAMIC MODELING USING WAVELET NETWORKS.
We propose to extend the use of wavelet networks to the dynamic modeling of single-inputsingle-output (SISO) processes. The training set consists of two sequences of length N: the
input sequence u n and the measured process output y p n . As in the static case, the aim is
to approximate f by a wavelet network.
Depending on the assumptions about the noise, either feedforward or feedback predictors may
5

be required [9]. For example, if it is assumed that the noise acting on the process is state noise
(see for instance equation (35) of section 5.2), i.e. if a Nonlinear AutoRegressive with
eXogeneous inputs (NARX, or Equation Error) model
(17)
yp(n) = f yp n 1) , yp n 2 , ..., yp n Ns , u n 1 , ..., u n Ne + wn
is assumed to be valid, then the optimal associated predictor is a feedforward one, whose inputs
are past outputs of the process yp and the external inputs u:
(18)
y(n) = f yp n-1 , yp n-2 , ... , yp n-Ns , u n-1 , ... , u n-Ne .
f is a unknown nonlinear function, which is to be approximated by a wavelet network given
by (3).
Conversely, if it is assumed that the noise is output noise, i.e. if an Output Error model
s(n) = f s n 1) , s n 2 , ..., s n Ns , u n 1 , ..., u n Ne
(19)
yp(n) = s(n) + w(n)
is assumed to be valid, then the optimal associated predictor is a feedback one, whose inputs are
past outputs of the model y and the external inputs u:
(20)
y(n) = f y n-1 , y n-2 , ... , y n-Ns , u n-1 , ... , u n-Ne
In the absence of noise, either feedforward or feedback predictors can be used. If the goal is the
design of a simulation model, i.e. of a model that can compute the output more than one time
step ahead, a feedback predictor should be trained [9].
n all cases, is to be estimated so that approximates the unknown function f on the domain
defined by the training set.
We define the copy n (n = 1,..., N) as the wavelet network configuration giving y(n) at its
output in the case of a feedforward predictor, and as the feedforward part of the network
canonical form in the case of a feedback predictor [8]. In order to keep the notations equivalent
with the previous section we note: y n = y(n).
4.1. Training feedforward wavelet predictors.
In this case, the N copies are independent, and the training is similar to that of a static model.
Therefore, the input vector of copy n can be viewed as the vector x n defined in section 3 and
y p n as the process output defined as y pn . More precisely, the inputs of copy n can be
renamed as:
- external inputs: x kn = u(n-k) with k = 1, ... , Ne
- state inputs: x kn = yp n-k+N e with k = Ne+1 , ... , Ne+N s
Since the state inputs of the copies are forced to the corresponding desired values, the predictor
is said to be trained in a directed [8], or teacher-forced [4] fashion.
4.2. Training feedback wavelet predictors.
In this case, the N copies are not independent: the N output values y n = y(n) of the network
may be considered as being computed by a large feedforward network made of N cascaded
copies of the feedforward part of the canonical form of the feedback network [8]: the state
6

inputs of copy n are equal to the state outputs of copy n-1. The inputs and outputs of copy n
are renamed as:
- external inputs: x kn = u n-k with k = 1 , ... , Ne.
- state inputs: x kn = y n-k+N e with k = Ne+1 , ... , Ne+N s.
- state outputs: xkn = y(n-k+Ne+Ns+1) with k = Ne+Ns+1 , ... , Ne+2Ns .
xNne+Ns+1 = y n = y n is the n-th value of the output of the network.
n
n , d n , c n , a n, a n
= m jk
with j = 1 , , N w and k = 1 , , N e+N s
jk j
k
0
is the set of parameters of copy n. The feedback predictor network and copy n are shown on
figure 2.
Since the state inputs of the first copy only are forced to desired values, the predictor is said to
be trained in a semi-directed fashion [8], (also known as backpropagation through time [15]: the
gradient of the cost function is computed by a single backpropagation through the N copies).
The gradient of J () = 1
2

ypn y n 2

n=1

=1
2

e n 2 with respect to can be expressed as the

n=1

sum of the gradient with respect to each of the N copies n of :


N
N
J y n
J
J
=
=
(21)

n
n
n=1
n=1 y n
y n y n y n y n y n
y n
,
,
,
,
which
are
the
components
of
are
The analytical expressions of
n
n c n an an
n
m jk
d jk
j
k
0

identical to those given (without superscript n for ) in relations (9) (15), for the training of
feedforward nets.
The set of partial derivatives

J
y n

can be computed by backpropagation through the

feedforward network consisting of the N cascaded copies.


We introduce the intermediate variables {q kn }, q kn being the partial derivative of -J with respect
to x kn , the state variable x k of the n-th copy:
J
q kn =
(22)
x kn
Copy N:
- output:
N
qout
= qNNe+Ns+1 = e N

- other output state variables:


q kN = 0
- for the Ns state inputs :
Nw

qkN =

akN +

with
cjN j

N
j=1 djk

N
zjk

k = Ne+N s+2 , ... , Ne+2 Ns


N
qout
with k = Ne+1 , ... , Ne+Ns

(23)
(24)

(25)

Copies n = N-1 to 2:
- output:
n
qout
= e n + qNn+1
e+1

(26)

y(n)

y(n-1) y(n-2)

....

1
1

....
1

u(n-1)

. . . . .

y(n- N s+1)

...
Unit
delays

N w

....

...

u(n-Ne ) y(n-1) y(n-2)

y(n- Ns)

(a)
Ns output state variables
n

y n = x Ne +Ns+1

x Ne +2Ns

....

1
1

. . . . .

....
1

x1

1
Nw

....
n

x Ne

Ne external inputs

x Ne+1

x Ne +Ns

Ns input state variables

(b)
Figure 2. (a) feedback predictor network; (b) n-th copy for training.

- other output state variables:


n+1
qkn = qk-N
s

with k = Ne+Ns+2 , ... , Ne+2 Ns

- the Ns-1 first state inputs :

(27)

Nw
n
qkn = qk+N
+
s+1

akn +

cjn j

n
j=1 djk

n
zjk

n
qout
with k = Ne+1 , ... , Ne+Ns-1

(28)

- the last state input :


Nw

qNn e+Ns

aNn e+Ns

j=1

cjn j n
qout
n z n
d jk
jk

(29)

Copy 1:
- output:
1
qout
= e 1 + qN2 e+1

(30)

5. SIMULATION RESULTS.
In this section we make use of the above algorithms for training input-output wavelet networks
on data gathered from simulated and from real processes, and we make use of the algorithms
presented in [8] for training input-output neural networks with one hidden layer of sigmoidal
neurons on the same data.
The wavelet networks are input-output models as defined by (18) or (20), where the unknown
function f is approximated by wavelet networks whose mother wavelet is described in section 2
(derivative of a gaussian).
The neural networks used have one hidden layer of sigmoidal units and direct connections from
the inputs:
N

Ni

Ni

y (x) = cj tanh vj(x) + a0 + akxk with vj(x) = wjkxk


j=1

k=1

(31)

k=1

We denote by Training Mean Square Error (TMSE) the mean square error on the training set:
TMSE = 1
N

n=1

yp(n) y n 2 = 2 J
N

(32)

The performance of the model is estimated by the Performance Mean Square Error (PMSE),
computed on a test sequence.
The training procedure starts with a simple gradient method (500 iterations) which is followed
by a quasi-Newton method (BFGS with line search by Nash [11]).
5.1. Modeling of a simulated process without noise.
The process considered here is simulated with a second order nonlinear equation. This process
has been used to illustrate a selection procedure for neural models [16]. The output of the
process is given by:
y p (n) = f y p (n-1), y p (n-2), u(n-1) =

24 + y p n-1
u(n-1)2
y p n-2 + 0.5u n-1 (33)
y p n-1 0.8
30
1 + u(n-1)2

Since noise is absent, either feedforward or feedback predictors can be used. In order to obtain
a simulation model of the process, we chose to train a feedback predictor:
y(n) = y(n-1), y(n-2), u(n-1),
(34)
A training and a test sequence of 1000 samples each were generated. The input sequence for

both training and test consists of pulses with random amplitude in the range [-5,5] and with
random duration between 1 and 20 sampling periods. Figures 3a and 3b show the training
sequence.
6
4
2
0
-2
-4
-6

200

400

600

800

1000

600

800

1000

(a)

-5
0

200

400

(b)
Figure 3: (a) Training input sequence; (b) Training output sequence.
Several feedback wavelet networks were trained, with fifty different initializations for each
network. The results corresponding to the minimal PMSE's are given in table 1. Additional
wavelets do not improve the performance.
Number of wavelets

Number of parameters

TMSE

PMSE

11

7.6 10-2

1.5 10-1

18

2.0 10-2

3.6 10-2

25

2.2 10-3

6.7 10-3

32

2.8 10-4

1.3 10-3

39

5.2 10-5

2.9 10-4

46

3.8 10-6

2.9 10-5

Table 1. Wavelet modeling results for the noiseless simulated process.


10

Several feedback neural networks were trained, with fifty different initializations for each
network. The results corresponding to the minimal PMSE's are given in table 2. Additional
hidden neurons do not improve the performance.
Number of sigmoids

Number of parameters

TMSE

PMSE

1.1 10-1

1.8 10-1

14

7.1 10-2

1.0 10-1

19

1.1 10-3

8.4 10-3

24

3.9 10-4

2.3 10-3

29

4.5 10-6

1.8 10-5

34

4.2 10-6

1.6 10-5

Table 2. Neural modeling results for the noiseless simulated process.


In this example, the two types of networks perform with roughly the same accuracy.
5.2. Modeling of a simulated process with noise.
The previous trainings were performed with noiseless data. In this section, we study the case
where a zero-mean noise acts on the process. As described in section 4, we consider two cases:
NARX models and Output Error models.
In the first one, the state variables of the model used for simulating the process are the output of
the process at times n and n-1, and the noise is added to the state variables. It is a NARX model
given by the following equation:
yp(n) = f yp(n-1), yp(n-2), u(n-1) + w(n)
(35)
where f is the function introduced in the previous section.
In the second case, the state variables of the model used for simulating the process are not
subject to noise, but noise is added to the output variable: it is an Output Error model given by
the following equations:
s(n) = f s(n-1), s(n-2), u(n-1)
(36)
yp(n) = s(n) + w(n)
where s(n) and s(n-1) are the state variables.
Since we are interested in black-box modeling, we generate training and test data from (35) or
(36). The input sequences used are identical to those shown in the previous section. The
processes are simulated with a noise of variance w2 = 10-2. Once the training and test sequences
are generated, we pretend not to know equations (35) and (36). Since we must make a decision
as to whether we train a feedforward predictor or a feedback predictor, we have to make an
assumption about the effect of noise on the process (output noise or state noise). The results
presented below have been obtained by making the right assumption: for modeling the data
generated by equation (35), we have trained a feedforward wavelet predictor, and, for modeling
11

the data generated by equation (36), we have used a feedback predictor (the adverse effect of
making the wrong assumption about the noise has been demonstrated in [8]).
Since we are modeling a process with noise, the goal is the following: find the smallest network
such that the error on the test set and the error on the training be as close as possible to the
variance of the noise. Because the process is simulated, we know the variance of the noise, so
that we know whether this goal is achieved.
As in the case of the process without noise, several networks with an increasing number of
wavelets were trained. The optimal Nw, for which the PMSE is smallest (no overfitting occurs),
is 5; the results presented on table 3 show that the variance of the noise is indeed reached.
TMSE

PMSE

NARX Model

9.6 10-3

1.0 10-2

Output Error Model

1.0 10-2

1.2 10-2

Table 3. Wavelet modeling results for noisy simulated processes,


when the right assumption about the effect of noise is made.

5.3. Modeling of a real process.


The process to be modeled is the hydraulic actuator of a robot arm. The external input u is the
position of a valve and the output yp is the oil pressure. A sequence of 1024 points is available.
We consider the first half of the data sequence as a training sequence. We use a feedback
predictor with Ne=1 and Ns=2 so that:
y(n) = (y(n-1), y(n-2), u(n-1), )
(37)
Predictors having increasing numbers of wavelets were trained, with 50 initializations for each
predictor. The best PMSE is obtained with a network of 2 wavelets (18 parameters); the
corresponding values of the TMSE and PMSE are:
TMSE = 0.11 PMSE = 0.13
Figure 4 shows the responses of the process and of the wavelet network on the test sequence.
Table 4 shows the results obtained on the same problem with other input-output models. The
neural network model whose performance is reported has three hidden neurons (best PMSE of
50 trainings with different initializations).
Input-output model

PMSE

Numbers of parameters

Reference

Hinging hyperplanes

0.34

14

[12]

Neural Network

0.14

19

This paper

Wavelet network

0.13

18

This paper

Table 4. A comparison of different input-output models of the hydraulic actuator.


In this modeling problem, wavelet and neural networks perform equivalently. However, these
12

results are still not as satisfactory as those obtained in [13] with a state-space model using a
neural network with sigmoid functions; state-space modeling with wavelet networks will not be
considered in the present paper.
5
Process
Model

100

200

300

400

500

Figure 4. Model and process outputs on the test sequence.


6. CONCLUSION.
In this paper, we extend the use of wavelet networks for function approximation to dynamic
nonlinear input-output modeling of processes. We show how to train such networks by a
classic minimization of a cost function through second order gradient descent implemented in a
backpropagation scheme, with appropriate initialization of the translation and dilation
parameters. The training procedure is illustrated on the modeling of simulated and real
processes. A comparison with classic sigmoidal neural networks leads to the conclusion that the
two types of networks can perform equivalently in terms of accuracy and parsimony for
nonlinear input-output modeling of processes with a small number of inputs, provided the
technical precautions outlined above (proper initialization and efficient training algorithms) are
taken.
References.
[1] M. Cannon and J.-J. E. Slotine, Space-Frequency Localized Basis Function Networks for
Nonlinear System Estimation and Control, Neurocomputing 9 (3) (1995) 293-342.
[2] G. Cybenko, Approximation by Superpositions of a Sigmoidal Function, Mathematics of
control, signals and systems, 2 (1989) 303-314.
[3] K. Hornik, M. Stinchcombe, H. White and P. Auer, Degree of Approximation Results for
Feedforward Networks Approximating Unknown Mappings and Their Derivatives,
Neural Computation, 6 (6) (1994) 1262-1275.
[4] M. I. Jordan, The Learning of Representations for Sequential Performance, Doctoral
Dissertation, University of California, San Diego, 1985.
[5] A. U. Levin, Neural networks in dynamical systems; a system theoretic approach, PhD
Thesis, Yale University, New Haven, CT, 1992.
13

[6] S. Mallat, A Theory for Multiresolution Signal Decomposition: The Wavelet Transform,
IEEE Trans. Pattern Anal. Machine Intell. 11 (7) (1989) 674-693.
[7] K. S. Narendra and K. Parthasarathy, Identification and Control Of Dynamical Systems
Using Neural Networks, IEEE Trans. on Neural Networks, 1 (1) (1990) 4-27.
[8] O. Nerrand, P. Roussel-Ragot. L. Personnaz, G. Dreyfus, Neural Networks and Nonlinear Adaptive Filtering: Unifying Concepts and New Algorithms, Neural Computation,
5 (2) (1993) 165-199.
[9] O. Nerrand , P. Roussel-Ragot, D. Urbani, L. Personnaz, G. Dreyfus, Training recurrent
neural networks: why and how? An Illustration in Process Modeling, IEEE Trans. on
Neural Networks 5 (2) (1994) 178-184.
[10] Y. C. Pati and P. S. Krishnaparasad, Analysis and Synthesis of Feedforward Neural
Networks Using Discrete Affine Wavelet Transformations, IEEE Trans. on Neural
Networks 4 (1) (1993) 73-85.
[11] E. Polak, Computational Methods in Optimization: A Unified Approach (Academic Press,
NewYork, 1971).
[12] P. Pucar and M. Millnert, Smooth Hinging Hyperplanes - An Alternative to Neural Nets,
in: Proceedings of 3rd European Control Conference, Vol. 2 (Rome, 1995) 1173-1178.
[13] I. Rivals, L. Personnaz, G. Dreyfus, J.L. Ploix, Modlisation, Classification et
Commande par Rseaux de Neurones : Principes Fondamentaux, Mthodologie de
Conception et Illustrations Industrielles, in: J.P. Corriou, ed., Les rseaux de Neurones
pour la Modlisation et la Commande de Procds (Lavoisier Tec et Doc, 1995) 1-37.
[14] I. Rivals and L. Personnaz, Black Box Modeling With State-Space Neural Networks, in:
R. Zbikowski and K. J. Hunt eds., Neural Adaptive Control Technology I (World
Scientific, Singapore, 1996) 237-264.
[15] D. E. Rumelhart, and J. L. McClelland, Parallel Distributed Processing, (MIT Press,
Cambridge, MA, 1986).
[16], D. Urbani, P. Roussel-Ragot. L. Personnaz and G. Dreyfus, The Selection of Neural
Models of Non-linear Dynamical Systems by Statistical Tests, in: Proceedings of the
IEEE Conference on Neural Networks for Signal Processing IV, (Greece ,1994) 229237.
[17] Q. Zhang and A. Benveniste, Wavelet Networks, IEEE Trans. on Neural Networks 3 (6)
(1992) 889-898.
[18] J. Zhang, G. G. Walter, Y. Miao and W. N. Wayne Lee, Wavelet Neural Networks For
Function Learning, IEEE Trans. on Signal Processing 43 (6) (1995) 1485-1497.

14

Annexe B
Prsentation du calcul du gradient de la fonction de cot J
dans le cas dun rseau dondelettes dtat avec possibilit de
choisir la sortie comme variable dtat

Annexe B
Nous prsentons ici le calcul du gradient de J pour un rseau dtat o la
sortie peut tre choisie comme une des variables dtat.
Le nombre total des tats sera Ns avec :
(1)
Ns = Nsy + Nss
Si la sortie est une variable dtat alors on a : N sy =1. Sinon il vaut zro. N ss est
donc le nombre des variables dtat diffrentes de la sortie.
1. Notations.
Pour pouvoir indicer les neurones dtat, on introduit une variable
logique associe N sy ,dfinie de la faon suivante :
A sy =

1 si Nsy=0
0 si Nsy=1

(2)

Dans un cas gnral, les neurones dtat seront indics de N e+N s+N w +A sy+1
N e+N s+N w+N ss+1. Les paramtres du rseau sont donc :
les translations m jk et les dilatations djk avec k=1 , ... , N e+N s et j=1 ,
... , N w ;
les pondrations et les coefficients directs : on note ckj le paramtre
associ la connexion entre la fonction (ou le neurone dentre) j et
le neurone de sortie (ou le neurone dtat) k. Pour les pondrations
nous avons j= N e+N s+1 , ... , N e+N s+N w et k=N e+N s+N w +1, ...
,N e+N s+N w +N ss+1 ; pour les coefficients directs nous avons j=1 , ... ,
N e+N s et k=N e+N s+N w +1, ... ,N e+N s+N w +N ss+1 ;
un terme constant sur le neurone linaire de sortie, not c0 ;
Le
nombre
de
composantes
du
vecteur

est
alors
2N w (N e+N s)+(N ss+1)(N e+N s+N w )+1.
La sortie y ainsi que lexpression des variables dtat en sortie sont identiques
celles donnes par les relations (59) et (60) du chapitre III.
Pour chaque copie du rseau (n=2, ... , N), les variables dtat en entre sont
calcules partir de la relation suivante :
n1
(3)
xkn = xk+N
avec k = Ne+1 , ... , Ne+Nsy+Nss
+N +A
s

sy

Le cas particulier de la premire copie est discut au paragraphe VI.4.1 du


chapitre III.

167

Annexe B
2. Calcul du gradient de J par rapport aux tats par rtropropagation.
Pour la copie N , nous avons :
Pour la sortie :
J
y

= e N

(4)

Pour les variables dtat en sortie, k=N e+N s+N w +2, ... ,N e+N s+N w +N ss+1 :
J
(5)
=0
xkN
Pour les variables dtat en entre, k=N e+1, ... ,N e+N s :
Nw
c ,N +N +j j(x)
J y N
J
e
s
N
= N N = e c ,k +
N
zjk
djk
y x
x
k

(6)

j=1

avec = Ne+N s+N w +1.


Pour les copies de n=N 1 2, nous avons :
Pour la sortie :

J
y

J
n
xN
e+Ns+Nw+1

e n si Nsy=0
(7)

=
en +

J
n+1
xN
+1

sinon

Pour les variables dtat en sortie, k=N e+N s+N w +2, ... ,N e+N s+N w +N ss+1 :
J
J
(8)
= n+1
n
xk SkN N A
s

sy

Pour les variables dtat en entre, k=N e+1, ... ,N e+N s :


Nw
c ,N +N +j j(x) Ne+Ns+Nw+Nss+1
J yn
J
J
e
s
n
= n n = e c ,k+
+
cj,k n

n
zjk
djk
y x
x
x
k

j=1

j=Ne+Ns+Nw+2

(9)

Pour la copie n=1, nous avons :


Pour la sortie :

168

Annexe B

J
y1

e 1 si Nsy

J
e

(10)

1
xN
+N +N

w+1

e1 +

J
2
xN
+N +N
e

sinon

w1

Pour les variables dtat en sortie, k=N e+N s+N w +2, ... ,N e+N s+N w +N ss+1 :
J
J
(11)
=
2
xk1 xkN
N A
s

sy

Pour les variables dtat en entre, k=N e+1, ... ,N e+N s : le calcul des

J
xk1

nest pas utile.


3. Calcul du gradient de J par rapport aux paramtres du rseau.
Pour les coefficients directs sur la sortie :

J
=
c j

J yn

yn cn

n=1

= e nxjn avec j = 1 , ... , Ne+Ns et = Ne+Ns+Nw+1 (12)


n=1

Pour les coefficients directs sur les tats :

J
=
ck ,j

n
J xk

xn cn

n=1

xn xjn

n=1

k ,j

(13)

avec j = 1 , ... , Ne+Ns et k = Ne+Ns+Nw+2 , ... , Ne+Ns+Nw+Nss+1


Pour les pondrations sur la sortie :
N

J
c ,N +N +j
e

yn cn

n=1

yn

,Ne+Ns+j

= e nj(x n)

(14)

n=1

avec j = 1 , ... , Nw et a = Ne+Ns+Nw+1


Pour les pondrations sur les tats :
N
N
xkn
J
J
J
= n n
= n j(x n)
ck ,N +N +j
e
s
n=1 xk ck ,N +N +j
n=1 xk
e

(15)

avec j = 1 , ... , Nw et k = Ne+Ns+Nw+2 , ... , Ne+Ns+Nw+Nss+1


Pour le terme constant sur le neurone de sortie :

J
=
c0

J yn

yn

n=1

c0n

= en

(16)

n=1

169

Annexe B
Pour les translations :

J
=
m jk

mn

n=1

jk

n=1

n
1 j(x )
c ,N +N +j e n
e
s
djk zjk

Ne+Ns+Nw+Nss+1

l=Ne+Ns+Nw+2

cl ,N +N +j
e

J
xln

(17)

Pour les dilatations :

J
=
djk

n
j(x n)
zjk

dn = d

n=1

jk

n=1

jk

zjk

Ne+Ns+Nw+Nss+1
n

c ,N +N +j e
e

l=Ne+Ns+Nw+2

cl ,N +N +j
e

J
xln

(18)

170