Anda di halaman 1dari 207

cole Doctorale

dInformatique,
Tlcommunications
et lectronique de Paris

Thse
prsente pour obtenir le grade de docteur
de lcole Nationale Suprieure des Tlcommunications
Spcialit : Signal et Images

Geoffroy Fouquier
Optimisation de squences de
segmentation combinant modle structurel
et focalisation de lattention visuelle.
Application la reconnaissance de
structures crbrales dans des images 3D.

Soutenue le 22 fvrier 2010 devant le jury compos de

Serge Guillaume
Philippe Tarroux
Jamal Atif
Michel Desvignes
Isabelle Bloch

Rapporteurs
Examinateurs
Directeur de thse

Rsum
Nos travaux portent sur linterprtation dune scne dont nous possdons un modle, reprsentant lagencement spatial des objets contenus dans cette scne. Dans le cadre dune segmentation
squentielle permettant de reconnatre les objets les uns aprs les autres en fonction des tapes
antrieures, nous utilisons la connaissance spatiale du modle pour optimiser la squence de segmentation effectuer partir dun objet de rfrence vers un objectif segmenter. Nous proposons
pour cela doptimiser un chemin dans un graphe reprsentant les objets de la scne (nuds) et leurs
relations spatiales (arcs). Deux approches sont proposes.
La premire approche effectue une optimisation partir de linformation spatiale du modle
uniquement, en valuant un critre de pertinence de chaque chemin. Lvaluation est effectue de
manire indpendante sur chaque arc dans un premier temps, puis nous proposons une manire
de reprsenter un chemin entier, permettant dvaluer la pertinence du chemin partir de cette
reprsentation.
La deuxime approche sintgre dans un processus de segmentation squentielle, vu comme
lexploration progressive dune image partir dun objet de rfrence. Nous utilisons une modlisation dune technique pr-attentionnelle, une carte de saillance, afin de guider le processus
de segmentation squentielle, en intgrant lapproche structurelle des informations de saillance
extraites de limage interprter.
Le domaine dapplication de ces approches est la segmentation des structures sous-corticales
du cerveau dans des images IRM 3D dont certaines prsentent des pathologies.

R SUM

Abstract
Sequential segmentation optimization using a structural model and focus of visual attention.
Application to the recognition of internal brain structures in 3D magnetic resonance images
(MRI).
We aim at recognizing a 3D scene described by a 3D image and a structural model, i.e., a model
that describes the spatial arrangement of the objects. The sequential segmentation framework is
considered. This allows us to segment and recognize objects in a sequential way, using at each
step the previously recognized object to guide the segmentation of the next ones. We propose to
use the spatial information included in the model to optimize the segmentation sequence from a
reference object to a selected target. This sequence is viewed as a path in a graph where a node
represents an object and an edge carries the spatial relation information between two objects.
We propose to use the spatial information included in the model to optimized the segmentation
sequence from a reference object to a selected target. This sequence is view as a path in a graph
where vertex represents objects and edges represents spatial relations.
Two approaches are proposed. The first one proposes to evaluate the relevance of a path according to the generic available knowledge. This estimation is realized either on each spatial relation
independently or directly on a fuzzy subset that represents the whole path at once. The best path
according to a criterion is then selected and the objects may be segmented.
The second approache proposes to integrate the segmentation sequence optimization directly
into a sequential segmentation framework. The optimization uses a spatial model of the scene
modeled as a graph and also a saliency map to guide the segmentation. The latter can be seen as
an image exploration process.
Both approaches are used for segmentation and recognition of internal brain structures in 3D
magnetic resonance images. We also propose an adaptation of these methods to cope with pathological cases (e.g., brain tumors).

A BSTRACT

Remerciements
Je voudrais remercier tout particulirement Isabelle et Jamal pour la direction de mon stage
puis de cette thse. Pour mavoir fait confiance tout dabord avec un profil atypique, puis pour
les conseils prcieux, laide et le soutien. Merci Isabelle dtre toujours prsente et si prompt
relire notre prose. Merci Jamal pour son amiti et son accueil en Guyane. Jai eu parfois
plus le sentiment dune longue collaboration que dune direction, tout en ayant beaucoup appris,
scientifiquement mais aussi humainement, alors merci !
Je remercie Michel Desvignes pour avoir accept de prsider mon jury, Serge Guillaume et
Philippe Tarroux pour avoir t les rapporteurs de ces travaux, ainsi que lensemble des membres
du jury pour leur valuations et leur prcieux conseils.
Je remercie galement Jrme, Sad, Sylvain, Ceyhun et Rda pour leur amiti, leur aide et leur
soutien au long de ces annes qui nont pas toujours t aises. Avoir un avis, une confirmation ou
simplement un oreille a t pour moi plus que important et ncessaire, ainsi que les moments de
dtente entre amis.
Je remercie tous les doctorants et postdoc que jai crois tlcom avec lesquels jai pu passer
de bons moments, parfois collaborer. En particulier Emi, Olivier, Jrmie, David, Vincent, Cline,
Antonio, Racha, Carolina, Julien, Nicolas et tous les autres. Je remercie trs chaleureusement
Patricia pour soccuper de tous les doctorants, pour ses attentions, le caf du matin, les bonbons
ou laspirine mais aussi pour sa compagnie. Je remercie galement Catherine Vazza et Florence
Besnard ainsi que lensemble du dpartement TSI, en particulier Marc, Laurence et avec une
pense pour Francis. Je remercie galement Sophie-Charlotte pour son impeccable gestion du
rseau et sa ractivit.
Je remercie galement mes parents pour mavoir encourag et soutenu tout au long de mes
tudes jusqu cet aboutissement. Je naurais pas pu faire tout cela sans eux et je suis reconnaissant.
Je remercie galement Thibaud et sa famille et Florent pour toutes ces bonnes annes et de leur
soutien. Enfin, je remercie Ana, les plus belles dcouvertes ne sont pas les plus attendues. Merci
davoir t et dtre toujours mes cts.

R EMERCIEMENTS

Table des matires


Rsum

Abstract

Remerciements

Introduction

13

1 Segmentation et reconnaissance de structures crbrales : les approches par modle 17


1.1 Interprtation dimages et vision cognitive . . . . . . . . . . . . . . . . . . . . . 18
1.1.1 Interprtation et acquisition . . . . . . . . . . . . . . . . . . . . . . . . 18
1.1.2 Systmes base de connaissances . . . . . . . . . . . . . . . . . . . . . 19
1.1.3 La vision cognitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.1.4 Conclusion sur les systmes dinterprtation dimages . . . . . . . . . . 21
1.2 Segmentation et reconnaissance dimages crbrales laide dun modle . . . . 21
1.2.1 Reprsentations de lanatomie crbrale . . . . . . . . . . . . . . . . . . 23
1.2.1.1 Atlas et modles de forme . . . . . . . . . . . . . . . . . . . . 25
1.2.1.2 Reprsentation structurelle de lanatomie crbrale . . . . . . . 28
1.2.2 Reconnaissance avec un modle structurel . . . . . . . . . . . . . . . . . 30
1.2.2.1 Segmentation et reconnaissance par mise en correspondance du modle 30
1.2.2.2 Approche itrative de la segmentation . . . . . . . . . . . . . 32
1.2.2.3 Approche globale par contraintes . . . . . . . . . . . . . . . . 33
1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2 Les mcanismes de lattention
2.1 Quest ce que lattention ? . . . . . . . . . . . . . .
2.1.1 Dfinition de lattention . . . . . . . . . . .
2.1.2 Lunit attentionelle . . . . . . . . . . . . .
2.2 Le pr-attentionnel . . . . . . . . . . . . . . . . . .
2.2.1 Les diffrentes thories pr-attentionnelles .
2.2.1.1 Feature integration theory . . .
2.2.1.2 Guided search theory . . . . .
2.2.1.3 Texton theory . . . . . . . . .
2.2.1.4 Similarity theory . . . . . . . .
2.2.2 Conclusion sur les thories pr-attentionnelles
2.3 Les cartes de saillance . . . . . . . . . . . . . . . .
2.4 Les cartes de saillance adaptes aux images IRM . .
2.4.1 Pr-traitements . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

35
35
36
37
39
42
42
43
43
44
44
44
47
47

10

TABLE DES MATIRES

2.5

2.4.2 Filtrage par caractristique . . . .


2.4.3 Gnration des pyramides . . . .
2.4.4 Fusion des cartes de discontinuits
2.4.5 Cartes de saillance . . . . . . . .
2.4.6 Masquage des cartes de saillance .
2.4.7 Rsultats . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

48
49
50
53
53
54
56
57
58
58
60
61
62
62
62
64
64
65
66
67
68
69
69
70
71
72
72
72
74
75
76
78
78

3 Le modle de connaissance
3.1 Graphe de relations spatiales . . . . . . . . . . . . . . . . . .
3.1.1 Les relations spatiales pour limagerie mdicale . . . .
3.1.2 Graphe de relations spatiales . . . . . . . . . . . . . .
3.1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Sources de connaissances . . . . . . . . . . . . . . . . . . . .
3.2.1 Connaissance experte et textuelle . . . . . . . . . . .
3.2.2 Connaissance extraite automatiquement . . . . . . . .
3.2.3 Connaissance extraite de manire semi-interactive . .
3.2.3.1 Les traces de lutilisateur . . . . . . . . . .
3.2.3.2 Rcupration des objets . . . . . . . . . . .
3.2.3.3 Interprtation des traces . . . . . . . . . . .
3.2.3.4 Cration du modle . . . . . . . . . . . . .
3.2.4 Conclusion sur les sources de connaissances . . . . . .
3.3 Formalisme flou pour les relations spatiales . . . . . . . . . .
3.3.1 Reprsentation de la relation de distance . . . . . . . .
3.3.2 Reprsentation de la relation dorientation . . . . . . .
3.3.3 Reprsentation de ladjacence . . . . . . . . . . . . .
3.3.4 Autres relations . . . . . . . . . . . . . . . . . . . . .
3.3.5 Notations des paysages flous . . . . . . . . . . . . . .
3.4 Base de donnes dimages crbrales . . . . . . . . . . . . . .
3.5 Apprentissage des paramtres des intervalles flous . . . . . . .
3.5.1 Cadre gnral pour lapprentissage des intervalles flous
3.5.2 Un exemple dapprentissage . . . . . . . . . . . . . .
3.5.3 Le cas de la distance . . . . . . . . . . . . . . . . . .
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

4 Optimisation avec reprsentation des structures


4.1 Raisonnement avec reprsentation de la forme des structures
4.1.1 Raisonnement dans le cas sain . . . . . . . . . .
4.1.2 valuation de la pertinence dun arc . . . . . . . . .
4.1.3 Slection du meilleur chemin . . . . . . . . . . .
4.1.4 Expriences . . . . . . . . . . . . . . . . . . . . . .
4.2 Raisonnement dans le cas pathologique . . . . . . . . . . .
4.2.1 Degr de stabilit des relations spatiales . . . . . . .
4.2.2 Adaptation de lapproche aux cas pathologiques . . .
4.3 Optimisation globale de la pertinence dun chemin . . . . .
4.3.1 Fusion des connaissances spatiales . . . . . . . . . .
4.3.2 valuation du chemin par mesure de son entropie . .
4.3.3 Expriences . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

81
. 82
. 83
. 84
. 86
. 88
. 92
. 92
. 95
. 97
. 98
. 101
. 101

.
.
.
.
.
.
.
.
.
.
.
.

11

4.4

4.3.4 Adaptation aux cas pathologiques . . . . . . . . . . . . . . . . . . . . . 102


4.3.5 Conclusion sur lapproche globale . . . . . . . . . . . . . . . . . . . . . 102
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5 Optimisation avec information visuelle


5.1 Utilisation dune information visuelle . . . . . . . . . . . . .
5.1.1 Attention visuelle et segmentation squentielle . . . .
5.1.2 Saillance et difficult de segmentation . . . . . . . . .
5.1.3 Apprentissage de la saillance . . . . . . . . . . . . . .
5.1.4 Un critre reposant sur la saillance . . . . . . . . . . .
5.1.4.1 Critre simple sans apprentissage . . . . . .
5.1.4.2 Critre utilisant une mesure EMD . . . . . .
5.1.5 La saillance des tumeurs crbrales . . . . . . . . . .
5.2 Segmentation squentielle avec un critre fond sur la saillance
5.2.1 Exploration progressive de limage . . . . . . . . . .
5.2.2 Graphe spatial . . . . . . . . . . . . . . . . . . . . .
5.2.3 Filtrage du graphe . . . . . . . . . . . . . . . . . . .
5.2.4 Domaine de recherche . . . . . . . . . . . . . . . . .
5.2.5 Intgration de la saillance . . . . . . . . . . . . . . .
5.2.6 Slection du prochain objet . . . . . . . . . . . . . . .
5.2.7 Le processus de segmentation . . . . . . . . . . . . .
5.2.8 Mise jour du graphe . . . . . . . . . . . . . . . . .
5.2.8.1 Pas de segmentation . . . . . . . . . . . . .
5.2.8.2 Il y a une segmentation . . . . . . . . . . .
5.2.8.3 chec de la segmentation dune structure . .
5.2.8.4 Structure de contrle . . . . . . . . . . . . .
5.2.8.5 Mise jour du graphe . . . . . . . . . . . .
5.3 Expriences . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Droulement du processus . . . . . . . . . . . . . . .
5.3.2 Les squences de segmentation . . . . . . . . . . . .
5.3.3 Les rsultats de segmentation . . . . . . . . . . . . .
5.3.4 Rsultats dans les cas pathologiques . . . . . . . . . .
5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

6 Conclusion et perspectives
6.1 Synthse des contributions . . . . . . . . . . . . . . . . . . . . .
6.1.1 Optimisation de chemin avec reprsentation des structures
6.1.2 Optimisation de chemin avec saillance . . . . . . . . . . .
6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Optimisation avec reprsentation des structures . . . . . .
6.2.2 Optimisation avec information visuelle . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

105
106
106
108
109
112
112
112
115
117
117
117
119
121
124
126
127
131
132
133
136
136
136
138
138
139
143
146
146

.
.
.
.
.
.

151
151
151
152
154
154
154

Annexes

157

A Liste des publications

157

12
B Cartes de saillance
B.1 Les cas sains . . . . . . . . . . . .
B.1.1 IBSR 01 . . . . . . . . . . .
B.1.2 Oasis 02 . . . . . . . . . . .
B.1.3 Les autres cas sains . . . . .
B.2 Les cas pathologiques . . . . . . . .
B.2.1 Cas 1 . . . . . . . . . . . .
B.2.2 Les autres cas pathologiques

TABLE DES MATIRES

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

159
160
160
162
163
178
178
179

C Image segmentation as inexact graph matching using high-level attributes


C.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.3 Model, image and deformation graphs . . . . . . . . . . . . . . . . . .
C.4 Attributes and cost function . . . . . . . . . . . . . . . . . . . . . . . .
C.4.1 Vertex cost : intrinsic features for each class of the model . . . .
C.4.2 Edge cost : reflecting the structure . . . . . . . . . . . . . . . .
C.4.3 Connectivity . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.4.4 Cost function . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.5 Matching algorithm and optimization . . . . . . . . . . . . . . . . . .
C.6 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.8 Acknowledgment . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

189
189
189
191
192
192
193
194
195
195
196
198
198

Bibliographie

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

199

13

Introduction
Linterprtation des images est une tche complexe, autant par la diversit des moyens de
reprsenter une image et des approches associes permettant de raliser son interprtation, que
par la subjectivit du rsultat attendu. Lobjectif de linterprtation est de pouvoir reconnatre les
objets qui composent une scne et leurs relations.
Lutilisation dun modle de la connaissance se heurte au problme du saut smantique, cest-dire la diffrence entre la description dun objet par une connaissance gnrique et exprime en
langage naturel dune part, et sa reprsentation numrique dautre part. Dans notre cas, il sagit de
la difficult de faire le lien entre la connaissance gnrique et les parties de limage qui lui correspondent. Cependant, dcrire les objets qui composent une scne et leurs relations est une manire
naturelle de dcrire une scne et qui est cohrente avec la manire dont le systme visuel explore
une scne. Les modles reprsentant une image comme un ensemble dobjets structurs sont donc
bien adapts cette tche. Parmi ces modles, la thorie des graphes fournit un cadre permettant
de reprsenter plusieurs niveaux de connaissance, objet ou rgion et connaissance structurelle.
Une manire naturelle de dcrire les relations entre les diffrents objets qui composent une
scne est de dcrire leurs positions relatives, par exemple lobjet A est droite de lobjet B . De
plus les relations spatiales, grce leur imprcision intrinsque, sont appropries pour modliser
limprcision de ces relations. Il existe diffrentes manires de prendre en compte linformation
spatiale, que ce soit pour la segmentation ou pour la reconnaissance des structures. Nos travaux
se placent dans le cadre de linterprtation dune scne guide par un modle dcrivant lagencement spatial des objets composant la scne. Nous proposons dexploiter au mieux la connaissance
spatiale dune scne interprter, mais aussi la connaissance extraite de limage elle-mme ds
quelle est disponible. La problmatique de ces travaux est principalement la suivante : comment
explorer limage de la manire la plus propice son interprtation. Si lexploration correspond
une squence de segmentation, alors nous souhaitons connatre la meilleure squence de segmentation possible dune image en fonction de linformation disponible.
En fonction du type de connaissance disponible propos dune scne (experte, extraite automatiquement, . . .), le modle spatial gnr va permettre un raisonnement spatial plus ou moins
puissant. La constitution dun modle de lagencement spatial dune scne nest pas lobjet de nos
travaux, mme si cette question est aborde lors de la prsentation du modle de la connaissance.
Le domaine dapplication nous permettant dillustrer nos contributions est celui de limagerie crbrale. La segmentation et la reconnaissance des structures sous-corticales du cerveau reprsente une tche complexe dinterprtation en raison de la radiomtrie non discriminante des
structures, de la forme complexe que peuvent prendre ces structures et de la grande variabilit
inter-patients. Pour ces raisons, la segmentation des images crbrales est le plus souvent guide par un modle. De plus, lagencement spatial des structures crbrales est stable (dans le cas
sain). Linformation spatiale est donc pertinente dans ce cas. Il existe de nombreuses reprsentations structurelles de lanatomie crbrale, lontologie de la FMA par exemple (Rosse et Mejino
(2007)), ainsi que des mthodes de segmentation des structures sous-corticales utilisant ce type de

14

I NTRODUCTION

reprsentation. Nous proposons des approches dans le cadre de cette application, pour dduire de
la reprsentation structurelle et de limage interprter la squence de segmentation.

Connaissance gnrique
Nous avons une connaissance qui provient de descriptions anatomiques : nous connaissons
les diffrentes structures du cerveau, et nous connaissons les relations spatiales entres elles. Ces
descriptions sont le plus souvent textuelles. Par exemple, le noyau caud est proche du ventricule
latral . Une telle relation est intrinsquement imprcise, ce qui permet de prendre en compte
ses variations inter-patients. Nous utilisons donc un formalisme qui permet de conserver cette
imprcision. Le formalisme flou est particulirement adapt pour modliser limprcision de ces
relations (Bloch (2005)).
Il y a plusieurs manires de reprsenter une relation spatiale. Les reprsentations que nous utilisons rpondent cette question (Bloch (2005)) : partir dun objet de rfrence A, quels sont
les points de lespace qui satisfont une relation R calcule partir de A . Par exemple, si nous
avons une relation droite de A, nous reprsentons cette relation dans lespace de limage, et
chaque point correspond un degr de satisfaction de la relation droite de A . La reprsentation
de la relation est donc directement dpendante de la forme de lobjet de rfrence. partir de ces
relations nous proposons une approche permettant de slectionner un chemin de segmentation et
rpondant cette question : partir dun objet donn, quelle est la meilleure squence de segmentation permettant de segmenter un objet cible donn. Cette approche repose sur la connaissance
spatiale, ainsi que sur des reprsentations des objets qui proviennent de la connaissance gnrique.

Connaissance extraite de limage


En outre, nous souhaitons galement utiliser les informations qui sont extraites de limage.
Dune part, nous souhaitons pouvoir prendre en compte linformation de limage pour adapter son
exploration et ainsi mieux prendre en compte les particularits dune image. Dautre part, nous
souhaitons tenir compte de lexploration ralise pour guider la suite du processus. Pour cela,
nous considrons deux types dinformation : une information extraite dune manire globale de
limage, et les segmentations qui seront ralises au cours du processus. Nous effectuons dans
ces travaux un parallle entre un processus de segmentation squentielle et une modlisation,
selon la thorie de lintgration des caractristiques, dun processus dattention visuelle. Dans cette
modlisation, une tape pr-attentionnelle, calcule sur lensemble de limage permet dattirer le
faisceau attentionnel sur des parties de limage. ltape attentionnelle, cette petite partie de
limage sera analyse. Nous proposons une approche utilisant un mcanisme pr-attentionnel,
les cartes de saillance, pour guider un processus de segmentation squentielle. Le principe est
de raliser une exploration progressive de limage, o le choix des segmentations successives
sera effectu en utilisant linformation spatiale et selon un critre driv des cartes de saillance.
Cette approche permet dutiliser non seulement linformation globale de saillance, mais aussi
linformation extraite de limage aprs chaque segmentation.

Gestion des cas pathologiques


Des pathologies peuvent intervenir dans les images crbrales, en particulier, nous nous intressons au cas des tumeurs crbrales. Il existe de nombreux types de tumeurs, avec des comportements spatiaux diffrents (Khotanlou (2008)). Parmi les comportements spatiaux classiques,
les tumeurs peuvent dplacer, dformer, voire dtruire des structures crbrales. Les relations spatiales sont galement affectes. Il est donc ncessaire dadapter le raisonnement spatial pour tre

15
capable de grer ces cas pathologiques. Nous prsentons, pour chacune des approches, comment
les cas pathologiques peuvent tre pris en compte.

Structure du document
Ce document est compos des chapitres suivants.
Le chapitre 1 prsente une tude bibliographique non exhaustive sur les systmes dinterprtation dimage, en particulier les systmes base de connaissances dune part, puis les mthodes
dinterprtation dimages crbrales.
Dans le chapitre 2 nous prsentons une tude bibliographique portant cette fois sur la notion
dattention visuelle, et des mcanismes qui la modlisent. Nous prsentons plus en dtail le mcanisme pr-attentionnel permettant la gnration des cartes de saillance tel quil a t dcrit dans
la littrature, puis nous proposons des adaptations permettant de calculer des cartes de saillance
adaptes limagerie crbrale.
Le modle de la connaissance gnrique utilis dans notre tude est prsent dans le chapitre
3. Nous discutons des sources de connaissances autres que la connaissance experte utilise en imagerie crbrale. Nous prsentons galement le formalisme de reprsentation des relations spatiales
ainsi que la manire dont les paramtres de ces relations sont appris.
Le chapitre 4 prsente une premire approche qui vise optimiser des chemins de segmentation, en utilisant la connaissance spatiale du modle ainsi que des reprsentations des structures
issues de la connaissance gnrique. Cette mthode est galement adapte pour prendre en compte
les cas pathologiques qui peuvent se prsenter en imagerie crbrale.
Une seconde approche intgrant le mcanisme pr-attentionnel dans un processus de segmentation squentielle est prsente dans le chapitre 5. Nous prsentons en dtail comment intgrer
linformation de saillance pour guider la segmentation et comment cette information peut tre
utilise aprs segmentation.
Le chapitre 6 rcapitule les travaux dvelopps dans les chapitres prcdents et prsente des
perspectives de recherche envisageables.
La liste des publications en relation avec ces travaux se trouve dans lannexe A. Nous prsentons dans lannexe B des rsultats de gnration de cartes de saillance sur toutes les images
de notre base de donnes. Enfin lannexe C prsente une application pour la segmentation dun
modle discut dans le chapitre 3, utilisant une connaissance fournie par lutilisateur.

16

I NTRODUCTION

17

Chapitre 1

Segmentation et reconnaissance de
structures crbrales : les approches
par modle
Nos travaux portent sur une tche dinterprtation des images, avec une application particulire
la reconnaissance des structures crbrales dans le cerveau humain. Cette tche est effectue en
utilisant une connaissance a priori de la scne, sur les objets et sur leur structure, connaissance
modlise laide dun graphe. Lobjectif de ce chapitre est de prsenter les travaux existants se
rapportant aux diffrents aspects de cette tche.
Linterprtation des images correspond lanalyse dune image ou dune scne permettant
de dcrire les objets composant la scne et leurs relations, cest--dire extraire la smantique de
limage, afin de la comprendre. Cette problmatique est un problme de perception de lenvironnement par des capteurs ( visual perception ) qui peut tre divis en trois catgories
(Trivedi et Rosenfeld (1989)) :

La neurophysiologie ou ltude des mcanismes biologiques de la vision. Lhumain est capable


dinterprter une scne souvent sans difficults et de manire automatique. De nombreux travaux
cherchent modliser la vision humaine et les diffrents mcanismes permettant lexploration
dune scne. Le chapitre 2 prsente la notion dattention visuelle, ainsi que les mcanismes bioinspirs des phases attentionnelles et pr-attentionnelles de la vision.

La psychologie perceptive qui consiste comprendre les aspects psychologiques de la perception. Certains aspects sont abords dans le chapitre 2. En revanche, notre tude se limite des
systmes bio-inspirs plutt que psycho-ralistes.

La vision artificielle cest--dire les mcanismes permettant de faire comprendre une machine
ce quelle voit au travers de capteurs. Nos travaux se situent dans cette dernire catgorie.
Nous commenons dans ce chapitre par introduire la problmatique de la vision artificielle
en prsentant les diffrents types de systmes dinterprtation dimages, ainsi que la notion de
vision cognitive. Dans une deuxime partie, nous dresserons un panorama des mthodes de reconnaissance des structures sous-corticales du cerveau utilisant un modle de lanatomie. Cette
problmatique constitue le domaine dapplication de nos travaux.

1. S EGMENTATION
18

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

1.1 Interprtation dimages et vision cognitive


La premire thorie de la vision numrique a t propose dans Marr (1982) et propose une
architecture en trois niveaux que tout systme de traitement de linformation doit respecter pour
demeurer cohrent. Ces travaux vont inspirer la plupart des systmes de traitement de linformation par la suite. Les diffrents niveaux proposs par sa thorie sont les suivants :
un niveau abstrait : le quoi et le pourquoi (Marr (1976)), cest--dire que doit-on
faire, la thorie, les donnes en entre ;
un niveau de la reprsentation : le comment, les structures de donnes, les algorithmes ;
un niveau de ralisation : limplantation des algorithmes, relie au matriel.
Marr propose galement un systme de vision passif et ascendant (sans information a priori)
permettant la reprsentation en trois dimensions et via la stroscopie dimages en deux dimensions, et qui repose sur la perception visuelle. Les trois niveaux de ce systme sont :
lbauche primitive : o des primitives sont extraites de limage et regroupes selon des
rgles proches de la Gestalt (Desolneux et al. (2008)) ;
lbauche 2,5D : qui effectue une carte de profondeur des objets prsents dans la scne ;
la reprsentation 3D de la scne.
Le systme de Marr produit une reprsentation en trois dimensions dune scne partir de
projection en deux dimensions. Cette reprsentation est forcment incomplte en labsence dinformation a priori (mis part les rgles de regroupement de lbauche primitive), qui empche
toute interprtation smantique des objets ou de la scne.

1.1.1 Interprtation et acquisition


Le systme de Marr est un systme passif, qui ne tient pas compte des possibilits offertes
lobservateur dinteragir avec son environnement. De nombreuses approches exploitant ces possibilits ont t proposes.
Active Vision Lapproche de vision active (Aloimonos et al. (1988)) tient compte de laspect
squentiel de lattention du systme visuel biologique, en considrant la perception comme une
exploration. Le but est, en ajoutant des points de vue, de contraindre plus le problme, et ainsi
de mieux poser un problme de vision, que les auteurs considrent souvent comme mal pos
(Aloimonos et al. (1988)). Dans cette approche, les mouvements de lobservateur (tte, covert
ou overt attention , cest--dire dplacement de lattention visuelle par le dplacement des
yeux, ou sans mouvement des yeux) sont reprsents par les mouvements des capteurs.
Active Perception Cette approche (Bajcsy (1988)) voit le problme de perception comme
un problme de stratgie de contrle des capteurs, une meilleure stratgie permettant dobtenir
plus dinformation sur la scne et lenvironnement. La notion de perception active est ltude
des diffrentes modlisations des stratgies de contrle des capteurs. Ces travaux introduisent des
raisonnements sur la connaissance de la scne.
Animate Vision La vision anime (Ballard et Brown (1992)) est issue de ltude des mouvements dans le cadre dune tche visuelle. Le mode exploratoire dune image a t illustr par
Yarbus (1967) et sera prsent dans le chapitre suivant la section 2.1. La vision anime a un
point de vue assez proche de la vision active, en considrant la perception comme un problme
mal pos quil est ncessaire de mieux contraindre, en ajoutant de linformation. Mais dans cette
approche, Ballard et Brown (1992) modlisent le focus attentionnel, cest--dire la limitation de

19
lattention une zone trs restreinte de lespace visuel, afin danalyser uniquement les zones les
plus significatives de lespace, mais dune manire plus attentive.
Purposive Vision La vision dessein (Aloimonos (1990)) se focalise sur la vision guide
par une tche et non pas par les donnes uniquement. Les diffrentes explorations dune image
en fonction de la tche accomplir ont galement t illustres par Yarbus (1967). Lattention est
dirige sur certaines parties de limage en fonction de lobjectif, et dautres parties peuvent tre
ignores. De mme, certaines parties prennent une grande importance en fonction du but poursuivi.
Il sagit ici dextraire les reprsentations de limage les plus adquates en fonction de lobjectif,
et les modules de traitement les plus adquats pour traiter ces reprsentations. Le principe est de
sparer le problme en sous-problmes et de dfinir un gestionnaire permettant la recomposition,
ce qui permet damliorer la tche de perception et de reconnaissance (Tsotsos (1994)). Cette approche peut tre relie la problmatique de la recherche visuelle ( visual search ), qui propose
dadapter la notion de saillance en fonction de lobjectif poursuivi. Cette notion de saillance et
lapproche de la recherche visuelle sont prsentes dans la partie 2.2.1.
Vision passive Les systmes dinterprtation dimages que nous avons prsents voient le
problme de linterprtation dimage comme une mise en correspondance entre des projections
en deux dimensions dune scne vue depuis un capteur et le modle en trois dimensions de cette
scne. Ces systmes actifs utilisent les capteurs pour mieux contraindre le problme et obtenir
de linformation supplmentaire.
Dans nos travaux, lacquisition des images est spare de leur traitement, ce qui empche
lutilisation des approches actives. Nous sommes donc dans le cas dune vision passive par
opposition aux systmes actifs prsents. Cela est particulirement important dans notre domaine
dapplication, en imagerie mdicale o les acquisitions ne peuvent pas tre contrles. De plus,
les acquisitions dimages mdicales nous fournissent un volume en trois dimensions de la scne,
et non pas une projection en deux dimensions de la scne. En imagerie crbrale plus particulirement, la scne complte est comprise dans le volume fourni.

1.1.2 Systmes base de connaissances


Il existe plusieurs approches mthodologiques de linterprtation dimages. Nous utilisons
dans nos travaux une reprsentation de lagencement spatial de la scne. Il est donc ncessaire,
pour avoir cette connaissance spatiale, davoir une reprsentation explicite de la connaissance
utilisable dans le processus. Nous nous intressons donc plus particulirement aux systmes
base de connaissances.
Ces systmes (on pourra se rfrer Crevier et Lepage (1997) et Le Ber et al. (2006) pour une
revue de ces systmes) modlisent la connaissance a priori sur une scne, ainsi que la connaissance
ncessaire son interprtation. On peut distinguer trois types de connaissances
(Matsuyama et Hwang (1990)) :
la connaissance a priori de la scne, des objets qui la composent et des relations entre ces objets. Le modle de lagencement structurel dune scne que nous utilisons dans nos travaux
entre dans cette catgorie ;
la connaissance ncessaire lextraction dinformation de limage, cest--dire une connaissance spcifique aux images utilises permettant dobtenir des primitives partir de cette
image ;
la connaissance permettant de faire le lien entre la connaissance de la scne et la connaissance de limage. Le problme du lien entre la connaissance a priori apporte par le modle

1. S EGMENTATION
20

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

et linformation extraite de limage est connu comme le problme du saut smantique.


En pratique, les systmes tels que celui de Marr (Marr (1982)), SIGMA (Matsuyama et Hwang
(1990)) ou eCognition1 utilisent une architecture deux niveaux :
lextraction dinformations de limage, cest--dire la couche de bas-niveau, permettant de
fournir des primitives au systme. Cela peut tre une segmentation par exemple ;
un niveau dinterprtation effectuant le lien entre linformation de limage et le modle.
La figure 1.1 prsente ces deux niveaux et leurs relations dans un systme base de connaissances.

F IG . 1.1 Reprsentation et manipulation des connaissances dans un systme base de connaissances [Figure extraite de Le Ber et al. (2006)].
Lobservation dimages en deux dimensions pour modliser une scne en trois dimensions
pose des problmes doccultation, qui ne concernent pas ces travaux, la scne complte tant observe. Lextraction dinformation de limage est sujette aux problmes classiques de la segmentation, la sur-segmentation par exemple. Lutilisation dun modle spatial apporte une information
structurelle gnralement stable qui est utilise dans des systmes base de connaissances pour
amliorer la reconnaissance.
Utilisation dun modle de la connaissance spatiale Les relations spatiales sont communment
admises comme jouant un rle important dans linterprtation dune scne. Linformation spatiale
peut tre vue du point de vue smantique comme un attribut dobjet du modle (avec des relations
topologiques par exemple). Cette information peut galement tre utilise pour le raisonnement,
en particulier si les caractristiques des objets ne permettent pas de les discriminer.
Lapproche de Le-Ber et Napoli (2002) utilise des relations spatiales topologiques (suivant le
formalisme RCC-8) pour la classification de paysages agricoles. Les relations sont hirarchises
sur un treillis de Galois. Dans cette approche, les relations sont reprsentes en tant que concepts,
cest--dire que les relations sont reprsentes par des objects propres qui renseignent sur les
primitives intrinsques des relations, mais aussi en tant que relations entre des concepts, pour faire
un lien entre deux concepts (deux classes de terrains par exemple). Les relations topologiques
sont frquemment utilises pour linterprtation dimage satellitaires (Alboody et al. (2008) par
exemple).
Des reprsentations floues des relations spatiales (Bloch (2005)) sont utilises pour la reconnaissance. Les mthodes permettant la reconnaissance des structures crbrales utilisant un modle
structurel de lanatomie crbrale sont des exemples dutilisation de linformation spatiale pour
linterprtation des images. Nos travaux utilisent ce genre de reprsentations qui sont prsentes
dans le chapitre 3.
1

On pourra trouver une description cette adresse : http://earth.definiens.com

21

1.1.3 La vision cognitive


La vision cognitive a t introduite sur un constat qui fait consensus sur les systmes dinterprtation dimages : ils manquent de robustesse, ils sont souvent difficiles adapter et souvent trs
dpendants dun domaine dapplication. La vision cognitive - qui regroupe diffrents domaines
tels que la vision par ordinateur, la reconnaissance de formes, lintelligence artificielle, la robotique, lapprentissage ou encore les sciences cognitives - propose de construire des systmes plus
robustes en les dotant de capacits cognitives (Vernon (2008)).
Les caractristiques dun systme de vision cognitive ont t dfinies comme les suivantes
(Vernon (2006); P. Auer (2005); Granlund (1999)) :
la capacit de suivre un objectif ;
de sadapter des cas nouveaux ;
danticiper les objets et les vnements.
Un tel systme doit donc tre capable dapprendre, de sadapter, de faire des choix, et de dvelopper de nouvelles stratgies.
La notion de capacit cognitive est une notion qui reste vague, et dont il existe plusieurs interprtations en fonction des modles concerns. Il existe nanmoins deux familles dapproches :
lapproche cognitive qui est fonde sur les systmes de reprsentation et de traitement de linformation symbolique, et les systmes mergents, regroupant les systmes connexionnistes et les
systmes dynamiques (entre autres). Il existe en outre des systmes hybrides.
On pourra se rfrer Vernon (2008) pour une tude complte des diffrents aspects de la
vision cognitive.

1.1.4 Conclusion sur les systmes dinterprtation dimages


Parmi les systmes dinterprtation dimages, nous nous plaons parmi les systmes base
de connaissances, et plus prcisment, parmi les systmes utilisant linformation spatiale pour
raisonner.
Dans le cadre de notre domaine dapplication, nous avons un problme simplifi de vision,
au sens o nous avons en entre du processus une image en trois dimensions, et pas une projection
de cette scne sur une image en deux dimensions. De plus, nous avons la garantie davoir lintgralit de la scne. De plus, le modle du cerveau, que nous prsenterons dans la partie suivante,
nous permet de connatre les objets prsents dans la scne.
Nous avons donc un systme dinterprtation qui est dpendant de notre domaine dapplication, un des problmes points par lapproche de la vision cognitive. Nous allons prsent nous
intresser notre domaine dapplication, la segmentation des structures crbrales, laide dun
modle structurel de lanatomie.

1.2 Segmentation et reconnaissance dimages crbrales laide dun


modle
Les IRM crbrales sont des images qui prsentent une faible rsolution, en particulier par
rapport la taille des structures internes (sous-corticales) telles que celles que nous considrons
dans nos travaux. De plus, la radiomtrie des diffrentes structures crbrales nest pas suffisante
pour discriminer les structures entre elles. Les structures peuvent prsenter une diffrence dintensit faible par rapport la matire qui les entoure, mais certaines structures peuvent prsenter
une radiomtrie similaire. Il nest donc pas possible de segmenter les structures crbrales en sap-

1. S EGMENTATION
22

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

puyant sur cette information uniquement. La figure 1.2 prsente un exemple dIRM crbrale avec
quelques structures internes qui ont t pointes.

Noyau caud
Ventricule latral
Putamen
Thalamus
Ventricule latral
Matire blanche
Matire grise

F IG . 1.2 Une coupe dimage IRM du cerveau avec quelques structures internes tiquetes. Les
structures sont prsentes de manire symtrique dans les deux hmisphres. La matire blanche
englobe les structures prsentes. La matire grise est situe plutt sur le bord du cerveau.
Les IRM crbrales prsentent en outre une grande variabilit. Dune manire gnrale, les
structures internes prsentent des formes complexes et soumises des variations. La figure 1.3
prsente des coupes extraites dIRM crbrales de la base OASIS (Marcus et al. (2007)) et de
la base IBSR2 . Nous pouvons clairement voir sur ces images les variations, en particulier sur la
forme du cerveau en gnral, mais galement sur les ventricules latraux au centre de limage,
mme si les coupes ne sont pas exactement les mmes sur cette figure, les images ntant pas
recales dans la base OASIS. Nous pouvons galement observer les diffrences dintensit entre
ces images. Leur segmentation est donc un problme complexe, qui ncessite une connaissance a
priori sur la scne. Cette connaissance peut concerner les caractristiques des structures ou encore
leur agencement spatial. La segmentation des structures crbrales doit donc tre guide par un
modle de lanatomie crbrale.
Lapparition de pathologies, en particulier de tumeurs crbrales, est un problme quil est
ncessaire de prendre en compte dans le modle utilis. Pour une revue des diffrents types de
pathologies, on pourra se rfrer Khotanlou (2008); Khotanlou et al. (2007). Les tumeurs crbrales peuvent avoir diffrents comportements spatiaux, selon quelles vont infiltrer les tissus (et
donc modifier la radiomtrie), ou sinsrer entre des structures (tumeur refoulante). Dans ce dernier cas en particulier, les structures crbrales peuvent tre dplaces, dformes voire dtruites.
Laspect des tumeurs varie galement selon quelles sont ncrotiques ou provoquent lapparition
dun dme. Dune manire gnrale, laspect, la localisation et le comportement spatial des tumeurs varient, ce qui rend difficile une modlisation des tumeurs.
Nous allons prsenter les diffrents modes de reprsentation des images crbales, puis nous
allons prsenter deux grandes familles de mthodes pour la segmentation des structures crbrales.
La premire famille correspond aux mthodes modlisant les structures crbrales ou leurs caractristiques. Dans ces mthodes, lagencement spatial des structures est en gnral induit par le
modle, cest--dire pas exprim de manire directe. La deuxime famille de mthodes propose
dutiliser une reprsentation structurelle de lanatomie et se focalise moins sur les caractristiques
2

Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http://www.cma.mgh.harvard.edu/ibsr/

23

F IG . 1.3 Coupes dIRM crbrales (T1) de la base OASIS (en haut, les coupes sont proches mais
ne sont pas exactement les mmes. Marcus et al. (2007)) et la base IBSR (en bas).
des structures. Les approches que nous proposons dans ces travaux se situent dans cette deuxime
famille.

1.2.1 Reprsentations de lanatomie crbrale


Lanatomie crbrale dispose de descriptions anatomiques (Waxman (2000); Hasboun (2005))
sous forme de nomenclature ou datlas morphologique et fonctionnel. Ces nomenclatures permettent lidentification de structures, et galement de faire le lien entre les diffrents noms possibles dune structure. Elles peuvent galement contenir des informations sur les caractristiques
des structures.
Plusieurs descriptions anatomiques sous forme de hirarchie ont t proposes dans la littrature, nous en prsentons prsent quelques unes.
Neuronames :
Neuronames (Bowden et Dubach (2003, 2005)) propose une hirarchie de lanatomie crbrale
o le cerveau (humain et macaque) est dcompos en 550 structures dites primaires et prs
de 850 lments au total. Des dfinitions, des synonymes et des traductions des noms de chaque
structure sont proposs. Une prsentation de la hirarchie ainsi quun navigateur est propos
cette adresse : http://braininfo.rprc.washington.edu/. Une capture du navigateur
est prsente dans la figure 1.4.
MEsH ( Medical subject headings ) :
MEsH (Lipscomb (2002)) propose des descriptions mdicales de plus de 25000 termes, et en
particulier des structures crbrales. Les descriptions sont accessibles par ordre alphabtique ou
dans une hirarchie sous forme darbre. Une dfinition pour chaque structure est fournie. Un navigateur, dont une capture est prsente par la figure 1.5, est disponible cette adresse :
http://www.nlm.nih.gov/mesh/MBrowser.html .

1. S EGMENTATION
24

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

F IG . 1.4 Une capture dcran du navigateur dans la hirarchie neuronames qui est hberge par luniversit de Washington cette adresse :
http://braininfo.rprc.washington.edu/.

F IG . 1.5 Une capture dcran du navigateur de la


tional Library of Medicine . Ladresse du navigateur
http://www.nlm.nih.gov/mesh/MBrowser.html .

base de la Naest la suivante :

25
FMA ( Foundational Model of Anatomy ) :
Lontologie de la FMA (Rosse et Mejino (2007)), disponible cette adresse :
http://sig.biostr.washington.edu/projects/fm) vise regrouper les reprsentations des classes et des types des relations ncessaires une reprsentation symbolique de la
structure du corps humain. Cette reprsentation de la connaissance anatomique nest pas sous
une forme darbre, mais peut tre vue de plusieurs points de vue, et avec diffrents niveaux
de granularit. Un explorateur Foundational Model Explorer est disponible cette adresse :
http://fme.biostr.washington.edu . Une capture est prsente sur la figure 1.6. Chaque
structure apparat avec ses relations aux autres structures ventuellement diffrentes granularits. Des informations sur la structure, comme sa dfinition, ses sous-parties, ou ses caractristiques
morphologiques sont donnes.

F IG . 1.6 Une capture dcran de


http://fme.biostr.washington.edu .

la

FMA

disponible

ladresse

Neuranat :
Neuranat (Hasboun (2005)) est un site plutt ddi lenseignement de la neuroanatomie et qui
ne propose pas de hirarchie des structures. Cependant, il propose des atlas morphologiques et
fonctionnels du cerveau, ainsi que des vidos et des animations autour du sujet. Les atlas sont disponibles cette adresse : http://www.chups.jussieu.fr/ext/neuranat. La figure
1.7 prsente une vue de latlas IRM en trois dimensions.
1.2.1.1

Atlas et modles de forme

Si les IRM crbrales prsentent une grande variabilit au niveau des caractristiques des
structures crbrales, la structure de lanatomie crbrale prsente une grande rgularit et a permis llaboration datlas anatomiques et fonctionnels (Talairach et Tournoux (1988)).

1. S EGMENTATION
26

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

F IG . 1.7 Deux captures dcran du site neuranat. En haut une vue de de latlas 3D IRM.
En bas la description dune structure (le noyau caud). Le site est accessible cette adresse :
http://www.chups.jussieu.fr/ext/neuranat .
Les atlas sont des reprsentations moyennes des structures anatomiques, qui peuvent tre gnres de diffrentes manires. Leur utilisation pour guider la reconnaissance des structures consiste
effectuer une mise en correspondance de latlas vers limage reconnatre. Les modles de
forme proposent un apprentissage distinct des formes de chacune des structures, afin dtre plus
reprsentatifs de chacune.

Atlas probabilistes et atlas moyens Les premires mthodes utilisant un atlas utilisent en pratique une unique image annote manuellement. Utiliser une unique image limite bien entendu la
variabilit usuelle des structures, et empche la reprsentation des particularits (par exemple, certaines circonvolutions du cortex napparaissent pas chez tous les sujets). Les atlas probabilistes et
les atlas moyens cherchent reprsenter la variabilit en fusionnant linformation provenant de
diffrentes images annotes manuellement.
La gnration dun atlas probabiliste, tel latlas ICBM (Mazziotta et al. (1995)), consiste
gnrer une carte de probabilit par structure, partir du recalage affine dun ensemble de cas segments manuellement. Pour chaque carte obtenue, la probabilit reflte le nombre doccurrences
aprs recalage de la structure en ce point. Une image peut alors tre gnre reprsentant latlas.
Pour latlas ICBM, 452 images en pondration T1 de jeunes adultes ont t utilises. Une repr-

27
sentation moyenne de tous les lments de la base permet daccrotre la reprsentativit de la base
et de prendre en compte la variabilit normale des structures. Mais cette gestion de la variabilit
seffectue au dtriment de la prcision. De plus, les images moyennes pour chaque structure sont
floues.
Les atlas moyens essayent de remdier ce problme, en proposant deffectuer un recalage de
groupe (Guimond et al. (2000); Joshi et al. (2004); Bhatia et al. (2004); Blezek et Miller (2007)).
Lobjectif est dextraire un atlas moyen dun groupe de sujets de la base de cas annots manuellement, compos de manire ce quil minimise la dformation raliser pour tre mis en correspondance avec tous les lments de la base, cest--dire que pour chaque lment de la base, la
dformation par rapport latlas moyen est minimise.
Les atlas moyens permettent de mieux reprsenter la base dapprentissage, mais il est toujours
difficile, en moyennant linformation, de reprsenter des singularits de la base. Dans les cas sains,
pour amliorer la reprsentativit, il est possible de ne pas extraire un unique atlas moyen, mais
tout un ensemble datlas qui soient les plus reprsentatifs possibles (Blezek et Miller (2007)). Mais
cette mthode est coteuse, en particulier si le nombre datlas est grand.
Mise en correspondance datlas Dans le cas des premires mthodes utilisant comme atlas une
unique image (Broit (1981); Iosifescu et al. (1997); Dawant et al. (1999b)), la mise en correspondance entre latlas et limage reconnatre peut tre vue comme un problme de recalage entre
deux images. Les variations ntant pas identiques pour toutes les parties, le recalage nest pas
linaire.
Pour les atlas probabilistes, plusieurs mthodes ont t proposes pour raliser la mise en correspondance. Elle peut tre effectue partir dune classification initiale de limage (Collins et al.
(1999)), ou encore en utilisant une estimation du maximum a posteriori (MAP) par un algorithme
de type esprance-maximisation (EM) (Pohl et al. (2002, 2006)). La mise en correspondance dun
atlas moyen peut tre effectue avec le mme type de mthodes.
Dans les cas pathologiques, il est ncessaire dadapter le modle. Une premire approche
(Dawant et al. (1999a, 2002)) consiste introduire la tumeur dans latlas. Cela peut tre effectu
en y plaant une graine dont la radiomtrie est celle de la tumeur. Dans le cas o la tumeur est
refoulante, cest--dire quelle va dplacer des structures, alors les dformations induites peuvent
alors tre modlises. Une deuxime approche (Kyriacou et al. (1999); Mohamed et al. (2006);
Zacharaki et al. (2008)) consiste modliser finement lanatomie (notamment les proprits biomcaniques de ses tissus) ainsi quun modle de croissance de la tumeur, afin de proposer une
modlisation des dformations subies. Dans toutes ces mthodes, linformation structurelle reste
code de manire implicite et est donc difficile utiliser.
Modles de formes Les modles de forme proposent de modliser les principaux modes de variations de chaque structure. Les premiers travaux (Cootes et al. (1995, 2001)) reprsentent les
contours dune structure par un ensemble de points. Les diffrents contours obtenus pour une
mme structure dans la base sont aligns et mis en correspondance. Il est alors possible deffectuer
une analyse en composantes principales (ACP). Les vecteurs propres obtenus reprsentent les diffrents modes de variation de la forme. Dans ces modles, il est en gnral considr que ces modes
de variation suivent une loi normale multidimensionelle (Leventon et al. (2000); Cremers et al.
(2002)) et que toute forme de cette famille peut tre exprime comme une combinaison linaire de
la forme moyenne et des vecteurs propres (qui reprsentent lcart-type du mode de dformation
reprsent par le vecteur propre). La probabilit dune forme peut tre obtenue partir des coefficients de la combinaison linaire. La reconnaissance peut alors tre exprime comme lobtention

1. S EGMENTATION
28

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

des paramtres du modle de localisation et des coefficients associs aux composantes principales
correspondant au cas reconnatre.
La mise en correspondance de tous les contours dune forme sur la base dapprentissage est
coteuse. Dautres travaux ont donc substitu au contour une carte de distance signe (Leventon et al.
(2000)). Avec ce type de reprsentation, le modle de forme obtenu peut tre intgr naturellement
dans un modle dformable comme une contrainte de ce modle.
Lagencement spatial peut tre pris en compte de manire non explicite en tendant lapproche
prcdente de manire effectuer lapprentissage joint de plusieurs formes (Yang et Duncan (2004a,b)
et Tsai et al. (2003, 2004)). Dans ce cas, lACP est effectue sur une concatnation des cartes de
distance de toutes les formes prises en compte. Une formulation baysienne est propose dans
(Yang et Duncan (2004b)) pour effectuer la segmentation en prenant en compte la contrainte multiformes.
Les modles de formes permettent damliorer le processus de segmentation en contraignant
le rsultat correspondre un petit nombre de formes. Cependant, sils peuvent prendre en compte
la variabilit anatomique dans les cas sains, ces modles peuvent difficilement tre adapts aux cas
pathologiques, qui prsentent une variabilit trop importante pour tre correctement modliss par
ce type de modles. De mme que pour les mthodes fondes sur un atlas, lagencement structurel
reste cod de manire implicite, et reste donc difficile utiliser.

1.2.1.2

Reprsentation structurelle de lanatomie crbrale

Lanatomie crbrale peut tre naturellement reprsente de manire hirarchique o chaque


niveau correspond une decomposition du niveau prcdent. Par exemple, lhmisphre droit
contient (entre autres) le cortex droit et la matire blanche droite. Les nomenclatures prsentes
dans cette partie proposent en gnral une hirarchie de linformation anatomique.
En particulier, lanatomie crbrale peut tre reprsente sous forme dun graphe dont les
nuds correspondent aux structures crbrales et dont les arcs dcrivent des relations entre ces
structures, laide de relations spatiales.
Un premier modle hirarchique de lanatomie crbrale a t prsent par O. Colliot dans
ses travaux de thse (Colliot (2003)) en collaboration avec un neuroanatomiste D. Hasboun. La
reprsentation est un hyper-graphe hirarchique. Les relations entre deux niveaux du graphe sont
des relations de composition et forment un graphe bi-partite. La structure est arborescente, le cerveau tant au premier niveau. Un hyper-graphe est utilis afin de pouvoir reprsenter des relations
spatiales ternaires comme la relation Entre .
Cette reprsentation a t tendue par la suite (Hudelot et al. (2006); Atif et al. (2007b)) vers
une reprsentation appele GRAFIP ( Graph of Representation of Anatomical and Functional
data for Individual patients including Pathologies ). Cette reprsentation intgre, en plus des informations structurelles sur lanatomie :
des informations sur la composition des tissus, permettant den dduire des consquences
sur sa radiomtrie ;
de la connaissance fonctionnelle ;
de la connaissance sur les pathologies issue des classifications WHO (Smirniotopoulos
(1999)) et de lhpital Sainte-Anne (Daumas-Duport (1992)).
Lobjectif est dintgrer des connaissances issues de limage dans une base de connaissances symboliques, lontologie de la FMA par exemple, ou dans un dossier patient. De plus, cette reprsentation permet une meilleure exploitation de la connaissance dans un processus de reconnaissance.
La figure 1.10 prsente le schma des connaissances intgres dans le GRAFIP.

29

F IG . 1.8 Les trois premiers niveaux du graphe hirarchique propos par Colliot (2003). Seules
les relations entre niveaux sont prsentes. Les structures du premier niveau correspondent au
Prosencphale (FB), Msencphale (MB) et au rhombencphale (HB) [Figure extraite de Colliot
(2003)].

F IG . 1.9 Un extrait du troisime niveau du graphe hirarchique propos par Colliot (2003). Les
relations entre les structures sont les suivantes : extrieur (E), intrieur (I), haut (B), bas (B), en
avant (Av), en arrire (Ar). [Figure extraite de Colliot (2003)].

Information spatiale Les hirarchies de lanatomie crbrale utilisent des relations topologiques pour dcrire la structure avec des relations telles que linclusion ou ladjacence. Les relations entre les structures dun niveau similaire peuvent tre dcrites en utilisant des relations
spatiales mtriques comme la direction ou lorientation, ou encore des relations plus complexes
comme la relation entre . Limprcision intrinsque des relations spatiales dcrites de manire
textuelle, par exemple le noyau caud est proche du ventricule latral, permet de grer la variabilit

1. S EGMENTATION
30

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

F IG . 1.10 GRAFIP (Hudelot et al. (2006); Atif et al. (2007b)). Le modle contient le modle
structurel de lanatomie ainsi que des connaissances symboliques permettant dintgrer toutes les
informations dans un processus de reconnaissance [figure extraite de Atif et al. (2007b)].
naturelle de lanatomie crbrale. La figure 1.11 prsente la hirarchie propose par Hudelot et al.
(2008).

1.2.2 Reconnaissance avec un modle structurel


Lagencement spatial des structures crbrales est stable en particulier dans le cas sain. Dans le
cas pathologique, lagencement global reste relativement stable et dans ce cas, la stabilit des relations peut tre estime en fonction du type de pathologie et du type de relation (Atif et al. (2006a)).
Lagencement spatial a donc t utilis dans des processus de reconnaissance et de segmentation
des structures sous-corticales.
Nous allons prsenter trois types dapproches pour effectuer la reconnaissance des structures
crbrales en utilisant ces reprsentations. Le premier type de mthode correspond une mise en
correspondance dune segmentation avec une reprsentation structurelle modlise par un graphe.
Le deuxime type de mthode est une approche squentielle pour la segmentation et la reconnaissance des structures crbrales. Nos travaux se situent dans cette deuxime catgorie. La dernire
approche est une approche plus globale utilisant un rseau de contraintes drives du modle
structurel et qui a t propose par Olivier Nempont dans ses travaux de thse (Nempont (2009)).
1.2.2.1

Segmentation et reconnaissance par mise en correspondance du modle

Le problme de reconnaissance des structures crbrales peut tre vu comme un problme


de mise en correspondance entre deux graphes : la reprsentation structurelle modlise par un

31

Relation Spatiale

Relation Topologique

Adjacent

Inclus

...

Relation Mtrique

Relation de Direction

Relation de Direction
Binaire

droite

Sur

Devant

Au dessus

Relation de Distance

Proche

Relation de Direction
Ternaire

...

Entre

Loin

...

...

Relation de hirarchie

F IG . 1.11 Une partie de la hirarchie des relations spatiales propose par Hudelot et al.
(2008)[figure extraite de Hudelot et al. (2008)].
graphe dune part, et une sur-segmentation de limage reconnatre partir de laquelle nous
pouvons extraire un graphe dautre part. Le problme de mise en correspondance de graphes est un
problme complexe qui a fait lobjet de beaucoup de travaux. On pourra se reporter Conte et al.
(2004); Bunke (2000) pour une revue de ces travaux.
Une approche par mise en correspondance de graphes a t dveloppe par Perchant (2000);
Perchant et Bloch (2002), qui proposent de trouver un morphisme flou entre un graphe modle,
cr partir dune image annote manuellement, et une image reconnatre sur-segmente. Dans
cette approche, les attributs sont reprsents par des ensembles flous. La sur-segmentation comportant plus de nuds que le graphe modle, il sagit dune mise en correspondance inexacte et
plusieurs nuds de limage sur-segmente sont attribus une mme structure du graphe modle.
Ce problme de mise en correspondance de graphes est gnralement NP-complet. Diffrentes
approches doptimisation, permettant de trouver une solution sous-optimale, ont t proposes par
Perchant (2000) dont des algorithmes gntiques et une formulation baysienne. Un algorithme
destimation de distribution a t ensuite propos par Bengoetxea et al. (2002), puis une recherche
par arbre par Cesar et al. (2005).
Une autre approche (Deruyver et Hod (1997); Hod et Deruyver (2007)) utilise une sur-segmentation
pour effectuer la reconnaissance des structures. Le problme est formul comme un problme de
satisfaction de contraintes deux niveaux. Des contraintes binaires sont calcules entre les ensembles de rgions regroups dans un mme nud du modle. Dautres contraintes sont calcules entre les rgions regroupes dans un mme noeud. Un algorithme de propagation adapt est
propos pour rsoudre le problme bi-contraint. Une extension rcente (Deruyver et al. (2009))
reformule le problme comme la mise en correspondance entre une image sur-segmente et une
ontologie reprsente sous forme de graphe laide dun graphe conceptuel. Une extension de
lalgorithme de consistance bi-contraint est propose afin de ne plus tre limit des mises en

1. S EGMENTATION
32

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

F IG . 1.12 Rsultat dinterprtation dune image crbrale par mise en correspondance de graphes
formule comme un problme bi-contraint propos par Deruyver et al. (2009). Le rsultat de la
reconnaissance des noyaux gris est prsent en haut sur diffrentes coupes. En bas, le rsultat de
la reconnaissance avec lapparition dune tumeur qui ntait pas attendue, mais qui a t dtecte
par le processus et ajoute dans le graphe. [Figure extraite de Deruyver et al. (2009)].

correspondance surjectives, permettant ainsi lapparition de nouvelles structures qui ntaient pas
prsentes dans le graphe conceptuel. Cette extension est particulirement adapte au cas de pathologies en imagerie crbrale. La figure 1.12 prsente un rsultat dinterprtation dune image
crbrale avec cette approche.

1.2.2.2

Approche itrative de la segmentation

La sur-segmentation utilise dans certaines des approches prcdentes ne garantit pas de fournir une solution initiale correcte, en particulier cause de la radiomtrie des structures crbrales
parfois difficiles diffrencier de la matire qui les entoure. Les approches itratives permettent
de saffranchir de la sur-segmentation, en ralisant en mme temps la segmentation et la reconnaissance des structures, et cela de manire squentielle. Le processus dbute en commenant par
les structures qui sont les plus aises segmenter, comme les ventricules qui prsentent un fort
contraste avec les matires adjacentes, puis chaque itration linformation spatiale et les segmentations prcdentes permettent de guider le processus pour reconnatre les structures suivantes.
Une premire approche a t propose dans Graud et al. (1999, 2000); Bloch et al. (2003)
o la segmentation est effectue dans une zone dintrt dfinie par les relations spatiales avec
un processus automatique de classification des pixels de limage, puis recale sur un patron de la
structure.
Afin de saffranchir des patrons utiliss dans cette approche, la segmentation a t modifie
par Colliot et al. (2006) pour utiliser un modle dformable utilisant les relations spatiales pour
contraindre le modle. Une extension godsique de cette approche de la segmentation a t formule ensuite par Atif et al. (2006b). Nos travaux reposent sur cette approche et utilisent cette
formulation du problme de segmentation, qui est dtaille dans le chapitre 5.

33

F IG . 1.13 Rsultats de la reconnaissance des structures sous-corticales par la mthode propose


par Nempont (2009) sur un cas pathologique. Le systme part dun graphe complet de contraintes
qui prvoit la possibilit dune tumeur refoulante dans limage observe. laide dun algorithme
de propagation de contraintes, les domaines de chaque structure sont rduits, et une solution peut
tre extraite laide dun algorithme de surface minimale. [Figure extraite de Nempont (2009)].
1.2.2.3

Approche globale par contraintes

Les travaux de thse dOlivier Nempont (Nempont (2009)) proposent une autre formulation du
problme de la segmentation et de la reconnaissance des structures sous-corticales par un rseau
de contraintes, mais sans effectuer une mise en correpondance de graphes. Ces travaux utilisent
la reprsentation dfinie par (Hudelot et al. (2006); Atif et al. (2007b)). Le but recherch est dassocier chaque structure anatomique recherche une rgion de lespace satisfaisant lensemble
des relations du modle, les contraintes tant drives du modle structurel.
Le problme tant trop complexe pour tre directement rsolu, la solution est obtenue en deux
tapes. Tout dabord, laide dun algorithme de propagation de contraintes : les bornes du domaine de chaque variable sont rduites en supprimant toutes les valeurs qui ne peuvent pas tre
solution du problme. Ensuite, lorsque les domaines ont t rduits grce au rseau de contraintes,
une solution approximative (au sens des contraintes) est extraite des valeurs restantes.
Les cas pathologiques ont ncessit une adaptation du processus de reconnaissance, puisque
le modle ne correspond plus limage. Ladaptation se limite des pathologies peu refoulantes.
Tous les modles spcifiques (avec des pathologies) ont t pris en compte. Le processus doit alors
effectuer la reconnaissance des structures comme prcdemment, mais il va en plus, au cours du
processus, supprimer des hypothses sur le modle spcifique. La reconnaissance des structures
crbrales et lidentification du modle adapt la pathologie sont donc effectues de manire
simultane. Un rsultat de reconnaissance avec un cas pathologique est prsent dans la figure
1.13.

1.3 Conclusion
La reconnaissance des structures crbrales est donc une tche complexe qui ncessite un
modle. En particulier, lagencement spatial est une connaissance stable qui a t utilise dans
plusieurs approches. Limportance de linformation spatiale et les modles structurels disponibles
font de cette tche un domaine dapplication adquat pour nos travaux.
Les mthodes reposant sur une mise en correspondance dun modle structurel avec une image
reprsente comme un graphe dpendent en gnral dune sur-segmentation qui ne garantit pas de
donner une solution initiale satisfaisante, dans le cas o une structure ne peut tre diffrencie de
la matire qui lentoure par exemple, comme cest le cas du thalamus dans certaines coupes. Il est
donc intressant de se passer de cette segmentation initiale.

1. S EGMENTATION
34

ET RECONNAISSANCE DE STRUCTURES CRBRALES

: LES

APPROCHES

PAR MODLE

Lapproche globale propose par O. Nempont dans ses travaux de thse (Nempont (2009))
permet de saffranchir de cette segmentation. Cependant, le modle utilis possdant un grand
nombre de contraintes, la complexit de la tche est assez grande. Lutilisation dune segmentation
de structures dune taille importante (relativement) et place prt du centre du cerveau comme
solution initiale cette approche peut permettre de simplifier la tche, en diminuant beaucoup les
domaines initiaux. De plus, la dtection dun cas pathologique et la segmentation au pralable de
la tumeur peut galement simplifier le problme.
Les approches itratives permettent galement de saffranchir de la segmentation initiale. Lapproche dO. Colliot (Colliot (2003)) utilise cependant une squence de segmentation ad hoc et qui
peut ncessiter une adaptation, en particulier dans les cas pathologiques. Dans tous les cas, il
est intressant de tenir compte de linformation recueillie directement dans limage au cours du
processus, pour pouvoir sadapter au cas spcifique reprsent par limage.
Nous proposons dans ces travaux dexploiter au mieux linformation spatiale contenue dans
un modle, tel que lagencement spatial des structures crbrales, pour guider la reconnaissance.
Lapproche que nous proposons dans le chapitre 4 ncessite un modle structurel, ainsi quau
moins une image annote manuellement, afin de dterminer selon le modle, partir dune structure de rfrence, quelle est la meilleure squence de segmentation effectuer pour atteindre une
structure cible. Cette approche nous fournit une information supplmentaire, indpendamment de
la mthode choisie pour la reconnaissance des structures par la suite.
Dans une deuxime approche, prsente dans le chapitre 5, nous proposons dintgrer un mcanisme pr-attentionnel un processus de segmentation squentielle qui est vu comme une exploration progressive de limage. Lexploration repose sur linformation spatiale, comme les approches itratives dcrites prcdemment, le mcanisme pr-attentionnel tant l pour guider la
slection des structures segmenter. Cette approche peut donc tre naturellement intgre dans
une approche telle que celle propose par Colliot (2003).

35

Chapitre 2

Les mcanismes de lattention


Dans ce chapitre, nous nous intressons aux modlisations du systme visuel humain : nous
dcrivons les diffrentes phases pendant lesquelles nous retirons des informations dune scne,
nous permettant de lanalyser, de reconnatre les objets la composent, etc. En outre, cette analyse
est effectue sans que nous ayons besoin dy penser, de manire automatique. Lanalyse dune
scne par un systme dans un but dinterprtation ou de reconnaissance des objets nest pas aussi
facile.
De nombreux travaux sinspirent du systme visuel humain, que ce soit dans le but de mieux
comprendre ce systme, ou bien dutiliser certains mcanismes bio-inspirs dans des tches de reconnaissance ou dinterprtation. Nous nous intressons galement aux informations qui peuvent
tre extraites dune scne, dune image, afin de les intgrer dans un raisonnement qui utilise linformation spatiale.
Nous prsentons dans ce chapitre les mcanismes attentionnels et pr-attentionnels, o et comment ils interviennent dans un systme de vision, et comment nous pouvons les utiliser dans le
cadre de lapplication la segmentation des structures crbrales. Lintgration de cette information dans un systme de segmentation est tudie dans le chapitre 4.
Le chapitre commence par une prsentation gnrale de la notion dattention afin de comprendre le besoin dun systme pr-attentionnel, qui sera prsent dans la section 2.2. Nous prsenterons alors plus en dtail une implmentation du systme pr-attentionnel que nous utiliserons,
les cartes de saillance, dans la section 2.3 et enfin, nous dtaillerons dans la section 2.4 les adaptations que nous proposons la gnration des cartes de saillance pour les calculer sur des images
IRM en trois dimensions.

2.1 Quest ce que lattention ?


Les mcanismes de la vision ont t tudis depuis longtemps, commencer par les mouvements des yeux. En effet il a t dmontr que les yeux ralisent une saccade de mouvements
( overt attention par opposition covert attention o lattention peut se dplacer sans entraner de mouvement de lil). Yarbus (1967) a mis en vidence, laide dun dispositif exprimental
consistant placer un dispositif sur lil permettant den suivre les mouvements lors de lexploration libre dune image. Cette exprience est illustre par la figure 2.1. Les mouvemements des
yeux ont galement t suivis par le mme dispositif, mais lors dune exploration particulire
dune scne, o lobservateur doit remplir une tche particulire comme compter le nombre de
personnages dans une scne par exemple.

36

2. L ES

MCANISMES DE L ATTENTION

F IG . 2.1 Mouvement des yeux lors de lexploration dune scne. Source : Cotteret (2005) daprs
Yarbus (1967).

2.1.1 Dfinition de lattention


Lattention est une notion usuelle et connue du plus grand nombre. En revanche les dfinitions
pour la dcrire restent toutefois relativement vagues et imprcises. La dfinition la plus classique
est celle de James (1890) :
Everyone knows what attention is. It is the taking possession by the mind, in clear and vivid form,
of one out of what seem several simultaneously possible objects or trains of thought. Focalization,
concentration, of consciousness are of its essence. It implies withdrawal from some things in order
to deal effectively with others, and is a condition which has a real opposite in the confused, dazed,
scatterbrained state which in French is called distraction, and Zerstreutheit in German .
Posner (1980) a prsent plusieurs expriences permettant de mettre en vidence lattention
visuelle et qui ont permis de dfinir les premires thories de lattentionnel. Des proprits de
lattention visuelle ont t nonces par Pashler (1998) :
la slectivit : cest--dire privilgier certains stimuli au dtriment dautres ;
la limitation de capacit : cest--dire comment traiter des stimuli diffrents en mme temps ;
leffort : une attention soutenue des mmes stimuli visuels faisant ressentir la sensation dun
effort.
partir de ces proprits, nous pouvons revenir une notion usuelle, o lattention visuelle permet
danalyser certains stimuli de manire soutenue, ce qui peut impliquer un effort. Lanalyse de
certains stimuli pouvant seffectuer en faisant totalement abstraction dautres stimuli.
La plupart des travaux sur lattention visuelle considrent que lattention porte sur une petite
partie de limage seulement : un faisceau attentionnel. Nous pouvons rapprocher cela du faisceau
dune lampe sur une scne sans lumire qui nous permettrait dexplorer la scne peu peu, ou
encore dune lentille grossissante qui nous permettrait de ne regarder quune petite partie dune
image de manire dtaille. La figure 2.2 montre ce que peroit lil lors dune saccade oculaire

37
sur une scne donne cinquante centimtres de limage. Le fait que seule une partie de limage
est observe un moment donn implique un traitement squentiel de la scne analyser.

F IG . 2.2 Ce que lil voit selon Machrouh. Une scne naturelle (en haut gauche), et trois
instants dune saccade oculaire ralise lors de la vision de cette scne. Le focus attentionnel se
dplace comme un faisceau sur la scne. Source : Cotteret (2005) daprs Machrouh (2002)

2.1.2 Lunit attentionelle


La mtaphore du faisceau attentionnel nous indique que la scne est analyse de manire
squentielle, o une slection attentionnelle est donc effectue. La plupart des thories considrent
que cette slection attentionnelle est spatiale. Cependant, nombre de travaux remettent en question
la nature de lunit dattention visuelle .
Posner et al. (1980) mettent en vidence lexistence dune slection spatiale grce des signaux visuels. Ils montrent ainsi que le temps de rponse lapparition dun motif particulier est
dautant plus rduit que lon fait apparatre un signal proche de la future localisation du motif.
Dautres expriences produisent des rsultats similaires (Downing et Pinker (1985)). Mais si ces
expriences montrent lexistence dune slection spatiale, ce nest pas toujours le cas. Les travaux de Ulric Neisser sur le Selective looking (Neisser et Becklen (1975)) montrent que cette
slection nest pas purement spatiale. Des rsultats similaires ont t obtenus plus rcemment
par Simons et Chabris (1999). Dans cette dernire exprience, on prsente aux sujets une vido
de soixante quinze secondes dans laquelle deux quipes (en blanc ou noir) de trois personnes se
passent un ballon. On demande aux participants de compter le nombre de passes. Pendant lexprience, un vnement particulier survient, une femme avec un parapluie, ou une personne dguise
en gorille passe en cinq secondes dans la scne. Le figure 2.3 montre des images de la vido issue
de cette exprience. Quatre protocoles sont dfinis, avec la femme au parapluie ou le gorille comme
vnement, puis avec deux manires diffrentes de superposer lvnement avec les personnages
qui se passent un ballon : dans la premire les vidos sont cres de manire indpendantes et
les deux squences sont fusionnes. Ces conditions reprennent le protocole des expriences de
U. Neisser. Dans la deuxime, lvnement intervient directement au milieu des personnages. Les
rsultats montrent quune part non ngligeable des observateurs, 46% toutes conditions confondues, ne dtectent pas lvnement dans la scne. Cette exprience qui superpose les stimuli, tend

38

2. L ES

MCANISMES DE L ATTENTION

montrer que si la slection tait uniquement spatiale, les vnements seraient dtects.

F IG . 2.3 Quelques images des squences vidos de lexprience de Simons et Chabris (1999)
montrant que la slection attentionnelle nest pas uniquement spatiale. Les observateurs des vidos
doivent compter le nombre de passes effectues par lune des deux quipes, blanches ou noires.
On leur demande la fin sils ont peru un vnement particulier pendant cette tche. Lvnement correspond soit une femme avec un parapluie, soit un personne dguise en gorille. Les
rsultats montrent que 46% des observateurs (les 4 modalits confondues) ne parviennent pas
dtecter lvnement dans la vido. La version en transparence vise se rapprocher des conditions
exprimentales des travaux de Nisser (Neisser et Becklen (1975)).

Le principe de superposition des stimuli permet de ne pas tre dpendant de la localisation


spatiale. Ce principe a galement t utilis dans les travaux de Duncan (1984). Ces travaux dmontrent une prfrence du sujet lorsquil doit sintresser deux stimuli, si ces deux stimuli sont
placs sur le mme objet plutt que dans la situation o les mmes stimuli sont sur deux objets
diffrents. Dans cette exprience, deux stimuli superposs sont prsents un observateur. Le premier est une ligne qui peut tre oriente de diffrentes manires et compose diffremment (tirets,
points, . . .). Le deuxime est une bote dont les dimensions varient et dont le contour est incomplet
sur un ct. On demande un sujet dobserver deux caractristiques, soit sur le mme objet, soit
une caractristique sur chacun des objets. Lexprience montre quil est bien plus ais dobserver
deux caractristiques sur un mme objet plutt que sur des objets diffrents. La figure 2.4 prsente
un exemple de stimuli utilis dans cette exprience.
On pourra se rfrer Scholl (2001) pour avoir un panorama complet des expriences permettant la mise en vidence de limportance de lobjet dans la slection attentionnelle. Tous ces
travaux veulent mettre en vidence le fait que lunit attentionnelle peut tre, dans certains cas, des
objets discrets, et que la limite, si elle nest pas spatiale, est plutt le nombre dobjets qui peuvent
tre observs simultanment.

39

F IG . 2.4 Les stimuli utiliss par Duncan (1984) pour montrer quil est plus ais pour un observateur dtudier deux caractristiques sur un mme objet plutt quune caractristique sur chacun
des deux objets superposs. Chaque objet peut varier en taille ou en orientation, les motifs de la
ligne galement, ainsi que la position du trou dans le contour de la bote.

2.2 Le pr-attentionnel
Les thories de lattentionnel ont mis en vidence la slection attentionnelle qui est effectue sur la scne, illustre par la mtaphore du faisceau attentionnel. La slection attentionnelle
implique une exploration squentielle dune scne. Ltape pr-attentionnelle porte sur les mcanismes qui ont pour objectif de guider le faisceau attentionnel, cest--dire de slectionner dans
la scne les zones qui vont tre tudies par la phase attentionnelle. Il sagit dune tape ascendante
( bottom-up ), cest--dire guide par les donnes. Lide de mcanismes spcifiques pour guider
lattentionnel a t introduite par Neisser (1967). Les premiers travaux de mise en vidence exprimentale des mcanismes pr-attentionnels sont dus Treisman pour lidentification des caractristiques visuelles appeles preattentive features (Treisman (1985); Treisman et Gormican (1988);
Treisman (1991)), ainsi que pour la gestion du pr-attentif par le systme visuel (Treisman et Gelade
(1980)).
ltape pr-attentionnelle, tout un ensemble de caractristiques visuelles sont dtectes de
manire trs rapide, sans que le nombre dobjets dans la scne influe sur le temps de recherche.
La figure 2.5 illustre ce phnomne de pop-out , o les objets qui ne diffrent que dune et une
seule caractristique par rapport aux autres sautent aux yeux . Deux exemples sont prsents.
Lobjet diffre dans le premier par sa couleur. Dans le deuxime, il diffre par sa forme des autres
objets. Dans les expriences initiales, deux images sont prsentes lobservateur, une avec un
leurre et lautre sans. Lobservateur doit indiquer sil y a un leurre. Les temps de rponse sont
alors analyss. Dans le cas prsent dans la figure 2.5.c, il y a deux objets dans la scne, des carrs
rouges et des ronds bleus. Un leurre rond rouge partage donc une caractristique avec chacun
des objets. La recherche de ce type de leurre est appele recherche conjointe, le phnomne de
pop-out ne se produit pas et la recherche doit tre effectue de manire squentielle en faisant
appel aux mcanismes attentionnels. Dans ce cas, la recherche est plus longue et est dpendante
du nombre dobjets dans la scne.
Il existe tout un ensemble de caractristiques visuelles qui ont t identifies dont certaines
peuvent tre plus difficiles reprer que dautres. Treisman avance lide que ces caractristiques
ont en commun de pouvoir tre traites en parallle. Dans Duncan et Humphreys (1989a), une dfinition dcrit ces caractristiques comme :
a feature or stimulus that differs from its immediate surround in some dimensions and the surround is reasonably homogeneous in those dimensions .

40

2. L ES

a)

b)

MCANISMES DE L ATTENTION

c)

F IG . 2.5 Illustration du phnomne de pop-out lorsquun leurre diffre dune caractristique visuelle unique des autres objets de limage. La recherche est trs rapide et nest pas dpendante du
nombre dobjets dans limage. a) Un leurre diffre par sa couleur, b) par sa forme. c) Recherche
conjointe, le leurre diffre dun objet par sa couleur mais il est de la mme couleur que lautre
objet. Inversement avec sa forme. Dans ce cas, le phnomne de pop-out napparat pas, et la recherche est bien plus lente, car elle est effectue de manire squentielle. Source : Healey. (2007).
Wolfe propose une revue des caractristiques visuelles (Wolfe (1998); Wolfe et Horowitz (2004)).
La figure 2.6 prsente une liste non exhaustive des caractristiques visuelles, parmi lesquelles on
trouve la couleur, la taille, la forme, lorientation, la courbure, lintensit lumineuse, etc. Des caractristiques lies aux mouvements ne sont pas reprsentes, comme la vitesse de dplacement (si
un leurre va plus vite que les objets), le sens de dplacement (sil est diffrent du dplacement des
autres objets). Certaines caractristiques sont plus lementaires, et certaines sont moins rapides
tre dtectes. (Voir Wolfe (1998) pour une discussion dtaille propos de ces caractristiques.)

41

Orientation

Longueur

Fermeture

Taille

Courbure

Densit

Alignement

Couleur

Intensit

Intersection

Terminaison

Profondeur

F IG . 2.6 Illustration non exhaustive des diffrentes caractristiques visuelles pr-attentionelles


(source : Healey. (2007)). On peut ajouter cette liste des caractristiques lies au mouvement : le
sens de dplacement, la vitesse de dplacement et le clignotement. La diffrence dintensit nest
pas visible sur une impression, mais est visible sur une version lectronique de ce document. Pour
la profondeur, la diffrence est visible sur les ombres de chaque point.

42

2. L ES

MCANISMES DE L ATTENTION

2.2.1 Les diffrentes thories pr-attentionnelles


Il existe plusieurs grandes thories sur la manire dont la phase pr-attentionnelle est gre
par le systme visuel. Nous allons prsenter les plus connues. Pour chaque thorie, lobjectif est
de guider ltape attentionnelle, en cherchant dans limage les objets ou zones qui sont les plus
saillants. Itti (2007) donne la dfinition suivante :
The visual saliency is the distinct subjective perceptual quality which makes some items in the
world stand out from their neighbors and immediately grab our attention.
2.2.1.1

Feature integration theory

La feature integration theory a t propose par Treisman (Treisman et Gelade (1980))


et a inspir beaucoup de systmes pr-attentionnels. Dans cette thorie, linformation provenant
de chaque caractristique visuelle est code dans une carte ddie, comme des oppositions de
couleurs, des orientations. Chaque carte de caractristiques est produite indpendemment et en
parallle des autres, ce qui garantit la rapidit de traitement pour une image. Si un leurre ne diffre
que par une seule caractristique, alors la carte correspondante sera active et la recherche est
aise. Dans le cas dune recherche en conjonction, o un leurre partage des caractristiques avec
dautres objets, mais diffre par une autre, alors la recherche doit tre effectue en comparant des
localisations sur les diffrentes cartes de caractristiques. Cette tche est effectue en utilisant une
carte de localisation ( map of locations ou carte topologique). Cette carte est utilise pour guider
le focus attentionnel, permettant de trouver lobjectif. La figure 2.7 prsente un schma illustrant
les diffrentes cartes de cette thorie.

F IG . 2.7 Schma de principe de la feature integration theory (Treisman et Gelade (1980)).


Chaque caractristique visuelle est code dans une carte ddie dune manire propre la caractristique. La carte topologique regroupe linformation des cartes de caractristiques et permet de
dplacer le focus dattention pour une recherche conjointe par exemple. Source : Healey. (2007)

43
2.2.1.2

Guided search theory

La guided search theory (Wolfe et al. (1989); Wolfe (1994); Rodriguez-Sanchez et al. (2007))
est une thorie proche de la prcdente mais qui prend en compte un mcanisme descendant ( topdown ). Cette approche nest donc plus uniquement guide par les donnes. Le schma gnral
propose une carte non plus par caractristique visuelle, mais par type de caractristique (comme
la couleur par exemple) qui regroupera les informations de toutes les caractristiques appartenant
cette catgorie. Toutes les cartes de caractristiques sont regroupes dans une carte dactivation, correspondant au principe de la carte topologique de Treisman. Lintgration du processus
descendant seffectue grce la carte dactivation, o la saillance va tre adapte en fonction de
lobjectif suivi, afin de promouvoir les caractristiques correspondantes. Cela permet de modliser
notre habilit rechercher de manire plus efficace des objets dont on connat lavance les caractristiques. La figure 2.8 prsente le schma gnral de la mthode propose par Wolfe (1994).
Du point de vue des neuro-sciences, cette habilit correspond lattention fonde sur les caractristiques ( feature-based attention ) mise en vidence par plusieurs expriences (Motter (1994);
Treue et Trujillo (1999); Saenz1 et al. (2002)).

F IG . 2.8 Schma du principe de la guided search theory (Wolfe et al. (1989); Wolfe (1994);
Rodriguez-Sanchez et al. (2007)). Les caractristiques visuelles sont regroupes par catgorie et
traites en parallle, ici la couleur et lorientation. Linformation est alors regroupe dans la carte
dactivation. Le processus descendant influe sur lactivation des composantes pour modifier la
recherche visuelle, afin de la faire correspondre aux caractristiques recherches. [Source : Itti
(2007) daprs Wolfe (1994).]

2.2.1.3

Texton theory

La thorie des textons (Julsz (1981a,b); Julsz et Bergen (1983)) indique que le systme visuel peut dtecter de manire pr-attentionnelle des groupes de caractristiques appels textons,

44

2. L ES

MCANISMES DE L ATTENTION

qui sont classs en trois groupes : des formes allonges avec comme caractristique la couleur,
lorientation ou la taille ; des terminateurs, cest--dire des fins de ligne, et enfin des croisements de lignes. Comme dans la feature integration theory , Julsz considre que la phase
pr-attentionnelle est effectue en parallle, alors que la phase attentionnelle est squentielle.
2.2.1.4

Similarity theory

La thorie des similitudes (Duncan (1989); Duncan et Humphreys (1989b); Mller et al. (1990))
rompt avec le schma dune recherche effectue en parallle ou de manire squentielle. Au lieu
de cela, le temps de recherche est prsent comme tant dpendant des similarits entre lobjectif
et les autres objets dune part, mais aussi de lhomognit des autres objets. La recherche sera
dautant plus facile que lobjet recherch est diffrent des autres objets. Elle sera galement plus
facile si tous les autres objets se ressemblent, et si les variations de lune ou lautre similarit ont
plus ou moins dimportance en fonction du niveau de lautre. Dans cette thorie, le champ visuel est segment par units structurelles qui partagent une mme caractristique visuelle. Chaque
unit structurelle peut tre ensuite nouveau subdivise, ce qui permet dobtenir une hirarchie
du champ visuel.

2.2.2 Conclusion sur les thories pr-attentionnelles


Toutes les thories dcrites ici proposent une manire pour extraire de limage des informations saillantes, zone ou objet de la scne. La thorie dintgration des caractristiques est la plus
rpandue et a donn naissance de nombreuses mises en uvre. La recherche visuelle est en
quelque sorte le pendant de la premire thorie pour une vision guide par un modle, et non plus
guide par les donnes uniquement. La thorie des textons dcoule des travaux de Julsz mais na
pas donn lieu dautres dveloppements. Quant la thorie des similitudes, elle permet dexpliquer certains comportements mais na pas donn lieu des systmes oprationnels. Nous nous
intressons ici une recherche dinformations guide par les donnes, en vue dexplorer une scne
et notamment aux cartes de saillance, que nous allons prsenter plus en dtail prsent.

2.3 Les cartes de saillance


Les cartes de saillance modlisent un mcanisme pr-attentionnel inspir par le systme visuel humain, mais sans toutefois chercher tre psycho-raliste. Il correspond un exemple de
mcanisme issu de la feature integration theory . Les cartes de saillance ont t proposes par
Itti et al. (1998), reprenant un modle dcrit par Koch et Ullman (1985). Ce mcanisme permet
une slection attentionnelle et spatiale qui utilise des caractristiques facilement calculables sur
tout type dimage. La figure 2.9 prsente le schma gnral de la mthode permettant de calculer les cartes de saillance et la figure 2.10 prsente un exemple de carte de saillance calcule sur
limage Lena . Nous allons maintenant prsenter la mthode originale. Nous prsenterons les
adaptations ncessaires au type dimages que nous souhaitons utiliser.
Cette approche utilise des caractristiques visuelles courantes correspondant des percepts
neurophysiologiques : des oppositions de couleurs, diffrences dintensit et dorientation. Plus
prcisment, une carte de caractristiques refltera les oppositions dintensit (sombre ou clair),
une deuxime carte combinera les informations issues de deux oppositions de couleurs, rouge et
vert dune part, bleu et jaune dautre part, la couleur jaune tant obtenue partir dune combinaison
de rouge et de vert. Une troisime carte regroupera les informations sur les orientations dans

45

F IG . 2.9 Schma gnral pour la gnration des cartes de saillance telle que dcrite par Itti et al.
(1998). Les diffrentes caractristiques sont extraites et reprsentes sur diffrentes chelles dont
les diffrences produisent des cartes de discontinuits. Les cartes sont ensuite fusionnes pour gnrer la carte de saillance. La zone la plus saillante est alors produite par un algorithme Winnertake-all et un mcanisme utilisant le phnomne dinhibition de retour permet ditrer sur les
zones saillantes de limage. Linhibition de retour permet de ne pas tenir compte dune zone
saillante pendant un court moment afin de permettre lexploration dautres zones qui sont moins
saillantes. Source : Itti (2005).

limage, obtenue partir de filtres de Gabor dans un nombre donn de directions (quatre dans la
mthode originale).

F IG . 2.10 Un exemple de carte de saillance ( droite) calcule sur limage de gauche. Les zones
sombres correspondent aux parties les moins saillantes, les zones claires aux parties de limage
les plus saillantes. Les parties claires de limage de gauche qui sont bien contrastes avec les
zones environnantes apparaissent bien saillantes dans la carte correspondante. Il faut noter que
la saillance nest pas limite aux bords de ces zones mme si ce sont les discontinuits qui sont
tudies cause du facteur dchelle dans la gnration des cartes. droite sur limage, quelques
structures verticales, qui sont globalement peu voyantes mais dont la gomtrie attire lil, sont
visibles sur la carte de saillance.

46

2. L ES

MCANISMES DE L ATTENTION

Pour chacune des sept sous-caractristiques, savoir lintensit, deux oppositions de couleurs
et quatre orientations, limage originale est tout dabord filtre afin de ne conserver que linformation concernant cette caractristique. partir de cette image filtre, une pyramide gaussienne est
gnre. La taille de toutes les images de la pyramide gaussienne est ensuite modifie afin quelles
possdent toutes la mme taille, qui sera la taille de la carte de saillance.
Des cartes de discontinuits sont ensuite extraites. Une carte de discontinuits reprsente ici
les diffrences entre une zone et son contour immdiat, appeles diffrences centre-contour (,
center-surround difference ). En pratique, une carte de discontinuits est une diffrence pixel
pixel entre deux niveaux de la mme pyramide, un niveau dit fin, et un niveau dit grossier.
Diffrentes cartes sont gnres avec diffrents niveaux fin et grossier, afin dobtenir diffrents
niveaux dchelles. Les niveaux fins de la pyramide sont c {2, 3, 4} et les niveaux grossiers sont
s = c + d avec d {3, 4}. Il y a donc 6 cartes de discontinuits par caractristique. La figure 2.11
illustre la gnration des cartes de discontinuits.

Niveaux fins
Niveaux grossiers

diffrence centre/contour

cartes de
discontinuits
Pyramide
Gaussienne
F IG . 2.11 Traitements effectus pour chaque caractristique. Limage originale est filtre en
fonction de la caractristique. Une pyramide gaussienne est ensuite gnre, puis remise une
mme taille. Les niveaux fins compars aux niveaux grossiers permettent de gnrer les cartes de
discontinuits. Une fois normalises, elles sont combines pour former une carte unique reprsentant la caractristique.
Pour chaque caractristique, les cartes de discontinuits sont normalises, puis fusionnes
laide dun oprateur de normalisation ad-hoc, permettant de favoriser les cartes prsentant des
pics plus levs que leur moyenne par rapport une une carte prsentant beaucoup de pics, mais
dune hauteur similaire par exemple. Nous obtenons donc une carte pour chacune des sept caractristiques. Les cartes correspondant un mme type de caractristique sont fusionnes : les
quatre cartes reprsentant les orientations sont fusionnes en une unique carte reprsentant toutes
les orientations. Mme chose pour les deux oppositions de couleurs. Il reste trois cartes reprsentant chaque type de caractristique (intensit, couleur, orientation), appeles conspicuity maps
ou carte de visibilit. Ces trois cartes sont alors fusionnes pour produire la carte de saillance.
Cette approche initiale a donn lieu de nombreux travaux. On trouve dautres applications
dans Itti (2005). Dans Walther et Koch (2006), cette approche est utilise pour extraire des protoobjets . Dans ce cas, une carte de saillance de la scne est extraite de la manire dcrite prcdemment. Le proto-objet extrait sera lobjet se situant lemplacement le plus saillant identifi
par la carte de saillance. Pour extraire lobjet, il ny a pas de segmentation, mais un proto-objet
est extrait partir des cartes qui ont t utilises pour crer la carte de saillance. Pour cela, il est
ncessaire didentifier la caractristique, puis la carte de discontinuit ayant le plus contribu dans

47

F IG . 2.12 Mthode pour extraire des proto-objets prsente par Walther et Koch (2006) : la zone
la plus saillante dcrit un objet qui sera extrait par seuillage partir de la carte de discontinuits
ayant le plus contribu sa saillance. [Source Walther et Koch (2006)]
la saillance dtecte, cest--dire une caractristique et un niveau dchelle. Une fois cette carte
identifie, nous connaissons un point du proto-objet, un seuillage de limage est effectu, et la
composante connexe qui contient le point correspond au proto-objet est extraite. La figure 2.12
illustre cette approche.
Walther et Koch (2006) prsentent une mthode dapprentissage pour adapter le processus
un problme donn. On retrouve cette notion dapprendre les caractristiques dun objet pour
contraindre la saillance dans Kanan et al. (2009) qui parlent de contextual guidance par exemple,
pour rechercher de la vaisselle ou des tableaux dans une scne naturelle.

2.4 Les cartes de saillance adaptes aux images IRM


Limagerie par rsonance magntique nuclaire (IRM) permet dobtenir des vues en trois dimensions du corps humain dune manire non invasive, et en particulier du cerveau humain dans
notre application. Pour pouvoir calculer une carte de saillance sur ce type dimages, nous devons
tenir compte des spcificits de cette modalit, et adapter le processus de gnration des cartes.
Nous allons prsent passer en revue les diffrentes tapes de la gnration des cartes de saillance
en prcisant les principales adaptations ncessaires.

2.4.1 Pr-traitements
Nous prsentons tout dabord les traitements appliqus aux images IRM avant de commencer
la gnration des cartes de saillance proprement dite.

48

2. L ES

MCANISMES DE L ATTENTION

Extraction du cerveau :
Les volumes reprsentent le cerveau, mais galement le crne et tous les organes situs dans la
tte. tant donn que nous nous intressons aux structures internes du cerveau humain, nous ne
devons donc pas considrer toute limage. Cela permet dj de rduire le domaine de recherche,
mais galement dviter que les bord rguliers et bien marqus du crne fassent apparatre de fortes
valeurs de saillance tout autour du bords du cerveau. Nous allons donc utiliser un masque pour ne
considrer que le cerveau, qui est segment lavance.
Rsolution anisotrope :
Les images IRM ont souvent des rsolutions qui sont anisotropes : la taille des voxels peut
varier en fonction des directions. La gnration de la pyramide dyadique implique de pouvoir
redimensionner les images. Les voxels anisotropes rendent cette tche plus complique. Nous
utilisons donc pour le calcul des cartes de saillance des images qui ont t interpoles au pralable
vers des dimensions isotropes, avec 256 voxels cubiques dans chaque direction (le choix de 256
a t guid par les dimensions les plus frquentes dans nos bases dimages IRM). La mthode
dinterpolation utilise est spline resampled propose par Thevenaz et al. (2000), et qui a t
adapte pour les images IRM en trois dimensions dans le logiciel brainvisa1 .
Une fois limage source interpole la taille correcte, nous pouvons passer la gnration
des cartes pour chaque caractristique. Pour cela, nous devons dabord filtrer limage originale en
fonction de chaque caractristique.

2.4.2 Filtrage par caractristique


Images en trois dimensions : Les mthodes pr-attentionnelles et en particulier les mthodes
bio-inspires sont par dfinition en deux dimensions, ce qui est le cas de la mthode de Itti et al.
(1998) pour les cartes de saillance, voire deux dimensions et demi pour simuler la vision stroscopique. Les images IRM sont des volumes en trois dimensions. Il est donc ncessaire dadapter
le processus, en particulier la notion de voisinage pour des voxels : une connexit 18 ou 26 au lieu
de la connexit 4 ou 8.
Les cartes de saillance dans la mthode originale utilisent trois types de caractristiques auxquelles le cortex humain ragit : lintensit, les oppositions de couleurs et les orientations. Les
images IRM ne possdent quun seul canal (donc pas de couleurs). Les niveaux de gris qui ne
reprsentent pas une intensit seront considrs comme tels.
Intensit : Nous considrons lunique canal des images IRM comme une intensit. Il ny a donc
pas de filtrage ncessaire pour gnrer la pyramide gaussienne correspondant cette caractristique.
Orientations : Le calcul des cartes pour lorientation utilise un filtre de Gabor en trois dimensions, tel que dfini dans Reed (1997) et Wang et Chua (2005), de la manire suivante :
g(x, y, z) = g(x, y, z) exp(j2(F sin cos x + F sin sin y + F cos z)) ,
avec
g(x, y, z) =
1

http://brainvisa.info

1
3

(2) 2 3

exp(

(x2 + y 2 + z 2 )
) ,
2 2

49
o et sont deux angles dfinissant lorientation du filtre de Gabor, reprsente lchelle de
la fonction gaussienne et F = (u20 + v02 + w02 ) est le paramtre correspondant la frquence
radiale. Les valeurs de F et sont contrles par la largeur de bande B fixe 0, 55 dans nos
expriences :
2B + 1
F = ( B
) .
2 1

(2ln2)
o =
.
2
En deux dimensions, les orientations choisies sont les suivantes : = 0, 4 , 2 , 3 4 , soit 4
orientations, les filtres tant symtriques. En trois dimensions, nous avons conserv le mme ordre
de grandeur entre les orientations, ce qui nous donne, exprimes en coordonnes polaires, les
valeurs suivantes pour les angles et :

3 4

5 4

3 2

7 4

Nous obtenons 13 orientations au total. Les filtres tant symtriques, nous avons seulement besoin
dune demi-sphre.
=

2,

=0

2,

2,

F IG . 2.13 Filtres de Gabor. Trois exemples de filtres de Gabor avec trois orientations diffrentes
en coordonnes polaires. Chaque colonne prsente une coupe dun filtre en trois dimensions et
une coupe dune image IRM filtre par ce mme filtre. La frquence du filtre est de 0, 2 dans cet
exemple. La largeur de bande est fixe 0, 55.

2.4.3 Gnration des pyramides


Contrairement la mthode originale, nous nutilisons pas les mmes pyramides pour chaque
caractristique. La pyramide gaussienne de la mthode originale est utilise pour lintensit. Pour
lorientation, nous utiliserons une pyramide de Gabor .
La mthode originale utilisait des pyramides avec 8 niveaux. Dans notre cas, ce nombre de
niveaux est trop lev, considrant la taille des objets. Il nous faut donc rduire le nombre de
niveaux de chaque pyramide. En considrant la taille de 256 dans chaque direction, nous limitons
notre pyramide 5 niveaux (comprenant limage originale). Le dernier niveau a ainsi une taille de
16 dans chaque direction.

50

2. L ES

MCANISMES DE L ATTENTION

Calcul des cartes de discontinuits : les cartes de discontinuit sont gnres en comparant une
image de la pyramide une chelle dite fine (cest--dire restant proche de limage originale), et
une autre image de la mme pyramide une chelle dite grossire . lorigine, la comparaison
est effectue en interpolant le niveau grossier au niveau fin, et en effectuant une soustraction point
point des deux images :
I(ce, co) = |I(ce) I(co)| ,
o ce reprsente le niveau fin et co le niveau grossier. La comparaison dun pixel au niveau fin
avec un pixel au niveau grossier aprs interpolation revient comparer un pixel avec sa rgion
environnante, plus ou moins grande en fonction de la diffrence entre les deux niveaux, do
lappellation de diffrence centre-contour.
Nous pouvons utiliser diffrents niveaux fins pour calculer les cartes de discontinuit. Mais
lutilisation de limage originale (bruite par rapport aux cartes lisses) comme un niveau fin, va
reprsenter le bruit comme des petites discontinuits. Nous utiliserons donc comme niveaux fins
les deux niveaux suivants :
ce {1, 2} .
Lintervalle permettant de calculer les niveaux fins est limit par le nombre de niveaux de la pyramide. Nous utiliserons donc les niveaux grossiers suivants :
co = ce + , {1, 2} ,
cest--dire 1 + 1, 1 + 2, 2 + 1, 2 + 2. Finalement, la carte de saillance rsultante a une rsolution
de 128 128 128 correspondant au deuxime niveau de la pyramide.
Pyramide gaussienne pour lintensit : Nous crons pour lintensit une pyramide en utilisant
limage originale (aprs interpolation). Un filtre gaussien en trois dimensions est appliqu chaque
niveau de la pyramide. Nous appliquons le filtre sans avoir redimensionn les images, mais en
augmentant chaque niveau le paramtre du filtre. Le niveau 0 de la pyramide est limage
originale. Pour tous les autres niveaux, le filtre utilis a un paramtre correspondant au niveau
de la pyramide + 0.5 : niveau 1, = 1, 5, niveau 4, = 4.5. La figure 2.14 prsente les diffrents
niveaux de la pyramide gaussienne, ainsi que les cartes de discontinuit drives.
Pyramide de Gabor pour les orientations : Pour les orientations, la mthode originale utilise
galement une pyramide gaussienne, comme pour les autres caractristiques. Toutefois, les filtres
de Gabor intgrent dans leur paramtrage la possibilit de faire varier le niveau dchelle, en modifiant la frquence du filtre par exemple. Nous pouvons donc dfinir une pyramide de Gabor
o pour chaque orientation, une pyramide est gnre compose dimages filtres avec une frquence dcroissante. La frquence initiale est de 0, 4, avec un pas de 0, 05 entre deux niveaux.
La frquence du dernier niveau est de 0, 20. Chaque image est lisse avec un filtre gaussien pour
viter le bruit. Le paramtre utilis est 0, 5. La figure 2.15 montre un exemple de pyramide de
Gabor obtenue pour une orientation donne et les cartes de discontinuits drives.

2.4.4 Fusion des cartes de discontinuits


Pour chaque pyramide, quatre cartes de discontinuits sont gnres. En considrant lintensit
et treize orientations diffrentes, nous avons donc 14 pyramides et 4 14 cartes de discontinuits.
Toutes ces cartes doivent tre fusionnes pour gnrer la carte de saillance. La mthode de fusion
est primordiale, et en particulier ltape de normalisation est cruciale.

51
Pyramide gaussienne :

1 : = 1, 5

0 : originale

2 : = 2, 5

3 : = 3, 5

4 : = 4, 5

Cartes de discontinuits :

12

13

23

24

F IG . 2.14 Les diffrents niveaux de la pyramide gaussienne obtenue pour lintensit sont prsents en haut. Le niveau 0 reprsente limage originale, les niveaux 1 4 reprsentent limage
originale filtre par un filtre gaussien dune largeur croissante de = 1, 5 = 4, 5. En bas,
les cartes de discontinuits obtenues en appliquant loprateur centre-contour entre diffrents
niveaux de la pyramide gaussienne.
Oprateur de normalisation : Loprateur de normalisation spcifiquement dfini pour les
cartes de saillance est prsent notamment dans Itti et al. (1998). On pourra galement consulter
Itti et Koch (2001) pour une comparaison de cet oprateur avec une normalisation nave ou une
normalisation avec apprentissage au pralable. Que ce soit dans la mthode originale avec 42 cartes
fusionner, ou dans notre cas avec 56 cartes de discontinuit, le nombre de cartes fusionner est
suffisamment important pour quun pic, mme important, apparaissant dans quelques cartes, soit
noy dans le bruit apparaissant dans plus de cartes.
Itti et al. (1998) proposent donc un oprateur dnot N qui permet de promouvoir les cartes
dans lesquelles ne sont prsents quun petit nombre de pics importants (zones visibles). En revanche, les cartes contenant de nombreux pics avec une mme importance sont supprimes. Cet
oprateur est illustr dans la figure 2.16.
La normalisation est effectue en trois tapes :
normalisation de la carte dans un intervalle [0..M ] avec un M fixe, pour supprimer les
diffrences damplitude entre les diffrentes caractristiques,
Calcul de la moyenne m
des maxima locaux diffrents de M ,
multiplication de chaque point par (M m)
2.
Fusion : Lobjectif est de fusionner les cartes existantes pour obtenir une unique carte reprsentant une caractristique. Pour chaque pyramide, cette carte est gnre partir des cartes de

52

2. L ES

MCANISMES DE L ATTENTION

Pyramide de Gabor :

0 : f req = 0.40 1 : f req = 0.35 2 : f req = 0.30 3 : f req = 0.25 4 : f req = 0.20

Cartes de discontinuits :

12

13

23

24

F IG . 2.15 Les diffrents niveaux de la pyramide de Gabor obtenue pour une orientation
( = 2 et = 0) sont prsents en haut de la figure. On distingue nettement sur ces images le
plan inter-hmisphrique. Le niveau 0 reprsente la frquence la plus leve (0, 40) et le niveau 4
la frquence la plus faible (0, 20). Les images ont t lisses avec un filtre gaussien. Dans ce cas,
le utilis est de 2, 0. En-dessous, les cartes de discontinuit obtenues en appliquant loprateur
centre-contour entre diffrents niveaux de la pyramide de Gabor .

F IG . 2.16 Oprateur de normalisation N [Source Itti et al. (1998)]


discontinuits correspondantes. Cette carte unique est une carte de visibilit ( conspicuity map ).
Pour lintensit il ny a quune unique pyramide, donc la carte de visibilit est directement
obtenue aprs fusion des cartes de discontinuit.

53

Avant normalisation
Maximum = 1,00

Aprs normalisation
Maximum = 0,82

F IG . 2.17 Effet de loprateur de normalisation N (.). gauche, avant la normalisation, droite


aprs. Le maximum de limage est pass de 1,00 0,82 aprs normalisation.

Cint = {N (I(ce, co)), ce {1, 2}, co = ce + , {1, 2}} ,


avec une addition point point.
Pour les orientations : Pour chaque orientation, cest--dire pour chaque pyramide, une carte
intermdiaire est gnre. Ces 13 nouvelles cartes sont ensuite normalises avec loprateur N , et
fusionnes par addition point point pour gnrer la carte de visibilit des orientations.
C, = {N (I, (ce, co)), ce {1, 2}, co = ce + , {1, 2}}
Corient =
,

N (C, ) .

2.4.5 Cartes de saillance


Dans la mthode originale, chaque caractristique produit de manire parallle une carte ddie, et les trois cartes seront combines par une moyenne pondre. En labsence dune caractristique, il manquera donc un terme la moyenne pondre produisant la carte de saillance, mais
cette absence ninflue pas sur le calcul des autres cartes. Pour produire la carte de saillance, nous
combinons donc les deux cartes. La fusion de deux cartes seffectue au moyen dune moyenne
pondre qui donne le mme poids aux deux cartes, ne privilgiant ainsi pas une caractristique au
dtriment dune autre, comme dans lapproche originale. Elle est donne par la formule suivante :
SaliencyM ap =

iC

N (Ci )

o Ci reprsente les cartes de caractristiques Cint , Corient .

2.4.6 Masquage des cartes de saillance


Nous avons dj calcul les cartes de saillance sur le cerveau uniquement, en utilisant un
masque pour supprimer le crne, entre autres. Une fois les cartes de saillance calcules, nous allons
maintenant masquer les cartes de saillance, pour supprimer les zones apparaissant trs saillantes
aux bords du cerveau. En effet, les bords du cerveau peuvent faire apparatre des fortes saillances
dues aux diffrences de contraste avec le fond (qui a t masqu), et aux orientations sur les bords.

54

2. L ES

MCANISMES DE L ATTENTION

Nous allons donc utiliser nouveau le masque du cerveau, qui sera rod, pour supprimer les
fortes saillances apparaissant aux bords de limage. La figure 2.18 illustre cette tape.

(a)

(b)

(c)

(d)

F IG . 2.18 Utilisation dun masque binaire du cerveau pour supprimer la forte saillance aux
bords du cerveau, due aux forts contrastes des bords. (a) Une coupe non masque dune carte de
saillance. On voit une couronne de valeurs leves de saillance autour du cerveau. (b) Le masque
correspondant cette image du cerveau. (c) Le mme masque rod avec un lment structurant
sphrique de rayon 5 pixels pour supprimer les bords du cerveau. (d) La carte de saillance masque.

2.4.7 Rsultats
La figure 2.19 prsente quelques exemples de cartes de saillance calcules sur des images
IRM de cerveau, ainsi que des coupes des cartes de caractristiques. Sur une machine rcente, le
temps de calcul de ces cartes de saillance est de lordre de 15 minutes environ. Le temps de calcul
est allong par le nombre dorientations pris en compte. Il est possible de gagner du temps en
prcalculant les filtres de Gabor utiliss.
Trois cartes de saillance sont prsentes ; sur chacune dentre elles on reconnat facilement
limage originale. Les ventricules latraux, au centre, prsentent des valeurs de saillance leves,
ce qui tait attendu cause de leur diffrence dintensit avec les structures avoisinantes et leur
taille. Au contraire, les putamens apparaissent dans chaque image comme un trou de saillance. Sur
limage pathologique, la tumeur apparat dans cet exemple comme trs saillante.
Les cartes de caractristiques sont assez diffrentes en fonction de la caractristique concerne.
La carte dintensit prsente des valeurs leves pour le ventricule, toujours pour le contraste, ainsi
que pour des rgions o la frontire entre matire blanche et matire grise est trs nette. Pour les
orientations, les valeurs sont plutt floues. On distingue encore des valeurs fortes sur les bords.
Les ventricules prsentent ici encore des valeurs leves grce llongation de la structure.
Dautres cartes de saillance sont prsentes dans lannexe B de ce document.

55
Image Originale :
IBSR 01

IBSR 02

ring

Carte de saillance :

Carte pour lintensit :

Carte pour lorientation :

F IG . 2.19 Quelques cartes de saillance. En haut, les images originales, la deuxime ligne prsente
les cartes de saillance respectives. Les deux lignes du bas prsentent les conspicuity maps , la
troisime pour lintensit et la dernire pour lorientation.

56

2. L ES

MCANISMES DE L ATTENTION

2.5 Conclusion
Nous avons prsent dans ce chapitre la notion dattention dans la vision, et la mise en vidence
de son aspect squentiel, guid par une tape pr-attentionnelle dtectant les parties saillantes de
limage. Nous pouvons aisment effectuer un parallle entre un processus de traitement dimages
squentiel o la partie attentionnelle pourrait tre ltude dune zone en particulier de limage et la
partie pr-attentionnelle la slection dune zone de limage explorer. Parmi les thories de modlisation du pr-attentionnel, nous avons plus particulirement considr les cartes de saillance,
qui proposent de mettre en vidence les zones saillantes de limage en utilisant des caractristiques simples des images. Elles permettent galement une analyse multi-chelles de limage.
Nous avons galement prsent une srie dadaptations ncessaires permettant de calculer des
cartes de saillance pour des images IRM en trois dimensions, et plus particulirement pour les
images du cerveau. Les cartes de saillance adaptes aux images IRM nous procurent une manire
indite dobtenir de linformation dans un processus ascendant sur ce type dimage, que nous
utiliserons dans le chapitre 4 pour lexploration de ces images.

57

Chapitre 3

Le modle de connaissance
Nous avons choisi dans ce travail dexploiter la connaissance de limagerie crbrale. Nous
utilisons cette connaissance dans des raisonnements dont le but est la reconnaissance dobjet ou
linterprtation dimage. La reconnaissance et linterprtation des images mdicales est une tche
complexe qui ncessite lutilisation dune connaissance experte. En effet, les structures crbrales
sont souvent petites, leurs frontires sont souvent mal dfinies (comme dans le cas du thalamus),
et le contraste avec la matire environnante ne permet pas toujours de les distinguer clairement. De
plus, la rsolution des images nest pas trs leve. Les descriptions anatomiques usuelles telles
que neuranat1 ou neuronames2 reposent principalement sur lutilisation des relations spatiales. La
figure 3.1 prsente un exemple de cette connaissance. Limprcision naturelle des relations spatiales leur permet de rester plus stables face la variabilit inter-patients, compar des proprits
intrinsques des structures anatomiques telles que leur forme ou leur taille.
De nombreux travaux ont utilis les relations spatiales pour linterprtation des structures crbrales. Colliot (2003) propose dutiliser les relations spatiales comme une force supplmentaire
dans le cadre dun algorithme de segmentation par modles dformables. Dans Khotanlou et al.
(2009), les relations spatiales sont utilises dans le cadre dune segmentation des structures crbrales en prsence de pathologies (de tumeurs crbrales dans ce cas). Nempont (2009) propose
dutiliser les relations spatiales dans un rseau de contraintes qui, aprs propagation, procure les
emplacements des structures. Il est alors possible de les segmenter de manire automatique. Dans
cette dernire approche, il est possible de grer les cas pathologiques en effectuant au pralable
une tape de dtection et de localisation de la tumeur, ce qui permet de linclure dans le rseau de
contraintes. En revanche, si la prsence de la tumeur na pas t dtecte au pralable, le modle
ne peut sadapter automatiquement lors de la propagation. Ici, nous nous plaons dans le cadre
dune segmentation squentielle, comme dans les travaux dO. Colliot et H. Khotanlou, guide
par une reprsentation par graphe de la connaissance.
Dans ce chapitre, nous prsentons la dfinition du graphe qui reprsente la connaissance spatiale que nous utilisons pour effectuer des raisonnements. Nous introduisons galement les notations qui seront utilises dans le reste de ce document. Nous discutons ensuite deux sources
possibles de connaissances, diffrentes de la connaissance experte utilise pour le raisonnement,
et qui ont donn lieu des travaux dans le cadre de la thse. Ces travaux nous permettent de considrer des manires diffrentes dobtenir un modle et nous discuterons des consquences pour le
raisonnement spatial possible.
Dans la partie 3.1, nous dcrivons quelle forme de connaissance spatiale nous utilisons et
1
2

http://www.chups.jussieu.fr/ext/neuranat/
http ://rprcsgi.rprc.washington.edu/neuronames

58

3. L E

MODLE DE CONNAISSANCE

Ventricules latraux
Noyaux caud
Thalamus
Putamen
Globus Pallidus
Noyaux lenticulaires
Msencphale
Claustrum

F IG . 3.1 Exemple dillustration provenant de latlas neuranat et reprsentant ici les structures
composant les noyaux gris du cerveau.
quelle structure nous pouvons employer pour reprsenter la connaissance spatiale. Ensuite, nous
discutons des diffrentes sources de connaissances possibles dans la section 3.2. Nous considrons
le cas dune connaissance experte, le cas dune connaissance extraite automatiquement et le cas
dune connaissance extraite de manire semi-interactive. Dans chacun de ces cas, nous discutons
des consquences sur le raisonnement spatial possible avec chacune des sources. Le formalisme
de reprsentation des relations spatiales et plus spcifiquement les relations spatiales qui seront
utilises plus tard sont prsents dans la section 3.3. Dans la partie 3.4, nous passons en revue les
diffrentes bases de donnes que nous utiliserons par la suite. Enfin, dans le cadre de la connaissance experte, et plus particulirement dans le cadre de la reconnaissance des structures crbrales,
nous verrons dans la section 3.5 comment raliser un apprentissage des paramtres des relations
spatiales.

3.1 Graphe de relations spatiales


Nous prsentons dans cette partie les relations spatiales, puis le graphe qui les porte avant
dintroduire les notations utilises.

3.1.1 Les relations spatiales pour limagerie mdicale


Une manire naturelle de dcrire les relations entre les diffrents objets qui composent une
scne est de dcrire leur positions relatives, comme par exemple lobjet A est droite de lobjet
B . Linterprtation des images crbrales appartient un domaine o les relations spatiales sont
trs utilises, comme le dmontrent les livres danatomie tels que Waxman (2000). Il sagit ici de
relations spatiales textuelles.
Les relations les plus courantes sont des relations mtriques telle que les relations directionnelles et les relations de distance, qui permettent de dcrire dune manire naturelle et
imprcise les relations entre structures. Mais dautres relations sont galement bien adaptes aux
structures crbrales telle que : la symtrie, linclusion ou encore la relation entre .
Nous prsentons prsent les relations utilises ensuite dans nos applications :

59

Noyau caud
Ventricule Latral
Putamen
Thalamus
Ventricule Latral
Matire blanche
Matire grise

F IG . 3.2 Une coupe dimage IRM du cerveau avec quelques structures internes tiquetes. Les
structures sont prsentes de manire symtrique dans les deux hmisphres. La matire blanche
englobe les structures prsentes. La matire grise est situe plutt sur lextrieur du cerveau. Il
faut noter que sur toutes les coupes du cerveau prsentes dans ce document, lhmisphre gauche
est situ droite de limage. Les graphes de relations spatiales tiennent compte de cette orientation.
Orientation : Les relations dorientation sont les relations les plus intuitives pour dcrire la
position relative de plusieurs structures : la structure A est droite ou gauche , ou en
avant , ou bien en arrire de la structure B, ou encore, en trois dimensions, au-dessus
ou en-dessous . Par exemple, dans la figure 3.2, le putamen est sur limage gauche du noyau
caud, lui mme est gauche du ventricule latral. On peut noter sur cet exemple, avec cette coupe
en particulier, que ces relations sont imprcises.
Distance : Diffrentes relations peuvent tre dduites de la notion de distance, en particulier les
notions imprcises telles que loin de ou proche de . Dans la figure 3.2, le noyau caud est
proche du ventricule latral. Nous verrons dans les reprsentations des relations spatiales que des
relations topologiques comme ladjacence peuvent tre exprimes comme une relation de distance.
La symtrie : Le cerveau possde un plan de symtrie, le plan inter-hmisphrique, et nombre
de structures apparaissent de manire symtrique de chaque ct de ce plan. La symtrie peut donc
tre dune grande utilit pour le raisonnement spatial dans le cerveau. Les relations directionnelles
gauche et droite sont dailleurs souvent exprimes en fonction de ce plan de symtrie et
deviennent intrieur (entre la structure et le plan de symtrie) ou extrieur , ce qui permet
de dcrire une relation de la mme manire quel que soit lhmisphre (Colliot (2003)).
Mais bien entendu, la symtrie peut tre mise mal par la prsence dune tumeur dans un
hmisphre du cerveau. Lanalyse danomalies dans la symtrie des deux hmisphres crbraux a
dailleurs t utilise comme mthode pour dtecter la prsence dune pathologie (Khotanlou et al.
(2009)).
Entre : La relation entre (Bloch et al. (2006)) est une relation ternaire permettant donc de
dfinir lespace se trouvant entre deux structures. Lutilisation de cette relation permet dtre plus
prcis que lutilisation de deux relations de direction partir des deux mmes structures (ce nest
pas quivalent). La principale difficult de cette relation est dtre ternaire, ce qui empche sa
modlisation dans le cadre dun graphe classique (mais elle est possible en utilisant un hypergraphe). Nanmoins, elle peut tre reprsente par une relation ad-hoc utilisant deux arcs dsignant

60

3. L E

MODLE DE CONNAISSANCE

exactement la mme relation, et comportant chacun les informations permettant la reprsentation


de la relation complte.
Inclusion : La relation dinclusion est naturelle dans une structure comme le cerveau et permet
de prendre en compte le facteur dchelle dans les structures. Toutes les structures se trouvent
dans le cerveau, ce qui est implicitement pris en compte en appliquant un masque binaire de
la segmentation du cerveau, sur limage originale segmenter. De la mme manire, les deux
hmisphres se trouvent dans le cerveau, etc.

3.1.2 Graphe de relations spatiales


Les graphes sont bien adapts pour reprsenter une connaissance gnrique telle que les objets
dune scne et les relations spatiales entre ces objets. Chaque nud du graphe reprsente un objet
de la scne, et un arc du graphe porte la ou les relations spatiales identifies entre deux objets de
la scne. Les relations spatiales binaires sont directement intgres dans ce modle.

LvL

LvR

CdR

CdL
E

E
E
PuR

B
V3

PuL
I
IcL

IcR
E

E
E

ThR

ThL

F IG . 3.3 Extrait du troisime niveau dun graphe des structures internes du cerveau
(source Colliot (2003)). Les structures prsentes sont Lv : ventricule latral, Cd : noyau caud,
Pu : Putamen, Th : Thalamus, V3 : 3ime ventricule, Ic : capsule interne. Les relations spatiales
E : extrieur, I : intrieur, B : bas.
Une modlisation par graphe hirarchique des structures crbrales et des relations spatiales
entre ces structures a t propose par Colliot (2003), et un extrait du troisime niveau du graphe
est prsent dans la figure 3.3. La modlisation du cerveau complet est effectue avec un graphe
hirarchique. Les diffrents niveaux sont relis avec des relations dinclusion (le cerveau est au
premier niveau). Cette modlisation permet de reprsenter les structures de diffrents niveaux et
les relations dinclusion qui les relient. Nous ne nous intressons pas une modlisation aussi
complte dans notre cas.
Les relations ternaires, comme entre ou les relations de symtrie qui ncessitent un lien
vers le plan de symtrie, ne sont pas reprsentes naturellement par un graphe simple. Il est possible de les reprsenter avec un hyper-graphe, ou les hyper-arcs notamment permettent de relier
directement un nombre quelconque de structures. Nanmoins, si le pouvoir de reprsentation des

61
Structure 3
utilise comme
plan de symtrie

Structure 3
utilise comme
plan de symtrie

(s3)
Struct 1

Struct 2

Avec un hyperarc

Struct 1

Struct 2

Avec un arc binaire

F IG . 3.4 Exemple de modlisation dune relation ternaire laide dun arc binaire : Nous avons
une relation La structure 1 est symtrique la structure 2 par rapport la structure 3 . Avec
un hyper-graphe, les trois structures peuvent tre relies laide dun hyper-arc. Avec un graphe
classique, un arc simple est utilis pour relier les deux structures symtriques, et laxe de symtrie
devient un champ de larc.
hyper-graphes permet de grer les relations ternaires ou plus gnralement n-aires, il est galement possible de grer les relations ternaires avec des relations binaires, et donc de conserver des
graphes simples. Pour cela, il est alors ncessaire de munir un arc simple des informations manquantes. Par exemple, pour une relation de symtrie, le plan de symtrie est renseign dans larc.
Cet exemple est prsent dans la figure 3.4.

3.1.3 Notations
Nous introduisons ici des notations qui seront utilises dans le reste du document, pour le
graphe et les relations spatiales. Dautres notations sont prsentes dans dautres parties de ce
chapitre.
Pour le graphe :
Nous utiliserons pour le graphe les notations suivantes :
V
: ensemble fini de nuds
V
: lensemble des tiquettes des nuds
Lv
: interprteur de nuds Lv : V V
E
: ensemble de couples (ordonns) de nuds dnoms arcs
E
: lensemble des tiquettes des arcs
Le
: interprteur darc Le : E E
G = (V, Lv , E, Le ) : graphe attribu avec des arcs orients.
(v, e)
: Pour chaque nud v V et chaque arc e V V ,
(v, e) est une fonction de transition qui retourne le nud v
tel que e = (v, v )
A(v)
: Pour chaque nud v V ,
A(v) retourne lensemble des arcs sortants connects v
p = (v1 , v2 , ..., vn )
: un chemin de longueur n tiquet lp = (v1 , e(v1 , v2 ), v2 , ..., vn )
Pour les relations spatiales :
Un arc orient entre deux nuds vi et vj comporte au moins une relation spatiale entre les
deux objets reprsents par les nuds. Nous dfinissons une base de connaissance KB qui dfinit

62

3. L E

MODLE DE CONNAISSANCE

toutes les relations spatiales existant entre les diffrents objets, cest--dire entre les structures
anatomiques dans le cas de linterprtation des images mdicales :
KB = {vi Rvj , vi , vj V, R R}
et
e = (vi , vj ) E R R, (vi Rvj ) KB
o R dsigne lensemble des relations, et E lensemble des arcs dun graphe.

3.2 Sources de connaissances


En fonction des domaines ou des applications, plusieurs sources de connaissances peuvent tre
disponibles, mais elles ne sont pas toutes quivalentes, en particulier au niveau des raisonnements
possibles. Nous prsentons, en plus de la connaissance experte utilise pour limagerie crbrale,
deux autres sources de connaissance.

3.2.1 Connaissance experte et textuelle


Dans le cadre de limagerie mdicale, les descriptions anatomiques fournissent souvent les
relations spatiales existant entre les structures anatomiques (Waxman (2000)). Ces relations spatiales sont dcrites dune manire textuelle, donc smantique, ce qui laisse la libert du choix de
formalisme de reprsentation et permet de conserver toute limprcision naturelle de ce type de
connaissance. La figure 3.3 prsente un extrait de graphe reprsentant les structures crbrales qui
illustre ce genre de connaissances.
Stabilit des relations
Cette connaissance peut tre considre comme valide et stable, tant que la variabilit des diffrents cas est prise en compte par la modlisation des relations spatiales utilises. Nanmoins,
les cas pathologiques sont mme dinvalider des relations, entirement ou partiellement, voire
de dtruire des structures. Il est donc utile dtudier les paramtres de ces relations pour plus de
prcision et pour tre en mesure de dtecter et de prendre en compte les cas pathologiques.

3.2.2 Connaissance extraite automatiquement


Si aucune connaissance extrieure nest disponible, il est toujours possible dextraire une reprsentation structure dune image. Ce type de reprsentation est utilis par exemple dans des
problmes de catgorisation dimages, car les reprsentations structures dimages permettent de
faire apparatre les constituants de limage et leur relations, et ainsi de les utiliser pour la catgorisation au lieu de caratristiques globales moins pertinentes. En particulier, les relations entre les
constituants peuvent tre des relations spatiales (Aldea et al. (2007a,b)).
Dans ce type de problme, lextraction de la smantique de limage est implicitement effectue
lors de lapprentissage du modle dune classe laide dune base dentranement. Cest--dire que
lapprentissage des caractristiques dune classe dobjets structurs doit faire apparatre le motif
caractristique de la structure de la classe et ne pas tenir compte du bruit, du fond de limage
ou des variations intrinsques. Par exemple si lon doit apprendre automatiquement une classe
de chiens en utilisant des images de diffrents types de chiens variant en couleurs, formes
et tailles, et sur diffrents fonds possibles (fort, champ, eau, intrieur de maison, etc.), alors
le motif structurel sera par exemple la structure anatomique du chien, tte, corps, quatre pattes,

63
queue. Mais encore une fois, la smantique apparat de manire implicite, aucun des objets ntant
identifi individuellement.
Les relations spatiales apportent une connaissance stable sur une classe, et il est donc intressant dessayer dextraire de manire automatique un modle de lagencement spatial des lments
dune classe. Nous avons propos en collaboration avec Emanuel Aldea (Aldea (2009)) dextraire
un tel modle et deffectuer un apprentissage de ce modle pour la classification dimages. Une
premire approche propose par Aldea et al. (2007a) est une mthode de classification dimages
partir de noyaux marginaliss pour des graphes. Dans cette approche, les images sont reprsentes
par des graphes dadjacence partir dune sur-segmentation automatique en rgions. La similarit entre graphes est dfinie par une mthode de noyaux gnraliss et permet de construire un
classifieur dimages.
Nous avons tendu cette approche afin de prendre en compte non seulement des attributs intrinsques aux rgions du graphe, mais galement des attributs structurels ports par les arcs du
graphe. Ces attributs sont des relations spatiales reprsentes par des ensembles flous. Dans ce type
dapproche, les graphes qui sont compars, que ce soit pour lapprentissage ou pour la classification, ne sont pas isomorphes et les composants du graphe ne sont pas identifis. Il est donc ncessaire dutiliser des relations spatiales qui permettent deffectuer des comparaisons entre nimporte
quelles composantes de limage. Il est ncessaire dans ce cas que la comparaison de relations
spatiales puisse tre effectue de manire symtrique.
Nous avons propos dutiliser pour cela des relations spatiales mtriques, une orientation,
ainsi que des relations topologiques comme une adjacence floue, et une mesure pouvant tre vue
comme un degr dadjacence. Les dfinitions des reprsentations floues des relations spatiales de
distance, dorientation ou dadjacence floue sont prsentes dans la partie 3.3. La notion de degr
dadjacence est plus spcifique ces travaux, nous allons donc la prsenter brivement.
Mesure dadjacence fonde sur une comparaison floue
La distance et lorientation ne sont pas toujours significatives. Par exemple, la distance ne distingue pas deux rgions adjacentes par un unique pixel de deux rgions imbriques. Dans ce dernier cas, un histogramme dangles3 na pas beaucoup de sens non plus. Nous proposons donc une
autre caractristique, topologique, qui estime un degr dadjacence entre deux rgions.
Nous estimons le degr dadjacence entre deux rgions en mesurant la corrlation entre la
portion de lespace proche de la premire rgion dite de rfrence et la deuxime. Cette mesure
est maximale lorsque la rgion de rfrence est imbrique dans la rgion cible. Elle est nulle si les
deux rgions sont trop loignes lune de lautre. Une valeur moyenne implique que deux rgions
sont adjacentes pour au moins la moiti du contour de la rgion de rfrence.
La reprsentation de la relation proche de par un ensemble flou est dfinie dans la partie
3.3. La figure 3.5 prsente deux exemples de reprsentations de cette relation.
Il est ncessaire dvaluer cette reprsentation avec une valeur relle afin quelle puisse tre
utilise dans le processus. Lvaluation est effectue en calculant un critre de satisfaction floue
(Bouchon-Meunier et al. (1996)) et de ressemblance floue :
Sat(proche(R1 ), R2 ) =
et
Res(proche(R1 ), R2 ) =
3

xS

min(proche(R1 ) (x), R2 (x))


,
xS proche(R1 ) (x)

min(proche(R1 ) (x), R2 (x))


.
xS max(proche(R1 ) (x), R2 (x))
xS

Un histogramme dangles reprsente, pour deux objets A et B, les angles entre le segment form par un couple de
points (a, b), a A, b B et un axe de rfrence

64

3. L E

MODLE DE CONNAISSANCE

a)

b)

c)

d)

e)

f)

F IG . 3.5 (a) Rgion 1. (b) Rgion 2. (c) Rgion 3. (d) Sous-ensemble flou correspondant la relation
proche de la rgion 1 . (e) Mme chose avec la frontire de la rgion 2 en sur-impression. La satisfaction
floue dans ce cas est de 0, 06. (f) De mme avec la rgion 3. La satisfaction floue est de 0, 29.
o S dsigne lespace de limage, R1 et R2 sont deux rgions de limage, proche(R1 ) lensemble
flou qui reprsente la relation proche de la rgion R1 , et R2 lensemble flou qui reprsente
la rgion R2 . Lutilisation de ces valeurs dans le processus de classification et les rsultats de
classificaction sont prsents dans les travaux de thse dE. Aldea (Aldea (2009)).

3.2.3 Connaissance extraite de manire semi-interactive


Entre la connaissance experte et la connaissance extraite automatiquement, il existe galement
la possibilit dextraire de la connaissance de manire interactive, avec un utilisateur expert ou
non. Toutefois, cause des limitations intrinsques du mode dinteraction et des limitations dues
la pondration entre la ncessaire simplicit des interactions et la quantit dinformations
ncessaire pour obtenir un modle gnrique, la connaissance extraite est forcment partielle.
Proposer lutilisateur de lui-mme dsigner les objets ou les classes de segmentation permet
dobtenir un problme de segmentation bien pos, cest--dire o lutilisateur exprime le rsultat
souhait, ce qui nest pas le cas de beaucoup de mthodes de segmentation classiques. Toutefois, il
nest pas vident de mettre en uvre une telle interaction, moins davoir dj segment les objets
prsents sur limage, ce qui simplifie en effet le problme. Nous allons maintenant voir comment
effectuer cette interaction pour crer un modle.
3.2.3.1

Les traces de lutilisateur

Dans Consularo et al. (2007), lutilisateur dpose des traces sur une image. Aucune contrainte
nest impose lutilisateur. Chaque couleur correspond une classe de segmentation diffrente,
et la ou les traces correspondantes ne sont pas forcment connectes. La figure 3.6 montre une
image, ainsi quun exemple de plusieurs ensembles de traces qui pourraient y tre dposes en
fonction de diffrents problmes.
Il y a toutefois une contrainte implicite pour la construction du modle et du graphe associ.
Afin de pouvoir exprimer des relations spatiales, il est ncessaire davoir au moins deux nuds

65

Prototype

2 classes

3 classes

5 classes

F IG . 3.6 Exemple de traces utilises pour construire un modle partir dune image. Chaque
couleur dsigne une classe de segmentation diffrente. En fonction du problme, le nombre de
classes et leur aspect changent. On peut souhaiter segmenter uniquement la guitare par rapport au
fond (2 classes, image de gauche), ou segmenter la guitare en plus ou moins de constituants (3
classes au centre ou 5 classes droite).
dans le graphe. En pratique, il sera prfrable den avoir plus de deux, surtout si lune des classes
correspond au fond de limage. En effet, le but est de reprsenter un objet sous forme dun ensemble structur dobjets.
3.2.3.2

Rcupration des objets

Lutilisateur dessine des traces sur limage, indiquant ainsi le nombre de classes de segmentation et les emplacements approximatifs des objets segmenter. En revanche nous ne possdons
pas de segmentation de limage sur laquelle lutilisateur a dessin les traces. Nous pouvons ainsi
effectuer une sur-segmentation de limage et rcuprer ainsi les rgions intersectant les traces.
Toutefois, les rgions issues dune sur-segmentation nont pas de smantique propre. moins
dutiliser un processus dapprentissage tel que dans le cas dune connaissance extraite de manire
automatique (ce qui ncessiterait un gros travail de lutilisateur), les informations recueillies ne
sont pas suffisantes pour crer un modle un tant soit peu gnrique dobjets structurs.
Il existe de nombreuses mthodes permettant de segmenter une image partir de graines,
comme la ligne de partage des eaux avec marqueurs (Meyer (2001)). Toutefois, le problme ici
nest pas dobtenir un partitionnement de limage, mais disoler les objets points par lutilisateur.
Le partitionnement de limage impose que chaque partie de limage, mme ambigu, soit attribue
une tiquette reprsentant un objet. De plus, nous considrons ici un exemple pour crr un
modle, pas une image parfaite . Il est donc prfrable de laisser les zones ambigus attribues
aucun objet.
Nous avons tudi une autre approche pour permettre la cration du modle. Il sagit, avant
de segmenter limage de manire automatique, de la simplifier en effectuant une rgularisation.
La mthode utilise est dcrite dans Darbon et Sigelle (2006a,b) et permet doptimiser de manire
exacte des fonctionnelles du type :
F (u) = u f

| u|dx ,

66

3. L E

MODLE DE CONNAISSANCE

o correspond un gradient.4 . Ce modle a deux avantages : il permet de supprimer les textures,


et donc cela permet de transformer une zone texture pointe en une zone homogne et donc de la
rendre facilement segmentable de manire automatique ; le deuxime avantage est de produire de
larges zones homognes de limage en supprimant des dtails, mais tout en prservant les discontinuits importantes, ce quun lissage classique ne permettra pas. Cette rgularisation comporte
cependant deux problmes : tout dabord il est ncessaire de fixer le paramtre qui permet de
contrler la rgularisation (plus est lev, plus la rgularisation sera forte), et qui donc a une
grande influence sur le rsultat. Ce paramtre est dpendant de lapplication et dans notre cas,
nous avons une unique image. Il est donc trs difficile destimer correctement ce paramtre. De
plus, cet algorithme fonctionne de manire exacte (et trs rapidement), mais uniquement sur des
images en niveaux de gris, ce qui impose de perdre linformation de couleur. La figure 3.7 illustre
linfluence du paramtre de rgularisation sur le modle rsultant.
Enfin, pour rcuprer les objets , une segmentation automatique est ensuite effectue, avec
une mthode par mean-shift (Comaniciu et Meer (2002)) qui comporte galement des paramtres comme la taille minimale des rgions en sortie, mais ce paramtre en particulier na que
peu dinfluence aprs la rgularisation.

Prototype

Traces

beta = 0.5

beta = 1

beta = 2

beta = 2.3

F IG . 3.7 Influence du paramtre de rgularisation sur le modle gnr. Dans les quatre cas
prsents, limage de dpart, les traces utilises et tous les autres paramtres sont identiques. Le
modle est compos par 5 classes. Les parties apparaissant en blanc sont les zones ambigus
de limage et nappartiennent aucune classe. Seul le paramtre de rgularisation est modifi.
Lorsque la rgularisation est faible, la segmentation automatique produit beaucoup de petites rgions qui sont ambigus (principalement celles qui demeurent entre des traces diffrentes). Plus
la rgularisation est forte, et plus lambigut diminue, mais des zones comme le manche de la
guitare sont fusionnes avec le corps.

3.2.3.3

Interprtation des traces

Les traces dessines par lutilisateur appartiennent aux objets dsigns par lutilisateur. Toutefois, ces objets ne sont pas forcement homognes. Par exemple, lutilisateur peut choisir en
fonction du problme de dsigner un personnage comme tant un objet part entire ou dsigner
4

Les programmes correspondant sont accessibles sur cette page :


http://jerome.berbiqui.org/total-variation-code/

67
plusieurs de ses parties comme des objets. La rgularisation permet de retrouver les objets points
par lutilisateur dans leur ensemble, qui peuvent appartenir la mme classe de segmentation.
Si lutilisateur souhaite dsigner une zone uniforme, nous effectuons les hypothses suivantes :
si la zone est plutt fine, alors la trace correspondra plus ou moins au squelette morphologique de la rgion,
si la zone est plutt large, alors la ou les traces suivront les contours de la rgion. Dans ce
cas, les rgions mme non homognes comprises entre des traces dune mme classe de
segmentation peuvent tre considres comme faisant partie de cette rgion. La figure 3.8
montre les rgions regroupes de cette manire dans le modle. La premire image montre
la segmentation automatique de limage et la troisime image montre les objets initiaux,
composs des rgions qui intersectent les traces correspondant cet lobjet. Sur la dernire
image, de nombreuses rgions notamment en bas et dans la rgion centrale sont regroupes,
tant cernes par des rgions attribues aux mme objet (ou un bord).

segmentation

traces

modle initial

aprs regroupement

F IG . 3.8 Regroupement de rgions par dduction. Limage de gauche montre laffectation des
rgions effectue en fonction des traces uniquement. Les rgions (o groupes de rgion) non marques (en noir sur limage) peuvent tre affectes une rgion si elles sont entoures par une
unique rgion. Par contre, les rgions se situant entre deux marques diffrentes sont considres
comme ambigus et sont exclues du modle.
Dans le cas o les traces sont utilises pour relier plusieurs objets dans une mme classe
de segmentation non homogne, alors les traces ne correspondent plus aux deux cas de figure
prsents. Dans ce cas, les traces vont surtout relier les diffrentes zones, afin de les marquer
comme appartenant une mme classe smantique.
Il pourrait tre intressant de regrouper des rgions une rgion adjacente en fonction de critres correspondant aux caractristiques de la rgion adjacente. Par exemple si une trace intersecte
une rgion homogne en termes de couleur, alors le critre de couleur devient plus important que
dautres pour regrouper dautres rgions avec cette premire rgion. linverse, si une rgion est
texture, alors le critre de couleur devient moins important.
3.2.3.4

Cration du modle

Ces hypothses permettent de rcuprer, partir de limage originale, une segmentation automatique et des traces de lutilisateur, un modle compos dobjets dsigns par lutilisateur ou
des groupes dobjets regroups dans une mme classe de segmentation. En ajoutant les zones
considres comme ambigus, le modle est galement une partition de limage originale.

68

3. L E

MODLE DE CONNAISSANCE

Le fait que le modle soit compos dobjets plutt que de rgions issues dune segmentation
permet de dduire une smantique de la structure de la scne, par exemple une relation directionelle entre deux objets, qui serait sans signification si elle tait effectue partir de rgions dune
sur-segmentation. Une infrence vers des relations spatiales textuelles est possible, et permettrait
dajouter de limprcision dans le modle. Par exemple, partir dun histogramme dangles, revenir une direction gnrique (droite, gauche, haut, bas, en avant, en arrire). De mme, pour une
fonction de distance, connaissant les dimensions de limage, les notions de proche ou loin peuvent
en tre dduites.
Les relations directionelles ou de distance sont toujours dfinies quels que soient les deux
objets concerns, et ces relations sont donc privilgies. Mais il serait intressant de dduire des
relations plus spcifiques ou plus complexes, qui sont aussi ventuellement plus discriminantes ou
informatives. Par exemple, si nous considrons le cas de deux rgions o lune forme un trou dans
la deuxime, la distance et la position relative donne comme une orientation seront deux relations
spatiales moins pertinentes quune relation spcifique entour par . De mme dans le cas dune
rgion entourant une autre, ou le long dune autre, etc.
Le graphe rsultant peut tre construit de plusieurs manires en fonction du nombre darcs
souhait. Au minimum, ce sera un graphe dadjacence, o deux rgions en contact direct ou indirect sont relies par un arc. Une connexion indirecte serait constitue de deux rgions relies par
une rgion classe comme ambigu prcdemment. Au maximum, le graphe peut tre complet. En
fonction du degr dadjacence retenu, la premire version peut omettre des liaisons importantes.
La version complte peut mettre au mme niveau des liaisons importantes et dautres non significatives. Il serait ncessaire dtudier le modle en fonction du nombre de connexions. Ces travaux
et une application sont dcrits dans lannexe C.

3.2.4 Conclusion sur les sources de connaissances


TAB . 3.1 Les diffrents types de sources de connaissances, leurs formes et les consquences sur
le type des objets manipuls et le raisonnement spatial.
Type de source

Concepts manipuls

experte

Forme
textuelle :
livre danatomie

automatique

quelconque

rgions de segmentation

utilisateur

descripteurs visuels

classe smantique :
lutilisateur identifie
les objets

objets identifis

Relations spatiales
relations imposes,
smantique possible
repre impos
pas de smantique
tout doit tre relatif
pas de repre
raisonnements possible
smantique possible
repre impos

Le choix dune source de connaissances reprsente un compromis entre la gnricit du modle et sa prcision. La connaissance experte telle quune relation spatiale dcrite de manire textuelle va permettre par son imprcision naturelle de prendre en compte des variations naturelles.
Cependant, nous avons dans ce cas un modle quil est ncessaire dinstancier. De plus, il faut
avoir accs une connaissance experte, ce qui nest pas forcment le cas dans tous les domaines
dapplication. Dans le cas o la connaissance est acquise de manire automatique, nous pouvons
manipuler directement des rgions, et donc calculer des relations spatiales de manire prcise mais

69
elles ne sont pas identifies. La version semi-interactive est intermdiaire, elle permet de manipuler des objets, mais qui ne sont pas identifis. Mais dans ce cas, il faudrait que lutilisateur soit un
expert pour arriver un modle aussi complet que dans le premier cas. Du reste, des problmes
doptimisation se posent pour ce genre de modle. Dans le cadre de limagerie crbrale, nous
avons accs une grande connaissance experte telle que des descriptions anatomiques, et nous
allons utiliser cette connaissance par la suite.

3.3 Formalisme flou pour les relations spatiales


Les relations spatiales portes par le modle sont reprsentes laide dun formalisme flou.
Ce type de reprsentation permet de modliser limprcision intrinsque de relations telles que
proche de ou encore derrire , la variabilit potentielle, mme si elle est plutt rduite dans
le cas dimages normales (cest--dire non pathologiques dans le cas des images mdicales), et la
ncessaire souplesse pour effectuer un raisonnement spatial (Bloch (2005)).
Deux types de problmatiques peuvent apparatre lorsque des relations spatiales sont utilises :
tant donn deux objets, ventuellement flous, comment dterminer le degr de satisfaction
dune relation entre ces deux objets ;
tant donn un objet de rfrence, comment dfinir la rgion de lespace dans laquelle une
relation spatiale par rapport cette rfrence est satisfaite un certain degr. Nous nous
intressons ici cette question.
Nous utilisons donc des reprsentations spatiales des relations, cest--dire un ensemble flou
dans le domaine spatial S dfinissant une rgion dans laquelle une relation R un objet de rfrence A est satisfaite. Le degr dappartenance de chaque point cet ensemble flou correspond au
degr de satisfaction de la relation en ce point (Bloch (2005)). La figure 3.11 illustre le type de
reprsentation utilis pour reprsenter une relation de distance.
Pour reprsenter les diffrentes relations spatiales, nous utilisons les intervalles flous, dont un
exemple est prsent dans la figure 3.9. Ce sont des ensembles flous particuliers, dont chaque
-coupe (coupe de niveau) reprsente un intervalle classique.
noyau
n2 n3

x
n1

support

n4

F IG . 3.9 Un intervalle flou de forme trapzodale.


Nous allons prsent dcrire comment calculer les reprsentations des principales relations
spatiales utilises dans nos expriences : une distance, une direction relative et ladjacence (ou
trs proche de ).

3.3.1 Reprsentation de la relation de distance


Une relation de distance peut tre dfinie comme un intervalle flou f dune forme trapzodale
sur R+ , un exemple est illustr dans la figure 3.10. Un ensemble flou d de lespace de limage S
peut tre driv en combinant f et une carte de distance dA lobjet de rfrence A :
x S, d (x) = f (dA (x)),

(3.1)

70

3. L E

MODLE DE CONNAISSANCE

o
dA (x) = inf d(x, y)

(3.2)

yA

La figure 3.11 montre un exemple de reprsentation dune fonction de distance utilisant cette
dfinition.
1

n3

n2

n3 n2
proche de
distance borne
loin de

n1 n4

n1

n4

distance

F IG . 3.10 Intervalles flous de forme trapezodale illustrant trois relations spatiales de distance.
Le premier (en rouge) reprsente une relation proche de . Dans ce cas, les valeurs n1 et n2
valent 0. Le deuxime nombre flou (en vert) reprsente une distance borne des deux cts. Le
dernier nombre flou (en bleu) reprsente une relation loin de . Dans ces cas, les valeurs n3 et
n4 sont au maximum de la distance.

a) Objet A

b) carte de distance dA

c) proche de A

F IG . 3.11 (a) Une coupe de la reprsentation binaire en 3 dimensions dun ventricule latral.
(b) Carte de distance drive de A. (c) Ensemble flou correspondant la relation proche du
ventricule latral .

3.3.2 Reprsentation de la relation dorientation


Les relations directionelles sont reprsentes en utilisant lapproche dite des paysages flous
(Bloch (1999)). Une dilatation morphologique par un lment structurant reprsentant la
smantique de la relation dans la direction est applique lobjet de rfrence A :
= (A)

(3.3)

o est dfini, pour x S exprim en coordonnes polaires (, ), tel que :


(x) = g(| |)

(3.4)

o g est une fonction dcroissante de [0, ] vers [0, 1] et || est dfini modulo . Cette dfinition
est tendue en 3 dimensions en utilisant deux angles pour dfinir une direction. La reprsentation
de la relation directionelle illustre par la figure 3.12 a t gnre en utilisant cette dfinition.

71

b) lment structurant

a) Objet A

c) droite de A

F IG . 3.12 (a) Une coupe de la reprsentation binaire en 3 dimensions dun ventricule latral.
(b) lment structurant pour la relation droite . (c) Paysage flou reprsentant droite du
ventricule latral .

3.3.3 Reprsentation de ladjacence


Une adjacence stricte est une relation qui est trs sensible la segmentation des objets et sa
satisfaction peut dpendre dun unique point. La figure 3.13 illustre cette sensibilit. Pour viter
une dfinition trop stricte (binaire), et donc noffrant que peu de souplesse, nous avons choisi une
interprtation de ladjacence comme une relation trs proche de . Cette relation peut donc tre
dfinie comme une fonction de la distance entre deux ensembles, donnant un degr dadjacence
plutt quune valeur boolenne, en utilisant une formulation similaire au calcul de la reprsentation
de la relation de distance dcrite ci-dessus :
adj (A, B) = hA,B (d(A))

(3.5)

o h est un intervalle flou dune forme trapzodale, mais dont les 3 premires valeurs sont en 0
tel que celui prsent dans la figure 3.14 et d() est une carte de distance.

a)

b)

c)

F IG . 3.13 Illustration de la sensibilit dune dfinition stricte de ladjacence en fonction de


la segmentation obtenue. (a) Quatre rgions adjacentes deux deux, une segmentation correcte
donnera une image similaire faisant apparatre les rgions. (b) Une segmentation possible o les
rgions 1 et 4 ne sont plus adjacentes la suite du dplacement dune frontire. (c) Dans le pire
cas, il reste deux couples de rgions adjacentes : (1, 2) et (2, 4) la suite de la fusion des rgions
2 et 3 de limage originale, due un dplacement de frontires important.

n4

distance

F IG . 3.14 Nombre flou de forme trapezodale utilis pour la dfinition de la notion dadjacence,
vue comme une relation de distance trs proche de . Les valeurs de n1, n2 et n3 sont toutes
gales 0.

72

3. L E

MODLE DE CONNAISSANCE

3.3.4 Autres relations


Dautres relations peuvent tre dfinies dune manire similaire (Bloch (2005)). Ces modles
sont gnriques, mais pour toutes les dfinitions de reprsentations spatiales prsentes ici, le
degr de satisfaction dune relation dpend dune fonction (f , g ou h) qui est choisie comme un
intervalle flou de forme trapzodale par simplicit. Une procdure dapprentissage dcrite dans
la section 3.5 dfinit les paramtres de ces fonctions en fonction dune base dimages et de la
smantique de la relation en fonction du domaine.

3.3.5 Notations des paysages flous


Linterprteur darc Le associe chaque arc un ensemble flou Rel , dfini dans le domaine
spatial S, reprsentant une fusion conjonctive de toutes les reprsentations spatiales des relations
portes par cet arc, par rapport lobjet de rfrence, cest--dire lorigine de larc. Pour quun arc
existe entre deux nuds, il est ncessaire quau moins une relation spatiale existe entre les deux
objets reprsents par deux nuds, Rel ne peut donc pas tre vide. Si eRi , i = 1, ..., ne sont les
ne relations portes par un arc e, alors eRel sexprime de la manire suivante :
eRel = i=1..ne (eRi )

(3.6)

avec une t-norme (conjonction floue, voir Dubois et Prade (1980) pour une prsentation des
conjonctions et des disjonctions floues).

3.4 Base de donnes dimages crbrales


Pour raliser lapprentissage dcrit dans la section suivante, nous avons besoin dune base
dapprentissage qui illustre la diversit des cas rencontrs, afin de pouvoir reprsenter cette diversit. Nous avons besoin :
de cas sains qui reprsentent les cas normaux ,
de cas pathologiques, reprsentatifs des diffrentes pathologies existantes,
que certaines structures de ces images soient segmentes afin de pouvoir calculer les ensembles flous reprsentant les relations spatiales et calculer leur adquation.
Nous utilisons les structures crbrales suivantes :
Dans les deux hmisphres :
Ventricule latral
Noyau caud
Thalamus
Putamen
Dans le plan inter-hmisphrique :
Le troisime ventricule
Si limage est pathologique :
La tumeur
soit 9 ou 10 structures par image.
Base de cas sains :
Nous avons constitu une base de 30 images pour les cas sains. Parmi ces images, nous utili-

73
sons la base IBSR (Internet Brain Segmentation Repository)5 qui contient 18 images IRM en 3
dimensions de cerveaux humains, manuellement segmentes par des experts. Toutes les images de
la base IBSR ont t recales, ce qui diminue la variabilit de la base, mais cela na pas dimpact
sur lapprentissage des relations, qui est effectu de manire relative entre les structures. La figure
3.15 prsente quelques coupes de volumes issus de la base IBSR.

IBSR 01

IBSR 10

IBSR 17

IBSR 17

F IG . 3.15 Trois exemples de volume de la base IBSR. Les deux premiers exemples sont des
coupes axiales et la coupe prsente est la mme dans les deux images (120), le troisime exemple
est une coupe sagittale (coupe 127). La dernire image est une coupe dune segmentation reprsente avec une palette alatoire.
Nous avons ajout ces images 11 cas provenant de la base OASIS ( Open Access Series of
Imaging Studies ).6 Cette base contient des images de 416 sujets avec 3 ou 4 images IRM par
sujet (obtenues dans une unique session). La base est prsente par Marcus et al. (2007). Mais
cette base ne possde pas de segmentations. Nous avons donc segment manuellement les 11 cas
que nous utilisons dans notre ensemble de cas sains.
Enfin, nous avons ajout une dernire image, qui nest pas accessible publiquement, et qui a
t segmente manuellement galement.
Base de cas pathologiques :
Pour les cas pathologiques, nous avons constitu un ensemble de 20 images, qui ont t segmentes manuellement galement et valides par des experts. Mais ces images, recueillies auprs
de nos partenaires mdicaux ne sont pas non plus accessibles publiquement.
La base est constitue de 16 cas, et pour deux dentre eux, nous avons deux images diffrents
stades de dveloppement de la tumeur. Pour un cas, nous avons trois images diffrents moments.
Nous avons donc 20 images au total, dont 16 seront utilises pour lapprentissage. La base contient
diffrents types de tumeurs. La figure 3.16 prsente diffrents exemples de pathologies issus de
cette base. Les tumeurs varient :
par leur emplacement : frontal, proche des noyaux internes, ou latrales ;
par leur taille : plus ou moins grandes ;
par leur type : systique, ncrotique, infiltrante, avec ou sans dme.
Les diffrents types de tumeur impliquent diffrents comportements spatiaux, certaines vont
dplacer ou dformer les structures que nous recherchons, dautres auront peu ou pas dimpact en
fonction de leur localisation. Si la tumeur produit un dme, alors cest laspect qui sera modifi
plutt que les caractristiques morphologiques.
5

Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http ://www.cma.mgh.harvard.edu/ibsr/
6
http://www.oasis-brains.org, ralise avec les financements suivants : Pubmed Central submission :
P50 AG05681, P01 AG03991, R01 AG021910, P50 MH071616, U24 RR021382, R01 MH56584

74

3. L E

MODLE DE CONNAISSANCE

F IG . 3.16 Quatre exemples de volumes prsentant des tumeurs crbrales. Certaines tumeurs
influent directement sur les structures centrales du cerveau, comme les images du haut. Dautres
tumeurs excentres ou infiltrantes ont une influence moindre sur ces structures.
Notations :
La base dapprentissage K, sera compose de cas sains ainsi que de cas pathologiques :
K = {K N , K P }
avec K N lensemble des cas sains de la base et K P lensemble des cas pathologiques de la base.
Nous pouvons dnoter par ki , i [[1, ..., N + P ]] un cas de la base dapprentissage. Par
simplicit, nous dnotons en pratique par c K, pour dsigner un cas quelconque de la base,
ventuellement en prcisant un sous-ensemble K N ou K P . Lensemble des objets segments dans
c sera dnot par Oc .
Les ensembles flous pour une relation R KB des ensembles dimages de cas sains seront
P
nots N
R et ceux pour les images de cas pathologiques R .

3.5 Apprentissage des paramtres des intervalles flous


Nous prsentons ici de quelle manire les fonctions f , g et h (respectivement quations 4.1,
4.4 et 4.5), qui sont toutes choisies ici comme des intervalles flous de forme trapzodale, peuvent
tre apprises. Lapprentissage est ncessaire pour deux raisons :
Permettre de prendre en compte le domaine dapplication. Si certaines relations sont moins
dpendantes du contexte, comme des relations dorientation ou la relation entre pour
laquelle cest en partie implicite, des relations comme proche de ont imprativement
besoin dun apprentissage afin de pouvoir tre reprsentes de la manire dcrite dans la
section 3.3.
Si limprcision permet de prendre en compte la variabilit naturelle des caractristiques
telles que la forme ou la taille des structures crbrales, les cas pathologiques apportent des
variations qui peuvent tre bien plus importantes. Lapprentissage va permettre de prendre

75
en compte les cas pathologiques, du moins ceux qui nentranent pas de destructions de
structures. La figure 3.17 prsente un exemple des effets quune tumeur peut avoir sur les
structures crbrales environnantes.

putamen (3)
tumor (1)
thalamus (2)

F IG . 3.17 Exemple de leffet dune pathologie sur les structures crbrales. Dans ce cas, le
putamen gauche ( droite sur limage) a t dplac et apparat tir et enroul autour de la tumeur.

3.5.1 Cadre gnral pour lapprentissage des intervalles flous


Nous dsirons mesurer ladquation dune relation spatiale R, pour un couple de structures
donn (A, B). Dans la suite, la relation spatiale sera calcule en utilisant la structure A comme
structure de rfrence, et la structure B sera la structure cible. Lobjectif de lapprentissage est
que, pour une relation ARB donne, lobjet B satisfasse le plus possible la relation R calcule
partir de A, il faut donc maximiser linclusion de lobjet B dans RA . Les ensemble flous R sont
calculs dans lespace de limage, ce qui nous permet de les comparer directement avec les objets
de limage.
Pour cela, nous utilisons une procdure dite leave-one-out qui consiste laisser limage qui
sera utilise pour le test, hors de la base dapprentissage. Cette procdure impose un apprentissage
diffrent pour chaque image, mais permet, lorsque le nombre total dimage est faible, davoir plus
dimages pour lapprentissage que si nous avions dfini un ensemble de test spar de lensemble
dapprentissage.
Pour tous les cas c K de la base dapprentissage, et tout couple de structures (Ac , Bc ) Oc
dans lensemble des structures segmentes du cas concern, nous reprsentons lensemble flou
RAc de la relation R avec Ac comme objet de rfrence. Dans ce cas, les paramtres des fonctions
sont gnriques, mais tout de mme adapts au domaine dapplication.
Nous pouvons alors extraire les valeurs suivantes :
min = min RAc (x) ,
c

xBc

max = max RAc (x) .


c

xBc

Ces valeurs correspondent aux degrs minimum et maximum de la relation RAc pour tous les
points de Bc
Les valeurs de satisfaction minimale minc et maximale maxc sont calcules pour chaque
instance de la base de cas et ces valeurs sont utilises pour dterminer les paramtres des fonctions.

76

3. L E

MODLE DE CONNAISSANCE

est la moyenne des minc , et min lcart-type de ces


Nous calculons les valeurs suivantes : min
mmes valeurs. Nous calculons galement la moyenne max
et lcart-type max des maxc . Les
valeurs du nombre trapzodal apprises seront alors :
min

n1 :
n2 :
n3 :
n4 :

max

min
min

min
max

max
+ max
0

degrs
de
satisfaction
min

max +

En fonction des relations considres, certaines valeurs peuvent tre fixes lavance, par
exemple pour une relation proche de o un unique paramtre est ncessaire.
Lintervalle flou est dfini dune manire large afin de permettre de prendre en compte tous
les cas de la base dapprentissage, en particulier les cas pathologiques. Les reprsentations sont
utilises dans la suite de ces travaux pour estimer la localisation des objets. Il est donc ncessaire
que les objets soient effectivement situs dans la reprsentation, au dtriment de leur prcision.
Cependant, il est possible quun cas extrme ne soit pas entirement compris dans la localisation,
une valeur moyenne tant utilise.

3.5.2 Un exemple dapprentissage


Considrons un exemple dapprentissage de relation dorientation entre deux structures crbrales : le putamen gauche est droite du noyau caud gauche. La structure de rfrence ici est
le noyau caud. Le putamen est la structure cible. La figure 3.18 prsente ces deux structures.
Lobjectif ici est dapprendre les paramtres de la fonction g utilise pour reprsenter la relation
dorientation qui est prsente dans les quations 3.3 et 3.4

Noyau caud gauche


putamen gauche

F IG . 3.18 Apprentissage dune relation dorientation : les deux structures (noyau caud et putamen) sont prsentes gauche sur une coupe de limage ibsr 04. Limage droite montre les deux
structures en rouge en sur-impression sur une coupe de la reprsentation de la relation droite
du noyau caud. Les valeurs de satisfaction minimale et maximale mesures sur cette image sont
respectivement de 0, 37 et de 1, 00.
Les valeurs minimale et maximale de satisfaction de la mesure dinclusion pour chaque cas
sont prsentes dans le tableau 3.2. La moyenne des valeurs minimales est de 0, 45 et lcart type
de 0, 14. Les quatre valeurs du nombre trapzodal de la fonction g sont donc :
n1 :
n2 :
n3 :
n4 :

min
min

min
max

max
+ max

0,31
0,45
1,00
1,00

77

TAB . 3.2 Valeur de satisfaction minimale et maximale obtenue pour une mesure dinclusion I
donne entre la reprsentation de la relation droite du noyau caud gauche et le putamen gauche.
: Maximum (max)
Image Minimum (min)
:
cas sains
ibsr 01
0,36
1,0
ibsr 02
0,41
1,0
ibsr 03
0,44
1,0
ibsr 04
0,37
1,0
ibsr 05
0,54
1,0
ibsr 06
0,37
1,0
ibsr 07
0,45
1,0
ibsr 08
0,42
1,0
ibsr 09
0,46
1,0
ibsr 10
0,37
1,0
ibsr 11
0,41
1,0
ibsr 12
0,38
1,0
ibsr 13
0,44
1,0
ibsr 14
0,37
1,0
ibsr 15
0,46
1,0
ibsr 16
0,40
1,0
ibsr 17
0,44
1,0
ibsr 18
0,47
1,0
cas pathologiques
img. pat. 1
0,69
1,0
img. pat. 2
0,56
1,0
img. pat. 3
0,39
1,0
img. pat. 4
0,66
1,0
Moyenne
0,45
1,0
cart type
0,14
0

Lintervalle flou utilis et le rsultat de lapprentissage sont illustrs dans la figure 3.19.

n2 = 0,45
1

Satisfaction
n1 = 0,31

1.0

F IG . 3.19 Apprentissage dune relation dorientation : gauche, nous avons le nombre trapzodal utilis pour lorientation et limage de droite montre le rsultat de lapprentissage pour cette
relation. Les valeurs slectionnes permettent de prendre en compte lintgralit de la structure
cible dans la relation.

78

3. L E

MODLE DE CONNAISSANCE

3.5.3 Le cas de la distance


Dans le cas des relations spatiales reposant sur une distance comme ladjacence telle quelle est
dfinie dans la partie 3.3.3, les relations proche de , loin de , lapprentissage est ncessaire
deux niveaux. Il est dabord ncessaire dtudier dans le contexte du domaine dapplication (les
structures crbrales) ce que signifie la notion de proche de ou de loin de . Une fonction f
peut alors tre dtermine pour chacune des relations.
Une fois ces relations connues dans le contexte du domaine dapplication, nous pouvons procder un apprentissage tel quil a t dcrit dans les parties prcdentes, pour apprendre par
exemple les paramtres de la fonction f pour une relation particulire : le ventricule latral est
proche du noyau caud .
Mais en pratique, nous ne passons pas par ces deux tapes. Elles sont ralises de manire
simultane. Il ne sagit donc plus dlargir la reprsentation floue dune relation, mais de calculer
directement les paramtre de la relation. Pour cela, un apprentissage tel que celui dcrit ci-dessus
est effectu. Au lieu de regarder les reprsentations des relations spatiales R et linclusion avec
lobjet cible de la relation, lapprentissage est effectu sur une carte de distance calcule depuis
la structure de rfrence. Pour une relation R et un couple de structures (A, B), nous gnrons la
carte de distance de la structure A :
dAc (x) = inf d(x, y) ,
yA

Nous cherchons ensuite extraire les valeurs suivantes de la carte de distance pour chaque cas
cK:
dminc = min d(x, y) ,
xAc ,yBc

dmaxc =

max

xAc ,yBc

d(x, y) .

Dans ce cas, dminc reprsente le minimum des distances entre un point de A et un point
de B. dmaxc reprsente le maximum de ces mmes distances. Ces valeurs sont calcules pour
lensemble des cas c de la base K.
est la moyenne des dminc , et dmin
Nous calculons ensuite les valeurs suivantes : dmin
et lcart-type
lcart-type de ces mmes valeurs. Nous calculons galement la moyenne dmax
dmax des dmaxc . Les valeurs du nombre trapzodal apprises seront alors :
n1 :
n2 :
n3 :
n4 :

dmin
dmin

dmin

dmax
+ dmax
dmax

Le nombre flou dsigne donc un intervalle sur des distances (exprime en mm) et non plus des
degrs de satisfaction comme dans le cas gnral.

3.6 Conclusion
Le domaine dapplication est particulier pour diffrentes raisons. Sil existe une variabilit
inter-patients, et des modifications dues aux pathologies, nous sommes dans un cas o les objets
de la scne sont connus, ainsi que leur nombre et toutes les relations qui les relient. Nous avons
galement la garantie que toute la scne sera visible. De ce point de vue, cette application est dans

79
n2 = 0,01
1

0
n1 = 0

n3 = 0,35

Distance
n4 = 0,41

F IG . 3.20 Exemple dapprentissage dune fonction de distance : distance du noyau caud


au putamen . Une carte de distance au noyau caud est calcule (image de gauche). Les deux
structures sont en sur-impression sur cette image. Les valeurs de lintervalle flou g prsent au
centre sont calcules sur lensemble des cas sains et pathologiques. Le rsultat de lapprentissage
est prsent droite, avec les deux structures en sur-impression.
un monde clos, ce qui ne serait pas le cas pour des images naturelles o la plupart des autres applications. De plus, le domaine vis est un domaine o il existe des descriptions anatomiques des
relations entres les structures, linverse de beaucoup de domaines o ces descriptions nexistent
pas. Enfin les structures concernes ne sont pas complexes, linstar de lintestin dans une tude
de labdomen, qui ncessiterait des relations spatiales adquates. Toutes ces caractristiques nous
permettent de faire les choix que nous avons faits : nous utilisons une connaissance experte et
textuelle fournie par les rfrences anatomiques, structure laide dun graphe. Les relations
spatiales sont reprsentes laide dun formalisme flou, qui permet de reprsenter limprcision
du modle. De ce point de vue, le modle que nous utilisons ici est ddi la reconnaissance et
linterprtation des structures crbrales. Au contraire, les discussions sur les sources de connaissances se placent dans un cadre plus ouvert divers types dimages traites et de problmes.

80

3. L E

MODLE DE CONNAISSANCE

81

Chapitre 4

Optimisation avec reprsentation des


structures
De nombreux travaux utilisent des modlisations par graphes pour guider la reconnaissance,
comme par exemple dans Colliot et al. (2006); Mangin et al. (1996); Deruyver et al. (2009). Certains de ces travaux utilisent un processus de segmentation squentielle. Ce type de processus permet de diviser un problme de segmentation globale en sous-problmes, et dordonner la rsolution de ces sous-problmes, le principe tant de commencer par les problmes les plus simples ,
pour aller vers les plus difficiles . Pour la segmentation des structures crbrales, la difficult de
segmentation dune structure particulire est lie aux caractristiques de la structure elle-mme,
comme sa forme, ou la quantit dinformation disponible sur son entourage immdiat : la structure sera plus simple segmenter si toutes les structures avoisinantes sont dj segmentes.
Nous avons dcrit au chapitre 3 comment nous pouvons crer un modle partir des connaissances anatomiques sur un graphe spatial. Le processus de segmentation squentielle ncessite
davoir plusieurs objets segmenter videmment, mais galement de pouvoir utiliser de linformation issue des objets segments pour permettre ou faciliter la segmentation des autres structures.
Le modle dcrit dans le chapitre 3 est donc bien adapt un processus de segmentation squentielle. Le domaine dapplication, la segmentation des structures crbrales, est galement bien
adapt ce type de processus car il y a de nombreuses structures segmenter et les relations entre
les structures sont dcrites dans des ouvrages neuro-anatomiques comme celui de Waxman (2000).
Parmi les travaux cits, nous nous intresserons particulirement aux travaux dcrits par Colliot et al.
(2006) qui proposent dutiliser les relations spatiales pour segmenter et reconnatre les structures
crbrales de manire progressive, en utilisant un modle similaire au modle dcrit au chapitre
3. chaque itration, une structure est segmente, et sa segmentation est guide par les relations spatiales existant entre cette structure et les structures prcdemment segmentes. Toute la
connaissance gnrique est reprsente en utilisant un graphe. Une structure particulire (les ventricules latraux) est utilise comme structure de rfrence, cest--dire comme point de dpart de
la segmentation. Enfin, une squence ad-hoc de segmentation des structures, partir de la structure
de rfrence, permet de ne segmenter les structures les plus compliques quune fois que suffisamment dinformation est disponible. La figure 4.1 prsente des rsultats de segmentation obtenus
grce ce cadre de segmentation, et avec une squence dfinie de manire ad-hoc et empirique.
Lobjet de ce chapitre est de proposer des raisonnements permettant de remplacer la squence de
segmentation ad-hoc par une squence de segmentation optimale par rapport la connaissance
disponible, au modle et aux donnes utilises. Une squence de segmentation correspond ici un
chemin dans un graphe et rpond donc au problme suivant : partir dune structure de rfrence,

82

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

quelles sont les segmentations successives effectuer pour segmenter au mieux une structure objectif ?

F IG . 4.1 Les rsultats de segmentation prsents par Colliot et al. (2006).


Limprcision intrinsque des relations spatiales leur confre une grande stabilit qui permet de
prendre en compte la variabilit anatomique existant dans les structures crbrales. Mais lorsquun
cas comportant une pathologie se prsente, alors la variabilit peut devenir trop importante pour
pouvoir tre prise en compte de cette manire. En effet, des structures peuvent tre dformes,
dplaces et mme ventuellement disparatre. Dans ce dernier cas, la structure mme de limage
est altre. Dans ce chapitre et le suivant, nous proposons diffrentes mthodes permettant de
dterminer une squence de segmentation qui ne soit plus ad-hoc, mais qui soit adapte en fonction
des connaissances qui sont disponibles et des pathologies ventuelles.
Dans une premire partie, nous allons prsenter une approche utilisant une reprsentation de la
forme de chaque structure, pour infrer le chemin de segmentation optimal en fonction du modle
fourni et de la connaissance a priori sur les structures utilises. Lutilisation dune connaissance
a priori nous permet de dfinir un chemin complet avant de commencer effectuer des segmentations. En revanche lapproche est dpendante de la connaissance a priori pour les formes de
chaque structure, et est donc moins susceptible de sadapter aux cas pathologiques (qui entranent
des modifications morphologiques).
Dans une deuxime partie, nous prsentons donc une manire de modifier la mthode qui permet de prendre en compte les cas pathologiques. Nous considrons dans ce cas que la pathologie
est connue, cest--dire dans notre cas que le type de tumeur crbrale (sa classe et ses caractristiques) est connu.
Tous les raisonnements prsents dans les deux premires parties de ce chapitre effectuent une
optimisation qui peut tre qualifie de locale, dans le sens o ils attribuent chaque arc une mesure de manire indpendante, utilise ensuite pour infrer le chemin. Dans une troisime partie,
nous prsentons une mthode permettant deffectuer une estimation globale de la pertinence dun
chemin, cest--dire permettant de faire la slection du chemin complet partir dun unique critre
valuant sa pertinence.

4.1 Raisonnement avec reprsentation de la forme des structures


Dans cette premire partie, nous proposons une mthode permettant de dterminer une squence optimale de segmentation entre une structure de rfrence et une structure cible. Cette
mthode utilise, pour chaque structure contenue dans le modle, une reprsentation de la forme de
cette structure. Nous distinguons deux cas diffrents. Pour commencer, le cas normal, dans le cas
de la segmentation des structures crbrales, correspond une image sans pathologie, le cas dit

83
sain . Dans un deuxime temps, nous prsentons une adaptation de cette mthode pour les cas
qui prsentent une pathologie.

4.1.1 Raisonnement dans le cas sain


Notre objectif est donc de proposer un raisonnement qui permette la slection du meilleur
chemin entre une structure de rfrence, qui sera segmente au pralable, et une structure que nous
souhaitons segmenter et reconnatre, dans une image donne. Nous utilisons le modle prsent
dans le chapitre 3, savoir un graphe spatial o les nuds correspondent aux structures crbrales
et les arcs portent les relations spatiales existant entre des structures. Un chemin correspond donc
une squence de structures segmenter, et doit permettre de conduire la meilleure segmentation
possible de la structure objectif, en fonction de nos connaissances de la scne.
La notion de meilleur chemin est relative aux contraintes du processus de segmentation.
Dans cette premire approche, notre raisonnement doit tre apte, dans le cadre du processus de segmentation squentielle prsent par Colliot et al. (2006), dtre mme de remplacer le chemin
de segmentation ad-hoc utilis, le processus lui-mme restant inchang. Les contraintes du processus portent donc sur la possibilit de segmenter une structure en utilisant les relations spatiales
issues des structures segmentes pour guider la segmentation des structures restantes. Notons que
nous ne dfinissons pas, pour une structure donne, un minimum de relations spatiales qui seraient
ncessaires sa segmentation. Cette information, plutt empirique, pourrait tre incorpore sur
chaque nud du graphe. Dans cette approche, nous ne tenons pas non plus compte de la difficult
intrinsque de la segmentation de chacune des structures.
Dans ce cas, nous considrons des chemins simples et sans boucle et donc le nombre de chemins est born. Ce nombre peut nanmoins tre trs lev, et le problme de lextraction dun
chemin peut rapidement devenir trop complexe pour tre calcul. Mais dans notre cas, nous nous
limitons un petit nombre de nuds, et nous vitons donc ces problmes. Nanmoins, lutilisation
de cette mthode avec un graphe plus grand ncessiterait de rsoudre cette problmatique.
Nous avons donc un modle qui porte une connaissance gnrique compose dobjets (des
structures crbrales) et de relations spatiales dcrites de manire textuelle. Pour dterminer la
meilleure squence de segmentation, nous proposons de munir chaque relation spatiale prsente
dans le modle dune mesure de sa pertinence. Cette mesure value ladquation avec laquelle
cette relation spatiale dcrit lagencement spatial entre les deux structures : la rfrence et la cible
de la relation. Cette valuation nest possible qu partir du moment o nous avons choisi un formalisme de reprsentation des relations spatiales, car la comparaison va porter sur la reprsentation
de la relation spatiale et non pas sur la relation elle-mme. Nous avons dcrit dans la partie 3.3 le
formalisme flou utilis pour reprsenter les relations spatiales. La mthode utilise pour reprsenter une relation spatiale rpond la question suivante : pour une structure de rfrence, quels sont
les lieux de lespace o cette relation est satisfaite. Cette mthode nous permet dobtenir une reprsentation dans lespace de limage dune relation spatiale o chaque point de la reprsentation
correspond la mesure de satisfaction de la relation en ce point. Notre critre dvaluation va donc
comparer pour chaque relation un ensemble flou et une structure cible . Cette mesure, qui sera
dcrite dans la partie suivante, sera ensuite utilise pour dfinir un poids sur les arcs du graphe,
et galement comme critre pour loptimisation du chemin en utilisant des algorithmes drivs de
notions classiques de la thorie des graphes prsents dans la partie 4.1.3.
La structure de rfrence dans le cadre des images IRM du cerveau humain est le ventricule,
qui prsente en gnral un fort contraste avec les structures environnantes, et qui se situe approximativement au centre (dans une coupe axiale) du cerveau. La figure 4.1.a prsente une coupe axiale
dune image IRM 3D du cerveau, et quelques structures, dont le ventricule, sont marques.

84

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

Noyau
caud
CDl

LVl CDl

PUl

G/D

Ventricule G/D
Latral

Putamen
H/B

Lvl

Dv/Dr

THl

PUl

G/D
G/D
THl

G/D : gauche / droite


H/B : audessus / audessous
Dv/Dr : devant / derrire

Thalamus

F IG . 4.2 La connaissance et le modle utiliss dans cette tude. Limage gauche est une coupe
dun volume crbral en vue axiale et montre les structures anatomiques suivantes : LVl ventricule
latral, CDl noyau caud, THl le thalamus et PUl le putamen. droite, les mmes structures
apparaissent dans le graphe modlisant la connaissance. Les relations spatiales entre ces structures
sont portes par les arcs du graphe.

4.1.2 valuation de la pertinence dun arc


Nous proposons ici deux critres permettant dvaluer la pertinence dun arc comme une mesure de ladquation entre un ensemble flou reprsentant la relation spatiale porte par cet arc,
et de la structure cible de larc. Les reprsentations des relations spatiales sont effectues dans
lespace de limage.
Les notations que nous utilisons pour les graphes et pour dsigner les ensembles flous ont t
introduites dans le chapitre 3 dans la premire partie. Nous nous contenterons ici de rappeler les
notations les plus utilises. Par la suite, nous utilisons la notation G = (V, E) pour dsigner un
graphe relationnel attribu, avec V dsignant lensemble des nuds et E lensemble des arcs. Un
interprteur darc associe chaque arc e un ensemble flou Rel , dfini dans le domaine spatial,
et reprsentant lensemble (ventuellement singleton) des relations spatiales portes par cet arc,
et calcul par rapport une structure de rfrence qui est le nud source de larc, tel que dfini
par Bloch (1999). De la mme manire, un ensemble flou Obj est port par chaque nud et
correspond la reprsentation de la structure crbrale porte par le nud.
Lensemble flou Obj reprsente la structure cible. Cette reprsentation peut tre une simple
segmentation issue de la base dapprentissage, sous forme de carte binaire de la structure, ventuellement rendue floue laide dune dilatation floue par exemple pour accrotre la prise en compte
de la variabilit. Cette reprsentation peut galement provenir dun atlas. Il est important que les
donnes utilises pour calculer les reprsentations des relations spatiales et les reprsentations
des structures proviennent de la mme source afin que leur comparaison soit effective. Dans tous
les cas, linformation provient dune image dj segmente et non pas de limage qui doit tre
segmente.
Critre de pertinence
La pertinence dune relation spatiale doit donc reprsenter ladquation entre Rel et Obj ,
cest--dire le degr avec lequel les ensembles flous reprsentant des relations spatiales ayant une
mme structure pour cible donnent une localisation prcise de cette structure. Si la structure cible
est reprsente sous forme dun ensemble flou, alors nous avons deux ensembles flous, dfinis
dans lespace de limage, et donc aisment comparables. La pertinence des relations spatiales,
dans le cadre du formalisme flou de reprsentation choisi, nous permet de dduire deux critres de
pertinence :

85
la localisation de la relation,
la prcision de la relation.
Une relation spatiale fournit une indication sur la position de la structure cible par rapport la
structure de rfrence, la position exacte tant donne par la connaissance a priori. Si la relation
spatiale fournit une bonne localisation, alors en chaque point de la structure cible, la relation
spatiale doit avoir un degr de satisfaction maximal. Plus spcifiquement, si nous comparons des
ensembles flous, il est ncessaire que lensemble des points de la structure cible soient situs dans
le noyau de la relation spatiale (cest--dire un degr de satisfaction de 1).
Une bonne localisation, telle quelle vient dtre dfinie, permet de sassurer que la relation
est pleinement satisfaite lemplacement de lobjet. Mais ce critre nest pas suffisant, car la taille
du support de la relation spatiale nest pas prise en compte. Le support de la relation spatiale,
reprsente dans lespace de limage, correspond lensemble des points pour lesquels le degr
de satisfaction de la relation nest pas nul. Par exemple, dans un cas extrme, tous les points de
lensemble flou peuvent satisfaire entirement la relation. Dans ce cas, la localisation sera toujours
correcte. Il est donc ncessaire de tenir compte dun autre critre qui estime la prcision de la
relation. Nous la dfinissons comme le rapport entre la taille de lobjet et la taille du support de la
relation tudie.
Nous pouvons trouver un cadre formel appropri pour comparer des ensembles flous dans
(Bouchon-Meunier et al. (1996)), o les auteurs proposent des mesures de comparaison ainsi
quune classification de ces mesures. Deux mesures permettant destimer les critres de pertinence
dcrits ont t tudies :
Mesure de satisfaction :
Le premier critre est une mesure de satisfaction ( M-measure of satisfiability (Bouchon-Meunier et al.
(1996)) ) dfinie ainsi :
fs (Rel, Obj) =

xS

min(Rel (x), Obj (x))


,
xS Obj (x)

(4.1)

o S dsigne lespace de limage. Ce critre mesure la prcision de la position de la structure dans


la rgion o la relation est satisfaite, et sera maximale si la structure est entirement situe dans le
noyau de Rel . Cependant la taille de la rgion o la relation est satisfaite nest pas prise en compte.
Dans le cas extrme (mais improbable) o le support de la relation correspondrait au domaine de
limage, la relation serait alors maximale avec nimporte quel objet. Si la reprsentation de la
structure nest pas floue, alors cette mesure est rduite :
fscrisp (Rel, Obj) =

xObj

Rel (x)

|Obj|

(4.2)

Mesure de ressemblance :
Le deuxime critre est une mesure de ressemblance ( M-measure of resemblance (Bouchon-Meunier et al.
(1996)) ) dfinie comme :
fr (Rel, Obj) =

min(Rel (x), Obj (x))


.
max(
Rel (x), Obj (x))
xS
xS

(4.3)

Ce critre mesure ladquation entre la structure dans la rgion de lespace o la relation est
satisfaite, le maximum tant atteint si lobjet et la relation sont identiques. Cette mesure permet
dvaluer en mme temps le positionnement mais aussi la prcision de la relation. Il sagit donc
dun taux de recouvrement entre Rel et Obj .

86

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

Comparaison des critres :


La mesure de satisfaction est maximale lorsque la localisation de la relation est correcte, mais
elle ne prend pas en compte la taille du support ; la normalisation tant effectue par la taille de
lobjet cible. La mesure de ressemblance est maximale lorsque les deux ensembles flous sont identiques, permettant donc de rpondre aux deux critres de localisation et de prcision. Toutefois,
la mesure de la prcision pourrait tre plus fine. En effet, les cas o lensemble flou correspondant la relation spatiale est identique lensemble flou reprsentant lobjet (Rel = Obj ) est
improbable, et pas forcment souhaitable, car une telle relation ne pourrait grer la variabilit.
Le critre de prcision pourrait tre raffin en fonction de chaque relation spatiale. Par exemple,
pour une relation dorientation, la prcision concerne moins la taille du noyau que la prcision des
angles utiliss pour calculer la relation. Dun autre ct, le cas extrme o le support dune relation correspond tout lespace de limage ne se prsente pas en pratique. Les deux critres
proposs sont donc satisfaisants pour notre application. La mesure de satisfiabilit est en revanche
plus simple calculer car elle est limite lensemble flou correspondant lobjet. La figure 4.3
illustre cela.

LLV proche LCN

LLV droite de LCN

Comparaison
LLV proche LCN
LLV droite de LCN

Satisfaction
1,000
0,874

ressemblance
0,037
0,003

F IG . 4.3 Comparaison des critres. La mesure de satisfaction reflte que les deux structures
cibles (en vert) sont proches du noyau de la relation spatiale reprsente partir de la structure
de rfrence (en bleu) : entirement dans le noyau dans le premier cas ( gauche) et partiellement
dans le deuxime cas. Les mesures de ressemblance ont des valeurs beaucoup plus faibles, car la
normalisation est effectue par rapport la taille du support de la relation. Dans le premier cas,
la relation proche de est plus prcise que dans le deuxime cas o nous avons une relation
dorientation. Les valeurs refltent principalement cette diffrence, plus que la position dans le
noyau.

4.1.3 Slection du meilleur chemin


Nous avons prsent deux mesures pouvant tre utilises pour mesurer la pertinence dune
relation (ou des relations) porte(s) par un arc du graphe. Lune ou lautre mesure peut alors tre
insre dans le graphe comme un poids. Il faut noter que chaque poids a une valeur positive et
que donc il ne peut y avoir de boucle avec un poids ngatif. Nous nous retrouvons donc dans
une situation proche de problmes classiques de la thorie des graphes et nous nous intressons

87
Noyau Caud
droite
0,97
Ventricule
Latral
Lvl

CDl

droite
0,89
Putamen

droite

PUl

Chemin :
LVl droite de PUl
LVl droite de CDl droite de PUl

longueur :
1 - 0,92 = 0,08
(1 - 0,97) + (1 - 0,89) = 0,14

0,92

F IG . 4.4 Un petit exemple pour illustrer le comportement du plus court chemin avec un critre
de satisfaction. Nous ne considrons que des relations dorientation dans ce cas. Nous considrons
un arc qui relierait directement le ventricule au putamen, ce qui nest pas souhaitable en pratique
vu lloignement des structures. Le chemin direct a une longueur de 0,08 contre 0,14 pour le
chemin comportant deux arcs. Pour quun chemin comportant deux arcs soit choisi contre un
chemin comportant un unique arc mme moyen, il est ncessaire que les deux arcs du chemin
aient des valeurs deux fois meilleures que larc du chemin unique. Ce cas ne se prsente pas dans
nos expriences. En prenant la moyenne de satisfaction sur le chemin, le chemin plus long sera
prfr.
donc aux algorithmes classiques doptimisation pour trouver le meilleur chemin. Toutefois, nous
expliquons galement pourquoi les chemins qui pourraient tre obtenus par ces algorithmes nont
pas forcment les caractristiques souhaites pour notre problme de segmentation, nous allons
donc prsenter comment adapter des notions issues de ces algorithmes notre problme.
Meilleur chemin moyen :
Lalgorithme du plus court chemin effectue une optimisation globale sur le graphe. Cette optimisation peut donc accepter pour un chemin donn des valeurs assez diffrentes, mme si le chemin
est optimal. Un chemin globalement correct peut alors inclure un arc avec une faible valeur de
satisfaction (ou un fort poids). De plus, cet algorithme favorise (videmment) des chemins courts,
et pas seulement des chemins avec des arcs avec un poids faible : un chemin comportant un unique
arc avec un poids lev sera prfr un chemin comportant deux arcs avec des valeurs meilleures.
Le processus de segmentation utilisant les relations spatiales pour guider la segmentation, il est
important de noter que plus le chemin comporte de relations utilisables, et plus la segmentation
sera encadre. Potentiellement, un chemin plus informatif est donc plus intressant.
Pour illustrer cela, nous pourrions envisager un chemin direct entre le ventricule et le putamen,
au lieu de segmenter en premier lieu le thalamus et le noyau caud, puis le putamen. Ce chemin
serait sans doute privilgi par lalgorithme du plus court chemin, mais ne permettrait pas une
meilleure segmentation cause de limprcision et de lloignement des deux structures concernes (nous ne considrons pas une relation de distance ici, mais uniquement lloignement entre
les deux structures qui induit une plus grande imprcision). La figure 4.4 illustre ce comportement.
Larc direct entre le ventricule et le putamen, grce sa faible longueur, est prfr tous les
autres.
Nous proposons donc une adaptation de cet algorithme en normalisant le cot de chaque chemin par sa longueur. Cette adaptation conduit slectionner non plus le chemin le plus court, mais
plutt le chemin qui a le plus faible poids moyen. Cette modification permet de ne pas favoriser
des chemins courts par rapport aux chemins plus informatifs.
Soit F lensemble des ensembles flous sur le domaine spatial. Soit f : F F IR une fonction valeurs relles, ici une mesure de comparaison (parmi les mesures prcdemment dcrites).
La slection du meilleur chemin moyen p entre deux nuds v et v sera le rsultat de :
min
pP

ep (1

f (Rel , Obj ))
card(p)

(4.4)

88

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

o e est un arc dans le chemin p, P reprsente lensemble des chemins de v v , Obj est lensemble flou reprsentant la structure cible de larc e, Rel est lensemble flou reprsentant la
relation spatiale porte par larc e, et card(p) reprsente le nombre de nuds prsents dans le
chemin p. Par exemple dans la figure 4.2, si v est le ventricule latral (Lvl) et v le putamen (PUl),
un des chemins entre ces deux structures est : Lvl L/R CDl L/R P U l.
Plus grand flot minimal :
Le problme de larc dficient , cest--dire la possibilit pour un arc ne satisfaisant que peu
les critres de slection de se retrouver dans un chemin globalement bon, peut tre contourn
en caractrisant un chemin par son arc de flot minimal, ce qui correspond larc de plus faible
capacit (le poids ici) parmi les arcs du chemin. Nous proposons donc deffectuer la slection
parmi ces arcs de plus faible capacit, en choisissant celui qui prsente la plus forte valeur.
Il faut donc chercher le maximum parmi les capacits minimales de chaque chemin, et nous
proposons doptimiser le critre suivant :
max(min(f (Rel , Obj )))
pP

ep

(4.5)

avec les mmes notations que dans la mthode prcdente. Nous considrons dans nos exemples
des graphes avec peu de structures et de chemins possibles, nous pouvons donc effectuer loptimisation avec une recherche exhaustive parmi tous les chemins partir de la structure de rfrence
vers la structure cible. Pour chaque chemin, la capacit minimale est calcule et le chemin possdant le maximum parmi ces valeurs est slectionn.
Cette formulation permet dviter les chemins qui ont un arc trop faible, et donc de rsoudre
le problme de cet arc. De plus, ntant pas dpendante du nombre darcs du chemin, elle ne
favorise pas les chemins dune longueur donne, ce qui vite le deuxime problme soulign avec
lalgorithme du plus court chemin.

4.1.4 Expriences
La figure 4.2 prsente le graphe qui est utilis dans nos expriences. Ce graphe contient 4
structures crbrales : le ventricule latral gauche, qui est galement la structure de rfrence,
le noyau caud, le thalamus et enfin le putamen, qui est la structure cible dans nos expriences.
Nous reprenons ici les structures et les relations spatiales utiliss par Colliot et al. (2006), le but
tant de remplacer le chemin ad-hoc par un chemin dtermin par une optimisation du graphe.
Il sagit donc de trouver le meilleur chemin entre le ventricule et le putamen. Chacune de ces
structures est prsente dans les deux hmisphres du cerveau de manire symtrique par rapport
au plan inter-hmisphrique. Nous ne considrons que les structures du ct gauche ici. Les expriences considrent en outre que lextraction de chacune des structures prsente le mme niveau
de difficult.
Comme source pour la reprsentation des structures, nous avons choisi dutiliser un unique cas,
pour lequel nous possdons une segmentation. Cependant, chacune des structures est rendue floue
afin de reprsenter une certaine imprcision. La figure 4.5 illustre la mcanisme de fuzzification
dune structure anatomique. Cette fuzzification est effectue en effectuant une dilatation floue
de la reprsentation dune structure par un lment structurant parabolode dfini ainsi :
se(x, y, z) = 1

(x xc )2 + (y yc )2 + (z zc )2
,
2

o (xc , yc , zc ) reprsente le centre de llment structurant et est un paramtre fix 5 dans nos
expriences.

89

Structure originale Oc

lment structurant

Structure floue Obj

F IG . 4.5 Fuzzification dune reprsentation dune structure. La structure ( gauche) provient


dune segmentation du cerveau. Une dilatation floue par un lment structurant parabolique (au
centre) permet de rendre la structure floue ( droite).
Nous pouvons alors dfinir obj ainsi :
obj = se (Oc )
o Oc reprsente une structure anatomique.
Les relations spatiales comprises dans le graphe pour nos expriences sont des relations directionnelles. Toutefois, lextension dautres types de relations spatiales binaires peut tre effectue
simplement. Il faut toutefois que la fusion de deux relations spatiales conserve une valeur smantique. Les relations spatiales sont calcules partir des reprsentations binaires des structures, les
reprsentations floues sont utilises pour calculer les critres entre la reprsentation de la relation
et la structure cible de cette relation.
La reprsentation des relations spatiales est effectue selon le formalisme flou prsent dans
la partie 3.3. La figure 4.3 prsente un exemple de relation spatiale dorientation.

Ventricule latral
Ventricule latral
Noyau caud
Thalamus
Thalamus
Noyau caud
Noyau caud
Thalamus

Arc
Au-dessus
droite de
En avant
En arrire
droite de
droite de
Au-dessus
Au-dessous

Thalamus
Noyau caud
Thalamus
Noyau caud
Putamen
Putamen
Thalamus
Noyau caud

Satisf.
0,97
0,97
0,97
0,96
0,92
0,89
0,82
0,64

TAB . 4.1 Le classement des arcs en fonction de la mesure de satisfaction.

TAB . 4.2 Le classement des arcs en fonction de la mesure de ressemblance.


Arc
Ressem. (x100)
Noyau caud
En avant
Thalamus
0,73
Ventricule latral Au-dessus
Thalamus
0,46
Noyau caud
droite de Putamen
0,44
Thalamus
droite de Putamen
0,42
Noyau caud
Au-dessus
Thalamus
0,41
Thalamus
En arrire
Noyau caud
0,40
Ventricule latral droite de Noyau caud
0,32
Thalamus
Au-dessous Noyau caud
0,20

90

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

valuation des arcs :


Noyau caud droite du Ventricule
satisfaction : 0,97
ressemblance : 0,32

Putamen droite du Noyau caud


satisfaction : 0,89
ressemblance : 0,44
Graphe valu :
Caudate Nucleus

Noyau Caud
CDl
0.97
Ventricule L/R
Latral

Putamen

U
0.64
F
0.96

Lvl

CDl
0.32
L/R

0.89
L/R

D
0.82
B
0.97

U/D
0.97

PUl

L/R
0.92

Lateral
Ventricle
Lvl

0.44
L/R
Putamen

U
0.41
F
0.73

D
0.20
B
0.40

U/D
0.46

PUl

L/R
0.42

THl

THl

Thalamus

Thalamus

F IG . 4.6 Les valeurs de satisfaction (en bas gauche) et de ressemblance (en bas droite)
mesures pour chaque arc. En haut deux exemples avec un ensemble flou rel reprsentant une
relation dorientation et lensemble flou obj correspondant la cible. Les mesures de satisfaction
et de ressemblance sont calcules en comparant ces ensembles flous. La structure de rfrence de
la relation est reprsente en bleu. Le support de obj est reprsent en vert orange et le noyau de
obj en vert clair.
TAB . 4.3 Les valeurs de satisfaction moyenne et minimale pour chacun des chemins. Les valeurs
en gras dans le tableau indiquent les chemins retenus.
Chemin
1 - Moyenne Minimum
LVl Au-dessus THl En arrire
CDl droite de PUl
0,06
0,89
LVl Au-dessus THl Au-dessous CDl droite de PUl
0,17
0,64
LVl droite de CDl droite de PUl
0,07
0,89
LVl droite de CDl En-avant
THl droite de PUl
0,05
0,92
LVl droite de CDl Au-dessus
THl droite de PUl
0,10
0,82
LVl Au-dessus THl droite de PUl
0,06
0,92
La figure 4.6 et le tableau 4.1 prsentent des mesures du critre de satisfaction obtenues pour
chaque arc du graphe. Nous cherchons dans cette exprience un chemin entre le ventricule latral
et le putamen, certains arcs sont donc inutiles (les arcs qui reviennent vers le ventricule ou les
arcs issus du putamen) et ne sont pas prsents. Le tableau 4.3 prsente les scores obtenus pour
chacun des chemins selon le critre de satisfaction. Avec ce dernier, les deux mthodes proposes
de slection du chemin, le meilleur chemin en moyenne ou le chemin avec le plus grand flot
minimal , slectionnent le mme meilleur chemin qui est :

91

TAB . 4.4 Les valeurs de ressemblance moyenne et minimale pour chacun des chemins. Les
valeurs en gras dans le tableau indiquent les chemins retenus.
Chemin
1 - Moyenne Minimum
LVl Au-dessus THl En arrire
CDl droite de PUl
0,57
0,40
LVl Au-dessus THl Au-dessous CDl droite de PUl
0,63
0,20
LVl droite de CDl droite de PUl
0,62
0,32
LVl droite de CDl En-avant
THl droite de PUl
0,51
0,32
LVl droite de CDl Au-dessus
THl droite de PUl
0,62
0,32
LVl Au-dessus THl droite de PUl
0,56
0,42

LVl droite de CDl En-avant THl droite de PUl.


Si le meilleur chemin est slectionn en utilisant larc de capacit minimale, alors un autre chemin
possde le mme score que le premier chemin :
LVl Au-dessus THl droite de PUl.
Ce chemin est moins intuitif que le prcdent, car il implique moins de structures. En pratique,
si deux chemins possdent le mme score, alors le chemin le plus long en termes de nuds visits,
qui sera donc le plus informatif, sera prfr.
La figure 4.6 ( droite) et le tableau 4.2 prsentent les valeurs obtenues en utilisant le critre de
ressemblance plutt que le critre de satisfaction. Le tableau 4.4 prsente les scores obtenus avec
ce critre. Dans ce cas, le meilleur chemin obtenu au sens du meilleur chemin moyen est le mme
que le chemin obtenu avec le critre de satisfaction :
LVl droite de CDl En-avant THl droite de PUl.
En revanche, en utilisant le critre de larc de capacit minimale, la valeur de ressemblance
porte par larc entre le ventricule et le noyau caud est rdhibitoire, et le meilleur chemin est :
LVl Au-dessus THl droite de PUl.
qui avait dj une valeur identique en utilisant cette optimisation avec le critre de satisfaction.
Les deux critres valuent les arcs de manires diffrentes et leffet de la prise en compte de
la prcision par le critre de ressemblance est trs visible car toutes les relations visant le noyau
caud, qui est la structure la plus petite en volume, ont les valeurs de ressemblance les plus faibles.
un arc prs, les arcs sont dailleurs ordonns par ordre de taille des structures cibles (hormis le
ventricule qui nest vis par aucune relation, le thalamus est le plus important, suivi du putamen
et enfin du noyau caud). La relation entre le ventricule et le noyau caud a une valeur particulirement faible par rapport la robustesse de la relation, mais cest entre ces deux structures que
le rapport de taille est le plus important. Ces rsultats montrent que le critre de ressemblance
accorde une place trop importante la taille des structures, et le critre de satisfiabilit sera alors
prfr.
Nanmoins, les deux critres donnent des rsultats relativement similaires. Ce chemin est le
chemin qui avait t dfini de manire empirique par Colliot et al. (2006), ce qui montre le potentiel de lapproche qui a permis de retrouver automatiquement un chemin qui avait t dtermin
de manire ad-hoc.

92

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

Tumeur
Noyau caud
Putamen
Thalamus
Ventricule Latral

F IG . 4.7 Deux coupes en vue axiale dimages IRM du cerveau. Limage de gauche prsente une
pathologie proche du ventricule latral et des noyaux centraux. Limage de droite est un cas sain.
Dans le cas pathologique, les structures ont t dplaces cause de la tumeur. Le thalamus est
cras, le putamen est dplac et dform. Le noyau caud a galement t dplac et napparat
pas sur cette coupe, alors que le noyau caud prsent dans lautre hmisphre apparat.

4.2 Raisonnement dans le cas pathologique


Lapproche que nous avons prsente dans la partie 4.1.2 nest pas directement applicable
dans le cas de la prsence dune tumeur, et ncessite une adaptation pour prendre en compte
cette situation. En particulier, la prsence dune tumeur peut provoquer une importante altration
de lapparence et des caractristiques morphomtriques dune structure. La stabilit des relations
spatiales permet de prendre en compte la variabilit anatomique des structures crbrales, mais des
modifications plus profondes peuvent apparatre dans les cas pathologiques. La figure 4.7 prsente
un exemple de cas pathologique dans une image IRM et de limpact de la tumeur sur les structures
proches. Dans cet exemple, toutes les structures marques ont t dplaces et ventuellement
dformes comme le thalamus qui apparat comprim. Le putamen a galement subi une grande
dformation.
Nous proposons une modification de la mthode initiale qui conserve le modle utilis lidentique, mais qui intgre la gestion des pathologies au niveau des poids qui sont utiliss pour optimiser le chemin de segmentation. De cette faon, il est possible de prendre en compte les modifications causes par la pathologie, mais la structure du graphe ne peut pas tre modifie, mme si
une structure est dtruite. Il est toutefois possible avec cette nouvelle approche dempcher lutilisation dun arc si le poids prend une valeur nulle. Pour prendre en compte les effets dun type de
pathologie sur le modle, nous exploitons une notion de degr de stabilit des relations spatiales.

4.2.1 Degr de stabilit des relations spatiales


En prsence de pathologie, il a t montr par Atif et al. (2006a) que certaines relations spatiales sont plus stables que dautres. Un raisonnement dpendant des pathologies a t introduit
pour adapter un processus gnrique de raisonnement un cas spcifique, en rpondant la question suivante : tant donn une pathologie, quelles relations spatiales demeurent stables et quel
degr ? cette fin, un cadre pour lapprentissage de la stabilit des relations spatiales a t mis
en place par Atif et al. (2007a) avec une base dimages IRM composes de cas sains et de cas
pathologiques manuellement segmentes reprsentant diffrentes classes de tumeurs.

93

F IG . 4.8 tude du degr de stabilit pour la relation : thalamus distance putamen. Limage
de gauche correspond un cas sain, limage de droite un cas pathologique qui a une influence
directe sur les structures, en particulier le putamen qui est dplac et dform.
Classification de la base dapprentissage :
Le degr de stabilit est infr de la comparaison (en utilisant une mesure de ressemblance)
entre les relations spatiales apprises pour les cas sains et les relations apprises pour les cas pathologiques. Lapprentissage est effectu selon le protocole prsent dans la partie 3.5, mais lapprentissage est effectu de manire distincte pour les cas sains et les cas pathologiques. Pour cela,
la base de cas pathologiques est au pralable catgorise en fonction du type de tumeur et de son
impact sur les structures. La structuration de la base est effectue laide dune classification de
tumeurs crbrales. Nous avons donc une base de cas :
K = (K N , K P1 , . . . , K Pn ) ,
o K N reprsente les cas sains et K Pi reprsente les cas correspondant une classe de pathologie
Pi .
Apprentissage dans le cas sain et dans le cas pathologique :
Nous utilisons une procdure similaire la procdure prsente dans la partie 3.5 : nous cherchons apprendre les paramtres des fonctions f , g, et h qui modlisent respectivement les relations spatiales de distance, dorientation ou dadjacence respectivement pour un couple de structures (A, B). Pour une classe de pathologie donne, correspondant un sous-ensemble K Pi de
la base dapprentissage, nous allons effectuer pour chaque relation spatiale un apprentissage sur
lensemble des cas sains K N et sur le sous-ensemble K Pi .
Nous pouvons considrer une relation particulire pour illustrer comment driver le degr
de stabilit dune relation. Nous considrons ici la relation distance entre le thalamus et le
putamen. La figure 4.8 prsente ces deux structures dans un cas sain et un cas pathologique.
Cette relation est reprsente ainsi :
x S, p (x) = f (dA (x)) ,
o A reprsente le thalamus dans ce cas prcis et dA une carte de distance au thalamus dfinie
ainsi :
dA (x) = inf d(x, y) .
yA

La fonction f est un intervalle flou de cette forme :

94

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

f(d)
n2

n3

0
n1

n4

Distance d

Lapprentissage consiste apprendre les valeurs des paramtres n1 , n2 , n3 et n4 .


Dans le cas sain, ces paramtres sont appris sur tous les cas de lensemble K N . Pour chaque
cas cN K N , nous dterminons les valeurs suivantes :
min = min dAcN (x) ,
cN

xBcN

max = max dAcN (x) ,


cN

xBcN

o Ac reprsente le thalamus du cas c K N , dAcN la carte de distance Ac et BcN le putamen


du cas c K N dans cet exemple. Ces valeurs reprsentent les degrs minimum et maximum de
satisfaction de la relation de distance du thalamus sur tous les points du putamen.
N , N )
N , max
Nous pouvons calculer la moyenne (resp. min
N ) et lcart-type (resp. min
max
des valeurs min et max calcules et ainsi driver lintervalle flou suivant :
N N
n1 : min
min
N
n2 : min
n3 : max
N
N
n4 : max
N + max
Cet intervalle est dfini de manire large afin de pouvoir prendre en compte tous les cas de la base
dapprentissage.
Nous considrons la classe de tumeur illustre dans la figure 4.8, et correspondant lensemble
P
i
K . Nous effectuons une procdure dapprentissage similaire avec cet ensemble de donnes.
Nous obtenons ainsi les paramtres correspondant aux cas pathologiques.
Les intervalles flous de notre exemple sont illustrs par la figure 4.9. Nous avons obtenu des
valeurs similaires pour le minimum de distance, et les paramtres n1 et n2 seront les mmes dans
le cas sain et dans le cas pathologique. En revanche, la moyenne des maximum dans le cas sain est
de 31, 63 et son cart-type de 4, 46. Dans le cas pathologique, la moyenne est de 38.
Degr de stabilit :
La stabilit dune relation spatiale, pour un cas de pathologie donn, est estime en comparant
les ensembles flous reprsentant une mme relation mais avec les paramtres appris dans le cas
sain dune part, et les paramtres appris dans le cas pathologique dautre part.
Si nous considrons dans notre exemple une image provenant de la base de cas sains c
K N , nous pouvons reprsenter dune part N
p (Oc ) la reprsentation de la relation proche de
N
avec les paramtres appris sur lensemble K . Dautre part nous pouvons reprsenter Pp i (Oc ) la
reprsentation de la relation proche de avec les paramtres appris dans sur lensemble de cas
pathologiques K Pi .
Nous pouvons prsent en dduire le degr de stabilit de la relation en comparant les deux
ensembles flous ainsi obtenus. La comparaison est effectue en utilisant une M-mesure de ressemblance (Bouchon-Meunier et al. (1996)), dj utilise dans lapproche initiale, qui permet de

95
f(d)
n2
1

n3

n3

n2
cas sain
cas pathologique

0
n1
n1

n4

Distance

n4

F IG . 4.9 Intervalles flous dans le cas sain et dans le cas pathologique. Les paramtres de lintervalle flou pour le cas sain sont les suivants : n1 = 0, n2 = 1, n3 = 32, n4 = 36. Les paramtres
de lintervalle flou dans le cas pathologique sont les suivants : n1 = 0, n2 = 1, n3 = 38, n4 = 41.
Ce type de tumeur repousse le putamen, et donc la fonction est plus large.

F IG . 4.10 Les deux paysages flous reprsentant la relation de distance entre le thalamus (en bleu)
et le putamen (en vert). gauche, les paramtres de la fonction f ont t appris dans le cas sain.
droite, les paramtres ont t appris pour une classe de pathologie illustre dans la figure 4.8.
Le paysage flou appris dans le cas pathologique est moins prcis que dans le cas sain, refltant que
le type de tumeur considr dplace les structures considres. La ressemblance entre ces deux
paysages flous est de 0, 72.
calculer la cardinalit de lintersection de deux ensembles flous, normalise par la cardinalit de
leur runion :

dD min((d), (d))
,
R(, ) =

dD max((d), (d))
o D reprsente le domaine de dfinition des ensembles flous, par exemple lespace des distances
dans lexemple dcrit plus haut.
Nous obtenons ainsi, pour chaque relation (A, R, B) o A et B sont deux structures et R une
relation spatiale, un degr de stabilit pour chaque classe de pathologie. La valeur obtenue pour
notre exemple est de 0, 72.

4.2.2 Adaptation de lapproche aux cas pathologiques


Nous avons estim un degr de stabilit, qui est valable pour une classe de pathologie. Il
est donc ncessaire de connatre au pralable pour quel type de pathologie ladaptation doit tre

96

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

effectue. Pour cela, nous pouvons utiliser la classification de tumeurs crbrales propose par
Atif et al. (2007a) et Khotanlou (2008). Une fois le type de pathologie connu et les degrs de
stabilit correspondant estims, il est ncessaire de les intgrer dans notre approche initiale. Il y
a diffrentes manires dintgrer cette information, nous allons en dtailler deux : un lagage du
graphe par le degr de stabilit, puis la pondration des poids par le degr de stabilit.
lagage du graphe :
Le graphe original peut tre filtr de telle sorte que les relations spatiales prsentant un trop
faible degr de stabilit soient supprimes. Ensuite, lapproche dveloppe pour les cas sains peut
tre directement applique sur le graphe filtr. Cette approche est plutt svre et ne permet pas
dtre souple, ce qui est primordial afin de pouvoir effectuer des raisonnements. De plus, il est
ncessaire de fixer un seuil pour le filtrage du graphe. La figure 4.11 montre un exemple de filtrage
de graphe, avec un seuil dtermin de manire empirique une valeur de T = 0, 8. Le rsultat ne
laisse que deux chemins possibles. Le filtrage a permis dliminer les arcs dont le degr de stabilit
est faible, mais ne modifie pas les poids pour la suite de la mthode.
Caudate Nucleus
CDl
0.97
L/R
Lateral
Ventricle
Lvl

U
0.77
F
0.97

Image pathologique

0.68

0.89
L/R

D
0.68
B
0.97

U/D
0.98

Caudate Nucleus
CDl

0.63
L/R

L/R

Putamen

Lateral
Ventricle

Putamen

PUl

Lvl

PUl
U/D
0.82

L/R
0.92

L/R
0.64

THl

THl

Thalamus

Thalamus

Degrs de stabilit

Graphe filtr (T = 0, 8)

F IG . 4.11 lagage du graphe en fonction du degr de stabilit. Le graphe au centre montre les
degrs de stabilit obtenus pour le cas de pathologie prsent sur la gauche. Le graphe de droite
montre le rsultat du filtrage si le seuil de stabilit est T = 0, 8. Les valeurs de satisfiabilit des
arcs restants sont nots en bleu sur ce graphe.

Pondration par le degr de stabilit :


Une autre manire de prendre en compte le degr de stabilit dune relation spatiale, plus souple
que la premire approche, est de prendre en compte le degr de stabilit comme un attribut de larc
qui porte la relation spatiale. De cette manire, le degr de stabilit peut tre intgr dans le calcul
du cot de lapproche initiale. De plus, cette manire dintgrer linformation pathologique est
relativement simple, si lon considre le type de pathologie connu.
Lintgration du degr de stabilit doit tre effectue de telle manire que les chemins qui
comportent des structures pathologiques ou altres par une pathologie soient pnaliss. Pour cela,
nous pouvons utiliser une t-norme (un produit par exemple) et lintgrer directement :
ew = (de , f (Rel , Obj )) ,
o ew reprsente le poids attribu larc, de le degr de stabilit port par cet arc et f la mesure
calcule par lapproche initiale, une satisfiabilit ou une ressemblance entre la relation porte par
larc et la structure cible. La figure 4.12.b prsente les degrs de stabilit (en bleu) qui ont t
appris pour chaque arc pour la classe de tumeur correspondant au cas pathologique illustr par
la figure 4.12.a et les mesures de satisfaction (en rouge) qui ont t pondres. Dans ce cas, le
meilleur chemin devient le suivant :

97
Ventricule Au-dessus Thalamus droite de Putamen.
La figure 4.12.c prsente une segmentation du putamen qui a t effectue en suivant cette squence de segmentation.
Caudate Nucleus
0.68
0.66
L/R
Lateral
Ventricle
Lvl
U/D
0.82
0.80

CDl

U
0.87
0.67
F
0.58
0.56

D
0.82
0.56
B
0.70
0.68

THl

0.63
0.56
L/R

putamen (3)

Putamen
tumor (1)

PUl
thalamus (2)

L/R
0.64
0.59

Thalamus

a) Image pathologique

b) Graphe pondr

c) Segmentation

F IG . 4.12 (a) Vue axiale dune image IRM avec une tumeur proche du ventricule latral et des
noyaux centraux. (b) Degrs de stabilit appris avec une classe de tumeur similaire (en bleu). Les
mesures de satisfaction pondres sont en rouge. Slection du meilleur chemin avec le critre du
meilleur chemin moyen. Le meilleur chemin est dans ce cas : ventricule Au-dessus thalamus
droite de putamen. (c) Segmentation du putamen. La tumeur est extraite dabord. Ensuite, le
thalamus et finalement le putamen.

Intgration dans lapprentissage des relations :


Nous avons vu comment raliser lapprentissage des relations spatiales dans le chapitre 3, dont
le principe a t rappel dans la partie prcdente. Les reprsentations des relations spatiales sont
plutt souples dans la manire dont elles sont construites, et cette construction peut tre directement adapte en fonction du degr de stabilit. Lapprentissage propos dans le chapitre 3 est
effectu sur une base dimages saines et dimages pathologiques. Le principe est deffectuer une
extension de lintervalle flou permettant de prendre en compte les cas pathologiques. Moins la relation sera stable et plus la relation est tendue donc floue. Si on considre un lien entre une faible
ressemblance et un plus haut niveau de flou, alors la pertinence des chemins sera diminue.
Si nous reprenons le cas de tumeur prsente dans la figure 4.12, la relation dorientation
prsente entre le noyau caud et le putamen droite de peut tre tendue pour grer ce cas
pathologique, en utilisant des valeurs plus larges pour les angles 1 et 2 utiliss pour construire
la relation. Ce type dapprentissage a t illustr dans le chapitre prcdent, dans la partie 3.5.

4.3 Optimisation globale de la pertinence dun chemin


Un chemin peut tre qualifi dune manire globale, par exemple en comptant le nombre de
changements de direction, cest--dire chaque fois que deux relations dorientation conscutives
ne sont pas similaires. Dune manire plus gnrale, nous sommes intresss par qualifier non
seulement les diffrentes relations qui composent un chemin, mais aussi la fusion de toute linformation spatiale. Lapproche prcdente propose une optimisation locale o chaque arc est valu
de manire spare et il nest donc pas possible deffectuer ce type dvaluation. Nous proposons
prsent une mthode permettant dvaluer la pertinence dun chemin non plus en valuant chaque
arc de manire spare, mais en valuant une reprsentation du chemin sous forme dun unique
ensemble flou. Nous allons tout dabord voir sous quelle forme les chemins seront reprsents afin
de pouvoir tre valus ensuite.

98

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

4.3.1 Fusion des connaissances spatiales


Afin de pouvoir effectuer une estimation globale dun chemin, nous allons dterminer comment reprsenter un chemin. Nous utilisons comme modle un graphe dont chaque arc comporte
des relations spatiales, et nous avons vu de quelle manire ces relations spatiales taient reprsentes dans lespace de limage. Nous proposons de reprsenter un chemin en fusionnant linformation spatiale composant un chemin, cest--dire en fusionnant les reprsentations des relations
spatiales portes par chaque arc composant ce chemin. Chaque ensemble flou port par un arc tant
calcul dans lespace de limage, la fusion de ces ensembles flous est aise et naturelle. Comme
prcdemment, les reprsentations des relations spatiales seront calcules en utilisant le formalisme flou. Nous allons donc combiner une information a priori et linformation spatiale contenue
par un chemin pour reprsenter ce chemin.
Nous devons tout dabord calculer les reprsentations des relations spatiales portes par les
arcs du chemin tudi, en suivant le formalisme flou dcrit dans le chapitre 3 ainsi que dans la
partie prcdente. Nous avons le choix entre une fusion conjonctive ou une fusion disjonctive. La
figure 4.13 permet une comparaison entre une fusion conjonctive (un minimum) et une fonction
disjonctive (un maximum) pour reprsenter le mme chemin. Dans cet exemple, le chemin reprsent est le suivant : LVL gauche CDl devant THl gauche . Pour chaque type de fusion,
deux cas sont tudis : dans le premier cas, uniquement des fonctions dorientation sont utilises
et aucun apprentissage nest effectu sur ces fonctions. Dans le deuxime cas, un apprentissage
est effectu, tel quil est dcrit dans le chapitre 3. Dans ce cas, nous pouvons ajouter sur chaque
arc une relation de distance, qui sera fusionne avec la relation dorientation avec un minimum.
La fusion disjonctive nous permet de conserver toutes linformation apporte par les relations
spatiales du chemin. Cependant, la zone reprsentant le chemin va vite tre grande par rapport aux
structures du chemin. Linformation nest donc pas pertinente. Avec un apprentissage et des relations de distance, la reprsentation du chemin est plus limite, mais reste grande par rapport aux
structures. Nous utilisons plutt une mesure conjonctive, qui permet de restreindre linformation.
Mais la conjonction fait disparatre beaucoup dinformation. Dans le cas avec un apprentissage
et des relations de distance, il reste peu dinformation sur le chemin, et certains arcs napportent
plus dinformation, comme entre le ventricule et le noyau caud dans la reprsentation en bas
droite de la figure. Sans apprentissage, nous avons encore une information sur lensemble du chemin. Nous utiliserons ce dernier cas dans nos expriences. Parmi les t-normes et t-conormes, nous
avons choisi dutiliser le minimum et le maximum dans nos expriences.
Les conjonctions de relations spatiales reprsentent plus la localisation de la structure vise
par les arcs dun chemin, que le chemin lui-mme entre ces deux structures, ce qui explique que
plus ces localisations sont prcises, et moins la reprsentation du chemin semble correcte, car les
interstices entre les structures sont moins reprsents que dans le cas sans apprentissage, o les
localisations sont moins prcises.
La reprsentation du chemin est donc gnre en fusionnant tous les ensembles flous obtenus
en utilisant un oprateur de fusion conjonctif (une t-norme), ainsi :
p = [Relip , i = 1...N p ]

(4.6)

o est une t-norme et p un chemin compos de N p relations. Dans nos expriences, nous utilisons une norme minimum. Le processus permettant la gnration de la reprsentation dun chemin
est illustr dans la figure 4.14.

99
Reprsentation dun chemin :
Noyau caud
gauche

e1
Ventricule

Putamen

e2
en avant
audessus

e3
gauche

Thalamus

Fusion disjonctive (maximum) :


Sans apprentissage :
Avec apprentissage :

(e1, e2)

(e1, e2, e3)

(e1, e2)

(e1, e2, e3)

Fusion conjonctive (minimum) :


Sans apprentissage :
Avec apprentissage :

(e1, e2)

(e1, e2, e3)

(e1, e2)

(e1, e2, e3)

F IG . 4.13 Comparaison entre une fusion disjonctive (au centre) ou conjonctive (en bas) pour calculer la
reprsentation dun chemin. La fusion disjonctive conserve toute linformation, et dans le cas de relations
non bornes telles que les relations dorientation, une large partie de lespace est intgre dans la reprsentation du chemin. Avec un apprentissage et lajout de relations de distances fusionnes avec les relations
dorientation, moins dinformation est prise en compte, mais toujours beaucoup relativement la taille des
structures et du cerveau. En revanche, la fusion conjonctive conserve beaucoup moins dinformation. La
conjonction des relations spatiales visant une structure dun chemin a plutt reprsenter la localisation de
cette structure, et non pas le chemin entre deux structures. Plus ces localisations sont prcises, et moins
la reprsentation dun chemin apparat correcte, cest--dire moins les espaces entre les structures sont reprsents dans la reprsentation du chemin. Il est important que la structure recherche soit comprise dans
la reprsentation, et que celle-ci ne soit pas trop tendue, ce qui est le cas de la fusion conjonctive sans
apprentissage dans cet exemple.

100

4. O PTIMISATION

LVl

AVEC REPRSENTATION DES STRUCTURES

CDl

THl

<< gauche>>

<<devant>>

PUl

<< gauche>>

F IG . 4.14 Gnration dune reprsentation pour le chemin suivant : ventricule (LVl) droite
de noyau caud (CDl) En-avant thalamus (THl) droite de putamen (PUl). Une coupe
des reprsentations de chaque structure est prsente dans la ligne suprieure. Pour chaque relation porte par un arc dun chemin, nous la reprsentons dans lespace de limage, en utilisant la
reprsentation de la structure de rfrence de chaque relation. Ces reprsentations sont prsentes
dans la ligne du milieu, avec les structures de rfrence en rouge. Les reprsentations de chaque
relation sont ensuite fusionnes en utilisant une t-norme (ici le minimum). La ligne du bas prsente
gauche la fusion des deux premires relations (avec les structures de rfrence des deux relations
en rouge), puis aprs fusion de la troisime relation, la reprsentation du chemin droite, avec la
structure cible du chemin (le putamen) en vert.

101

4.3.2 valuation du chemin par mesure de son entropie


laide du processus de fusion qui vient dtre dcrit, nous obtenons donc un ensemble flou
dcrivant chaque chemin que nous tudions. La taille du graphe tant petite, nous pouvons effectuer une exploration exhaustive des chemins du graphe. Si le graphe considr tait plus important,
alors il serait ncessaire de prendre en compte la complexit de cette tche.
Nous souhaitons slectionner le chemin qui rpond le mieux nos attentes, cest--dire qui
rpondra le mieux aux contraintes du processus de segmentation des structures. Pour cela, nous
proposons de slectionner le chemin qui est le plus prcis possible, cest--dire dire le chemin
qui laisse le moins de doute possible sur lemplacement de chaque structure segmenter le long
du chemin. Pour cela, nous allons donc slectionner le chemin le moins flou . Comme mesure
de flou, toujours dans cette optique, nous utilisons une mesure dentropie floue Luca et Termini
(1972) dfinie ainsi :

H(p ) = K

p (xi ) log p (xi ) +

xi S

xi S

(1 p (xi )) log(1 p (xi )) ,

(4.7)

o p est lensemble flou correspondant la fusion de toutes les relations spatiales contenue dans
le chemin p et K est une constante de normalisation.
Le meilleur chemin p sera donc le chemin le moins flou , donc avec le minimum dentropie
floue :
p = arg min(H(p )).
(4.8)
pP

Il faut remarquer que cette mesure est utilisable lorsque, comme dans notre cas, les relations
sont plus floues lorsquelles sont moins prcises. Il serait inutile de mesurer ce critre sur des
rgions qui ne sont pas floues, qui donneraient une valeur dentropie nulle mme si les rgions
sont trs larges et napportent pas daide au processus de segmentation.

4.3.3 Expriences
Les mesures de lentropie floue pour chacun des chemins sont prsentes dans le tableau 4.5.
Le chemin qui possde lentropie floue la plus basse est le suivant :
LVl down of THl up of CDl left of PUl
Cette reprsentation est illustre par la figure 4.15. Ce chemin contient plusieurs changements de
direction, ce qui explique que la conjonction des reprsentations des relations spatiales soit trs
concentre sur une petite zone uniquement, et donc prsente une entropie faible. Dune manire
plus gnrale, lentropie floue calcule sera dpendante des changements de direction du chemin,
plus que de la prcision des relations elles-mmes.

F IG . 4.15 Une coupe dune reprsentation 3D du chemin LVl down of THl up of CDl
left of PUl aprs fusion des connaissances spatiales contenues dans le chemin.

102

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

TAB . 4.5 Lentropie floue obtenue pour chacune des reprsentations des chemins entre le ventricule et le putamen dans notre graphe. Les structures sont les suivantes : ventricule latral (LVl),
thalamus (THl), noyau caud (CDl), putamen (PUl).
Chemin :
Entropie floue :
LVl Au-dessus THl en dessous
CDl droite de PUl
0,08
LVl Au-dessus THl en dessous
CDl droite de PUl
0,17
LVl droite de CDl droite de
PUl
0,26
LVl droite de CDl en avant
THl droite de PUl
0,16
LVl droite de CDl Au-dessus THl droite de PUl
0,16
LVl Au-dessus THl droite de
PUl
0,16

4.3.4 Adaptation aux cas pathologiques


Cette approche reposant sur les reprsentations des relations spatiales, son adaptation aux cas
pathologiques doit porter sur les paramtres de ces relations : linfluence dune relation est diminue en tendant sa reprsentation spatiale, par une dilatation floue de lensemble correspondant
par exemple. Lextension de sa reprsentation spatiale correspond rendre la relation spatiale plus
permissive, et donc augmenter le degr de flou et lentropie du chemin. Les chemins qui possdent
des structures altres seront ainsi pnaliss.

4.3.5 Conclusion sur lapproche globale


Cette approche permet de prendre en compte un critre global sur le chemin, sa prcision selon
le critre dentropie floue. Toutefois, la reprsentation globale nest pas satisfaisante. Les reprsentations utilisant une disjonction sont trop larges et les reprsentations des chemins se recouvrent
trop pour tre discriminantes. Dun autre ct, les fusions avec un oprateur de conjonction rduisent suffisamment linformation, mais des parties du chemin ne sont pas reprsentes et les
chemins sont dpendants des changements de direction.

4.4 Conclusion
Nous avons montr dans cette premire approche que lordre de segmentation des structures
dun processus de segmentation squentiel peut tre dduit de manire automatique, et les rsultats, limits un petit graphe, montrent que le chemin dduit automatiquement est le mme que
le chemin qui avait t construit de manire ad-hoc. Lextension propose pour les cas pathologiques nous a permis, en prenant en compte la notion de degr de stabilit dune relation spatiale,
dadapter le processus un type de pathologie donn pour dterminer un meilleur chemin dans ce
cas.
Cette approche comporte certaines hypothses. La pertinence des relations est estime, mais la
difficult intrinsque de segmentation de chaque structure nest pas prise en compte. Les critres
que nous utilisons ne permettent pas non plus de considrer la prcision intrinsque des relations.
Par exemple, une relation dadjacence sera naturellement plus prcise quune relation dorientation
(en termes de taille de support). Mme si les critres sont normaliss par la taille du support, le
rapport la taille de lobjet cible nest pas identique.
Lapproche utilisant des reprsentations des chemins serait prometteuse si une bonne reprsentation dun chemin pouvait tre dduite du chemin. En effet, cette reprsentation, lie par exemple
une information visuelle telle que celle tudie dans le chapitre 2, peut permettre de dtecter des

103
vnements dune manire plus globale quen raisonnant avec une relation chaque fois. Nous
verrons dans le chapitre suivant comment faire une estimation globale des chemins, mais a posteriori.
Lutilisation dune connaissance a priori permet de raliser une optimisation globale sur le
chemin complet avant de segmenter. Cependant, loptimisation est ici locale au sens o la pertinence de chaque arc est value de manire indpendante des autres arcs. Une autre critique est
que cette approche nutilise pas dinformation provenant de limage segmenter, mais est effectue uniquement partir de la connaissance a priori, part ladaptation aux cas pathologiques qui
prend en compte le type de pathologie prsente sur limage. Une variation de cette approche serait
deffectuer loptimisation globalement de la mme manire mais de rviser le modle la suite de
chaque segmentation de structure pour prendre en compte cette image. Nous aurions ainsi une instanciation progressive du modle, mais dans ce cas, mme si une optimisation du chemin complet
est effectue, elle est utilise comme une manire de choisir la prochaine structure segmenter
uniquement. Lapproche prsente dans la partie suivante fonctionne de cette manire.
Lobjectif du prochain chapitre est de combler labsence dinformation provenant de limage
segmenter. Nous avons prsent au chapitre 2 comment les modles du systme visuel pouvaient
apporter de linformation extraite directement dune image, via les mcanismes pr-attentionnels,
et en particulier les cartes de saillance. Nous allons prsent voir comment intgrer cette information visuelle dans un processus de segmentation squentielle.

104

4. O PTIMISATION

AVEC REPRSENTATION DES STRUCTURES

105

Chapitre 5

Optimisation avec information visuelle


Lapproche propose dans la partie prcdente et ses adaptations dans le cas pathologique
utilisent des reprsentations de la forme de chacune des structures, qui proviennent dun atlas anatomique ou simplement dune base dimages. Cette connaissance a priori sur les objets de la scne
apporte deux informations indispensables aux raisonnements proposs : la forme des objets utilise
dans le calcul des relations spatiales, et leur localisation, ou leur agencement. La prise en compte
de la forme et de la taille des objets est importante dans la dfinition des relations spatiales, la
smantique de la relation pouvant tre diffrente en fonction des caractristiques morphologiques
des objets. La localisation spatiale nous permet destimer la pertinence dune relation spatiale par
rapport lobjet quelle vise.
Mais lutilisation dune telle connaissance gnrique a forcment des limites dans son exhaustivit, et plus encore en imagerie mdicale, o le nombre de cas disponibles est plus limit que
dans dautres domaines. Notre base de donnes ne reflte pas la variabilit complte inter-patients,
ni les diffrences qui peuvent exister avec par exemple des enfants plutt que des adultes, ou inversement des personnes ges, ou encore dautres pathologies que des tumeurs crbrales qui
pourraient agir sur les structures crbrales ou la matire. Nous avons vu que lapproche prsente
ne pouvait pas prendre en compte les cas pathologiques (les tumeurs crbrales) sans adaptation.
Les adaptations proposes permettent de prendre en compte le degr de stabilit dune relation spatiale pour un cas de pathologie donn. Mais l encore, il est difficile dobtenir, pour chaque classe
de pathologies et pour chaque tape du dveloppement, une base dapprentissage suffisante pour
prendre en compte les diffrents cas possibles. Il est difficile dtre exhaustif, voire impossible et
cela est encore plus vrai dans le cadre de limagerie crbrale. De plus, mme si nous pouvions
obtenir un modle gnrique de la connaissance que nous utilisons dans lapproche initiale, ce
modle ne permettrait plus forcment la reconnaissance telle quelle est effectue.
Si la connaissance a priori telle que nous lutilisons ne peut pas entirement rpondre nos
besoins, alors nous avons besoin daller chercher de linformation ailleurs. Linformation que nous
cherchons est bien entendu contenue dans limage que nous voulons segmenter, mais inaccessible
tant que le modle nest pas instanci pour cette image. En fait, avec un processus de segmentation
squentielle, le modle est progressivement instanci, et nous pouvons obtenir des informations
plus prcises des parties dj reconnues de limage, de la mme manire que dans les processus
dattention visuelle.
Nous proposons dans ce chapitre une mthode permettant de saffranchir des reprsentations
des formes des structures. Dans cette approche, nous utilisons un critre de slection des structures
qui est issu dune information visuelle directement extraite de limage segmenter elle-mme, permettant de prendre en compte les particularits de limage. Nous utilisons pour cela une carte de
saillance, selon un mcanisme pr-attentionnel que nous avons dcrit dans le chapitre 2. Avec

106

5. O PTIMISATION

AVEC INFORMATION VISUELLE

cette approche, la segmentation de limage est vue comme un processus dexploration de limage.
Par rapport la premire mthode propose, cette mthode ne permet pas dvaluer un chemin
complet avant segmentation. Le critre de slection des structures permet ici de slectionner la
prochaine structure segmenter uniquement. Le chemin de segmentation optimal est donc entirement dtermin une fois toutes les segmentations effectues.

5.1 Utilisation dune information visuelle


Nous allons commencer dans cette partie par tablir des correspondances, pour notre cas particulier, entre les mcanismes de lattention visuelle et un processus de segmentation squentielle
tel celui que nous utilisons, et qui sera dcrit dans la deuxime partie de ce chapitre. Nous allons galement voir quel critre driv dune information visuelle nous pouvons intgrer dans ce
processus.

5.1.1 Attention visuelle et segmentation squentielle


Nous avons dcrit dans le chapitre 2 la notion dattention visuelle. Les modles du systme
visuel font en gnral apparatre deux tapes et deux types de mcanisme, respectivement attentionnel et pr-attentionnel. Dune manire simplifie, lobjectif de ltape pr-attentionnelle est de
guider ltape attentionnelle en slectionnant les parties de limage dites saillantes, cest--dire qui
attirent lil . La notion de saillance est gnralement associe la prsence de discontinuits
de caractristiques de bas niveau dans limage. La slection qui est effectue permet au processus
attentionel de se focaliser sur une partie restreinte de la scne. Cette partie peut tre un objet ou
une zone de limage. La restriction de la phase attentionnelle une zone rduite de limage permet
de rduire le cot de traitement de cette zone.
Nous proposons alors deffectuer un rapprochement entre les diffrentes tapes du processus
de segmentation squentielle, la slection de la squence de segmentation et la segmentation ellemme, et les deux phases des modles de lattention visuelle. La phase attentionnelle o une
zone restreinte de limage est analyse avec attention correspond la segmentation dun objet. La
slection dune zone segmenter revient donc guider lattention visuelle, et correspond donc
ltape pr-attentionnelle. Le tableau 5.1 prsente en dtail le parallle effectu entre les deux
notions.
Il existe diffrentes thories des mcanismes pr-attentionnels. Dans certaines approches, les
interactions entre les deux tapes attentionnelles et pr-attentionnelles sont plus complexes et imbriques. Dailleurs, lunit attentionnelle nest pas toujours une rgion de limage, mais parfois
un objet. Le chapitre 2 prsente les expriences qui ont mis en vidence une slection autre que
spatiale lorsque lobservateur a une tche spcifique accomplir. La tche de lobservateur dans
notre cas nest pas comparable aux tches de haut niveau qui peuvent tre demandes un observateur, comme de compter le nombre de personnages dune scne, ou le nombre de passes dun
groupe de personnages jouant avec un ballon comme dans lexprience illustre dans la figure 2.3.
Notre tche nest donc pas comparable, et avant de pouvoir ventuellement effectuer ce genre de
tche, il nous faut dabord voir et reconnatre ce quil y a dans limage. Nous nous intressons
donc plutt aux processus dexploration de limage guids par les donnes uniquement, comme la
thorie trs rpandue de lintgration de caractristiques.
Dans cette thorie, le processus pr-attentionnel est un processus ascendant, cest--dire uniquement guid par les donnes, dont lobjectif est de slectionner une rgion de lespace qualifie
de saillante. La saillance est drive de caractristiques globales de limage. Puis linformation issue de chacune des caractristiques est fusionne pour donner une carte unique, reprsentant toutes

107

TAB . 5.1 Un appariement de chaque tape dun processus de segmentation squentielle une
modlisation de lattention visuelle telle que dcrite par la thorie dintgration des caractristiques, dcrite dans le chapitre 2. Dans ce cas, ltape pr-attentionnelle est guide par les donnes,
ce qui est le cas des premires modlisations, mais les travaux plus rcents proposent trs souvent
des liens descendants.
tape :
Systme visuel :
Segmentation
Squentielle :
Objectif Slectionner une zone Slection de la zone
ou un objet de lespace de lespace (ou de la
pour un examen atten- prochaine structure)
Pr-attentionnelle
tif
segmenter
Mode
Processus ascendant partir de caracteffectu partir de ristiques globales de
limage entire et limage
o les caractristiques sont traites de
manire parallle
Objectif Examen attentif dune Segmentation dune
petite zone de limage partie de limage
Attentionnelle
Mode
Sur une petite zone de Dans une zone dfinie
limage et de manire par des relations spasquentielle
tiales
Objectif Ne pas bloquer lil Utiliser les objets
sur la dernire zone s- dj segments pour
Inhibition de retour
lectionne
contraindre la recherche
Mode
Masquage dune zone Masquage des zones
temporairement
dj segmentes

les caractristiques. Cette carte unique est nomme carte de saillance. Nous avons dcrit dans la
partie 2.3 le processus permettant dextraire une carte de saillance dune image, partir des caractristiques dintensit, de couleur et dorientation dune image. Le mcanisme de cration de
ces cartes a t dcrit par Itti et al. (1998) la suite des travaux de Koch et Ullman (1985). Nous
avons galement dcrit dans la partie 2.4 les adaptations ncessaires du mcanisme dextraction
des cartes de saillance aux images IRM.
Une autre tape, ou plutt un mcanisme intgr dans ltape pr-attentionnelle, peut trouver
son quivalent dans le processus de segmentation squentielle, il sagit de linhibition de retour. Si
un observateur regarde une scne fixe, alors les zones saillantes demeurent identiques au cours du
temps. Mais si lexploration de limage est guide par linformation de saillance, alors lattention
visuelle risque dtre bloque sur une mme zone en absence de mouvement. Il existe donc un
mcanisme permettant dinhiber pendant un bref laps de temps une zone saillante sur laquelle lattention visuelle a t focalise. Un problme similaire se pose si nous segmentons une zone dune
image qui se trouve ct dun objet qui attire le processus de segmentation (un fort contraste
avec le reste de limage par exemple). Dans Colliot et al. (2006), il est montr que lutilisation des
relations spatiales permet de contraindre un modle dformable pour viter de se retrouver sur les
bords dun objet dj segment. La figure 5.1 illustre cet effet. La segmentation du noyau caud

108

5. O PTIMISATION

AVEC INFORMATION VISUELLE

ne sarrte pas sur les bords du ventricule. Nous pouvons donc, laide des relations spatiales,
simuler implicitement un mcanisme dinhibition de retour.

F IG . 5.1 Lquivalent de linhibition de retour dans le cadre de la segmentation squentielle.


Lutilisation des relations spatiales permet dviter que le modle dformable reste bloqu sur les
bords du ventricule qui prsentent un fort gradient dintensit, comme cest le cas dans la ligne
suprieure de limage. Sur la deuxime ligne, les relations spatiales entre le ventricule et le noyau
caud permettent de contraindre le modle vers lextrieur du ventricule et ainsi trouver le bon
contour. Cet effet peut tre compar au mcanisme dinhibition de retour qui permet lattention
visuelle de ne pas rester bloque sur une zone de limage pourtant trs saillante. De cette manire,
toute limage peut tre explore. [Source Colliot et al. (2006)].
Le cadre de segmentation squentielle est donc vu comme un processus dexploration et danalyse progressive de la scne, ou de limage. Nous proposons donc lintroduction dun mcanisme
pr-attentionnel dans le processus doptimisation dun chemin de segmentation pour une segmentation squentielle dune image. Lutilisation de cette information pour loptimisation du chemin
de segmentation doit nous permettre de nous passer de la connaissance a priori utilise dans lapproche initiale pour optimiser le chemin de segmentation. En revanche, et contrairement lapproche initiale, nous allons effectuer la slection dune zone de limage, selon des critres reposant
sur les donnes. Dans lapproche initiale, le chemin de segmentation tait calcul partir de linformation a priori et loptimisation tait effectue sur lensemble du chemin avant segmentation.
Nous allons commencer par tudier, laide dimages segmentes de la base de donnes,
quelle est la saillance de chaque structure, cest--dire tudier la saillance lemplacement de
chacune des structures.

5.1.2 Saillance et difficult de segmentation


Les approches prcdentes ne tiennent pas compte de la difficult intrinsque de segmentation de chacune des structures, cest--dire que la segmentation de chacune des structures est
considre avec une gale difficult. Mais lexprience de segmentation montre que cela nest pas
forcment vrai, et que la difficult varie en fonction des structures et des images. Ces difficults peuvent varier en fonction de plusieurs critres comme la forme, lhomognit, la texture, le
contraste ou les contours dune structure. Des rgles gnriques peuvent toujours tre construites,
par exemple : cet objet est plus difficile segmenter que cet autre objet mais ce type de rgle
nest pas toujours vrai, mme dans un domaine dapplication restreint.
Nous avons prsent dans le chapitre 2 la notion gnrique de saillance, et plus spcifiquement dans la partie 2.3 comment linformation de saillance est estime par le systme dcrit par
Itti et al. (1998). Linformation de saillance dans ce systme est drive de ltude des discontinuits de certaines caractristiques dans limage : intensit, oppositions de couleur et orientations.

109
En effet, pour chaque caractristique tudie, les cartes de discontinuit gnres refltent la diffrence de niveau entre un point et son voisinage. Il sagit donc dune information de type gradient
(ou une approximation locale du gradient de limage filtre pour reprsenter une caractristique).
Cette information est calcule selon diffrents niveaux dchelles, puis fusionne dans une carte
unique. Cette carte unique reprsente donc les discontinuits dune caractristique donne, et pour
diffrents niveaux dchelle. Toutes ces cartes sont ensuite fusionnes pour donner la carte de
saillance.
Les algorithmes de segmentation dimage ont pour objectif de poser une frontire entre des rgions dune image, et en gnral cette frontire reprsente une discontinuit. Dans une application
pour la segmentation des structures crbrales, le problme est plutt de savoir o placer une frontire, car les bords sont souvent flous et mal dfinis. Nous considrons donc que linformation de
saillance est directement relie aux difficults de segmentation dun objet en considrant quun objet avec un contour plus saillant, cest--dire prsentant une discontinuit plus marque, sera plus
ais segmenter quun objet comportant un contour moins saillant. Cependant, la saillance peut
donner plus dinformation. En effet, certaines tumeurs crbrales par exemple sont trs saillantes.
Une forte saillance peut donc indiquer non seulement une zone plus aise segmenter, mais si
nous disposons, via un apprentissage par exemple, de la distribution moyenne de saillance pour
une zone, alors nous pouvons galement dtecter une anomalie comme une pathologie.
Nous proposons dtudier la saillance dune image segmente, afin de vrifier empiriquement
si le niveau de saillance dun objet correspond la difficult notoire de le segmenter.

5.1.3 Apprentissage de la saillance


Nous souhaitons tudier dans cette partie les zones de la carte de saillance correspondant
aux structures crbrales comprises dans le modle. Chaque carte de saillance est calcule sur une
image complte. Mais grce aux segmentations des images utilises pour calculer la saillance, nous
avons masqu la carte de saillance pour nous intresser aux zones correspondant aux structures.
Lobjectif de cette partie est de construire un critre fond sur la saillance qui sera utilis dans les
parties suivantes. Nous allons galement effectuer un apprentissage des distributions de saillance.
En fonction de lobjectif de segmentation choisi, certaines parties dun objet peuvent tre
plus intressantes que dautres. Si nous considrons un algorithme recherchant les contours, alors
la zone la plus importante prendre en compte est le contour de lobjet et son entourage immdiat. Mais nous allons regarder linformation de saillance, qui est calcule diffrents niveaux
dchelle. Linformation du contour est donc situe sur une zone plus large que le contour. De plus,
si nous considrons la taille des structures, petite par rapport la taille du cerveau, il faut sintresser linformation de saillance dans tout lobjet, ainsi que dans une couronne autour de lobjet,
correspondant typiquement une dilatation de lobjet par une boule unitaire en 6-connexit.
Pour chaque image c K, la carte de saillance SMc est calcule sur limage complte selon
la mthode adapte aux images IRM dcrite dans la partie 2.4. La saillance SALOc correspondant
un objet Oc de cette image est extraite en utilisant le masque dilat de cet objet sur la carte de
saillance :
x S, SALOc (x) = min(1 (Oc )(x), SMc (x)) ,

o S reprsente lespace de limage. La saillance dun objet est donc reprsente dans cet espace.
Nous pouvons alors calculer un histogramme h de la saillance dun objet, en calculant lhistogramme de SALOc . Les cartes de saillance sont normalises dans un intervalle [0, 1]. Le nombre
N de niveaux de quantification de lhistogramme est fix arbitrairement 100.
h[i] =

1i (SALOc (x)) ,
xS

110

5. O PTIMISATION

AVEC INFORMATION VISUELLE

o 1(.) est la fonction indicatrice. Cet histogramme est ensuite normalis afin dobtenir une fonction de densit de probabilit : pour i = 1, ..., N
h[i]

hOc [i] =

N
i=1 h[i]

Ventricule Latral
Noyau caud
Putamen
Thalamus
matire blanche
Saliency histo.L hmsph
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

20

30

40

50

60

70

80

90

100

F IG . 5.2 Les distributions de probabilit de saillance normalises de cinq structures crbrales de


lhmisphre gauche dune image ne prsentant pas de pathologie. En haut, limage originale est
prsente gauche avec une segmentation en sur-impression et la carte de saillance correspondant
cette image est prsente droite. Les structures sont pointes sur la segmentation de limage
ainsi que sur la carte de saillance. Le troisime ventricule qui apparat sur lhistogramme nest pas
prsent dans cette coupe. Les distributions du putamen et du thalamus prsentent un pic pour des
valeurs assez faibles de saillance. Les zones correspondantes dans la carte de saillance montrent
des zones de faible saillance lemplacement de ces structures. La distribution correspondant au
ventricule prsente des valeurs plus leves, et on distingue nettement ces plus fortes valeurs sur
la carte de saillance.
La figure 5.2 prsente les distributions de probabilit de saillance obtenues pour cinq structures
localises dans lhmisphre gauche dune image qui ne prsente pas de pathologie. Nous pouvons
voir, pour cette image, que les distributions du putamen et du thalamus sont des distributions
mono-modales et centres sur les valeurs faibles de saillance, et la carte de saillance prsente
aux emplacements de ces structures des valeurs faibles. Plus gnralement, la matire blanche qui
englobe ces structures prsente des valeurs faibles. La distribution du ventricule est par contre plus
tale mais est centre sur des valeurs de saillance plus importantes. Ce rsultat tait attendu car
cette structure prsente un fort contraste avec son entourage immdiat et peut tre segmente plus
aisment que les autres structures prsentes sur cette image.

111
Saliencyhealthy histo.L hmsph
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

20

30

40

50

60

70

80

90

100

F IG . 5.3 Distribution de saillance moyenne pour 5 structures crbrales de lhmisphre gauche


(le troisime ventricule est en fait situ sur le plan inter-hmisphrique et nest pas attribu
lun ou lautre des hmisphres, alors que les autres structures sont prsentes dans les deux hmisphres). Les distributions sont calcules sur 30 cas sains (sans pathologies). Les distributions de
la matire blanche ( WM ) et de la matire grise ( GM ) sont estimes sur les 18 cas de la base
IBSR uniquement.
La figure 5.3 prsente quelques distributions moyennes qui ont t estimes sur les 30 cas sains
de la base dapprentissage, pour des structures de lhmisphre gauche. Pour la matire grise et la
matire blanche, les distributions ont t estimes sur les 18 cas de la base IBSR uniquement, les
segmentations ntant pas disponibles pour les autres cas. Lapprentissage est effectu pour :
les distributions de probabilit des cartes de saillance compltes ;
chacune des structures du graphe ;
les tumeurs dans les cas pathologiques.
La distribution de probabilit pour une structure donne est calcule comme la moyenne des
distributions de probabilit calcules pour cette structure sur chaque image :
O [i] =
h

hOc [i]
,
card(K)
cK

o card(K) reprsente le nombre de cas dans la base. Nous calculons ensuite la moyenne des
distances EMD et la variance pour chacune des distributions, toutes les images prises en compte
tant quiprobables. Lcart la moyenne est estim par une mesure EMD ou Earths Mover
Distance (Rubner et al. (1998)).
La mesure EMD :
Supposons que p et q sont deux histogrammes discrets avec N niveaux de quantification, et
N
normaliss tel que N
i=1 p[i] =
i=1 q[i] = 1. La mesure EMD entre ces deux distributions de
probabilit est dfinie ainsi :
N

i,j c(i, j) ,

emd(p, q) = min

i,j M

i=1 j=1

o M = {(i,j ); i,j 0, j i,j = p[i], i i,j = q[j]} et o c(., .) est une distance entre
les niveaux de quantification. Mais pour des histogrammes non-circulaires et en une dimension

112

5. O PTIMISATION

AVEC INFORMATION VISUELLE

seulement, si c(i, j) = ij
N , alors il est tabli que la mesure EMD est la diffrence entre les
histogrammes cumuls (Villani (2003)) :
emd(p, q) =

N
i=1 |P [i]

Q[i]|

(5.1)

o p et q sont deux distributions de probabilit, P et Q sont les histogrammes cumuls correspondants et N le nombre de niveaux de quantification des histogrammes. Nous utilisons cette
formulation dans nos expriences. Lcart la moyenne entre distributions de saillance est donc
calcul comme la variance selon la mesure EMD :
VO =

O , hO )2
emd(h
c
card(K N )

cK N

5.1.4 Un critre reposant sur la saillance


Nous souhaitons prsent utiliser la saillance dans le processus de segmentation squentielle.
Nous avons dfini des histogrammes de saillance qui seront calculs dans le processus dcrit dans
la partie suivante. Nous avons prsent besoin dun critre pour effectuer la slection de la prochaine structure segmenter en utilisant les histogrammes de saillance.
5.1.4.1

Critre simple sans apprentissage

Nous avons utilis dans un premier temps un critre simple et qui ne ncessite pas dapprentissage dans nos expriences. Nous avons propos dutiliser lnergie des histogrammes comme
critre de comparaison. Lnergie dun histogramme H, avec N niveaux de quantification, est
calcule de la manire suivante :
N

h(n)2 ,

energie(H) =
n=1

o h est la fonction dnombrant le nombre doccurrences des valeurs n dans la carte de saillance
masque. Lnergie dun histogramme va permettre de prfrer les histogrammes qui ont un support resserr, cest--dire quun pic base troite mais haut sera prfr un histogramme plus
tal. La figure 5.3 prsente les distributions de probabilit pour quelques structures, ainsi que pour
la matire blanche qui les englobe. Le critre slectionn permet de prfrer les histogrammes des
structures par rapport celui de la matire blanche.
Le tableau 5.2 prsente les mesures de saillance pour trois structures crbrales, le noyau
caud ( LCN ) le thalamus ( LTH ) et le putamen ( LPU ), ainsi que pour la matire blanche
( LWM ) et la matire grise ( LGM ). Ces mesures (lnergie de lhistogramme) sont toujours
plus grandes pour les trois structures anatomiques que pour les matires. Nous avons cependant
laiss ce critre, qui ne permet pas de dterminer prcisment lordre entre deux distributions
de saillance. La figure 5.4 donnera un exemple de comparaison o la distribution prsentant des
valeurs plus hautes de saillance prsente une nergie infrieure. Nous remplaons ce critre pour
un autre qui utilise une mesure fonde sur la mesure EMD dfinie dans la partie prcdente, et que
nous allons dcrire prsent.
5.1.4.2

Critre utilisant une mesure EMD

Nous souhaitons comparer des rgions entre elles, et pour cela nous souhaitons comparer la
saillance de ces rgions, afin de dterminer laquelle est la plus propice tre segmente un

113

TAB . 5.2 Mesures de saillance (mesure de lnergie dun histogramme de saillance) pour trois
structures anatomiques, la matire blanche (LWM) et la matire grise (LGM) pour toutes les
images de la banque de donnes IBSR. LCN : noyau caud, LTH : thalamus and LPU : Putamen.
LCN LTH LPU LWM LGM
0,065 0,057 0,068 0,026 0,015
0,097 0,064 0,095 0,041 0,020
0,039 0,033 0,042 0,027 0,017
0,050 0,031 0,054 0,026 0,017
0,038 0,028 0,107 0,027 0,018
0,054 0,038 0,099 0,038 0,025
0,039 0,024 0,046 0,023 0,018
0,040 0,026 0,046 0,020 0,014
0,039 0,026 0,061 0,026 0,020
0,045 0,030 0,060 0,027 0,014
0,037 0,025 0,048 0,019 0,011
0,033 0,029 0,032 0,026 0,017
0,037 0,033 0,069 0,031 0,020
0,046 0,030 0,061 0,025 0,017
0,033 0,026 0,044 0,017 0,014
0,032 0,025 0,044 0,022 0,015
0,045 0,032 0,049 0,022 0,020
instant donn du processus et selon les connaissances disponibles cet instant. Pour chacune des
structures, nous calculons un ensemble flou correspondant sa localisation. Le processus de calcul
de ces ensembles flous est dtaill dans une partie suivante.
La prcision de la localisation dune structure dpend de linformation spatiale disponible au
moment o elle est reprsente. Moins il y a dinformation spatiale disponible, et moins la localisation est prcise, et plus la localisation risque dinclure des objets en plus de lobjet recherch.
Or, nous souhaitons comparer la saillance des objets recherchs. La distribution de saillance peut
donc inclure de linformation non pertinente pour juger de la saillance dune structure. Pour cette
raison, la comparaison directe de deux localisations ne permet pas de comparer la saillance des
structures vises.
Notre critre sera donc fond sur deux informations. Nous allons extraire la distribution de
saillance de la localisation dune structure, puis elle est compare :
la distribution moyenne de saillance pour cette structure. Si la localisation est peu prcise
et que dautres objets prsentant des distributions de saillance diffrentes de celle de la
structure vise sont inclus, alors la comparaison avec le modle permet de pnaliser cette
localisation. Elle permet donc destimer la prcision de la localisation ;
aux distributions de saillance des autres localisations. Le but est dordonner les distributions
de saillance et de privilgier la distribution la plus saillante.
La comparaison entre la distribution apprise et la distribution de la localisation seffectue avec
une mesure EMD. Les valeurs sont centres et rduites. La distance est calcule ainsi :
do (loco , modo ) =

o
EM D(loco , modo ) mod
.
modo

(5.2)

o loco reprsente la distribution de saillance issue de la segmentation, modo la distribution ap o la moyenne des distances EMD entre chaque cas de la base et la
prise pour cette structure, mod

114

5. O PTIMISATION

AVEC INFORMATION VISUELLE

distribution moyenne pour cette structure, et modo lcart-type de ces distances.


Pour les comparaisons entre les distributions des localisations, nous avons besoin dune mesure
qui permette de donner un ordre entre ces distributions, et pas uniquement la distance. Nous allons
prsent dfinir cette mesure.
Mesure EMD signe :
La mesure EMD permet de calculer une diffrence entre distributions de probabilit. Dans notre
cas, nous souhaitons comparer deux zones de limage, masques par la carte de saillance, afin de
dterminer laquelle de ces zones est la plus saillante. La mesure utilise pour lapprentissage
de saillance prcdemment est une mesure non signe, cest--dire quelle indique la diffrence
entre deux distributions, mais ne fournit pas lordre. Elle ne convient donc pas nos besoins
en ltat. Nous avons prsent comment cette mesure, dans le cas de distributions de probabilit
normalises, et avec une certaine norme, pouvait tre calcule en effectuant une comparaison entre
histogrammes cumuls. Pour obtenir une distance qui nous fournisse lordre, nous proposons de
conserver cette formulation et de dterminer le signe de la distance en comparant les diffrences
entre les histogrammes cumuls sans valeur absolue. La distance EMD entre deux distributions p
et q est la mme formulation que prcdemment :
N
i=1 |P [i]

emd(p, q) =

Q[i]|

nous calculons galement la somme sans les valeurs absolues :


N

s(p, q) =
i=1

P [i] Q[i] ,

et la distance signe sera dtermine ainsi :


emds(p, q) =

emd(p, q)
emd(p, q)

si s(p, q) < 0 ,
si s(p, q) 0 .

(5.3)

Cette mesure nous permet de comparer plusieurs distributions, laide de comparaisons deux
deux, afin de dterminer la zone la plus saillante. La figure 5.4 prsente un exemple de comparaison
entre la localisation dun thalamus et la localisation dun putamen. Sur cet exemple, nous pouvons
voir sur lhistogramme de saillance de ces localisations que le pic correspondant au putamen est
lgrement dcal vers des valeurs plus hautes. Cette diffrence se reflte sur les histogrammes
cumuls. La distance EMD entre ces deux distributions est de 0, 017. Si nous souhaitons estimer
la saillance selon notre critre du thalamus, alors nous calculons la distance signe :
EM DS(th, pu) = 0, 017 .
linverse, si nous souhaitons estimer la saillance selon notre critre du putamen, alors nous
calculons la distance signe ainsi :
EM DS(pu, th) = 0, 017 .

115

0.1

1
Thalamus
Putamen

0.09
0.08

0.8

0.07

0.7

0.06

0.6

0.05

0.5

0.04

0.4

0.03

0.3

0.02

0.2

0.01

0.1

10

15

20

25

30

35

40

45

Thalamus
Putamen

0.9

50

10

15

20

25

30

35

40

45

F IG . 5.4 Comparaison entre les histogrammes de saillance des localisations de deux structures,
le thalamus et le putamen au cours dune tape. La distance EMD entre ces deux histogrammes
nous donne une valeur de 0, 017. La distance EMDS nous donnera une valeur de 0, 017 pour le
thalamus et une valeur de 0, 017 pour le putamen, nous permettant de dterminer la distribution la
plus saillante . Lnergie de lhistogramme pour la distribution du thalamus est de 0, 040 alors que
la distribution du putamen prsente une nergie de 0, 037. Le critre reposant sur lnergie donne
donc dans ce cas le rsultat inverse du rsultat souhait, cest--dire la slection de la distribution
la plus saillante .
Le critre de slection :
Cette mesure nous permet donc dobtenir une valeur signe et de pondrer ainsi le critre de
slection c, qui est dfini ainsi :
co = |do |

EM DS(loco , loco )
oVc

{o}

o Vc est lensemble des nuds candidats et o dsigne lobjet dont nous avons calcul la localisation. La comparaison des localisations grce la mesure EMDS permet de pondrer le critre par
la localisation la plus saillante. Dans notre exemple, si la distance EMD dth entre la distribution
de saillance du thalamus avec la distribution moyenne du thalamus est la mme que la distance
EMD dpu entre la distribution de la localisation du putamen et le modle, alors le critre de slection vaut pour le thalamus cth = dth 0, 017 et le critre de slection pour le putamen vaut
cpu = dth + 0, 017. La mesure EMDS nous a donc permis de pondrer la comparaison avec le modle par la localisation la plus saillante. La comparaison avec la distribution moyenne de saillance
tant centre et rduite, les valeurs additionnes ne sont pas similaires. La mesure EMDS est donc
plutt une pondration, lvaluation de la prcision de la localisation tant importante daprs nos
expriences.

5.1.5 La saillance des tumeurs crbrales


Lobjectif des mcanismes pr-attentionnels en gnral et des cartes de saillance en particulier
est de dtecter dans une scne les parties qui sont saillantes, cest--dire qui simposent lutilisateur lors de lexploration libre de cette scne. Les tumeurs crbrales nont pas toutes cette caractristique. La figure 5.5 prsente des images avec des pathologies qui prsentent des saillances
leves dune part, cause notamment du contraste de la tumeur, et de la prsence dune zone ncrotique au centre, et dautre part, des tumeurs qui prsentent au contraire des valeurs de saillance

50

116

5. O PTIMISATION

AVEC INFORMATION VISUELLE

faibles, voire trs faibles. Labsence de saillance de ces dernires pathologies vient de leur taille
plutt large et de leur aspect uniforme.

F IG . 5.5 Deux groupes de pathologies avec des valeurs de saillance inverses. Pour chaque
exemple nous prsentons une coupe de limage originale masque par la carte dtiquettes de la
segmentation manuelle ( gauche, sur ces images, la tumeur apparat en violet) et une coupe proche
de la carte de saillance de la mme image ( droite) avec une palette de couleur modifie. Sur la
colonne de gauche sont prsents trois exemples de tumeurs qui gnrent une forte saillance. Sur
la colonne de droite, trois exemples de tumeurs prsentant des valeurs plus faibles de saillance.
Toutes les pathologies ne partagent donc pas les mmes caractristiques de saillance. Parmi
lensemble des tumeurs, certaines ont un impact immdiat sur les noyaux gris (comme les deux
images prsentes sur la ligne suprieure de la figure 5.5. Ces tumeurs dplacent des structures et
entranent de grandes altrations de leur morphologie. Dautres structures ont un impact beaucoup
plus faible, voire nul sur les noyaux gris (il y a bien sr un impact sur dautres parties du cerveau).
Cest le cas pour limage droite sur la ligne centrale de la figure 5.5. Cette pathologie est importante, mais localise sur lavant du cerveau. Le noyau caud et le putamen ne sont pas vraiment
affects par cette pathologie (dformation trs lgre). En revanche, le ventricule de gauche est
dform, et le thalamus est cras.
Dans le cadre de la segmentation squentielle, nous pouvons avoir deux objectifs par rapport
la gestion des pathologies : dtecter la prsence dune pathologie dune part, et utiliser cette
connaissance pour adapter la segmentation des noyaux gris. La segmentation de la tumeur elle-

117
mme nest pas traite dans nos travaux. Pour cela, nous pouvons utiliser les travaux dvelopps
par Khotanlou (2008).

5.2 Segmentation squentielle avec un critre fond sur la saillance


Si lobjectif suivi est toujours loptimisation dun chemin de segmentation, toutefois, lapproche propose ici prsente une optimisation a posteriori du chemin puisque les segmentations
sont ralises chaque tape du processus. De ce point de vue, loptimisation est effectue localement.
Dans cette nouvelle approche, nous souhaitons garder la possibilit de mettre jour le modle, cest--dire tre capable dajouter ou de supprimer des structures du modle, ce qui ntait
pas possible dans la premire approche. En effet, loptimisation dans cette premire approche est
effectue off-line , sans tenir compte de linformation de limage elle-mme. De plus les reprsentations des relations spatiales sont toujours calcules partir des reprsentations des formes
dun cas sain, mme dans un cas pathologique. Les degrs de stabilit permettent une adaptation
souple aux cas pathologiques. Cependant, il est ncessaire de pouvoir effectuer leur apprentissage
sur une base de cas de pathologies similaires. Si nous pouvons obtenir des pathologies de mme
type, lapprentissage des degrs de stabilit ncessite en outre que les localisations de la pathologie soient proches entre elles pour avoir des impacts comparables. Lapprentissage devrait donc
tre suffisant pour grer tous les cas possibles.

5.2.1 Exploration progressive de limage


Nous proposons une optimisation locale du chemin, qui tient compte de linformation disponible, chaque tape du processus de segmentation squentielle. Cette information provient du
modle gnrique et des parties de limage dj segmentes. Mais nous nutilisons pas la forme
des objets qui ne sont pas encore segments. Dans le cadre de la segmentation squentielle,
un instant donn, nous connaissons la prochaine tape du processus. Nous voyons dans notre approche la prochaine tape comme une exploration dune partie non connue de limage. Seule une
petite rgion de lespace est analyse un certain moment, ce qui correspond la reconnaissance
et la segmentation dun objet. Cette partie de lespace est dfinie par les relations spatiales reprsentables, qui sont les relations spatiales ayant pour objet de rfrence un objet dj segment.
Le processus est guid en utilisant un mcanisme pr-attentionel, ici une carte de saillance,
qui indique la zone la plus saillante dans lespace dans le domaine de recherche. Cette zone est
gnre en utilisant les parties dj connues de la scne et les relations spatiales existant entre ces
objets et les objets qui doivent encore tre reconnus. La figure 5.6 prsente le schma gnral de
la mthode.
Nous prsentons dabord le graphe spatial qui contient la connaissance gnrique et linformation de limage extraite au cours du processus. Nous prsenterons ensuite les diffrentes tapes
de chaque tape du processus, en commenant par la manire dont le graphe est filtr pour ne
conserver que linformation utile ltape courante. Ensuite, nous prsenterons le mcanisme de
slection de la structure segmenter, et la mise jour du graphe aprs chaque segmentation.

5.2.2 Graphe spatial


Nous utilisons un graphe muni de relations spatiales tel que celui que nous avons dcrit dans
le chapitre 3. Les notations ont t introduites dans la partie 3.1.3. Le graphe spatial est issu de la
connaissance experte et gnrique de la scne.

118

5. O PTIMISATION

AVEC INFORMATION VISUELLE

: dj segmente
: segmenter
Connaissance a priori
Information visuelle
Rsultat

Image
segmenter
Connaissance
gnrique

carte de
saillance
Structures
de rfrences

4
Graphe
modle

1
4

Graphe
spcialis

3
4

Histogramme
de saillance

4
Graphe
filtr

4
Graphe
tape i

2
1

Slction
Histogramme
de saillance
Localisations

Changement
de chemin

Evaluation

Segmentation
dune structure

Mise jour

Graphe
tape i + 1

F IG . 5.6 Schma gnral de lapproche propose qui permet lintgration dun mcanisme prattentionel dans un processus de segmentation squentielle. une tape i, le graphe est filtr pour
ne garder quun graphe bipartite entre les nuds dj segments et les nuds segmenter. Les
relations spatiales portes par les arcs restants sont reprsentes dans lespace de limage. Elles
sont fusionnes pour former le domaine de recherche et fournir la localisation de chaque structure
candidate. Un critre driv de la saillance de ces localisations est utilis pour slectionner la
structure segmenter. La structure peut alors tre segmente partir de linformation spatiale et
de limage originale. Une tape dvaluation intervient ensuite pour dtecter les ventuelles erreurs
de segmentation dune structure. Si la segmentation est suffisante, le graphe peut tre mis jour
avec la segmentation de la structure. Dans le cas inverse, le graphe peut rester en ltat ou une
segmentation existante peut tre supprime, avant de passer la prochaine tape du processus.
Nous rappelons quelques notations ici. Par la suite, nous dsignerons limage originale par I.
Un graphe G = (V, E, Le ) est compos dun ensemble de nuds v V correspondant chacun
une structure crbrale. Il est galement compos dun ensemble darcs binaires e E. Chaque
arc est muni dun interprteur permettant dobtenir lensemble flou correspondant aux relations
spatiales e = Le (e, v1 ) portes par cet arc o v1 est la structure de rfrence pour la relation. Le
graphe utilis dans nos expriences est prsent dans la figure 5.7. Il intgre 9 structures dont la
plupart sont prsentes de manire symtrique dans les deux hmisphres.
linitialisation du processus, nous avons une structure de rfrence. Dans le cas des structures crbrales, le ventricule latral peut tre segment en utilisant une mthode de morphologie
mathmatique par exemple. De plus, sa position centrale et sa taille en font un bon point de rfrence pour les relations spatiales avec les autres structures. Nous utilisons donc les ventricules
latraux (droit et gauche) comme structures de rfrence, disponibles au dbut du processus. Le
troisime ventricule est segment simultanment par la mme procdure et est parfois connect
aux ventricules latraux. Nous lutiliserons comme structure de rfrence galement.
Le choix de cette structure est cohrent par rapport une exploration de limage selon un

119

LVR

LVl

G : gauche
D : droite
H : audessus
B : endessous
Dv : devant
Dr : derrire

D
G

CdR

Cdl

D
D

B H

H B
V3

PuR

G
Pul

H
Dv B
Dr

B
H Dr
Dv

G
D

G
G

ThR

Thl

F IG . 5.7 Le graphe utilis dans nos expriences. Le graphe est orient et les arcs entre deux
nuds sont doubls pour prendre en compte les diffrents chemins de segmentation possibles. Les
relations dorientation entre les structures sont indiques. Nous utilisons galement des relations
de distance entre deux structures. Les structures prsentes sont les suivantes : ventricule latral
(LV), troisime ventricule (V3), thalamus (TH), putamen (PU) et noyau caud (CD).
critre de saillance. En effet, les ventricules sont des structures qui prsentent presque toujours
une forte valeur de saillance ( part dans un cas pathologique o leur grande taille diminue leur
saillance). La figure 5.8 prsente une image et un seuillage de la carte de saillance pour ne conserver que les plus hautes valeurs. Les ventricules apparaissent dans ces valeurs.

F IG . 5.8 Une coupe dune image ( gauche) et le seuillage de la carte de saillance de cette
image. Les ventricules prsentent des valeurs leves de saillance et restent apparents mme aprs
un seuillage qui enlve la plupart de linformation de saillance. Ces structures sont donc indiques
pour dbuter une exploration de limage selon un critre de saillance.
Nous allons prsent prsenter lapproche de segmentation squentielle, en considrant une
tape donne du processus.

5.2.3 Filtrage du graphe


Nous allons prsent dfinir des ensembles de nuds qui seront utiliss par la suite pour le
raisonnement. Nous pouvons partitionner lensemble des nuds du graphe V en deux ensembles

120

5. O PTIMISATION

AVEC INFORMATION VISUELLE

distincts : V = Vseg Vobj . Nous avons dabord lensemble Vseg des nuds segments, que ce
soit une structure de rfrence ou une structure segmente au cours du processus. Nous avons
galement lensemble complmentaire Vobj des nuds objectifs , cest--dire les nuds qui ne
sont pas encore segments.
prsent que ces deux ensembles sont dfinis, nous souhaitons maintenant exprimer la reconnaissance et la segmentation dune structure crbrale comme lensemble des oprations ncessaires pour transfrer un nud v de lensemble des nuds objectifs vers lensemble des nuds
segments. ltape i nous avons :
i
i1
Vseg
= Vseg
{
vi } ,

et
i1
i
= Vobj
Vobj

{ vi } ,

o vi est le nud slectionn ltape i du processus.


Nous voulons prciser les liens entre le nud slectionn et les deux ensembles de nuds.
Puisque nous avons choisi de voir le processus de segmentation squentielle comme une exploration progressive de limage, lensemble Vseg correspond aux parties dj explores de limage.
Lensemble Vobj correspond aux parties inconnues. Lexploration progressive de limage correspond lextension progressive des parties connues, et de ce point de vue, effectuer lexploration
dans une zone proche des parties dj connues. Nous pouvons dfinir Ef comme lensemble des
arcs dont la source est un nud appartenant Vseg et dont la cible est un nud appartenant Vobj :
Ef = {(vt , vs ) | vt Vseg , vs Vobj } .
Les indices correspondant ltape ne sont pas prciss afin de simplifier lcriture. Cet ensemble
i et V i .
est toutefois mis jour chaque tape en mme temps que les ensembles Vseg
obj
Tous les arcs e Ef portent des relations spatiales fournissant une information sur la zone
explorer. Si nous dfinissons la zone de recherche comme une fonction de linformation spatiale
porte par ces arcs, alors tous les nuds cibls par ces arcs sont dans la zone de recherche.
Nous pouvons dfinir lensemble Vf o Vobj des nuds cibls par les arcs contenus dans Ef
comme lensemble des nuds de Vobj qui sont la cible dun arc appartenant Ef . La source de
larc est ncessairement dans Vseg :
Vf o = {v2 Vobj | v1 Vseg , (v1 , v2 ) Ef } .
Nous pouvons de mme dfinir Vf s Vseg comme tant lensemble des nuds de Vseg qui
sont extrmits dau moins un arc dont la cible nappartient pas Vseg :
Vf s = {v1 Vseg | v2 V, v2
/ Vseg , (v1 , v2 ) E} .
Lexploration progressive de limage va donc consister rechercher le prochain nud segmenter parmi les nuds de Vf o . La recherche utilise linformation spatiale fournie par les nuds
de Vf s et porte par les arcs Ef . Nous pouvons filtrer le graphe pour ne conserver que Vf o , Vf s
et Ef , ce qui permet de limiter le domaine de recherche. Le sous-graphe obtenu forme un graphe
bipartite. Un exemple de graphe filtr la premire tape du processus est illustr par la figure 5.9.
Une tape de la segmentation squentielle peut donc tre formule comme fonction :
de limage I ;
des segmentations prcdentes Vf s , qui fournissent linformation spatiale permettant dexplorer limage ;

121
111
000
000
111
000
111
000
111
000
111

LVl

Vfs

000
LVl 111

111
000
000
111
000
111
000
111
000
111

D
G
Cdl

D
Cdl

V3
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111

B H

Pul

H
Dv B
Dr
G

V3
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111

Vfo

G
D

Thl

Graphe la premire tape

Thl

Graphe filtr

F IG . 5.9 Le graphe filtr lors de la premire tape du processus. Nous navons reprsent ici
que les structures de la partie gauche du cerveau par simplicit mais les structures de la partie
droite sont prsentes galement cette tape. Lensemble Vf s est compos du ventricule latral
et du troisime ventricule (ces nuds sont griss sur la figure). Lensemble Vf o est compos du
noyau caud et du thalamus. Seul les arcs issus des structures segmentes vers les structures non
segmentes sont conservs et forment lensemble Ef .
de lensemble Vf o des nuds en relation avec Vf s ;
des critres permettant la slection du nud, drivs de la saillance, que nous allons prsenter par la suite ;
et des relations spatiales Ef existant entre les deux groupes de nuds du graphe (segments
et segmenter).
Cela scrit :
i1
i
i1
, Vobj
, salI , I, Efi1 ) ,
= seqseg(Vseg
Vseg
o i indique ltape courante.

5.2.4 Domaine de recherche


Nous avons introduit lexploration progressive de limage comme une extension proche des
parties connues de limage. Nous avons galement spcifi que cette exploration est fonction de
linformation spatiale calcule partir des parties dj explores de limage. Nous allons prsent
dfinir le domaine de recherche, qui reprsente lespace de limage o nous cherchons la structure
la plus mme dtre segmente, selon un critre driv de la saillance que nous prsentons dans
la partie suivante.
Chaque arc de lensemble Ef porte des relations spatiales entre des objets dj segments, et
des objets segmenter. Chaque relation spatiale est reprsente dans lespace de limage, selon
le formalisme dcrit dans la partie 3.3. Pour chaque point de limage, nous avons une valeur de
satisfaction de la relation. De plus, un apprentissage des paramtres de ces relations spatiales est
effectu tel quil a t dcrit dans la partie 3.5. Cet apprentissage, effectu sur une base de cas
sains et de cas pathologiques, nous permet deffectuer lhypothse que la structure pointe par la
relation spatiale est situe dans le support de la reprsentation de la relation spatiale.
Chaque relation spatiale de lensemble Ef contribue ainsi fournir une localisation robuste des
structures recherches. De plus, si plusieurs relations spatiales contribuent localiser une mme
structure, alors la localisation peut tre prcise en fusionnant ces informations. En particulier, si

122

5. O PTIMISATION

AVEC INFORMATION VISUELLE

nous ne disposons que dune relation dorientation pour une structure, alors la zone de limage
o cette relation sera satisfaite est grande par rapport la structure. Mais si cette zone est lie
une relation de distance, alors la localisation de la structure sera beaucoup plus prcise. La figure
5.10 sur la ligne du haut prsente un exemple de la reprsentation dune relation dorientation (
gauche), et lensemble flou ( droite) correspondant la fusion entre cette reprsentation et une
relation de distance (au centre). La localisation de la relation est beaucoup plus prcise dans ce
dernier cas, mme si elle reste grande par rapport la taille de la structure.
Pour chaque arc e contenu dans Ef , un interprteur darc Le produit la reprsentation de
chaque relation spatiale prsente sur cet arc. Linterprteur darc agit comme une fonction permettant dindiquer quelles relations sont prsentes sur larc, parmi toutes les relations spatiales
possibles dans le modle, et dobtenir lensemble flou correspondant. Si la relation est prsente,
alors sa reprsentation est gnre, avec des paramtres gnriques pour le type de relation. Larc
contient galement pour chaque relation spatiale lintervalle flou issu de lapprentissage pour cet
arc (le couple de structures). Lintervalle flou est alors appliqu la reprsentation de la relation spatiale pour gnrer la reprsentation exacte pour cette relation pour le couple de structures
relies par larc.
Une fois les relations spatiales portes par un arc reprsentes dans lespace de limage, nous
pouvons fusionner toutes ces reprsentations pour obtenir un ensemble flou reprsentatif de linformation spatiale porte par cet arc e de manire conjonctive :
eRel = re re ,
o est une t-norme (Dubois et Prade (1980)).
Pour chaque nud candidat v, sa localisation spatiale estime est dfinie par la fusion des
ensembles flous reprsentant chaque arc ayant ce nud pour cible. Le nud cibl appartient
lensemble Vf o . La localisation est calcule ainsi :
locv = e(A(v)Ef ) (eRel ) ,
o est une t-norme, et A(v) reprsente les arcs ayant le nud v pour cible. La figure 5.10
prsente le processus permettant dobtenir la localisation de deux structures la premire tape.

123

proche du ventricule

droite du ventricule

droite du 3me
ventricule

proche du 3me
ventricule

en-dessous du ventricule

V 3 T H

LV T H

distance au ventricule

V 3 T H

localisation noyau caud

LV T H

localisation thalamus

F IG . 5.10 Reprsentation des relations spatiales. En haut, les relations portes par larc entre
le ventricule (LV) et le noyau caud (CN). La fusion ( droite) donne la localisation du noyau
caud (qui nest pas connect une autre structure disponible cette tape). Les deux lignes
suivantes montrent les reprsentations des relations spatiales respectivement sur larc entre le 3me
ventricule (V3) et le thalamus (TH), et sur larc entre le ventricule et le thalamus (en vue sagittale).
Les ensembles flous issus de ces deux arcs sont fusionns pour donner la localisation du thalamus
(ligne du bas). Le troisime ventricule est situ en-dessous du ventricule latral.

124

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Nous pouvons prsent dfinir lensemble flou correspondant au domaine de recherche de


limage, comme la fusion des ensembles flous ports par chaque arc composant lensemble Ef .
Le domaine de recherche est dfini ainsi :
sd = eEf (eRel ) ,
o est une t-conorme (disjonction floue) (Dubois et Prade (1980)). Le domaine de recherche
indique une zone de lespace qui inclut la localisation spatiale de tous les objets cibles (la combinaison est disjonctive). Le domaine de recherche la premire tape est illustr par la figure
5.11.

F IG . 5.11 Domaine de recherche la premire tape du processus. Le domaine de recherche


fusionne de manire disjonctive les localisations de toutes les relations spatiales de lensemble Ef
et reprsente la zone de limage o se situe lensemble des structures rechercher Vf o . Dans cet
exemple, le domaine de recherche est la fusion des relations entre le ventricule et le noyau caud
dune part, entre le ventricule et le troisime ventricule vers le thalamus dautre part.

5.2.5 Intgration de la saillance


La carte de saillance de limage explorer est calcule sur limage complte au dbut du
processus. La saillance est donc fixe et ne varie pas au cours des tapes du processus. Nous
avons dtermin la localisation spatiale de chacune des structures de lensemble Vf o . Nous allons
prsent combiner la carte de saillance avec lespace de recherche et la localisation de chacune
des structures, afin dextraire, pour chaque structure, la saillance de la zone correspondante. Pour
chaque nud v de Vf o , nous dterminons :
saillancev = (locv , sd , salI ) ,
o salI est la carte de saillance de limage que nous explorons. Le domaine de recherche est ici
une disjonction floue des localisations, il nest donc pas utile cette tape. Il est possible dappliquer une restriction sur le domaine de recherche (pour limiter de manire quantitative la zone
de recherche par exemple), ce qui nest pas fait ici. Nous calculons ensuite un histogramme de la
saillance de chaque localisation, dont le nombre N de niveaux de quantification de lhistogramme
est fix arbitrairement 100 :
Hv [i] =

1i (saillancev (x)) ,
xS

o 1(.) reprsente la fonction indicatrice. Des exemples de ces histogrammes sont prsents dans
la figure 5.12.

125
Masquage des localisations par la saillance :

Saillance la localisation Saillance la localisation


du noyau caud
du thalamus

Carte
de saillance

Histogrammes de saillances :
0.1

0.1
LCN localisation
LTH localisation

0.09

0.1
LCN localisation
LCN modele

0.09

0.08

0.08

0.08

0.07

0.07

0.07

0.06

0.06

0.06

0.05

0.05

0.05

0.04

0.04

0.04

0.03

0.03

0.03

0.02

0.02

0.02

0.01

0.01

10

20

30

40

50
60
Saillance

70

80

90

comparaison entre
localisations

100

LTH localisation
LTH modele

0.09

0.01

10

20

30

40

50
60
Saillance

70

80

90

LCN : localisation et
modle

100

10

20

30

40

50
60
Saillance

70

80

90

100

LTH : localisation et
modle

Histogrammes cumuls :
1

1
LCN localisation
LTH localisation

0.9

1
LCN localisation
LCN modele

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

10

20

30

40

Saillance

comparaison entre
localisations

50

LTH localisation
LTH modele

0.9

0.1
0

10

20

30

40

Saillance

LCN : localisation et
modle

50

10

20

30

40

50

Saillance

LTH : localisation et
modle

F IG . 5.12 Masquage des localisations par la carte de saillance (en haut gauche) et slection
de la localisation la plus saillante selon le critre retenu. Les deux localisations (noyau caud et
thalamus) sont directement compares (histogrammes gauche, la localisation du noyau caud
est plus saillante selon la mesure emds avec une valeur de 0, 0084). Ici, ces deux localisations
sont proches et se chevauchent en partie, ce qui explique la proximit des histogrammes. Chaque
histogramme est ensuite compar au modle appris pour cette structure (histogramme au centre
pour le noyan caud avec une valeur de 0, 089 et histogramme de droite pour le thalamus avec
une valeur de 0, 791). Dans cet exemple, le noyau caud sera slectionn avec une mesure de
0, 076 qui est le minimum parmi les 4 localisations concernes cette tape du processus.

126

5. O PTIMISATION

AVEC INFORMATION VISUELLE

5.2.6 Slection du prochain objet


Nous pouvons prsent effectuer le processus de slection du prochain objet segmenter,
cest--dire la slection du nud cible du graphe reprsentant un objet en particulier, que nous
allons relier une partie de limage. La slection est effectue par analyse de la saillance dans le
domaine de recherche. Le filtrage du graphe nous donne deux groupes de nuds : Vf s et Vf o et la
slection est effectue dans Vf o (et donc lobjet reprsent du prochain nud).
Nous avons prsent dans la partie 5.1.4 le critre que nous utilisons pour comparer les histogrammes de saillance, qui est driv de la mesure EMD (eq. 5.3), et qui permet de reflter
non seulement la localisation la plus saillante, mais aussi la diffrence par rapport au modle de
saillance appris pour la structure vise. La slection du prochain objet segmenter est effectue
partir de lhistogramme de saillance gnr pour chaque nud candidat en slectionnant le nud
qui prsente lhistogramme le plus saillant :

v = arg min |do |


vVf o

oVc

{o}

EM DS(loco , loco ) .

(5.4)

La figure 5.12 prsente deux localisations dont nous avons calcul les histogrammes de saillance,
reprsentant respectivement le noyau caud et le thamalus gauche. Nous allons calculer le critre
permettant de slectionner une localisation parmi les deux. Dans lexemple choisi, il y a en fait 4
structures candidates, mais nous ne prsenterons que les histogrammes et les localisations de deux
de ces structures, dans le mme hmisphre.
Nous allons dabord comparer chacune des distributions de saillance avec le modle appris
pour la structure concerne selon le critre prsent par lequation 5.2 :
dmodlcn =

lcn
EM D(loclcn , modlcn ) mod
= 0, 089 ,
modlcn

(5.5)

lth
EM D(loclth , modlth ) mod
= 0, 791 .
modlth

(5.6)

et
dmodlth =

Nous pouvons voir ici que la distribution du noyau caud gauche est plus proche du modle que
la distribution du thalamus gauche, une fois les valeurs centres et rduites.
Nous allons ensuite comparer les localisations entre elles selon la mesure EMDS prsente par
lequation 5.3 :
emds(loclcn , loclth ) = 0, 0084 ,
(5.7)
et
emds(loclth , loclcn ) = 0, 0084 .

(5.8)

La localisation du noyau caud gauche est donc juge plus saillante que la localisation du thalamus
selon ce critre.
Pour chacune des localisations, nous ajoutons cette dernire valeur la comparaison aux autres
structures candidates, cest--dire le noyau caud droit et le thalamus droit dans ce cas. Nous
obtenons les valeurs suivantes :
dinterlcn =

emds(loclcn , locv ) = 0, 013 ,

(5.9)

emds(loclth , locv ) = 0, 040 .

(5.10)

vVf o lcn

et
dinterlth =
vVf o lth

127
Nous pouvons voir ici que la localisation du noyau caud est juge plus saillante que la moyenne
des structures candidates (valeur positive). Par contre, la localisation du thalamus est moins saillante
que les autres.
La slection seffectue donc sur ces valeurs :
cl oclcn = |dmodlcn | dinterlcn = 0, 089 0, 013 = 0, 076 ,

(5.11)

cl oclth = |dmodlth | dinterlth = 0, 791 + 0, 040 = 0, 831 ,

(5.12)

Nous allons donc slectionner le critre minimum, cest--dire le noyau caud dans ce cas.
La slection du nud permet de segmenter lobjet. La segmentation peut tre exprime comme
une fonction de lobjet slectionn selon le critre driv de la saillance v, en fonction des relations
spatiales avec les objets dj segments et en relation avec le nud segmenter, et de limage
originale :
segv = segment(
v , locv , I) .

5.2.7 Le processus de segmentation


Rappellons que le processus de segmentation ne fait pas lobjet de nos travaux. Les entres sont
limage segmenter, ainsi que linformation spatiale dont nous disposons pour cette structure.
La sortie de la mthode de segmentation est une carte binaire reprsentant lobjet. Cependant,
les rsultats tant dpendants du processus de segmentation, nous allons brivement prsenter le
processus de segmentation qui a t dfini par Colliot (2003). Il est divis en deux parties. La
premire partie consiste trouver une segmentation grossire de lobjet recherch. La deuxime
partie affine cette segmentation laide dun modle dformable.
Pour obtenir une segmentation grossire de lobjet recherch, la mthode repose sur deux types
dinformation : la radiomtrie des noyaux gris du cerveau (dont font partie les structures que nous
recherchons) et la limitation de lespace de recherche grce linformation spatiale.
Radiomtrie des structures crbrales :
Une analyse de limage nous fournit les caractristiques de la matire blanche et de la matire
wm , x
gm ) et lcart-type (resp. wm ,
grise du cerveau (Mangin et al. (1998)), la moyenne (resp. x
gm ). partir de ces valeurs, il est possible dobtenir les caractristiques radiomtriques de chaque
noyau gris du cerveau. Ces travaux ont t prsents par Poupon et al. (2008).
Pour une structure O dune image I donne, nous connaissons o et o , les paramtres permettant dobtenir les caractristiques de la structure O partir des caractristiques de la matire
blanche et de la matire grise du cas c. Les caractristiques radiomtriques de la structure O sont
drives ainsi :
x
o = o x
wm + (1 o )
xgm ,
et

(wm + gm )
.
2
Les paramtres et pour chaque noyau gris sont dtermins par apprentissage sur une base
de donnes : si nous disposons de la segmentation des structures dune image c, alors nous pouvons
calculer les paramtres c et c partir des caractristiques des matires de limage, et des niveaux
de gris de chacune des structures. Nous pouvons ainsi estimer les paramtres et pour la base
complte. Dans Poupon et al. (2008), le paramtre est une moyenne des c calculs sur chaque
image. Le paramtre est le maximum des valeurs c calcules pour chaque image.
o = o

128

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Nous avons effectu une nouvelle estimation de ces paramtres avec notre base dapprentissage. La figure 5.13 prsente les valeurs obtenues pour le noyau caud. Deux nuages de points sont
affichs. Le premier correspond aux valeurs constates avec les images originales. Le deuxime
correspond aux valeurs calcules partir dimages dont nous avons corrig lhtrognit du
champ par la mthode dcrite par Mangin (2000). Ces images sont utilises dans le processus de
segmentation. Les nuages de points montrent une certaine dispertion des valeurs entre 0, 1 et 0, 45
pour , et entre 0, 45 et 1, 4 pour .
2
corrigee
sans correction
moyenne corrigee
moyenne ss corrections

1.8
1.6
1.4

Beta

1.2
1
0.8
0.6
0.4
0.2
0

0.1

0.2

0.3

0.4

0.5
Alpha

0.6

0.7

0.8

0.9

F IG . 5.13 Les valeurs de c et c pour chaque cas sain de notre base dapprentissage, et pour
le noyau caud. Lapprentissage a t effectu avec les images originales et avec des images dont
le biais a t corrig. Ces dernires images sont utilises dans le processus de segmentation. Les
moyennes obtenues avec notre base et avec les images originales sont proches des valeurs indiques dans (Poupon et al. (2008)).
Le tableau 5.3 prsente les valeurs des paramtres et appris sur notre base, ainsi quune
comparaison avec les valeurs fournies par Poupon et al. (2008). Les valeurs apprises partir des
images originales sont assez proches de ces dernires valeurs, alors que celles calcules avec les
images corriges sont un peu plus loignes.
TAB . 5.3 Comparaison des valeurs et apprises sur notre base pour chacune des structures
avec les valeurs prsentes par Poupon et al. (2008). Les valeurs apprises avec les images originales sont assez proches des valeurs initiales. Il y a plus de diffrences avec les images corriges.
Structure :
Noyau caud
Thalamus
Putamen
Globus Pallidus
Accumbens

Poupon et al. (2008)

0,305
1,328
0,633
1,374
0,508
1,072
0,945
0,926
0,265
1,016

Img. Originales

0,305 1,675
0,617 1,899
0,539 1,210

Avec corrections

0,244
1,398
0,578
1,585
0,527
1,023

Nous avons galement effectu un apprentissage en sparant les images de la base IBSR, les
images de la base OASIS et les images des cas pathologiques. Le tableau prsente les valeurs obtenues avec des images corriges, pour les trois ensembles dimages. Nous utiliserons ces dernires
valeurs dans nos expriences.

129

TAB . 5.4 Comparaison des valeurs et apprises pour chacun des ensembles de la base (IBSR,
OASIS et les cas pathologiques).
IBSR
Structure :
Noyau caud
Thalamus
Putamen

0,216
0,557
0,545

1,208
1,586
0,976

OASIS

0,278 1,398
0,606 1,152
0,505 1,024

Cas Pathologiques

0,303
1,693
0,592
1,483
0,485
1,341

Une fois les caractristiques x


o et o connues, nous pouvons les utiliser pour effectuer un
seuillage de limage. Les deux seuils ont t fixs arbitrairement aux valeurs suivantes : x
o - o
et x
o + o . Nous obtenons ainsi une carte dappartenance une structure particulire du cerveau,
La figure 5.14 prsente les cartes obtenues pour les structures suivantes : noyau caud, thalamus
et putamen. Nous pouvons voir sur cette figure que la carte du thalamus en particulier ne permet
pas de distinguer clairement la structure malgr la connaissance de ses caractristiques.

image

P (x CN )

P (x T H)

P (x P U ))

F IG . 5.14 Carte dappartenance trois structures crbrales : le noyau caud (CN), le thalamus
(TH) et le putamen (PU). Les valeurs (, ) utilises pour chacune des structures sont les suivantes : pour le noyau caud (0, 305; 1, 328), pour le thalamus (0, 633; 1, 374) et pour le putamen
(0, 508; 1, 072).

Identification et segmentation initiale :


Le seuillage de limage grce aux caractristiques radiomtriques permet dobtenir une carte
dappartenance la structure recherche. Cependant, elle nest pas suffisante pour identifier la
structure. Linformation spatiale permet de rduire lespace de recherche autour de la structure.
Une ouverture morphologique permet de sparer les diffrentes composantes restantes. La restriction de lespace de recherche permet alors de considrer la plus grande composante restante
comme tant la segmentation initiale de lobjet recherch. Cette segmentation na pas besoin dtre
trs prcise, car elle sera affine par la suite grce au modle dformable.
Les diffrentes tapes qui permettent dobtenir la segmentation initiale sont illustres dans la
figure 5.15 en prenant lexemple de la segmentation dun thalamus (gauche) partir des relations
spatiales issues du ventricule latral gauche et du troisime ventricule.

130

5. O PTIMISATION

AVEC INFORMATION VISUELLE

processus de segmentation du thalamus :

carte dappartenance

ouverture morphologique

zone dintrt

Segmentation initiale

Segmentation finale

F IG . 5.15 Les diffrentes tapes du processus de la segmentation du thalamus selon la mthode


propose par Colliot (2003). Les relations spatiales utilises sont les relations entre le ventricule
latral, le troisime ventricule et le thalamus. La carte dappartenance (en haut gauche) est calcule partir dune analyse de limage selon la mthode propose par Poupon et al. (2008). Cette
carte est masque par la rgion dintrt, qui est une conjonction des reprsentations des relations
spatiales ayant la structure comme cible (en haut au centre). Une ouverture morphologique permet
de sparer les composantes. En particulier ici, un morceau du noyau caud apparaissait en haut de
la zone dintrt. La plus grande composante connexe est conserve comme segmentation initiale
(aprs une fermeture morphologique, en bas gauche). La segmentation initiale et les relations
spatiales sont utilises pour initialiser un modle dformable et obtenir la segmentation finale (en
bas droite).
Modle dformable contraint par les relations spatiales :
Le modle dformable a t dcrit en dtail par Colliot (2003). Le modle retenu utilise un
maillage simplexe. La particularit du schma dvolution est dintgrer les relations spatiales
comme une force. Lvolution de la surface dformable S est dcrite par lquation suivante :
S
= Fint (S) + Fext (S)
t
o Fint est la force interne contrlant la rgularit de la surface, dcrite ainsi :

Fint (S) = 2 S 2 (2 S)

(5.13)

(5.14)

131
et o Fext est la force externe qui attire la surface vers les contours de lobjet recherch. La force
externe est une combinaison de deux forces :
Fext (S) = FC + FR

(5.15)

o FC est une force dattache aux donnes drives dun Gradient Vector Flow (Xu et Prince
(1998)). La force FR est une force drive des relations spatiales utilises pour dfinir la rgion
dintrt. Pour chacune des structures segmenter, nous utilisons les mmes paramtres dvolution pour ce modle dformable.
Cette mthode de segmentation ncessite que la rgion dintrt, dfinie par les relations spatiales, soit prcise. Si elle est trop restrictive, alors une partie de lobjet ne pourra pas tre segmente. Dun autre ct, si elle est trop large, alors lidentification de la composante ne peut plus
seffectuer uniquement par la taille. De tels problmes peuvent apparatre dans notre cas lorsque
nous utilisons le rsultat des segmentations prcdentes pour estimer la rgion dintrt et pas uniquement des structures de rfrence. Nous verrons dans la prochaine partie comment nous pouvons
essayer de prendre en compte ce type de problme.
Dautres problmes (dcrits dans Colliot (2003)) peuvent survenir :
lorsque la carte dappartenance ne permet pas de faire apparatre clairement la structure,
car louverture morphologique risque de faire disparatre tout ou partie de la composante
correspondant lobjet recherch,
ou au contraire, lorsque louverture morphologique ne permet pas de sparer des composantes correspondant diffrents objets de manire automatique (une mthode base de
ligne de partage des eaux est propose).
Nous allons voir prsent comment nous pouvons valuer le rsultat dune segmentation.

5.2.8 Mise jour du graphe


Nous avons raisonn jusquici partir du modle structurel et de linformation de saillance
pour guider le choix dune structure segmenter. La segmentation dune structure apporte une
connaissance importante pour la suite du processus, qui permet de spcialiser progressivement le
graphe vers le cas spcifique pris en compte. Cette information nous permet en outre de reprsenter
les relations spatiales utilises dans la suite du processus.
Il est donc important de pouvoir qualifier le rsultat dune segmentation afin de pouvoir adapter
la stratgie si ncessaire. Nous prsentons dans cette partie les diffrents cas envisager.
Lorsquune structure est segmente, le processus de segmentation utilise toute linformation
spatiale disponible dans le modle pour contraindre le processus de segmentation, en dfinissant
une zone dintrt tout dabord (la localisation de la structure), puis en contraignant le modle
dformable grce linformation spatiale ensuite. Cependant, lors de lvaluation de la segmentation, nous nous limitons aux interactions entre la structure qui vient dtre segmente et la dernire structure segmente qui a fourni une information spatiale utilise pour la segmentation. Cette
structure est dsigne comme la structure parente de la structure segmente. En cas dchec du
processus de segmentation, ou si le rsultat est jug non satisfaisant selon les critres que nous prsentons ensuite, les dcisions concernent la structure segmente, mais aussi la structure parente,
dont la segmentation peut tre supprime.
Nous proposons principalement une stratgie en cas de problme de segmentation : nous pouvons contraindre le systme changer de chemin, cest--dire ne pas essayer de segmenter nouveau une structure dans les conditions qui ont donn un rsultat non satisfaisant. En pratique, une
structure est marque comme tant non segmentable tant quune structure voisine dans le graphe

132

5. O PTIMISATION

AVEC INFORMATION VISUELLE

na pas t segmente. La segmentation dune structure voisine permet dutiliser linformation


spatiale porte par larc entre les deux structures, et ainsi dapporter de nouvelles informations. Si
aucune structure ne permet dapporter une information nouvelle, alors la structure ne peut pas tre
segmente de nouveau.
la sortie du processus de segmentation dune structure, nous prenons en compte diffrents
cas possibles, en fonction du rsultat de la segmentation. Nous distinguons cinq cas :
si la segmentation a chou, cest--dire que limage produite est vide dinformation, alors
nous souhaitons contraindre le processus choisir un nouveau chemin :
1. si une structure parente existe, alors sa segmentation est supprime et elle ne pourra
tre segmente de nouveau en ltat ;
2. sinon cest la structure courante qui ne pourra pas tre segmente de nouveau en ltat ;
si une segmentation a t produite, alors elle est value selon un critre de cohrence spatiale et selon un critre reposant sur la saillance :
3. soit la cohrence spatiale est trop faible, et dans ce cas la structure parente est supprime et ne pourra tre segmente de nouveau en ltat ;
4. soit la cohrence spatiale est suffisante mais le critre reposant sur la saillance est
trop faible. Dans ce cas la segmentation est refuse et cette structure ne pourra tre
segmente de nouveau en ltat ;
5. soit la segmentation est accepte selon les deux critres, et le graphe peut tre mis
jour.
Nous allons prsent prsenter ces diffrents cas, les critres dvaluation, et les actions quils
engendrent. La figure 5.16 schmatise les diffrents cas et les actions.
5.2.8.1

Pas de segmentation

Tout dabord, il est possible quaucune segmentation ne soit possible, et cela pour deux raisons :
soit la localisation a t mal dfinie, et est trop restrictive,
soit la carte dappartenance est insuffisante, mais ce problme est intrinsque la mthode
de segmentation. La carte dappartenance a t dcrite dans la partie 5.2.7.
Nous navons pas de critre permettant de sparer ces deux cas. Une localisation est meilleure
si elle est plus prcise, donc plus restrictive quune autre. Mais si elle est trop restrictive, alors
la segmentation peut chouer. valuer la pertinence dune localisation ncessite un a priori sur la
taille de la structure vise, ce que nous ne possdons pas. Fixer un seuil de taille peut galement
tre hasardeux. De plus, mme si la localisation a la taille de la structure, cela ne signifie pas que la
structure est comprise, tout ou partie, dedans. La segmentation dune structure est donc effectue
sans valuation de la localisation au pralable.
Si la segmentation a chou, alors nous pouvons uniquement mettre lhypothse que la segmentation dune structure parente a donn une localisation trop restrictive. Sil y a une structure
parente, alors nous supprimons sa segmentation, et nous lempchons dtre segmente de nouveau en ltat.
Si la structure parente nexiste pas, alors dans ce cas, la structure a t segmente partir des
structures de rfrence et le problme ne provient pas de la dfinition de la localisation. Dans ce
cas, nous souhaitons galement contraindre le processus utiliser un autre chemin, afin de laisser
au processus la possibilit de segmenter nouveau cette structure une fois que nous aurons acquis
plus dinformation sur sa localisation.

133

Segmentation de O

Il y a une segmentation ?
non

oui

Cohrence
spatiale
invalide
valide

Trouver la
segmentation
parente P
elle existe

Supprimer la
segmentation de P

Evaluation

elle nexiste pas

invalide

Empcher
O dtre resegment
dans ces conditions

valide

Accepter la
segmentation de O

Mise jour
du graphe
Empcher
P dtre resegment
dans ces conditions
Itrer le processus

F IG . 5.16 Procdure pour valuer la segmentation. Si la segmentation choue, alors le systme


est contraint de changer de chemin et de ne segmenter nouveau la structure identifie comme
responsable quaprs avoir obtenu de nouvelles informations sur cette structure. Si une segmentation est produite, alors la cohrence spatiale avec la structure parente est value et cette dernire
peut tre supprime si elle nest pas suffisante. Sinon, une distribution de saillance est gnre et
elle est compare la distribution apprise pour cette structure. Soit la segmentation est accepte,
soit elle ne lest pas et dans ce dernier cas, le systme est contraint changer de chemin.
5.2.8.2

Il y a une segmentation

Si nous avons obtenu une segmentation, nous souhaitons faire une estimation de la qualit de
cette segmentation. Mais, puisque nous ne souhaitons pas utiliser les reprsentations des structures,
cette valuation ne doit pas non plus reposer sur une comparaison avec un modle morphologique
de cette structure par exemple.
Nous proposons deux critres pour valuer le rsultat de la segmentation obtenue. Le premier critre value la cohrence spatiale du modle aprs la segmentation. Le deuxime critre
repose sur lapprentissage de la saillance pour la structure segmente. Ce critre est une mesure
intrinsque de la segmentation (une attache aux donnes).
valuation de la cohrence du modle spatial :
Afin de pouvoir valuer la cohrence du modle, nous pouvons nous reposer sur les reprsen-

134

5. O PTIMISATION

AVEC INFORMATION VISUELLE

tations des relations spatiales qui sont dj dans le modle, et sur les relations que la nouvelle
segmentation permet de reprsenter. Ces dernires visent aussi bien des structures non segmentes
que des structures dj segmentes.
La structure qui vient dtre segmente se situe ncessairement dans la localisation dfinie par
les relations spatiales visant cette structure. Ces relations spatiales napportent donc pas dinformation sur la cohrence du modle. Dun autre ct, les relations issues de la structure qui vient
dtre segmente et pointant vers des structures dj segmentes (donc les relations inverses de
celles qui ont t utilises pour sa segmentation), peuvent nous fournir une information.
Nous proposons donc dvaluer, laide dune mesure de satisfaction floue introduite dans
le chapitre prcdent, si les relations inverses sont satisfaites par la segmentation. La mesure de
satisfaction fs est dfinie ainsi (Bouchon-Meunier et al. (1996)) :
fs (Rel, Obj) =

xS

min(Rel (x), Obj (x))


,
xS Obj (x)

(5.16)

o S dsigne lespace de limage. Cette mesure sera maximale si la structure reprsente par obj
est situe dans le noyau de la relation reprsente par rel . En particulier, cette satisfaction sera
trs faible si une segmentation est trs petite par rapport la structure vise. Cela peut se produire
lorsquune segmentation prcdente a reconnu la mauvaise structure. Nous utilisons pour ce critre
un seuil qui a t fix exprimentalement 0, 5.
Nous illustrons cet exemple dans la figure 5.17. Dans ce cas, la segmentation du thalamus,
effectue en premier, a chou. La carte binaire utilise (sur limage de gauche) inclut les autres
structures qui sont de plus connectes. La segmentation slectionnant la plus grande composante,
celle correspondant au thalamus, est supprime et le noyau caud et le putamen sont reconnus
comme tant le thalamus. La comparaison des histogrammes de saillance ne permet pas dans
ce cas de dtecter le problme. La segmentation du noyau caud qui est effectue juste aprs
donne une segmentation quasi vide (quelques pixels). Les relations spatiales issues du noyau caud
vers le thalamus sont alors reprsentes, permettant de calculer la satisfaction floue entre cette
reprsentation et la segmentation du thalamus. La satisfaction dans ce cas donne une valeur de 0,
ce qui permet de dtecter un problme. Dans ce cas, la segmentation du thalamus sera supprime,
ce qui permettra de segmenter le noyau caud avant le thalamus.
Comparaison de la saillance de la segmentation :
La comparaison des histogrammes de saillance est une mesure indicative, car elle ne compare
pas une caractristique particulire de la structure. La distribution de saillance apprise pour une
structure nous donne plutt une valuation de laspect visuel dune structure au sens de la saillance.
En ce sens, cela permet de grer la variabilit naturelle des structures anatomiques. Mais cela ne
garantit pas de dtecter un problme de segmentation, en particulier cela ne nous donne pas une
valuation de la prcision de la segmentation. Cependant, cette nous permet dobtenir une attache
aux donnes.
Pour cela, nous avons besoin dun histogramme de saillance dfini partir du rsultat de la
segmentation. Cet histogramme est dfini ainsi :
saillanceseg = (segv , salI ) ,

(5.17)

o salI est la carte de saillance de limage que nous explorons et segv reprsente la carte binaire
de la segmentation. Lhistogramme de cette zone sera dfini avec le mme niveau de quantification
que prcdemment (N = 100) de cette manire :
1(saillanceseg (x)) ,

Hv [i] =
xS

135

F IG . 5.17 Illustration dun problme de segmentation dtect grce la cohrence spatiale.


Lestimation de la radiomtrie (la carte binaire obtenue est gauche) na pas permis de sparer le
thalamus du noyau caud et du putamen, et ce sont ces dernires structures qui ont t segmentes
et reconnues comme tant le thalamus. La comparaison des distributions de saillance ne permet
pas de dtecter cette erreur. La segmentation du noyau caud par la suite est limite un point.
Les relations spatiales issues du noyau caud peuvent tout de mme tre reprsentes ( droite). Le
calcul de la satisfaction entre lensemble flou des relations issues du noyau caud et la segmentation du thalamus est de 0 et permet donc de dtecter le problme. Dans ce cas, la segmentation du
thalamus doit tre supprime pour contraindre le processus segmenter dautres structures avant
celle-ci.
o 1(.) reprsente la fonction indicatrice.
Nous pouvons ensuite comparer la distribution de saillance obtenue la distribution apprise
pour le modle laide dune mesure EMD (eq 5.1). Le modle fournit la distribution moyenne,
mais galement la moyenne des distances EMD cette distribution, ainsi que la variance de cette
mesure. Nous pouvons donc centrer et rduire les valeurs. La distance entre les distributions de
probabilit de la segmentation et du modle dune structure o est donc dfinie ainsi :
do (sego , modo ) =

o
EM D(sego , modo ) mod
.
modo

o sego reprsente la distribution de saillance issue de la segmentation, modo la distribution ap o la moyenne des distances EMD entre chaque cas de la base et la
prise pour cette structure, mod
distribution moyenne pour cette structure, et modo lcart-type de ces distances.
Les donnes tant centres et rduites, nous pouvons fixer un unique seuil pour toutes les
structures T = 2modo , considrant quun cart suprieur deux fois lcart type de la distribution
nest plus acceptable.
Dcision :
Dans le cas o nous avons une segmentation, nous avons donc deux critres. Nous allons commencer par regarder si la cohrence spatiale est respecte. Si ce nest pas le cas, alors nous supprimons la structure parente considre comme responsable de lincohrence constate. La cohrence est mesure uniquement sur larc entre la structure et sa structure parente, si elle existe. Si
elle nexiste pas, alors la cohrence nest pas prise en compte.

136

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Nous regardons ensuite la distance entre les distributions de saillance, laide du seuil que
nous avons dfini. Si la distance est suprieure au seuil, alors la segmentation est refuse et la
structure ne pourra tre segmente de nouveau sans informations supplmentaires.
Enfin, si les distributions sont suffisamment proches, alors la segmentation est accepte et le
graphe peut tre mis jour avec cette segmentation.
5.2.8.3

chec de la segmentation dune structure

Si une segmentation choue, et quil ny a pas de structure parente blmer pour cela, alors
il est possible que la structure concerne ne puisse tre segmente de nouveau quavec les mmes
conditions, cest--dire en suivant le mme chemin. Dans ce cas, la segmentation de cette structure
a chou, et il nest plus possible de la segmenter.
5.2.8.4

Structure de contrle

Le fait de supprimer des segmentations et de contraindre le modle changer de chemin peut


faire boucler le processus. Par exemple, si nous segmentons des structures dans cet ordre : thalamus, noyau caud, putamen, si la segmentation du putamen choue, alors la segmentation du
noyau caud, sa structure parente peut tre supprime. Le processus peut alors tre conduit segmenter les structures dans cet ordre : thalamus, putamen, noyau caud. Mais si la segmentation du
noyau caud choue, alors la premire solution sera tente de nouveau.
Pour viter ce problme, et pour ne pas essayer de segmenter de nouveau le mme chemin,
cest--dire de ne pas segmenter de nouveau des structures dans les mmes conditions, alors nous
avons recours une structure darbre. Une structure (anatomique) dans cet arbre aura pour pre
la structure parente que nous avons dfinie. chaque nouvelle segmentation effectue, un nouveau
nud est ajout dans larbre. Si la segmentation nest pas accepte, larbre reste inchang, mais
la trace de lchec est reporte dans le nud correspondant. La racine de cet arbre est un nud
correspondant toutes les structures de rfrence.
Outre le fait de garder une trace des segmentations dj effectues, nous avons introduit une
procdure permettant de dtecter un sous-arbre dont toutes les possibilits de chemin sont puises, mais qui na pas permis dobtenir une segmentation acceptable de toutes les structures prsentes dans ce sous-arbre. Cette procdure nous permet de considrer lensemble des chemins de
ce sous-arbre comme dfaillant et, de cette manire, de supprimer les structures segmentes de cet
arbre. Nous pouvons ainsi contraindre le processus explorer dautres parties de larbre.
Grce cette structure, nous pouvons garantir quun chemin ne sera pas segment deux fois.
De plus, nous conservons les rsultats des critres dvaluation de chaque segmentation dans la
structure de larbre, ce qui permet une valuation a posteriori des chemins. La figure 5.18 prsente
un exemple de la structure de larbre au cours du processus.
Dune manire plus gnrale, le processus dvaluation avec les critres, notre stratgie en
cas dchec et la structure de contrle nous permettent dapporter une contribution un problme
inhrent aux segmentations squentielles, qui, en utilisant linformation recueillie au cours du processus, favorisent la propagation des erreurs. Ainsi, le processus de segmentation est plus robuste
aux checs potentiels et le processus de contrle permet de les corriger.
5.2.8.5

Mise jour du graphe

Une fois la segmentation de lobjet valide, il faut prsent mettre jour le graphe. Tout
dabord, il faut mettre jour le nud reprsentant la structure qui vient dtre segmente. Le

137

R
CDr

CDr CDl

THr

THr
X

THl

CDr CDl THr

THr

THl

CDr CDl THr

CDr
X

THr

THl

PUl

CDr

CDr

THr

CDl THr

PUr THl

CDr

THr PUl

F IG . 5.18 Larbre de contrle au cours du processus. Les structures notes en bleu sont les structures segmentes prsentes dans larbre. Les structures en rouge indiquent une segmentation qui
a chou. Les structures en noir reprsentent les structures dont la segmentation a chou ou dont
la segmentation a t supprime. 1) Les deux premires tapes ( gauche) : le noyau caud droit
a t segment, puis la segmentation du thalamus choue cause de la cohrence spatiale, ce qui
provoque la suppression de la segmentation de sa structure parente, le noyau caud. 2) Au cours
des deux tapes suivantes, le noyau caud gauche puis le thalamus gauche sont correctement segments. 3) Le thalamus droit est ensuite segment. Il faut noter que le noyau caud droit nest pas
segmentable cet instant, mais que la segmentation du thalamus va rendre possible sa segmentation. Mais la segmentation choue et la segmentation du thalamus est supprime. 4) Le putamen
gauche est segment correctement. 5) La premire segmentation du noyau caud droit est rtablie,
afin de permettre au processus dexplorer la branche manquante de cet arbre. La segmentation du
putamen droit est effectue correctement, puis le thalamus droit finalement.
nud ne reprsente donc plus uniquement la connaissance gnrique mais contient galement
linformation de limage.
Une fois le nud mis jour, nous pouvons mettre jour les arcs issus de ce nud. Sur chacun de ces arcs, nous gnrons les reprsentations des relations spatiales portes par cet arc. Ces
reprsentations seront utilises ensuite pour calculer les localisations des structures voisines (ou
uniquement les prciser si elles taient dj connectes un nud prcdemment segment. La
figure 5.19 ( droite) montre comment la localisation dune structure (le thalamus) est prcise
aprs segmentation du noyau caud.
Il est galement ncessaire de mettre jour les nuds viss par ces arcs. En effet, ltape
dvaluation de la segmentation, nous pouvons tre amens contraindre le modle ne pas segmenter de nouveau une structure tant quune nouvelle information (spatiale) nest pas disponible.
Si une segmentation est accepte, alors cela constitue une information nouvelle pour les nuds
voisins. Ils peuvent donc tre segments nouveau, et la restriction est leve.
Enfin, il est ncessaire de mettre jour les ensembles de nuds utiliss au cours du processus :
lensemble des nuds segments Vseg reoit le nud v et lensemble des nuds objectifs Vobj est
priv de ce nud. Dans la continuation de notre exemple, le graphe de la figure 5.9 mis jour est
illustr par la figure 5.19 gauche.
Les ensembles Vf s et Vf o sont galement mis jour. Dun ct, tous les nuds de Vf s qui ne
sont plus connects au moins une structure non segmente (dans lensemble Vobj ) sont supprims
de cet ensemble. Dun autre ct, il faut ajouter dans Vf o tous les nuds de Vobj qui ntaient pas
dj dans cet ensemble et qui sont prsent relis un nud segment. Lensemble des arcs Ef
est mis jour partir des ensembles Vf s et Vf o .
Lexploration de la scne consiste donc slectionner squentiellement les emplacements pr-

138

5. O PTIMISATION
111
000
000
111
000
111
000
111

000
LVl 111

D
G

V3

111
000
000
111
000
111
000
111
000
111

AVEC INFORMATION VISUELLE

Cdl
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111

B H

Pul

H
Dv B
Dr
G

Thl

Localisation du
Localisation du
Graphe mis jour la fin de ltape i thalamus ltape thalamus ltape
i+1
i
F IG . 5.19 Mise jour du graphe. Aprs segmentation du noyau caud, il est ajout dans les
structures segmentes (les structures grises dans le graphe gauche). Le thalamus est toujours
dans lensemble des nuds Vf o candidats une segmentation. Le putamen, qui ntait reli
aucune structure segmente, est maintenant plac dans cet ensemble. La mise jour du graphe
permet de prendre en compte linformation recueillie sur limage au cours du processus. gauche,
la localisation du thalamus la premire tape est estime partir des relations au ventricule et
au troisime ventricule. droite, la localisation du thalamus mise jour aprs segmentation du
noyau caud (en vert) est plus prcise (cest--dire moins tendue) grce la prise en compte des
relations spatiales entre le noyau caud et le thalamus dans ce cas.
sentant les meilleures saillances au sens du critre retenu, cette slection permet la segmentation
et la reconnaissance immdiate dun objet du modle gnrique (lobjet segment tant identifi). Le graphe, qui ne porte au dpart quune connaissance gnrique est donc progressivement
spcialis avec linformation de limage qui est segmente. Cette approche ne dpend pas dune reprsentation des objets que nous devons reconnatre, comme ctait le cas de la premire approche
prsente. Enfin, cette approche nous permet de directement prendre en compte de linformation
provenant de limage segmenter, et donc une meilleure adaptation, plutt que de compter sur une
exhaustivit du modle.

5.3 Expriences
Nous avons effectu la segmentation des images dans le cas sain. Nous allons dabord dtailler
le droulement du processus pour un volume particulier. Nous prsentons ensuite les rsultats sur
un ensemble dimages en nous intressant tout dabord aux diffrentes squences de segmentation
obtenues, puis nous prsentons des rsultats de segmentation sur la base de cas sains.

5.3.1 Droulement du processus


Toutes les illustrations sont des coupes extraites des volumes rsultats, mais tous les calculs
sont effectus en trois dimensions. Les figures 5.20, 5.21 et 5.22 prsentent les diffrentes tapes
du processus. Nous prsentons pour chaque image la mme coupe extraite des volumes (100). La
squence de segmentation suivie est la suivante :

139
Noyau caud droit
Thalamus droit
Putamen droit
Thalamus gauche
Noyau caud gauche
Putamen gauche
Nous pouvons remarquer que le chemin suivi dans lhmisphre droit nest pas le mme que
le chemin suivi dans lhmisphre gauche. Cependant, comme le montrent les histogrammes de
saillance prsents dans la figure 5.20, les localisations entre le noyau caud et le thalamus produisent des distributions de saillance trs proches. Le choix de lun ou lautre repose donc sur de
petites diffrences. La raison principale pour laquelle les localisations entre ces deux structures
sont proches est quelles sont en grande partie confondues car elles reposent principalement toutes
les deux sur les relations issues de la mme structure (le ventricule), qui est grand par rapport aux
deux structures.
La figure 5.20 prsente la premire tape qui dbouche sur la segmentation du noyau caud
droit. En haut de la figure, nous pouvons voir le graphe initial. Les nuds candidats la segmentation Vf o sont reprsents en vert, et les structures de rfrence en bleu (Vf s la premire tape).
Les structures de rfrence apparaissent galement en bleu sur limage gauche du graphe. La
connaissance spatiale utilise cette tape est porte par les arcs reprsents en rouge.
Les localisations des quatre structures candidates sont gnres. Elles sont reprsentes sur
la deuxime ligne de la figure. Les structures de rfrence sont toujours reprsentes en bleu.
La structure dont nous calculons la localisation a t ajoute en vert sur la localisation afin de
permettre une estimation de la prcision de cette localisation.
Les histogrammes de saillance et les histogrammes cumuls correspondants sont ensuite calculs. La structure segmenter est slectionne daprs le critre de saillance. La segmentation
obtenue est prsente en rouge sur limage en bas gauche de la figure. Cette segmentation est
correcte. Le graphe est alors mis a jour. Le noyau caud droit est ajout dans Vf s , le putamen est
ajout dans Vf o . Lensemble darcs Ef est mis jour en supprimant larc entre le ventricule et le
noyau caud droite, et en ajoutant larc entre le noyau caud et le putamen.
Les figures 5.21 et 5.22 prsentent les tapes suivantes du processus. Pour chacune, nous
prsentons trois lments : tout dabord les localisations calcules ou mises jour. Celles qui
sont identiques ltape prcdente, si aucune nouvelle information nest intervenue, ne sont pas
reportes ; ensuite, la segmentation effectue cette tape ; et enfin le graphe mis jour.
Enfin, la segmentation finale obtenue est prsente en bas de la figure 5.22, et dans deux
vues diffrentes. La segmentation des noyaux cauds est bonne. La segmentation des thalamus est
presque correcte. Il manque un morceau du thalamus de gauche. La segmentation des putamens
est moins correcte. Il manque dans les deux cas la queue du putamen, qui est assez fine et difficile
obtenir.

5.3.2 Les squences de segmentation


La figure 5.23 prsente de manire synthtique les diffrentes squences de segmentation obtenues pour les cas sains de notre base. Nous avons spar les structures de chaque ct de lhmisphre pour ne laisser, de chaque ct, que quatre chemins possibles. La figure reflte le nombre
doccurrences de chaque chemin.
Un chemin en particulier apparat dans la majorit des cas, il sagit du chemin qui a t dfini de manire ad hoc par Colliot (2003), ce qui montre la pertinence de ce choix. Dans cette

140

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Premire tape :
Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v

Segments

Thr

Thl

Candidats

Graphe i = 0

structures segmentes

Localisations :

Noyau caud droit

Noyau caud gauche

Thalamus droit

0.08

Thalamus gauche

1
0.9

RCN
RTH
LCN
LTH

0.07

0.06

RCN
RTH
LCN
LTH

0.8
0.7

0.05

0.6

0.04

0.5
0.4

0.03

0.3
0.02
0.2
0.01
0

0.1

10

20

30

40

50
Saliency

60

70

80

90

100

histogrammes de saillance

10

15

20

25
Saliency

35

40

45

50

histogrammes cumuls

Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v
Thr

Segmentation

30

Segments
Thl

Candidats

Graphe i = 1

F IG . 5.20 Premire tape du processus de segmentation squentielle. Le graphe initial est prsent en
haut. Les arcs utiliss cette tape sont en rouge. Les localisations des structures candidates sont prsentes
en-dessous, lensemble flou correspondant apparat en blanc, et la structure correspondante t ajoute
(en vert). Les histogrammes de saillance sont trs proches, mais les localisations se chevauchent en grande
partie. La structure segmente est le noyau caud droit (en rouge). Le graphe mis jour est prsent en bas.
Le putamen droit est ajout aux structures candidates.

141
Deuxime tape :

Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v

Segments

Thr

Thalamus droit

Candidats

Graphe i = 2

Segmentation

Putamen droit

Thl

Troisime tape :

Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v

Segments

Thr

Putamen droit

Thl

Candidats

Graphe i = 3

Segmentation
Quatrime tape :

Cnl

Cnr
Lvr

Lvl

Pur

Pul

3v
Thr

Noyau caud
gauche

Thalamus gauche

Segmentation

Segments
Thl

Candidats

Graphe i = 4

F IG . 5.21 Les tapes 2 4 du processus. Seuls les ensembles flous des localisations mises
jour sont prsents. Le graphe mis jour chaque tape est prsent sur la droite. Les structures
segmentes sont le thalamus droit, puis le putamen droit et le thalamus gauche.
squence de segmentation, la premire structure reconnue est le noyau caud (en utilisant les relations spatiales issues du ventricule latral). La deuxime structure est le thalamus, qui profite de
linformation spatiale provenant de 3 structures, le ventricule, le troisime ventricule et le noyau
caud. Enfin, le putamen, qui profite des relations issues des deux structures dj segmentes : le
noyau caud et le thalamus. Le deuxime chemin est proche, il y a juste une inversion entre le
noyau caud et le thalamus. A chaque tape, avec ces deux chemins, linformation spatiale utilise
provient dau moins deux structures.
Cela nest pas le cas avec les deux autres chemins, qui sont galement beaucoup moins fr-

142

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Cinquime tape :

Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v

Segments

Thr

Noyau caud
gauche

Putamen gauche

Thl

Candidats

Graphe i = 5

Segmentation
Sixime tape :

Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v
Thr

Putamen gauche

Segmentation

Segments
Thl

Candidats

Graphe i = 6

Segmentation finale :

F IG . 5.22 Les deux dernires tapes (5 et 6). Les structures segmentes sont le noyau caud
gauche et le putamen gauche. La segmentation de limage est prsente en bas dans deux vues
diffrentes : axiale et coronale.
quents. Dans ce cas, la segmentation du putamen, en deuxime position, seffectue avec de linformation spatiale issue dune unique structure. Plus une localisation utilise dinformation provenant
de diffrentes structures, plus la disjonction va rduire la localisation. Dans notre cas, cela signifie
que la localisation est plus prcise. Les rsultats montrent que les chemins plus prcis sont privilgis aux autres chemins. Cet effet nest pas directement li au critre de saillance. Cependant, il
est prfrable davoir des chemins plus prcis, ce rsultat est donc satisfaisant.

143
Plus gnralement, nous avons une certaine variabilit dans les chemins suivis. Il y a galement
une variabilit entre les deux hmisphres, la premire structure segmente tant slectionne dans
un ct ou un autre avec une frquence similaire. Il y a principalement deux facteurs pour la
slection des structures :
la morphologie des structures de rfrence, utilises pour calculer les localisations des premires structures ;
et la saillance de ces localisations.
Dans les deux cas, nous tenons compte des informations de limage pour effectuer le choix, ce qui
tait un objectif de cette approche.
Changements de chemin au cours du processus :
Nous prsentons dans les tableaux 5.6 et 5.5 les occurrences o le processus a dtect un problme au cours du processus, et a d changer de chemin. La dtection dun problme dans limage
ne signifie pas que la segmentation finale sera errone, mais uniquement que le chemin initial na
pas permis deffectuer la segmentation complte, et quil a t ncessaire de ladapter au cours du
processus.
Le premier tableau donne la rpartition du type de problme dtect, identifi par le critre
correspondant. Les chiffres proviennent de la segmentation des 30 cas sains de la base. Au cours
de lensemble des processus de segmentation de ces images, 195 segmentations ont t initialement acceptes, alors que 38 segmentations ne lont pas t. Parmi les segmentations acceptes,
certaines seront supprimes a posteriori si elles sont dsignes responsable de lchec dune segmentation ultrieure sur laquelle elles ont une influence. Dans la grande majorit des cas, cest le
critre de cohrence spatiale qui a t utilis pour rejeter une segmentation. Cependant ce critre
est le premier critre test et sil nest pas satisfait, alors le critre de saillance nest pas test. Ce
rsultat montre tout de mme la pertinence de ce critre. Le critre sur les distributions de saillance
est ensuite peu utilis.
TAB . 5.5 La rpartition des problmes dtects au cours du processus et qui ont men un
changement de chemin. Dans la grande majorit des cas, cest le critre de cohrence spatiale qui
a dtect le problme. Le critre de saillance nest presque jamais utilis. Il y a peu de cas o
aucune segmentation nest produite.
segmentation initialement accepte
195
critre de saillance
2
segmentation refuse pas de segmentation
5
cohrence spatiale
31
Le deuxime tableau indique une rpartition des images en fonction du nombre de changements de chemin effectus, et cela en diffrenciant les images de la base IBSR et celles de la base
OASIS. Pour la plupart des images, il ny a pas ou peu (1) de changements de chemin ncessaires. Pour certaines images, le chemin ncessite plus dadaptations. Le nombre de changements
effectus permet ainsi de mesurer la difficult de segmentation dune image en particulier, sans en
donner les raisons de manire explicite. Les rsultats confirment la difficult de segmentation de
la base IBSR par rapport la base OASIS.

5.3.3 Les rsultats de segmentation


Nous prsentons dans les figures 5.24 et 5.25 les rsultats de la segmentation sur les images
de cas sains de notre base. Comme prcdemment, les expriences sont ralises sur les volumes

144

5. O PTIMISATION

AVEC INFORMATION VISUELLE

Chemin 1 :
Cnr

Cnl
Lvr

Lvl

Pur

Pul

3v
Thr

Thl

Cnr

Cnl

# Chemin
Nb occurrences gauche
Nb occurrences droite

CN TH PU
11
8

Chemin 2 :
Lvr

Lvl

Pur

Pul

3v
Thr

Thl

Cnr

Cnl

# Chemin
Nb occurrences gauche
Nb occurrences droite

CN PU TH
7
5

Chemin 3 :
Lvr

Lvl

Pur

Pul

3v
Thr

Thl

Cnr

Cnl

# Chemin
Nb occurrences gauche
Nb occurrences droite

TH CN PU
6
8

Chemin 4 :
Lvr

Lvl

Pur

Pul

3v
Thr

Thl

Cnr

Cnl

# Chemin
Nb occurrences gauche
Nb occurrences droite

TH PU CN
2
3

Chemin 1 partiel :
Lvr

Lvl

Pur

Pul

3v
Thr

Thl

Cnr

Cnl

# Chemin
Nb occurrences gauche
Nb occurrences droite

CN TH
0
1

Chemin 3 partiel :
Lvr

Lvl
Pul

Pur

3v
Thr

# Chemin
Nb occurrences gauche
Nb occurrences droite

TH CN
1
1

Thl

1re segmentation
2me segmentation
3me segmentation

F IG . 5.23 Les chemins de segmentation prsents de manire synthtique. Ces schmas ne refltent que les occurrences de chaque chemin, dans chaque hmisphre. Mais le chemin suivi dans
lhmisphre droit et celui suivi dans lhmisphre gauche peuvent tre diffrents. Les chemins
les plus frquents sont les chemins privilgiant les structures proches des structures de rfrence,
qui permettent dutiliser au mieux linformation spatiale. Lorsque le putamen est segment en
deuxime position, les relations spatiales qui permettent sa localisation ne sont issues que dune
seule structure. Le chemin le plus utilis est le chemin ad-hoc qui tait utilis prcdemment par
Colliot (2003).

145

TAB . 5.6 Rpartition des images en fonction du nombre de changements de chemin effectus par
le processus au cours de leur segmentation. Sur la plupart des images, il y a peu de changements
(0 ou 1). Dautres images ncessitent plus dadaptations au cours du processus.
IBSR
OASIS
Aucun changement
6 (35%) 7 (64%)
1 changement
2
2
2 changements
5
2
3 changements et plus
4
0
Total
17
11
en trois dimensions, mais seule une coupe est prsente ici. Le temps de calcul pour le processus
complet, sans changement de chemin, est de lordre de 75 minutes sur une machine rcente, la
calcul de la carte de saillance tant effectu part. La grand majorit de ce temps est pris par le
processus de segmentation dune structure. Le calcul des paysages flous est galement coteux,
mais lutilisation dune approximation de ces paysages permet de rduire le temps de calcul
environ 30 secondes par paysage.
Sur ces images, les structures de rfrence ont t indiques en bleu clair, les noyaux cauds
sont en jaune, les thalamus en magenta et les putamens en bleu fonc. Pour simplifier, nous avons
attribu les mmes couleurs aux structures des deux cts de lhmisphre (la mme couleur pour
les deux noyaux cauds par exemple). Sur la plupart des images, les structures ont t correctement reconnues, mme si la segmentation est parfois imprcise. Dautres images prsentent des
structures manquantes, ou des structures qui nont pas t reconnues correctement, cest--dire
quelles ont t segmentes mais que leur tiquette nest pas correcte. Cest le cas par exemple
pour limage en haut au centre de la figure 5.25 o le thalamus droit ( gauche sur limage) a une
tiquette correspondant au noyau caud droit. Ce cas de figure se prsente sur plusieurs images.
La prise en compte de la cohrence spatiale a nanmoins permis de diminuer ce type derreur. Le
seuil de la cohrence spatiale a t fix relativement bas (0, 5), ce qui explique que ce type derreur
puisse se produire encore.
Les segmentations sur la base IBSR sont moins correctes en gnral. Les images de cette base
ont t recales et les images sont souvent floues. Lorsque les frontires des structures sont fines,
comme cest souvent le cas pour les structures sous-corticales, ce flou rend le problme de la
segmentation plus difficile.
Mauvaise reconnaissance :
Une mauvaise reconnaissance est une consquence dune localisation imprcise de la structure
(si le thalamus est inclus dans la localisation du noyau caud dans notre exemple), conjointement
avec une mauvaise estimation de la radiomtrie des diffrentes structures qui ne permet pas de
les diffrencier (du noyau caud dans ce cas), cest--dire que les valeurs s et s qui estiment la
radiomtrie de la structure s ne sont pas adquates. Nous avons montr dans une partie prcdente
que les paramtres et utiliss pour estimer les valeurs s et s taient une moyenne pour
et un maximum pour de valeurs relativement disperses. Ce genre dimprcision nest donc pas
imprvu.
Imprcision des segmentations :
Nous retrouvons les problmes de segmentation du putamen dj voqus dans la prsentation
du droulement complet du processus. Le putamen est une structure qui stire et dont la pointe est

146

5. O PTIMISATION

AVEC INFORMATION VISUELLE

difficile rcuprer lors de la segmentation. En particulier lors du seuillage de la rgion dintrt,


leffet de volume partiel spare le corps du putamen de la queue, ce qui empche une bonne
segmentation. La forme de la pointe est ensuite difficile rcuprer avec un modle dformable.
Un autre problme avec le putamen se pose dans les coupes basses, o il se confond avec la matire
grise environnante.
Il y a dautres imprcisions pour la segmentation du thalamus, dont les contours ne sont
presque pas visibles dans certaines coupes, sa radiomtrie se confondant avec celle de la matire
blanche. Dans les deux cas, avec le putamen ou avec le thalamus, le problme se pose au niveau de
la segmentation initiale. Le modle dformable permet de rcuprer une meilleure segmentation,
si la solution initiale est suffisante.

5.3.4 Rsultats dans les cas pathologiques


Les expriences ralises avec des images prsentant des pathologies ont t effectues dans
des conditions similaires celles des expriences prcdentes. En particulier, lapprentissage des
relations spatiales est effectu sur la mme base dapprentissage, contenant des images saines ou
pathologiques. Les seuils utiliss dans nos expriences sont galement les mmes. La connaissance de la pathologie nest donc pas utilise ici. Nous avons toutefois effectu un apprentissage
particulier des informations a priori radiomtriques pour la base de cas pathologiques. Cependant,
si les bases IBSR et OASIS sont relativement homognes, la base de cas pathologiques lest moins,
et la moyenne des valeurs est donc moins pertinente.
La figure 5.26 prsente quelques rsultats de segmentation dans des cas pathologiques. Si les
putamens sont souvent manquants, les noyaux cauds et les thalamus sont par contre reconnus
correctement dans la plupart de ces cas. Le putamen, par sa position et sa forme allonge, est une
structure plus sensible aux dformations que dautres structures.
Les trois cas sur la premire ligne de la figure 5.26 prsentent de fortes dformations des
structures. Dans ces cas, les structures qui sont moins touches ont pu tre reconnues, alors que les
structures les plus dformes ne le sont pas. Ces rsultats nous donnent une piste afin de dtecter
la prsence dune pathologie dans le modle. Si une pathologie est dtecte, alors nous pouvons
la segmenter de manire indpendante grce aux travaux de thse de H. Khotanlou (Khotanlou
(2008)) et ajouter un nud correspondant dans le modle, reli aux autres structures. Toutefois,
une estimation de la dformation et de limpact sur les relations spatiales environnantes serait
ncessaire pour adapter le modle.

5.4 Conclusion
Nous avons prsent une approche qui intgre dans un processus de segmentation squentielle
un critre fond sur la saillance de limage que nous souhaitons segmenter et reconnatre. Cette
approche na plus besoin des reprsentations des objets avant quils ne soient segments pour
procder loptimisation du chemin, permettant une plus grande adaptation limage segmenter.
La variabilit dans les chemins de segmentation obtenus montre que nous tenons compte de la
variabilit des images dans le processus doptimisation.
Lapproche itrative prsente un avantage certain en permettant deffectuer conjointement la
segmentation et la reconnaissance des structures. Cela permet dexploiter au mieux linformation
spatiale du modle au cours du processus. Nous avons introduit un processus de contrle de la
segmentation squentielle utilisant linformation spatiale et linformation visuelle qui permet de
rendre le processus de segmentation plus robuste aux checs ventuels et de les corriger.

147

F IG . 5.24 Rsultats de segmentation dans le cas sain sur les images de la base OASIS prsentes
dans notre base.

148

5. O PTIMISATION

AVEC INFORMATION VISUELLE

F IG . 5.25 Rsultats de segmentation dans le cas sain sur les images de la base IBSR prsentes
dans notre base.

Nous avons effectu la segmentation et la reconnaissance des images de notre base. Si la


segmentation est parfois imprcise, la reconnaissance des diverses structures est, le plus souvent,
correctement effectue, en particulier grce au critre de cohrence de linformation spatiale du
modle. Ces rsultats montrent lintrt dutiliser linformation spatiale pour segmenter ce type de
structure. Les segmentations obtenues ne sont toutefois pas toujours correctes, en particulier nous
avons soulev deux problmes : la mauvaise reconnaissance dune structure (identifie comme une
autre structure) et limprcision de la segmentation.

149

F IG . 5.26 Rsultats de segmentation dans les cas pathologiques. Le contraste des images a t
augment pour une meilleure visibilit.
Nous avons galement effectu la segmentation et la reconnaissance des cas pathologiques.
Lapprentissage effectu sur la base prend en compte les cas pathologiques, en particulier dans
lapprentissage des relations spatiales, mais le processus est le mme dans les cas normaux et les
cas pathologiques. Dans ces cas, il manque des structures, surtout lorsque limage subit une grande
dformation, mais cela nous fournit une piste pour dtecter ces cas.
La saillance est issue des travaux sur les mcanismes pr-attentionnels bio-inspirs. Lapport
dun critre fond sur la saillance est de chercher dtecter ce qui est saillant dans une image,
cest--dire ce qui accroche lil ltape pr-attentionnelle. Lapprentissage de la saillance
confirme certaines intuitions sur les structures : la visibilit du ventricule, la difficult de voir des
structures comme le thalamus, dont les valeurs sont proches des valeurs de la matire environnante.
Lapproche prcdente permettait de dterminer le chemin complet avant de commencer les
segmentations. Cette approche effectue une optimisation locale uniquement, au sens o uniquement la prochaine structure reconnatre est choisie chaque tape. Dun autre ct, la premire
approche ne permettait pas de prendre en compte linformation issue de limage, alors que cette
approche permet dintgrer naturellement linformation recueillie au cours du processus.

150

5. O PTIMISATION

AVEC INFORMATION VISUELLE

151

Chapitre 6

Conclusion et perspectives
6.1 Synthse des contributions
Nous avons prsent deux types dapproches permettant doptimiser des chemins de segmentation partir dun modle structurel dune scne. La premire approche utilise linformation
spatiale contenue dans le modle ainsi que des reprsentations des structures issues dune base
dapprentissage pour effectuer loptimisation. Cette approche permet deffectuer une optimisation
complte dun chemin avant segmentation. La deuxime approche intgre un critre reposant sur
la notion de saillance dans un processus de segmentation squentielle pour optimiser le chemin,
permettant de prendre en compte linformation provenant de limage segmenter dans le processus.
Nous allons prsent dtailler les contributions et discuter chacune de ces deux approches.

6.1.1 Optimisation de chemin avec reprsentation des structures


Dans cette premire partie, nous avons propos plusieurs approches utilisant linformation
spatiale et une reprsentation des structures pour optimiser une squence de segmentation. Il sagit
dune contribution directe de nos travaux et, notre connaissance, originale.
Lutilisation dune reprsentation floue des structures permet de grer la variabilit normale
des structures mais se heurte aux mmes problmes de reprsentativit que les mthodes reposant
sur un atlas. Loptimisation propose consiste estimer la pertinence des reprsentations floues des
relations spatiales par rapport aux structures quelles visent. Lapprentissage des relations spatiales
est effectu de manire grer la variabilit normale des structures crbrales. Cela signifie que
plus une structure peut varier dans une base, plus la relation spatiale doit tre dfinie dune manire
large. Nous considrons donc que lensemble flou fusionnant les relations spatiales portes par un
arc est dautant plus pertinent que sa reprsentation est proche de la reprsentation de la structure
vise par ces relations spatiales.
La pertinence dune relation est estime avec deux types dapproches. La premire approche
est locale et consiste valuer chaque arc de manire spare, puis optimiser le chemin sur
le graphe obtenu laide de mthodes reposant sur des approches classiques de la thorie des
graphes, modifies pour mieux correspondre notre problmatique. Cette approche est limite par
lvaluation spare de chaque arc. Linformation spatiale prise en compte pour la segmentation
dune structure provient de toutes les structures du chemin dj visites, et pas uniquement de larc
prcdent du chemin. Par exemple, si nous considrons trois structures A, B et C et que toutes ces
structures sont relies entre elles, alors lvaluation du chemin A, B, C dans notre cadre ne tient

152

6. C ONCLUSION

ET PERSPECTIVES

pas compte de larc (A, C), mme si linformation quil porte est utilise dans la segmentation de
C.
La seconde approche est globale et consiste reprsenter un chemin sous la forme dun unique
ensemble flou, permettant deffectuer loptimisation en calculant une valeur reprsentant le chemin. Comme nous lavons soulign dans le chapitre 4, cette approche pose le problme de la bonne
reprsentation dun chemin. En particulier dans le cadre des structures sous-corticales considres,
o ces structures sont proches les unes des autres et o des parties de ces structures sont souvent
adjacentes (les botes englobantes des structures ne sont pas du tout spares), la reprsentation
dun chemin est un problme difficile. Il est ncessaire davoir suffisamment dinformation pour
reprsenter toutes les parties dun chemin. Il est galement ncessaire que la reprsentation dun
chemin ne couvre pas un espace trop important. Les reprsentations proposes permettent que la
structure cible du chemin soit comprise dans la reprsentation et de ne pas couvrir trop despace, ce
qui sont, de notre point de vue, des caractristiques importantes. Nous avons nanmoins propos
une manire originale de reprsenter un chemin et deffectuer son valuation.
Malgr ces limitations, les approches proposes permettent nanmoins doptimiser un chemin et de proposer un chemin intuitif. Lexemple propos dans nos expriences permet ainsi de
retrouver le chemin dfini de manire ad hoc, ce qui est un bon rsultat pour cette approche.
Nous avons propos une extension de ces approches aux cas prsentant des pathologies, en
prenant en compte les degrs de stabilit des relations spatiales. Lutilisation de ces degrs permet
notre approche de rester gnrique en reportant sur la dfinition des degrs de stabilit la gestion
des diffrents modles de pathologies, la variabilit des pathologies tant trop importante pour tre
gre dans notre modle. Avec cette extension, nous avons prsent un exemple o nous obtenons
un chemin de segmentation adquat vis--vis de la pathologie prise en compte.

6.1.2 Optimisation de chemin avec saillance


Dans une deuxime partie, nous proposons doptimiser un chemin de segmentation partir de
linformation spatiale contenue dans le modle et en utilisant une information visuelle, une carte
de saillance, pour optimiser le choix des structures segmenter. Lutilisation des cartes de saillance
conjointement avec un modle de lagencement spatial dune scne est une contribution nouvelle
de nos travaux. Loptimisation est en ralit effectue uniquement sur la prochaine structure
segmenter et non pas sur le chemin, ni sur le reste du chemin parcourir pour atteindre une
structure particulire. Lobjectif est donc un peu modifi. Il ne sagit plus ici de dterminer la
meilleure squence de segmentation entre une structure de rfrence et une structure cible, mais
plutt deffectuer la segmentation et la reconnaissance de toutes les structures du graphe en suivant
une squence de segmentation optimale. La squence optimale est dtermine a posteriori la fin
du processus.
Nous avons formul le problme de la segmentation squentielle comme une exploration dune
image guide par linformation structurelle. Cette exploration seffectue chaque itration dans un
domaine de recherche constitu de zones proches des zones dj explores. Cette proximit spatiale est ncessaire afin de pouvoir profiter de linformation spatiale du modle, les reprsentations
des relations ncessitant une structure de rfrence pour tre gnres.
Nous avons galement dress un parallle entre lexploration de limage et lexploration dune
scne selon un modle bio-inspir : un mcanisme pr-attentionnel nous indique la zone explorer,
et le mcanisme attentionnel effectue la reconnaissance de cette zone. Ce dernier est remplac dans
notre systme par la segmentation et la reconnaissance dune structure. Il faut noter que dans ce
cas, lunit attentionnelle sapparente un objet plutt qu une zone de lespace. La comparaison
entre lexploration dune image par lil humain et notre processus de segmentation itrative met

153
toutefois en vidence une diffrence fondamentale : nous ne recherchons pas les zones les plus
saillantes sur limage complte, mais uniquement sur une restriction de lespace au domaine de
recherche. Cela signifie que si la zone la plus saillante dune image nest jamais incluse dans le
domaine de recherche, alors cette zone nest jamais visite. Cependant, nous avons montr que nos
structures de rfrence sont parmi les zones les plus saillantes de limage, et quelles constituent
un point de dpart cohrent pour le processus.
Les cartes de saillance sont un processus bio-inspir qui, mme si il nest pas psycho-raliste,
cherche modliser les mcanismes de lattention visuelle. Nous avons adapt le processus de
gnration des carte de saillance aux images IRM que nous utilisons pour la reconnaissance des
structures sous-corticales. Ce faisant, nous avons adopt un autre point de vue en considrant les
cartes de saillance comme une manire dagrger les indices visuels dune scne quelconque, et
pas forcment selon un observateur de la scne.
Lutilisation de linformation visuelle dans le processus de segmentation squentielle nous
permet dintgrer de linformation provenant de limage reconnatre diffrents niveaux. Les
segmentations effectues au cours du processus, qui sont utilises pour reprsenter les relations
spatiales utilises dans les itrations suivantes, reprsentent une information trs localise de
limage. Linformation visuelle est, elle, calcule sur des caractristiques plus globales. Lutilisation dune information de saillance telle que nous lavons dfinie a certaines limites : le processus
de gnration des cartes de saillance permet dobtenir une information reprsentant diffrentes
chelles grce aux pyramides utilises. Cependant, dans notre approche, les structures sont petites
par rapport la taille des images. Seules des petites chelles nous apportent donc une information directement relie ces structures. Linformation obtenue des chelles plus grossires, o
elle est lisse, apporte une information plus gnrale sur la scne. Une autre limitation est que la
comparaison de linformation est effectue au niveau de la localisation dune structure. Cette localisation peut tre dfinie par une grande rgion par rapport la structure et inclure des structures
autres que la structure vise. Si la saillance des structures incluses est diffrente de la saillance
de la structure recherche, alors lestimation effectue sur la localisation peut donner des rsultats
contre-intuitifs. Par exemple, la localisation du putamen (structure peu saillante) peut inclure des
sillons du cerveau (beaucoup plus saillants).
Nous avons construit les bases dun systme dinterprtation dimages, capable de faire des
choix grce au critre driv de linformation visuelle, deffectuer la segmentation dun objet de la
scne ainsi que de sa reconnaissance, et enfin dtre critique vis--vis de linformation recueillie et
permettant de changer la stratgie si ncessaire. Le systme a en outre t rendu plus robuste aux
checs potentiels. Cela est possible grce lvaluation des segmentations. Elle est effectue par
une structure de donnes permettant deffectuer un contrle du processus de segmentation en utilisant linformation spatiale et linformation visuelle. Ce faisant, nous avons permis dautomatiser
une procdure qui tait ad hoc.
Les rsultats prsents montrent une bonne reconnaissance des structures, avec des segmentations qui sont souvent imprcises, en particulier pour le putamen dont la forme est moins propice
une segmentation par un modle dformable. Le modle intgre peu de structures, car il est ncessaire de pouvoir tudier la saillance de ces structures. Or si une structure est trop petite, elle apporte
peu dinformation la carte de saillance, en particulier cause des diffrents niveaux dchelle.
Nous avons donc choisi de nous limiter des structures qui prsentent une taille suffisante. Il est
de plus ncessaire quelles soient relies dans le modle par des relations spatiales. Les rsultats
dans les cas pathologiques montrent que le modle peut sadapter aux dformations qui ne sont pas
trop importantes. Les grandes dformations empchent cependant la reconnaissance de certaines
structures. Cependant, lchec de la segmentation dans ces cas, dtect par le processus, peut nous
fournir un moyen de dtecter la prsence dune pathologie, ce qui na pas t investigu pour le

154

6. C ONCLUSION

ET PERSPECTIVES

moment.

6.2 Perspectives
6.2.1 Optimisation avec reprsentation des structures
Nous avons soulign dans les conclusions la limitation principale de lapproche permettant
doptimiser un chemin valuant la connaissance spatiale de chaque arc de manire spare. La
prise en compte de toute linformation spatiale utilise dans une squence de segmentation peuttre effectue en fusionnant, au niveau de chaque nud du graphe, toute linformation spatiale
utilisable pour ce nud, cest--dire lensemble des relations spatiales visant ce nud et utilisant
comme structure de rfrence une structure du chemin dj visite. Mais dans ce cas, il nest
plus possible deffectuer une optimisation globale dans le graphe telle que nous la proposons, car
lvaluation dun arc (o dun nud en fonction de lemplacement o nous choisissons de disposer
linformation) nest plus indpendante, mais dpend prsent du chemin suivi pour arriver jusqu
cet arc (ou le nud). Il serait donc ncessaire dvaluer chaque chemin de manire spare.
Nous avons considr dans nos travaux des graphes se composant de peu de nuds et donc de
chemins. Les optimisations peuvent tre effectues de manire exhaustive dans ce cas, la liste des
chemins tant rduite. Dans nos expriences, nous calculons lvaluation de chaque chemin. Mais
il nest pas ncessaire de connatre lvaluation de tous les chemins si notre objectif est dobtenir le
meilleur chemin uniquement. Dans le cas o lvaluation de chaque arc est effectue de manire
indpendante, des algorithmes classiques de la thorie des graphes peuvent nous permettre de
limiter le cot de loptimisation. Dans le cas o chaque chemin doit tre valu de manire spare,
il serait ncessaire dutiliser la programmation dynamique pour rduire la complexit. Lutilisation
dune structure de rfrence unique est primordiale dans ce cas.
Dans lapproche globale, o les chemins sont reprsents sous la forme dun ensemble flou
unique, nous avons soulign le problme de la bonne reprsentation dun chemin. Nous avons
prsent des reprsentations utilisant des fusions conjonctives ou disjonctives. Cependant, nous
avons toujours utilis le minimum et le maximum, qui sont respectivement la plus optimiste des
t-normes et la plus pessimiste des t-conormes. Or, il existe de nombreux oprateurs, comme la
norme de Lukasiewicz par exemple. Il serait intressant de dterminer quelles sont les proprits
souhaites pour notre fusion dinformations et quels oprateurs permettent dy rpondre au mieux.

6.2.2 Optimisation avec information visuelle


Sur la reconnaissance des structures sous-corticales, nous utilisons des structures de rfrence
qui sont segmentes au pralable dans notre approche. Ces structures ne sont pas difficiles segmenter en soi, mais lautomatisation du processus pose problme tout de mme. En particulier,
il est parfois difficile de sparer les deux ventricules. Le troisime ventricule peut galement tre
segment simultanment et tre connect aux ventricules latraux. Il serait intressant de segmenter ces structures de manire automatique, en dfinissant un cadre pour veiller leur bonne
reconnaissance respective.
Notre approche peut ventuellement tre utilise comme une initialisation pour une mthode
telle que celle propose par O. Nempont dans ses travaux de thse (Nempont (2009)). Notre approche permettrait de rduire la complexit en fournissant des structures dj segmentes, permettant de rduire beaucoup les domaines ds le dbut du processus, et en supprimant les oprations
lies aux structures segmentes.

155
Des modifications sont ncessaires afin de mieux prendre en compte les cas pathologiques. Les
expriences ralises ne tiennent pas compte de la connaissance de la pathologie. Deux voies sont
possibles, la premire consiste essayer de dterminer si un cas prsente une pathologie laide de
ce procesus de segmentation. Lobjectif serait ici dinclure la pathologie dans le modle structurel.
Cela implique que la pathologie a un impact sur le modle structurel de limage pour pouvoir tre
dtecte. La deuxime voie serait dadapter le processus de segmentation en sachant quune image
est pathologique et ventuellement en utilisant une segmentation pralable de la tumeur. Lobjetif
serait donc dadapter la connaissance spatiale (ou sa reprsentation) la pathologie.
La notion de saillance est une notion bio-inspire que nous adaptons nos besoins dans ces
travaux. Les caractristiques dun systme pr-attentionnel consistent calculer des caractristiques globales de limage qui sautent aux yeux (intensit, couleur, orientation) et de manire
parallle. Les caractristiques de limage ont t choisies pour la raction quelles produisent sur
le cortex visuel. Dans nos travaux, la tche du cortex est remplace par notre mthode de segmentation et de reconnaissance. Les caractristiques des images pourraient donc tre adaptes par
rapport la mthode de segmentation. Par exemple, la radiomtrie des structures sous-corticales
tant situe entre la radiomtrie de la matire blanche et de la matire grise du cerveau, la carte
refltant les intensits peut tre adapte pour ragir aux discontinuits dans cet intervalle. Dans cet
exemple prcis, la radiomtrie des matires est fournie par une analyse de limage, mais galement
par une connaissance a priori sur limage. Lutilisation de cette connaissance a priori pour calculer
la carte de saillance fait que le processus nest plus strictement guid par les donnes dans ce cas.
Nous avons introduit lutilisation dune carte de saillance conjointement avec un modle structurel et des reprsentations floues de relations spatiales, et nous avons discut dans cette conclusion
de la problmatique que cette approche a ouverte, cest--dire la difficult de comparer la saillance
sur des rgions et non pas dune manire globale, par rapport un modle de la saillance attendu
pour une structure. Dans ces rgions, la saillance de la structure recherche est mle la saillance
de structures environnantes, entre autres. La recherche est donc dpendante de la prcision de la
localisation. Des travaux, introduits au chapitre 3, proposent de modifier la saillance pour chercher un type dobjets spcifiques. Mais dans notre cas, les structures ont des caractristiques assez
proches. Il faudrait donc plutt tudier linfluence de la taille de la rgion. Une autre piste est de
modliser non seulement la saillance de la structure, mais galement de son environnement.
Le processus de contrle que nous avons introduit se contente, pour des raisons de complexit,
de regarder les interactions entre la structure segmente et sa structure parente. Cependant, les mesures dvaluation sont prsentes dans le graphe, et la cohrence spatiale est mise jour chaque
itration sur chaque arc du graphe. Il serait donc possible deffectuer une optimisation globale a
posteriori de la qualit de la segmentation. Nous pouvons par exemple optimiser laide dune
coupure un graphe o les arcs portent leur valuation de la cohrence spatiale et o lattache
aux donnes est estime par le critre de saillance. Loptimisation consiste ici dterminer quels
nuds sont considrs comme valides, et lesquels sont considrs comme invalides (et itrer le
processus dans ce cas). Avec un tel processus, nous pouvons prendre en compte la cohrence spatiale du modle complet, et pas uniquement entre deux structures. Cela pourrait en outre permettre
de supprimer les seuils utiliss sur les critres.
Lutilisation conjointe de la notion de saillance et des relations spatiales peut tre applique
dans un autre cadre que limagerie mdicale. Le modle que nous utilisons ne dcrit pas toute
la scne et il peut correspondre un motif particulier dans une scne. Par exemple dans le cadre
de limagerie satellitaire, la description dune structure complexe telle quun aroport peut tre
effectue par un modle structurel. Si nous connaissons une structure de rfrence appartenant au
motif dcrivant laroport, alors nous pouvons utiliser notre systme pour segmenter et reconnatre
les autres parties du modle. Dans le cas de limagerie satellitaire, il serait bien sr ncessaire de

156

6. C ONCLUSION

ET PERSPECTIVES

dfinir une mthode de segmentation adquate, avec les informations a priori de radiomtrie ncessaires. Il faut noter que notre approche, en dlimitant une zone dintrt, permet dutiliser des
informations a priori radiomtriques qui ne sont pas ncessairement suffisantes pour une segmentation globale.

157

Annexe A

Liste des publications


Publications lies aux travaux de thse :
Geoffroy Fouquier, Jamal Atif and Isabelle Bloch
Sequential spatial reasoning in images based on pre-attention mechanisms
and fuzzy attribute graphs.
In the proceedings of the 18th European Conference on Artificial Intelligence (ECAI2008).
Geoffroy Fouquier, Jamal Atif and Isabelle Bloch
Incorporating a pre-attention mechanism in fuzzy attribute graphs
for sequential image segmentation.
In the proceedings of the 12th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems (IPMU2008).
Emanuel Aldea, Geoffroy Fouquier, Jamal Atif and Isabelle Bloch
Kernel Fusion for Image Classification Using Fuzzy Structural Information
In the proceedings of the 3rd International Symposium on Visual Computing (ISVC2007).
Emanuel Aldea, Geoffroy Fouquier, Jamal Atif and Isabelle Bloch
Classification dimages par fusion dattributs flous de graphes, relations spatiales
et noyaux marginaliss.
Dans les actes des rencontres Francophones sur la Logique Floue et ses Applications (LFA2007).
Geoffroy Fouquier, Jamal Atif and Isabelle Bloch
Local reasoning in fuzzy attribute graphs for optimizing sequential segmentation
In the proceedings of the 6th IAPR TC-15 Workshop on Graph-based Representations in
Pattern Recognition (GBR2007).
Jamal Atif, Cline Hudelot, Geoffroy Fouquier, Isabelle Bloch and Elsa Angelini
From Generic Knowledge to Specific Reasoning for Medical Image Interpretation
using Graph based Representations.
In the proceedings of the Twentieth International Joint Conference on Artificial Intelligence
(IJCAI2007).

158

A. L ISTE

DES PUBLICATIONS

Autres publications :
Helin Dutagac, Geoffroy Fouquier, Erdem Yrk, Blent Sankur, Laurence Likforman and
Jrme Darbon
Hand Recognition Book chapter
dans "Guide to Biometric Reference Systems and Performance Evaluation". Springer-Verlag,
2009. diteurs : D. Petrovska-Delacrtaz, G. Chollet, B. Dorizzi et A.K. Jain
Geoffroy Fouquier, Laurence Likforman, Jrme Darbon and Bulent Sankur
The Biosecure Geometry-based System for Hand Modality
In the proceedings of the 32nd IEEE International Conference on Acoustics, Speech, and
Signal Processing (ICASSP2007).
Thierry Graud, Geoffroy Fouquier, Quoc Peyrot, Nicolas Lucas and Franck Signorile
Document Type Recognition Using Evidence Theory.
In the proceedings of the Fifth IAPR International Workshop on Graphics Recognition
(GREC2003).
Alexis Angelidis and Geoffroy Fouquier
Visualization Issues in Virtual Environments : From Computer Graphics Techniques
to Intentional Visualization.
In the proceedings of the 9th Internatinal Conference in Central Europe on Computer Graphics, Visualization and Computer Vision (WSCG2001).

159

Annexe B

Cartes de saillance
Nous prsentons dans cette annexe des rsultats de gneration de cartes de saillance selon la
mthode prsente dans le chapitre 3.
Dans une premire partie, nous prsenterons les cas sains de notre base de donnes et dans une
deuxime partie, les cas pathologiques. Pour tous les volumes en trois dimensions, nous illustrons
les rsultats sur trois coupes extraites de manire automatique. Le choix des coupes est effectu
partir du masque du cerveau de chaque image, en ajoutant un nombre arbitraire de coupes dans
une direction, partir de la premire coupe non vide dans une vue donne. Les coupes ne sont
donc pas comparables entres les diffrentes images.
Pour chaque ensemble (de cas sains et de cas pathologiques), nous prsentons des cas avec plus
de dtails. Pour les autres cas, nous prsentons uniquement les coupes de limage originale et les
cartes de saillance correspondantes. Pour les cas dtaills, nous prsentons les figures suivantes :
limage originale ;
la carte de saillance. La gnration de la carte de saillance est dtaille dans la partie 2.4 ;
les histogrammes de saillance calculs sur la segmentation manuelle de cette image, et qui
sont utiliss pour lapprentissage des distributions de saillance. Ces histogrammes sont dfinis dans la partie 5.1.3 ;
la carte de visibilit correspondant lintensit ;
la carte de visibilit correspondant lorientation. Les cartes de visibilit sont dfinies dans
la partie 2.4.
Bases de donnes
Notre base de donnes est dcrite dans la partie 3.4. Cette base est constitue des ensembles
suivants :
Les 18 cas de la base IBSR ( Internet Brain Segmentation Repository )1
11 cas provenant de la base OASIS ( Open Access Series of Imaging Studies ).2
Des cas pathologiques, fournis par des hpitaux partenaires. Certaines images ont t recueillies lors dun projet financ par lINCA (PL005-2005). Les hpitaux partenaires sont
les suivants :
Lhpital Sainte-Anne ;
Lhpital du Val-de-Grce ;
1

Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http ://www.cma.mgh.harvard.edu/ibsr/
2
http://www.oasis-brains.org, ralise avec les financements suivants : Pubmed Central submission :
P50 AG05681, P01 AG03991, R01 AG021910, P50 MH071616, U24 RR021382, R01 MH56584

160

B. C ARTES

DE SAILLANCE

Lhpital de la Piti-Salptrire.

B.1 Les cas sains


Nous avons trente cas sains dans notre base. Nous allons prsenter en dtail le premier cas de
la base IBSR, ainsi que le deuxime cas de la base OASIS.

B.1.1

IBSR 01

Image originale :

Carte de saillance :

nergies des histogrammes de saillance


Structure : nergie : Sal. min : Sal. max :
CDl
0,112
0,02
0,25
CDr
0,113
0,02
0,26
0,106
0,01
0,39
GMl
GMr
0,107
0,01
0,35
0,061
0,02
0,3
LVl
LVr
0,063
0,02
0,27
0,236
0,01
0,12
PUl
0,233
0,01
0,1
PUr
THl
0,126
0,01
0,24
0,115
0,01
0,24
THr
V3
0,061
0,04
0,26
0,103
0,01
0,19
WMl
WMr
0,108
0,01
0,23

161
Histogrammes de saillance :
Saliency histo.l hmsph

Saliency histo.r hmsph

0.2

0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter

0.18

0.16

0.16

0.14

0.14

0.12

0.12

0.1

0.1

0.08

0.08

0.06

0.06

0.04

0.04

0.02

0.02

10

20

30

40

50

60

70

80

90

Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter

0.18

100

10

20

30

40

50

L/R histo diff


0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
White Matter
Gray Matter

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

20

Carte de visibilit pour lintensit :

Carte de visibilit pour lorientation :

30

40

50

60

70

80

90

100

60

70

80

90

100

162

B.1.2

B. C ARTES

Oasis 02

Image originale :

Carte de saillance :

nergies des histogrammes de saillance


Structure : nergie : Sal. min : Sal. max :
CDl
0.051
0.07
0.51
0.041
0.06
0.55
CDr
LVl
0.025
0.07
0.72
0.025
0.08
0.68
LVr
PUl
0.084
0.04
0.28
0.077
0.05
0.32
PUr
THl
0.059
0.04
0.48
0.056
0.04
0.49
THr
0.040
0.09
0.46
V3

DE SAILLANCE

163
Histogrammes de saillance :
Saliency histo.l hmsph

Saliency histo.r hmsph

0.2

0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.

0.18

0.16

0.16

0.14

0.14

0.12

0.12

0.1

0.1

0.08

0.08

0.06

0.06

0.04

0.04

0.02

0.02

10

20

30

40

50

60

70

80

90

Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.

0.18

100

10

20

30

40

50

L/R histo diff


0.2
Ventricle
CaudateNucleus
Thalamus
Putamen

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

20

Carte de visibilit pour lintensit :

Carte de visibilit pour lorientation :

B.1.3

Les autres cas sains

30

40

50

60

70

80

90

100

60

70

80

90

100

164
IBSR 02
Image originale :

Carte de saillance :

IBSR 03
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

165
IBSR 04
Image originale :

Carte de saillance :

IBSR 05
Image originale :

Carte de saillance :

166
IBSR 06
Image originale :

Carte de saillance :

IBSR 07
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

167
IBSR 08
Image originale :

Carte de saillance :

IBSR 09
Image originale :

Carte de saillance :

168
IBSR 10
Image originale :

Carte de saillance :

IBSR 11
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

169
IBSR 12
Image originale :

Carte de saillance :

IBSR 13
Image originale :

Carte de saillance :

170
IBSR 14
Image originale :

Carte de saillance :

IBSR 15
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

171
IBSR 16
Image originale :

Carte de saillance :

IBSR 17
Image originale :

Carte de saillance :

172
IBSR 18
Image originale :

Carte de saillance :

cas sain
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

173
oasis 01
Image originale :

Carte de saillance :

oasis 03
Image originale :

Carte de saillance :

174
oasis 04
Image originale :

Carte de saillance :

oasis 05
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

175
oasis 06
Image originale :

Carte de saillance :

oasis 07
Image originale :

Carte de saillance :

176
oasis 09
Image originale :

Carte de saillance :

oasis 10
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

177
oasis 11
Image originale :

Carte de saillance :

oasis 12
Image originale :

Carte de saillance :

178

B. C ARTES

DE SAILLANCE

B.2 Les cas pathologiques


Nous prsentons dans cette partie les cartes de saillance pour les vingt cas pathologiques de
notre base.

B.2.1

Cas 1

Image originale :

Carte de saillance :

nergies des histogrammes de saillance


Structure : nergie : Sal. min : Sal. max :
CDl
0,069
0,04
0,27
CDr
0,107
0,04
0,31
0,057
0,04
0,32
LVl
0,062
0,04
0,28
LVr
PUl
0,089
0,03
0,28
0,183
0,03
0,26
PUr
THl
0,084
0,03
0,34
0,094
0,02
0,27
THr
V3
0,052
0,01
0,37
0,057
0,05
0,48
tumor

179
Histogrammes de saillance :
Saliency histo.l hmsph

Saliency histo.r hmsph

0.2

0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
Tumor

0.18

0.16

0.16

0.14

0.14

0.12

0.12

0.1

0.1

0.08

0.08

0.06

0.06

0.04

0.04

0.02

0.02

10

20

30

40

50

60

70

80

90

Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
Tumor

0.18

100

10

20

30

40

50

L/R histo diff


0.2
Ventricle
CaudateNucleus
Thalamus
Putamen

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

10

20

30

Carte de visibilit pour lintensit :

Carte de visibilit pour lorientation :

B.2.2

Les autres cas pathologiques

40

50

60

70

80

90

100

60

70

80

90

100

180
Cas 2
Image originale :

Saliency map :

Cas 3
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

181
Cas 4
Image originale :

Carte de saillance :

Cas 5 / 1
Image originale :

Carte de saillance :

182
Cas 5 / 2
Image originale :

Carte de saillance :

Cas 5 / 3
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

183
Cas 6
Image originale :

Carte de saillance :

Cas 7 /1
Image originale :

Carte de saillance :

184
Cas 7 / 2
Image originale :

Carte de saillance :

Cas 8
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

185
Cas 9
Image originale :

Carte de saillance :

Cas 10
Image originale :

Carte de saillance :

186
Cas 11
Image originale :

Carte de saillance :

Cas 12
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

187
Cas 13
Image originale :

Carte de saillance :

Cas 14
Image originale :

Carte de saillance :

188
Cas 15 / 1
Image originale :

Carte de saillance :

Cas 15 / 2
Image originale :

Carte de saillance :

B. C ARTES

DE SAILLANCE

189

Annexe C

Image segmentation as inexact graph


matching using high-level attributes
Liste des auteurs :
Geoffroy Fouquier : Tlcom ParisTech Dpt TSI, CNRS UMR 5141, Paris, France.
Roberto M. Cesar-Jr : Institute of Mathematics and Statistics USP, So-Paulo, Brazil.
Isabelle Bloch : Tlcom ParisTech Dpt TSI, CNRS UMR 5141, Paris, France.

C.1

Abstract

This paper proposes a new method for model-based segmentation using a graph matching approach. The model is based both on a prototype image and on users input, which allows deriving
a segmentation where no homogeneity criterion is explicitly defined, and which is driven by the
users intention. As another contribution, an intermediate graph structure is involved in order to
solve the difficult problem where no isomorphism can be expected between the model graph and
the graph extracted from an over-segmentation of the image to be processed. Geometrical, topological and structural information is incorporated in a cost function, which is optimized to lead to
the final result.
keywords :

C.2

graph matching ; image segmentation ; spatial relations

Introduction

As shown in numerous works, structural information contained in images is an important feature for guiding different tasks such as segmentation, recognition, higher level interpretation and
spatial reasoning Bloch (2005); Miyajima et Ralescu (1994). Graph representations are well adapted to encode this structural information, along with lower level information. Typically, vertices
may represent regions or objects, with attributes extracted from the image data, while edges may
represent relations between them (e.g. comparison of region attributes and spatial relations.)
A lot of work has been dedicated to graph matching, where two graphs to be matched are either
built from two images, or from a model (or several models) and an image Felzenszwalb et Huttenlocher
(2005); Conte et al. (2004); Bunke (2000); Cross et Hancock (1998). Here we consider the latter
case and propose a new approach for segmenting an image based on a model built from both a

190
C. I MAGE

SEGMENTATION AS INEXACT GRAPH MATCHING USING HIGH - LEVEL ATTRIBUTES

Strokes

Segmentation
Model
Image

Deformation
Graph

Oversegmented
Image
Build Region
Adj. Graph

Segmentation
Original
Image

Model
Graph

Build Region
Adj. Graph

Oversegmented
Image

Matching
Input
Graph

Segmented
Image

F IG . C.1 General scheme for model-based image segmentation.

prototype image and from users input. Our approach differs from usual segmentation tasks where
the segmentation criterion is expressed as the homogeneity of some features computed in each
segmented object or region, since it allows grouping into a single object regions that may be
heterogeneous but that best correspond to the users input. This input implicitly defines the segmentation criterion, which makes a major difference with respect to methods that rely on explicit
criteria.
The proposed method, detailed in the next sections and illustrated in Figure C.1, proceeds as
follows. The user is asked to draw strokes on a prototype image that is used to create a model.
These strokes provide information on the objects the user is interested in, such as the number
of classes or objects and approximate shape and colors of classes. For instance, the user may
indicate a person as one class (hence the corresponding stroke will overlap regions with different
local properties), or distinguish different classes like face, body, hair. This approach provides,
with reduced user interaction, very strong information that alleviates the ill-posed nature of most
segmentation problems. Here the problem becomes well-posed and allows segmenting what the
user wants to get. The model graph is built according to this information. The segmentation of an
input image is obtained by matching the model graph and a region adjacency graph (RAG) built
from an input image. Usually the image graph contains many more regions than the model graph,
which calls for inexact graph matching methods. Here we address this issue by using an additional
graph, called deformation graph (Figure C.2), and introduced in Noma et al. (2009), which has the
same topology as the model graph, and where each vertex corresponds to a union of regions of
the input image graph. This structure provides a direct isomorphism with the model graph. Thus
the segmentation is now achieved by finding the matching between the input image graph and the
deformation graph which minimizes a cost function computed between the model graph and the
deformation graph. This function includes comparison of vertices attributes and comparison of
edges attributes.
In our previous work, some steps of this method were already described Consularo et al.
(2007). Here the main contributions with respect to this earlier work include (i) the idea of segmenting objects based on an implicit criterion instead of an explicit one relying on region homogeneity,
which allows segmenting potentially very heterogeneous areas as one object ; (ii) building a model graph which includes most of the prototype image information (not only the local information
provided by the strokes) ; (iii) proposing new cost functions according to these new features of the
method, taking also shape information into account, and adapting the graph matching algorithm
accordingly.
This paper is organized as follows. In Section C.3 we discuss the graph constructions, while the
attributes and cost functions for the optimization procedure are detailed in Section C.4. Section C.5
presents the matching algorithm and experimental results are described in Section C.6.

191
Model Graph

Cost function

Deformation Graph
Matching

Region Adjacency Graph


Oversegmentation
of model image

Region Adjacency Graph


Oversegmentation
of input image

F IG . C.2 General scheme for graph matching. The cost function is computed between the model
graph and the deformation graph, which share the same structure. The matching between the input
graph and the deformation graph is then derived.

C.3

Model, image and deformation graphs

In this section we describe the construction of the graphs involved in the proposed method.

Model graph Gm The model graph is built from a model (or prototype) image and from the
users input. It should represent the segmentation classes (or objects), according to the user, and
the structural information (relations between classes). From our experiments with several users, it
appears that usually the user draws strokes either on the border of a (generally large) region, or
in the middle of the region (similar to a skeleton of the region). From these strokes, regions from
an over-segmentation are grouped together to provide large and robust regions, according to the
strokes. An example is illustrated in Figure C.3. The main steps of the proposed procedure are as
follows :
The user draws strokes on this image, the labeling is encoded using colors (1 color per
class), with potentially several strokes for one class or one object ;
The model image is segmented using any over-segmentation method : in our experiments
we used a mean-shift approach, applied to the grey levels (or the intensity channel in case
of color images) after a regularization step using a minimal total variation criterion with
a L1 norm Darbon et Sigelle (2006a) which allows removing texture. This leads to large
homogeneous regions and provides a less over-segmented image than the one used in our
previous work based on watersheds ;
A RAG is built from the segmentation ;
A model graph, with one vertex per class is built and populated with all marked regions
from the RAG (i.e. intersected by a stroke). This is the most original step of this procedure.
All unmarked regions surrounded by a unique class are added to this class : this corresponds
to the idea that these regions cannot represent a different class since the user did not draw a
stroke over them. Unmarked regions surrounded by different classes are not included in the
model ;
Finally, an edge is created for each pair of vertices, and edge and vertex descriptors are
computed in the model graph.

Input graph Gi For any image to be processed, an image (or input) graph is created. The RAG
resulting from the over-segmentation is directly used. A set of features is computed on all regions.
However, parameters for regularization and segmentation are less restrictive than for the model, in
order to obtain smaller regions.

192
C. I MAGE

SEGMENTATION AS INEXACT GRAPH MATCHING USING HIGH - LEVEL ATTRIBUTES

Prototype

Strokes

Regularization Segmentation

Model

Graph

F IG . C.3 Model generation. The minimal region size in the segmentation is 20. The resulting
model is displayed with random colors. Black regions are excluded from the model.
Deformation graph Gd Our approach involves an intermediate structure, called the deformation
graph, which has the same topology as the model graph but is populated from the image graph :
several vertices can be merged into one in this deformation graph. This is another original feature
of the proposed approach. The matching process then aims at finding the best merging of regions
such that the deformation graph optimizes a cost function. This also provides the best matching
between the model and the image, but without having to handle directly the problem of matching
graphs with different topologies. Vertices and edges carry the same attributes as for the model
graphs.

C.4

Attributes and cost function

Let V , E be the sets of vertex labels and edge labels, respectively. Let V be a finite nonempty set of vertices, Lv be a vertex interpreter Lv : V V , E be a set of ordered pairs of
vertices called edges, and Le be an edge interpreter Le : E E . Then G = (V, Lv , E, Le ) is a
labeled graph with directed edges. For v V and e V V , (v, e) is a transition function that
returns the vertex v such that e = (v, v ). For v V , A(v) returns the set of edges adjacent to v.

C.4.1 Vertex cost : intrinsic features for each class of the model
The cost function associated with each vertex includes intensity, shape and surface information.
Intensity As mentioned above, a class may be composed of regions with non-homegeneous intensity, depending on what the user considers as being one object. Each vertex (representing a
class) in both model and deformation graphs may then be composed of a set of smaller regions
resulting from the initial over-segmentation, each of them being characterized by its average intensity. Note that regularization of images allows removing texture and therefore average intensity
becomes more relevant. In order to take into account the potential intensity inhomogeneity inside
a class of the model, the intensity cost is computed between both sets of regions Rd and Rm composing the compared vertex Vm Gm and Vd Gd . The cost for a region from Vd is defined as
the minimal grey level difference among all regions of Vm . Then, the intensity cost is defined as
the average of these minimal distances for all regions composing Vd :
Cvintensity (Vm , Vd ) =

rd Rd

minrm Rm d(rd , rm )
|Rd |

193
where d(rd , rm ) represents the absolute difference between average grey levels of both regions,
and |Rd | is the number of regions composing Vd .
Shape Shape information is not meaningful for regions of an over-segmentation. However the
process used for building the model makes shape information relevant for the model vertices and
thus for the deformation graph, which is another advantage of using this intermediate structure.
It follows that, as opposed to methods relying on a matching between the model and the input,
shape information can really be involved in the proposed approach. This is a new contribution
with respect to previous works.
Among the numerous existing shape descriptors, we prefer those that can be easily updated
when the regions associated to each vertex of the deformation graph change. This is motivated by
the number of computations of the attributes involved in our iterative matching scheme. Therefore
we have chosen affine invariant moments proposed by Flusser et al in Flusser et s Suk (1993).
The invariant moments are a combination of central moments (shift invariant) defined as : pq =
)p (y y)q
x
y (x x
Here is the definition of the two first invariant moments :
I1 =
I2 =

20 02 211
400

230 203 630 21 12 03 + 430 312 + 4321 03 3221 212


10
00

Shape descriptors are computed on each vertex after applying a morphological closing in order
to smooth noisy boundaries due to the segmentation process or to occlusion. We keep all normalized moments for p, q [0..3] with p + q > 1 thus 13 moments.
The cost function for shape information is defined as the absolute difference between the
vectors of central moments of vertices in Gd and Gm :
Cvshape (Vm , Vd ) =

M
i=1 |mdi

mmi |

where M is the number of moments.


Area Since area is an important feature, not taken into account with normalized moments, it is
additionally included in the following cost function :
Cvarea (Vm , Vd ) = am ad .
where am (ad ) is the area of Vm (Vd ), normalized with respect to the model (resp. input) image
size.

C.4.2 Edge cost : reflecting the structure


Spatial relations provide an important information carried by the edges, to compare the structures of the graphs. Again the use of the deformation graph makes this information relevant.
In both distance and orientation cost functions, we compare an edge from the model graph
Em Gm with an edge of the deformation graph Ed Gd . Since model and deformation graphs
have the same structure, both edges connect the same vertices and thus represent the same spatial
relation.

194
C. I MAGE

SEGMENTATION AS INEXACT GRAPH MATCHING USING HIGH - LEVEL ATTRIBUTES

Distance Let us consider an edge between two objects A and B. We denote the corresponding
vertices in the model graph by Am and Bm and the ones in the deformation graph by Ad and Bd .
The edges between these vertices are denoted as Em and Ed , respectively. In order to compare the
relative distances, carried by these edges, we proceed as follows :
we first compute the distances d(x, Bd ) for all points x of the contour of Ad and the cumulative histogram1 of the obtained values.
we compute the distances d(x, Bm ) for all points x of the contour of Am and the cumulative
histogram.
the distance dhAB is evaluated as the distance between these cumulative histograms.
Finally, a symmetric distance is defined as :
dhAd Bd dhAm Bm )
2
dhBd Ad dhBm Am )
+
2

Cedist (Em , Ed ) =

Orientation Several methods have been proposed to define the directional relative position between two objects, which is an intrinsically vague notion. Particularly, fuzzy methods are appropriate, and here we choose to represent this information using histograms of angles Miyajima et Ralescu
(1994). This allows representing all possible directional relations between two regions. If R1
and R2 are two sets of points R1 = p1 , ..., pn and R2 = q1 , ..., qn , the relative position between regions R1 and R2 is estimated from the relative position of each point qj of R2 with
respect to each point pi of R1 . The histogram of angles HR1 R2 is defined as : HR1 R2 () =


pi qj ) denotes the angle between a refe{(pi , qj ) R1 R2 / ( i ,
pi qj ) = } where ( i ,

rence vector i and


p
q . In order to speed up this computation, we compute histograms on the
i j

boundary of the objects. The histogram is normalized such that h[] = 1 in order to use the
circular earth movers distance (CEMD) defined in Rabin et al. (2008), i.e. the distance between
normalized cumulative histograms derived from the angle histograms with a parameter to cope
with periodicity. The CEMD is defined as : cemd(f, g) = F G 1 where f and g are two
histograms and F and G are cumulative histograms derived respectively from f and g. As shown
in Rabin et al. (2008), is chosen as the median of the values F (i) G(i). The orientation cost
is then defined as the absolute differences of CEMD :
Ceorient. (Em , Ed ) = cemd(Ed ) cemd(Em )

C.4.3 Connectivity
The previous features are more meaningful when a vertex in Gd represents regions forming
a unique connected component. Therefore the edges between input graph vertices composing a
vertex in the deformation graph should be taken into account too. In order to favor compact regions
and to reduce the number of connected components, we derive a criterion based on the distance
between all connected components present in a vertex of Gd :
Cconnectivity (Vd ) =

ci Vd (

cj Vd ,i=j

d(ci , cj ))

Ncc

where ci and cj represent connected components in Vd , d(ci , cj ) is the maximal distance between
ci and cj (symmetric), and Ncc is the number of connected components in Vd .
1

A cumulative histogram is computed as : hc[i] =

Pi

j=1

h[i].

195

C.4.4 Cost function


Edge and vertex cost functions average all criteria as follows :
CV (Vm , Vd ) = (Cvintensity + Cvshape + Cvarea ) / 3
CE(Em , Ed ) = (Cedist + Ceorientation ) / 2
Finally, the cost function is a weighted mean between the vertex cost function, the edge cost
function, and a connectivity cost defined as :
Cconnexity (Vd ))

CV (Vm , Vd ) +

C=
Vd Gd

Vd Gd

CE(Em , Ed )

(C.1)

Ed Ed

where Vm is the vertex in Gm related to Gd , and + + = 1.

C.5

Matching algorithm and optimization

As mentioned earlier, image segmentation is achieved by matching the input image (to be
segmented) and the model. The input graph Gi is mapped onto the deformation graph Gd and the
cost function for a given mapping is evaluated between Gd and Gm .
An initial mapping is mandatory to compute attributes carried by vertices and edges of Gd .
This initial matching may be a random matching, but in order to reduce the computation time,
initialization of Gd may also be carried out by applying a modified version of the segmentation
method described in Noma et al. (2009). This initialization is achieve by matching each vertex
of Gi to a vertex of Gm . The cost function evaluates the deformation between a vertex of Gm
and the same vertex deformed by the candidate vertex of Gi . But since a region produced by the
over-segmentation is directly compared with the model, this matching process only uses a simple
image-based criterion based on a distance between grey levels (as in Section C.4.1) and a structural
cost taking into account the centroids of the compared regions
The subsequent iterations minimize the cost function between Gd and Gm based on the highlevel criteria explained in Section C.4. The search for better solutions is carried out by re-assigning
each Gi vertex to different vertices of the deformation graph Gd in an attempt to reach lower cost
values. For each re-assignment, the corresponding attributes in Gd (i.e. those associated to vertices
and edges involved in the re-assignment) are recalculated, as well as the cost function. In order
to speed up the computation, connected components may be re-assigned as a whole instead of a
single region. When considering to move a region of Gi , the current matching of the region is a
vertex of Gd . If this vertex has more than one connected component, then the whole connected
component is changed. In both cases, all descriptors of the modified vertices are recalculated, as
well as all edges connected to an updated vertex.
Two different optimization schemes may be used according to the initialization. With a random
initialization, optimization is achieved by a simulated annealing algorithm. A vertex from Gi is
selected randomly as well as the new matching which is accepted if the global cost decreases, or
accepted with a probability depending on the temperature parameter otherwise. This parameter is
decreased after N vertex selections, where N = |Vi | is the number of vertices of the input graph
Gi . In the case of a non-random initialization, optimization is achieved by an ICM scheme, i.e. a
vertex from Gi is still selected randomly, but all possible matchings in Gd are computed and the

196
C. I MAGE

SEGMENTATION AS INEXACT GRAPH MATCHING USING HIGH - LEVEL ATTRIBUTES

best matching is then kept. The process finishes if after N vertex selections, the energy remains
the same.
Figure C.5 presents a summary of the implemented matching algorithm, where map represents
the mapping between Gi and Gd (initially, to Gm , in order to initialize Gd ). It is worth noting that
this mapping actually represents the sought solution, i.e. each possible mapping defines a possible
labelling of Gi (hence, a possible segmentation of the input image). The while loop implements
the simulated annealing search
MATCHING A LGORITHM (Gi , Gm )

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

t INIT T EMPERATURE()
map INITIAL M AP(Gi , Gm )
Gd INIT D EFORMATION(Gi , Gm , map)
c COST(Gd , Gm )
stopFlag CONVERGENCE T EST()
while (stopFlag = TRUE )
do
for (i 1 to N )
do
map1 CHANGE S OLUTION(map )
Gd UPDATE D EFORMATION(Gi , Gd , map1 )
c1 COST(Gd , Gm )
if (ACCEPT S OLUTION (C, C1 , t))
then
map map1
c c1
else
Gd UPDATE D EFORMATION(Gi , Gd , map)
t UPDATE T EMPERATURE(t)
stopFlag CONVERGENCE T EST()
F IG . C.4 The matching algorithm.

C.6

Experiments

Figure C.5 (first line) presents results between two close images of guitars. The model is
composed by 5 classes. Two experiments have been performed, one with an input image where
the guitar is approximatively at the same location as in the model, and another one where it is
shifted to the right. The initialization already gives good results (but less in the shifted case).
The first result corresponds to the input image, the second one to its shifted version. The method
does not take into account centroids nor any absolute position attributes, being thus translation
independent. However, the area is computed relatively to the image size, thus in this case, the
values are different from the ones in the model. The second line of Figure C.5 presents another
result between two images of motorcycles. The model is composed by 4 classes.
In both cases the initialization allows using an ICM optimization scheme. Results are not
exactly the ideal segmentations, but all regions of the model are correctly found and the results

197

Prototype

Input

Model

Prototype

Model

Result

On a shifted image

Input

Result

F IG . C.5 Illustration of the method on two examples.

capture the users intention. An ideal segmentation would give a lower cost than these results,
meaning that the optimization process reaches a local minimum, which is however close to the
desired one.

Prototype

Input

Model

Input

Result

Result

Input

Input

Result

Result

F IG . C.6 Several experiments with model reuse. A guitar model is generated for the first guitar
image and then used in the segmentation of other guitars of various shapes and colors.

Figure C.6 presents more results with a simpler model than the one present in Figure C.5 (there
is no class for the shadow). In this experiment, the following parameters for the cost function are :
= 0.45, = 0.35, = 0.20. Results present the same difficulties with the guitar neck, which is
not well defined by the model. When colors and shape differ from the prototype (the second line),
the results are worst which illustrate the limitation of building a model based on a single image. In
these case, the optimisation can only rely on the structural cost.

198
C. I MAGE

SEGMENTATION AS INEXACT GRAPH MATCHING USING HIGH - LEVEL ATTRIBUTES

The cost function is designed by aggregating costs between many attributes and with different
dynamics. There are many ways to combine them which deserve further analysis. A hint is to combine attributes like distance and orientation before cost computation using fuzzy representations of
spatial relations Bloch (2005). The choice of the attributes carried by the vertices depends of the
application. In our case, intensity and shape cost allows recognizing objects with similar features.
The weight may be changed according to the image to segment. The process used for building the
model produces large regions thanks to regularization, which are well suited for our purpose, but
it is also driven by parameters which need to be set accordingly. A weaker regularization gives
smaller regions and does not guarantee to approximate the corresponding objects. However, in all
our experiments, the same values of these parameters give good results.

C.7

Conclusions

We proposed a method to segment an image using a model built according to the users intention and able to merge inhomogeneous regions into a single segmentation class. The proposed
model takes into account the structure of the prototype marked by the user. The introduction of
the deformation graph allows separating the two problems of the inexact graph matching and of
finding the best isomorphism with the model graph. It also allows computing high-level attributes
like spatial relations and shape features.

C.8

Acknowledgment

This work has been partially funded by CAPES, COFECUB (546/07), CNPq, FAPESP and
FINEP grants

199

Bibliographie
A. A LBOODY, F. S EDES et J. I NGLADA : Post-classification and spatial reasoning : new approach
to change detection for updating gis database. In 3rd International Conference on Information
and Communication Technologies : From Theory to Applications (ICTTA), p. 17, April 2008.
E. A LDEA : Apprentissage de donnes structures pour linterprtation dimages. Thse de
doctorat, Tlcom ParisTech, Dcembre 2009.
E. A LDEA, J. ATIF et I. B LOCH : Image Classification using Marginalized Kernels for Graphs.
In 6th IAPR-TC15 Workshop on Graph-based Representations in Pattern Recognition, GbR07,
vol. LNCS 4538, p. 103113, Alicante, Spain, jun 2007a.
E. A LDEA, G. F OUQUIER, J. ATIF et I. B LOCH : Kernel Fusion for Image Classification Using
Fuzzy Structural Information. In 3rd International Symposium on Visual Computing ISVC07,
vol. LNCS 4842, p. 307317, Lake Tahoe, USA, nov 2007b.
J. A LOIMONOS : Purposive and qualitative active vision. In in the proceedings of the 10th International Conference on Pattern Recognition, vol. 1, p. 346360, Jun 1990.
J. A LOIMONOS, I. W EISS et A. BANDYOPADHYAY : Active vision. International Journal of
Computer Vision, 1(4):333356, Jan 1988.
J. ATIF, C. H UDELOT, G. F OUQUIER, I. B LOCH et E. A NGELINI : From Generic Knowledge
to Specific Reasoning for Medical Image Interpretation using Graph-based Representations.
In International Joint Conference on Artificial Intelligence IJCAI07, p. 224229, Hyderabad,
India, jan 2007a.
J. ATIF, C. H UDELOT, O. N EMPONT, N. R ICHARD, B. BATRANCOURT, E. A NGELINI et
I. B LOCH : GRAFIP : A Framework for the Representation of Healthy and Pathological Cerebral Information. In IEEE International Symposium on Biomedical Imaging (ISBI), p. 205208,
Washington DC, USA, apr 2007b.
J. ATIF, H. K HOTANLOU, E. A NGELINI, H. D UFFAU et I. B LOCH : Segmentation of Internal
Brain Structures in the Presence of a Tumor. In MICCAI Workshop on Clinical Oncology, p.
6168, Copenhagen, oct 2006a.
J. ATIF, O. N EMPONT, O. C OLLIOT, E. A NGELINI et I. B LOCH : Level Set Deformable Models Constrained by Fuzzy Spatial Relations. In Information Processing and Management of
Uncertainty in Knowledge-Based Systems, IPMU, p. 15341541, Paris, France, 2006b.
R. BAJCSY : Active perception. Proceedings of IEEE, 76(8):9961005, 1988.
D. BALLARD et C. B ROWN : Principles of animate vision. CVGIP : Image Understanding, 56
(1):321, 1992. ISSN 1049-9660.

200

BIBLIOGRAPHIE

E. B ENGOETXEA, P. L ARRANAGA, I. B LOCH, A. P ERCHANT et C. B OERES : Inexact Graph


Matching by Means of Estimation of Distribution Algorithms. Pattern Recognition, 35:2867
2880, 2002.
K. B HATIA, J. H AJNAL, B. P URI, A. E DWARDS et D. RUECKERT : Consistent groupwise nonrigid
registration for atlas construction. In Biomedical Imaging : Macro to Nano, p. 908911, 2004.
D. B LEZEK et J. M ILLER : Atlas stratication. Medical Image Analysis, 11(5):443457, 2007.
I. B LOCH : Fuzzy Relative Position between Objects in Image Processing : a Morphological
Approach. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(7):657664,
1999.
I. B LOCH : Fuzzy Spatial Relationships for Image Processing and Interpretation : A Review.
Image and Vision Computing, 23(2):89110, 2005.
I. B LOCH, O. C OLLIOT et R. C ESAR : On the Ternary Spatial Relation Between. IEEE Transactions on Systems, Man, and Cybernetics SMC-B, 36(2):312327, apr 2006.
I. B LOCH, T. G RAUD et H. M ATRE : Representation and fusion of heterogeneous fuzzy information in the 3d space for model-based structural recognition - application to 3d brain imaging.
Artificial Intelligence, 148:141175, 2003.
B. B OUCHON -M EUNIER, M. R IFQI et S. B OTHOREL : Towards general measures of comparison
of objects. Fuzzy sets and Systems, 84(2):143153, 1996.
D. B OWDEN et M. D UBACH : Neuronames 2002. Neuroinformatics, 1(1):4359, 2003.
D. B OWDEN et M. D UBACH : Neuroanatomical Nomenclature and Ontology, chap. Databasing
the Brain. John Wiley and Sons, Inc., 2005.
C. B ROIT : Optimal registration of deformed images. Thse de doctorat, University of Pennsylvania, Philadelphia, 1981.
H. B UNKE : Recent developments in graph matching. In Int. Conf. Pattern Recognition, p. 2117
2124, 2000.
R. C ESAR, E. B ENGOETXEA, I. B LOCH et P. L ARRANAGA : Inexact Graph Matching for ModelBased Recognition : Evaluaton and Comparison of Optimization Algorithmss. Pattern Recognition, 38:20992113, 2005.
D. C OLLINS, A. Z IJDENBOS, W. BAARE et A. E VANS : Animal+ insect : Improved cortical
structure segmentation. In Information Processing in Medical Imaging, vol. 1613, p. 210223,
Visegrd, Hungary, 1999. Springer.
O. C OLLIOT : Representation, valuation et utilisation de relations spatiales pour linterprtation
dimages. Applications la reconnaissance de structures anatomiques en imagerie mdicale.
Thse de doctorat, ENST, 2003.
O. C OLLIOT, O. C AMARA et I. B LOCH : Integration of Fuzzy Spatial Relations in Deformable
Models - Application to Brain MRI Segmentation. Pattern Recognition, 39:14011414, 2006.
D. C OMANICIU et P. M EER : Mean shift : A robust approach toward feature space analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(5):603619, 2002. ISSN
0162-8828.

201
L. A. C ONSULARO, R. M. C ESAR et I. B LOCH : Structural Image Segmentation with Interactive
Model Generation. In IEEE International Conference on Image Processing (ICIP 2007), vol. 6,
p. 4548, San Antonio, Texas, USA, sep 2007.
D. C ONTE, P. F OGGIA, C. S ANSONE et M. V ENTO : Thirty years of graph matching in pattern
recognition. Int. J. Pattern Rec. and Art. Intell., 18(3):265298, 2004.
T. C OOTES, G. E DWARDS et C. TAYLOR : Active appearance models. Pattern Analysis and
Machine Intelligence, 23(6):681685, 2001.
T. C OOTES, C. TAYLOR, D. C OOPER et J. G RAHAM : Active shape models-their training and
application. Computer Vision and Image Understanding, 61(1):3859, 1995.
G. C OTTERET : Extraction dlments curvilignes guide par des mcanismes attentionnels pour
des images de tldtection : approche par fusion de donnes. Thse de doctorat, University
Paris XI, Orsay, France, 2005.
D. C REMERS, F. T ISCHHUSER, J. W EICKERT et C. S CHNRR : Diffusion snakes : Introducing statistical shape knowledge into the mumford-shah functional. International Journal of
Computer Vision, 50(3):295313, 2002.

D. C REVIER et R. L EPAGE : Knowledge-based image understanding systems : A survey.


Computer Vision and Image Understanding, 67(2):161 185, 1997. ISSN 1077-3142. URL
http://www.sciencedirect.com/science/article/B6WCX-45M8S4T-5/2/37d8bb1c2654ec6
A. C ROSS et E. H ANCOCK : Graph matching with a dual step EM algorithm. IEEE Trans. Pattern
Anal. Mach. Intell., 20(11):12361253, 1998.
J. DARBON et M. S IGELLE : Image restoration with discrete constrained total variation. part
i : Fast and exact optimization. Journal of Mathematical Imaging and Vision, 23(3):261276,
2006a.
J. DARBON et M. S IGELLE : Image restoration with discrete constrained total variation part
ii : Levelable functions, convex and non-convex cases. Journal of Mathematical Imaging and
Vision, 23(3):277291, 2006b.
C. DAUMAS -D UPORT : Histological grading of gliomas. Current Opinion in Neurology and
neurosurgery, 5:924931, 1992.
B. DAWANT, S. H ARTMANN et S. G ADAMSETTY : Brain atlas deformation in the presence of large
space-occupying tumors. In Medical Image Computing and Computer-Assisted Intervention
(MICCAI), p. 589596, Cambridge, UK, sep 1999a. Springer-Verlag London, UK.
B. DAWANT, S. H ARTMANN, S. PAN et S. G ADAMSETTY : Brain atlas deformation in the presence
of small and large space-occupying tumors. Comput. Aided Surg., 7(1):110, 2002.
B. DAWANT, S. H ARTMANN, J. T HIRION, F. M AES, D. VANDERMEULEN et P. D EMAEREL :
Automatic 3-d segmentation of internal structures of the head in mr images using a combination
of similarity and free-form transformations. i. methodology and validation on normal subjects.
IEEE Transactions on Medical Imaging, 18(10):909916, 1999b.
A. D ERUYVER, Y. H OD et L. B RUN : Image interpretation with a conceptual graph : Labeling
over-segmented images and detection of unexpected objects. Artif. Intell., 173(14):12451265,
2009. ISSN 0004-3702.

202

BIBLIOGRAPHIE

A. D ERUYVER et Y. H OD : Constraint satisfaction problem with bilevel constraint : applicationto


interpretation of over-segmented images. Articial Intelligence, 93(1-2):321335, 1997.
A. D ESOLNEUX, L. M OISAN et J.-M. M OREL : Gestalt Theory and Image Analysis : A Probabilistic Approach. Springer-Verlag New York Inc., 2008.
C. D OWNING et S. P INKER : The spatial structure of visual attention. Attention and performance,
1985.
D. D UBOIS et H. P RADE : Fuzzy Sets and Systems : Theory and Applications. Academic Press,
New-York, 1980.
J. D UNCAN : Selective attention and the organization of visual information. Journal of ExperimentalPsychology : General, 113:501517, 1984.
J. D UNCAN : Boundary conditions on parallel search in human vision. Perception, 18:457469,
1989.
J. D UNCAN et G. H UMPHREYS : Visual search and stimulus similarity. Psychological Review,
96:433458, 1989a.
J. D UNCAN et G. H UMPHREYS : Visual search and stimulus similarity. Psychological Review, 3
(96):433458, 1989b.
P. F. F ELZENSZWALB et D. P. H UTTENLOCHER : Pictorial structures for object recognition. Int.
J. Comput. Vision, 61(1):5579, 2005.
J. F LUSSER et T. s S UK : Pattern recognition by affine moment invariants. Pattern Recognition,
26(2):167174, January 1993.
T. G RAUD, I. B LOCH et H. M ATRE : Atlas-guided Recognition of Cerebral Structures in MRI
using Fusion of Fuzzy Structural Information. In CIMAF99 Symposium on Artificial Intelligence, p. 99106, La Havana, Cuba, 1999.
T. G RAUD, I. B LOCH et H. M ATRE : Reconnaissance de structures crbrales laide dun
atlas at par fusion dinformations structurelles floues. In RFIA 2000, vol. I, p. 287295, Paris,
France, 2000.
G. G RANLUND : Does vision inevitably have to be active ? In Proceedings of the SCIA99, Scandanavian Conference on Image Analysis, 1999.
A. G UIMOND, J. M EUNIER et J. T HIRION : Average brain models : A convergence study. Computer Vision and Image Understanding, 77(2):192210, 2000.
D. H ASBOUN : Neuranat. http://www.chups.jussieu.fr/ext/neuranat/index.html,
2005.
C.

H EALEY. :
Perception in visualization.
http ://www.csc.ncsu.edu/faculty/healey/PP/index.html, 2007.

Disponible

en

ligne

Y. H OD et A. D ERUYVER : Qualitative spatial relationships for image interpretation by using


semantic graph. In Graph-Based Representations in Pattern Recognition, GbRPR, p. 240250,
Alicante, Spain, 2007.

203
C. H UDELOT, J. ATIF et I. B LOCH : Fuzzy Spatial Relation Ontology for Image Interpretation.
Fuzzy Sets and Systems, 159:19291951, 2008.
C. H UDELOT, J. ATIF, O. N EMPONT, B. BATRANCOURT, E. A NGELINI et I. B LOCH : GRAFIP :
a Framework for the Representation of Healthy and Pathological Anatomical and Functional
Cerebral Information. In Human Brain Mapping, Florence, Italy, jun 2006.
D. I OSIFESCU, M. S HENTON, S. WARELD, R. K IKINIS, J. D ENGLER, F. J OLESZ et R. M C C ARLEY : An automated registration algorithm for measuring mri subcortical brain structures.
Neuroimage, 6(1):1325, 1997.
L. I TTI : Models of bottom-up attention and saliency. Neurobiology of Attention, 2005.
L. I TTI : Visual salience. Scholarpedia, 2(9):3327, 2007.
L. I TTI et C. KOCH : Feature combinaison strategies for saliency-based visual attention systems.
Journal of Electronic Imaging, 10(1):161169, 01 2001.
L. I TTI, C. KOCH et E. N IEBUR : A model of saliency-based visual attention for rapid scene
analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):12541259,
Nov. 1998.
W. JAMES : The Principles of Psychology, vol. 1. Dover Publications, 1890.
S. J OSHI, B. DAVIS, M. J OMIER et G. G ERIG : Unbiased dieomorphic atlas construction for
computational anatomy. Neuroimage, 23:151160, 2004.
B. J ULSZ : Textons, the elements of texture perception, and their interactions. Nature, 290:9197,
1981a.
B. J ULSZ : A theory of preattentive texture discrimination based on first-order statistics of textons. Biological Cybernetics, 41:131138, 1981b.
B. J ULSZ et J. B ERGEN : Textons, the fundamental elements in preattentive vision and the
perception of textures. Bell System Technical Journal, 62(6):16191645, 1983.
C. K ANAN, M. T ONG, L. Z HANG et G. C OTTRELL : Sun : Top-down saliency using natural
statistics. Visual Cognition, 17(6), 979-1003 2009.
H. K HOTANLOU : Segmentation 3D de tumeurs et de structures internes du cerveau en IRM.
Thse de doctorat, ENST, 2008.
H. K HOTANLOU, J. ATIF, E. A NGELINI, H. D UFFAU et I. B LOCH : Adaptive Segmentation of
Internal Brain Structures in Pathological MR Images Depending on Tumor Types. In IEEE
International Symposium on Biomedical Imaging (ISBI), p. 588591, Washington DC, USA,
apr 2007.
H. K HOTANLOU, O. C OLLIOT, J. ATIF et I. B LOCH : 3D Brain Tumor Segmentation in MRI Using
Fuzzy Classification, Symmetry Analysis and Spatially Constrained Deformable Models. Fuzzy
Sets and Systems, 160:14571473, 2009.
C. KOCH et S. U LLMAN : Shifts in selective visual attention : towards the underlying neural
circuitry. Human Neurobiology, 4(4):219227, 1985.

204

BIBLIOGRAPHIE

S. K YRIACOU, C. DAVATZIKOS, S. Z INREICH et R. B RYAN : Nonlinear elastic registration of


brain images with tumor pathology using a biomechanical model [mri]. Medical Imaging, 18
(7):580592, Jul 1999.
F. Le B ER, J. L IEBER et A. NAPOLI :
Les systmes base de connaissances.
In
J. A KOKA et I. Comyn WATTIAU, ds : Encyclopdie de linformatique et des systmes dinformation, p. 11971208. Vuibert, 2006. ISBN 978-2-7117-4846-4.
URL
http://hal.inria.fr/inria-00201566/en/.
F. L E -B ER et A. NAPOLI : The design of an object-based system for representing and classifying
spatial structures and relations. Journal of Universal Computer Science, 8(8):751773, 2002.
M. L EVENTON, W. G RIMSON et O. FAUGERAS : Statistical shape influence in geodesic active
contours. In Computer Vision and Pattern Recognition, vol. 1, p. 316323, 2000.
C. L IPSCOMB : Medical subject headings (mesh). Bull Med Libr Assoc, 88(3):265266, Jul 2002.
A. D. L UCA et S. T ERMINI : A definition of non-probabilistic entropy in the setting of fuzzy set
theory. Information and Control, 20:301312, 1972.
J. M ACHROUH : Perception attentive et vision en intelligence artificielle. Thse de doctorat,
University Paris XI, Orsay, France, 2002.
J.-F. M ANGIN, O. C OULON et V. F ROUIN : Robust brain segmentation using histogram scalespace analysis and mathematical morphology. In Medical Image Computing and ComputerAssisted Interventation, p. 1230, 1998.
J.-F. M ANGIN, V. F ROUIN, J. R GIS, I. B LOCH, P. B ELIN et Y. S AMSON : Towards better management of cortical anatomy in multi-modal multi-individual brain studies. Physica Medica, 12
(Supplement 1):103107, June 1996.
J. M ANGIN : Entropy minimization for automatic correction of intensity nonuniformity. In Mathematical Methods in Biomedical Image Analysis, p. 162169, Hilton Head Island, South Carolina, USA, 2000.
D. M ARCUS, T. WANG, J. PARKER, J. C SERNANSKY, J. M ORRIS et R. B UCKNER : Open access
series of imaging studies (oasis) : Cross-sectional mri data in young, middle aged, nondemented,
and demented older adults. Journal of Cognitive Neuroscience, 19:14981507, 2007.
D. M ARR : Early processing of visual information. Philosophical Transactions of the Royal
Society of London, 275:483524, 1976.
D. M ARR : Vision. W. H. Freeman and Company, New York, 1982.
T. M ATSUYAMA et V. S.-S. H WANG : SIGMA : a knowledge-based aerial image understanding
system. Plenum press, 1990.
J. M AZZIOTTA, A. T OGA, A. E VANS, P. F OX et J. L ANCASTER : A probabilistic atlas of the
human brain : Theory and rationale for its development the international consortium for brain
mapping (icbm). Neuroimage, 2(2PA):89101, 1995.
F. M EYER : An overview of morphological segmentation. International journal of pattern recognition and artificial intelligence, 15(7):10891118, 2001.

205
K. M IYAJIMA et A. R ALESCU : Spatial organization in 2d segmented images : representation
and recognition of primitive spatial relations. Fuzzy Sets and Systems, 65(2-3):225236, 1994.
ISSN 0165-0114.
A. M OHAMED, E. Z ACHARAKI, D. S HEN et C. DAVATZIKOS : Deformable registration of brain
tumor images via a statistical model of tumor-induced deformation. Medical Image Analysis,
10(5):752763, 2006.
B. M OTTER : Neural correlates of attentive selection for color or luminance in extrastriate area
v4. The Journal of Neuroscience, 14(4):21782189, Apr 1994.
H. M LLER, G. H UMPHREYS, P. Q UINLAN et M. R IDDOCH : Combined-feature coding in the
form domain. Visual Search, p. 4755, 1990.
U. N EISSER : Cognitive psychology. Appleton-Century-Crofts, 1967.
U. N EISSER et R. B ECKLEN : Selective looking : attending to visually specified events. Cognitive
Psychology, 7:480494, 1975.
O. N EMPONT : Modles structurels flous et propagation de contraintes pour la segmentation et la
reconnaissance dobjets dans les images. Application aux structures normales et pathologiques
du cerveau en IRM. Thse de doctorat, Ecole Nationale Suprieure des Tlcommunications,
Mars 2009.
A. N OMA, A. B. V. G RACIANO, R. M. C ESAR -J R, L. A. C ONSULARO et I. B LOCH : Inexact
graph matching for segmentation and recognition of object parts. Rap. tech., So Paulo : MACIME-USP, 2009.
e. a. P. AUER : A research roadmap of cognitive vision. ECVision : European Network for
Research in Cognitive Vision Systems, 2005.
H. PASHLER : The psychology of attention. MIT Press, 1998.
A. P ERCHANT : Morphisme de graphes dattributs flous pour la reconnaissance structurelle de
scnes. Thse de doctorat, Ecole nationale suprieure des tlcommunications, Paris, France,
2000.
A. P ERCHANT et I. B LOCH : Fuzzy Morphisms between Graphs. Fuzzy Sets and Systems, 128
(2):149168, 2002.
K. P OHL, J. F ISHER, W. G RIMSON, R. K IKINIS et W. W ELLS : A bayesian model for joint
segmentation and registration. Neuroimage, 31(1):228239, 2006.
K. P OHL, W. W ELLS, A. G UIMOND, K. K ASAI, M. S HENTON, R. K IKINIS, W. G RIMSON et
S. WARELD : Incorporating non-rigid registration into expectation maximization algorithm to
segment mr images. In Medical Image Computing and Computer-Assisted Intervention (MICCAI), p. 564572, Tokyo, Japan, 2002. Springer.
M. P OSNER : Orienting of attention. The Quarterly Journal of Experimental Psychology, 32
(1):325, 1980.
M. P OSNER, C. S NYDER et B. DAVIDSON : Attention and the detection of signals. Journal of
Experimental Psychology : General, 1980.

206

BIBLIOGRAPHIE

F. P OUPON, J.-F. M ANGIN, D. H ASBOUN, C. P OUPON, I. M AGNIN et V. F ROUIN : Multi-object


deformable templates dedicated to the segmentation of brain deep structures. In Medical Image
Computing and Computer-Assisted Interventation, vol. 1496, p. 1134, 2008.
J. R ABIN, J. D ELON et Y. G OUSSEAU : Circular earth movers distance for the comparison of
local features. In 19th Int. Conf. on Pattern Recognition, Tampa, FL, USA, dec 2008.
T. R. R EED : Motion analysis using the 3-d gabor transform. IEEE, p. 506509, 1997.
A. RODRIGUEZ -S ANCHEZ, E. S IMINE et J. T SOTSOS : Attention and visual search. Int. J. Neural
Systems, 17(4):27588, Aug 2007.
C. ROSSE et J. L. M EJINO : Anatomy Ontologies for Bioinformatics : Principles and Practice,
chap. The Foundational Model of Anatomy Ontology, p. 59117. Springer, 2007.
Y. RUBNER, C. T OMASI et L. G UIBAS : A metric for distributions with applications to image
databases. In Sixth International Conference on Computer Vision, p. 5966, Bombay, India,
1998.
M. S AENZ 1, G. B URACAS 1 et G. B OYNTON 1 : Global effects of feature-based attention in human
visual cortex. Nature Neuroscience, 2002.
B. S CHOLL : Objects and attention : the state of the art. Cognition, 80:146, 2001.
D. S IMONS et C. C HABRIS : Gorillas in our midst : sustained inattentional blindness for dynamic
events. Perception, p. 10591074, 1999.
J. S MIRNIOTOPOULOS : The new who classification of brain tumors. Neuroimaging Clin N Am,
9(4):595613, 1999.
J. TALAIRACH et P. T OURNOUX : Co-Planar Stereotaxic Atlas of the Human Brain 3-Dimensional
Proportional System : An Approach to Cerebral Imaging. Thieme, 1988.
P. T HEVENAZ, T. B LU et M. U NSER : Interpolation revisited. IEEE Transactions on Medical
Imaging, 19(7):739758, 07 2000.
A. T REISMAN : Preattentive processing in vision. Comput. Vision Graph. Image Process., 31
(2):156177, 1985. ISSN 0734-189X.
A. T REISMAN : Search, similarity, and integration of features between and within dimensions.
Journal of Experimental Psychology : Human Perception and Performance, 17(3):652676,
1991.
A. T REISMAN et G. G ELADE : A feature-integration theory of attention. Cognitive Psychology,
12:97136, 1980.
A. T REISMAN et S. G ORMICAN : Feature analysis in early vision : Evidence from search asymmetries. Psychological Review, 95(1):1548, 1988.
S. T REUE et J. M. T RUJILLO : Feature-based attention influences motion processing gain in
macaque visual cortex. Nature, 399(575-579), June 1999.
M. T RIVEDI et A. ROSENFELD : On making computers see. SMC, 19(6):13331335, 1989.

207
A. T SAI, W. W ELLS, C. T EMPANY, E. G RIMSON et A. W ILLSKY : Coupled multi-shape model
and mutual information for medical image segmentation. In Information Processing in Medical
Imaging, p. 185197, Ambleside, UK, jul 2003. Springer.
A. T SAI, W. W ELLS, C. T EMPANY, E. G RIMSON et A. W ILLSKY : Mutual information in coupled
multi-shape model for medical image segmentation. Medical Image Analysis, 8(4):429445,
2004.
J. T SOTSOS : There is no one way to look at vision. CVGIP : Image Understanding, 60(1):9597,
1994.
D. V ERNON : Cognitive Vision Systems : Sampling the Spectrum of Approaches, chap. The space
of cognitive vision, p. 726. Springer, Heidelberg, 2006.
D. V ERNON : Cognitive vision : The case for embodied perception. Image and Vision Computing,
26(1):127 140, 2008. Cognitive Vision-Special Issue.
C. V ILLANI : Topics in optimal transportation. American Math. Soc., 2003.
D. WALTHER et C. KOCH : Modeling attention to salient proto-objects. Neural Networks, 19
(9):13951407, Nov. 2006.
Y. WANG et C. C HUA : Face recognition from 2d and 3d images using 3d gabor filters. Image and
Vision Computing, 23:10181028, 2005.
S. WAXMAN : Correlative neuroanatomy. McGraw-Hill, New York, 2000.
J. W OLFE : Guided search 2.0 : A revised model of visual search. Psychonomic Bulletin and
Review, 1(2):202238, 1994.
J. W OLFE : Visual search. Attention, p. 1373, 1998.
J. W OLFE, K. C AVE et S. F RANZEL : Guided search : An alternative to the feature integration
model for visual search. Journal of Experimental Psychology : Human Perception and Performance, 15(3):419433, 1989.
J. W OLFE et T. H OROWITZ : What attributes guide the deployment of visual attention and how
do they do it ? Nature Reviews Neuroscience, p. 495501, June 2004.
C. X U et J. P RINCE : Snakes, shapes, and gradient vector flow. Image Processing, IEEE Transactions on, 7(3):359369, Mar 1998. ISSN 1057-7149.
J. YANG et J. D UNCAN : 3d image segmentation of deformable objects with joint shape intensity
prior models using level sets. Medical Image Analysis, 8(3):285294, 2004a.
J. YANG et J. D UNCAN : Joint prior models of neighboring objects for 3d image segmentation.
In Computer Vision and Pattern Recognition, vol. 1, p. 314319, Washington, DC, USA, Jul
2004b.
A. YARBUS : Eye movements and vision. Plenum, New York, 1967.
E. I. Z ACHARAKI, D. S HEN, S.-K. L EE et C. DAVATZIKOS : Orbit : A multiresolution framework
for deformable registration of brain tumor images. Medical Imaging, p. 10031017, Aug 2008.

Anda mungkin juga menyukai