dInformatique,
Tlcommunications
et lectronique de Paris
Thse
prsente pour obtenir le grade de docteur
de lcole Nationale Suprieure des Tlcommunications
Spcialit : Signal et Images
Geoffroy Fouquier
Optimisation de squences de
segmentation combinant modle structurel
et focalisation de lattention visuelle.
Application la reconnaissance de
structures crbrales dans des images 3D.
Serge Guillaume
Philippe Tarroux
Jamal Atif
Michel Desvignes
Isabelle Bloch
Rapporteurs
Examinateurs
Directeur de thse
Rsum
Nos travaux portent sur linterprtation dune scne dont nous possdons un modle, reprsentant lagencement spatial des objets contenus dans cette scne. Dans le cadre dune segmentation
squentielle permettant de reconnatre les objets les uns aprs les autres en fonction des tapes
antrieures, nous utilisons la connaissance spatiale du modle pour optimiser la squence de segmentation effectuer partir dun objet de rfrence vers un objectif segmenter. Nous proposons
pour cela doptimiser un chemin dans un graphe reprsentant les objets de la scne (nuds) et leurs
relations spatiales (arcs). Deux approches sont proposes.
La premire approche effectue une optimisation partir de linformation spatiale du modle
uniquement, en valuant un critre de pertinence de chaque chemin. Lvaluation est effectue de
manire indpendante sur chaque arc dans un premier temps, puis nous proposons une manire
de reprsenter un chemin entier, permettant dvaluer la pertinence du chemin partir de cette
reprsentation.
La deuxime approche sintgre dans un processus de segmentation squentielle, vu comme
lexploration progressive dune image partir dun objet de rfrence. Nous utilisons une modlisation dune technique pr-attentionnelle, une carte de saillance, afin de guider le processus
de segmentation squentielle, en intgrant lapproche structurelle des informations de saillance
extraites de limage interprter.
Le domaine dapplication de ces approches est la segmentation des structures sous-corticales
du cerveau dans des images IRM 3D dont certaines prsentent des pathologies.
R SUM
Abstract
Sequential segmentation optimization using a structural model and focus of visual attention.
Application to the recognition of internal brain structures in 3D magnetic resonance images
(MRI).
We aim at recognizing a 3D scene described by a 3D image and a structural model, i.e., a model
that describes the spatial arrangement of the objects. The sequential segmentation framework is
considered. This allows us to segment and recognize objects in a sequential way, using at each
step the previously recognized object to guide the segmentation of the next ones. We propose to
use the spatial information included in the model to optimize the segmentation sequence from a
reference object to a selected target. This sequence is viewed as a path in a graph where a node
represents an object and an edge carries the spatial relation information between two objects.
We propose to use the spatial information included in the model to optimized the segmentation
sequence from a reference object to a selected target. This sequence is view as a path in a graph
where vertex represents objects and edges represents spatial relations.
Two approaches are proposed. The first one proposes to evaluate the relevance of a path according to the generic available knowledge. This estimation is realized either on each spatial relation
independently or directly on a fuzzy subset that represents the whole path at once. The best path
according to a criterion is then selected and the objects may be segmented.
The second approache proposes to integrate the segmentation sequence optimization directly
into a sequential segmentation framework. The optimization uses a spatial model of the scene
modeled as a graph and also a saliency map to guide the segmentation. The latter can be seen as
an image exploration process.
Both approaches are used for segmentation and recognition of internal brain structures in 3D
magnetic resonance images. We also propose an adaptation of these methods to cope with pathological cases (e.g., brain tumors).
A BSTRACT
Remerciements
Je voudrais remercier tout particulirement Isabelle et Jamal pour la direction de mon stage
puis de cette thse. Pour mavoir fait confiance tout dabord avec un profil atypique, puis pour
les conseils prcieux, laide et le soutien. Merci Isabelle dtre toujours prsente et si prompt
relire notre prose. Merci Jamal pour son amiti et son accueil en Guyane. Jai eu parfois
plus le sentiment dune longue collaboration que dune direction, tout en ayant beaucoup appris,
scientifiquement mais aussi humainement, alors merci !
Je remercie Michel Desvignes pour avoir accept de prsider mon jury, Serge Guillaume et
Philippe Tarroux pour avoir t les rapporteurs de ces travaux, ainsi que lensemble des membres
du jury pour leur valuations et leur prcieux conseils.
Je remercie galement Jrme, Sad, Sylvain, Ceyhun et Rda pour leur amiti, leur aide et leur
soutien au long de ces annes qui nont pas toujours t aises. Avoir un avis, une confirmation ou
simplement un oreille a t pour moi plus que important et ncessaire, ainsi que les moments de
dtente entre amis.
Je remercie tous les doctorants et postdoc que jai crois tlcom avec lesquels jai pu passer
de bons moments, parfois collaborer. En particulier Emi, Olivier, Jrmie, David, Vincent, Cline,
Antonio, Racha, Carolina, Julien, Nicolas et tous les autres. Je remercie trs chaleureusement
Patricia pour soccuper de tous les doctorants, pour ses attentions, le caf du matin, les bonbons
ou laspirine mais aussi pour sa compagnie. Je remercie galement Catherine Vazza et Florence
Besnard ainsi que lensemble du dpartement TSI, en particulier Marc, Laurence et avec une
pense pour Francis. Je remercie galement Sophie-Charlotte pour son impeccable gestion du
rseau et sa ractivit.
Je remercie galement mes parents pour mavoir encourag et soutenu tout au long de mes
tudes jusqu cet aboutissement. Je naurais pas pu faire tout cela sans eux et je suis reconnaissant.
Je remercie galement Thibaud et sa famille et Florent pour toutes ces bonnes annes et de leur
soutien. Enfin, je remercie Ana, les plus belles dcouvertes ne sont pas les plus attendues. Merci
davoir t et dtre toujours mes cts.
R EMERCIEMENTS
Abstract
Remerciements
Introduction
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
36
37
39
42
42
43
43
44
44
44
47
47
10
2.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
49
50
53
53
54
56
57
58
58
60
61
62
62
62
64
64
65
66
67
68
69
69
70
71
72
72
72
74
75
76
78
78
3 Le modle de connaissance
3.1 Graphe de relations spatiales . . . . . . . . . . . . . . . . . .
3.1.1 Les relations spatiales pour limagerie mdicale . . . .
3.1.2 Graphe de relations spatiales . . . . . . . . . . . . . .
3.1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Sources de connaissances . . . . . . . . . . . . . . . . . . . .
3.2.1 Connaissance experte et textuelle . . . . . . . . . . .
3.2.2 Connaissance extraite automatiquement . . . . . . . .
3.2.3 Connaissance extraite de manire semi-interactive . .
3.2.3.1 Les traces de lutilisateur . . . . . . . . . .
3.2.3.2 Rcupration des objets . . . . . . . . . . .
3.2.3.3 Interprtation des traces . . . . . . . . . . .
3.2.3.4 Cration du modle . . . . . . . . . . . . .
3.2.4 Conclusion sur les sources de connaissances . . . . . .
3.3 Formalisme flou pour les relations spatiales . . . . . . . . . .
3.3.1 Reprsentation de la relation de distance . . . . . . . .
3.3.2 Reprsentation de la relation dorientation . . . . . . .
3.3.3 Reprsentation de ladjacence . . . . . . . . . . . . .
3.3.4 Autres relations . . . . . . . . . . . . . . . . . . . . .
3.3.5 Notations des paysages flous . . . . . . . . . . . . . .
3.4 Base de donnes dimages crbrales . . . . . . . . . . . . . .
3.5 Apprentissage des paramtres des intervalles flous . . . . . . .
3.5.1 Cadre gnral pour lapprentissage des intervalles flous
3.5.2 Un exemple dapprentissage . . . . . . . . . . . . . .
3.5.3 Le cas de la distance . . . . . . . . . . . . . . . . . .
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
. 82
. 83
. 84
. 86
. 88
. 92
. 92
. 95
. 97
. 98
. 101
. 101
.
.
.
.
.
.
.
.
.
.
.
.
11
4.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Conclusion et perspectives
6.1 Synthse des contributions . . . . . . . . . . . . . . . . . . . . .
6.1.1 Optimisation de chemin avec reprsentation des structures
6.1.2 Optimisation de chemin avec saillance . . . . . . . . . . .
6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Optimisation avec reprsentation des structures . . . . . .
6.2.2 Optimisation avec information visuelle . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
106
106
108
109
112
112
112
115
117
117
117
119
121
124
126
127
131
132
133
136
136
136
138
138
139
143
146
146
.
.
.
.
.
.
151
151
151
152
154
154
154
Annexes
157
157
12
B Cartes de saillance
B.1 Les cas sains . . . . . . . . . . . .
B.1.1 IBSR 01 . . . . . . . . . . .
B.1.2 Oasis 02 . . . . . . . . . . .
B.1.3 Les autres cas sains . . . . .
B.2 Les cas pathologiques . . . . . . . .
B.2.1 Cas 1 . . . . . . . . . . . .
B.2.2 Les autres cas pathologiques
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
159
160
160
162
163
178
178
179
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
189
189
189
191
192
192
193
194
195
195
196
198
198
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
199
13
Introduction
Linterprtation des images est une tche complexe, autant par la diversit des moyens de
reprsenter une image et des approches associes permettant de raliser son interprtation, que
par la subjectivit du rsultat attendu. Lobjectif de linterprtation est de pouvoir reconnatre les
objets qui composent une scne et leurs relations.
Lutilisation dun modle de la connaissance se heurte au problme du saut smantique, cest-dire la diffrence entre la description dun objet par une connaissance gnrique et exprime en
langage naturel dune part, et sa reprsentation numrique dautre part. Dans notre cas, il sagit de
la difficult de faire le lien entre la connaissance gnrique et les parties de limage qui lui correspondent. Cependant, dcrire les objets qui composent une scne et leurs relations est une manire
naturelle de dcrire une scne et qui est cohrente avec la manire dont le systme visuel explore
une scne. Les modles reprsentant une image comme un ensemble dobjets structurs sont donc
bien adapts cette tche. Parmi ces modles, la thorie des graphes fournit un cadre permettant
de reprsenter plusieurs niveaux de connaissance, objet ou rgion et connaissance structurelle.
Une manire naturelle de dcrire les relations entre les diffrents objets qui composent une
scne est de dcrire leurs positions relatives, par exemple lobjet A est droite de lobjet B . De
plus les relations spatiales, grce leur imprcision intrinsque, sont appropries pour modliser
limprcision de ces relations. Il existe diffrentes manires de prendre en compte linformation
spatiale, que ce soit pour la segmentation ou pour la reconnaissance des structures. Nos travaux
se placent dans le cadre de linterprtation dune scne guide par un modle dcrivant lagencement spatial des objets composant la scne. Nous proposons dexploiter au mieux la connaissance
spatiale dune scne interprter, mais aussi la connaissance extraite de limage elle-mme ds
quelle est disponible. La problmatique de ces travaux est principalement la suivante : comment
explorer limage de la manire la plus propice son interprtation. Si lexploration correspond
une squence de segmentation, alors nous souhaitons connatre la meilleure squence de segmentation possible dune image en fonction de linformation disponible.
En fonction du type de connaissance disponible propos dune scne (experte, extraite automatiquement, . . .), le modle spatial gnr va permettre un raisonnement spatial plus ou moins
puissant. La constitution dun modle de lagencement spatial dune scne nest pas lobjet de nos
travaux, mme si cette question est aborde lors de la prsentation du modle de la connaissance.
Le domaine dapplication nous permettant dillustrer nos contributions est celui de limagerie crbrale. La segmentation et la reconnaissance des structures sous-corticales du cerveau reprsente une tche complexe dinterprtation en raison de la radiomtrie non discriminante des
structures, de la forme complexe que peuvent prendre ces structures et de la grande variabilit
inter-patients. Pour ces raisons, la segmentation des images crbrales est le plus souvent guide par un modle. De plus, lagencement spatial des structures crbrales est stable (dans le cas
sain). Linformation spatiale est donc pertinente dans ce cas. Il existe de nombreuses reprsentations structurelles de lanatomie crbrale, lontologie de la FMA par exemple (Rosse et Mejino
(2007)), ainsi que des mthodes de segmentation des structures sous-corticales utilisant ce type de
14
I NTRODUCTION
reprsentation. Nous proposons des approches dans le cadre de cette application, pour dduire de
la reprsentation structurelle et de limage interprter la squence de segmentation.
Connaissance gnrique
Nous avons une connaissance qui provient de descriptions anatomiques : nous connaissons
les diffrentes structures du cerveau, et nous connaissons les relations spatiales entres elles. Ces
descriptions sont le plus souvent textuelles. Par exemple, le noyau caud est proche du ventricule
latral . Une telle relation est intrinsquement imprcise, ce qui permet de prendre en compte
ses variations inter-patients. Nous utilisons donc un formalisme qui permet de conserver cette
imprcision. Le formalisme flou est particulirement adapt pour modliser limprcision de ces
relations (Bloch (2005)).
Il y a plusieurs manires de reprsenter une relation spatiale. Les reprsentations que nous utilisons rpondent cette question (Bloch (2005)) : partir dun objet de rfrence A, quels sont
les points de lespace qui satisfont une relation R calcule partir de A . Par exemple, si nous
avons une relation droite de A, nous reprsentons cette relation dans lespace de limage, et
chaque point correspond un degr de satisfaction de la relation droite de A . La reprsentation
de la relation est donc directement dpendante de la forme de lobjet de rfrence. partir de ces
relations nous proposons une approche permettant de slectionner un chemin de segmentation et
rpondant cette question : partir dun objet donn, quelle est la meilleure squence de segmentation permettant de segmenter un objet cible donn. Cette approche repose sur la connaissance
spatiale, ainsi que sur des reprsentations des objets qui proviennent de la connaissance gnrique.
15
capable de grer ces cas pathologiques. Nous prsentons, pour chacune des approches, comment
les cas pathologiques peuvent tre pris en compte.
Structure du document
Ce document est compos des chapitres suivants.
Le chapitre 1 prsente une tude bibliographique non exhaustive sur les systmes dinterprtation dimage, en particulier les systmes base de connaissances dune part, puis les mthodes
dinterprtation dimages crbrales.
Dans le chapitre 2 nous prsentons une tude bibliographique portant cette fois sur la notion
dattention visuelle, et des mcanismes qui la modlisent. Nous prsentons plus en dtail le mcanisme pr-attentionnel permettant la gnration des cartes de saillance tel quil a t dcrit dans
la littrature, puis nous proposons des adaptations permettant de calculer des cartes de saillance
adaptes limagerie crbrale.
Le modle de la connaissance gnrique utilis dans notre tude est prsent dans le chapitre
3. Nous discutons des sources de connaissances autres que la connaissance experte utilise en imagerie crbrale. Nous prsentons galement le formalisme de reprsentation des relations spatiales
ainsi que la manire dont les paramtres de ces relations sont appris.
Le chapitre 4 prsente une premire approche qui vise optimiser des chemins de segmentation, en utilisant la connaissance spatiale du modle ainsi que des reprsentations des structures
issues de la connaissance gnrique. Cette mthode est galement adapte pour prendre en compte
les cas pathologiques qui peuvent se prsenter en imagerie crbrale.
Une seconde approche intgrant le mcanisme pr-attentionnel dans un processus de segmentation squentielle est prsente dans le chapitre 5. Nous prsentons en dtail comment intgrer
linformation de saillance pour guider la segmentation et comment cette information peut tre
utilise aprs segmentation.
Le chapitre 6 rcapitule les travaux dvelopps dans les chapitres prcdents et prsente des
perspectives de recherche envisageables.
La liste des publications en relation avec ces travaux se trouve dans lannexe A. Nous prsentons dans lannexe B des rsultats de gnration de cartes de saillance sur toutes les images
de notre base de donnes. Enfin lannexe C prsente une application pour la segmentation dun
modle discut dans le chapitre 3, utilisant une connaissance fournie par lutilisateur.
16
I NTRODUCTION
17
Chapitre 1
Segmentation et reconnaissance de
structures crbrales : les approches
par modle
Nos travaux portent sur une tche dinterprtation des images, avec une application particulire
la reconnaissance des structures crbrales dans le cerveau humain. Cette tche est effectue en
utilisant une connaissance a priori de la scne, sur les objets et sur leur structure, connaissance
modlise laide dun graphe. Lobjectif de ce chapitre est de prsenter les travaux existants se
rapportant aux diffrents aspects de cette tche.
Linterprtation des images correspond lanalyse dune image ou dune scne permettant
de dcrire les objets composant la scne et leurs relations, cest--dire extraire la smantique de
limage, afin de la comprendre. Cette problmatique est un problme de perception de lenvironnement par des capteurs ( visual perception ) qui peut tre divis en trois catgories
(Trivedi et Rosenfeld (1989)) :
La psychologie perceptive qui consiste comprendre les aspects psychologiques de la perception. Certains aspects sont abords dans le chapitre 2. En revanche, notre tude se limite des
systmes bio-inspirs plutt que psycho-ralistes.
La vision artificielle cest--dire les mcanismes permettant de faire comprendre une machine
ce quelle voit au travers de capteurs. Nos travaux se situent dans cette dernire catgorie.
Nous commenons dans ce chapitre par introduire la problmatique de la vision artificielle
en prsentant les diffrents types de systmes dinterprtation dimages, ainsi que la notion de
vision cognitive. Dans une deuxime partie, nous dresserons un panorama des mthodes de reconnaissance des structures sous-corticales du cerveau utilisant un modle de lanatomie. Cette
problmatique constitue le domaine dapplication de nos travaux.
1. S EGMENTATION
18
: LES
APPROCHES
PAR MODLE
19
lattention une zone trs restreinte de lespace visuel, afin danalyser uniquement les zones les
plus significatives de lespace, mais dune manire plus attentive.
Purposive Vision La vision dessein (Aloimonos (1990)) se focalise sur la vision guide
par une tche et non pas par les donnes uniquement. Les diffrentes explorations dune image
en fonction de la tche accomplir ont galement t illustres par Yarbus (1967). Lattention est
dirige sur certaines parties de limage en fonction de lobjectif, et dautres parties peuvent tre
ignores. De mme, certaines parties prennent une grande importance en fonction du but poursuivi.
Il sagit ici dextraire les reprsentations de limage les plus adquates en fonction de lobjectif,
et les modules de traitement les plus adquats pour traiter ces reprsentations. Le principe est de
sparer le problme en sous-problmes et de dfinir un gestionnaire permettant la recomposition,
ce qui permet damliorer la tche de perception et de reconnaissance (Tsotsos (1994)). Cette approche peut tre relie la problmatique de la recherche visuelle ( visual search ), qui propose
dadapter la notion de saillance en fonction de lobjectif poursuivi. Cette notion de saillance et
lapproche de la recherche visuelle sont prsentes dans la partie 2.2.1.
Vision passive Les systmes dinterprtation dimages que nous avons prsents voient le
problme de linterprtation dimage comme une mise en correspondance entre des projections
en deux dimensions dune scne vue depuis un capteur et le modle en trois dimensions de cette
scne. Ces systmes actifs utilisent les capteurs pour mieux contraindre le problme et obtenir
de linformation supplmentaire.
Dans nos travaux, lacquisition des images est spare de leur traitement, ce qui empche
lutilisation des approches actives. Nous sommes donc dans le cas dune vision passive par
opposition aux systmes actifs prsents. Cela est particulirement important dans notre domaine
dapplication, en imagerie mdicale o les acquisitions ne peuvent pas tre contrles. De plus,
les acquisitions dimages mdicales nous fournissent un volume en trois dimensions de la scne,
et non pas une projection en deux dimensions de la scne. En imagerie crbrale plus particulirement, la scne complte est comprise dans le volume fourni.
1. S EGMENTATION
20
: LES
APPROCHES
PAR MODLE
F IG . 1.1 Reprsentation et manipulation des connaissances dans un systme base de connaissances [Figure extraite de Le Ber et al. (2006)].
Lobservation dimages en deux dimensions pour modliser une scne en trois dimensions
pose des problmes doccultation, qui ne concernent pas ces travaux, la scne complte tant observe. Lextraction dinformation de limage est sujette aux problmes classiques de la segmentation, la sur-segmentation par exemple. Lutilisation dun modle spatial apporte une information
structurelle gnralement stable qui est utilise dans des systmes base de connaissances pour
amliorer la reconnaissance.
Utilisation dun modle de la connaissance spatiale Les relations spatiales sont communment
admises comme jouant un rle important dans linterprtation dune scne. Linformation spatiale
peut tre vue du point de vue smantique comme un attribut dobjet du modle (avec des relations
topologiques par exemple). Cette information peut galement tre utilise pour le raisonnement,
en particulier si les caractristiques des objets ne permettent pas de les discriminer.
Lapproche de Le-Ber et Napoli (2002) utilise des relations spatiales topologiques (suivant le
formalisme RCC-8) pour la classification de paysages agricoles. Les relations sont hirarchises
sur un treillis de Galois. Dans cette approche, les relations sont reprsentes en tant que concepts,
cest--dire que les relations sont reprsentes par des objects propres qui renseignent sur les
primitives intrinsques des relations, mais aussi en tant que relations entre des concepts, pour faire
un lien entre deux concepts (deux classes de terrains par exemple). Les relations topologiques
sont frquemment utilises pour linterprtation dimage satellitaires (Alboody et al. (2008) par
exemple).
Des reprsentations floues des relations spatiales (Bloch (2005)) sont utilises pour la reconnaissance. Les mthodes permettant la reconnaissance des structures crbrales utilisant un modle
structurel de lanatomie crbrale sont des exemples dutilisation de linformation spatiale pour
linterprtation des images. Nos travaux utilisent ce genre de reprsentations qui sont prsentes
dans le chapitre 3.
1
21
1. S EGMENTATION
22
: LES
APPROCHES
PAR MODLE
puyant sur cette information uniquement. La figure 1.2 prsente un exemple dIRM crbrale avec
quelques structures internes qui ont t pointes.
Noyau caud
Ventricule latral
Putamen
Thalamus
Ventricule latral
Matire blanche
Matire grise
F IG . 1.2 Une coupe dimage IRM du cerveau avec quelques structures internes tiquetes. Les
structures sont prsentes de manire symtrique dans les deux hmisphres. La matire blanche
englobe les structures prsentes. La matire grise est situe plutt sur le bord du cerveau.
Les IRM crbrales prsentent en outre une grande variabilit. Dune manire gnrale, les
structures internes prsentent des formes complexes et soumises des variations. La figure 1.3
prsente des coupes extraites dIRM crbrales de la base OASIS (Marcus et al. (2007)) et de
la base IBSR2 . Nous pouvons clairement voir sur ces images les variations, en particulier sur la
forme du cerveau en gnral, mais galement sur les ventricules latraux au centre de limage,
mme si les coupes ne sont pas exactement les mmes sur cette figure, les images ntant pas
recales dans la base OASIS. Nous pouvons galement observer les diffrences dintensit entre
ces images. Leur segmentation est donc un problme complexe, qui ncessite une connaissance a
priori sur la scne. Cette connaissance peut concerner les caractristiques des structures ou encore
leur agencement spatial. La segmentation des structures crbrales doit donc tre guide par un
modle de lanatomie crbrale.
Lapparition de pathologies, en particulier de tumeurs crbrales, est un problme quil est
ncessaire de prendre en compte dans le modle utilis. Pour une revue des diffrents types de
pathologies, on pourra se rfrer Khotanlou (2008); Khotanlou et al. (2007). Les tumeurs crbrales peuvent avoir diffrents comportements spatiaux, selon quelles vont infiltrer les tissus (et
donc modifier la radiomtrie), ou sinsrer entre des structures (tumeur refoulante). Dans ce dernier cas en particulier, les structures crbrales peuvent tre dplaces, dformes voire dtruites.
Laspect des tumeurs varie galement selon quelles sont ncrotiques ou provoquent lapparition
dun dme. Dune manire gnrale, laspect, la localisation et le comportement spatial des tumeurs varient, ce qui rend difficile une modlisation des tumeurs.
Nous allons prsenter les diffrents modes de reprsentation des images crbales, puis nous
allons prsenter deux grandes familles de mthodes pour la segmentation des structures crbrales.
La premire famille correspond aux mthodes modlisant les structures crbrales ou leurs caractristiques. Dans ces mthodes, lagencement spatial des structures est en gnral induit par le
modle, cest--dire pas exprim de manire directe. La deuxime famille de mthodes propose
dutiliser une reprsentation structurelle de lanatomie et se focalise moins sur les caractristiques
2
Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http://www.cma.mgh.harvard.edu/ibsr/
23
F IG . 1.3 Coupes dIRM crbrales (T1) de la base OASIS (en haut, les coupes sont proches mais
ne sont pas exactement les mmes. Marcus et al. (2007)) et la base IBSR (en bas).
des structures. Les approches que nous proposons dans ces travaux se situent dans cette deuxime
famille.
1. S EGMENTATION
24
: LES
APPROCHES
PAR MODLE
F IG . 1.4 Une capture dcran du navigateur dans la hirarchie neuronames qui est hberge par luniversit de Washington cette adresse :
http://braininfo.rprc.washington.edu/.
25
FMA ( Foundational Model of Anatomy ) :
Lontologie de la FMA (Rosse et Mejino (2007)), disponible cette adresse :
http://sig.biostr.washington.edu/projects/fm) vise regrouper les reprsentations des classes et des types des relations ncessaires une reprsentation symbolique de la
structure du corps humain. Cette reprsentation de la connaissance anatomique nest pas sous
une forme darbre, mais peut tre vue de plusieurs points de vue, et avec diffrents niveaux
de granularit. Un explorateur Foundational Model Explorer est disponible cette adresse :
http://fme.biostr.washington.edu . Une capture est prsente sur la figure 1.6. Chaque
structure apparat avec ses relations aux autres structures ventuellement diffrentes granularits. Des informations sur la structure, comme sa dfinition, ses sous-parties, ou ses caractristiques
morphologiques sont donnes.
la
FMA
disponible
ladresse
Neuranat :
Neuranat (Hasboun (2005)) est un site plutt ddi lenseignement de la neuroanatomie et qui
ne propose pas de hirarchie des structures. Cependant, il propose des atlas morphologiques et
fonctionnels du cerveau, ainsi que des vidos et des animations autour du sujet. Les atlas sont disponibles cette adresse : http://www.chups.jussieu.fr/ext/neuranat. La figure
1.7 prsente une vue de latlas IRM en trois dimensions.
1.2.1.1
Si les IRM crbrales prsentent une grande variabilit au niveau des caractristiques des
structures crbrales, la structure de lanatomie crbrale prsente une grande rgularit et a permis llaboration datlas anatomiques et fonctionnels (Talairach et Tournoux (1988)).
1. S EGMENTATION
26
: LES
APPROCHES
PAR MODLE
F IG . 1.7 Deux captures dcran du site neuranat. En haut une vue de de latlas 3D IRM.
En bas la description dune structure (le noyau caud). Le site est accessible cette adresse :
http://www.chups.jussieu.fr/ext/neuranat .
Les atlas sont des reprsentations moyennes des structures anatomiques, qui peuvent tre gnres de diffrentes manires. Leur utilisation pour guider la reconnaissance des structures consiste
effectuer une mise en correspondance de latlas vers limage reconnatre. Les modles de
forme proposent un apprentissage distinct des formes de chacune des structures, afin dtre plus
reprsentatifs de chacune.
Atlas probabilistes et atlas moyens Les premires mthodes utilisant un atlas utilisent en pratique une unique image annote manuellement. Utiliser une unique image limite bien entendu la
variabilit usuelle des structures, et empche la reprsentation des particularits (par exemple, certaines circonvolutions du cortex napparaissent pas chez tous les sujets). Les atlas probabilistes et
les atlas moyens cherchent reprsenter la variabilit en fusionnant linformation provenant de
diffrentes images annotes manuellement.
La gnration dun atlas probabiliste, tel latlas ICBM (Mazziotta et al. (1995)), consiste
gnrer une carte de probabilit par structure, partir du recalage affine dun ensemble de cas segments manuellement. Pour chaque carte obtenue, la probabilit reflte le nombre doccurrences
aprs recalage de la structure en ce point. Une image peut alors tre gnre reprsentant latlas.
Pour latlas ICBM, 452 images en pondration T1 de jeunes adultes ont t utilises. Une repr-
27
sentation moyenne de tous les lments de la base permet daccrotre la reprsentativit de la base
et de prendre en compte la variabilit normale des structures. Mais cette gestion de la variabilit
seffectue au dtriment de la prcision. De plus, les images moyennes pour chaque structure sont
floues.
Les atlas moyens essayent de remdier ce problme, en proposant deffectuer un recalage de
groupe (Guimond et al. (2000); Joshi et al. (2004); Bhatia et al. (2004); Blezek et Miller (2007)).
Lobjectif est dextraire un atlas moyen dun groupe de sujets de la base de cas annots manuellement, compos de manire ce quil minimise la dformation raliser pour tre mis en correspondance avec tous les lments de la base, cest--dire que pour chaque lment de la base, la
dformation par rapport latlas moyen est minimise.
Les atlas moyens permettent de mieux reprsenter la base dapprentissage, mais il est toujours
difficile, en moyennant linformation, de reprsenter des singularits de la base. Dans les cas sains,
pour amliorer la reprsentativit, il est possible de ne pas extraire un unique atlas moyen, mais
tout un ensemble datlas qui soient les plus reprsentatifs possibles (Blezek et Miller (2007)). Mais
cette mthode est coteuse, en particulier si le nombre datlas est grand.
Mise en correspondance datlas Dans le cas des premires mthodes utilisant comme atlas une
unique image (Broit (1981); Iosifescu et al. (1997); Dawant et al. (1999b)), la mise en correspondance entre latlas et limage reconnatre peut tre vue comme un problme de recalage entre
deux images. Les variations ntant pas identiques pour toutes les parties, le recalage nest pas
linaire.
Pour les atlas probabilistes, plusieurs mthodes ont t proposes pour raliser la mise en correspondance. Elle peut tre effectue partir dune classification initiale de limage (Collins et al.
(1999)), ou encore en utilisant une estimation du maximum a posteriori (MAP) par un algorithme
de type esprance-maximisation (EM) (Pohl et al. (2002, 2006)). La mise en correspondance dun
atlas moyen peut tre effectue avec le mme type de mthodes.
Dans les cas pathologiques, il est ncessaire dadapter le modle. Une premire approche
(Dawant et al. (1999a, 2002)) consiste introduire la tumeur dans latlas. Cela peut tre effectu
en y plaant une graine dont la radiomtrie est celle de la tumeur. Dans le cas o la tumeur est
refoulante, cest--dire quelle va dplacer des structures, alors les dformations induites peuvent
alors tre modlises. Une deuxime approche (Kyriacou et al. (1999); Mohamed et al. (2006);
Zacharaki et al. (2008)) consiste modliser finement lanatomie (notamment les proprits biomcaniques de ses tissus) ainsi quun modle de croissance de la tumeur, afin de proposer une
modlisation des dformations subies. Dans toutes ces mthodes, linformation structurelle reste
code de manire implicite et est donc difficile utiliser.
Modles de formes Les modles de forme proposent de modliser les principaux modes de variations de chaque structure. Les premiers travaux (Cootes et al. (1995, 2001)) reprsentent les
contours dune structure par un ensemble de points. Les diffrents contours obtenus pour une
mme structure dans la base sont aligns et mis en correspondance. Il est alors possible deffectuer
une analyse en composantes principales (ACP). Les vecteurs propres obtenus reprsentent les diffrents modes de variation de la forme. Dans ces modles, il est en gnral considr que ces modes
de variation suivent une loi normale multidimensionelle (Leventon et al. (2000); Cremers et al.
(2002)) et que toute forme de cette famille peut tre exprime comme une combinaison linaire de
la forme moyenne et des vecteurs propres (qui reprsentent lcart-type du mode de dformation
reprsent par le vecteur propre). La probabilit dune forme peut tre obtenue partir des coefficients de la combinaison linaire. La reconnaissance peut alors tre exprime comme lobtention
1. S EGMENTATION
28
: LES
APPROCHES
PAR MODLE
des paramtres du modle de localisation et des coefficients associs aux composantes principales
correspondant au cas reconnatre.
La mise en correspondance de tous les contours dune forme sur la base dapprentissage est
coteuse. Dautres travaux ont donc substitu au contour une carte de distance signe (Leventon et al.
(2000)). Avec ce type de reprsentation, le modle de forme obtenu peut tre intgr naturellement
dans un modle dformable comme une contrainte de ce modle.
Lagencement spatial peut tre pris en compte de manire non explicite en tendant lapproche
prcdente de manire effectuer lapprentissage joint de plusieurs formes (Yang et Duncan (2004a,b)
et Tsai et al. (2003, 2004)). Dans ce cas, lACP est effectue sur une concatnation des cartes de
distance de toutes les formes prises en compte. Une formulation baysienne est propose dans
(Yang et Duncan (2004b)) pour effectuer la segmentation en prenant en compte la contrainte multiformes.
Les modles de formes permettent damliorer le processus de segmentation en contraignant
le rsultat correspondre un petit nombre de formes. Cependant, sils peuvent prendre en compte
la variabilit anatomique dans les cas sains, ces modles peuvent difficilement tre adapts aux cas
pathologiques, qui prsentent une variabilit trop importante pour tre correctement modliss par
ce type de modles. De mme que pour les mthodes fondes sur un atlas, lagencement structurel
reste cod de manire implicite, et reste donc difficile utiliser.
1.2.1.2
29
F IG . 1.8 Les trois premiers niveaux du graphe hirarchique propos par Colliot (2003). Seules
les relations entre niveaux sont prsentes. Les structures du premier niveau correspondent au
Prosencphale (FB), Msencphale (MB) et au rhombencphale (HB) [Figure extraite de Colliot
(2003)].
F IG . 1.9 Un extrait du troisime niveau du graphe hirarchique propos par Colliot (2003). Les
relations entre les structures sont les suivantes : extrieur (E), intrieur (I), haut (B), bas (B), en
avant (Av), en arrire (Ar). [Figure extraite de Colliot (2003)].
Information spatiale Les hirarchies de lanatomie crbrale utilisent des relations topologiques pour dcrire la structure avec des relations telles que linclusion ou ladjacence. Les relations entre les structures dun niveau similaire peuvent tre dcrites en utilisant des relations
spatiales mtriques comme la direction ou lorientation, ou encore des relations plus complexes
comme la relation entre . Limprcision intrinsque des relations spatiales dcrites de manire
textuelle, par exemple le noyau caud est proche du ventricule latral, permet de grer la variabilit
1. S EGMENTATION
30
: LES
APPROCHES
PAR MODLE
F IG . 1.10 GRAFIP (Hudelot et al. (2006); Atif et al. (2007b)). Le modle contient le modle
structurel de lanatomie ainsi que des connaissances symboliques permettant dintgrer toutes les
informations dans un processus de reconnaissance [figure extraite de Atif et al. (2007b)].
naturelle de lanatomie crbrale. La figure 1.11 prsente la hirarchie propose par Hudelot et al.
(2008).
31
Relation Spatiale
Relation Topologique
Adjacent
Inclus
...
Relation Mtrique
Relation de Direction
Relation de Direction
Binaire
droite
Sur
Devant
Au dessus
Relation de Distance
Proche
Relation de Direction
Ternaire
...
Entre
Loin
...
...
Relation de hirarchie
F IG . 1.11 Une partie de la hirarchie des relations spatiales propose par Hudelot et al.
(2008)[figure extraite de Hudelot et al. (2008)].
graphe dune part, et une sur-segmentation de limage reconnatre partir de laquelle nous
pouvons extraire un graphe dautre part. Le problme de mise en correspondance de graphes est un
problme complexe qui a fait lobjet de beaucoup de travaux. On pourra se reporter Conte et al.
(2004); Bunke (2000) pour une revue de ces travaux.
Une approche par mise en correspondance de graphes a t dveloppe par Perchant (2000);
Perchant et Bloch (2002), qui proposent de trouver un morphisme flou entre un graphe modle,
cr partir dune image annote manuellement, et une image reconnatre sur-segmente. Dans
cette approche, les attributs sont reprsents par des ensembles flous. La sur-segmentation comportant plus de nuds que le graphe modle, il sagit dune mise en correspondance inexacte et
plusieurs nuds de limage sur-segmente sont attribus une mme structure du graphe modle.
Ce problme de mise en correspondance de graphes est gnralement NP-complet. Diffrentes
approches doptimisation, permettant de trouver une solution sous-optimale, ont t proposes par
Perchant (2000) dont des algorithmes gntiques et une formulation baysienne. Un algorithme
destimation de distribution a t ensuite propos par Bengoetxea et al. (2002), puis une recherche
par arbre par Cesar et al. (2005).
Une autre approche (Deruyver et Hod (1997); Hod et Deruyver (2007)) utilise une sur-segmentation
pour effectuer la reconnaissance des structures. Le problme est formul comme un problme de
satisfaction de contraintes deux niveaux. Des contraintes binaires sont calcules entre les ensembles de rgions regroups dans un mme nud du modle. Dautres contraintes sont calcules entre les rgions regroupes dans un mme noeud. Un algorithme de propagation adapt est
propos pour rsoudre le problme bi-contraint. Une extension rcente (Deruyver et al. (2009))
reformule le problme comme la mise en correspondance entre une image sur-segmente et une
ontologie reprsente sous forme de graphe laide dun graphe conceptuel. Une extension de
lalgorithme de consistance bi-contraint est propose afin de ne plus tre limit des mises en
1. S EGMENTATION
32
: LES
APPROCHES
PAR MODLE
F IG . 1.12 Rsultat dinterprtation dune image crbrale par mise en correspondance de graphes
formule comme un problme bi-contraint propos par Deruyver et al. (2009). Le rsultat de la
reconnaissance des noyaux gris est prsent en haut sur diffrentes coupes. En bas, le rsultat de
la reconnaissance avec lapparition dune tumeur qui ntait pas attendue, mais qui a t dtecte
par le processus et ajoute dans le graphe. [Figure extraite de Deruyver et al. (2009)].
correspondance surjectives, permettant ainsi lapparition de nouvelles structures qui ntaient pas
prsentes dans le graphe conceptuel. Cette extension est particulirement adapte au cas de pathologies en imagerie crbrale. La figure 1.12 prsente un rsultat dinterprtation dune image
crbrale avec cette approche.
1.2.2.2
La sur-segmentation utilise dans certaines des approches prcdentes ne garantit pas de fournir une solution initiale correcte, en particulier cause de la radiomtrie des structures crbrales
parfois difficiles diffrencier de la matire qui les entoure. Les approches itratives permettent
de saffranchir de la sur-segmentation, en ralisant en mme temps la segmentation et la reconnaissance des structures, et cela de manire squentielle. Le processus dbute en commenant par
les structures qui sont les plus aises segmenter, comme les ventricules qui prsentent un fort
contraste avec les matires adjacentes, puis chaque itration linformation spatiale et les segmentations prcdentes permettent de guider le processus pour reconnatre les structures suivantes.
Une premire approche a t propose dans Graud et al. (1999, 2000); Bloch et al. (2003)
o la segmentation est effectue dans une zone dintrt dfinie par les relations spatiales avec
un processus automatique de classification des pixels de limage, puis recale sur un patron de la
structure.
Afin de saffranchir des patrons utiliss dans cette approche, la segmentation a t modifie
par Colliot et al. (2006) pour utiliser un modle dformable utilisant les relations spatiales pour
contraindre le modle. Une extension godsique de cette approche de la segmentation a t formule ensuite par Atif et al. (2006b). Nos travaux reposent sur cette approche et utilisent cette
formulation du problme de segmentation, qui est dtaille dans le chapitre 5.
33
Les travaux de thse dOlivier Nempont (Nempont (2009)) proposent une autre formulation du
problme de la segmentation et de la reconnaissance des structures sous-corticales par un rseau
de contraintes, mais sans effectuer une mise en correpondance de graphes. Ces travaux utilisent
la reprsentation dfinie par (Hudelot et al. (2006); Atif et al. (2007b)). Le but recherch est dassocier chaque structure anatomique recherche une rgion de lespace satisfaisant lensemble
des relations du modle, les contraintes tant drives du modle structurel.
Le problme tant trop complexe pour tre directement rsolu, la solution est obtenue en deux
tapes. Tout dabord, laide dun algorithme de propagation de contraintes : les bornes du domaine de chaque variable sont rduites en supprimant toutes les valeurs qui ne peuvent pas tre
solution du problme. Ensuite, lorsque les domaines ont t rduits grce au rseau de contraintes,
une solution approximative (au sens des contraintes) est extraite des valeurs restantes.
Les cas pathologiques ont ncessit une adaptation du processus de reconnaissance, puisque
le modle ne correspond plus limage. Ladaptation se limite des pathologies peu refoulantes.
Tous les modles spcifiques (avec des pathologies) ont t pris en compte. Le processus doit alors
effectuer la reconnaissance des structures comme prcdemment, mais il va en plus, au cours du
processus, supprimer des hypothses sur le modle spcifique. La reconnaissance des structures
crbrales et lidentification du modle adapt la pathologie sont donc effectues de manire
simultane. Un rsultat de reconnaissance avec un cas pathologique est prsent dans la figure
1.13.
1.3 Conclusion
La reconnaissance des structures crbrales est donc une tche complexe qui ncessite un
modle. En particulier, lagencement spatial est une connaissance stable qui a t utilise dans
plusieurs approches. Limportance de linformation spatiale et les modles structurels disponibles
font de cette tche un domaine dapplication adquat pour nos travaux.
Les mthodes reposant sur une mise en correspondance dun modle structurel avec une image
reprsente comme un graphe dpendent en gnral dune sur-segmentation qui ne garantit pas de
donner une solution initiale satisfaisante, dans le cas o une structure ne peut tre diffrencie de
la matire qui lentoure par exemple, comme cest le cas du thalamus dans certaines coupes. Il est
donc intressant de se passer de cette segmentation initiale.
1. S EGMENTATION
34
: LES
APPROCHES
PAR MODLE
Lapproche globale propose par O. Nempont dans ses travaux de thse (Nempont (2009))
permet de saffranchir de cette segmentation. Cependant, le modle utilis possdant un grand
nombre de contraintes, la complexit de la tche est assez grande. Lutilisation dune segmentation
de structures dune taille importante (relativement) et place prt du centre du cerveau comme
solution initiale cette approche peut permettre de simplifier la tche, en diminuant beaucoup les
domaines initiaux. De plus, la dtection dun cas pathologique et la segmentation au pralable de
la tumeur peut galement simplifier le problme.
Les approches itratives permettent galement de saffranchir de la segmentation initiale. Lapproche dO. Colliot (Colliot (2003)) utilise cependant une squence de segmentation ad hoc et qui
peut ncessiter une adaptation, en particulier dans les cas pathologiques. Dans tous les cas, il
est intressant de tenir compte de linformation recueillie directement dans limage au cours du
processus, pour pouvoir sadapter au cas spcifique reprsent par limage.
Nous proposons dans ces travaux dexploiter au mieux linformation spatiale contenue dans
un modle, tel que lagencement spatial des structures crbrales, pour guider la reconnaissance.
Lapproche que nous proposons dans le chapitre 4 ncessite un modle structurel, ainsi quau
moins une image annote manuellement, afin de dterminer selon le modle, partir dune structure de rfrence, quelle est la meilleure squence de segmentation effectuer pour atteindre une
structure cible. Cette approche nous fournit une information supplmentaire, indpendamment de
la mthode choisie pour la reconnaissance des structures par la suite.
Dans une deuxime approche, prsente dans le chapitre 5, nous proposons dintgrer un mcanisme pr-attentionnel un processus de segmentation squentielle qui est vu comme une exploration progressive de limage. Lexploration repose sur linformation spatiale, comme les approches itratives dcrites prcdemment, le mcanisme pr-attentionnel tant l pour guider la
slection des structures segmenter. Cette approche peut donc tre naturellement intgre dans
une approche telle que celle propose par Colliot (2003).
35
Chapitre 2
36
2. L ES
MCANISMES DE L ATTENTION
F IG . 2.1 Mouvement des yeux lors de lexploration dune scne. Source : Cotteret (2005) daprs
Yarbus (1967).
37
sur une scne donne cinquante centimtres de limage. Le fait que seule une partie de limage
est observe un moment donn implique un traitement squentiel de la scne analyser.
F IG . 2.2 Ce que lil voit selon Machrouh. Une scne naturelle (en haut gauche), et trois
instants dune saccade oculaire ralise lors de la vision de cette scne. Le focus attentionnel se
dplace comme un faisceau sur la scne. Source : Cotteret (2005) daprs Machrouh (2002)
38
2. L ES
MCANISMES DE L ATTENTION
montrer que si la slection tait uniquement spatiale, les vnements seraient dtects.
F IG . 2.3 Quelques images des squences vidos de lexprience de Simons et Chabris (1999)
montrant que la slection attentionnelle nest pas uniquement spatiale. Les observateurs des vidos
doivent compter le nombre de passes effectues par lune des deux quipes, blanches ou noires.
On leur demande la fin sils ont peru un vnement particulier pendant cette tche. Lvnement correspond soit une femme avec un parapluie, soit un personne dguise en gorille. Les
rsultats montrent que 46% des observateurs (les 4 modalits confondues) ne parviennent pas
dtecter lvnement dans la vido. La version en transparence vise se rapprocher des conditions
exprimentales des travaux de Nisser (Neisser et Becklen (1975)).
39
F IG . 2.4 Les stimuli utiliss par Duncan (1984) pour montrer quil est plus ais pour un observateur dtudier deux caractristiques sur un mme objet plutt quune caractristique sur chacun
des deux objets superposs. Chaque objet peut varier en taille ou en orientation, les motifs de la
ligne galement, ainsi que la position du trou dans le contour de la bote.
2.2 Le pr-attentionnel
Les thories de lattentionnel ont mis en vidence la slection attentionnelle qui est effectue sur la scne, illustre par la mtaphore du faisceau attentionnel. La slection attentionnelle
implique une exploration squentielle dune scne. Ltape pr-attentionnelle porte sur les mcanismes qui ont pour objectif de guider le faisceau attentionnel, cest--dire de slectionner dans
la scne les zones qui vont tre tudies par la phase attentionnelle. Il sagit dune tape ascendante
( bottom-up ), cest--dire guide par les donnes. Lide de mcanismes spcifiques pour guider
lattentionnel a t introduite par Neisser (1967). Les premiers travaux de mise en vidence exprimentale des mcanismes pr-attentionnels sont dus Treisman pour lidentification des caractristiques visuelles appeles preattentive features (Treisman (1985); Treisman et Gormican (1988);
Treisman (1991)), ainsi que pour la gestion du pr-attentif par le systme visuel (Treisman et Gelade
(1980)).
ltape pr-attentionnelle, tout un ensemble de caractristiques visuelles sont dtectes de
manire trs rapide, sans que le nombre dobjets dans la scne influe sur le temps de recherche.
La figure 2.5 illustre ce phnomne de pop-out , o les objets qui ne diffrent que dune et une
seule caractristique par rapport aux autres sautent aux yeux . Deux exemples sont prsents.
Lobjet diffre dans le premier par sa couleur. Dans le deuxime, il diffre par sa forme des autres
objets. Dans les expriences initiales, deux images sont prsentes lobservateur, une avec un
leurre et lautre sans. Lobservateur doit indiquer sil y a un leurre. Les temps de rponse sont
alors analyss. Dans le cas prsent dans la figure 2.5.c, il y a deux objets dans la scne, des carrs
rouges et des ronds bleus. Un leurre rond rouge partage donc une caractristique avec chacun
des objets. La recherche de ce type de leurre est appele recherche conjointe, le phnomne de
pop-out ne se produit pas et la recherche doit tre effectue de manire squentielle en faisant
appel aux mcanismes attentionnels. Dans ce cas, la recherche est plus longue et est dpendante
du nombre dobjets dans la scne.
Il existe tout un ensemble de caractristiques visuelles qui ont t identifies dont certaines
peuvent tre plus difficiles reprer que dautres. Treisman avance lide que ces caractristiques
ont en commun de pouvoir tre traites en parallle. Dans Duncan et Humphreys (1989a), une dfinition dcrit ces caractristiques comme :
a feature or stimulus that differs from its immediate surround in some dimensions and the surround is reasonably homogeneous in those dimensions .
40
2. L ES
a)
b)
MCANISMES DE L ATTENTION
c)
F IG . 2.5 Illustration du phnomne de pop-out lorsquun leurre diffre dune caractristique visuelle unique des autres objets de limage. La recherche est trs rapide et nest pas dpendante du
nombre dobjets dans limage. a) Un leurre diffre par sa couleur, b) par sa forme. c) Recherche
conjointe, le leurre diffre dun objet par sa couleur mais il est de la mme couleur que lautre
objet. Inversement avec sa forme. Dans ce cas, le phnomne de pop-out napparat pas, et la recherche est bien plus lente, car elle est effectue de manire squentielle. Source : Healey. (2007).
Wolfe propose une revue des caractristiques visuelles (Wolfe (1998); Wolfe et Horowitz (2004)).
La figure 2.6 prsente une liste non exhaustive des caractristiques visuelles, parmi lesquelles on
trouve la couleur, la taille, la forme, lorientation, la courbure, lintensit lumineuse, etc. Des caractristiques lies aux mouvements ne sont pas reprsentes, comme la vitesse de dplacement (si
un leurre va plus vite que les objets), le sens de dplacement (sil est diffrent du dplacement des
autres objets). Certaines caractristiques sont plus lementaires, et certaines sont moins rapides
tre dtectes. (Voir Wolfe (1998) pour une discussion dtaille propos de ces caractristiques.)
41
Orientation
Longueur
Fermeture
Taille
Courbure
Densit
Alignement
Couleur
Intensit
Intersection
Terminaison
Profondeur
42
2. L ES
MCANISMES DE L ATTENTION
43
2.2.1.2
La guided search theory (Wolfe et al. (1989); Wolfe (1994); Rodriguez-Sanchez et al. (2007))
est une thorie proche de la prcdente mais qui prend en compte un mcanisme descendant ( topdown ). Cette approche nest donc plus uniquement guide par les donnes. Le schma gnral
propose une carte non plus par caractristique visuelle, mais par type de caractristique (comme
la couleur par exemple) qui regroupera les informations de toutes les caractristiques appartenant
cette catgorie. Toutes les cartes de caractristiques sont regroupes dans une carte dactivation, correspondant au principe de la carte topologique de Treisman. Lintgration du processus
descendant seffectue grce la carte dactivation, o la saillance va tre adapte en fonction de
lobjectif suivi, afin de promouvoir les caractristiques correspondantes. Cela permet de modliser
notre habilit rechercher de manire plus efficace des objets dont on connat lavance les caractristiques. La figure 2.8 prsente le schma gnral de la mthode propose par Wolfe (1994).
Du point de vue des neuro-sciences, cette habilit correspond lattention fonde sur les caractristiques ( feature-based attention ) mise en vidence par plusieurs expriences (Motter (1994);
Treue et Trujillo (1999); Saenz1 et al. (2002)).
F IG . 2.8 Schma du principe de la guided search theory (Wolfe et al. (1989); Wolfe (1994);
Rodriguez-Sanchez et al. (2007)). Les caractristiques visuelles sont regroupes par catgorie et
traites en parallle, ici la couleur et lorientation. Linformation est alors regroupe dans la carte
dactivation. Le processus descendant influe sur lactivation des composantes pour modifier la
recherche visuelle, afin de la faire correspondre aux caractristiques recherches. [Source : Itti
(2007) daprs Wolfe (1994).]
2.2.1.3
Texton theory
La thorie des textons (Julsz (1981a,b); Julsz et Bergen (1983)) indique que le systme visuel peut dtecter de manire pr-attentionnelle des groupes de caractristiques appels textons,
44
2. L ES
MCANISMES DE L ATTENTION
qui sont classs en trois groupes : des formes allonges avec comme caractristique la couleur,
lorientation ou la taille ; des terminateurs, cest--dire des fins de ligne, et enfin des croisements de lignes. Comme dans la feature integration theory , Julsz considre que la phase
pr-attentionnelle est effectue en parallle, alors que la phase attentionnelle est squentielle.
2.2.1.4
Similarity theory
La thorie des similitudes (Duncan (1989); Duncan et Humphreys (1989b); Mller et al. (1990))
rompt avec le schma dune recherche effectue en parallle ou de manire squentielle. Au lieu
de cela, le temps de recherche est prsent comme tant dpendant des similarits entre lobjectif
et les autres objets dune part, mais aussi de lhomognit des autres objets. La recherche sera
dautant plus facile que lobjet recherch est diffrent des autres objets. Elle sera galement plus
facile si tous les autres objets se ressemblent, et si les variations de lune ou lautre similarit ont
plus ou moins dimportance en fonction du niveau de lautre. Dans cette thorie, le champ visuel est segment par units structurelles qui partagent une mme caractristique visuelle. Chaque
unit structurelle peut tre ensuite nouveau subdivise, ce qui permet dobtenir une hirarchie
du champ visuel.
45
F IG . 2.9 Schma gnral pour la gnration des cartes de saillance telle que dcrite par Itti et al.
(1998). Les diffrentes caractristiques sont extraites et reprsentes sur diffrentes chelles dont
les diffrences produisent des cartes de discontinuits. Les cartes sont ensuite fusionnes pour gnrer la carte de saillance. La zone la plus saillante est alors produite par un algorithme Winnertake-all et un mcanisme utilisant le phnomne dinhibition de retour permet ditrer sur les
zones saillantes de limage. Linhibition de retour permet de ne pas tenir compte dune zone
saillante pendant un court moment afin de permettre lexploration dautres zones qui sont moins
saillantes. Source : Itti (2005).
limage, obtenue partir de filtres de Gabor dans un nombre donn de directions (quatre dans la
mthode originale).
F IG . 2.10 Un exemple de carte de saillance ( droite) calcule sur limage de gauche. Les zones
sombres correspondent aux parties les moins saillantes, les zones claires aux parties de limage
les plus saillantes. Les parties claires de limage de gauche qui sont bien contrastes avec les
zones environnantes apparaissent bien saillantes dans la carte correspondante. Il faut noter que
la saillance nest pas limite aux bords de ces zones mme si ce sont les discontinuits qui sont
tudies cause du facteur dchelle dans la gnration des cartes. droite sur limage, quelques
structures verticales, qui sont globalement peu voyantes mais dont la gomtrie attire lil, sont
visibles sur la carte de saillance.
46
2. L ES
MCANISMES DE L ATTENTION
Pour chacune des sept sous-caractristiques, savoir lintensit, deux oppositions de couleurs
et quatre orientations, limage originale est tout dabord filtre afin de ne conserver que linformation concernant cette caractristique. partir de cette image filtre, une pyramide gaussienne est
gnre. La taille de toutes les images de la pyramide gaussienne est ensuite modifie afin quelles
possdent toutes la mme taille, qui sera la taille de la carte de saillance.
Des cartes de discontinuits sont ensuite extraites. Une carte de discontinuits reprsente ici
les diffrences entre une zone et son contour immdiat, appeles diffrences centre-contour (,
center-surround difference ). En pratique, une carte de discontinuits est une diffrence pixel
pixel entre deux niveaux de la mme pyramide, un niveau dit fin, et un niveau dit grossier.
Diffrentes cartes sont gnres avec diffrents niveaux fin et grossier, afin dobtenir diffrents
niveaux dchelles. Les niveaux fins de la pyramide sont c {2, 3, 4} et les niveaux grossiers sont
s = c + d avec d {3, 4}. Il y a donc 6 cartes de discontinuits par caractristique. La figure 2.11
illustre la gnration des cartes de discontinuits.
Niveaux fins
Niveaux grossiers
diffrence centre/contour
cartes de
discontinuits
Pyramide
Gaussienne
F IG . 2.11 Traitements effectus pour chaque caractristique. Limage originale est filtre en
fonction de la caractristique. Une pyramide gaussienne est ensuite gnre, puis remise une
mme taille. Les niveaux fins compars aux niveaux grossiers permettent de gnrer les cartes de
discontinuits. Une fois normalises, elles sont combines pour former une carte unique reprsentant la caractristique.
Pour chaque caractristique, les cartes de discontinuits sont normalises, puis fusionnes
laide dun oprateur de normalisation ad-hoc, permettant de favoriser les cartes prsentant des
pics plus levs que leur moyenne par rapport une une carte prsentant beaucoup de pics, mais
dune hauteur similaire par exemple. Nous obtenons donc une carte pour chacune des sept caractristiques. Les cartes correspondant un mme type de caractristique sont fusionnes : les
quatre cartes reprsentant les orientations sont fusionnes en une unique carte reprsentant toutes
les orientations. Mme chose pour les deux oppositions de couleurs. Il reste trois cartes reprsentant chaque type de caractristique (intensit, couleur, orientation), appeles conspicuity maps
ou carte de visibilit. Ces trois cartes sont alors fusionnes pour produire la carte de saillance.
Cette approche initiale a donn lieu de nombreux travaux. On trouve dautres applications
dans Itti (2005). Dans Walther et Koch (2006), cette approche est utilise pour extraire des protoobjets . Dans ce cas, une carte de saillance de la scne est extraite de la manire dcrite prcdemment. Le proto-objet extrait sera lobjet se situant lemplacement le plus saillant identifi
par la carte de saillance. Pour extraire lobjet, il ny a pas de segmentation, mais un proto-objet
est extrait partir des cartes qui ont t utilises pour crer la carte de saillance. Pour cela, il est
ncessaire didentifier la caractristique, puis la carte de discontinuit ayant le plus contribu dans
47
F IG . 2.12 Mthode pour extraire des proto-objets prsente par Walther et Koch (2006) : la zone
la plus saillante dcrit un objet qui sera extrait par seuillage partir de la carte de discontinuits
ayant le plus contribu sa saillance. [Source Walther et Koch (2006)]
la saillance dtecte, cest--dire une caractristique et un niveau dchelle. Une fois cette carte
identifie, nous connaissons un point du proto-objet, un seuillage de limage est effectu, et la
composante connexe qui contient le point correspond au proto-objet est extraite. La figure 2.12
illustre cette approche.
Walther et Koch (2006) prsentent une mthode dapprentissage pour adapter le processus
un problme donn. On retrouve cette notion dapprendre les caractristiques dun objet pour
contraindre la saillance dans Kanan et al. (2009) qui parlent de contextual guidance par exemple,
pour rechercher de la vaisselle ou des tableaux dans une scne naturelle.
2.4.1 Pr-traitements
Nous prsentons tout dabord les traitements appliqus aux images IRM avant de commencer
la gnration des cartes de saillance proprement dite.
48
2. L ES
MCANISMES DE L ATTENTION
Extraction du cerveau :
Les volumes reprsentent le cerveau, mais galement le crne et tous les organes situs dans la
tte. tant donn que nous nous intressons aux structures internes du cerveau humain, nous ne
devons donc pas considrer toute limage. Cela permet dj de rduire le domaine de recherche,
mais galement dviter que les bord rguliers et bien marqus du crne fassent apparatre de fortes
valeurs de saillance tout autour du bords du cerveau. Nous allons donc utiliser un masque pour ne
considrer que le cerveau, qui est segment lavance.
Rsolution anisotrope :
Les images IRM ont souvent des rsolutions qui sont anisotropes : la taille des voxels peut
varier en fonction des directions. La gnration de la pyramide dyadique implique de pouvoir
redimensionner les images. Les voxels anisotropes rendent cette tche plus complique. Nous
utilisons donc pour le calcul des cartes de saillance des images qui ont t interpoles au pralable
vers des dimensions isotropes, avec 256 voxels cubiques dans chaque direction (le choix de 256
a t guid par les dimensions les plus frquentes dans nos bases dimages IRM). La mthode
dinterpolation utilise est spline resampled propose par Thevenaz et al. (2000), et qui a t
adapte pour les images IRM en trois dimensions dans le logiciel brainvisa1 .
Une fois limage source interpole la taille correcte, nous pouvons passer la gnration
des cartes pour chaque caractristique. Pour cela, nous devons dabord filtrer limage originale en
fonction de chaque caractristique.
http://brainvisa.info
1
3
(2) 2 3
exp(
(x2 + y 2 + z 2 )
) ,
2 2
49
o et sont deux angles dfinissant lorientation du filtre de Gabor, reprsente lchelle de
la fonction gaussienne et F = (u20 + v02 + w02 ) est le paramtre correspondant la frquence
radiale. Les valeurs de F et sont contrles par la largeur de bande B fixe 0, 55 dans nos
expriences :
2B + 1
F = ( B
) .
2 1
(2ln2)
o =
.
2
En deux dimensions, les orientations choisies sont les suivantes : = 0, 4 , 2 , 3 4 , soit 4
orientations, les filtres tant symtriques. En trois dimensions, nous avons conserv le mme ordre
de grandeur entre les orientations, ce qui nous donne, exprimes en coordonnes polaires, les
valeurs suivantes pour les angles et :
3 4
5 4
3 2
7 4
Nous obtenons 13 orientations au total. Les filtres tant symtriques, nous avons seulement besoin
dune demi-sphre.
=
2,
=0
2,
2,
F IG . 2.13 Filtres de Gabor. Trois exemples de filtres de Gabor avec trois orientations diffrentes
en coordonnes polaires. Chaque colonne prsente une coupe dun filtre en trois dimensions et
une coupe dune image IRM filtre par ce mme filtre. La frquence du filtre est de 0, 2 dans cet
exemple. La largeur de bande est fixe 0, 55.
50
2. L ES
MCANISMES DE L ATTENTION
Calcul des cartes de discontinuits : les cartes de discontinuit sont gnres en comparant une
image de la pyramide une chelle dite fine (cest--dire restant proche de limage originale), et
une autre image de la mme pyramide une chelle dite grossire . lorigine, la comparaison
est effectue en interpolant le niveau grossier au niveau fin, et en effectuant une soustraction point
point des deux images :
I(ce, co) = |I(ce) I(co)| ,
o ce reprsente le niveau fin et co le niveau grossier. La comparaison dun pixel au niveau fin
avec un pixel au niveau grossier aprs interpolation revient comparer un pixel avec sa rgion
environnante, plus ou moins grande en fonction de la diffrence entre les deux niveaux, do
lappellation de diffrence centre-contour.
Nous pouvons utiliser diffrents niveaux fins pour calculer les cartes de discontinuit. Mais
lutilisation de limage originale (bruite par rapport aux cartes lisses) comme un niveau fin, va
reprsenter le bruit comme des petites discontinuits. Nous utiliserons donc comme niveaux fins
les deux niveaux suivants :
ce {1, 2} .
Lintervalle permettant de calculer les niveaux fins est limit par le nombre de niveaux de la pyramide. Nous utiliserons donc les niveaux grossiers suivants :
co = ce + , {1, 2} ,
cest--dire 1 + 1, 1 + 2, 2 + 1, 2 + 2. Finalement, la carte de saillance rsultante a une rsolution
de 128 128 128 correspondant au deuxime niveau de la pyramide.
Pyramide gaussienne pour lintensit : Nous crons pour lintensit une pyramide en utilisant
limage originale (aprs interpolation). Un filtre gaussien en trois dimensions est appliqu chaque
niveau de la pyramide. Nous appliquons le filtre sans avoir redimensionn les images, mais en
augmentant chaque niveau le paramtre du filtre. Le niveau 0 de la pyramide est limage
originale. Pour tous les autres niveaux, le filtre utilis a un paramtre correspondant au niveau
de la pyramide + 0.5 : niveau 1, = 1, 5, niveau 4, = 4.5. La figure 2.14 prsente les diffrents
niveaux de la pyramide gaussienne, ainsi que les cartes de discontinuit drives.
Pyramide de Gabor pour les orientations : Pour les orientations, la mthode originale utilise
galement une pyramide gaussienne, comme pour les autres caractristiques. Toutefois, les filtres
de Gabor intgrent dans leur paramtrage la possibilit de faire varier le niveau dchelle, en modifiant la frquence du filtre par exemple. Nous pouvons donc dfinir une pyramide de Gabor
o pour chaque orientation, une pyramide est gnre compose dimages filtres avec une frquence dcroissante. La frquence initiale est de 0, 4, avec un pas de 0, 05 entre deux niveaux.
La frquence du dernier niveau est de 0, 20. Chaque image est lisse avec un filtre gaussien pour
viter le bruit. Le paramtre utilis est 0, 5. La figure 2.15 montre un exemple de pyramide de
Gabor obtenue pour une orientation donne et les cartes de discontinuits drives.
51
Pyramide gaussienne :
1 : = 1, 5
0 : originale
2 : = 2, 5
3 : = 3, 5
4 : = 4, 5
Cartes de discontinuits :
12
13
23
24
F IG . 2.14 Les diffrents niveaux de la pyramide gaussienne obtenue pour lintensit sont prsents en haut. Le niveau 0 reprsente limage originale, les niveaux 1 4 reprsentent limage
originale filtre par un filtre gaussien dune largeur croissante de = 1, 5 = 4, 5. En bas,
les cartes de discontinuits obtenues en appliquant loprateur centre-contour entre diffrents
niveaux de la pyramide gaussienne.
Oprateur de normalisation : Loprateur de normalisation spcifiquement dfini pour les
cartes de saillance est prsent notamment dans Itti et al. (1998). On pourra galement consulter
Itti et Koch (2001) pour une comparaison de cet oprateur avec une normalisation nave ou une
normalisation avec apprentissage au pralable. Que ce soit dans la mthode originale avec 42 cartes
fusionner, ou dans notre cas avec 56 cartes de discontinuit, le nombre de cartes fusionner est
suffisamment important pour quun pic, mme important, apparaissant dans quelques cartes, soit
noy dans le bruit apparaissant dans plus de cartes.
Itti et al. (1998) proposent donc un oprateur dnot N qui permet de promouvoir les cartes
dans lesquelles ne sont prsents quun petit nombre de pics importants (zones visibles). En revanche, les cartes contenant de nombreux pics avec une mme importance sont supprimes. Cet
oprateur est illustr dans la figure 2.16.
La normalisation est effectue en trois tapes :
normalisation de la carte dans un intervalle [0..M ] avec un M fixe, pour supprimer les
diffrences damplitude entre les diffrentes caractristiques,
Calcul de la moyenne m
des maxima locaux diffrents de M ,
multiplication de chaque point par (M m)
2.
Fusion : Lobjectif est de fusionner les cartes existantes pour obtenir une unique carte reprsentant une caractristique. Pour chaque pyramide, cette carte est gnre partir des cartes de
52
2. L ES
MCANISMES DE L ATTENTION
Pyramide de Gabor :
0 : f req = 0.40 1 : f req = 0.35 2 : f req = 0.30 3 : f req = 0.25 4 : f req = 0.20
Cartes de discontinuits :
12
13
23
24
F IG . 2.15 Les diffrents niveaux de la pyramide de Gabor obtenue pour une orientation
( = 2 et = 0) sont prsents en haut de la figure. On distingue nettement sur ces images le
plan inter-hmisphrique. Le niveau 0 reprsente la frquence la plus leve (0, 40) et le niveau 4
la frquence la plus faible (0, 20). Les images ont t lisses avec un filtre gaussien. Dans ce cas,
le utilis est de 2, 0. En-dessous, les cartes de discontinuit obtenues en appliquant loprateur
centre-contour entre diffrents niveaux de la pyramide de Gabor .
53
Avant normalisation
Maximum = 1,00
Aprs normalisation
Maximum = 0,82
N (C, ) .
iC
N (Ci )
54
2. L ES
MCANISMES DE L ATTENTION
Nous allons donc utiliser nouveau le masque du cerveau, qui sera rod, pour supprimer les
fortes saillances apparaissant aux bords de limage. La figure 2.18 illustre cette tape.
(a)
(b)
(c)
(d)
F IG . 2.18 Utilisation dun masque binaire du cerveau pour supprimer la forte saillance aux
bords du cerveau, due aux forts contrastes des bords. (a) Une coupe non masque dune carte de
saillance. On voit une couronne de valeurs leves de saillance autour du cerveau. (b) Le masque
correspondant cette image du cerveau. (c) Le mme masque rod avec un lment structurant
sphrique de rayon 5 pixels pour supprimer les bords du cerveau. (d) La carte de saillance masque.
2.4.7 Rsultats
La figure 2.19 prsente quelques exemples de cartes de saillance calcules sur des images
IRM de cerveau, ainsi que des coupes des cartes de caractristiques. Sur une machine rcente, le
temps de calcul de ces cartes de saillance est de lordre de 15 minutes environ. Le temps de calcul
est allong par le nombre dorientations pris en compte. Il est possible de gagner du temps en
prcalculant les filtres de Gabor utiliss.
Trois cartes de saillance sont prsentes ; sur chacune dentre elles on reconnat facilement
limage originale. Les ventricules latraux, au centre, prsentent des valeurs de saillance leves,
ce qui tait attendu cause de leur diffrence dintensit avec les structures avoisinantes et leur
taille. Au contraire, les putamens apparaissent dans chaque image comme un trou de saillance. Sur
limage pathologique, la tumeur apparat dans cet exemple comme trs saillante.
Les cartes de caractristiques sont assez diffrentes en fonction de la caractristique concerne.
La carte dintensit prsente des valeurs leves pour le ventricule, toujours pour le contraste, ainsi
que pour des rgions o la frontire entre matire blanche et matire grise est trs nette. Pour les
orientations, les valeurs sont plutt floues. On distingue encore des valeurs fortes sur les bords.
Les ventricules prsentent ici encore des valeurs leves grce llongation de la structure.
Dautres cartes de saillance sont prsentes dans lannexe B de ce document.
55
Image Originale :
IBSR 01
IBSR 02
ring
Carte de saillance :
F IG . 2.19 Quelques cartes de saillance. En haut, les images originales, la deuxime ligne prsente
les cartes de saillance respectives. Les deux lignes du bas prsentent les conspicuity maps , la
troisime pour lintensit et la dernire pour lorientation.
56
2. L ES
MCANISMES DE L ATTENTION
2.5 Conclusion
Nous avons prsent dans ce chapitre la notion dattention dans la vision, et la mise en vidence
de son aspect squentiel, guid par une tape pr-attentionnelle dtectant les parties saillantes de
limage. Nous pouvons aisment effectuer un parallle entre un processus de traitement dimages
squentiel o la partie attentionnelle pourrait tre ltude dune zone en particulier de limage et la
partie pr-attentionnelle la slection dune zone de limage explorer. Parmi les thories de modlisation du pr-attentionnel, nous avons plus particulirement considr les cartes de saillance,
qui proposent de mettre en vidence les zones saillantes de limage en utilisant des caractristiques simples des images. Elles permettent galement une analyse multi-chelles de limage.
Nous avons galement prsent une srie dadaptations ncessaires permettant de calculer des
cartes de saillance pour des images IRM en trois dimensions, et plus particulirement pour les
images du cerveau. Les cartes de saillance adaptes aux images IRM nous procurent une manire
indite dobtenir de linformation dans un processus ascendant sur ce type dimage, que nous
utiliserons dans le chapitre 4 pour lexploration de ces images.
57
Chapitre 3
Le modle de connaissance
Nous avons choisi dans ce travail dexploiter la connaissance de limagerie crbrale. Nous
utilisons cette connaissance dans des raisonnements dont le but est la reconnaissance dobjet ou
linterprtation dimage. La reconnaissance et linterprtation des images mdicales est une tche
complexe qui ncessite lutilisation dune connaissance experte. En effet, les structures crbrales
sont souvent petites, leurs frontires sont souvent mal dfinies (comme dans le cas du thalamus),
et le contraste avec la matire environnante ne permet pas toujours de les distinguer clairement. De
plus, la rsolution des images nest pas trs leve. Les descriptions anatomiques usuelles telles
que neuranat1 ou neuronames2 reposent principalement sur lutilisation des relations spatiales. La
figure 3.1 prsente un exemple de cette connaissance. Limprcision naturelle des relations spatiales leur permet de rester plus stables face la variabilit inter-patients, compar des proprits
intrinsques des structures anatomiques telles que leur forme ou leur taille.
De nombreux travaux ont utilis les relations spatiales pour linterprtation des structures crbrales. Colliot (2003) propose dutiliser les relations spatiales comme une force supplmentaire
dans le cadre dun algorithme de segmentation par modles dformables. Dans Khotanlou et al.
(2009), les relations spatiales sont utilises dans le cadre dune segmentation des structures crbrales en prsence de pathologies (de tumeurs crbrales dans ce cas). Nempont (2009) propose
dutiliser les relations spatiales dans un rseau de contraintes qui, aprs propagation, procure les
emplacements des structures. Il est alors possible de les segmenter de manire automatique. Dans
cette dernire approche, il est possible de grer les cas pathologiques en effectuant au pralable
une tape de dtection et de localisation de la tumeur, ce qui permet de linclure dans le rseau de
contraintes. En revanche, si la prsence de la tumeur na pas t dtecte au pralable, le modle
ne peut sadapter automatiquement lors de la propagation. Ici, nous nous plaons dans le cadre
dune segmentation squentielle, comme dans les travaux dO. Colliot et H. Khotanlou, guide
par une reprsentation par graphe de la connaissance.
Dans ce chapitre, nous prsentons la dfinition du graphe qui reprsente la connaissance spatiale que nous utilisons pour effectuer des raisonnements. Nous introduisons galement les notations qui seront utilises dans le reste de ce document. Nous discutons ensuite deux sources
possibles de connaissances, diffrentes de la connaissance experte utilise pour le raisonnement,
et qui ont donn lieu des travaux dans le cadre de la thse. Ces travaux nous permettent de considrer des manires diffrentes dobtenir un modle et nous discuterons des consquences pour le
raisonnement spatial possible.
Dans la partie 3.1, nous dcrivons quelle forme de connaissance spatiale nous utilisons et
1
2
http://www.chups.jussieu.fr/ext/neuranat/
http ://rprcsgi.rprc.washington.edu/neuronames
58
3. L E
MODLE DE CONNAISSANCE
Ventricules latraux
Noyaux caud
Thalamus
Putamen
Globus Pallidus
Noyaux lenticulaires
Msencphale
Claustrum
F IG . 3.1 Exemple dillustration provenant de latlas neuranat et reprsentant ici les structures
composant les noyaux gris du cerveau.
quelle structure nous pouvons employer pour reprsenter la connaissance spatiale. Ensuite, nous
discutons des diffrentes sources de connaissances possibles dans la section 3.2. Nous considrons
le cas dune connaissance experte, le cas dune connaissance extraite automatiquement et le cas
dune connaissance extraite de manire semi-interactive. Dans chacun de ces cas, nous discutons
des consquences sur le raisonnement spatial possible avec chacune des sources. Le formalisme
de reprsentation des relations spatiales et plus spcifiquement les relations spatiales qui seront
utilises plus tard sont prsents dans la section 3.3. Dans la partie 3.4, nous passons en revue les
diffrentes bases de donnes que nous utiliserons par la suite. Enfin, dans le cadre de la connaissance experte, et plus particulirement dans le cadre de la reconnaissance des structures crbrales,
nous verrons dans la section 3.5 comment raliser un apprentissage des paramtres des relations
spatiales.
59
Noyau caud
Ventricule Latral
Putamen
Thalamus
Ventricule Latral
Matire blanche
Matire grise
F IG . 3.2 Une coupe dimage IRM du cerveau avec quelques structures internes tiquetes. Les
structures sont prsentes de manire symtrique dans les deux hmisphres. La matire blanche
englobe les structures prsentes. La matire grise est situe plutt sur lextrieur du cerveau. Il
faut noter que sur toutes les coupes du cerveau prsentes dans ce document, lhmisphre gauche
est situ droite de limage. Les graphes de relations spatiales tiennent compte de cette orientation.
Orientation : Les relations dorientation sont les relations les plus intuitives pour dcrire la
position relative de plusieurs structures : la structure A est droite ou gauche , ou en
avant , ou bien en arrire de la structure B, ou encore, en trois dimensions, au-dessus
ou en-dessous . Par exemple, dans la figure 3.2, le putamen est sur limage gauche du noyau
caud, lui mme est gauche du ventricule latral. On peut noter sur cet exemple, avec cette coupe
en particulier, que ces relations sont imprcises.
Distance : Diffrentes relations peuvent tre dduites de la notion de distance, en particulier les
notions imprcises telles que loin de ou proche de . Dans la figure 3.2, le noyau caud est
proche du ventricule latral. Nous verrons dans les reprsentations des relations spatiales que des
relations topologiques comme ladjacence peuvent tre exprimes comme une relation de distance.
La symtrie : Le cerveau possde un plan de symtrie, le plan inter-hmisphrique, et nombre
de structures apparaissent de manire symtrique de chaque ct de ce plan. La symtrie peut donc
tre dune grande utilit pour le raisonnement spatial dans le cerveau. Les relations directionnelles
gauche et droite sont dailleurs souvent exprimes en fonction de ce plan de symtrie et
deviennent intrieur (entre la structure et le plan de symtrie) ou extrieur , ce qui permet
de dcrire une relation de la mme manire quel que soit lhmisphre (Colliot (2003)).
Mais bien entendu, la symtrie peut tre mise mal par la prsence dune tumeur dans un
hmisphre du cerveau. Lanalyse danomalies dans la symtrie des deux hmisphres crbraux a
dailleurs t utilise comme mthode pour dtecter la prsence dune pathologie (Khotanlou et al.
(2009)).
Entre : La relation entre (Bloch et al. (2006)) est une relation ternaire permettant donc de
dfinir lespace se trouvant entre deux structures. Lutilisation de cette relation permet dtre plus
prcis que lutilisation de deux relations de direction partir des deux mmes structures (ce nest
pas quivalent). La principale difficult de cette relation est dtre ternaire, ce qui empche sa
modlisation dans le cadre dun graphe classique (mais elle est possible en utilisant un hypergraphe). Nanmoins, elle peut tre reprsente par une relation ad-hoc utilisant deux arcs dsignant
60
3. L E
MODLE DE CONNAISSANCE
LvL
LvR
CdR
CdL
E
E
E
PuR
B
V3
PuL
I
IcL
IcR
E
E
E
ThR
ThL
F IG . 3.3 Extrait du troisime niveau dun graphe des structures internes du cerveau
(source Colliot (2003)). Les structures prsentes sont Lv : ventricule latral, Cd : noyau caud,
Pu : Putamen, Th : Thalamus, V3 : 3ime ventricule, Ic : capsule interne. Les relations spatiales
E : extrieur, I : intrieur, B : bas.
Une modlisation par graphe hirarchique des structures crbrales et des relations spatiales
entre ces structures a t propose par Colliot (2003), et un extrait du troisime niveau du graphe
est prsent dans la figure 3.3. La modlisation du cerveau complet est effectue avec un graphe
hirarchique. Les diffrents niveaux sont relis avec des relations dinclusion (le cerveau est au
premier niveau). Cette modlisation permet de reprsenter les structures de diffrents niveaux et
les relations dinclusion qui les relient. Nous ne nous intressons pas une modlisation aussi
complte dans notre cas.
Les relations ternaires, comme entre ou les relations de symtrie qui ncessitent un lien
vers le plan de symtrie, ne sont pas reprsentes naturellement par un graphe simple. Il est possible de les reprsenter avec un hyper-graphe, ou les hyper-arcs notamment permettent de relier
directement un nombre quelconque de structures. Nanmoins, si le pouvoir de reprsentation des
61
Structure 3
utilise comme
plan de symtrie
Structure 3
utilise comme
plan de symtrie
(s3)
Struct 1
Struct 2
Avec un hyperarc
Struct 1
Struct 2
F IG . 3.4 Exemple de modlisation dune relation ternaire laide dun arc binaire : Nous avons
une relation La structure 1 est symtrique la structure 2 par rapport la structure 3 . Avec
un hyper-graphe, les trois structures peuvent tre relies laide dun hyper-arc. Avec un graphe
classique, un arc simple est utilis pour relier les deux structures symtriques, et laxe de symtrie
devient un champ de larc.
hyper-graphes permet de grer les relations ternaires ou plus gnralement n-aires, il est galement possible de grer les relations ternaires avec des relations binaires, et donc de conserver des
graphes simples. Pour cela, il est alors ncessaire de munir un arc simple des informations manquantes. Par exemple, pour une relation de symtrie, le plan de symtrie est renseign dans larc.
Cet exemple est prsent dans la figure 3.4.
3.1.3 Notations
Nous introduisons ici des notations qui seront utilises dans le reste du document, pour le
graphe et les relations spatiales. Dautres notations sont prsentes dans dautres parties de ce
chapitre.
Pour le graphe :
Nous utiliserons pour le graphe les notations suivantes :
V
: ensemble fini de nuds
V
: lensemble des tiquettes des nuds
Lv
: interprteur de nuds Lv : V V
E
: ensemble de couples (ordonns) de nuds dnoms arcs
E
: lensemble des tiquettes des arcs
Le
: interprteur darc Le : E E
G = (V, Lv , E, Le ) : graphe attribu avec des arcs orients.
(v, e)
: Pour chaque nud v V et chaque arc e V V ,
(v, e) est une fonction de transition qui retourne le nud v
tel que e = (v, v )
A(v)
: Pour chaque nud v V ,
A(v) retourne lensemble des arcs sortants connects v
p = (v1 , v2 , ..., vn )
: un chemin de longueur n tiquet lp = (v1 , e(v1 , v2 ), v2 , ..., vn )
Pour les relations spatiales :
Un arc orient entre deux nuds vi et vj comporte au moins une relation spatiale entre les
deux objets reprsents par les nuds. Nous dfinissons une base de connaissance KB qui dfinit
62
3. L E
MODLE DE CONNAISSANCE
toutes les relations spatiales existant entre les diffrents objets, cest--dire entre les structures
anatomiques dans le cas de linterprtation des images mdicales :
KB = {vi Rvj , vi , vj V, R R}
et
e = (vi , vj ) E R R, (vi Rvj ) KB
o R dsigne lensemble des relations, et E lensemble des arcs dun graphe.
63
queue. Mais encore une fois, la smantique apparat de manire implicite, aucun des objets ntant
identifi individuellement.
Les relations spatiales apportent une connaissance stable sur une classe, et il est donc intressant dessayer dextraire de manire automatique un modle de lagencement spatial des lments
dune classe. Nous avons propos en collaboration avec Emanuel Aldea (Aldea (2009)) dextraire
un tel modle et deffectuer un apprentissage de ce modle pour la classification dimages. Une
premire approche propose par Aldea et al. (2007a) est une mthode de classification dimages
partir de noyaux marginaliss pour des graphes. Dans cette approche, les images sont reprsentes
par des graphes dadjacence partir dune sur-segmentation automatique en rgions. La similarit entre graphes est dfinie par une mthode de noyaux gnraliss et permet de construire un
classifieur dimages.
Nous avons tendu cette approche afin de prendre en compte non seulement des attributs intrinsques aux rgions du graphe, mais galement des attributs structurels ports par les arcs du
graphe. Ces attributs sont des relations spatiales reprsentes par des ensembles flous. Dans ce type
dapproche, les graphes qui sont compars, que ce soit pour lapprentissage ou pour la classification, ne sont pas isomorphes et les composants du graphe ne sont pas identifis. Il est donc ncessaire dutiliser des relations spatiales qui permettent deffectuer des comparaisons entre nimporte
quelles composantes de limage. Il est ncessaire dans ce cas que la comparaison de relations
spatiales puisse tre effectue de manire symtrique.
Nous avons propos dutiliser pour cela des relations spatiales mtriques, une orientation,
ainsi que des relations topologiques comme une adjacence floue, et une mesure pouvant tre vue
comme un degr dadjacence. Les dfinitions des reprsentations floues des relations spatiales de
distance, dorientation ou dadjacence floue sont prsentes dans la partie 3.3. La notion de degr
dadjacence est plus spcifique ces travaux, nous allons donc la prsenter brivement.
Mesure dadjacence fonde sur une comparaison floue
La distance et lorientation ne sont pas toujours significatives. Par exemple, la distance ne distingue pas deux rgions adjacentes par un unique pixel de deux rgions imbriques. Dans ce dernier cas, un histogramme dangles3 na pas beaucoup de sens non plus. Nous proposons donc une
autre caractristique, topologique, qui estime un degr dadjacence entre deux rgions.
Nous estimons le degr dadjacence entre deux rgions en mesurant la corrlation entre la
portion de lespace proche de la premire rgion dite de rfrence et la deuxime. Cette mesure
est maximale lorsque la rgion de rfrence est imbrique dans la rgion cible. Elle est nulle si les
deux rgions sont trop loignes lune de lautre. Une valeur moyenne implique que deux rgions
sont adjacentes pour au moins la moiti du contour de la rgion de rfrence.
La reprsentation de la relation proche de par un ensemble flou est dfinie dans la partie
3.3. La figure 3.5 prsente deux exemples de reprsentations de cette relation.
Il est ncessaire dvaluer cette reprsentation avec une valeur relle afin quelle puisse tre
utilise dans le processus. Lvaluation est effectue en calculant un critre de satisfaction floue
(Bouchon-Meunier et al. (1996)) et de ressemblance floue :
Sat(proche(R1 ), R2 ) =
et
Res(proche(R1 ), R2 ) =
3
xS
Un histogramme dangles reprsente, pour deux objets A et B, les angles entre le segment form par un couple de
points (a, b), a A, b B et un axe de rfrence
64
3. L E
MODLE DE CONNAISSANCE
a)
b)
c)
d)
e)
f)
F IG . 3.5 (a) Rgion 1. (b) Rgion 2. (c) Rgion 3. (d) Sous-ensemble flou correspondant la relation
proche de la rgion 1 . (e) Mme chose avec la frontire de la rgion 2 en sur-impression. La satisfaction
floue dans ce cas est de 0, 06. (f) De mme avec la rgion 3. La satisfaction floue est de 0, 29.
o S dsigne lespace de limage, R1 et R2 sont deux rgions de limage, proche(R1 ) lensemble
flou qui reprsente la relation proche de la rgion R1 , et R2 lensemble flou qui reprsente
la rgion R2 . Lutilisation de ces valeurs dans le processus de classification et les rsultats de
classificaction sont prsents dans les travaux de thse dE. Aldea (Aldea (2009)).
Dans Consularo et al. (2007), lutilisateur dpose des traces sur une image. Aucune contrainte
nest impose lutilisateur. Chaque couleur correspond une classe de segmentation diffrente,
et la ou les traces correspondantes ne sont pas forcment connectes. La figure 3.6 montre une
image, ainsi quun exemple de plusieurs ensembles de traces qui pourraient y tre dposes en
fonction de diffrents problmes.
Il y a toutefois une contrainte implicite pour la construction du modle et du graphe associ.
Afin de pouvoir exprimer des relations spatiales, il est ncessaire davoir au moins deux nuds
65
Prototype
2 classes
3 classes
5 classes
F IG . 3.6 Exemple de traces utilises pour construire un modle partir dune image. Chaque
couleur dsigne une classe de segmentation diffrente. En fonction du problme, le nombre de
classes et leur aspect changent. On peut souhaiter segmenter uniquement la guitare par rapport au
fond (2 classes, image de gauche), ou segmenter la guitare en plus ou moins de constituants (3
classes au centre ou 5 classes droite).
dans le graphe. En pratique, il sera prfrable den avoir plus de deux, surtout si lune des classes
correspond au fond de limage. En effet, le but est de reprsenter un objet sous forme dun ensemble structur dobjets.
3.2.3.2
Lutilisateur dessine des traces sur limage, indiquant ainsi le nombre de classes de segmentation et les emplacements approximatifs des objets segmenter. En revanche nous ne possdons
pas de segmentation de limage sur laquelle lutilisateur a dessin les traces. Nous pouvons ainsi
effectuer une sur-segmentation de limage et rcuprer ainsi les rgions intersectant les traces.
Toutefois, les rgions issues dune sur-segmentation nont pas de smantique propre. moins
dutiliser un processus dapprentissage tel que dans le cas dune connaissance extraite de manire
automatique (ce qui ncessiterait un gros travail de lutilisateur), les informations recueillies ne
sont pas suffisantes pour crer un modle un tant soit peu gnrique dobjets structurs.
Il existe de nombreuses mthodes permettant de segmenter une image partir de graines,
comme la ligne de partage des eaux avec marqueurs (Meyer (2001)). Toutefois, le problme ici
nest pas dobtenir un partitionnement de limage, mais disoler les objets points par lutilisateur.
Le partitionnement de limage impose que chaque partie de limage, mme ambigu, soit attribue
une tiquette reprsentant un objet. De plus, nous considrons ici un exemple pour crr un
modle, pas une image parfaite . Il est donc prfrable de laisser les zones ambigus attribues
aucun objet.
Nous avons tudi une autre approche pour permettre la cration du modle. Il sagit, avant
de segmenter limage de manire automatique, de la simplifier en effectuant une rgularisation.
La mthode utilise est dcrite dans Darbon et Sigelle (2006a,b) et permet doptimiser de manire
exacte des fonctionnelles du type :
F (u) = u f
| u|dx ,
66
3. L E
MODLE DE CONNAISSANCE
Prototype
Traces
beta = 0.5
beta = 1
beta = 2
beta = 2.3
F IG . 3.7 Influence du paramtre de rgularisation sur le modle gnr. Dans les quatre cas
prsents, limage de dpart, les traces utilises et tous les autres paramtres sont identiques. Le
modle est compos par 5 classes. Les parties apparaissant en blanc sont les zones ambigus
de limage et nappartiennent aucune classe. Seul le paramtre de rgularisation est modifi.
Lorsque la rgularisation est faible, la segmentation automatique produit beaucoup de petites rgions qui sont ambigus (principalement celles qui demeurent entre des traces diffrentes). Plus
la rgularisation est forte, et plus lambigut diminue, mais des zones comme le manche de la
guitare sont fusionnes avec le corps.
3.2.3.3
Les traces dessines par lutilisateur appartiennent aux objets dsigns par lutilisateur. Toutefois, ces objets ne sont pas forcement homognes. Par exemple, lutilisateur peut choisir en
fonction du problme de dsigner un personnage comme tant un objet part entire ou dsigner
4
67
plusieurs de ses parties comme des objets. La rgularisation permet de retrouver les objets points
par lutilisateur dans leur ensemble, qui peuvent appartenir la mme classe de segmentation.
Si lutilisateur souhaite dsigner une zone uniforme, nous effectuons les hypothses suivantes :
si la zone est plutt fine, alors la trace correspondra plus ou moins au squelette morphologique de la rgion,
si la zone est plutt large, alors la ou les traces suivront les contours de la rgion. Dans ce
cas, les rgions mme non homognes comprises entre des traces dune mme classe de
segmentation peuvent tre considres comme faisant partie de cette rgion. La figure 3.8
montre les rgions regroupes de cette manire dans le modle. La premire image montre
la segmentation automatique de limage et la troisime image montre les objets initiaux,
composs des rgions qui intersectent les traces correspondant cet lobjet. Sur la dernire
image, de nombreuses rgions notamment en bas et dans la rgion centrale sont regroupes,
tant cernes par des rgions attribues aux mme objet (ou un bord).
segmentation
traces
modle initial
aprs regroupement
F IG . 3.8 Regroupement de rgions par dduction. Limage de gauche montre laffectation des
rgions effectue en fonction des traces uniquement. Les rgions (o groupes de rgion) non marques (en noir sur limage) peuvent tre affectes une rgion si elles sont entoures par une
unique rgion. Par contre, les rgions se situant entre deux marques diffrentes sont considres
comme ambigus et sont exclues du modle.
Dans le cas o les traces sont utilises pour relier plusieurs objets dans une mme classe
de segmentation non homogne, alors les traces ne correspondent plus aux deux cas de figure
prsents. Dans ce cas, les traces vont surtout relier les diffrentes zones, afin de les marquer
comme appartenant une mme classe smantique.
Il pourrait tre intressant de regrouper des rgions une rgion adjacente en fonction de critres correspondant aux caractristiques de la rgion adjacente. Par exemple si une trace intersecte
une rgion homogne en termes de couleur, alors le critre de couleur devient plus important que
dautres pour regrouper dautres rgions avec cette premire rgion. linverse, si une rgion est
texture, alors le critre de couleur devient moins important.
3.2.3.4
Cration du modle
Ces hypothses permettent de rcuprer, partir de limage originale, une segmentation automatique et des traces de lutilisateur, un modle compos dobjets dsigns par lutilisateur ou
des groupes dobjets regroups dans une mme classe de segmentation. En ajoutant les zones
considres comme ambigus, le modle est galement une partition de limage originale.
68
3. L E
MODLE DE CONNAISSANCE
Le fait que le modle soit compos dobjets plutt que de rgions issues dune segmentation
permet de dduire une smantique de la structure de la scne, par exemple une relation directionelle entre deux objets, qui serait sans signification si elle tait effectue partir de rgions dune
sur-segmentation. Une infrence vers des relations spatiales textuelles est possible, et permettrait
dajouter de limprcision dans le modle. Par exemple, partir dun histogramme dangles, revenir une direction gnrique (droite, gauche, haut, bas, en avant, en arrire). De mme, pour une
fonction de distance, connaissant les dimensions de limage, les notions de proche ou loin peuvent
en tre dduites.
Les relations directionelles ou de distance sont toujours dfinies quels que soient les deux
objets concerns, et ces relations sont donc privilgies. Mais il serait intressant de dduire des
relations plus spcifiques ou plus complexes, qui sont aussi ventuellement plus discriminantes ou
informatives. Par exemple, si nous considrons le cas de deux rgions o lune forme un trou dans
la deuxime, la distance et la position relative donne comme une orientation seront deux relations
spatiales moins pertinentes quune relation spcifique entour par . De mme dans le cas dune
rgion entourant une autre, ou le long dune autre, etc.
Le graphe rsultant peut tre construit de plusieurs manires en fonction du nombre darcs
souhait. Au minimum, ce sera un graphe dadjacence, o deux rgions en contact direct ou indirect sont relies par un arc. Une connexion indirecte serait constitue de deux rgions relies par
une rgion classe comme ambigu prcdemment. Au maximum, le graphe peut tre complet. En
fonction du degr dadjacence retenu, la premire version peut omettre des liaisons importantes.
La version complte peut mettre au mme niveau des liaisons importantes et dautres non significatives. Il serait ncessaire dtudier le modle en fonction du nombre de connexions. Ces travaux
et une application sont dcrits dans lannexe C.
Concepts manipuls
experte
Forme
textuelle :
livre danatomie
automatique
quelconque
rgions de segmentation
utilisateur
descripteurs visuels
classe smantique :
lutilisateur identifie
les objets
objets identifis
Relations spatiales
relations imposes,
smantique possible
repre impos
pas de smantique
tout doit tre relatif
pas de repre
raisonnements possible
smantique possible
repre impos
Le choix dune source de connaissances reprsente un compromis entre la gnricit du modle et sa prcision. La connaissance experte telle quune relation spatiale dcrite de manire textuelle va permettre par son imprcision naturelle de prendre en compte des variations naturelles.
Cependant, nous avons dans ce cas un modle quil est ncessaire dinstancier. De plus, il faut
avoir accs une connaissance experte, ce qui nest pas forcment le cas dans tous les domaines
dapplication. Dans le cas o la connaissance est acquise de manire automatique, nous pouvons
manipuler directement des rgions, et donc calculer des relations spatiales de manire prcise mais
69
elles ne sont pas identifies. La version semi-interactive est intermdiaire, elle permet de manipuler des objets, mais qui ne sont pas identifis. Mais dans ce cas, il faudrait que lutilisateur soit un
expert pour arriver un modle aussi complet que dans le premier cas. Du reste, des problmes
doptimisation se posent pour ce genre de modle. Dans le cadre de limagerie crbrale, nous
avons accs une grande connaissance experte telle que des descriptions anatomiques, et nous
allons utiliser cette connaissance par la suite.
x
n1
support
n4
(3.1)
70
3. L E
MODLE DE CONNAISSANCE
o
dA (x) = inf d(x, y)
(3.2)
yA
La figure 3.11 montre un exemple de reprsentation dune fonction de distance utilisant cette
dfinition.
1
n3
n2
n3 n2
proche de
distance borne
loin de
n1 n4
n1
n4
distance
F IG . 3.10 Intervalles flous de forme trapezodale illustrant trois relations spatiales de distance.
Le premier (en rouge) reprsente une relation proche de . Dans ce cas, les valeurs n1 et n2
valent 0. Le deuxime nombre flou (en vert) reprsente une distance borne des deux cts. Le
dernier nombre flou (en bleu) reprsente une relation loin de . Dans ces cas, les valeurs n3 et
n4 sont au maximum de la distance.
a) Objet A
b) carte de distance dA
c) proche de A
F IG . 3.11 (a) Une coupe de la reprsentation binaire en 3 dimensions dun ventricule latral.
(b) Carte de distance drive de A. (c) Ensemble flou correspondant la relation proche du
ventricule latral .
(3.3)
(3.4)
o g est une fonction dcroissante de [0, ] vers [0, 1] et || est dfini modulo . Cette dfinition
est tendue en 3 dimensions en utilisant deux angles pour dfinir une direction. La reprsentation
de la relation directionelle illustre par la figure 3.12 a t gnre en utilisant cette dfinition.
71
b) lment structurant
a) Objet A
c) droite de A
F IG . 3.12 (a) Une coupe de la reprsentation binaire en 3 dimensions dun ventricule latral.
(b) lment structurant pour la relation droite . (c) Paysage flou reprsentant droite du
ventricule latral .
(3.5)
o h est un intervalle flou dune forme trapzodale, mais dont les 3 premires valeurs sont en 0
tel que celui prsent dans la figure 3.14 et d() est une carte de distance.
a)
b)
c)
n4
distance
F IG . 3.14 Nombre flou de forme trapezodale utilis pour la dfinition de la notion dadjacence,
vue comme une relation de distance trs proche de . Les valeurs de n1, n2 et n3 sont toutes
gales 0.
72
3. L E
MODLE DE CONNAISSANCE
(3.6)
avec une t-norme (conjonction floue, voir Dubois et Prade (1980) pour une prsentation des
conjonctions et des disjonctions floues).
73
sons la base IBSR (Internet Brain Segmentation Repository)5 qui contient 18 images IRM en 3
dimensions de cerveaux humains, manuellement segmentes par des experts. Toutes les images de
la base IBSR ont t recales, ce qui diminue la variabilit de la base, mais cela na pas dimpact
sur lapprentissage des relations, qui est effectu de manire relative entre les structures. La figure
3.15 prsente quelques coupes de volumes issus de la base IBSR.
IBSR 01
IBSR 10
IBSR 17
IBSR 17
F IG . 3.15 Trois exemples de volume de la base IBSR. Les deux premiers exemples sont des
coupes axiales et la coupe prsente est la mme dans les deux images (120), le troisime exemple
est une coupe sagittale (coupe 127). La dernire image est une coupe dune segmentation reprsente avec une palette alatoire.
Nous avons ajout ces images 11 cas provenant de la base OASIS ( Open Access Series of
Imaging Studies ).6 Cette base contient des images de 416 sujets avec 3 ou 4 images IRM par
sujet (obtenues dans une unique session). La base est prsente par Marcus et al. (2007). Mais
cette base ne possde pas de segmentations. Nous avons donc segment manuellement les 11 cas
que nous utilisons dans notre ensemble de cas sains.
Enfin, nous avons ajout une dernire image, qui nest pas accessible publiquement, et qui a
t segmente manuellement galement.
Base de cas pathologiques :
Pour les cas pathologiques, nous avons constitu un ensemble de 20 images, qui ont t segmentes manuellement galement et valides par des experts. Mais ces images, recueillies auprs
de nos partenaires mdicaux ne sont pas non plus accessibles publiquement.
La base est constitue de 16 cas, et pour deux dentre eux, nous avons deux images diffrents
stades de dveloppement de la tumeur. Pour un cas, nous avons trois images diffrents moments.
Nous avons donc 20 images au total, dont 16 seront utilises pour lapprentissage. La base contient
diffrents types de tumeurs. La figure 3.16 prsente diffrents exemples de pathologies issus de
cette base. Les tumeurs varient :
par leur emplacement : frontal, proche des noyaux internes, ou latrales ;
par leur taille : plus ou moins grandes ;
par leur type : systique, ncrotique, infiltrante, avec ou sans dme.
Les diffrents types de tumeur impliquent diffrents comportements spatiaux, certaines vont
dplacer ou dformer les structures que nous recherchons, dautres auront peu ou pas dimpact en
fonction de leur localisation. Si la tumeur produit un dme, alors cest laspect qui sera modifi
plutt que les caractristiques morphologiques.
5
Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http ://www.cma.mgh.harvard.edu/ibsr/
6
http://www.oasis-brains.org, ralise avec les financements suivants : Pubmed Central submission :
P50 AG05681, P01 AG03991, R01 AG021910, P50 MH071616, U24 RR021382, R01 MH56584
74
3. L E
MODLE DE CONNAISSANCE
F IG . 3.16 Quatre exemples de volumes prsentant des tumeurs crbrales. Certaines tumeurs
influent directement sur les structures centrales du cerveau, comme les images du haut. Dautres
tumeurs excentres ou infiltrantes ont une influence moindre sur ces structures.
Notations :
La base dapprentissage K, sera compose de cas sains ainsi que de cas pathologiques :
K = {K N , K P }
avec K N lensemble des cas sains de la base et K P lensemble des cas pathologiques de la base.
Nous pouvons dnoter par ki , i [[1, ..., N + P ]] un cas de la base dapprentissage. Par
simplicit, nous dnotons en pratique par c K, pour dsigner un cas quelconque de la base,
ventuellement en prcisant un sous-ensemble K N ou K P . Lensemble des objets segments dans
c sera dnot par Oc .
Les ensembles flous pour une relation R KB des ensembles dimages de cas sains seront
P
nots N
R et ceux pour les images de cas pathologiques R .
75
en compte les cas pathologiques, du moins ceux qui nentranent pas de destructions de
structures. La figure 3.17 prsente un exemple des effets quune tumeur peut avoir sur les
structures crbrales environnantes.
putamen (3)
tumor (1)
thalamus (2)
F IG . 3.17 Exemple de leffet dune pathologie sur les structures crbrales. Dans ce cas, le
putamen gauche ( droite sur limage) a t dplac et apparat tir et enroul autour de la tumeur.
xBc
xBc
Ces valeurs correspondent aux degrs minimum et maximum de la relation RAc pour tous les
points de Bc
Les valeurs de satisfaction minimale minc et maximale maxc sont calcules pour chaque
instance de la base de cas et ces valeurs sont utilises pour dterminer les paramtres des fonctions.
76
3. L E
MODLE DE CONNAISSANCE
n1 :
n2 :
n3 :
n4 :
max
min
min
min
max
max
+ max
0
degrs
de
satisfaction
min
max +
En fonction des relations considres, certaines valeurs peuvent tre fixes lavance, par
exemple pour une relation proche de o un unique paramtre est ncessaire.
Lintervalle flou est dfini dune manire large afin de permettre de prendre en compte tous
les cas de la base dapprentissage, en particulier les cas pathologiques. Les reprsentations sont
utilises dans la suite de ces travaux pour estimer la localisation des objets. Il est donc ncessaire
que les objets soient effectivement situs dans la reprsentation, au dtriment de leur prcision.
Cependant, il est possible quun cas extrme ne soit pas entirement compris dans la localisation,
une valeur moyenne tant utilise.
F IG . 3.18 Apprentissage dune relation dorientation : les deux structures (noyau caud et putamen) sont prsentes gauche sur une coupe de limage ibsr 04. Limage droite montre les deux
structures en rouge en sur-impression sur une coupe de la reprsentation de la relation droite
du noyau caud. Les valeurs de satisfaction minimale et maximale mesures sur cette image sont
respectivement de 0, 37 et de 1, 00.
Les valeurs minimale et maximale de satisfaction de la mesure dinclusion pour chaque cas
sont prsentes dans le tableau 3.2. La moyenne des valeurs minimales est de 0, 45 et lcart type
de 0, 14. Les quatre valeurs du nombre trapzodal de la fonction g sont donc :
n1 :
n2 :
n3 :
n4 :
min
min
min
max
max
+ max
0,31
0,45
1,00
1,00
77
TAB . 3.2 Valeur de satisfaction minimale et maximale obtenue pour une mesure dinclusion I
donne entre la reprsentation de la relation droite du noyau caud gauche et le putamen gauche.
: Maximum (max)
Image Minimum (min)
:
cas sains
ibsr 01
0,36
1,0
ibsr 02
0,41
1,0
ibsr 03
0,44
1,0
ibsr 04
0,37
1,0
ibsr 05
0,54
1,0
ibsr 06
0,37
1,0
ibsr 07
0,45
1,0
ibsr 08
0,42
1,0
ibsr 09
0,46
1,0
ibsr 10
0,37
1,0
ibsr 11
0,41
1,0
ibsr 12
0,38
1,0
ibsr 13
0,44
1,0
ibsr 14
0,37
1,0
ibsr 15
0,46
1,0
ibsr 16
0,40
1,0
ibsr 17
0,44
1,0
ibsr 18
0,47
1,0
cas pathologiques
img. pat. 1
0,69
1,0
img. pat. 2
0,56
1,0
img. pat. 3
0,39
1,0
img. pat. 4
0,66
1,0
Moyenne
0,45
1,0
cart type
0,14
0
Lintervalle flou utilis et le rsultat de lapprentissage sont illustrs dans la figure 3.19.
n2 = 0,45
1
Satisfaction
n1 = 0,31
1.0
F IG . 3.19 Apprentissage dune relation dorientation : gauche, nous avons le nombre trapzodal utilis pour lorientation et limage de droite montre le rsultat de lapprentissage pour cette
relation. Les valeurs slectionnes permettent de prendre en compte lintgralit de la structure
cible dans la relation.
78
3. L E
MODLE DE CONNAISSANCE
Nous cherchons ensuite extraire les valeurs suivantes de la carte de distance pour chaque cas
cK:
dminc = min d(x, y) ,
xAc ,yBc
dmaxc =
max
xAc ,yBc
d(x, y) .
Dans ce cas, dminc reprsente le minimum des distances entre un point de A et un point
de B. dmaxc reprsente le maximum de ces mmes distances. Ces valeurs sont calcules pour
lensemble des cas c de la base K.
est la moyenne des dminc , et dmin
Nous calculons ensuite les valeurs suivantes : dmin
et lcart-type
lcart-type de ces mmes valeurs. Nous calculons galement la moyenne dmax
dmax des dmaxc . Les valeurs du nombre trapzodal apprises seront alors :
n1 :
n2 :
n3 :
n4 :
dmin
dmin
dmin
dmax
+ dmax
dmax
Le nombre flou dsigne donc un intervalle sur des distances (exprime en mm) et non plus des
degrs de satisfaction comme dans le cas gnral.
3.6 Conclusion
Le domaine dapplication est particulier pour diffrentes raisons. Sil existe une variabilit
inter-patients, et des modifications dues aux pathologies, nous sommes dans un cas o les objets
de la scne sont connus, ainsi que leur nombre et toutes les relations qui les relient. Nous avons
galement la garantie que toute la scne sera visible. De ce point de vue, cette application est dans
79
n2 = 0,01
1
0
n1 = 0
n3 = 0,35
Distance
n4 = 0,41
80
3. L E
MODLE DE CONNAISSANCE
81
Chapitre 4
82
4. O PTIMISATION
quelles sont les segmentations successives effectuer pour segmenter au mieux une structure objectif ?
83
sain . Dans un deuxime temps, nous prsentons une adaptation de cette mthode pour les cas
qui prsentent une pathologie.
84
4. O PTIMISATION
Noyau
caud
CDl
LVl CDl
PUl
G/D
Ventricule G/D
Latral
Putamen
H/B
Lvl
Dv/Dr
THl
PUl
G/D
G/D
THl
Thalamus
F IG . 4.2 La connaissance et le modle utiliss dans cette tude. Limage gauche est une coupe
dun volume crbral en vue axiale et montre les structures anatomiques suivantes : LVl ventricule
latral, CDl noyau caud, THl le thalamus et PUl le putamen. droite, les mmes structures
apparaissent dans le graphe modlisant la connaissance. Les relations spatiales entre ces structures
sont portes par les arcs du graphe.
85
la localisation de la relation,
la prcision de la relation.
Une relation spatiale fournit une indication sur la position de la structure cible par rapport la
structure de rfrence, la position exacte tant donne par la connaissance a priori. Si la relation
spatiale fournit une bonne localisation, alors en chaque point de la structure cible, la relation
spatiale doit avoir un degr de satisfaction maximal. Plus spcifiquement, si nous comparons des
ensembles flous, il est ncessaire que lensemble des points de la structure cible soient situs dans
le noyau de la relation spatiale (cest--dire un degr de satisfaction de 1).
Une bonne localisation, telle quelle vient dtre dfinie, permet de sassurer que la relation
est pleinement satisfaite lemplacement de lobjet. Mais ce critre nest pas suffisant, car la taille
du support de la relation spatiale nest pas prise en compte. Le support de la relation spatiale,
reprsente dans lespace de limage, correspond lensemble des points pour lesquels le degr
de satisfaction de la relation nest pas nul. Par exemple, dans un cas extrme, tous les points de
lensemble flou peuvent satisfaire entirement la relation. Dans ce cas, la localisation sera toujours
correcte. Il est donc ncessaire de tenir compte dun autre critre qui estime la prcision de la
relation. Nous la dfinissons comme le rapport entre la taille de lobjet et la taille du support de la
relation tudie.
Nous pouvons trouver un cadre formel appropri pour comparer des ensembles flous dans
(Bouchon-Meunier et al. (1996)), o les auteurs proposent des mesures de comparaison ainsi
quune classification de ces mesures. Deux mesures permettant destimer les critres de pertinence
dcrits ont t tudies :
Mesure de satisfaction :
Le premier critre est une mesure de satisfaction ( M-measure of satisfiability (Bouchon-Meunier et al.
(1996)) ) dfinie ainsi :
fs (Rel, Obj) =
xS
(4.1)
xObj
Rel (x)
|Obj|
(4.2)
Mesure de ressemblance :
Le deuxime critre est une mesure de ressemblance ( M-measure of resemblance (Bouchon-Meunier et al.
(1996)) ) dfinie comme :
fr (Rel, Obj) =
(4.3)
Ce critre mesure ladquation entre la structure dans la rgion de lespace o la relation est
satisfaite, le maximum tant atteint si lobjet et la relation sont identiques. Cette mesure permet
dvaluer en mme temps le positionnement mais aussi la prcision de la relation. Il sagit donc
dun taux de recouvrement entre Rel et Obj .
86
4. O PTIMISATION
Comparaison
LLV proche LCN
LLV droite de LCN
Satisfaction
1,000
0,874
ressemblance
0,037
0,003
F IG . 4.3 Comparaison des critres. La mesure de satisfaction reflte que les deux structures
cibles (en vert) sont proches du noyau de la relation spatiale reprsente partir de la structure
de rfrence (en bleu) : entirement dans le noyau dans le premier cas ( gauche) et partiellement
dans le deuxime cas. Les mesures de ressemblance ont des valeurs beaucoup plus faibles, car la
normalisation est effectue par rapport la taille du support de la relation. Dans le premier cas,
la relation proche de est plus prcise que dans le deuxime cas o nous avons une relation
dorientation. Les valeurs refltent principalement cette diffrence, plus que la position dans le
noyau.
87
Noyau Caud
droite
0,97
Ventricule
Latral
Lvl
CDl
droite
0,89
Putamen
droite
PUl
Chemin :
LVl droite de PUl
LVl droite de CDl droite de PUl
longueur :
1 - 0,92 = 0,08
(1 - 0,97) + (1 - 0,89) = 0,14
0,92
F IG . 4.4 Un petit exemple pour illustrer le comportement du plus court chemin avec un critre
de satisfaction. Nous ne considrons que des relations dorientation dans ce cas. Nous considrons
un arc qui relierait directement le ventricule au putamen, ce qui nest pas souhaitable en pratique
vu lloignement des structures. Le chemin direct a une longueur de 0,08 contre 0,14 pour le
chemin comportant deux arcs. Pour quun chemin comportant deux arcs soit choisi contre un
chemin comportant un unique arc mme moyen, il est ncessaire que les deux arcs du chemin
aient des valeurs deux fois meilleures que larc du chemin unique. Ce cas ne se prsente pas dans
nos expriences. En prenant la moyenne de satisfaction sur le chemin, le chemin plus long sera
prfr.
donc aux algorithmes classiques doptimisation pour trouver le meilleur chemin. Toutefois, nous
expliquons galement pourquoi les chemins qui pourraient tre obtenus par ces algorithmes nont
pas forcment les caractristiques souhaites pour notre problme de segmentation, nous allons
donc prsenter comment adapter des notions issues de ces algorithmes notre problme.
Meilleur chemin moyen :
Lalgorithme du plus court chemin effectue une optimisation globale sur le graphe. Cette optimisation peut donc accepter pour un chemin donn des valeurs assez diffrentes, mme si le chemin
est optimal. Un chemin globalement correct peut alors inclure un arc avec une faible valeur de
satisfaction (ou un fort poids). De plus, cet algorithme favorise (videmment) des chemins courts,
et pas seulement des chemins avec des arcs avec un poids faible : un chemin comportant un unique
arc avec un poids lev sera prfr un chemin comportant deux arcs avec des valeurs meilleures.
Le processus de segmentation utilisant les relations spatiales pour guider la segmentation, il est
important de noter que plus le chemin comporte de relations utilisables, et plus la segmentation
sera encadre. Potentiellement, un chemin plus informatif est donc plus intressant.
Pour illustrer cela, nous pourrions envisager un chemin direct entre le ventricule et le putamen,
au lieu de segmenter en premier lieu le thalamus et le noyau caud, puis le putamen. Ce chemin
serait sans doute privilgi par lalgorithme du plus court chemin, mais ne permettrait pas une
meilleure segmentation cause de limprcision et de lloignement des deux structures concernes (nous ne considrons pas une relation de distance ici, mais uniquement lloignement entre
les deux structures qui induit une plus grande imprcision). La figure 4.4 illustre ce comportement.
Larc direct entre le ventricule et le putamen, grce sa faible longueur, est prfr tous les
autres.
Nous proposons donc une adaptation de cet algorithme en normalisant le cot de chaque chemin par sa longueur. Cette adaptation conduit slectionner non plus le chemin le plus court, mais
plutt le chemin qui a le plus faible poids moyen. Cette modification permet de ne pas favoriser
des chemins courts par rapport aux chemins plus informatifs.
Soit F lensemble des ensembles flous sur le domaine spatial. Soit f : F F IR une fonction valeurs relles, ici une mesure de comparaison (parmi les mesures prcdemment dcrites).
La slection du meilleur chemin moyen p entre deux nuds v et v sera le rsultat de :
min
pP
ep (1
f (Rel , Obj ))
card(p)
(4.4)
88
4. O PTIMISATION
o e est un arc dans le chemin p, P reprsente lensemble des chemins de v v , Obj est lensemble flou reprsentant la structure cible de larc e, Rel est lensemble flou reprsentant la
relation spatiale porte par larc e, et card(p) reprsente le nombre de nuds prsents dans le
chemin p. Par exemple dans la figure 4.2, si v est le ventricule latral (Lvl) et v le putamen (PUl),
un des chemins entre ces deux structures est : Lvl L/R CDl L/R P U l.
Plus grand flot minimal :
Le problme de larc dficient , cest--dire la possibilit pour un arc ne satisfaisant que peu
les critres de slection de se retrouver dans un chemin globalement bon, peut tre contourn
en caractrisant un chemin par son arc de flot minimal, ce qui correspond larc de plus faible
capacit (le poids ici) parmi les arcs du chemin. Nous proposons donc deffectuer la slection
parmi ces arcs de plus faible capacit, en choisissant celui qui prsente la plus forte valeur.
Il faut donc chercher le maximum parmi les capacits minimales de chaque chemin, et nous
proposons doptimiser le critre suivant :
max(min(f (Rel , Obj )))
pP
ep
(4.5)
avec les mmes notations que dans la mthode prcdente. Nous considrons dans nos exemples
des graphes avec peu de structures et de chemins possibles, nous pouvons donc effectuer loptimisation avec une recherche exhaustive parmi tous les chemins partir de la structure de rfrence
vers la structure cible. Pour chaque chemin, la capacit minimale est calcule et le chemin possdant le maximum parmi ces valeurs est slectionn.
Cette formulation permet dviter les chemins qui ont un arc trop faible, et donc de rsoudre
le problme de cet arc. De plus, ntant pas dpendante du nombre darcs du chemin, elle ne
favorise pas les chemins dune longueur donne, ce qui vite le deuxime problme soulign avec
lalgorithme du plus court chemin.
4.1.4 Expriences
La figure 4.2 prsente le graphe qui est utilis dans nos expriences. Ce graphe contient 4
structures crbrales : le ventricule latral gauche, qui est galement la structure de rfrence,
le noyau caud, le thalamus et enfin le putamen, qui est la structure cible dans nos expriences.
Nous reprenons ici les structures et les relations spatiales utiliss par Colliot et al. (2006), le but
tant de remplacer le chemin ad-hoc par un chemin dtermin par une optimisation du graphe.
Il sagit donc de trouver le meilleur chemin entre le ventricule et le putamen. Chacune de ces
structures est prsente dans les deux hmisphres du cerveau de manire symtrique par rapport
au plan inter-hmisphrique. Nous ne considrons que les structures du ct gauche ici. Les expriences considrent en outre que lextraction de chacune des structures prsente le mme niveau
de difficult.
Comme source pour la reprsentation des structures, nous avons choisi dutiliser un unique cas,
pour lequel nous possdons une segmentation. Cependant, chacune des structures est rendue floue
afin de reprsenter une certaine imprcision. La figure 4.5 illustre la mcanisme de fuzzification
dune structure anatomique. Cette fuzzification est effectue en effectuant une dilatation floue
de la reprsentation dune structure par un lment structurant parabolode dfini ainsi :
se(x, y, z) = 1
(x xc )2 + (y yc )2 + (z zc )2
,
2
o (xc , yc , zc ) reprsente le centre de llment structurant et est un paramtre fix 5 dans nos
expriences.
89
Structure originale Oc
lment structurant
Ventricule latral
Ventricule latral
Noyau caud
Thalamus
Thalamus
Noyau caud
Noyau caud
Thalamus
Arc
Au-dessus
droite de
En avant
En arrire
droite de
droite de
Au-dessus
Au-dessous
Thalamus
Noyau caud
Thalamus
Noyau caud
Putamen
Putamen
Thalamus
Noyau caud
Satisf.
0,97
0,97
0,97
0,96
0,92
0,89
0,82
0,64
90
4. O PTIMISATION
Noyau Caud
CDl
0.97
Ventricule L/R
Latral
Putamen
U
0.64
F
0.96
Lvl
CDl
0.32
L/R
0.89
L/R
D
0.82
B
0.97
U/D
0.97
PUl
L/R
0.92
Lateral
Ventricle
Lvl
0.44
L/R
Putamen
U
0.41
F
0.73
D
0.20
B
0.40
U/D
0.46
PUl
L/R
0.42
THl
THl
Thalamus
Thalamus
F IG . 4.6 Les valeurs de satisfaction (en bas gauche) et de ressemblance (en bas droite)
mesures pour chaque arc. En haut deux exemples avec un ensemble flou rel reprsentant une
relation dorientation et lensemble flou obj correspondant la cible. Les mesures de satisfaction
et de ressemblance sont calcules en comparant ces ensembles flous. La structure de rfrence de
la relation est reprsente en bleu. Le support de obj est reprsent en vert orange et le noyau de
obj en vert clair.
TAB . 4.3 Les valeurs de satisfaction moyenne et minimale pour chacun des chemins. Les valeurs
en gras dans le tableau indiquent les chemins retenus.
Chemin
1 - Moyenne Minimum
LVl Au-dessus THl En arrire
CDl droite de PUl
0,06
0,89
LVl Au-dessus THl Au-dessous CDl droite de PUl
0,17
0,64
LVl droite de CDl droite de PUl
0,07
0,89
LVl droite de CDl En-avant
THl droite de PUl
0,05
0,92
LVl droite de CDl Au-dessus
THl droite de PUl
0,10
0,82
LVl Au-dessus THl droite de PUl
0,06
0,92
La figure 4.6 et le tableau 4.1 prsentent des mesures du critre de satisfaction obtenues pour
chaque arc du graphe. Nous cherchons dans cette exprience un chemin entre le ventricule latral
et le putamen, certains arcs sont donc inutiles (les arcs qui reviennent vers le ventricule ou les
arcs issus du putamen) et ne sont pas prsents. Le tableau 4.3 prsente les scores obtenus pour
chacun des chemins selon le critre de satisfaction. Avec ce dernier, les deux mthodes proposes
de slection du chemin, le meilleur chemin en moyenne ou le chemin avec le plus grand flot
minimal , slectionnent le mme meilleur chemin qui est :
91
TAB . 4.4 Les valeurs de ressemblance moyenne et minimale pour chacun des chemins. Les
valeurs en gras dans le tableau indiquent les chemins retenus.
Chemin
1 - Moyenne Minimum
LVl Au-dessus THl En arrire
CDl droite de PUl
0,57
0,40
LVl Au-dessus THl Au-dessous CDl droite de PUl
0,63
0,20
LVl droite de CDl droite de PUl
0,62
0,32
LVl droite de CDl En-avant
THl droite de PUl
0,51
0,32
LVl droite de CDl Au-dessus
THl droite de PUl
0,62
0,32
LVl Au-dessus THl droite de PUl
0,56
0,42
92
4. O PTIMISATION
Tumeur
Noyau caud
Putamen
Thalamus
Ventricule Latral
F IG . 4.7 Deux coupes en vue axiale dimages IRM du cerveau. Limage de gauche prsente une
pathologie proche du ventricule latral et des noyaux centraux. Limage de droite est un cas sain.
Dans le cas pathologique, les structures ont t dplaces cause de la tumeur. Le thalamus est
cras, le putamen est dplac et dform. Le noyau caud a galement t dplac et napparat
pas sur cette coupe, alors que le noyau caud prsent dans lautre hmisphre apparat.
93
F IG . 4.8 tude du degr de stabilit pour la relation : thalamus distance putamen. Limage
de gauche correspond un cas sain, limage de droite un cas pathologique qui a une influence
directe sur les structures, en particulier le putamen qui est dplac et dform.
Classification de la base dapprentissage :
Le degr de stabilit est infr de la comparaison (en utilisant une mesure de ressemblance)
entre les relations spatiales apprises pour les cas sains et les relations apprises pour les cas pathologiques. Lapprentissage est effectu selon le protocole prsent dans la partie 3.5, mais lapprentissage est effectu de manire distincte pour les cas sains et les cas pathologiques. Pour cela,
la base de cas pathologiques est au pralable catgorise en fonction du type de tumeur et de son
impact sur les structures. La structuration de la base est effectue laide dune classification de
tumeurs crbrales. Nous avons donc une base de cas :
K = (K N , K P1 , . . . , K Pn ) ,
o K N reprsente les cas sains et K Pi reprsente les cas correspondant une classe de pathologie
Pi .
Apprentissage dans le cas sain et dans le cas pathologique :
Nous utilisons une procdure similaire la procdure prsente dans la partie 3.5 : nous cherchons apprendre les paramtres des fonctions f , g, et h qui modlisent respectivement les relations spatiales de distance, dorientation ou dadjacence respectivement pour un couple de structures (A, B). Pour une classe de pathologie donne, correspondant un sous-ensemble K Pi de
la base dapprentissage, nous allons effectuer pour chaque relation spatiale un apprentissage sur
lensemble des cas sains K N et sur le sous-ensemble K Pi .
Nous pouvons considrer une relation particulire pour illustrer comment driver le degr
de stabilit dune relation. Nous considrons ici la relation distance entre le thalamus et le
putamen. La figure 4.8 prsente ces deux structures dans un cas sain et un cas pathologique.
Cette relation est reprsente ainsi :
x S, p (x) = f (dA (x)) ,
o A reprsente le thalamus dans ce cas prcis et dA une carte de distance au thalamus dfinie
ainsi :
dA (x) = inf d(x, y) .
yA
94
4. O PTIMISATION
f(d)
n2
n3
0
n1
n4
Distance d
xBcN
xBcN
95
f(d)
n2
1
n3
n3
n2
cas sain
cas pathologique
0
n1
n1
n4
Distance
n4
F IG . 4.9 Intervalles flous dans le cas sain et dans le cas pathologique. Les paramtres de lintervalle flou pour le cas sain sont les suivants : n1 = 0, n2 = 1, n3 = 32, n4 = 36. Les paramtres
de lintervalle flou dans le cas pathologique sont les suivants : n1 = 0, n2 = 1, n3 = 38, n4 = 41.
Ce type de tumeur repousse le putamen, et donc la fonction est plus large.
F IG . 4.10 Les deux paysages flous reprsentant la relation de distance entre le thalamus (en bleu)
et le putamen (en vert). gauche, les paramtres de la fonction f ont t appris dans le cas sain.
droite, les paramtres ont t appris pour une classe de pathologie illustre dans la figure 4.8.
Le paysage flou appris dans le cas pathologique est moins prcis que dans le cas sain, refltant que
le type de tumeur considr dplace les structures considres. La ressemblance entre ces deux
paysages flous est de 0, 72.
calculer la cardinalit de lintersection de deux ensembles flous, normalise par la cardinalit de
leur runion :
dD min((d), (d))
,
R(, ) =
dD max((d), (d))
o D reprsente le domaine de dfinition des ensembles flous, par exemple lespace des distances
dans lexemple dcrit plus haut.
Nous obtenons ainsi, pour chaque relation (A, R, B) o A et B sont deux structures et R une
relation spatiale, un degr de stabilit pour chaque classe de pathologie. La valeur obtenue pour
notre exemple est de 0, 72.
96
4. O PTIMISATION
effectue. Pour cela, nous pouvons utiliser la classification de tumeurs crbrales propose par
Atif et al. (2007a) et Khotanlou (2008). Une fois le type de pathologie connu et les degrs de
stabilit correspondant estims, il est ncessaire de les intgrer dans notre approche initiale. Il y
a diffrentes manires dintgrer cette information, nous allons en dtailler deux : un lagage du
graphe par le degr de stabilit, puis la pondration des poids par le degr de stabilit.
lagage du graphe :
Le graphe original peut tre filtr de telle sorte que les relations spatiales prsentant un trop
faible degr de stabilit soient supprimes. Ensuite, lapproche dveloppe pour les cas sains peut
tre directement applique sur le graphe filtr. Cette approche est plutt svre et ne permet pas
dtre souple, ce qui est primordial afin de pouvoir effectuer des raisonnements. De plus, il est
ncessaire de fixer un seuil pour le filtrage du graphe. La figure 4.11 montre un exemple de filtrage
de graphe, avec un seuil dtermin de manire empirique une valeur de T = 0, 8. Le rsultat ne
laisse que deux chemins possibles. Le filtrage a permis dliminer les arcs dont le degr de stabilit
est faible, mais ne modifie pas les poids pour la suite de la mthode.
Caudate Nucleus
CDl
0.97
L/R
Lateral
Ventricle
Lvl
U
0.77
F
0.97
Image pathologique
0.68
0.89
L/R
D
0.68
B
0.97
U/D
0.98
Caudate Nucleus
CDl
0.63
L/R
L/R
Putamen
Lateral
Ventricle
Putamen
PUl
Lvl
PUl
U/D
0.82
L/R
0.92
L/R
0.64
THl
THl
Thalamus
Thalamus
Degrs de stabilit
Graphe filtr (T = 0, 8)
F IG . 4.11 lagage du graphe en fonction du degr de stabilit. Le graphe au centre montre les
degrs de stabilit obtenus pour le cas de pathologie prsent sur la gauche. Le graphe de droite
montre le rsultat du filtrage si le seuil de stabilit est T = 0, 8. Les valeurs de satisfiabilit des
arcs restants sont nots en bleu sur ce graphe.
97
Ventricule Au-dessus Thalamus droite de Putamen.
La figure 4.12.c prsente une segmentation du putamen qui a t effectue en suivant cette squence de segmentation.
Caudate Nucleus
0.68
0.66
L/R
Lateral
Ventricle
Lvl
U/D
0.82
0.80
CDl
U
0.87
0.67
F
0.58
0.56
D
0.82
0.56
B
0.70
0.68
THl
0.63
0.56
L/R
putamen (3)
Putamen
tumor (1)
PUl
thalamus (2)
L/R
0.64
0.59
Thalamus
a) Image pathologique
b) Graphe pondr
c) Segmentation
F IG . 4.12 (a) Vue axiale dune image IRM avec une tumeur proche du ventricule latral et des
noyaux centraux. (b) Degrs de stabilit appris avec une classe de tumeur similaire (en bleu). Les
mesures de satisfaction pondres sont en rouge. Slection du meilleur chemin avec le critre du
meilleur chemin moyen. Le meilleur chemin est dans ce cas : ventricule Au-dessus thalamus
droite de putamen. (c) Segmentation du putamen. La tumeur est extraite dabord. Ensuite, le
thalamus et finalement le putamen.
98
4. O PTIMISATION
(4.6)
o est une t-norme et p un chemin compos de N p relations. Dans nos expriences, nous utilisons une norme minimum. Le processus permettant la gnration de la reprsentation dun chemin
est illustr dans la figure 4.14.
99
Reprsentation dun chemin :
Noyau caud
gauche
e1
Ventricule
Putamen
e2
en avant
audessus
e3
gauche
Thalamus
(e1, e2)
(e1, e2)
(e1, e2)
(e1, e2)
F IG . 4.13 Comparaison entre une fusion disjonctive (au centre) ou conjonctive (en bas) pour calculer la
reprsentation dun chemin. La fusion disjonctive conserve toute linformation, et dans le cas de relations
non bornes telles que les relations dorientation, une large partie de lespace est intgre dans la reprsentation du chemin. Avec un apprentissage et lajout de relations de distances fusionnes avec les relations
dorientation, moins dinformation est prise en compte, mais toujours beaucoup relativement la taille des
structures et du cerveau. En revanche, la fusion conjonctive conserve beaucoup moins dinformation. La
conjonction des relations spatiales visant une structure dun chemin a plutt reprsenter la localisation de
cette structure, et non pas le chemin entre deux structures. Plus ces localisations sont prcises, et moins
la reprsentation dun chemin apparat correcte, cest--dire moins les espaces entre les structures sont reprsents dans la reprsentation du chemin. Il est important que la structure recherche soit comprise dans
la reprsentation, et que celle-ci ne soit pas trop tendue, ce qui est le cas de la fusion conjonctive sans
apprentissage dans cet exemple.
100
4. O PTIMISATION
LVl
CDl
THl
<< gauche>>
<<devant>>
PUl
<< gauche>>
F IG . 4.14 Gnration dune reprsentation pour le chemin suivant : ventricule (LVl) droite
de noyau caud (CDl) En-avant thalamus (THl) droite de putamen (PUl). Une coupe
des reprsentations de chaque structure est prsente dans la ligne suprieure. Pour chaque relation porte par un arc dun chemin, nous la reprsentons dans lespace de limage, en utilisant la
reprsentation de la structure de rfrence de chaque relation. Ces reprsentations sont prsentes
dans la ligne du milieu, avec les structures de rfrence en rouge. Les reprsentations de chaque
relation sont ensuite fusionnes en utilisant une t-norme (ici le minimum). La ligne du bas prsente
gauche la fusion des deux premires relations (avec les structures de rfrence des deux relations
en rouge), puis aprs fusion de la troisime relation, la reprsentation du chemin droite, avec la
structure cible du chemin (le putamen) en vert.
101
H(p ) = K
xi S
xi S
(4.7)
o p est lensemble flou correspondant la fusion de toutes les relations spatiales contenue dans
le chemin p et K est une constante de normalisation.
Le meilleur chemin p sera donc le chemin le moins flou , donc avec le minimum dentropie
floue :
p = arg min(H(p )).
(4.8)
pP
Il faut remarquer que cette mesure est utilisable lorsque, comme dans notre cas, les relations
sont plus floues lorsquelles sont moins prcises. Il serait inutile de mesurer ce critre sur des
rgions qui ne sont pas floues, qui donneraient une valeur dentropie nulle mme si les rgions
sont trs larges et napportent pas daide au processus de segmentation.
4.3.3 Expriences
Les mesures de lentropie floue pour chacun des chemins sont prsentes dans le tableau 4.5.
Le chemin qui possde lentropie floue la plus basse est le suivant :
LVl down of THl up of CDl left of PUl
Cette reprsentation est illustre par la figure 4.15. Ce chemin contient plusieurs changements de
direction, ce qui explique que la conjonction des reprsentations des relations spatiales soit trs
concentre sur une petite zone uniquement, et donc prsente une entropie faible. Dune manire
plus gnrale, lentropie floue calcule sera dpendante des changements de direction du chemin,
plus que de la prcision des relations elles-mmes.
F IG . 4.15 Une coupe dune reprsentation 3D du chemin LVl down of THl up of CDl
left of PUl aprs fusion des connaissances spatiales contenues dans le chemin.
102
4. O PTIMISATION
TAB . 4.5 Lentropie floue obtenue pour chacune des reprsentations des chemins entre le ventricule et le putamen dans notre graphe. Les structures sont les suivantes : ventricule latral (LVl),
thalamus (THl), noyau caud (CDl), putamen (PUl).
Chemin :
Entropie floue :
LVl Au-dessus THl en dessous
CDl droite de PUl
0,08
LVl Au-dessus THl en dessous
CDl droite de PUl
0,17
LVl droite de CDl droite de
PUl
0,26
LVl droite de CDl en avant
THl droite de PUl
0,16
LVl droite de CDl Au-dessus THl droite de PUl
0,16
LVl Au-dessus THl droite de
PUl
0,16
4.4 Conclusion
Nous avons montr dans cette premire approche que lordre de segmentation des structures
dun processus de segmentation squentiel peut tre dduit de manire automatique, et les rsultats, limits un petit graphe, montrent que le chemin dduit automatiquement est le mme que
le chemin qui avait t construit de manire ad-hoc. Lextension propose pour les cas pathologiques nous a permis, en prenant en compte la notion de degr de stabilit dune relation spatiale,
dadapter le processus un type de pathologie donn pour dterminer un meilleur chemin dans ce
cas.
Cette approche comporte certaines hypothses. La pertinence des relations est estime, mais la
difficult intrinsque de segmentation de chaque structure nest pas prise en compte. Les critres
que nous utilisons ne permettent pas non plus de considrer la prcision intrinsque des relations.
Par exemple, une relation dadjacence sera naturellement plus prcise quune relation dorientation
(en termes de taille de support). Mme si les critres sont normaliss par la taille du support, le
rapport la taille de lobjet cible nest pas identique.
Lapproche utilisant des reprsentations des chemins serait prometteuse si une bonne reprsentation dun chemin pouvait tre dduite du chemin. En effet, cette reprsentation, lie par exemple
une information visuelle telle que celle tudie dans le chapitre 2, peut permettre de dtecter des
103
vnements dune manire plus globale quen raisonnant avec une relation chaque fois. Nous
verrons dans le chapitre suivant comment faire une estimation globale des chemins, mais a posteriori.
Lutilisation dune connaissance a priori permet de raliser une optimisation globale sur le
chemin complet avant de segmenter. Cependant, loptimisation est ici locale au sens o la pertinence de chaque arc est value de manire indpendante des autres arcs. Une autre critique est
que cette approche nutilise pas dinformation provenant de limage segmenter, mais est effectue uniquement partir de la connaissance a priori, part ladaptation aux cas pathologiques qui
prend en compte le type de pathologie prsente sur limage. Une variation de cette approche serait
deffectuer loptimisation globalement de la mme manire mais de rviser le modle la suite de
chaque segmentation de structure pour prendre en compte cette image. Nous aurions ainsi une instanciation progressive du modle, mais dans ce cas, mme si une optimisation du chemin complet
est effectue, elle est utilise comme une manire de choisir la prochaine structure segmenter
uniquement. Lapproche prsente dans la partie suivante fonctionne de cette manire.
Lobjectif du prochain chapitre est de combler labsence dinformation provenant de limage
segmenter. Nous avons prsent au chapitre 2 comment les modles du systme visuel pouvaient
apporter de linformation extraite directement dune image, via les mcanismes pr-attentionnels,
et en particulier les cartes de saillance. Nous allons prsent voir comment intgrer cette information visuelle dans un processus de segmentation squentielle.
104
4. O PTIMISATION
105
Chapitre 5
106
5. O PTIMISATION
cette approche, la segmentation de limage est vue comme un processus dexploration de limage.
Par rapport la premire mthode propose, cette mthode ne permet pas dvaluer un chemin
complet avant segmentation. Le critre de slection des structures permet ici de slectionner la
prochaine structure segmenter uniquement. Le chemin de segmentation optimal est donc entirement dtermin une fois toutes les segmentations effectues.
107
TAB . 5.1 Un appariement de chaque tape dun processus de segmentation squentielle une
modlisation de lattention visuelle telle que dcrite par la thorie dintgration des caractristiques, dcrite dans le chapitre 2. Dans ce cas, ltape pr-attentionnelle est guide par les donnes,
ce qui est le cas des premires modlisations, mais les travaux plus rcents proposent trs souvent
des liens descendants.
tape :
Systme visuel :
Segmentation
Squentielle :
Objectif Slectionner une zone Slection de la zone
ou un objet de lespace de lespace (ou de la
pour un examen atten- prochaine structure)
Pr-attentionnelle
tif
segmenter
Mode
Processus ascendant partir de caracteffectu partir de ristiques globales de
limage entire et limage
o les caractristiques sont traites de
manire parallle
Objectif Examen attentif dune Segmentation dune
petite zone de limage partie de limage
Attentionnelle
Mode
Sur une petite zone de Dans une zone dfinie
limage et de manire par des relations spasquentielle
tiales
Objectif Ne pas bloquer lil Utiliser les objets
sur la dernire zone s- dj segments pour
Inhibition de retour
lectionne
contraindre la recherche
Mode
Masquage dune zone Masquage des zones
temporairement
dj segmentes
les caractristiques. Cette carte unique est nomme carte de saillance. Nous avons dcrit dans la
partie 2.3 le processus permettant dextraire une carte de saillance dune image, partir des caractristiques dintensit, de couleur et dorientation dune image. Le mcanisme de cration de
ces cartes a t dcrit par Itti et al. (1998) la suite des travaux de Koch et Ullman (1985). Nous
avons galement dcrit dans la partie 2.4 les adaptations ncessaires du mcanisme dextraction
des cartes de saillance aux images IRM.
Une autre tape, ou plutt un mcanisme intgr dans ltape pr-attentionnelle, peut trouver
son quivalent dans le processus de segmentation squentielle, il sagit de linhibition de retour. Si
un observateur regarde une scne fixe, alors les zones saillantes demeurent identiques au cours du
temps. Mais si lexploration de limage est guide par linformation de saillance, alors lattention
visuelle risque dtre bloque sur une mme zone en absence de mouvement. Il existe donc un
mcanisme permettant dinhiber pendant un bref laps de temps une zone saillante sur laquelle lattention visuelle a t focalise. Un problme similaire se pose si nous segmentons une zone dune
image qui se trouve ct dun objet qui attire le processus de segmentation (un fort contraste
avec le reste de limage par exemple). Dans Colliot et al. (2006), il est montr que lutilisation des
relations spatiales permet de contraindre un modle dformable pour viter de se retrouver sur les
bords dun objet dj segment. La figure 5.1 illustre cet effet. La segmentation du noyau caud
108
5. O PTIMISATION
ne sarrte pas sur les bords du ventricule. Nous pouvons donc, laide des relations spatiales,
simuler implicitement un mcanisme dinhibition de retour.
109
En effet, pour chaque caractristique tudie, les cartes de discontinuit gnres refltent la diffrence de niveau entre un point et son voisinage. Il sagit donc dune information de type gradient
(ou une approximation locale du gradient de limage filtre pour reprsenter une caractristique).
Cette information est calcule selon diffrents niveaux dchelles, puis fusionne dans une carte
unique. Cette carte unique reprsente donc les discontinuits dune caractristique donne, et pour
diffrents niveaux dchelle. Toutes ces cartes sont ensuite fusionnes pour donner la carte de
saillance.
Les algorithmes de segmentation dimage ont pour objectif de poser une frontire entre des rgions dune image, et en gnral cette frontire reprsente une discontinuit. Dans une application
pour la segmentation des structures crbrales, le problme est plutt de savoir o placer une frontire, car les bords sont souvent flous et mal dfinis. Nous considrons donc que linformation de
saillance est directement relie aux difficults de segmentation dun objet en considrant quun objet avec un contour plus saillant, cest--dire prsentant une discontinuit plus marque, sera plus
ais segmenter quun objet comportant un contour moins saillant. Cependant, la saillance peut
donner plus dinformation. En effet, certaines tumeurs crbrales par exemple sont trs saillantes.
Une forte saillance peut donc indiquer non seulement une zone plus aise segmenter, mais si
nous disposons, via un apprentissage par exemple, de la distribution moyenne de saillance pour
une zone, alors nous pouvons galement dtecter une anomalie comme une pathologie.
Nous proposons dtudier la saillance dune image segmente, afin de vrifier empiriquement
si le niveau de saillance dun objet correspond la difficult notoire de le segmenter.
o S reprsente lespace de limage. La saillance dun objet est donc reprsente dans cet espace.
Nous pouvons alors calculer un histogramme h de la saillance dun objet, en calculant lhistogramme de SALOc . Les cartes de saillance sont normalises dans un intervalle [0, 1]. Le nombre
N de niveaux de quantification de lhistogramme est fix arbitrairement 100.
h[i] =
1i (SALOc (x)) ,
xS
110
5. O PTIMISATION
o 1(.) est la fonction indicatrice. Cet histogramme est ensuite normalis afin dobtenir une fonction de densit de probabilit : pour i = 1, ..., N
h[i]
hOc [i] =
N
i=1 h[i]
Ventricule Latral
Noyau caud
Putamen
Thalamus
matire blanche
Saliency histo.L hmsph
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
20
30
40
50
60
70
80
90
100
111
Saliencyhealthy histo.L hmsph
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
20
30
40
50
60
70
80
90
100
hOc [i]
,
card(K)
cK
o card(K) reprsente le nombre de cas dans la base. Nous calculons ensuite la moyenne des
distances EMD et la variance pour chacune des distributions, toutes les images prises en compte
tant quiprobables. Lcart la moyenne est estim par une mesure EMD ou Earths Mover
Distance (Rubner et al. (1998)).
La mesure EMD :
Supposons que p et q sont deux histogrammes discrets avec N niveaux de quantification, et
N
normaliss tel que N
i=1 p[i] =
i=1 q[i] = 1. La mesure EMD entre ces deux distributions de
probabilit est dfinie ainsi :
N
i,j c(i, j) ,
emd(p, q) = min
i,j M
i=1 j=1
o M = {(i,j ); i,j 0, j i,j = p[i], i i,j = q[j]} et o c(., .) est une distance entre
les niveaux de quantification. Mais pour des histogrammes non-circulaires et en une dimension
112
5. O PTIMISATION
seulement, si c(i, j) = ij
N , alors il est tabli que la mesure EMD est la diffrence entre les
histogrammes cumuls (Villani (2003)) :
emd(p, q) =
N
i=1 |P [i]
Q[i]|
(5.1)
o p et q sont deux distributions de probabilit, P et Q sont les histogrammes cumuls correspondants et N le nombre de niveaux de quantification des histogrammes. Nous utilisons cette
formulation dans nos expriences. Lcart la moyenne entre distributions de saillance est donc
calcul comme la variance selon la mesure EMD :
VO =
O , hO )2
emd(h
c
card(K N )
cK N
Nous avons utilis dans un premier temps un critre simple et qui ne ncessite pas dapprentissage dans nos expriences. Nous avons propos dutiliser lnergie des histogrammes comme
critre de comparaison. Lnergie dun histogramme H, avec N niveaux de quantification, est
calcule de la manire suivante :
N
h(n)2 ,
energie(H) =
n=1
o h est la fonction dnombrant le nombre doccurrences des valeurs n dans la carte de saillance
masque. Lnergie dun histogramme va permettre de prfrer les histogrammes qui ont un support resserr, cest--dire quun pic base troite mais haut sera prfr un histogramme plus
tal. La figure 5.3 prsente les distributions de probabilit pour quelques structures, ainsi que pour
la matire blanche qui les englobe. Le critre slectionn permet de prfrer les histogrammes des
structures par rapport celui de la matire blanche.
Le tableau 5.2 prsente les mesures de saillance pour trois structures crbrales, le noyau
caud ( LCN ) le thalamus ( LTH ) et le putamen ( LPU ), ainsi que pour la matire blanche
( LWM ) et la matire grise ( LGM ). Ces mesures (lnergie de lhistogramme) sont toujours
plus grandes pour les trois structures anatomiques que pour les matires. Nous avons cependant
laiss ce critre, qui ne permet pas de dterminer prcisment lordre entre deux distributions
de saillance. La figure 5.4 donnera un exemple de comparaison o la distribution prsentant des
valeurs plus hautes de saillance prsente une nergie infrieure. Nous remplaons ce critre pour
un autre qui utilise une mesure fonde sur la mesure EMD dfinie dans la partie prcdente, et que
nous allons dcrire prsent.
5.1.4.2
Nous souhaitons comparer des rgions entre elles, et pour cela nous souhaitons comparer la
saillance de ces rgions, afin de dterminer laquelle est la plus propice tre segmente un
113
TAB . 5.2 Mesures de saillance (mesure de lnergie dun histogramme de saillance) pour trois
structures anatomiques, la matire blanche (LWM) et la matire grise (LGM) pour toutes les
images de la banque de donnes IBSR. LCN : noyau caud, LTH : thalamus and LPU : Putamen.
LCN LTH LPU LWM LGM
0,065 0,057 0,068 0,026 0,015
0,097 0,064 0,095 0,041 0,020
0,039 0,033 0,042 0,027 0,017
0,050 0,031 0,054 0,026 0,017
0,038 0,028 0,107 0,027 0,018
0,054 0,038 0,099 0,038 0,025
0,039 0,024 0,046 0,023 0,018
0,040 0,026 0,046 0,020 0,014
0,039 0,026 0,061 0,026 0,020
0,045 0,030 0,060 0,027 0,014
0,037 0,025 0,048 0,019 0,011
0,033 0,029 0,032 0,026 0,017
0,037 0,033 0,069 0,031 0,020
0,046 0,030 0,061 0,025 0,017
0,033 0,026 0,044 0,017 0,014
0,032 0,025 0,044 0,022 0,015
0,045 0,032 0,049 0,022 0,020
instant donn du processus et selon les connaissances disponibles cet instant. Pour chacune des
structures, nous calculons un ensemble flou correspondant sa localisation. Le processus de calcul
de ces ensembles flous est dtaill dans une partie suivante.
La prcision de la localisation dune structure dpend de linformation spatiale disponible au
moment o elle est reprsente. Moins il y a dinformation spatiale disponible, et moins la localisation est prcise, et plus la localisation risque dinclure des objets en plus de lobjet recherch.
Or, nous souhaitons comparer la saillance des objets recherchs. La distribution de saillance peut
donc inclure de linformation non pertinente pour juger de la saillance dune structure. Pour cette
raison, la comparaison directe de deux localisations ne permet pas de comparer la saillance des
structures vises.
Notre critre sera donc fond sur deux informations. Nous allons extraire la distribution de
saillance de la localisation dune structure, puis elle est compare :
la distribution moyenne de saillance pour cette structure. Si la localisation est peu prcise
et que dautres objets prsentant des distributions de saillance diffrentes de celle de la
structure vise sont inclus, alors la comparaison avec le modle permet de pnaliser cette
localisation. Elle permet donc destimer la prcision de la localisation ;
aux distributions de saillance des autres localisations. Le but est dordonner les distributions
de saillance et de privilgier la distribution la plus saillante.
La comparaison entre la distribution apprise et la distribution de la localisation seffectue avec
une mesure EMD. Les valeurs sont centres et rduites. La distance est calcule ainsi :
do (loco , modo ) =
o
EM D(loco , modo ) mod
.
modo
(5.2)
o loco reprsente la distribution de saillance issue de la segmentation, modo la distribution ap o la moyenne des distances EMD entre chaque cas de la base et la
prise pour cette structure, mod
114
5. O PTIMISATION
emd(p, q) =
Q[i]|
s(p, q) =
i=1
P [i] Q[i] ,
emd(p, q)
emd(p, q)
si s(p, q) < 0 ,
si s(p, q) 0 .
(5.3)
Cette mesure nous permet de comparer plusieurs distributions, laide de comparaisons deux
deux, afin de dterminer la zone la plus saillante. La figure 5.4 prsente un exemple de comparaison
entre la localisation dun thalamus et la localisation dun putamen. Sur cet exemple, nous pouvons
voir sur lhistogramme de saillance de ces localisations que le pic correspondant au putamen est
lgrement dcal vers des valeurs plus hautes. Cette diffrence se reflte sur les histogrammes
cumuls. La distance EMD entre ces deux distributions est de 0, 017. Si nous souhaitons estimer
la saillance selon notre critre du thalamus, alors nous calculons la distance signe :
EM DS(th, pu) = 0, 017 .
linverse, si nous souhaitons estimer la saillance selon notre critre du putamen, alors nous
calculons la distance signe ainsi :
EM DS(pu, th) = 0, 017 .
115
0.1
1
Thalamus
Putamen
0.09
0.08
0.8
0.07
0.7
0.06
0.6
0.05
0.5
0.04
0.4
0.03
0.3
0.02
0.2
0.01
0.1
10
15
20
25
30
35
40
45
Thalamus
Putamen
0.9
50
10
15
20
25
30
35
40
45
F IG . 5.4 Comparaison entre les histogrammes de saillance des localisations de deux structures,
le thalamus et le putamen au cours dune tape. La distance EMD entre ces deux histogrammes
nous donne une valeur de 0, 017. La distance EMDS nous donnera une valeur de 0, 017 pour le
thalamus et une valeur de 0, 017 pour le putamen, nous permettant de dterminer la distribution la
plus saillante . Lnergie de lhistogramme pour la distribution du thalamus est de 0, 040 alors que
la distribution du putamen prsente une nergie de 0, 037. Le critre reposant sur lnergie donne
donc dans ce cas le rsultat inverse du rsultat souhait, cest--dire la slection de la distribution
la plus saillante .
Le critre de slection :
Cette mesure nous permet donc dobtenir une valeur signe et de pondrer ainsi le critre de
slection c, qui est dfini ainsi :
co = |do |
EM DS(loco , loco )
oVc
{o}
o Vc est lensemble des nuds candidats et o dsigne lobjet dont nous avons calcul la localisation. La comparaison des localisations grce la mesure EMDS permet de pondrer le critre par
la localisation la plus saillante. Dans notre exemple, si la distance EMD dth entre la distribution
de saillance du thalamus avec la distribution moyenne du thalamus est la mme que la distance
EMD dpu entre la distribution de la localisation du putamen et le modle, alors le critre de slection vaut pour le thalamus cth = dth 0, 017 et le critre de slection pour le putamen vaut
cpu = dth + 0, 017. La mesure EMDS nous a donc permis de pondrer la comparaison avec le modle par la localisation la plus saillante. La comparaison avec la distribution moyenne de saillance
tant centre et rduite, les valeurs additionnes ne sont pas similaires. La mesure EMDS est donc
plutt une pondration, lvaluation de la prcision de la localisation tant importante daprs nos
expriences.
50
116
5. O PTIMISATION
faibles, voire trs faibles. Labsence de saillance de ces dernires pathologies vient de leur taille
plutt large et de leur aspect uniforme.
F IG . 5.5 Deux groupes de pathologies avec des valeurs de saillance inverses. Pour chaque
exemple nous prsentons une coupe de limage originale masque par la carte dtiquettes de la
segmentation manuelle ( gauche, sur ces images, la tumeur apparat en violet) et une coupe proche
de la carte de saillance de la mme image ( droite) avec une palette de couleur modifie. Sur la
colonne de gauche sont prsents trois exemples de tumeurs qui gnrent une forte saillance. Sur
la colonne de droite, trois exemples de tumeurs prsentant des valeurs plus faibles de saillance.
Toutes les pathologies ne partagent donc pas les mmes caractristiques de saillance. Parmi
lensemble des tumeurs, certaines ont un impact immdiat sur les noyaux gris (comme les deux
images prsentes sur la ligne suprieure de la figure 5.5. Ces tumeurs dplacent des structures et
entranent de grandes altrations de leur morphologie. Dautres structures ont un impact beaucoup
plus faible, voire nul sur les noyaux gris (il y a bien sr un impact sur dautres parties du cerveau).
Cest le cas pour limage droite sur la ligne centrale de la figure 5.5. Cette pathologie est importante, mais localise sur lavant du cerveau. Le noyau caud et le putamen ne sont pas vraiment
affects par cette pathologie (dformation trs lgre). En revanche, le ventricule de gauche est
dform, et le thalamus est cras.
Dans le cadre de la segmentation squentielle, nous pouvons avoir deux objectifs par rapport
la gestion des pathologies : dtecter la prsence dune pathologie dune part, et utiliser cette
connaissance pour adapter la segmentation des noyaux gris. La segmentation de la tumeur elle-
117
mme nest pas traite dans nos travaux. Pour cela, nous pouvons utiliser les travaux dvelopps
par Khotanlou (2008).
118
5. O PTIMISATION
: dj segmente
: segmenter
Connaissance a priori
Information visuelle
Rsultat
Image
segmenter
Connaissance
gnrique
carte de
saillance
Structures
de rfrences
4
Graphe
modle
1
4
Graphe
spcialis
3
4
Histogramme
de saillance
4
Graphe
filtr
4
Graphe
tape i
2
1
Slction
Histogramme
de saillance
Localisations
Changement
de chemin
Evaluation
Segmentation
dune structure
Mise jour
Graphe
tape i + 1
F IG . 5.6 Schma gnral de lapproche propose qui permet lintgration dun mcanisme prattentionel dans un processus de segmentation squentielle. une tape i, le graphe est filtr pour
ne garder quun graphe bipartite entre les nuds dj segments et les nuds segmenter. Les
relations spatiales portes par les arcs restants sont reprsentes dans lespace de limage. Elles
sont fusionnes pour former le domaine de recherche et fournir la localisation de chaque structure
candidate. Un critre driv de la saillance de ces localisations est utilis pour slectionner la
structure segmenter. La structure peut alors tre segmente partir de linformation spatiale et
de limage originale. Une tape dvaluation intervient ensuite pour dtecter les ventuelles erreurs
de segmentation dune structure. Si la segmentation est suffisante, le graphe peut tre mis jour
avec la segmentation de la structure. Dans le cas inverse, le graphe peut rester en ltat ou une
segmentation existante peut tre supprime, avant de passer la prochaine tape du processus.
Nous rappelons quelques notations ici. Par la suite, nous dsignerons limage originale par I.
Un graphe G = (V, E, Le ) est compos dun ensemble de nuds v V correspondant chacun
une structure crbrale. Il est galement compos dun ensemble darcs binaires e E. Chaque
arc est muni dun interprteur permettant dobtenir lensemble flou correspondant aux relations
spatiales e = Le (e, v1 ) portes par cet arc o v1 est la structure de rfrence pour la relation. Le
graphe utilis dans nos expriences est prsent dans la figure 5.7. Il intgre 9 structures dont la
plupart sont prsentes de manire symtrique dans les deux hmisphres.
linitialisation du processus, nous avons une structure de rfrence. Dans le cas des structures crbrales, le ventricule latral peut tre segment en utilisant une mthode de morphologie
mathmatique par exemple. De plus, sa position centrale et sa taille en font un bon point de rfrence pour les relations spatiales avec les autres structures. Nous utilisons donc les ventricules
latraux (droit et gauche) comme structures de rfrence, disponibles au dbut du processus. Le
troisime ventricule est segment simultanment par la mme procdure et est parfois connect
aux ventricules latraux. Nous lutiliserons comme structure de rfrence galement.
Le choix de cette structure est cohrent par rapport une exploration de limage selon un
119
LVR
LVl
G : gauche
D : droite
H : audessus
B : endessous
Dv : devant
Dr : derrire
D
G
CdR
Cdl
D
D
B H
H B
V3
PuR
G
Pul
H
Dv B
Dr
B
H Dr
Dv
G
D
G
G
ThR
Thl
F IG . 5.7 Le graphe utilis dans nos expriences. Le graphe est orient et les arcs entre deux
nuds sont doubls pour prendre en compte les diffrents chemins de segmentation possibles. Les
relations dorientation entre les structures sont indiques. Nous utilisons galement des relations
de distance entre deux structures. Les structures prsentes sont les suivantes : ventricule latral
(LV), troisime ventricule (V3), thalamus (TH), putamen (PU) et noyau caud (CD).
critre de saillance. En effet, les ventricules sont des structures qui prsentent presque toujours
une forte valeur de saillance ( part dans un cas pathologique o leur grande taille diminue leur
saillance). La figure 5.8 prsente une image et un seuillage de la carte de saillance pour ne conserver que les plus hautes valeurs. Les ventricules apparaissent dans ces valeurs.
F IG . 5.8 Une coupe dune image ( gauche) et le seuillage de la carte de saillance de cette
image. Les ventricules prsentent des valeurs leves de saillance et restent apparents mme aprs
un seuillage qui enlve la plupart de linformation de saillance. Ces structures sont donc indiques
pour dbuter une exploration de limage selon un critre de saillance.
Nous allons prsent prsenter lapproche de segmentation squentielle, en considrant une
tape donne du processus.
120
5. O PTIMISATION
distincts : V = Vseg Vobj . Nous avons dabord lensemble Vseg des nuds segments, que ce
soit une structure de rfrence ou une structure segmente au cours du processus. Nous avons
galement lensemble complmentaire Vobj des nuds objectifs , cest--dire les nuds qui ne
sont pas encore segments.
prsent que ces deux ensembles sont dfinis, nous souhaitons maintenant exprimer la reconnaissance et la segmentation dune structure crbrale comme lensemble des oprations ncessaires pour transfrer un nud v de lensemble des nuds objectifs vers lensemble des nuds
segments. ltape i nous avons :
i
i1
Vseg
= Vseg
{
vi } ,
et
i1
i
= Vobj
Vobj
{ vi } ,
121
111
000
000
111
000
111
000
111
000
111
LVl
Vfs
000
LVl 111
111
000
000
111
000
111
000
111
000
111
D
G
Cdl
D
Cdl
V3
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
B H
Pul
H
Dv B
Dr
G
V3
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
Vfo
G
D
Thl
Thl
Graphe filtr
F IG . 5.9 Le graphe filtr lors de la premire tape du processus. Nous navons reprsent ici
que les structures de la partie gauche du cerveau par simplicit mais les structures de la partie
droite sont prsentes galement cette tape. Lensemble Vf s est compos du ventricule latral
et du troisime ventricule (ces nuds sont griss sur la figure). Lensemble Vf o est compos du
noyau caud et du thalamus. Seul les arcs issus des structures segmentes vers les structures non
segmentes sont conservs et forment lensemble Ef .
de lensemble Vf o des nuds en relation avec Vf s ;
des critres permettant la slection du nud, drivs de la saillance, que nous allons prsenter par la suite ;
et des relations spatiales Ef existant entre les deux groupes de nuds du graphe (segments
et segmenter).
Cela scrit :
i1
i
i1
, Vobj
, salI , I, Efi1 ) ,
= seqseg(Vseg
Vseg
o i indique ltape courante.
122
5. O PTIMISATION
nous ne disposons que dune relation dorientation pour une structure, alors la zone de limage
o cette relation sera satisfaite est grande par rapport la structure. Mais si cette zone est lie
une relation de distance, alors la localisation de la structure sera beaucoup plus prcise. La figure
5.10 sur la ligne du haut prsente un exemple de la reprsentation dune relation dorientation (
gauche), et lensemble flou ( droite) correspondant la fusion entre cette reprsentation et une
relation de distance (au centre). La localisation de la relation est beaucoup plus prcise dans ce
dernier cas, mme si elle reste grande par rapport la taille de la structure.
Pour chaque arc e contenu dans Ef , un interprteur darc Le produit la reprsentation de
chaque relation spatiale prsente sur cet arc. Linterprteur darc agit comme une fonction permettant dindiquer quelles relations sont prsentes sur larc, parmi toutes les relations spatiales
possibles dans le modle, et dobtenir lensemble flou correspondant. Si la relation est prsente,
alors sa reprsentation est gnre, avec des paramtres gnriques pour le type de relation. Larc
contient galement pour chaque relation spatiale lintervalle flou issu de lapprentissage pour cet
arc (le couple de structures). Lintervalle flou est alors appliqu la reprsentation de la relation spatiale pour gnrer la reprsentation exacte pour cette relation pour le couple de structures
relies par larc.
Une fois les relations spatiales portes par un arc reprsentes dans lespace de limage, nous
pouvons fusionner toutes ces reprsentations pour obtenir un ensemble flou reprsentatif de linformation spatiale porte par cet arc e de manire conjonctive :
eRel = re re ,
o est une t-norme (Dubois et Prade (1980)).
Pour chaque nud candidat v, sa localisation spatiale estime est dfinie par la fusion des
ensembles flous reprsentant chaque arc ayant ce nud pour cible. Le nud cibl appartient
lensemble Vf o . La localisation est calcule ainsi :
locv = e(A(v)Ef ) (eRel ) ,
o est une t-norme, et A(v) reprsente les arcs ayant le nud v pour cible. La figure 5.10
prsente le processus permettant dobtenir la localisation de deux structures la premire tape.
123
proche du ventricule
droite du ventricule
droite du 3me
ventricule
proche du 3me
ventricule
en-dessous du ventricule
V 3 T H
LV T H
distance au ventricule
V 3 T H
LV T H
localisation thalamus
F IG . 5.10 Reprsentation des relations spatiales. En haut, les relations portes par larc entre
le ventricule (LV) et le noyau caud (CN). La fusion ( droite) donne la localisation du noyau
caud (qui nest pas connect une autre structure disponible cette tape). Les deux lignes
suivantes montrent les reprsentations des relations spatiales respectivement sur larc entre le 3me
ventricule (V3) et le thalamus (TH), et sur larc entre le ventricule et le thalamus (en vue sagittale).
Les ensembles flous issus de ces deux arcs sont fusionns pour donner la localisation du thalamus
(ligne du bas). Le troisime ventricule est situ en-dessous du ventricule latral.
124
5. O PTIMISATION
1i (saillancev (x)) ,
xS
o 1(.) reprsente la fonction indicatrice. Des exemples de ces histogrammes sont prsents dans
la figure 5.12.
125
Masquage des localisations par la saillance :
Carte
de saillance
Histogrammes de saillances :
0.1
0.1
LCN localisation
LTH localisation
0.09
0.1
LCN localisation
LCN modele
0.09
0.08
0.08
0.08
0.07
0.07
0.07
0.06
0.06
0.06
0.05
0.05
0.05
0.04
0.04
0.04
0.03
0.03
0.03
0.02
0.02
0.02
0.01
0.01
10
20
30
40
50
60
Saillance
70
80
90
comparaison entre
localisations
100
LTH localisation
LTH modele
0.09
0.01
10
20
30
40
50
60
Saillance
70
80
90
LCN : localisation et
modle
100
10
20
30
40
50
60
Saillance
70
80
90
100
LTH : localisation et
modle
Histogrammes cumuls :
1
1
LCN localisation
LTH localisation
0.9
1
LCN localisation
LCN modele
0.9
0.8
0.8
0.8
0.7
0.7
0.7
0.6
0.6
0.6
0.5
0.5
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
10
20
30
40
Saillance
comparaison entre
localisations
50
LTH localisation
LTH modele
0.9
0.1
0
10
20
30
40
Saillance
LCN : localisation et
modle
50
10
20
30
40
50
Saillance
LTH : localisation et
modle
F IG . 5.12 Masquage des localisations par la carte de saillance (en haut gauche) et slection
de la localisation la plus saillante selon le critre retenu. Les deux localisations (noyau caud et
thalamus) sont directement compares (histogrammes gauche, la localisation du noyau caud
est plus saillante selon la mesure emds avec une valeur de 0, 0084). Ici, ces deux localisations
sont proches et se chevauchent en partie, ce qui explique la proximit des histogrammes. Chaque
histogramme est ensuite compar au modle appris pour cette structure (histogramme au centre
pour le noyan caud avec une valeur de 0, 089 et histogramme de droite pour le thalamus avec
une valeur de 0, 791). Dans cet exemple, le noyau caud sera slectionn avec une mesure de
0, 076 qui est le minimum parmi les 4 localisations concernes cette tape du processus.
126
5. O PTIMISATION
oVc
{o}
EM DS(loco , loco ) .
(5.4)
La figure 5.12 prsente deux localisations dont nous avons calcul les histogrammes de saillance,
reprsentant respectivement le noyau caud et le thamalus gauche. Nous allons calculer le critre
permettant de slectionner une localisation parmi les deux. Dans lexemple choisi, il y a en fait 4
structures candidates, mais nous ne prsenterons que les histogrammes et les localisations de deux
de ces structures, dans le mme hmisphre.
Nous allons dabord comparer chacune des distributions de saillance avec le modle appris
pour la structure concerne selon le critre prsent par lequation 5.2 :
dmodlcn =
lcn
EM D(loclcn , modlcn ) mod
= 0, 089 ,
modlcn
(5.5)
lth
EM D(loclth , modlth ) mod
= 0, 791 .
modlth
(5.6)
et
dmodlth =
Nous pouvons voir ici que la distribution du noyau caud gauche est plus proche du modle que
la distribution du thalamus gauche, une fois les valeurs centres et rduites.
Nous allons ensuite comparer les localisations entre elles selon la mesure EMDS prsente par
lequation 5.3 :
emds(loclcn , loclth ) = 0, 0084 ,
(5.7)
et
emds(loclth , loclcn ) = 0, 0084 .
(5.8)
La localisation du noyau caud gauche est donc juge plus saillante que la localisation du thalamus
selon ce critre.
Pour chacune des localisations, nous ajoutons cette dernire valeur la comparaison aux autres
structures candidates, cest--dire le noyau caud droit et le thalamus droit dans ce cas. Nous
obtenons les valeurs suivantes :
dinterlcn =
(5.9)
(5.10)
vVf o lcn
et
dinterlth =
vVf o lth
127
Nous pouvons voir ici que la localisation du noyau caud est juge plus saillante que la moyenne
des structures candidates (valeur positive). Par contre, la localisation du thalamus est moins saillante
que les autres.
La slection seffectue donc sur ces valeurs :
cl oclcn = |dmodlcn | dinterlcn = 0, 089 0, 013 = 0, 076 ,
(5.11)
(5.12)
Nous allons donc slectionner le critre minimum, cest--dire le noyau caud dans ce cas.
La slection du nud permet de segmenter lobjet. La segmentation peut tre exprime comme
une fonction de lobjet slectionn selon le critre driv de la saillance v, en fonction des relations
spatiales avec les objets dj segments et en relation avec le nud segmenter, et de limage
originale :
segv = segment(
v , locv , I) .
(wm + gm )
.
2
Les paramtres et pour chaque noyau gris sont dtermins par apprentissage sur une base
de donnes : si nous disposons de la segmentation des structures dune image c, alors nous pouvons
calculer les paramtres c et c partir des caractristiques des matires de limage, et des niveaux
de gris de chacune des structures. Nous pouvons ainsi estimer les paramtres et pour la base
complte. Dans Poupon et al. (2008), le paramtre est une moyenne des c calculs sur chaque
image. Le paramtre est le maximum des valeurs c calcules pour chaque image.
o = o
128
5. O PTIMISATION
Nous avons effectu une nouvelle estimation de ces paramtres avec notre base dapprentissage. La figure 5.13 prsente les valeurs obtenues pour le noyau caud. Deux nuages de points sont
affichs. Le premier correspond aux valeurs constates avec les images originales. Le deuxime
correspond aux valeurs calcules partir dimages dont nous avons corrig lhtrognit du
champ par la mthode dcrite par Mangin (2000). Ces images sont utilises dans le processus de
segmentation. Les nuages de points montrent une certaine dispertion des valeurs entre 0, 1 et 0, 45
pour , et entre 0, 45 et 1, 4 pour .
2
corrigee
sans correction
moyenne corrigee
moyenne ss corrections
1.8
1.6
1.4
Beta
1.2
1
0.8
0.6
0.4
0.2
0
0.1
0.2
0.3
0.4
0.5
Alpha
0.6
0.7
0.8
0.9
F IG . 5.13 Les valeurs de c et c pour chaque cas sain de notre base dapprentissage, et pour
le noyau caud. Lapprentissage a t effectu avec les images originales et avec des images dont
le biais a t corrig. Ces dernires images sont utilises dans le processus de segmentation. Les
moyennes obtenues avec notre base et avec les images originales sont proches des valeurs indiques dans (Poupon et al. (2008)).
Le tableau 5.3 prsente les valeurs des paramtres et appris sur notre base, ainsi quune
comparaison avec les valeurs fournies par Poupon et al. (2008). Les valeurs apprises partir des
images originales sont assez proches de ces dernires valeurs, alors que celles calcules avec les
images corriges sont un peu plus loignes.
TAB . 5.3 Comparaison des valeurs et apprises sur notre base pour chacune des structures
avec les valeurs prsentes par Poupon et al. (2008). Les valeurs apprises avec les images originales sont assez proches des valeurs initiales. Il y a plus de diffrences avec les images corriges.
Structure :
Noyau caud
Thalamus
Putamen
Globus Pallidus
Accumbens
0,305
1,328
0,633
1,374
0,508
1,072
0,945
0,926
0,265
1,016
Img. Originales
0,305 1,675
0,617 1,899
0,539 1,210
Avec corrections
0,244
1,398
0,578
1,585
0,527
1,023
Nous avons galement effectu un apprentissage en sparant les images de la base IBSR, les
images de la base OASIS et les images des cas pathologiques. Le tableau prsente les valeurs obtenues avec des images corriges, pour les trois ensembles dimages. Nous utiliserons ces dernires
valeurs dans nos expriences.
129
TAB . 5.4 Comparaison des valeurs et apprises pour chacun des ensembles de la base (IBSR,
OASIS et les cas pathologiques).
IBSR
Structure :
Noyau caud
Thalamus
Putamen
0,216
0,557
0,545
1,208
1,586
0,976
OASIS
0,278 1,398
0,606 1,152
0,505 1,024
Cas Pathologiques
0,303
1,693
0,592
1,483
0,485
1,341
image
P (x CN )
P (x T H)
P (x P U ))
F IG . 5.14 Carte dappartenance trois structures crbrales : le noyau caud (CN), le thalamus
(TH) et le putamen (PU). Les valeurs (, ) utilises pour chacune des structures sont les suivantes : pour le noyau caud (0, 305; 1, 328), pour le thalamus (0, 633; 1, 374) et pour le putamen
(0, 508; 1, 072).
130
5. O PTIMISATION
carte dappartenance
ouverture morphologique
zone dintrt
Segmentation initiale
Segmentation finale
Fint (S) = 2 S 2 (2 S)
(5.13)
(5.14)
131
et o Fext est la force externe qui attire la surface vers les contours de lobjet recherch. La force
externe est une combinaison de deux forces :
Fext (S) = FC + FR
(5.15)
o FC est une force dattache aux donnes drives dun Gradient Vector Flow (Xu et Prince
(1998)). La force FR est une force drive des relations spatiales utilises pour dfinir la rgion
dintrt. Pour chacune des structures segmenter, nous utilisons les mmes paramtres dvolution pour ce modle dformable.
Cette mthode de segmentation ncessite que la rgion dintrt, dfinie par les relations spatiales, soit prcise. Si elle est trop restrictive, alors une partie de lobjet ne pourra pas tre segmente. Dun autre ct, si elle est trop large, alors lidentification de la composante ne peut plus
seffectuer uniquement par la taille. De tels problmes peuvent apparatre dans notre cas lorsque
nous utilisons le rsultat des segmentations prcdentes pour estimer la rgion dintrt et pas uniquement des structures de rfrence. Nous verrons dans la prochaine partie comment nous pouvons
essayer de prendre en compte ce type de problme.
Dautres problmes (dcrits dans Colliot (2003)) peuvent survenir :
lorsque la carte dappartenance ne permet pas de faire apparatre clairement la structure,
car louverture morphologique risque de faire disparatre tout ou partie de la composante
correspondant lobjet recherch,
ou au contraire, lorsque louverture morphologique ne permet pas de sparer des composantes correspondant diffrents objets de manire automatique (une mthode base de
ligne de partage des eaux est propose).
Nous allons voir prsent comment nous pouvons valuer le rsultat dune segmentation.
132
5. O PTIMISATION
Pas de segmentation
Tout dabord, il est possible quaucune segmentation ne soit possible, et cela pour deux raisons :
soit la localisation a t mal dfinie, et est trop restrictive,
soit la carte dappartenance est insuffisante, mais ce problme est intrinsque la mthode
de segmentation. La carte dappartenance a t dcrite dans la partie 5.2.7.
Nous navons pas de critre permettant de sparer ces deux cas. Une localisation est meilleure
si elle est plus prcise, donc plus restrictive quune autre. Mais si elle est trop restrictive, alors
la segmentation peut chouer. valuer la pertinence dune localisation ncessite un a priori sur la
taille de la structure vise, ce que nous ne possdons pas. Fixer un seuil de taille peut galement
tre hasardeux. De plus, mme si la localisation a la taille de la structure, cela ne signifie pas que la
structure est comprise, tout ou partie, dedans. La segmentation dune structure est donc effectue
sans valuation de la localisation au pralable.
Si la segmentation a chou, alors nous pouvons uniquement mettre lhypothse que la segmentation dune structure parente a donn une localisation trop restrictive. Sil y a une structure
parente, alors nous supprimons sa segmentation, et nous lempchons dtre segmente de nouveau en ltat.
Si la structure parente nexiste pas, alors dans ce cas, la structure a t segmente partir des
structures de rfrence et le problme ne provient pas de la dfinition de la localisation. Dans ce
cas, nous souhaitons galement contraindre le processus utiliser un autre chemin, afin de laisser
au processus la possibilit de segmenter nouveau cette structure une fois que nous aurons acquis
plus dinformation sur sa localisation.
133
Segmentation de O
Il y a une segmentation ?
non
oui
Cohrence
spatiale
invalide
valide
Trouver la
segmentation
parente P
elle existe
Supprimer la
segmentation de P
Evaluation
invalide
Empcher
O dtre resegment
dans ces conditions
valide
Accepter la
segmentation de O
Mise jour
du graphe
Empcher
P dtre resegment
dans ces conditions
Itrer le processus
Il y a une segmentation
Si nous avons obtenu une segmentation, nous souhaitons faire une estimation de la qualit de
cette segmentation. Mais, puisque nous ne souhaitons pas utiliser les reprsentations des structures,
cette valuation ne doit pas non plus reposer sur une comparaison avec un modle morphologique
de cette structure par exemple.
Nous proposons deux critres pour valuer le rsultat de la segmentation obtenue. Le premier critre value la cohrence spatiale du modle aprs la segmentation. Le deuxime critre
repose sur lapprentissage de la saillance pour la structure segmente. Ce critre est une mesure
intrinsque de la segmentation (une attache aux donnes).
valuation de la cohrence du modle spatial :
Afin de pouvoir valuer la cohrence du modle, nous pouvons nous reposer sur les reprsen-
134
5. O PTIMISATION
tations des relations spatiales qui sont dj dans le modle, et sur les relations que la nouvelle
segmentation permet de reprsenter. Ces dernires visent aussi bien des structures non segmentes
que des structures dj segmentes.
La structure qui vient dtre segmente se situe ncessairement dans la localisation dfinie par
les relations spatiales visant cette structure. Ces relations spatiales napportent donc pas dinformation sur la cohrence du modle. Dun autre ct, les relations issues de la structure qui vient
dtre segmente et pointant vers des structures dj segmentes (donc les relations inverses de
celles qui ont t utilises pour sa segmentation), peuvent nous fournir une information.
Nous proposons donc dvaluer, laide dune mesure de satisfaction floue introduite dans
le chapitre prcdent, si les relations inverses sont satisfaites par la segmentation. La mesure de
satisfaction fs est dfinie ainsi (Bouchon-Meunier et al. (1996)) :
fs (Rel, Obj) =
xS
(5.16)
o S dsigne lespace de limage. Cette mesure sera maximale si la structure reprsente par obj
est situe dans le noyau de la relation reprsente par rel . En particulier, cette satisfaction sera
trs faible si une segmentation est trs petite par rapport la structure vise. Cela peut se produire
lorsquune segmentation prcdente a reconnu la mauvaise structure. Nous utilisons pour ce critre
un seuil qui a t fix exprimentalement 0, 5.
Nous illustrons cet exemple dans la figure 5.17. Dans ce cas, la segmentation du thalamus,
effectue en premier, a chou. La carte binaire utilise (sur limage de gauche) inclut les autres
structures qui sont de plus connectes. La segmentation slectionnant la plus grande composante,
celle correspondant au thalamus, est supprime et le noyau caud et le putamen sont reconnus
comme tant le thalamus. La comparaison des histogrammes de saillance ne permet pas dans
ce cas de dtecter le problme. La segmentation du noyau caud qui est effectue juste aprs
donne une segmentation quasi vide (quelques pixels). Les relations spatiales issues du noyau caud
vers le thalamus sont alors reprsentes, permettant de calculer la satisfaction floue entre cette
reprsentation et la segmentation du thalamus. La satisfaction dans ce cas donne une valeur de 0,
ce qui permet de dtecter un problme. Dans ce cas, la segmentation du thalamus sera supprime,
ce qui permettra de segmenter le noyau caud avant le thalamus.
Comparaison de la saillance de la segmentation :
La comparaison des histogrammes de saillance est une mesure indicative, car elle ne compare
pas une caractristique particulire de la structure. La distribution de saillance apprise pour une
structure nous donne plutt une valuation de laspect visuel dune structure au sens de la saillance.
En ce sens, cela permet de grer la variabilit naturelle des structures anatomiques. Mais cela ne
garantit pas de dtecter un problme de segmentation, en particulier cela ne nous donne pas une
valuation de la prcision de la segmentation. Cependant, cette nous permet dobtenir une attache
aux donnes.
Pour cela, nous avons besoin dun histogramme de saillance dfini partir du rsultat de la
segmentation. Cet histogramme est dfini ainsi :
saillanceseg = (segv , salI ) ,
(5.17)
o salI est la carte de saillance de limage que nous explorons et segv reprsente la carte binaire
de la segmentation. Lhistogramme de cette zone sera dfini avec le mme niveau de quantification
que prcdemment (N = 100) de cette manire :
1(saillanceseg (x)) ,
Hv [i] =
xS
135
o
EM D(sego , modo ) mod
.
modo
o sego reprsente la distribution de saillance issue de la segmentation, modo la distribution ap o la moyenne des distances EMD entre chaque cas de la base et la
prise pour cette structure, mod
distribution moyenne pour cette structure, et modo lcart-type de ces distances.
Les donnes tant centres et rduites, nous pouvons fixer un unique seuil pour toutes les
structures T = 2modo , considrant quun cart suprieur deux fois lcart type de la distribution
nest plus acceptable.
Dcision :
Dans le cas o nous avons une segmentation, nous avons donc deux critres. Nous allons commencer par regarder si la cohrence spatiale est respecte. Si ce nest pas le cas, alors nous supprimons la structure parente considre comme responsable de lincohrence constate. La cohrence est mesure uniquement sur larc entre la structure et sa structure parente, si elle existe. Si
elle nexiste pas, alors la cohrence nest pas prise en compte.
136
5. O PTIMISATION
Nous regardons ensuite la distance entre les distributions de saillance, laide du seuil que
nous avons dfini. Si la distance est suprieure au seuil, alors la segmentation est refuse et la
structure ne pourra tre segmente de nouveau sans informations supplmentaires.
Enfin, si les distributions sont suffisamment proches, alors la segmentation est accepte et le
graphe peut tre mis jour avec cette segmentation.
5.2.8.3
Si une segmentation choue, et quil ny a pas de structure parente blmer pour cela, alors
il est possible que la structure concerne ne puisse tre segmente de nouveau quavec les mmes
conditions, cest--dire en suivant le mme chemin. Dans ce cas, la segmentation de cette structure
a chou, et il nest plus possible de la segmenter.
5.2.8.4
Structure de contrle
Une fois la segmentation de lobjet valide, il faut prsent mettre jour le graphe. Tout
dabord, il faut mettre jour le nud reprsentant la structure qui vient dtre segmente. Le
137
R
CDr
CDr CDl
THr
THr
X
THl
THr
THl
CDr
X
THr
THl
PUl
CDr
CDr
THr
CDl THr
PUr THl
CDr
THr PUl
F IG . 5.18 Larbre de contrle au cours du processus. Les structures notes en bleu sont les structures segmentes prsentes dans larbre. Les structures en rouge indiquent une segmentation qui
a chou. Les structures en noir reprsentent les structures dont la segmentation a chou ou dont
la segmentation a t supprime. 1) Les deux premires tapes ( gauche) : le noyau caud droit
a t segment, puis la segmentation du thalamus choue cause de la cohrence spatiale, ce qui
provoque la suppression de la segmentation de sa structure parente, le noyau caud. 2) Au cours
des deux tapes suivantes, le noyau caud gauche puis le thalamus gauche sont correctement segments. 3) Le thalamus droit est ensuite segment. Il faut noter que le noyau caud droit nest pas
segmentable cet instant, mais que la segmentation du thalamus va rendre possible sa segmentation. Mais la segmentation choue et la segmentation du thalamus est supprime. 4) Le putamen
gauche est segment correctement. 5) La premire segmentation du noyau caud droit est rtablie,
afin de permettre au processus dexplorer la branche manquante de cet arbre. La segmentation du
putamen droit est effectue correctement, puis le thalamus droit finalement.
nud ne reprsente donc plus uniquement la connaissance gnrique mais contient galement
linformation de limage.
Une fois le nud mis jour, nous pouvons mettre jour les arcs issus de ce nud. Sur chacun de ces arcs, nous gnrons les reprsentations des relations spatiales portes par cet arc. Ces
reprsentations seront utilises ensuite pour calculer les localisations des structures voisines (ou
uniquement les prciser si elles taient dj connectes un nud prcdemment segment. La
figure 5.19 ( droite) montre comment la localisation dune structure (le thalamus) est prcise
aprs segmentation du noyau caud.
Il est galement ncessaire de mettre jour les nuds viss par ces arcs. En effet, ltape
dvaluation de la segmentation, nous pouvons tre amens contraindre le modle ne pas segmenter de nouveau une structure tant quune nouvelle information (spatiale) nest pas disponible.
Si une segmentation est accepte, alors cela constitue une information nouvelle pour les nuds
voisins. Ils peuvent donc tre segments nouveau, et la restriction est leve.
Enfin, il est ncessaire de mettre jour les ensembles de nuds utiliss au cours du processus :
lensemble des nuds segments Vseg reoit le nud v et lensemble des nuds objectifs Vobj est
priv de ce nud. Dans la continuation de notre exemple, le graphe de la figure 5.9 mis jour est
illustr par la figure 5.19 gauche.
Les ensembles Vf s et Vf o sont galement mis jour. Dun ct, tous les nuds de Vf s qui ne
sont plus connects au moins une structure non segmente (dans lensemble Vobj ) sont supprims
de cet ensemble. Dun autre ct, il faut ajouter dans Vf o tous les nuds de Vobj qui ntaient pas
dj dans cet ensemble et qui sont prsent relis un nud segment. Lensemble des arcs Ef
est mis jour partir des ensembles Vf s et Vf o .
Lexploration de la scne consiste donc slectionner squentiellement les emplacements pr-
138
5. O PTIMISATION
111
000
000
111
000
111
000
111
000
LVl 111
D
G
V3
111
000
000
111
000
111
000
111
000
111
Cdl
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
B H
Pul
H
Dv B
Dr
G
Thl
Localisation du
Localisation du
Graphe mis jour la fin de ltape i thalamus ltape thalamus ltape
i+1
i
F IG . 5.19 Mise jour du graphe. Aprs segmentation du noyau caud, il est ajout dans les
structures segmentes (les structures grises dans le graphe gauche). Le thalamus est toujours
dans lensemble des nuds Vf o candidats une segmentation. Le putamen, qui ntait reli
aucune structure segmente, est maintenant plac dans cet ensemble. La mise jour du graphe
permet de prendre en compte linformation recueillie sur limage au cours du processus. gauche,
la localisation du thalamus la premire tape est estime partir des relations au ventricule et
au troisime ventricule. droite, la localisation du thalamus mise jour aprs segmentation du
noyau caud (en vert) est plus prcise (cest--dire moins tendue) grce la prise en compte des
relations spatiales entre le noyau caud et le thalamus dans ce cas.
sentant les meilleures saillances au sens du critre retenu, cette slection permet la segmentation
et la reconnaissance immdiate dun objet du modle gnrique (lobjet segment tant identifi). Le graphe, qui ne porte au dpart quune connaissance gnrique est donc progressivement
spcialis avec linformation de limage qui est segmente. Cette approche ne dpend pas dune reprsentation des objets que nous devons reconnatre, comme ctait le cas de la premire approche
prsente. Enfin, cette approche nous permet de directement prendre en compte de linformation
provenant de limage segmenter, et donc une meilleure adaptation, plutt que de compter sur une
exhaustivit du modle.
5.3 Expriences
Nous avons effectu la segmentation des images dans le cas sain. Nous allons dabord dtailler
le droulement du processus pour un volume particulier. Nous prsentons ensuite les rsultats sur
un ensemble dimages en nous intressant tout dabord aux diffrentes squences de segmentation
obtenues, puis nous prsentons des rsultats de segmentation sur la base de cas sains.
139
Noyau caud droit
Thalamus droit
Putamen droit
Thalamus gauche
Noyau caud gauche
Putamen gauche
Nous pouvons remarquer que le chemin suivi dans lhmisphre droit nest pas le mme que
le chemin suivi dans lhmisphre gauche. Cependant, comme le montrent les histogrammes de
saillance prsents dans la figure 5.20, les localisations entre le noyau caud et le thalamus produisent des distributions de saillance trs proches. Le choix de lun ou lautre repose donc sur de
petites diffrences. La raison principale pour laquelle les localisations entre ces deux structures
sont proches est quelles sont en grande partie confondues car elles reposent principalement toutes
les deux sur les relations issues de la mme structure (le ventricule), qui est grand par rapport aux
deux structures.
La figure 5.20 prsente la premire tape qui dbouche sur la segmentation du noyau caud
droit. En haut de la figure, nous pouvons voir le graphe initial. Les nuds candidats la segmentation Vf o sont reprsents en vert, et les structures de rfrence en bleu (Vf s la premire tape).
Les structures de rfrence apparaissent galement en bleu sur limage gauche du graphe. La
connaissance spatiale utilise cette tape est porte par les arcs reprsents en rouge.
Les localisations des quatre structures candidates sont gnres. Elles sont reprsentes sur
la deuxime ligne de la figure. Les structures de rfrence sont toujours reprsentes en bleu.
La structure dont nous calculons la localisation a t ajoute en vert sur la localisation afin de
permettre une estimation de la prcision de cette localisation.
Les histogrammes de saillance et les histogrammes cumuls correspondants sont ensuite calculs. La structure segmenter est slectionne daprs le critre de saillance. La segmentation
obtenue est prsente en rouge sur limage en bas gauche de la figure. Cette segmentation est
correcte. Le graphe est alors mis a jour. Le noyau caud droit est ajout dans Vf s , le putamen est
ajout dans Vf o . Lensemble darcs Ef est mis jour en supprimant larc entre le ventricule et le
noyau caud droite, et en ajoutant larc entre le noyau caud et le putamen.
Les figures 5.21 et 5.22 prsentent les tapes suivantes du processus. Pour chacune, nous
prsentons trois lments : tout dabord les localisations calcules ou mises jour. Celles qui
sont identiques ltape prcdente, si aucune nouvelle information nest intervenue, ne sont pas
reportes ; ensuite, la segmentation effectue cette tape ; et enfin le graphe mis jour.
Enfin, la segmentation finale obtenue est prsente en bas de la figure 5.22, et dans deux
vues diffrentes. La segmentation des noyaux cauds est bonne. La segmentation des thalamus est
presque correcte. Il manque un morceau du thalamus de gauche. La segmentation des putamens
est moins correcte. Il manque dans les deux cas la queue du putamen, qui est assez fine et difficile
obtenir.
140
5. O PTIMISATION
Premire tape :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Segments
Thr
Thl
Candidats
Graphe i = 0
structures segmentes
Localisations :
Thalamus droit
0.08
Thalamus gauche
1
0.9
RCN
RTH
LCN
LTH
0.07
0.06
RCN
RTH
LCN
LTH
0.8
0.7
0.05
0.6
0.04
0.5
0.4
0.03
0.3
0.02
0.2
0.01
0
0.1
10
20
30
40
50
Saliency
60
70
80
90
100
histogrammes de saillance
10
15
20
25
Saliency
35
40
45
50
histogrammes cumuls
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Thr
Segmentation
30
Segments
Thl
Candidats
Graphe i = 1
F IG . 5.20 Premire tape du processus de segmentation squentielle. Le graphe initial est prsent en
haut. Les arcs utiliss cette tape sont en rouge. Les localisations des structures candidates sont prsentes
en-dessous, lensemble flou correspondant apparat en blanc, et la structure correspondante t ajoute
(en vert). Les histogrammes de saillance sont trs proches, mais les localisations se chevauchent en grande
partie. La structure segmente est le noyau caud droit (en rouge). Le graphe mis jour est prsent en bas.
Le putamen droit est ajout aux structures candidates.
141
Deuxime tape :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Segments
Thr
Thalamus droit
Candidats
Graphe i = 2
Segmentation
Putamen droit
Thl
Troisime tape :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Segments
Thr
Putamen droit
Thl
Candidats
Graphe i = 3
Segmentation
Quatrime tape :
Cnl
Cnr
Lvr
Lvl
Pur
Pul
3v
Thr
Noyau caud
gauche
Thalamus gauche
Segmentation
Segments
Thl
Candidats
Graphe i = 4
F IG . 5.21 Les tapes 2 4 du processus. Seuls les ensembles flous des localisations mises
jour sont prsents. Le graphe mis jour chaque tape est prsent sur la droite. Les structures
segmentes sont le thalamus droit, puis le putamen droit et le thalamus gauche.
squence de segmentation, la premire structure reconnue est le noyau caud (en utilisant les relations spatiales issues du ventricule latral). La deuxime structure est le thalamus, qui profite de
linformation spatiale provenant de 3 structures, le ventricule, le troisime ventricule et le noyau
caud. Enfin, le putamen, qui profite des relations issues des deux structures dj segmentes : le
noyau caud et le thalamus. Le deuxime chemin est proche, il y a juste une inversion entre le
noyau caud et le thalamus. A chaque tape, avec ces deux chemins, linformation spatiale utilise
provient dau moins deux structures.
Cela nest pas le cas avec les deux autres chemins, qui sont galement beaucoup moins fr-
142
5. O PTIMISATION
Cinquime tape :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Segments
Thr
Noyau caud
gauche
Putamen gauche
Thl
Candidats
Graphe i = 5
Segmentation
Sixime tape :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Thr
Putamen gauche
Segmentation
Segments
Thl
Candidats
Graphe i = 6
Segmentation finale :
F IG . 5.22 Les deux dernires tapes (5 et 6). Les structures segmentes sont le noyau caud
gauche et le putamen gauche. La segmentation de limage est prsente en bas dans deux vues
diffrentes : axiale et coronale.
quents. Dans ce cas, la segmentation du putamen, en deuxime position, seffectue avec de linformation spatiale issue dune unique structure. Plus une localisation utilise dinformation provenant
de diffrentes structures, plus la disjonction va rduire la localisation. Dans notre cas, cela signifie
que la localisation est plus prcise. Les rsultats montrent que les chemins plus prcis sont privilgis aux autres chemins. Cet effet nest pas directement li au critre de saillance. Cependant, il
est prfrable davoir des chemins plus prcis, ce rsultat est donc satisfaisant.
143
Plus gnralement, nous avons une certaine variabilit dans les chemins suivis. Il y a galement
une variabilit entre les deux hmisphres, la premire structure segmente tant slectionne dans
un ct ou un autre avec une frquence similaire. Il y a principalement deux facteurs pour la
slection des structures :
la morphologie des structures de rfrence, utilises pour calculer les localisations des premires structures ;
et la saillance de ces localisations.
Dans les deux cas, nous tenons compte des informations de limage pour effectuer le choix, ce qui
tait un objectif de cette approche.
Changements de chemin au cours du processus :
Nous prsentons dans les tableaux 5.6 et 5.5 les occurrences o le processus a dtect un problme au cours du processus, et a d changer de chemin. La dtection dun problme dans limage
ne signifie pas que la segmentation finale sera errone, mais uniquement que le chemin initial na
pas permis deffectuer la segmentation complte, et quil a t ncessaire de ladapter au cours du
processus.
Le premier tableau donne la rpartition du type de problme dtect, identifi par le critre
correspondant. Les chiffres proviennent de la segmentation des 30 cas sains de la base. Au cours
de lensemble des processus de segmentation de ces images, 195 segmentations ont t initialement acceptes, alors que 38 segmentations ne lont pas t. Parmi les segmentations acceptes,
certaines seront supprimes a posteriori si elles sont dsignes responsable de lchec dune segmentation ultrieure sur laquelle elles ont une influence. Dans la grande majorit des cas, cest le
critre de cohrence spatiale qui a t utilis pour rejeter une segmentation. Cependant ce critre
est le premier critre test et sil nest pas satisfait, alors le critre de saillance nest pas test. Ce
rsultat montre tout de mme la pertinence de ce critre. Le critre sur les distributions de saillance
est ensuite peu utilis.
TAB . 5.5 La rpartition des problmes dtects au cours du processus et qui ont men un
changement de chemin. Dans la grande majorit des cas, cest le critre de cohrence spatiale qui
a dtect le problme. Le critre de saillance nest presque jamais utilis. Il y a peu de cas o
aucune segmentation nest produite.
segmentation initialement accepte
195
critre de saillance
2
segmentation refuse pas de segmentation
5
cohrence spatiale
31
Le deuxime tableau indique une rpartition des images en fonction du nombre de changements de chemin effectus, et cela en diffrenciant les images de la base IBSR et celles de la base
OASIS. Pour la plupart des images, il ny a pas ou peu (1) de changements de chemin ncessaires. Pour certaines images, le chemin ncessite plus dadaptations. Le nombre de changements
effectus permet ainsi de mesurer la difficult de segmentation dune image en particulier, sans en
donner les raisons de manire explicite. Les rsultats confirment la difficult de segmentation de
la base IBSR par rapport la base OASIS.
144
5. O PTIMISATION
Chemin 1 :
Cnr
Cnl
Lvr
Lvl
Pur
Pul
3v
Thr
Thl
Cnr
Cnl
# Chemin
Nb occurrences gauche
Nb occurrences droite
CN TH PU
11
8
Chemin 2 :
Lvr
Lvl
Pur
Pul
3v
Thr
Thl
Cnr
Cnl
# Chemin
Nb occurrences gauche
Nb occurrences droite
CN PU TH
7
5
Chemin 3 :
Lvr
Lvl
Pur
Pul
3v
Thr
Thl
Cnr
Cnl
# Chemin
Nb occurrences gauche
Nb occurrences droite
TH CN PU
6
8
Chemin 4 :
Lvr
Lvl
Pur
Pul
3v
Thr
Thl
Cnr
Cnl
# Chemin
Nb occurrences gauche
Nb occurrences droite
TH PU CN
2
3
Chemin 1 partiel :
Lvr
Lvl
Pur
Pul
3v
Thr
Thl
Cnr
Cnl
# Chemin
Nb occurrences gauche
Nb occurrences droite
CN TH
0
1
Chemin 3 partiel :
Lvr
Lvl
Pul
Pur
3v
Thr
# Chemin
Nb occurrences gauche
Nb occurrences droite
TH CN
1
1
Thl
1re segmentation
2me segmentation
3me segmentation
F IG . 5.23 Les chemins de segmentation prsents de manire synthtique. Ces schmas ne refltent que les occurrences de chaque chemin, dans chaque hmisphre. Mais le chemin suivi dans
lhmisphre droit et celui suivi dans lhmisphre gauche peuvent tre diffrents. Les chemins
les plus frquents sont les chemins privilgiant les structures proches des structures de rfrence,
qui permettent dutiliser au mieux linformation spatiale. Lorsque le putamen est segment en
deuxime position, les relations spatiales qui permettent sa localisation ne sont issues que dune
seule structure. Le chemin le plus utilis est le chemin ad-hoc qui tait utilis prcdemment par
Colliot (2003).
145
TAB . 5.6 Rpartition des images en fonction du nombre de changements de chemin effectus par
le processus au cours de leur segmentation. Sur la plupart des images, il y a peu de changements
(0 ou 1). Dautres images ncessitent plus dadaptations au cours du processus.
IBSR
OASIS
Aucun changement
6 (35%) 7 (64%)
1 changement
2
2
2 changements
5
2
3 changements et plus
4
0
Total
17
11
en trois dimensions, mais seule une coupe est prsente ici. Le temps de calcul pour le processus
complet, sans changement de chemin, est de lordre de 75 minutes sur une machine rcente, la
calcul de la carte de saillance tant effectu part. La grand majorit de ce temps est pris par le
processus de segmentation dune structure. Le calcul des paysages flous est galement coteux,
mais lutilisation dune approximation de ces paysages permet de rduire le temps de calcul
environ 30 secondes par paysage.
Sur ces images, les structures de rfrence ont t indiques en bleu clair, les noyaux cauds
sont en jaune, les thalamus en magenta et les putamens en bleu fonc. Pour simplifier, nous avons
attribu les mmes couleurs aux structures des deux cts de lhmisphre (la mme couleur pour
les deux noyaux cauds par exemple). Sur la plupart des images, les structures ont t correctement reconnues, mme si la segmentation est parfois imprcise. Dautres images prsentent des
structures manquantes, ou des structures qui nont pas t reconnues correctement, cest--dire
quelles ont t segmentes mais que leur tiquette nest pas correcte. Cest le cas par exemple
pour limage en haut au centre de la figure 5.25 o le thalamus droit ( gauche sur limage) a une
tiquette correspondant au noyau caud droit. Ce cas de figure se prsente sur plusieurs images.
La prise en compte de la cohrence spatiale a nanmoins permis de diminuer ce type derreur. Le
seuil de la cohrence spatiale a t fix relativement bas (0, 5), ce qui explique que ce type derreur
puisse se produire encore.
Les segmentations sur la base IBSR sont moins correctes en gnral. Les images de cette base
ont t recales et les images sont souvent floues. Lorsque les frontires des structures sont fines,
comme cest souvent le cas pour les structures sous-corticales, ce flou rend le problme de la
segmentation plus difficile.
Mauvaise reconnaissance :
Une mauvaise reconnaissance est une consquence dune localisation imprcise de la structure
(si le thalamus est inclus dans la localisation du noyau caud dans notre exemple), conjointement
avec une mauvaise estimation de la radiomtrie des diffrentes structures qui ne permet pas de
les diffrencier (du noyau caud dans ce cas), cest--dire que les valeurs s et s qui estiment la
radiomtrie de la structure s ne sont pas adquates. Nous avons montr dans une partie prcdente
que les paramtres et utiliss pour estimer les valeurs s et s taient une moyenne pour
et un maximum pour de valeurs relativement disperses. Ce genre dimprcision nest donc pas
imprvu.
Imprcision des segmentations :
Nous retrouvons les problmes de segmentation du putamen dj voqus dans la prsentation
du droulement complet du processus. Le putamen est une structure qui stire et dont la pointe est
146
5. O PTIMISATION
5.4 Conclusion
Nous avons prsent une approche qui intgre dans un processus de segmentation squentielle
un critre fond sur la saillance de limage que nous souhaitons segmenter et reconnatre. Cette
approche na plus besoin des reprsentations des objets avant quils ne soient segments pour
procder loptimisation du chemin, permettant une plus grande adaptation limage segmenter.
La variabilit dans les chemins de segmentation obtenus montre que nous tenons compte de la
variabilit des images dans le processus doptimisation.
Lapproche itrative prsente un avantage certain en permettant deffectuer conjointement la
segmentation et la reconnaissance des structures. Cela permet dexploiter au mieux linformation
spatiale du modle au cours du processus. Nous avons introduit un processus de contrle de la
segmentation squentielle utilisant linformation spatiale et linformation visuelle qui permet de
rendre le processus de segmentation plus robuste aux checs ventuels et de les corriger.
147
F IG . 5.24 Rsultats de segmentation dans le cas sain sur les images de la base OASIS prsentes
dans notre base.
148
5. O PTIMISATION
F IG . 5.25 Rsultats de segmentation dans le cas sain sur les images de la base IBSR prsentes
dans notre base.
149
F IG . 5.26 Rsultats de segmentation dans les cas pathologiques. Le contraste des images a t
augment pour une meilleure visibilit.
Nous avons galement effectu la segmentation et la reconnaissance des cas pathologiques.
Lapprentissage effectu sur la base prend en compte les cas pathologiques, en particulier dans
lapprentissage des relations spatiales, mais le processus est le mme dans les cas normaux et les
cas pathologiques. Dans ces cas, il manque des structures, surtout lorsque limage subit une grande
dformation, mais cela nous fournit une piste pour dtecter ces cas.
La saillance est issue des travaux sur les mcanismes pr-attentionnels bio-inspirs. Lapport
dun critre fond sur la saillance est de chercher dtecter ce qui est saillant dans une image,
cest--dire ce qui accroche lil ltape pr-attentionnelle. Lapprentissage de la saillance
confirme certaines intuitions sur les structures : la visibilit du ventricule, la difficult de voir des
structures comme le thalamus, dont les valeurs sont proches des valeurs de la matire environnante.
Lapproche prcdente permettait de dterminer le chemin complet avant de commencer les
segmentations. Cette approche effectue une optimisation locale uniquement, au sens o uniquement la prochaine structure reconnatre est choisie chaque tape. Dun autre ct, la premire
approche ne permettait pas de prendre en compte linformation issue de limage, alors que cette
approche permet dintgrer naturellement linformation recueillie au cours du processus.
150
5. O PTIMISATION
151
Chapitre 6
Conclusion et perspectives
6.1 Synthse des contributions
Nous avons prsent deux types dapproches permettant doptimiser des chemins de segmentation partir dun modle structurel dune scne. La premire approche utilise linformation
spatiale contenue dans le modle ainsi que des reprsentations des structures issues dune base
dapprentissage pour effectuer loptimisation. Cette approche permet deffectuer une optimisation
complte dun chemin avant segmentation. La deuxime approche intgre un critre reposant sur
la notion de saillance dans un processus de segmentation squentielle pour optimiser le chemin,
permettant de prendre en compte linformation provenant de limage segmenter dans le processus.
Nous allons prsent dtailler les contributions et discuter chacune de ces deux approches.
152
6. C ONCLUSION
ET PERSPECTIVES
pas compte de larc (A, C), mme si linformation quil porte est utilise dans la segmentation de
C.
La seconde approche est globale et consiste reprsenter un chemin sous la forme dun unique
ensemble flou, permettant deffectuer loptimisation en calculant une valeur reprsentant le chemin. Comme nous lavons soulign dans le chapitre 4, cette approche pose le problme de la bonne
reprsentation dun chemin. En particulier dans le cadre des structures sous-corticales considres,
o ces structures sont proches les unes des autres et o des parties de ces structures sont souvent
adjacentes (les botes englobantes des structures ne sont pas du tout spares), la reprsentation
dun chemin est un problme difficile. Il est ncessaire davoir suffisamment dinformation pour
reprsenter toutes les parties dun chemin. Il est galement ncessaire que la reprsentation dun
chemin ne couvre pas un espace trop important. Les reprsentations proposes permettent que la
structure cible du chemin soit comprise dans la reprsentation et de ne pas couvrir trop despace, ce
qui sont, de notre point de vue, des caractristiques importantes. Nous avons nanmoins propos
une manire originale de reprsenter un chemin et deffectuer son valuation.
Malgr ces limitations, les approches proposes permettent nanmoins doptimiser un chemin et de proposer un chemin intuitif. Lexemple propos dans nos expriences permet ainsi de
retrouver le chemin dfini de manire ad hoc, ce qui est un bon rsultat pour cette approche.
Nous avons propos une extension de ces approches aux cas prsentant des pathologies, en
prenant en compte les degrs de stabilit des relations spatiales. Lutilisation de ces degrs permet
notre approche de rester gnrique en reportant sur la dfinition des degrs de stabilit la gestion
des diffrents modles de pathologies, la variabilit des pathologies tant trop importante pour tre
gre dans notre modle. Avec cette extension, nous avons prsent un exemple o nous obtenons
un chemin de segmentation adquat vis--vis de la pathologie prise en compte.
153
toutefois en vidence une diffrence fondamentale : nous ne recherchons pas les zones les plus
saillantes sur limage complte, mais uniquement sur une restriction de lespace au domaine de
recherche. Cela signifie que si la zone la plus saillante dune image nest jamais incluse dans le
domaine de recherche, alors cette zone nest jamais visite. Cependant, nous avons montr que nos
structures de rfrence sont parmi les zones les plus saillantes de limage, et quelles constituent
un point de dpart cohrent pour le processus.
Les cartes de saillance sont un processus bio-inspir qui, mme si il nest pas psycho-raliste,
cherche modliser les mcanismes de lattention visuelle. Nous avons adapt le processus de
gnration des carte de saillance aux images IRM que nous utilisons pour la reconnaissance des
structures sous-corticales. Ce faisant, nous avons adopt un autre point de vue en considrant les
cartes de saillance comme une manire dagrger les indices visuels dune scne quelconque, et
pas forcment selon un observateur de la scne.
Lutilisation de linformation visuelle dans le processus de segmentation squentielle nous
permet dintgrer de linformation provenant de limage reconnatre diffrents niveaux. Les
segmentations effectues au cours du processus, qui sont utilises pour reprsenter les relations
spatiales utilises dans les itrations suivantes, reprsentent une information trs localise de
limage. Linformation visuelle est, elle, calcule sur des caractristiques plus globales. Lutilisation dune information de saillance telle que nous lavons dfinie a certaines limites : le processus
de gnration des cartes de saillance permet dobtenir une information reprsentant diffrentes
chelles grce aux pyramides utilises. Cependant, dans notre approche, les structures sont petites
par rapport la taille des images. Seules des petites chelles nous apportent donc une information directement relie ces structures. Linformation obtenue des chelles plus grossires, o
elle est lisse, apporte une information plus gnrale sur la scne. Une autre limitation est que la
comparaison de linformation est effectue au niveau de la localisation dune structure. Cette localisation peut tre dfinie par une grande rgion par rapport la structure et inclure des structures
autres que la structure vise. Si la saillance des structures incluses est diffrente de la saillance
de la structure recherche, alors lestimation effectue sur la localisation peut donner des rsultats
contre-intuitifs. Par exemple, la localisation du putamen (structure peu saillante) peut inclure des
sillons du cerveau (beaucoup plus saillants).
Nous avons construit les bases dun systme dinterprtation dimages, capable de faire des
choix grce au critre driv de linformation visuelle, deffectuer la segmentation dun objet de la
scne ainsi que de sa reconnaissance, et enfin dtre critique vis--vis de linformation recueillie et
permettant de changer la stratgie si ncessaire. Le systme a en outre t rendu plus robuste aux
checs potentiels. Cela est possible grce lvaluation des segmentations. Elle est effectue par
une structure de donnes permettant deffectuer un contrle du processus de segmentation en utilisant linformation spatiale et linformation visuelle. Ce faisant, nous avons permis dautomatiser
une procdure qui tait ad hoc.
Les rsultats prsents montrent une bonne reconnaissance des structures, avec des segmentations qui sont souvent imprcises, en particulier pour le putamen dont la forme est moins propice
une segmentation par un modle dformable. Le modle intgre peu de structures, car il est ncessaire de pouvoir tudier la saillance de ces structures. Or si une structure est trop petite, elle apporte
peu dinformation la carte de saillance, en particulier cause des diffrents niveaux dchelle.
Nous avons donc choisi de nous limiter des structures qui prsentent une taille suffisante. Il est
de plus ncessaire quelles soient relies dans le modle par des relations spatiales. Les rsultats
dans les cas pathologiques montrent que le modle peut sadapter aux dformations qui ne sont pas
trop importantes. Les grandes dformations empchent cependant la reconnaissance de certaines
structures. Cependant, lchec de la segmentation dans ces cas, dtect par le processus, peut nous
fournir un moyen de dtecter la prsence dune pathologie, ce qui na pas t investigu pour le
154
6. C ONCLUSION
ET PERSPECTIVES
moment.
6.2 Perspectives
6.2.1 Optimisation avec reprsentation des structures
Nous avons soulign dans les conclusions la limitation principale de lapproche permettant
doptimiser un chemin valuant la connaissance spatiale de chaque arc de manire spare. La
prise en compte de toute linformation spatiale utilise dans une squence de segmentation peuttre effectue en fusionnant, au niveau de chaque nud du graphe, toute linformation spatiale
utilisable pour ce nud, cest--dire lensemble des relations spatiales visant ce nud et utilisant
comme structure de rfrence une structure du chemin dj visite. Mais dans ce cas, il nest
plus possible deffectuer une optimisation globale dans le graphe telle que nous la proposons, car
lvaluation dun arc (o dun nud en fonction de lemplacement o nous choisissons de disposer
linformation) nest plus indpendante, mais dpend prsent du chemin suivi pour arriver jusqu
cet arc (ou le nud). Il serait donc ncessaire dvaluer chaque chemin de manire spare.
Nous avons considr dans nos travaux des graphes se composant de peu de nuds et donc de
chemins. Les optimisations peuvent tre effectues de manire exhaustive dans ce cas, la liste des
chemins tant rduite. Dans nos expriences, nous calculons lvaluation de chaque chemin. Mais
il nest pas ncessaire de connatre lvaluation de tous les chemins si notre objectif est dobtenir le
meilleur chemin uniquement. Dans le cas o lvaluation de chaque arc est effectue de manire
indpendante, des algorithmes classiques de la thorie des graphes peuvent nous permettre de
limiter le cot de loptimisation. Dans le cas o chaque chemin doit tre valu de manire spare,
il serait ncessaire dutiliser la programmation dynamique pour rduire la complexit. Lutilisation
dune structure de rfrence unique est primordiale dans ce cas.
Dans lapproche globale, o les chemins sont reprsents sous la forme dun ensemble flou
unique, nous avons soulign le problme de la bonne reprsentation dun chemin. Nous avons
prsent des reprsentations utilisant des fusions conjonctives ou disjonctives. Cependant, nous
avons toujours utilis le minimum et le maximum, qui sont respectivement la plus optimiste des
t-normes et la plus pessimiste des t-conormes. Or, il existe de nombreux oprateurs, comme la
norme de Lukasiewicz par exemple. Il serait intressant de dterminer quelles sont les proprits
souhaites pour notre fusion dinformations et quels oprateurs permettent dy rpondre au mieux.
155
Des modifications sont ncessaires afin de mieux prendre en compte les cas pathologiques. Les
expriences ralises ne tiennent pas compte de la connaissance de la pathologie. Deux voies sont
possibles, la premire consiste essayer de dterminer si un cas prsente une pathologie laide de
ce procesus de segmentation. Lobjectif serait ici dinclure la pathologie dans le modle structurel.
Cela implique que la pathologie a un impact sur le modle structurel de limage pour pouvoir tre
dtecte. La deuxime voie serait dadapter le processus de segmentation en sachant quune image
est pathologique et ventuellement en utilisant une segmentation pralable de la tumeur. Lobjetif
serait donc dadapter la connaissance spatiale (ou sa reprsentation) la pathologie.
La notion de saillance est une notion bio-inspire que nous adaptons nos besoins dans ces
travaux. Les caractristiques dun systme pr-attentionnel consistent calculer des caractristiques globales de limage qui sautent aux yeux (intensit, couleur, orientation) et de manire
parallle. Les caractristiques de limage ont t choisies pour la raction quelles produisent sur
le cortex visuel. Dans nos travaux, la tche du cortex est remplace par notre mthode de segmentation et de reconnaissance. Les caractristiques des images pourraient donc tre adaptes par
rapport la mthode de segmentation. Par exemple, la radiomtrie des structures sous-corticales
tant situe entre la radiomtrie de la matire blanche et de la matire grise du cerveau, la carte
refltant les intensits peut tre adapte pour ragir aux discontinuits dans cet intervalle. Dans cet
exemple prcis, la radiomtrie des matires est fournie par une analyse de limage, mais galement
par une connaissance a priori sur limage. Lutilisation de cette connaissance a priori pour calculer
la carte de saillance fait que le processus nest plus strictement guid par les donnes dans ce cas.
Nous avons introduit lutilisation dune carte de saillance conjointement avec un modle structurel et des reprsentations floues de relations spatiales, et nous avons discut dans cette conclusion
de la problmatique que cette approche a ouverte, cest--dire la difficult de comparer la saillance
sur des rgions et non pas dune manire globale, par rapport un modle de la saillance attendu
pour une structure. Dans ces rgions, la saillance de la structure recherche est mle la saillance
de structures environnantes, entre autres. La recherche est donc dpendante de la prcision de la
localisation. Des travaux, introduits au chapitre 3, proposent de modifier la saillance pour chercher un type dobjets spcifiques. Mais dans notre cas, les structures ont des caractristiques assez
proches. Il faudrait donc plutt tudier linfluence de la taille de la rgion. Une autre piste est de
modliser non seulement la saillance de la structure, mais galement de son environnement.
Le processus de contrle que nous avons introduit se contente, pour des raisons de complexit,
de regarder les interactions entre la structure segmente et sa structure parente. Cependant, les mesures dvaluation sont prsentes dans le graphe, et la cohrence spatiale est mise jour chaque
itration sur chaque arc du graphe. Il serait donc possible deffectuer une optimisation globale a
posteriori de la qualit de la segmentation. Nous pouvons par exemple optimiser laide dune
coupure un graphe o les arcs portent leur valuation de la cohrence spatiale et o lattache
aux donnes est estime par le critre de saillance. Loptimisation consiste ici dterminer quels
nuds sont considrs comme valides, et lesquels sont considrs comme invalides (et itrer le
processus dans ce cas). Avec un tel processus, nous pouvons prendre en compte la cohrence spatiale du modle complet, et pas uniquement entre deux structures. Cela pourrait en outre permettre
de supprimer les seuils utiliss sur les critres.
Lutilisation conjointe de la notion de saillance et des relations spatiales peut tre applique
dans un autre cadre que limagerie mdicale. Le modle que nous utilisons ne dcrit pas toute
la scne et il peut correspondre un motif particulier dans une scne. Par exemple dans le cadre
de limagerie satellitaire, la description dune structure complexe telle quun aroport peut tre
effectue par un modle structurel. Si nous connaissons une structure de rfrence appartenant au
motif dcrivant laroport, alors nous pouvons utiliser notre systme pour segmenter et reconnatre
les autres parties du modle. Dans le cas de limagerie satellitaire, il serait bien sr ncessaire de
156
6. C ONCLUSION
ET PERSPECTIVES
dfinir une mthode de segmentation adquate, avec les informations a priori de radiomtrie ncessaires. Il faut noter que notre approche, en dlimitant une zone dintrt, permet dutiliser des
informations a priori radiomtriques qui ne sont pas ncessairement suffisantes pour une segmentation globale.
157
Annexe A
158
A. L ISTE
DES PUBLICATIONS
Autres publications :
Helin Dutagac, Geoffroy Fouquier, Erdem Yrk, Blent Sankur, Laurence Likforman and
Jrme Darbon
Hand Recognition Book chapter
dans "Guide to Biometric Reference Systems and Performance Evaluation". Springer-Verlag,
2009. diteurs : D. Petrovska-Delacrtaz, G. Chollet, B. Dorizzi et A.K. Jain
Geoffroy Fouquier, Laurence Likforman, Jrme Darbon and Bulent Sankur
The Biosecure Geometry-based System for Hand Modality
In the proceedings of the 32nd IEEE International Conference on Acoustics, Speech, and
Signal Processing (ICASSP2007).
Thierry Graud, Geoffroy Fouquier, Quoc Peyrot, Nicolas Lucas and Franck Signorile
Document Type Recognition Using Evidence Theory.
In the proceedings of the Fifth IAPR International Workshop on Graphics Recognition
(GREC2003).
Alexis Angelidis and Geoffroy Fouquier
Visualization Issues in Virtual Environments : From Computer Graphics Techniques
to Intentional Visualization.
In the proceedings of the 9th Internatinal Conference in Central Europe on Computer Graphics, Visualization and Computer Vision (WSCG2001).
159
Annexe B
Cartes de saillance
Nous prsentons dans cette annexe des rsultats de gneration de cartes de saillance selon la
mthode prsente dans le chapitre 3.
Dans une premire partie, nous prsenterons les cas sains de notre base de donnes et dans une
deuxime partie, les cas pathologiques. Pour tous les volumes en trois dimensions, nous illustrons
les rsultats sur trois coupes extraites de manire automatique. Le choix des coupes est effectu
partir du masque du cerveau de chaque image, en ajoutant un nombre arbitraire de coupes dans
une direction, partir de la premire coupe non vide dans une vue donne. Les coupes ne sont
donc pas comparables entres les diffrentes images.
Pour chaque ensemble (de cas sains et de cas pathologiques), nous prsentons des cas avec plus
de dtails. Pour les autres cas, nous prsentons uniquement les coupes de limage originale et les
cartes de saillance correspondantes. Pour les cas dtaills, nous prsentons les figures suivantes :
limage originale ;
la carte de saillance. La gnration de la carte de saillance est dtaille dans la partie 2.4 ;
les histogrammes de saillance calculs sur la segmentation manuelle de cette image, et qui
sont utiliss pour lapprentissage des distributions de saillance. Ces histogrammes sont dfinis dans la partie 5.1.3 ;
la carte de visibilit correspondant lintensit ;
la carte de visibilit correspondant lorientation. Les cartes de visibilit sont dfinies dans
la partie 2.4.
Bases de donnes
Notre base de donnes est dcrite dans la partie 3.4. Cette base est constitue des ensembles
suivants :
Les 18 cas de la base IBSR ( Internet Brain Segmentation Repository )1
11 cas provenant de la base OASIS ( Open Access Series of Imaging Studies ).2
Des cas pathologiques, fournis par des hpitaux partenaires. Certaines images ont t recueillies lors dun projet financ par lINCA (PL005-2005). Les hpitaux partenaires sont
les suivants :
Lhpital Sainte-Anne ;
Lhpital du Val-de-Grce ;
1
Internet Brain Segmentation Repository. The MR brain data sets and their manual segmentations were
provided by the Center for Morphometric Analysis at Massachusetts General Hospital and are available at
http ://www.cma.mgh.harvard.edu/ibsr/
2
http://www.oasis-brains.org, ralise avec les financements suivants : Pubmed Central submission :
P50 AG05681, P01 AG03991, R01 AG021910, P50 MH071616, U24 RR021382, R01 MH56584
160
B. C ARTES
DE SAILLANCE
Lhpital de la Piti-Salptrire.
B.1.1
IBSR 01
Image originale :
Carte de saillance :
161
Histogrammes de saillance :
Saliency histo.l hmsph
0.2
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter
0.18
0.16
0.16
0.14
0.14
0.12
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
10
20
30
40
50
60
70
80
90
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
White Matter
Gray Matter
0.18
100
10
20
30
40
50
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
20
30
40
50
60
70
80
90
100
60
70
80
90
100
162
B.1.2
B. C ARTES
Oasis 02
Image originale :
Carte de saillance :
DE SAILLANCE
163
Histogrammes de saillance :
Saliency histo.l hmsph
0.2
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
0.18
0.16
0.16
0.14
0.14
0.12
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
10
20
30
40
50
60
70
80
90
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
0.18
100
10
20
30
40
50
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
20
B.1.3
30
40
50
60
70
80
90
100
60
70
80
90
100
164
IBSR 02
Image originale :
Carte de saillance :
IBSR 03
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
165
IBSR 04
Image originale :
Carte de saillance :
IBSR 05
Image originale :
Carte de saillance :
166
IBSR 06
Image originale :
Carte de saillance :
IBSR 07
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
167
IBSR 08
Image originale :
Carte de saillance :
IBSR 09
Image originale :
Carte de saillance :
168
IBSR 10
Image originale :
Carte de saillance :
IBSR 11
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
169
IBSR 12
Image originale :
Carte de saillance :
IBSR 13
Image originale :
Carte de saillance :
170
IBSR 14
Image originale :
Carte de saillance :
IBSR 15
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
171
IBSR 16
Image originale :
Carte de saillance :
IBSR 17
Image originale :
Carte de saillance :
172
IBSR 18
Image originale :
Carte de saillance :
cas sain
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
173
oasis 01
Image originale :
Carte de saillance :
oasis 03
Image originale :
Carte de saillance :
174
oasis 04
Image originale :
Carte de saillance :
oasis 05
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
175
oasis 06
Image originale :
Carte de saillance :
oasis 07
Image originale :
Carte de saillance :
176
oasis 09
Image originale :
Carte de saillance :
oasis 10
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
177
oasis 11
Image originale :
Carte de saillance :
oasis 12
Image originale :
Carte de saillance :
178
B. C ARTES
DE SAILLANCE
B.2.1
Cas 1
Image originale :
Carte de saillance :
179
Histogrammes de saillance :
Saliency histo.l hmsph
0.2
0.2
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
Tumor
0.18
0.16
0.16
0.14
0.14
0.12
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
10
20
30
40
50
60
70
80
90
Ventricle
CaudateNucleus
Thalamus
Putamen
ThrdVentr.
Tumor
0.18
100
10
20
30
40
50
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
10
20
30
B.2.2
40
50
60
70
80
90
100
60
70
80
90
100
180
Cas 2
Image originale :
Saliency map :
Cas 3
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
181
Cas 4
Image originale :
Carte de saillance :
Cas 5 / 1
Image originale :
Carte de saillance :
182
Cas 5 / 2
Image originale :
Carte de saillance :
Cas 5 / 3
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
183
Cas 6
Image originale :
Carte de saillance :
Cas 7 /1
Image originale :
Carte de saillance :
184
Cas 7 / 2
Image originale :
Carte de saillance :
Cas 8
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
185
Cas 9
Image originale :
Carte de saillance :
Cas 10
Image originale :
Carte de saillance :
186
Cas 11
Image originale :
Carte de saillance :
Cas 12
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
187
Cas 13
Image originale :
Carte de saillance :
Cas 14
Image originale :
Carte de saillance :
188
Cas 15 / 1
Image originale :
Carte de saillance :
Cas 15 / 2
Image originale :
Carte de saillance :
B. C ARTES
DE SAILLANCE
189
Annexe C
C.1
Abstract
This paper proposes a new method for model-based segmentation using a graph matching approach. The model is based both on a prototype image and on users input, which allows deriving
a segmentation where no homogeneity criterion is explicitly defined, and which is driven by the
users intention. As another contribution, an intermediate graph structure is involved in order to
solve the difficult problem where no isomorphism can be expected between the model graph and
the graph extracted from an over-segmentation of the image to be processed. Geometrical, topological and structural information is incorporated in a cost function, which is optimized to lead to
the final result.
keywords :
C.2
Introduction
As shown in numerous works, structural information contained in images is an important feature for guiding different tasks such as segmentation, recognition, higher level interpretation and
spatial reasoning Bloch (2005); Miyajima et Ralescu (1994). Graph representations are well adapted to encode this structural information, along with lower level information. Typically, vertices
may represent regions or objects, with attributes extracted from the image data, while edges may
represent relations between them (e.g. comparison of region attributes and spatial relations.)
A lot of work has been dedicated to graph matching, where two graphs to be matched are either
built from two images, or from a model (or several models) and an image Felzenszwalb et Huttenlocher
(2005); Conte et al. (2004); Bunke (2000); Cross et Hancock (1998). Here we consider the latter
case and propose a new approach for segmenting an image based on a model built from both a
190
C. I MAGE
Strokes
Segmentation
Model
Image
Deformation
Graph
Oversegmented
Image
Build Region
Adj. Graph
Segmentation
Original
Image
Model
Graph
Build Region
Adj. Graph
Oversegmented
Image
Matching
Input
Graph
Segmented
Image
prototype image and from users input. Our approach differs from usual segmentation tasks where
the segmentation criterion is expressed as the homogeneity of some features computed in each
segmented object or region, since it allows grouping into a single object regions that may be
heterogeneous but that best correspond to the users input. This input implicitly defines the segmentation criterion, which makes a major difference with respect to methods that rely on explicit
criteria.
The proposed method, detailed in the next sections and illustrated in Figure C.1, proceeds as
follows. The user is asked to draw strokes on a prototype image that is used to create a model.
These strokes provide information on the objects the user is interested in, such as the number
of classes or objects and approximate shape and colors of classes. For instance, the user may
indicate a person as one class (hence the corresponding stroke will overlap regions with different
local properties), or distinguish different classes like face, body, hair. This approach provides,
with reduced user interaction, very strong information that alleviates the ill-posed nature of most
segmentation problems. Here the problem becomes well-posed and allows segmenting what the
user wants to get. The model graph is built according to this information. The segmentation of an
input image is obtained by matching the model graph and a region adjacency graph (RAG) built
from an input image. Usually the image graph contains many more regions than the model graph,
which calls for inexact graph matching methods. Here we address this issue by using an additional
graph, called deformation graph (Figure C.2), and introduced in Noma et al. (2009), which has the
same topology as the model graph, and where each vertex corresponds to a union of regions of
the input image graph. This structure provides a direct isomorphism with the model graph. Thus
the segmentation is now achieved by finding the matching between the input image graph and the
deformation graph which minimizes a cost function computed between the model graph and the
deformation graph. This function includes comparison of vertices attributes and comparison of
edges attributes.
In our previous work, some steps of this method were already described Consularo et al.
(2007). Here the main contributions with respect to this earlier work include (i) the idea of segmenting objects based on an implicit criterion instead of an explicit one relying on region homogeneity,
which allows segmenting potentially very heterogeneous areas as one object ; (ii) building a model graph which includes most of the prototype image information (not only the local information
provided by the strokes) ; (iii) proposing new cost functions according to these new features of the
method, taking also shape information into account, and adapting the graph matching algorithm
accordingly.
This paper is organized as follows. In Section C.3 we discuss the graph constructions, while the
attributes and cost functions for the optimization procedure are detailed in Section C.4. Section C.5
presents the matching algorithm and experimental results are described in Section C.6.
191
Model Graph
Cost function
Deformation Graph
Matching
F IG . C.2 General scheme for graph matching. The cost function is computed between the model
graph and the deformation graph, which share the same structure. The matching between the input
graph and the deformation graph is then derived.
C.3
In this section we describe the construction of the graphs involved in the proposed method.
Model graph Gm The model graph is built from a model (or prototype) image and from the
users input. It should represent the segmentation classes (or objects), according to the user, and
the structural information (relations between classes). From our experiments with several users, it
appears that usually the user draws strokes either on the border of a (generally large) region, or
in the middle of the region (similar to a skeleton of the region). From these strokes, regions from
an over-segmentation are grouped together to provide large and robust regions, according to the
strokes. An example is illustrated in Figure C.3. The main steps of the proposed procedure are as
follows :
The user draws strokes on this image, the labeling is encoded using colors (1 color per
class), with potentially several strokes for one class or one object ;
The model image is segmented using any over-segmentation method : in our experiments
we used a mean-shift approach, applied to the grey levels (or the intensity channel in case
of color images) after a regularization step using a minimal total variation criterion with
a L1 norm Darbon et Sigelle (2006a) which allows removing texture. This leads to large
homogeneous regions and provides a less over-segmented image than the one used in our
previous work based on watersheds ;
A RAG is built from the segmentation ;
A model graph, with one vertex per class is built and populated with all marked regions
from the RAG (i.e. intersected by a stroke). This is the most original step of this procedure.
All unmarked regions surrounded by a unique class are added to this class : this corresponds
to the idea that these regions cannot represent a different class since the user did not draw a
stroke over them. Unmarked regions surrounded by different classes are not included in the
model ;
Finally, an edge is created for each pair of vertices, and edge and vertex descriptors are
computed in the model graph.
Input graph Gi For any image to be processed, an image (or input) graph is created. The RAG
resulting from the over-segmentation is directly used. A set of features is computed on all regions.
However, parameters for regularization and segmentation are less restrictive than for the model, in
order to obtain smaller regions.
192
C. I MAGE
Prototype
Strokes
Regularization Segmentation
Model
Graph
F IG . C.3 Model generation. The minimal region size in the segmentation is 20. The resulting
model is displayed with random colors. Black regions are excluded from the model.
Deformation graph Gd Our approach involves an intermediate structure, called the deformation
graph, which has the same topology as the model graph but is populated from the image graph :
several vertices can be merged into one in this deformation graph. This is another original feature
of the proposed approach. The matching process then aims at finding the best merging of regions
such that the deformation graph optimizes a cost function. This also provides the best matching
between the model and the image, but without having to handle directly the problem of matching
graphs with different topologies. Vertices and edges carry the same attributes as for the model
graphs.
C.4
Let V , E be the sets of vertex labels and edge labels, respectively. Let V be a finite nonempty set of vertices, Lv be a vertex interpreter Lv : V V , E be a set of ordered pairs of
vertices called edges, and Le be an edge interpreter Le : E E . Then G = (V, Lv , E, Le ) is a
labeled graph with directed edges. For v V and e V V , (v, e) is a transition function that
returns the vertex v such that e = (v, v ). For v V , A(v) returns the set of edges adjacent to v.
C.4.1 Vertex cost : intrinsic features for each class of the model
The cost function associated with each vertex includes intensity, shape and surface information.
Intensity As mentioned above, a class may be composed of regions with non-homegeneous intensity, depending on what the user considers as being one object. Each vertex (representing a
class) in both model and deformation graphs may then be composed of a set of smaller regions
resulting from the initial over-segmentation, each of them being characterized by its average intensity. Note that regularization of images allows removing texture and therefore average intensity
becomes more relevant. In order to take into account the potential intensity inhomogeneity inside
a class of the model, the intensity cost is computed between both sets of regions Rd and Rm composing the compared vertex Vm Gm and Vd Gd . The cost for a region from Vd is defined as
the minimal grey level difference among all regions of Vm . Then, the intensity cost is defined as
the average of these minimal distances for all regions composing Vd :
Cvintensity (Vm , Vd ) =
rd Rd
minrm Rm d(rd , rm )
|Rd |
193
where d(rd , rm ) represents the absolute difference between average grey levels of both regions,
and |Rd | is the number of regions composing Vd .
Shape Shape information is not meaningful for regions of an over-segmentation. However the
process used for building the model makes shape information relevant for the model vertices and
thus for the deformation graph, which is another advantage of using this intermediate structure.
It follows that, as opposed to methods relying on a matching between the model and the input,
shape information can really be involved in the proposed approach. This is a new contribution
with respect to previous works.
Among the numerous existing shape descriptors, we prefer those that can be easily updated
when the regions associated to each vertex of the deformation graph change. This is motivated by
the number of computations of the attributes involved in our iterative matching scheme. Therefore
we have chosen affine invariant moments proposed by Flusser et al in Flusser et s Suk (1993).
The invariant moments are a combination of central moments (shift invariant) defined as : pq =
)p (y y)q
x
y (x x
Here is the definition of the two first invariant moments :
I1 =
I2 =
20 02 211
400
Shape descriptors are computed on each vertex after applying a morphological closing in order
to smooth noisy boundaries due to the segmentation process or to occlusion. We keep all normalized moments for p, q [0..3] with p + q > 1 thus 13 moments.
The cost function for shape information is defined as the absolute difference between the
vectors of central moments of vertices in Gd and Gm :
Cvshape (Vm , Vd ) =
M
i=1 |mdi
mmi |
194
C. I MAGE
Distance Let us consider an edge between two objects A and B. We denote the corresponding
vertices in the model graph by Am and Bm and the ones in the deformation graph by Ad and Bd .
The edges between these vertices are denoted as Em and Ed , respectively. In order to compare the
relative distances, carried by these edges, we proceed as follows :
we first compute the distances d(x, Bd ) for all points x of the contour of Ad and the cumulative histogram1 of the obtained values.
we compute the distances d(x, Bm ) for all points x of the contour of Am and the cumulative
histogram.
the distance dhAB is evaluated as the distance between these cumulative histograms.
Finally, a symmetric distance is defined as :
dhAd Bd dhAm Bm )
2
dhBd Ad dhBm Am )
+
2
Cedist (Em , Ed ) =
Orientation Several methods have been proposed to define the directional relative position between two objects, which is an intrinsically vague notion. Particularly, fuzzy methods are appropriate, and here we choose to represent this information using histograms of angles Miyajima et Ralescu
(1994). This allows representing all possible directional relations between two regions. If R1
and R2 are two sets of points R1 = p1 , ..., pn and R2 = q1 , ..., qn , the relative position between regions R1 and R2 is estimated from the relative position of each point qj of R2 with
respect to each point pi of R1 . The histogram of angles HR1 R2 is defined as : HR1 R2 () =
pi qj ) denotes the angle between a refe{(pi , qj ) R1 R2 / ( i ,
pi qj ) = } where ( i ,
boundary of the objects. The histogram is normalized such that h[] = 1 in order to use the
circular earth movers distance (CEMD) defined in Rabin et al. (2008), i.e. the distance between
normalized cumulative histograms derived from the angle histograms with a parameter to cope
with periodicity. The CEMD is defined as : cemd(f, g) = F G 1 where f and g are two
histograms and F and G are cumulative histograms derived respectively from f and g. As shown
in Rabin et al. (2008), is chosen as the median of the values F (i) G(i). The orientation cost
is then defined as the absolute differences of CEMD :
Ceorient. (Em , Ed ) = cemd(Ed ) cemd(Em )
C.4.3 Connectivity
The previous features are more meaningful when a vertex in Gd represents regions forming
a unique connected component. Therefore the edges between input graph vertices composing a
vertex in the deformation graph should be taken into account too. In order to favor compact regions
and to reduce the number of connected components, we derive a criterion based on the distance
between all connected components present in a vertex of Gd :
Cconnectivity (Vd ) =
ci Vd (
cj Vd ,i=j
d(ci , cj ))
Ncc
where ci and cj represent connected components in Vd , d(ci , cj ) is the maximal distance between
ci and cj (symmetric), and Ncc is the number of connected components in Vd .
1
Pi
j=1
h[i].
195
CV (Vm , Vd ) +
C=
Vd Gd
Vd Gd
CE(Em , Ed )
(C.1)
Ed Ed
C.5
As mentioned earlier, image segmentation is achieved by matching the input image (to be
segmented) and the model. The input graph Gi is mapped onto the deformation graph Gd and the
cost function for a given mapping is evaluated between Gd and Gm .
An initial mapping is mandatory to compute attributes carried by vertices and edges of Gd .
This initial matching may be a random matching, but in order to reduce the computation time,
initialization of Gd may also be carried out by applying a modified version of the segmentation
method described in Noma et al. (2009). This initialization is achieve by matching each vertex
of Gi to a vertex of Gm . The cost function evaluates the deformation between a vertex of Gm
and the same vertex deformed by the candidate vertex of Gi . But since a region produced by the
over-segmentation is directly compared with the model, this matching process only uses a simple
image-based criterion based on a distance between grey levels (as in Section C.4.1) and a structural
cost taking into account the centroids of the compared regions
The subsequent iterations minimize the cost function between Gd and Gm based on the highlevel criteria explained in Section C.4. The search for better solutions is carried out by re-assigning
each Gi vertex to different vertices of the deformation graph Gd in an attempt to reach lower cost
values. For each re-assignment, the corresponding attributes in Gd (i.e. those associated to vertices
and edges involved in the re-assignment) are recalculated, as well as the cost function. In order
to speed up the computation, connected components may be re-assigned as a whole instead of a
single region. When considering to move a region of Gi , the current matching of the region is a
vertex of Gd . If this vertex has more than one connected component, then the whole connected
component is changed. In both cases, all descriptors of the modified vertices are recalculated, as
well as all edges connected to an updated vertex.
Two different optimization schemes may be used according to the initialization. With a random
initialization, optimization is achieved by a simulated annealing algorithm. A vertex from Gi is
selected randomly as well as the new matching which is accepted if the global cost decreases, or
accepted with a probability depending on the temperature parameter otherwise. This parameter is
decreased after N vertex selections, where N = |Vi | is the number of vertices of the input graph
Gi . In the case of a non-random initialization, optimization is achieved by an ICM scheme, i.e. a
vertex from Gi is still selected randomly, but all possible matchings in Gd are computed and the
196
C. I MAGE
best matching is then kept. The process finishes if after N vertex selections, the energy remains
the same.
Figure C.5 presents a summary of the implemented matching algorithm, where map represents
the mapping between Gi and Gd (initially, to Gm , in order to initialize Gd ). It is worth noting that
this mapping actually represents the sought solution, i.e. each possible mapping defines a possible
labelling of Gi (hence, a possible segmentation of the input image). The while loop implements
the simulated annealing search
MATCHING A LGORITHM (Gi , Gm )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
t INIT T EMPERATURE()
map INITIAL M AP(Gi , Gm )
Gd INIT D EFORMATION(Gi , Gm , map)
c COST(Gd , Gm )
stopFlag CONVERGENCE T EST()
while (stopFlag = TRUE )
do
for (i 1 to N )
do
map1 CHANGE S OLUTION(map )
Gd UPDATE D EFORMATION(Gi , Gd , map1 )
c1 COST(Gd , Gm )
if (ACCEPT S OLUTION (C, C1 , t))
then
map map1
c c1
else
Gd UPDATE D EFORMATION(Gi , Gd , map)
t UPDATE T EMPERATURE(t)
stopFlag CONVERGENCE T EST()
F IG . C.4 The matching algorithm.
C.6
Experiments
Figure C.5 (first line) presents results between two close images of guitars. The model is
composed by 5 classes. Two experiments have been performed, one with an input image where
the guitar is approximatively at the same location as in the model, and another one where it is
shifted to the right. The initialization already gives good results (but less in the shifted case).
The first result corresponds to the input image, the second one to its shifted version. The method
does not take into account centroids nor any absolute position attributes, being thus translation
independent. However, the area is computed relatively to the image size, thus in this case, the
values are different from the ones in the model. The second line of Figure C.5 presents another
result between two images of motorcycles. The model is composed by 4 classes.
In both cases the initialization allows using an ICM optimization scheme. Results are not
exactly the ideal segmentations, but all regions of the model are correctly found and the results
197
Prototype
Input
Model
Prototype
Model
Result
On a shifted image
Input
Result
capture the users intention. An ideal segmentation would give a lower cost than these results,
meaning that the optimization process reaches a local minimum, which is however close to the
desired one.
Prototype
Input
Model
Input
Result
Result
Input
Input
Result
Result
F IG . C.6 Several experiments with model reuse. A guitar model is generated for the first guitar
image and then used in the segmentation of other guitars of various shapes and colors.
Figure C.6 presents more results with a simpler model than the one present in Figure C.5 (there
is no class for the shadow). In this experiment, the following parameters for the cost function are :
= 0.45, = 0.35, = 0.20. Results present the same difficulties with the guitar neck, which is
not well defined by the model. When colors and shape differ from the prototype (the second line),
the results are worst which illustrate the limitation of building a model based on a single image. In
these case, the optimisation can only rely on the structural cost.
198
C. I MAGE
The cost function is designed by aggregating costs between many attributes and with different
dynamics. There are many ways to combine them which deserve further analysis. A hint is to combine attributes like distance and orientation before cost computation using fuzzy representations of
spatial relations Bloch (2005). The choice of the attributes carried by the vertices depends of the
application. In our case, intensity and shape cost allows recognizing objects with similar features.
The weight may be changed according to the image to segment. The process used for building the
model produces large regions thanks to regularization, which are well suited for our purpose, but
it is also driven by parameters which need to be set accordingly. A weaker regularization gives
smaller regions and does not guarantee to approximate the corresponding objects. However, in all
our experiments, the same values of these parameters give good results.
C.7
Conclusions
We proposed a method to segment an image using a model built according to the users intention and able to merge inhomogeneous regions into a single segmentation class. The proposed
model takes into account the structure of the prototype marked by the user. The introduction of
the deformation graph allows separating the two problems of the inexact graph matching and of
finding the best isomorphism with the model graph. It also allows computing high-level attributes
like spatial relations and shape features.
C.8
Acknowledgment
This work has been partially funded by CAPES, COFECUB (546/07), CNPq, FAPESP and
FINEP grants
199
Bibliographie
A. A LBOODY, F. S EDES et J. I NGLADA : Post-classification and spatial reasoning : new approach
to change detection for updating gis database. In 3rd International Conference on Information
and Communication Technologies : From Theory to Applications (ICTTA), p. 17, April 2008.
E. A LDEA : Apprentissage de donnes structures pour linterprtation dimages. Thse de
doctorat, Tlcom ParisTech, Dcembre 2009.
E. A LDEA, J. ATIF et I. B LOCH : Image Classification using Marginalized Kernels for Graphs.
In 6th IAPR-TC15 Workshop on Graph-based Representations in Pattern Recognition, GbR07,
vol. LNCS 4538, p. 103113, Alicante, Spain, jun 2007a.
E. A LDEA, G. F OUQUIER, J. ATIF et I. B LOCH : Kernel Fusion for Image Classification Using
Fuzzy Structural Information. In 3rd International Symposium on Visual Computing ISVC07,
vol. LNCS 4842, p. 307317, Lake Tahoe, USA, nov 2007b.
J. A LOIMONOS : Purposive and qualitative active vision. In in the proceedings of the 10th International Conference on Pattern Recognition, vol. 1, p. 346360, Jun 1990.
J. A LOIMONOS, I. W EISS et A. BANDYOPADHYAY : Active vision. International Journal of
Computer Vision, 1(4):333356, Jan 1988.
J. ATIF, C. H UDELOT, G. F OUQUIER, I. B LOCH et E. A NGELINI : From Generic Knowledge
to Specific Reasoning for Medical Image Interpretation using Graph-based Representations.
In International Joint Conference on Artificial Intelligence IJCAI07, p. 224229, Hyderabad,
India, jan 2007a.
J. ATIF, C. H UDELOT, O. N EMPONT, N. R ICHARD, B. BATRANCOURT, E. A NGELINI et
I. B LOCH : GRAFIP : A Framework for the Representation of Healthy and Pathological Cerebral Information. In IEEE International Symposium on Biomedical Imaging (ISBI), p. 205208,
Washington DC, USA, apr 2007b.
J. ATIF, H. K HOTANLOU, E. A NGELINI, H. D UFFAU et I. B LOCH : Segmentation of Internal
Brain Structures in the Presence of a Tumor. In MICCAI Workshop on Clinical Oncology, p.
6168, Copenhagen, oct 2006a.
J. ATIF, O. N EMPONT, O. C OLLIOT, E. A NGELINI et I. B LOCH : Level Set Deformable Models Constrained by Fuzzy Spatial Relations. In Information Processing and Management of
Uncertainty in Knowledge-Based Systems, IPMU, p. 15341541, Paris, France, 2006b.
R. BAJCSY : Active perception. Proceedings of IEEE, 76(8):9961005, 1988.
D. BALLARD et C. B ROWN : Principles of animate vision. CVGIP : Image Understanding, 56
(1):321, 1992. ISSN 1049-9660.
200
BIBLIOGRAPHIE
201
L. A. C ONSULARO, R. M. C ESAR et I. B LOCH : Structural Image Segmentation with Interactive
Model Generation. In IEEE International Conference on Image Processing (ICIP 2007), vol. 6,
p. 4548, San Antonio, Texas, USA, sep 2007.
D. C ONTE, P. F OGGIA, C. S ANSONE et M. V ENTO : Thirty years of graph matching in pattern
recognition. Int. J. Pattern Rec. and Art. Intell., 18(3):265298, 2004.
T. C OOTES, G. E DWARDS et C. TAYLOR : Active appearance models. Pattern Analysis and
Machine Intelligence, 23(6):681685, 2001.
T. C OOTES, C. TAYLOR, D. C OOPER et J. G RAHAM : Active shape models-their training and
application. Computer Vision and Image Understanding, 61(1):3859, 1995.
G. C OTTERET : Extraction dlments curvilignes guide par des mcanismes attentionnels pour
des images de tldtection : approche par fusion de donnes. Thse de doctorat, University
Paris XI, Orsay, France, 2005.
D. C REMERS, F. T ISCHHUSER, J. W EICKERT et C. S CHNRR : Diffusion snakes : Introducing statistical shape knowledge into the mumford-shah functional. International Journal of
Computer Vision, 50(3):295313, 2002.
202
BIBLIOGRAPHIE
H EALEY. :
Perception in visualization.
http ://www.csc.ncsu.edu/faculty/healey/PP/index.html, 2007.
Disponible
en
ligne
203
C. H UDELOT, J. ATIF et I. B LOCH : Fuzzy Spatial Relation Ontology for Image Interpretation.
Fuzzy Sets and Systems, 159:19291951, 2008.
C. H UDELOT, J. ATIF, O. N EMPONT, B. BATRANCOURT, E. A NGELINI et I. B LOCH : GRAFIP :
a Framework for the Representation of Healthy and Pathological Anatomical and Functional
Cerebral Information. In Human Brain Mapping, Florence, Italy, jun 2006.
D. I OSIFESCU, M. S HENTON, S. WARELD, R. K IKINIS, J. D ENGLER, F. J OLESZ et R. M C C ARLEY : An automated registration algorithm for measuring mri subcortical brain structures.
Neuroimage, 6(1):1325, 1997.
L. I TTI : Models of bottom-up attention and saliency. Neurobiology of Attention, 2005.
L. I TTI : Visual salience. Scholarpedia, 2(9):3327, 2007.
L. I TTI et C. KOCH : Feature combinaison strategies for saliency-based visual attention systems.
Journal of Electronic Imaging, 10(1):161169, 01 2001.
L. I TTI, C. KOCH et E. N IEBUR : A model of saliency-based visual attention for rapid scene
analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):12541259,
Nov. 1998.
W. JAMES : The Principles of Psychology, vol. 1. Dover Publications, 1890.
S. J OSHI, B. DAVIS, M. J OMIER et G. G ERIG : Unbiased dieomorphic atlas construction for
computational anatomy. Neuroimage, 23:151160, 2004.
B. J ULSZ : Textons, the elements of texture perception, and their interactions. Nature, 290:9197,
1981a.
B. J ULSZ : A theory of preattentive texture discrimination based on first-order statistics of textons. Biological Cybernetics, 41:131138, 1981b.
B. J ULSZ et J. B ERGEN : Textons, the fundamental elements in preattentive vision and the
perception of textures. Bell System Technical Journal, 62(6):16191645, 1983.
C. K ANAN, M. T ONG, L. Z HANG et G. C OTTRELL : Sun : Top-down saliency using natural
statistics. Visual Cognition, 17(6), 979-1003 2009.
H. K HOTANLOU : Segmentation 3D de tumeurs et de structures internes du cerveau en IRM.
Thse de doctorat, ENST, 2008.
H. K HOTANLOU, J. ATIF, E. A NGELINI, H. D UFFAU et I. B LOCH : Adaptive Segmentation of
Internal Brain Structures in Pathological MR Images Depending on Tumor Types. In IEEE
International Symposium on Biomedical Imaging (ISBI), p. 588591, Washington DC, USA,
apr 2007.
H. K HOTANLOU, O. C OLLIOT, J. ATIF et I. B LOCH : 3D Brain Tumor Segmentation in MRI Using
Fuzzy Classification, Symmetry Analysis and Spatially Constrained Deformable Models. Fuzzy
Sets and Systems, 160:14571473, 2009.
C. KOCH et S. U LLMAN : Shifts in selective visual attention : towards the underlying neural
circuitry. Human Neurobiology, 4(4):219227, 1985.
204
BIBLIOGRAPHIE
205
K. M IYAJIMA et A. R ALESCU : Spatial organization in 2d segmented images : representation
and recognition of primitive spatial relations. Fuzzy Sets and Systems, 65(2-3):225236, 1994.
ISSN 0165-0114.
A. M OHAMED, E. Z ACHARAKI, D. S HEN et C. DAVATZIKOS : Deformable registration of brain
tumor images via a statistical model of tumor-induced deformation. Medical Image Analysis,
10(5):752763, 2006.
B. M OTTER : Neural correlates of attentive selection for color or luminance in extrastriate area
v4. The Journal of Neuroscience, 14(4):21782189, Apr 1994.
H. M LLER, G. H UMPHREYS, P. Q UINLAN et M. R IDDOCH : Combined-feature coding in the
form domain. Visual Search, p. 4755, 1990.
U. N EISSER : Cognitive psychology. Appleton-Century-Crofts, 1967.
U. N EISSER et R. B ECKLEN : Selective looking : attending to visually specified events. Cognitive
Psychology, 7:480494, 1975.
O. N EMPONT : Modles structurels flous et propagation de contraintes pour la segmentation et la
reconnaissance dobjets dans les images. Application aux structures normales et pathologiques
du cerveau en IRM. Thse de doctorat, Ecole Nationale Suprieure des Tlcommunications,
Mars 2009.
A. N OMA, A. B. V. G RACIANO, R. M. C ESAR -J R, L. A. C ONSULARO et I. B LOCH : Inexact
graph matching for segmentation and recognition of object parts. Rap. tech., So Paulo : MACIME-USP, 2009.
e. a. P. AUER : A research roadmap of cognitive vision. ECVision : European Network for
Research in Cognitive Vision Systems, 2005.
H. PASHLER : The psychology of attention. MIT Press, 1998.
A. P ERCHANT : Morphisme de graphes dattributs flous pour la reconnaissance structurelle de
scnes. Thse de doctorat, Ecole nationale suprieure des tlcommunications, Paris, France,
2000.
A. P ERCHANT et I. B LOCH : Fuzzy Morphisms between Graphs. Fuzzy Sets and Systems, 128
(2):149168, 2002.
K. P OHL, J. F ISHER, W. G RIMSON, R. K IKINIS et W. W ELLS : A bayesian model for joint
segmentation and registration. Neuroimage, 31(1):228239, 2006.
K. P OHL, W. W ELLS, A. G UIMOND, K. K ASAI, M. S HENTON, R. K IKINIS, W. G RIMSON et
S. WARELD : Incorporating non-rigid registration into expectation maximization algorithm to
segment mr images. In Medical Image Computing and Computer-Assisted Intervention (MICCAI), p. 564572, Tokyo, Japan, 2002. Springer.
M. P OSNER : Orienting of attention. The Quarterly Journal of Experimental Psychology, 32
(1):325, 1980.
M. P OSNER, C. S NYDER et B. DAVIDSON : Attention and the detection of signals. Journal of
Experimental Psychology : General, 1980.
206
BIBLIOGRAPHIE
207
A. T SAI, W. W ELLS, C. T EMPANY, E. G RIMSON et A. W ILLSKY : Coupled multi-shape model
and mutual information for medical image segmentation. In Information Processing in Medical
Imaging, p. 185197, Ambleside, UK, jul 2003. Springer.
A. T SAI, W. W ELLS, C. T EMPANY, E. G RIMSON et A. W ILLSKY : Mutual information in coupled
multi-shape model for medical image segmentation. Medical Image Analysis, 8(4):429445,
2004.
J. T SOTSOS : There is no one way to look at vision. CVGIP : Image Understanding, 60(1):9597,
1994.
D. V ERNON : Cognitive Vision Systems : Sampling the Spectrum of Approaches, chap. The space
of cognitive vision, p. 726. Springer, Heidelberg, 2006.
D. V ERNON : Cognitive vision : The case for embodied perception. Image and Vision Computing,
26(1):127 140, 2008. Cognitive Vision-Special Issue.
C. V ILLANI : Topics in optimal transportation. American Math. Soc., 2003.
D. WALTHER et C. KOCH : Modeling attention to salient proto-objects. Neural Networks, 19
(9):13951407, Nov. 2006.
Y. WANG et C. C HUA : Face recognition from 2d and 3d images using 3d gabor filters. Image and
Vision Computing, 23:10181028, 2005.
S. WAXMAN : Correlative neuroanatomy. McGraw-Hill, New York, 2000.
J. W OLFE : Guided search 2.0 : A revised model of visual search. Psychonomic Bulletin and
Review, 1(2):202238, 1994.
J. W OLFE : Visual search. Attention, p. 1373, 1998.
J. W OLFE, K. C AVE et S. F RANZEL : Guided search : An alternative to the feature integration
model for visual search. Journal of Experimental Psychology : Human Perception and Performance, 15(3):419433, 1989.
J. W OLFE et T. H OROWITZ : What attributes guide the deployment of visual attention and how
do they do it ? Nature Reviews Neuroscience, p. 495501, June 2004.
C. X U et J. P RINCE : Snakes, shapes, and gradient vector flow. Image Processing, IEEE Transactions on, 7(3):359369, Mar 1998. ISSN 1057-7149.
J. YANG et J. D UNCAN : 3d image segmentation of deformable objects with joint shape intensity
prior models using level sets. Medical Image Analysis, 8(3):285294, 2004a.
J. YANG et J. D UNCAN : Joint prior models of neighboring objects for 3d image segmentation.
In Computer Vision and Pattern Recognition, vol. 1, p. 314319, Washington, DC, USA, Jul
2004b.
A. YARBUS : Eye movements and vision. Plenum, New York, 1967.
E. I. Z ACHARAKI, D. S HEN, S.-K. L EE et C. DAVATZIKOS : Orbit : A multiresolution framework
for deformable registration of brain tumor images. Medical Imaging, p. 10031017, Aug 2008.