Anda di halaman 1dari 15

Vers

une
mthodologie
d'valuation
qualitative des systmes de dialogue homme
machine
Problmatique
La communication orale homme machine a atteint une maturit qui laisse esprer
le dveloppement futur de systmes oprationnels en conditions relles. En
particulier, les problmes centraux du domaine sont dsormais bien identifis, et
certaines ralisations dpassant le simple cadre du prototype de laboratoire
commencent prsenter des performances encourageantes. L'ensemble des
traitements automatiques impliqus dans la communication orale (reconnaissance
et synthse de parole, comprhension du langage parl, modlisation du
dialogue) ont ainsi connu des progrs significatifs au cours de ces dernires
annes. Afin de capitaliser les enseignements de ces avances et d'orienter au
mieux les recherches futures dans le domaine, la mise en place de procdures
d'valuation adaptes au dialogue oral constitue un enjeu central pour la
communication parole.
Le recours l'valuation est une pratique dj bien tablie dans le domaine du
traitement automatique du langage crit (TALN). Des programmes tels que
TSNLP1 ont ainsi permis l'laboration et la validation de mthodologies fouilles
d'valuation [Lehmann 96]. Reposant sur la dfinition de jeux de test trs dtaills,
ces procdures permettent d'tudier le comportement des systmes sur chaque
phnomne linguistique bien prcis.
A l'oppos, les systmes de reconnaissance de la parole ou de dialogue oral ont
jusqu'ici t principalement valus en termes de performances globales
(programme ATIS2 de la DARPA). Ce type d'valuation permet avant tout de
mesurer le chemin qui nous spare d'un dialogue oral en conditions relles. Il
reste cependant tendre cette mthodologie afin d'atteindre un diagnostic plus
prcis et donc plus riche en enseignements. De ce point de vue, il serait
regrettable d'ignorer les recherches menes sur ce sujet en TALN [Estival 94].
C'est pourquoi nous proposons dans cet article une mthodologie d'valuation
inspire des rflexions de l'ARC ILEC A43 (Comprhension de textes) et adapte
la spcificit de la langue et de la communication orale.
Dans un premier temps, nous allons prsenter les objectifs que nous assignons
la mthodologie propose. Nous dcrirons ensuite les procdures d'valuation
employes dans le cadre du TALN, pour ensuite discuter de leur adaptation aux
spcificits de la modalit orale. A l'aide de multiples exemples, nous dtaillerons
enfin la mise en oeuvre pratique de notre mthodologie, tant pour l'valuation de
la comprhension de la parole que pour celle du dialogue oral.

TSNLP (Test Suites for Natural Language Processing) est un projet du programme LRE (Language Research and
Engeenering) de la Communaut Europenne.
2

ATIS : Air Transport Information Systems

Les Actions de Recherche Concerte sont une initiative de l'AUPELF-UREF, notamment les thmes ILEC
(Informatique, Linguistique et Corpus Ecrits) et ILOR (Informatique, Linguistique et Corpus Oraux).

Pour une valuation gnrique et qualitative


L'valuation de systmes requiert des critres objectifs car les critres subjectifs
sont trop dpendants de l'tat mental de l'observateur mme expert. Mais
"objectivit" en matire d'valuation de dialogue a le plus souvent rim jusqu'ici
avec "quantitatif" donc "mtriques" (EAGLES 97). En mme temps des notions
propres au dialogue, comme la redondance, la cooprativit, l' propos... sont des
concepts non pas absolus mais "dgradables" (Jokinen 96), donc difficiles
mesurer par des moyens quantitatifs. D'o le recours frquent une valuation
par des usagers - sous forme d'enqutes (Bernsen 95, Lamel 95) - qui fait
retomber l'valuation dans les mmes travers.
La mthodologie propose ici revt deux caractristiques essentielles nos
yeux que l'on ne retrouve pas dans les paradigmes d'valuation usuellement
employs en dialogue oral :
gnricit Les systmes de dialogue oral reposent gnralement sur des
thories et des domaines dapplication diffrents. Ainsi, les systmes vocaux
centrs sur l'interrogation de bases de donnes (renseignement de type ATIS)
mettent gnralement en jeu une comprhension reposant la recherche d'lots
clefs [De Mori 94, Minkler 96] ou de segments conceptuels [Perennou 96]. A
l'oppos, les contextes applicatifs plus complexes tels que le dessin ou la
conception assiste par ordinateur ncessitent une comprhension
sensiblement plus fouille, se rapprochant du niveau de dtail exig l'crit
[Antoine 96a, 96b]. Cette diversit explique les problmes gnralement
rencontrs lors des campagnes d'valuation pour dfinir une plate-forme
commune (portage des systmes vers une mme application, adoption de
modes de reprsentation communs, etc.). Il est donc ncessaire de dfinir un
paradigme gnrique d'valuation, qui ne pose aucun a priori sur les
reprsentations utilises par les systmes, ni sur les modles de langage et de
dialogue mis en jeu dans chaque contexte applicatif. La mthodologie que
nous proposons dans cet article permet prcisment d'atteindre cette
gnricit.
On notera par ailleurs que cette gnricit est une garantie sur la rutilisabilit
et l'volutivit des procdures d'valuation. Ce qui n'est pas le cas des
paradigmes utiliss l'heure actuelle, qui sont trs dpendants des
reprsentations smantiques manipuls par les systmes.
qualitativit Le langage parl est un objet complexe qui fait intervenir de
nombreux niveaux de traitements gnralement interdpendants, aux
frontires incertaines, et gnralement lis au domaine dapplication
considr. Comme nous l'avons dj laiss entendre, une valuation purement
quantitative des performances na ainsi qu'un intrt limit, puisqu'elle ne
conduit aucun diagnostic prdictif sur le comportement de chaque niveau de
traitement. Comment peut-on par exemple relier dans ce cadre les bonnes
performances d'un systme au comportement de ses composants ? Doit-on
avant tout crditer la reconnaissance de la parole, les niveaux de
comprhension ou encore le module de dialogue ? Ce raisonnement peut
s'tendre toute valuation quantitative portant sur un niveau prcis de
traitement. Par exemple, quelles conclusions tirer d'un taux global de 90% de
bonne comprhension ? Quels enseignements peut-on tirer de cette valuation
brute quant l'amlioration future du systme ? Surtout, avons-nous

l'assurance que les mthodes employes par le systme, qui sont robustes
dans le contexte de l'application, le seront pour d'autres formes de CHM
orale ? Il n'est qu' observer les diffrences structurelles de langage entre
plusieurs contextes applicatifs pour en douter [Antoine 95].
On voit alors tout l'intrt d'une approche qualitative, qui consiste valuer les
systmes sur des phnomnes linguistiques ou dialogiques bien identifis : plutt
que d'avoir une photographie floue des performances d'ensemble du systme, on
dispose alors d'un diagnostic dtaill du comportement de ce dernier dans des
situations bien dfinies. C'est dans cette approche riche d'enseignements que
nous situerons rsolument notre mthodologie d'valuation.
Enfin, on notera que l'valuation des systmes de dialogue n'a de sens que si elle
s'inscrit dans la perspective d'une communication naturelle. D'o l'intrt de
corpus pilotes tels que celui ralis dans le cadre de l'ARC ILOR B2 (Dialogue
oral) pour recenser les phnomnes linguistiques observs en situation relle qui
doivent ncessairement faire l'objet d'une analyse d'usage [Caelen 97].

Harmoniser les approches : l'valuation en TALN


Le recours des procdures d'valuation est dj bien tabli dans le domaine du
traitement du langage crit (TALN). Ainsi en Europe le consortium du projet
FRACAS (Framework for Computational Semantics) a cherch "harmoniser les
approches" et jet les bases d'un cadre gnral toutes les questions de
smantique computationnelle. Quels que soient les systmes de traitement du
langage considrs (traduction automatique, comprhension de message,
"information retrieval", systmes de dialogue H-M., etc.), les thories smantiques
qui les sous-tendent doivent, selon ces auteurs, rpondre d'un certain nombre de
phnomnes linguistiques de base qu'il doit tre possible de recenser. Et ils s'y
sont attels [FRACAS D7], allant ensuite jusqu' proposer une mthodologie de
test pour vrifier la prise en compte de chaque phnomne par un systme.
[FRACAS D16]. Ces travaux ont inspir par exemple les valuateurs francophones
dans la domaine de la "comprhension de textes" (Rolbert 96) qui, aprs avoir
pass en revue les diffrentes formes de test, retiennent une mthodologie
d'valuation de type "bote noire" et reposant sur des tests gnriques DQR. Ils
distinguent en effet:
le type QR (Q pour question + R pour rponse) : qui est adapt l'valuation de
systmes d'interrogation en langage naturel de bases de connaissances
structures. "Il implique de fournir aux comptiteurs la mme base de donnes
interroger, le modle conceptuel explicite associ (individus, objets, relations,
etc.), ainsi que le lexique sur la base duquel les questions seront formules. Dans
un second temps, il faut fournir aux testeurs un ensemble de questions avec les
rponses attendues".
le type DF (D pour dclaration + F pour reprsentation Formelle): ou "la
reprsentation formelle (F) est une reprsentation prdfinie (liste annote,
tableau, etc.) o sont exprims les rsultats de tches particulires considres
comme lies la comprhension du langage naturel". Mais faisant l'impasse sur la
Question et la Rponse value-t-on vraiment des systmes de comprhension ?
le type DQR (D pour dclarations, Q pour question et R pour rponse).qui est
donc considr comme le meilleur. Car "Tout systme se prtant des tests DQR
peut tre considr comme un systme complet de comprhension du langage

naturel, c.--d. un systme qui analyse (D et Q) et qui synthtise (R) du langage


naturel". Dans chaque test, D est l'ensemble de donnes (nonc(s)
comprendre) contenant les informations suffisantes pour rpondre une question
Q testant un phnomne prcis. La rponse attendue R, sur laquelle se base
lvaluation, est dans l'ensemble : oui / non / ne sais pas.
Tel l'exemple suivant: (Extrait de: Ellipsis, Gapping, cross-sentential gapping
(FRACAS D16 ).
John went to Paris by car.
Bill by train.
-----------------------------------Did Bill go to Paris by train ?
[Yes]
Le projet TSNLP (Test Suites for Natural Language Processing) galement, a bti
des jeux de phrases test pour l'valuation des applications en TALN, avec un
souci de portabilit et de rutilisabilit (Lehman 96, Fouvry 96). Chaque test est
soigneusement annot et ralis en plusieurs langues, le tout venant nourrir une
base de donnes qui s'enrichit progressivement.
L'intrt principal de ces approches est qu'elles obligent les concepteurs de test
avoir une trs bonne connaissance des phnomnes tester, et que les tests
ainsi produits sont relativement simples mettre en oeuvre.
Ce paradigme permet une valuation qualitative car indiffrente aux mthodes et
thories utilises, globale (pas de dsaccord sur les rsultats des sous-systmes)
et centre sur les problmes proprement linguistiques communs aux divers types
d'application. Nous proposons de l'appliquer l'valuation de la comprhension de
l'oral comme du dialogue en procdant par complexification progressive des
ensembles D dans DQ, passant ainsi de la simple requte l'enchanement de un
ou plusieurs tours de dialogue.
Cette valuation plus gnrique sera aussi moins "coteuse" et gagnera en
portabilit: pas de bases de connaissances nouvelles intgrer dans le systme
(D est autosuffisant), pas de modle d'application ou de domaine modifier, pas
de reprsentations ou formalismes communs adopter, pas de reprsentation de
rfrence faire forger par des experts, pas de savant travail de dpouillement
des rsultats par ces mmes experts pour produire des scores; tout le travail est
concentr sur la mise en vidence des phnomnes qu'on veut tester et la
construction d'exemples gnriques qui permettent de le faire, d'o une meilleure
comprhension des phnomnes dialogiques. L'valuation elle-mme se "limitant"
la constitution d'un corpus de test particulier, sorte d'implmentation locale du
test gnrique pour un domaine d'application plutt qu'un autre.

Application de la mthodologie DQR l'valuation


du dialogue
La dmarche consistera donc ici :
- dfinir l'ensemble des phnomnes linguistiques qu'un systme de dialogue oral
devrait savoir traiter
- se focaliser sur les phnomnes particuliers l'oral et au dialogue

- en choisir un sous-ensemble reprsentatif et proposer des exemples de test pour


chacun des phnomnes.
Pour le premier point on se rfrera au travail des projets cits ci-dessus qui sans
prtendre l'exhaustivit ont dj jet de bonnes bases.
Les spcificits du langage oral, au sens de la parole spontane et non lue, ont
trait [Blanche-Benveniste 90]:
l'locution: hsitation, bruits d'locution, interruptions dinterlocuteurs
potentiels, recouvrement de voix, spcificits acoustiques de lenvironnement...
Ces caractristiques jouent un rle surtout dans la phase de reconnaissance de
la parole, mais, mme s'il faut le remettre plus tard, leur rle smantique
serait galement prendre en compte. Les phnomnes de reprise (et de
rparation induite) tiennent galement une place importante: reprise avec
effacement, avec ajout, avec rptition. Les pellations sont galement propres
loral.
au linguistique, ds le niveau morpho-phonologique ( il y a est prononc
ya ), puis le niveau lexical (mots dargot, emprunts, mots trangers, etc.)
jusquau niveau syntaxico-smantique avec, par exemple, la dstructuration de
la syntaxe dans les questions: suppression des mots interrogatifs,
renversement de l'ordre, mises en opposition, en apposition, rptitions, etc.
au niveau pragma-linguistique pour ce qui concerne les rfrents au monde
(marqus loral surtout par les dictiques comme prends ce cercle ), les
rfrents situationnels (objets visibles et non-visibles, comme prends le
rouge , spatialit je suis ici , sujet parlant cest moi qui te parle ), et les
rfrents darrire-plan (le quai A est souvent ct du quai B, lheure darrive
ne peut prcder lheure de dpart encore quil peut sagit de deux jours
diffrents ou dun changement de fuseau horaire...)
au dialogique : anaphores, ellipses, reprise dune partie de la question
prcdente ( puisque tu veux savoir o jtais hier, eh, bien oui, jtais
Paris ) marques darticulation du dialogue ( donc maintenant, je voudrais aller
au cinma ) et signes de comprhension ou dacquiescement, voire de relance
( oui, oui, jcoute ), marqueurs rhtoriques et argumentatifs (connecteurs,
ligateurs, prsentatifs, phatiques, etc., comme le dit si bien Boileau dans son
discours sur la persuasion, je pense quil faudrait que lon considre ce
problme dans toute son tendue rhtorique ) dans la mesure o ces
phnomnes sont plus frquents l'oral qu' l'crit, et jouent sur plusieurs
degrs du fait des tours de parole.
Il conviendra donc de s'inspirer de dialogue rels spontans pour y rechercher les
phnomnes linguistiques importants, et pour les illustrer partir d'exemples
vridiques dans les test DQR.
Enfin la notion de dialogue implique qu' il y ait au moins 2 interlocuteurs, et donc
au moins 2 rpliques de prfrence.
Une mthodologie multi-niveaux pour une valuation qualitative
Afin d'tudier les systmes de dialogue sur des phnomnes linguistiques et
dialogiques bien prcis, nous avons dfini sept niveaux d'valuation relativement
indpendants. Nous allons prsenter brivement ces diffrents niveaux
d'valuation. Le paragraphe suivant, comportant plusieurs exemples de tests DQR
pour chaque niveau, sera l'occasion d'une prsentation plus dtaille.

Les trois premiers niveaux concernent l'tape de comprhension de la parole et


ne mettent en jeu aucune information dialogique. La phrase de donne D
correspond ainsi une4 requte utilisateur. L'objectif est de vrifier si le systme a
extrait une reprsentation smantique correcte de l'nonc, indpendamment du
formalisme adopt. Chaque question Q fait appel la caractrisation dune
relation smantique5 prcise au sein de l'nonc D. Les trois niveaux d'valuation
mettent en jeu des processus de complexit croissante pour la rcupration de
cette information smantique :
Information explicite (niveau 1) Reprage dune information explicite dans
lnonc.
Ce niveau concerne la comprhension d'noncs simples ne comportant
aucune ellipse ou anaphore. A ce niveau, les principales difficults de
traitement concernent la prise en compte robuste de la variabilit structurelle du
langage spontan (hsitations, rptitions, corrections, dislocations, etc.) ainsi
que sa richesse informationnelle, caractristique largement ignore dans les
procdures d'valuation actuelles6.
Information implicite (niveau 2) Rsolution des rfrences implicites une
information.
L'objet de l'valuation est ici la rsolution des anaphores, des ellipses, et des
incompltudes, phnomnes omniprsents en dialogue oral spontan. A ce
niveau, on reste dans le cadre d'ellipses et d'anaphores littrales, c'est dire
rcuprables un niveau structurel (syntaxe ou smantique). Les constructions
implicites faisant appel des traitements pragmatiques ou dialogiques font
l'objet d'une valuation au niveau suivant.
Infrence (niveau 3) Construction du sens complet de l'nonc.
On s'intresse ce niveau la construction du sens complet (ou sens rel
[Prennou 96]) de l'nonc, c'est dire replac dans son contexte pragmatique
et dialogique. Le passage du sens littral au sens complet ncessite
l'intervention de processus infrentiels afin de rcuprer la part de sousentendu qui est gnralement prsente dans les requtes de l'utilisateur. Ces
sous-entendus dpassent largement le cadre des rfrences anaphoriques et
elliptiques. On distinguera les rsolutions faisant appel un raisonnement de
sens commun de celles faisant intervenir des infrences pragmatiques.
Les deux niveaux suivants concernent le dialogue. On peut se placer divers
degrs: au niveau de l'change (2 tours de parole) ou au niveau de la transaction
complte (de but pos but atteint ou abandonn ou atteint et satisfait). A chacun
de ces niveaux on peut se placer soit du point de vue de la machine (ou
allocutaire), cest--dire en entre du systme, soit du point de vue de lutilisateur
(ou locuteur), cest--dire en sortie du systme. Dans le premier on adresse les
niveaux 4 et 5, dans le second cas on adresse les niveaux 6 et 7.
Interprtation du type dacte illocutoire (niveau 4) On value ici si une
demande, mme indirecte, a t bien interprte comme telle, si une
confirmation, une contestation, une assertion, etc. ont t bien reconnues.

Ou ventuellement plusieurs, comme nous le verrons dans les exemples du paragraphe 7.

Suivant le formalisme adopt, on parlera galement de rle thmatique ou de cas smantique [Minkler 96]

Citons par exemple les phnomnes de coordinations non triviales et, pour le niveau suivant, d'anaphore
plurielles.

Cette interprtation est en fait une identification du but illocutoire de lacte en


cours. La porte de cette valuation est donc de lordre de la rplique (intention
en action chez Searle).
Reconnaissance des intentions (ou du but) (niveau 5) On sintresse ce
niveau lchange ou la transaction pour valuer la reconnaissance de buts
plus profonds (intention pralable chez Searle). Il sagira par exemple
didentifier rapidement que tel client ne souhaite pas prendre son petit-djeuner
lhtel, cela vitera plus tard de lui parler des prix dudit petit-djeuner.
Pertinence de la rponse (niveau 6) On value ici la rponse du systme
suite chaque requte utilisateur, en progressant au cours du dialogue. Cette
pertinence est pondrer en fonction des connaissances de la machine, de ses
capacits linguistiques et du type d'utilisateur.
Pertinence de la stratgie (niveau 7) On value ici la rponse du systme
la fin dun change ou la fin du dialogue : la transaction est-elle russie ? A-telle t efficacement mene ?
Mise en oeuvre de la methodologie DQR pour l'valuation du dialogue oral
Afin d'illuster la mise en oeuvre pratique de la mthodologie propose, nous
donnons dans ce paragraphe plusieurs exemples de tests DQR par niveau
d'valuation. Nous allons tout d'abord relever les proprits caractristiques des
jeux de tests que nous nous proposons de raliser, afin de bien marquer les
spcificits de cette mthodologie par rapport aux procdures d'valuation
employes tant l'oral qu' l'crit.
Spcificits de la mthodologie propose
Avant toute chose, il convient de rappeler que cette mthodologie concerne
l'valuation de systmes de dialogue oral finalis. Dans ce cadre, l'accent est mis
sur la robustesse des processus de comprhension et sur la pertinence de la
stratgie de dialogue. Il ne s'agit pas de vrifier in extenso que le systme a tir
tout ce qu'il y avait conclure de l'change, mais seulement ce qui est pertinent
pour tablir sa comprhension des phnomnes dialogiques et de la marche du
dialogue en cours. Ainsi, la recherche d'une grande couverture linguistique, tout
en tant un prrequis indispensable une bonne comprhension pour des
contextes applicatifs volus (CAO par exemple), ne constitue pas un objectif
d'valuation en soi. En particulier, on ne retrouvera pas ici l'intrt marqu par la
communaut TALN pour une valuation centre sur la syntaxe (phnomnes
d'accord, de complmentation etc.).
Paralllement, la mthodologie d'valuation doit prendre en compte, d'une part le
cot de la reconnaissance de parole, d'autre part la spcificit des modles de
langages utiliss par la plupart des systmes de dialogue : alors que les systmes
de comprhension de l'crit visent une grande couverture linguistique, ceux
utiliss l'oral se concentrent sur la modlisation des requtes de l'utilisateur. En
pratique, il est donc ncessaire de simplifier au maximum la question Q pour la
centrer uniquement sur le phnomne que l'on dsire tester. Cette contrainte
garantira la gnricit de l'valuation et vitera que ce ne soient les difficults du
systme comprendre la question Q et non la requte D qui soit value !
Par ailleurs, la prise en compte dans un jeu unique de test DQR de plusieurs
phnomnes est susceptible d'introduire des biais de mme nature. On n'y aura
donc pas recours dans un premier temps.

Enfin, on notera l'emploi de donnes D positives (R = NON) et ngatives (R =


OUI) dans les jeux de tests proposs. Cette approche, absente des procdures
utilises l'oral, doit aider l'tablissement d'un diagnostic utile pour chaque
phnomne. Plutt que de s'en remettre une valuation de type tout ou rien, un
choix pertinent de donnes ngatives peut en effet conduire une caractrisation
des causes des checs subis par le systme. Plusieurs illustrations seront
donnes, de ce point de vue, dans les exemples ci-dessous.
Niveau information explicite
On rappelle que l'objectif est ici le reprage d'une information explicite dans
l'nonc. Celle-ci est traduite sous la forme d'une relation smantique sur laquelle
se concentre la question Q :
(1)

D
Q
R

Ce serait pour partir demain pour Vannes


Aller Vannes ?
Oui

Dans cet exemple, on cherche retrouver le cas Destination Vannes. On


remarquera l'extrme simplicit de la question, qui ne doit poser aucun problme
de comprhension un systme de dialogue. L'information recherche
correspondait ici un lment clef de la requte. Ce niveau de dtail est
largement suffisant pour des applications de type ATIS. D'autres cadre applicatifs
plus complexes, peuvent cependant ncessiter l'extraction d'informations de plus
bas niveaux (arguments d'arguments) :
(2)

D
Q
R

Vous prenez droite aprs les btiments blancs aux volets bleus
Volets bleus ?
Oui

(3)

D
Q
R

Vous prenez droite aprs les btiments blancs aux volets bleus
Btiments aux volets bleus ?
Oui

La relation d'attribution entre le substantif volets et la couleur bleu se situe un


niveau de profondeur 3 dans la structure smantique de l'nonc. Il s'agit donc
d'une information de second plan dont la comprhension peut cependant tre
cruciale dans certaines contextes. On regrettera ainsi que les procdures
d'valuation traditionnelles ignorent largement cette richesse informationnelle de la
communication orale.
On remarquera par ailleurs que les tests (2) et (3) permettent un diagnostic trs
progressif : rattachement de l'adjectif attribut bleus dans le cas de la question (2),
rattachement du groupe prpositionnel aux volets bleus dans le cas de la question
(3). Enfin, l'utilisation de donnes ngatives telles que (4) permet de dtecter la
cause d'ventuelles erreurs :
(4)

D
Q
R

Vous prenez droite aprs les btiments blancs aux volets bleus
Btiments bleus ?
Non

Ici, en cas d'erreur (rponse : OUI), on a affaire un mauvais rattachement de


l'adjectif attribut.
Nous avons not qu'une des difficults principales des systmes ce niveau
consiste en la prise en compte des inattendus structurels de la parole spontane.
Hsitations, rptitions, reprises, corrections, dislocations peuvent tre values
sans difficults l'aide de tests DQR. Par exemple :

(5)

D
Q
R

Je voudrais partir demain non aprs-demain


Partir demain ?
Non

(6)

D
Q
R

Je voudrais partir demain non aprs-demain


Partir aprs-demain ?
Oui

On retrouve sur cet exemple de correction la progressivit de la mthodologie :


dtection de la correction dans le cas de la question (5) et test de la rsolution de
cette dernire dans le cas de la question (6).
Niveau information implicite
A ce niveau, on s'intresse essentiellement la rsolution des rfrences
anaphoriques et elliptiques qui peuvent tre traites sans intervention du contexte
pragmatico-dialogique :
On rappelle que l'objectif est ici le reprage d'une information explicite dans
l'nonc. Celle-ci est traduite sous la forme d'une relation smantique sur laquelle
se concentre la question Q :
(7)

D
Q
R

Vous prenez la rue droite et vous la suivez sur 300 m


Suivre la ?
Oui

(8)

D
Q
R

Vous prenez la rue droite et vous la suivez sur 300 m


Suivre rue droite ?
Oui

(9)

D
Q
R

Vous prenez la rue droite et vous la suivez sur 300 m


Suivre droite ?
Non

Les exemples prcdents correspondent un cas de rsolution d'anaphore


pronominale. La question (7) permet de vrifier le rattachement du pronom la au
bon rle smantique, tandis que la question (8) s'assure de la bonne rsolution de
la rfrence anaphorique. En cas d'erreur, la donne ngative (9) permet enfin
d'identifier un mauvais rattachement de rfrent.
(10) D
Q
R

Donnez moi un billet pour Paris et aussi pour Lyon


Billet pour Lyon ?
Oui

(11) D
Q
R

Donnez moi un billet pour Paris et aussi pour Lyon


Billet de Lyon vers Paris ?
Non

Le test (10) correspond la rsolution de l'ellipse du verbe donner par l'adverbe


aussi. La donne ngative permet de tester un cas, parmi d'autres, de mauvaise
rsolution. Les ellipses non marques peuvent faire de mme l'objet d'une
valuation.
Les exemples prcdents correspondaient des anaphores et des ellipses
internes la structure de phrase. Il arrive cependant frquemment que le rfrent
recherch se trouve dans un nonc prononc auparavant. Il est donc impratif
de construire des jeux de tests portant sur de multiples noncs pouvant couvrir
plusieurs tours de parole :
(12) D

Vous prenez la premire rue qui se prsente

D
D
Q
R

A droite ou gauche ?
Celle de droite
Rue de droite ?
Oui

Les tests sont alors de la forme Dn QR, o n correspond la porte de l'anaphore


(resp. de l'ellipse) en terme de nombre de tours de paroles. On prendra cependant
garde de ne pas interprter ces tests comme des tours de parole rels entre le
systme et l'utilisateur. Il n'est en effet pas souhaitable d'introduire la rponse du
systme la premire requte D comme donne suivante. Ce serait en effet
introduire le comportement dialogique du systme (valu aux niveaux 4 et 5) ds
cette tape. La succession des donnes D correspondra donc un dialogue fictif,
la tche du systme valu tant d'intgrer convenablement ces informations
comme il le ferait en situation relle de dialogue pour pouvoir rpondre
correctement la question. Ici encore, les donnes D correspondant aux
interventions du systme fictif doivent tre aussi succinctes que possible, puisque
l'objectif n'est pas la comprhension des rponses du systme de dialogue !
Niveau infrence
Dans le cadre d'une CHM finalise, les infrences de nature pragmatique sont
bien sr prminentes au cours du dialogue. On donnera donc trois exemples de
raisonnement pragmatique :
(13) D
Q
R

Bonjour, je voudrais un aller-retour pour Paris


Vouloir billet ?
Oui

(14) D
Q
R

Bonjour, je voudrais un aller-retour pour Paris


Aller-retour Paris Grenoble ?
Oui

(15) D
D
Q
R

Je voudrais une chambre avec bain


Ah, et une avec douche pour mon collgue
Chambre avec douche ?
Oui

Les tests (13) et (14) correspondent une infrence pragmatique sans ellipse ni
anaphore. Dans le premier cas, le systme de comprhension doit associer le
concept d'aller-retour avec celui de billet, tandis que dans le second cas, c'est la
connaissance de la localisation de la borne de rservation (gare de Grenoble) qui
lui permet de rpondre par l'affirmative7. La donne (15) comprend une anaphore
pronominale qui peut tre ventuellement rsolue un niveau strictement
structurel. La connaissance du monde de l'application (dans notre exemple : une
chambre peut comporter un bain, une douche ou un cabinet de toilettes) facilite
nanmoins la tche du systme.
On peut de mme dfinir des jeux de tests pour des infrences de sens commun.
Par exemple:
(16) D
Q
R
7

Pierre se rend un meeting.


Il doit le prsider.
Est-ce que Pierre doit prsider un meeting ?
Oui

Ds qu'intervient le contexte pragmatique de l'application, les jeux de test perdent bien videmment en
gnralit. Cela ne remet pas en cause la gnricit de la mthodologie propose.

O la connaissance que "un meeting a se prside" ne faisant pas a priori partie


du monde de l'application, relve du sens commun et vient en renfort pour
rpondre la question; alors qu'une rsolution au niveau structurel ne pourrait
gure aboutir que par dfaut.
Pralable aux niveaux de dialogue (4 7)
Ds que l'on envisage l'valuation du dialogue en tant que tel, la difficult se
trouve intrinsquement augmente. En effet tout dialogue suppose au moins deux
interlocuteurs, et pour prendre corps au moins deux tours de parole (un pour
chaque interlocuteur) c'est--dire un change. Ainsi l o la comprhension
pouvait se ramener un problme de reprsentation de donnes ou de
connaissances, le dialogue doit les englober dans une reprsentation d'une
situation de communication, celle o des tours de parole existent, o les signaux
viennent d'un interlocuteur ou de l'autre. Quelle que soit la forme que prenne
l'valuation, dans la mesure o elle n'est pas observation humaine, elle implique
que le systme "reconnaisse" et attribue chacun des interlocuteurs ce qui lui
revient, ce qui constitue le fondement d'une "mta-connaissance" car non extraite
des noncs des interlocuteurs. Toute question se rapportant ensuite des
notions de but illocutoire, d'intention, de pertinence, de stratgie, peut se formuler
par : "Quel est le but illocutoire de cette rplique ?", "Est-ce que l'utilisateur X a
obtenu une information ?, "Quel est la demande de X ?", "Qu'elle est le but
pralable de X ?", "Est-ce que l'utilisateur est satisfait ?", " Est-ce que le but de X
est atteint ?" (1) relve de ce mta-niveau. Il est en effet rare qu'un usager se
prsente en demandant: "Mon but est de vous demander de me dire les horaires
de bus de la ligne 3". C'est donc bien au systme qu'incombe la dtermination du
but de l'usager et son pralable est bien que le systme sache que l'usager est un
interlocuteur qui a habituellement un but. La notion de but est un concept implicite,
parmi d'autres, la situation de communication.
Ces concepts implicites sont-ils accessibles aux systmes de traitement
automatique ?
Les systmes de dialogue actuels raisonnent dj peu ou prou en terme de but de
l'utilisateur. Rien n'interdit donc qu'ils puissent rpondre prochainement des
questions du type (1) dans la mesure ou les notions de satisfaction de but, de
pertinence, y seront implantes. Et ce d'autant plus que c'est l'aulne de ces
prises en compte qu'ils seront valus en fin de compte par les usagers. Un
systme qui rpondrait aux questions (1) devient un systme de dialogue qui fait
en mme temps de l'analyse de dialogue, qui a un regard sur le droulement du
processus de communication. Ds lors la question "Est-ce que cette rplique est
pertinente ?" pourrait aussi et devrait pouvoir in fine lui tre pose.
Exemple de dialogue entre un client (C) et un agent (A)
C- Bonjour,
ouverture
je cherche la piscine municipale...
requte_1
et puis les horaires...
requte_2
A- La piscine municipale est 2, rue Machin,
rponse-requte_1
mais il y en a une plus prs.
compltive
C- Ah bon ?
expressif-continuatif
A- Oui, il y a la piscine Truc tout prs d'ici.
information_1
C- C'est par o ?
requte_3
A- Vous prenez la premire gauche et c'est un peu plus loin
rponserequte_3
C- A gauche ?
requte-clarification

A- Oui c'est cela.


C- Trs bien merci.
Au revoir.
A- Au revoir.

confirmation
satisfaction
clture
clture-ractive

Les questions suivantes pourraient tre poses au systme (s'il joue le rle
d'agent dans ce dialogue) :
Q- C veut-il aller la piscine municipale ?
R- oui
ou
Q- C a-t-il formul une requte propos de la piscine Truc ?
R- oui
Aussi nous pensons que la mthode DQR doit pouvoir se gnraliser
l'valuation du dialogue D (la squence QR tant insre au cours du dialogue ou
pose la fin). Nous donnons ci-aprs quelques exemples pour les niveaux 4 7.
Niveau Interprtation du type d'acte illocutoire
Les tests de ce niveau portent sur une rplique. Ils doivent permettre de
diagnostiquer si le systme de dialogue reconnat les types d'actes de dialogue
(ou buts illocutoires), notamment pour les actes directs et indirects, elliptiques, etc.
L'exemple (17-17') montre l'effet contextuel qui influe sur la rponse R (la question
Q porte sur la rplique antcdente).
(17) D
Q
R

Un billet pour Paris SVP


Est-ce une demande ?
Oui

une demande indirecte

(17') D

Qu'est-ce que vous m'avez demand ?


Un billet pour Paris SVP
Q
Est-ce une demande ?
R
Non
une rponse clarificatrice
Les tests de ce niveau doivent permettre de diagnostiquer galement les
incidences comme la clarification, l'argumentation, l'exemplification, la rparation,
etc. Par exemple (18) teste la rparation :
(18) D
Q
R

Je m'appelle Dupont
Est-ce que votre nom est Durand ?
Non, moi c'est Dupont
Est-ce que le client s'appelle Durand ?
Non

Niveau Reconnaissance des intentions


A ce niveau, les tests portent sur un change ou sur l'ensemble du dialogue
(appel transaction dans ce contexte applicatif). Les questions portent sur les buts
et intentions de l'utilisateur, sur la situation initiale et sur la situation finale
(satisfaction, informations acquises, etc.). Nous avons par exemple :
(19) D
Q
R

Vous m'avez demand un billet aller-retour ?


Oui, pour Paris, SVP
Le client veut-il aller Paris ?
question sur l'intention pralable
Oui

(20) D
l'cole

Q
R

Il y a un premier feu en face de la gendarmerie et un second prs de


Dois-je tourner gauche aprs le feu ?
Oui, le premier
D'accord et l, je trouve la Mairie
Le client sait-il aller la Mairie ? question sur la satisfaction du but
Oui

Niveau Pertinence de la rponse


Ce niveau de test adresse les rponses de la machine vis--vis de l'utilisateur. Les
tests sont donc plutt adresser l'utilisateur en cours ou la fin du dialogue. La
mme procdure peut donc encore tre employe, soit de manire rflexive vis-vis de l'utilisateur soit en faisant intervenir un observateur extrieur. Cet
observateur extrieur peut d'ailleurs tre une autre machine qui on fournit les
critres de pertinence et qui en calcule le score.
Le problme de la pertinence se pose sur plusieurs dimensions :
(a) vis--vis des ressources linguistiques : pour un mme contenu propositionnel,
est-ce que l'acte est bien formul ? Est-ce que sa force illocutoire est bien ajuste
?
(b) vis--vis de l'utilisateur : y a-t-il toutes les informations pertinentes dans la
rponse, c'est--dire ncessaires et suffisantes ? Quelles sont les informations
superflues ?
(19) D
Q
R
(21) D
Q
R

Je voudrais une chambre double avec WC et tlphone


Ne savez-vous pas que l'htel est complet aujourd'hui ?
Cette question est-elle agressive ?
Oui (degr de force mal dos)
Vous m'avez demand un billet aller-retour ?
Oui, pour Paris, SVP
Pour aller Paris ?
Cette question est-elle ncessaire ?
Non

(21') D

Vous m'avez demand un billet aller-retour ?


Oui, pour Paris, SVP
Je vous propose une place en seconde classe fumeur
Q
Cette question est-elle formule au bon moment ?
R
Non (car il manque le jour et l'heure on ne peut donc savoir s'il y aura
des places disponibles)

Un systme pourrait rpondre automatiquement cette question (si on lui dfinit


ce qu'est tre "pertinent"), par exemple dans un script "rservation": la demande
de l'utilisateur remplit le slot "chambre", mais laisse les slots "date", "nombre de
lits", "bain" etc. vides. Si la rponse du systme peut contribuer remplir les slots
manquants, alors elle est pertinente... encore ne faudrait-il pas poser une question
avec tous les slots dans un mme nonc car cela deviendrait incomprhensible.
O s'arrte alors la pertinence ?
Niveau Pertinence de la stratgie
La stratgie peut-tre teste au moment des ruptures que nous dfinissons
gnriquement comme l'ensemble des impasses, incomprhensions, incidences,
abandons, changement brutal de thme, remises en cause, remises en question,
droutements, etc. Lorsque le dialogue se droule normalement, la stratgie peut

ne pas tre pertinent parce que simplement trop longue ou trop sinueuse. Pour
tester la longueur d'un dialogue, le critre le plus simple est de compter le nombre
de tours de parole qui permet d'atteindre et de satisfaire le but. Mais le cas des
ruptures est plus intressant car il permet de diagnostiquer le systme. Les
ruptures se produisent pour deux raisons :
(a) la communication tait fonde sur des informations non partages (implicites
d'arrire-plan, concepts inexistants, etc.), et l'on s'aperoit tout d'un coup qu'on ne
se comprend plus et que ce qu'on a dit jusque l ne servait rien,
(b) la stratgie mene par l'un des partenaires est inadquate (lenteur du
droulement, incidences trop nombreuses, clarifications rptition, directivit
trop grande, etc.).
Il est alors facile de faire un diagnostic sur ces ruptures. Par exemple l'aide de
tests tels que (22) et (23)
(22) D

Vous m'avez demand un billet aller-retour ?


Oui, pour Paris, SVP
Je vous propose une place en seconde classe fumeur
Non je prfre en premire car j'ai 50% de rduction
Pour quelle heure ?
Tt le matin ne me drange pas, je dois seulement arriver 12 h
Voil, une place premire au train de 5 h 44, TGV avec supplment,
900 F
Ah non ! Je n'ai pas de rduction sur ce train ?
<- Rupture
Q
Le mcontentement est-il d la stratgie ?
R
Oui (il aurait fallu utiliser l'information sur la rduction de 50% plus
tt)

(23) D

Q
R

Je voudrais une chambre pour mon fils


Oui, pour qui ?
Pour mon fils Paul, il vient me voir jeudi
Une chambre simple ou double ?
Simple, c'est pour mon fils
D'accord, je rserve pour quand ?
Ecoutez, vous le faites exprs ?
<- Rupture
Y a-t-il trop de questions de confirmations indirectes ?
Oui

Conclusion
L'valuation des systmes de comprhension et de dialogue oral peut se situer
dans le cadre gnral de l'valuation des systmes de traitement du langage et en
particulier dans le prolongement de l'valuation de la comprhension de l'crit.
Nous avons propos de mettre au point une mthodologie d'valuation base sur
des tests gnriques de type DQR qui devraient permettre d'amliorer nos
analyses des phnomnes dialogiques et de diagnostiquer les systmes de
comprhension et de dialogue. Nous avons dfini sept niveaux de test :
Information explicite (niveau 1) Reprage dune information explicite dans
lnonc.
Information implicite (niveau 2) Rsolution des rfrences implicites une
information.
Infrence (niveau 3) Construction du sens complet de l'nonc.

Interprtation du type dacte illocutoire (niveau 4) Identification du but


illocutoire d'une rplique
Reconnaissance des intentions (ou du but) (niveau 5) Satisfaction du but de
l'change
Pertinence de la rponse (niveau 6) Pertinence des informations dlivres
par la machine
Pertinence de la stratgie (niveau 7) Satisfaction de l'utilisateur dans le
droulement du dialogue

Anda mungkin juga menyukai