Lapproche du traitement des langues que nous exposons ici obit un certain nombre de principes. Ce chapitre est consacr leur prsentation. Dans notre esprit, les expressions traitement automatique du langage naturel (TALN) et traitement automatique des langues (TAL) sont synonymes. Un langage est naturel (comme le franais ou le latin) ou formel (comme la logique des prdicats ou un langage de programmation). Qu'elle soit morte ou vivante , une langue est toujours naturelle. Les diffrentes langues maternelles constituent nos langages naturels. Nous appellerons objets linguistiques le matriau linguistique sur lequel porte le traitement automatique du langage naturel. Ecrits ou parls, les mots, les syntagmes, les propositions, les phrases, les textes, les discours, les dialogues,
etc., sont de tels objets. Dans la pratique, un systme de traitement automatique du langage naturel doit permettre l'utilisation de moyens informatiques pour raliser diffrentes tches, comme par exemple : corriger dans un texte des fautes d'orthographe, de grammaire ou des maladresses stylistiques (correcteurs associs des traitements de textes, ...) analyser un texte pour en extraire des mots-cls en vue de son indexation (documentation automatique, moteurs de recherche, extraction dinformations, veille technologique, ...) interroger en langage naturel des donnes structures (bases de connaissances, bases de donnes, etc.) (interfaces en langage naturel, ...); analyser un texte pour en produire une reprsentation sous la forme de donnes structures (cration et mise jour de bases de connaissances, ...) ; produire un texte (rcit, document technique, etc.) partir de donnes structures (gnration automatique, ...) ; conduire des systmes, des automates, des robots partir de formulation en langage naturel ; traduire un texte dans une autre langue (traduction automatique, ...) ; rsumer un texte (rsum automatique, ...) ; analyser un texte pour y reprer des figures de style (mtaphores, mtonymies, etc.) (analyse stylistique, ...) ; assister une personne dans l'apprentissage d'une langue (didactique des langues, ...) ; assister une personne dans la production de documents (langage contrl, ...) ; assister une personne handicape d'noncs (communication assiste, ...) ; etc. La liste ci-dessus des applications pratiques n'est pas exhaustive. Dune faon plus gnrale, un systme de traitement automatique du langage naturel doit dans la formulation
Principes
permettre l'utilisation de moyens informatiques pour associer de faon automatique des reprsentations formelles des objets linguistiques et/ou pour produire de tels objets partir de reprsentations formelles. On parle dans le premier cas de systmes d'analyse ; dans le second cas, de systmes de synthse (de production ou encore de gnration). Parmi les applications qui associent dans leur droulement les processus d'analyse et de synthse, on peut citer en particulier les oprations suivantes : la correction automatique (ou assiste) de phrases et de textes aux niveaux orthographique, grammatical, stylistique, etc. ; la production de rsums de textes partir de la comprhension de textes sources ; la traduction automatique (ou assiste) de phrases ou de textes en une ou plusieurs langues ; les interfaces dites intelligentes qui fonctionnent la fois en analyse (comprhension de phrases, de questions, etc.) et en synthse (production de messages, de rponses, aide la formulation, etc.). Les traitements automatiques peuvent avoir aussi pour finalit l'aide la constitution de bases de connaissances linguistiques : lexiques, dictionnaires monolingues ou multilingues, dictionnaires de frquence, de concordances, thsaurus, grammaires, etc. Ces bases linguistiques pourront tre utilises comme ressources pour la ralisation des diffrents types d'applications mentionns ci-dessus. Lorsque nous disons qu'un systme d'analyse doit permettre d'associer de faon automatique des reprsentations formelles des objets linguistiques, il nous faut ajouter que ces reprsentations serviront d'autres traitements. Parmi toutes les applications du traitement automatique, certaines ncessitent la production de reprsentations permettant d'valuer l'objet linguistique dans un monde de rfrence, rel ou imaginaire, peu importe C'est le cas en particulier des applications dont les objectifs sont l'interrogation en langage naturel de bases de connaissances (comme des bases de donnes), ou bien la cration de ces bases de connaissances partir de formulation en langage naturel, ou encore, la comprhension de discours et de dialogues. C'est ce type d'applications que nous nous intresserons ici. Il est important de prciser que l'valuation d'un objet linguistique dans un univers de rfrence fait appel des connaissances, des procdures et des techniques qui ne relvent plus du
domaine du traitement automatique du langage mais d'autres domaines comme par exemple la dmonstration automatique. L'analyse automatique du langage naturel s'arrte donc la production de reprsentations ncessaires et suffisantes dans leurs formes et leurs contenus pour les traitements ultrieurs auxquels elles sont destines.
Principes
expressions (mots, phrases, etc.) font rfrence des objets. Rels ou imaginaires, ces objets sont les rfrents de ces expressions, et constituent ce que l'on appelle l'univers du discours, que l'on distingue de la ralit. Dans l'tude des aspects smantiques, la seconde tape intgre en particulier la rsolution des rfrences dnotationnelles lies l'emploi des expressions dfinies, des anaphores, des dictiques, ou, en d'autres termes, ce qu'on appelle la vrification des prsuppositions existentielles.
Le chapitre 2 est consacr d'une part aux principes et formalismes retenus pour dfinir un ensemble de phrases lexicalement et syntaxiquement bien formes, et d'autre part la dfinition d'un tel ensemble pour un sous-ensemble de phrases du franais.
1.3 Smantique
D'une faon gnrale, on s'intresse au traitement automatique des expressions linguistiques de type phrase. Une assertion ou une question sont des types de phrase. Une assertion prsuppose des connaissances sur un monde et en exprime d'autres. Une question prsuppose des connaissances sur un monde et exprime une demande de connaissances sur ce monde. Qu'il s'agisse d'une assertion ou d'une question, une phrase formule donc des connaissances sur un monde, c'est--dire, exprime une situation particulire mettant en jeu des individus et des relations. La reprsentation smantique d'une phrase donne doit permettre d'exprimer sans ambigut et de faon prcise cette situation particulire. Cette situation particulire est-elle ou non en contradiction avec celles prcdemment dcrites ? La valeur smantique de cette reprsentation doit nous permettre d'en dcider, et cela en lui attribuant une valeur de vrit : vrai ou faux. On ne peut parler de valeur smantique d'une phrase que par rfrence un ensemble de situations. Pour nous, la reprsentation et la valeur smantiques d'une phrase sont indissociables. On parlera alors du sens d'une phrase, et le traitement du langage naturel qui nous intresse ici est celui qui consiste obtenir automatiquement ce sens. nos yeux, deux aspects restent fondamentaux dans la nature de la reprsentation smantique recherche. On s'intresse d'une part savoir quelle est la valeur d'une reprsentation smantique particulire par rapport un ensemble de connaissances dcrivant un univers de rfrence. On peut appeler cet aspect valuation. D'autre part, on s'intresse aux faons dont les expressions de ce langage de reprsentation sont relies entre elles, et plus particulirement aux infrences ralisables au sein de l'ensemble des expressions. On peut appeler cet aspect dduction. Les deux aspects essentiels que sont l'valuation et la dduction font de la logique le seul langage pertinent pour la reprsentation smantique des phrases.
Principes
En effet, c'est le seul possder une syntaxe et une smantique rigoureusement dfinies, et offrir une thorie dductive rigoureuse. La syntaxe du langage de la logique dfinit les expressions correctes du langage : les termes et les formules. Parmi ces dernires, on distingue les formules atomiques qui sont les plus lmentaires. La smantique du langage de la logique dfinit les rgles de calcul permettant d'associer toute formule une valeur de vrit (vrai ou faux) partir des valeurs de vrit des formules atomiques. Les valeurs de vrit des formules atomiques constituent ce qu'on appelle une interprtation (ensemble de situations de rfrence). La thorie dductive permet de mettre en relation (implication logique) les reprsentations logiques. Pour un ensemble donn de connaissances reprsentes par un ensemble de formules, elle permet de dduire d'autres connaissances non explicites. Comment associer une reprsentation smantique aux phrases d'un langage ? On fait l'hypothse que la reprsentation smantique (de type logique ou non) d'une phrase se prsente sous la forme d'une structure non ambigu. Si une phrase est ambigu, plusieurs reprsentations smantiques non ambigus lui seront donc associes. On fait aussi l'hypothse que la reprsentation smantique associe une phrase est dpendante des lments qui constituent cette phrase. Elle peut tre alors compose sur la base des reprsentations smantiques que l'on peut associer aux constituants de la phrase. On parle alors de smantique compositionnelle. Le principe d'une smantique compositionnelle consiste alors : (1) associer chaque catgorie (lexicale et syntaxique) un type de structure smantique pour la construction de la reprsentation smantique ; (2) associer chaque rgle de grammaire une rgle de composition combinant les diffrentes structures smantiques associes aux diffrentes catgories de la rgle. Une telle composition peut tre exprime au moyen du formalisme du lambda-calcul. Ds qu'une phrase est lexicalement et syntaxiquement bien forme, une (ou plusieurs, en cas d'ambigut) reprsentation smantique peut lui tre ainsi associe. C'est sur la base de cette reprsentation qu'il sera dcid si la phrase est ou non conceptuellement et contextuellement bien forme. Dans le chapitre 3, nous dfinissons un formalisme de type logique adapt la reprsentation smantique des phrases et prsentons les rgles de construction
de cette reprsentation. Nous proposerons les rgles de composition smantiques associes aux rgles syntaxiques de la grammaire noyau du franais dfinie dans le chapitre prcdent.
Principes
que sont traits en particulier les prsuppositions lexicales. Le modle conceptuel est commun toute application relevant du domaine qu'il dcrit. Il exprime en termes de contraintes conceptuelles une vue gnrique du domaine de l'application mais reste indpendant du contenu mme de l'application. La premire partie du chapitre 4 est consacre l'tude de contraintes conceptuelles et leur formalisation dans le cadre de ce l'on entend par modle conceptuel.
10
l'interlocuteur. Notre ambition n'est pas de rendre compte de l'ensemble des phnomnes relevant de la pragmatique, mais de nous limiter l'tude de ceux qui nous paraissent essentiels dans les applications envisages. La seconde partie du chapitre 4 est consacre au modle contextuel. Les diffrents niveaux de reprsentation et de bonne formation d'une phrase, les connaissances qui permettent de les tablir et les principes qui rgissent leurs interactions peuvent tre illustrs par le schma suivant :
Phrase
LEXICAL
Lexique
SEMANTIQUE
Rgles comp. smantique
SYNTAXIQUE
Rgles syntaxiques
CONCEPTUEL
Modle conceptuel
CONTEXTUEL
Modle contextuel
Principes
11
est bien forme tous les niveaux, son analyse doit conduire la production automatique d'une reprsentation permettant l'valuation de la phrase dans un monde de rfrence. Le processus d'analyse peut tre ralis de plusieurs faons. Une faon de faire est (1) de fondre dans un mme formalisme les diffrentes connaissances (lexicales, syntaxiques, smantiques, conceptuelles, contextuelles) relevant des diffrents niveaux de reprsentation et de bonne formation, et (2) de raliser l'analyse en une seule tape. Cette approche a l'inconvnient de conduire la ralisation de systmes difficilement extensibles et portables vers d'autres applications. Une autre faon de faire consiste (1) sparer les diffrents types de connaissances dans des modules distincts, et (2) raliser squentiellement, c'est--dire les unes aprs les autres, les diffrentes analyses propres aux diffrents niveaux de reprsentation et de bonne formation. Ce qui donne, dans l'ordre : analyse lexicale, analyse syntaxique, analyse conceptuelle, analyse contextuelle. Une autre approche, et c'est celle qui nous intresse ici, consiste sparer les diffrents types de connaissances dans des modules distincts et conduire en mme temps les diffrentes analyses correspondant aux niveaux de bonne formation et de reprsentation. Si la phrase contient par exemple une incohrence conceptuelle, le principe est d'interrompre au plus tt l'analyse syntaxique du reste de la phrase. On s'intresse aussi synthtiser des phrases. L aussi, on veut produire des phrases en utilisant en mme temps, comme en analyse, les connaissances relevant des diffrents niveaux de reprsentation et de bonne formation. Mieux encore, on souhaite que le mme systme de traitement automatique puisse fonctionner en analyse et en synthse. Ainsi, par exemple, lorsqu'une incohrence lexicale, syntaxique ou conceptuelle est dtecte en analyse en un point particulier d'une phrase, le systme doit tre capable de produire en synthse l'ensemble des mots attendus ce point prcis de la phrase et qui conduiront la composition d'une phrase bien forme tous les niveaux. Dans notre approche, les connaissances rendant compte des diffrents niveaux de bonne formation et de reprsentation (niveaux lexical, syntaxique, smantique, conceptuel et contextuel) des phrases sont codes dans des modules distincts. Le principe retenu est de prendre en compte au plus tt au cours de la production des diffrentes reprsentations (lexicales, syntaxiques, smantiques, etc.) les contraintes exprimes sur ces reprsentations et entre ces
12
reprsentations. Les contraintes sont vrifies ou excutes au plus tt, c'est-dire au fur et mesure que les structures des diffrentes reprsentations sur lesquelles elles s'appliquent sont construites. Les reprsentations sont produites selon une stratgie descendante ( top down ) et non dterministe. Cette faon de faire permet la fois et en mme temps d'analyser et de synthtiser des expressions (mots, syntagmes, propositions, phrases, etc.) et de guider si ncessaire leur composition par synthse partielle. Le chapitre 5 est consacr au principe d'analyse, de synthse et d'aide la composition de phrases. Nous y prsentons l'algorithme gnral et sa programmation en langage Prolog.
3. APPLICATIONS
Illustrant les principes prcdemment exposs, nous avons conu et dvelopp le logiciel gnrique ILLICO pour l'analyse, la synthse et l'aide la composition de phrases. Dans le chapitre 6, nous prsentons ILLICO et diffrentes applications spcifiques que nous avons dveloppes : des interfaces des bases de donnes structures, un systme de comprhension de petits discours, des jeux linguistiques pour l'apprentissage de langues, etc.