Anda di halaman 1dari 12

Robert Pasero & Paul Sabatier Laboratoire dInformatique Fondamentale, Marseille CNRS - Aix-Marseille Universit

Traitement automatique des langues


1. Principes

Lapproche du traitement des langues que nous exposons ici obit un certain nombre de principes. Ce chapitre est consacr leur prsentation. Dans notre esprit, les expressions traitement automatique du langage naturel (TALN) et traitement automatique des langues (TAL) sont synonymes. Un langage est naturel (comme le franais ou le latin) ou formel (comme la logique des prdicats ou un langage de programmation). Qu'elle soit morte ou vivante , une langue est toujours naturelle. Les diffrentes langues maternelles constituent nos langages naturels. Nous appellerons objets linguistiques le matriau linguistique sur lequel porte le traitement automatique du langage naturel. Ecrits ou parls, les mots, les syntagmes, les propositions, les phrases, les textes, les discours, les dialogues,

Robert Pasero & Paul Sabatier, 1991-2009

Traitement automatique des langues

etc., sont de tels objets. Dans la pratique, un systme de traitement automatique du langage naturel doit permettre l'utilisation de moyens informatiques pour raliser diffrentes tches, comme par exemple : corriger dans un texte des fautes d'orthographe, de grammaire ou des maladresses stylistiques (correcteurs associs des traitements de textes, ...) analyser un texte pour en extraire des mots-cls en vue de son indexation (documentation automatique, moteurs de recherche, extraction dinformations, veille technologique, ...) interroger en langage naturel des donnes structures (bases de connaissances, bases de donnes, etc.) (interfaces en langage naturel, ...); analyser un texte pour en produire une reprsentation sous la forme de donnes structures (cration et mise jour de bases de connaissances, ...) ; produire un texte (rcit, document technique, etc.) partir de donnes structures (gnration automatique, ...) ; conduire des systmes, des automates, des robots partir de formulation en langage naturel ; traduire un texte dans une autre langue (traduction automatique, ...) ; rsumer un texte (rsum automatique, ...) ; analyser un texte pour y reprer des figures de style (mtaphores, mtonymies, etc.) (analyse stylistique, ...) ; assister une personne dans l'apprentissage d'une langue (didactique des langues, ...) ; assister une personne dans la production de documents (langage contrl, ...) ; assister une personne handicape d'noncs (communication assiste, ...) ; etc. La liste ci-dessus des applications pratiques n'est pas exhaustive. Dune faon plus gnrale, un systme de traitement automatique du langage naturel doit dans la formulation

Robert Pasero et Paul Sabatier

Principes

permettre l'utilisation de moyens informatiques pour associer de faon automatique des reprsentations formelles des objets linguistiques et/ou pour produire de tels objets partir de reprsentations formelles. On parle dans le premier cas de systmes d'analyse ; dans le second cas, de systmes de synthse (de production ou encore de gnration). Parmi les applications qui associent dans leur droulement les processus d'analyse et de synthse, on peut citer en particulier les oprations suivantes : la correction automatique (ou assiste) de phrases et de textes aux niveaux orthographique, grammatical, stylistique, etc. ; la production de rsums de textes partir de la comprhension de textes sources ; la traduction automatique (ou assiste) de phrases ou de textes en une ou plusieurs langues ; les interfaces dites intelligentes qui fonctionnent la fois en analyse (comprhension de phrases, de questions, etc.) et en synthse (production de messages, de rponses, aide la formulation, etc.). Les traitements automatiques peuvent avoir aussi pour finalit l'aide la constitution de bases de connaissances linguistiques : lexiques, dictionnaires monolingues ou multilingues, dictionnaires de frquence, de concordances, thsaurus, grammaires, etc. Ces bases linguistiques pourront tre utilises comme ressources pour la ralisation des diffrents types d'applications mentionns ci-dessus. Lorsque nous disons qu'un systme d'analyse doit permettre d'associer de faon automatique des reprsentations formelles des objets linguistiques, il nous faut ajouter que ces reprsentations serviront d'autres traitements. Parmi toutes les applications du traitement automatique, certaines ncessitent la production de reprsentations permettant d'valuer l'objet linguistique dans un monde de rfrence, rel ou imaginaire, peu importe C'est le cas en particulier des applications dont les objectifs sont l'interrogation en langage naturel de bases de connaissances (comme des bases de donnes), ou bien la cration de ces bases de connaissances partir de formulation en langage naturel, ou encore, la comprhension de discours et de dialogues. C'est ce type d'applications que nous nous intresserons ici. Il est important de prciser que l'valuation d'un objet linguistique dans un univers de rfrence fait appel des connaissances, des procdures et des techniques qui ne relvent plus du

Robert Pasero et Paul Sabatier

Traitement automatique des langues

domaine du traitement automatique du langage mais d'autres domaines comme par exemple la dmonstration automatique. L'analyse automatique du langage naturel s'arrte donc la production de reprsentations ncessaires et suffisantes dans leurs formes et leurs contenus pour les traitements ultrieurs auxquels elles sont destines.

1. Niveaux de formation et de reprsentation


La tradition distingue plusieurs niveaux de bonne formation et de reprsentation d'une phrase. On peut les rpartir en trois ensembles : deux ensembles qui sont propres aux modes de ralisation oral ou crit , et un ensemble commun ces deux modes. Ainsi, pour l'oral, on distingue en particulier les niveaux prosodique, phontique et phonologique ; et pour l'crit, les niveaux rendant compte de l'orthographe et de la ponctuation. L'ensemble dit commun est constitu en particulier par les niveaux lexical, syntaxique, smantique et pragmatique. C'est ce dernier ensemble qui nous intresse ici. L'tude des aspects lexicaux et syntaxiques permet de dfinir le caractre syntaxiquement bien form des expressions linguistiques, et d'en donner une reprsentation syntaxique. Dans l'tude des aspects smantiques, on distingue deux tapes. La premire, purement formelle, consiste tudier hors contexte le sens des expressions linguistiquement bien formes pour leur associer une reprsentation smantique correspondant leur sens littral. C'est lors de cette tape que l'on rend compte des phnomnes conceptuels pour dcider du caractre conceptuellement bien form des reprsentations smantiques, ou en d'autres termes, pour vrifier les prsuppositions lexicales. La seconde tape a pour objet de complter (voire de transformer) le sens littral d'une expression en tenant compte du contexte, des intentions du locuteur et des attentes de l'interlocuteur. Vaste programme ! Rendre compte au moyen de processus automatiques de tous ces aspects qui relvent du domaine de la pragmatique reste une tche difficilement envisageable. Mais la prise en compte du contexte permet nanmoins et c'est cet aspect qui nous intresse ici , de rendre compte de la fonction rfrentielle du langage naturel. Les

Robert Pasero et Paul Sabatier

Principes

expressions (mots, phrases, etc.) font rfrence des objets. Rels ou imaginaires, ces objets sont les rfrents de ces expressions, et constituent ce que l'on appelle l'univers du discours, que l'on distingue de la ralit. Dans l'tude des aspects smantiques, la seconde tape intgre en particulier la rsolution des rfrences dnotationnelles lies l'emploi des expressions dfinies, des anaphores, des dictiques, ou, en d'autres termes, ce qu'on appelle la vrification des prsuppositions existentielles.

1.2 Lexique et syntaxe


On veut dfinir un sous-ensemble de phrases du franais au moyen dun lexique et dune grammaire en vue danalyser ou de synthtiser automatiquement des phrases de ce sous-ensemble. Il n'est pas question pour nous de couvrir l'ensemble du vocabulaire et de la syntaxe du franais. Deux contraintes dfinissent la couverture de notre grammaire : (1) cette grammaire doit tre suffisamment gnrale pour constituer un noyau utilisable dans diffrentes applications. Sa dfinition formelle doit faciliter de futures extensions. Et (2) une reprsentation smantique de type logique doit pouvoir tre associe chaque phrase dfinie par la grammaire. Un lexique dfinit l'ensemble des mots (et des expressions) au moyen desquels des phrases peuvent tre construites. chaque mot est associ un ensemble d'informations sur la base desquelles les autres niveaux de reprsentation et de bonne formation pourront tre tablis. Une grammaire dfinit au moyen de rgles de rcriture les phrases d'un langage en les structurant en chanes de constituants et de sous-constituants aussi appeles catgories. Parmi les catgories, on distingue les catgories lexicales et les catgories syntaxiques. Les catgories lexicales (comme exemple, article, prposition, nom commun, verbe) constituent les catgories de base. Les catgories syntaxiques (comme par exemple, phrase, groupe nominal, groupe verbal) constituent les catgories suprieures. Elles structurent des suites de catgories de base et/ou de catgories suprieures.

Robert Pasero et Paul Sabatier

Traitement automatique des langues

Le chapitre 2 est consacr d'une part aux principes et formalismes retenus pour dfinir un ensemble de phrases lexicalement et syntaxiquement bien formes, et d'autre part la dfinition d'un tel ensemble pour un sous-ensemble de phrases du franais.

1.3 Smantique
D'une faon gnrale, on s'intresse au traitement automatique des expressions linguistiques de type phrase. Une assertion ou une question sont des types de phrase. Une assertion prsuppose des connaissances sur un monde et en exprime d'autres. Une question prsuppose des connaissances sur un monde et exprime une demande de connaissances sur ce monde. Qu'il s'agisse d'une assertion ou d'une question, une phrase formule donc des connaissances sur un monde, c'est--dire, exprime une situation particulire mettant en jeu des individus et des relations. La reprsentation smantique d'une phrase donne doit permettre d'exprimer sans ambigut et de faon prcise cette situation particulire. Cette situation particulire est-elle ou non en contradiction avec celles prcdemment dcrites ? La valeur smantique de cette reprsentation doit nous permettre d'en dcider, et cela en lui attribuant une valeur de vrit : vrai ou faux. On ne peut parler de valeur smantique d'une phrase que par rfrence un ensemble de situations. Pour nous, la reprsentation et la valeur smantiques d'une phrase sont indissociables. On parlera alors du sens d'une phrase, et le traitement du langage naturel qui nous intresse ici est celui qui consiste obtenir automatiquement ce sens. nos yeux, deux aspects restent fondamentaux dans la nature de la reprsentation smantique recherche. On s'intresse d'une part savoir quelle est la valeur d'une reprsentation smantique particulire par rapport un ensemble de connaissances dcrivant un univers de rfrence. On peut appeler cet aspect valuation. D'autre part, on s'intresse aux faons dont les expressions de ce langage de reprsentation sont relies entre elles, et plus particulirement aux infrences ralisables au sein de l'ensemble des expressions. On peut appeler cet aspect dduction. Les deux aspects essentiels que sont l'valuation et la dduction font de la logique le seul langage pertinent pour la reprsentation smantique des phrases.

Robert Pasero et Paul Sabatier

Principes

En effet, c'est le seul possder une syntaxe et une smantique rigoureusement dfinies, et offrir une thorie dductive rigoureuse. La syntaxe du langage de la logique dfinit les expressions correctes du langage : les termes et les formules. Parmi ces dernires, on distingue les formules atomiques qui sont les plus lmentaires. La smantique du langage de la logique dfinit les rgles de calcul permettant d'associer toute formule une valeur de vrit (vrai ou faux) partir des valeurs de vrit des formules atomiques. Les valeurs de vrit des formules atomiques constituent ce qu'on appelle une interprtation (ensemble de situations de rfrence). La thorie dductive permet de mettre en relation (implication logique) les reprsentations logiques. Pour un ensemble donn de connaissances reprsentes par un ensemble de formules, elle permet de dduire d'autres connaissances non explicites. Comment associer une reprsentation smantique aux phrases d'un langage ? On fait l'hypothse que la reprsentation smantique (de type logique ou non) d'une phrase se prsente sous la forme d'une structure non ambigu. Si une phrase est ambigu, plusieurs reprsentations smantiques non ambigus lui seront donc associes. On fait aussi l'hypothse que la reprsentation smantique associe une phrase est dpendante des lments qui constituent cette phrase. Elle peut tre alors compose sur la base des reprsentations smantiques que l'on peut associer aux constituants de la phrase. On parle alors de smantique compositionnelle. Le principe d'une smantique compositionnelle consiste alors : (1) associer chaque catgorie (lexicale et syntaxique) un type de structure smantique pour la construction de la reprsentation smantique ; (2) associer chaque rgle de grammaire une rgle de composition combinant les diffrentes structures smantiques associes aux diffrentes catgories de la rgle. Une telle composition peut tre exprime au moyen du formalisme du lambda-calcul. Ds qu'une phrase est lexicalement et syntaxiquement bien forme, une (ou plusieurs, en cas d'ambigut) reprsentation smantique peut lui tre ainsi associe. C'est sur la base de cette reprsentation qu'il sera dcid si la phrase est ou non conceptuellement et contextuellement bien forme. Dans le chapitre 3, nous dfinissons un formalisme de type logique adapt la reprsentation smantique des phrases et prsentons les rgles de construction

Robert Pasero et Paul Sabatier

Traitement automatique des langues

de cette reprsentation. Nous proposerons les rgles de composition smantiques associes aux rgles syntaxiques de la grammaire noyau du franais dfinie dans le chapitre prcdent.

1.4 Modle conceptuel


Une phrase est conceptuellement bien forme si la reprsentation smantique associe dcrit une situation conceptuellement possible, c'est--dire si les relations et les individus ou objets qu'elle met en jeu sont compatibles. L'expression d'une telle compatibilit ne relve pas de contraintes syntaxiques ou grammaticales mais d'une modlisation extralinguistique de l'ensemble des situations de rfrence potentielles, modlisation spcifie au moyen de ce qu'on appellera le modle conceptuel. Une phrase comme : Une pomme dort. est syntaxiquement et grammaticalement bien forme, et on peut naturellement lui associer une reprsentation smantique. Cependant si le modle conceptuel exprime que seuls les individus anims peuvent dormir, et qu'une pomme n'est pas un individu anim, alors on dira que la phrase ci-dessus est conceptuellement mal forme. Un autre exemple, une expression comme : les dates de naissance du fils de Max est syntaxiquement et grammaticalement bien forme, et on peut donc lui associer une reprsentation smantique. Cependant si le modle conceptuel exprime qu'une seule date de naissance peut tre associe chaque personne, alors on dira que l'expression ci-dessus est conceptuellement mal forme. Le principe retenu est donc de ne pas exprimer directement le contenu des contraintes conceptuelles dans les rgles de grammaire mais de dfinir pour chaque domaine d'application (ou monde) un modle conceptuel, modle auquel le systme pourra faire appel pour vrifier le caractre conceptuellement bien form des phrases. Le modle conceptuel doit servir complter certains aspects de la reprsentation smantique que jusque l les seuls critres syntaxiques et smantiques n'ont pu prciser. C'est dans le cadre de ce modle

Robert Pasero et Paul Sabatier

Principes

que sont traits en particulier les prsuppositions lexicales. Le modle conceptuel est commun toute application relevant du domaine qu'il dcrit. Il exprime en termes de contraintes conceptuelles une vue gnrique du domaine de l'application mais reste indpendant du contenu mme de l'application. La premire partie du chapitre 4 est consacre l'tude de contraintes conceptuelles et leur formalisation dans le cadre de ce l'on entend par modle conceptuel.

1.5 Modle contextuel


Il est des phnomnes qui ne peuvent tre rsolus qu'en tenant compte du contexte dans lequel une phrase est formule. Ce contexte est dtermin par le monde de rfrence (par exemple le contenu de la base de donnes interface) et par le discours, c'est--dire par l'ensemble des phrases prcdemment nonces. Les reprsentations du monde de rfrence et du discours forment le modle contextuel. C'est dans le cadre de ce modle que sont traits en particulier les prsuppositions existentielles et les proformes. Par exemple, une expression comme : la date de naissance du fils de Max est conceptuellement bien forme mais prsuppose l'existence (prsupposition existentielle) de Max, du fils de Max (Max a au moins un fils). Cette existence ne peut tre vrifie qu'en consultant le monde de rfrence. Une phrase comme : Lesquels habitent Paris ? n'a de sens que si les rfrents de la proforme lesquels existent. Cette existence doit tre d'abord vrifie en consultant les phrases (le discours) prcdemment nonces. Ce que nous appelons modle contextuel relve du domaine de la pragmatique. Traditionnellement, on range aussi dans la pragmatique d'autres phnomnes difficilement formalisables comme les intentions du locuteur ou les attentes de

Robert Pasero et Paul Sabatier

10

Traitement automatique des langues

l'interlocuteur. Notre ambition n'est pas de rendre compte de l'ensemble des phnomnes relevant de la pragmatique, mais de nous limiter l'tude de ceux qui nous paraissent essentiels dans les applications envisages. La seconde partie du chapitre 4 est consacre au modle contextuel. Les diffrents niveaux de reprsentation et de bonne formation d'une phrase, les connaissances qui permettent de les tablir et les principes qui rgissent leurs interactions peuvent tre illustrs par le schma suivant :

Phrase

LEXICAL
Lexique

SEMANTIQUE
Rgles comp. smantique

SYNTAXIQUE
Rgles syntaxiques

Reprsentation smantique intermdiaire

CONCEPTUEL
Modle conceptuel

CONTEXTUEL
Modle contextuel

Reprsentation smantique finale


Ce schma illustre des principes thoriques indpendants de tout traitement automatique.

2. ANALYSE ET SYNTHSE DE PHRASES


Pratiquement, on veut analyser et synthtiser automatiquement des phrases. Il y a bien sr plusieurs faons de procder. Ce que l'on sait, c'est que si une phrase

Robert Pasero et Paul Sabatier

Principes

11

est bien forme tous les niveaux, son analyse doit conduire la production automatique d'une reprsentation permettant l'valuation de la phrase dans un monde de rfrence. Le processus d'analyse peut tre ralis de plusieurs faons. Une faon de faire est (1) de fondre dans un mme formalisme les diffrentes connaissances (lexicales, syntaxiques, smantiques, conceptuelles, contextuelles) relevant des diffrents niveaux de reprsentation et de bonne formation, et (2) de raliser l'analyse en une seule tape. Cette approche a l'inconvnient de conduire la ralisation de systmes difficilement extensibles et portables vers d'autres applications. Une autre faon de faire consiste (1) sparer les diffrents types de connaissances dans des modules distincts, et (2) raliser squentiellement, c'est--dire les unes aprs les autres, les diffrentes analyses propres aux diffrents niveaux de reprsentation et de bonne formation. Ce qui donne, dans l'ordre : analyse lexicale, analyse syntaxique, analyse conceptuelle, analyse contextuelle. Une autre approche, et c'est celle qui nous intresse ici, consiste sparer les diffrents types de connaissances dans des modules distincts et conduire en mme temps les diffrentes analyses correspondant aux niveaux de bonne formation et de reprsentation. Si la phrase contient par exemple une incohrence conceptuelle, le principe est d'interrompre au plus tt l'analyse syntaxique du reste de la phrase. On s'intresse aussi synthtiser des phrases. L aussi, on veut produire des phrases en utilisant en mme temps, comme en analyse, les connaissances relevant des diffrents niveaux de reprsentation et de bonne formation. Mieux encore, on souhaite que le mme systme de traitement automatique puisse fonctionner en analyse et en synthse. Ainsi, par exemple, lorsqu'une incohrence lexicale, syntaxique ou conceptuelle est dtecte en analyse en un point particulier d'une phrase, le systme doit tre capable de produire en synthse l'ensemble des mots attendus ce point prcis de la phrase et qui conduiront la composition d'une phrase bien forme tous les niveaux. Dans notre approche, les connaissances rendant compte des diffrents niveaux de bonne formation et de reprsentation (niveaux lexical, syntaxique, smantique, conceptuel et contextuel) des phrases sont codes dans des modules distincts. Le principe retenu est de prendre en compte au plus tt au cours de la production des diffrentes reprsentations (lexicales, syntaxiques, smantiques, etc.) les contraintes exprimes sur ces reprsentations et entre ces

Robert Pasero et Paul Sabatier

12

Traitement automatique des langues

reprsentations. Les contraintes sont vrifies ou excutes au plus tt, c'est-dire au fur et mesure que les structures des diffrentes reprsentations sur lesquelles elles s'appliquent sont construites. Les reprsentations sont produites selon une stratgie descendante ( top down ) et non dterministe. Cette faon de faire permet la fois et en mme temps d'analyser et de synthtiser des expressions (mots, syntagmes, propositions, phrases, etc.) et de guider si ncessaire leur composition par synthse partielle. Le chapitre 5 est consacr au principe d'analyse, de synthse et d'aide la composition de phrases. Nous y prsentons l'algorithme gnral et sa programmation en langage Prolog.

3. APPLICATIONS
Illustrant les principes prcdemment exposs, nous avons conu et dvelopp le logiciel gnrique ILLICO pour l'analyse, la synthse et l'aide la composition de phrases. Dans le chapitre 6, nous prsentons ILLICO et diffrentes applications spcifiques que nous avons dveloppes : des interfaces des bases de donnes structures, un systme de comprhension de petits discours, des jeux linguistiques pour l'apprentissage de langues, etc.

Robert Pasero et Paul Sabatier

Anda mungkin juga menyukai