Anda di halaman 1dari 24

Un mod` le de r seau possibiliste pour la e e recherche dinformation

Asma Brini, Mohand Boughanem, Didier Dubois


IRIT 118, Route de Narbonne 31062 Toulouse Cedex 9 {brini,bougha,dubois}@irit.fr
R sum e e Nous proposons un mod` le de recherche dinformation bas sur les e e r seaux possibilistes. Les relations de d pendance entre documentse e termes dindexation et termes dindexation-requ te sont quanti es par e e des mesures de possibilit conditionnelles. La pertinence dun docue ment etant donn e la requ te est mesur e par deux degr s : la n cessit e e e e e e et la possibilit . La possibilit de pertinence permet d liminer dans la e e e liste des documents restitu s en r ponse a une requ te ceux qui ne sont e e ` e pas pertinents alors que la pertinence n cessaire permet de focaliser e sur les documents pertinents. Les exp rimentations effectu es sur la e e collection de tests Le Monde 1994, une sous-collection de CLEF ont permis de montrer lefcacit de cette approche. e This paper describes an Information Retrieval (IR) model based on possibilistic directed networks. Relations documents-terms and queryterms are modeled through conditional possibility measures rather than a probability measure. The relevance score of a document w.r.t a query is measured by two degrees : the necessity and the possibility. The possibility degree is convenient to lter documents out from the response (retrieved documents) and the necessity degree is useful for document relevance conrmation. Separating these notions may account for the imprecision pervading the retrieval process. Experiments carried out on a sub-collection of CLEF , namely Le Monde 1994, a French newspaper collection, showed the effectiveness of the model. Mots-cl s : Recherche dinformation, R seaux possibilistes, R seaux e e e Bay siens, Pertinence, Entropie. e Key-words: Information Retrieval, Possibilistic Networks, Bayesian Networks, Relevance, Entropy

I NTRODUCTION

La Recherche dInformation (RI) consiste a s lectionner dans une collec` e tion de documents ceux susceptibles d tre pertinents vis a vis dun besoin e `

en information dun utilisateur. Ce besoin en information est g n ralement e e repr sent par une requ te. La pertinence dun document vis a vis dune e e e ` requ te est souvent interpr t e par la majorit des mod` les de RI, vectoriel e ee e e [28], probabiliste [21] [14] [27], r seaux dinf rence [36] [1] [34], comme un e e score calcul a partir des poids des termes du document et ceux de la requ te. e` e La pond ration de ces termes dindexation est un des el ments cl s dans la e e e mesure de de cette pertinence. Les poids des termes sont, dune mani` re e g n rale, obtenus par la combinaison de mesures comme la fr quence dun e e e terme dans le document (tf ), limportance du terme dans la collection (idf ) ` et la longueur du document (l d ). Ces mesures, obtenues a partir dinformations pauvres, r sultent souvent dun point de vue fr quentiste bas sur e e e le comptage des nombres dapparitions et par cons quent elles ne rendent e pas compl` tement compte de la notion de pertinence, qui reste entach e e e dimpr cision. e Le mod` le que nous proposons dans cet article tente de r pondre en partie e e a ces limites. Tout dabord, nous proposons dinterpr ter la pertinence dans ` e un cadre possibiliste. Ce cadre est plus a m me de prendre en compte ligno` e rance partielle qui peut affecter les informations utilis es dans les diff rents e e calculs. Tout dabord, le mod` le s pare les raisons de s lectionner un docue e e ment pertinent de celles de le rejeter, en utilisant deux mesures : la n cessit e e et la possibilit . La possibilit de pertinence tente d liminer les documents e e e non pertinents. La n cessit de pertinence met laccent (le focus) sur les e e documents qui semblent tr` s pertinents. An de permettre cette interpr tation e e de la pertinence, la pond ration des termes dans les documents doit etre e egalement r interpr t e. Il a et montr dans [3] [17] que tous les termes e ee e e dindexation ne se comportent pas de la m me mani` re dans une collection e e de documents. Harter fait une distinction entre les mots informatifs appel s e aussi mots sp cialis s, qui se focalisent sur un type de documents et les e e mots non informatifs, non sp cialis s qui sont distribu s de mani` re normale e e e e sur lensemble des documents de la collection. Ceci va dans le sens de notre interpr tation de la pertinence ; en effet nous pensons que les termes des doe cuments doivent jouer des r les diff rents. Dans un document, il existe des o e termes fr quents importants (informatifs), n cessaires dans la repr sentation e e e du document, donc n cessaires, pour d cider de la pertinence de ce docue e ment vis a vis de la requ te, et dautres termes moins informatifs, qui ne sont ` e que possiblement int ressants pour repr senter le contenu du document. e e La logique possibiliste offre un bon cadre pour repr senter ces deux noe tions. En effet, notre mod` le affecte a chaque terme dindexation deux vae ` leurs qui traduisent respectivement la certitude et la possibilit quun terme e e e dindexation soit bon. Le dernier avantage (sp cicit ) de notre mod` le e r side dans sa prise en compte explicite de labsence des termes de la requ te e e dans le document lors de l valuation de la pertinence de ce document vis a e ` vis de la requ te. e

Le papier est organis comme suit. Nous d crivons tout dabord dans la e e section 2 quelques mod` les cl s de la RI et discutons leur mani` re dine e e terpr ter la pertinence. La section 3 pr sente de mani` re br` ve quelques noe e e e tions de base de la th orie des possibilit s ainsi que les r seaux possibilistes. e e e La section 4 est consacr e a la description de larchitecture du r seau pose ` e sibiliste utilis pour le traitement des requ tes. En section 5, on explique le e e principe de calcul sur lequel repose le mod` le possibiliste pour la RI. La e facon dont on agr` ge les informations relatives aux termes de la requ te e e est d taill e en section 6. La section 7 est consacr e a la d nition des e e e ` e pond rations possibilistes reliant les termes et les documents. Enn, nous e discutons dans la section 8 les diff rentes exp rimentations effectu es sur e e e la collection de tests Le Monde 1994, une sous-collection de CLEF an d valuer lint r t de notre mod` le comparativement notamment a OKAP I e ee e ` [27].

E TAT DE L ART

Les mod` les de RI propos s dans la litt rature peuvent etre regroup s en e e e e trois cat gories selon la th orie sous-jacente a la mod lisation de la pertie e ` e nence : mod` le vectoriel : la pertinence est d nie comme la similarit entre la e e e repr sentation des documents et de la requ te [28] ; e e mod` le probabiliste : la pertinence est mod lis e par une variable binaire e e e et le but du mod` le est destimer sa probabilit [27] [14] ; e e mod` le logique : la pertinence est reli e a la certitude de pouvoir d duire e e ` e la requ te des repr sentations des documents ou inversement [38]. e e Le mod` le le plus connu dans la premi` re cat gorie est le mod` le de Sale e e e ton [28] [31]. Salton [28] a propos le syst` me SM ART (Saltons Magie e cal Automatic Retriever of Text) bas sur ce mod` le. Le sens dun docue e ment est donn par les termes quil contient. Les documents et la requ te e e sont repr sent s par des vecteurs de termes pond r s. La pertinence dun e e ee document vis a vis dune requ te est vue comme une similarit entre les ` e e deux vecteurs. La similarit vectorielle peut etre mesur e en utilisant des e e coefcients de type cosinus, Jaccard, Dice [28]. Dans ses premi` res vere sions, ce mod` le se base uniquement sur la pr sence-absence des termes e e dans les repr sentations (comme dans le mod` le Bool en), puis plusieurs e e e pond rations [32][30][29] ont et propos es. La pond ration qui a donn les e e e e e meilleurs r sultats a et propos e par Singhal et Buckley, utilisant la normalie e e sation par la m thode de pivot [35]. Ce poids utilise la fr quence dapparition e e du terme dans le document (tf ), limportance du terme dans la collection (idf ) et la longueur des documents dans lesquels les termes apparaissent. Concernant la seconde cat gorie, plusieurs mod` les probabilistes ont et proe e e e pos s dans la litt rature [25] [14] [27]. La principale diff rence entre ces e e mod` les r side dans la mani` re destimer la probabilit de pertinence. Les e e e e

mod` les probabilistes peuvent etre r partis en deux cat gories. La premi` re e e e e consid` re la pertinence comme un concept binaire : soit les documents sont e pertinents vis a vis dune requ te soit ils sont non-pertinents. Lappartenance ` e a lune de ces deux classes est inconnue et les mod` les probabilistes tentent ` e de lestimer. La probabilit de pertinence, not e L, etant donn un docue e e ment D et une requ te Q, not e P (L | D, Q) est estim e par un mod` le de e e e e r gression polynomiale [15]. Dans ce mod` le, la pertinence est reli e a D et e e e ` Q. La seconde approche est bas e sur la g n ration de mod` le de documents e e e e ou de requ tes qui tentent destimer P (D, Q | L) [26] [14] [20]. Les mod` les e e probabilistes les plus connus sont pr sent s dans [25] [26] [14]. Lint gration e e e du m lange de 2P oisson a permis de consid rer les fr quences des termes e e e [27]. Le mod` le de langue propos dans [23] et d velopp dans [18] est bas e e e e e sur des estimations probabilistes. En effet, la pertinence dun document vis a vis dune requ te d pend de la probabilit de g n rer une requ te a partir ` e e e e e e ` du mod` le de langue du document. Le document est consid r comme un e ee sous-langage pour lequel un mod` le de langue est construit. Ce mod` le de e e langue est obtenu essentiellement a partir des termes du document. ` Nous ne pr sentons dans ce papier que les r seaux Bay siens vus comme des e e e mod` les de la derni` re cat gorie. Nous consid rons ces mod` les comme un e e e e e m lange des mod` les logiques et probabilistes. Les mod` les les plus connus e e e sont le r seau dinf rence [37] [36] [11] et le mod` le de croyance [24] [1] e e e [34]. Pour ces mod` les, les documents, les termes dindexation et la requ te e e sont repr sent s par des variables binaires et la pertinence est vue comme e e la d duction des documents pertinents etant donn e une requ te. Le mod` le e e e e de r seaux de croyance g n ralise les mod` les Bool en, vectoriel probabie e e e e liste et les r seaux dinf rence. Dautres extensions des mod` les de r seaux e e e e Bay siens ont et propos es dans le but doptimiser les calculs de probabie e e lit s conditionnelles en int grant des relations de d pendance entre des paires e e e de termes ou de documents, ou en traitant des documents h t rog` nes. Elles ee e sont propos es dans [12] [9] [8] [16] [10]. e Quel que soit le mod` le, on voit que la pertinence est vue comme un concept e binaire. Cependant, certains travaux de la litt rature ont montr que ce concept e e est graduel et dynamique [25] [33] [19] [5]. De plus, pour tous ces mod` les, e les termes de la requ te absents des documents ne sont pas explicitement e consid r s dans le calcul des scores de pertinence. Nous proposons pour ee notre part un mod` le qui interpr` te la pertinence dans un cadre possibiliste. e e Lapproche possibiliste poss` de a cet egard deux atouts dus a lemploi de e ` ` deux evaluations au lieu dune. Dune part, on peut evaluer de facon plus ind pendante les raisons de rejeter un document et les raisons de laccepter., e dautre part, en cas dignorance, on nest pas oblig de fournir de linformae tion a priori, comme lexige lapproche Bay sienne. Ces deux avantages sont e communs a toutes les approches de lincertain qui admettent limpr cision ` e (fonctions de croyance, probabilit s impr cises). La th orie des possibilit e e e e est la plus simple de ces approches.

T H EORIE DES POSSIBILIT ES

La th orie des possibilit s introduite par Zadeh [41] et d velopp e par Due e e e bois et Prade [13] evalue lincertitude sur un ensemble totalement ordonn e de valeurs, appel echelle possibiliste, dune mani` re qualitative ou quantie e tative. Dans le cadre num rique les valeurs des possibilit s sur lintervalle e e [0, 1] traduisent souvent des bornes sup rieures de probabilit . Dans le cadre e e qualitatif, les valeurs de possibilit ne font que d nir un classement des vae e leurs plus ou moins plausible dune grandeur. La combinaison conjonctive de distributions de possibilit , exprim e a laide de normes triangulaires (te e ` normes)[13] d pend du cadre formel choisi. Les op rateurs produit, mie e nimum peuvent etre utilis s pour combiner des distributions de possibilit e e ind pendantes dans les cadres quantitatif et qualitatif respectivement. Nous e nous restreignons, pour nos travaux, au cadre quantitatif.

3.1

Distribution de possibilite

La th orie des possibilit s [13] est bas e sur les distributions de possibie e e lit . Une distribution de possibilit , not e par , est une application dun ene e e semble d tats possibles X vers l chelle [0, 1] traduisant une connaissance e e partielle sur le monde. (x) = 1 correspond a un etat possible, (x) = 0 ` correspond a un etat impossible. ` Une distribution de possibilit normalis e exprime quun des etats est totalee e ment possible, ce qui se traduit par la condition : max (x) = 1
xX

e Si maxxX (x) < 1, ceci indique une contradiction interne dans la repr sentation, qui est alors partiellement incoh rente. e Mesures de n cessit et de possibilit : Dire quun ev nement est non e e e e possible nimplique pas seulement que l v nement contraire est possible e e mais aussi quil est certain. Deux mesures duales sont utilis es : la mesure e de possibilit , et la mesure de n cessit . La possibilit dun ev nement A, e e e e e e not e (A) est obtenue par la formule (A) = max xA (x) et re` te la e situation la plus normale dans laquelle A est vraie. Soit A le compl mentaire e de A. La n cessit , not e N (A), dun ev nement A, d nie par la formule e e e e e e N (A) = minxA (1 (x)) = 1 (A), re` te la situation la plus normale dans laquelle A est faux. La distance entre N (A) et (A) evalue le niveau dignorance sur A.

3.2

Conditionnement possibiliste

En logique possibiliste, le conditionnement consiste a modier la distribu` tion de possibilit initiale a larriv e dune nouvelle information. En fait, e ` e on doit restreindre les etats possibles a ceux o` la nouvelle information est ` u vraie.

Soit C, une sous classe de X, repr sentant la nouvelle information. La e distribution initiale est remplac e par = (. | C). Dans un cadre quane titatif, les degr s de possibilit s des el ments de C sont proportionnellement e e e modi s. Ainsi, e (x) si x C (C) = 0 sinon

(x |p C) =

(1)

o` |p est le conditionnement bas sur le produit. Notons que cest exactement u e la m me d nition quen th orie des probabilit s : elle pr serve la valeur e e e e e relative des degr s de possibilit s des el ments de C. La seule diff rence est e e e e que (C) est calcul e avec la r` gle du maximum et non la somme. e e

3.3

Reseaux possibilistes

Les travaux existants sur les r seaux possibilistes sont soit des adaptations e directes de lapproche probabiliste [2], ou des m thodes dapprentissage a e ` partir de donn es impr cises [4]. Un graphe possibiliste orient sur un ene e e e e semble de variables V = V1 , V2 , , , VN est caract ris par une composante qualitative et une composante num rique. La premi` re est un graphe acye e clique orient comme pour les r seaux Bay siens. La structure du graphe e e e repr sente lensemble des variables ainsi que lensemble des relations dind e e pendance. La seconde composante quantie les liens du graphe en utilisant les distributions de possibilit conditionnelles de chaque noeud dans e le contexte de ses parents. Ces distributions de possibilit doivent v rier la e e contrainte de normalisation. Pour chaque variable V i : (i) Si Vi est un noeud racine et dom Vi le domaine de Vi , la possibilit a priori e de Vi doit satisfaire maxvi (vi ) = 1, vi domVi (ii) Si Vi nest pas un noeud racine, la distribution conditionnelle de V i dans le contexte de ses parents doit satisfaire max vi (vi /P ARVi ) = 1, vi domV i o` domVi est le domaine de Vi , et P ARVi est lensemble des u parents de Vi . Un graphe possibiliste bas sur le produit, not par GP P , est un graphe pose e sibiliste o` les possibilit s conditionnelles sont obtenues par le conditionneu e ment de type produit. La distribution de possibilit des r seaux possibilistes e e e bas s sur le produit, not e par P , est obtenue par la r` gle de chanage e e P (V1 , .., VN ) = P RODi=1..N (Vi /P ARVi ) (2)

o` P ROD est lop rateur produit. u e Nous proposons, dans ce qui suit une nouvelle approche utilisant les r seaux e possibilistes pour traiter les probl matiques de la RI. e

` A RCHITECTURE DU MOD ELE

Lapproche que nous proposons utilise des r seaux possibilistes orient s. e e Dun point de vue qualitatif, les documents, les termes dindexation et la requ te sont des variables binaires repr sent es par des noeuds. Les relae e e tions de d pendance entre ces noeuds sont traduites par des arcs orient s. e e Dun point de vue quantitatif les arcs sont evalu s par des degr s de possi e e bilit . Larchitecture g n rale de ce mod` le est illustr e dans la gure (1). e e e e e e Un document D j est instanci ou pas, prenant ses valeurs dans le domaine {dj , dj }. Linstanciation dun noeud document, D j = dj (resp. dj ) signie que le document est pertinent (resp. non). Une requ te Q prend ses valeurs e dans le domaine {q, q}. Seule linstanciation positive nous int resse, et e nous consid rons Q = q uniquement (mais nous gardons la notation Q). Le e domaine dun noeud terme dindexation T i , est {ti , ti }. (Ti = ti ) signie e e que le terme ti est pr sent dans le document (ou dans la requ te) et est donc repr sentatif du contenu en information du document (ou de la requ te) a e e ` un certain degr . Un terme non-repr esentatif, not par t i , est un terme non e e signicatif ( ventuellement absent) de la repr sentation du document ou de e e la requ te. e Soit T (Dj ) (resp. T (Q)) lensemble des termes dindexation du docuD

T1

Ti

Tj

TT

F IG . 1 Architecture g n rale e e e e ment Dj (resp. de la requ te). La requ te exprime la demande de documents contenant certains termes et peut egalement en exclure dautres. Les arcs sont orient s des noeuds documents vers les noeuds termes dindexae tion d nissant les relations de d pendance existantes entre les termes dine e dexation et les documents. Les valeurs prises par les termes dindexation d pendent de linstanciation des noeuds documents (parents). Linstanciae tion de la requ te propage de linformation uniquement a travers ses termes. e ` Les arcs sont ainsi orient s depuis les noeuds termes dindexation vers le e noeud requ te. Les termes apparaissant dans la requ te utilisateur forment e e lensemble des parents de Q dans le graphe. Il existe une instanciation de

lensemble des parents de la requ te (P ar(Q)) qui repr sente la requ te dans e e e sa forme la plus stricte (conjonctive). Soit Q cette instanciation 1 . Toute instanciation des parents de Q est not e . Nous montrerons plus loin dans e larticle la facon d valuer les arcs. Nous ne consid rons pas les relations e e de d pendance entre couples de termes ici. Cependant ce type de relations e pourrait etre une information suppl mentaire int ressante a exploiter. Ces e e ` relations sont exprimables ais ment au moyen des r seaux. e e

` L E MOD ELE POSSIBILISTE

La principale id e de notre approche concerne linterpr tation de la pertie e nence. Nous adoptons une approche possibiliste dans le but de mesurer par deux evaluations le score de pertinence dun document etant donn e une e requ te. En choisissant lapproche possibiliste, nous cherchons a pouvoir e ` restituer les documents n cessairement ou au moins possiblement pertinents e etant donn e une requ te. Ce mod` le devrait etre capable dinf rer des pro e e e e positions telles que : Il est plausible a un certain degr que le document soit pertinent etant ` e donn e la requ te, not e par (D | Q) ; e e e Il est certain (dans le sens possibiliste) que le document soit pertinent etant donn e la requ te, not e par N (D | Q). e e e Le premier type de proposition est cens eliminer les documents non pere tinents. Le second se focalise sur le renforcement de la certitude de la pertinence. Ainsi, le processus de propagation evalue les degr s de possibilit , e e e e e (dj | Q), et de n cessit , N (dj | Q). Comme indiqu dans [13],[2] : (dj | Q) = (Q dj ) (Q) (Q dj ) (Q) (3)

N (dj | Q) = 1 (dj | Q) = 1 La possibilit de Q est donn e par : e e

(4)

(Q) = max((Q dj ), (Q dj )).

(5)

L quation 3 applique la d nition (1) de la possibilit conditionnelle, et e e e l quation 4 r sulte de la dualit entre possibilit et n cessit . L quation e e e e e e e 5 applique la propri t caract ristique de la mesure de possibilit . On en ee e e d duit : e (dj | Q) = min(1,
1 Cette

(Q dj ) (Q dj ) ). (6) ); (dj | Q) = min(1, (Q dj ) (Q dj )

conguration repr sente les termes tels quils sont instanci s dans la requ te e e e

Nous cherchons a calculer la forme de (QD j ) en fonction des pond rations ` e sur le graphe. Etant donn e la topologie du graphe et l quation 2, on trouve : e e (Q Dj ) = max (Q | l )
l Ti T (Q)T (Dj ) l (i | Dj ) l (k )) Tk T (Q)\T (Dj )

(7)

(Dj )

Avec : : les congurations possibles de lensemble des parents de Q, l l : une conguration possible de . i : linstanciation de T i dans la conl guration ; Exemple : Soit la requ te Q contenant les termes {T 1 , T2 }. Les instanciae tions possibles des parents de la requ te sont dans ce cas : = {{t 1 e 1 t2 }, {t1 t2 }, {t1 t2 }, {t1 t2 } } ; Linstanciation 1 du terme T1 dans 1 1 la premi` re conguration, = {t1 t2 }, est 1 = t1 . e e (Q Dj ) est calcul e pour D j {dj , dj }. Nous remarquons que les termes Ti T (Dj ) \ T (Q), pr sents dans le document mais absents de e la requ te, ne sont pas instanci s lors des calculs. De plus, les termes de e e e la requ te qui indexent les documents, T i T (Q) T (Dj ), sont evalu s e e e dans le contexte de leurs parents par (T i | Dj ), et s par s des termes de la requ te absents des documents, pour lesquels une possibilit marginale est e e calcul e, (Tk ). e A lissue du processus de propagation, chaque document aura donc une valeur de n cessit et de possibilit de pertinence. Les documents r pondant e e e e a la requ te sont class s selon ces deux pertinences. Les documents sont ` e e restitu s par ordre d croissant de pertinence n cessaire puis de pertinence e e e possible. En effet, ceux class s en premiers sont les documents qui ont une e valeur de n cessit sup rieure a 0. Les documents possiblement pertinents e e e ` sont class s apr` s les documents n cessaires ou se retrouvent en haut de la e e e liste lorsque le syst` me ne trouve pas de documents n cessairement pertie e nents (les documents ayant des degr s de n cessit de pertinence egale a 0). e e e `

Illustration An dillustrer la mani` re dont la requ te est evalu e, consid rons le doe e e e e cument D1 = {t2 , t3 , t5 , t6 }; et la requ te Q = {t2 , t3 }. Deux mesures sont calcul es : (d1 | Q) = (Qd1 ) , et N (d1 | Q) = 1 (d1 | Q) e (Q) pour les deux instances de D 1 , D1 = d1 et D1 = d1 . De plus, (Q) = max((Q d1 ), (Q d1 )), peut etre facilement calcul e. Les seuls fac e e teurs a calculer sont : (Q d 1 ) et (Q d1 ). (Q d1 ) est calcul comme `

suit (il ny a pas de termes de la requ te hors du document) : e (Q d1 ) = max((Q | t2 t3 ) (t2 | d1 ) (t3 | d1 )) (d1 ), (Q | t2 t3 ) (t2 | d1 ) (t3 | d1 ) (d1 ), (Q | t2 t3 ) (t2 | d1 ) (t3 | d1 ) (d1 ), (Q | t2 t3 ) (t2 | d1 ) (t3 | d1 ) (d1 )) Pour evaluer les documents etant donn e la requ te, nous avons besoin de e e calculer chacun des facteurs utilis s dans lexpression (7). Nous d crivons e e dans ce qui suit les diff rents traitements de la requ te en fonction des cone e gurations de ses termes ainsi que des connecteurs utilis s entre eux. e

AGR EGATION DES TERMES DE LA REQU ETE

La possibilit de la requ te etant donn s les termes dindexation, (Q | ), e e e d pend de linterpr tation de la requ te. Plusieurs interpr tations sont pose e e e sibles. Les termes de la requ te peuvent etre connect s par une conjonction, e e une disjonction, ou par une somme probabiliste, ou encore une somme probabiliste pond r e. Ces deux derni` res agr gations ont d j` et propos es ee e e ea e e dans les travaux de Turtle [36]. Lid e majeure de lagr gation de la requ te est de mesurer la conformit e e e e dune conguration possible, en loccurrence celle trouv e dans un docue ment donn , avec la conguration des termes de la requ te. Pour ce faire, e e e pour toute conguration, l de , la possibilit conditionnelle (Q | l ) est sp ci e par des fonctions dagr gation fusionnant les fonctions de resseme e e l l e blance el mentaires (Q | i ). Chaque (Q | i ) re` te limportance de e l la conformit entre linstance i du terme Ti avec celle de la requ te, Q e e (d nie pr c demment). e e e Le stockage de toutes les congurations possibles des termes de la requ te e est co teux en espace et le temps de calcul crot de mani` re exponentielle u e avec le nombre de termes parents de la requ te. En effet, une requ te, Q e e de domaine binaire, compos e de 20 termes de domaines binaires aussi, e ` n cessite 2 220 calculs de congurations possibles. Mais, il est a noter que e de mani` re g n rale les requ tes des utilisateurs ne d passent pas 3 mots, e e e e e ceci r duit donc le nombre de congurations. Lorsque lutilisateur ne fournit e aucune information sur les op rateurs dagr gation de sa requ te, lunique e e e connaissance disponible est limportance du terme dans la collection. Cette connaissance est disponible pour chaque terme. Nous donnons dans ce qui suit les diff rentes techniques que nous proposons pour agr ger les termes e e de la requ te. e

6.1

Agregation conjonctive

Pour une requ te bool enne, ET, le processus d valuation restitue les doe e e cuments contenant tous les termes de la requ te. Ainsi on pose, e
Q l l (Q | i ) = 1 si i = i

= 0 sinon La possibilit de la requ te Q etant donn e une conguration possible, l , de e e e de tous ses parents est donn e par : e
Q l (Q | l ) = 1 si Ti P ARQ , i = i = 0 sinon

(8)

Dans l quation 8, il faut que chaque terme T i parent de la requ te Q soit e e instanci dans comme dans la requ te. Les documents pertinents pour ce e e type de requ te sont les documents contenant simultan ment tous ses termes. e e Lorsque les termes de la requ te concernent un m me sujet, des documents e e plausiblement ou n cessairement pertinents peuvent etre restitu s. Cepene e dant, plus les termes de la requ te sont nombreux et plus ils traitent de sujets e diff rents, plus il est difcile de restituer des documents. G n ralement, ce e e e type de requ te est trop strict. e

6.2

Agregation disjonctive et quantiee

Pour une requ te bool enne, OU, le document est plus ou moins pertinent e e sil contient au moins un terme dindexation de la requ te. La pertinence e nale dun document augmente avec le nombre de termes de la requ te e pr sents. La disjonction pure est manipul e en remplacant par dans la e e requ te conjonctive (8). e
Q l (Q | l ) = 1 si Ti P ARQ tel que i = i

(9)

= 0 sinon Dans le cas de la disjonction, le syst` me restitue les documents contenant e au moins un terme de la requ te. Cette interpr tation est trop tol rante pour e e e discriminer entre les documents. Un moyen terme entre interpr tation conjonctive et disjonctive est le suivant. e Convenons par exemple quune requ te est satisfaite par un document si elle e contient au moins K termes communs avec le document. Nous consid rons e l une fonction croissante, f ( K( ) ), tel que K( l ) est le nombre de termes de n la requ te instanci s dans une conguration donn e l de P ARQ sachant e e e que la requ te contient n termes. Nous posons f (0) = 0 et f (1) = 1. Par e exemple, f (i/n) = 1 si i = 0 sinon K , n (10)

Pour lagr gation donn e par l quation (10) il faut quau moins K termes e e e de la requ te soient en conformit avec pour s lectionner un document e e e conforme a . ` Dune mani` re g n rale, f peut etre une fonction non bool enne si on rend e e e e le seuil K exible. f est alors un quanticateur ou [40]. Lapproche quanti e pour calculer la possibilit dune requ te Q etant donn e e e e e e une conguration l de tous ses parents, est donn e par : (Q | l ) = f ( K(l ) ) n (11)

6.3

Noisy OR

l En g n ral, les possibilit s conditionnelles (Q | i ) ne sont pas des e e e bool ens mais peuvent d pendre dune evaluation appropri e des termes T i . e e e Les termes pr sents dans la conguration donn e conforme a la requ te sont e e ` e pond r s. La combinaison des termes de la requ te peut etre inspir e du ee e e noisy-Or propos par Pearl [22] pour les r seaux probabilistes. Ce qui e e e e signie que (Q | l ) est evalu e en termes de possibilit s conditionnelles de la forme :

(Q | ti k=i tk )

(12)

Nous supposons lhypoth` se du monde ferm ou Closed World Assumption e e (CWA) : (Q | ti ) = (Q | ti k=i tk ), ce qui permet de se rapprocher de la mod lisation bool enne. Ces evaluations sont combin es en utilisant une e e e somme probabiliste. Alors :
Q l (Q | l ) = 0 si Ti P ARQ tel que i = i

(13)

1 1

Tk P arQ (1

Q l i:i =i (1

(Q | ti )) (Q | tk ))

sinon

Pour pouvoir discriminer entre les documents, plus ce nombre de termes crot, plus limportance des termes instanci s avec la m me valeur que dans e e la requ te crot et plus la pertinence du document aura tendance a crotre. e ` Seuls les termes instanci s positivement de la requ te, T i = ti , apparaissent e e au num rateur. Le num rateur contient les termes de la conguration, dans e e le document en loccurrence, ayant la m me instanciation positive que dans e la requ te. La formule 13 permet de faire crotre la pertinence nale dun e document donn . En effet, le score de pertinence dun document donn crot e e selon le nombre de termes quil contient ayant la m me instanciation (posie tive) que dans la requ te. e Nous rappelons quun des probl` mes majeurs des r seaux Bay siens est e e e lexplosion combinatoire li e aux calculs des probabilit s (ou possibilit s e e e dans notre cas) conditionnelles. Lorsque le nombre de parents ainsi que

leurs domaines augmentent, le nombre de calculs des possibilit s conditione nelles augmente dune mani` re exponentielle. Un avantage majeur de ce type e dagr gation (13) est quil permet de r sorber le probl` me de lexplosion e e e combinatoire li e au calcul des possibilit s conditionnelles. e e La quantication de la pr sence ou labsence dun terme de la requ te e e dans le document peut etre nuanc e. Un terme fr quent dans toute la collec e e tion naugmente pas forc ment la pertinence du document etant donn e la e e requ te. Par contre, un terme sp cique peut apporter une plus-value a cette e e ` pertinence. Ainsi, plus un terme pr sent dans un document est sp cique, e e plus la pertinence du document en r ponse a une requ te qui contient ce e ` e terme augmente. La sp cicit dans la litt rature a et mesur e par la fr e e e e e e quence inverse du terme. Ainsi, on peut l gitimement poser e (Q | ti k=i tk ) = idfi = nidfi logN (14)

N avec idfi = log ni , ni etant le nombre de documents contenant le terme t i et N le nombre de documents de la collection.

6.4

Possibilite a priori des documents

En absence dinformation, la possibilit a priori dun noeud document est e uniforme (dj ) = (dj ) = 1 Notons que cette repr sentation de lignorance est ind pendante de la taille e e du corpus, ce qui contraste avec la repr sentation probabiliste de la m me sie e tuation, qui sera n cessairement biais e. Nous pouvons obtenir des connaise e sances sur les documents etant donn e limportance de ses termes, sa lon e gueur etc. Cette connaissance peut etre donn e par un utilisateur, le prol e utilisateur etc. Si nous sommes int ress s par les documents longs, la possie e bilit a priori dun document instanci a D j = dj devient : e e` (dj ) = lj = nldj maxk=1,..,N lk (15)

avec lj la longueur du document d j en terme de fr quence ; l j = i tfij . e Plus le document est court, moins il est pertinent. Dans tous les cas, (d j ) = 1, si on ne veut pas favoriser le document de mani` re exag r e. e ee

P OND ERATION DES TERMES D INDEXATION

Pour evaluer la pertinence plausible et la pertinence certaine dun docu ment etant donn e une requ te, nous avons besoin dexprimer et de d nir e e e

les autres arcs du r seau. Un arc reliant un noeud terme a un noeud docue ` ment quantie a quel point le terme est repr sentatif de ce document. Une ` e absence darc entre un terme et un document traduit labsence du terme en question dans le document. La repr sentativit des termes est selon notre ape e proche consid r e sous deux angles diff rents mais compl mentaires. Nous ee e e estimons que la combinaison des facteurs tf idf nest pas lunique approche permettant de donner un sens a la repr sentativit dun terme du ` e e contenu informatif dun document donn . Ces deux facteurs sont d nis e e sur des echelles diff rentes. Le premier est en rapport avec les termes du e document quil indexe. Le second facteur d pend des documents de la cole lection quil indexe. Les fr quences des termes dun document donn sont e e int ressantes pour mesurer a quel point un document est exhaustif. La fr e ` e quence inverse permet de mesurer a quel point un terme est sp cique de la ` e collection. Nous voulons attribuer des poids aux termes sans induire de perte dinformation. Lid al serait de traiter s par ment ces deux types dinformae e e tion (sp cicit et/ou exhaustivit ). Dans la litt rature, deux th ories sont e e e e e connues par leur capacit dinterpr ter sous deux angles une information ou e e une hypoth` se. Ces deux th ories sont la th orie de Dempster-Shafer [?] et la e e e th orie des possibilit s. Dans [7], nous montrons que, dans notre probl` me, e e e les r sultats de lune peuvent etre retrouv s par lautre et inversement. Nous e e explicitons dans ce papier la m thode adopt e dans un cadre possibiliste. e e Nous montrons dans ce qui suit les techniques que nous avons adopt es pour e quantier les poids des termes indexant les documents. Nous montrons par la suite les raisonnements suivis pour quantier les termes racines : les termes pr sents dans la requ te et absents dans les documents. e e

7.1

Ponderation des termes indexant les documents

Nous tentons dans notre approche dexprimer de mani` re plus compl` te, e e compar e aux mod` les actuels, la pond ration dun terme. Une unication e e e possible de la notion de repr sentativit serait : la repr sentativit dun e e e e terme par rapport a un document d crirait a quel point le document traite du ` e ` sujet concern par le terme . e De ce fait, dans notre cadre de travail, la th orie des possibilit s, nous dispoe e sons de deux degr s pour evaluer lincertitude des propositions. e Nous basons la n cessaire repr sentativit et la plausible repr sentativit e e e e e dun terme sur les deux postulats suivants : Postulat 1 : Un terme est plus ou moins possiblement repr sentatif du docue ment sil apparat fr quemment dans ce document ; e Postulat 2 : Un terme est plus ou moins n ecessairement repr sentatif du doe cument sil apparat fr quemment dans ce document et rarement dans les e autres documents de la collection. e ` e Dapr` s le P ostulat 1, (ti /dj ) peut etre estim e a partir de la fr quence e

relative tf : (ti /dj ) = ntfij = tfij maxtk dj (tfkj ) (16)

Selon cette evaluation, un terme napparaissant pas dans un document est de poids 0, donc non compatible avec le document. Si son poids vaut 1, alors il apparat avec une fr quence maximale et le terme est possiblement e repr sentatif du document. Ce terme est un bon candidat potentiel pour le e repr senter 2 . Ici, repr sentatif ne doit pas n cessairement etre compris e e e dans le sens g n ral. Il signie, dans ce contexte, utilisable pour restituer ce e e document dans de la collection . Un terme repr sentatif dans le sens g n ral, e e e est un terme qui peut ne pas etre utile, ni dune grande aide pour restituer un document. Supposons un document de la collection qui traite de la logique oue. Le mot oue est tr` s repr sentatif mais est potentiellement non e e utile sil ne caract rise pas le document parmi dautres documents ayant le e m me sujet (traitant du m me domaine). e e Un terme discriminant dans la collection est un terme qui apparat (sou vent) dans peu de documents de la collection. Nous supposons quun terme discriminant est un terme qui est n cessairement repr sentatif dun document e e dans son contexte et donc contribue certainement a le s lectionner parmi ` e dautres documents. Nous d nissons un degr de n cessaire pertinence, ij , e e e dun terme t i pour repr senter un document d j comme un poids de la forme : e ij = 1 N ni 2 (ntfij ) (17)

o` : op rateur produit ; u e 1 , 2 : fonctions de normalisation. Par exemple, 1 fonction logarithmique, 2 fonction identit . Alors : e ij = log(N )
N log ni

ntfij

(18)

Ce degr de n cessaire pertinence sinterpr` te comme la n cessit quun e e e e e terme implique un document et donc aide a restituer ce document. En no` tant limplication mat rielle, on pose donc e N (ti dj ) = ij Puisque, (dj ) = 1 a priori, alors (ti | dj ) = (ti dj ) = 1 N (ti dj ) = 1 ij et (ti | dj ) = 1 (20) (21) (19)

Dans le tableau 1, nous r sumons les possibilit s conditionnelles des termes e e dindexation etant donn e linstanciation du noeud document parent. Les va e
2 A ce stade, nous laissons de c t les relations entre termes, telle que la synonymie par oe exemple.

TAB . 1 Possibilit s conditionnelles (T i | Dj ) e dj dj ti ntfij 1 ij ti 1 1

leurs unit de la seconde ligne permettent de respecter la condition de nore malisation des possibilit s conditionnelles. De plus, si ij = 0 on est dans e lignorance totale quant au terme dans le contexte o` le document nest pas u ` consid r . Si ntf ij = 1, poser (ti | dj ) = 1 permet de rester neutre quant a ee la certitude de pouvoir retrouver ce terme comme repr sentatif du document. e

7.2

Termes racines

Les termes racines sont les termes qui apparaissent dans la requ te mais e pas dans le document. Lors du processus de propagation ces termes sont instanci s par la requ te et notre mod` le tient compte de labsence de ces e e e termes. Ceci est une sp cicit de notre mod` le, car la majorit des mod` les e e e e e de RI ne consid` rent pas explicitement ces termes lors du calcul de la pertie nence document-requ te. e Dans notre approche, un terme discriminant absent du document p nalise e la pertinence de ce document. Nous avons pr sent dans [6] un nouveau face e teur discriminant, not ndf i , utilisant lentropie de Shanon. Ce facteur est e proportionnel a la densit dun terme t i dans les documents de la collection. ` e On pose pij = avec lj =
j

tfij lj tfij

o` pij est en quelque sorte la probabilit de parvenir au document d j par u e e tirage selon la fr quence dapparition du terme t i . On v rie jN pij = 1. e Le facteur ndfi est obtenu par : ndfi =
dj

pij log(pij )
dj

maxtk T

pkj log(pkj )

avec T lensemble des termes de la collection. Notons que ndf i est plus expressif que idf , lequel ne tient compte que de la pr sence ou labsence dun terme dans un document. Limpact de labsence e dun terme de la requ te du document est mesur e dans notre cas par : e e
Q Ti T (Dj ), (i ) =1 si i = ti =1 ndfi sinon

(22)

Un terme uniform ment distribu dans la collection minimise le facteur ndf i e e et inversement, le facteur crot si le terme se concentre dans dans un petit nombre de documents.

E XP ERIMENTATIONS ET R ESULTATS

Lobjectif de ces exp rimentations est de mesurer les performances et la e viabilit de notre approche. Pour ce faire, nous avons utilis la collection de e e tests standard Le Monde 1994 issue du programme CLEF . Elle comporte des articles du journal francais Le Monde. Cette collection est compos e de e 44013 documents et de 40 requ tes, le tout formant 154 MB de donn es. Les e e requ tes sont en fait construites a partir des topics propos s par CLEF. En e ` e voici un exemple : <top> <num> 43</num> <title> El Nino et le temps </title> <desc> Rechercher des documents expliquant le phnom`ne e e El Nino et ses rpercussions sur le temps a lchelle e e plantaire (y compris ses effets sur la temprature, e e la pression atmosphrique, les prcipitations, etc.). e e </desc> <narr> Les documents pertinents doivent contenir des informations sur les effets du phnom`ne El Nino. e e Les interactions entre les ocans et latmosph`re e e terrestre relevant du phnom`ne El Nino sont e e ` prendre en considration. El Nino est a e particuli`rement intressant dans le Pacifique sud, e e car il influence le climat a lchelle plantaire. e e </narr> </top> Ces topics comportent trois champs : titre, description et narrative. Nous avons utilis le champ titre pour construire ces requ tes. A titre indicatif la e e requ te qui soumise a notre syst` me est : El Nino et le temps. Cette requ te e ` e e subit ensuite un certain nombre de transformations habituelles (stemming, suppression des mots vides) identiques a celles effectu es sur les documents. ` e

8.1

Protocole devaluation

L valuation est effectu e selon le protocole T REC. Plus pr cis ment, e e e e chaque requ te est soumise au syst` me de RI avec les param` tres x s. Le e e e e

syst` me renvoie les 1000 premiers documents pour chaque requ te. Les vae e leurs de pr cision a P 5, P 10, .., P r.Ex, P r.M oy sont calcul es. La pr cision e ` e e au point 5, P 5, est le ratio des documents pertinents parmi les 5 premiers documents restitu s. P r.Ex, P r.M oy sont les pr cisions exactes et moyennes e e respectivement [39]. Les param` tres dans notre syst` me repr sentent les ine e e formations consid r es lors du processus de propagation d clench par la ee e e requ te (formule 7). e

8.2

` Le modele optimal

Nous d crivons dans cette section les instanciations prises par les param` tres e e du mod` le optimal, qui a permis dobtenir les meilleures performances. Les e param` tres ont et x s pour ce mod` le tels que d crits dans le tableau 2. e e e e e

TAB . 2 Possibilit s conditionnelles et marginales e (Ti | Dj ) dj dj N oisy Or ti ti ti ntfij 1 ij Q 1 nidfi 1 ti 1 1 (Ti ) T erme racine (Dj ) Longueur des documents dj nlj ti ndfi ti 1 dj 1

Dans le tableau 2 la longueur des documents et le terme racine sont les possibilit s marginales d nies pour les documents ((D j )) et les e e termes racines ((Tk )) respectivement. La repr sentativit dun terme dun e e document est mesur e par la possibilit conditionnelle ((T i | Dj )). Les e e possibilit s conditionnelles ((Q | T i )) des termes de la requ te sont agr g s e e e e par lop rateur du N oisyOr. e La gure 2 pr sente les valeurs des points de pr cision obtenues pour les e e requ tes evalu es. Les pr cisions exacte et moyenne de ce mod` le optimal e e e e sont de 0.3661 et 0.3821 respectivement. Nous remarquons dans la gure 2 que l cart entre les points de pr cision P 5 et P 10 est assez elev come e e par aux ecarts entre les autres points de pr cision pris deux a deux. Une e e ` explication possible est que notre approche, gr ce a cette notion de n cessit a ` e e de pertinence, permet de restituer les meilleurs documents en d but de liste. e Cette approche permet de faire de la haute pr cision . e

8.3

Comparaisons avec OKAP I

Un des apports de notre approche consiste a mod liser dune nouvelle ` e mani` re la pertinence. Cette double mesure de pertinence est cens e aider e e le syst` me dans sa d cision concernant les documents a restituer ainsi que e e `

Basic model precisions


0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 P5 P10 P15 P20 P30 P100 P1000 Pr. Ex PR. Moy

F IG . 2 Performance du mod` le optimal e leur ordre de restitution. Pour ce faire, nous comparons les performances de notre syst` me a un des syst` mes les plus performants actuellement a savoir le e ` e ` syst` me OKAP I (BM25) (BM pour Best Match) [27] 3 . La pertinence dun e document vis a vis dune requ te est calcul e dans OKAP I comme suit : ` e e RSV (Q, d) = N n + 0.5 tfd (k1 + 1) log ld n + 0.5 k1 ((1 b) + b ld ) + tfd tfQ (k2 + 1) k2 tfQ avec : tfd(Q) : fr quence du terme dans le document (resp. requ te), l d : la longueur e e e du document d ; l d = iL tf , les auteurs ont aussi propos de mesurer en octets les longueurs des documents ; N : nombre de documents dans la collection, n nombre de documents contenant le terme t, l d : la longueur moyenne des documents, b = 0.75, k 2 = 8, k1 = 2, k2 = 8, b = 0.75 ; Une premi` re constatation au vu des points de pr cision est que notre e e syst` me obtient de meilleures performances. Nous pr sentons un comparatif e e des points de pr cision dans la gure 3. e Nous remarquons une nette am lioration des performances par rapport aux e documents restitu s en haut de liste. En effet, au vu de ces r sultats, il est e e clair que les valeurs des points de pr cisions P 5, .., P 20 obtenues par notre e syst` me sont plus elev es. Nous obtenons une am lioration de plus de 14% e e e pour la pr cision a 5 (P 5). Dune mani` re g n rale, comme pr sent dans e ` e e e e e le tableau 3, les pr cisions P 5, .., P 20 obtenues par lutilisation de notre e
3 La

(23)

comparaison a et effectu e en utilisant sur notre index la formule BM 25. e e

F IG . 3 Comparatif des deux syst` mes : Possibiliste et OKAPI e

approche sont sup rieures de plus de 5% au mod` le OKAP I. e e

TAB . 3 Pourcentage dam lioration de notre approche compar e a lape e ` proche probabiliste PiP robabiliste PiP ossibiliste %Am P5 0, 38 0, 44 16, 91 P10 0, 31 0, 34 7, 43 P15 0, 27 0, 29 4, 95 P20 0, 24 0, 27 11, 47 P30 0, 20 0, 22 6, 15 P100 0, 09 0, 10 4, 53 P1000 0, 01 0, 01 2, 05 P r.M oy 0, 35 0, 38 8, 02

PiP ossibiliste et PiP robabiliste d signent la pr cision au point P i obtenues e e respectivement par notre approche et celle dOKAP I. La pr cision moyenne e obtenue par notre syst` me est sup rieure de plus de 8% que celle obtenue e e par OKAP I. Nous remarquons aussi que laugmentation des nombres de documents restitu s d crot les pr cisions de lapproche possibiliste. Parmi e e e les requ tes evalu es par les 2 syst` mes, le syst` me possibiliste am liore e e e e e les pr cisions a 5 (P 5) de 14 dentre elles, et obtient les m mes valeurs e ` e pour 13 dentre elles. Le syst` me OKAP I obtient de meilleures valeurs e P 5 pour 7 dentre elles. Intuitivement, notre approche de classement des documents restitu s en r ponse a une requ te utilisateur semble au vu de ces e e ` e r sultats int ressante. Le d coupage entre les documents certainement e e e (ou n cessairement) pertinents et possiblement pertinents permet de classer e les meilleurs documents en haut de la liste.

C ONCLUSIONS ET PERSPECTIVES

Nous pr sentons dans ce papier une nouvelle approche de recherche dine formation utilisant les r seaux possibilistes. Dune mani` re g n rale, la mee e e e sure de possibilit permet de ltrer les documents de la liste des documents e restitu s et la mesure de n cessit permet de donner des raisons de pointer e e e vers un sous-ensemble de documents a restituer. Loriginalit de ce travail ` e r side dans le traitement des connaissances disponibles, a savoir la s paration e ` e entre les deux notions de repr sentativit des termes dindexation (locale e e dans le contexte du document et globale dans le contexte de la collection) ainsi que la prise en compte de deux variantes de la pertinence. Les exp rie mentations sur la collection Le Monde 1994 sav` rent tr` s encourageants. e e Les perspectives a court terme concernent lextension de ce mod` le aux do` e cuments XML, ainsi que la prise en compte des relations de d pendance e existant entre les termes dindexation et les documents.

R EF ERENCES
[1] R.A. Baeza-Yates et B.A. Ribeiro-Neto. Modern information retrieval. ACM Press / Addison-Wesley, 1999. [2] S. Benferhat, D. Dubois, L. Garcia et H. Prade. Possibilistic logic bases and possibilistic graphs. In Proc. of the Conference on Uncertainty in Articial Intelligence, pages 5764, 1999. [3] A. Bookstein et D.R. Swanson. Probabilistic models for automatic indexing. Journal of the American Society for Information Science (JASIS), 25 :312318, 1974. [4] C. Borgelt, J. Gebhardt et R. Kruse. Possibilistic graphical models. Computational Intelligence in Data Mining, Courses and Lectures 408, Springer, Wien, 26 :5168, 2000. [5] A.H. Brini et M. Boughanem. Relevance feedback : introduction of partial assessments for query expansion. In Proc. of the Conference of the european Society for Fuzzy Logic and Technology, (EUSFLAT), pages 6772, 2003. [6] A.H. Brini, M. Boughanem et D. Dubois. A model for information retrieval based on possibilistic networks. In Proc. of the symposium on String Processing and Information REtrieval (SPIRE 2005), LNCS, Springer, pages 271282, 2005. [7] Asma H. Brini. un mod ele de recherche dinformation bas e sur les ` r seaux possibilsites. Th` se de doctorat, Universit de Toulouse III, e e e Universit Paul Sabatier (UPS), 2005. e [8] P.D. Bruza et L.C. van der Gaag. Index expression belief networks for information disclosure. International Journal of Expert Systems, 7(2) :107138, 1994.

[9] S.B. Cousins, J.C. Silverstein et M.E. Frisse. Query networks for medical information retrievalassigning probabilistic relationships. In Proc. of the Symposium on Computer Applications in Medical Care (UWSIG), pages 803807. IEEE Computer Society Press, 1991. [10] F. Crestani, L.M. de Campos, J.M. Fern ndez-Luna et J.F. Huete. A a multi-layered bayesian network model for structured document retrieval. In Proc. of the 7th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU), pages 7486, 2003. [11] W. Croft et H. R. Turtle. Text retrieval and inference. Text-Based Intelligent Systems. Current Research and Practice in Information Extraction and Retrieval, pages 127155, 1992. [12] L.M. de Campos, J.M. Fern ndez-Luna et J.F. Huete. Query expansion a in information retrieval systems using a bayesian network-based thesaurus. In Proc. of the Uncertainty in Articial Intelligence Conference (UAI), pages 5360, 1998. [13] D. Dubois et H. Prade. Possibility Theory. Plenum, 1988. [14] N. Fuhr. Probabilistic models in information retrieval. The Computer Journal, 35(3) :243255, 1992. [15] N. Fuhr. Language models and uncertain inference in information retrieval, 2001. In Proc. of the Language Modeling and IR workshop. [16] R. M. Fung et B. Del Favero. Applying bayesian networks to information retrieval. Communications of the ACM (CACM), 38(3) :4248, 1995. [17] S.P. Harter. A probabilistic approach to automatic keyword indexing. part ii. an algorithm for probabilistic indexing. Journal of the American Society for Information Science (JASIS), 35(3) :280289, 1975. [18] D. Hiemstra et W. Kraaj. Twenty-one at trec-7 : Ad hoc and cross language track. In Proc. of the Text REtrieval Conference (TREC-7), pages 227238, 1998. [19] J. Kek l inen et K. J rvelin. Evaluating information retrieval systems aa a under the challenges of interaction and multidimensional dynamic relevance. In Bruce, H., Fidel, R., P. Ingwersen, P. Vakkari, eds. Emerging Frameworks and Methods, Seattle, Colerado : Libraries Unlimited, pages 253270, 2002. [20] J. Lafferty et C. Zhai. Probabilistic relevance models based on document and query generation., volume 13. Kluwer Academic, 2003. [21] M. Maron et J. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machinery, 7 :pages 216244, 1960. [22] J. Pearl. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann San Mateo, Ca, 1988.

[23] J. M. Ponte et W. B. Croft. A language modeling approach to information retrieval. research and development in information retrieval. In Proc. of the International ACM-SIGIR Conference, pages 275281. Proc. of the International ACM-SIGIR Conference, 1998. [24] B. Ribeiro-Neto et R. R. Muntz. A belief network model for ir. In Proc. of the International ACM-SIGIR Conference, pages 253260, 1996. [25] C.J. Van Rijsbergen. Information Retrieval. Butterworth-Heinemann, Newton, MA, 1979. [26] S.E. Robertson, C.J. van Rijsbergen et M.F. Porter. Probabilistics models of indexing and searching. Information retrieval research, (Ed. W.R. Oddy et al), London :Butteworths, pages 3665, 1981. [27] S.E. Robertson et S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. In Proc. of the International ACM-SIGIR Conference, pages 232241, 1994. [28] G. Salton. The Smart retrieval system-experiments. Automatic Document Processing, Prentice Hall Inc, 1971. [29] G. Salton. Syntactic approaches to automatic book indexing. In Proc. of the annual meeting on Association for Computational Linguistics (ACL), pages 204210. Department of Computer Science, Cornell University, Ithaca, New York, 1988. [30] G. Salton et C. Buckley. Term-weighting approaches in automatic text retrieval. Information Processing & Management (IPM), 24(5) :513 523, 1988. [31] G. Salton et M. J. McGill. Introduction to Modern Information Retrieval. McGraw-Hill, 1983. [32] G. Salton et C.S. Yang. On the specication of term values in automatic indexing. In Journal of Documentation, (29) :351372, 1973. [33] T. Saracevic. Relevance reconsidered. In Information science : Integration in perspectives, pages 201218. Proc. of the Conference on Conceptions of Library and Information Science, 1996. [34] I. Silva, B. A. Ribeiro-Neto, P. Calado, E.S. de Moura et N. Ziviani. Link-based and content-based evidential information in a belief network model. In Proc. of the International ACM-SIGIR Conference, pages 96103, 2000. [35] A. Singhal, C. Buckley et M. Mitra. Pivoted document length normalization. Proc. of the International ACM-SIGIR Conference, 32(2) :21 29, 1996. [36] H. R. Turtle et W. B. Croft. Evaluation of an inference network-based retrieval model. ACM Transaction on Information Systems, 9(3) :7187 222, 1991. [37] H.R. Turtle et W.B. Croft. Inference networks for document retrieval. In Proc. of the International ACM-SIGIR Conference, pages 124, 1990.

[38] C. J. van Rijsbergen. A non-classical logic for information retrieval. In Computer Journal, 29(6) :481485, 1986. [39] Ellen M. Voorhees et Donna Harman. Overview of the ninth text retrieval conference (trec-9). In TREC, 2000. [40] R. R. Yager et H. L. Larsen. Retrieving information by fuzzication of queries. Journal of Intelligent Information Systems, 2(4) :106119, 1993. [41] L. A. Zadeh. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1 :328, 1978.

Anda mungkin juga menyukai